Herausgeber: Prof. Dr. Holger Dette • Prof. Dr. Wolfgang Härdle
Statistik und ihre Anwendungen
Azizi Ghanbari, S. Einführung in die Statistik für Sozial- und Erziehungswissenschaftler 2002 Brunner, E.; Munzel, U. Nichtparametrische Datenanalyse 2003 Dehling, H.; Haupt, B. Einführung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage 2004 Dümbgen, L. Stochastik für Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, J.; Härdle, W.; Hafner, C. Statistik der Finanzmärkte 2. Auflage 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Mulitvariate Analysemethoden 2003 Hilgers, R.-D.; Bauer, R.; Scheiber, V. Einführung in die Medizinische Statistik 2003 Kohn, W. Statistik Datenanalyse und Wahrscheinlichkeitsrechnung 2005 Ligges, U. Programmieren mit R 2005 Meintrup, D.; Schäffler, S. Stochastik Theorie und Anwendungen 2005 Plachky, D. Mathematische Grundbegriffe der Stochastik 2002 Schumacher, M.; Schulgen, G. Methodik klinischer Versuche 2002 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004
David Meintrup Stefan Schäffler
Stochastik Theorie und Anwendungen
123
David Meintrup Stefan Schäffler Universität der Bundeswehr München Institut für Mathematik und Datenverarbeitung 85577 Neubiberg e-mail:
[email protected] e-mail:
[email protected]
Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
Mathematics Subject Classification (2000): 60-01, 62-01, 28-01
ISBN 3-540-21676-6 Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten . Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2005 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandgestaltung: design & production, Heidelberg Datenerstellung durch den Autor unter Verwendung eines Springer LaTEX-Makropakets Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Gedruckt auf säurefreiem Papier 40/3142YL - 5 4 3 2 1 0
f¨ ur B´eatrice und Werner
f¨ ur Dorothea, Christoph, Regina, Stefanie und Johanna
Vorwort
Wahrscheinlichkeitstheorie und Statistik bilden die zwei S¨aulen der Stochastik. Beide Gebiete besch¨ aftigen sich mit Situationen, die vom Zufall beeinflusst werden. Daher bezeichnet man die Stochastik auch als die Mathematik des Zufalls. Dies erscheint zun¨ achst widerspr¨ uchlich, zeichnet sich der Zufall doch dadurch aus, dass er nicht berechenbar ist. Es ist gerade die Aufgabe der Stochastik, eine formale Sprache und Methoden zur Verf¨ ugung zu stellen, mit denen die Gesetzm¨ aßigkeiten hinter zuf¨alligen Ph¨anomenen beschrieben und analysiert werden k¨ onnen. Die Wahrscheinlichkeitstheorie u ¨bernimmt dabei die Modellbildung sowie die Untersuchung dieser Modelle, w¨ahrend in der mathematischen Statistik auf den Modellen der Wahrscheinlichkeitstheorie aufbauend versucht wird, durch Beobachtung auf Gesetzm¨aßigkeiten zu schließen. Die Wahrscheinlichkeitstheorie hat sich dabei zu einem Teilgebiet der Mathematik entwickelt, das sich in seiner mathematischen Pr¨azision nicht von anderen Gebieten der theoretischen Mathematik unterscheidet. Das gleiche gilt sicher auch f¨ ur die Theoretische Statistik. Daneben gibt es die weniger rigorose statistische Datenanalyse, deren statistische Rezepte z.B. u ¨ber Computerprogramme weite Verbreitung gefunden haben. Zielsetzung Das vorliegende Buch soll als Einf¨ uhrung in die Ideen, Methoden und Ergebnisse der Wahrscheinlichkeitstheorie und Statistik dienen. Wir haben uns dabei von zwei Grundgedanken leiten lassen. Zum einen gibt es viele B¨ ucher, die entweder mit klassischen Resultaten der Wahrscheinlichkeitstheorie, wie dem zentralen Grenzwertsatz oder den Gesetzen der großen Zahlen, enden oder aber auf einem hohen Niveau mit der Theorie stochastischer Prozesse beginnen. Wir haben uns bem¨ uht, diese L¨ ucke ein wenig zu schließen, indem wir an die Wahrscheinlichkeitstheorie eine ebenso umfangreiche Einf¨ uhrung in die Theorie stochastischer Prozesse angeschlossen haben. Dabei haben wir versucht, das Tempo gering und den Grad der Ausf¨ uhrlichkeit der Darstellung hoch zu halten. Dies erm¨ oglicht hoffentlich einen problemlosen und z¨ ugigen
VIII
Vorwort
¨ Ubergang zur dynamischen Welt der stochastischen Prozesse und ihren interessanten Anwendungen. Zum anderen zeichnet sich die Stochastik dadurch aus, dass ihre Methoden in vielen Anwendungen außerhalb der Mathematik, z.B. in der Biologie, Physik oder in den Ingenieurwissenschaften, ben¨ otigt werden. Diesem Aspekt der Stochastik tragen wir durch ausf¨ uhrliche Darstellungen einiger Anwendungen Rechnung. Entsprechend richtet sich unser Buch an alle, die in ihrem Studium oder in der Praxis mit stochastischen Fragestellungen konfrontiert werden. Aufbau Der Inhalt dieses Buches ist in f¨ unf Teile gegliedert. Wir beginnen in Teil I mit einer kompakten Darstellung der Maßtheorie, die f¨ ur die Entwicklung der Wahrscheinlichkeitstheorie ben¨ otigt wird. Wir sind davon u ¨berzeugt, dass Grundkenntnisse der Maßtheorie eine unverzichtbare Basis f¨ ur einen systematischen Aufbau der Wahrscheinlichkeitstheorie sind. Im ersten Kapitel f¨ uhren wir, durch das Maßproblem motiviert, Mengensysteme und Maße ein. Im zweiten Kapitel steht das Lebesgue-Integral mit seinen Eigenschaften im Zentrum der Untersuchung. Teil II des Buches widmet sich den klassischen Methoden und Resultaten der Wahrscheinlichkeitstheorie. Die Kapitel 3, 4 und 5 besch¨ aftigen sich mit Wahrscheinlichkeitsr¨ aumen, Zufallsvariablen und stochastischer Unabh¨ angigkeit, den wichtigsten Grundbegriffen der Wahrscheinlichkeitstheorie. Im 6. Kapitel behandeln wir die 0-1-Gesetze f¨ ur terminale und f¨ ur symmetrische Ereignisse, die Gesetze der großen Zahlen sowie das Drei-Reihen-Theorem. Der zentrale Grenzwertsatz ist Ziel des Kapitels 7, f¨ ur dessen Beweis wir das Konzept der schwachen Konvergenz und charakteristische Funktionen einf¨ uhren. Der zweite Teil endet mit der Darstellung bedingter Erwartungen in Kapitel 8, die sowohl f¨ ur die Theorie stochastischer Prozesse als auch f¨ ur die Statistik ben¨ otigt werden. Die Teile III und IV k¨ onnen unabh¨ angig voneinander gelesen werden, sie bauen jeweils auf dem zweiten Teil auf. Der dritte Teil beginnt mit zwei konkreten Klassen stochastischer Prozesse, den Markov-Ketten (Kapitel 9) und den Poisson-Prozessen (Kapitel 10). Anschließend f¨ uhren wir zeitdiskrete (Kapitel 11) und zeitstetige Martingale (Kapitel 13) ein. Im dazwischen liegenden Kapitel 12 behandeln wir die Eigenschaften der Brownschen Bewegung, die als Musterprozess f¨ ur fast jede f¨ ur uns relevante Klasse zeitstetiger Prozesse dient. Den Abschluss des dritten Teils bilden in Kapitel 14 die Itˆ o-Integrale, also spezielle stochastische Integrale mit der Brownschen Bewegung als Integrator. In Teil IV, der mathematischen Statistik, behandeln wir in den Kapiteln 15 und 16 die Sch¨ atztheorie und die Testtheorie. Das Kapitel 17 stellt die Theorie linearer Modelle dar.
Vorwort
IX
Anwendungen Fast jedes Kapitel endet mit einem Abschnitt, der sich ganz einer Anwendung widmet. Im Gegensatz zu den u ¨brigen Abschnitten haben wir bei der Darstellung der Anwendungen zum Teil auf Beweisf¨ uhrungen verzichtet. So hoffen wir, mit den Anwendungen aus verschiedenen Gebieten, z.B. der Nachrichtentechnik, der Finanzmathematik oder der Physik, zwei Ziele zu erreichen: Zum einen bieten sie eine M¨ oglichkeit, den theoretischen Aufbau f¨ ur einige Seiten zu unterbrechen und die Theorie in praktischen Anwendungen arbeiten zu sehen. Zum anderen wollen wir damit unterstreichen, wie wichtig die Stochastik nicht nur innerhalb der Mathematik, sondern auch f¨ ur zahlreiche andere Wissenschaften ist. Die Anh¨ ange In Teil V haben wir die Anh¨ ange zusammengefasst. Unsere Erfahrung hat uns gezeigt, dass Existenzbeweise in gleichem Maße unbeliebt wie (f¨ ur Mathematiker) unverzichtbar sind. Daher haben wir die zentralen Existenzaussagen in Anhang A dargestellt. So ist es m¨ oglich, die Existenzaussagen einfach zu akzeptieren und diesen Anhang zu ignorieren. Der Anhang B enth¨alt eine kurze Zusammenstellung der ben¨ otigten Resultate aus der Funktionalanalysis, der Anhang C einige Wertetabellen. Die am h¨ aufigsten verwendeten Resultate sind im Text in Kapit¨ alchen gedruckt. Diese Ergebnisse werden so oft ben¨ otigt, dass sie sich mit der Zeit von selbst einpr¨ agen. Bis dahin haben wir sie zum schnellen Nachschlagen in Anhang D zusammengestellt. Literaturhinweise Wie in Lehrb¨ uchern der Mathematik u ¨blich, haben wir im Text fast vollst¨andig auf Literaturhinweise und Quellennachweise verzichtet. Selbstverst¨andlich haben wir jedoch von zahlreichen Autoren profitiert. Daher geben wir in Anhang E Literaturhinweise. Wir nennen zum einen diejenigen Quellen, an denen wir uns vorwiegend orientiert haben. Zum anderen geben wir Hinweise f¨ ur eine erg¨ anzende, begleitende oder vertiefende Lekt¨ ure. Dabei handelt es sich nur um eine kleine subjektive Auswahl aus der sehr großen Zahl von Ver¨ offentlichungen auf dem Gebiet der Stochastik. Danksagung Herzlich bedanken m¨ ochten wir uns bei allen, die durch Anregungen, Korrekturen und Diskussionen sowie durch wiederholte detaillierte Durchsicht des Manuskripts erheblich zum Gelingen dieses Buches beigetragen haben. Unser Dank gilt insbesondere den Herren C. Bree, G. M. Meyer, D. Peithmann und R. Stamm. Sicher ist es uns nicht gelungen, alle Fehler zu erkennen und alle
X
Vorwort
Anregungen umzusetzen. Wir freuen uns daher u ¨ber jeden Verbesserungsvorschlag und jeden Hinweis auf Corrigenda. Schließlich danken wir Herrn C. Heine und dem Springer-Verlag sehr herzlich f¨ ur die stets reibungslose und sehr angenehme Zusammenarbeit.
M¨ unchen, im Mai 2004
David Meintrup Stefan Sch¨ affler
Inhaltsverzeichnis
Teil I Maßtheorie 1
Grundlagen der Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 Das Maßproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Messbare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2
Das 2.1 2.2 2.3 2.4 2.5
Lebesgue-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lebesgue-Integral und Konvergenzs¨ atze . . . . . . . . . . . . . . . . . . . . Vergleich von Riemann- und Lebesgue-Integral . . . . . . . . . . . . . . Der Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Norm-Ungleichungen und Lp -Konvergenz . . . . . . . . . . . . . . . . . . . Der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27 27 37 42 45 49
Teil II Wahrscheinlichkeitstheorie 3
Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Die Axiomatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Diskrete Wahrscheinlichkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Anwendung Physik: Quantum Computation . . . . . . . . . . . . . . . .
57 57 62 68 77
4
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.2 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.3 Mehrdimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.4 Anwendung Finanzmathematik: Value at Risk . . . . . . . . . . . . . . 113
XII
Inhaltsverzeichnis
5
Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.2 Stochastische Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.3 Summen und Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.4 Anwendung Nachrichtentechnik: Decodierung . . . . . . . . . . . . . . . 132
6
Folgen und Reihen unabh¨ angiger Zufallsvariablen . . . . . . . . . . 143 6.1 0-1-Gesetze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 6.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 6.3 Das Drei-Reihen-Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.4 Anwendung Informationstheorie: Datenkompression . . . . . . . . . . 165
7
Der 7.1 7.2 7.3 7.4 7.5
8
Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 8.1 Definition, Existenz und Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . 215 8.2 Eigenschaften bedingter Erwartungen . . . . . . . . . . . . . . . . . . . . . . 219
zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Anwendung Nachrichtentechnik: Mobilfunkkan¨ale . . . . . . . . . . . . 209
Teil III Stochastische Prozesse 9
Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 ¨ 9.1 Ubergangswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 9.2 Erweiterungen der Markov-Eigenschaft . . . . . . . . . . . . . . . . . . . . . 235 9.3 Klassifikation von Zust¨ anden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 9.4 Stationarit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 9.5 Grenzverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 9.6 Anwendung Biologie: Ein Populationsmodell . . . . . . . . . . . . . . . . 263
10 Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 10.1 Terminologie stochastischer Prozesse . . . . . . . . . . . . . . . . . . . . . . . 267 10.2 Definition des Poisson-Prozesses . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 10.3 Konstruktionen rund um den Poisson-Prozess . . . . . . . . . . . . . . . 283 10.4 Nichthomogene Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 292 10.5 Anwendung Versicherungsmathematik: Ruinwahrscheinlichkeit 296 11 Zeitdiskrete Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 11.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 11.2 Gleichgradige Integrierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 11.3 Stoppzeiten und Stopps¨ atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 11.4 Konvergenz von Martingalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Inhaltsverzeichnis
XIII
11.5 Das Optional Sampling Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . 329 11.6 Anwendung Regelungstechnik: Stochastische Filter . . . . . . . . . . . 334 12 Brownsche Bewegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 12.1 Brownsche Bewegung und Gauß-Prozesse . . . . . . . . . . . . . . . . . . . 341 12.2 Konstruktionen rund um die Brownsche Bewegung . . . . . . . . . . 346 12.3 Pfadeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 12.4 Die starke Markov-Eigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 12.5 Anwendung numerische Mathematik: Globale Minimierung . . . 367 13 Zeitstetige Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 13.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 13.2 Stopps¨atze in stetiger Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 13.3 Brownsche Bewegung und Martingale . . . . . . . . . . . . . . . . . . . . . . 380 13.4 Konvergenz von Martingalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 13.5 Anwendung Finanzmathematik: Preisformeln . . . . . . . . . . . . . . . 392 14 Itˆ o-Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 14.1 Stieltjes-Integrale und Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 14.2 Das Itˆo-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 14.3 Lokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 14.4 Die Itˆ o-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 14.5 Anwendung Mikroelektronik: Schaltkreissimulation . . . . . . . . . . 448
Teil IV Mathematische Statistik 15 Sch¨ atztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 15.1 Das statistische Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 15.2 Suffizienz und Vollst¨ andigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 15.3 Das Maximum-Likelihood-Verfahren . . . . . . . . . . . . . . . . . . . . . . . 464 15.4 Bayes-Sch¨ atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 15.5 Anwendung Nachrichtentechnik: Wortfehleroptimale Decodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 16 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 16.1 Das Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 16.2 Einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 16.3 Nichtparametrische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 16.4 Anwendung medizinische Biometrie: Arzneimittelpr¨ ufung . . . . . 504 17 Lineare statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 17.1 Das lineare Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 17.2 Kleinste-Quadrate-Sch¨ atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 17.3 Normalverteilte Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
XIV
Inhaltsverzeichnis
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
Teil V Anhang A
Existenzaussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 A.1 Das Lebesgue-Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 A.2 Existenz von Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 A.3 Ein Existenzsatz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 555 A.4 Brownsche Bewegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
B
aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 Lp -R¨
C
Wertetabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577 C.1 Verteilung der Standardnormalverteilung . . . . . . . . . . . . . . . . . . . 577 C.2 Quantile der t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 C.3 Quantile der χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579
D
Wahrscheinlichkeitstheorie zum Nachschlagen . . . . . . . . . . . . . 581
E
Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 Symbolverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
Teil I
Maßtheorie
1 Grundlagen der Maßtheorie
Kenntnisse der Maßtheorie bilden eine unverzichtbare Grundlage f¨ ur jede systematische Darstellung der Wahrscheinlichkeitstheorie, ebenso wie f¨ ur andere mathematische Disziplinen. Dar¨ uber hinaus ist die Maßtheorie selbst ein interessantes Studienobjekt, zu dem es ein breites Angebot an Literatur gibt. Wir haben versucht, eine kurze, aber f¨ ur unsere Zwecke dennoch vollst¨andige Einf¨ uhrung in diejenigen Ideen und Resultate der Maßtheorie zu geben, die im weiteren Verlauf ben¨ otigt werden. F¨ ur eine ausf¨ uhrliche und exzellente Darstellung dieses Gebiets empfehlen wir das Buch von Elstrodt [Els02].
1.1 Das Maßproblem Dieser erste Abschnitt dient nur der Motivation f¨ ur die Entwicklung der Maßtheorie. Die systematische Darstellung beginnt mit dem n¨achsten Abschnitt. Unsere Intuition Die Begriffe Fl¨ ache und Volumen scheinen uns auf den ersten Blick vertraut. Jeder von uns hat eine intuitive, im Alltag bew¨ahrte Vorstellung davon, was man unter einer Fl¨ ache bzw. dem Volumen eines K¨orpers zu verstehen hat. Dies ging den Mathematikern Jahrhunderte lang nicht anders. Daher ist es nicht verwunderlich, dass eine pr¨ azise Formulierung erst verh¨altnism¨aßig sp¨at, etwa zu Beginn des 20. Jahrhunderts, entstanden ist. Wichtige Beitr¨age kamen insbesondere von den Mathematikern Borel und Lebesgue, deren Namen wir daher an den entscheidenden Stellen der Maß- und Integrationstheorie wiederfinden werden. Was sind nat¨ urliche Forderungen, die wir an eine sinnvolle Verwendung des Begriffs Volumen stellen w¨ urden? Wir notieren diese: (i) Einem 3-dimensionalen Gebilde wird eine nichtnegative Zahl zugeordnet, sein Volumen.
4
1 Grundlagen der Maßtheorie
(ii) Zwei kongruente“, also ohne Verformung aufeinander passende Gebilde ” haben das gleiche Volumen. (iii) Besteht ein Gebilde aus mehreren Einzelgebilden, so ist das Volumen des Gebildes gerade die Summe der Volumina der Einzelgebilde. Formalisierung Wir wollen diese intuitiven Forderungen formalisieren, d.h. mathematisch pr¨azise beschreiben. Die Gebilde fassen wir als Teilmengen der R3 auf, die Potenzmenge bezeichnen wir mit P(R3 ) = {A : A ⊂ R3 }. Forderung (i) bedeutet, dass wir eine Funktion ι : P(R3 ) → [0, ∞], A → ι(A) suchen, die einer Teilmenge A ihr Volumen ι(A) zuordnet. Um z.B. den Fl¨ acheninhalt einer Fl¨ ache gleich mit zu behandeln, betrachten wir das Problem in allen Dimensionen n ∈ N: ι : P(Rn ) → [0, ∞], A → ι(A). Um die zweite Forderung zu formalisieren, m¨ ussen wir den Begriff der Kongruenz definieren: Definition 1.1 (Kongruenz). Zwei Mengen A, B ∈ P(Rn ) heißen kongruent, falls es eine orthogonale Matrix U ∈ Rn,n und einen Vektor v ∈ Rn gibt, so dass mit U (A) + v := {U x + v : x ∈ A} gilt: B = U (A) + v. Die orthogonale Matrix U bewirkt dabei eine Drehung, der Vektor v eine Verschiebung der Menge A. Zusammen bewegen sie die Menge A durch den Raum Rn , wie in Abbildung 1.1 veranschaulicht.
Mit dieser Definition k¨ onnen wir Forderung (ii) f¨ ur die Funktion ι : P(Rn ) → [0, ∞] formulieren: ι(A) = ι(B), falls A und B kongruent sind. Diese Eigenschaft heißt nahe liegender Weise Bewegungsinvarianz. F¨ ur die Formalisierung der dritten Forderung erinnern wir daran, dass zwei Teilmengen A und B disjunkt heißen, wenn A ∩ B = ∅ gilt. Damit erhalten wir als weitere Forderung an unsere Funktion:
1.1 Das Maßproblem
5
1 1
1
,e e , e e , e e , 1 1 e e , e e , e e e B , ,v e , , e , , e , , e , , e, ,
1
A
U = ˆ Drehung v= ˆ Translation
Abbildung 1.1. Kongruente Teilmengen A und B
ι(A ∪ B) = ι(A) + ι(B), falls A und B disjunkt sind. Formal gen¨ ugt die Nullfunktion ι(A) = 0 f¨ ur alle A ∈ P(Rn ) all unseren Anforderungen. Um diese auszuschließen, f¨ ugen wir eine letzte Forderung hinzu: Das Einheitsintervall [0, 1] soll die L¨ ange 1 haben, das Einheitsquadrat [0, 1]2 die Fl¨ ache 1, etc.: ι([0, 1]n ) = 1. Das Inhaltsproblem Fassen wir das Ergebnis unserer Formalisierungen zusammen, so erhalten wir folgende Fragestellung, die als klassisches Inhaltsproblem bekannt ist: Problem 1.2 (Inhaltsproblem). Gesucht ist eine Inhaltsfunktion“ ι : ” P(Rn ) → [0, ∞] mit folgenden Eigenschaften: (i) Endliche Additivit¨ at: Sind A, B ∈ P(Rn ) disjunkt, so ist ι(A ∪ B) = ι(A) + ι(B). (ii) Bewegungsinvarianz : Sind A, B ∈ P(Rn ) kongruent, so ist ι(A) = ι(B). (iii) Normiertheit: ι([0, 1]n ) = 1. Die Frage nach der L¨ osbarkeit des Inhaltsproblems hat zu h¨ochst merkw¨ urdig erscheinenden Resultaten gef¨ uhrt. Die Antwort ist zun¨achst die folgende: Satz 1.3. Das Inhaltsproblem 1.2 ist f¨ ur n = 1 und n = 2 l¨ osbar, aber nicht eindeutig l¨ osbar, und f¨ ur n ≥ 3 unl¨ osbar.
6
1 Grundlagen der Maßtheorie
Einen Beweis dieses Satzes findet man bei [Wag85]. Im Klartext bedeutet dies, dass unsere ganz nat¨ urlich erscheinenden Forderungen an eine Volumenfunktion bereits zu einem unl¨ osbaren Problem gef¨ uhrt haben. Am deutlichsten kommt die Unl¨ osbarkeit des Inhaltsproblems f¨ ur den R3 in dem folgenden Paradoxon zum Vorschein: Satz 1.4 (Banach-Tarski-Paradoxon, 1924). Seien A und B beschr¨ ankte Teilmengen des R3 und das Innere von A sowie das Innere von B nicht leer, so existieren eine nat¨ urliche Zahl m und paarweise disjunkte Mengen Ai ⊂ R3 , i = 1, . . . , m sowie paarweise disjunkte Mengen Bi ⊂ R3 , i = 1, . . . , m, so dass gilt: A=
m i=1
Ai ,
B=
m
Bi ,
i=1
ur alle i = 1, . . . , m. und Ai ist kongruent zu Bi f¨ Einen Beweis des Banach-Tarski-Paradoxons findet man ebenfalls in [Wag85]. Diese Aussage verdient wahrlich die Bezeichnung Paradoxon, erscheint sie auf den ersten Blick doch v¨ ollig absurd. Es wird darin behauptet, man k¨onne eine Kugel vom Radius 1 so in endlich viele St¨ ucke zerlegen und diese wieder zusammen legen, dass dabei 1000 Kugeln vom Radius 1000 entstehen. Die einzelnen Teile sind jedoch nicht konstruktiv bestimmbar, man kann nur ihre Existenz aus dem Auswahlaxiom ableiten. Paradoxien dieser Art entstehen durch die Betrachtung von Mengen mit unendlich vielen Elementen. Eine vergleichbare Situation entsteht bei der Untersuchung von M¨achtigkeiten. Die ganzen Zahlen Z und die nat¨ urlichen Zahlen N sind gleich m¨achtig, obwohl N eine echte Teilmenge von Z ist und die Differenz Z \ N wiederum die M¨ achtigkeit von Z besitzt. Das Maßproblem Obwohl es zun¨ achst sinnlos erscheint, da bereits das Inhaltsproblem nicht l¨ osbar ist, wollen wir eine unserer Forderungen noch versch¨arfen. Es wird sich in der sp¨ ateren Theorie herausstellen, dass diese Versch¨arfung nicht zu echten Einschr¨ ankungen f¨ uhrt, f¨ ur den Aufbau einer starken Theorie jedoch unabdingbar ist. Wir bringen dazu den Gedanken der Approximation ins Spiel. Nehmen wir an, wir wollten den Fl¨ acheninhalt einer krummlinig begrenzten Fl¨ache bestimmen. Eine M¨ oglichkeit besteht darin, den Fl¨acheninhalt durch disjunkte Rechtecke Ai zu approximieren, wie in Abbildung 1.2 dargestellt. Nehmen wir immer mehr Rechtecke, die immer feiner die gegebene Fl¨ache abdecken, so sagt uns unsere Intuition, dass die Summe der Fl¨acheninhalte der Rechtecke immer n¨ aher am gesuchten Fl¨ acheninhalt sein wird. Der Grenzwert der Partialsummen, mit anderen Worten die Reihe u ¨ber die Fl¨acheninhalte der Rechtecke, sollte genau den gesuchten Fl¨ acheninhalt ergeben. Um diesen Gedanken zu formalisieren, m¨ ussen wir die endliche Additivit¨at erweitern zu
1.1 Das Maßproblem
7
Abbildung 1.2. Approximation durch Rechtecke
einer abz¨ ahlbaren Additivit¨ at, die als σ-Additivit¨at bezeichnet wird. Ersetzen wir im Inhaltsproblem 1.2 die endliche Additivit¨at durch die σ-Additivit¨at, so gelangen wir zu folgender Fragestellung, die als Maßproblem bekannt ist: Problem 1.5 (Maßproblem). Gesucht ist eine Maßfunktion“ µ : P(Rn ) → ” [0, ∞] mit folgenden Eigenschaften: (i) σ-Additivit¨ at: Ist Ai ∈ P(Rn ), i ∈ N, eine Folge paarweise disjunkter Teilmengen, so ist: ∞ ∞ µ Ai = µ(Ai ). i=1
i=1
(ii) Bewegungsinvarianz : Sind A, B ∈ P(R ) kongruent, so ist µ(A) = µ(B). (iii) Normiertheit: µ([0, 1]n ) = 1. n
Aus der Unl¨ osbarkeit des Inhaltsproblems f¨ ur n ≥ 3 folgt dasselbe f¨ ur das Maßproblem, es gilt sogar: Satz 1.6. Das Maßproblem 1.5 ist f¨ ur alle n ∈ N unl¨ osbar. Beweis. Wir beginnen mit dem eindimensionalen Fall n = 1 und f¨ uhren einen Widerspruchsbeweis. Sei µ : P(R) → [0, ∞] eine Funktion mit den Eigenschaften (i) - (iii) aus dem Maßproblem. Wir betrachten die Quotientengruppe R/Q
8
1 Grundlagen der Maßtheorie
und ein Repr¨ asentantensystem R der Nebenklassen, von dem wir ohne Einschr¨ ankung R ⊂ [0, 1] annehmen k¨ onnen (F¨ ur die Existenz von R ben¨otigen wir das Auswahlaxiom!). Wir erhalten die abz¨ ahlbare disjunkte Vereinigung (q + R). R= q∈Q
Ist µ(R) = 0, so folgt aus der σ-Additivit¨ at und der Bewegungsinvarianz: µ(R) = µ(q + R) = 0. q∈Q
Da aus der σ-Additivit¨ at µ(A) ≤ µ(B) f¨ ur A ⊂ B folgt, gilt µ([0, 1]) = 0 im Widerspruch zu (iii). Ist hingegen µ(R) > 0, so ist mit der Translationsinvarianz von µ µ(q + R) ≤ µ([0, 2]) ≤ µ([0, 1]) + µ([1, 2]) = 2, ∞= q∈Q∩[0,1]
so dass wir wiederum einen Widerspruch erhalten. Den Fall n > 1 beweist man v¨ ollig analog mit Hilfe der Quotientengruppe Rn /Qn . Unsere naiven Ans¨ atze, den Begriff des Volumens mathematisch zu formalisieren, sind also vorerst gescheitert. Welcher Ausweg bleibt uns, um unser Ziel, einen m¨ oglichst treffenden Volumenbegriff zu definieren, zu erreichen? Prinzipiell er¨ offnen sich drei M¨ oglichkeiten: (i) Es f¨ allt auf, dass wir im Beweis der Unl¨osbarkeit des Maßproblems das Auswahlaxiom ben¨ otigt haben. In der Tat kann das Banach-TarskiParadoxon ohne Auswahlaxiom, nur mit den Axiomen der ZermeloFraenkel Mengenlehre, nicht bewiesen werden (siehe [Wag85]). Daher k¨ onnte man das Auswahlaxiom als Axiom der Mengenlehre ablehnen. Aber das Auswahlaxiom sowie die ¨ aquivalenten Aussagen des Wohlordnungssatzes und des Zornschen Lemmas besitzen in der Mathematik eine derart bedeutende Stellung, dass eine Ablehnung des Auswahlaxioms nicht in Frage kommt. (ii) Wir k¨ onnten versuchen, Abstriche bei den Forderungen an unsere Volumenfunktion zu machen. Die Forderung der Bewegungsinvarianz und der Additivit¨ at sind jedoch so elementar f¨ ur unsere Vorstellung eines Volumens, dass wir daran festhalten werden. Die Normiertheit dient lediglich dazu, die Nullfunktion, die wir nicht als Volumenfunktion zulassen wollen, auszuschließen. Schreibt man f¨ ur den Einheitsw¨ urfel irgendein anderes Volumen a > 0 vor, bleiben die Probleme genauso unl¨osbar. (iii) Als letzter Ausweg bleibt uns noch die Einschr¨ankung des Definitionsbereichs. Bisher haben wir Funktionen betrachtet, die auf der ganzen Potenzmenge der gegebenen Grundmenge definiert waren. Wir wollten jeder Teilmenge des R3 ein Volumen zuordnen. Dieses Ziel war zu ehrgeizig. Wir
1.2 Mengensysteme
9
k¨ onnten zun¨ achst versuchen, nur bestimmten Teilmengen, die wir besonders gut beschreiben k¨ onnen, ein Maß zuzuordnen. Wir wissen auf Grund ¨ der Uberlegungen in diesem Abschnitt, dass es uns nicht gelingen wird, ein Maß auf der ganzen Potenzmenge zu finden. Aber wir werden sehen, dass das Mengensystem, auf dem wir ein Maß erhalten, groß genug sein wird, um alle anschaulichen“ Mengen zu enthalten und um sowohl in der ” Maß- als auch in der Wahrscheinlichkeitstheorie vern¨ unftig damit arbeiten zu k¨ onnen.
1.2 Mengensysteme Wir haben bei der Schilderung des Maßproblems im vorherigen Abschnitt gesehen, dass wir uns zur Definition eines Volumenbegriffes auf bestimmte anken m¨ ussen. Dabei macht es f¨ ur unsere BegriffsTeilmengen des R3 beschr¨ bildung keinen Unterschied, ob wir den R3 , den Rn oder irgendeine andere Grundmenge betrachten. Daher bezeichnen wir mit Ω eine nichtleere Basismenge. Jede Teilmenge F ⊂ P(Ω) der Potenzmenge von Ω heißt Mengensystem u ¨ber Ω. Mengensysteme unterscheidet man nach ihrem Verhalten bei elementaren Mengenoperationen. Ist z.B. ein Mengensystem F ⊂ P(Ω) durchschnittsstabil, d.h. gilt A, B ∈ F ⇒ A ∩ B ∈ F, so nennt man F ein π-System. σ-Algebren Das zentrale Mengensystem der Maßtheorie ist die σ-Algebra. Der griechische Buchstabe σ findet in der Maßtheorie immer dort Verwendung, wo eine Eigenschaft f¨ ur abz¨ ahlbar viele und nicht nur f¨ ur endlich viele Elemente gilt: Definition 1.7 (σ-Algebra). Ein Mengensystem F ⊂ P(Ω) heißt σAlgebra u ullt sind: ¨ber Ω, falls die folgenden Bedingungen erf¨ (S1) Ω ∈ F. (S2) Aus A ∈ F folgt Ac := Ω \A ∈ F. ∞ Ai ∈ F. (S3) Aus Ai ∈ F, i ∈ N, folgt i=1
Beispiel 1.8 (Kleinste und gr¨ oßte σ-Algebra). Zu jeder Grundmenge Ω gibt es eine kleinste σ-Algebra {∅, Ω} und eine gr¨ oßte σ-Algebra P(Ω), die Potenzmenge von Ω. ♦
10
1 Grundlagen der Maßtheorie
Beispiel 1.9. Sei Ω eine u ahlbare Menge und A ∈ F genau dann, wenn ¨berabz¨ A oder Ac abz¨ ahlbar ist. Dann ist F eine σ-Algebra. ♦ Beispiel 1.10 (von A erzeugte σ-Algebra). Ist A ⊂ Ω, so ist die Menge σ(A) := {∅, A, Ac , Ω} eine σ-Algebra. Sie heißt die von A erzeugte σ-Algebra und ist die kleinste σ-Algebra, die A enth¨ alt. ♦ Erzeugung Wir wollen das letzte Beispiel verallgemeinern. Ist E ⊂ P(Ω) gegeben, gibt es dann eine kleinste σ-Algebra, die E enth¨ alt? Bevor wir die Antwort geben, zeigen wir folgende Eigenschaft von σ-Algebren: ur jedes i ∈ I eine Satz 1.11. Sei I eine beliebige nichtleere Menge und Fi f¨ σ-Algebra u ¨ber Ω, so ist auch Fi F := i∈I
eine σ-Algebra u ¨ber Ω. Beweis. Ist z.B. A ∈ F, so gilt A ∈ Fi f¨ ur alle i ∈ I, und da Fi f¨ ur jedes i ∈ I ur alle i ∈ I. Daraus folgt wiederum eine σ-Algebra ist, gilt auch Ac ∈ Fi f¨ Ac ∈ F, womit wir Eigenschaft (S2) nachgewiesen haben. Die Eigenschaften (S1) und (S3) folgen nach dem gleichen Schema. Die Durchschnittsstabilit¨ at erm¨ oglicht uns, von erzeugten σ-Algebren zu sprechen und obige Frage zu beantworten. Definition 1.12 (Erzeugung, Erzeuger). Sei E ⊂ P(Ω) ein Mengensystem und Σ die Menge aller σ-Algebren u ¨ber Ω, die E enthalten. Dann wird die σ-Algebra F σ(E) := F∈Σ
als die von E erzeugte σ-Algebra σ(E) bezeichnet. Gilt umgekehrt f¨ ur eine σ-Algebra A σ(E) = A, so heißt E Erzeuger von A. Ist E ein Erzeuger von A und E ⊂ E ⊂ A, so ist auch E ein Erzeuger von A. Insbesondere erzeugt sich jede σ-Algebra selbst.
1.2 Mengensysteme
11
Die Borelschen Mengen F¨ ur unsere Zwecke ist das wichtigste Beispiel einer σ-Algebra die σ-Algebra der Borelschen Mengen u ¨ber dem Rn : Definition 1.13 (Borelsche σ-Algebra). Sei Ω ein topologischer Raum und O das System der offenen Teilmengen von Ω. Dann heißt B(Ω) := σ(O) die Borelsche σ-Algebra u ¨ber Ω, ihre Elemente A ∈ B(Ω) heißen Borelsche Mengen. F¨ ur Ω = Rn setzen wir B n := B(Rn ), im Fall n = 1 ist B := B 1 = B(R). Es ist oft n¨ utzlich, weitere Erzeuger f¨ ur die Borelsche σ-Algebra B n u ¨ber dem Rn zu kennen. Dazu f¨ uhren wir f¨ ur zwei Vektoren a, b ∈ Rn , a = (a1 , . . . , an ) ur ein Intervall im Rn ein: und b = (b1 , . . . , bn ) die folgende Schreibweise f¨ [a, b] := [a1 , b1 ] × . . . × [an , bn ] ⊂ Rn . Entsprechend sind ]a, b], [a, b[ und ]a, b[ erkl¨ art. Satz 1.14. Jedes der folgenden Mengensysteme ist ein Erzeuger der Borelschen σ-Algebra B n : On := {U ⊂ Rn : U offen}, C n := {A ⊂ Rn : A abgeschlossen}, I n := {]a, b] : a, b ∈ Rn , a ≤ b}, n I∞ := {] − ∞, c] : c ∈ Rn }, wobei ] − ∞, c] := ] − ∞, c1 ] × . . . ×] − ∞, cn ] ⊂ Rn f¨ ur c = (c1 , . . . , cn ) ∈ Rn ist. Beweis. Nach Definition gilt B n = σ(On ). Da die abgeschlossenen Teilmengen des Rn gerade die Komplemente der offenen Teilmengen sind, folgt σ(C n ) = σ(On ) = B n . Jedes halboffene Intervall ]a, b] l¨asst sich als abz¨ahlbarer Durchschnitt offener Intervalle darstellen: ∞ 1 ]a, b] = a, b + ∈ σ(On ). n n=1 Daher ist I n ⊂ σ(On ) und damit σ(I n ) ⊂ Bn . Umgekehrt gilt f¨ ur jedes offene Intervall ]r, s] ∈ σ(I n ), ]a, b[ = r,s∈Q
a≤r≤s
12
1 Grundlagen der Maßtheorie
und jede offene Menge U ∈ On ist als abz¨ ahlbare Vereinigung offener Intervalle darstellbar: ]a, b[ . U= a,b∈Q
]a,b[⊂U n ⊂ C n , also Insgesamt folgt On ⊂ σ(I n ), also B n = σ(I n ). Schließlich ist I∞ n n n ur jedes ]a, b] ∈ I σ(I∞ ) ⊂ B . Andererseits gilt f¨ n ]a, b] = ] − ∞, b]\ ] − ∞, a] ∈ σ(I∞ ), n ). und damit B n = σ(I n ) ⊂ σ(I∞
Produkt-σ-Algebra Alternativ h¨ atten wir B n auch als n-faches Produkt der σ-Algebra B definieren k¨ onnen. Um dies zu zeigen, sei etwas allgemeiner f¨ ur eine nichtleere Indexmenge I Fi eine σ-Algebra u ¨ber Ωi , i ∈ I. Ωi : Wir betrachten die Projektionen des kartesischen Produkts Ω := pj :
i∈I
Ωi −→ Ωj ,
(ωi )i∈I → ωj ,
j ∈ I.
i∈I
Die Urbilder p−1 j (A), A ∈ Fj , j ∈ I, heißen Zylindermengen. F¨ ur endliches I = {1, . . . , n} haben die Zylindermengen die Darstellung p−1 j (A) = Ω1 × . . . × Ωj−1 × A × Ωj+1 × . . . × Ωn , die ihren Namen erkl¨ art. Sind die Ωi , i ∈ I, topologische R¨aume, so ist die Produkttopologie auf Ω bekanntlich die gr¨ obste Topologie auf Ω, f¨ ur die alle Projektionen pj , j ∈ I, stetig sind. Analog definiert man die Produkt-σAlgebra: Definition 1.15 (Produkt-σ-Algebra). Sei Fi eine σ-Algebra u ¨ber Ωi , Ωi −→ Ωj die Projektion auf die j-te Komponente, i ∈ I = ∅, und pj : i∈I
j ∈ I. Dann heißt
Fi := σ({p−1 j (Aj ) : Aj ∈ Fj , j ∈ I})
i∈I
Produkt-σ-Algebra u ¨ber Ω :=
i∈I ⊗I
verwenden wir die Notation F
Ωi . Ist (Ω, F) = (Ωi , Fi ) f¨ ur alle i ∈ I, so := Fi . i∈I
1.2 Mengensysteme
13
Die Produkt-σ-Algebra auf Ω wird also von den Zylindermengen erzeugt. Bezeichnen wir mit O die offenen Mengen in der Produkttopologie von Ω, so k¨onnen wir alternativ die Borelsche σ-Algebra B(Ω) = σ(O) u ¨ber Ω betrachten. Das Verh¨ altnis dieser beiden σ-Algebren u ¨ber Ω beschreibt der folgende Satz. Wir erinnern daran, dass ein topologischer Raum Ωi eine abz¨ahlbare Basis besitzt, wenn es eine abz¨ ahlbare Menge Ui offener Teilmengen gibt, so dass jede offene Menge als abz¨ ahlbare Vereinigung von Mengen aus Ui dargestellt werden kann. Satz 1.16. Sei (Ω, O) das topologische Produkt der topologischen R¨ aume (Ωi , Oi ), i ∈ I. Dann gilt: (i) B(Ωi ) ⊂ B(Ω). i∈I
(ii) Ist I = N abz¨ ahlbar und hat jedes Ωi eine abz¨ ahlbare Basis Ui , i ∈ N, dann gilt: ∞ B(Ωi ) = B(Ω). i=1
Beweis. (i) Da die Projektionen pj : Ω −→ Ωj , j ∈ I, nach Definition der ur alle offenen MenProdukttopologie stetig sind, gilt p−1 j (Aj ) ∈ B(Ω) f¨ gen Aj ∈ B(Ωj ), j ∈ I. Dann gilt aber sogar p−1 (A ur alle j ) ∈ B(Ω) f¨ j Aj ∈ B(Ωj ), j ∈ I. Diese Eigenschaft, die so genannte Messbarkeit der urze f¨ ur alle stetigen Abbildungen zeigen, Projektionen pj , werden wir in K¨ B(Ωi ) ⊂ B(Ω). siehe Beispiel 1.25. Daraus folgt sofort i∈I
(ii) Das Mengensystem −1 U := {p−1 j1 (Uj1 ) ∩ . . . ∩ pjn (Ujn ) : n ∈ N, Ujk ∈ Ujk , jk ∈ I, k = 1, . . . , n}
bildet eine abz¨ ahlbare Basis von Ω. Daher ist U ⊂
∞
B(Ωi ) und jede
i=1
offene Menge von Ω abz¨ ahlbare Vereinigung von Mengen in U. Insgesamt ∞ folgt B(Ω) ⊂ B(Ωi ) und mit Teil (i) die Behauptung. i=1
Da R eine abz¨ ahlbare Basis besitzt (z.B. die Menge der offenen Intervalle mit rationalen Randpunkten), erhalten wir unmittelbar als Korollar: Korollar 1.17. Auf dem Rn stimmen die σ-Algebra B n und die n-fache Produkt-σ-Algebra von B u ¨berein: Bn =
n i=1
B.
14
1 Grundlagen der Maßtheorie
¯ Borelschen Mengen auf R In der Maßtheorie ist es hilfreich, den Wert +∞“ als Funktionswert, z.B. f¨ ur ” die L¨ ange einer Halbgeraden, zuzulassen. Um dies zu erm¨oglichen, erweitern ¯ := R ∪ wir die reellen Zahlen R um die zwei Symbole +∞“ und −∞“: R ” ” {−∞, +∞}. +∞“ und −∞“ sind keine reellen Zahlen, es werden jedoch ” ” folgende Regeln vereinbart: F¨ ur alle a ∈ R gilt: (i) −∞ < a < +∞, (ii) a + (±∞) = (±∞) + a = ⎧ (±∞) + (±∞) = ±∞, (±∞) − (∓∞) = ±∞, ur a > 0, ⎨ ±∞, f¨ 0, f¨ ur a = 0, (iii) a · (±∞) = (±∞) · a = ⎩ ∓∞, f¨ ur a < 0, a = 0. (iv) (±∞) · (±∞) = +∞, (±∞) · (∓∞) = −∞, ±∞ Die Terme (±∞) − (±∞), (±∞) + (∓∞),
±∞ ±∞ und sind nicht definiert. +∞ −∞
¯ kein K¨ Somit ist R orper. Die Bedeutung der Konvention 0 · (±∞) = (±∞) · 0 = 0 wird in der Integrationstheorie deutlich. Vorsicht ist allerdings bei den Grenzwerts¨ atzen geboten: 1 lim x· = (+∞) · 0 = 0. x→+∞ x ¯ ist durch Wir schreiben einfacher ∞ f¨ ur +∞. Die σ-Algebra B¯ u ¨ber R B¯ := σ(B ∪ {∞} ∪ {−∞}) definiert. Alternativ erhalten wir aus dieser Definition die Darstellung B¯ = {A ∪ B : A ∈ B, B ⊂ {∞, −∞}}. ¯ ihre Elemente A ∈ B¯ Die σ-Algebra B¯ heißt Borelsche σ-Algebra u ¨ber R, ¯ heißen Borelsche Teilmengen von R. Da I = {] − ∞, c] : c ∈ R} ein Erzeuger von B ist, folgt, dass I¯ := {[−∞, c] : c ∈ R} ein Erzeuger von B¯ ist.
(1.1)
Das π-λ-Lemma Ein Beweisprinzip in der Maßtheorie besteht darin, dass man eine Eigenschaft f¨ ur ein Mengensystem E nachweisen kann (oder voraussetzt) und diese dann auf σ(E) hochzieht“. Ein h¨ aufiges Hilfsmittel f¨ ur solche Argumente ist das ”
1.2 Mengensysteme
15
folgende π-λ-Lemma.Wir erinnern daran, dass ein π-System ein durchschnittsstabiles Mengensystem ist. Ein λ-System haben wir noch nicht definiert: Definition 1.18 (λ-System). Ein Mengensystem D ⊂ P(Ω) heißt λSystem u ullt sind: ¨ber Ω, falls die folgenden Bedingungen erf¨ (L1) Ω ∈ D. (L2) Aus A, B ∈ D und A ⊂ B folgt B \A ∈ D. (L3) Aus Ai ∈ D, i ∈ N, Ai ↑ A, folgt A ∈ D. Zur Vorbereitung des nachfolgenden Theorems zeigen wir: Lemma 1.19. Ist D ein durchschnittsstabiles λ-System, so ist D eine σAlgebra. Beweis. Die Stabilit¨ at gegen¨ uber Komplementbildung folgt aus (L1) und (L2). Es bleibt die Abgeschlossenheit gegen¨ uber abz¨ahlbaren Vereinigungen zu zeigen. Sind A, B ∈ D, so auch A ∪ B = (Ac ∩ B c )c ∈ D, da nach Voraussetzung D durchschnittsstabil ist. Ist Ai ∈ D, i ∈ N, so ist nach dem gerade n ∞ Ai ∈ D, und es gilt Bn ↑ Ai . Aus (L3) folgt, dass gezeigten Bn := ∞
i=1
i=1
Ai ∈ D.
i=1
Theorem 1.20 (π-λ-Lemma). Sei E ein π-System und D ein λ-System mit E ⊂ D. Dann gilt: σ(E) ⊂ D. Beweis. Da der Durchschnitt von zwei λ-Systemen wieder ein λ-System ist, k¨ onnen wir ganz analog zu σ-Algebren auch von erzeugten λ-Systemen sprechen. Ohne Einschr¨ ankung der Allgemeinheit nehmen wir daher an, dass D = λ(E) gilt, wobei wir mit λ(E) das von E erzeugte λ-System bezeichnen. Es gen¨ ugt zu zeigen, dass D durchschnittsstabil ist. Dann ist D nach Lemma 1.19 eine σ-Algebra, die nach Voraussetzung E und somit auch σ(E) enth¨ alt. Um die Durchschnittsstabilit¨ at von D zu zeigen, gehen wir in zwei Schritten vor. Setzen wir ur alle B ∈ E}, D1 := {A ∈ D : A ∩ B ∈ D f¨ uft so gilt, da E ein π-System ist, E ⊂ D1 . Da D schon ein λ-System ist, pr¨ man leicht nach, dass auch D1 ein λ-System ist. Damit gilt D1 = D = λ(E). Im zweiten Schritt setzen wir ur alle B ∈ D}. D2 := {A ∈ D : A ∩ B ∈ D f¨ Aus D1 = D folgt E ⊂ D2 . Da D2 wiederum ein λ-System ist, folgt diesmal D2 = D und damit die Behauptung.
16
1 Grundlagen der Maßtheorie
Induzierte σ-Algebra und Spur-σ-Algebra Ist f : Ω1 → Ω2 eine Abbildung, so ist das Bild einer Menge A ⊂ Ω1 f (A) := {f (ω) ∈ Ω2 : ω ∈ A} und das Urbild einer Menge B ⊂ Ω2 f −1 (B) := {ω ∈ Ω1 : f (ω) ∈ B}. Die Urbildfunktion f −1 auf P(Ω2 ) ist operationstreu, d.h. f¨ ur beliebige B, Bi ⊂ Ω2 , i ∈ I, gilt: Bi = f −1 (Bi ), (1.2) f −1 i∈I
f −1
i∈I −1
f
i∈I
Bi
=
f −1 (Bi ),
i∈I −1
(B c ) = (f
(B))c .
(1.3) (1.4)
F¨ ur ein Mengensystem F ⊂ P(Ω) schreiben wir kurz f −1 (F) := {f −1 (B) : B ∈ F }. Das Urbild erh¨ alt die Struktur einer σ-Algebra, und zwar in beide Richtungen: Satz 1.21. Sei F1 eine σ-Algebra u ¨ber Ω1 und F2 eine σ-Algebra u ¨ber Ω2 . Ist f : Ω1 → Ω2 eine Abbildung, so ist f −1 (F2 ) eine σ-Algebra u ¨ber Ω1 und {B ⊂ Ω2 : f −1 (B) ∈ F1 } eine σ-Algebra u ¨ber Ω2 . Beweis. Die nachzuweisenden Eigenschaften (S1) bis (S3) aus Definition 1.7 folgen unmittelbar aus der Operationstreue von f −1 . Ein Beispiel: Ist A ∈ f −1 (F2 ), so ist A = f −1 (B), B ∈ F2 . Daraus folgt B c ∈ F2 und Ac = (f −1 (B))c = f −1 (B c ) ∈ f −1 (F2 ). Beispiel 1.22 (Spur-σ-Algebra). Ist F eine σ-Algebra u ¨ber Ω und A ⊂ Ω, so k¨ onnen wir obigen Satz auf die Inklusion i : A → Ω, a → a, anwenden. Die σ-Algebra i−1 (F) = {A ∩ B : B ∈ F } heißt Spur-σ-Algebra von A und wird mit F |A bezeichnet. ♦
1.3 Messbare Abbildungen Messr¨ aume und Messbarkeit Ist F eine σ-Algebra u ¨ber Ω, so heißt das Tupel (Ω, F) Messraum.
1.3 Messbare Abbildungen
17
¯ B). ¯ Wie sehen AbbilTypische Messr¨ aume sind (Ω, P(Ω)), (Rn , B n ) oder (R, dungen zwischen Messr¨ aumen aus? Wie in anderen Teilgebieten der Mathematik sollen die Abbildungen die gegebene Struktur erhalten. So betrachtet man z.B. in der Topologie stetige Abbildungen, bei denen definitionsgem¨aß das Urbild einer offenen Menge offen ist. Ganz analog geht man auch bei Messr¨ aumen vor: Definition 1.23 (messbare Abbildung). Seien (Ω1 , F1 ) und (Ω2 , F2 ) zwei Messr¨ aume. Eine Abbildung f : Ω1 → Ω2 heißt F1 -F2 -messbar, falls f −1 (F2 ) ⊂ F1 . In der Regel verstehen sich bei einer messbaren Abbildung f : Ω1 −→ Ω2 die zugeh¨ origen σ-Algebren von selbst, so dass wir einfach von messbaren Abur reellbildungen statt z.B. von F1 -F2 -Messbarkeit sprechen. Insbesondere f¨ ¯ bezieht sich die Messbarkeit wertige Funktionen f : Ω → R bzw. g : Ω → R ¯ Der folgende Satz zeigt, dass es stets auf die Borelsche σ-Algebra B bzw. B. ¨ zur Uberpr¨ ufung der Messbarkeit gen¨ ugt, sich auf ein Erzeugendensystem zu beschr¨ anken. aume, wobei F2 = σ(E) Satz 1.24. Seien (Ω1 , F1 ) und (Ω2 , F2 ) zwei Messr¨ von einem Mengensystem E erzeugt ist. Die Abbildung f : Ω1 → Ω2 ist genau dann F1 -F2 -messbar, wenn f −1 (E) ⊂ F1 . Beweis. Aus Satz 1.21 wissen wir, dass {B ⊂ Ω2 : f −1 (B) ∈ F1 } eine σ-Algebra ist. Nach Voraussetzung enth¨ alt sie E und damit auch F2 = σ(E). Ist (Ω, F) ein Messraum, so ist z.B. eine Abbildung f : Ω → R genau dann ur alle c ∈ R, denn messbar, wenn f −1 (] − ∞, c]) = {ω ∈ Ω : f (ω) ≤ c} ∈ F f¨ nach Satz 1.14 bilden diese Intervalle ein Erzeugendensystem von B. Weitere Beispiele sind: Beispiel 1.25 (Stetige Abbildungen). Ist f : Ω1 → Ω2 eine stetige Abbildung zwischen topologischen R¨ aumen, so ist f (B(Ω1 )-B(Ω2 )-)messbar. Denn nach Definition der Stetigkeit sind Urbilder offener Mengen offen, und die offenen ♦ Mengen sind ein Erzeuger der Borelschen σ-Algebra B(Ω2 ). Beispiel 1.26 (Indikatorfunktion). Die Indikatorfunktion einer Teilmenge A ⊂ Ω ist definiert als 1 f¨ ur ω ∈ A, IA : Ω → R, ω → IA (ω) := 0 sonst.
18
1 Grundlagen der Maßtheorie
Sie zeigt an, ob ω Element der Menge A ist oder nicht. Alle m¨oglichen Urbilder von IA sind ∅, A, Ac , Ω. Diese sind genau dann in F enthalten, wenn A ∈ F gilt. Also ist die Indikatorfunktion IA genau dann messbar, wenn A ∈ F. Deshalb spricht man auch von einer messbaren Menge A, wenn A ∈ F ist. ♦ Die Abgeschlossenheit der Messbarkeit Elementare Operationen, z.B. die Addition zweier messbarer Funktionen, sollen uns nicht aus der Klasse der messbaren Funktionen herausf¨ uhren. Am einfachsten folgt dies f¨ ur die Komposition: Satz 1.27. Sind (Ω1 , F1 ), (Ω2 , F2 ) und (Ω3 , F3 ) Messr¨ aume und f : Ω1 → Ω2 sowie g : Ω2 → Ω3 messbar, so auch g ◦ f : Ω1 → Ω3 . Beweis. Nach Voraussetzung ist f −1 (F2 ) ⊂ F1 und g −1 (F3 ) ⊂ F2 , damit folgt (g ◦ f )−1 (F3 ) = f −1 (g −1 (F3 )) ⊂ F1 . Genau wie bei der Stetigkeit (und im Prinzip aus dem gleichen Grund) folgt die Messbarkeit einer Funktion in den Rn aus der Messbarkeit ihrer Koordinatenfunktionen: Satz 1.28. Sei (Ω, F) ein Messraum und f = (f1 , . . . , fn ) : Ω → Rn . Dann ist f genau dann F-B n -messbar, wenn fi : Ω → R,
i = 1, . . . , n, F-B-messbar sind.
Beweis. Wir bezeichnen mit pi : Rn → R, i = 1, . . . , n, die Projektion auf die i-te Komponente. Diese sind nach Definition der Produkt-σ-Algebra (und Korollar 1.17) B n -B-messbar. Ist f messbar, so folgt nach Satz 1.27, dass fi = ur die Umkehrung sei Z = p−1 pi ◦ f , i = 1, . . . , n, messbar ist. F¨ i (A), A ∈ B, ugt es nach Satz eine Zylindermenge. Da die Zylindermengen B n erzeugen, gen¨ 1.24, f −1 (Z) ∈ F nachzuweisen. Nun gilt aber auf Grund der Messbarkeit der fi : −1 (A) = fi−1 (A) ∈ F. f −1 (Z) = f −1 (p−1 i (A)) = (pi ◦ f ) Mit den letzten beiden S¨ atzen k¨ onnen wir die Messbarkeit der elementaren arithmetischen Operationen zeigen: Satz 1.29. Es seien (Ω, F) ein Messraum, f, g : Ω → R messbare Funktionen und α, β ∈ R. Dann gilt: (i) αf + βg ist messbar. (ii) f · g ist messbar. ur alle ω ∈ Ω. (iii) fg ist messbar, falls g(ω) = 0 f¨
1.3 Messbare Abbildungen
19
Beweis. Aus der Messbarkeit von f und g folgt nach Satz 1.28 die Messbarkeit von Ψ : Ω → R2 , ω → (f (ω), g(ω)). Definieren wir Φ : R2 → R, (x, y) → αx + βy, so ist Φ stetig und damit messbar. Daraus folgt mit Satz 1.27 die Messbarkeit von Φ ◦ Ψ = αf + βg. Die u ¨brigen Aussagen ergeben sich analog mit den Funktionen Φ(x, y) = xy bzw. Φ(x, y) = xy auf R × (R\{0}). Zur Unterscheidung von reellwertigen Funktionen heißt eine Funktion mit ¯ Wertebereich R ¯ numerische Funktion. f :Ω→R Ist (Ω, F) ein Messraum, so heißt eine numerische Funktion messbar, falls sie ¯ F-B-messbar ist. Dies ist genau dann der Fall, wenn {ω ∈ Ω : f (ω) ≤ c} ∈ F f¨ ur alle c ∈ R, da I¯ = {[−∞, c] : c ∈ R} ein Erzeuger von B¯ ist, vgl. (1.1). Mengen der Gestalt {ω ∈ Ω : f (ω) ≤ c} werden in Zukunft sehr oft vorkommen. Wir verwenden daher die intuitive Schreibweise {f ≤ c} := {ω ∈ Ω : f (ω) ≤ c}, {f = c} := {ω ∈ Ω : f (ω) = c}, {f > c} := {ω ∈ Ω : f (ω) > c}
etc.
Satz 1.30. Sei (Ω, F) ein Messraum und (fn )n∈N eine Folge messbarer, nu¯ n ∈ N. Dann sind merischer Funktionen fn : Ω → R, sup fn , inf fn , lim sup fn und lim inf fn messbar. n∈N
n∈N
n∈N
n∈N
Beweis. Die Funktion sup fn ist messbar, da f¨ ur jedes c ∈ R gilt: n∈N
∞ {fn ≤ c} ∈ F. sup fn ≤ c =
n∈N
n=1
Die Messbarkeit von inf n fn folgt nun unmittelbar aus der Gleichung inf n fn = − supn (−fn ). Damit ergibt sich die Messbarkeit der u ¨brigen beiden Funktionen aus der Darstellung: lim sup fn = inf sup fk , lim inf fn = sup inf fk . n∈N
n≥1
k≥n
n∈N
n≥1
k≥n
20
1 Grundlagen der Maßtheorie
¯ sind der F¨ ur jede numerische Funktion f : Ω → R Positivteil f + := f ∨ 0 und der
Negativteil f − := (−f ) ∨ 0 (≥ 0)
erkl¨ art. Aus der Definition folgt sofort: f = f + − f − und |f | = f + + f − . ¯ eine messbare numeriSatz 1.31. Ist (Ω, F) ein Messraum und f : Ω → R sche Funktion, so sind auch |f |, f + und f − messbar. Beweis. Betrachten wir die Funktionenfolge (fn ) = (0, f, f, f, . . .), so ist nach Satz 1.30 die Funktion supn fn = 0 ∨ f = f + und analog mit der Folge (0, −f, −f, −f, . . .) auch f − messbar. Nach Satz 1.29 ist damit auch |f | = f + + f − messbar.
1.4 Maße Maße und Maßr¨ aume In diesem Abschnitt betrachten wir spezielle Funktionen auf Mengensystemen. Definition 1.32 ((σ-endliches) Maß). Sei (Ω, F) ein Messraum. Eine ¯ heißt Maß auf F, falls die folgenden Bedingungen Funktion µ : F → R erf¨ ullt sind: (M1) µ(∅) = 0, (M2) µ(A) ≥ 0 f¨ ur alle A ∈ F, (M3) f¨ ur jede Folge (An )n∈N disjunkter Mengen aus F gilt: ∞ ∞ µ An = µ(An ) (σ-Additivit¨ at). n=1
n=1 ∞
Gibt es eine Folge (An ) von Mengen aus F mit f¨ ur alle n ∈ N, so heißt µ σ-endlich.
An = Ω und µ(An ) < ∞
n=1
¯ ein Maß, so heißt das Tripel Ist (Ω, F) ein Messraum und µ : F → R (Ω, F, µ) Maßraum. Beispiel 1.33 (Dirac-Maß). Das einfachste Maß auf einer σ-Algebra F u ¨ber Ω ist f¨ ur ein fest gew¨ ahltes ω ∈ Ω gegeben durch
1.4 Maße
21
δω : F → R,
1 f¨ ur ω ∈ A, A → δω (A) := IA (ω) = 0 f¨ ur ω ∈ / A. ♦
Beispiel 1.34 (Z¨ ahlmaß). Ist A eine Menge, so bezeichnen wir mit |A| die M¨ achtigkeit von A, f¨ ur endliches A ist |A| demnach die Anzahl der Elemente. Damit k¨ onnen wir auf einer σ-Algebra F u ¨ber Ω folgende Funktion definieren: ¯ µZ : F → R, |A|, A → ∞
falls A endlich, sonst.
Dadurch wird (Ω, F, µZ ) ein Maßraum. µZ heißt Z¨ahlmaß.
♦
Beispiel 1.35. Ist Ω u ahlbar und A ∈ F genau dann, wenn A oder Ac ¨berabz¨ abz¨ ahlbar ist (vgl. Beispiel 1.9), so definieren wir: ¯ µ : F → R, 0, A → 1
falls A abz¨ahlbar, sonst.
Dann ist µ ein Maß und (Ω, F, µ) ein Maßraum.
♦
Elementare Eigenschaften von Maßen Aus der Eigenschaft (M3) eines Maßes, der so genannten σ-Additivit¨at, ergeben sich unmittelbar weitere Eigenschaften, die wir in einem Satz zusammenfassen: Satz 1.36. Sei (Ω, F, µ) ein Maßraum und A, B, An ∈ F, n ∈ N. Dann gilt: (i) endliche Additivit¨ at: Sind A und B disjunkt, so gilt: µ(A ∪ B) = µ(A) + µ(B). (ii) Subtraktivit¨ at: Ist A ⊂ B und µ(A) < ∞, so gilt: µ(B\A) = µ(B) − µ(A). (iii) Monotonie: Ist A ⊂ B, so gilt: µ(A) ≤ µ(B). (iv) Sub-σ-Additivit¨ at: ∞ ∞ µ An ≤ µ(An ). n=1
n=1
22
1 Grundlagen der Maßtheorie
Beweis. Betrachtet man die Folge A, B, ∅, ∅, . . ., so folgt aus der σ-Additivit¨at die endliche Additivit¨ at. Ist A ⊂ B, so ist A ∪ (B \ A) = B eine disjunkte Vereinigung und aus der Additivit¨ at sowie der Nichtnegativit¨at von µ folgt µ(B) = µ(A) + µ(B \A) ≥ µ(A), womit die Monotonie und f¨ ur den Fall µ(A) < ∞ die Subtraktivit¨at gezeigt ist. Schließlich ist ∞ ∞ n−1 An = Ak , An \ n=1
n=1
k=1
wobei auf der rechten Seite eine disjunkte Vereinigung steht. Daher gilt wegen σ-Additivit¨ at und Monotonie ∞ ∞ n−1 ∞ An = µ An \ Ak ≤ µ(An ). µ n=1
n=1
n=1
k=1
Folgende Form der Stetigkeit gilt f¨ ur jedes Maß: Satz 1.37. Sei (Ω, F, µ) ein Maßraum und A, An ∈ F, n ∈ N. Dann gilt: (i) Stetigkeit von unten: Aus An ↑ A folgt µ(An ) ↑ µ(A). (ii) Stetigkeit von oben: Aus An ↓ A und µ(A1 ) < ∞ folgt µ(An ) ↓ µ(A). Beweis. Wir setzen A0 := ∅. Aus An ↑ A folgt, dass A =
∞
An \An−1 eine
n=1
disjunkte Vereinigung ist. Daher gilt: µ(A) =
∞
µ(Ak \Ak−1 )
k=1
= lim µ n→∞
n
Ak \Ak−1
k=1
= lim µ(An ). n→∞
Damit ist die Stetigkeit von unten gezeigt. F¨ ur die Stetigkeit von oben bemerken wir zun¨ achst, dass aus A ⊂ An ⊂ A1 auch µ(A) < ∞ und µ(An ) < ∞ f¨ ur alle n ∈ N folgt. Aus An ↓ A erhalten wir A1 \An ↑ A1 \A, so dass aus der Stetigkeit von unten und der Subtraktivit¨ at folgt: µ(A1 ) − µ(An ) = µ(A1 \An ) ↑ µ(A1 \A) = µ(A1 ) − µ(A), woraus sich µ(An ) ↓ µ(A) ergibt.
1.4 Maße
23
Eindeutigkeit von Maßen Ein endliches Maß, das wir auf einem durchschnittsstabilen Erzeuger angeben, ist dadurch schon eindeutig festgelegt. Der Beweis dieses oft n¨ utzlichen Resultats ist eine klassische Anwendung des π-λ-Lemmas 1.20. Wir zeigen eine etwas allgemeinere Aussage f¨ ur σ-endliche Maße. Theorem 1.38 (Maßeindeutigkeitssatz). Es seien µ und ν zwei Maße auf einem Messraum (Ω, F) und E ein durchschnittsstabiler Erzeuger von F mit folgenden Eigenschaften: (i) µ(E) = ν(E) f¨ ur alle E ∈ E. (ii) Es gibt eine Folge (En )n∈N disjunkter Mengen aus E mit µ(En ) = ν(En ) < ∞
und
∞
En = Ω.
n=1
Dann folgt µ = ν. Beweis. Wir betrachten zu jedem En , n ∈ N, das Mengensystem D(En ) := {A ⊂ F : µ(A ∩ En ) = ν(A ∩ En )}. Da µ und ν Maße sind und µ(En ) = ν(En ) < ∞, ist D(En ) ein λ-System mit E ⊂ D(En ). Da E durchschnittsstabil ist, folgt nach dem π-λ-Lemma 1.20 ur alle n ∈ N, F = σ(E) ⊂ D(En ) f¨ d.h. ur alle A ∈ F, n ∈ N. µ(A ∩ En ) = ν(A ∩ En ) f¨ Nun ist A =
∞
(A ∩ Ei ) f¨ ur jedes A ∈ F eine disjunkte Zerlegung von A, so
i=1
dass aus der σ-Additivit¨ at von µ und ν die Behauptung folgt.
Wir werden dieses Theorem typischerweise auf endliche Maße µ und ν, also µ(Ω) = ν(Ω) < ∞ anwenden. Dann folgt nach obigem Theorem µ = ν bereits, wenn µ und ν auf einem durchschnittsstabilen Erzeuger u ¨bereinstimmen. Vervollst¨ andigung Ist (Ω, F, µ) ein Maßraum und A ∈ F mit µ(A) = 0, so heißt A (µ-)Nullmenge. Es ist nahe liegend, einer Teilmenge B ⊂ A einer µ-Nullmenge ebenfalls das Maß 0 zuzuordnen. Allerdings muss man vorher sicherstellen, dass auch B zu F geh¨ ort:
24
1 Grundlagen der Maßtheorie
Definition 1.39 (vollst¨ andiges Maß, Vervollst¨ andigung). Es sei (Ω, F, µ) ein Maßraum. Ein Maß µ heißt vollst¨ andig, wenn gilt: Ist A ∈ F, µ(A) = 0 und B ⊂ A, so folgt B ∈ F. Die σ-Algebra F0 := {A ∪ N : A ∈ F, N Teilmenge einer µ-Nullmenge} heißt Vervollst¨ andigung von F. Man u ¨berlegt sich leicht die Wohldefiniertheit und Eindeutigkeit der Fortsetzung des Maßes µ auf die Vervollst¨ andigung F0 , die gegeben ist durch µ0 (A ∪ N ) := µ(A), A ∪ N ∈ F0 . So entsteht ein neuer Maßraum (Ω, F0 , µ0 ) mit einem vollst¨andigen Maß µ0 . Das Lebesgue-Maß Wir haben bei der Formulierung des Maßproblems 1.5 gefordert, dass dem Einheitsw¨ urfel das Maß 1, also sein Volumen, zugeordnet wird. Allgemeiner wird man einem n-dimensionalen Intervall ]a, b] =]a1 , b1 ] × . . . ×]an , bn ] ⊂ Rn das Volumen n
(bi − ai ) i=1
zuordnen. Das so genannte Lebesgue-Maß, dessen Existenz als eines der Hauptresultate der klassischen Maßtheorie angesehen werden kann, erf¨ ullt diese Anforderung. Theorem 1.40 (Existenz und Eindeutigkeit des Lebesgue-Maßes). In jeder Dimension n ∈ N gibt es genau ein Maß λn : B n → [0, ∞], so dass f¨ ur jedes n-dimensionale Intervall ]a, b] =]a1 , b1 ] × . . . ×]an , bn ] ⊂ Rn gilt: n
(bi − ai ). λn (]a, b]) = i=1 n
λ heißt (n-dimensionales) Lebesgue-Maß. Weiterhin gibt es zu jeder rechtsseitig stetigen, monoton wachsenden Funktion F : R → R genau ein Maß ¯ , so dass f¨ ur alle ]a, b] ⊂ R gilt: λF : B → R λF (]a, b]) = F (b) − F (a). λF heißt Lebesgue-Stieltjes-Maß von F .
1.4 Maße
25
Beweis. Den umfangreichen Beweis dieses Satzes f¨ uhren wir in Anhang A, Abschnitt A.1. F¨ ur das Lebesgue-Maß auf R schreiben wir λ := λ1 . Ist x ∈ R ein Punkt, so gilt mit der Stetigkeit von oben λ({x}) = lim λ(]x − n1 , x]) = lim n1 = 0. n→∞ n→∞ Auf Grund der σ-Additivit¨ at folgt damit: λ(A) = 0 f¨ ur jede abz¨ ahlbare Teilmenge A ⊂ R, z.B. λ(Q) = 0.
(1.5)
Das Lebesgue-Maß ist kein endliches Maß, denn aus der Monotonie folgt λ(R) ≥ λ(]0, n]) = n f¨ ur alle n ∈ N, und damit λ(R) = ∞.
(1.6)
Das Lebesgue-Maß λ erf¨ ullt eine weitere Forderung aus dem Maßproblem 1.5, die Bewegungsinvarianz: Satz 1.41. Das Lebesgue-Maß λn auf (Rn , B n ) ist bewegungsinvariant: λn (A) = λn (B), falls A, B ∈ Bn , A, B kongruent. Beweis. Siehe Anhang A, Satz A.10.
Zusammenfassend k¨ onnen wir sagen, dass das Lebesgue-Maß fast“ die L¨osung ” des Maßproblems 1.5 ist. Wir m¨ ussen nur den kleineren Definitionsbereich B n statt der ganzen Potenzmenge P(Rn ) in Kauf nehmen. Diese Einschr¨ankung ist jedoch nicht tragisch, da die Borel-Mengen alle f¨ ur die Praxis relevanten Teilmengen enthalten. Das Bildmaß Abschließend stellen wir eine M¨ oglichkeit vor, aus einem Maß mittels einer messbaren Abbildung ein neues Maß zu gewinnen. Dazu betrachten wir einen Maßraum (Ω1 , F1 , µ) sowie einen Messraum (Ω2 , F2 ) und eine messbare Abbildung f : Ω1 → Ω2 . Ist B ∈ F2 , so ist nach Definition der Messbarkeit onnen f −1 (B) ∈ F1 , und wir k¨ µ(f −1 (B)) bestimmen. F¨ uhren wir dies f¨ ur jedes B ∈ F2 durch, erhalten wir ein Maß auf Ω2 : Definition 1.42 (Bildmaß). Ist (Ω1 , F1 , µ) ein Maßraum, (Ω2 , F2 ) ein Messraum und f : Ω1 → Ω2 messbar, so heißt µf : F2 → [0, ∞], B → µf (B) := µ(f −1 (B)) Bildmaß µf von µ unter f .
26
1 Grundlagen der Maßtheorie
Aus der Operationstreue der Urbildfunktion folgt unmittelbar, dass das Bildmaß tats¨ achlich ein Maß ist. Entscheidend ist die Messbarkeit der Abbildung f , die sicherstellt, dass die Urbilder in der σ-Algebra F1 liegen. Durch eine messbare Abbildung kann folglich ein Maß vom Definitionsbereich auf den Wertebereich transportiert werden. Beispiel 1.43. Betrachten wir (R, B, λ) und (R, B), so erhalten wir durch die stetige und daher messbare Abbildung f : R → R, x → x + a, ein Bildmaß λf auf R. F¨ ur eine Menge A ∈ B ist f −1 (A) = A − a, und daher λf (A) = λ(f −1 (A)) = λ(A − a) = λ(A), A ∈ B, da das Lebesgue-Maß nach Satz 1.41 bewegungsinvariant ist.
♦
2 Das Lebesgue-Integral
2.1 Lebesgue-Integral und Konvergenzs¨ atze Ziel dieses Abschnitts ist die Einf¨ uhrung eines Integralbegriffs f¨ ur messbare Funktionen f : Ω → R. Dieses Integral f¨ uhren wir schrittweise f¨ ur immer gr¨oßere Funktionenklassen ein. Dazu legen wir f¨ ur den weiteren Verlauf folgende Bezeichnungen fest: (Ω, F, µ) sei ein Maßraum. Mit M bezeichnen wir ¯ und M + seien die Menge der messbaren numerischen Funktionen f : Ω → R, die nicht-negativen Funktionen aus M . Zur Erl¨ auterung der Grundidee f¨ ur das so genannte Lebesgue-Integral erinnern wir an die Definition des Riemann-Integrals einer reellen Funktion g : R → R. Dieses erh¨ alt man als Grenzwert von Riemann-Summen. Eine Riemann-Summe ist nichts anderes als das Integral einer elementaren“ Funk” tion, die dadurch entsteht, dass man den Definitionsbereich R von g in kleine Intervalle zerlegt und u ¨ber jedem Intervall einen konstanten Funktionswert, z.B. den Wert von g in der rechten oder linken Intervallgrenze, betrachtet. Im Falle einer messbaren Funktion f : Ω → R ist jedoch vollkommen unklar, was unter einer Zerlegung in kleine Bereiche des Definitionsbereichs Ω zu verstehen w¨ are. Daher besteht die Grundidee darin, den Wertebereich R von f in kleine Intervalle zu zerlegen und so zu approximierenden elementaren“ ” Funktionen, den Treppenfunktionen, zu gelangen. Das Integral f¨ ur Treppenfunktionen Ist f : Ω → R eine Funktion mit endlichem Bild f (Ω) = {y1 , . . . , yn }, so hat f die Darstellung f = y1 IA1 + . . . + yn IAn mit Ai := f −1 (yi ), i = 1, . . . , n. Daher definieren wir:
28
2 Das Lebesgue-Integral
Definition 2.1 (Treppenfunktion). Ist (Ω, F, µ) ein Maßraum und f : Ω → R eine messbare Funktion, so dass f¨ ur ein n ∈ N und Ai ∈ F, i = 1, . . . , n, gilt: f = y1 IA1 + . . . + yn IAn , so heißt f Treppenfunktion. Die Menge der Treppenfunktionen f : Ω → R bezeichnen wir mit T , die Teilmenge der nicht-negativen Treppenfunktionen mit T + . Ist f ∈ T + , so hat f eine Darstellung f = y1 IA1 + . . . + yn IAn mit Ai ∈ F, yi ≥ 0, i = 1, . . . , n. Das Lebesgue-Integral f dµ von f nach µ definieren wir durch f dµ := y1 µ(A1 ) + . . . + yn µ(An ). Besitzt f eine weitere Darstellung der Gestalt f = z1 IB1 + . . . + zn IBm mit Bi ∈ F, zi ≥ 0, i = 1, . . . , m, ¨ so folgt durch Ubergang zur gemeinsamen Verfeinerung Cij := Ai ∩ Bj , i = 1, . . . , n, j = 1, . . . , m, dass y1 µ(A1 ) + . . . + yn µ(An ) = z1 µ(B1 ) + . . . + zm µ(Bm ) gilt. Mit anderen Worten, das Integral h¨ angt nicht von der speziellen Wahl der Darstellung von f ∈ T + ab und ist daher wohldefiniert. Die einfachste ur ihr Integral folgt Treppenfunktion ist die Indikatorfunktion IA , A ∈ F. F¨ IA dµ = µ(A). Aus der Definition ergeben sich unmittelbar folgende Eigenschaften des Integrals: (i) Linearit¨ at: F¨ ur f, g ∈ T + und α, β ≥ 0 gilt: (αf + βg)dµ = α f dµ + β gdµ. (ii) Monotonie: Sind f, g ∈ T + und f ≤ g, so folgt f dµ ≤ gdµ.
2.1 Lebesgue-Integral und Konvergenzs¨ atze
29
Beispiel 2.2. Als Beispiel berechnen wir das Lebesgue-Integral u ¨ber die Nullfunktion f = 0 = 0 · IR bez¨ uglich des Lebesgue-Maßes λ. Wir erhalten mit (1.6): f dλ =
0 · IR dλ = 0 · λ(R) = 0 · ∞ = 0.
Unsere Konvention 0 · ∞ = 0 erlaubt uns, das Integral u ¨ber die Nullfunktion zu bestimmen. ♦ Das Integral nicht-negativer Funktionen Um den Integralbegriff auf beliebige, nicht-negative Funktionen auszudehnen, verwenden wir folgendes Approximationsresultat: Lemma 2.3. Ist f ∈ M + , so gibt es eine Folge (fn )n∈N von Funktionen aus T + , so dass gilt: fn ↑ f. Beweis. Man kann eine Folge (fn )n∈N von Funktionen aus T + mit fn ↑ f direkt angeben. Dabei bezeichnet x die gr¨ oßte ganze Zahl, die kleiner oder gleich x ist: fn : Ω → R, −n
x → 2
n ∈ N, 2n f (x) ∧ n.
Jetzt ist klar, wie wir das Integral f¨ ur eine Funktion f ∈ M + definieren. Wir nehmen ein Folge von Treppenfunktionen 0 ≤ fn ↑ f gem¨aß Lemma 2.3 und definieren das Lebesgue-Integral von f nach µ durch f dµ := lim fn dµ. n→∞
F¨ ur die Wohldefiniertheit des Integrals ist nachzuweisen, dass das Integral nicht von der Wahl der Folge (fn )n∈N abh¨ angt. Dazu ben¨otigen wir folgendes Lemma: ur eine Folge Lemma 2.4. Sei f ∈ M + und g ∈ T + mit g ≤ f . Dann gilt f¨ (fn ) von Funktionen aus T + : Ist fn ↑ f, so folgt lim fn dµ ≥ gdµ. n→∞
Beweis. Wegen der Linearit¨ at des Integrals k¨ onnen wir ohne Einschr¨ankung g = IA , A ∈ F annehmen. Es folgt f (x) ≥ 1 f¨ ur alle x ∈ A und somit f¨ ur ein festes ε > 0: An := {x ∈ A : fn (x) ≥ 1 − ε} ↑ A,
30
2 Das Lebesgue-Integral
und nach Definition der An fn ≥ (1 − ε)IAn ,
n ∈ N.
Daher folgt mit der Monotonie des Integrals und wegen der Stetigkeit von unten: fn dµ ≥ (1 − ε)IAn dµ = (1 − ε)µ(An ) ↑ (1 − ε)µ(A) = (1 − ε) gdµ. F¨ ur ε → 0 folgt die Behauptung.
¨ Die Wohldefiniertheit des Integrals erh¨ alt man nun aus folgender Uberlegung: Korollar 2.5. Sind (fn )n∈N , (gn )n∈N zwei monoton wachsende Folgen von Funktionen aus T + mit lim fn = lim gn , n→∞
so gilt:
n→∞
fn dµ = lim
lim
n→∞
gn dµ.
n→∞
Beweis. Nach Voraussetzung ist f¨ ur jedes k ∈ N gk ≤ lim fn , daher folgt aus n→∞ Lemma 2.4 gk dµ ≤ lim ur alle n ∈ N, fn dµ f¨ n→∞
also lim
k→∞
gk dµ ≤ lim
n→∞
fn dµ.
Durch Vertauschung der Rollen von (fn )n∈N und (gn )n∈N folgt die umgekehrte Ungleichung. angt nach dem gerade gezeigten Das Integral f dµ einer Funktion f ∈ M + h¨ Korollar nicht von der gew¨ ahlten Folge von approximierenden Treppenfunktionen ab und ist somit wohldefiniert. Linearit¨ at und Monotonie gelten ebenfalls wie bei den Treppenfunktionen: Satz 2.6. F¨ ur f, g ∈ M + und α, β ≥ 0 gilt: (i) Linearit¨ at:
(αf + βg)dµ = α
f dµ + β
gdµ.
(ii) Monotonie: Ist f ≤ g, so folgt: f dµ ≤ gdµ. Beweis. Sind (fn ), (gn ) zwei Folgen von Funktionen aus T + mit fn ↑ f und gn ↑ g, so folgt αfn + βgn ↑ αf + βg. Zusammen mit der Linearit¨at des Lebesgue-Integrals f¨ ur die approximierenden Treppenfunktionen (fn ), (gn ) folgt Behauptung (i). Genauso gilt im Fall f ≤ g, dass fn ≤ (fn ∨ gn ) ↑ g, woraus wiederum mit der Monotonie des Lebesgue-Integrals f¨ ur Treppenfunktionen Behauptung (ii) folgt.
2.1 Lebesgue-Integral und Konvergenzs¨ atze
31
Monotone Konvergenz und Lemma von Fatou Die Konvergenzs¨ atze der Maßtheorie beschreiben das Verhalten des LebesgueIntegrals beim Vertauschen von Grenzwertbildung und Integration. Der nachfolgende Satz von der monotonen Konvergenz ist einer der am h¨aufigsten verwendeten Konvergenzs¨ atze: Theorem 2.7 (Satz von der monotonen Konvergenz). F¨ ur eine monoton wachsende Folge (fn )n∈N von Funktionen aus M + gilt: lim lim fn dµ. fn dµ = n→∞
n→∞
Beweis. Wir setzen f := lim fn = sup fn . Dann ist f nach Satz 1.30 n→∞
n→∞
messbar. Nach Voraussetzung ist ur alle n ∈ N, aus der Monoto fn ≤ f f¨ nie des Integrals folgt fn dµ ≤ f dµ, und somit lim fn dµ ≤ f dµ. n→∞
F¨ ur den Beweis der umgekehrten Ungleichung sei (en )n∈N eine Folge von ur ein c > 1 und festes k ∈ N definieren Funktionen aus T + mit en ↑ f . F¨ wir An := {cfn ≥ ek } und erhalten An ↑ Ω und cfn ≥ ek IAn ↑ ek . Nach Definition des Integrals und aus der Monotonie folgt: ek dµ = lim ek IAn dµ ≤ c lim fn dµ. n→∞
n→∞
Da c > 1 beliebig ist, folgt sogar f¨ ur jedes k ∈ N ek dµ ≤ lim fn dµ. n→∞
Insbesondere gilt f¨ ur den Limes f dµ = lim ek dµ ≤ lim fn dµ. k→∞
n→∞
Als Folgerung aus Theorem 2.7 erhalten wir die Vertauschbarkeit von Reihenbildung und Integration: Korollar 2.8. F¨ ur jede Folge (fn )n∈N von Funktionen aus M + gilt: ∞ ∞ fi dµ = fi dµ. i=1
i=1
32
2 Das Lebesgue-Integral
Beweis. Die Behauptung folgt in Verbindung mit der Linearit¨at des LebesgueIntegrals unmittelbar durch Anwendung des Theorems 2.7 auf die Folge der n fi . Partialsummen gn := i=1
Beispiel 2.9. Dieses Beispiel soll zeigen, dass die Aussage des Theorems von der monotonen Konvergenz ohne die Voraussetzung der Monotonie falsch wird. Dazu betrachten wir die Funktionenfolge (fn ) mit fn := n1 I[0,n] , n ∈ N, auf dem Maßraum (R, B, λ).Die Folge (fn ) konvergiert gleichm¨aßig auf ganz R gegen 0, andererseits gilt fn dλ = 1. Damit erhalten wir: 1 = lim fn dλ = 0dλ = 0. n→∞
♦ Als weiteres Korollar erhalten wir die folgende Ungleichung, bekannt als das Lemma von Fatou: Theorem 2.10 (Lemma von Fatou). F¨ ur jede Folge von Funktionen (fn )n∈N aus M + gilt: lim inf fn dµ ≥ lim inf fn dµ. n→∞
n→∞
Beweis. Wir setzen f := lim inf fn und gn := inf fk , n ∈ N. Dann gilt gn ↑ f n→∞
k≥n
und daher nach Satz 2.7 von der monotonen Konvergenz: gn dµ = f dµ. lim
(2.1)
Nach Definition der gn ist f¨ ur alle k ≥ n aber gn ≤ fk , und daher gn dµ ≤ inf fk dµ.
(2.2)
n→∞
k≥n
Bilden wir den Limes n → ∞, so folgt aus (2.1) und (2.2): f dµ = lim gn dµ ≤ lim inf fk dµ = lim inf fn dµ. n→∞
n→∞ k≥n
n→∞
Integrierbare Funktionen Als letzten Schritt erweitern wir den Integral-Begriff auf Funktionen, die sowohl positive als auch negative Werte annehmen. Wir erinnern daran, dass ¯ geschrieben werden kann als jede messbare, numerische Funktion f : Ω → R Differenz von Positiv- und Negativteil:
2.1 Lebesgue-Integral und Konvergenzs¨ atze
33
f = f + − f −, wobei f + und f − Elemente aus M + sind. Daher ist es nahe liegend, das Integral von f durch + f dµ − f − dµ festzulegen. Wir m¨ ussen dabei jedoch ausschließen, dass wir die nicht-definierte Operation ∞ − ∞“ ausf¨ uhren. Daher definieren wir: ” Definition 2.11 ((quasi-)integrierbar, Lebesgue-Integral). ¯ eine messbare numerische Funktion. Die Funktion f heißt Sei f : Ω → R (µ-)quasi-integrierbar, falls f + dµ < ∞ oder f − dµ < ∞. Ist f (µ-)quasiintegrierbar, so ist durch f dµ := f + dµ − f − dµ das Lebesgue-Integral von f definiert. Gilt f + dµ < ∞ und f − dµ < ∞, so heißt f (µ-)integrierbar. Das Lebesgue-Integral einer integrierbaren Funktion ist demnach endlich, w¨ahrend bei einer quasi-integrierbaren Funktion auch die Werte ±∞ m¨oglich sind. Wegen |f | = f + + f − ist die Integrierbarkeit von f ¨aquivalent zur Integrierbarkeit von |f |. Ist A ∈ F eine messbare Teilmenge, so f¨ uhrt man f¨ ur das Integral u ¨ber f · IA eine spezielle Bezeichnung ein: f dµ := f IA dµ. A
Linearit¨ at und Monotonie gelten auch f¨ ur das allgemeine Lebesgue-Integral: ¯ integrierbare numerische Funktionen und Satz 2.12. Sind f, g : Ω → R α, β ∈ R, so gilt: (i) Linearit¨ at: αf + βg ist integrierbar und (αf + βg)dµ = α f dµ + β gdµ. (ii) Monotonie: Ist f ≤ g, so folgt (iii) F¨ ur jedes A ∈ F gilt:
f dµ ≤
gdµ.
f dµ +
f dµ = A
f dµ. Ac
34
2 Das Lebesgue-Integral
Beweis. Die Linearit¨ at und Monotonie folgen unter Ber¨ ucksichtigung der Vorzeichen von α und β durch Anwendung der entsprechenden Aussagen aus Satz 2.6 auf f + ∈ M + und f − ∈ M + . Die dritte Aussage folgt aus der Linearit¨at und der Gleichung f = f IA + f IAc . Die Standardprozedur Es gibt ein Beweisprinzip f¨ ur maßtheoretische Aussagen, das quasi automatisch abl¨ auft und daher als Standardprozedur ( standard machine“ nach ” Williams [Wil91]) bezeichnet wird. Wir f¨ uhren dieses Prinzip zur Erl¨auterung an einem einfachen Beispiel, der Integration nach dem Z¨ahlmaß (vgl. Beispiel 1.34) durch. Dazu bezeichnen wir f¨ ur ein f ∈ M + die Menge {f > 0} als Tr¨ ager von f . Besitzt f einen abz¨ ahlbaren Tr¨ ager, so sind Terme der Gestalt f (ω), A ∈ F, ω∈A
sinnvoll, da h¨ ochstens abz¨ ahlbar viele Terme gr¨oßer als Null sind. ahlmaß. Dann gilt Satz 2.13. Es sei (Ω, F, µZ ) ein Maßraum und µZ das Z¨ ahlbarem Tr¨ ager: f¨ ur jedes f ∈ M + mit abz¨ f dµZ = f (ω), A ∈ F. ω∈A
A
Beweis. Wir nehmen zun¨ achst f = IB , B ∈ F, an. Dann ist B = {f > 0} abz¨ ahlbar und nach Definition des Z¨ ahlmaßes f dµZ = µZ (A ∩ B) = |A ∩ B| = f (ω). ω∈A
A
Ist f =
n i=1
ci IBi , ci ≥ 0, Bi ∈ F, i = 1, . . . , n eine nicht-negative Treppen-
funktion, so ist
n
Bi abz¨ ahlbar, und es folgt aus der Linearit¨at des Integrals
i=1
sowie dem bereits Bewiesenen: n n f dµZ = ci IBi dµZ = ci IBi (ω) = f (ω). i=1
A
A
i=1
ω∈A
ω∈A
Ist schließlich f ∈ M + mit abz¨ ahlbarem Tr¨ ager, so gibt es nach Lemma 2.3 nicht-negative Treppenfunktionen (en ), so dass en ↑ f . Dann haben alle en , n ∈ N, abz¨ ahlbaren Tr¨ ager, und nach dem Satz von der monotonen Konvergenz 2.7 sowie dem bereits Bewiesenen folgt: f dµZ = lim en dµZ = lim en (ω) = f (ω). n→∞
A
n→∞
A
ω∈A
ω∈A
2.1 Lebesgue-Integral und Konvergenzs¨ atze
35
Das allgemeine Beweisprinzip, das wir in obigem Beweis vorgef¨ uhrt haben, l¨asst sich folgendermaßen beschreiben:
Standardprozedur: Wir wollen eine Behauptung f¨ ur eine Funktionenklasse beweisen: (i) Wir zeigen die Behauptung f¨ ur alle Indikatorfunktionen f = IA , A ∈ F. (ii) Wir benutzen Linearit¨ at, um die Behauptung f¨ ur alle f ∈ T + zu zeigen. (iii) Aus dem Satz von der monotonen Konvergenz 2.7 folgt die Behauptung f¨ ur alle f ∈ M + . (iv) Gelegentlich k¨ onnen wir wegen f = f + − f − , f + , f − ∈ M + noch einen Schritt weiter gehen und die Behauptung auf diesem Weg f¨ ur alle inte¯ zeigen. grierbaren numerischen Funktionen f : Ω → R In der Regel ist die Behauptung f¨ ur Indikatorfunktionen nach Voraussetzung richtig oder der einzige Schritt, der gezeigt werden muss. Der Rest folgt dem oben beschriebenen Schema. Wir werden in Beweisen gelegentlich auf diese Standardprozedur zur¨ uckgreifen. Dominierte Konvergenz Der folgende Satz von der dominierten Konvergenz ist neben dem Satz von der monotonen Konvergenz der zweite wichtige Konvergenz-Satz der klassischen Maßtheorie. Bemerkenswert ist, dass f¨ ur die entsprechenden Aussagen der Analysis f¨ ur das Riemann-Integral im Allgemeinen gleichm¨aßige Konvergenz vorausgesetzt werden muss, w¨ ahrend f¨ ur das Lebesgue-Integral punktweise Konvergenz ausreicht. Theorem 2.14 (Satz von der dominierten Konvergenz, Pratt). Seien f ,g sowie (fn ), (gn ), messbare numerische Funktionen auf einem Maßur alle n ∈ N. Sind g und raum (Ω, F, µ) mit fn → f , gn → g und |fn | ≤ gn f¨ ur alle n ∈ N integrierbar und gilt gn f¨ lim gn dµ = gdµ, n→∞
so sind f und fn f¨ ur alle n ∈ N integrierbar, und es gilt: lim fn dµ = f dµ. n→∞
Beweis. Aus |fn | ≤ gn und der Integrierbarkeit von gn folgt die Integrierbarur jedes n ∈ N und wegen |f | ≤ g die Integrierbarkeit von f . keit von fn f¨ Wenden wir das Lemma von Fatou 2.10 auf die Funktionen gn + fn ≥ 0 und gn − fn ≥ 0 an, so erhalten wir
36
2 Das Lebesgue-Integral
gdµ+lim inf n→∞
bzw.
(gn +fn )dµ ≥
fn dµ = lim inf n→∞
gdµ + lim inf n→∞
Subtraktion von
g+f dµ =
gdµ+
f dµ
(−fn )dµ = lim inf (gn − fn )dµ n→∞ ≥ g − f dµ = gdµ − f dµ.
gdµ < ∞ in beiden Ungleichungen ergibt lim inf fn dµ ≥ f dµ n→∞
bzw. lim inf n→∞
was ¨ aquivalent ist zu:
(2.3)
−fn dµ ≥ −
fn dµ ≤
lim sup n→∞
f dµ,
f dµ.
(2.4)
Aus (2.3) und (2.4) folgt: f dµ ≤ lim inf fn dµ ≤ lim sup fn dµ ≤ f dµ. n→∞
n→∞
Integrale, Nullmengen und µ-fast sichere Eigenschaften Wir erinnern an die Bezeichnung µ-Nullmenge f¨ ur eine Menge A ∈ F mit µ(A) = 0. Der Wert einer Funktion auf einer Nullmenge spielt f¨ ur das Lebesgue-Integral keine Rolle, wie der folgende Satz zeigt. Satz 2.15. F¨ ur f ∈ M + ist
f dµ = 0
genau dann, wenn der Tr¨ ager {f > 0} von f eine µ-Nullmenge ist. Beweis. Wir definieren A := {f > 0} und An := {f > n1 } f¨ ur alle n ∈ N. ur alle Dann ist An ↑ A. Setzen wir f dµ = 0 voraus, so folgt aus n1 IAn ≤ f f¨ n ∈ N: 1 1 IA dµ ≤ f dµ = 0. 0 ≤ µ(An ) = n n n Aus µ(An ) = 0 f¨ ur alle n ∈ N und An ↑ A folgt µ(A) = µ({f > 0}) = 0. F¨ ur die umgekehrte Schlussrichtung setzen wir µ(A) = 0 voraus. Aus f ≤ ∞IA und der Monotonie folgt:
2.2 Vergleich von Riemann- und Lebesgue-Integral
0≤
37
f dµ ≤
∞IA dµ = ∞ · 0 = 0.
Wir k¨ onnen die eben bewiesene Aussage auch so formulieren: f dµ = 0 genau dann, wenn es eine Nullmenge N gibt, so dass f |N c = 0. Diese auf den ersten Blick etwas umst¨ andliche Formulierung beschreibt eine Situation, die man in der Maßtheorie h¨ aufig antrifft. Eine Eigenschaft gilt u ¨berall außer auf einer Menge vom Maß 0. Um die umst¨ andliche Formulierung es gibt eine ” uhren wir eine Sprechweise Nullmenge N , so dass auf N c . . . “ zu vermeiden, f¨ ein: Definition 2.16 (µ-fast u ur die Elemente ¨ berall). Die Eigenschaft E sei f¨ ω ∈ Ω eines Maßraums (Ω, F, µ) sinnvoll. Dann sagt man, die Eigenschaft E gilt (µ-)fast u urzung: (µ-)f.¨ u.), wenn es eine Nullmenge N ∈ F ¨berall (Abk¨ gibt, so dass E f¨ ur alle ω ∈ N c gilt. Um mit dieser Redeweise vertraut zu werden, geben wir einige Beispiele. F¨ ur zwei Funktionen f, g : Ω → R gilt f = g µ-f.¨ u., wenn es eine Nullmenge N ¯ ist fast gibt, so dass f |N c = g|N c . Eine numerische Funktion f : Ω → R c u ¨berall endlich, wenn es eine Nullmenge N gibt, so dass f (N ) ⊂ R. Satz 2.15 l¨asst sich jetzt kurz und b¨ undig so formulieren: F¨ ur f ∈ M + gilt: f dµ = 0 ⇐⇒ f = 0 µ-f.¨ u. In der Wahrscheinlichkeitstheorie werden wir statt fast u ¨berall“ die Bezeich” nung fast sicher“ verwenden, die im Zusammenhang mit Wahrscheinlichkei” ten intuitiver ist.
2.2 Vergleich von Riemann- und Lebesgue-Integral In diesem Abschnitt untersuchen wir die Beziehungen zwischen dem RiemannIntegral und dem Lebesgue-Integral. Beim Riemann-Integral stehen mit dem Hauptsatz der Differential- und Integralrechnung und abgeleiteten Regeln wie Substitution und partielle Integration gute Instrumente zur Verf¨ ugung, um Integrale auszurechnen. Wie u ¨blich bezeichnen wir mit b f (x)dx a
das Riemann-Integral.
38
2 Das Lebesgue-Integral
Ein Beispiel zur Motivation Wir betrachten den Maßraum (R, B, λ). Als Beispiel wollen wir die stetige Funktion f : R → R, x → x2 u ¨ber dem Intervall [0, 1] Riemann- und Lebesgueintegrieren. Das Riemann-Integral ergibt:
1
1 3 x x dx = 3
1
2
0
= 0
1 . 3
Zur Bestimmung des Lebesgue-Integrals geben wir eine Folge monoton wachsender Treppenfunktionen an: fn : R → R, fn (x) :=
n ∈ N, 2 j I] jn , j+1 (x). 2 2n ] 2n
n 2 −1
j=0
ur alle n ∈ N und fn ↑ f I[0,1] , so dass wir mit Hilfe von Dann ist fn ∈ T + f¨ onnen: (fn ) das Lebesgue-Integral bestimmen k¨ fn dλ =
n 2 −1
j=0
j 2n
2
j+1 j − n 2n 2
2 −1 1 2 j = 3n 2 j=0 n
1 (2n − 1)2n (2 · (2n − 1) + 1) 23n 6 2 · 23n 1 1 = 1 − 1 − 6 · 23n 2n 2n+1 1 −→ = f dλ. 3 =
[0,1]
In diesem Fall stimmen beide Integrale u ¨berein, allerdings ist die Berechnung des Lebesgue-Integrals einer ganz einfachen Funktion durch R¨ uckf¨ uhrung auf die Definition recht m¨ uhsam. Das gilt nat¨ urlich auch f¨ ur das Riemann-Integral, aber durch den Hauptsatz der Differential- und Integralrechnung k¨onnen wir Riemann-Integrale durch Stammfunktionen bestimmen. Gleichheit von Riemann- und Lebesgue-Integral Die obige Rechnung verdeutlicht, wie n¨ utzlich es w¨are, wenn man zur konkreten Berechnung Lebesgue-Integrale auf Riemann-Integrale zur¨ uckf¨ uhren k¨onnte. Dies erlaubt der nachfolgende Satz.
2.2 Vergleich von Riemann- und Lebesgue-Integral
39
Satz 2.17. Sei f : R → R messbar und u ¨ber dem Intervall [a, b] ⊂ R Riemann-integrierbar. Dann ist f Lebesgue-integrierbar, und es gilt: b
f dλ =
f (x)dx. a
[a,b]
Beweis. Sei ε > 0. Nach Definition des Riemann-Integrals konvergieren die Riemannsche Ober- und Untersumme gegen den Integralwert. Wir finden demnach eine Zerlegung des Intervalls [a, b] in a = x0 < x1 < . . . < xn = b, so dass mit den Bezeichnungen Mi :=
sup
xi−1 ≤x<xi
f (x) und mi :=
inf
xi−1 ≤x<xi
f (x), i = 1, . . . , n,
gilt: Un :=
n
b mi (xi − xi−1 ) ≤
i=1
und
f (x)dx ≤
n
Mi (xi − xi−1 ) =: On
i=1
a
0 ≤ On − Un < ε.
Zur Berechnung des Lebesgue-Integrals betrachten wir die von der Obersumme bzw. Untersumme beschriebene Treppenfunktion: fu :=
n
mi I[xi−1 ,xi [ ,
fo :=
n
i=1
Mi I[xi−1 ,xi [ .
i=1
Es folgt unmittelbar fu ≤ f ≤ fo
und Un = Damit erhalten wir
fu dλ ≤
f dλ ≤
fo dλ = On .
b f (x)dx ≤ On − Un < ε. f dλ − a
Da ε > 0 beliebig war, ist die Behauptung gezeigt.
Auch f¨ ur uneigentliche Integrale stimmen Lebesgue-Integral und RiemannIntegral oft u ¨berein: Satz 2.18. Es sei I ⊂ R ein Intervall und f : I → R eine messbare und auf jedem kompakten Teilintervall von I Riemann-integrierbare Funktion. f ist genau dann Lebesgue-integrierbar, wenn |f | u ¨ber I uneigentlich Riemannintegrierbar ist, und dann gilt: f dλ = f (x)dx. I
I
40
2 Das Lebesgue-Integral
Beweis. Es sei I =]a, b[, −∞ ≤ a < b ≤ ∞ und (an ) sowie (bn ) zwei Folgen mit an ↓ a, bn ↑ b. Satz 2.17 sowie Satz 2.7 von der monotonen Konvergenz ergeben: bn |f (x)|dx = lim |f |I[an ,bn ] dλ = |f |dλ. lim n→∞ an
n→∞
I
I
Ist |f | auf I uneigentlich Riemann-integrierbar, d.h. der linke Term endlich, so schließen wir in obiger Gleichung von links nach rechts auf die LebesgueIntegrierbarkeit von |f | und damit von f . Ist f Lebesgue-integrierbar u ¨ber I, schließen wir umgekehrt von rechts nach links auf die uneigentliche RiemannIntegrierbarkeit von |f | u ¨ber I. Die Gleichheit der beiden Integrale ergibt sich f¨ ur uneigentlich Riemann-integrierbares |f | durch den Satz 2.14 von der dominierten Konvergenz und Satz 2.17: b
bn f (x)dx = lim
n→∞ an
a
f (x)dx = lim
f I[an ,bn ] dλ =
n→∞ I
f dλ. I
Der Beweis f¨ ur halboffene Intervalle I verl¨ auft v¨ollig analog.
Unterschiede zwischen Riemann- und Lebesgue-Integral Obwohl wir f¨ ur viele Funktionen den Satz 2.17 verwenden k¨onnen, gibt es durchaus Funktionen, die Lebesgue-integrierbar sind, aber nicht Riemannintegrierbar. Beispiel 2.19. Die wohl bekannteste nicht Riemann-integrierbare Funktion ist die Indikatorfunktion der rationalen Zahlen: IQ : R → R, 1 f¨ ur x ∈ Q, x → 0 f¨ ur x ∈ / Q. ¨ Uber jedem Intervall [a, b] konvergieren die Riemannschen Untersummen gegen 0 und die Riemannschen Obersummen gegen 1. F¨ ur das Lebesgue-Integral hingegen gilt, da Q eine λ-Nullmenge ist: IQ dλ = I[a,b]∩Q dλ = λ([a, b] ∩ Q) = 0. [a,b]
♦ Auch die Konvergenzs¨ atze f¨ ur das Lebesgue-Integral sind f¨ ur das RiemannIntegral im Allgemeinen falsch, wie das n¨ achste Beispiel zeigt. Die G¨ ultigkeit der Konvergenzs¨ atze f¨ ur das Lebesgue-Integral ist ein wesentlicher Vorteil dieser Theorie.
2.2 Vergleich von Riemann- und Lebesgue-Integral
41
Beispiel 2.20. Es sei Q = {q1 , q2 , . . .} eine Abz¨ahlung der rationalen Zahlen. Wir betrachten die Funktionenfolge fn : [0, 1] → R, n ∈ N, 1 f¨ ur x ∈ {q1 , . . . , qn }, x → 0 f¨ ur x ∈ / {q1 , . . . , qn }. Dann ist (fn ) eine monoton wachsende, durch 1 beschr¨ankte Folge Riemannintegrierbarer Funktionen mit fn ↑ IQ∩[0,1] . Die Integrale fn dx = 0 konvergieren gegen 0, aber die Grenzfunktion IQ∩[0,1] ist nicht Riemann-integrierbar. Daher gelten die zum Satz von der monotonen Konvergenz und zum Satz von der dominierten Konvergenz analogen Aussagen f¨ ur das Riemann-Integral nicht. Der springende Punkt ist, dass punktweise Konvergenz f¨ ur das RiemannIntegral zu schwach ist. Daher wird in den entsprechenden Aussagen der Analysis gleichm¨ aßige Konvergenz vorausgesetzt. ♦ Beispiel 2.21. Das klassische Beispiel f¨ ur eine uneigentlich Riemann-integrierbare, aber nicht Lebesgue-integrierbare Funktion ist die Funktion f : ]0, ∞[ −→ R,
x →
sin(x) . x
f ist stetig und daher auf jedem Intervall I ⊂ ]0, ∞[ Riemann-integrierbar. F¨ ur b > a > 0 folgt durch partielle Integration b b b sin(x) − cos(x) b 1 1 cos(x) 1 2 dx = − dx ≤ + + dx = . 2 2 x x x x a a b a a
a
Sei ε > 0, so folgt f¨ ur b > a >
a
2 ε
b sin(x) 2 dx ≤ < ε, x a a
so dass nach dem Cauchy-Kriterium f auf ]0, ∞[ uneigentlich integrierbar ist. Dies gilt jedoch nicht f¨ ur |f |, denn: n sin(x) 1 dx ≥ x (i + 1)π
(n+1)π
π
i=1
(i+1)π
| sin(x)|dx = iπ
n 2 1 −→ ∞. π i=1 i + 1 n→∞
Nach Satz 2.18 ist f auf ]0, ∞[ nicht Lebesgue-integrierbar.
♦
42
2 Das Lebesgue-Integral
2.3 Der Satz von Fubini Produktr¨ aume Es seien (Ω1 , F1 , µ) und (Ω2 , F2 , ν) zwei Maßr¨aume. Wie kann man einen Produktmaßraum auf Ω1 × Ω2 definieren? Wir erinnern an die von den Zylindermengen erzeugte Produkt-σ-Algebra F1 ⊗ F2 := σ({p−1 j (Aj ) : Aj ∈ Fj , j = 1, 2}). Insbesondere ist F1 ⊗ F2 = σ({A × B : A ∈ F1 , B ∈ F2 }), also {A×B : A ∈ F1 , B ∈ F2 } ein durchschnittsstabiler Erzeuger von F1 ⊗F2 . Unser Ziel ist es, aus den Maßen µ auf F1 und ν auf F2 ein Maß µ ⊗ ν auf ur das F1 ⊗ F2 zu erhalten, f¨ (µ ⊗ ν)(A × B) = µ(A) · ν(B) gilt. F¨ ur die Definition eines solchen Produktmaßes ben¨otigen wir das folgende Lemma: Lemma 2.22. Seien (Ω1 , F1 ) und (Ω2 , F2 ) Messr¨ aume und f : Ω1 ×Ω2 → R+ eine nicht-negative, (F1 ⊗ F2 )-messbare Funktion. Dann gilt: (i) Die Funktion f (., ω2 ) : Ω1 → R, ω1 → f (ω1 , ω2 ) ist f¨ ur jedes ω2 ∈ Ω2 F1 -messbar. (ii) Ist µ ein σ-endliches Maß auf F1 , so ist Ω2 → R, ω2 → f (ω1 , ω2 )dµ(ω1 ) eine F2 -messbare Funktion. Beweis. (i) Zu einem fixierten ω2 ∈ Ω2 betrachten wir die Inklusion ι : Ω1 −→ Ω1 × Ω2 ,
ω1 → (ω1 , ω2 ).
Die Inklusion ι ist offensichtlich F1 -(F1 ⊗F2 )-messbar, daher ist die Komposition f (., ω2 ) = f ◦ ι F1 -messbar.
2.3 Der Satz von Fubini
43
(ii) Wegen der σ-Endlichkeit von µ k¨ onnen wir ohne Einschr¨ankung µ(Ω1 ) < ∞ annehmen. Nach Teil (i) ist D := {C ∈ F1 ⊗ F2 : ω2 → IC (ω1 , ω2 )dµ(ω1 ) ist F2 -messbar} sinnvoll definiert und ein λ-System, das E = {A × B : A ∈ F1 , B ∈ F2 } enth¨ alt. Damit folgt nach dem π-λ-Lemma 1.20, dass σ(E) = F1 ⊗F2 = D . Damit ist die zweite Behauptung f¨ ur alle Indikatorfunktionen fC , C ∈ F1 ⊗ F2 gezeigt. Der allgemeine Fall folgt nach unserer Standardprozedur. Produktmaße Wir k¨ onnen nun mit Hilfe des Lebesgue-Integrals ein Produktmaß definieren. Da dabei zwei Variablen eine Rolle spielen, schreiben wir wie bereits im obigen Lemma f (ω1 , ω2 )dµ(ω1 ) bzw. f (ω1 , ω2 )dν(ω2 ), um deutlich zu machen, ob die Integration in ω1 oder in ω2 stattfindet. Theorem 2.23 (Produktmaß). Zu zwei Maßr¨ aumen (Ω1 , F1 , µ) und (Ω2 , F2 , ν) mit σ-endlichen Maßen µ und ν gibt es genau ein Maß µ ⊗ ν auf (Ω1 × Ω2 , F1 ⊗ F2 ), so dass gilt: (µ ⊗ ν)(A × B) = µ(A) · ν(B),
A ∈ F1 , B ∈ F2 .
(2.5)
Außerdem gilt f¨ ur jedes C ∈ F1 ⊗ F2 : (µ ⊗ ν)(C) = IC (ω1 , ω2 )dµ(ω1 ) dν(ω2 ) = IC (ω1 , ω2 )dν(ω2 ) dµ(ω1 ). Beweis. Wir nehmen die letzte Behauptung als Definition f¨ ur das Produktmaß: (µ ⊗ ν)(C) := IC (ω1 , ω2 )dµ(ω1 ) dν(ω2 ), C ∈ F1 ⊗ F2 . Dadurch haben wir ein Maß auf F1 ⊗ F2 definiert, das der Bedingung (2.5) gen¨ ugt. Drehen wir in der Definition von µ⊗ν die Integrationsreihenfolge um, so ist Bedingung (2.5) immer noch erf¨ ullt. Da {A × B : A ∈ F1 , B ∈ F2 } ein π-System ist, folgt aus Theorem 1.38, dass es h¨ochstens ein Maß auf F1 ⊗F2 geben kann, das der Bedingung (2.5) gen¨ ugt. Daraus folgt die behauptete Gleichung f¨ ur jedes C ∈ F1 ⊗ F2 .
44
2 Das Lebesgue-Integral
Der Satz von Fubini Wir haben in obigem Theorem bereits gesehen, dass es bei der Integration der Indikatorfunktion keine Rolle spielt, in welcher Reihenfolge wir das Doppelintegral ausf¨ uhren. Das nachfolgende Theorem, als Satz von Fubini bekannt, zeigt, dass dies auch allgemein der Fall ist. Theorem 2.24 (Satz von Fubini). Es seien (Ω1 , F1 , µ) und (Ω2 , F2 , ν) zwei Maßr¨ aume mit σ-endlichen Maßen µ und ν. Ist f : Ω1 × Ω2 → R eine nicht-negative, messbare Funktion oder eine (µ ⊗ ν)-integrierbare Funktion, so gilt: f (ω1 , ω2 )dν(ω2 ) dµ(ω1 ). f d(µ⊗ν) = f (ω1 , ω2 )dµ(ω1 ) dν(ω2 ) = (2.6) Beweis. Den Hauptteil der Arbeit haben wir bereits getan. Wir wissen nach Theorem 2.23, dass (2.6) f¨ ur jede Indikatorfunktion stimmt. Der Rest folgt, bis auf ein kleines technisches Detail, nach unserer Standardprozedur. Zun¨ achst gilt die Behauptung wegen Linearit¨ at und dem Satz 2.7 von der monotonen Konvergenz f¨ ur jede nicht-negative messbare Funktion. Ist f (µ ⊗ ν)integrierbar, so folgt die Behauptung im Wesentlichen durch Subtraktion der ucksichtigen, dass wir die Gleichung f¨ ur f + und f − . Allerdings ist zu ber¨ Operation ∞ − ∞ vermeiden m¨ u ssen. Da die Gleichung (2.6) f¨ ur |f | gilt, folgt, dass N1 := {ω1 ∈ Ω1 : |f (ω1 , ·)|dν = ∞} eine µ-Nullmenge und N2 := {ω2 ∈ Ω2 : |f (·, ω2 )|dµ = ∞} eine ν-Nullmenge ist. Nach Satz 2.15 k¨ onnen wir f (ω1 , ω2 ) := 0 setzen, wenn ω1 ∈ N1 oder ω2 ∈ N2 ist, ohne den Wert des Integrals zu ver¨ andern. Jetzt sind wir auf der sicheren Seite, und die behauptete Gleichung f¨ ur (µ ⊗ ν)-integrierbares f folgt aus Subtraktion der Gleichungen f¨ ur f + und f − . Beispiel 2.25 (Integral als Fl¨ ache unter dem Graphen). Es sei f : Ω → R+ eine messbare Funktion auf einem Maßraum (Ω, F, µ). Wir betrachten das Lebesgue-Maß (R, B, λ) und das Produktmaß µ ˜ := µ ⊗ λ. Die Menge A := {(ω, x) ∈ Ω × R : 0 ≤ x ≤ f (ω)} kann man sich als die Punkte der Fl¨ ache unter dem Graphen von f vorstellen. F¨ ur die Indikatorfunktion IA erhalten wir: µ({f ≥ x}) f¨ ur x ≥ 0, IA (ω, x)dµ(ω) = IA (ω, x)dλ(x) = f (ω) und 0 f¨ ur x < 0. Damit erhalten wir nach dem Satz von Fubini: µ ˜(A) = f dµ = µ({f ≥ x})dλ. [0,∞[
2.4 Norm-Ungleichungen und Lp -Konvergenz
45
Die erste Gleichung erlaubt uns, das Integral von f als Fl¨ache unter dem Graphen von f zu interpretieren. Die zweite Gleichung werden wir in der Wahrscheinlichkeitstheorie verwenden. ♦
2.4 Norm-Ungleichungen und Lp-Konvergenz Ist f : Ω → R eine messbare Funktion auf einem Maßraum (Ω, F, µ), so ist f¨ ur jedes p > 0 die Funktion |f |p nicht-negativ und messbar, so dass wir f p :=
|f | dµ p
p1
∈ [0, ∞]
definieren k¨ onnen. Die Eigenschaften von ·p werden uns in diesem Abschnitt besch¨ aftigen. Ungleichungen von H¨ older und Minkowski Wichtige Eigenschaften von ·p zeigen sich in Ungleichungen. Theorem 2.26 (Ungleichung von H¨ older). Es sei 1 < p, q < ∞ und 1 1 + = 1. Dann gilt f¨ u r zwei messbare Funktionen f, g : Ω → R: p q f g1 ≤ f p gq . Beweis. Wir beginnen mit einigen Spezialf¨ allen: Ist f p = 0 oder gq = 0, so ist f · g = 0 µ-fast u ur den Fall ¨berall und die Behauptung klar. Ebenso ist f¨ f p gq > 0 und f p = ∞ oder gq = ∞ nichts zu zeigen. Es sei daher 0 < ur diesen Fall ist der folgende Spezialfall f p , gq < ∞. Ausgangspunkt f¨ der Ungleichung zwischen geometrischem und arithmetischem Mittel zweier reeller Zahlen x, y ≥ 0: xα y β ≤ αx + βy,
α, β ≥ 0, α + β = 1.
(2.7)
F¨ ur x = 0 oder y = 0 ist nichts zu zeigen. Sind x, y > 0, so folgt aus der ur alle t > 0): Konkavit¨ at des Logarithmus (ln (t) = − t12 < 0 f¨ α β ln x y = α ln(x) + β ln(y) ≤ ln(αx + βy). Wendet man auf beide Seiten der Ungleichung die Exponentialfunktion an, |f |p |g|q 1 folgt (2.7). Setzen wir f¨ ur x und y die Werte f
p und g q mit α = p und β=
1 q
p
q
ein, so folgt |f ||g| 1 |f |p 1 |g|q · ≤ · . p + f p gq p f p q gqq
Integration auf beiden Seiten liefert auf der rechten Seite der Ungleichung den Wert 1 und damit die Behauptung.
46
2 Das Lebesgue-Integral
Die n¨ achste Ungleichung, die wir aus der H¨ olderschen Ungleichung herleiten, ugt. zeigt, dass ·p der Dreiecksungleichung gen¨ Sind f, g : Ω → R
Theorem 2.27 (Ungleichung von Minkowski). messbar und p ≥ 1, so gilt: f + gp ≤ f p + gp .
Beweis. Genau wie beim Beweis der Ungleichung von H¨older sind einige Spezialf¨ alle offensichtlich: Ist p = 1 oder f p = ∞ oder gp = ∞ oder f + gp = 0, gibt es nichts zu zeigen. Es sei daher p > 1, f p < ∞, gp < ∞ und f + gp > 0. Wir definieren q := (1 − p1 )−1 , so dass p1 + 1q = 1 gilt, und erhalten durch die Ungleichung 2.26 von H¨older: p f + gp = |f + g|p dµ ≤ |f ||f + g|p−1 dµ + |g||f + g|p−1 dµ ≤ (f p + gp ) |f + g|p−1 q . (2.8) Wegen (p − 1)q = p gilt aber: |f + g|p−1 = q
|f + g| dµ p
q1
p
= f + gpq .
Setzen wir dies in (2.8) ein, so erhalten wir p
p
f + gp ≤ (f p + gp ) f + gpq . −p q
Multiplizieren wir beide Seiten mit f + gp
> 0, folgt die Behauptung.
Lp - und Lp -R¨ aume Wir fassen kurz die wichtigsten Resultate u ¨ber Lp -R¨aume aus der Funktionalanalysis zusammen. F¨ ur eine ausf¨ uhrlichere Darstellung verweisen wir auf den Anhang B und die dort zitierte Literatur. Definition 2.28 (Lp -Raum). F¨ ur p ≥ 1 sei Lp := Lp (µ) := Lp (Ω, F, µ) die Menge aller messbaren Funktionen f : Ω → R mit f p :=
|f | dµ p
p1
< ∞.
Lp -R¨ aume lassen sich auch f¨ ur 0 < p < 1 definieren. Da wir diese R¨aume nicht ben¨ otigen, beschr¨ anken wir uns auf den Fall p ≥ 1. L1 = L ist nichts anderes als die Menge aller integrierbaren Funktionen, und Lp ist die Menge der Funktionen f , f¨ ur die |f |p integrierbar ist. Wir wissen bereits, dass ·p die
2.4 Norm-Ungleichungen und Lp -Konvergenz
47
Dreiecksungleichung erf¨ ullt, so dass es nahe liegend ist zu vermuten, dass ·p eine Norm auf Lp ist. Das Problem besteht jedoch darin, dass lediglich f p = 0 ⇐⇒ f = 0 µ-fast u ¨berall gilt. Die Funktion f ist also nur bis auf eine µ-Nullmenge gleich der Nullfunktion. Dieses Problem ist jedoch nur technischer Natur. Setzen wir N := {f : Ω → R : f = 0 µ-fast u ¨berall}, so erhalten wir den Quotientenraum Lp := Lp (µ) := Lp (µ)/N ,
p ≥ 1.
Ein Element in Lp ist streng genommen eine Nebenklasse f + N , und zwei Funktionen f, g ∈ Lp sind genau dann in der gleichen Nebenklasse, wenn sie µ-fast u ¨berall gleich sind. Wir werden im Folgenden auf diese Unterscheidung verzichten und von f ∈ Lp sprechen. Da alle Operationen auf Lp mit Hilfe von Vertretern der Nebenklasse definiert werden, wird diese u ¨bliche Vorgehensweise nicht zu Missverst¨ andnissen f¨ uhren. Aus der Funktionalanalysis sind folgende strukturelle Aussagen u ¨ber Lp p bzw. L bekannt: (i) Lp und Lp sind bez¨ uglich ·p , p ≥ 1, vollst¨andige R¨aume. (ii) F¨ ur p ≥ 1 ist (Lp , ·p ) ein Banach-Raum, also ein vollst¨andiger, normierter Raum. (iii) L2 ist ein Hilbert-Raum, wobei das Skalarprodukt durch f, g = f gdµ, f, g ∈ L2 , gegeben ist. Insbesondere gilt also: 2
f, f = f 2 . Lp -Konvergenz In der Maßtheorie existieren viele verschiedene Konvergenzbegriffe, von denen wir jetzt zwei vorstellen. Zun¨ achst erkl¨ aren wir Konvergenz in Lp wie in jedem normierten Raum: Definition 2.29 (Konvergenz in Lp ). Eine Folge (fn )n∈N von Funktionen aus Lp heißt in Lp konvergent, wenn es ein f ∈ Lp gibt, so dass fn − f p → 0. Lp
Wir schreiben daf¨ ur kurz: fn −→ f .
48
2 Das Lebesgue-Integral
Wie f¨ ur andere Eigenschaften auch, bedeutet Konvergenz µ-fast u ¨berall, dass die Menge der Argumente, die nicht zur Konvergenz f¨ uhren, in einer Nullmenge enthalten sind: Definition 2.30 (Konvergenz µ-fast u ¨ berall). Eine Folge (fn )n∈N messbarer Funktionen fn : Ω → R, n ∈ N, heißt µ-fast u ¨berall konvergent, wenn es eine messbare Funktion f : Ω → R und eine µ-Nullmenge N gibt, so dass ur alle x ∈ N c . fn (x) → f (x) f¨ Wir schreiben daf¨ ur kurz: fn → f (µ-)f.¨ u. F¨ ur endliche Maße µ gibt es einen Zusammenhang zwischen den R¨aumen Lp und Lq : Satz 2.31. Ist µ(Ω) < ∞ und q > p ≥ 1, so ist Lq ⊂ Lp , und es gibt ein reelles c ≥ 0, so dass ur alle f ∈ Lq . f p ≤ c f q f¨ Beweis. Wir definieren r := pq und s := (1 − 1r )−1 , so dass 1r + 1s = 1 gilt. Wenden wir f¨ ur ein f ∈ Lq die Ungleichung 2.26 von H¨older auf die Funktionen p |f | und IΩ an, so erhalten wir:
p f p
=
|f | dµ = |f | · IΩ 1 ≤ p
|f | dµ
p
pr
r1
|IΩ | dµ s
1s
1
p
= f q · (µ(Ω)) s . Aus µ(Ω) < ∞ folgt f ∈ Lp , und Ziehen der p-ten Wurzel liefert: 1
1
f p ≤ (µ(Ω)) p − q f q , 1
1
so dass mit c := (µ(Ω)) p − q ∈ R+ auch die zweite Behauptung folgt. Beziehungen zwischen den Konvergenzarten Unmittelbar als Korollar erhalten wir: Korollar 2.32. Ist q > p ≥ 1 und f, fn ∈ Lq , n ∈ N, so gilt: Lq
Lp
Aus fn −→ f folgt fn −→ f. Mit anderen Worten: Konvergenz in Lq impliziert Konvergenz in Lp .
2.5 Der Satz von Radon-Nikodym
49
Beweis. Gem¨ aß Satz 2.31 erhalten wir: fn − f p ≤ c · fn − f q −→ 0. Das n¨ achste Resultat enth¨ alt ein n¨ utzliches Kriterium f¨ ur Konvergenz in Lp , wenn Konvergenz fast u ¨berall gegeben ist. Satz 2.33. Seien p ≥ 1 und f, fn ∈ Lp , n ∈ N, so dass fn −→ f fast u ¨berall. Lp Dann ist fn −→ f genau dann, wenn fn p −→ f p . Lp
Beweis. Ist fn −→ f , so folgt aus der Dreiecksungleichung f¨ ur Normen: | fn p − f p | ≤ fn − f p −→ 0. F¨ ur die umgekehrte Schlussrichtung sei nun fn p −→ f p vorausgesetzt. Wir definieren gn := 2p (|fn |p + |f |p ), n ∈ N, und g := 2p+1 |f |p . u. und gn dµ −→ gdµ. Aus der Dann gilt nach Voraussetzung gn −→ g f.¨ Absch¨ atzung f¨ ur zwei reelle Zahlen x, y |x − y|p ≤ 2p (|x|p + |y|p ) erhalten wir u. |gn | ≥ |fn − f |p −→ 0 µ-f.¨ Daher folgt aus dem Satz 2.14 von der dominierten Konvergenz p fn − f p = |fn − f |p dµ −→ 0.
2.5 Der Satz von Radon-Nikodym Ein Maß ist eine Funktion auf einer σ-Algebra, einer mehr oder weniger großen Teilmenge der Potenzmenge P(Ω) eines Grundraums Ω. In diesem Abschnitt untersuchen wir die Frage, ob man ein Maß nicht auch durch eine einfachere Funktion ¯ f :Ω→R direkt auf der Grundmenge Ω beschreiben kann. Wir fixieren einen Maßraum ur die nicht-negativen, (Ω, F, µ) und erinnern an die Bezeichnungen M + f¨ ¯ sowie T + f¨ ur die nichtmessbaren numerischen Funktionen f : Ω → R negativen Treppenfunktionen auf Ω.
50
2 Das Lebesgue-Integral
Dichten und absolute Stetigkeit Zur Vorbereitung der Definition eines Maßes bez¨ uglich einer Dichte zeigen wir folgendes Lemma: Lemma 2.34. F¨ ur jedes f ∈ M + ist ¯ f µ : F → R, (f µ)(A) := f dµ = f IA dµ, A
ein Maß. Setzen wir ν := f µ, so gilt f¨ ur jedes g ∈ M + : gdν = (gf )dµ. Beweis. Von den Maßeigenschaften ist einzig die σ-Additivit¨at f¨ ur f µ nicht ∞ An eine abz¨ ahlbare disjunkte Vereinigung offensichtlich: Dazu sei A = n=1
mit An ∈ F, n ∈ N. Dann ist f IA =
∞ n=1
f IAn , und die σ-Additivit¨at von
f µ folgt unmittelbar aus Korollar 2.8. Die zweite Behauptung ist nach Definition f¨ ur g = IA , A ∈ F, richtig. Der allgemeine Fall folgt nach unserer Standardprozedur. Jetzt k¨ onnen wir dem Maß f µ einen Namen geben: Definition 2.35 (Maß mit Dichte, Dichte). Ist f ∈ M + , so heißt ¯ f µ : F → R, (f µ)(A) := f dµ, A
¯ + heißt Dichte des Maß mit der Dichte f (bzgl. µ). Die Funktion f : Ω → R Maßes f µ. Jede µ-Nullmenge ist auch eine (f µ)-Nullmenge: Satz 2.36. Ist f ∈ M + und A ∈ F mit µ(A) = 0, so folgt: (f µ)(A) = 0. Beweis. Ist A ∈ F eine µ-Nullmenge, so ist auch {f IA > 0} eine µ-Nullmenge, d.h. f IA = 0 µ-fast u ¨berall. Daraus folgt nach Satz 2.15 (f µ)(A) = f IA dµ = 0.
2.5 Der Satz von Radon-Nikodym
51
Die in Satz 2.36 bewiesene Beziehung motiviert die folgende Definition: Definition 2.37 (absolute Stetigkeit). Sind µ und ν zwei Maße auf (Ω, F), so heißt ν absolut stetig bez¨ uglich µ, wenn f¨ ur alle A ∈ F gilt: Ist µ(A) = 0, so folgt ν(A) = 0. Wir schreiben daf¨ ur kurz: ν µ. In unserer neuen Terminologie bedeutet Satz 2.36, dass f µ absolut stetig ist bez¨ uglich µ: f µ µ. Existenz von Dichten Wir gehen von einem Maßraum (Ω, F, µ) mit einem uns gut vertrauten Maß µ, z.B. dem Lebesgue-Maß auf R, aus. Ist ν ein weiteres Maß auf Ω, so w¨ urden wir ¯+ dieses gerne mit Hilfe von µ und einer einfachen Dichtefunktion f : Ω → R darstellen. Die Frage ist daher, wann es zu ν eine Dichtefunktion f gibt, so dass ν =f µ gilt. Antwort darauf gibt der folgende ber¨ uhmte Satz von Radon-Nikodym: Theorem 2.38 (Satz von Radon-Nikodym). Ist (Ω, F, µ) ein Maßraum mit einem σ-endlichen Maß µ und ν ein weiteres Maß auf (Ω, F), so sind folgende Aussagen ¨ aquivalent: (i) ν µ. (ii) Es gibt eine Dichte f ∈ M + , so dass gilt: ν = f µ. Die Implikation (ii) ⇒ (i) haben wir bereits in Satz 2.36 gezeigt. Der Beweis des Satzes von Radon-Nikodym Der Beweis des Theorems 2.38 ist recht umfangreich. Wir betrachten als erstes folgenden Spezialfall: Lemma 2.39. Sind ν und µ endliche Maße auf (Ω, F) und ν ≤ µ, so gibt es eine Dichte g : Ω → [0, 1] mit ν = g µ. Beweis. F¨ ur diesen Spezialfall gibt es einen sehr eleganten Beweis, der den Darstellungssatz von Riesz-Fr´echet verwendet. Zun¨achst bemerken wir, dass aus ν ≤ µ und ν(Ω) < ∞ folgt: L2 (µ) ⊂ L2 (ν) ⊂ L1 (ν). Daher ist die Linearform
(2.9)
52
2 Das Lebesgue-Integral
φ : L2 (µ) → R, f → f dν, unabh¨ angig vom Repr¨ asentanten und wegen (2.9) das Integral f dν endlich, also insgesamt die Linearform wohldefiniert. Ebenfalls aus (2.9) folgt die Stetigkeit von φ. Damit gibt es nach dem Darstellungssatz von Riesz-Fr´echet f¨ ur stetige Linearformen auf Hilbert-R¨ aumen, Theorem B.13, ein g ∈ L2 (µ), so dass f dν = f, g = gf dµ f¨ ur alle f ∈ L2 (µ). Setzt man f¨ ur jedes A ∈ F die Indikatorfunktion f = IA ein, so folgt ν(A) = IA dν = gIA dµ, mit anderen Worten: ν = gµ. Es bleibt noch g(Ω) ⊂ [0, 1] zuzeigen. Sei dazu C := {g < 0}, wir nehmen µ(C) > 0 an. Dann ist ν(C) = C gdµ < 0, was nicht m¨ oglich ist. Analog sei C := {g > 1}, und wir nehmen wieder µ(C) > 0 an. Diesmal ist ν(C) = C gdµ > µ(C), im Widerspruch zur Voraussetzung ν ≤ µ. Insgesamt ist g(Ω) ⊂ [0, 1] µ-fast u ¨berall, und wir k¨onnen g : Ω → [0, 1] w¨ahlen. Beweis (des Theorems 2.38). Wie bereits erw¨ ahnt, haben wir die Implikation (ii) ⇒ (i) in Satz 2.36 gezeigt. Den Beweis der Implikation (i) ⇒ (ii) unterteilen wir in drei Schritte: 1. Schritt: Die Behauptung gilt f¨ ur endliche Maße µ, ν: Die Summe ρ := µ + ν ist ein endliches Maß, f¨ ur das µ, ν ≤ ρ gilt. Daher gibt es nach Lemma 2.39 zwei messbare Funktionen g, h : Ω → [0, 1], so dass gilt: µ = g ρ,
ν = h ρ.
Die Nullstellen N := {g = 0} von g sind eine µ-Nullmenge, da µ(N ) = gdρ = 0. Wegen ν µ gilt auch ν(N ) = 0. Die Funktion N f : Ω → R, h(x) x →
g(x)
f¨ ur x ∈ N c ,
0
f¨ ur x ∈ N ,
ist nicht-negativ und messbar. Wir weisen jetzt nach, dass f unsere gesuchte Dichte ist: Sei A ∈ F, dann folgt mit Lemma 2.34 : c ν(A) = ν(A ∩ N ) = hdρ = f gdρ A∩N c
A∩N c
f dµ = (f µ)(A).
f dµ =
= A∩N c
A
2.5 Der Satz von Radon-Nikodym
53
2. Schritt: Die Behauptung gilt f¨ ur endliches µ und beliebiges ν: Wir betrachten das Supremum c := sup{µ(A) : A ∈ F, ν(A) < ∞}. Da µ(A) ≤ µ(Ω) < ∞ f¨ ur alle A ∈ F, ist auch c < ∞, und wir finden eine Folge (Bn )n∈N von Mengen aus F, ν(Bn ) < ∞ f¨ ur alle n ∈ N, mit Bn ↑
∞
und µ(Bn ) ↑ µ(C) = c.
Bn =: C,
n=1
ur ein A ⊂ D, A ∈ F zwei F¨alle: Ist Wir setzen D := C c und betrachten f¨ ν(A) = ∞, so folgt µ(A) > 0, da wegen der absoluten Stetigkeit aus µ(A) = 0 auch ν(A) = 0 folgen w¨ urde. Ist hingegen ν(A) < ∞, so ist ν(Bn ∪ A) = ν(Bn ) + ν(A) < ∞, und daher c ≥ lim µ(Bn ∪ A) = µ(C) + µ(A) = c + µ(A), n→∞
also µ(A) = 0. Daraus folgt aber wiederum auf Grund der absoluten Stetigkeit ν(A) = 0. Insgesamt erhalten wir f¨ ur A ⊂ D, A ∈ F, entweder ν(A) = ∞, µ(A) > 0 oder µ(A) = ν(A) = 0. Dies kann man kurz auch so formulieren: ID ν = (∞ · ID ) µ.
(2.10)
Mit B0 := ∅ betrachten wir die paarweise disjunkten Mengen An := Bn \Bn−1 , n ∈ N, und setzen νn := IAn ν, n ∈ N. Dann sind νn endliche Maße und νn = IAn ν ν µ. Daher gibt es nach dem ersten Schritt nicht-negative, messbare Funktionen ¯ + , n ∈ N, mit fn : Ω → R νn = fn µ, Aus
∞
n ∈ N.
An = C und C ∪ D = Ω folgt:
n=1
ν=
∞
νn + (ID ν),
n=1
und daher mit (2.10) und (2.11): ν=
=
∞
fn n=1 ∞
µ + (∞ · ID ) µ
fn + (∞ · ID )
n=1
µ.
(2.11)
54
2 Das Lebesgue-Integral
Damit haben wir eine Dichtefunktion von ν bez¨ uglich µ bestimmt. 3. Schritt: Die Behauptung gilt f¨ ur σ-endliches µ und beliebiges ν: Nach Definition der σ-Endlichkeit gibt es eine Folge paarweise disjunkter Men∞ An = Ω. Unsere Stragen (An ) mit An ∈ F, n ∈ N, und µ(An ) < ∞ und n=1
tegie besteht darin, das Problem auf An einzuschr¨anken, den zweiten Schritt anzuwenden und anschließend die Maße zusammenzusetzen. Wir definieren daher µn := IAn µ, νn := IAn ν, n ∈ N, und beobachten, dass µn (Ω) < ∞ ur alle n ∈ N gilt. Daher gibt es nach dem zweiten Schritt eine und νn µn f¨ Folge (fn )n∈N von nicht-negativen, messbaren Funktionen, mit νn = fn µn ,
n ∈ N.
Setzen wir gn := fn IAn , n ∈ N, so gilt sogar νn = gn µ, und schließlich: ∞ ∞ ∞ νn = (gn µ) = gn µ. ν= n=1
n=1
n=1
ε-δ-Kriterium f¨ ur absolute Stetigkeit Als Anwendung des Theorems 2.38 von Radon-Nikodym zeigen wir ein ε-δKriterium f¨ ur absolute Stetigkeit bei endlichen Maßen: Korollar 2.40. Seien µ und ν zwei Maße auf dem Messraum (Ω, F), µ σendlich und ν endlich. Dann sind ¨ aquivalent: (i) ν µ. (ii) Zu jedem ε > 0 gibt es ein δ > 0, so dass f¨ ur alle A ∈ F gilt: µ(A) < δ ⇒ ν(A) < ε. . Beweis. (i) ⇒ (ii): Sei ε > 0 gegeben. Nach dem Theorem 2.38 von RadonNikodym gibt es eine Dichte f ∈ M + mit ν(A) = f dµ. Aus der Endlichkeit A
von ν folgt, dass {f = ∞} eine µ-Nullmenge und damit eine ν-Nullmenge ist. ur jedes Daher gibt es ein n ∈ N, so dass ν({f > n}) < 2ε gilt. Weiter folgt f¨ A ∈ F: ε f dµ + ν(A ∩ {f > n}) ≤ nµ(A) + . ν(A) = 2 A∩{f ≤n} ε 2n ,
Setzen wir δ := so folgt die Behauptung. (ii) ⇒ (i): Aus A ∈ F, µ(A) = 0 folgt ν(A) < ε f¨ ur alle ε > 0, also ν(A) = 0.
Teil II
Wahrscheinlichkeitstheorie
3 Wahrscheinlichkeitsr¨ aume
3.1 Die Axiomatik Situationen, in denen ein vom Zufall beeinflusstes Ergebnis auftritt, heißen Zufallsexperimente. Die Wahrscheinlichkeitstheorie besch¨aftigt sich mit der mathematischen Behandlung von Zufallsexperimenten. Dazu muss zun¨achst ein geeignetes mathematisches Modell gew¨ ahlt werden. Die Herleitung des Modells Charakteristisch f¨ ur jedes Zufallsexperiment ist, dass es mehrere m¨ogliche Ergebnisse liefern kann. Die Menge aller m¨ oglichen Ergebnisse bezeichnen wir als Ergebnisraum Ω. Jedes ω ∈ Ω interpretieren wir als ein m¨ogliches Ergebnis des Zufallsexperimentes. Beispiel 3.1. W¨ urfeln: Werfen wir einen gew¨ ohnlichen W¨ urfel, so k¨onnen dabei die Ergebnisse 1, 2, 3, 4, 5 oder 6 entstehen. Im Prinzip kann der Wurf eines W¨ urfels als ein deterministisches Problem aufgefasst werden. Die Bahn des W¨ urfels und damit das Ergebnis ist durch die Lage des W¨ urfels in der Hand, die Handbewegung, die Tischh¨ohe etc. eindeutig bestimmt. Im Allgemeinen verf¨ ugen wir aber nicht u ¨ber diese Angaben. Dieser Mangel an Information l¨ asst uns das Ergebnis des W¨ urfelns als zuf¨allig erscheinen. Als Ergebnisraum werden wir Ω = {1, 2, 3, 4, 5, 6} w¨ahlen. Es gibt durchaus unterschiedliche Ansichten zur Natur des Zufalls“, also u ¨ber ” die Frage, woher der Zufall in einem Experiment kommt. Diese spielen f¨ ur uns jedoch keine Rolle. urfels kommt man mit Anrufe im Callcenter: Beim einmaligen Wurf eines W¨ einem endlichen Ergebnisraum aus. Will man hingegen die Zahl der Anrufe in einem Callcenter oder die Zahl der Zugriffe auf eine Internet-Seite beschreiben, so sind prinzipiell alle nat¨ urlichen Zahlen inklusive Null als Ergebnisse m¨oglich. Man wird daher Ω = N0 = {0, 1, 2, 3, . . .} als abz¨ahlbaren Ergebnisraum zur Modellierung w¨ ahlen.
58
3 Wahrscheinlichkeitsr¨ aume
Dartscheibe: Auch abz¨ ahlbare Ergebnisr¨ aume sind nicht ausreichend. Wirft man mit einem Dartpfeil auf eine Dartscheibe und betrachtet den Wurf als g¨ ultig, wenn die Scheibe getroffen wird (was nicht selbstverst¨andlich ist), so ist jeder Punkt der Scheibe ein m¨ ogliches Ergebnis. Der angemessene Ergebnisraum ist daher eine Kreisscheibe Ω = K(0, r) := {(x, y) ∈ R2 : achtigkeit u ahlbar ist. x2 + y 2 ≤ r2 }, deren M¨ ¨berabz¨ Typische Fragestellungen, die im Rahmen der beschriebenen Beispiele gestellt werden k¨ onnten, sind: • Mit welcher Wahrscheinlichkeit f¨ allt beim W¨ urfeln eine gerade Zahl? • Mit welcher Wahrscheinlichkeit u ¨berschreitet die Anzahl der Anrufe in einem Callcenter eine feste Schranke M und bringt so das System in Schwierigkeiten? • Mit welcher Wahrscheinlichkeit wird beim Werfen auf eine Dartscheibe ein bestimmter Sektor der Scheibe getroffen, f¨ ur den es besonders viele Punkte gibt? Alle Fragestellungen haben eines gemeinsam: Man interessiert sich f¨ ur ein bestimmtes Ereignis, das durch eine Teilmenge des Ergebnisraums Ω gegeben ist, und m¨ ochte diesem ein Maß, dass der Wahrscheinlichkeit entspricht, zuordnen. Unser Ziel ist es daher, ein Mengensystem F u ¨ber Ω aller m¨oglichen Ereignisse A ∈ F festzulegen, denen wir ein Maß P : F → R, A → P(A), zuordnen k¨ onnen, das wir als Wahrscheinlichkeit f¨ ur das Eintreten von A interpretieren. Wir kennen sowohl das an dieser Stelle auftretende Problem als auch seine L¨ osung aus der Maßtheorie: Wie das Maßproblem 1.5 lehrt, ist es im Allgemeinen nicht m¨ oglich, jeder Teilmenge des Ergebnisraums Ω ein Maß mit gewissen nat¨ urlichen Eigenschaften zuzuordnen. Daher beschr¨anken wir unsere Mengensysteme F aller m¨ oglichen Ereignisse auf σ-Algebren. ur das EinDas Maß P : F → R wollen wir als Wahrscheinlichkeit P(A) f¨ treten des Ereignisses A ∈ F interpretieren. Die definierenden Eigenschaften eines Maßes, Nicht-Negativit¨ at und Additivit¨ at, stimmen mit unserer intuitiven Vorstellung einer Wahrscheinlichkeit u ¨berein. Zus¨atzlich fordern wir, dass P(Ω) = 1 gilt. Aus der Monotonie folgt dann 0 ≤ P(A) ≤ 1 f¨ ur alle A ∈ F, so dass wir P(A) als Wahrscheinlichkeit f¨ ur das Eintreten von A deuten k¨onnen. So bedeutet P(Ω) = 1, dass das Ereignis Ω mit Wahrscheinlichkeit 1, also sicher eintreten wird. Da Ω alle m¨ oglichen Ergebnisse enth¨alt, ist dies eine sinnvolle Deutung.
3.1 Die Axiomatik
59
Zusammenfassung der Axiomatik ¨ Wir fassen unsere bisherigen Uberlegungen in der folgenden Definition zusammen: Definition 3.2 (Wahrscheinlichkeitsraum). Ist (Ω, F, P) Maßraum und P(Ω) = 1, so heißt P Wahrscheinlichkeitsmaß (Ω, F, P) Wahrscheinlichkeitsraum.
ein und
Ein Zufallsexperiment wird mathematisch durch einen Wahrscheinlichkeitsraum (Ω, F, P) modelliert: • • •
Die Menge Ω ist der Ergebnisraum des Zufallsexperimentes und enth¨ alt alle m¨ oglichen Ergebnisse. Die σ-Algebra F ist der Ereignisraum des Zufallsexperimentes und enth¨ alt alle Ereignisse A ∈ F, denen wir eine Wahrscheinlichkeit zuordnen. Das Wahrscheinlichkeitsmaß P : F → [0, 1] ordnet jedem Ereignis A ∈ F seine Wahrscheinlichkeit P(A) zu.
Wir haben in Definition 2.16 f¨ ur einen Maßraum die Sprechweise µ-fast u ¨berall eingef¨ uhrt. Da wir es von nun an mit Wahrscheinlichkeiten zu tun haben, ist es intuitiver, von P-fast sicheren (f.s.) Eigenschaften E zu sprechen, wenn es eine P-Nullmenge gibt, so dass E auf N c gilt. Ein Wahrscheinlichkeitsmaß-Problem Wir haben uns bei der Einf¨ uhrung der σ-Algebra als Ereignisraum auf das Maßproblem 1.5 berufen. Dabei kann man zu Recht den Einwand erheben, dass im Maßproblem ein translationsinvariantes Maß auf dem Rn betrachtet wird, das insbesondere nicht endlich ist. Im Rahmen der Wahrscheinlichkeitstheorie interessieren wir uns jedoch nur f¨ ur endliche Maße mit P(Ω) = 1. Wir zeigen daher im n¨ achsten Satz, dass auch f¨ ur Wahrscheinlichkeitsmaße die Potenzmenge als Definitionsbereich im Allgemeinen zu groß ist. Als Ergebnisraum betrachten wir den Raum Ω = {0, 1}N , den man sich als Modell f¨ ur den unendlich oft wiederholten M¨ unzwurf vorstellen kann. Die Translationsinvarianz aus dem Maß-Problem ersetzen wir durch die Invarianz gegen¨ uber Abbildungen, die das Ergebnis eines einzelnen M¨ unzwurfs umdrehen: Fn : Ω −→ Ω,
ω = (ω1 , ω2 , . . .) → (ω1 , . . . , ωn−1 , 1−ωn , ωn+1 , . . .),
n ∈ N.
Der Buchstabe F soll an flip erinnern. Als Invarianz werden wir P(Fn (A)) = P(A) f¨ ur alle n ∈ N und A ⊂ Ω fordern. Dies bedeutet, dass wir keine Folge
60
3 Wahrscheinlichkeitsr¨ aume
ω ∈ Ω in irgendeiner Weise auszeichnen. Im Rahmen unserer Interpretation von ω ∈ Ω als unendlich oft wiederholter M¨ unzwurf ist dies eine vern¨ unftige Forderung. Satz 3.3. Es sei Ω = {0, 1}N . Dann gibt es kein Wahrscheinlichkeitsmaß P : P(Ω) → [0, 1], so dass f¨ ur alle A ⊂ Ω gilt: P(Fn (A)) = P(A)
f¨ ur alle n ∈ N.
(3.1)
Beweis. Der Beweis ¨ ahnelt dem Beweis des Maßproblems 1.5. Wieder f¨ uhren ¨ wir eine Aquivalenzrelation ein und w¨ ahlen ein Repr¨asentantensystem. Es sei ω∼ω ˜ genau dann, wenn es ein n0 gibt, so dass ωn = ω ˜ n f¨ ur alle n ≥ n0 . Sei R ⊂ Ω ein Repr¨ asentantensystem (dessen Existenz durch das Auswahlaxiom gew¨ ahrleistet ist). F¨ ur eine endliche Menge E = {n1 , . . . , nk } ⊂ N definieren wir FE := Fn1 ◦ . . . ◦ Fnk . Ist E := {E ⊂ N : |E| < ∞} das System aller endlichen Teilmengen von N, so behaupten wir, dass Ω= FE (R) (3.2) E∈E
eine abz¨ ahlbare Partition von Ω ist. Die Abz¨ ahlbarkeit von E folgt aus der Darstellung ∞ {E ⊂ N : sup E = k}. E= k=0
Ist ω ∈ Ω, so gibt es ein ω ˜ ∈ R, so dass ω ∼ ω ˜ . Dann gibt es auch ein E ∈ E, ω ) ∈ FE (R). Weiter sind die Mengen FE (R), E ∈ E disjunkt. so dass ω = FE (˜ ˜ ∈ E, folgt die Existenz von ω, ω ˜ ∈ R mit Denn aus FE (R) ∩ FE˜ (R) = ∅, E, E ω ). Daraus ergibt sich FE (ω) = FE˜ (˜ ω ∼ FE (ω) = FE˜ (˜ ω) ∼ ω ˜. Da R ein Repr¨ asentantensystem ist, folgt ω = ω ˜ . Also ist FE (ω) = FE˜ (ω) und ˜ Damit ist nachgewiesen, dass (3.2) eine abz¨ahlbare Partition somit E = E. ist. Sei P ein Wahrscheinlichkeitsmaß, das (3.1) erf¨ ullt. Dann ergibt sich aus der Invarianz von P: P(FE (R)) = P(R). 1 = P(Ω) = E∈E
E∈E
Sowohl P(R) = 0 als auch P(R) > 0 f¨ uhren zum Widerspruch.
3.1 Die Axiomatik
61
Elementare Rechenregeln Im nachfolgenden Satz fassen wir einige elementare Rechenregeln f¨ ur Wahrscheinlichkeitsmaße zusammen. Insbesondere gelten alle Eigenschaften, die wir von allgemeinen Maßen kennen. Durch die zus¨atzliche Voraussetzung P(Ω) = 1 werden diese lediglich vereinfacht: Satz 3.4. Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B, An ∈ F, n ∈ N. Dann gilt: (i) P(Ac ) = 1 − P(A). (ii) Ist A ⊂ B, so gilt: P(A) ≤ P(B). (iii) Siebformel: n n Ai = (−1)i+1 P i=1
P
∞ n=1
P
1≤j1 <...<ji ≤n
i=1
(iv)
An
≤
∞
i
Ajk
.
k=1
P(An ).
n=1
(v) Stetigkeit von unten: Aus An ↑ A folgt P(An ) ↑ P(A). (vi) Stetigkeit von oben: Aus An ↓ A folgt P(An ) ↓ P(A). Beweis. Eigenschaft (i) ist ein Spezialfall der Subtraktivit¨at, da P(Ω) = 1. Bis auf die Siebformel haben wir alle Eigenschaften in den S¨atzen 1.36 und 1.37 gezeigt. Die Aussage der Siebformel ist f¨ ur n = 1 trivial, f¨ ur n = 2 folgt sie aus der Zerlegung A ∪ B = A ∪ (B \(A ∩ B)). F¨ ur den Induktionsschritt von n nach n + 1 betrachten wir n n n+1 Ai = P Ai + P(An+1 ) − P Ai ∩ An+1 . P i=1
i=1
i=1
Anwenden der Induktionsvoraussetzung auf den ersten und dritten Summanden und Zusammenfassen der Summanden ergibt die Behauptung f¨ ur n + 1. Das Lemma von Borel-Cantelli - erster Teil Die Konzepte des Limes Inferior bzw. Superior sind aus der Analysis f¨ ur eine ur Folge von Zahlen (an ) bekannt. Es gibt ein mengentheoretisches Analogon f¨ eine Folge von Ereignissen (An ) aus F:
62
3 Wahrscheinlichkeitsr¨ aume
lim inf An :=
∞
Ak
n=1 k≥n
lim sup An :=
∞
Ak .
n=1 k≥n
¨ die Indikatorfunktionen Aus der Definition folgt lim inf An ⊂ lim sup An . Uber erhalten wir den folgenden Zusammenhang zum Limes Inferior bzw. Superior von Folgen: Ilim inf An = lim inf IAn ,
Ilim sup An = lim sup IAn .
Daraus ergibt sich unmittelbar die wahrscheinlichkeitstheoretische Interpretation des Limes Inferior bzw. Superior: ur fast alle n}, lim inf An = {ω ∈ Ω : ω ∈ An f¨ lim sup An = {ω ∈ Ω : ω ∈ An f¨ ur unendlich viele n}. Betrachten wir z.B. das unendlich oft wiederholte Werfen einer M¨ unze, so ist Ω = {0, 1}N ein geeigneter Ergebnisraum. Das Ereignis An := {(ai ) ∈ Ω : an = 0} stehe daf¨ ur, dass im n-ten Wurf Kopf“ f¨ allt. Entsprechend ist lim sup An das ” Ereignis, dass unendlich oft Kopf“ f¨ allt, lim inf An enth¨alt die Ergebnisse, ” bei denen bis auf endlich viele W¨ urfe nur Kopf“ f¨allt. Das Lemma von ” Borel-Cantelli, dessen ersten Teil wir jetzt zeigen, enth¨alt Aussagen u ¨ber die Wahrscheinlichkeit des Limes Superior: Lemma 3.5 (Lemma von Borel-Cantelli, erster Teil). F¨ ur eine Folge von Ereignissen (An ) aus F eines Wahrscheinlichkeitsraumes (Ω, F, P) gilt: Ist
∞
P(An ) < ∞, so folgt P(lim sup An ) = 0.
n=1
Beweis. Wir setzen Bn :=
Ak , n ∈ N. Dann ist Bn ↓ lim sup An , und aus
k≥n
der Stetigkeit von oben von P folgt: P(lim sup An ) = lim P(Bn ) ≤ lim n→∞
n→∞
P(An ) = 0.
k≥n
3.2 Diskrete Wahrscheinlichkeitsmaße Die Wahrscheinlichkeitstheorie hat gegen¨ uber der allgemeinen Maßtheorie den Vorteil, dass man sich auf Grund der Forderung P(Ω) = 1 nur mit endlichen Maßen besch¨ aftigt. Außerdem gibt es viele Situationen, in denen das
3.2 Diskrete Wahrscheinlichkeitsmaße
63
Zufallsexperiment durch einen abz¨ ahlbaren (also endlichen oder abz¨ahlbar unendlichen) Ergebnisraum Ω modelliert werden kann. Dabei ist es f¨ ur viele Begriffsbildungen von Vorteil, wenn wir zulassen, dass nicht Ω selbst abz¨ahlbar ist, aber es eine abz¨ ahlbare Teilmenge von Ω gibt, auf der die gesamte Wahrscheinlichkeit liegt: Definition 3.6 (diskreter Wahrscheinlichkeitsraum). Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum. Gibt es eine abz¨ ahlbare Menge T ∈ F mit P(T ) = 1, so heißt (Ω, F, P) diskreter Wahrscheinlichkeitsraum, P diskretes Wahrscheinlichkeitsmaß und T ein abz¨ ahlbarer Tr¨ ager von P. Ist Ω selbst abz¨ ahlbar, so k¨ onnen wir offensichtlich T = Ω w¨ahlen. Diskrete Wahrscheinlichkeitsmaße lassen sich leicht charakterisieren. Dazu bezeichnen wir f¨ ur ein abz¨ ahlbares T eine Folge (pω )ω∈T als stochastische Folge, wenn gilt: pω ∈ [0, 1] f¨ ur alle ω ∈ T und pω = 1. ω∈T
Definition 3.7 (Z¨ ahldichte). Ist T ⊂ Ω abz¨ ahlbar und (pω )ω∈T eine stochastische Folge, so heißt die Funktion f : Ω −→ [0, 1], pω f¨ ur ω ∈ T, ω → 0 sonst, Z¨ ahldichte. Ist (Ω, F, P) ein diskreter Wahrscheinlichkeitsraum mit Tr¨ager T , so ist pω := P({ω}), ω ∈ T , eine stochastische Folge. Die zugeh¨orige Z¨ahldichte f tr¨ agt ihren Namen zu Recht, wie der nachfolgende Satz zeigt: Satz 3.8. Ist (Ω, F, P) ein diskreter Wahrscheinlichkeitsraum mit Tr¨ ager T , so ist die zugeh¨ orige Z¨ ahldichte f : Ω −→ [0, 1], P({ω}) ω → 0
f¨ ur ω ∈ T, sonst,
eine Dichte von P bez¨ uglich des Z¨ ahlmaßes µZ : P = f µZ . Insbesondere gilt:
64
3 Wahrscheinlichkeitsr¨ aume
P(A) =
f dµZ =
f (ω) f¨ ur alle A ∈ F.
(3.3)
ω∈A∩T
A
Umgekehrt gibt es zu jeder Z¨ ahldichte f auf Ω genau ein diskretes Wahrscheinlichkeitsmaß P auf (Ω, F), so dass (3.3) gilt. Beweis. Aus P(T ) = 1 folgt f¨ ur jedes A ∈ F mit Satz 2.13 P(A) = P(A ∩ T ) =
P({ω}) =
ω∈A∩T
f (ω) =
ω∈A∩T
f dµZ . A
Damit ist P = f µZ , und (3.3) ist nachgewiesen. Ist umgekehrt eine Z¨ahldichte f auf Ω gegeben, so definieren wir P := f µZ . Dann gilt offensichtlich (3.3), und P ist durch (3.3) eindeutig bestimmt. Jedes diskrete Wahrscheinlichkeitsmaß hat demnach eine Z¨ahldichte f , und jede Z¨ ahldichte legt genau ein diskretes Wahrscheinlichkeitsmaß fest. Ist der Ergebnisraum Ω selbst abz¨ ahlbar, so sind die Z¨ahldichte f und die stochasur alle ω ∈ Ω, tische Folge (pω )ω∈Ω ein und dasselbe, f (ω) = pω = P({ω}) f¨ so dass wir von der Z¨ ahldichte (pω )ω∈Ω sprechen k¨onnen. Die Unterscheidung zwischen Z¨ ahldichte f und stochastischer Folge (pω )ω∈Ω ben¨otigen wir nur f¨ ur u ahlbare Ergebnisr¨ aume. In den nachfolgenden klassischen Beispie¨berabz¨ len geben wir jeweils eine Z¨ ahldichte (pω )ω∈Ω auf einem abz¨ahlbaren Raum Ω an, die wiederum ein diskretes Wahrscheinlichkeitsmaß festlegt. Statt von diskreten Wahrscheinlichkeitsmaßen spricht man insbesondere bei konkreten Beispielen auch von diskreten Verteilungen. In allen nachfolgenden Beispielen ist (Ω, P(Ω)) der zu Grunde liegende Messraum, es sind also s¨amtliche Teilmengen von Ω messbar. Die diskrete Gleichverteilung (Laplace-Verteilung) Ist der Ergebnisraum Ω endlich, so k¨ onnen wir die Z¨ahldichte pω =
1 f¨ ur alle ω ∈ Ω |Ω|
definieren. Das bedeutet, dass jedes Ergebnis ω gleich wahrscheinlich ist. Das zugeh¨ orige Wahrscheinlichkeitsmaß PL heißt diskrete Gleichverteilung oder auch Laplace-Verteilung. F¨ ur ein Ereignis A ∈ P(Ω) ergibt sich: PL (A) =
|A| . |Ω|
Die Gleichverteilung erlaubt die folgende Interpretation: PL (A) =
Anzahl der g¨ unstigen“ Ergebnisse ” . Anzahl aller Ergebnisse
3.2 Diskrete Wahrscheinlichkeitsmaße
65
Beispiel 3.9. Wir wollen diese Interpretation an einem Beispiel erl¨autern. Dazu betrachten wir den zweimaligen Wurf eines W¨ urfels und das Ereignis, dass die Summe der Augen der beiden W¨ urfe 5 ergibt. Als Ergebnisraum w¨ahlen wir Ω = {1, . . . , 6}2 und als Wahrscheinlichkeitsmaß die Laplace-Verteilung PL , so dass wir den Wahrscheinlichkeitsraum ({1, . . . , 6}2 , P({1, . . . , 6}2 ), PL ) erhalten. Die g¨ unstigen“ Ergebnisse, deren Summe 5 ist, sind in A = ” {(1, 4), (2, 3), (3, 2), (4, 1)}. Daher ergibt sich als Wahrscheinlichkeit f¨ ur dieses Ereignis unter der Annahme der Gleichverteilung PL (A) =
4 1 |A| = = . |Ω| 36 9
Die Annahme der Gleichverteilung beim W¨ urfeln bedeutet gerade, dass man von einem fairen W¨ urfel ausgeht. Entsprechend verwendet man die Gleichverteilung beim Wurf einer (fairen) M¨ unze, beim Lottospiel, etc. ♦ Die Bernoulli-Verteilung Die Bernoulli-Verteilung beschreibt ein Zufallsexperiment, beim dem es genau ¨ zwei m¨ ogliche Ergebnisse gibt, wie z.B. beim M¨ unzwurf. Ublicherweise wird daher Ω = {0, 1} gew¨ ahlt. Die Z¨ ahldichte ist gegeben durch p0 := p ∈ [0, 1],
p1 := q := 1 − p.
Die zugeh¨ orige Verteilung auf ({0, 1}, P({0, 1})) wird mit B(1, p) bezeichnet. Typischerweise tritt diese Verteilung auf, wenn es nur darum geht, ob ein Ereignis eintritt oder nicht: Ist eine Gl¨ uhbirne defekt oder nicht, ist eine Aussage richtig oder falsch, ist eine Ware brauchbar oder unbrauchbar. Ein Experiment, bei dem es nur diese zwei Alternativen gibt, heißt Bernoulli-Experiment. Der Parameter p heißt auch Erfolgswahrscheinlichkeit. Die Binomialverteilung Die Binomialverteilung tritt bei einer n-maligen Wiederholung eines BernoulliExperiments auf, bei dem die Wahrscheinlichkeit f¨ ur k ≤ n Erfolge“ be” stimmt wird. Der Ergebnisraum ist entsprechend Ω = {0, 1, 2, . . . , n}, die Z¨ahldichte ist zu einem Parameter p ∈ [0, 1] gegeben durch n k p (1 − p)n−k , k ∈ {0, 1, 2, . . . , n}. pk = k Nach dem binomischen Lehrsatz ist 1 = (p + (1 − p))n =
n n k=0
k
pk (1 − p)n−k ,
so dass (pk ) tats¨ achlich eine Z¨ ahldichte darstellt. Die Binomialverteilung, de-
66
3 Wahrscheinlichkeitsr¨ aume 0.35
0.3
0.25
0.2
0.15
0.1
p = 0.4 n = 10
0.05
0
0
1
2
3
4
5
6
7
8
9
10
Abbildung 3.1. Z¨ ahldichte der Binomialverteilung B(10, 0.4)
ren Z¨ ahldichte in Abbildung 3.1 dargestellt ist, wird mit B(n, p) bezeichnet. F¨ ur den Fall n = 1 ist sie gleich der Bernoulli-Verteilung, so dass die Bezeichnung konsistent ist. Beispiel 3.10. Nehmen wir f¨ ur ein konkretes Beispiel an, ein Kunde bestelle 10 Papageien und bezahle die Lieferung, falls mindestens 9 davon sprechen k¨ onnen. Wie groß ist das Risiko f¨ ur den Lieferanten, dass er nicht bezahlt wird, wenn man davon ausgeht, dass 23 aller Papageien sprechen k¨onnen? Wir betrachten den Wahrscheinlichkeitsraum 2 . {0, . . . , 10}, P({0, . . . , 10}), B 10, 3 Der Kunde wird nicht zahlen, falls weniger als 9 Papageien sprechen k¨onnen. Mit der Binomialverteilung B(10, 23 ) ergibt sich als Risiko: 2 2 B 10, ({0, 1, . . . , 8}) = 1 − B 10, ({9, 10}) 3 3 9 1 10 0 10 2 1 1 10 2 − = 1− 10 9 3 3 3 3 ≈ 0.974. Auf dieses Gesch¨aft sollte man sich also lieber nicht einlassen.
♦
3.2 Diskrete Wahrscheinlichkeitsmaße
67
Die Poisson-Verteilung Die Poisson-Verteilung besitzt einen Parameter λ > 0 und den Ergebnisraum ahldichte ist gegeben durch Ω = N0 . Die Z¨ pn = exp(−λ) ·
λn , n!
n ∈ N0 .
Wegen der Exponential-Reihe ∞ λn exp(λ) = n! n=0
achlich eine Z¨ ahldichte. Die Poisson-Verteilung, abgek¨ urzt Poi(λ), ist (pn ) tats¨
0.25
0.2
0.15
0.1
l = 2.5 0.05
0
0
5
10
15
Abbildung 3.2. Z¨ ahldichte der Poisson-Verteilung Poi(2.5)
auf (N0 , P(N0 )) ist eine typische Verteilung f¨ ur das Z¨ahlen zuf¨allig auftretender Ereignisse, wie z.B. die Zahl der Verkehrsunf¨alle einer Stadt pro Tag, die Anzahl Telefonanrufe in einem Callcenter pro Stunde, die pro Sekunde ausgestrahlten Partikel einer radioaktiven Substanz, die Anzahl Druckfehler pro Seite etc. Der Parameter λ heißt auch Rate der Poisson-Verteilung. Die Rate gibt an, mit wie vielen Ereignissen im Mittel zu rechnen ist. Wir werden diese Aussage in K¨ urze pr¨ azisieren.
68
3 Wahrscheinlichkeitsr¨ aume
Approximation von Binomial- durch Poisson-Verteilung Eine m¨ ogliche Anwendung der Poisson-Verteilung ist die Approximation der Binomialverteilung B(n, p) f¨ ur große n und kleine p. Nehmen wir an, wir wollten die Wahrscheinlichkeit bestimmen, dass von 10000 Computern 30 defekt sind, so m¨ ussten wir mittels der Binomialverteilung B(10000, p) den Term 10000 30 p (1 − p)9970 30 bestimmen. Gerade die Bestimmung des Binomialkoeffizienten f¨ uhrt zu erheblichen Schwierigkeiten. In solchen Situationen kann f¨ ur kleine Werte von p der folgende Satz helfen: ur alle n ∈ N und Satz 3.11. Es sei λ > 0, (pn ) eine Folge mit pn ∈ [0, 1] f¨ lim n · pn = λ.
n→∞
Dann gilt: lim B(n, pn )({k}) = Poi(λ)({k}) f¨ ur alle k ∈ N.
n→∞
Beweis. Aus der Analysis ist die Approximationsformel xn n lim 1 − = e−x f¨ ur xn → x n→∞ n bekannt. Daher folgt f¨ ur jedes k ∈ N0 und n ≥ k: n k B(n, pn )({k}) = p (1 − pn )n−k k n k−1 λk npn k (1 − pn )n n − i = k! λ (1 − pn )k i=1 n −→
n→∞
e−λ λk ·1· · 1 = Poi(λ)({k}). k! 1
3.3 Stetige Verteilungen Im vorherigen Abschnitt haben wir diskrete Verteilungen betrachtet, die sich durch Z¨ ahldichten charakterisieren lassen. In diesem Abschnitt betrachten wir Wahrscheinlichkeitsmaße auf R: P : B −→ [0, 1] auf dem Messraum (R, B).
3.3 Stetige Verteilungen
69
Diese Maße lassen sich ebenfalls durch ein einfacheres Objekt charakterisieren. Definition 3.12 (Verteilungsfunktion). Ist P : B → [0, 1] ein Wahrscheinlichkeitsmaß auf R, so heißt FP : R → [0, 1], x → FP (x) := P(] − ∞, x]), die Verteilungsfunktion von P. Ist FP : R → [0, 1] die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P, so gilt: ur a ≤ b gilt FP (b)−FP (a) = P(]a, b]) ≥ 0. • FP ist monoton wachsend, denn f¨ • FP ist rechtsseitig stetig: Ist xn ↓ x, so ist lim FP (xn ) = lim P(] − ∞, xn ]) = P(] − ∞, x]) = FP (x),
n→∞
•
n→∞
da P stetig von oben ist. lim FP (x) = 0 und lim FP (x) = 1: Ist xn ↓ −∞, so gilt wiederum auf
x→−∞
x→∞
Grund der Stetigkeit von oben: lim FP (xn ) = lim P(] − ∞, xn ]) = P(∅) = 0.
n→∞
n→∞
Analog folgt f¨ ur eine Folge xn ↑ ∞ die zweite Behauptung aus der Stetigkeit von unten: lim FP (xn ) = lim P(] − ∞, xn ]) = P(R) = 1.
n→∞
n→∞
Diese drei Eigenschaften motivieren die folgende Definition: Definition 3.13 (Verteilungsfunktion). Ist F : R → R eine monoton wachsende, rechtsseitig stetige Funktion mit lim F (x) = 0 und lim F (x) = 1,
x→−∞
x→∞
so heißt F Verteilungsfunktion. Ein typischer Graph einer Verteilungsfunktion ist in Abbildung 3.3 dargestellt. Der Korrespondenzsatz Wir wissen bereits, dass jedes Wahrscheinlichkeitsmaß P auf R eine Verteiur die umgekehrte Richtung erinnern wir daran, lungsfunktion FP liefert. F¨ dass es zu F nach Satz 1.40 genau ein Maß λF auf R mit
70
3 Wahrscheinlichkeitsr¨ aume
F(x)
1
nx Abbildung 3.3. Typische Verteilungsfunktion
λF (]a, b]) = F (b) − F (a) f¨ ur alle ]a, b] ⊂ R gibt. Da λF (R) = lim λF (] − ∞, n]) = lim F (n) = 1, n→∞
n→∞
ist λF sogar ein Wahrscheinlichkeitsmaß. Wir k¨onnen so jeder Verteilungsfunktion ein Wahrscheinlichkeitsmaß auf R zuordnen und jedem Wahrscheinlichkeitsmaß seine Verteilungsfunktion. Diese Abbildungen sind invers zueinander, wie der n¨ achste Satz zeigt: Theorem 3.14 (Korrespondenzsatz). F¨ ur jede Verteilungsfunktion F ist µ := λF ein Wahrscheinlichkeitsmaß mit Fµ = F . Umgekehrt ist f¨ ur jedes reelle Wahrscheinlichkeitsmaß P die Funktion G := FP eine Verteilungsfunktion und λG = P. Beweis. Ist F eine Verteilungsfunktion und µ := λF , so berechnen wir f¨ ur jedes x ∈ R Fµ (x) = lim µ(] − n, x]) = lim (F (x) − F (−n)) = F (x). n→∞
n→∞
Ist umgekehrt P ein Wahrscheinlichkeitsmaß und G = FP , so erhalten wir f¨ ur jedes halboffene Intervall ]a, b]: λG (]a, b]) = G(b) − G(a) = P(] − ∞, b]) − P(] − ∞, a]) = P(]a, b]).
3.3 Stetige Verteilungen
71
Da P und λG auf dem durchschnittsstabilen Erzeuger der halboffenen Intervalle u ¨bereinstimmen, folgt aus dem Maßeindeutigkeitssatz die Gleichheit P = λG . Damit sind Wahrscheinlichkeitsmaße auf R vollst¨andig durch reelle Funktionen F : R → [0, 1] charakterisiert. Stetige Verteilungsfunktionen Verteilungsfunktionen sind nach Definition rechtsseitig stetig, der rechtsseitige Limes ist daher gleich dem Funktionswert. Der linksseitige Grenzwert, den wir mit F (x− ) := lim F (t), x ∈ R, t↑x
abk¨ urzen, hat auch eine Bedeutung, wie das folgende Lemma zeigt: Lemma 3.15. Sei P : B → [0, 1] ein Wahrscheinlichkeitsmaß und FP seine Verteilungsfunktion. Dann gilt: P({x}) = FP (x) − FP (x− )
f¨ ur alle x ∈ R.
Beweis. Wir haben ]x − n1 , x] ↓ {x}, daher folgt aus der Stetigkeit von oben: 1 1 P({x}) = lim P x − , x = lim FP (x) − FP x − n→∞ n→∞ n n = FP (x) − FP (x− ). Als Folgerung erhalten wir unmittelbar: Korollar 3.16. Sei P : B → [0, 1] ein Wahrscheinlichkeitsmaß und FP seine Verteilungsfunktion. Dann sind ¨ aquivalent: (i) FP ist stetig. (ii) P({x}) = 0 f¨ ur alle x ∈ R. Dichten Um ein Wahrscheinlichkeitsmaß P : B → [0, 1] auf R anzugeben, gibt es neben der Verteilungsfunktion FP eine weitere M¨ oglichkeit, n¨amlich die Angabe einer Dichte. Wir erinnern daran, dass gem¨ aß Definition 2.35 jede nicht-negative, uglich des messbare Funktion f : R → R+ zur Dichte eines Maßes µ bez¨ Lebesgue-Maßes λ wird, indem man µ(A) := f IA dλ, f¨ ur alle A ∈ F,
72
3 Wahrscheinlichkeitsr¨ aume
setzt. Auf einem Intervall [a, b] gilt dann auf Grund der Gleichheit von Riemann- und Lebesgue-Integral (Satz 2.17) f¨ ur eine Riemann-integrierbare Dichte: b f dλ = f (x)dx. µ([a, b]) = a
[a,b]
Da f nicht-negativ ist, ist nach Satz 2.18 f genau dann auf R uneigentlich Riemann-integrierbar, wenn f auf R Lebesgue-integrierbar ist, und dann gilt ∞ f dλ = f (x)dx. −∞
R
Soll nun P := µ ein Wahrscheinlichkeitsmaß sein, also P(Ω) = 1 gelten, so muss f zus¨ atzlich auf R integrierbar sein und die Forderung ∞ f (x)dx = 1 −∞
erf¨ ullen. Die Verteilungsfunktion FP ergibt sich unmittelbar aus der Dichte: x FP (x) = P(] − ∞, x]) = f (x)dx. (3.4) −∞
Besitzt eine Dichte f f¨ ur −∞ ≤ a ≤ b ≤ +∞ die Gestalt f = g · I]a,b[ , mit g : R → R stetig, so bezeichnet man f als stetige Dichte, da f auf dem relevanten Intervall ]a, b[ stetig ist. Die zugeh¨ orige Verteilungsfunktion ist gem¨aß (3.4) auf ganz R stetig. Ist f eine stetige Dichte, so heißt das zugeh¨ orige reelle Wahrscheinlichkeitsmaß auch stetige Verteilung. Wir stellen einige klassische stetige Verteilungen mittels ihrer stetigen Dichten vor: Stetige Gleichverteilung Ist a, b ∈ R und a < b, so ist durch 1 I]a,b[ b−a eine stetige Dichte definiert. Sie ist das kontinuierliche Analogon zur LaplaceVerteilung und heißt daher auch stetige Gleichverteilung auf ]a, b[. Ihre Verteilungsfunktion ist auf dem Intervall ]a, b[ eine Gerade, s. Abbildung 3.4: ⎧ ⎪ f¨ ur x ≤ a, ⎨0 F (x) = x−a f¨ ur a < x < b, b−a ⎪ ⎩ 1 f¨ ur x ≥ b. f=
3.3 Stetige Verteilungen
F(x)
1
N
73
1 b-a
Ff(x)
na
Nb
nx
Abbildung 3.4. Dichte und Verteilungsfunktion der stetigen Gleichverteilung
Normalverteilung Die Dichte der Normalverteilung ist von zwei Parametern m ∈ R und σ > 0 abh¨ angig: (x − m)2 1 exp − f : R → R, f (x) := √ . 2σ 2 2πσ Wir bezeichnen die Normalverteilung mit N(m, σ 2 ). Ihr Graph ist in Abbildung 3.5 dargestellt. Die Funktion f ist stetig und nicht-negativ, f¨ ur den Nachweis, dass es sich um eine Dichte handelt, m¨ ussen wir ∞ f (x)dx = 1 −∞
zeigen. Dazu beginnen wir mit dem Spezialfall der N(0, 1)-Verteilung mit der Dichte 2 x 1 φ : R → R, φ(x) := √ exp − . 2 2π Als Standardbeispiel der Integration mit Hilfe von Polarkoordinaten ist aus der Analysis bekannt, dass ⎛ ⎝
∞
−∞
x2 exp − 2
⎞2 dx⎠ = 2π.
(3.5)
74
3 Wahrscheinlichkeitsr¨ aume 1.5
1
F(x)
0.5
f(x) 0 -3
-2
-1
0
1
2
3
Abbildung 3.5. Dichte und Verteilungsfunktion der Normalverteilung N(0, 1)
Dies l¨ asst sich auch mit Hilfe des Satzes von Fubini beweisen: Auf der einen Seite folgt durch die Substitution t = xy ⎛ ⎛ ⎞ ⎞ ∞ ∞ ∞ ∞ ⎝ exp(−x2 y 2 )dx⎠ y exp(−y 2 )dy = ⎝ exp(−t2 )dt⎠ exp(−y 2 )dy 0
0
0
⎛ =⎝
0
∞
⎞2
exp(−y 2 )dy ⎠ .
0
Auf der anderen Seite folgt aus arctan(x) =
1 1+x2
⎛ ⎞ ∞ ∞ ∞ 1 π ⎝ y exp(−(1 + x2 )y 2 )dy ⎠ dx = 1 dx = . 2 2 1+x 4 0
0
0
Die zwei Doppelintegrale gehen durch Vertauschung der Integrationsreihenfolge auseinander hervor. Daher sind sie nach dem Satz von Fubini 2.24 gleich, d.h. ⎛∞ ⎞2 ⎝ exp(−y 2 )dy ⎠ = π . 4 0
3.3 Stetige Verteilungen
Aus der Symmetrie von exp(−y 2 ) und mit der Substitution y = Gleichung (3.5). Damit gilt ∞ −∞
√ 2 2 x
75
folgt
√ 1 φ(x)dx = √ · 2π = 1. 2π
F¨ ur den allgemeinen Fall bemerken wir, dass die N(m, σ 2 )-Dichte f sich aus φ bestimmen l¨ asst: x−m 1 f (x) = φ f¨ ur x ∈ R. σ σ Mit der Substitution u = ∞
x−m σ
folgt:
∞
f (x)dx = −∞
−∞
1 φ σ
x−m σ
∞ φ(u)du = 1.
dx = −∞
Damit ist f tats¨ achlich eine Dichte. Die zugeh¨orige Verteilungsfunktion 1 F (x) = √ 2πσ
x −∞
(t − m)2 exp − dt 2σ 2
l¨ asst sich nicht in geschlossener Form auswerten. Jedoch ist sie genau wie die Dichte mittels der N (0, 1)-Verteilung bestimmbar. Setzen wir 1 Φ(x) := √ 2π
x
x 2
exp(−t )dt = −∞
so gilt:
−∞
F (x) = Φ
φ(t)dt,
x−m σ
.
(3.6)
S¨ amtliche Berechnungen lassen sich daher auf die N(0, 1)-Verteilung zur¨ uckf¨ uhren, die auch Standardnormalverteilung heißt. F¨ ur konkrete Berechnungen gen¨ ugt es daher, die Werte der Verteilungsfunktion Φ(x) zu kennen. Eine durch numerische Approximation berechnete Wertetabelle befindet sich in Anhang C.1. ¨ Beispiel 3.17. Die Normalverteilung kann ohne Ubertreibung als die wichtigste Verteilung der Wahrscheinlichkeitstheorie bezeichnet werden. Sie ist sowohl von theoretischer Bedeutung, z.B. im zentralen Grenzwertsatz, als auch von hoher Relevanz f¨ ur die Praxis. Die Normalverteilung wird als Modell f¨ ur viele Experimente und Beobachtungen verwendet. Dabei kann es sich
76
3 Wahrscheinlichkeitsr¨ aume
z.B. um Messfehler bei physikalischen Messungen, Abweichung eines Merkmals von der Normgr¨ oße, Rauschst¨ orung auf einem digitalen Nachrichtenkanal, Entwicklung des Logarithmus eines Wechselkurses etc. handeln. F¨ ur ein konkretes Beispiel nehmen wir an, die K¨orpergr¨oße der Bev¨olkerung in Deutschland sei normalverteilt mit m = 180[cm] und σ = 10. Wir werden noch zeigen, dass m einem Mittelwert der Verteilung entspricht, w¨ahrend σ die Bedeutung einer mittleren Abweichung vom Mittelwert m besitzt. Wie groß ist die Wahrscheinlichkeit, dass eine Person u ¨ber 2 Meter groß ist? Wir betrachten den Wahrscheinlichkeitsraum (R, B, N(180, 102 )) und erhalten: 200 − 180 2 N(180, 10 )(]200, ∞]) = 1 − F (200) = 1 − φ = 1 − φ(2). 10 Durch Nachschlagen in der Tabelle C.1 findet man f¨ ur den Wert der Standardnormalverteilung φ(2) ! 0.997, so dass wir f¨ ur die gesuchte Wahrscheinlichkeit den Wert N(180, 102 )(]200, ∞]) = 1 − φ(2) ! 0.003 ♦
erhalten. Exponentialverteilung
Die Dichte der Exponentialverteilung ist von einem Parameter λ > 0 abh¨angig und lautet: 0 f¨ ur x ≤ 0, (3.7) f : R → R, f (x) := λ exp(−λx) f¨ ur x > 0. Aus dem uneigentlichen Integral
∞ f dx = −∞
∞
λ exp(−λx)dx = 1 0
folgt, dass f tats¨ achlich eine Dichte ist. Wir bezeichnen die Exponentialverteilung mit Exp(λ). Durch Integration ergibt sich f¨ ur die Verteilungsfunktion: 0 f¨ ur x ≤ 0, F (x) = 1 − exp(−λx) f¨ ur x > 0. Die Dichte der Exponentialverteilung ist nur f¨ ur positive Werte ungleich Null. Daher spielt diese Verteilung dann eine Rolle, wenn man mit Sicherheit positive Ergebnisse erwartet. Typisches Beispiel sind Fragen nach der Lebensdauer von Ger¨ aten. Auch f¨ ur so genannte Wartezeiten, z.B. die Zeit bis zum n¨achsten Anruf in einem Callcenter, die Zeit zwischen dem Eintreten von zwei Kunden in ein Gesch¨ aft, die Zeit bis zur Emission eines Teilchens beim radioaktiven Zerfall etc., wird die Exponentialverteilung zu Grunde gelegt. Wir
3.4 Anwendung Physik: Quantum Computation
l = 0.5
0.5
77
F(x)
0.4
0.3
0.2
0.1
f(x) 0
0
1
2
3
4
5
6
7
8
9
10
11
Abbildung 3.6. Dichte und Verteilungsfunktion der Exponentialverteilung
werden dieser wichtigen Verteilung bei der Behandlung von Poisson-Prozessen in Kapitel 10 wieder begegnen. Die Parameter m, σ 2 , λ etc. der einzelnen Dichtefunktionen bestimmen die Form“ der Verteilung. Bei Anwendungen stellt sich die Frage, woher man ” die Werte der Parameter erh¨ alt. In der Praxis werden dazu gewisse Modellannahmen getroffen und dann statistische Sch¨atzverfahren (vgl. Kapitel 15) verwendet, um geeignete Parameter zu bestimmen. Im Rahmen der Wahrscheinlichkeitstheorie und ihrer Anwendungen hingegen werden die Parameter als gegeben vorausgesetzt.
3.4 Anwendung Physik: Quantum Computation Es gibt kryptographische Systeme, wie das nach seinen Erfindern Rivest, Shamir und Adleman benannte RSA-Verfahren, die darauf beruhen, dass es leicht ist, zwei nat¨ urliche Zahlen zu multiplizieren, aber schwierig, umgekehrt zu einer nat¨ urlichen Zahl die Primfaktorzerlegung zu bestimmen. Genauer bedeutet dies, dass bis zum heutigen Tag trotz intensiver Bem¨ uhungen kein Algorithmus gefunden wurde, der in polynomialer Zeit die Primfaktorzerlegung einer nat¨ urlichen Zahl bestimmen kann. Daher gilt die RSA-Verschl¨ usselung als sehr sicher und ist z.B. im Bankwesen weit verbreitet. Entsprechend groß war
78
3 Wahrscheinlichkeitsr¨ aume
die Aufmerksamkeit, als Peter Shor 1994 [Sho94] einen Quantenalgorithmus ver¨ offentlichte, der die Primfaktorzerlegung in polynomialer Zeit bew¨altigte. Dieser Algorithmus folgt allerdings nicht den Gesetzen der klassischen Mechanik, sondern der Quantenmechanik und muss entsprechend nicht auf einem klassischen Computer, sondern auf einem Quantencomputer laufen. Ob es jemals leistungsf¨ ahige Quantencomputer geben wird, ist ungewiss. Sicher ist jedoch, dass Shors Entdeckung zu einer weltweiten starken Forschungsaktivit¨at auf dem Gebiet der Quantum Computation gef¨ uhrt hat, die sich neben Quantencomputern und Quantenalgorithmen auch mit Quantenteleportation und Quantenkryptographie besch¨ aftigt. Letztere ist im Gegensatz zum Quantencomputer soweit entwickelt, dass erste Quantenkryptographieverfahren einsatzbereit sind. Quantenmechanische Zust¨ ande Wir wollen in diesem Abschnitt einen einfachen Quantenalgorithmus vorstellen, an dem aber bereits deutlich wird, weshalb Quantenalgorithmen klassischen Algorithmen u onnen. Dazu m¨ ussen wir etwas Quan¨berlegen sein k¨ tenmechanik betreiben. Die Gesetze der Quantenmechanik lassen sich gut in Form von Postulaten formulieren. Diese Postulate legen fest, was in einer quantenmechanischen Welt passieren kann und was nicht. Die Konsequenzen sind zum Teil sehr u ¨berraschend und entsprechen zun¨achst nicht der klassischen Vorstellung, sie sind jedoch in Tausenden von Experimenten best¨atigt worden. Die vier Postulate beziehen sich auf die m¨oglichen Zust¨ande eines Systems, ihre zeitliche Entwicklung, den Zustand von Mehrteilchensystemen und auf Messungen. Postulat 1: Ein (reiner) quantenmechanischer Zustand wird vollst¨andig beschrieben durch einen Vektor der Norm 1 in einem Hilbert-Raum. Wir setzen von nun an voraus, dass alle nachfolgend betrachteten HilbertR¨ aume endlich-dimensionale Hilbert-R¨ aume u ¨ber den komplexen Zahlen C sind. Ist H ein Hilbert-Raum und 2
SH := {v ∈ H : v = v, v = 1} die Sph¨ are in H, so ist jedes v ∈ SH ein quantenmechanischer Zustand. Ist speziell H zweidimensional u ¨ber C und {v0 , v1 } eine Orthonormalbasis von H, so besitzt jedes v ∈ SH eine Darstellung der Gestalt v = λ 0 v0 + λ 1 v1 ,
λ0 , λ1 ∈ C.
(3.8)
Ist x ∈ B mit |B| = 2 (z.B. B = {v0 , v1 }), so wird x im Rahmen der klassischen Informationstheorie als Bit bezeichnet. In Analogie zu einem klassischen ur einen zweidimensionalen Hilbert-Raum H Bit bezeichnet man ein v ∈ SH f¨ als ein q-Bit (kurz f¨ ur Quanten-Bit). Aus der Darstellung (3.8) wird deutlich,
3.4 Anwendung Physik: Quantum Computation
79
dass ein q-Bit mehr Zust¨ ande annehmen kann als ein klassisches Bit. Ein q-Bit kann gleichzeitig zu einem gewissen Anteil in v0 und zu einem gewissen Anteil anomen bezeichnet man als Superposition und ist einer in v1 sein. Dieses Ph¨ der entscheidenden Vorteile von Quantenalgorithmen, wie sich herausstellen wird. Aus der Bedingung v = 1 folgt, dass die Amplituden λ0 bzw. λ1 von ugen der Gleichung v0 bzw. v1 nicht beliebig sind, sie gen¨ |λ0 |2 + |λ1 |2 = 1. Dynamik Das zweite Postulat der Quantenmechanik regelt die zeitliche Entwicklung eines quantenmechanischen Systems:
Postulat 2: Die zeitliche Entwicklung eines (abgeschlossenen) quantenmechanischen Systems wird durch eine unit¨ are Transformation beschrieben. Konkret bedeutet dies, dass ein System, das anf¨anglich durch den Zustand v ∈ SH beschrieben wird, sich nach einer gewissen Zeitspanne im Zustand w = Uv
mit einer unit¨ aren Matrix U
befindet. Die Tatsache, dass U unit¨ ar ist, d.h.
U U = I,
I Einheitsmatrix,
stellt zum einen sicher, dass Postulat 2 mit Postulat 1 vertr¨aglich ist, denn es ist
2 w = Uv, Uv = U Uv, v = 1. Zum anderen ist U als unit¨ are Matrix stets invertierbar. Jede zeitliche Entwicklung eines Quantenzustandes ist also im Prinzip umkehrbar. Mehrteilchensysteme Das n¨ achste Postulat, das wir ben¨ otigen, beschreibt den gemeinsamen Zustand mehrerer einzelner Zust¨ ande: Postulat 3: Sind v ∈ H1 und w ∈ H2 zwei quantenmechanische Zust¨ande, so ist ihr gemeinsamer Zustand das Tensorprodukt von v und w, das wir mit v ⊗ w ∈ H1 ⊗ H2 bezeichnen. Das Tensorprodukt v ⊗ w ist das Bild von (v, w) unter der kanonischen Projektion H1 × H2 −→ H1 ⊗ H2 , (v, w) → v ⊗ w.
80
3 Wahrscheinlichkeitsr¨ aume
Bei H1 ⊗ H2 handelt es sich um das Tensorprodukt zweier (endlich-dimensionaler) Hilbert-R¨aume, daher ist H1 ⊗ H2 wieder ein Hilbert-Raum. Ist (v1 , . . . , vn ) eine Orthonormalbasis von H1 und (w1 , . . . , wm ) eine Orthonormalbasis von H2 , so ist vi ⊗ wj ,
i = 1, . . . , n, j = 1, . . . , m,
eine Orthonormalbasis von H1 ⊗H2 . Insbesondere hat H1 ⊗H2 die Dimension n · m. Jedes Element u ∈ H1 ⊗ H2 besitzt eine Darstellung der Gestalt u=
n m
λij vi ⊗ wj ,
λij ∈ C,
i=1 j=1
so dass es gen¨ ugt, lineare Abbildungen von H1 ⊗ H2 auf der Basis vi ⊗ wj , i = 1, . . . , n, j = 1, . . . , m, anzugeben. Multi-q-Bits Ist H = H1 = H2 , so setzen wir H⊗2 := H ⊗ H und H⊗n+1 := H⊗n ⊗ H, n ≥ 2. Ist speziell H zweidimensional, so ist gem¨aß Postulat 1 jedes Element der Sph¨ are 2 SH⊗n := {v ∈ H⊗n : v = 1} ein zul¨ assiger quantenmechanischer Zustand, den wir als Multi-q-Bit bezeichnen. Aus der Darstellung eines Multi-q-Bits v ∈ SH⊗n in der Orthonormalbasis {e1 , . . . , e2n } := {vi1 ⊗ . . . ⊗ vin , i1 , . . . , in ∈ {0, 1}} e = λ1 e1 + . . . + λ2n e2n ,
λ1 , . . . , λ2n ∈ C,
2
folgt wegen e = 1 wieder |λ1 |2 + . . . + |λ2n |2 = 1. Sind zwei q-Bits v = λ0 v0 + λ1 v1 und w = γ0 v0 + γ1 v1 gegeben, so ist ihr gemeinsamer Zustand das Multi-q-Bit v ⊗ w = λ0 γ0 v0 ⊗ v0 + λ0 γ1 v0 ⊗ v1 + λ1 γ0 v1 ⊗ v0 + λ1 γ1 v1 ⊗ v1 . Von entscheidender Bedeutung f¨ ur die Quantenmechanik ist die Tatsache, dass die Abbildung ⊗ : SH × SH −→ SH⊗2 , (v, w) → v ⊗ w, im Allgemeinen nicht surjektiv ist. So ist z.B. der Zustand # 1 3 v0 ⊗ v0 + v1 ⊗ v1 ∈ SH⊗2 2 4
3.4 Anwendung Physik: Quantum Computation
81
nicht als Tensorprodukt zweier q-Bits darstellbar, wie man an obiger Rechnung sieht. Dieses Ph¨ anomen heißt Verschr¨ ankung (englisch: Entanglement). Ein verschr¨ ankter Zustand kann nicht als einfache Kombination zweier Einzelzust¨ ande betrachtet werden. Diese Komplexit¨at kann man in Quantenalgorithmen positiv ausnutzen. Messungen Ist v = λ1 e1 + . . . + λ2n e2n ∈ SH⊗n ein Multi-q-Bit, so induziert dieses eine diskrete Verteilung auf der Menge Ω := {e1 , . . . , e2n } der Basisvektoren von H⊗n . Denn wegen der Normierung |λ1 |2 + . . . + |λ2n |2 = 1 ist durch die Festlegung pi = P({ei }) = |λi |2 ,
i = 1, . . . , 2n ,
eine diskrete Z¨ ahldichte auf Ω bestimmt. Die Bedeutung dieser Wahrscheinlichkeiten wird durch das vierte und letzte Postulat erkl¨art, das sich mit Messungen besch¨ aftigt. Eine Vorrichtung zur Messung eines Multi-q-Bits e entur spricht einer Partitionierung E1 , . . . , Ek ⊆ Ω von Ω (also Ei ∩ Ej = ∅ f¨ k i = j und Ej = {e1 , . . . , e2n }). Die Mengen E1 , . . . , Ek repr¨asentieren die j=1
m¨oglichen Ergebnisse der Messung. Postulat 4: Bei einer Messung E1 , . . . , Ek erh¨alt man das Ergebnis Ei = {ei1 , . . . , eim } mit der Wahrscheinlichkeit P(Ei ) =
m j=1
pij =
m
|λij |2 .
j=1
Nach der Messung mit Ergebnis Ei = {ei1 , . . . , eim } geht das Multi-q-Bit u ¨ber in den Zustand u = µ1 e1 + . . . + µ2n e2n ∈ SH⊗n mit ⎧ ⎪ 0 f¨ ur k ∈ / {i1 , . . . , im }, ⎨ λk f¨ u r k ∈ {i1 , . . . , im }. µk = $ m ⎪ |λij |2 ⎩ j=1
Betrachten wir als Beispiel ein Multi-q-Bit v ∈ SH⊗n und die Partition Ei = {ei }, i = 1, . . . , 2n , so erhalten wir bei der Messung das Ergebnis Ei = {ei } mit der Wahrscheinlichkeit
82
3 Wahrscheinlichkeitsr¨ aume
P(Ei ) = pi = |λi |2 ,
i = 1, . . . , 2n ,
und nach der Messung befindet sich das Multi-q-Bit im Zustand ei . In diesem Fall besteht nach der Messung also kein Superpositionszustand mehr, das Multi-q-Bit ist mit Wahrscheinlichkeit 1 im Zustand ei . Gates Im Zusammenhang mit Quantenalgorithmen werden diejenigen Automorphismen F : H⊗n −→ H⊗n , die durch eine unit¨ are Matrix MF repr¨asentiert werden k¨ onnen und damit die Sph¨ are wieder auf die Sph¨are abbilden, als Gates bezeichnet. Wir wollen einige Beispiele vorstellen: Beispiel 3.18 (spezielle Gates). • NOT-Gate: Sei b ∈ {v0 , v1 } ein Bit, so wird durch NOT : {v0 , v1 } → {v0 , v1 }, v0 → v1 und v1 → v0 die logische Verneinung definiert. Ist nun {v0 , v1 } eine Basis eines Hilbert-Raumes H, so kann man die Funktion NOT bez¨ uglich dieser Basis durch die Matrix 01 MNOT = 10 darstellen. Diese Matrix ist unit¨ ar und kann direkt zur Definition einer NOT-Operation auf q-Bits verwendet werden: 01 λ1 FNOT : SH → SH (λ1 , λ2 ) → 10 λ2 (FNOT ((λ1 , λ2 )) als Spaltenvektor notiert). Offensichtlich werden die Wahrscheinlichkeiten f¨ ur die Ergebnisse {v0 } und {v1 } durch FNOT gerade vertauscht. • Hadamard-Gate: Ein Hadamard-Gate hat die Aufgabe, Multi-q-Bits, die eine Gleichverteilung implizieren (also P({ei }) = 21n , i = 1, . . . , 2n ), dadurch zu generieren, dass man dieses Gate auf Basiselemente anwendet. Bez¨ uglich der Basis alt man die unit¨ aren Matrizen: {e1 , . . . , e2n } erh¨ n=1:
MHa,1
1 = √ 2
1 1 1 −1
⎛
n=2:
n=k+1:
MHa,2
MHa,k+1
⎞ 1 1 1 1 1 ⎜ 1 −1 1 −1 ⎟ ⎟. = ⎜ 2 ⎝ 1 1 −1 −1 ⎠ 1 −1 −1 1 1 = √ 2
MHa,k MHa,k MHa,k −MHa,k
.
3.4 Anwendung Physik: Quantum Computation
83
Wir wollen explizit die Wirkung einer Hadamard-Matrix H := MHa,1 auf die Basisvektoren {v0 , v1 } bestimmen. Es gilt: 1 H(v0 ) = √ (v0 + v1 ), 2
1 H(v1 ) = √ (v0 − v1 ). 2
Die von H(v0 ) und H(v1 ) induzierten Wahrscheinlichkeitsmaße sind also gleich, ihre Darstellung jedoch verschieden. Wendet man das HadamardGate ein weiteres Mal an, so folgt: H(H(v0 )) = v0 ,
H(H(v1 )) = v1 .
Diese Eigenschaften werden wir f¨ ur den nachfolgenden Quantenalgorithmus intensiv ben¨ otigen. • f -Gate: Gegeben sei eine unbekannte Funktion f : {v0 , v1 } −→ {v0 , v1 }. Wir wollen ein Gate Uf konstruieren, das klassisch einer Auswertung von f entspricht. Dazu definieren wir ein klassisches Gate Vf auf einer Basis, das wir dann zu einem quantenmechanischen Gate Uf linear fortsetzen k¨onnen. Die nahe liegendste Idee ist wohl, Vf = f zu setzen: Vf : {v0 , v1 } −→ {v0 , v1 },
Vf (vi ) := f (vi ).
Allerdings ist dies im Allgemeinen nicht invertierbar, also k¨onnen wir so kein zul¨ assiges quantenmechanisches Gate konstruieren. Auch der Graph von f , {v0 , v1 } −→ {v0 , v1 }2 , vi → (vi , f (vi )), ist schon aus Dimensionsgr¨ unden nicht invertierbar, wir ben¨otigen eine zweite Koordinate im Definitionsbereich. Dies f¨ uhrt uns zu der invertierbaren Funktion Vf : {v0 , v1 }2 −→ {v0 , v1 }2 , (vi , vj ) → Vf (vi , vj ) := (vi , vj ⊕ f (vi )),
i, j ∈ {0, 1},
wobei vi ⊕ vi := v0 , i = 0, 1, und v0 ⊕ v1 := v1 ⊕ v0 := v1 (die Operation ⊕ entspricht also der bin¨ aren Addition der Indizes). Auf der Menge {v0 , v1 }2 ist dies ein klassisches f -Gate. Entsprechend erhalten wir das quantenmechanische f -Gate, indem wir Uf : H⊗2 −→ H⊗2 , vi ⊗ vj → vi ⊗ (vj ⊕ f (vi )), ar und enth¨ alt f¨ ur jedes Basiselement vi ⊗ vj linear fortsetzen. Uf ist unit¨ genau eine Auswertung von f . Daher eignet sich Uf als quantenmechanisches Analogon zu einer Auswertung der Funktion f . ♦
84
3 Wahrscheinlichkeitsr¨ aume
Deutsch-Algorithmus ¨ Wir wollen nun eine Problemstellung skizzieren, bei der sich die Uberlegenheit eines Quantenalgorithmus zeigt. Gegeben sei dazu eine Funktion auf der Orthonormalbasis des zweidimensionalen Hilbert-Raums H: f : {v0 , v1 } −→ {v0 , v1 }. F¨ ur die Funktion f gibt es vier M¨ oglichkeiten: zwei davon sind konstant (d.h. f (v0 ) = f (v1 )), die zwei verbleibenden sind ausgeglichen, d.h. der Funktionswert v0 tritt genauso oft auf wie der Funktionswert v1 , n¨amlich genau ein Mal. Ziel des Algorithmus ist es zu entscheiden, ob f ausgeglichen oder konstant ist. Dies ist eine Variante eines Problems, das 1985 von D. Deutsch ([Deu85]) behandelt und sp¨ ater verallgemeinert wurde, vgl. [DJ92]. Offensichtlich ben¨ otigt man f¨ ur die Probleml¨ osung mit einem klassischen Algorithmus zwei Auswertungen der Funktion f . Es gibt keinen einzigen Fall, bei dem man aus einer Auswertung der Funktion f auf die Ausgeglichenheit oder Konstanz der Funktion schließen k¨ onnte. Wie wir im Folgenden zeigen wollen, gen¨ ugt in einem geschickt konstruierten Quantenalgorithmus eine Auswertung der Funktion f , um diese Frage zu beantworten. Wir erinnern daran, dass eine quantenmechanische Auswertung der Funktion f einer Verwendung des f -Gates Uf entspricht. Um auszuschließen, dass wir das Problem in Wirklichkeit deshalb l¨osen k¨onnen, weil das f -Gate zweidimensional operiert, sei bemerkt, dass auch bei Verwendung des klassischen f -Gates Vf : {v0 , v1 }2 −→ {v0 , v1 }2 ,
Vf (vi , vj ) = (vi , vi ⊕ f (vj ))
in jedem Fall zwei Auswertungen des klassischen f -Gates erforderlich sind, um das Problem zu l¨ osen. Als Vor¨ uberlegung f¨ ur den Quantenalgorithmus berechnen wir Uf (vi ⊗ √12 (v0 − v1 )), i ∈ {0, 1}:
Uf
1 1 vi ⊗ √ (v0 − v1 ) = Uf √ [vi ⊗ v0 − vi ⊗ v1 ] 2 2 1 = √ [vi ⊗ (v0 ⊕ f (vi )) − vi ⊗ (v1 ⊕ f (vi ))] 2 1 = √ [vi ⊗ f (vi ) − vi ⊗ (v1 ⊕ f (vi ))] 2 vi ⊗ v0 − vi ⊗ v1 f¨ ur f (vi ) = v0 , 1 = √ ur f (vi ) = v1 , 2 vi ⊗ v1 − vi ⊗ v0 f¨ (−1)ind(f (vi )) √ [vi ⊗ v0 − vi ⊗ v1 ] 2 1 = (−1)ind(f (vi )) vi ⊗ √ (v0 − v1 ), 2 =
3.4 Anwendung Physik: Quantum Computation
85
Abbildung 3.7. Wirkung des f -Gates
wobei wir ind(vi ) := i, i ∈ {0, 1}, verwendet haben. Zusammengefasst bedeutet diese Rechnung: Wird Uf auf ein Tensorprodukt angewandt, bei dem sich das zweite q-Bit im Zustand √12 (v0 − v1 ) befindet, ist das Ergebnis wieder ein Tensorprodukt (und nicht etwa verschr¨ankt), das zweite q-Bit bleibt unver¨ andert und das erste bekommt eine globale Phase (−1)ind(f (vi )) . Das Resultat dieser Vor¨ uberlegung ist in Abbildung 3.7 noch einmal veranschaulicht. Nun k¨ onnen wir den Deutsch-Algorithmus beschreiben: Schritt 1: Wende jeweils ein Hadamard-Gate auf v0 und v1 an, bestimme also H(v0 ) und H(v1 ). Schritt 2: Betrachte nun das Multi-q-Bit H(v0 )⊗H(v1 ) und wende das f -Gate an, berechne also Uf (H(v0 ) ⊗ H(v1 )). Schritt 3: Sei u1 ⊗ u2 = Uf (H(v0 ) ⊗ H(v1 )). Bestimme H(u1 ). Schritt 4: Es gilt H(u1 ) ∈ {±v0 , ±v1 }. Messe H(u1 ). Ist H(u1 ) im Zustand ±v0 , so ist f konstant, andernfalls ausgeglichen. Symbolisch ist dieser Algorithmus in Abbildung 3.8 dargestellt. Wir weisen
Abbildung 3.8. Deutsch-Algorithmus
jetzt seine Richtigkeit nach. Zun¨ achst gilt: 1 H(v0 ) = √ (v0 + v1 ), 2
1 H(v1 ) = √ (v0 − v1 ). 2
86
3 Wahrscheinlichkeitsr¨ aume
Als n¨ achstes m¨ ussen wir Uf (H(v0 ) ⊗ H(v1 )) bestimmen. Dazu diente gerade unsere Vor¨ uberlegung: Das Ergebnis ist ein Tensorprodukt, bei dem H(v1 ) = √1 (v0 −v1 ) unver¨ andert bleibt und H(v0 ) einen globalen Phasenfaktor erh¨alt: 2 1 Uf (H(v0 )⊗H(v1 )) = √ ((−1)ind(f (v0 )) v0 +(−1)ind(f (v1 )) v1 )⊗H(v1 ) =: u1 ⊗u2 . 2 Ist f konstant, so ist u1 = ± √12 (v0 +v1 ), so dass H(u1 ) = ±v0 ist. Ist hingegen f ausgeglichen, so ist H(u1 ) = ± √12 (v0 − v1 ), so dass H(u1 ) = ±v1 ist. Messung von H(u1 ) liefert also mit Sicherheit den Zustand v0 f¨ ur konstantes f und ur ausgeglichenes f . Damit ist die Korrektheit des Deutschden Zustand v1 f¨ Algorithmus nachgewiesen. Mit genau einer Verwendung des f -Gates kann die Frage, ob f ausgeglichen oder konstant ist, durch einen Quantenalgorithmus beantwortet werden. Deutsch-Jozsa-Algorithmus ur ein n ≥ 1 gegeben, so bezeichnen wir f Ist f : {v0 , v1 }n → {v0 , v1 } f¨ als ausgeglichen, falls genau 2n−1 mal der Wert v0 und 2n−1 mal der Wert v1 angenommen wird. Wir nehmen nun an, f sei entweder konstant oder ausgeglichen. Um klassisch die Frage zu beantworten, ob f konstant oder
Abbildung 3.9. Deutsch-Jozsa-Algorithmus
ausgeglichen ist, sind bis zu 2n−1 + 1
Auswertungen von f
erforderlich. Insbesondere w¨ achst die Anzahl der ben¨otigten Auswertungen exponentiell. Der Quantenalgorithmus, als Deutsch-Jozsa-Algorithmus ([DJ92]) bekannt, kommt erstaunlicherweise genau wie im Fall n = 1 mit einer Auswertung des f -Gates aus. Dieses ist in nat¨ urlicher Verallgemeinerung gegeben durch die Festlegung der Bilder der Basisvektoren: Uf : SH⊗n+1 −→ SH⊗n+1 , vi1 ⊗ . . . ⊗ vin+1 → (vi1 ⊗ . . . ⊗ vin ⊗ (vin+1 ⊕ f (vi1 , . . . , vin )).
3.4 Anwendung Physik: Quantum Computation
87
Schreiben wir Hn := MHa,n , so l¨ auft der Algorithmus v¨ollig analog zum eindimensionalen Fall ab, so dass wir uns auf die schematische Beschreibung in Abbildung 3.9 beschr¨ anken. Analoge Rechnungen zeigen, dass bei der Messung der ersten n q-Bits gem¨ aß E1 := {(v0 , . . . , v0 )} und E2 := E1c mit Wahrscheinlichkeit 1 der Zustand (v0 , . . . , v0 ) beobachtet wird, wenn f konstant ist, und mit Wahrscheinlichkeit 0, wenn f ausgeglichen ist. Mehr zum Thema Quantum Computation und Quantum Information Theory findet man im Stochastik-Buch von Williams [Wil01] sowie z.B. in [NC00], [ABH+ 01] und [BEZ00].
4 Zufallsvariablen
4.1 Grundbegriffe Verschiedene Aspekte eines Zufallsexperimentes Nehmen wir an, wir wollten die Qualit¨ atskontrolle von 5 Taschenrechnern als Zufallsexperiment (Ω1 , F1 , P) modellieren. Ein geeigneter Ergebnisraum w¨are ur Taschenrechner funktioniert“, 1 f¨ ur TaschenrechΩ1 = {0, 1}5 , wobei 0 f¨ ” ” ner defekt“ steht. Eine Maschine sortiert die defekten Taschenrechner automatisch aus. Dazu ben¨ otigt sie die genaue Sequenz, z.B. ω = (0, 0, 1, 0, 1), um die richtigen Taschenrechner auszusortieren, in unserem Beispiel den dritten und f¨ unften Taschenrechner. Den Produktionsleiter hingegen interessiert nur, wie viele Taschenrechner defekt sind. Daher betrachtet er den Ergebnisraum Ω2 = {0, 1, 2, 3, 4, 5} und bildet die Summe X : {0, 1}5 −→ Ω2 ,
ω = (ω1 , . . . , ω5 ) →
5
ωi .
i=1
Die Summe X(ω) ist gerade die Anzahl defekter Taschenrechner, in unserem Beispiel X((0, 0, 1, 0, 1)) = 2. Will man die Wahrscheinlichkeit f¨ ur das Ereignis h¨ochstens ein defekter Taschenrechner“ ermitteln, so wird diese durch das ” Ereignis X −1 ({0, 1}) ∈ F1 dargestellt, und wir k¨ onnen die Wahrscheinlichkeit P(X −1 ({0, 1})) bestimmen. Zusammengefasst erhalten wir: Interessiert man sich bei einem Zufallsur verschiedene Aspekte, so ist es sinnvoll, Abbildunexperiment (Ω1 , F1 , P) f¨ gen X : Ω1 → Ω2 zu betrachten. Eine solche Abbildung X reduziert das Zufallsexperiment auf die zu untersuchende Fragestellung. Die Messbarkeit von X stellt sicher, dass wir das Bildmaß PX von P unter X auf Ω2 betrach¨ ten k¨ onnen. Diese Uberlegungen f¨ uhren zu folgender Definition:
90
4 Zufallsvariablen
Definition 4.1 (Zufallsvariable). Ist (Ω1 , F1 , P) ein Wahrscheinlichkeitsraum und (Ω2 , F2 ) ein Messraum, so heißt eine F1 -F2 -messbare Abbildung X : Ω1 → Ω2
Zufallsvariable.
Ist Ω2 = Rn , so wird X als n-dimensionale reelle Zufallsvariable und im ¯ so heißt X Fall n = 1 als reelle Zufallsvariable bezeichnet. Ist Ω2 = R, numerische Zufallsvariable. Zufallsvariablen bieten zwei entscheidende Vorteile. Zum einen gen¨ ugt es, das zu Grunde liegende Zufallsexperiment ein einziges Mal durch einen Wahrscheinlichkeitsraum (Ω1 , F1 , P) zu modellieren. Jede Zufallsvariable X : ur den man sich Ω1 −→ Ω2 bildet dann den Aspekt des Experiments ab, f¨ gerade interessiert. Das Bild X(ω) kann oft als Messung interpretiert werden: X(ω) ist der vom Ergebnis ω des Experiments abh¨angige Messwert. Der zweite Vorteil von Zufallsvariablen besteht darin, dass sie als Abbildungen die M¨oglichkeit bieten, verkn¨ upft zu werden. Wir k¨onnen reelle Zufallsvariablen addieren, multiplizieren etc. Verteilung von Zufallsvariablen Das Bildmaß PX auf Ω2 ist wegen PX (Ω2 ) = P(X −1 (Ω2 )) = P(Ω1 ) = 1 wieder ein Wahrscheinlichkeitsmaß: Definition 4.2 (Verteilung einer Zufallsvariablen). Ist (Ω1 , F1 , P) ein Wahrscheinlichkeitsraum, (Ω2 , F2 ) ein Messraum und X : Ω1 −→ Ω2 eine Zufallsvariable, so heißt das Bildmaß PX Verteilung von X. Eigenschaften der Verteilung PX werden als Eigenschaften von X deklariert: X heißt diskret, wenn PX diskret ist etc. Ist X z.B. normalverteilt, d.h. ur kurz PX = N(m, σ 2 ), so schreiben wir daf¨ X ∼ N(m, σ 2 ). Analog sind z.B. X ∼ Exp(λ) und X ∼ Poi(λ) zu verstehen. Genau wie bei messbaren Abbildungen in der Maßtheorie verwenden wir die verk¨ urzenden Notationen {X ∈ A} f¨ ur {ω ∈ Ω : X(ω) ∈ A}, {X = c} f¨ ur {ω ∈ Ω : X(ω) = c}, {a ≤ X ≤ b} f¨ ur {ω ∈ Ω : a ≤ X(ω) ≤ b} etc.
4.2 Momente
91
Diese Abk¨ urzungen bew¨ ahren sich insbesondere im Zusammenhang mit Wahrscheinlichkeiten: P(X ∈ A) = P({ω ∈ Ω : X(ω) ∈ A}) = PX (A), P(X = c) = P({ω ∈ Ω : X(ω) = c}) = PX ({c}) etc. Um nicht jeden Satz mit Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und ...“ ” zu beginnen, fixieren wir von nun an einen Wahrscheinlichkeitsraum (Ω, F, P). Alle Zufallsvariablen sollen, wenn nicht ausdr¨ ucklich anders erw¨ahnt, auf dem Wahrscheinlichkeitsraum (Ω, F, P) definiert sein. Integration bez¨ uglich des Bildmaßes Die Verteilung PX ist eindeutig bestimmt durch die Zufallsvariable X und das Wahrscheinlichkeitsmaß P. Daher muss dasselbe auch f¨ ur das Integral nach PX gelten: Satz 4.3. Es sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable und f : Rn → R eine messbare Funktion, so dass f ◦ X : Ω → R P-integrierbar ist. Dann gilt: f dPX = f ◦ XdP. Beweis. Ist f = IA , A ∈ Bn , so ist f ◦ X = IA Daraus folgt
mit A := X −1 (A) ∈ F.
f dPX = PX (A) = P(A ) =
f ◦ XdP.
Damit ist die Behauptung f¨ ur Indikatorfunktionen bewiesen. Der Rest folgt nach unserer Standardprozedur.
4.2 Momente Momente sind Kenngr¨ oßen von Zufallsvariablen. Die zwei wichtigsten Momente sind der Erwartungswert, der den mittleren Wert“ des Experiments ” kennzeichnet, und die Varianz. Sie ist ein Maß daf¨ ur, wie stark die Werte um den Erwartungswert streuen. Erwartungswert und Varianz bestimmen im Allgemeinen eine Verteilung nicht eindeutig, sie k¨onnen aber einen ersten Eindruck von der Verteilung vermitteln.
92
4 Zufallsvariablen
Erwartungswert und Varianz Welche Zahl erwarten wir im Mittel beim Wurf eines W¨ urfels? Der naive Ansatz l¨ asst uns die m¨ oglichen Ausg¨ ange 1, 2, 3, 4, 5 und 6 mit ihren jeweiligen Wahrscheinlichkeiten pi , in diesem Fall pi = 16 , i = 1, . . . , 6, gewichten: 6
pi · i =
i=1
1 (1 + 2 + 3 + 4 + 5 + 6) = 3.5. 6
¨ ¨ Ubertragen wir diese Uberlegung auf die Verteilung PX einer diskreten Zufallsvariablen X : Ω → R mit Z¨ ahldichte f : R → [0, 1] und Tr¨ager T , so sind die m¨ oglichen Ergebnisse x = X(ω), die mit der Wahrscheinlichkeit P(X = x) = f (x) auftreten. Entsprechend erhalten wir den Mittelwert x · P(X = x) = x · f (x). x∈T
x∈T
Ignorieren wir noch f¨ ur einen Moment, dass diese Reihe nicht zu existieren braucht, so k¨ onnen wir diese gem¨ aß Satz 2.13 und Satz 4.3 als Integral schreiben: x · f (x) = xf (x)dµZ (x) = xdPX (x) = XdP. x∈T
Der letzte Ausdruck ist f¨ ur alle P-quasiintegrierbaren Zufallsvariablen definiert, so dass wir diesen f¨ ur die Definition verwenden: Definition 4.4 (Erwartungswert). Ist X : Ω → R eine quasiintegrierbare reelle Zufallsvariable, so heißt E(X) := XdP = xdPX (x) der Erwartungswert von X. Der Erwartungswert ist also ein spezielles Lebesgue-Integral. Daher u ¨bertragen sich alle Eigenschaften des Lebesgue-Integrals auf Erwartungswerte. Insbesondere ist der Erwartungswert monoton und linear: E(aX + b) = aE(X) + b, a, b ∈ R, X ≤ Y ⇒ E(X) ≤ E(Y ). In konkreten Beispielen sind stetige Verteilungen PX von X meist durch eine (Riemann-integrierbare) Dichte f bez¨ uglich des Lebesgue-Maßes gegeben, so dass wir f¨ ur diesen Fall E(X) =
x · f (x)dx
erhalten. F¨ ur diskrete Verteilungen von X mit Z¨ahldichte f und Tr¨ager T erhalten wir analog
4.2 Momente
E(X) =
xf (x)dµZ (x) =
93
xf (x).
x∈T
Bevor wir Beispiele betrachten, definieren wir die zweite wichtige Kenngr¨oße einer Verteilung: Definition 4.5 (Varianz). Ist X eine Zufallsvariable mit E(|X|) < ∞, so heißt V(X) := E[(X − E(X))2 ] = E(X 2 ) − E(X)2 die Varianz von X. Die Zufallsvariable X 2 ist stets quasi-integrierbar, aber nicht notwendig integrierbar. Daher ist V(X) = ∞ m¨ oglich. Das zweite Gleichheitszeichen in der Definition der Varianz folgt aus der Linearit¨ at des Integrals. F¨ ur die Varianz gilt V(X) ≥ 0, und die Wurzel ' σ := V(X) heißt Standardabweichung von X. F¨ ur den Fall, dass die Verteilung von X durch eine Dichte bez¨ uglich des alt man v¨ollig analog zur obigen Lebesgue-Maßes gegeben ist, PX = f λ, erh¨ Herleitung V(X) = (x − E(X))2 f (x)dx = x2 f (x)dx − E(X)2 und f¨ ur den Fall einer diskreten Verteilung PX = f µZ mit Z¨ahldichte f V(X) = (x−E(X))2 f (x)dµZ (x) = (x−E(X))2 f (x) = x2 f (x)−E(X)2 . x∈T
x∈T
Beispiele Beispiel 4.6 (X deterministisch). Ist V(X) = 0, so bedeutet dies intuitiv, dass die Zufallsvariable nicht vom Erwartungswert abweicht. In der Tat folgt nach Satz 2.15 X = E(X) fast sicher, ♦
d.h. bis auf eine Nullmenge ist X konstant.
Beispiel 4.7 (Bernoulli-Verteilung). Ist X B(1, p)-verteilt, so besitzt PX auf dem Tr¨ ager {0, 1} die Z¨ ahldichte f (x) = px (1 − p)1−x ,
x ∈ {0, 1}.
Wir erhalten: E(X) = 1 · p + 0 · (1 − p) = p, V(X) = 12 · p + 02 · (1 − p) − p2 = p(1 − p). ♦
94
4 Zufallsvariablen
Beispiel 4.8 (Binomialverteilung). Ist X B(n, p)-verteilt, so besitzt PX auf dem Tr¨ ager {0, . . . , n} die Z¨ ahldichte n k f (k) = p (1 − p)n−k , k ∈ {0, . . . , n}. k Wir erhalten: n n k k p (1 − p)n−k k k=0 n n − 1 k−1 = np (1 − p)n−k p k−1 k=1 n−1 n − 1 = np pk (1 − p)n−k−1 k
E(X) =
k=0
= np(p + (1 − p))n−1 = np. Setzen wir q := 1 − p, so folgt f¨ ur die Varianz: n 2 n k pk (1 − p)n−k − (np)2 V(X) = k k=1 n n − 1 k−1 n−k = np k p q − (np)2 k−1 k=1 n−1 n − 1 k n−1−k = np (k + 1) p q − (np)2 k k=0 (n−1 ) n − 1 k n−1−k = np k p q + 1 − (np)2 k k=0
= np[(n − 1)p + 1] − (np)2 = np(1 − p). Interpretieren wir p als Erfolgswahrscheinlichkeit in einem Zufallsexperiment, so bedeutet dies, das wir bei n Versuchen im Mittel mit np Erfolgen rechnen k¨ onnen. Die Varianz ist als Funktion von p eine Parabel mit Maximum bei ♦ p = 12 . Beispiel 4.9 (Poisson-Verteilung). Ist X Poi(λ)-verteilt, λ > 0, so besitzt PX auf dem Tr¨ ager N0 die Z¨ ahldichte f (n) = exp(−λ)
λn , n!
n ∈ N0 .
Wir erhalten: E(X) =
∞ n=0
n exp(−λ) ·
∞ λn−1 λn = λ exp(−λ) = λ. n! (n − 1)! n=1
4.2 Momente
95
Schreiben wir n2 = n(n − 1) + n, so folgt ∞ λn V(X) = n2 exp(−λ) · − λ2 n! n=0 ∞ ∞ λn−2 λn−1 2 = λ exp(−λ) + λ exp(−λ) − λ2 = λ. (n − 2)! (n − 1)! n=2 n=1 Erwartungswert und Varianz einer Poisson-verteilten Zufallsvariablen sind also gerade durch den Parameter λ gegeben. Erinnern wir uns, dass die PoissonVerteilung als Wartezeitverteilung verwendet wird, so erkl¨art dies den Begriff Rate f¨ ur λ. Der Parameter λ gibt an, mit wie vielen Anrufen im Callcenter pro Stunde, emittierten radioaktiven Teilchen pro Sekunde etc. im Mittel zu rechnen ist. ♦ Nach drei diskreten Beispielen folgen drei stetige Verteilungen: Beispiel 4.10 (Gleichverteilung). Ist X auf dem offenen Intervall ]a, b[ gleichverteilt, so besitzt X die Dichte f (x) =
1 I]a,b[ , b−a
x ∈ R,
und wir erhalten: 1 E(X) = b−a 1 V(X) = b−a
b xdx =
a+b , 2
a
b x dx − 2
a+b 2
2 =
(b − a)2 . 12
a
Der Erwartungswert liegt bei der Gleichverteilung also in der Mitte des In' tervalls. Die Standardabweichung σ = V(X) = √112 (b − a) steigt linear mit der L¨ ange des Intervalls. ♦ Beispiel 4.11 (Normalverteilung). Ist X N(m, σ 2 )-normalverteilt, so deutet die Wahl der Bezeichnung schon darauf hin, dass in diesem Fall E(X) = m alt man durch geduldiges Integrieren der und V(X) = σ 2 ist. In der Tat erh¨ Dichte 1 (x − m)2 f (x) = √ exp − , x ∈ R, 2σ 2 2πσ den Erwartungswert und die Varianz: ∞ (x − m)2 1 x exp − E(X) = √ dx = m, 2σ 2 2πσ V(X) = √
1 2πσ
−∞ ∞
−∞
(x − m)2 x2 exp − dx − m2 = σ 2 . 2σ 2
96
4 Zufallsvariablen
Wir werden mit Hilfe der momenterzeugenden Funktionen in K¨ urze eine zweite, einfachere Methode kennen lernen, diese Kenngr¨oßen auszurechnen. Die Dichte der Normalverteilung und damit die Verteilung selbst ist vollst¨andig durch ihren Erwartungswert und ihre Varianz festgelegt. ♦ Beispiel 4.12 (Exponentialverteilung). Ist X Exp(λ)-verteilt, so lassen sich Erwartungswert und Varianz der Dichtefunktion f (x) = λ · exp(−λx)I]0,∞[ ,
x ∈ R,
mittels partieller Integration bestimmen: ∞ x · λ · exp(−λx)dx
E(X) = 0
*
+∞ = − x exp(−λx) 0 +
∞ exp(−λx)dx 0
+∞ 1 1 = − exp(−λx) 0 = , λ λ ∞ E(X 2 ) = x2 · λ · exp(−λx)dx *
0
*
+∞ = − x exp(−λx) 0 + 2
∞ x · exp(−λx)dx
2
0
∞ ∞ 1 1 = 2 −x exp(−λx) +2 exp(−λx)dx λ λ 0 0 ∞ 2 2 1 = = 2, − exp(−λx) λ λ λ 0 also V(X) = E(X 2 ) − E(X)2 =
2 1 1 − 2 = 2. λ2 λ λ
Verwenden wir X als Modell f¨ ur die Lebensdauer eines Ger¨ates, so ist der Parameter λ so zu w¨ ahlen, dass der Wert E(X) = λ1 der mittleren Lebensdauer entspricht. ♦ Stochastische Konvergenz Die Konvergenzs¨atze der Maßtheorie enthalten Aussagen u ¨ber das Verhalten des Lebesgue-Integrals bei der Vertauschung mit Grenz¨ uberg¨angen. Wir wollen diese S¨ atze im Lichte unserer Interpretation des Lebesgue-Integrals als
4.2 Momente
97
Erwartungswert E(X) = XdP neu formulieren. Vorher f¨ uhren wir einen weiteren Konvergenzbegriff ein: Definition 4.13 (stochastische Konvergenz). Eine Folge von reellen Zufallsvariablen (Xn ) konvergiert stochastisch gegen eine reelle Zufallsvariable X, falls f¨ ur jedes ε > 0 gilt: lim P(|Xn − X| ≥ ε) = 0.
n→∞
P
Wir schreiben dann kurz: Xn −→ X. Stochastische Konvergenz ist schw¨ acher als fast sichere Konvergenz, wie wir jetzt nachweisen: Satz 4.14. Es seien (Xn ), X reelle Zufallsvariablen. Gilt Xn −→ X fast siP cher, so folgt Xn −→ X. Beweis. F¨ ur alle ε > 0 ist {sup |Xk − X| ≥ ε} ↓ k≥n
∞
{sup |Xk − X| ≥ ε} ⊂ {Xn −→ X}c ,
n=1 k≥n
und wegen der Stetigkeit von oben folgt: P(|Xn − X| ≥ ε) ≤ P({sup |Xk − X| ≥ ε}) → P k≥n
∞
{sup |Xk − X| ≥ ε}
n=1 k≥n
≤ P({Xn −→ X}c ) = 0, da nach Voraussetzung P({Xn −→ X}) = 1 gilt.
Das n¨ achste Beispiel zeigt, dass fast sichere Konvergenz echt st¨arker als stochastische Konvergenz ist, d.h. die Umkehrung in Satz 4.14 ist falsch. Beispiel 4.15. Jedes n ∈ N hat eine eindeutige Zerlegung der Gestalt n = 2k + j,
0 ≤ j < 2k , j, k ∈ N0 .
Wir definieren zu jedem n = 2k + j An := [j2−k , (j + 1)2−k [
und Xn := IAn .
Setzen wir Ω := [0, 1[, F := B|[0, 1[ und P := λ|F, so ist auf dem Wahrur kein ω ∈ Ω konvergent. scheinlichkeitsraum (Ω, F, P) die Folge (Xn (ω)) f¨ Andererseits ist 2 P(|Xn | ≥ ε) ≤ 2−k < . n P
Daher ist Xn −→ 0 stochastisch konvergent.
♦
98
4 Zufallsvariablen
¨ Der nachfolgende Satz zeigt, dass man durch Ubergang zu einer Teilfolge von stochastischer Konvergenz zu fast sicherer Konvergenz gelangen kann: Satz 4.16. Es seien (Xn ), X reelle Zufallsvariablen. Die Folge (Xn ) konvergiert genau dann stochastisch gegen X, wenn jede Teilfolge (Xnk ) von (Xn ) wiederum eine Teilfolge (Xnk i ) besitzt, so dass Xnk i −→ X fast sicher konveri→∞ giert. P
Beweis. Sei Xn −→ X und Xnk eine Teilfolge. Nach Voraussetzung gibt es zu jedem i ∈ N und ε := 1i ein ki ∈ N, so dass 1 1 P |Xnk − X| ≥ ur alle k ≥ ki . ≤ i f¨ i 2 Dann folgt aus dem Lemma von Borel-Cantelli, dass 1 ur unendlich viele i ∈ N = 0. P |Xnki − X| ≥ f¨ i Wegen (lim sup An )c = lim inf Acn ist dies gleichbedeutend mit 1 P |Xnki − X| < f¨ ur fast alle i ∈ N = 1. i Daraus wiederum folgt Xnk i −→ X fast sicher. i→∞ Die umgekehrte Schlussrichtung zeigen wir durch Widerspruchsbeweis. Nehmen wir also an, (Xn ) konvergiere nicht stochastisch gegen X, so gibt es ein ε > 0 und eine Teilfolge (Xnk ), so dass P (|Xnk − X| ≥ ε) > ε f¨ ur alle k ∈ N. Daher kann keine Teilfolge von (Xnk ) gegen X stochastisch konvergieren und somit erst recht nicht fast sicher, im Widerspruch zur Voraussetzung. Die Konvergenzs¨ atze Wie bereits angek¨ undigt formulieren wir die Konvergenzs¨atze der Maßtheorie aus Abschnitt 2.1 in der Sprache der Erwartungswerte. Theorem 4.17. Es seien X und Y reelle Zufallsvariablen sowie (Xn ) und (Yn ) Folgen reeller Zufallsvariablen. Dann gilt: (i) Satz von der monotonen Konvergenz: Ist 0 ≤ Xn ↑ X, so folgt E(Xn ) ↑ E(X). (ii) Lemma von Fatou: Ist Xn ≥ 0 f¨ ur alle n ∈ N, so folgt E(lim inf Xn ) ≤ lim inf E(Xn ). n→∞
n→∞
4.2 Momente
99
(iii) Satz von der dominierten Konvergenz: Gilt Xn → X fast sicher und Yn → ur alle Y fast sicher sowie E(|Y |) < ∞, E(|Yn |) < ∞ und |Xn | ≤ Yn f¨ n ∈ N, so folgt aus E(|Yn − Y |) −→ 0, dass E(|X|) < ∞ und E(|Xn |) < ∞ f¨ ur alle n ∈ N sowie E(|Xn − X|) −→ 0. (iv) Aus Xn → X fast sicher und E(Xn ) → E(X) folgt E(|Xn − X|) −→ 0. P
P
In (iii) und (iv) gen¨ ugt es, wenn Xn −→ X bzw. Yn −→ Y vorausgesetzt wird. Beweis. Die Aussagen (i)-(iv) entsprechen den Theoremen 2.7, 2.10, 2.14 und 2.33. Wir m¨ ussen also nur noch den Zusatz beweisen. Gehen wir in (iii) also P P von Xn −→ X und Yn −→ Y aus und nehmen an, es gelte nicht E(|Xn − X|) −→ 0. Dann gibt es eine Teilfolge (Xnk ) von (Xn ) und ein ε > 0, so dass E(|Xnk − X|) ≥ ε
f¨ ur alle k ∈ N.
(4.1)
Nach Satz 4.16 gibt es eine Teilfolge (Xnki ) von (Xnk ), so dass (Xnki ) −→ X i→∞
fast sicher. Zu (Ynki ) gibt es ebenfalls eine Teilfolge, die fast sicher gegen Y konvergiert. Um einen vierten Index zu vermeiden, gehen wir ohne Einschr¨ ankung davon aus, dass Ynki −→ Y , andernfalls gingen wir sowohl bei i→∞
(Xnki ) als auch bei (Ynki ) zur Teilfolge u ¨ber. Jetzt folgt aber aus dem bereits bewiesenen Fall von (iii) f¨ ur fast sichere Konvergenz, dass E(|Xnki − X|) −→ 0, i→∞
im Widerspruch zu (4.1). V¨ ollig analog folgt die Zusatzaussage f¨ ur (iv).
H¨ ohere Momente Zwei wichtige Kenngr¨ oßen einer Verteilung haben wir bisher kennen gelernt, Erwartungswert und Varianz. Diese legen im Allgemeinen die Verteilung noch nicht fest. Daher ben¨ otigen wir weitere Kenngr¨oßen, gegeben durch folgende Definition: Definition 4.18 (Momente). Es sei X eine integrierbare Zufallsvariable und n ∈ N, so dass X n quasi-integrierbar ist. Dann heißt E(|X|n ) n-tes absolutes Moment, E(X n ) n-tes Moment, E[(X − E(X))n ] n-tes zentriertes Moment von X.
100
4 Zufallsvariablen
Der Erwartungswert ist in dieser Sprache das erste Moment, die Varianz das zweite zentrierte Moment von X. An dieser Stelle stellen sich in nat¨ urlicher Weise zwei Fragen: (i) Wie kann man die Momente einer Verteilung berechnen? (ii) Kennt man alle Momente einer Verteilung, ist sie dann eindeutig bestimmt? Die erste Frage werden wir gleich im Anschluss behandeln, die zweite Frage werden wir an dieser Stelle nur f¨ ur einen einfachen Spezialfall positiv beantworten. F¨ ur die allgemeine Antwort ben¨ otigen wir mehr Theorie, so dass wir sie erst in Satz 7.19 geben. Momenterzeugende Funktionen Zur Berechnung der Momente einer Zufallsvariablen f¨ uhren wir die folgende Funktion ein: Definition 4.19 (momenterzeugende Funktion). Ist X eine reelle Zufallsvariable und D := {s ∈ R : E[exp(sX)] < ∞}, so heißt die Funktion M : D → R,
s → E[exp(sX)] =
exp(sx)dPX (x),
momenterzeugende Funktion. Als erstes untersuchen wir den Definitionsbereich D einer momenterzeugenden Funktion etwas genauer. F¨ ur jedes X ist 0 ∈ D. Auf der rechten Halbgeraden exp(sx)dPX (x) f¨ ur alle s ≤ 0 endlich, und wenn das Integral f¨ ur s > 0 ist [0,∞[
¨ endlichist, so auch f¨ ur s mit 0 ≤ s ≤ s. Analoge Uberlegungen f¨ ur das Inteexp(sx)dPX (x) f¨ uhren uns zu der Erkenntnis, dass es ein Intervall gral ]−∞,0]
I mit 0 ∈ I ⊂ D gibt. Ist X ≥ 0, so ist ] − ∞, 0] ⊂ D, ist X ≤ 0, dann gilt [0, ∞[⊂ D. Es kann allerdings passieren, dass D = {0} ist, wie das folgende Beispiel zeigt: Beispiel 4.20. Wir betrachten auf (Z \ {0}, P(Z \ {0})) die Z¨ahldichte C , n ∈ Z \ {0}, n2 pn = 1. Dann ist f¨ ur jedes s > 0 wobei wir C > 0 so w¨ ahlen, dass pn :=
n∈Z\{0}
exp(sn) ·
C −→ +∞, n2
4.2 Momente
101
und damit f¨ ur jedes s ∈ R: ∞ C exp(sx)dPX (x) = (exp(sn) + exp(−sn)) · 2 = +∞. n n=1 R
Also ist kein s = 0 in D.
♦
Momenterzeugende Funktion als Potenzreihe Es ist daher nahe liegend, dass wir f¨ ur lokale Betrachtungen wie Differenzierbarkeit voraussetzen, dass der Definitionsbereich D von M (s) ein Intervall ] − a, a[ enth¨ alt. Dann ist ∞ ∞ sn sn n M (s) = E[exp(sX)] = E X E(X n ), = n! n! n=0 n=0 wobei wir die Zul¨ assigkeit der Vertauschung von Erwartungswert und Reihe noch begr¨ unden m¨ ussen. Nehmen wir dies f¨ ur einen Augenblick an, so haben wir damit eine Potenzreihenentwicklung f¨ ur M (s) gefunden, deren Koeffizienten, also n-ten Ableitungen in 0, gerade durch die Momente gegeben sind. Dies erkl¨ art den Namen der momenterzeugenden Funktion: Satz 4.21. Es sei X eine Zufallsvariable mit momenterzeugender Funktion M : D → R. Ist ] − a, a[ ⊂ D f¨ ur ein a > 0, so sind alle Momente E(X n ) endlich und es gilt: M (s) =
∞ sn E(X n ), n! n=0
s ∈ ] − a, a[.
Insbesondere ist M auf ] − a, a[ unendlich oft differenzierbar mit n-ter Ableitung M (n) (0) = E(X n ). Beweis. Uns bleibt nur zu zeigen, dass wir auf dem Intervall ] − a, a[ Erwartungswert und Reihe vertauschen d¨ urfen. Nach Voraussetzung ist exp(sx) ur exp(|sx|) ≤ f¨ ur alle s ∈ ] − a, a[ PX -integrierbar, daher gilt dies auch f¨ ∞ |sx|n onnen daher den exp(sx) + exp(−sx), also f¨ ur exp(|sx|) = n! . Wir k¨ n=0
Satz von der dominierten Konvergenz auf die Funktionenfolge der Partialsummen fN (X) :=
N (sX)n und g(X) := exp(|sX|) n! n=0
anwenden. Wir erhalten aus der Integrierbarkeit der fN (X) die Endlichkeit ur alle n ∈ N und von E(X n ) f¨
102
4 Zufallsvariablen
M (s) = E[exp(sX)] = E( lim fN ) N →∞
∞ sn = lim E(fN ) = E(X n ), N →∞ n! n=0
s ∈ ] − a, a[ .
Wie jede Potenzreihe ist M (s) innerhalb ihres Konvergenzradius ] − a, a[ unendlich oft differenzierbar, und die Koeffizienten sind bis auf Multiplikation mit n! die n-te Ableitung in 0: M (n) (0) = E(X n ) f¨ ur alle n ∈ N. Beispiele L¨ asst sich die momenterzeugende Funktion leicht ermitteln, wie in den nachfolgenden Beispielen, so kann man mit Hilfe ihrer Ableitungen die Momente bestimmen. Beispiel 4.22 (Momente der Poisson-Verteilung). Um mit einer diskreten Verteilung zu beginnen, betrachten wir eine Poisson-verteilte Zufallsvariable X und ihre Z¨ ahldichte λn pn = exp(−λ) , n ∈ N0 . n! Wir erhalten als momenterzeugende Funktion: M (s) =
∞
exp(sn) exp(−λ)
n=0
λn n!
∞ (λ exp(s))n = exp(−λ) = exp(λ(exp(s) − 1)), n! n=0
s ∈ R.
Die Funktion M ist in diesem Fall auf R definiert. Ihre ersten beiden Ableitungen sind M (s) = λ exp(s)M (s)
und M (s) = (λ2 exp(2s) + λ exp(s))M (s).
Damit ergeben sich die ersten beiden Momente E(X) = M (0) = λ
und E(X 2 ) = M (0) = λ2 + λ,
also V(X) = E(X 2 ) − (E(X))2 = λ.
♦
Beispiel 4.23 (Momente der Exponentialverteilung). Ist X Exp(λ)-verteilt mit der Dichte f (x) = λ exp(−λx)IR+ (x), x ∈ R, so ergibt sich:
4.2 Momente
∞ M (s) =
exp(sx)λ exp(−λx)dx = 0
103
∞ sn λ = , falls |s| < λ. λ − s n=0 λn
Die Reihe konvergiert f¨ ur |s| < λ, das Integral konvergiert sogar f¨ ur s < λ. Der Definitionsbereich von M ist daher ]−∞, λ[. F¨ ur die n-ten Momente lesen wir ab: n! E(X n ) = M (n) (0) = n , n ∈ N. λ Damit ergibt sich als Erwartungswert
1 λ
und als Varianz
♦
1 λ2 .
Beispiel 4.24 (Momente der Normalverteilung). Ist X N(0, 1)-verteilt, so erhalten wir die momenterzeugende Funktion 2 ∞ x 1 M (s) = √ exp(sx) exp − dx 2 2π −∞ 2 ∞ 1 s (x − s)2 √ exp − dx. = exp 2 2 2π −∞ Durch die Substitution u = x − s ergibt sich: 2 2 2 ∞ s 1 s u √ exp − M (s) = exp du = exp , 2 2 2 2π −∞
s ∈ R.
Der Definitionsbereich von M ist wiederum R. Zur Bestimmung der Momente 2 entwickeln wir exp( s2 ) in eine Potenzreihe: M (s) = exp
s2 2
=
n ∞ ∞ 1 s2 1 · 3 · . . . · (2n − 1) 2n s . = n! 2 (2n)! n=0 n=0
Jetzt k¨ onnen wir die Momente ablesen: E(X 2n−1 ) = 0,
E(X 2n ) = 1 · 3 · . . . · (2n − 1),
n ∈ N.
Insbesondere folgt E(X) = 0, V(X) = 1. Ist Y N(m, σ 2 )-verteilt, so haben wegen Gleichung (3.6) die Zufallsvariablen Y und σX + m die gleiche Verteilungsfunktion, sind also nach dem Korrespondenzsatz 3.14 identisch verteilt: PY = PσX+m . Daher folgt f¨ ur die Momente von Y : E(Y ) = E(σX + m) = m, V(Y ) = E[(σX + m)2 ] − m2 = E[σ 2 X 2 + 2σX + m2 ] − m2 = σ 2 . ♦
104
4 Zufallsvariablen
Beispiel 4.25 (Momente der Lognormal-Verteilung). Es sei X eine N(0, 1)verteilte Zufallsvariable und Y := exp(X). Die Verteilung von Y heißt Lognormal-Verteilung. Ist FY ihre Verteilungsfunktion, so ist offensichtlich ur t ≤ 0, und f¨ ur t > 0 erhalten wir mit der Substitution x = ln(u): FY (t) = 0 f¨ FY (t) = P(Y ≤ t) = P(exp(X) ≤ t) = P(X ≤ ln(t)) 1 = √ 2π 1 = √ 2π
ln(t)
−∞
t
x2 exp − 2
dx
ln(u)2 1 exp − du. u 2
0
Daraus ergibt sich als Dichte der Lognormal-Verteilung: (ln x)2 √1 1 exp − f¨ ur x > 0, x 2 2π f : R → R+ , f (x) = 0 f¨ ur x ≤ 0. Mit Hilfe der momenterzeugenden Funktion M von X lassen sich die Momente von Y ausrechnen: 2 n n n E(Y ) = E[(exp(X) ] = E[exp(nX)] = M (n) = exp , n ∈ N. 2 ♦ Eindeutigkeit von Verteilungen mit endlichem Tr¨ ager Abschließend wollen wir f¨ ur einen einfachen Spezialfall die Frage beantworten, ob die momenterzeugende Funktion einer Zufallsvariablen ihre Verteilung festlegt. Dazu bemerken wir, dass f¨ ur eine diskrete Zufallsvariable X mit endlichem Tr¨ ager T und Z¨ ahldichte f die momenterzeugende Funktion M eine endliche Summe ist: exp(xs)f (x), s ∈ R. M (s) = E(exp(xs)) = x∈T
Satz 4.26. Es seien X und Y diskrete reelle Zufallsvariablen mit endlichem Tr¨ ager und momenterzeugenden Funktionen M bzw. N . Ist M = N, so folgt PX = PY . Beweis. X habe auf dem Tr¨ ager T = {x1 , . . . , xl } die Z¨ahldichte f und Y auf dem Tr¨ ager S = {y1 , . . . , ym } die Z¨ahldichte g. Wir setzen xi0 := max{xi |xi ∈ T } und yj0 := max{yj |yj ∈ S}. Dann ist
4.2 Momente
105
M (s) −→ 1, f (xi0 ) exp(xi0 s) s→∞ N (s) −→ 1, g(yj0 ) exp(yj0 s) s→∞ so dass aus M = N auch xi0 = yj0 und f (xi0 ) = g(yj0 ) folgt. Wenden wir das gleiche Argument auf die Funktionen l
m
exp(xi s)f (xi ) =
i=1 i=i0
exp(yj s)g(yj )
j=1
j=j0
an, so folgt induktiv, dass l = m und nach eventueller Umnummerierung ur alle i = 1, . . . , l ist. Damit ist aber f = g und xi = yi und f (xi ) = g(yi ) f¨ somit PX = PY . Eine entsprechende Aussage f¨ ur allgemeine Verteilungen zeigen wir in Satz 7.19. Ungleichungen Die Varianz kann als Maß f¨ ur die Abweichung vom Mittelwert angesehen werden. Dies wird in der nachfolgenden Ungleichung von Tschebyschev pr¨azisiert, die sich als Spezialfall einer allgemeinen Absch¨atzung ergibt: Satz 4.27. Es sei X eine reelle Zufallsvariable. Dann gilt f¨ ur jedes ε > 0: 1 1 P(|X| ≥ ε) ≤ n |X|n dP ≤ n E(|X|n ). ε ε {|X|≥ε}
Insbesondere folgt die Markov-Ungleichung: P(|X| ≥ ε) ≤
E(|X|) , ε
und f¨ ur E(|X|) < ∞ die Tschebyschev-Ungleichung: P(|X − E(X)| ≥ ε) ≤ Beweis. Es sei Y ≥ 0. Dann gilt f¨ ur jedes α > 0: αI{Y ≥α} ≤ Y I{Y ≥α} ≤ Y. Integration u uhrt zu: ¨ber Ω f¨ αP({Y ≥ α}) ≤
Y dP ≤ E(Y ). {Y ≥α}
V(X) . ε2
106
4 Zufallsvariablen
Teilen wir durch α > 0, erhalten wir
√ √ 1 n P({ Y ≥ n α}) = P({Y ≥ α}) ≤ α
Y dP ≤
1 E(Y ). α
{Y ≥α}
Setzen wir Y := |X|n und α := εn , so folgt die Behauptung. Die MarkovUngleichung ergibt sich als Spezialfall f¨ ur n = 1. Die Tschebyschev-Ungleichung folgt f¨ ur n = 2, wenn wir X durch X − E(X) ersetzen. Eine weitere wichtige Ungleichung ist die Jensensche Ungleichung, die einen Zusammenhang zwischen konvexen Funktionen und Erwartungswerten herstellt. Wir erinnern daran, dass eine Funktion φ : I → R konvex heißt, falls φ(αx + (1 − α)y) ≤ αφ(x) + (1 − α)φ(y) f¨ ur alle x, y ∈ I und α ∈ [0, 1]. Insbesondere l¨ asst sich jede konvexe Funktion als Supremum aller linearen Funktionen ausdr¨ ucken, die vollst¨ andig unterhalb ihres Graphen verlaufen: ur alle t ∈ I}. φ(x) = sup v(x), mit U := {v : v(t) = a + bt ≤ φ(t) f¨ v∈U
Diese Darstellung einer konvexen Funktion erlaubt einen leichten Beweis der Jensenschen Ungleichung: Theorem 4.28 (Jensensche Ungleichung). Sei φ : I → R eine konvexe Funktion auf einem Intervall I und X : Ω → I eine integrierbare Zufallsvariable. Dann ist E(X) ∈ I, φ(X) quasiintegrierbar und φ(E(X)) ≤ E(φ(X)). Beweis. Ist I nach oben oder unten beschr¨ ankt, so folgt aus der Monotonie des Integrals, dass E(X) ∈ I, andernfalls ist E(X) ∈ I wegen der Integrierbarkeit von X klar. Aus der Darstellung φ(X) = sup v(X) v∈U
folgt, dass φ(X) quasiintegrierbar ist und f¨ ur jede lineare Funktion v0 ∈ U : E(φ(X)) = E(sup v(X)) v∈U
≥ E(v0 (X)) = v0 (E(X)). Durch Bildung des Supremums u ¨ber U auf beiden Seiten erhalten wir: E(φ(X)) ≥ sup v(E(X)) = φ(E(X)). v∈U
4.3 Mehrdimensionale Verteilungen
107
4.3 Mehrdimensionale Verteilungen In diesem Abschnitt gehen wir kurz auf einige Begriffe im Zusammenhang mit n-dimensionalen reellen Zufallsvariablen bzw. Wahrscheinlichkeitsmaßen auf dem Rn ein. Als zentrales Beispiel behandeln wir die mehrdimensionale Normalverteilung. Verteilungsfunktion und Dichte Es sei X = (X1 , . . . , Xn ) eine n-dimensionale reelle Zufallsvariable. Das Bildmaß von X unterscheidet sich formal nicht vom eindimensionalen Fall: PX (A) = P(X −1 (A)) = P((X1 , . . . , Xn ) ∈ A),
A ∈ Bn .
Die Verteilungsfunktion ist durch eine nat¨ urliche Verallgemeinerung des eindimensionalen Falls gegeben: Definition 4.29 (n-dimensionale Verteilungsfunktion). Es sei X = (X1 , . . . , Xn ) eine n-dimensionale reelle Zufallsvariable. Dann heißt F : Rn → [0, 1], x = (x1 , . . . , xn ) → P(X ≤ x) := P(X1 ≤ x1 , . . . , Xn ≤ xn ), die Verteilungsfunktion von X. Wie bei der Verteilungsfunktion sind Aussagen vom Typ X ≤ x“ f¨ ur n” dimensionale Gr¨oßen immer komponentenweise zu verstehen. Viele Eigenschaften der eindimensionalen Verteilungsfunktionen u ¨bertragen sich auf den n-dimensionalen Fall. Offensichtlich sind die folgenden Eigenschaften einer n-dimensionalen Verteilungsfunktion: (i) F ist im folgenden Sinn rechtsseitig stetig: F¨ ur jedes h > 0 gilt ur alle x ∈ Rn . lim F (x1 + h, . . . , xn + h) = F (x1 , . . . , xn ) f¨ h↓0
(ii) F¨ ur jedes 1 ≤ k ≤ n gilt: lim
xk →−∞
F (x1 , . . . , xn ) = 0,
lim F (x1 + h, . . . , xn + h) = 1.
h→∞
(iii) F ist in jeder Koordinate monoton wachsend. Genau wie im eindimensionalen Fall kann man diese Eigenschaften zu einer Definition f¨ ur eine Klasse von Funktionen verwenden und einen Korrespondenzsatz zwischen dieser Funktionenklasse und Wahrscheinlichkeitsmaßen auf dem Rn zeigen. Dazu ist jedoch etwas mehr technischer Aufwand n¨otig, daher begn¨ ugen wir uns mit der nachfolgenden entscheidenden Teilaussage, die
108
4 Zufallsvariablen
einer Richtung im Korrespondenzsatz entspricht. F¨ ur den Beweis ben¨otigen wir einige Bezeichnungen. Ist ]a, b] ⊂ Rn , so ist E := {c ∈ Rn : ci ∈ {ai , bi }, i = 1, . . . , n} die Menge der Ecken von ]a, b] und signum(c) ist +1 oder −1, je nach der Anzahl ai ’s in der Ecke c: +1 f¨ ur |{i : ci = ai }| gerade, signum(c) := −1 f¨ ur |{i : ci = ai }| ungerade. Satz 4.30. Es seien X und Y n-dimensionale reelle Zufallsvariablen mit ndimensionalen Verteilungsfunktionen F bzw. G. Ist F = G, so folgt PX = PY . Beweis. Um den Maßeindeutigkeitssatz verwenden zu k¨onnen, wollen wir zeigen, dass PX und PY auf dem durchschnittsstabilen Mengensystem der halboffenen Quader I n := {]a, b] : a, b ∈ Rn } u ¨bereinstimmen. F = G bedeutet gerade, dass PX und PY auf Hc :=] − ∞, c], c ∈ Rn , gleich sind: PX (Hc ) = F (c) = G(c) = PY (Hc ). Jeder Quader ]a, b] l¨ asst sich aber durch Mengen der Form Hc beschreiben: ]a, b] = Hb \ (H(a1 ,b2 ,...,bn ) ∪ H(b1 ,a2 ,...,bn ) ∪ . . . ∪ H(b1 ,b2 ,...,an ) ). Daraus ergibt sich durch Anwenden der Siebformel (Satz 3.4) auf die n-fache Vereinigung PX (]a, b]) = signum(c)F (c), E Menge der Ecken von ]a, b]. c∈E
Zur Veranschaulichung heißt dies f¨ ur n = 2 explizit: PX (](a1 , a2 ), (b1 , b2 )]) = F (b1 , b2 ) − F (b1 , a2 ) − F (a1 , b2 ) + F (a1 , a2 ), wie auch in Abbildung 4.1 deutlich wird. Damit folgt aber PX (]a, b]) = signum(c)F (c) = signum(c)G(c) = PY (]a, b]). c∈E
c∈E
Aus dem Maßeindeutigkeitssatz folgt die Behauptung.
Wie f¨ ur reelle Wahrscheinlichkeitsmaße spielen auch im R in konkreten Beispielen Dichten bez¨ uglich des Lebesgue-Maßes λn die entscheidende Rolle. n uglich λn : Es sei f : R → R eine Riemann-integrierbare Dichte von P bez¨ n ur jeden Quader ]a, b] ⊂ Rn P = f λ , siehe Definition 2.35. Dies bedeutet f¨ P(]a, b]) = f (x)dx, n
]a,b]
wobei auf der rechten Seite wegen der Gleichheit von Riemann- und LebesgueIntegral (Satz 2.17 und f¨ ur a = −∞ Satz 2.18) ein (n-faches) Riemann-Integral steht.
4.3 Mehrdimensionale Verteilungen
( a1,b2 )
( b1,b2 )
( a1,a2 )
( b1,a2 )
109
Abbildung 4.1. Darstellung von ]a, b] durch Mengen der Form ] − ∞, c]
Randverteilungen Ist X eine n-dimensionale reelle Zufallsvariable und g : Rn → Rk eine messbare Funktion, so ist g(X) : Ω → Rk ,
ω → g(X(ω)),
eine k-dimensionale reelle Zufallsvariable, deren Verteilung gegeben ist durch Pg(X) (A) = P(g(X) ∈ A) = P(X ∈ g −1 (A)) = PX (g −1 (A)), A ∈ Bk . F¨ ur die spezielle Wahl von g als Projektion auf eine Koordinate g : Rn → R, g(x1 , . . . , xn ) → xj gilt g(X) = Xj , und die Verteilung PXj (A) = PX (x ∈ Rn : xj ∈ A) = P(Xj ∈ A), A ∈ B, von g(X) = Xj heißt in diesem Fall Randverteilung. Besitzt X die Dichtefunktion f , so hat Xj die Dichte fj : R → R, x →
(4.2) f (x1 , . . . , xj−1 , x, xj+1 , . . . , xn )dx1 . . . dxj−1 dxj+1 . . . dxn .
Rn−1
Denn nach dem Satz von Fubini folgt f¨ ur jedes A ∈ B: n PXj (A) = PX (x ∈ R : xj ∈ A) = fj (xj )dxj . A
110
4 Zufallsvariablen
Beispiel 4.31 (Multinomialverteilung). Wir betrachten als Beispiel eine diskrete Verteilung, deren Dichte mit den Parametern n und p = (p1 , . . . , pr ) bestimmt ist durch: f : Rr → [0, 1], (x1 , . . . , xr ) →
x1 n! x1 !...xr ! p1
. . . pxr r
0
f¨ ur x1 , . . . , xr ∈ N0 , x1 + . . . + xr = n, sonst.
Diese Verteilung heißt Multinomialverteilung M (n, p) und ist offensichtlich eine Verallgemeinerung der Binomialverteilung auf r Dimensionen. Die Dichte der j-ten Randverteilung ist gerade B(n, pj )-verteilt, wie man durch Summaahltem xj und x1 + . . . + xr = n erh¨alt. tion u ¨ber alle (x1 , . . . , xr ) mit fest gew¨ ♦ Die mehrdimensionale Normalverteilung Die Dichte der Normalverteilung auf dem Rn hat genau wie im eindimensionalen Fall zwei Parameter: einen Vektor m ∈ Rn und eine positiv definite Matrix C ∈ Rn,n . Definition 4.32 (n-dimensionale Normalverteilung). Ist X eine ndimensionale reelle Zufallsgr¨ oße und besitzt PX die Dichtefunktion (x − m) C−1 (x − m) 1 f : Rn → R, x → ' · exp − , 2 (2π)n det(C) m ∈ Rn , C ∈ Rn,n positiv definit, so heißt PX n-dimensionale Normalverteilung und X normalverteilt, in Zeichen X ∼ N(m, C). F¨ ur den Fall n = 2 haben wir eine Dichtefunktion in Abbildung 4.2 dargestellt. Ist m = 0 und In die n-dimensionale Einheitsmatrix, so heißt X ∼ N(0, In ) genau wie im eindimensionalen Fall standardnormalverteilt. Die Dichte der Normalverteilung ist nicht-negativ und stetig. Damit ussen wir die Normierung PX ein Wahrscheinlichkeitsmaß wird, m¨ f (x)dx = 1 Rn
nachweisen. F¨ ur den standardnormalverteilten Fall X ∼ N(0, In ) folgt dies aus dem eindimensionalen Fall:
4.3 Mehrdimensionale Verteilungen
111
0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 3 2
3
1
2 0
1 0
-1
-1
-2
-2 -3
-3
Abbildung 4.2. Dichte einer zweidimensionalen Normalverteilung
f (x)dx = Rn
Rn
2
x ' · exp − n 2 (2π) 1
n
1 √ = 2π i=1
∞ −∞
dx
2 x exp − i dxi = 1. 2
(4.3)
Damit ist PX f¨ ur standardnormalverteiltes X ein Wahrscheinlichkeitsmaß. Den allgemeinen Fall behandeln wir direkt im Anschluss an den nachfolgenden Satz, in dem wir zeigen, wie sich die Normalverteilung unter linearen Transformationen verh¨ alt. Satz 4.33. Es sei X eine N(0, In )-verteilte Zufallsvariable, m ∈ Rn und B ∈ Rn,n eine invertierbare Matrix. Dann gilt mit C := BB : BX + m ist N(m, C)-verteilt. Beweis. Wir bestimmen die Verteilungsfunktion F von BX + m. Bezeichnen age der zu B inversen Matrix, so gilt f¨ ur y = wir mit ˜bij = B−1 ij die Eintr¨ (y1 , . . . , yn ) ∈ Rn : F (y) = P(BX + m ≤ y) = P(X ≤ B−1 (y − m)) n ˜ b1k (yk −mk )
k=1
=
n ˜ bnk (yk −mk )
k=1
√
... −∞
−∞
1 x exp − x dx1 . . . dxn . n 2 2π 1
112
4 Zufallsvariablen
Um die oberen Grenzen der Integrale auf y1 , . . . , yn zu setzen, substituieren 1 wir g(x) = z = Bx+m. Es folgt | det g | = | det B| = (det C) 2 , und mit der aus der Analysis bekannten Transformationsformel f¨ ur n-fache Riemann-Integrale (s. z.B. [K¨ on02]) folgt: F (y) = y1 yn = ... √ −∞ y1
=
−∞ yn
... −∞ y1
= −∞
−∞
1 −1
−1 − [B (z − m)] B (z − m) dz1 . . . dzn n 1 exp 2 2π (det C) 2
√
1
−1 −1 (z − m) exp − (B ) B (z − m) dz1 . . . dzn n 1 2 2π (det C) 2
√
1
−1 (z − m) exp − C (z − m) dz1 . . . dzn . n 1 2 2π (det C) 2
−∞ yn
...
1
1
1
Damit hat BX + m die Verteilungsfunktion einer N(m, C)-verteilten Zufallsvariable und ist daher nach Satz 4.30 N(m, C)-verteilt. Ist Y ∼ N(m, C), so folgt aus dem gerade bewiesenen Resultat und (4.3) PY (Ω) =
lim P(Y ≤ y) =
y →∞
lim P(X ≤ B−1 (y − m)) = PX (Ω) = 1.
y →∞
Damit ist PY f¨ ur jede normalverteilte Zufallsvariable Y ein Wahrscheinlichkeitsmaß. Ebenfalls aus Satz 4.33 folgt, dass umgekehrt f¨ ur eine N(m, C)verteilte Zufallsvariable Y mit C = BB gilt1 : B−1 (Y − m) ∼ N(0, In ). F¨ ur n = 1 bedeutet dies, dass X :=
Y −m σ
standardnormalverteilt ist.
Die Randverteilungen der Normalverteilung Die Normalverteilung hat viele erstaunliche Eigenschaften. Eine davon ist, dass die Randverteilungen einer Normalverteilung wieder normalverteilt sind: Satz 4.34. Es sei Y = (Y1 , . . . , Yn ) N(m, C)-verteilt, C = (ckj )1≤k,j≤n ∈ Rn,n positiv definit. Dann gilt: Yk ist N(mk , ckk )-verteilt. 1
Diese so genannte Cholesky-Zerlegung mit einer invertierbaren Matrix B existiert f¨ ur jede positiv definite Matrix C, siehe z.B. [M¨ ol97].
4.4 Anwendung Finanzmathematik: Value at Risk
113
Beweis (f¨ ur den Fall n = 2). Wir f¨ uhren hier f¨ ur den Fall n = 2 einen elementaren Beweis. Den allgemeinen Fall werden wir in Abschnitt 7.3 behandeln. c11 c12 F¨ ur n = 2 ist mit C = c21 c22 1 c22 −c12 −1 ∆ := det C = c11 c22 − c12 c21 > 0, C = . ∆ −c21 c11 Die Dichte fX1 der Randverteilung von X1 erhalten wir nach (4.2) durch Integration der gemeinsamen Dichtefunktion: ∞ 1 1
−1 √ exp − (x − m) C (x − m) dx2 . fX1 (x1 ) = 2 2π ∆ −∞
Das Argument der Exponentialfunktion im Integranden k¨onnen wir auch schreiben als ( ) 2 √ 1 c12 ∆ 2 c11 (x2 − m2 ) − √ (x1 − m1 ) + (x1 − m1 ) . 2∆ c11 c11 Wir substituieren √ c12 1 c11 (x2 − m2 ) − √ (x1 − m1 ) , z=√ c11 ∆
dz = dx2
#
c11 , ∆
und erhalten so:
√ ∞ ∆ (x1 − m1 )2 1 √ √ fX1 (x1 ) = exp − exp − z 2 dz 2c11 2 2π ∆ c11 −∞ (x1 − m1 )2 1 exp − = √ . 2c11 2πc11
Dies ist gerade die Dichte einer N(m1 , c11 )-verteilten Zufallsvariable. Die Aus sage f¨ ur X2 folgt analog. Aus dem obigen Satz k¨ onnen wir die Bedeutung der Parameter m und C zum Teil ablesen. m hat als Komponenten die Erwartungswerte mk = E(Xk ) der Randverteilungen. C hat als Diagonaleintr¨age die Varianzen V(Xk ) = ckk der Randverteilungen. Die Bedeutung der u ¨brigen Eintr¨age von C sowie den Beweis f¨ ur n > 2 werden wir in Abschnitt 7.3 behandeln, in dem wir uns noch einmal ausf¨ uhrlich mit der Normalverteilung auseinander setzen.
4.4 Anwendung Finanzmathematik: Value at Risk Risiken und Risiko-Controlling Unser gesamter Finanzmarkt beruht auf dem Prinzip, dass es niemandem m¨ oglich ist, oberhalb der risikofreien Verzinsung mit positiver Wahrscheinlichkeit aus Nichts einen Gewinn zu erzielen und dabei mit Sicherheit nichts
114
4 Zufallsvariablen
zu verlieren. Dieses Prinzip heißt No Arbitrage Prinzip“. Daraus folgt, dass ” jeder, der ein Gesch¨ aft mit einer Gewinnabsicht eingeht, z.B. eine Bank, sich in eine Risikoposition begibt. Es ist schwierig, eine genaue Definition des Begriffs Risiko anzugeben. F¨ ur unsere Zwecke reicht die intuitive Vorstellung eines Risikos v¨ ollig aus, die sich etwa so fassen l¨asst: Risiko ist der Ausdruck f¨ ur die Gefahr, dass das effektive Ergebnis vom gew¨ unschten oder geplanten negativ abweicht. Man unterscheidet zahlreiche verschiedene Risiko-Arten, vgl. Tabelle 4.1. Sp¨ atestens seit der spektakul¨ aren Pleite der Barings-Bank 1995 durch ris-
Kreditrisiko:
Der Schuldner zahlt seinen Kredit nicht zur¨ uck.
Marktrisiko:
Preise, Wechselkurse etc. ver¨ andern sich ung¨ unstig.
Externes Risiko:
naturgebundene, milit¨ arische oder politische Ereignisse
Liquidit¨ atsrisiko:
Ein Produkt ist nicht zum marktgerechten Preis handelbar.
Tabelle 4.1. Auszug verschiedener Risikoarten
kante Hedge-Fonds-Spekulationen des Fondsmanagers Nick Leeson ist auch ¨ in der Offentlichkeit ein Bewusstsein daf¨ ur entstanden, dass es eine zentrale Aufgabe einer Bank ist, ihr Risiko zu kennen und zu begrenzen. Dieses so genannte Risiko-Controlling einer Bank bedeutet zun¨achst die Identifikation der verschiedenen Risiken und in einem zweiten Schritt die Quantifizierung dieser Risiken. Das Ziel des Risiko-Controllings besteht also darin, einen qualitati¨ ven und quantitativen Uberblick u ¨ber die Risikoposition der Bank in einem vorgegebenen Zeithorizont zu erreichen. Das Interesse der Bank besteht darin, die eigene Position m¨ oglichst genau zu kennen und den vorhandenen Spielraum f¨ ur ein effektives Risiko-Management zu nutzen. Aufsichtsrechtlich ist die Bank verpflichtet, ihre Gesch¨ afte, abh¨ angig vom Risiko, durch Eigenkapital abzusichern. Portfolio und Wertfunktion Wir wollen im Folgenden ein Instrument vorstellen, dass zur Bestimmung des Marktrisikos verwendet wird, das so genannte Value at Risk , kurz VaR. Dazu gehen wir von einem gegebenen Portfolio aus, also einer endlichen Anzahl von Finanzprodukten wie Aktien, festverzinslichen Wertpapieren, Optionen, etc. Der Wert des Portfolios zum Zeitpunkt 0 (z.B. heute) sei gegeben durch eine Funktion
4.4 Anwendung Finanzmathematik: Value at Risk
115
P0 = f (Y10 , . . . , Yn0 ) wobei Y 0 = (Y10 , . . . , Yn0 ) eine n-dimensionale Zufallsvariable ist und f : Rn → R eine (unbekannte) Funktion. Die Funktion f kann man sich als Summe aller Pricingformeln (wie z.B. der ber¨ uhmten Black-Scholes-Formel) der im Portfolio vorhandenen Produkte vorstellen. Analog gilt zum Zeitpunkt 1 (z.B. morgen) P1 = f (Y11 , . . . , Yn1 ), mit einer Zufallsvariablen Y 1 = (Y11 , . . . , Yn1 ). M¨ogliche Komponenten, die in diese Zufallsvariablen einfließen, sind Aktienkurse, Zinss¨atze, Wechselkurse etc. Da die Entwicklung dieser Gr¨ oßen nicht bekannt ist, werden sie stochastisch, d.h. durch Zufallsvariablen Y modelliert. Entscheidend ist nun, wie sich der Wert des Portfolios ∆P := f (Y 1 ) − f (Y 0 ) u ¨ber dem gegebenen Zeithorizont (z.B. ein Tag) ver¨andert. Typischerweise
Dichtefunktion von DP
N
a%
N(1-a)-VaR
Abbildung 4.3. Zur Definition des Value at Risk
fragt man sich, wie hoch der Verlust ist, der mit einer gegebenen Wahrscheinlichkeit (1 − α) innerhalb eines Zeithorizontes nicht u ¨berschritten wird. Dazu berechnet man zu vorgegebenen α ∈ [0, 1] die Gr¨oße Cα , die implizit durch P(∆P ≤ Cα ) = α definiert ist. Mathematisch ist Cα das α-Quantil der Verteilung ∆P , siehe Abbildung 4.3. Die Gr¨ oße max(−Cα , 0) wird als der (1 − α)-Value at Risk bezeichnet. Typische Werte f¨ ur α sind 0.01%, 1% und 5%. So bedeutet also ein 95%-Value at Risk von 1000 [Euro], dass die Wahrscheinlichkeit, innerhalb des Zeithorizontes maximal 1000 [Euro] zu verlieren, bei 95% liegt.
116
4 Zufallsvariablen
Vereinfachende Annahmen Im Idealfall w¨ urde man gerne nicht nur den VaR sondern auch die Verteilung von ∆P = f (Y 1 ) − f (Y 0 ) kennen. Im Prinzip ist die Funktion f und damit ∆P bekannt, da jede Bank aufsichtsrechtlich verpflichtet ist, zu jedem gehandelten Produkt eine Pricingformel vorweisen zu k¨onnen. F¨ ur realistische Finanzprodukte wird die Funktion f jedoch so kompliziert, dass eine unmittelbare Bestimmung der Verteilung von ∆P ohne vereinfachende Annahmen aussichtslos w¨ are. Daher w¨ ahlt man folgenden Ansatz: Annahme 1: Yi0 = exp(Xi0 ), ∆Yi =
Yi1
−
Yi1 = exp(Xi1 ),
i = 1, . . . , n und
Yi0
ist lognormalverteilt, d.h. 1 Yi 1 0 Xi − Xi = ∆Xi = ln ist N(0, σi2 )-verteilt Yi0 und ∆X = (∆X1 , . . . , ∆Xn ) ist N(0, C)-verteilt.
Als zweite Annahme n¨ ahert man ∆P als Funktion von ∆X durch eine TaylorApproximation zweiter Ordnung ohne gemischte Terme an: Annahme 2:
1 ∆P = δX (∆X) + ∆XγX (∆X) . 2
Dabei ist δX := (δX1 , . . . , δXn ) mit δXi =
∂(f ◦ exp) 0 (Xi ), ∂xi
γX := (γX1 , . . . , γXn ) mit γXi =
∂ 2 (f ◦ exp) 0 (Xi ). ∂x2i
und
Zur Vereinfachung der Notation haben wir in der Taylor-Entwicklung in Annahme 2 den Vektor γX als quadratische Matrix mit den entsprechenden Eintr¨agen auf der Hauptdiagonalen aufgefasst. Auf Grund dieser zweiten Annahme heißt dieses Verfahren auch Delta-Gamma-Ansatz. Wir kommen sp¨ater darauf zur¨ uck, wie man δX und γX konkret bestimmt. Die Berechnung des VaR Der Delta-Gamma-Ansatz erlaubt es, den VaR zumindest im Prinzip zu bestimmen. Denn der (1 − α)- VaR Cα ist mit Annahme 2 gegeben durch 1 P(δX ∆X + ∆XγX (∆X) ) ≤ Cα ) = α. 2 Da wir ∆X als N(0, C)-verteilt angenommen haben, bedeutet dies:
4.4 Anwendung Finanzmathematik: Value at Risk
'
1 (2π)n det(C)
117
(x) C−1 x exp − dx = α. 2
{x:δX ·x + 12 xγX x ≤Cα }
Dieses (unter Umst¨ anden sehr hoch dimensionale) Integral kann z.B. numerisch ausgewertet werden, um ein Cα approximativ zu bestimmen. Ein anderer Ansatz besteht darin, Harmonische Analysis zu verwenden, um approximative analytische Formeln f¨ ur obiges Integral zu berechnen, vgl. [AS01]. Die Bestimmung der Momente Alternativ kann man versuchen, die Verteilung von ∆P zu bestimmen. Daraus kann man dann insbesondere den VaR berechnen. Zur Ermittlung einer (approximativen) Verteilung besteht ein Standardverfahren darin, m¨oglichst viele Momente zu berechnen und dann eine Verteilung anzunehmen, deren Momente mit den berechneten u ¨bereinstimmen. Der Delta-Gamma-Ansatz erlaubt die konkrete Bestimmung der Momente. Zur Vereinfachung der Notation fassen wir wiederum die Vektoren δ = δX und γ = γX als quadratische Matrizen mit den entsprechenden Eintr¨ agen auf der Hauptdiagonalen auf. Dabei werden die vom heutigen Stand abh¨ angigen Gr¨oßen, also z.B. δ und γ, als bekannt und daher deterministisch angesehen. Mit der Spurfunktion n aii einer Matrix A = (aij ), i, j = 1, . . . , n, ergibt sich: Spur(A) = i=1
1 Spur(γC), 2 1 m2 = V(∆P ) = δCδ + Spur((γC)2 ), 2 m3 = E[(∆P − E(∆P ))3 ] = 3δCγ Cδ + Spur((γC)3 ). m1 = E(∆P ) =
Nun kann man Standardverfahren anwenden, um aus den ersten n Momenten eine Verteilung f¨ ur ∆P zu bestimmen. So ist z.B. im Spezialfall γX = 0 die Zufallsvariable ∆P N(0, m2 )-normalverteilt. Daraus ergibt sich etwa √ C5% ! −1.65 m2 . Zur Bestimmung von γX und δX sowie C Neben der Frage, inwiefern obige Annahmen gerechtfertigt sind, helfen sie nur ugung weiter, wenn man γX und δX sowie die Korrelationsmatrix C zur Verf¨ hat. Die Gr¨ oßen γX und δX erhalten die Banken in der Regel von ihren Handelssystemen. F¨ ur die Korrelationsmatrix C werden typischerweise die Daten der Marktparameter Yi in einer Datenbank u ¨ber einen l¨angeren Zeitraum, z.B. 250 Tage, gespeichert. Aus dieser Datenbank ermittelt man mit Hilfe statistischer Sch¨ atzer (vgl. Abschnitt 15.2) die so genannten 1-Tages-Volatilit¨aten
118
4 Zufallsvariablen
σi und die Korrelationsmatrix C. Abschließend sei bemerkt, dass die Aufsichtsbeh¨ orden die G¨ ute der VaR-Modellierung regelm¨aßig u ufen. Dies ¨berpr¨ geschieht unter anderem dadurch, dass die Banken selbst die tats¨achlichen Gewinne und Verluste u ¨ber einem festgelegten Zeitraum im Nachhinein mit dem ¨ prognostizierten VaR vergleichen (so genanntes Backtesting). Ist die Ubereinstimmung hoch (dazu muss z.B. beim 5%-VaR im Durschnitt an einem von 20 Tagen ein entsprechend hoher Verlust eingetreten sein), kann sich dies positiv auf die H¨ ohe der ben¨ otigten Eigenmittelunterlegungen auswirken. Gute Modelle und pr¨ azise VaR k¨ onnen einer Bank also unmittelbare Vorteile erbringen.
5 Unabh¨ angigkeit
5.1 Bedingte Wahrscheinlichkeiten Die Fragestellung, inwiefern sich zuf¨ allige Ereignisse gegenseitig beeinflussen, f¨ uhrt zu zentralen Begriffen der Wahrscheinlichkeitstheorie: Auf der einen Seite steht das Konzept der stochastischen Unabh¨angigkeit, auf der anderen Seite bedingte Wahrscheinlichkeiten und bedingte Erwartungen. Wir beginnen mit dem elementaren Begriff der bedingten Wahrscheinlichkeit. Dazu betrachten wir zwei Ereignisse A und B eines Wahrscheinlichkeitsraumes (Ω, F, P) . Ein Beobachter interessiert sich f¨ ur das Ereignis A, das mit der Wahrscheinlichkeit P(A) eintritt. Er wird u ¨ber das Eintreten des Ereignisses B informiert. Dies veranlasst ihn zu einer Neubewertung der Wahrscheinlichkeit f¨ ur A. Da B eingetreten ist, liegen die Ereignisse, die gleichzeitig zum Ereignis A f¨ uhren, in A ∩ B. Um ein Wahrscheinlichkeitsmaß zu erhalten, m¨ ussen wir P(A ∩ B) mit dem Faktor P(B)−1 normieren. Wir definieren daher: Definition 5.1 (bedingte Wahrscheinlichkeit). Ist (Ω, F, P) ein Wahrscheinlichkeitsraum und P(B) > 0 f¨ ur ein B ∈ F, so heißt PB : F −→ [0, 1], A → PB (A) := P(A|B) :=
P(A ∩ B) , P(B)
die bedingte Wahrscheinlichkeit unter der Bedingung B. ¨ Die Funktion PB ist ein neues Wahrscheinlichkeitsmaß auf (Ω, F). Beim UberB alt B die Wahrscheinlichkeit 1. Dies passt zu unserer gang von P zu P erh¨ ur A unter der Interpretation. PB (A) = P(A|B) ist die Wahrscheinlichkeit f¨ Bedingung, dass B eingetreten ist. Wir werden in Kapitel 8 u ¨ber bedingte Erwartungen ein Konzept kennen lernen, das bedingte Wahrscheinlichkeiten auch f¨ ur den Fall P(B) = 0
120
5 Unabh¨ angigkeit
zul¨ asst. Unsere obige Definition ist daf¨ ur offensichtlich nicht geeignet. Dieser Fall scheint auf den ersten Blick pathologisch, wir werden jedoch sehen, dass er in nat¨ urlichen und intuitiven Beispielen auftritt. Satz 5.2. Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B ∈ F sowie (An ) ein Folge von Ereignissen aus F. Dann gilt: (i) Ist P(A1 ∩ . . . ∩ An−1 ) > 0, so folgt: P(A1 ∩. . .∩An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩A2 )·. . .·P(An |A1 ∩. . .∩An−1 ). (ii) Formel von der totalen Wahrscheinlichkeit: Ist (Dn ) eine Partition von Ω ur alle n ∈ N, so gilt: mit Dn ∈ F und P(Dn ) > 0 f¨ P(A) =
∞
P(Dn ) · PDn (A).
n=1
(iii) Formel von Bayes: Gilt P(A) > 0 und P(B) > 0, so folgt mit einer Partition (Dn ) wie in (ii): PB (A) =
PA (B) · P(A) PA (B) · P(A) = . ∞ P(B) P(Dn ) · PDn (B) n=1
Beweis. Um Eigenschaft (i) zu beweisen, bemerken wir zun¨achst, dass aus P(A1 ∩. . .∩An−1 ) > 0 auch P(A1 ) > 0, P(A1 ∩A2 ) > 0,. . ., P(A1 ∩. . .∩An−2 ) > 0 folgt, so dass alle auftretenden bedingten Wahrscheinlichkeiten existieren. Nach Definition gilt: P(A1 ∩ . . . ∩ An ) = P(A1 ∩ . . . ∩ An−1 ) · P(An |A1 ∩ . . . ∩ An−1 ), so dass eine Induktion u ¨ber n die Behauptung liefert. Die Formel von der totalen Wahrscheinlichkeit ergibt sich aus der disjunkten Vereinigung ∞ A= (A ∩ Dn ): n=1
P(A) =
∞ n=1
P(A ∩ Dn ) =
∞
P(Dn ) · PDn (A).
n=1
Die Formel von Bayes folgt aus der Definition der bedingten Wahrscheinlichkeit: PB (A) · P(B) =
P(B ∩ A) P(A ∩ B) · P(B) = · P(A) = PA (B) · P(A). P(B) P(A)
Teilen wir durch P(B) und setzen die Formel von der totalen Wahrscheinlichkeit ein, folgt die Formel von Bayes.
5.1 Bedingte Wahrscheinlichkeiten
121
Als typische Anwendung der bedingten Wahrscheinlichkeit behandeln wir das folgende klassische Beispiel: Beispiel 5.3 (Medizinischer Test). Wir wollen beurteilen, wie gut ein Test ist, der eine bestimmte Krankheit diagnostizieren soll. Dazu nehmen wir an, 2% der Bev¨ olkerung seien von dieser Erkrankung betroffen. Der zu beurteilende Test gibt bei 95% der Erkrankten ein positives Ergebnis, zeigt also die Krankheit an, jedoch ebenfalls bei 10% der nicht betroffenen Personen. Wie groß ist die Wahrscheinlichkeit, dass eine Person tats¨ achlich krank ist, wenn der Test positiv ist? Wir verwenden als Modell einen Laplace-Raum (Ω, P(Ω), P), wobei Ω die endliche Bev¨ olkerung darstelle und P = PL die Laplace-Verteilung. Wir bezeichnen die Ereignisse mit K f¨ ur die kranken bzw. G f¨ ur die gesunden, P f¨ ur die testpositiven und N f¨ ur die testnegativen Personen. Nach unseren Angaben ist P(K) = 0.02, P(P |K) = 0.95 und P(P |G) = 0.1. Gesucht ist P(K|P ), und wir erhalten nach der Formel von Bayes: P(P |K) · P(K) P(P |K) · P(K) + P(P |G) · P(G) 0.95 · 0.02 ! 0.162 = 16.2%. = 0.95 · 0.02 + 0.1 · (1 − 0.02)
P(K|P ) =
Auf Grund der seltenen Krankheitsf¨ alle diagnostiziert der Test kranke Personen nicht sehr u ¨berzeugend. Er kann jedoch dazu dienen, die Krankheit mit relativ großer Sicherheit auszuschließen. Durch eine analoge Rechnung erh¨alt man n¨ amlich: P(G|N ) =
0.9 · 0.98 P(N |G) · P(G) = ! 0.999 = 99.9%. 1 − P(P ) 0.117 ♦
Die Ged¨ achtnislosigkeit der Exponentialverteilung Eine reelle Zufallsvariable X mit P(X > 0) = 1 heißt ged¨achtnislos, wenn f¨ ur alle s, t ≥ 0 mit P(X > t) > 0 gilt: P(X > t + s|X > t) = P(X > s). Das u arung dieser Eigenschaft ist ein unzuverl¨assiger Bus¨bliche Bild zur Erkl¨ fahrer: Haben wir bereits t Minuten auf den Bus gewartet, so ist die Wahrscheinlichkeit, dass wir noch einmal s Minuten warten, genauso groß, wie wenn wir noch gar nicht gewartet h¨ atten. Die Exponentialverteilung hat diese Eigenschaft: Satz 5.4. Ist X eine Exp(λ)-verteilte Zufallsgr¨ oße, so ist X ged¨ achtnislos.
122
5 Unabh¨ angigkeit
Beweis. Ist X Exp(λ)-verteilt, so gilt nach Definition P(X > t) = 1 − P(X ≤ t) = exp(−λt) f¨ ur alle t ≥ 0. Wir erhalten f¨ ur s, t ≥ 0: P(X > t + s) P(X > t) exp(−λ(t + s)) = exp(−λt) = exp(−λs) = P(X > s).
P(X > t + s|X > t) =
Der n¨ achste Satz zeigt, dass die Exponentialverteilung nicht nur ged¨achtnislos, sondern unter milden Voraussetzungen die einzige ged¨achtnislose Verteilung ist: Satz 5.5. Sei X eine reelle Zufallsvariable mit P(X > 0) = 1 und P(X > t) > 0 f¨ ur alle t ≥ 0. Ist X ged¨ achtnislos, so ist X exponentialverteilt. Beweis. Wir definieren die Funktion g : R+ → R durch g(t) := P(X > t),
t ≥ 0.
Dann ist g eine monoton fallende Funktion und nach Voraussetzung g(t) > 0 f¨ ur alle t ≥ 0. Die Ged¨ achtnislosigkeit von X bedeutet f¨ ur g g(t + s) = g(t)g(s)
f¨ ur alle s, t ≥ 0.
Aus dieser Funktionalgleichung leiten wir ab, dass g die Exponentialfunktion ist. F¨ ur jede nat¨ urliche Zahl n ∈ N gilt n 1 1 1 g(1) = g + ... + . =g n n n Analog folgt f¨ ur jedes rationale r = pq ∈ Q: p p p 1 g = g(1) q . =g q q Wir w¨ ahlen λ ≥ 0 so, dass g(1) = exp(−λ) gilt. Dann folgt g(r) = exp(−λr) f¨ ur jedes r ∈ Q. Ist schließlich t > 0 reell, so w¨ ahlen wir r, s ∈ Q mit 0 < r < t < s. Da g monoton fallend ist, folgt: exp(−λr) = g(r) ≥ g(t) ≥ g(s) = exp(−λs). Da wir s − r > 0 beliebig klein w¨ ahlen k¨ onnen, folgt aus der Stetigkeit der Exponentialfunktion g(t) = exp(−λt) f¨ ur alle t > 0. Damit hat die Verteilungsfunktion von X die Darstellung F (t) = 1 − g(t) = 1 − exp(−λt), t ≥ 0, d.h. X ist Exp(λ)-verteilt.
F (t) = 0, t < 0,
5.2 Stochastische Unabh¨ angigkeit
123
5.2 Stochastische Unabh¨ angigkeit Es seien A, B zwei Ereignisse eines Wahrscheinlichkeitsraumes (Ω, F, P) mit P(B) > 0. Im letzten Abschnitt haben wir erl¨ autert, dass die bedingte Wahrscheinlichkeit P(A ∩ B) PB (A) = P(B) ein Maß daf¨ ur ist, wie die Wahrscheinlichkeit f¨ ur A neu zu bewerten ist, wenn der Beobachter u urlich ¨ber das Eintreten von B informiert wurde. Dabei ist nat¨ denkbar, dass die Wahrscheinlichkeit f¨ ur A sich gar nicht ¨andert, d.h. PB (A) = P(A) ⇐⇒ P(A ∩ B) = P(A) · P(B). In diesem Fall werden wir A als unabh¨ angig von B ansehen. Die rechts stehende Formulierung hat zwei Vorteile: Sie ist auch f¨ ur P(B) = 0 sinnvoll und l¨asst sich unmittelbar auf endlich viele Ereignisse verallgemeinern. Unabh¨angigkeit ist eines der wichtigsten Konzepte der Wahrscheinlichkeitstheorie, das uns immer wieder begegnen wird. Die formale Definition der stochastischen Unabh¨ angigkeit erfolgt in drei Schritten: zun¨ achst f¨ ur Ereignisse, dann f¨ ur Mengensysteme und schließlich f¨ ur Zufallsvariablen: Definition 5.6 ((stochastische) Unabh¨ angigkeit). (i) Ereignisse (Ai ), Ai ∈ F, i ∈ I = ∅, eines Wahrscheinlichkeitsraumes (Ω, F, P) heißen stochastisch unabh¨ angig, wenn f¨ ur jede endliche Teilmenge ∅ = J ⊂ I gilt: ⎞ ⎛
Aj ⎠ = P(Aj ). P⎝ j∈J
j∈J
(ii) Eine Familie von Mengensystemen (Fi )i∈I , Fi ⊂ F, i ∈ I = ∅, heißt stochastisch unabh¨ angig, wenn dies f¨ ur jede Familie von Ereignissen (Ai )i∈I mit Ai ∈ Fi f¨ ur alle i ∈ I gilt. (iii) Eine Familie von Zufallsvariablen (Xi )i∈I auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt stochastisch unabh¨ angig, wenn dies f¨ ur die Familie von Mengensystemen (σ(Xi )i∈I ) gilt. In der Mathematik gibt es noch andere Formen der Unabh¨angigkeit (z.B. lineare Unabh¨ angigkeit von Vektoren). Da wir aber nur die stochastische Unabh¨ angigkeit im Zusammenhang mit Zufallsvariablen betrachten, verzichten wir in der Regel auf den Zusatz stochastisch“. Wir erinnern daran, dass ” wir eine Zufallsvariable als Beschreibung eines bestimmten Aspekts eines Zufallsexperimentes (Ω, F, P) interpretiert haben. Unabh¨angige Zufallsvariablen k¨ onnen wir uns daher so vorstellen, dass verschiedene Aspekte des Experiments sich gegenseitig nicht beeinflussen.
124
5 Unabh¨ angigkeit
Beispiel 5.7. Zur Illustration der Unabh¨ angigkeit betrachten wir ein gew¨ohnliches Kartenspiel mit 32 Karten, aus dem nach ordentlichem Mischen eine Karte gezogen wird. Die Wahrscheinlichkeit f¨ ur eine Herz-Karte ist unter der ur Annahme einer Laplace-Verteilung PL (Herz) = 14 , die Wahrscheinlichkeit f¨ ur das Herz-As ist ein As PL (As) = 18 . Die Wahrscheinlichkeit f¨ PL (Herz ∩ As) =
1 1 1 = · = PL (Herz) · PL (As), 32 4 8
also sind diese beiden Ereignisse, wie man es erwartet, unabh¨angig.
♦
Das n¨ achste Beispiel zeigt, dass es f¨ ur Ereignisse A1 , . . . , An nicht gen¨ ugt, paarweise Unabh¨angigkeit, also P(Ai ∩ Aj ) = P(Ai )P(Aj ) f¨ ur alle i = j, zu fordern. Beispiel 5.8. Es seien X1 , X2 , X3 unabh¨ angige B(1, 12 )-verteilte Zufallsvariablen, d.h. 1 P(Xi = 0) = P(Xi = 1) = , i = 1, 2, 3. 2 Man kann sich z.B. vorstellen, dass wir eine faire M¨ unze drei Mal werfen. Wir betrachten die Ereignisse A1 := {X2 = X3 }, A2 := {X3 = X1 }, A3 := {X1 = X2 }, dass zwei Ergebnisse gleich sind. Die Ai sind paarweise unabh¨angig, denn f¨ ur i = j gilt P(Ai ∩ Aj ) = P(X1 = X2 = X3 ) =
1 = P(Ai )P(Aj ). 4
Sie sind aber nicht unabh¨ angig, denn: P(A1 ∩ A2 ∩ A3 ) = P(X1 = X2 = X3 ) =
1 1 = = P(A1 )P(A2 )P(A3 ). 4 8 ♦
Kriterien f¨ ur Unabh¨ angigkeit Stochastische Unabh¨ angigkeit u agt sich von einem durchschnittsstabilen ¨bertr¨ Erzeuger auf die erzeugte σ-Algebra: Satz 5.9. Ist (Ci )i∈I eine unabh¨ angige Familie von π-Systemen u ¨ber Ω, so ist angig. auch die Familie der von Ci erzeugten σ-Algebren (Fi := σ(Ci ))i∈I unabh¨
5.2 Stochastische Unabh¨ angigkeit
125
Beweis. Der Beweis ist, wie zu erwarten, eine Anwendung des π-λ-Lemmas. Wir fixieren endlich viele Indizes i1 , . . . , in ∈ I und wissen nach Voraussetzung, dass n n
P Aik = P(Aik ) (5.1) k=1
k=1
ur feste Ai2 , . . . , Ain definieren f¨ ur beliebige Menge Aik ∈ Cik , k = 1, . . . , n. F¨ wir n , n
Aik = P(Aik ) . D := Ai1 ∈ Fi1 : P k=1
k=1
Dann ist D ein λ-System, das Ci1 enth¨ alt. Daraus folgt mit dem π-λ-Lemma ur beliebige Ai1 ∈ Fi1 und Aik ∈ 1.20, dass Fi1 = σ(Ci1 ) ⊂ D. Also gilt (5.1) f¨ ur k = 2, . . . , n, Cik , k = 2, . . . , n. Wiederholen wir die gleiche Argumentation f¨ erhalten wir die Behauptung. Endlich viele Zufallsvariablen Wir wollen obiges Kriterium auf den Spezialfall n reeller Zufallsvariablen anwenden. Nach Definition sind n reelle Zufallsvariablen X1 , . . . , Xn genau dann unabh¨ angig, wenn f¨ ur alle Bi ∈ B, i = 1, . . . , n gilt: P(X1 ∈ B1 , . . . , Xn ∈ Bn ) =
n
P(Xi ∈ Bi ).
(5.2)
i=1
Auf den ersten Blick scheint es, wir m¨ ussten f¨ ur die Unabh¨angigkeit der X1 , . . . , Xn auch Teilmengen J ⊂ {1, . . . , n} betrachten und eine zu (5.2) analoge Forderung f¨ ur J aufstellen. Diese F¨ alle sind aber durch die Wahl von ¨ ur geeignete i in (5.2) mit abgedeckt. Durch den Ubergang zu einem Bi = Ω f¨ durchschnittsstabilen Erzeuger k¨ onnen wir (5.2) weiter reduzieren: Satz 5.10. Sind Xi , i = 1, . . . , n reelle Zufallsvariablen, so sind X1 , . . . , Xn genau dann unabh¨ angig, wenn f¨ ur jedes (c1 , . . . , cn ) ∈ Rn gilt: P(X1 ≤ c1 , . . . , Xn ≤ cn ) =
n
P(Xi ≤ ci ).
(5.3)
i=1
ur alle i = 1, . . . , n diskret verteilt mit Tr¨ ager Sind die Zufallsvariablen Xi f¨ angig, wenn f¨ ur jedes (x1 , . . . , xn ) ∈ Ti , so sind X1 , . . . , Xn genau dann unabh¨ T1 × . . . × Tn gilt: P(X1 = x1 , . . . , Xn = xn ) =
n
i=1
P(Xi = xi ).
(5.4)
126
5 Unabh¨ angigkeit
Beweis. Aus Gleichung (5.3) folgt die analoge Aussage auch f¨ ur jedes k ≤ n ur geeignete i. Daher ist (5.3) gleichbedurch den Grenz¨ ubergang ci → ∞ f¨ deutend mit der Unabh¨ angigkeit der Mengensysteme {Xi ≤ c : c ∈ R}, i = 1, . . . , n. Da {] − ∞, c] : c ∈ R} ein durchschnittsstabiler Erzeuger von B ist, ur jedes i = 1, . . . , n ein durchschnittsstabiler Erzeuist {Xi ≤ c : c ∈ R} f¨ ur den diskreten ger von σ(Xi ). Daher folgt die Behauptung aus Satz 5.9. F¨ Fall weisen wir nach, dass aus Gleichung (5.4) bereits (5.3) folgt. Die einzige ¨ Schwierigkeit besteht darin, bei den n-fachen Summen nicht den Uberblick zu n verlieren. Ist (c1 , . . . , cn ) ∈ R , so folgt: ... P(X1 = x1 , . . . , Xn = xn ) P(X1 ≤ c1 , . . . , Xn ≤ cn ) = x1 ∈T1 x1 ≤c1
=
xn ∈Tn xn ≤cn n
...
x1 ∈T1 x1 ≤c1
P(Xi = xi )
xn ∈Tn i=1 xn ≤cn
⎛
⎛
⎞
⎞
⎜ ⎟ ⎟ ⎜ ⎜ P(X1 = x1 )⎟ P(Xn = xn )⎟ =⎜ ⎠ · ... · ⎝ ⎠ ⎝ x1 ∈T1 x1 ≤c1
xn ∈Tn xn ≤cn
= P(X1 ≤ c1 ) · . . . · P(Xn ≤ cn ),
was zu zeigen war. F¨ ur den Fall, dass Dichten existieren, erhalten wir die Folgerung:
Korollar 5.11. Sind X1 , . . . , Xn unabh¨ angige reelle Zufallsvariablen mit Dichtefunktionen f1 , . . . , fn , so besitzt X = (X1 , . . . , Xn ) die Dichtefunktion f : Rn → R, (x1 , . . . , xn ) → f (x1 ) · . . . · f (xn ). Beweis. Ist F die Verteilungsfunktion von X = (X1 , . . . , Xn ), so folgt aus Satz 5.10 und dem Satz von Fubini 2.24 f¨ ur jedes c ∈ Rn : F (c) = P(X1 ≤ c1 , . . . , Xn ≤ cn ) = ⎛ =⎝
c1
⎞
f (x1 )dx1 ⎠ . . . ⎝
−∞
cn
P(Xi ≤ ci ) ⎞
f (xn )dxn ⎠
cn ...
−∞
i=1
−∞
c1 =
⎛
n
f (x1 ) · . . . · f (xn )dx1 . . . dxn .
−∞
Aus Satz 4.30 folgt die Behauptung.
5.3 Summen und Produkte
127
5.3 Summen und Produkte Erwartungswert und Produkte Ist (Xn ) eine Folge von integrierbaren Zufallsvariablen, so ist auf Grund der Linearit¨ at des Integrals n n Xi = E(Xi ). E i=1
i=1
Eine entsprechende Aussage f¨ ur das Produkt ist in der Allgemeinheit sicher falsch. Ist z.B. X N(0, 1)-normalverteilt, so ist 1 = E(X 2 ) = E(X · X) = E(X)E(X) = 0. Unser erstes Ziel in diesem Abschnitt ist es nachzuweisen, dass f¨ ur unabh¨angige Zufallsvariablen auch die Vertauschbarkeit von Produkt und Erwartungswert gilt. Dazu ben¨ otigen wir ein weiteres Kriterium f¨ ur die Unabh¨angigkeit von n Zufallsvariablen, welches das Produktmaß verwendet: Satz 5.12. Es seien Xi , i = 1, . . . , n, reelle Zufallsvariablen und X die Zufallsvariable X = (X1 , . . . , Xn ) : Ω → Rn . Dann sind X1 , . . . , Xn genau dann unabh¨ angig, wenn n PXi . PX = i=1
Beweis. Auf Grund des Maßeindeutigkeitssatzes ist PX =
n i=1
PXi gleich-
bedeutend mit PX (B1 ×. . .×Bn ) = P(X1 ∈ B1 , . . . , Xn ∈ Bn ) =
n
P(Xi ∈ Bi ) =
i=1
n
PXi (Bi )
i=1
f¨ ur alle Bi ∈ B, i = 1, . . . , n. Dies ist aber nach (5.2) gleichbedeutend mit der Unabh¨ angigkeit von X1 , . . . , Xn . Theorem 5.13 (Produktsatz). Sind X1 , . . . , Xn unabh¨ angige integrierbare Zufallsvariablen, so gilt: n n
Xi = E(Xi ). E i=1
i=1
Beweis. Es gen¨ ugt offensichtlich, den Fall n = 2 zu betrachten. Wir setzen X := (X1 , X2 ) und definieren f : R2 → R,
(x1 , x2 ) → x1 x2 .
128
5 Unabh¨ angigkeit
Dann ist X1 X2 = f ◦ X, und wir erhalten nach Satz 4.3: E(X1 X2 ) = E(f ◦ X) = x1 x2 dPX . Auf Grund der Unabh¨ angigkeit von X1 und X2 gilt nach Satz 5.12 PX = PX1 ⊗ PX2 , also folgt mit dem Satz 2.24 von Fubini: E(X1 X2 ) = x1 x2 dPX = x1 x2 d(PX1 ⊗ PX2 ) = x1 dPX1 · x2 dPX2 = E(X1 )E(X2 ). Es stellt sich die Frage, ob nicht auch die Umkehrung des Produktsatzes gilt: Folgt aus E(XY ) = E(X)E(Y ) bereits die Unabh¨angigkeit von X und Y ? Dies ist nicht der Fall, wie das n¨ achste Beispiel zeigt: Beispiel 5.14. Wir betrachten (PL sei die Laplace-Verteilung) den Wahrscheinlichkeitsraum ({1, 2, 3}, P({1, 2, 3}), PL ). Die reellen Zufallsvariablen X und Y seien auf Ω definiert durch: X(1) = 1, X(2) = 0, X(3) = −1, Y (1) = 0, Y (2) = 1, Y (3) = 0. Dann folgt E(X)E(Y ) = E(XY ) = 0. Da aber P(X = 1, Y = 1) = 0 =
1 = P(X = 1)P(Y = 1), 9 ♦
sind X und Y nicht unabh¨ angig. Varianz und Summe
Wir nehmen das letzte Beispiel zum Anlass, f¨ ur zwei Zufallsvariablen X und Y die Gr¨ oße E(XY ) − E(X)E(Y ) zu definieren. Definition 5.15 (Kovarianz, unkorreliert). Sind X und Y zwei reelle, integrierbare Zufallsvariablen, so heißt Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ) die Kovarianz von X und Y . X und Y Cov(X, Y ) = 0.
heißen unkorreliert, falls
5.3 Summen und Produkte
129
Beispiel 5.14 zeigt, dass es unkorrelierte Zufallsgr¨oßen gibt, die nicht unabh¨ angig sind. Haben X und Y endliche positive Varianzen, so heißt Cov(X, Y ) ρ(X, Y ) := ' V(X)V(Y ) Korrelationskoeffizient von X und Y . Aus der H¨older-Ungleichung 2.26 mit p = q = 2 folgt ' E[|(X − E(X))(Y − E(Y ))|] ≤ V(X)V(Y ), d.h. −1 ≤ ρ(X, Y ) ≤ 1. Der Korrelationskoeffizient ist ein Maß daf¨ ur, wie stark X und Y sich ¨ahneln. Sind X und Y unkorreliert, so ist ρ(X, Y ) = 0. Ist X = Y , so ist ρ(X, Y ) = 1, ist X = −Y , so ist ρ(X, Y ) = −1. Kovarianzen treten bei der Berechnung der Varianz einer Summe auf. Wir fassen die wichtigsten Rechenregeln f¨ ur Varianzen und Kovarianzen im nachfolgenden Satz zusammen: Satz 5.16. Es seien X, Y ∈ L2 , (Xn ) eine Folge in L2 und a, b, c, d ∈ R. Dann gilt: (i) Cov(X, Y ) = Cov(Y, X), Cov(X, X) = V(X). (ii) Sind X und Y unabh¨ angig, so sind X und Y unkorreliert. (iii) Cov(aX + b, cY + d) = ac Cov(X, Y ). Insbesondere folgt: V(aX + b) = a2 V(X). (iv) n n n n Xi = V(Xi ) + Cov(Xi , Xj ). V i=1
i=1
i=1 j=1 j=i
(v) Formel von Bienaym´e: Sind X1 , . . . , Xn paarweise unkorreliert, so folgt: n n V Xi = V(Xi ). i=1
i=1
Beweis. Eigenschaft (i) folgt unmittelbar aus der Definition der Kovarianz, (ii) ist eine direkte Konsequenz des Produktsatzes 5.13. Um (iii) nachzuweisen, berechnen wir: Cov(aX + b, cY + d) = E[(aX + b − E(aX + b))(cY + d − E(cY + d))] = E[ac(X − E(X))(Y − E(Y ))] = ac Cov(X, Y ). F¨ ur den Nachweis von (iv) k¨ onnen wir wegen (iii) ohne Einschr¨ankung ur alle i = 1, . . . , n annehmen. Dann folgt: E(Xi ) = 0 f¨
130
5 Unabh¨ angigkeit
V
n
Xi
⎛ 2 ⎞ n n n Xi ⎠ = E(Xi Xj ) = E⎝
i=1
i=1
=
n
i=1 j=1
V(Xi ) +
i=1
n n
Cov(Xi , Xj ).
i=1 j=1 j=i
Schließlich folgt (v) unmittelbar aus (iv). Erwartungswertvektor und Kovarianzmatrix
F¨ ur Berechnungen in der Statistik ist es oft n¨ utzlich, mit Erwartungswerten und Kovarianzen bez¨ uglich n-dimensionaler reeller Zufallsvariablen zu rechnen. Es ist in diesem Zusammenhang leichter, Spaltenvektoren ⎞ ⎛ X1 ⎟ ⎜ X = ⎝ ... ⎠ Xn zu betrachten. Definition 5.17 (Erwartungswertvektor, Kovarianzmatrix). Es seien X1 , . . . , Xn integrierbare reelle Zufallsvariablen. Ist X = (X1 , . . . , Xn ) , so heißt ⎞ ⎛ E(X1 ) ⎟ ⎜ E(X) := ⎝ ... ⎠ Erwartungswertvektor E(Xn ) Im Falle der quadratischen Integrierbarkeit von X1 , . . . , Xn heißt Cov(X) := (Cov(Xi , Xj ))1≤i,j≤n
Kovarianzmatrix.
Der nachfolgende Satz beschreibt, wie sich Erwartungswertvektor und Kovarianzmatrix unter linearen Transformationen verhalten. Satz 5.18. Es seien X1 , . . . , Xn quadratintegrierbare reelle Zufallsvariablen ur X = (X1 , . . . , Xn ): und B ∈ Rm,n eine reelle m × n-Matrix. Dann gilt f¨ E(BX) = BE(X)
und Cov(BX) = B Cov(X)B .
Beweis. F¨ ur jedes 1 ≤ i ≤ m ist (BX)i = Linearit¨ at des Erwartungswertes E(BX)i =
n
Bik Xk und daher wegen der
k=1 n k=1
die Kovarianzmatrix gilt
Bik E(X)k = (BE(X))i . F¨ ur
5.3 Summen und Produkte
131
Cov(X) = E[(X − E(X))(X − E(X)) ]. Damit erhalten wir: Cov(BX) = E[(BX − E(BX))(BX − E(BX)) ] = BE[(X − E(X))(X − E(X)) ]B . Beispiel 5.19 (Standardisierung). Es sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable mit Erwartungswertvektor m und positiv definiter Kovarianzmatrix C. Dann besitzt C eine Zerlegung (Cholesky-Zerlegung, vgl. [M¨ol97]) C = BB mit B ∈ Rn,n , B invertierbar, mit der wir eine neue Zufallsvariable Y definieren: Y := B−1 (X − m). Es gilt E(Y ) = B−1 E(X − m) = 0 und Cov(Y ) = B−1 C(B )−1 = In . Jede Koordinate von Y besitzt also Erwartungswert 0 und Varianz 1. Daher nennt man Y die Standardisierung von X. F¨ ur n = 1 ist dieser Prozess immer m¨ oglich, wenn σ 2 = V(X) > 0 ist und reduziert sich dann zu: Y =
X −m . σ ♦
Momenterzeugende Funktion und Summen Abschließend wollen wir noch die momenterzeugende Funktion einer Summe von unabh¨ angigen Zufallsvariablen bestimmen. Wir erinnern daran, dass M (s) = E(exp(sX)),
s ∈ D,
die momenterzeugende Funktion der reellen Zufallsvariablen X in s ist, falls der Erwartungswert an dieser Stelle endlich ist. Lemma 5.20. Sind X1 , . . . , Xn unabh¨ angige reelle Zufallsvariablen und f1 , . . . , fn : R → R messbare Funktionen, so sind auch f1 ◦ X1 , . . . , fn ◦ Xn unabh¨ angig. Beweis. Ist B ∈ B, so gilt {f ◦ X ∈ B} = {X ∈ f −1 (B)}. Daher ist f¨ ur B1 , . . . , Bn ∈ B die zu beweisende Gleichung P(f1 ◦ X1 ∈ B1 , . . . , fn ◦ Xn ∈ Bn ) =
n
i=1
{fi ◦ Xi ∈ Bi }
132
5 Unabh¨ angigkeit
¨aquivalent zu P(X1 ∈ f1−1 (B1 ), . . . , Xn ∈ fn−1 (Bn )) =
n
{Xi ∈ fi−1 (Bi )},
i=1
was nach Voraussetzung gilt.
Satz 5.21. Es seien X1 , . . . , Xn unabh¨ angige reelle Zufallsvariablen, deren momenterzeugende Funktionen M1 , . . . , Mn alle auf dem Intervall ] − a, a[ n Xi , so ist auch die momenterzeugende definiert sind. Setzen wir Sn := i=1
Funktion M von Sn auf ] − a, a[ definiert, und es gilt: M (s) = M1 (s) · . . . · Mn (s),
s ∈] − a, a[.
Beweis. Aus der Unabh¨ angigkeit von X1 , . . . , Xn folgt nach Lemma 5.20 die Unabh¨ angigkeit von exp(sX1 ), . . . , exp(sXn ). Da jede dieser Funktionen auf ] − a, a[ integrierbar ist, gilt dies auch f¨ ur ihr Produkt, und nach dem Produktsatz 5.13 gilt: M (s) = E[exp(s(X1 + . . . + Xn ))] = E[exp(sX1 ) · . . . · exp(sXn )] = E[exp(sX1 )] · . . . · E[exp(sXn )] = M1 (s) · . . . · Mn (s).
5.4 Anwendung Nachrichtentechnik: Decodierung Digitale Nachrichten¨ ubertragung Die Grundaufgabe der digitalen Nachrichtentechnik besteht darin, Information von einer Quelle zu einer Sinke zu u ¨bertragen. Quelle und Sinke sowie Sender und Empf¨ anger k¨ onnen dabei viele verschiedene konkrete Auspr¨agungen haben. So kann es sich beispielsweise um Kommunikation zwischen zwei Mobiltelefonen handeln, um das Verschicken von Datenpaketen u ¨ber Kabelverbindungen oder um eine Satellitenfunkstrecke. Je nach Anwendung sind ¨ die Anforderungen an die Ubertragung sehr unterschiedlich. So kommt es beim Telefonieren in erster Linie auf eine gute Sprachqualit¨at an, die von ¨ kleinen Fehlern bei der Ubertragung unter Umst¨anden nicht wesentlich beeintr¨ achtigt wird. Bei der Daten¨ ubertragung ist hingegen die Fehlertoleranz in der Regel geringer. F¨ ur eine Satellitenfunkstrecke ist typischerweise die im All zur Verf¨ ugung stehende Energie eine knappe Ressource, so dass die Kommunikation mit einer m¨ oglichst geringen Energie sichergestellt werden muss. F¨ ur diese unterschiedlichen Anforderungen stehen zwischen Quelle und Sinke mehrere Komponenten zur Verf¨ ugung, die je nach Anwendung variieren k¨ onnen. Wir haben einen typischen Verlauf in Abbildung 5.1 skizziert. Im Folgenden werden wir die einzelnen Komponenten kurz erl¨autern.
5.4 Anwendung Nachrichtentechnik: Decodierung
Quelle
-Quellencodierer
133
k n - Krypto- u ∈ {±1}- Kanal- c ∈ {±1}-Modulator
codierer
codierer
r:R→R ? St¨orung
- Physikal. Kanal
r˜ : R → R Sinke
Quellen- decod.
u ˆ ∈ {±1}k Kanal- y ∈ Rn Krypto- decod. decod.
? Demodul.
Abbildung 5.1. Digitale Nachrichten¨ ubertragung
Quelle: Wie bereits erw¨ ahnt, bezeichnet man den Ursprung der Nachrichten als Quelle. Dabei kann es sich im Mobilfunk um einen Sprecher bzw. ¨ Die genaue Form der Sprache handeln, genauso aber um einen Computer o.A. Quelle ist f¨ ur die weiteren Betrachtungen nicht relevant. Quellencodierer: Die Quellencodierung ist die erste von drei Codierungsarten, die in der Shannon’schen Informationstheorie unterschieden werden. Ihre Aufgabe ist es, die Nachrichten der Quelle so in digitale Wertefolgen zu transformieren, dass dabei einerseits keine Information verloren geht, andererseits Redundanz beseitigt wird. Der Vorteil der Quellencodierung besteht ¨ darin, dass ohne Informationsverlust Zeit und Energie bei der Ubertragung gespart werden. F¨ ur eine ausf¨ uhrliche Darstellung verweisen wir auf [HQ95] oder [Rom96]. Kryptocodierer: Die Aufgabe des Kryptocodierers besteht darin, die Nachricht zu verschl¨ usseln und damit f¨ ur Unbefugte nicht lesbar und nicht verf¨ alschbar zu machen. Die Notwendigkeit einer Verschl¨ usselung ist nicht immer gegeben, daher ist diese Komponente optional. Ziel des Kryptocodierers ¨ ist es, auch bei ungest¨ orter Ubertragung die Nachricht so zu ver¨andern, dass ein Empf¨ anger ohne Kenntnis des Verschl¨ usselungsprinzips keine M¨oglichkeit erh¨ alt, an die Information zu gelangen. Die dazu ben¨otigten theoretischen Grundlagen werden in der Kryptographie untersucht ([FR94], [Beu02],[Bau00]). Kanalcodierer: Im Kanalcodierer wird der Ausgabe des Kryptocodierers gezielt und kontrolliert Redundanz hinzugef¨ ugt. Dies ist notwendig, da ¨ im physikalischen Kanal, also bei der eigentlichen Ubertragung, St¨orungen auftreten k¨ onnen, welche die Nachricht verf¨ alschen k¨onnen. Wir bezeichnen
134
5 Unabh¨ angigkeit
die Ausgabe des Kryptocodierers mit u ∈ {±1}k , k ∈ N. Dabei setzen wir f¨ ur jedes u voraus, dass mit gleicher Wahrscheinlichkeit jede einzelne Komponente ui , i = 1, . . . , k, den Wert +1 oder −1 annimmt. Diese Voraussetzung ist gerechtfertigt, da sie sich aus informationstheoretischer Sicht als Ziel der ersten beiden Codierungen ergibt. Durch Hinzuf¨ ugen kontrollierter Redundanz senderseitig kann auf der Empf¨ angerseite im g¨ unstigsten Fall ein Fehler erkannt und korrigiert werden. Der Kanalcodierer bildet demnach ein Wort u ∈ {±1}k auf ein Codewort c ∈ {±1}n , n ≥ k, ab. Durch Kanalcodierung ¨ kann man daher hohe Ubertragungszuverl¨ assigkeit erreichen. Auf der anderen Seite kostet jedes hinzugef¨ ugte Redundanzbit Energie und Zeit, so dass immer ¨ eine Abw¨ agung zwischen Ubertragungsqualit¨ at und Energiebedarf stattfinden muss. B¨ ucher zur Kanalcodierung sind z.B. [Bos82] und [Fri96]. ¨ Modulator: Uber den physikalischen Kanal k¨onnen keine diskreten Werte, etwa Bits, u ¨bertragen werden, sondern nur zeitkontinuierliche Signale. Die Zuordnung der diskreten Codew¨ orter c ∈ {±1}n auf kontinuierliche Signale r : R → R ist Aufgabe des Modulators. Dabei sind die Nebenbedingungen des physikalischen Kanals, z.B. sein Spektrum, zu beachten. Physikalischer Kanal: Das physikalische Medium, das der eigentlichen ¨ Ubertragung dient, wird als physikalischer Kanal bezeichnet. Es kann sich dabei um leitergebundene Medien (z.B. Koaxialkabel, Glasfaserkabel) oder Funkkan¨ ale (z.B. Mobilfunk, Rundfunk) oder auch Speichermedien (z.B. Magnetmedien, elektronische oder optische Speicher) handeln oder um eine beliebige Kombination dieser Kan¨ ale. Charakteristisch f¨ ur einen physikalischen Kanal ist, dass in ihm St¨ orungen auftreten, d.h. er ist nicht ideal. Bei der ¨ Ubertragung des Signals r : R → R wird man daher am Ausgang des physikalischen Kanals ein verf¨ alschtes Signal r˜ : R → R vorfinden. Die zuf¨allige St¨orung in geeigneter Weise zu beschreiben, ist im Allgemeinen eine schwierige Aufgabe der stochastischen Signaltheorie ([Bos82],[H¨an01]). Wir kommen darauf im Folgenden und in Abschnitt 7.5 zur¨ uck. Demodulator: Der Demodulator ist das Gegenst¨ uck zum Modulator. Er wandelt das verf¨ alschte Signal r˜ : R → R wieder in einen diskreten Vektor y ∈ Rn um. Dabei gilt im Allgemeinen nicht y ∈ {±1}n , d.h. die Ausgabe des Demodulators ist nicht notwendigerweise ein Vektor c˜ ∈ {±1}n . Dieser Unterschied erweist sich als sehr wertvoll, da die Absolutbetr¨age der Komponenten von y als Zuverl¨ assigkeitsinformation f¨ ur das entsprechende Vorzeichen Verwendung finden. Ist im Demodulator noch ein Entscheider eingebaut, also eine Abbildung von y ∈ Rn auf c˜ ∈ {±1}n , so bedeutet dies zwar eine wesentliche Vereinfachung der nachfolgenden Schritte. Sie geht aber mit einem erheblichen Informationsverlust einher, der sich wiederum negativ auf ¨ die Ubertragungsqualit¨ at auswirkt. Kanaldecodierer: Der Kanaldecodierer hat die Aufgabe, aus der Ausgabe des Demodulators die Information u ∈ {±1}k zu rekonstruieren. Dabei unterscheidet man grunds¨ atzlich zwei Arten der Decodierung. Liegt als Grundlage ein Vektor c˜ ∈ {±1}n vor, so spricht man von Hard-Decision-Decodierung. Hat man hingegen zus¨ atzlich Zuverl¨ assigkeitsinformation in Form eines Vek-
5.4 Anwendung Nachrichtentechnik: Decodierung
135
tors y ∈ Rn zur Verf¨ ugung, so kann man einerseits auf Grund der zus¨atzlichen Information besser decodieren, andererseits auch das Ergebnis der Deassigkeitsmaß versehen. In diesem Fall codierung u ˆ ∈ {±1}k mit einem Zuverl¨ spricht man von Soft-Decision-Decodierung. Der Vorteil der Hard-DecisionDecodierung ist ihr geringerer Aufwand, den man in der Regel mit einem ¨ Verlust an Ubertragungsqualit¨ at bezahlen muss. Ziel dieses Abschnitts ist es, ein bestimmtes Verfahren der Soft-Decision-Decodierung vorzustellen. Kryptodecodierer: Die Entschl¨ usselung der Ausgabe der Decodierung erfolgt im Kryptodecodierer. Er rekonstruiert also die quellencodierte Nachricht. Quellendecodierer: Der Quellendecodierer verarbeitet die ankommende Information so, dass die Sinke sie verstehen kann. Im Mobilfunk z.B. erzeugt der Quellendecodierer im Allgemeinen Sprache. Sinke: Die Sinke ist der gew¨ unschte Empf¨anger der Nachricht. Kanalcodierung Der physikalische Kanal st¨ ort das gesendete Signal r : R → R zu einem verf¨ alschten Signal r˜ : R → R, wobei im Allgemeinen r˜ = r gilt. Um dabei entstehende Fehler erkennen und eventuell sogar korrigieren zu k¨onnen, f¨ ugt der Kanalcodierer gezielt Redundanz hinzu. F¨ ur unsere Zwecke gen¨ ugt eine spezielle Klasse von Codes, die wir nun einf¨ uhren wollen. Insbesondere beschr¨ anken wir uns auf bin¨ are Codes, deren Zeichenvorrat also aus einem n-dimensionalen Vektorraum {±1}n , n ∈ N, u ¨ber dem K¨orper {±1} stammt. Dabei ist die K¨ orperstruktur des zwei-elementigen K¨orpers {±1} mit Addition ⊕ und Multiplikation wie folgt definiert: −1 1 1 −1 1 1
⊕ ⊕ ⊕
−1 = 1 1= 1 −1 = −1 . −1 = −1 −1 = 1 1= 1
Der zwei-elementige K¨ orper {±1} ist f¨ ur die Nachrichtentechnik geeigneter als der in der Mathematik u ¨bliche {0, 1}, weil der Betrag als Energie interpretiert werden kann. F¨ ur zwei nat¨ urliche Zahlen n, k mit n ≥ k heißt jede injektive Abbildung E : {±1}k → {±1}n bin¨arer (n, k)-Block-Code. u → c := E(u) Den Definitionsbereich eines Codes nennen wir Informationsraum, die W¨orter u ∈ {±1}k Infobits. Das Bild C := E({±1}k ) wird als Coderaum oder einfach als Code C bezeichnet. Oft kommt es n¨ amlich nicht auf die Entstehung des Codes an, sondern lediglich auf die Menge der Codew¨orter C. Dabei heißt ein bin¨ arer (n, k)-Block-Code
136
5 Unabh¨ angigkeit
• systematisch, falls die ersten k Komponenten von c den Vektor u bilden, • linear , falls C ein (k-dimensionaler) linearer Unterraum von {±1}n ist. Wir werden im Folgenden immer systematische Codes betrachten und lassen daher das Adjektiv systematisch“ weg. Zu jedem (n, k)-Block-Code gibt es ” eine k × n-Matrix G, f¨ ur die C = {c ∈ {±1}n |c = u G, u ∈ {±1}k }
(5.5)
gilt. Daher wird G als Generatormatrix bezeichnet. Sind zwei Codew¨orter c, c˜ ∈ {±1}n gegeben, so ist der so genannte Hamming-Abstand definiert durch (5.6) d(c, c˜) := |{i|ci = c˜i , i = 1, . . . , n}|. Der Hamming-Abstand bildet eine Metrik auf {±1}n . Die Minimaldistanz dmin eines Codes E, definiert als dmin := min{d(c, c˜)|c, c˜ ∈ C, c = c˜},
(5.7)
ist ein G¨ utekriterium f¨ ur einen Code. Sie gibt die Anzahl Bits an, in denen sich zwei verschiedene Codew¨ orter mindestens unterscheiden. Je gr¨oßer die Minimaldistanz, desto besser lassen sich Fehler erkennen und korrigieren. Das Studium von Codes wird stark durch algebraische Methoden gepr¨agt. F¨ ur eine ausf¨ uhrliche Darstellung der algebraischen Codierungstheorie sei auf [Jun95] verwiesen. Die wesentlichen Eigenschaften eines Codes werden durch das Tupel (n, k) bzw. das Tripel (n, k, dmin ) wiedergegeben. Insbesondere enth¨alt es das Information-Redundanz-Verh¨ altnis R := nk , das als Coderate R bezeichnet wird. Wir wollen nun einige Beispiele linearer (n, k)-Block-Codes vorstellen. Um die Lesbarkeit zu vereinfachen, werden wir dabei nicht streng zwischen einer Notation f¨ ur Zeilen- und Spaltenvektoren unterscheiden. Beispiel 5.22 (Wiederholungscode). In diesem Fall sei k = 1 und n > 1. Die Abbildungsvorschrift ist gegeben durch En : {±1} → {±1}n u → u (−1, . . . , −1).
(5.8) (5.9)
Das Bit u wird also n-mal wiederholt. In diesem Fall spricht man von einem n-fachen Wiederholungscode. Es handelt sich um einen linearen (n, 1)-BlockCode mit dem bestm¨ oglichen Minimalabstand dmin = n und der Coderate ♦ R = n1 . Beispiel 5.23 (Der (7, 4)-Hamming Code). Der Hamming-Code l¨asst sich am einfachsten durch seine 4 × 7 Generator-Matrix angeben: ⎛ ⎞ −1 1 1 1 1 −1 −1 ⎜ 1 −1 1 1 −1 1 −1 ⎟ ⎟ G=⎜ (5.10) ⎝ 1 1 −1 1 −1 −1 1 ⎠ , 1 1 1 −1 −1 −1 −1
5.4 Anwendung Nachrichtentechnik: Decodierung
137
wobei die Operationen ⊕ und zu Grunde gelegt sind. Der Code ist in diesem Fall gegeben durch die lineare Abbildung EHam : {±1}4 → {±1}7 u → c = G u.
(5.11) (5.12)
Der Hamming-Code ist ein bin¨ arer linearer Code mit Minimaldistanz dmin = 3 ♦ und einer Coderate von 47 . Kanalmodelle ¨ Die St¨ orungen, die bei der Ubertragung eines Signals u ¨ber einen physikalischen Kanal auftreten, sind nicht im Einzelnen greifbar, gen¨ ugen aber in der Regel dennoch gewissen Gesetzm¨ aßigkeiten. Daher versucht man, den Kanal durch ein stochastisches Modell m¨ oglichst genau wiederzugeben. Dies kann sich als sehr schwierig erweisen, wenn beispielsweise, wie im Mobilfunk, der ¨ Kanal zeitvariant ist, sich also die Ubertragungsbedingungen mit der Zeit ver¨ andern. Aber auch zeitinvariante Kan¨ ale k¨ onnen so viele verschiedene Effekte aufweisen, dass ein gutes stochastisches Kanalmodell sehr komplex wird. Bei stochastischen Kanalmodellen werden f¨ ur die Modellierung die Elemente Modulation“ physikalischer Kanal + St¨ orung“ und Demodulator oh” ” ” ne Entscheider“ zu einer Einheit, dem Kanal“ zusammengefasst (Abbildung ” 5.2). Um formal ein Kanalmodell definieren zu k¨onnen, versehen wir den Coderaum C ⊂ Rn mit der diskreten Topologie und betrachten einen gegebenen Wahrscheinlichkeitsraum (Ω, F, P) . Dann heißt eine messbare Abbildung K : C × Ω → Rn n-Kanal.
(5.13)
Da wir C mit der diskreten Topologie versehen haben, ist f¨ ur einen n-Kanal gleichbedeutend, dass f¨ ur jedes c ∈ C die Abbildung Kc : Ω → Rn eine n-dimensionale reelle Zufallsvariable ist.
(5.14)
Ein stochastisches Kanalmodell besteht also aus Zufallsvariablen Kc , die u ¨ber dem Coderaum C parametrisiert sind. Die Gestalt der Zufallsvariablen bestimmt dann gerade die Eigenschaften des Kanals. Um ein fundamentales Beispiel anzugeben, ben¨ otigen wir einige physikalische Gr¨oßen. Auf die Performance eines Kanals hat die zur Verf¨ ugung stehende Energie entscheidenden Einfluss. Um eine leichte Vergleichbarkeit f¨ ur unterschiedliche Codes und Coderaten zu erreichen, wird im Allgemeinen nicht die Energie pro Kanalbenutzung, sondern die Energie Eb : Energie pro Informationsbit
(5.15)
betrachtet. Auf der anderen Seite ordnet man der St¨orung eine Gr¨oße N0 zu, N0 : die einseitige Rauschleistungsdichte.
(5.16)
138
5 Unabh¨ angigkeit
Kanal- c ∈ {±1} codierer
n
-Modulator r:R→R
Kanal
? St¨ orung
- Physikal. Kanal
r˜ : R → R n Kanal- y ∈ R decod.
? Demodul.
Abbildung 5.2. Kanal
Entscheidend ist nun das Verh¨ altnis dieser beiden Gr¨oßen, also der Quotient Eb : SNR = Signal-to-Noise Ratio, N0
(5.17)
der als Signal-Rausch-Verh¨ altnis bekannt ist und u ¨blicherweise in Dezibel angegeben wird. Wir erinnern an die Notation f¨ ur die n-dimensionale Einheitsmatrix: In . Beispiel 5.24 (AWGN-Kanal). Wir bezeichnen wieder mit c ∈ C die Ausgabe des (n, k)-Block-Codes des Kanalcodierers. Der Name AWGN-Kanal bedeutet additive white gaussian noise“ und bezieht sich auf die Verteilung der ” St¨ orung. Das AWGN-Kanalmodell ist gegeben durch: KBP SK : C × Ω → Rn KcBP SK
(5.18)
= (X1 , . . . , Xn ),
mit X1 , . . . , Xn unabh¨angig und N0 n Xi ∼ N ci , , i = 1, . . . , n. 2Eb k
Die Zufallsvariablen X1 , . . . , Xn entsprechen den n Kanalbenutzungen, die notwendig sind, um das ganze Codewort c = (c1 , . . . , cn ) zu u ¨bertragen. In diesem Modell geht man davon aus, dass die einzelnen Kanalbenutzungen sich
5.4 Anwendung Nachrichtentechnik: Decodierung
139
nicht beeinflussen, daher sind die Zufallsvariablen X1 , . . . , Xn unabh¨angig. Somit ergibt ihr Produkt nach Korollar 5.11 die Dichte der n-dimensionalen Zufallsvariable KcBP SK = (X1 , . . . , Xn ). Das Produkt ein-dimensionaler Normalverteilungen ergibt aber gerade eine n-dimensionale Normalverteilung, so dass wir als alternative Beschreibung des AWGN-Kanals erhalten: KBP SK : C × Ω → Rn N0 n KcBP SK ist N c, In -normalverteilt. 2Eb k Die Abk¨ urzung BPSK (= binary phase shift keying“) bezieht sich auf die ” zu Grunde gelegte Modulation, auf die wir hier nicht n¨aher eingehen wollen. Das AWGN-Modell ist sicher das verbreitetste und daher wichtigste Kanalmodell in der Nachrichtentechnik. Man liest an der Varianz der normalverunstiger das teilten Zufallsgr¨ oßen Xi ab, dass diese umso gr¨oßer ist, je ung¨ Signal-Rausch-Verh¨ altnis und je kleiner die Coderate ist. ♦ Die Aufgabe des Kanaldecodierers Der Kanaldecodierer hat die Aufgabe, aus der Ausgabe des Demodulators die gesendeten Informationsbits u ∈ {±1}k zu rekonstruieren. Dies kann auf viele verschiedene Weisen geschehen, die sich in entscheidenden Merkmalen wie Fehlerwahrscheinlichkeit, mathematischer Aufwand, Optimalit¨atskriterium etc. unterscheiden. F¨ ur welche Decodierung man sich entscheidet, h¨angt von der Anwendung sowie physikalischen Nebenbedingungen wie Echtzeitanforderungen, Komplexit¨ at oder Chipdimensionierung ab. Mathematisch besteht die Decodieraufgabe darin, aus der gegebenen Realisierung y ∈ Rn des stochastischen Kanalmodells K die Informationsbits uck zu geu ∈ {±1}k in einem noch zu definierenden Sinn optimal“ zur¨ ” winnen. Dies ist eine klassische Aufgabe der mathematischen Statistik und der mathematischen Optimierung. Gesucht ist demnach eine Entscheidungsfunktion δ : Rn → {±1}k y → u ˆ = δ(y).
(5.19) (5.20)
Wie bereits erw¨ahnt, bieten sich zur Bestimmung von δ zwei verschiedene Strategien an: Wortfehleroptimalit¨ at: Hier besteht die Aufgabe darin, so zu decodieren, dass die Wahrscheinlichkeit, dass sich im decodierten Wort u ˆ = δ(y) kein falsches Bit befindet, maximal ist. Die Anzahl der Bitfehler in einem Wort u ˆ spielt keine Rolle. Bitfehleroptimalit¨ at: Hier besteht die Aufgabe des Decodierers darin, so zu decodieren, dass die Wahrscheinlichkeit f¨ ur jedes einzelne Informationsbit, richtig zu sein, maximal wird.
140
5 Unabh¨ angigkeit
L-Werte Zur Bestimmung einer bitoptimalen Decodierung δBO : Rn → {±1}k
(5.21)
stellen wir nun die so genannte MAP-Decodierung (maximum a posteriori) mit Hilfe von L-Werten vor. Ausgangspunkt ist ein gegebener (n, k)-Block-Code E : {±1}k → {±1}n
(5.22)
sowie ein stochastisches Kanalmodell K : C × Ω → Rn auf einem Wahrscheinlichkeitsraum (Ω, F, P). Wir wollen weiter voraussetzen, ur jedes c ∈ C eine dass die Zufallsvariablen Kc f¨ Dichtefunktion dc : Rn → R,
c ∈ C,
(5.23)
besitzen. Definition 5.25 (L-Wert). Sei K ein stochastisches Kanalmodell mit Dichtefunktionen dc , c ∈ C, und y ∈ Rn eine Realisierung des Kanalmodells. Dann definieren wir den ⎡ ⎤ dc (y) ⎢ cic∈C ⎥ =+1 ⎥ (5.24) L-Wert L(ui |y) = ln ⎢ ⎣ dc (y) ⎦ , i = 1, . . . , k. c∈C ci =−1
Die Idee des L-Werts ist die folgende: Interpretieren wir die Dichte dc (y) als infinitesimale Wahrscheinlichkeit f¨ ur das Codewort c, wenn die Realisierung y empfangen wurde, so steht im Z¨ ahler dc (y), c∈C ci =+1
die Gesamtwahrscheinlichkeit daf¨ ur, dass das i-te Bit eine 1 ist. Der L-Wert stellt also die Wahrscheinlichkeit, dass das i-te Bit eine 1 ist, ins Verh¨altnis zur Wahrscheinlichkeit, dass das i-te Bit eine −1 ist. Bei der Decodierung wollen wir uns nat¨ urlich f¨ ur die gr¨ oßere Wahrscheinlichkeit entscheiden. Der Logarithmus erm¨oglicht uns, diese Entscheidung mit Hilfe des Vorzeichens des L-Wertes zu treffen. Ist der Z¨ ahler gr¨ oßer als der Nenner, so ist der Logarithmus positiv, und wir entscheiden uns f¨ ur +1. Ist der Nenner gr¨oßer als der
5.4 Anwendung Nachrichtentechnik: Decodierung
141
Z¨ ahler, so ist der Logarithmus negativ, und wir entscheiden uns f¨ ur −1. Mit anderen Worten, die L-Werte f¨ uhren zu folgender Entscheidungsfunktion: δBO : Rn → {±1}k ,
(5.25)
y → (signum(L(ui |y))(1≤i≤k)
(5.26)
Weiter ist der Absolutbetrag des L-Wertes umso gr¨oßer, je st¨arker sich Z¨ahler und Nenner, also die Wahrscheinlichkeit f¨ ur +1 oder −1, unterscheiden. Dies erlaubt es, den Absolutbetrag des L-Werts direkt als Zuverl¨assigkeitsmaß f¨ ur die Entscheidung zu interpretieren. Decodierung im AWGN-Kanal Wir betrachten als Beispiel f¨ ur die L-Wert-Decodierung den AWGN-Kanal 5.18: KBP SK : C × Ω → Rn N0 n BP SK Kc ist N c, In normalverteilt. 2Eb k Setzen wir die Dichten der Normalverteilungen in unsere L-Werte (5.24) ein, so erhalten wir, da sich die Normierungsfaktoren wegheben: ⎤ ⎡ 2 exp − y−c
N0 n ⎢ c∈C ⎥ Eb k ⎢ ci =+1 ⎥ AW GN ⎥ , i = 1, . . . , n. (5.27) (ui |y) = ln ⎢ L ⎥ ⎢
y−c 2 ⎦ ⎣ exp − N0 n c∈C ci =−1
Eb k
Entsprechend lautet unsere Decodiervorschrift im AWGN-Kanal: AW GN δBO : Rn → {±1}k ,
⎤⎞ ⎛ ⎡
y−c 2 exp − N0 n ⎜ ⎢ c∈C ⎥⎟ Eb k ⎜ ⎢ ci =+1 ⎥⎟ ⎢ ⎜ ⎥⎟ y→ signum ⎜ln ⎢ ⎥⎟ 2
y−c
⎝ ⎣ ⎦⎠ exp − c∈C ci =−1
(5.28)
. (5.29)
N0 n Eb k
(1≤i≤k)
AW GN Im Prinzip ist durch die Angabe der Decodiervorschrift δBO die Decodieraufgabe f¨ ur die bitweise Decodierung gel¨ ost. Allerdings wird aus der Gleichung (5.27) deutlich, dass der Aufwand an Additionen zur Berechnung der L-Werte proportional zu 2k ist. Dies macht in der Praxis eine genau Berechnung in der Regel unm¨ oglich, man greift daher auf approximative L¨osungsverfahren zur¨ uck.
142
5 Unabh¨ angigkeit
Decodierung des Wiederholungscodes Als einfaches, konkret berechenbares Beispiel betrachten wir den n-fachen Wiederholungscode: En : {±1} → {±1}n
(5.30)
u → (u, . . . , u).
(5.31)
Das Bit u wird also n-mal wiederholt. Der Coderaum C besteht aus genau zwei Codew¨ ortern, C = {c1 := (+1, . . . , +1), c−1 := (−1, . . . , −1)}. Daher erh¨ alt man als L-Wert: ⎤ ⎡
y−c1 2 exp − N0 n ⎢ ⎥ y − c1 2 − y − c−1 2 Eb k ⎥ =− = L(u|y) = ln ⎢ N0 n ⎣ ⎦
y−c−1 2 E k b exp − N0 n
n 4 N0 n Eb k i=1
yi .
Eb k
Dementsprechend erh¨ alt man als Entscheidungsfunktion: AW GN : Rn → {±1}, δBO
n yi . y→ signum
(5.32) (5.33)
i=1
Beispiel 5.26. Wir betrachten als ein konkretes Beispiel einen 5-fach Wiederholungscode und die Realisierung y = (0.2, −0.4, 0.5, −1.4, 0.8). Nach obiger Entscheidungsvorschrift erhalten wir AW GN (y) = signum(0.2 − 0.4 + 0.5 − 1.4 + 0.8) = signum(−0.3) = −1, δBO
wir w¨ urden uns also f¨ ur eine gesendete −1 entscheiden. Zum Vergleich betrachten wir eine Harddecision-Decodierung, bei der jeder empfangene Wert zun¨ achst auf +1 oder −1 gerundet wird: y = (0.2, −0.4, 0.5, −1.4, 0.8) → yˆ = (+1, −1, +1, −1, +1). Hier entscheidet man sich ebenfalls f¨ ur das Vorzeichen der Summe der Einy ) = +1. Es zeigt sich tr¨age, also f¨ ur den h¨ aufiger auftretenden Wert, δhart (ˆ bereits an diesem einfachen Beispiel, dass Hard- und Softdecodierung zu unterschiedlichen Ergebnissen f¨ uhren k¨ onnen. Der im Allgemeinen geringeren Fehlerwahrscheinlichkeit bei der Soft-Decodierung steht eine h¨ohere Komplexit¨ at gegen¨ uber. ♦
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
6.1 0-1-Gesetze Folgen von Zufallsvariablen Bevor wir uns mit den 0-1-Gesetzen besch¨ aftigen, wollen wir einige allgemeine Bemerkungen zu Folgen von Zufallsvariablen einf¨ ugen. Eine Folge (Xn ) von Zufallsvariablen ist gegeben durch einen Wahrscheinlichkeitsraum (Ω1 , F1 , P), einen Messraum (Ω2 , F2 ) und messbare Abbildungen Xn : Ω1 −→ Ω2 ,
n ∈ N.
Wir werden uns fast ausschließlich auf reelle Zufallsvariablen beschr¨anken, f¨ ur ur manche Begriffe ist es n¨ utzlich, eine Folge die also (Ω2 , F2 ) = (R, B) gilt. F¨ von Zufallsvariablen (Xn ) als eine einzige messbare Abbildung X = (X1 , X2 , . . .) : Ω −→ RN , X(ω) := (X1 (ω), X2 (ω), . . .), aufzufassen. Dazu erinnern wir an die Produkt-σ-Algebra B ⊗N auf RN , s. Definition 1.15: ∞ ∞
N ⊗N R, B . (R , B ) = i=1
Eine messbare Abbildung
i=1
X : Ω −→ RN
ist nichts anderes als eine Folge (Xn ) von reellen Zufallsvariablen. Ist X gegeben, so bilden die einzelnen Koordinatenfunktionen Xn := pn ◦ X, n ∈ N, eine Folge von Zufallsvariablen. Ist (Xn ) gegeben, so ist X = (X1 , X2 , . . .) nach Definition der Produkt-σ-Algebra eine messbare Abbildung in den RN . Schließlich wollen wir noch eine n¨ utzliche Sprechweise einf¨ uhren. Zwei Zufallsvariablen X und Y heißen identisch verteilt, wenn ihre Verteilungen gleich sind:
144
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
PX = PY . Wir schreiben daf¨ ur auch
d
X = Y, der Buchstabe d steht dabei f¨ ur das englische Wort f¨ ur Verteilung, distri” bution“. Diese Eigenschaft tritt in der Regel zusammen mit Unabh¨angigkeit auf. So sprechen wir z.B. von einer Folge (Xn ) unabh¨angiger und identisch verteilter Zufallsvariablen, wof¨ ur es in der englisch sprachigen Literatur die Abk¨ urzung i.i.d. (independent and identically distributed) gibt. Terminale Ereignisse F¨ ur das Grenzverhalten einer Folge reeller Zahlen (an ) spielen die ersten Terme keine Rolle. Genauer bedeutet dies, wenn wir eine zweite Folge (bn ) beur alle n ≥ n0 , so stimmen diese beiden Folgen trachten und es gilt an = bn f¨ bez¨ uglich aller Eigenschaften, die nur vom Langzeitverhalten abh¨angen, u ¨berein, wie z.B. Limes Superior, Limes Inferior, Grenzwert (wenn er existiert) oder Beschr¨ anktheit. Um eine a ur Ereignisse zu erhal¨hnliche Situation auch f¨ ten, definieren wir: Definition 6.1 (terminale σ-Algebra, Ereignisse, Funktion). (Xn ) eine Folge von Zufallsvariablen und Gn := σ(Xn , Xn+1 , . . .), dann heißt G∞ :=
∞
Ist
n ∈ N,
Gn
n=1
terminale σ-Algebra (von (Xn )) und jedes A ∈ G∞ terminales Ereignis. Ist eine numerische Funktion ¯ f :Ω→R ¯ so heißt f terminale Funktion. G∞ -B-messbar, Die Ereignisse der σ-Algebren Gn h¨ angen nur von den Zufallsvariablen Xn , Xn+1 , . . . ab. Entsprechend kann man sich die Ereignisse in G∞ so vorstellen, dass ihr Eintreten oder Nicht-Eintreten von der Ver¨anderung endlich vieler Xi nicht beeinflusst wird. Wir geben einige typische Beispiele terminaler Ereignisse: Beispiel 6.2. Ist (Xn ) eine Folge von Zufallsvariablen, dann ist , ∞ Xi konvergiert ein terminales Ereignis. i=1
6.1 0-1-Gesetze
Denn es ist n ∈ N.
∞
Xi konvergiert
=
i=1
∞
145
Xi konvergiert
∈ Gn f¨ ur alle
i=n
♦
Beispiel 6.3. Ist (Xn ) eine Folge unabh¨ angiger reeller Zufallsvariablen, so setzen wir n 1 Yn := Xi , n ∈ N. n i=1 ur Konvergenz Es sei A := { lim Yn = 0}. Nach dem Cauchy-Kriterium f¨ n→∞ k¨ onnen wir A f¨ ur jedes n ∈ N schreiben als: , ∞ ∞ 1 ∈ σ(Yn , Yn+1 , . . .). sup |Ym − Yr | ≤ A= k r,m≥l k=1 l=n
Daher ist A ein terminales Ereignis von (Yn ). Sind die (Xn ) zus¨atzlich integrierbar, so ist nach Lemma 5.20 auch (Xn − E(Xn )) unabh¨angig und , n 1 (Xi − E(Xi )) = 0 ein terminales Ereignis. lim n→∞ n i=1 Beispiel 6.4 (Limes Inferior, Superior). Ist (Xn ) eine Folge reeller Zufallsvariablen, dann sind lim sup Xi und lim inf Xi terminale Funktionen. i→∞
i→∞
Denn f¨ ur jedes c ∈ R gilt {lim sup Xi ≤ c} = {lim sup Xi ≤ c} ∈ Gn f¨ ur alle n ∈ N. i→∞
i→∞ i≥n
♦ Kolmogorovs 0-1-Gesetz Man spricht von einem 0-1-Gesetz, wenn die Wahrscheinlichkeit f¨ ur ein Ereignis 0 oder 1 ist: P(A) ∈ {0, 1}. Terminale Ereignisse haben diese Eigenschaft, wenn die Folge (Xn ) unabh¨ angig ist: angiTheorem 6.5 (Kolmogorovs 0-1-Gesetz). Ist (Xn ) eine Folge unabh¨ ger Zufallsvariablen, dann gilt: P(A) ∈ {0, 1} f¨ ur jedes A ∈ G∞ . ¯ fast sicher konstant. Außerdem ist jede terminale Funktion f : Ω → R
146
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
Beweis. Sei A ∈ G∞ . Wir wollen zeigen, dass A von sich selbst unabh¨angig ist, d.h. P(A ∩ A) = P(A)P(A), denn daraus folgt P(A) = 0 oder P(A) = 1. Wir verwenden das π-λ-Lemma. Sei D := {D ∈ F : P(A ∩ D) = P(A)P(D)} und Fn := σ(X1 , . . . , Xn ),
n ∈ N.
angig von Fn , und wegen A ∈ Gn+1 folgt Fn ⊂ D f¨ ur Dann ist Gn+1 unabh¨ ∞ alle n ∈ N. Da A := Fn ein π-System und D ein λ-System ist, folgt aus n=1
A ⊂ D auch σ(A) ⊂ D. Aus σ(Xn ) ⊂ A f¨ ur alle n ∈ N folgt Gn ⊂ σ(A) f¨ ur jedes n ∈ N und daher erst recht G∞ ⊂ σ(A). Insgesamt erhalten wir G∞ ⊂ σ(A) ⊂ D. Insbesondere folgt A ∈ D, was wir zeigen wollten. ¯ ein terminales Ist f eine terminale Funktion, so ist {f < c} f¨ ur jedes c ∈ R ¯ : P({f < Ereignis und daher P({f < c}) ∈ {0, 1}. Setzen wir α := sup{c ∈ R c}) = 0}, so folgt f = α fast sicher. Als Korollar erhalten wir den folgenden nach Borel benannten Spezialfall: angiger Korollar 6.6 (0-1-Gesetz von Borel). Ist (An ) eine Folge unabh¨ Ereignisse, so gilt: P(lim sup An ) ∈ {0, 1}. n→∞
Beweis. Setzen wir Xn := IAn , n ∈ N, so wissen wir aus Beispiel 6.4, dass lim sup Xn = lim sup IAn = Ilim sup An eine terminale Funktion ist. Insbesondere ist lim sup An = {Ilim sup An = 1} ∈ G∞ ein terminales Ereignis. Daher folgt die Behauptung aus Theorem 6.5. Es ist uns in den Beispielen 6.2 und 6.3 nicht schwer gefallen zu zeigen, dass die Ereignisse , n 1 (Xi − E(Xi )) = 0 (6.1) lim n→∞ n i=1 bzw.
∞
, Xi konvergiert
(6.2)
i=1
f¨ ur eine Folge unabh¨ angiger Zufallsvariablen terminal sind und daher nach dem 0-1-Gesetz von Kolmogorov 6.5 Wahrscheinlichkeit 0 oder 1 haben. Erheblich schwieriger ist es im Allgemeinen zu entscheiden, welcher von beiden F¨allen eintritt. F¨ ur das Ereignis (6.1) f¨ uhrt diese Fragestellung zum Gesetz der großen Zahlen, mit dem wir uns im n¨ achsten Abschnitt besch¨aftigen. F¨ ur das Ereignis (6.2) gibt das Drei-Reihen-Kriterium, das wir in Abschnitt 6.3 beweisen werden, eine vollst¨ andige Antwort.
6.1 0-1-Gesetze
147
Das Lemma von Borel-Cantelli Gelegentlich ist es leicht zu entscheiden, ob ein terminales Ereignis Wahrscheinlichkeit 0 oder 1 hat. Das Lemma von Borel-Cantelli, dessen ersten Teil, Lemma 3.5, wir bereits kennen, liefert ein Kriterium f¨ ur den Limes Superior von Ereignissen: Theorem 6.7 (Lemma von Borel-Cantelli). Ist (An ) eine Folge von Ereignissen, so gilt: Ist
∞
P(An ) < ∞, so folgt P(lim sup An ) = 0.
n=1
angig, so gilt auch die Umkehrung, oder ¨ aquiSind die Ereignisse (An ) unabh¨ valent dazu: Ist
∞
P(An ) = ∞, so folgt P(lim sup An ) = 1.
n=1
Beweis. Den ersten Teil, der ohne jede Annahme der Unabh¨angigkeit auskommt, haben wir bereits in Lemma 3.5 bewiesen. F¨ ur den zweiten Teil verwenden wir die Ungleichung 1 − x ≤ exp(−x) f¨ ur alle x ∈ R. Damit erhalten wir: m m m
c Ak = (1 − P(Ak )) ≤ exp − P(Ak ) . P k=n
k=n
k=n
Bilden wir den Limes m → ∞, so folgt aus der Divergenz von
∞
P(Ak )
k=n
P
∞
Ack
=0
k=n
und damit
P((lim sup An ) ) = P c
∞ ∞ n=1 k=n
Ack
≤
∞ n=1
P
∞
Ack
= 0.
k=n
Symmetrische Ereignisse und Hewitt-Savage 0-1-Gesetz Das 0-1-Gesetz von Kolmogorov setzt eine unabh¨angige Folge von Zufallsvariablen voraus. Sind die Zufallsvariablen zus¨ atzlich identisch verteilt, so gibt es ein (bez¨ uglich der Inklusion) gr¨ oßeres Mengensystem, dessen Ereignisse Wahrscheinlichkeit 0 oder 1 haben, die so genannten symmetrischen Ereignisse. Um diese einzuf¨ uhren, nennen wir eine
148
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
bijektive Abbildung π : N → N, mit π(n) = n f¨ ur fast alle n eine endliche Permutation. Bei einer endlichen Permutation werden endlich viele nat¨ urliche Zahlen permutiert, die u ¨brigen werden auf sich selbst abgebildet. Ist (Xn ) eine Folge von Zufallsvariablen, so setzen wir wieder Gn := σ(Xn , Xn+1 , . . .). Ist A ∈ G1 , so gilt ur ein B ∈ B⊗N . A = {(X1 , X2 , . . .) ∈ B} f¨ Ist π : N → N eine endliche Permutation, so sei Aπ := {(Xπ(1) , Xπ(2) , . . .) ∈ B}.
Definition 6.8 (symmetrisches Ereignis). Ist (Xn ) eine Folge von Zufallsvariablen, so heißt A ∈ G1 symmetrisch, wenn Aπ = A f¨ ur alle endlichen Permutationen π gilt. Intuitiv bedeutet dies, dass ein symmetrisches Ereignis durch die Permuur die Menge tation endlich vieler Xi nicht beeinflusst wird. Dies ist z.B. f¨ ur alle n ∈ N} unmittelbar einleuchtend. Diese Menge ist jedoch {Xn = 0 f¨ kein terminales Ereignis, denn sie h¨ angt von jedem einzelnen Xi ab. Es gibt also symmetrische Ereignisse, die nicht terminal sind. Umgekehrt gilt: Satz 6.9. Jedes terminale Ereignis ist symmetrisch: Ist (Xn ) eine Folge von Zufallsvariablen und A ∈ G∞ ein terminales Ereignis, so ist A symmetrisch. Beweis. Intuitiv ist die Behauptung klar: Ein Ereignis, das von endlich vielen Xi nicht beeinflusst wird, wird es auch nicht durch die Permutation dieser Xi . Formal gehen wir so vor: Ist A ∈ G∞ und π eine endliche Permutation mit π(n) = n f¨ ur alle n ≥ n0 , so gibt es wegen A ∈ Gn0 +1 ein B ∈ B⊗N mit A = {(Xn0 +1 , Xn0 +2 , . . .) ∈ B}. Daraus folgt A = {(X1 , X2 , . . .) ∈ Rn0 × B} = {(Xπ(1) , Xπ(2) , . . .) ∈ Rn0 × B} = Aπ , da π(n) = n f¨ ur alle n ≥ n0 .
F¨ ur den Beweis des 0-1-Gesetzes f¨ ur symmetrische Ereignisse ben¨otigen wir ein Approximationsresultat. Dazu bezeichnen wir f¨ ur zwei Mengen A und B A∆B := (B \ A) ∪ (A \ B) als symmetrische Differenz. Es ist x ∈ A∆B, wenn x in genau einer der beiden Mengen liegt.
6.1 0-1-Gesetze
149
Lemma 6.10. Es sei (Gn ) eine Folge von Sub-σ-Algebren mit G1 ⊂ G2 ⊂ . . . ∞ Gn . Dann gibt es zu jedem A ∈ σ(G) eine Folge (An ) aus G, so und G := n=1
dass P(A∆An ) −→ 0. Beweis. Wir setzen D := {A ∈ σ(G) : es gibt eine Folge (An ) aus G mit P(An ∆A) −→ 0}. D ist ein λ-System, welches das π-System G enth¨alt. Damit folgt nach dem π-λ-Lemma 1.20, dass σ(G) = D. Theorem 6.11 (0-1-Gesetz von Hewitt-Savage). Ist (Xn ) eine Folge unabh¨ angiger, identisch verteilter Zufallsvariablen und A ∈ G1 symmetrisch, so gilt: P(A) ∈ {0, 1}. Beweis. Zu A ∈ G1 und X := (X1 , X2 , . . .) gibt es ein B ∈ B⊗N , so dass A = {X ∈ B} und damit P(A) = PX (B). Zu der Folge B n × RN = {A × RN : A ∈ Bn }, n ∈ N, von Sub-σ-Algebren auf dem RN gibt es nach Lemma 6.10 eine Folge von Ereignissen Bn × RN ∈ Bn × RN , n ∈ N, so dass PX (B∆(Bn × RN )) −→ 0. Wir setzen An := {X ∈ Bn × RN } = {(X1 , . . . , Xn ) ∈ Bn } und betrachten die spezielle endliche Permutation, welche die ersten n und zweiten n nat¨ urlichen Zahlen vertauscht: πn : N → N, ⎧ ⎪ ⎨k + n πn (k) := k − n ⎪ ⎩ k
f¨ ur 1 ≤ k ≤ n, f¨ ur n + 1 ≤ k ≤ 2n, f¨ ur k ≥ 2n + 1.
Da die Folge (Xn ) identisch verteilt ist, haben X und (Xπ(n) ) die gleiche Verteilung. Daher gilt mit der Symmetrie von A: P(A∆An ) = PX (B∆(Bn × RN )) = P(Xπ(n) ) (B∆(Bn × RN )) = P({(Xπ(n) ) ∈ B}∆{(Xπ(n) ) ∈ (Bn × RN )}) = P({X ∈ B}∆{(Xπ(n) ) ∈ (Bn × RN )}) = P(A∆(An )π ). Daher folgt P(A∆An ) −→ 0 und P(A∆(An )π ) −→ 0, und somit auch P(A∆(An ∩ (An )π )) ≤ P(A∆An ) + P(A∆(An )π ) −→ 0. Insbesondere erhalten wir drei gegen P(A) konvergierende Folgen:
150
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
P(An ) → P(A),
P((An )π ) → P(A),
P(An ∩ (An )π ) → P(A).
Auf Grund unserer speziellen Wahl von π und der Unabh¨angigkeit von (Xn ) gilt: P(An ∩ (An )π ) = P({(X1 , . . . , Xn ) ∈ Bn } ∩ {(Xn+1 , . . . , X2n ) ∈ Bn }) = P({(X1 , . . . , Xn ) ∈ Bn }) · P({(Xn+1 , . . . , X2n ) ∈ Bn }) = P(An ) · P((An )π ). Im Limes n → ∞ erhalten wir P(A) = P(A)P(A), und daher P(A) ∈ {0, 1}.
6.2 Gesetze der großen Zahlen Werfen wir sehr oft eine faire M¨ unze, so rechnen wir intuitiv damit, dass mit großer Wahrscheinlichkeit etwa die H¨ alfte der Ergebnisse Kopf“ sein ” wird. Genauso erwarten wir, dass wir nach sehr vielen Versuchen in etwa einem Sechstel der W¨ urfe mit einem W¨ urfel die Zahl 1 w¨ urfeln. Wir werden in diesem Abschitt f¨ ur diese intuitiven Aussagen pr¨azise Formulierungen finden, die so genannten Gesetze der großen Zahlen. Die fundamentale Bedeutung dieser Aussagen ist nicht zuletzt dadurch begr¨ undet, dass sie die Grundlage f¨ ur die Methoden der mathematischen Statistik bilden, bei denen von relativen H¨aufigkeiten auf Wahrscheinlichkeiten geschlossen wird. angiger, Bernoulli-verteilter Zufallsvariablen mit Ist (Xn ) eine Folge unabh¨ ur alle Erfolgswahrscheinlichkeit p, also P(Xn = 1) = p, P(Xn = 0) = 1 − p f¨ n ∈ N, so stellt n Xi Sn := i=1
die Anzahl Erfolge in den ersten n Versuchen dar. Wir erwarten, dass die relative H¨ aufigkeit in irgendeinem Sinn gegen die Erfolgswahrscheinlichkeit konvergiert: Sn → p. n Da E(Xn ) = p f¨ ur alle n ∈ N, k¨ onnen wir dies umformulieren: 1 (Xi − E(Xi )) −→ 0. n i=1 n
Die Konvergenz kann stochastisch oder fast sicher gelten. Entsprechend vereinbaren wir:
6.2 Gesetze der großen Zahlen
151
Definition 6.12 (Gesetze der großen Zahlen). Es sei (Xn ) eine Folge integrierbarer reeller Zufallsvariablen. Wir vereinbaren, dass f¨ ur die Folge (Xn ) genau dann das schwache Gesetz der großen Zahlen gilt, wenn 1 P (Xi − E(Xi )) −→ 0, n i=1 n
und dass f¨ ur die Folge (Xn ) genau dann das starke Gesetz der großen Zahlen gilt, wenn n 1 (Xi − E(Xi )) −→ 0 fast sicher. n i=1 Auf Grund von Satz 4.14 erf¨ ullt eine Folge, die dem starken Gesetz gen¨ ugt, auch das schwache Gesetz der großen Zahlen. Ein schwaches Gesetz der großen Zahlen Wir werden im Folgenden verschiedene hinreichende Bedingungen f¨ ur eine Folge (Xn ) kennen lernen, die zur G¨ ultigkeit des schwachen oder starken Gesetzes der großen Zahlen f¨ uhren. Am leichtesten zu beweisen ist das folgende Resultat. Es ist eine unmittelbare Folgerung aus der TschebyschevUngleichung: Theorem 6.13 (Schwaches Gesetz der großen Zahlen). Es sei (Xn ) eine Folge integrierbarer, paarweise unkorrelierter reeller Zufallsvariablen. Ist n 1 V(Xi ) = 0, n→∞ n2 i=1
lim
(6.3)
so gilt f¨ ur (Xn ) das schwache Gesetz der großen Zahlen. Beweis. Aus (6.3) folgt insbesondere, dass alle Xi , i ∈ N, endliche Varianz haben. Mit der Tschebyschev-Ungleichung und der Formel von Bienaym´e 5.16(v) folgt f¨ ur jedes ε > 0: n n 1 1 1 (Xi − E(Xi )) ≥ ε ≤ 2 V (Xi − E(Xi )) P n ε n i=1 i=1 =
n 1 V(Xi ) −→ 0. n2 ε2 i=1
Die Bedingung (6.3) wirkt auf den ersten Blick vielleicht etwas unhandlich. Wir geben im nachfolgenden Korollar zwei Alternativen an.
152
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
Korollar 6.14. Ist (Xn ) eine Folge integrierbarer, paarweise unkorrelierter reeller Zufallsvariablen, so gen¨ ugt (Xn ) dem schwachen Gesetz der großen Zahlen, wenn eine der folgenden Bedingungen erf¨ ullt ist: (i) Die Varianzen sind gleichm¨ aßig beschr¨ ankt, d.h. es gibt ein c > 0 mit ur alle n ∈ N. V(Xn ) ≤ c < ∞ f¨ (ii) Die zentrierten 4-ten Momente sind gleichm¨ aßig beschr¨ ankt, d.h. es gibt ur alle n ∈ N. ein c > 0 mit E[(Xn − E(Xn ))4 ] ≤ c < ∞ f¨ Beweis. Sind die Varianzen gleichm¨ aßig durch c > 0 beschr¨ankt, so folgt: n 1 1 V(Xi ) ≤ 2 · n · c −→ 0. 2 n i=1 n
Die zweite Bedingung ist ein Spezialfall der ersten: Sind die zentrierten 4-ten Momente durch c > 0 beschr¨ ankt, so folgt nach der Ungleichung von H¨older 2.26 f¨ ur p = q = 2: 1
1
V(Xn ) = E[(Xn − E(Xn ))2 · 1] ≤ (E[(Xn − E(Xn ))4 ]) 2 ≤ c 2 , 1
und es folgt die Beschr¨ ankung der Varianzen durch c 2 .
Beispiel 6.15. Es sei (Xn ) eine Folge integrierbarer, paarweise unkorrelierter ur alle n ∈ N. Setzen reeller Zufallsvariablen mit V(Xn ) ≤ c und E(Xn ) = m f¨ n Xi , so folgt aus dem schwachen Gesetz der großen Zahlen 6.13, wir Sn := i=1
dass
Sn P −→ m. n Das arithmetische Mittel von solchen Zufallsvariablen liegt also f¨ ur große n mit hoher Wahrscheinlichkeit nahe ihrem gemeinsamen Erwartungswert m. ♦
Beispiel 6.16 (Bernoulli-Experiment). Greifen wir unser erstes Beispiel wieder angiger, B(1, p)-verteilter Zufallsauf und betrachten eine Folge (Xn ) unabh¨ n ur alle n ∈ N. Sn := Xi ist variablen, P(Xn = 1) = p, P(Xn = 0) = 1 − p f¨ i=1
die Anzahl Erfolge in n Versuchen, f¨ ur alle n ∈ N, folgt wiederum
Sn n
die relative H¨aufigkeit. Da E(Xn ) = p
Sn P −→ p. n Die relative H¨ aufigkeit von Erfolgen liegt also f¨ ur große n mit hoher Wahrscheinlichkeit nahe der Erfolgswahrscheinlichkeit p. ♦
6.2 Gesetze der großen Zahlen
153
Wir fassen die intuitive Bedeutung des schwachen Gesetzes der großen Zahlen noch einmal zusammen. Betrachten wir f¨ ur ein großes n die n-fache, unabh¨ angige Wiederholung X1 , . . . , Xn eines Zufallsexperimentes als eine Durchn) in f¨ uhrung, so wird bei einem großen Anteil der Durchf¨ uhrungen Sn −E(S n der N¨ ahe von 0 sein. Intuitiv erwarten wir mehr. F¨ uhren wir ein BernoulliExperiment, z.B. den Wurf einer M¨ unze, immer wieder durch, so erwarten wir, dass die relative H¨ aufigkeit des Ereignisses Kopf“ im gew¨ohnlichen Sinn ei” ner Folge reeller Zahlen gegen die Erfolgswahrscheinlichkeit p = 12 konvergiert, mit anderen Worten: Sn −→p fast sicher. n Aussagen diesen Typs liefern die starken Gesetze der großen Zahlen, mit deren Herleitung wir jetzt beginnen. Zwei n¨ utzliche Lemmata aus der Analysis F¨ ur die Beweise der starken Gesetze der großen Zahlen ben¨otigen wir zwei Lemmata aus der Analysis u ¨ber das Konvergenzverhalten reeller Zahlenfolgen. Ist (an ) eine konvergente Folge reeller Zahlen mit Grenzwert a, so konvergiert auch das arithmetische Mittel gegen a: 1 ai −→ a. n i=1 n
Etwas allgemeiner gilt: Lemma 6.17 (Ces` aros Lemma). Ist (an ) eine konvergente Folge reeller Zahlen mit an → a ∈ R und (bn ) eine Folge positiver reeller Zahlen mit bn ↑ ∞, so gilt mit a0 := b0 := 0: n 1 (bi − bi−1 )ai−1 −→ a. bn i=1
Beweis. Zu ε > 0 gibt es ein N ∈ N, so dass a + ε > an > a − ε f¨ ur alle n ≥ N. Setzen wir cn :=
1 bn
n
(bi −bi−1 )ai−1 , so folgt f¨ ur den Limes Inferior von (cn ):
i=1
lim inf cn ≥ lim inf
N 1 bn − b N (bi − bi−1 )ai−1 + (a − ε) = a − ε, bn i=1 bn
und analog f¨ ur den Limes Superior N 1 bn − b N lim sup cn ≤ lim sup (bi − bi−1 )ai−1 + (a + ε) = a + ε. bn i=1 bn
154
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
Da beide Absch¨ atzungen f¨ ur jedes ε > 0 gelten, folgt insgesamt lim inf cn = lim sup cn = a. Als Anwendung zeigen wir das Lemma von Kronecker. Es erlaubt, Aussagen u ur Behauptungen u ¨ber Konvergenz von Reihen f¨ ¨ber die Konvergenz von Mittelwerten zu verwenden. Lemma 6.18 (Lemma von Kronecker). Es sei (xn ) eine Folge reeller Zahlen und (bn ) eine Folge positiver Zahlen mit bn ↑ ∞. Ist die Reihe
n ∞ xn 1 konvergent, so folgt xi −→ 0. b bn i=1 n=1 n
Beweis. Wir setzen an :=
n i=1
xi bi ,
n ∈ N, a0 := 0, so dass nach Voraussetzung
ein a ∈ R mit an → a existiert. Aus an − an−1 = n i=1
xi =
n
bi (ai − ai−1 ) = bn an −
i=1
xn bn
n
folgt
(bi − bi−1 )ai−1 .
i=1
aros Lemma 6.17: Multiplizieren wir beide Seiten mit b−1 n , so folgt mit Ces` n 1 xi −→ a − a = 0. bn i=1
Das Varianzkriterium f¨ ur Konvergenz von Reihen F¨ ur den Beweis des schwachen Gesetzes der großen Zahlen 6.13 gen¨ ugte im Wesentlichen die Tschebyschev-Ungleichung. F¨ ur das starke Gesetz der großen Zahlen ben¨ otigen wir eine sch¨ arfere Ungleichung f¨ ur die Partialsummen n Xi . Dieser Ungleichungstyp heißt Maximalungleichung, weil er eine Sn := i=1
Aussage u ¨ber das Maximum max1≤i≤n |Si | enth¨alt. Es ist nahe liegend, dass solche Aussagen bei der Untersuchung des Konvergenzverhaltens von Reihen ∞ Xi sehr n¨ utzlich sind. i=1
Theorem 6.19 (Maximalungleichung von Kolmogorov). Es seien X1 , . . . , Xn unabh¨ angige reelle Zufallsvariablen mit E(Xi ) = 0 und k V(Xi ) < ∞ f¨ ur alle 1 ≤ i ≤ n. Setzen wir Sk := Xi f¨ ur k ≤ n, so gilt f¨ ur i=1
jedes ε > 0:
P
max |Sk | ≥ ε
1≤k≤n
≤
1 E(Sn2 ). ε2
6.2 Gesetze der großen Zahlen
155
Beweis. Wir setzen A0 := ∅ und definieren induktiv Ak := { max |Sl | ≥ ε} \ Ak−1 , 1≤l≤k
k = 1, . . . , n.
Offensichtlich sind die Ak paarweise disjunkt. Wir haben sie gerade deswegen so gew¨ ahlt, damit sie max1≤k≤n |Sk | disjunkt zerlegen: n
Ak = { max |Sk | ≥ ε}. 1≤k≤n
k=1
F¨ ur jedes k = 1, . . . , n sind die Zufallsvariablen Sk IAk und Sn −Sk unabh¨angig, da die Xi unabh¨angig sind und Sk IAk σ(X1 , . . . , Xk )-messbar ist, w¨ahrend Sn − Sk σ(Xk+1 , . . . , Xn )-messbar ist. Daher gilt mit dem Multiplikationssatz 5.13 f¨ ur jedes k ≤ n: E(Sk IAk (Sn − Sk )) = E(Sk IAk )E(Sn − Sk ) = 0, da nach Voraussetzung E(Sn − Sk ) = 0. Es folgt: E(Sn2 ) ≥ = ≥ = ≥
n k=1 n k=1 n k=1 n k=1 n
E(Sn2 IAk ) E((Sk + (Sn − Sk ))2 IAk ) E(Sk2 IAk ) + 2E(Sk IAk (Sn − Sk )) E(Sk2 IAk ) ε2 P(Ak )
k=1
= ε2 P( max |Sk | ≥ ε). 1≤k≤n
Als Anwendung der Maximalungleichung von Kolmogorov zeigen wir ein hinreichendes Kriterium f¨ ur die Konvergenz einer Reihe von Zufallsvariablen. Ein hinreichendes und notwendiges Kriterium werden wir im n¨achsten Abschnitt ∞ Xn konvergiert } ein terminales Erherleiten. Wir erinnern daran, dass { n=1
eignis ist und daher nach dem 0-1-Gesetz von Kolmogorov 6.5 mit Wahrscheinlichkeit 0 oder 1 eintrifft. In allen nachfolgenden Resultaten dieses Kapitels ∞ Xn Konvergenz gegen einen bedeutet fast sichere Konvergenz einer Reihe n=1
endlichen Grenzwert, d.h. es gibt eine Zufallsvariable Z mit
156
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen ∞
Xn −→ Z fast sicher und P(|Z| < ∞) = 1.
n=1
angiger reeller Zufallsvariablen mit Satz 6.20. Es sei (Xn ) eine Folge unabh¨ ur alle n ∈ N. E(Xn ) = 0 f¨ Ist
∞
E(Xn2 ) < ∞, so folgt:
n=1
∞
Xn konvergiert fast sicher.
n=1
Beweis. Es gen¨ ugt zu zeigen, dass Sn :=
n
Xi , n ∈ N, fast sicher eine
i=1
Cauchy-Folge ist. Insbesondere ist der Grenzwert dann fast sicher endlich. Aus der Maximalungleichung 6.19 erhalten wir f¨ ur fixiertes k und m: m 1 1 P max |Sn − Sk | ≥ ε ≤ 2 E((Sm − Sk )2 ) = 2 E(Xn2 ), k≤n≤m ε ε n=k+1
also im Limes m → ∞ ∞ 1 P sup |Sn − Sk | ≥ ε ≤ 2 E(Xn2 ). ε n≥k n=k+1
P
Daraus folgt supn≥k |Sn − Sk | −→ 0 f¨ ur k → ∞. Nach Satz 4.16 gibt es ur j → ∞ fast sicher eine Teilfolge (kj ), so dass supn≥kj |Sn − Skj | −→ 0 f¨ konvergiert. Da das Supremum in k jedoch monoton fallend ist, gilt die fast sichere Konvergenz f¨ ur die gesamte Folge. Damit ist (Sn ) eine Cauchy-Folge, was zu zeigen war. Ein starkes Gesetz der großen Zahlen Wir haben bereits darauf hingewiesen, dass das Lemma von Kronecker 6.18 es erm¨ oglicht, Aussagen u ¨ber Konvergenz von Reihen in Aussagen zur Konvergenz von Mittelwerten zu verwandeln. Genau dies werden wir mit dem gerade bewiesenen Konvergenzkriterium durchf¨ uhren und erhalten so eine Version des starken Gesetzes der großen Zahlen: Theorem 6.21 (Starkes Gesetz der großen Zahlen). Sei (Xn ) eine Folur alle n ∈ N. Gilt ge unabh¨ angiger reeller Zufallsvariablen mit V(Xn ) < ∞ f¨ f¨ ur eine Folge (bn ) positiver, reeller Zahlen mit bn ↑ ∞ ∞ V(Xn ) < ∞, b2n n=1
so folgt mit Sn :=
n i=1
Xi , n ∈ N:
6.2 Gesetze der großen Zahlen
Sn − E(Sn ) →0 bn
157
fast sicher.
Ist speziell bn = n f¨ ur alle n ∈ N, so gilt f¨ ur (Xn ) das starke Gesetz der großen Zahlen. Beweis. Nach Voraussetzung ist ∞ ∞ Xn − E(Xn ) V(Xn ) V < ∞, = b b2n n n=1 n=1 also nach Satz 6.20
∞ Xn −E(Xn ) n=1
bn
fast sicher konvergent. Aus dem Lemma
von Kronecker 6.18 folgt: n Sn − E(Sn ) 1 = [Xi − E(Xi )] −→ 0 fast sicher. bn bn i=1
Wie beim schwachen Gesetz der großen Zahlen geben wir auch beim starken Gesetz im folgenden Korollar Bedingungen an, unter denen die so genannte Kolmogorov-Bedingung
∞ V(Xn ) <∞ n2 n=1
(6.4)
mit bn = n f¨ ur alle n ∈ N und damit das starke Gesetz der großen Zahlen gilt. Korollar 6.22. Ist (Xn ) eine Folge unabh¨ angiger reeller Zufallsvariablen mit ur alle n ∈ N, so gen¨ ugt (Xn ) dem starken Gesetz der großen E(|Xn |) < ∞ f¨ Zahlen, wenn eine der folgenden Bedingungen erf¨ ullt ist: (i) Die Varianzen sind gleichm¨ aßig beschr¨ ankt, d.h. es gibt ein c > 0 mit ur alle n ∈ N. V(Xn ) ≤ c < ∞ f¨ (ii) Die zentralen 4-ten Momente sind gleichm¨ aßig beschr¨ ankt, d.h. es gibt ein ur alle n ∈ N. c > 0 mit E[(Xn − E(Xn ))4 ] ≤ c < ∞ f¨ Beweis. Da
∞ V(Xn ) cπ 2 < ∞, ≤ 2 n 6 n=1
ist die Kolmogorov-Bedingung im ersten Fall erf¨ ullt. Der zweite ist, wie schon in Korollar 6.14, ein Spezialfall des ersten Falles. Beispiel 6.23. Ist (Xn ) eine Folge unabh¨ angiger reeller Zufallsvariablen mit ur alle n ∈ N, so folgt Erwartungswert E(Xn ) = m und Varianz V(Xn ) = σ 2 f¨ Sn −→ m fast sicher. n
158
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
Sind die (Xn ) z.B. B(1, p)-verteilt, so erhalten wir Sn −→ p fast sicher. n Diese Aussage entspricht unserer Intuition: Die relativen H¨aufigkeiten konvergieren fast sicher gegen die Erfolgswahrscheinlichkeit p. ♦ Aus der Kolmogorov-Bedingung (6.4) folgt mit der Absch¨atzung n k n 1 1 V(Xi ) V(X ) ≤ V(X ) + i i n2 i=1 n2 i=1 i2 i=k+1
auch die im schwachen Gesetz der großen Zahlen 6.13 geforderte Bedingung n 1 V(Xi ) −→ 0. n2 i=1
Jede Folge (Xn ), die der Kolmogorov-Bedingung gen¨ ugt, erf¨ ullt somit neben dem starken Gesetz auch das schwache Gesetz der großen Zahlen. Nat¨ urlich k¨ onnen wir dies ebenfalls aus Satz 4.14 folgern. Dennoch folgt 6.13 nicht vollst¨ andig aus 6.21, da wir in Theorem 6.13 nur paarweise Unkorreliertheit und nicht Unabh¨angigkeit der Zufallsvariablen vorausgesetzt haben. Man kann sich berechtigter Weise fragen, ob dieser doch recht kleine Unterschied es rechtfertigt, gleichberechtigt von schwachen und starken Gesetzen der großen Zahlen zu sprechen. Es gibt jedoch Varianten des schwachen Gesetzes der großen Zahlen, die mit viel schw¨ acheren Voraussetzungen, z.B. ohne Integrierbarkeit, auskommen. Ein starkes Gesetz f¨ ur identisch verteilte Zufallsgr¨ oßen Wir haben im letzten Beispiel 6.23 eine unabh¨angige Folge (Xn ) reeller Zufallsvariablen betrachtet, deren erste und zweite Momente gleich sind. Gehen wir einen Schritt weiter und verlangen, dass (Xn ) unabh¨angig und identisch verteilt ist, so ist es m¨ oglich, ein starkes Gesetz der großen Zahlen herzuleiten, das mit einer Voraussetzung an die Erwartungswerte auskommt. Insbesondere stellt es keine Bedingungen an die h¨oheren Momente, wie z.B. die Kolmogorov-Bedingung (6.4). F¨ ur eine Folge (Xn ) identisch verteilter Zufallsvariablen stimmen insbesondere alle Momente u ugt es, ¨berein, daher gen¨ Bedingungen jeweils an X1 zu stellen. Theorem 6.24 (Starkes Gesetz der großen Zahlen f¨ ur identisch verangiger, identisch verteilte Zufallsvariablen). Ist (Xn ) eine Folge unabh¨ ur (Xn ) das starke Gesetz teilter Zufallsvariablen mit E(|X1 |) < ∞, so gilt f¨ der großen Zahlen, d.h. mit m := E(X1 ) folgt: 1 Xi −→ m fast sicher. n i=1 n
Der Beweis dieses Theorems bedarf einiger Vorbereitungen.
6.2 Gesetze der großen Zahlen
159
Gestutzte Zufallsvariablen Ist (Xn ) eine Folge reeller Zufallsvariablen, so betrachtet man Yn := Xn I{|Xn |≤n} ,
n ∈ N.
Man schneidet (Xn ) also im Wertebereich u ¨ber dem Intervall [−n, n] ab und asst. Insbesondere folgt |Yn | ≤ n, setzt Yn gleich 0, wenn Xn diesen Streifen verl¨ Yn ist also (im Allgemeinen im Gegensatz zu Xn ) beschr¨ankt. Andere wichtige achste Lemma zeigt. Eigenschaften erbt“ Yn von Xn , wie das n¨ ” Lemma 6.25. Es sei (Xn ) eine unabh¨ angige und identisch verteilte Folge reeller Zufallsvariablen und E(|X1 |) < ∞. Wir setzen m := E(X1 ) und Yn := Xn I{|Xn |≤n} ,
n ∈ N.
Dann gilt: (i) E(Yn ) −→ m. ur fast alle n) = 1. (ii) P(Xn = Yn f¨ ullt die Kolmogorov-Bedingung: (iii) (Yn ) erf¨ ∞ V(Yn ) < ∞. n2 n=1
Beweis. (i) F¨ ur den Beweis f¨ uhren wir eine dritte Folge (Zn ) ein: Zn := X1 I{|X1 |≤n} ,
n ∈ N.
Da X1 und Xn f¨ ur alle n ∈ N die gleiche Verteilung haben, gilt dies auch f¨ ur Zn und Yn , insbesondere folgt E(Zn ) = E(Yn ). Andererseits gilt ur alle n ∈ N und |Zn | ≤ X1 f¨ Zn −→ X1
fast sicher.
Daher folgt aus dem Satz von der dominierten Konvergenz: E(Yn ) = E(Zn ) −→ m. (ii) Wie so oft bei Aussagen u ¨ber einen Limes Inferior oder Superior, verwenden wir das Lemma von Borel-Cantelli. Zun¨achst erinnern wir an eine Formel f¨ ur den Erwartungswert einer nicht-negativen Zufallsvariablen aus der Maßtheorie. Wir haben in Beispiel 2.25 gezeigt, dass f¨ ur X≥0 ∞ E(X) = XdP = P(X ≥ x)dx 0
gilt. Nach Definition der Folge (Yn ) folgt daher:
160
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen ∞
P(Xn = Yn ) =
n=1
∞
∞
P(|Xn | > n) =
n=1 ∞
P(|X1 | > n)
n=1
P(|X1 | ≥ x)dx = E(|X1 |) < ∞.
≤ 0
Damit folgt nach dem Lemma von Borel-Cantelli: P(lim inf{Xn = Yn }) = 1 − P(lim sup{Xn = Yn }) = 1 − 0 = 1. (iii) F¨ ur jedes n ≥ 1 ist 1 2 =2 ≤ 2 n n(n + 1) und daher
1 1 − n n+1
1 2 ≤ . n2 k
n≥k
Damit erhalten wir ∞ |X1 |2 I{|X1 |≤n} = n2 n=1
n≥1∨|X1 |
|X1 |2 2|X1 |2 ≤ 2|X1 |. ≤ 2 n 1 ∨ |X1 |
Es folgt die Kolmogorov-Bedingung: ∞ ∞ V(Yn ) E(Yn2 ) ≤ n2 n2 n=1 n=1
=
∞ E(|X1 |2 I{|X1 |≤n} ) ≤ 2E(|X1 |) < ∞. n2 n=1
Mit Lemma 6.25 ist der Beweis des starken Gesetzes der großen Zahlen f¨ ur identisch verteilte Zufallsvariablen nicht mehr schwierig: Beweis (des Theorems 6.24). Wir bezeichnen die gestutzten Zufallsvariablen wieder mit Yn = Xn I{|Xn |≤n} , n ∈ N, und die Folge der Partialsummen mit n Sn := Xi , n ∈ N. Wegen Lemma 6.25(ii) gen¨ ugt es zu zeigen, dass i=1
1 Yi −→ m fast sicher. n i=1 n
Dazu schreiben wir Yi = E(Yi ) + (Yi − E(Yi )) und erhalten:
6.2 Gesetze der großen Zahlen
161
1 1 1 Yi = E(Yi ) + (Yi − E(Yi )). n i=1 n i=1 n i=1 n
n
n
Da nach Lemma 6.25(i) E(Yn ) → m, konvergiert die erste Summe auf der rechten Seite nach Ces`aros Lemma 6.17 gegen m. Die zweite Summe konvergiert fast sicher gegen 0, da wir wegen Lemma 6.25(iii) das starke Gesetz der großen Zahlen 6.21 anwenden k¨ onnen. Insgesamt folgt: 1 Yi −→ m fast sicher. n i=1 n
Wir haben im starken Gesetz der großen Zahlen (Theorem 6.24) ur den E(|X1 |) < ∞ vorausgesetzt. Als Korollar erhalten wir eine Aussage f¨ Fall E(X1 ) = E(|X1 |) = ∞: Korollar 6.26. Ist (Xn ) eine Folge unabh¨ angiger, identisch verteilter Zufallsvariablen mit E(X1− ) < ∞ und E(X1+ ) = ∞, also E(X1 ) = ∞, so gilt: 1 Xi −→ ∞ fast sicher. n i=1 n
Beweis. Nach dem starken Gesetz der großen Zahlen gilt 1 − X −→ E(X1− ) fast sicher, n i=1 i n
so dass wir ohne Einschr¨ ankung X1 = X1+ ≥ 0 annehmen k¨onnen. Wir definieren f¨ ur zun¨ achst fest gew¨ ahltes k ∈ N: Zn(k) := Xn I{Xn ≤k} ,
n ∈ N.
(k)
(k)
ur alle n ∈ N k¨ onnen wir auf (Zn ) das starke Gesetz Wegen Zn ≤ k f¨ der großen Zahlen anwenden und erhalten f¨ ur jedes k ∈ N: 1 (k) 1 (k) Xi ≥ Z −→ E(Z1 ) fast sicher. n i=1 n i=1 i n→∞ n
(k)
n
(k)
(6.5)
Jetzt gilt Z1 ↑ X1 (als Folge in k) und Z1 ≤ X1 f¨ ur alle k ∈ N, so (k) dass mit dem Satz von der dominierten Konvergenz folgt: E(Z1 ) → ur k → ∞. Betrachten wir in (6.5) den Limes k → ∞, so folgt E(X1 ) = ∞ f¨ die Behauptung.
162
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
6.3 Das Drei-Reihen-Theorem Wir kennen aus Satz 6.20 ein hinreichendes Kriterium f¨ ur die Konvergenz einer Reihe von unabh¨ angigen Zufallsvariablen. Das nachfolgende Drei-ReihenTheorem gibt ein notwendiges und hinreichendes Kriterium f¨ ur die Konver∞ Xn und charakterisiert damit vollst¨andig das Konvergenz einer Reihe n=1
genzverhalten solcher Reihen. F¨ ur den Beweis ben¨otigen wir: Lemma 6.27. Es sei (Xn ) eine Folge unabh¨ angiger, reeller Zufallsvariablen n ' Xi und sn := V(Sn ), n ∈ N. Gibt es ein K > 0 mit E(Xn ) = 0, Sn := i=1
mit |Xn | ≤ K f¨ ur alle n ∈ N und gilt sn → ∞, so folgt f¨ ur alle x, y ∈ R, x < y:
Sn lim P x < ≤y n→∞ sn
1 =√ 2π
y
2 t exp − dt. 2
x
Beweis. Dieses Lemma ist eine Anwendung des zentralen Grenzwertsatzes, das wir im n¨ achsten Kapitel, Satz 7.40(ii), beweisen werden. An dieser Stelle sei nur bemerkt, dass auf der rechten Seite der Gleichung P(x < χ ≤ y) f¨ ur eine standardnormalverteilte Zufallsvariable χ steht. Theorem 6.28 (Drei-Reihen-Kriterium). Es sei (Xn ) eine Folge un(c) abh¨ angiger reeller Zufallsvariablen. F¨ ur c > 0 setzen wir Xn := Xn I{|Xn |≤c} . ∞ Xn konvergiert genau dann fast sicher, wenn f¨ ur ein c > 0 (und Die Reihe n=1
damit f¨ ur alle c > 0) gilt: ∞
P(|Xn | > c) < ∞,
n=1
∞
V(Xn(c) ) < ∞, und
n=1
∞
E(Xn(c) ) konvergiert f.s.
n=1
(6.6) Beweis. Wir beginnen mit dem hinreichenden Teil und setzen die Konvergenz der drei Reihen (6.6) voraus. Als erstes zeigen wir mit dem bereits vertrau∞ (c) Xn zu ten Borel-Cantelli-Argument, dass es gen¨ ugt, die Konvergenz von n=1
zeigen. Nach Voraussetzung ist ∞
P(Xn = Xn(c) ) =
n=1
∞
P(|Xn | > c) < ∞.
n=1
Daher folgt aus dem Lemma von Borel-Cantelli, dass ur fast alle n) = 1 − P(lim sup{Xn = Xn(c) }) = 1. P(Xn = Xn(c) f¨ Aus der Voraussetzung
∞ n=1
(c)
V(Xn ) < ∞ folgt mit Satz 6.20, dass
6.3 Das Drei-Reihen-Theorem ∞
163
[Xn(c) − E(Xn(c) )] fast sicher konvergiert.
n=1 ∞
Mit der Konvergenz von
(c)
E(Xn ) folgt die fast sichere Konvergenz von
n=1
∞
(c) Xn .
n=1
∞
Sei nun umgekehrt
Xn fast sicher konvergent und c > 0 gegeben.
n=1
ur alle Daraus folgt Xn −→ 0 fast sicher, und daher |Xn | ≤ c fast sicher f¨ (c) n ≥ n0 . Dies bedeutet aber Xn = Xn fast sicher f¨ ur alle n ≥ n0 . Mit anderen Worten, P(lim inf{Xn = Xn(c) }) = 1. Daraus folgt einerseits, dass auch
∞
(c)
Xn fast sicher konvergiert. Andererseits
n=1
∞
folgt mit dem Lemma von Borel-Cantelli
P(|Xn | > c) < ∞.
n=1
Die Konvergenz der beiden u ¨brigen Reihen zeigen wir durch einen Widerspruchsbeweis. Dazu bezeichnen wir Sn(c) :=
n
3 (c)
Xi , mn(c) := E(Sn(c) ), sn(c) :=
(c)
V(Sn ), n ∈ N,
i=1 (c)
und nehmen an, es gelte sn −→ ∞. Wegen |Xn(c) − E(Xn(c) )| ≤ 2c f¨ ur alle n ∈ N folgt aus Lemma 6.27 f¨ ur x, y ∈ R und x < y:
(c)
lim P x <
n→∞
(c)
S n − mn (c)
sn
≤y
1 =√ 2π
y
t2 exp − 2
(c) Sn (c)
sn
dt > 0.
(6.7)
x
Andererseits folgt aus der fast sicheren Konvergenz von ∞, dass
∞
(c)
(c)
Xn und sn →
n=1
→ 0 fast sicher, und daher mit Satz 4.14 erst recht stochastisch: S (c) n lim P (c) ≥ ε = 0 n→∞ sn
f¨ ur jedes ε > 0.
(6.8)
Aus (6.7) und (6.8) folgt, dass es zu jedem ε > 0 und x < y ein n(ε,x,y) ∈ N gibt, so dass (mit P(A ∩ B c ) ≥ P(A) − P(B)):
164
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
S (c) n P x< ≤ y, (c) < ε (c) sn sn (c) (c) S (c) S n − mn n ≥P x< ur alle n ≥ n(ε,x,y) . ≤ y − P (c) ≥ ε > 0 f¨ (c) sn sn
(c)
(c)
S n − mn
Damit ist das Ereignis auf der linken Seite der Ungleichung nicht leer, so dass (c) mn gilt: f¨ ur die reelle Folge (c) sn
(c)
x−ε<−
mn
(c)
sn
≤ y + ε f¨ ur alle n ≥ n(ε,x,y) .
F¨ ur die (ε, x, y)-Tripel (1, 1, 2) und (1, 4, 5) folgt somit: (c)
0<−
mn
(c)
sn
(c)
≤ 3 und 3 < −
mn
(c)
sn
≤ 6 f¨ ur alle n ≥ max{n(1,1,2) , n(1,4,5) },
was nat¨ urlich absurd ist. Damit ist die Konvergenz von
∞
(c)
V(Xn ) gezeigt.
n=1
Aus Satz 6.20 folgt wiederum die fast sichere Konvergenz von ∞ (c) (c) (Xn − E(Xn )), aus der zusammen mit der fast sicheren Konvergenz n=1
von
∞
(c)
Xn schließlich die Konvergenz von
n=1
∞
(c)
E(Xn ) folgt.
n=1
Ein Kriterium f¨ ur nicht-negative Zufallsvariablen Als Anwendung des Drei-Reihen-Theorems zeigen wir, wie f¨ ur den Fall nichtnegativer Zufallsvariablen aus drei Reihen eine einzige wird: Korollar 6.29. Es sei (Xn ) eine unabh¨ angige Folge reeller Zufallsvariablen ∞ ur alle n ∈ N. Dann ist Xn < ∞ fast sicher genau dann, mit Xn ≥ 0 f¨ n=1 wenn ∞ E(Xn ∧ 1) < ∞. n=1
Beweis. Setzen wir
∞
Xn < ∞ voraus, so folgt insbesondere
n=1
n=1
und damit aus dem Drei-Reihen-Theorem 6.28: ∞ n=1
E(Xn ∧ 1)(1) =
∞
∞ n=1
E(Xn ∧ 1) < ∞.
Xn ∧ 1 < ∞
6.4 Anwendung Informationstheorie: Datenkompression
Sei nun Yn := Xn ∧ 1, n ∈ N, und
165
∞
E(Yn ) < ∞ vorausgesetzt. Dann folgt ∞ aus dem Satz von der monotonen Konvergenz E Yn < ∞, also n=1
∞
insbesondere
n=1
Yn < ∞ fast sicher. Aus der Zerlegung
n=1 ∞
I{Xn >1} +
n=1
folgt, dass ∞
∞
Xn I{Xn ≤1} =
n=1
∞ n=1
∞
Yn < ∞
fast sicher
n=1
I{Xn >1} fast sicher endlich ist, d.h. die Reihen
∞
Yn und
n=1
Xn unterscheiden sich fast sicher in h¨ ochstens endlich vielen Termen. Da-
n=1
her gilt auch
∞
Xn < ∞ fast sicher.
n=1
6.4 Anwendung Informationstheorie: Datenkompression Eine der klassischen Aufgaben der Informationstheorie ist die Quellcodierung. Ihr Ziel besteht darin, eine Folge von zu u ¨bertragenden Zeichen so zu reduzie¨ ren, dass die eigentliche Ubertragung m¨ oglichst effektiv, z.B. zeit- und energiesparend, vorgenommen werden kann. Zur Einordnung der Quellcodierung in die digitale Nachrichten¨ ubertragung verweisen wir auf Abbildung 5.1 bzw. Abschnitt 5.4. Wir wollen im Folgenden zeigen, wie das Gesetz der großen Zahlen zu einer effektiven Quellcodierung f¨ uhren kann. Formal betrachten wir dazu eine beliebige endliche Menge A, die als Alphabet bezeichnet wird. Z.B. k¨onnte A = {a, b, c, . . . , z} sein. Jedes Element x(n) = (x1 , . . . , xn ) ∈ An ,
n ∈ N,
¨ heißt ein Wort der L¨ ange n. Der Ubertragungskanal kennt die zu u ¨bertragenden W¨ orter im Allgemeinen nicht, sondern muss jedes beliebige Wort gleich gut u onnen. Daher gibt man die zu u ¨bertragen k¨ ¨bertragenden W¨orter nicht deterministisch vor, sondern l¨ asst sie zuf¨ allig entstehen. Dazu betrachten wir n identisch verteilte A-wertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) X(n) = (X1 , . . . , Xn ) : Ω n → An ,
n ∈ N.
Jede Realisierung von X(n) ist ein Wort der L¨ ange n. Die identisch verteilten ¨ Zufallsvariablen Xi charakterisieren die Quelle des Ubertragungssystems. Die Quelle liefert zuf¨ allige Buchstaben aus dem Alphabet A gem¨aß der Verteilung der Xi .
166
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
¨ Wir wollen davon ausgehen, dass der Ubertragungskanal Bits u ¨bertr¨agt. Der Quellcodierer muss also W¨ orter x(n) ∈ An auf eine bin¨are Folge abbilden. Dazu definieren wir B ∗ :=
∞
{0, 1}n ,
die Menge aller Bin¨arw¨orter.
n=1
Jedes Element aus B ∗ ist eine endliche Folge von Nullen und Einsen. Sind onnen wir diese Bin¨ arw¨ orter hintereinander schreiben und b1 , . . . , bk in B ∗ , so k¨ ur schreibt man u erhalten wieder ein Bin¨ arwort (b1 , . . . , bn ). Daf¨ ¨blicherweise und intuitiv b1 · · · bn := (b1 , . . . , bn ) ∈ B ∗ .
Definition 6.30 (Code, eindeutig decodierbar, pr¨ afixfrei). Ein Code C ist eine Abbildung C : A → B∗. F¨ ur jedes n ∈ N definieren wir die n-fache Erweiterung C n von C durch C n : An → B ∗ ,
C n (a1 , . . . , an ) := C(a1 ) · · · C(an ).
Der Code C heißt eindeutig decodierbar, falls C n f¨ ur alle n ∈ N injektiv ist. Der Code C heißt pr¨ afixfrei, wenn es f¨ ur beliebige Buchstaben a, b ∈ A kein Bin¨ arwort w ∈ B ∗ gibt mit C(a) = C(b)w.
Die Bedeutung der eindeutigen Decodierbarkeit eines Codes ist offensichturlich lich. Wird ein Codewort C n (a1 , . . . , an ) u ¨bertragen, so soll daraus nat¨ uckgewonnen werden k¨onnen. Dies das urspr¨ ungliche Wort (a1 , . . . , an ) zur¨ garantiert gerade die Injektivit¨ at von C n . Um den Sinn der Pr¨afixfreiheit einzusehen, betrachten wir ein Beispiel: Beispiel 6.31. Sei A := {a, b, c}. Wir betrachten den Code C : A → B ∗ C(a) := 0, C(b) := 01, C(c) = 101. Empfangen wird die Sequenz 0101. F¨ ur die gesendete Sequenz gibt es dann zwei M¨ oglichkeiten: C 2 (a, c) = 0101 = C 2 (b, b). Obwohl C injektiv ist, ist C 2 nicht injektiv und der Code daher nicht eindeutig ˜ decodierbar. Betrachten wir stattdessen den Code C: ˜ ˜ ˜ C(a) := 0, C(b) := 01, C(c) = 111,
6.4 Anwendung Informationstheorie: Datenkompression
167
so ist C˜ eindeutig decodierbar, aber nicht pr¨ afixfrei. Denn es gilt: ˜ ˜ C(b) = 01 = C(a)1. Dies hat zur Folge, dass wir nicht unmittelbar nach Empfang eines Signals entscheiden k¨ onnen, was gesendet wurde. Empfangen wir die Sequenz 01, so kann dies ein gesendetes b sein, ergibt sich dann aber 0111, so muss es ein (a, c) gewesen sein. Wir m¨ ussen also bei einem nicht pr¨afixfreien Code zun¨achst das ¨ Ende der Ubertragung abwarten, bevor wir den Text decodieren k¨onnen. ♦ Codes C mit einer festen Wortl¨ ange C : A −→ B n heißen Block-Codes. Bei Block-Codes kann man auf die Pr¨afixfreiheit verzichten, da man von vorne herein weiß, dass ein Codewort n Bits lang ist. Entropie Es sei X : Ω → A eine A-wertige Zufallsvariable, also eine Quelle X mit Alphabet A. Da A endlich ist, hat X eine Z¨ ahldichte p(a) = P(X = a), a ∈ A. Ein Maß f¨ ur die Unbestimmtheit von X ist die Entropie: Definition 6.32 (Entropie). Es sei X eine A-wertige Zufallsvariable mit Z¨ ahldichte p. Dann heißt p(a) log2 (p(a)) H(X) := E[− log2 (p(X))] = − a∈A
die Entropie von X. Dabei wird 0 log2 (0) := 0 gesetzt. Ist X auf A gleichverteilt, d.h. p(a) = H(X) = −
1 |A|
f¨ ur alle a ∈ A, so gilt
1 1 log2 = log2 (|A|). |A| |A|
a∈A
Die Gleichverteilung entspricht intuitiv der maximalen Unbestimmtheit, kein Ereignis ist in irgendeiner Weise ausgezeichnet. Daher u ¨berrascht es nicht, dass ur jede A-wertige Zufallsvariable X H(X) ≤ log2 (|A|) f¨ gilt. Diese nicht schwierig zu beweisende Aussage findet man z.B. in [CT91, Theorem 2.6.4].
168
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen
Effektive Codierung Wir haben bisher noch nicht gekl¨ art, was wir unter einer effektiven Codierung verstehen. Offensichtlich k¨ onnen wir jedem Codewort C(a) ∈ B ∗ eines Codes C seine Codewortl¨ ange |C(a)|, d.h. die Anzahl der Bits von C(a), zuordnen: lC : A −→ N,
a → lC (a) := |C(a)|.
¨ Die Ubertragung jedes einzelnen Bits kostet Zeit und Energie, daher ist es das Ziel der Quellcodierung, eine m¨ oglichst gute Datenkompression ohne Informationsverlust zu konstruieren. Gesucht ist daher ein Code, der die mittlere Codewortl¨ ange E(lC (X)) minimiert. Ein zentrales Resultat der Informationstheorie besagt nun (siehe z.B. [CT91, Theorem 5.3.1]): Satz 6.33. F¨ ur jeden eindeutig decodierbaren Code gilt: E(lC (X)) ≥ H(X). Es ist demnach nicht m¨ oglich, die mittlere Codewortl¨ange unter die Entropie der Quelle X zu dr¨ ucken. Wir wollen nun zeigen, dass es m¨oglich ist, beliebig nahe an diese untere Grenze heranzukommen. Asymptotische Gleichverteilungseigenschaft Betrachten wir eine Folge (Xn ) von B(1, 12 )-verteilten, unabh¨angigen Zufallsvariablen, so wissen wir nach dem schwachen Gesetz der großen Zahlen 6.13, dass eine Realisierung (x1 , . . . , xn ) von (X1 , . . . , Xn ) f¨ ur große n mit hoher Wahrscheinlichkeit einen Mittelwert nahe 12 hat, d.h. etwa gleich viele Einsen wie Nullen aufweist. Obwohl also die Folge (1, 1, 1, . . . , 1) genauso wahrscheinlich ist wie jede andere, hat eine typische Folge etwa gleich viele Einsen wie Nullen. Diese Aussagen formalisieren wir nun. Als erstes zeigen wir die asymptotische Gleichverteilungseigenschaft, die als informationstheoretisches Gesetz der großen Zahlen angesehen werden kann. Sie wird mit AEP=Asymptotic Equipartition Property abgek¨ urzt. angiger und Theorem 6.34 (AEP). Es sei (Xi ) eine Folge A-wertiger, unabh¨ identisch verteilter Zufallsvariablen mit der Z¨ ahldichte p. Dann gilt f¨ ur die gemeinsame Z¨ ahldichte p(x1 , . . . , xn ) von (X1 , . . . , Xn ): −
1 P log2 (p(X1 , . . . , Xn )) −→ H(X1 ). n
6.4 Anwendung Informationstheorie: Datenkompression
169
Beweis. Da die Zufallsvariablen (Xi ) unabh¨ angig und identisch verteilt sind, gilt dies auch f¨ ur (log2 p(Xn )). Daher gilt nach dem schwachen Gesetz der großen Zahlen: 1 1 P log2 (p(X1 , . . . , Xn )) = − log2 (p(Xi )) −→ −E[log2 (X1 )] = H(X1 ). n n i=1 n
−
Die AEP motiviert folgende Definition: Die typische Menge ur die gilt: der W¨ orter (a1 , . . . , an ) ∈ An , f¨
(n) Aε
ist die Menge
2−n(H(X1 )+ε) ≤ p(a1 , . . . , an ) ≤ 2−n(H(X1 )−ε) . Unmittelbar aus der Definition und der AEP erh¨alt man folgende Aussagen (n) u ¨ber die typische Menge Aε : (n)
(i) Ist (a1 , . . . , an ) ∈ Aε , so ist H(X1 ) − ε ≤ n1 log2 (p(a1 , . . . , an )) ≤ H(X1 ) + ε. (n) ur alle n ≥ n0 . (ii) Es gibt ein n0 , so dass P(Aε ) > 1 − ε f¨ (n) n(H(X1 )+ε) (iii) |Aε | ≤ 2 . (n) (iv) Es gibt ein n0 , so dass |Aε | ≥ (1 − ε)2n(H(X1 )−ε) f¨ ur alle n ≥ n0 . Das bedeutet, dass die typische Menge fast Wahrscheinlichkeit 1 hat, alle Elemente der typischen Menge fast gleich wahrscheinlich sind und die Anzahl der typischen Elemente ca. 2nH(X1 ) ist. Datenkompression Als Konsequenz der AEP k¨ onnen wir einen konkreten Code angeben, mit dem Daten komprimiert werden k¨ onnen. Seien X1 , . . . , Xn identisch verteilt und unabh¨ angig mit der Z¨ ahldichte p und dem Alphabet A. Um einen Code (n) auf An anzugeben, teilen wir An in zwei Mengen, die typische Menge Aε (n) (n) und das Komplement Bε := (Aε )c . Jede dieser beiden Mengen versehen wir mit einer totalen Ordnung. Ist A z.B. unser gew¨ohnliches Alphabet, so (n) k¨onnen wir die W¨ orter An lexikographisch ordnen. Jedes Element a ∈ Aε k¨ onnen wir nun dadurch eindeutig identifizieren, dass wir ihm seinen Index (n) ia in der totalen Ordnung von Aε zuordnen. Da es h¨ochstens 2n(H(X1 )+ε) (n) Elemente in Aε gibt, ben¨ otigen wir f¨ ur die Bin¨ardarstellung dieses Index ia h¨ochstens n(H(X1 ) + ε) + 1 Bits. Dabei bezeichnet x die gr¨oßte ganze (n) Zahl kleiner oder gleich x. Um zu kennzeichnen, dass a ∈ Aε ist, setzen wir (n) vor die Bin¨ ardarstellung des Indexes ia in der totalen Ordnung von Aε noch eine 0. Insgesamt erhalten wir so eine injektive Abbildung: Aε(n) −→ {0, 1}n(H(X1 )+ε)+2 ,
a → 0ia .
170
6 Folgen und Reihen unabh¨ angiger Zufallsvariablen (n)
(n)
Ganz ¨ ahnlich gehen wir f¨ ur das Komplement Bε vor. Bε enth¨alt h¨ochstens (n) ur den Index ja eines Elements a ∈ Bε |A|n , d.h. alle Elemente, so dass wir f¨ (n) in der totalen Ordnung von Bε h¨ ochstens n log2 (|A|) + 1 Bits ben¨otigen. (n) F¨ ugen wir eine 1 vor den Index ja ein, um zu kennzeichnen, dass a ∈ Bε ist, erhalten wir ganz analog die injektive Abbildung: Bε(n) −→ {0, 1}n log2 (|A|)+2 ,
a → 1ja .
Insgesamt erhalten wir den eindeutig decodierbaren Code: (n) 0ia f¨ ur a ∈ Aε , C : An → B ∗ , a → (n) 1ja f¨ ur a ∈ Bε .
(6.9)
Wie das n¨ achste Resultat zeigt, kommen wir mit dieser Quellcodierung mit der mittleren Codewortl¨ ange beliebig nahe an die Entropie heran, wenn wir n hinreichend groß w¨ ahlen: angiger und identisch verteilter ASatz 6.35. Sei (Xn ) eine Folge unabh¨ ur den wertiger Zufallsvariablen und δ > 0. Dann gibt es ein n0 , so dass f¨ Code C gem¨ aß (6.9) gilt: 1 lC (X1 , . . . , Xn ) ≤ H(X1 ) + δ f¨ ur alle n ≥ n0 . E n ahlt, dass Beweis. Sei ε > 0 und n0 so gew¨ ε + ε log2 (|A|) +
2 ≤δ n
f¨ ur alle n ≥ n0 .
oßern, k¨ onnen wir gleichzeitig annehmen, Indem wir n0 gegebenenfalls vergr¨ dass ur alle n ≥ n0 P(Aε(n) ) ≥ 1 − ε f¨ gilt. Dann folgt f¨ ur alle n ≥ n0 : p(a)lC (a) E[lC (X1 , . . . , Xn )] = =
(n)
a∈Aε
≤
(n) a∈Aε
a∈An
p(a)lC (a) +
p(a)lC (a)
(n)
a∈Bε
p(a)(n(H(X1 ) + ε) + 2) +
p(a)(n log2 (|A|) + 2)
(n) a∈Bε
= P(Aε(n) )(n(H(X1 ) + ε) + 2) + P(Bε(n) )(n log2 (|A|) + 2) ≤ n(H(X1 ) + ε) + εn log2 (|A|) + 2 2 = n(H(X1 ) + (ε + ε log2 (|A|) + )) n ≤ n(H(X1 ) + δ). Teilen wir durch n, so erhalten wir die Behauptung.
6.4 Anwendung Informationstheorie: Datenkompression
171
Wir fassen die Eigenschaften des betrachteten Codes noch einmal zusammen: (i) Der Code ist eindeutig und leicht decodierbar. Das erste Bit zeigt an, wie lang das nachfolgende Codewort ist. (n) (ii) Wir haben f¨ ur die Codierung der atypischen W¨orter in Bε nicht ausge(n) nutzt, dass es davon sehr viel weniger gibt als in Aε . Da sie so selten vorkommen, haben wir trotzdem eine effiziente Codierung erhalten. (iii) Ist n hinreichend groß, so haben wir einen Code konstruiert, dessen mittlere Wortl¨ ange lC (X1 , . . . , Xn ) beliebig nahe bei nH(X1 ) liegt. Pro Buchstabe liegt damit die mittlere Codewortl¨ ange beliebig nahe an der Entropie aß Satz 6.33 eine untere Grenze f¨ ur die mittlere CodeH(X1 ), die gem¨ wortl¨ ange darstellt. Wir haben uns bei der Darstellung dieses Beispiels an dem Buch [CT91] orientiert, das wir f¨ ur einen umfassenden Einblick in die Informationstheorie weiterempfehlen.
7 Der zentrale Grenzwertsatz
7.1 Schwache Konvergenz Ist (Xn ) eine Folge unabh¨ angiger, identisch verteilter reeller Zufallsvariablen mit E(X1 ) = 0 und Sn := X1 + . . . + Xn , so besagt das starke Gesetz ur große n beliebig klein wird. Mit andeder großen Zahlen, dass | Snn | f¨ ur große n klein gegen¨ uber n. Das starke ren Worten, die Summe Sn wird f¨ Gesetz der großen Zahlen enth¨ alt jedoch keinerlei Aussage u ¨ber die Verteilung von Sn . Ziel dieses Kapitels ist die Herleitung von Resultaten, die Aussagen u ¨ber die Verteilung von Sn enthalten. So gilt in diesem Beispiel mit n f¨ ur große σ 2 = E(X12 ) nach dem zentralen Grenzwertsatz, dass √Snσ n ann¨ ahernd standardnormalverteilt ist. F¨ ur die Herleitung dieser Ergebnisse benutzen wir im Wesentlichen zwei Techniken. Zum einen verwenden wir charakteristische Funktionen, die in anderen Teilgebieten der Mathematik als Fourier-Transformierte bekannt sind. Zum anderen f¨ uhren wir eine weitere Konvergenzart ein, die schwache Konvergenz, die nur von den Verteilungen der Zufallsvariablen abh¨ angt. Die Definition Wir haben im bisherigen Verlauf drei Konvergenzarten f¨ ur reelle Zufallsvariablen kennen gelernt: fast sichere Konvergenz, stochastische Konvergenz und Konvergenz in Lp . In diesem Abschnitt betrachten wir eine weitere Konvergenzart. Dazu bezeichnen wir mit Cb (R) den Raum der stetigen und beschr¨ ankten Funktionen f : R → R.
174
7 Der zentrale Grenzwertsatz
Definition 7.1 (schwache Konvergenz, Verteilungskonvergenz). Es sei (µn ) eine Folge von Wahrscheinlichkeitsmaßen auf R. Dann konvergiert (µn ) schwach gegen ein Wahrscheinlichkeitsmaß µ auf R, wenn f dµn −→ f dµ f¨ ur alle f ∈ Cb (R). w
In Zeichen: µn −→ µ. Es sei (Xn ) eine Folge von reellen Zufallsvariablen auf den Wahrscheinlichkeitsr¨ aumen (Ωn , Fn , Pn ). Dann konvergiert (Xn ) in Verteilung gegen eine w reelle Zufallsvariable X auf (Ω, F, P), wenn PXn −→ PX , d.h., falls E(f ◦ Xn ) −→ E(f ◦ X)
f¨ ur alle f ∈ Cb (R).
d
In Zeichen : Xn −→ X. d
Gilt Xn −→ X, so k¨ onnen die reellen Zufallsvariablen Xn im Gegensatz zu den bisherigen Konvergenzarten auf unterschiedlichen Wahrscheinlichkeitsr¨aumen definiert sein. Die Konvergenz h¨ angt lediglich von den Verteilungen PXn und PX auf R ab. Beziehung zu anderen Konvergenzarten Die Verteilungskonvergenz ist in der Tat schwach, wie der nachfolgende Satz zeigt: Satz 7.2. Es seien (Xn ), X reelle Zufallsvariablen. Dann gilt: d
(i) Ist Xn → X fast sicher, so folgt Xn −→ X. P
d
(ii) Ist Xn −→ X, so folgt Xn −→ X. Ist X = c fast sicher konstant, so gilt d
P
auch die Umkehrung: Aus Xn −→ c folgt Xn −→ c. Beweis. (i) Ist Xn −→ X fast sicher, so folgt f¨ ur jedes f ∈ Cb (R), dass auch ankt ist, folgt daraus mit dem f (Xn ) → f (X) fast sicher. Da f beschr¨ Satz von der dominierten Konvergenz: E(f ◦ Xn ) −→ E(f ◦ X), d
und daher Xn −→ X. (ii) Wir f¨ uhren den Beweis mit Hilfe des Teilfolgenarguments aus Satz 4.16 auf den ersten Teil zur¨ uck. Nehmen wir an, f¨ ur ein f ∈ Cb (R) gelte nicht E(f ◦ Xn ) → E(f ◦ X). Dann gibt es eine Teilfolge (Xnk ) und ein ε > 0 mit ur alle k ∈ N. (7.1) |E(f ◦ Xnk ) − E(f ◦ X)| > ε f¨
7.1 Schwache Konvergenz
175
Nach Satz 4.16 hat Xnk wiederum eine Teilfolge, die fast sicher gegen X konvergiert, und nach dem bereits gezeigten ersten Teil auch in Verteilung, im Widerspruch zu (7.1). F¨ ur die Umkehrung sei X = c fast sicher konstant. Sei ε > 0 und A := ]c − ε, c + ε[. Wir w¨ ahlen ein f ∈ Cb (R) mit f ≤ IA
und f (c) = 1.
Dann gilt nach Voraussetzung: 1 ≥ P(Xn ∈ A) = IA dPXn ≥ f dPXn = E(f ◦ Xn ) → E(f ◦ X) = f (c) = 1. Daraus folgt P(Xn ∈ A) = P(|Xn − c| < ε) −→ 1 P
und somit Xn −→ X = c.
In Abbildung 7.1 haben wir die Konvergenzarten und ihre Implikationen zusammengefasst dargestellt. Der einfache Pfeil ↓ soll daran erinnern, dass aus ¨ stochastischer Konvergenz bei Ubergang zu einer Teilfolge fast sichere Konvergenz folgt, vgl. Satz 4.16. Wir haben noch nicht gezeigt, dass aus L1 Konvergenz stochastische Konvergenz folgt. Dies ist aber eine unmittelbare Folgerung der Markov-Ungleichung: P(|Xn − X| ≥ ε) ≤
E(|Xn − X|) . ε
Die u atzen 2.31, 4.14 und 7.2 gezeigt. ¨brigen Implikationen haben wir in den S¨ Konvergenz stochastische Konvergenz Konvergenz ⇐ ⇐ ⇐ in Lp in Verteilung Konvergenz in L1 ⇑↓ fast sichere Konvergenz Abbildung 7.1. Zusammenhang zwischen den Konvergenzarten
Die Skorokhod-Darstellung Aus fast sicherer Konvergenz folgt Konvergenz in Verteilung. Die Umkehrung ist im Allgemeinen falsch, wie das folgende Beispiel zeigt. Es sei X eine N(0, 1)verteilte Zufallsvariable. Dann ist die alternierende Folge
176
7 Der zentrale Grenzwertsatz
Xn : X, −X, X, −X, . . . nicht fast sicher konvergent, sondern auf einer Nullmenge konvergent. Andererseits ist auf Grund der Symmetrie der Normalverteilung PXn = PX f¨ ur alle n ∈ N d
onnen wir jedoch eine Folge (Yn ) und daher Xn −→ X. In dieser Situation k¨ ur alle n ∈ N und Y := X definieren, so dass gilt: durch Yn := X f¨ PYn = PXn f¨ ur alle n ∈ N, PY = PX und Yn → Y fast sicher. Dass man bei vorliegender Verteilungskonvergenz immer eine solche Folge (Yn ) mit obigen Eigenschaften finden kann, ist die Aussage des nachfolgenden Theorems von Skorokhod. Die darin geforderte punktweise Konvergenz der Verteilungsfunktionen in Stetigkeitspunkten ist, wie wir in Satz 7.5 sehen werden, ¨ aquivalent zur schwachen Konvergenz. Theorem 7.3 (Skorokhod-Darstellung). Es seien (Xn ) reelle Zufallsvariablen auf Wahrscheinlichkeitsr¨ aumen (Ωn , Fn , Pn ) mit Verteilungsfunktionen (Fn ) und X eine Zufallsvariable mit Verteilungsfunktion F . Ist Fn (x) −→ F (x)
f¨ ur alle x ∈ R, f¨ ur die F in x stetig ist,
so gibt es eine Folge reeller Zufallsvariablen (Yn ) auf einem Wahrscheinlichkeitsraum (Ω, F, P) und eine reelle Zufallsvariable Y auf (Ω, F, P) , so dass gilt: ur alle n ∈ N, PYn = PXn f¨ PY = PX und Yn → Y fast sicher. Beweis. Als Wahrscheinlichkeitsraum betrachten wir Ω :=]0, 1[, F := B|]0, 1[, P := λ|]0, 1[. Wir definieren mit Hilfe der Verteilungsfunktionen Fn bzw. F die Zufallsvariablen Yn : Ω → R, Y : Ω → R,
Yn (ω) := inf{x ∈ R : ω ≤ Fn (x)}, n ∈ N, Y (ω) := inf{x ∈ R : ω ≤ F (x)}.
Als erstes weisen wir nach, dass Y die Verteilungsfunktion F besitzt. Da F monoton w¨ achst, ist {x ∈ R : ω ≤ F (x)} ein Intervall, das nach oben unbeschr¨ ankt ist. F ist dar¨ uber hinaus rechtsseitig stetig, daher ist das Intervall links abgeschlossen, so dass {x ∈ R : ω ≤ F (x)} = [Y (ω), ∞[ f¨ ur jedes ω ∈]0, 1[. Also ist ω ≤ F (x) genau dann, wenn Y (ω) ≤ x, d.h.
7.1 Schwache Konvergenz
177
P(Y ≤ x) = P({ω ∈ Ω : ω ≤ F (x)}) = F (x). Daher hat Y die Verteilungsfunktion F und somit PY = PX . Analog folgt ur alle n ∈ N. PYn = PXn f¨ Es bleibt die fast sichere Konvergenz Yn → Y zu zeigen. Die Idee ist die folgende: Da Yn und Y im Wesentlichen Umkehrfunktionen zu Fn und F sind, folgt aus der Konvergenz von Fn in Stetigkeitspunkten auch die Konvergenz der Yn in den Stetigkeitspunkten. Diese bilden eine Menge vom Maß 1. Sei ω ∈]0, 1[ und ε > 0. Da F monoton ist, hat F h¨ochstens abz¨ahlbar viele Unstetigkeitsstellen. Daher gibt es ein x ∈ R, so dass F in x stetig ist und Y (ω)−ε < x ≤ Y (ω). Auf Grund der Definition von Y ist dann F (x) < ω, und ur alle n ≥ n0 . nach Voraussetzung gibt es ein n0 , so dass auch Fn (x) < ω f¨ ur alle n ≥ n0 und daher Dann ist aber Y (ω) − ε < x < Yn (ω) f¨ lim inf Yn (ω) ≥ Y (ω).
(7.2)
Die Argumentation f¨ ur den Limes Superior ist ¨ ahnlich, aber nicht ganz analog. Sei 1 > ω ˜ > ω ein weiterer Punkt und wiederum x ∈ R, so dass F in x stetig ist und Y (˜ ω ) < x < Y (˜ ω ) + ε. Nach Definition von Y ist f¨ ur jedes ω ˜ ∈]0, 1[ ω ˜ ≤ F (Y (˜ ω )), so dass wir mit der Monotonie von F ω<ω ˜ ≤ F (Y (˜ ω )) ≤ F (x) erhalten. Wiederum folgt f¨ ur n ≥ n1 : Fn (x) ≥ ω, und somit Yn (ω) ≤ x ≤ Y (˜ ω ) + ε. Schließlich folgt lim sup Yn (ω) ≤ Y (˜ ω ) f¨ ur alle ω ˜ > ω.
(7.3)
Ist Y in ω stetig, so folgt aus (7.2) und (7.3) lim sup Yn (ω) = lim inf Yn (ω) = Y (ω). Da Y ebenfalls monoton ist, hat Y h¨ ochstens abz¨ahlbar viele Unstetig keitsstellen und es folgt Yn −→ Y fast sicher. ¨ Aquivalente Formulierungen f¨ ur Konvergenz in Verteilung d
Wir haben Xn −→ X durch E(f (Xn )) → E(f (X)) f¨ ur alle beschr¨ankten und stetigen Funktionen f definiert. Wie wir im Folgenden sehen werden, ist dies nicht die einzige M¨ oglichkeit, es gibt ¨ aquivalente Bedingungen. Wir beginnen mit einer notwendigen Bedingung: Lemma 7.4. Es seien (Xn ), X reelle Zufallsvariablen mit Verteilungsfunktiod
nen Fn , F . Ist Xn −→ X, so folgt: Fn (x) −→ F (x)
f¨ ur alle x ∈ R, f¨ ur die F in x stetig ist.
Beweis. Wir konstruieren zwei spezielle Funktionen aus Cb (R), die uns f¨ ur den Limes Inferior bzw. Superior eine Absch¨ atzung liefern. Sei dazu x ∈ R und ε > 0 sowie
178
7 Der zentrale Grenzwertsatz
⎧ ⎪ ⎨1 f : R → R, y → 1 − ⎪ ⎩ 0
(y−x) ε
f¨ ur y ≤ x, f¨ ur x < y < x + ε, f¨ ur y ≥ x + ε.
Die Funktion f ist gerade so konstruiert, dass f ∈ Cb (R) und I]−∞,x] ≤ f ≤ I]−∞,x+ε] gilt, siehe Abbildung 7.2. nf(y)
1
3x+3e
3x
Ay
Abbildung 7.2. Graph der Hilfsfunktion f
Daraus folgt mit der schwachen Konvergenz Fn (x) = E(I]−∞,x] (Xn )) ≤ E(f (Xn )) −→ E(f (X)) ≤ E(I]−∞,x+ε] (X)) = F (x + ε) und daher lim sup Fn (x) ≤ F (x + ε). Da F rechtsseitig stetig ist, folgt mit ε → 0 lim sup Fn (x) ≤ F (x) f¨ ur alle x ∈ R. Mit Hilfe der Funktion ⎧ ⎪ ⎨1 f : R → R, y → 1 − ⎪ ⎩ 0
(y−x+ε) ε
f¨ ur y ≤ x − ε, f¨ ur x − ε < y < x, f¨ ur y ≥ x
(7.4)
7.1 Schwache Konvergenz
179
folgt genau analog lim inf Fn (x) ≥ F (x − ε). Ist F in x stetig, so folgt daraus mit ε → 0 lim inf Fn (x) ≥ F (x) und mit (7.4) die Behauptung. Mit Hilfe der Skorokhod-Darstellung 7.3 k¨ onnen wir zeigen, dass die Konvergenz der Verteilungsfunktionen in Stetigkeitspunkten sogar ¨aquivalent zur schwachen Konvergenz ist. F¨ ur die Formulierung einer weiteren ¨aquivalenten Bedingung erinnern wir daran, dass der Rand ∂A einer Teilmenge A eines topologischen Raums die Differenz des Abschlusses von A und des Inneren von A ist: ◦ ∂A := A¯ \ A. Damit ist f¨ ur A ⊂ R der Rand ∂A insbesondere messbar. Wir nennen in einem Wahrscheinlichkeitsraum (Ω, F, P) A eine P-stetige Menge, wenn A messbar ist und P(∂A) = 0. Satz 7.5. Es seien (Xn ), X reelle Zufallsvariablen und (Fn ), F die zugeh¨ origen Verteilungsfunktionen. Dann sind folgende Aussagen ¨ aquivalent: d
ur alle f ∈ Cb (R). (i) Xn −→ X, d.h. E(f (Xn )) → E(f (X)) f¨ ur alle x ∈ R, f¨ ur die F in x stetig ist. (ii) Fn (x) −→ F (x) f¨ ur alle PX -stetigen Mengen A. (iii) P(Xn ∈ A) → P(X ∈ A) f¨ Beweis. Die Implikation (i) ⇒ (ii) ist gerade die Aussage des Lemmas 7.4. Die Umkehrung folgt aus der Skorokhod-Darstellung: Die in Theorem 7.3 konstruierten Zufallsvariablen (Yn ) und Y haben die gleichen Verteilungen wie (Xn ) und X und konvergieren fast sicher, nach Satz 7.2 erst recht in Verteilung. Als n¨achstes zeigen wir ebenfalls mit Hilfe der Skorokhod-Darstellung (Yn ), Y die Implikation (i) ⇒ (iii). Sei f := IA die Indikatorfunktion einer PX -stetigen Menge A. Dann ist ∂A die Menge der Unstetigkeitsstellen von f , und wir k¨onnen nicht unmittelbar P(Xn ∈ A) = E(f (Xn )) → E(f (X)) = P(X ∈ A)
(7.5)
schließen, da f zwar beschr¨ ankt, aber nicht stetig ist. Aus P(Y ∈ ∂A) = PX (∂A) = 0 folgt jedoch, dass f (Yn ) −→ f (Y ) fast sicher konvergiert, und mit dem Satz von der dominierten Konvergenz ist PYn (A) = E(f (Yn )) −→ E(f (Y )) = PY (A). Aus PYn = PXn f¨ ur alle n ∈ N und PY = PX folgt nun doch (7.5) und damit (iii). Abschließend zeigen wir die Implikation (iii) ⇒ (ii). Dazu gen¨ ugt es festzustellen, dass ∂(] − ∞, x]) = {x} und nach Korollar 3.16 PX ({x}) = 0 genau dann, wenn F in x stetig ist.
180
7 Der zentrale Grenzwertsatz
Die dritte Bedingung P(Xn ∈ A) −→ P(X ∈ A) f¨ ur alle messbaren Mengen mit P(X ∈ ∂A) = 0 rechtfertigt die Bezeichnung Konvergenz in Vertei” d ur große lung“; denn sie besagt, dass aus Xn −→ X folgt, dass Xn und X f¨ n ann¨ ahernd die gleiche Verteilung haben. Auf den ersten Blick k¨onnte es vern¨ unftiger erscheinen, P(Xn ∈ A) −→ P(X ∈ A)
f¨ ur alle A ∈ B
zu fordern. Das n¨ achste Beispiel zeigt, dass dies nicht der Fall ist. Beispiel 7.6. Sei (Xn ) eine Folge reeller Zufallsvariablen, so dass Xn auf [0, n1 ] gleichverteilt ist, d.h. Xn besitzt die Dichte fn := n · I[0, n1 ] ,
n ∈ N.
Es ist vern¨ unftig zu erwarten, dass (Xn ) gegen X = 0 konvergiert, und nach d
unserer Definition folgt in der Tat Xn −→ X. Es gilt jedoch: 0 = P(Xn = 0) P(X = 0) = 1. ♦
7.2 Charakteristische Funktionen Komplexwertige Funktionen Charakteristische Funktionen sind spezielle komplexwertige Funktionen. Da wir den K¨ orper C der komplexen Zahlen mit R2 identifizieren k¨onnen, u ¨bertragen sich viele bereits definierte Begriffe in ganz nat¨ urlicher Weise durch Betrachten des Real- und Imagin¨ arteils. Zun¨achst wird C mit den zweidimensionalen Borelmengen B 2 zu einem Messraum (C, B 2 ), wovon wir im Folgenden immer ausgehen. Eine Funktion f : Ω → C,
f = u + iv,
ist demnach messbar, wenn die reellwertigen Funktionen Realteil von f Imagin¨ arteil von f
u : Ω → R und v:Ω→R
messbar sind. Formal haben wir Integrale nur f¨ ur reellwertige Funktionen definiert. Daher vereinbaren wir in nahe liegender Weise: Sind u, v integrierbar, so ist f integrierbar und f dµ := udµ + i vdµ.
7.2 Charakteristische Funktionen
181
Ist X = Xu + iXv : Ω → C eine komplexwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) und X integrierbar, so heißt E(X) := XdP = E(Xu ) + iE(Xv ) Erwartungswert von X. Die Betrachtung komplexwertiger Zufallsvariablen macht gegen¨ uber reellwertigen Funktionen aus maßtheoretischer Sicht keinerlei Schwierigkeiten. F¨ ur die Wahrscheinlichkeitstheorie ergeben sich einige Vorteile, wie wir in K¨ urze sehen werden. Elementare Eigenschaften charakteristischer Funktionen Charakteristische Funktionen sind ein wichtiges Hilfsmittel in der Wahrscheinlichkeitstheorie. Mit ihnen lassen sich zentrale Grenzwerts¨atze beweisen, Aussagen u ¨ber die Verteilung von Summen von Zufallsvariablen herleiten, Eindeutigkeitsaussagen treffen und vieles mehr. In anderen Teilgebieten der Mathematik sind sie als Fourier-Transformierte bekannt. Definition 7.7 (Charakteristische Funktion). Sei X eine n-dimensionale reelle Zufallsvariable. Dann heißt ϕX : Rn → C, t → ϕX (t) := E[exp(it, X)] = exp(it, x)dPX charakteristische Funktion von X. Dabei bezeichnet x, y := x1 y1 + . . . + xn yn ,
x, y ∈ Rn ,
das (euklidische) Skalarprodukt auf Rn . Gelegentlich ist es notwendig, auch f¨ ur ein Wahrscheinlichkeitsmaß µ auf dem ugung zu haben. Dazu nehmen Rn eine charakteristische Funktion zur Verf¨ wir einfach den letzten Ausdruck in obiger Definition und setzen ϕµ (t) := exp(it, x)dµ, t ∈ Rn . Wie bei anderen Begriffen auch ist damit die charakteristische Funktion von X die charakteristische Funktion der Verteilung PX . Wenn keine Verwechslungsgefahr besteht, schreiben wir in der Regel ϕ f¨ ur ϕX . Da sin(t, x) und cos(t, x) beschr¨ ankte stetige Funktionen sind, folgt aus exp(ix) = cos(x) + i sin(x), dass exp(it, X) f¨ ur jedes t ∈ Rn integrierbar ist und daher die Definition der charakteristischen Funktion sinnvoll ist. Charakteristische Funktionen sind die komplexen Verwandten der momenterzeugenden Funktionen M (s) aus Definition 4.19. Es gilt rein formal
182
7 Der zentrale Grenzwertsatz
M (s) = ϕX (−is)
und
ϕX (t) = M (is),
so dass die Funktionen im Wesentlichen gleich sind, wenn man ihren Definitionsbereich außer Acht l¨ asst. Allerdings ist es gerade der große Vorteil der charakteristischen Funktion, dass sie immer auf ganz Rn existiert. Weitere Eigenschaften charakteristischer Funktionen stellen wir im folgenden Satz zusammen: Satz 7.8. Sei X eine n-dimensionale reelle Zufallsvariable mit charakteristischer Funktion ϕ = ϕX . Dann gilt: (i) |ϕ(t)| ≤ ϕ(0) = 1 f¨ ur alle t ∈ Rn . ¯ f¨ ur alle t ∈ Rn . (ii) ϕ−X (t) = ϕ(−t) = ϕ(t) n ur alle t ∈ R. (iii) F¨ ur a ∈ R gilt: ϕa,X (t) = ϕ(ta) f¨ (iv) F¨ ur C ∈ Rn,n , b ∈ Rn gilt: ϕCX+b (t) = exp(it, b)ϕ(C t), t ∈ Rn . (v) ϕ ist gleichm¨ aßig stetig. Beweis. Die Beweise sind bis auf die Stetigkeit einfache Folgerungen aus den Eigenschaften der Exponentialfunktion. (i) F¨ ur jedes t ∈ Rn ist |ϕ(t)| = |E[exp(it, X)]| ≤ E(1) = 1 = ϕ(0). (ii) Sei t ∈ Rn : ϕ−X (t) = E[exp(it, −X)] = E[exp(i−t, X)] = ϕ(−t) = E[exp(it, X)] = ϕ(t). ¯ (iii) F¨ ur jedes t ∈ R gilt: ϕa,X (t) = E[exp(ita, X)] = E[exp(ita, X)] = ϕ(ta). (iv) Sei t ∈ Rn : ϕCX+b (t) = E[exp(it, CX + b)] = E[exp(it, b) exp(iC t, X)] = exp(it, b)ϕ(C t). (v) F¨ ur alle h ∈ Rn ist | exp(ih, X) − 1| ≤ 2 und exp(ih, X) − 1 −→ 0 fast sicher, wenn h → 0. Daher folgt aus dem Satz von der dominierten Konvergenz f¨ ur jedes t ∈ Rn : |ϕ(t + h) − ϕ(t)| ≤ E [| exp(it, X)| · | exp(ih, X) − 1|] → 0 f¨ ur h → 0, und somit die gleichm¨ aßige Stetigkeit von ϕ.
7.2 Charakteristische Funktionen
183
Charakteristische Funktionen und Summen Es gibt drei fundamentale Eigenschaften charakteristischer Funktionen, die wir im Folgenden entwickeln: •
Die charakteristische Funktion einer Summe von unabh¨angigen Zufallsvariablen ist gleich dem Produkt der einzelnen charakteristischen Funktionen. • Die schwache Konvergenz von Verteilungen ist ¨aquivalent zur punktweisen Konvergenz der charakteristischen Funktionen. • Die charakteristische Funktion legt die Verteilung eindeutig fest. Wir werden alle drei Aussagen verwenden, um am Ende dieses Abschnitts die Frage kl¨ aren zu k¨onnen, wann eine Verteilung durch ihre Momente eindeutig bestimmt ist. Im n¨ achsten Abschnitt beweisen wir mit diesen Eigenschaften den zentralen Grenzwertsatz. Die erste Eigenschaft kennen wir bereits von den momenterzeugenden Funktionen (Satz 5.21): angige, d-dimensionale reelle ZufallsvariaSatz 7.9. Sind X1 , . . . , Xn unabh¨ n Xi , so gilt: blen und S := i=1
ϕS = ϕX1 · . . . · ϕXn . Beweis. Der Beweis ist genau der gleiche wie bei den momenterzeugenden Funktionen. Nach Lemma 5.20 und dem Produktsatz 5.13 gilt f¨ ur jedes t ∈ Rn : ϕS (t) = E[exp(it, S)] = E[exp(it, X1 ) · . . . · exp(it, Xn )] = E[exp(it, X1 )] · . . . · E[exp(it, Xn )] = ϕX1 (t) · . . . · ϕXn (t). Beispiel 7.10. Ist X eine diskret verteilte Zufallsvariable mit Z¨ahldichte f , so wird aus dem Integral wie immer eine Summe u ¨ber den Tr¨ager T . Wir erhalten als charakteristische Funktion von X: exp(itx)f (x), t ∈ R. ϕX (t) = x∈T
Betrachten wir als Beispiel unabh¨ angige, identisch B(1, p)-verteilte Zufallsvan Xk , so folgt aus dem obigen Satz: riablen X1 , . . . , Xn und setzen X := k=1 n
ϕX (t) = ϕX1 (t) · . . . · ϕXn (t) =
[(1 − p) + exp(it)p]
k=1 n
= [(1 − p) + exp(it)p]n =
k=0
n k exp(itk) p (1 − p)n−k . k
Dies ist gerade die charakteristische Funktion einer B(n, p)-verteilten Zufallsvariablen. Greifen wir auf den Eindeutigkeitssatz 7.13 vor, so folgt, dass n ♦ X = k=1 Xk B(n, p)-verteilt ist.
184
7 Der zentrale Grenzwertsatz
Der Stetigkeitssatz Der Stetigkeitssatz (von L´evy) verbindet die schwache Konvergenz von Wahrscheinlichkeitsmaßen mit der punktweisen Konvergenz der charakteristischen Funktionen. Dies ist der entscheidende Grund f¨ ur die N¨ utzlichkeit charakteristischer Funktionen. Wir bereiten den Beweis durch ein Lemma vor. Lemma 7.11. Ist µ ein Wahrscheinlichkeitsmaß auf R mit charakteristischer Funktion ϕ, so gilt f¨ ur jedes r > 0: 2
r µ(|x| ≥ r) ≤ 2
r
(1 − ϕ(t))dt. − r2
Beweis. F¨ ur jedes c > 0 ist Integration liefert daher: c −c
| sin(cx)| |cx|
≤
1 2,
wenn |cx| ≥ 2. Eine elementare
sin(cx) (1 − exp(itx))dt = 2c 1 − cx
0 f¨ ur |cx| < 2, ≥ c f¨ ur |cx| ≥ 2.
Mit dem Satz von Fubini 2.24 folgt: c
c (1 − ϕ(t))dt = −c
=
⎛ ⎝
(1 − exp(itx))dµ(x) dt
−c
c
(1 − exp(itx))dt⎠ dµ(x)
−c
sin(cx) 2c 1 − cx
=
⎞
dµ(x) +
{|cx|≥2}
sin(cx) 2c 1 − cx
dµ(x)
{|cx|<2}
≥ c · µ(|cx| ≥ 2). Setzen wir c = 2r , folgt die Behauptung.
Theorem 7.12 (Stetigkeitssatz von L´ evy). Es seien µ, (µn ) Wahrscheinorigen charakteristischen Funktiolichkeitsmaße auf Rd und ϕ, (ϕn ) die zugeh¨ nen. Dann gilt. w
µn −→ µ genau dann, wenn ϕn (t) → ϕ(t) f¨ ur alle t ∈ Rd . F¨ ur den Beweis erinnern wir an eine aus der Analysis bekannte Aussage u ¨ber periodische Funktionen. Eine Funktion
7.2 Charakteristische Funktionen
185
T : Rd → R, [ak cos(k, x) + bk sin(k, x)] x → k∈Zn
mit ak = 0, bk = 0 f¨ ur fast alle k ∈ Zd heißt trigonometrisches Polynom. Der Approximationssatz von Weierstraß f¨ ur periodische Funktionen, siehe z.B. [K¨ on01], besagt, dass es zu jeder stetigen Funktion f : Rd → R mit Periode 2π in jeder Koordinate und ε > 0 ein trigonometrisches Polynom T gibt, so dass |f (x) − T (x)| < ε f¨ ur alle x ∈ Rd .
(7.6)
Bevor wir mit dem eigentlichen Beweis beginnen, bemerken wir noch, dass aus ϕn (t) → ϕ(t) f¨ ur alle t ∈ Rd f¨ ur jedes trigonometrische Polynom T dµn −→ T dµ (7.7) folgt. w
Beweis (von Theorem 7.12). Gilt µn −→ µ, so folgt nach Definition der schwaur chen Konvergenz ϕn (t) → ϕ(t), da Real- und Imagin¨arteil von exp(it, x) f¨ ankt und stetig sind. jedes t ∈ Rd beschr¨ ur alle t ∈ Rd . Aus |ϕn |, |ϕ| ≤ 1 folgt mit Umgekehrt sei ϕn (t) → ϕ(t) f¨ dem Satz von der dominierten Konvergenz, Satz 7.8 (iii) und Lemma 7.11 f¨ ur jedes r > 0 und c ∈ Rd : 2
r lim sup µn ({x ∈ R : |c, x| > r}) ≤ lim n→∞ 2 n→∞
r
(1 − ϕn (sc))ds
d
=
r 2
− r2
2 r
(1 − ϕ(sc))ds. − r2
Da ϕ stetig ist, ist ϕ insbesondere in 0 stetig. Wegen ϕ(0) = 1 folgt 2
r
(1 − ϕ(sc))ds −→ 0, r→∞
− r2
so dass wir lim sup µn ({x ∈ Rd : |c, x| > r}) −→ 0 n→∞
r→∞
bewiesen haben. Setzen wir f¨ ur c jeweils einen Einheitsvektor im Rd ein, so k¨ onnen wir zu gegebenem ε > 0 ein r > 0 finden, so dass µn ({x ∈ Rd : x2 > r}) < ε f¨ ur alle n ∈ N und gleichzeitig µ({x ∈ Rd : x2 > r}) < ε gilt.
186
7 Der zentrale Grenzwertsatz
Sei nun f : Rd → R eine beschr¨ ankte und stetige Funktion, es gelte etwa |f | ≤ K f¨ ur ein K ∈ R+ . Wir haben f dµn −→ f dµ zu zeigen. Unsere Strategie ist die folgende: Wir machen f k¨ unstlich periodisch und approximieren es dann nach dem Approximationssatz von Weierstraß durch ein trigonometrisches Polynom T . Da gem¨ aß (7.7) die Aussage f¨ ur T stimmt, gilt sie bis auf ein ε auch f¨ ur f . Sei also fr := f |{x ∈ Rd : x2 ≤ r}, und fp : Rd → R eine stetige Fortsetzung von fr mit |fp | ≤ K und Periode 2πr in jeder Koordinate. Nach Konstruktion ist dann in der Supremumsnorm ·: (f − fp )I{x∈Rd : x 2 ≤r} = 0 und f − fp ≤ 2K. Nach dem Approximationssatz von Weierstrass gibt es gem¨aß (7.6) ein trigonometrisches Polynom g mit Periode 2π, so dass f¨ ur T (x) := g( xr ) mit Periode 2πr gilt: fp − T < ε. Zusammenfassend erhalten wir: f dµn − T dµn = (f − fp )dµn − (T − fp )dµn ≤ (f − fp )I{ x 2 ≤r} dµn + (f − fp )I{ x 2 >r} dµn + (T − fp )dµn ≤ 0 + f − fp µn ({x2 > r}) + ε ≤ 0 + 2Kε + ε = (2K + 1)ε. Ersetzen wir µn durch µ, erhalten wir genauso: f dµ − T dµ ≤ (2K + 1)ε. Damit folgt schließlich: f dµn − f dµ ≤ ≤ (f − T )dµn + T dµn − T dµ + T dµ − f dµ ≤ 2(2K + 1)ε + T dµn − T dµ −→ 2(2K + 1)ε. n→∞
Da dies f¨ ur jedes ε > 0 gilt, folgt w Konvergenz µn −→ µ.
f dµn →
f dµ und damit die schwache
Eindeutigkeit Eine einfache, aber wichtige Konsequenz des Stetigkeitssatzes ist die Tatsache, dass das Wahrscheinlichkeitsmaß µ durch seine charakteristische Funktion ϕ eindeutig festgelegt ist. Schließlich rechtfertigt dies den Namen dieser Funktionen.
7.2 Charakteristische Funktionen
187
Satz 7.13. Es seien µ und ν zwei Wahrscheinlichkeitsmaße auf Rd mit charakteristischen Funktionen ϕ und ψ: Ist ϕ = ψ, so folgt µ = ν. Beweis. Wir setzen µn := ν, n ∈ N. F¨ ur die charakteristischen Funktionen folgt ur alle t ∈ Rd , ϕn (t) = ψ(t) −→ ψ(t) = ϕ(t) f¨ w
und somit nach Theorem 7.12: µn = ν −→ µ, also µ = ν.
Charakteristische Funktionen und Momente Wir wissen bereits von den momenterzeugenden Funktionen, dass es einen Zusammenhang der n-ten Ableitungen zu den n-ten Momenten gibt, vgl. Satz 4.21. Daher kann es nicht u ¨berraschen, dass ein ¨ahnlicher Zusammenhang auch bei den charakteristischen Funktionen existiert. Um dies zu zeigen, ben¨otigen wir die folgende Absch¨ atzung: Lemma 7.14. F¨ ur den Restterm Rn der Exponentialreihe Rn (x) := exp(ix) −
n (ix)k
k!
k=0
gilt: |Rn (x)| ≤
x ∈ R, n ∈ N0 ,
,
|x|n+1 2|x|n ∧ , n! (n + 1)!
x ∈ R, n ∈ N0 .
Beweis. Wir f¨ uhren den Beweis per Induktion. F¨ ur n = 0 gilt x R0 (x) = exp(ix) − 1 =
i exp(iy)dy. 0
Aus der ersten und der zweiten Gleichung folgt |R0 (x)| ≤ 2 und |R0 (x)| ≤ |x|, und damit der Induktionsanfang. Beachten wir x Rn+1 (x) = i
Rn (y)dy, 0
so folgt f¨ ur n ≥ 0:
188
7 Der zentrale Grenzwertsatz
x |Rn+1 (x)| ≤
2|x|n+1 2|y|n dy ≤ und n! (n + 1)!
0
x |Rn+1 (x)| ≤
|x|n+2 |y|n+1 dy ≤ . (n + 1)! (n + 2)!
0
F¨ ur den sp¨ ateren Gebrauch schreiben wir die F¨alle n = 0, 1, 2 explizit auf. F¨ ur jedes x ∈ R gilt: | exp(ix) − 1|
≤ 2 ∧ |x|,
| exp(ix) − (1 + ix)| ≤ 2|x| ∧ 12 x2 , 1 | exp(ix) − (1 + ix − x2 )| ≤ x2 ∧ 16 |x|3 . 2
(7.8) (7.9) (7.10)
Im n¨ achsten Korollar wenden wir die Absch¨ atzung des Restglieds der Exponentialreihe auf charakteristische Funktionen an. Korollar 7.15. Ist X eine reelle Zufallsvariable mit E(|X|n ) < ∞ f¨ ur ein n ∈ N, dann gilt f¨ ur die charakteristische Funktion ϕ = ϕX : n 2|tX|n |tX|n+1 (it)k k E(X ) ≤ E ∧ f¨ ur alle t ∈ R. ϕ(t) − k! n! (n + 1)! k=0
ur jedes fest Insbesondere gibt es im Fall n = 2 und E(X) = 0, σ 2 = E(X 2 ) f¨ gew¨ ahlte t ∈ R ein geeignetes c(t) > 0, so dass gilt: ϕ(t) − 1 + 1 t2 σ 2 ≤ c(t)E[X 2 (1 ∧ |X|)]. 2 Beweis. Die erste Aussage ist eine unmittelbare Folgerung aus Lemma 7.14. F¨ ur die zweite Behauptung ist nur zu beachten, dass mit c(t) := t2 ∨ 16 |t|3 gilt: ϕ(t) − 1 + 1 t2 σ 2 ≤ E (tX)2 ∧ 1 |tX|3 2 6 ≤ c(t)E[X 2 (1 ∧ |X|)]. Diese Absch¨ atzungen erlauben uns, die Ableitungen der charakteristischen Funktionen zu bestimmen. ur ein Satz 7.16. Es sei X eine reelle Zufallsvariable mit E(|X|n ) < ∞ f¨ n ∈ N. Dann ist die charakteristische Funktion ϕ = ϕX n-mal differenzierbar und f¨ ur jedes k ≤ n gilt:
7.2 Charakteristische Funktionen
* + ϕ(k) (t) = E (iX)k exp(itX) ,
189
t ∈ R,
und daher insbesondere ϕ(k) (0) = ik E[X k ]. Beweis. Beginnen wir mit n = 1. Wir bestimmen f¨ ur h > 0 den Differenzenquotienten: ϕ(t + h) − ϕ(t) exp(ihX) − 1 − ihX − E[iX exp(itX)] = E exp(itX) . h h Nach (7.9) ist
und
exp(itX) exp(ihX) − 1 − ihX ≤ 2|X| h exp(itX) exp(ihX) − 1 − ihX ≤ 1 |X|2 |h| −→ 0. 2 h→0 h
Daher folgt mit E(|X|) < ∞ aus dem Satz von der dominierten Konvergenz, dass exp(ihX) − 1 − ihX −→ 0. E exp(itX) h→0 h Also ist ϕ differenzierbar mit ϕ (t) = E[iX exp(itX)]. Wendet man exakt die gleiche Argumentation auf die Funktion ϕ(k) , k ≥ 1, an, erh¨alt man per Induktion die behauptete Darstellung der k-ten Ableitungen. Das Momente-Problem Wir haben in Satz 4.26 f¨ ur den Spezialfall diskreter, endlicher Zufallsvariablen gezeigt, dass die momenterzeugende Funktion die Verteilung eindeutig festlegt. Wir wollen diese Frage jetzt in gr¨ oßerer Allgemeinheit beantworten. Wir erinnern daran, dass die momenterzeugende Funktion einer reellen Zufallsvariablen X gegeben ist durch M : D → R,
M (s) = E[exp(sX)],
wobei der Definitionsbereich D = {s ∈ R : E[exp(sX)] < ∞} ein Intervall ist. Ist f¨ ur ein a > 0 das offene Intervall ] − a, a[ ⊂ D, so bestimmt M nach Satz 4.21 die Momente eindeutig. Wir werden sehen, dass in diesem Fall auch schon die Verteilung von X eindeutig durch ihre Momente bestimmt ist. Wir betrachten zun¨ achst den Fall ] − a, a[ = R. In diesem Fall k¨onnen wir leicht mit Hilfe des folgenden Lemmas argumentieren:
190
7 Der zentrale Grenzwertsatz
Lemma 7.17. Es sei X eine reelle Zufallsvariable mit E(|X|n ) < ∞ f¨ ur alle n ∈ N und charakteristischer Funktion ϕ. Ist f¨ ur ein t0 ∈ R |t0 |n E(|X|n ) = 0, n→∞ n! lim
(7.11)
so hat ϕ in t0 die Darstellung: ϕ(t0 ) =
∞ (it0 )k k=0
k!
E(X k ).
Beweis. Dies ist eine unmittelbare Folgerung aus Korollar 7.15.
Damit k¨ onnen wir die Frage nach der Eindeutigkeit der Verteilung im Fall D = R beantworten: Korollar 7.18. Es sei X eine reelle Zufallsvariable mit momenterzeugender Funktion M : D → R und charakteristischer Funktion ϕ. Ist D = R, so ist ϕ(t) =
∞ (it)k k=0
k!
E(X k )
f¨ ur alle t ∈ R,
(7.12)
und die Verteilung von X ist eindeutig durch ihre Momente bestimmt. Beweis. Ist D = R, so k¨ onnen wir genau wie im Beweis von Satz 4.21 den Satz von der dominierten Konvergenz auf die Folge der Partialsummen anwenden und erhalten f¨ ur jedes t ∈ R ∞ |t|k k=0
k!
E(|X|k ) = E(exp(|tX|) < ∞.
Daraus folgt
|t|n E(|X|n ) = 0 f¨ ur alle t ∈ R, n→∞ n! und damit nach Lemma 7.17 die behauptete Darstellung von ϕ f¨ ur alle t ∈ R. Also ist ϕ durch die Momente eindeutig festgelegt und nach Satz 7.13 auch PX . lim
Ist die momenterzeugende Funktion M nicht auf ganz R definiert, so k¨onnen wir im Allgemeinen ϕ nicht auf ganz R in der Form (7.12) schreiben und daher nicht mehr direkt von der Eindeutigkeit von ϕ auf die Bestimmtheit durch die Momente schließen. Die Aussage bleibt im Fall ] − a, a[ ⊂ D dennoch richtig, wie der n¨ achste Satz zeigt: Satz 7.19. Es sei X eine reelle Zufallsvariable mit momenterzeugender Funktion M : D → R und charakteristischer Funktion ϕ. Ist ] − a, a[ ⊂ D f¨ ur ein a > 0, so ist PX eindeutig durch seine Momente bestimmt.
7.2 Charakteristische Funktionen
191
Beweis. Nach Voraussetzung hat M mit Satz 4.21 die Darstellung M (s) =
∞ sk k=0
k!
E(X k ),
s ∈ ] − a, a[. k
Insbesondere gibt es ein 0 < u < 1 mit uk! E(X k ) → 0. Wir w¨ahlen ein 0 < r < u und folgern, dass es ein k0 gibt, so dass 2k ≤ r ·
u 2k r
f¨ ur alle k ≥ k0 ,
oder a ¨quivalent 2kr2k−1 ≤ u2k
f¨ ur alle k ≥ k0 .
(7.13)
Durch Integration der Ungleichung |x|2k−1 ≤ 1 + |x|2k f¨ ur alle x ∈ R, erhalten wir E(|X|2k−1 ) ≤ 1 + E(|X|2k ). Multiplizieren wir beide Seiten mit so folgt f¨ ur k ≥ k0 :
r 2k−1 (2k−1)!
und verwenden Ungleichung (7.13),
E(|X|2k−1 )r2k−1 r2k−1 E(|X|2k )u2k ≤ + (2k − 1)! (2k − 1)! (2k)! r2k−1 E(X 2k )u2k = + −→ 0. k→∞ (2k − 1)! (2k)! Aus E(|X|2k ) = E(X 2k ) f¨ ur alle k ∈ N folgt insgesamt E(|X|k )rk −→ 0 f¨ ur ein r > 0. k! Nach Lemma 7.14 gilt f¨ ur alle t, h, x ∈ R: n |hx|n+1 (ihx)k . exp(itx) exp(ihx) − ≤ (n + 1)! k! k=0
Setzen wir x = X und bilden den Erwartungswert, so erhalten wir mit Satz 7.16 f¨ ur die charakteristische Funktion ϕ von X und |h| < r: n hk k E[(iX) exp(itX)] ϕ(t + h) − k! k=0 n hk (k) |h|n+1 E(|X|n+1 ) = ϕ(t + h) − ϕ (t) ≤ −→ 0. n→∞ k! (n + 1)! k=0
192
7 Der zentrale Grenzwertsatz
Damit ist es gelungen, ϕ auf einem Radius r als Potenzreihe darzustellen: ϕ(t + h) =
∞ ϕ(k) (t) k=0
k!
hk ,
|h| ≤ r.
Ist Y eine weitere reelle Zufallsvariable mit den Momenten E(Y k ) = E(X k ) f¨ ur alle k ∈ N und charakteristischer Funktion ψ, so ergibt genau die gleiche Argumentation die Darstellung ψ(t + h) =
∞ ψ (k) (t) k=0
k!
hk ,
|h| ≤ r.
F¨ ur t = 0 gilt nach Satz 7.16 ϕ(k) (0) = ik E(X k ) = ψ (k) (0) f¨ ur alle k ∈ N. Also gilt ϕ(h) = ψ(h) f¨ ur alle h ∈ ]−r, r[ und damit auch ϕ(k) (h) = ψ (k) (h) f¨ ur alle h ∈ ] − r, r[ und k ∈ N. Daher folgt aber aus obigen Reihendarstellungen f¨ ur ϕ und ψ, dass ϕ(t) = ψ(t) f¨ ur alle t ∈ ] − 2r + ε, 2r − ε[ f¨ ur jedes ε > 0 und somit ϕ und ψ f¨ ur alle t ∈ ] − 2r, 2r[ u ¨bereinstimmen. Also gilt das gleiche wiederum auch f¨ ur alle Ableitungen, und wir k¨onnen genauso auf ] − 3r, 3r[ etc. schließen. Daher gilt ϕ = ψ, also PX = PY . Beispiel 7.20 (nicht durch Momente bestimmte Verteilung). Dieses Beispiel zeigt, dass nicht jede Verteilung durch ihre Momente eindeutig bestimmt ist. Das klassische Gegenbeispiel ist die Lognormalverteilung mit ihrer Dichte (ln x)2 √1 1 exp − f¨ ur x > 0, x 2 2π f : R → R+ , f (x) = 0 f¨ ur x ≤ 0. Wir haben in Beispiel 4.25 gesehen, dass f¨ ur eine lognormalverteilte Zufalls2 variable Y E(Y n ) = exp( n2 ) < ∞ f¨ ur alle n ∈ N gilt. Neben der Dichte f betrachten wir die Funktion g: f (x)(1 + sin(2π ln x)) f¨ ur x > 0, g : R → R+ , g(x) := 0 f¨ ur x ≤ 0. Offensichtlich ist g ≥ 0 und g(x) = 0 f¨ ur x ≤ 0. Wir zeigen, dass ∞ xk f (x) sin(2π ln x)dx = 0
f¨ ur alle k ∈ N0 .
(7.14)
0
F¨ ur k = 0 folgt, dass mit f auch g eine Dichtefunktion ist. F¨ ur k > 0 folgt hingegen, dass die Momente einer mit der Dichte g verteilten Zufallsvariablen
7.2 Charakteristische Funktionen
193
die gleichen sind wie die Momente von Y . Um (7.14) zu zeigen, substituieren wir 1 dz = , z = ln x − k, dx x und erhalten ∞ xk f (x) sin(2π ln x)dx 0
∞ (exp(z + k))k f (exp(z + k)) sin(2π(z + k)) exp(z + k)dz
= −∞
1 = √ 2π
∞ −∞
1 = √ exp 2π
1 exp(kz + k 2 ) exp(− (z + k)2 ) sin(2πz)dz 2
k2 2
∞ exp(− −∞
z2 ) sin(2πz)dz = 0, 2
da der Integrand eine ungerade Funktion ist. Wir k¨ onnen jetzt aus Satz 7.19 schließen, dass die momenterzeugende Funktion MY auf keinem Intervall ] − a, a[ mit a > 0 existiert. Genauer ur s = 0 definiert ist. ♦ gilt, dass MY (s) nur f¨ Beispiele charakteristischer Funktionen Ist X eine reelle Zufallsvariable mit Dichtefunktion f , so ergibt sich f¨ ur die charakteristische Funktion von X: ∞ ϕ(t) = E[exp(itX)] =
exp(itx)f (x)dx. −∞
Ist X diskret mit Tr¨ ager T , so folgt ϕ(t) = E[exp(itX)] =
exp(itx)f (x).
x∈T
Wir berechnen einige Beispiele. Beispiel 7.21. Um mit einem diskreten Beispiel zu beginnen, sei X Poissonverteilt, also mit der Z¨ ahldichte f (n) = exp(−λ)
λn , n!
Wir erhalten als charakteristische Funktion:
n ∈ N0 .
194
7 Der zentrale Grenzwertsatz
ϕ(t) = exp(−λ)
n∈N0
∞
(exp(it)λ)n λn = exp(−λ) exp(itn) n! n! n=0 = exp[(exp(it) − 1)λ]. ♦
Beispiel 7.22. Sei X auf einem Intervall [a, b] gleichverteilt. Dann besitzt X f¨ ur a, b ∈ R, a < b, die Dichtefunktion f (x) =
1 I[a,b] (x), b−a
x ∈ R.
Wir erhalten als charakteristische Funktion: exp(itb) − exp(ita) 1 ϕ(t) = , exp(itx)I[a,b] (x)dx = b−a it(b − a)
t = 0. ♦
Dabei ist, wie f¨ ur jede charakteristische Funktion, ϕ(0) = 1. Beispiel 7.23. Sei X Exp(λ)-verteilt mit der Dichte f (x) = λ exp(−λx),
x > 0.
Wir erhalten als charakteristische Funktion wiederum durch direkte Integration: ∞ λ ϕ(t) = λ exp(itx) exp(−λx)dx = . λ − it 0
Alternativ k¨ onnen wir die charakteristische Funktion als Reihe berechnen. Gem¨ aß Beispiel 4.23 besitzt X eine f¨ ur t < λ definierte momenterzeugende Funktion, so dass wir nach Satz 7.17 erhalten: ϕ(t) =
∞ (it)k k=0
k!
λ
−k
k! =
∞ k it k=0
λ
=
1 1−
it λ
=
λ , λ − it
So erh¨ alt man allerdings nur die Darstellung f¨ ur t < λ.
t < λ. ♦
Wir haben einige charakteristische Funktionen in Tabelle 7.1 zusammengestellt. Die Herleitung der charakteristischen Funktion f¨ ur die Normalverteilung behandeln wir im n¨ achsten Abschnitt.
7.3 Die Normalverteilung In diesem Abschnitt besch¨ aftigen wir uns noch einmal ausf¨ uhrlich mit der Normalverteilung. Wir haben bereits darauf hingewiesen, dass die Normalverteilung sowohl in theoretischer als auch in praktischer Hinsicht von zentraler
7.3 Die Normalverteilung
Verteilung
Dichte
1. Poissonvert.
195
Tr¨ ager
charakt. Funktion
exp(−λ) λn!
N0
exp[(exp(it) − 1)λ]
2. Gleichverteilung
1 I b−a [a,b]
[a, b]
exp(itb)−exp(ita) it(b−a)
3. Exponentialvert.
λ exp(−λx)
R+
λ λ−it
4. Normalvert.
√1 2πσ
R
2 2 exp(itm) exp − σ 2t
n
2 exp − (x−m) 2σ 2
Tabelle 7.1. Charakteristische Funktionen
Bedeutung ist. Wir erinnern zun¨ achst an die Definition der n-dimensionalen Normalverteilung N(m, C). Sie ist f¨ ur einen Vektor m ∈ Rn und eine positiv n,n gegeben durch die Dichtefunktion definite Matrix C ∈ R (x − m) C−1 (x − m) 1 · exp − f : Rn → R, x → ' , 2 (2π)n det(C) so dass f¨ ur eine N(m, C)-verteilte Zufallsvariable X gilt: b P(a ≤ X ≤ b) =
f (x)dx. a
Wir haben bereits in Satz 4.33 gezeigt, dass f¨ ur jede positiv definite Matrix mit Zerlegung BB = C und m ∈ Rn gilt: Ist X N(0, In )-verteilt, so ist Y := BX + m N(m, C)-verteilt. Wir wollen im Laufe dieses Abschnitts die charakteristische Funktion einer N(m, C)-verteilten Zufallsvariable bestimmen und damit eine Charakterisierung normalverteilter Zufallsvariablen herleiten. Wir gehen dazu Schritt f¨ ur Schritt von der eindimensionalen Standardnormalverteilung zur n-dimensionalen allgemeinen Normalverteilung. Die eindimensionale Standardnormalverteilung Von nun an werden wir mit dem griechischen Buchstaben χ eine N(0, 1)-verteilte Zufallsvariable bezeichnen. Die Standardnormalverteilung ist, wie wir sehen werden, der Grundbaustein, auf dem jede weitere Normalverteilung aufbaut. Ihre Dichte haben wir mit
196
7 Der zentrale Grenzwertsatz
φ : R → R,
2 x 1 x → √ exp − 2 2π
bezeichnet und ihre Verteilungsfunktion mit Φ(t) = P(χ ≤ t). Satz 7.24. Die standardnormalverteilte Zufallsvariable χ besitzt die charakteristische Funktion 2 t . ϕχ : R → C, ϕχ (t) = exp − 2 Beweis. Wir haben in Beispiel 4.24 gezeigt, dass die momenterzeugende Funktion von χ auf ganz R definiert ist und χ die Momente E(χ2n ) = 1 · 3 · . . . · (2n − 1),
E(χ2n−1 ) = 0,
n ∈ N,
hat. Nach Korollar 7.18 folgt: ϕχ (t) =
2 2 k ∞ 1 t t 1 · 3 · . . . · (2k − 1) = = exp − − . (2k)! k! 2 2
∞ (it)2k k=0
k=0
Die eindimensionale Normalverteilung oße. Wir wissen bereits, dass gilt: Sei Y eine N(m, σ 2 )-verteilte Zufallsgr¨ d
Y = σχ + m. Damit k¨ onnen wir die charakteristische Funktion von Y leicht ausrechnen: Satz 7.25. Ist Y N(m, σ 2 )-verteilt, so hat Y die charakteristische Funktion σ 2 t2 ϕY : R → C, ϕY (t) = exp(itm) exp − . 2 Beweis. Nach Satz 7.8 gilt f¨ ur die charakteristische Funktion ϕY = ϕσχ+m : σ 2 t2 ϕσχ+m (t) = exp(itm)ϕχ (σt) = exp(itm) exp − . 2 Die Eindeutigkeit charakteristischer Funktionen erlaubt uns, weitere Zufallsvariablen als normalverteilt zu erkennen. Satz 7.26. Es seien n unabh¨ angige reelle Zufallsvariablen X1 , . . . , Xn gegeben sowie λ, m, σ ∈ Rn , λ = 0. Sind Xk N(mk , σk2 )-verteilt, k = 1, . . . , n, dann ist die Linearkombination n n Y := λ1 X1 + . . . + λn Xn N λ k mk , λ2k σk2 -verteilt. k=1
k=1
7.3 Die Normalverteilung
197
Beweis. Wir berechnen die charakteristische Funktion von Y . Da X1 , . . . , Xn unabh¨ angig sind, folgt mit Satz 7.9: 2 2 2 λ σ t exp(itλk mk ) exp − k k 2 k=1 k=1 ⎛ ⎞ n n λ 2 σ 2 t2 ⎜ k=1 k k ⎟ ⎟. λk mk exp ⎜ = exp it ⎝− ⎠ 2
ϕY (t) =
n
ϕλk Xk (t) =
n
k=1
Dies Satz n ist nach 7.25 die charakteristische Funktion einer n 2 2 N λ k mk , λk σk -verteilten Zufallsvariable, so dass aus der Eindeuk=1
k=1
tigkeit der charakteristischen Funktion, Satz 7.13, die Behauptung folgt.
Die n-dimensionale Standardnormalverteilung Ist X N(0, In )-verteilt, so besitzt X die Dichte
2
x f : R → R, x → ' · exp − n 2 (2π) n
1
,
X wird in diesem Fall als n-dimensional standardnormalverteilt bezeichnet. Dieser Name ist aus zwei Gr¨ unden gerechtfertigt. Zum einen gilt nat¨ urlich X = χ, wenn n = 1 ist. Den zweiten Grund liefert der nachfolgende Satz: angige, identisch N(0, 1)-verteilte ZuSatz 7.27. Es seien X1 , . . . , Xn unabh¨ fallsvariablen. Dann ist X = (X1 , . . . , Xn ) N(0, In )-verteilt. Beweis. Nach Korollar 5.11 besitzt X die Dichte 2 n n 2
1
xk x 1 φ(xk ) = √ n exp − f (x1 , . . . , xn ) = = √ n exp − 2 2 2π k=1 2π k=1 und ist damit N(0, In )-verteilt.
Die Umkehrung dieses Satzes ist ebenfalls richtig, wie wir in K¨ urze sehen werden: Ist X N(0, In )-verteilt, so sind die Koordinaten unabh¨angig und standardnormalverteilt. Zun¨ achst berechnen wir die charakteristischen Funktionen. Satz 7.28. Ist X N(0, In )-verteilt, so gilt f¨ ur die charakteristische Funktion: 2 t n . ϕX : R → C, ϕX (t) = exp − 2
198
7 Der zentrale Grenzwertsatz
Beweis. Es seien Y1 , . . . , Yn unabh¨ angige und identisch N(0, 1)-verteilte Zufallsvariablen. Dann gilt nach Satz 7.27 und Satz 7.24: ϕX (t) = ϕ(Y1 ,...,Yn ) (t) = E[exp(it, (Y1 , . . . , Yn ))] ) ( n 2 n n 2
tk t . exp(itk Yk ) = ϕYk (tk ) = exp − =E = exp − 2 2 k=1
k=1
k=1
Die allgemeine n-dimensionale Normalverteilung Genau wie im eindimensionalen Fall erhalten wir die charakteristische Funktion der allgemeinen n-dimensionalen Verteilung aus der n-dimensionalen Standardnormalverteilung und den Transformationsgesetzen f¨ ur charakteristische Funktionen. Satz 7.29. Sei Y N(m, C)-verteilt. Dann gilt f¨ ur die charakteristische Funktion: 1 n ϕY : R → C, ϕY (t) = exp(it, m) exp − t Ct . 2 d
Beweis. Es gilt Y = BX + m, wobei X N(0, In )-verteilt und BB = C ist. Daher folgt mit Satz 7.8: ϕY (t) = ϕBX+m (t) = exp(it, m)ϕX (B t) B t2 t, Ct = exp(it, m) exp − = exp(it, m) exp − 2 2 1 = exp(it, m) exp − t Ct . 2 Wir erkennen bereits an der Dichtefunktion einer Normalverteilung, dass diese durch m und C eindeutig bestimmt ist. Die charakteristische Funktion best¨ atigt dies. Wir wollen jetzt die Bedeutung der einzelnen Eintr¨age von m und C kl¨ aren. Dazu bestimmen wir die Randverteilungen. Satz 7.30. Es sei Y = (Y1 , . . . , Yn ) N(m, C)-verteilt, m ∈ Rn , und die Matrix ur die Randverteilungen C = (cjk )1≤j,k≤n ∈ Rn,n positiv definit. Dann folgt f¨ Yk : Yk ist N(mk , ckk )-verteilt, k = 1, . . . , n. Beweis. Wir bestimmen die charakteristische Funktion von Yk . Diese ergibt sich durch Einsetzen von tk = (0, . . . , t, . . . , 0) mit t ∈ R an der k-ten Stelle in die charakteristische Funktion von Y :
7.3 Die Normalverteilung
1 ϕYk (t) = ϕY (tk ) = exp(itk , m) exp − t Ctk 2 k
199
1 2 = exp(itmk ) exp − t ckk . 2
Mit Satz 7.25 und der Eindeutigkeit der charakteristischen Funktion folgt die Behauptung. F¨ ur den Erwartungswertvektor E(Y ) erhalten wir also E(Y ) = m = (E(Y1 ), . . . , E(Yn )) und f¨ ur die Kovarianzmatrix Cov(Y ) Cov(Y )kk = ckk = V(Yk ) = Cov(Yk , Yk ),
k = 1, . . . , n.
Unsere Schreibweise l¨ asst schon vermuten, welche Bedeutung die u ¨brigen Eintr¨age von C haben: Satz 7.31. Es sei Y = (Y1 , . . . , Yn ) N(m, C)-verteilt, C = (cjk )1≤j,k≤n ∈ Rn,n positiv definit. Dann gilt: E(Y ) = m und Cov(Y )kj = Cov(Yk , Yj ) = ckj ,
k, j = 1, . . . , n.
Beweis. Es verbleibt lediglich die Behauptung f¨ ur die Elemente von Cov(Y ) zu d
zeigen. Dazu sei wieder Y = BX + m, mit B B = C und X = (X1 , . . . , Xn ), angig und standardnormalverteilt. Dann ist X1 , . . . , Xn unabh¨ d
Yk =
n
bkl Xl + mk ,
k = 1, . . . , n,
l=1
und daher wegen der Unabh¨ angigkeit der Xk : ⎞ ⎛ n n ⎠ ⎝ E(Yk Yj ) = E bkl bjm Xl Xm + mj E bkl Xl l,m=1
+mk E
n
l=1
bjm Xm
+ m k mj
m=1
=
=
n
bkl bjm E(Xl Xm ) + mk mj
l,m=1 n
bkl bjl + mk mj
l=1
= ckj + E(Yk )E(Yj ). Eine weitere, erstaunliche Eigenschaft der Normalverteilung ist, dass aus der Unkorreliertheit der Randverteilungen bereits ihre Unabh¨angigkeit folgt. F¨ ur den Beweis ben¨ otigen wir die charakteristische Funktion des Produktmaßes:
200
7 Der zentrale Grenzwertsatz
Lemma 7.32. Sind µ1 , . . . , µn reelle Wahrscheinlichkeitsmaße, so gilt: ϕµ1 ⊗...⊗µn (t) =
n
t = (t1 , . . . , tn ) ∈ Rn .
ϕµk (tk ),
k=1
Beweis. Dies folgt unmittelbar aus dem Satz von Fubini 2.24:
n exp(itk xk ) d(µ1 ⊗ . . . ⊗ µn ) ϕµ1 ⊗...⊗µn (t) = k=1
=
n
exp(itk xk )dµk =
k=1
n
ϕµk (tk ).
k=1
Satz 7.33. Es sei Y = (Y1 , . . . , Yn ) N(m, C)-verteilt, C = (cjk )1≤j,k≤n ∈ Rn,n positiv definit. Dann gilt: Y1 , . . . , Yn sind genau dann unabh¨ angig, wenn ur alle k = j. ckj = Cov(Yk , Yj ) = 0 f¨ Beweis. Aus der Unabh¨ angigkeit folgt die Unkorreliertheit der Randverteilungen, zu zeigen bleibt die Umkehrung. Nach Voraussetzung ist C eine Diagonalmatrix, daher erhalten wir als charakteristische Funktion:
n 1 1 2 2 exp(itk mk ) exp − ckk tk ϕY (t) = exp(it, m) exp − t Ct = 2 2 =
k=1 n
ϕYk (tk ).
k=1
Dies ist aber nach Lemma 7.32 die charakteristische Funktion des Produktmaßes, so dass aus der Eindeutigkeit der charakteristischen Funktion PY =
n
PYk
k=1
und daher nach Satz 5.12 die Unabh¨ angigkeit von Y1 , . . . , Yn folgt.
Beispiel 7.34. Wir haben bereits gesehen, dass wir n standardnormalverteilte, unabh¨ angige Zufallsvariablen X1 , . . . , Xn zu einer N(0, In )-verteilten Zufallsvariable zusammensetzen k¨ onnen. Die Umkehrung folgt ebenfalls. Ist n¨amlich X = (X1 , . . . , Xn ) N(0, In )-verteilt, so folgt aus Satz 7.30, dass jedes Xk N(0, 1)-verteilt ist und aus 7.33, dass die Zufallsvariablen X1 , . . . , Xn unabh¨ angig sind. ♦
7.4 Der zentrale Grenzwertsatz
201
Charakterisierung der mehrdimensionalen Normalverteilung Unsere bisherigen Berechnungen erlauben uns, die mehrdimensionale Normalverteilung mittels der eindimensionalen Normalverteilung zu charakterisieren, also ein notwendiges und hinreichendes Kriterium anzugeben, wann eine Zufallsvariable N(m, C)-verteilt ist. Daher ist es auch m¨oglich, die Normalverteilung nicht u ¨ber ihre Dichte, sondern u ¨ber die nachfolgende Charakterisierung zu definieren. Satz 7.35. Sei Y = (Y1 , . . . , Yn ) eine n-dimensionale reelle Zufallsvariable. Dann ist Y genau dann normalverteilt, wenn f¨ ur jedes 0 = t ∈ Rn die Linearkombination t1 Y1 + . . . + tn Yn eindimensional normalverteilt ist. Beweis. Ist Y normalverteilt, so auch jede Randverteilung Yk und mit Satz 7.26 auch jede Linearkombination. Ist umgekehrt 0 = t ∈ Rn und Zt := t, Y = t1 Y1 + . . . + tn Yn normalverteilt, so folgt mit m := (E(Y1 ), . . . , E(Yn )) und C := Cov(Y ) E(Zt ) = t, m und V(Zt ) = t Ct. Damit ergibt sich f¨ ur die charakteristische Funktion von Y : 1 ϕY (t) = ϕZt (1) = exp(it, m) exp − t Ct . 2
Also ist Y N(m, C)-verteilt.
7.4 Der zentrale Grenzwertsatz Ein Spezialfall zur Motivation Der zentrale Grenzwertsatz besagt grob vereinfacht, dass eine Summe von unabh¨ angigen Zufallsvariablen in etwa standardnormalverteilt ist, wenn jeder einzelne Summand mit hoher Wahrscheinlichkeit klein ist. Um die Idee zu verdeutlichen und zu sehen, wie schwache Konvergenz und charakteristische Funktionen zusammenspielen, beginnen wir mit folgendem Spezialfall des zentralen Grenzwertsatzes: angiger, identisch verteilter ZufallsvaSatz 7.36. Sei (Xn ) eine Folge unabh¨ riablen mit der Verteilung P(X1 = +1) = P(X1 = −1) =
1 . 2
202
7 Der zentrale Grenzwertsatz
Dann gilt mit Sn := X1 + . . . + Xn : S d √n −→ χ, n
(7.15)
wobei χ eine N(0, 1)-verteilte Zufallsvariable ist. Beweis. Jedes Xn besitzt die charakteristische Funktion ϕ(t) =
1 1 exp(it) + exp(−it) = cos(t), 2 2
Daraus ergibt sich als charakteristische Funktion f¨ ur ψ(t) = ϕn
t √ n
= cosn
t √ n
t ∈ R.
Sn √ : n
,
t ∈ R.
Nach dem Stetigkeitssatz 7.12 folgt die Behauptung, wenn wir f¨ ur jedes t ∈ R 2 t t cosn √ −→ E[exp(itχ)] = exp − 2 n zeigen k¨ onnen. Ist n hinreichend groß, so ist cos √tn > 0, und wir k¨onnen ¨aquivalent zeigen: t t2 n ln cos √ −→ − . 2 n Setzen wir x =
√t , n
so folgt aus der Regel von l’Hopital:
1 − sin(x) · cos(x) t ln(cos(x)) lim n ln cos √ = lim = lim 2 x n→∞ x→0 x→0 n 2x t12 t2 =−
t2 sin(x) t2 · lim =− . 2 x→0 x 2
Die standardisierte Summe Wir haben f¨ ur die Konvergenzaussage nicht Sn sondern E
S √n n
= 0,
V
S √n n
Sn √ n
betrachtet, so dass
=1
gilt. Der zentrale Grenzwertsatz besagt, dass die schwache Konvergenz (7.15) f¨ ur eine viel gr¨ oßere Klasse von Zufallsvariablen gilt, wenn wir wiederum daf¨ ur sorgen, dass die betrachtete Summe Erwartungswert 0 und Varianz 1 hat.
7.4 Der zentrale Grenzwertsatz
203
Daher definieren wir f¨ ur eine unabh¨ angige Folge (Xn ) integrierbarer Zufallsvariablen n n Sn := Xi , s2n := V(Xi ). i=1
i=1
Der Quotient n
Sn∗
Sn − E(Sn ) := = sn
(Xi − E(Xi )) $ , n ∈ N, n V(Xi )
i=1
i=1
heißt standardisierte Summe. Aus der Definition folgt unmittelbar: E(Sn∗ ) = 0
und V(Sn∗ ) = 1
f¨ ur alle n ∈ N.
Der zentrale Grenzwertsatz Der Beweis des zentralen Grenzwertsatzes verwendet in entscheidender Weise den Stetigkeitssatz 7.12. Wir werden die behauptete schwache Konvergenz durch die punktweise Konvergenz der charakteristischen Funktionen nachweisen. Da wir Summen von Zufallsvariablen betrachten, treten Produkte von charakteristischen Funktionen auf. Um diese absch¨atzen zu k¨onnen, ben¨ otigen wir das folgende elementare Lemma: Lemma 7.37. Sind (w1 , . . . , wn ) und (z1 , . . . , zn ) zwei n-Tupel komplexer ur alle i = 1, . . . , n, so gilt: Zahlen mit |wi | ≤ 1, |zi | ≤ 1 f¨ n n n
wi ≤ |zi − wi |. zi − i=1
i=1
i=1
Beweis. F¨ ur n = 1 ist die Aussage trivial, f¨ ur n > 1 gilt: n n−1 n n−1 n−1
n−1
wi ≤ zn zi − zn wi + zn wi − wn wi zi − i=1 i=1 i=1 i=1 i=1 i=1 n−1 n−1
n−1
≤ |zn | zi − wi + wi |zn − wn | i=1 i=1 i=1 n−1 n−1
≤ zi − wi + |zn − wn |, i=1
i=1
so dass die Behauptung per Induktion u ¨ber n folgt.
204
7 Der zentrale Grenzwertsatz
Eine doppelt indizierte Folge von Zufallsvariablen {Xni : i = 1, . . . , kn , n ∈ N} heißt ein Dreiecksschema. Aus beweistechnischen Gr¨ unden ist es f¨ ur die folgende Version des zentralen Grenzwertsatzes, das Lindeberg-Theorem, einfacher, statt einer Folge von Zufallsvariablen ein Dreiecksschema zu betrachten, dessen Zeilen jeweils unabh¨ angig sind. Theorem 7.38 (Lindeberg-Theorem). Sei {Xni : i = 1, . . . , kn , n ∈ N} ur jedes ein Dreiecksschema reeller Zufallsvariablen, so dass Xn1 , . . . , Xnkn f¨ n ∈ N unabh¨ angig sind. Es gelte: kn
(i) Standardisierung:
2 E(Xnj ) = 1 und E(Xni ) = 0 f¨ ur i = 1, . . . , kn .
j=1
(ii) Lindeberg-Bedingung: kn
2 E[Xni I{|Xni |≥ε} ] −→ 0 f¨ ur alle ε > 0.
(7.16)
i=1
Dann folgt f¨ ur die standardisierten Summen Sn∗ =
kn
Xni :
i=1
Sn∗ −→ χ. d
2 2 Beweis. Wir setzen σni := E(Xni ), i = 1, . . . , kn , n ∈ N. Weiter sei f¨ ur jedes n∈N 2 )-verteilt, i = 1, . . . , kn . Zni N(0, σni
Dann ist Zn :=
kn
Zni N(0, 1)-verteilt. Ist ϕni die charakteristische Funktion i=1 ψni die charakteristische Funktion von Zni , so gen¨ ugt es mit
von Xni und Satz 7.9 und Theorem 7.12 zu zeigen, dass k kn n
ur alle t ∈ R. ψni (t) −→ 0 f¨ ϕni (t) − i=1
i=1
F¨ ur ein fest gew¨ahltes t ∈ R folgt mit Lemma 7.37 und Korollar 7.15: k kn kn n
≤ ϕ (t) − ψ (t) |ϕni (t) − ψni (t)| ni ni i=1
i=1
i=1
kn 1 2 2 1 2 2 |ϕni (t) − 1 + σni t |+ |ψni (t) − 1 + σni t | 2 2 i=1 i=1 k kn n 2 2 ≤c E[Xni (1 ∧ |Xni |)] + E[Zni (1 ∧ |Zni |)]
≤
kn
i=1
i=1
(7.17)
7.4 Der zentrale Grenzwertsatz
205
mit einer geeignet gew¨ ahlten Konstanten c > 0. Der Beweis ist abgeschlossen, wenn wir zeigen k¨ onnen, dass beide Summen in (7.17) f¨ ur n → ∞ gegen 0 konvergieren. F¨ ur die erste Summe erhalten wir mit (7.16) f¨ ur jedes ε > 0: kn
2 E[Xni (1 ∧ |Xni |)] ≤
kn
i=1
2 2 E[Xni |Xni |I{|Xni |≤ε} ] + E[Xni I{|Xni |>ε} ]
i=1
≤ε
kn
2 σni
+
i=1
kn
2 E[Xni I{|Xni |>ε} ] −→ ε. n→∞
i=1
Dabei haben wir in der letzten Zeile ausgenutzt, dass
kn
2 σni = 1 f¨ ur alle
i=1
n ∈ N ist. Da ε > 0 beliebig, ist der Nachweis der Konvergenz f¨ ur die erste Summe in (7.17) erbracht. F¨ ur die zweite Summe in (7.17) ben¨otigen wir eine Vor¨ uberlegung. Es gilt f¨ ur jedes ε > 0: 2 2 sup σni ≤ ε2 + sup E(Xni I{|Xni |≥ε} ) −→ ε2 ,
i≤kn
i≤kn
2 → 0, wenn wir n → ∞ betrachten. Da Zni die gleiche und damit sup σni i≤kn
Verteilung hat wie σni χ, erhalten wir damit: kn i=1
2 E[Zni (1 ∧ |Zni |)] ≤
kn
E[|Zni |3 ] =
i=1
E[|σni χ|3 ] = E[|χ|3 ]
i=1
≤ E[|χ|3 ]
kn
sup σni i≤kn
kn
kn
3 σni
i=1 2 σni = E[|χ|3 ] sup σni −→ 0.
i=1
i≤kn
Als Korollar aus dem Lindeberg-Theorem erhalten wir die folgende klassische Form des zentralen Grenzwertsatzes f¨ ur eine Folge unabh¨angiger identisch verteilter Zufallsvariablen: angiKorollar 7.39 (zentraler Grenzwertsatz). Sei (Xn ) eine Folge unabh¨ ger und identisch verteilter Zufallsvariablen mit σ 2 := V(X1 ) < ∞. Dann konvergieren die standardisierten Summen Sn∗ in Verteilung gegen eine Standardnormalverteilung: n
Sn∗
=
i=1
(Xi − E(X1 )) d √ −→ χ. σ n
1 Beweis. Wir setzen kn := n f¨ ur alle n ∈ N und Xni := σ√ (Xi − E(Xi )), n ullt, da f¨ ur jedes ε > 0 i = 1, . . . , kn , n ∈ N. Die Lindeberg-Bedingung ist erf¨
206
7 Der zentrale Grenzwertsatz kn
n 1 E[(Xi − E(Xi ))2 I{|Xi −E(Xi )|≥εσ√n} ] σ 2 n i=1
k
2 E[Xni I{|Xni |≥ε} ] =
i=1
1 E[(X1 − E(X1 ))2 I{|X1 −E(X1 )|≥εσ√n} ] −→ 0, n→∞ σ2 √ da V(X1 ) < ∞ und {|X1 − E(X1 )| ≥ εσ n} ↓ ∅. =
Weitere hinreichende Bedingungen Die Lindeberg-Bedingung kn
2 E[Xni I{|Xni |≥ε} ] −→ 0 f¨ ur alle ε > 0
i=1
ist eine hinreichende Bedingung f¨ ur die schwache Konvergenz der standardisierten Summen gegen eine Standardnormalverteilung. Intuitiv besagt sie Folgendes: Außerhalb jeder ε-Kugel darf keine Zufallsvariable in der Summe (im Verh¨ altnis zur Gesamtvarianz 1) einen wesentlichen Beitrag leisten. Mit anderen Worten, die Summe von vielen unabh¨angigen Zufallsvariablen ist n¨ aherungsweise normalverteilt, wenn der Beitrag jeder einzelnen Zufallsvariable mit großer Wahrscheinlichkeit klein ist. Deshalb wird bei vielen Ph¨anomenen, bei denen man zahlreiche kleine Einfl¨ usse vermutet, die man im Einzelnen aber nicht erfassen kann, eine Normalverteilung als Modell zu Grunde gelegt. ¨ Ein typisches Beispiel f¨ ur ein solches Vorgehen ist die St¨orung auf einem Ubertragungskanal. Im nachfolgenden Satz geben wir weitere Bedingungen an, aus denen jeweils die Lindeberg-Bedingung und damit die Aussage des zentralen Grenzwertsatzes folgt. angiger reeller Zufallsvariablen mit Satz 7.40. Sei (Xn ) eine Folge unabh¨ n V(Xi ) f¨ ur alle n ∈ N. Ist E(|Xn |) < ∞, σn2 := V(Xn ) < ∞ und s2n := i=1
eine der nachfolgenden Bedingungen erf¨ ullt, so gilt die Lindeberg-Bedingung d (7.16) und damit Sn∗ −→ χ. (i) Lyapunov-Bedingung: F¨ ur ein δ > 0 gilt: n 1
s2+δ n
E[|Xi − E(Xi )|2+δ ] −→ 0.
(7.18)
i=1
(ii) gleichm¨ aßig beschr¨ ankter Fall: Es gibt ein c > 0 mit |Xn | ≤ c f¨ ur alle n ∈ N und sn divergiert: sn −→ ∞. Beweis. (i) Wir setzen wieder kn := n f¨ ur alle n ∈ N und Xni := s1n (Xi − ur jedes ε > 0 und n ∈ N gilt die E(Xi )), i = 1, . . . , kn , n ∈ N. F¨ Absch¨ atzung
7.4 Der zentrale Grenzwertsatz
(Xi − E(Xi ))2 I{|Xi −E(Xi )|≥sn ε} ≤
207
|Xi − E(Xi )|2+δ I{|Xi −E(Xi )|≥sn ε} . εδ sδn
Daher folgt aus der Lyapunov-Bedingung (7.18): kn
kn 1 E[(Xi − E(Xi ))2 I{|Xi −E(Xi )|≥εsn } ] s2n i=1 n |Xi − E(Xi )|2+δ 1 ≤ 2 E I {|Xi −E(Xi )|≥sn ε} sn i=1 δ sδn
2 E[Xni I{|Xni |≥ε} ] =
i=1
≤
n 1 1 E[|Xi − E(Xi )|2+δ ] −→ 0. δ s2+δ n i=1
(ii) Ist |Xn | ≤ c f¨ ur alle n ∈ N und sn → ∞, so folgt: n n 1 2cE[|Xi − E(Xi )|2 ] 2c 3 E[|X − E(X )| ] ≤ = −→ 0. i i 3 3 sn i=1 sn sn i=1
Also gilt die Lyapunov-Bedingung mit δ = 1. Einige Beispiele Beispiel 7.41. Sei (Xn ) eine Folge unabh¨ angiger, identisch B(1, p)-verteilter n Xi ist nach Beispiel 7.10 B(n, p)Zufallsvariablen. Die Summe Sn := i=1
verteilt und z¨ ahlt die Anzahl der Erfolge in n Versuchen. Da E(X1 ) = p und V(X1 ) = p(1 − p), gilt nach dem zentralen Grenzwertsatz: Sn − np d Sn∗ = ' −→ χ. np(1 − p) Dieses Resultat wird auch als Theorem von DeMoivre-Laplace bezeichnet. In den n¨ achsten Beispielen betrachten wir einige konkrete Spezialf¨alle dieser Situation. ♦ Beispiel 7.42 (M¨ unzwurf ). Mit den Bezeichnungen des obigen Beispiels seien die Xn nun speziell B(1, 12 )-verteilt, also P(Xi = 1) = P(Xi = 0) = 12 . Wir n k¨ onnen uns z.B. die Modellierung eines M¨ unzwurfes vorstellen, Sn = Xi i=1
ist die Anzahl Kopf“-W¨ urfe in den ersten n Versuchen. Wir erhalten ” Sn − n d Sn∗ = ' n 2 −→ χ. 4
Der Tabelle C.1 entnehmen wir beispielsweise
208
7 Der zentrale Grenzwertsatz
P(|χ| ≤ 2) ! 0.95. Damit folgt: 0.95 ! P
√ √ Sn − n2 ' n ∈ [−2, 2] = P(Sn − n/2 ∈ [− n, n]). 4
Setzen wir z.B. n = 10000, so besagt dies, dass in 95% der F¨alle die Anzahl der K¨ opfe“ beim 10000fach wiederholten M¨ unzwurf zwischen 4900 und 5100 ” liegen wird. ♦ Beispiel 7.43 (Roulette). Wir wollen die Situation eines Roulette-Spielers beschreiben. Auf Grund des starken Gesetzes der großen Zahlen wissen wir, dass ein Roulette-Spieler auf lange Sicht sehr wahrscheinlich verlieren wird. Aber jetzt m¨ ochten wir genauer wissen, wie groß die Wahrscheinlichkeit ist, doch als Gewinner vom Feld zu gehen. Unsere Strategie ist die folgende: Wir setzen jedes Mal 1 Euro auf Rot“. Beschreiben wir mit den Zufallsva” riablen (Xn ) unsere Gewinne, so sind diese unabh¨angig und identisch verteilt, 19 mit der Verteilung P(X1 = 1) = 18 37 und P(X1 = −1) = 37 , da 18 der 37 n Felder rot sind. Unser Gewinn nach n Spielen ist Sn = Xi , und daher i=1
1 E(Sn ) = −n , 37
1 E(Xi ) = − und σ 2 = 1 − 37
1 37
2 ! 0.9993.
Wir interessieren uns f¨ ur unsere Gewinnchancen, also f¨ ur Sn − nE(X1 ) nE(X1 ) √ ≥− √ P(Sn ≥ 0) = P . σ n σ n Setzen wir zur Vereinfachung der Rechnung σ = 1 und rechnen mit n = 372 = 1369, so erhalten wir aus dem zentralen Grenzwertsatz P(Sn ≥ 0) ! P(χ ≥ 1) ! 0.1587. Immerhin k¨ onnen wir mit etwa 16% Wahrscheinlichkeit hoffen, nach 1369 Runden Roulette noch einen Gewinn mit nach Hause zu nehmen. Im Mittel haben wir allerdings bis dahin 37 Euro verloren. ♦ Beispiel 7.44 (Geburtenrate). Abschließend wollen wir noch ein Beispiel betrachten, das dokumentiert, wie der zentrale Grenzwertsatz f¨ ur statistische Aussagen verwendet werden kann. In Baden-W¨ urttemberg gab es in den Jahren 1996-1999 231 432 m¨ annliche und 218 674 weibliche Geburten. Wir stellen uns die Frage, ob dies mit der Vermutung konsistent ist, dass beide Geburtsarten gleich wahrscheinlich sind. Wir sind also in der gleichen Modell-Situation wie in Beispiel 7.42 beim M¨ unzwurf. Insgesamt haben wir
7.5 Anwendung Nachrichtentechnik: Mobilfunkkan¨ ale
n = 450 106 Geburten, np = und
' ' np(1 − p) = n4 = Sn∗ =
1 2
·
209
n = 225 053 2
√ 450 106 ! 335. Daher erhalten wir:
Sn − n2 231 432 − 225 053 'n ! ! 19.04. 335 4
Nach dem zentralen Grenzwertsatz ist P(Sn∗ ≥ 19) ! P(χ ≥ 19) < onnen wir von der Vermutung der gleichen Wahrscheinlichkeit 10−60 , daher k¨ beider Geschlechter guten Gewissens Abstand nehmen. ♦
7.5 Anwendung Nachrichtentechnik: Mobilfunkkan¨ ale Effekte im Mobilfunk Der Mobilfunkkanal geh¨ ort zu den schwierigsten Kan¨alen, die es in der Kommunikationstechnik gibt. Die Gr¨ unde daf¨ ur sind vielf¨altig, wir wollen einige Ursachen und die dazugeh¨ origen Effekte kurz skizzieren. Das gesendete Signal breitet sich im Raum aus und verliert dabei mit zunehmendem Abstand zwischen Sender und Empf¨ anger kontinuierlich an Signalst¨arke. Dieser so genannte Pfadverlust f¨ uhrt also zu einer Signald¨ ampfung. Ein weiteres Spezifikum des Mobilfunkkanals ist, dass sich Sender und Empf¨anger bewegen k¨onnen. Dabei kommt es zum Doppler-Effekt, der zu einer Ver¨anderung der Frequenz, der so genannten Frequenzdispersion, f¨ uhrt. Abschattungen durch geographische ¨ f¨ Gegebenheiten wie H¨ ugel o.A. uhren ebenfalls zu einem zeitlich relativ langUrsache Effekt Pfadverlust Signald¨ ampfung Bewegung Dopplereffekt (Frequenzdispersion) Abschattung Langsamer Schwund (Slow Fading) Mehrwegeausbreitung Fast Fading Tabelle 7.2. Effekte im Mobilfunkkanal
samen Schwund, dem so genannten Slow Fading. Schließlich wird das Signal noch in alle Richtungen gesendet und je nach Umgebung mehrfach gebeugt und reflektiert, so dass viele verschiedene Teilwellen mit unterschiedlichen Laufzeiten am Empf¨ anger ankommen. Diese Mehrwegeausbreitung f¨ uhrt dazu, dass sich die zahlreichen am Empf¨ anger ankommenden Teilwellen destruktiv oder konstruktiv u onnen, wodurch es in sehr kurzen Zeitinterval¨berlagern k¨ len zu kurzen, aber starken Signaleinbr¨ uchen kommen kann. Wir haben die Effekte im Mobilfunkkanal und ihre Ursachen in Tabelle 7.2 noch einmal zusammengefasst.
210
7 Der zentrale Grenzwertsatz
Abbildung 7.3. Typischer Mobilfunkkanal: Mehrwegeausbreitung
Die Mehrwegeausbreitung ist in Abbildung 7.3 skizziert. Wir wollen uns mit dem dazugeh¨ origen schnellen Schwund (Fast Fading) eingehender besch¨aftigen und dabei ein stochastisches Modell entwickeln, das zur Beschreibung des Fast Fading geeignet ist. In der Praxis ist es von großer Bedeutung, zum Kanal passende Modelle zu besitzen, da sie die Grundlage f¨ ur die Demodulation und Decodierung, also f¨ ur die Weiterverarbeitung des Signals im Empf¨anger sind. Nur auf der Basis eines geeigneten stochastischen Kanalmodells kann es gelingen, z.B. im Handy ¨ eine akzeptable Ubertragungsqualit¨ at mit der zur Verf¨ ugung stehenden Energie zu erreichen.
N-Wege-Ausbreitung deterministisch Das vom Sender ausgehende Signal wird als komplexwertige Wellenfunktion s(t) beschrieben: s : R → C, t → s(t) := a0 ei2πf0 t eiϕ . Dabei ist a0 ∈ [−1, 1] die Amplitude, f0 ∈ R die Tr¨agerfrequenz und ϕ ∈ [0, 2π] der Phasenwinkel. Nach Ausbreitung, Reflexion, Abschattung etc. kommen N Teilwellen mit unterschiedlichen Amplituden ai und Phasen ϕi am Empf¨ anger an. Wir k¨ onnen also f¨ ur das Signal r(t) am Empf¨anger schreiben:
7.5 Anwendung Nachrichtentechnik: Mobilfunkkan¨ ale
r : R → C, r(t) =
N
211
(7.19) rj (t) =
j=1
N
aj ei2πf0 t eiϕj .
j=1
F¨ ur kleine Werte von N kann man u.U. noch explizite Berechnungen anstellen. F¨ ur große N ist dieser Ansatz v¨ ollig aussichtslos. Stattdessen geht man zu einem stochastischen Modell u ¨ber. N-Wege-Ausbreitung stochastisch ¨ Der Ubergang zur Stochastik geschieht nun folgendermaßen. In dem deterministischen Empfangssignal r(t) aus 7.19 kennen wir die einzelnen Amplituden und Phasen nicht. Also modellieren wir diese durch Zufallsvariablen. Dadurch wird das Gesamtsignal ebenfalls eine Zufallsvariable: Rt : Ω → C, Rt (ω) = R(ω)ei2πf0 t , R(ω) =
N
Rj (ω) =
j=1
(7.20) (7.21) N (Aj cos Φj + iAj sin Φj ).
(7.22)
j=1
Dabei haben wir die folgenden Zufallsvariablen eingef¨ uhrt: Aj , j = 1, . . . , N gleichverteilte Amplitude in [−1, 1], Φj , j = 1, . . . , N gleichverteilte Phase in [0, 2π]. Wir nehmen weiter an, dass die Zufallsvariablen unabh¨angig voneinander sind. Damit sind sowohl (Aj cos Φj ) als auch (Aj sin Φj ), j = 1, . . . , N , unabh¨angige Zufallsvariablen mit Erwartungswert Null und der gleichen Varianz σ02 . Auf Grund des zentralen Grenzwertsatzes wissen wir (wobei χ N(0, 1)verteilt ist): N
Aj cos Φj d √ −→ χ, N σ0 N Aj sin Φj j=1 d √ −→ χ. N σ0 F¨ ur großes, fixiertes N d¨ urfen wir also in unserem Modell n¨aherungsweise die folgende Ersetzung vornehmen: j=1
N
Aj cos Φj ! XR , N (0, σ 2 )-verteilte Zufallsvariable,
(7.23)
j=1 N j=1
Aj sin Φj ! XI , N (0, σ 2 )-verteilte Zufallsvariable.
(7.24)
212
7 Der zentrale Grenzwertsatz
Dabei haben wir σ 2 := N σ02 gesetzt. Die Indizes R und I sollen an Realbzw. Imagin¨ arteil erinnern. Durch Einsetzen von (7.23) und (7.24) in unser stochastisches Signalmodell (7.22) erhalten wir: R:Ω
→ C,
(7.25)
R = XR + iXI , XR und XI N (0, σ 2 )-normalverteilt.
(7.26) (7.27)
Aus der Unabh¨ angigkeit von Real- und Imagin¨arteil folgt, dass die Dichte der 2-dimensionalen Zufallsvariablen (XR , XI ) gerade das Produkt der einzelnen Dichten ist: fXR ,XI : R2 → R,
(x, y) → fXR (x) · fXI (y) =
1 − x2 +y2 2 e 2σ . 2πσ 2
(7.28)
Um R in Polarkoordinaten schreiben zu k¨ onnen, definieren wir zwei neue Zufallsvariablen: den Betrag des Signalpegels B B : Ω → R, 3 2 + X 2, B := XR I
(7.29) (7.30)
sowie die Phase des Empfangssignals Ψ Ψ : Ω → R,
Ψ := arctan
XI XR
(7.31)
.
(7.32)
Wir wollen nun die Verteilung des Betrages B und der Phase Φ bestimmen. Dazu ermitteln wir zun¨ achst die gemeinsame Dichte fB,Ψ von (B, Ψ ) gem¨aß der Transformationsregel f¨ ur Mehrfach-Integrale fB,Ψ : R2 → R, fB,Ψ (x, y) = fXR ,XI (x(B, Ψ ), y(B, Ψ )) · det J, mit der Jacobi-Matrix J : ∂XR ∂XI ∂B ∂B J = ∂X . R ∂XI ∂Ψ
∂Ψ
Man erh¨ alt durch Differenzieren det J = B, und damit fB,Ψ (x, y) =
−x2 x 2σ 2 . e 2πσ 2
Bestimmt man durch Integration die Randverteilungsdichten, so erh¨alt man die Dichten von Ψ bzw. B, mit den folgenden Ergebnissen: fΨ : R → R, fΨ (y) =
1 2π ,
0
0 ≤ y < 2π, sonst.
7.5 Anwendung Nachrichtentechnik: Mobilfunkkan¨ ale
213
Die Empfangsphase ist also im ganzen Winkelbereich [0, 2π[ gleichverteilt. Dies ist als Ergebnis nicht u ¨berraschend, da wir an keiner Stelle eine Richtung ausgezeichnet haben, sondern alle Richtungen in der Mehrwegeausbreitung gleichberechtigt behandelt haben. Dies ist eine Modellannahme. Ganz 1.5
1
0.5
0
0
0.5
1
1.5
2
2.5
3
Abbildung 7.4. Dichtefunktion einer Rayleigh-verteilten Zufallsvariable
anders sieht die Situation aus, wenn es eine direkte Sichtverbindung zwischen Sender und Empf¨ anger gibt (LOS = Line of Sight). Wir betrachten hier eine so genannte NLOS (No Line of Sight) Situation, wie sie z.B. f¨ ur stark bebaute Gegenden in St¨ adten typisch ist. F¨ ur den Betrag B des Signalpegels erhalten wir analog die Dichte: fB : R → R, fB (x) =
2
x x − 2σ 2 σ2 e
0
,
x ≥ 0, sonst.
Diese Verteilung wird Rayleigh-Verteilung genannt. Eine Rayleigh-verteilte ' Zufallsgr¨ oße hat den Erwartungswert π2 σ und die Varianz 2σ 2 . Ihr Graph ist in Abbildung 7.4 dargestellt. Experimentell l¨ asst sich die Rayleigh-Verteilung des Betrags des Signalpegels sehr gut best¨ atigen. Mit ihrer Hilfe lassen sich weitere wichtige Kenngr¨ oßen des Mobilfunkkanals ermitteln, wie z.B. die Pegelunterschreitungsrate, also die Wahrscheinlichkeit f¨ ur die Unterschreitung ¨ einer bestimmten Signalst¨ arke. Durch den Ubergang von einem deterministischen Modell zur Stochastik und mit Hilfe des zentralen Grenzwertsatzes ist es also gelungen, ein stochastisches Modell zu entwickeln, das sich in der nachrichtentechnischen Praxis gut bew¨ ahrt hat. Eine ausf¨ uhrliche Darstellung verschiedener Modelle f¨ ur den Mobilfunkkanal findet man in [P¨at99].
8 Bedingte Erwartungen
8.1 Definition, Existenz und Eindeutigkeit Wir beginnen mit einer Motivation bedingter Erwartungen mit Hilfe elementarer bedingter Wahrscheinlichkeiten. Eine andere Sichtweise bedingter Erwartungen, n¨ amlich als Prognose mit einem gewissen Informationsstand, stellen wir am Ende des n¨ achsten Abschnitts vor. Motivation Ist (Ω, F, P) ein Wahrscheinlichkeitsraum und sind A, B Ereignisse, so haben wir in Abschnitt 5.1 f¨ ur den Fall P(A) > 0 die bedingte Wahrscheinlichkeit P(B|A) =
P(B ∩ A) P(A)
definiert. Wir werden in diesem Abschnitt ein Konzept vorstellen, das diese elementaren bedingten Wahrscheinlichkeiten auf den Fall P(A) = 0 erweitert. Bleiben wir zun¨achst bei P(A) > 0. Analog l¨asst sich dann f¨ ur eine reelle Zufallsvariable Z der bedingte Erwartungswert von Z unter der Bedingung A definieren: E(ZIA ) . (8.1) E(Z|A) := P(A) Dies ist eine nat¨ urliche Verallgemeinerung, denn f¨ ur Z = IB erhalten wir E(Z|A) = E(IB |A) =
P(B ∩ A) E(IB IA ) = = P(B|A). P(A) P(A)
Ist X eine weitere reelle Zufallsvariable, so betrachten wir speziell die Mengen A = {X = x}. Nehmen wir zun¨ achst an, X sei diskret verteilt mit abz¨ahlbarem Tr¨ ager T und setzen
216
8 Bedingte Erwartungen
g : R → R,
E(Z|X = x) f¨ ur P(X = x) > 0, x → 0 sonst.
Dann gilt f¨ ur die Zufallsvariable Y := g ◦ X: ur alle B ∈ B. (8.2) Y ist σ(X)-messbar und E(ZI{X∈B} ) = E(Y I{X∈B} ) f¨ Die σ(X)-Messbarkeit von Y folgt unmittelbar aus der Definition von g, der zweite Teil ergibt sich so: E(ZI{X=x} ) E(ZI{X∈B} ) = x∈B
P(X=x)>0
=
g(x)P(X = x) = E(Y I{X∈B} ).
x∈B
P(X=x)>0
Ist X nicht diskret, so gilt in der Regel P(X = x) = 0, und wird k¨onnen mit (8.1) nichts mehr anfangen. Der entscheidende Punkt ist jedoch, dass f¨ ur P(X = x) = 0 die Bedingungen (8.2) sehr wohl sinnvoll sind. Existenz und Eindeutigkeit ¨ In der nachfolgenden Definition verallgemeinern wir obige Uberlegungen in einem weiteren Punkt. In (8.2) spielt die Zufallsvariable X keine Rolle, sondern nur die von ihr erzeugte Sub-σ-Algebra σ(X) und ihre Ereignisse {X ∈ B}. Also k¨ onnen wir gleich irgendeine Sub-σ-Algebra betrachten. Definition 8.1 (Bedingte Erwartung). Es sei Z eine integrierbare reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) und G ⊂ F eine Sub-σ-Algebra. Dann heißt eine reelle Zufallsvariable Y bedingte Erwartung von Z unter G, wenn gilt: ur alle B ∈ G. Y ist G-messbar und E(ZIB ) = E(Y IB ) f¨ Die bedingte Erwartung von Z unter G bezeichnet man auch als E(Z|G). Diese ist, wie der n¨ achste Satz zeigt, fast sicher eindeutig. F¨ ur eine konkrete Zufallsvariable Y spricht man daher von einer Version der bedingten Erwartung E(Z|G). Satz 8.2. Es sei Z eine integrierbare reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) und G ⊂ F eine Sub-σ-Algebra. Dann existiert eine Version Y von E(Z|G). Ist Y˜ eine weitere Version, so ist Y = Y˜ fast sicher.
8.1 Definition, Existenz und Eindeutigkeit
217
Beweis. Der Existenzbeweis ist eine Anwendung des Satzes von RadonNikodym. Wir setzen zun¨ achst Z ≥ 0 voraus. Dann definiert ν(B) := ZdP, B ∈ G, B
ein Maß auf G. ν ist nach Definition absolut stetig in Bezug auf P und endlich, da Z nach Voraussetzung integrierbar ist. Nach dem Satz von Radon-Nikodym 2.38 existiert eine G-messbare Funktion f , so dass gilt: E(ZIB ) = ν(B) = f dP = E(f IB ), B ∈ G. B
Damit ist f eine Version von E(Z|G). F¨ ur allgemeines Z ist E(Z + |G)−E(Z − |G) eine Version von E(Z|G). F¨ ur den Beweis der fast sicheren Eindeutigkeit seien Y und Y˜ zwei Versionen von E(Z|G). Dann folgt (Y − Y˜ )dP = 0 f¨ ur alle B ∈ G. B
Dies gilt insbesondere f¨ ur B = {Y > Y˜ }, d.h. (Y − Y˜ )dP = 0, {Y >Y˜ }
woraus P({Y > Y˜ }) = 0 folgt. Analog ergibt sich P({Y < Y˜ }) = 0, also Y = Y˜ fast sicher. Ist X eine Zufallsvariable, so schreiben wir E(Z|X) f¨ ur E(Z|σ(X)), genauso ist E(Z|X1 , . . . , Xn ) zu verstehen. Bedingte Wahrscheinlichkeiten Wir wollen zu unserer urspr¨ unglichen Motivation zur¨ uckkehren und den genauen Zusammenhang zwischen P(A|B) und bedingten Erwartungen kl¨aren. Dazu sei zun¨ achst bemerkt, dass wir im Falle einer Indikatorfunktion Z = IA P(A|G) := E(IA |G)
als bedingte Wahrscheinlichkeit von A unter G
bezeichnen. Wie die Notation schon vermuten l¨asst, werden wir zeigen, dass f¨ ur ein B mit P(B) > 0 gilt: ur alle ω ∈ B. P(A|IB )(ω) = P(A|B) f¨ F¨ ur den Beweis ben¨ otigen wir folgendes Lemma, dessen Aussage in Abbildung 8.1 veranschaulicht ist.
218
8 Bedingte Erwartungen
NZ
N NW
IR
N
NY
g
N
N(W’, F’) N Abbildung 8.1. Veranschaulichung des Faktorisierungslemmas
Lemma 8.3 (Faktorisierungslemma). Es sei (Ω , F ) ein Messraum, Y : Ω → Ω eine Abbildung und Z : Ω → R eine reelle Funktion. Dann ist Z genau dann σ(Y )-messbar, wenn es eine F -messbare Abbildung g : Ω → R gibt, so dass Z = g ◦ Y . Beweis. Ist Z = g ◦ Y , so ist Z σ(Y )-messbar. F¨ ur die Umkehrung verwenden wir unsere Standardprozedur. Ist Z = IA , so muss A ∈ σ(Y ) sein, da Z σ(Y )-messbar ist. Daher gibt es ein A ∈ F mit A = {Y ∈ A }, so dass wir onnen. Den Rest erledigt die Standardprozedur. g := IA setzen k¨ Sind A, B zwei Ereignisse eines Wahrscheinlichkeitsraumes (Ω, F, P) und Y := IB , so gibt es nach dem Faktorisierungslemma 8.3 eine messbare Funktion g : R → R, so dass P(A|IB ) = E(IA |IB ) = g ◦ IB . Daraus folgt f¨ ur jedes ω ∈ B:
P(B)P(A|IB )(ω) = P(B)g(1) = g(1)IB dP = g ◦ IB dP = E(IA |IB )dP B
B
IA dP = P(A ∩ B).
= B
Ist P(B) > 0, d¨ urfen wir beide Seiten durch P(B) dividieren und erhalten wie gew¨ unscht: ur alle ω ∈ B. P(A|IB )(ω) = P(A|B) f¨ Die linke Seite ist jedoch auch f¨ ur P(B) = 0 definiert.
8.2 Eigenschaften bedingter Erwartungen
219
8.2 Eigenschaften bedingter Erwartungen Elementare Eigenschaften Wir stellen im n¨ achsten Satz einige einfache, aber wichtige Eigenschaften bedingter Erwartungen zusammen: Satz 8.4. Seien X,X1 und X2 integrierbare Zufallsvariablen und G eine Subσ-Algebra von F. Dann gilt: (i) Ist Y eine Version von E(X|G), so ist E(Y ) = E(X), oder kurz: E(E(X|G)) = E(X). (ii) Ist X G-messbar, so ist E(X|G) = X fast sicher. (iii) Linearit¨ at: F¨ ur a1 , a2 ∈ R ist: E(a1 X1 + a2 X2 |G) = a1 E(X1 |G) + a2 E(X2 |G)
fast sicher.
(iv) Monotonie: Ist X1 ≤ X2 , so ist E(X1 |G) ≤ E(X2 |G) fast sicher. (v) |E(X|G)| ≤ E(|X||G) fast sicher. Beweis. (i) Da Ω ∈ G, ist nach Definition der bedingten Erwartung E(Y ) = E(Y IΩ ) = E(XIΩ ) = E(X). (ii) Folgt unmittelbar aus der Definition von E(X|G) und der Eindeutigkeitsaussage 8.2. (iii) Genauer formuliert bedeutet die Linearit¨at: Ist Y1 eine Version von E(X1 |G) und Y2 eine Version von E(X2 |G), so ist a1 Y1 + a2 Y2 eine Version von E(a1 X1 +a2 X2 |G). Dies ist aber wegen der Linearit¨at des Erwartungswertes klar. (iv) Es gen¨ ugt zu zeigen, dass aus X ≥ 0 auch E(X|G) ≥ 0 fast sicher folgt. Sei Y eine Version von E(X|G) und nehmen wir P(Y < 0) > 0 an. Dann gibt es ein n ∈ N, so dass f¨ ur A := {Y < − n1 } gilt: P(A) > 0. Daraus folgt aber 1 0 ≤ E(XIA ) = E(Y IA ) ≤ − P(A) < 0. n Also ist unsere Annahme falsch und Y ≥ 0 fast sicher. (v) Dies folgt unmittelbar aus der Monotonie (iv). Bedingte Versionen der Konvergenzs¨ atze Die Konvergenzs¨ atze, der Satz von der monotonen Konvergenz und der Satz von der dominierten Konvergenz, lassen sich auf bedingte Erwartungen u ¨bertragen. Dabei sind jeweils zwei Dinge zu tun: Zum einen ersetzt man E(·) durch E(·|G), zum anderen gelten die Gleichungen, da sie sich nun auf Zufallsvariablen und nicht mehr auf Zahlen beziehen, nur noch fast sicher.
220
8 Bedingte Erwartungen
Theorem 8.5 (bedingte Versionen der Konvergenzs¨ atze). Es seien X, (Xn ) integrierbare Zufallsvariablen und G eine Sub-σ-Algebra. Dann gilt: (i) Ist 0 ≤ Xn ↑ X, so folgt: E(Xn |G) −→ E(X|G)
fast sicher.
(ii) Gilt Xn → X fast sicher sowie E(|Y |) < ∞ und |Xn | ≤ Y f¨ ur alle n ∈ N, so folgt E(Xn |G) −→ E(X|G) fast sicher. Beweis. (i) Es sei 0 ≤ Xn ↑ X. Nach dem (gew¨ohnlichen) Satz von der L1
monotonen Konvergenz folgt Xn −→ X. Daraus folgt mit Satz 8.4(v) die Konvergenz der bedingten Erwartungen in L1 : L1
E(Xn |G) −→ E(X|G). ¨ Durch Ubergang zu einer Teilfolge erhalten wir fast sichere Konvergenz. Da nach 8.4(iv) die Folge (E(Xn |G)) fast sicher monoton w¨achst, gilt die fast sichere Konvergenz f¨ ur die ganze Folge. (ii) Definieren wir Zn := sup |Xk − X|, so gilt Zn ↓ 0 fast sicher. Nach Satz k≥n
8.4 gilt |E(Xn |G) − E(X|G)| ≤ E(Zn |G), daher gen¨ ugt es, E(Zn |G) ↓ 0 fast sicher zu zeigen. Nach Satz 8.4(iv) ist die Folge (E(Zn |G)) monoton fallend, sei U := lim E(Zn |G). Da U ≥ 0 fast n→∞
sicher, gen¨ ugt es nun, E(U ) = 0 zu zeigen, um U = 0 fast sicher schließen zu k¨ onnen. Nun ist aber nach Voraussetzung 0 ≤ Zn ≤ 2Y , und daher nach Satz 8.4(i) und dem (gew¨ ohnlichen) Satz von der dominierten Konvergenz: E(U ) = E(E(U |G)) ≤ E(E(Zn |G)) = E(Zn ) −→ 0. Auch von der Jensenschen Ungleichung gibt es eine bedingte Version. Da wir f¨ ur ihren Beweis nur Linearit¨ at und Monotonie des Erwartungswertes verwendet haben, u agt sich der Beweis fast w¨ortlich. Wir erinnern an die ¨bertr¨ Darstellung einer konvexen Funktion φ durch: ur alle t ∈ I}. φ(x) = sup v(x), mit U := {v : v(t) = a + bt ≤ φ(t) f¨ v∈U
Satz 8.6 (bedingte Version der Ungleichung von Jensen). Es sei φ : I → R eine konvexe Funktion auf einem Intervall I, X : Ω → I eine integrierbare Zufallsvariable und G eine Sub-σ-Algebra. Dann ist E(X|G) ∈ I fast sicher. Ist φ(X) integrierbar, so gilt: φ(E(X|G)) ≤ E(φ(X)|G).
8.2 Eigenschaften bedingter Erwartungen
221
Beweis. Ist I nach oben oder unten beschr¨ ankt, so folgt aus der Monotonie, dass E(X|G) ∈ I fast sicher, andernfalls ist nichts zu zeigen. Aus der Darstellung φ(X) = sup v(X) v∈U
folgt f¨ ur jede lineare Funktion v0 ∈ U : E(φ(X)|G) = E(sup v(X)|G) v∈U
≥ E(v0 (X)|G) = v0 (E(X|G)). Durch Bildung des Supremums u ¨ber U auf beiden Seiten erhalten wir: E(φ(X)|G) ≥ sup v(E(X|G)) = φ(E(X|G)). v∈U
Drei weitere Eigenschaften Da die bedingte Erwartung E(X|G) eine G-messbare Zufallsvariable ist, kann man davon wiederum die bedingte Erwartung unter einer Sub-σ-Algebra H ⊂ G betrachten. So erhalten wir die folgende so genannte Projektionseigenschaft: Satz 8.7 (Projektionseigenschaft). Ist X eine integrierbare Zufallsvariable und sind H ⊂ G ⊂ F σ-Algebren, so gilt: E(E(X|G)|H) = E(X|H)
f.s.
Beweis. Die linke Seite in obiger Gleichung ist H-messbar, und f¨ ur jedes H ∈ H ist E[E(E(X|G)|H)IH ] = E[E(X|G)IH ] = E[XIH ]. Daher ist E(E(X|G)|H) eine Version von E(X|H). Als n¨ achstes betrachten wir die bedingte Erwartung eines Produkts XY f¨ ur ein G-messbares X. Satz 8.8. Es seien X und Y Zufallsvariablen und G eine Sub-σ-Algebra. Ist X G-messbar und Y sowie XY integrierbar, so gilt: E(XY |G) = XE(Y |G). Beweis. Wir zeigen zun¨ achst, dass die rechte Seite f¨ ur X = IA , A ∈ G eine ur jedes Version von E(XY |G) ist. IA E(Y |G) ist G-messbar und integrierbar. F¨ G ∈ G folgt E[IA E(Y |G)IG ] = E[E(Y |G)IG∩A ] = E[Y IG∩A ] = E[(IA Y )IG ]. Damit ist die Behauptung f¨ ur X = IA gezeigt. Der Rest folgt mit unserer Standardprozedur. Diese funktioniert unver¨ andert f¨ ur bedingte Erwartungen, da wir Linearit¨ at, Monotonie und die bedingte Version des Satzes von der monotonen Konvergenz, Theorem 8.5(i), zur Verf¨ ugung haben.
222
8 Bedingte Erwartungen
Schließlich betrachten wir den Fall, dass σ(X) und G unabh¨angig sind. Sind A und B unabh¨ angige Ereignisse, so gilt P(A|B) = P(A). Auch bei der bedingten Erwartung f¨ allt die Bedingung weg. Satz 8.9. Es sei X eine Zufallsvariable und G eine Sub-σ-Algebra. Sind σ(X) und G unabh¨ angig, so gilt: E(X|G) = E(X). Beweis. Die konstante Funktion E(X) ist messbar und f¨ ur jedes A ∈ G gilt nach dem Produktsatz 5.13 E(XIG ) = E(X)E(IG ) = E(E(X)IG ). Bedingte Wahrscheinlichkeit und Information Wir wollen noch eine weitere M¨ oglichkeit vorstellen, wie man sich bedingte Erwartungen und ihre wahrscheinlichkeitstheoretische Bedeutung intuitiv vorstellen kann. Dazu kn¨ upfen wir wiederum an die bereits in Abschnitt 5.1 vorgestellte Interpretation der elementaren bedingten Wahrscheinlichkeit P(A|B) an. Ein Zufallsexperiment (Ω, F, P) produziert ein Ergebnis ω, das gem¨aß P verteilt ist. F¨ ur einen Beobachter ist P(A) die Wahrscheinlichkeit, dass ω ∈ A ist. Nehmen wir an, der Beobachter wird u ¨ber ω ∈ B informiert. Dadurch andert sich f¨ ur ihn, der nun u ugt, die Wahr¨ ¨ber diese Teilinformation zu ω verf¨ scheinlichkeit f¨ ur ω ∈ A von P(A) zu P(A|B). Ist hingegen ω ∈ B c , so wird aus P(A) die Wahrscheinlichkeit P(A|B c ). Wir betrachten daher die Funktion P(A|B) f¨ ur ω ∈ B, f : Ω → [0, 1], ω → c P(A|B ) f¨ ur ω ∈ B c . Dann ist f (ω) die neue Wahrscheinlichkeit f¨ ur das Ereignis A. Nehmen wir an, der Beobachter verf¨ uge u ¨ber die Information, ob ω ∈ B oder ω ∈ B c . Obwohl er im Allgemeinen ω nicht kennt, kann er auf Grund seiner Teilinformation den Funktionswert f (ω), also die neue Wahrscheinlichkeit f¨ ur das Ereignis A bestimmen. In unserem Fall k¨ onnen wir die σ-Algebra σ(B) = {∅, B, B c , Ω} als die dem Beobachter bekannte Information auffassen. Genauer heißt dies, dass der Beobachter f¨ ur jedes D ∈ σ(B) weiß, ob ω ∈ D oder nicht. F¨ ur die Mengen ∅ und Ω ist dies klar, die triviale σ-Algebra {∅, Ω} enth¨alt daher keinerlei Information. Die Verallgemeinerung auf beliebige Sub-σ-Algebren G und damit auf die allgemeinen bedingten Wahrscheinlichkeiten P(A|G) ist nun nicht mehr schwer. Verf¨ ugt ein Beobachter u ¨ber die Teilinformation G, so weiß er zu jedem D ∈ G, ob ω ∈ D oder ω ∈ Dc . Entsprechend kann man sich P(A|G)(ω) als Wahrscheinlichkeit f¨ ur ω ∈ A vorstellen, wenn man u ¨ber die Information G verf¨ ugt.
8.2 Eigenschaften bedingter Erwartungen
223
Beispiel 8.10. Um mit dieser Interpretation vertraut zu werden, ist es n¨ utzlich, sich die zwei extremen M¨ oglichkeiten f¨ ur G anzusehen. Ist G = {∅, Ω}, so haben wir bereits festgestellt, dass G keine Information enth¨alt. Entsprechend gilt P(A|G) = E(IA |{∅, Ω}) = E(IA ) = P(A), genau wie wir erwartet haben. Ist umgekehrt A ∈ G, was immer der Fall ist, wenn G = F ist, dann enth¨ alt die Information G insbesondere, ob ω ∈ A oder ω ∈ Ac . Entsprechend erhalten wir, da IA G-messbar ist: P(A|G) = E(IA |G) = IA . ♦ Prognose Der Schritt von den bedingten Wahrscheinlichkeiten P(A|G) zur Interpretation der bedingten Erwartungen E(X|G) ist der folgende: Die Zufallsvariable X k¨onnen wir wie u ¨blich als einen Aspekt, z.B. eine Messung, bei einem Zufallsexperiment (Ω, F, P) auffassen. Dann ist E(X|G)(ω) der Erwartungswert, also der erwartete Wert von X, wenn der Beobachter u ¨ber die Information G, d.h. u ur jedes D ∈ G verf¨ ugt. Richten ¨ber die Information ω ∈ D oder ω ∈ Dc f¨ wir den Blick in die Zukunft, so k¨ onnen wir demnach E(X|G) als Prognose von X mit Hilfe des Wissens aus G auffassen. Diese Sichtweise untermauert, nach so viel Heuristik, der folgende Satz: Satz 8.11. Es sei X ∈ L2 (Ω, F, P) und G ⊂ F eine Sub-σ-Algebra. Dann nimmt die Funktion h : Y → E[(X − Y )2 ],
Y ∈ L2 (Ω, G, P|G),
in X0 := E(X|G) ihr Minimum an. Mit P|G ist die gew¨ ohnliche Einschr¨ ankung des Wahrscheinlichkeitsmaßes P auf die Sub-σ-Algebra G gemeint und nicht etwa eine bedingte Wahrscheinlichkeit. Beweis. Ist Y ∈ L2 G-messbar, so folgt mit den Eigenschaften bedingter Erwartungen: E(XY |G) = Y E(X|G) = Y X0 , und damit E(XY ) = E(Y X0 ). Setzen wir speziell Y = X0 , so folgt E(XX0 ) = E(X02 ). Aus den letzten beiden Gleichungen erhalten wir:
224
8 Bedingte Erwartungen
E[(X − Y )2 ] − E[(X − X0 )2 ] = −2E(XY ) + E(Y 2 ) + 2E(XX0 ) − E(X02 ) = E(X02 ) − 2E(X0 Y ) + E(Y 2 ) = E[(Y − X0 )2 ], und daher h(X0 ) = E[(X − X0 )2 ] ≤ E[(X − Y )2 ] = h(Y )
f¨ ur alle Y ∈ L2 (Ω, G, P|G).
Damit nimmt die Funktion h in X0 = E(X|G) ihr Minimum an.
Unter allen G-messbaren Abbildungen Y ist E(X|G) diejenige, welche X am besten quadratisch approximiert“: E[(X − Y )2 ] wird minimal. Dies unter” streicht die Sichtweise von E(X|G) als Prognose von X, wenn man die Information G zur Verf¨ ugung hat. Beispiel 8.12. Wir betrachten wieder die zwei M¨oglichkeiten G = {∅, Ω} und G = F. Im ersten Fall, ohne irgendeine zus¨ atzliche Information, ist die bestm¨ogliche Prognose von X der Erwartungswert von X: E(X|{∅, Ω})(ω) = E(X)
f¨ ur alle ω ∈ Ω.
Kennen wir hingegen das gesamte Experiment σ(X) ⊂ G, so ist die bestm¨ ogliche Prognose der uns bekannte Messwert selbst: E(X|G)(ω) = X(ω)
f¨ ur alle ω ∈ Ω. ♦
Teil III
Stochastische Prozesse
9 Markov-Ketten
In der Wahrscheinlichkeitstheorie haben wir wichtige Aussagen u ¨ber Folgen von Zufallsvariablen oft unter der Voraussetzung der Unabh¨angigkeit getroffen, z.B. das starke Gesetz der großen Zahlen oder den zentralen Grenzwertsatz. Es k¨ onnte der Eindruck entstehen, die Wahrscheinlichkeitstheorie w¨ urde sich in erster Linie mit unabh¨ angigen Zufallsvariablen auseinander setzen. Dies ist keineswegs der Fall. Die Markov-Eigenschaft, mit der wir uns in diesem Kapitel besch¨ aftigen, und die Martingal-Eigenschaft (Kapitel 11) bilden zwei fundamentale Konzepte abh¨ angiger Zufallsvariablen. Reale Situationen stecken voller Abh¨ angigkeiten: Der Aktienkurs von morgen h¨ angt vom heutigen Kurs und der Nachfrage ab, die in einer Wetterstation st¨ undlich gemessenen Gr¨ oßen sind von den vorherigen Messungen abh¨ angig, die Wartezeit an einem Schalter h¨ angt von der Anzahl bisher Wartender ab etc. Im Allgemeinen werden Berechnungen durch Abh¨angigkeiten schwieriger. Die Kunst der stochastischen Modellbildung besteht darin, genug Abh¨ angigkeit zu ber¨ ucksichtigen, um ein realistisches Modell zu erhalten, jedoch nicht zu viel, um explizite Berechnungen zu erm¨oglichen. Markov-Ketten bilden einen solchen Kompromiss. Ihre zuk¨ unftige Entwicklung h¨angt vom gegenw¨ artigen Zustand, jedoch nicht von der Vergangenheit ab. Sie eignen sich in besonderer Weise f¨ ur den Einstieg in die Theorie der stochastischen Prozesse, da sie einerseits sehr anschaulich sind und andererseits eine Interpretation als zeitliche Entwicklung eines zuf¨ alligen Geschehens erlauben.
¨ 9.1 Ubergangswahrscheinlichkeiten Die Markov-Eigenschaft Wir wollen ein System, das h¨ ochstens abz¨ ahlbar viele Zust¨ande annehmen kann, dadurch beschreiben, dass wir angeben, mit welcher Wahrscheinlichkeit es von einem Zustand in den anderen u ¨bergeht. Als konkretes Beispiel betrachten wir das Wetter in M¨ unchen und beschr¨ anken uns auf die drei Zust¨ande
228
9 Markov-Ketten
S = {1, 2, 3}, die wir wie folgt interpretieren: 1 = regnerisch, 2 = bew¨ olkt, 3 = sonnig. F¨ ur die Wechsel zwischen den einzelnen Zust¨ anden betrachten wir folgende Matrix: 1 2 3 1 0.3 0.7 0 (9.1) 2 0.3 0.5 0.2 3 0.1 0.6 0.3 Die Matrix besagt, dass zum Beispiel die Wahrscheinlichkeit, dass auf einen bew¨ olkten Tag (Zustand 2) ein regnerischer Tag (Zustand 1) folgt, p21 = 0.3 ist. Die Eintr¨ age der Matrix sind relativ beliebig, jede 3×3-Matrix ist zul¨assig, solange sie zwei Bedingungen gen¨ ugt: (i) p ij ≥ 0, da es sich um Wahrscheinlichkeiten handelt. pij = 1, da am folgenden Tag sicher irgendeine Wetterlage vorliegt. (ii) j∈S
Solchen Matrizen (ggf. mit abz¨ ahlbar vielen Zeilen und Spalten) geben wir einen Namen: Definition 9.1 (stochastische Matrix). Sei S eine abz¨ ahlbare Menge und p = (pij )i,j∈S eine S × S-Matrix mit den folgenden Eigenschaften: (i) p ur alle i, j ∈ S, ij ≥ 0 f¨ pij = 1. (ii) j∈S
Dann heißt p stochastische Matrix. In einer stochastischen Matrix stehen demnach nicht-negative Eintr¨age, die sich zeilenweise zu 1 aufsummieren. Dies erlaubt eine Interpretation jeder Zeile als (diskrete) Verteilung auf S, wie sie in der folgenden Definition einer Markov-Kette vorgenommen wird.
¨ 9.1 Ubergangswahrscheinlichkeiten
229
Definition 9.2 (Markov-Kette). Es sei S eine abz¨ ahlbare Menge, α eine Verteilung auf S und p = (pij )i,j∈S eine stochastische Matrix. Eine Folge (Xn ), Xn : Ω → S, n ∈ N0 , von Zufallsvariablen mit Werten in S heißt (α, p)-Markov-Kette, falls P(X0 = i) = α(i),
i ∈ S,
und f¨ ur jedes n ∈ N, j ∈ S und alle (n + 1)-Tupel (i0 , . . . , in ) ∈ S n+1 mit P(X0 = i0 , . . . , Xn = in ) > 0 gilt: P(Xn+1 = j|X0 = i0 , . . . , Xn = in ) = P(Xn+1 = j|Xn = in ) = pin j . (9.2) Bevor wir uns Beispiele anschauen, wollen wir die Definition erl¨autern: (i) Die Forderung P(X0 = i0 , . . . , Xn = in ) > 0 dient dazu sicherzustellen, dass die bedingten Wahrscheinlichkeiten in (9.2) definiert sind. Wir werden im Folgenden st¨ andig bedingte Wahrscheinlichkeiten betrachten. Um die Lesbarkeit zu erh¨ ohen, weisen wir in Zukunft nicht mehr darauf hin, dass die betrachtete Bedingung stets positive Wahrscheinlichkeit haben muss. ¨ Aus (ii) Die Eintr¨ age pij der Matrix p heißen Ubergangswahrscheinlichkeiten. ¨ Gleichung (9.2) lesen wir ab, dass die Ubergangswahrscheinlichkeiten nicht vom Zeitpunkt“ n abh¨ angen, sie sind also zeitinvariant. Man spricht ” ¨ in diesem Fall von station¨ aren oder zeitlich homogenen Ubergangswahrscheinlichkeiten. Wir werden uns auf diesen Fall beschr¨anken und daher das Adjektiv station¨ ar“ weglassen. ” (iii) Formal ist eine Markov-Kette eine Folge von Zufallsvariablen (Xn ) mit einer bestimmten Abh¨ angigkeitsstruktur. Im Gegensatz zu den Folgen von Zufallsvariablen, die wir bisher betrachtet haben, interpretieren wir den Index n ∈ N0 als Zeitparameter der Markov-Kette. In diesem Sinn ist eine Markov-Kette ein stochastischer Prozess, vgl. Abschnitt 10.1. (iv) Die Elemente von S k¨ onnen wir uns als m¨ ogliche Zust¨ande eines Systems vorstellen, bei dem Xn den aktuellen Stand zum Zeitpunkt n beschreibt. Die Folge X0 , X1 , X2 , . . . beschreibt die Geschichte des Systems, die mit ¨ den Ubergangswahrscheinlichkeiten (9.2) verl¨auft. Die Gleichung (9.2) besagt, dass die bedingte Wahrscheinlichkeit f¨ ur den n¨achsten Zustand Xn+1 bei gegebenem gesamten Verlauf X0 = i0 , . . . , Xn = in die gleiche ist, wie die bedingte Wahrscheinlichkeit f¨ ur den n¨ achsten Zustand Xn+1 , wenn nur die Gegenwart“ Xn gegeben ist. Der weitere Verlauf h¨angt demnach nur ” von der Gegenwart Xn und nicht von der Vergangenheit“ X0 , . . . , Xn−1 ” ab. Diese Eigenschaft bezeichnet man als Markov-Eigenschaft. Anders ausgedr¨ uckt besagt die Markov-Eigenschaft, dass f¨ ur die Zukunft nur die Gegenwart von Interesse ist, jede Information aus der Vergangenheit hin-
230
9 Markov-Ketten
gegen ist irrelevant. Diese Aussage werden wir im n¨achsten Abschnitt pr¨ azisieren. (v) Die Verteilung des Anfangszustandes X0 , α = PX0 , heißt Startverteilung.
(9.3)
Da S abz¨ ahlbar ist, ist die diskrete Verteilung α eindeutig bestimmt durch die Angabe der Z¨ ahldichte α(i) := α({i}) = PX0 ({i}),
i ∈ S.
Betrachten wir Wahrscheinlichkeiten unter der Bedingung {X0 = i}, also mit einem sicheren Start“ der Markov-Kette im Zustand i, so k¨ urzen wir ” dies durch die Schreibweise Pi (A) := P(A|X0 = i),
A ∈ F,
ab. Wir werden uns unter anderem mit der Frage auseinander setzen, welchen Einfluss die Startverteilung auf das Langzeitverhalten der MarkovKette hat. Um dabei verschiedene Startverteilungen zu unterscheiden, betonen wir ggf. die Startverteilung durch die Schreibweise ur A unter der Startverteilung α. Pα (A) : Wahrscheinlichkeit f¨ (vi) Markov-Ketten werden durch eine stochastische S × S-Matrix und eine Startverteilung α angegeben. Zur Rechtfertigung dieses Vorgehens muss nachgewiesen werden, dass es zu jeder stochastischen Matrix eine ¨ Markov-Kette (Xn ) mit den vorgeschriebenen Ubergangswahrscheinlichkeiten gibt. Diesen Existenzbeweis f¨ uhren wir in Anhang A in Abschnitt A.2. Beispiele, Graphen, Fragestellungen Die nachfolgenden Beispiele werfen einige typische Fragen auf, die bei der Besch¨ aftigung mit Markov-Ketten auftreten. Beispiel 9.3 (Wetter-Kette). Zu Beginn betrachten wir erneut die stochastische Matrix 1 2 3 1 0.3 0.7 0 2 0.3 0.5 0.2 3 0.1 0.2 0.7 Es sei (Xn ) die Markov-Kette zu dieser Matrix. Dann ist z.B. P(X2 = 2|X1 = 3) = p32 = 0.2
¨ 9.1 Ubergangswahrscheinlichkeiten
231
0.3
1 0.1
0.7 0
3
0.3 0.2
2
0.2
0.7
0.5
¨ Abbildung 9.1. Ubergangsgraph der Wetter-Markov-Kette
die Wahrscheinlichkeit, dass auf einen bew¨ olkten Tag ein sonniger folgt. Nat¨ urlich ist die Markov-Kette nur ein Modell, das insbesondere davon ausgeht, dass das Wetter von morgen nur vom heutigen Wetter abh¨angt und nicht ebenfalls vom gestrigen. Es stellt sich die Frage, wie sich in diesem Modell das Wetter von u ¨bermorgen, in drei Tagen etc. entwickelt. Markov-Ketten mit endlichen Zustandsr¨ aumen S k¨onnen statt durch eine stochastische Matrix auch durch einen Graphen dargestellt werden. Dieser so ¨ genannte Ubergangsgraph, dessen Bezeichnungen selbsterkl¨arend sind, ist f¨ ur die Wetter-Kette in Abbildung 9.1 dargestellt. ♦ Beispiel 9.4 (Irrfahrt auf Z (Random Walk)). Der Zustandsraum besteht in diesem Beispiel aus den ganzen Zahlen S := Z. Wir stellen uns ein Teilchen vor, das mit der Wahrscheinlichkeit p einen Schritt nach rechts macht und mit der Wahrscheinlichkeit q = 1 − p einen Schritt nach links. Die Markov-Kette (Xn ) beschreibt den Ort des Teilchens im n-ten Schritt. Wir erhalten folgende ¨ Ubergangswahrscheinlichkeiten: pii+1 = p
f¨ ur alle i ∈ Z,
pii−1 = 1 − p f¨ ur alle i ∈ Z, f¨ ur alle i, j ∈ Z mit i = j oder |i − j| ≥ 2. pij = 0
232
9 Markov-Ketten
Das Teilchen kann sich frei auf der ganzzahligen Leiter bewegen. Die Irrfahrt heißt symmetrisch, falls p = q = 0.5 gilt. Uns interessiert die Frage, wohin sich ein solches Teilchen im Laufe der Zeit bewegt. Verschwindet es im Unendlichen, oder kommt es immer wieder zum Ausgangspunkt zur¨ uck? Wir werden diese Frage in Beispiel 9.29 beantworten. ♦ Beispiel 9.5 (Irrfahrt mit absorbierenden Schranken). Wie der Name schon sagt, setzen wir dem Teilchen in diesem Beispiel Schranken. Es darf sich nicht 1p 1
0
1 1-p
1
1p 32 1
1-p
1p
1p 3
1-p
33 1......
1-N 3 1 1-N
3NN1
1
1-p
¨ Abbildung 9.2. Ubergangsgraph der Irrfahrt mit Schranken
mehr auf dem ganzen Zahlenstrahl bewegen, sondern nur noch auf dem Zustandsraum S := {0, 1, . . . , N } f¨ ur ein N ≥ 1. Innerhalb dieses Intervalls bewegt sich das Teilchen wieder mit der Wahrscheinlichkeit p nach rechts und mit der Wahrscheinlichkeit q = 1 − p nach links. Kommt es allerdings auf einen Randpunkt, so bleibt es f¨ ur alle Zeiten dort. Im Einzelnen ergibt sich ¨ f¨ ur die Ubergangswahrscheinlichkeiten: pii+1 = p
f¨ ur alle 0 < i < N,
pii−1 = 1 − p f¨ ur alle 0 < i < N, pii = 0 f¨ ur alle 0 < i < N, p00 = pN N = 1. ¨ Dieses Beispiel zeigt, wie n¨ utzlich Ubergangsgraphen, siehe Abbildung 9.2, f¨ ur die Anschauung sind. ♦ Das letzte Beispiel motiviert die folgende Definition: Definition 9.6 (absorbierender Zustand). Sei (Xn ) eine (α, p)-MarkovKette auf dem Zustandsraum S. Ein Zustand i ∈ S heißt absorbierend, falls pii = 1. Aus einem absorbierenden Zustand gibt es kein Entkommen mehr. Im letzten Beispiel waren die Zust¨ ande 0 und N absorbierend. ¨ Mehrschritt-Ubergangswahrscheinlichkeiten Die Beispiele haben Fragen aufgeworfen, die das Verhalten der Markov-Kette auf lange Sicht“ betreffen. Schauen wir zun¨ achst, was passiert, wenn wir mehr ”
¨ 9.1 Ubergangswahrscheinlichkeiten
233
¨ als einen Schritt voraus denken. Die Ubergangswahrscheinlichkeiten pij = P(Xn+1 = j|Xn = i) einer Markov-Kette (Xn ) geben die Wahrscheinlichkeit an, in einem Schritt vom Zustand i in den Zustand j zu gelangen. Wir m¨ochten die Wahrscheinlichkeit bestimmen, von i nach j in m Schritten zu gelangen. Dazu definieren wir f¨ ur jedes Paar i, j ∈ S aus dem Zustandsraum die ¨ m-Schritt-Ubergangswahrscheinlichkeit pm ij := P(Xn+m = j|Xn = i). Auf Grund der Zeitinvarianz der Markov-Ketten sind auch die m-Schritt¨ Ubergangswahrscheinlichkeiten unabh¨ angig von n und damit wohldefiniert. Beginnen wir mit einem Beispiel. Beispiel 9.7 (Wettervorhersage f¨ ur u ¨bermorgen). Heute scheint die Sonne, wie groß ist die Wahrscheinlichkeit, dass es u ¨bermorgen regnet? Betrachten wir ¨ dazu wieder unsere Wetter-Kette (Xn ) mit den Ubergangswahrscheinlichkeiten 1 2 3 1 0.3 0.7 0 2 0.3 0.5 0.2 3 0.1 0.2 0.7 Gesucht ist die Wahrscheinlichkeit P(X2 = 1|X0 = 3). Diese ergibt sich unter Ber¨ ucksichtigung aller Wetterlagen f¨ ur den dazwischen liegenden Tag: P(X2 = 1|X0 = 3) =
3
P(X2 = 1, X1 = k|X0 = 3)
k=1
=
3
P(X2 = 1|X1 = k, X0 = 3) · P(X1 = k|X0 = 3)
k=1
=
3
pk1 p3k
k=1
= 0.16. Dabei haben wir in der vorletzten Zeile die Markov-Eigenschaft verwendet. Nun ist an den Zust¨ anden 1 und 3 sicherlich nichts Besonderes, so dass wir allgemein f¨ ur i, j ∈ {1, 2, 3} erhalten: P(X2 = j|X0 = i) =
3
pi,k pk,j = (p2 )ij ,
(9.4)
k=1
¨ also den (i, j)-ten Eintrag der Matrix p2 . Die 2-Schritt-Ubergangswahrschein¨ lichkeiten sind also gegeben durch das Quadrat der Ubergangsmatrix p. ♦ ¨ Das letzte Beispiel legt die Vermutung nahe, dass die m-Schritt-Ubergangsin der m-ten Potenz der stochastischen Matrix p wahrscheinlichkeiten pm ij
234
9 Markov-Ketten
stehen. Dies ist in der Tat der Fall, wie das n¨ achste Resultat zeigt. Vorsichtshalber definieren wir noch 1 f¨ ur i = j, p0ij = δij = 0 f¨ ur i = j. Theorem 9.8 (Chapman-Kolmogorov-Gleichung). Ist (Xn ) eine (α, p)Markov-Kette auf einem Zustandsraum S, so gilt f¨ ur jedes Paar i, j ∈ S: n = pm m, n ∈ N0 , (9.5) pm+n ik pkj , ij k∈S
d.h.
pm ij
ist der (i, j)-te Eintrag in der Matrix pm .
Beweis. Unsere Strategie ist klar: Um von i nach j in m + n Schritten zu gehen, m¨ ussen wir in m Schritten zu einem Zustand k, und von dort in n Schritten weiter bis zu j. Die Markov-Eigenschaft garantiert, dass die beiden Teilst¨ ucke unabh¨ angig sind. Im Einzelnen erhalten wir: = P(Xm+n = j|X0 = i) = P(Xm+n = j, Xm = k|X0 = i) pm+n ij =
k∈S
P(Xm+n = j|Xm = k, X0 = i)P(Xm = k|X0 = i)
k∈S
=
P(Xm+n = j|Xm = k)P(Xm = k|X0 = i)
k∈S
=
n pm ik pkj .
k∈S
Damit ist Gleichung (9.5) bewiesen.
Beispiel 9.9 (Wetter-Kette). Wie entwickelt sich das Wetter in 8 Tagen? Be¨ rechnen wir dazu mit der Ubergangsmatrix p aus (9.1) die Matrix p8 , so erhalten wir: ⎛ ⎞ 0.24 0.46 0.30 p8 ! ⎝0.24 0.46 0.30⎠ . 0.24 0.45 0.31 Wir sehen, dass unabh¨ angig vom aktuellen Zustand, also dem heutigen Wetter, die Wahrscheinlichkeit, dass es in 8 Tagen regnet, in etwa gleich ist. Das gleiche gilt f¨ ur die beiden anderen Zust¨ ande. Die Vermutung liegt nahe, dass pn gegen eine Matrix konvergiert, bei der in jeder Zeile die gleiche Gleichge” wichtsverteilung“ steht. Wir werden dies in Abschnitt 9.5 beweisen. ♦ Absolute Wahrscheinlichkeiten Wir haben bisher bedingte Wahrscheinlichkeiten P(Xm = j|X0 = i) betrachtet. Was passiert, wenn wir den Anfangszustand nicht kennen und nach der
9.2 Erweiterungen der Markov-Eigenschaft
235
absoluten Wahrscheinlichkeit P(Xm = j) fragen, in m Schritten zum Zustand j zu gelangen? Wir erwarten, dass dies von der Anfangsverteilung abh¨angt, und die Formel von der totalen Wahrscheinlichkeit liefert uns die Begr¨ undung daf¨ ur. ur jedes m ∈ N: Satz 9.10. Sei (Xn ) eine (α, p)-Markov-Kette. Dann gilt f¨ αi · pm (9.6) P(Xm = j) = ij . i∈S
Beweis. Nach der Formel von der totalen Wahrscheinlichkeit 5.2 gilt: P(X0 = i) · P(Xm = j|X0 = i) P(Xm = j) = i∈S
=
αi · pm ij .
i∈S
9.2 Erweiterungen der Markov-Eigenschaft Die Zukunft einer Markov-Kette h¨ angt nicht von ihrer Vergangenheit, sondern nur von der Gegenwart ab. Diese Aussage, die sich mathematisch in der definierenden Gleichung (9.2) wiederfindet, haben wir als Markov-Eigenschaft bezeichnet. In diesem Abschnitt zeigen wir, wie sich aus Gleichung (9.2) weitere, st¨ arkere Aussagen ergeben, die noch deutlicher die Unabh¨angigkeit der Zukunft von der Vergangenheit bei gegebener Gegenwart zeigen. Charakterisierung endlicher Markov-Ketten Betrachten wir endlich viele Zufallsvariablen X0 , . . . , XN auf einem Zustandsraum S, so bezeichnen wir diese als endliche (α, p)-Markov-Kette, wenn ur jedes n ≤ N − 1 erf¨ ullt ist. PX0 = α und die Gleichung (9.2) f¨ Lemma 9.11. Sei (Xn ) eine Folge von Zufallsvariablen mit Wertebereich S. Dann gilt: (i) (Xn ) ist genau dann eine (α, p)-Markov-Kette, wenn (Xn )0≤n≤N f¨ ur jedes N ∈ N eine endliche (α, p)-Markov-Kette ist. ur (ii) (Xn )0≤n≤N ist genau dann eine endliche (α, p)-Markov-Kette, wenn f¨ alle (i0 , . . . , iN ) ∈ S N +1 gilt: P(X0 = i0 , . . . , XN = iN ) = αi0 pi0 i1 . . . piN −1 iN .
(9.7)
236
9 Markov-Ketten
Beweis. Die erste Aussage ist offensichtlich. F¨ ur die zweite Behauptung nehmen wir zun¨ achst an, (Xn )0≤n≤N sei eine endliche (α, p)-Markov-Kette. Dann folgt nach Satz 5.2: P(X0 = i0 , . . . , XN = iN ) = P(X0 = i0 )P(X1 = i1 |X0 = i0 ) . . . P(XN = iN |XN −1 = iN −1 , . . . , X0 = i0 ) = α(i0 )P(X1 = i1 |X0 = i0 ) . . . P(XN = iN |XN −1 = iN −1 ) = αi0 pi0 i1 . . . piN −1 iN .
Umgekehrt folgt aus (9.7) durch Summation u ¨ber alle iN ∈ S wegen
pij =
j∈S
1, dass (9.7) auch gilt, wenn wir N durch N − 1 ersetzen. Per Induktion folgt, dass f¨ ur jedes n ≤ N und i0 , . . . , in ∈ S gilt: P(X0 = i0 , . . . , Xn = in ) = αi0 pi0 i1 . . . pin−1 in . Insbesondere folgt PX0 = α und f¨ ur jedes n ≤ N − 1: P(Xn+1 = in+1 |X0 = i0 , . . . , Xn = in ) P(X0 = i0 , . . . , Xn+1 = in+1 ) = P(X0 = i0 , . . . , Xn = in ) αi0 pi0 i1 . . . pin in+1 = = pin in+1 = P(Xn+1 = in+1 |Xn = in ). αi0 pi0 i1 . . . pin−1 in Wiedergeburt Das n¨ achste Resultat besagt, dass eine Markov-Kette, die in m Schritten in den Zustand i gelangt, von da an zum einen unabh¨angig von ihrer Vergangenheit ist und zum anderen nicht zu unterscheiden ist von einer Markov-Kette, die gleich im Zustand i beginnt. Diese Aussage, die wir als Markov-Eigenschaft bezeichnen, verdeutlicht, dass eine Markov-Kette kein Ged¨achtnis hat. Sie wird in jedem Zustand Xm = i wieder geboren. Wir verwenden dazu die Dirac-Dichte, die f¨ ur ein festes i ∈ S gegeben ist durch: 1 f¨ ur j = i, j ∈ S. δi (j) = 0 f¨ ur j = i, Theorem 9.12 (Markov-Eigenschaft). Es sei (Xn ) eine (α, p)-MarkovKette. Dann gilt f¨ ur jedes V ∈ σ(X0 , . . . , Xm ) und jedes A ∈ σ(Xn : n ≥ m) mit A = {(Xm , Xm+1 , . . .) ∈ B}, B ∈ P(S)⊗N : P((Xm , Xm+1 , . . .) ∈ B|{Xm = i} ∩ V ) = Pi ((X0 , X1 , . . .) ∈ B).
(9.8)
9.2 Erweiterungen der Markov-Eigenschaft
237
Beweis. Es gen¨ ugt, die Behauptung f¨ ur Mengen der Gestalt V = {X0 = i0 , . . . , Xm = im } und A = {Xm = jm , . . . , Xm+n = jm+n },
n ∈ N,
zu zeigen, weil diese Mengen (zusammen mit der leeren Menge) einen durchschnittsstabilen Erzeuger von σ(X0 , . . . , Xm ) bzw. σ(Xn : n ≥ m) bilden, so dass die Behauptung dann aus dem Maßeindeutigkeitssatz folgt. F¨ ur ein so gew¨ ahltes A und V ist die Bedingung leer, wenn nicht im = i gilt, und durch dreimalige Anwendung des Lemmas 9.11 folgt weiter: P(Xm = jm , . . . , Xm+n = jm+n |Xm = i, X0 = i0 , . . . , Xm−1 = im−1 ) P(X0 = i0 , . . . , Xm−1 = im−1 , Xm = i, Xm = jm , . . . , Xm+n = jm+n ) = P(X0 = i0 , . . . , Xm−1 = im−1 , Xm = i) αi0 pi0 i1 . . . pim−1 i pijm+1 . . . pjm+n−1 jm+n δijm = αi0 pi0 i1 . . . pim−1 i = δijm pijm+1 . . . pjm+n−1 jm+n = Pi (X0 = jm , . . . , Xn = jm+n ). Die eben bewiesene Markov-Eigenschaft enth¨ alt zwei entscheidende Aussagen. Zum einen erhalten wir f¨ ur V = Ω: P((Xm , Xm+1 , . . .) ∈ B|Xm = i) = Pi ((X0 , X1 , . . .) ∈ B), d.h. • Unter der Bedingung Xm = i ist (Xm+n )n≥0 eine (δi , p)-Markov-Kette. ¨ Zum anderen erhalten wir auf Grund der elementaren Aquivalenz P(A|G, V ) = P(A|G) ⇔ P(A ∩ V |G) = P(A|G)P(V |G) die folgende Aussage: P({(Xm , Xm+1 , . . .) ∈ B} ∩ V |Xm = i) = Pi ((X0 , X1 , . . .) ∈ B)P(V |Xm = i). Interpretieren wir V ∈ σ(X0 , . . . , Xm ) als Vergangenheit, Xm = i als Gegenwart und {(Xm , Xm+1 , . . .) ∈ B} ∈ σ(Xn : n ≥ m) als Zukunft der MarkovKette, so erhalten wir daraus die Aussage: •
Unter der Bedingung der Gegenwart Xm = i ist die Zukunft der Markovangig von ihrer Vergangenheit. Kette (Xm+n )n≥0 unabh¨
238
9 Markov-Ketten
Stoppzeiten Bei der Markov-Eigenschaft (9.8) betrachten wir die Markov-Kette unter der Bedingung Xm = i, und unter dieser Bedingung startet die Markov-Kette in i neu. Alternativ k¨ onnten wir warten, bis die Markov-Kette den Zustand i zu einer zuf¨ alligen Zeit T erreicht. Was k¨ onnen wir u ¨ber die Markov-Kette nach der zuf¨ alligen Zeit T sagen? Bevor wir uns dieser Frage widmen, f¨ uhren wir eine geeignete Klasse von zuf¨ alligen Zeiten, die Stoppzeiten, ein. Dazu setzen wir ¯ := N ∪ {+∞}, N ¯ 0 := N0 ∪ {+∞}. N
Definition 9.13 (Stoppzeit). Sei (Xn ) eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) und Fn := σ(X0 , . . . , Xn ), n ∈ N0 , die von den ersten n + 1 Zufallsvariablen erzeugte σ-Algebra, sowie F∞ := σ(X0 , X1 , X2 , . . .). Eine Funktion ¯0 τ :Ω→N heißt Stoppzeit bez¨ uglich (Xn ), falls {τ = n} ∈ Fn f¨ ur jedes n ∈ N0 gilt. Stoppzeiten kann man sich als Strategien vorstellen, z.B. ein Spiel zu einem vom zuf¨ alligen Verlauf abh¨ angigen Zeitpunkt zu beenden. Die Bedingung {τ = n} ∈ Fn stellt dabei sicher, dass die Entscheidung, ob das Spiel beendet wird oder nicht, nur auf Grund der bereits vergangenen Spielrunden getroffen wird, und nicht im Vorgriff auf noch kommende Ereignisse. Beispiel 9.14 (R¨ uckkehrzeit). Im Zusammenhang mit Markov-Ketten (Xn ) ist die wichtigste Stoppzeit die R¨ uckkehrzeit ¯ 0, Ti : Ω → N Ti (ω) := inf{n ≥ 1 : Xn (ω) = i}. Dabei vereinbaren wir inf ∅ := +∞, um den Fall zu erfassen, dass die MarkovKette niemals zum Zustand i zur¨ uckkehrt. Dass Ti eine Stoppzeit ist, folgt aus ur jedes n ∈ N. {Ti = n} = {X1 = i, . . . , Xn−1 = i, Xn = i} ∈ Fn f¨ Man beachte Ti ≥ 1, insbesondere impliziert X0 (ω) = i nicht Ti (ω) = 0. Die Markov-Kette muss zum Zustand i zur¨ uckkehren, auch wenn sie in i gestartet ist. ♦
9.2 Erweiterungen der Markov-Eigenschaft
239
Beispiel 9.15 (Eintrittszeit). Ganz ¨ ahnlich wie die R¨ uckkehrzeit definiert man die Eintrittszeit f¨ ur eine Menge A ⊂ S: ¯ 0, TA : Ω → N TA (ω) := inf{n ≥ 0 : Xn (ω) ∈ A}. Wieder ist inf ∅ = +∞ zu beachten, sollte (Xn ) niemals einen Zustand aus A erreichen. Genau wie im ersten Beispiel zeigt man, dass TA eine Stoppzeit ist. ♦ Im Gegensatz zur R¨ uckkehrzeit ist hier TA (ω) = 0, falls X0 (ω) ∈ A. Beispiel 9.16 (Letzter Besuch). Der letzte Besuch LA einer Markov-Kette in A ⊂ S ist keine Stoppzeit: ¯ 0, LA : Ω → N LA (ω) := sup{n ≥ 0 : Xn (ω) ∈ A}, denn im Allgemeinen ist {LA = n} = {Xn ∈ A, Xm ∈ / A, m > n} ∈ / Fn . Dennoch ist LA eine messbare Abbildung, auf die wir noch einmal zur¨ uckkommen werden. ♦ Die starke Markov-Eigenschaft Im Allgemeinen erh¨ alt man aus einer Markov-Eigenschaft die entsprechende starke Markov-Eigenschaft, indem man den deterministischen Zeitparameter durch eine Stoppzeit ersetzt. In unserem Fall bedeutet dies, dass wir f¨ ur eine Stoppzeit T und eine Markov-Kette (Xn ) die Folge (XT +n )n≥0 betrachten und zeigen werden, dass diese unter der Bedingung XT = i wiederum eine Markov-Kette ist, die unabh¨ angig von ihrer Vergangenheit ist. Zuvor m¨ ussen wir noch zwei Begriffe kl¨ aren. Zum einen ist XT +n (ω) := XT (ω)+n (ω),
ω ∈ Ω,
nur auf T < ∞ sinnvoll erkl¨ art. Wir werden daher zus¨atzlich die Bedingung T < ∞ (fast sicher) fordern. Um XT auf ganz Ω zu erkl¨aren, kann man formal einen Zustand ∆ zu S hinzunehmen und X∞ (ω) := ∆,
ω ∈ Ω,
setzen. Die zweite Frage ist, was wir unter der Bedingung XT = i als Vergangenheit bezeichnen. Im Fall Xm = i war diese durch die σ-Algebra ur eine Stoppzeit T ist Fm = σ(X0 , . . . , Xm ) gegeben. Das Analogon f¨ ¯ 0 }. die σ-Algebra FT := {A ∈ F : A ∩ {T ≤ n} ∈ Fn f¨ ur alle n ∈ N
(9.9)
Die σ-Algebra FT beschreibt die Zeit vor T : So gilt z.B. im Fall einer konstanten deterministischen Stoppzeit T := m, dass FT = Fm ist. Jetzt k¨onnen wir die starke Markov-Eigenschaft formulieren.
240
9 Markov-Ketten
Theorem 9.17 (starke Markov-Eigenschaft). Es sei (Xn ) eine (α, p)Markov-Kette und T eine Stoppzeit mit P(T < ∞) = 1. Dann gilt f¨ ur jedes V ∈ FT und jedes A ∈ σ(XT +n : n ≥ 0) mit A = {(XT , XT +1 , . . .) ∈ B}, B ∈ P(S)⊗N : P((XT , XT +1 , . . .) ∈ B|XT = i, V ) = Pi ((X0 , X1 , . . .) ∈ B).
(9.10)
Beweis. Das Beweisprinzip ist das folgende: Man schl¨ usselt die Stoppzeit nach ihren m¨ oglichen Werten T = m auf, wendet die gew¨ohnliche MarkovEigenschaft an und f¨ ugt anschließend die Teile wieder zusammen. Vorher bemerken wir noch, dass es wie beim Beweis der Markov-Eigenschaft 9.12 gen¨ ugt, die Behauptung f¨ ur A = {XT = j0 , . . . , XT +n = jn },
n ∈ N,
zu zeigen und dass nach Definition von FT aus V ∈ FT gerade V ∩{T = m} ∈ ohnlichen) Markov-Eigenschaft Fm folgt. Damit erhalten wir aus der (gew¨ (9.8): P(XT = j0 , . . . , XT +n = jn |XT = i, V ) ∞ = P(T = m|XT = i, V )P(XT = j0 , . . . , XT +n = jn |XT = i, V, T = m) =
m=0 ∞
P(T = m|XT = i, V )P(Xm = j0 , . . . , Xm+n = jn |Xm = i, V, T = m)
m=0 ∞
= Pi (X0 = j0 , . . . , Xn = jn )
P(T = m|XT = i, V )
m=0
= Pi (X0 = j0 , . . . , Xn = jn ). Die Interpretation der Gleichung (9.10) ergibt sich genau analog zur (gew¨ohnlichen) Markov-Eigenschaft: Unter den Bedingungen XT = i (und T < ∞ f.s.) ist (XT +n )n≥0 (δi , p)Markov. • Die Markov-Kette (XT +n )n≥0 ist unter der Gegenwart XT = i (und T < ∞ f.s.) unabh¨ angig von ihrer Vergangenheit FT .
•
9.3 Klassifikation von Zust¨ anden In diesem Abschnitt wollen wir Eigenschaften von einzelnen Zust¨anden einer Markov-Kette untersuchen. Wir beginnen mit der Frage, wie die einzelnen Zust¨ ande kommunizieren“. Wir betrachten dazu als Beispiel eine Markov” ¨ Kette mit dem Zustandsraum S := {1, 2, 3, 4, 5, 6}, deren Ubergangsgraph in
9.3 Klassifikation von Zust¨ anden
1
44
3
54
2
241
64
¨ Abbildung 9.3. Ubergangsgraph einer Markov-Kette ohne Wahrscheinlichkeiten
Abbildung 9.3 dargestellt ist. Wir haben bewusst darauf verzichtet, Wahrscheinlichkeiten an die Pfeile zu schreiben, da es zur Zeit lediglich darauf ¨ ankommt, ob ein Pfeil da ist und nicht, wie wahrscheinlich der Ubergang ist. Wir lesen Folgendes ab: (i) Vom Zustand 3 ist jeder andere Zustand erreichbar. Hat man den Zustand 3 jedoch einmal verlassen, kommt man nicht mehr zu ihm zur¨ uck. (ii) Vom Zustand 1 kommt man zum Zustand 2 und umgekehrt. (iii) Die Zust¨ ande {4, 5, 6} erreichen sich alle gegenseitig, man kommt aber nirgendwo anders mehr hin. Diese Eigenschaften formalisieren wir in einigen Definitionen: Definition 9.18 (erreichbar, kommunizierend). Sei (Xn ) eine (α, p)Markov-Kette mit Zustandsraum S und i, j ∈ S zwei Zust¨ ande. j heißt von i aus erreichbar, in Zeichen i → j, falls es ein n ≥ 0 gibt mit pnij > 0. Ist i von j aus erreichbar und j von i aus erreichbar, so heißen i und j kommunizierend, in Zeichen i ↔ j. F¨ ur n ≥ 1 ist pnij =
i1 ,...,in−1 ∈S n−1
pii1 · · · pin−1 j > 0 genau dann, wenn es min-
destens einen Pfad i, i1 , . . . , in−1 , j von i nach j gibt, so dass pii1 · · · pin−1 j > 0.
(9.11)
Daraus ergibt sich: Satz 9.19. Ist (Xn ) eine Markov-Kette, so ist Kommunikation (↔) eine ¨ ¨ Aquivalenzrelation auf dem Zustandsraum S. Die Aquivalenzklassen heißen Kommunikationsklassen.
242
9 Markov-Ketten
Beweis. Da wir p0ii = 1 festgelegt haben, kommuniziert jeder Zustand mit sich selbst. Die Symmetrie ist nach Definition offensichtlich und die Transitivit¨at folgt aus (9.11). Als n¨ achstes zeichnen wir diejenigen Teilmengen von S aus, die man nicht wieder verlassen kann: Definition 9.20 (abgeschlossene Menge). Ist C ⊂ S eine Teilmenge des Zustandsraums S einer (α, p)-Markov-Kette und gilt f¨ ur jedes i ∈ C: pij = 1, j∈C
so heißt C abgeschlossen.
Beispiel 9.21. Wir betrachten als Beispiel wieder die Markov-Kette mit dem ¨ Ubergangsgraphen gem¨ aß Abbildung 9.3. Die Kommunikationsklassen sind {1, 2}, {3}, {4, 5, 6}. Abgeschlossene Teilmengen von S sind {1, 2} und {4, 5, 6}, aber auch deren Vereinigung {1, 2, 4, 5, 6} und S selbst.
♦
Die letzten beiden geschlossenen Mengen im vorangegangenen Beispiel sind intuitiv zu groß“, daher definieren wir: ” Definition 9.22 (irreduzibel). Ist C ⊂ S eine Teilmenge des Zustandsraums S einer Markov-Kette und gilt i ↔ j f¨ ur alle i, j ∈ C,
(9.12)
so heißt C irreduzibel. Ist S irreduzibel, besteht die Markov-Kette also aus genau einer Kommunikationsklasse, so heißt die Markov-Kette irreduzibel. Die gr¨ oßte irreduzible Menge, die einen Zustand i enth¨alt, ist die Kommunikationsklasse von i. Diese muss im Allgemeinen aber nicht abgeschlossen sein, wie schon das Beispiel 9.3 zeigt: Die Menge {3} ist irreduzibel, aber nicht abgeschlossen. Um ein hinreichendes Kriterium f¨ ur die Abgeschlossenheit einer Kommunikationsklasse zu entwickeln, m¨ ussen wir die einzelnen Zust¨ande unter einem anderen Gesichtspunkt betrachten, der Transienz bzw. Rekurrenz.
9.3 Klassifikation von Zust¨ anden
243
Transienz und Rekurrenz Mit welcher Wahrscheinlichkeit erreicht eine Markov-Kette in endlicher Zeit vom Zustand i aus den Zustand j? Mit anderen Worten, wie groß ist f¨ ur zwei Zust¨ ande i, j ∈ S einer Markov-Kette die Wahrscheinlichkeit ρij := Pi (Tj < ∞),
(9.13)
wobei Tj = inf{n ≥ 1 : Xn = j} die R¨ uckkehrzeit aus Beispiel 9.14 ist. Ist ρii = 1, so kommen wir mit Sicherheit vom Startzustand i wieder zum Zustand i zur¨ uck. Da die Markov-Kette nach der starken Markov-Eigenschaft in XTi = i wieder geboren wird, ist es nahe liegend zu vermuten, dass wir dann auch mit Wahrscheinlichkeit 1 unendlich oft zur¨ uckkehren. Dies werden wir im n¨ achsten Theorem beweisen. Im anderen Fall, also wenn ρii < 1, ist die Wahrscheinlichkeit f¨ ur unendlich viele Besuche hingegen 0. Diesen beiden M¨ oglichkeiten geben wir nun einen Namen. Dabei unterscheiden wir im ersten Fall, ob wir im Mittel in endlicher Zeit zur¨ uckkehren oder unendlich lange warten m¨ ussen. Definition 9.23 (transient, (positiv, null) rekurrent). Sei (Xn ) eine (α, p)-Markov-Kette mit Zustandsraum S und i ∈ S. Ist ρii < 1, so heißt i transient, ρii = 1, so heißt i rekurrent. Ein rekurrenter Zustand i ∈ S heißt positiv rekurrent, falls Ei (Ti ) < ∞, null rekurrent, falls Ei (Ti ) = ∞. Dabei bedeutet Ei , dass der Erwartungswert bez¨ uglich Pi betrachtet wird. Insbesondere ist jeder Zustand einer Markov-Kette entweder rekurrent oder transient. Es ist im Allgemeinen nicht ganz leicht festzustellen, ob ein Zustand transient oder rekurrent ist. Eine M¨ oglichkeit ist, wie oben angedeutet, zu z¨ ahlen, wie oft wir uns im Zustand i befinden: Ni :=
∞
I{Xn =i} ,
i ∈ S.
(9.14)
n=0
Wir erwarten im transienten bzw. rekurrenten Fall deutliche Unterschiede f¨ ur die erwartete Anzahl Besuche in i, Ei (Ni ) =
∞ n=0
Pi (Xn = i) =
∞ n=0
pnii ,
(9.15)
244
9 Markov-Ketten
genauso wie f¨ ur die Wahrscheinlichkeit, unendlich oft im Zustand i zu sein: ur unendlich viele n) = Pi (lim sup{Xn = i}). Pi (Xn = i u.o.) := Pi (Xn = i f¨ Der folgende Satz best¨ atigt diese Erwartung und enth¨alt ein Kriterium f¨ ur Rekurrenz bzw. Transienz: Satz 9.24. Sei (Xn ) eine (α, p)-Markov-Kette mit Zustandsraum S, i ∈ S. Dann gilt: ∞ pnii = ∞. (i) Ist i rekurrent, so ist Pi (Xn = i u.o.) = 1 und Ei (Ni ) = n=0 ∞
(ii) Ist i transient, so ist Pi (Xn = i u.o.) = 0 und Ei (Ni ) =
pnii =
n=0
insbesondere Ei (Ni ) < ∞.
1 1−ρii ,
Beweis. Der Beweis beruht wesentlich auf einer geschickten Verwendung der letzten Besuchszeit in i, ¯ 0, Li : Ω → N Li (ω) := sup{n ≥ 0 : Xn (ω) = i}. Da wir nur Aussagen unter Pi betrachten, ist X0 = i und daher {n ≥ 0 : ur Xn = i} = ∅. Nach Definition von Li und mit der Markov-Eigenschaft gilt f¨ jedes n ≥ 0: ur alle m > n) Pi (Li = n) = Pi (Xn = i, Xm = i f¨ = Pi (Xm = i f¨ ur alle m > n|Xn = i)Pi (Xn = i) = Pi (Xm = i f¨ ur alle m > 0)Pi (Xn = i) = (1 − ρii )pnii .
(9.16)
Summation u ¨ber n ≥ 0 ergibt: Pi (Li < ∞) = Ei (Ni )(1 − ρii ).
(9.17)
Besucht (Xn ) den Zustand i unendlich oft, so ist Li = ∞, daher folgt Pi (Li < ∞) = 1 − Pi (Xn = i u.o.),
(9.18)
1 − Pi (Xn = i u.o.) = Ei (Ni )(1 − ρii ).
(9.19)
also: ur alle n ≥ 0, Ist i rekurrent, also ρii = 1, so folgt aus (9.16) Pi (Li = n) = 0 f¨ also Pi (Li < ∞) = 0, und daher aus (9.18) Pi (Xn = i u.o.) = 1. Das Lemma ∞ Pi (Xn = i) = ∞. Ist i von Borel-Cantelli liefert dann Ei (Ni ) = n=1
transient, so folgt aus (9.19) Ei (Ni ) < ∞, und daher wieder mit dem Lemma von Borel-Cantelli Pi (Xn = i u.o.) = 0. Damit erhalten wir schließlich wiederum aus (9.19) die Beziehung Ei (Ni ) =
1 . 1 − ρii
9.3 Klassifikation von Zust¨ anden
245
Transiente und rekurrente Klassen Kommunizieren zwei Zust¨ ande, so sind sie beide rekurrent oder beide transient: Satz 9.25. Rekurrenz und Transienz sind Klasseneigenschaften, sie h¨ angen nur von der Kommunikationsklasse ab. Mit anderen Worten: Ist (Xn ) eine (α, p)-Markov-Kette mit Zustandsraum S, so gilt f¨ ur i, j ∈ S: (i) Ist i rekurrent und i ↔ j, so ist j rekurrent. (ii) Ist i transient und i ↔ j, so ist j transient. Beweis. Offensichtlich folgt die erste Behauptung aus der zweiten. Sei also i transient und i ↔ j. Dann gibt es k, m ≥ 0, so dass pkij > 0 und pm ji > 0. Nun ist aber f¨ ur jedes l ≥ 0 k+l+m ≥ pkij pljj pm pii ji , und nach Satz 9.24 ergibt sich, da i transient ist: ∞
pljj ≤
l=0
∞ 1 k+l+m pii < ∞. pkij pm ji l=0
Wieder nach Satz 9.24 folgt die Transienz von j.
Daher ist es gerechtfertigt, von transienten bzw. rekurrenten Klassen zu sprechen und eine irreduzible Markov-Kette rekurrent bzw. transient zu nennen, je nachdem, ob einer und damit alle Zust¨ ande rekurrent bzw. transient sind. Im Allgemeinen zerf¨ allt eine Markov-Kette in transiente Kommunikationsklassen und rekurrente Kommunikationsklassen. Letztere sind abgeschlossen, wie der folgende Satz zeigt: Satz 9.26. Es sei (Xn ) eine Markov-Kette mit Zustandsraum S und R ⊂ S eine rekurrente Kommunikationsklasse. Dann ist R abgeschlossen. Beweis. Nehmen wir an, R sei nicht abgeschlossen. Dann gibt es ein i ∈ R, ein j ∈ / R und ein m ≥ 1, so dass Pi (Xm = j) > 0. Da R eine Kommunikationsklasse ist und j ∈ / R, ist umgekehrt ur alle n > m. Pi (Xm = j, Xn = i) = 0 f¨ Damit ist insbesondere auch Pi ({Xm = j} ∩ {Xn = i u.o.}) = 0 und daher Pi (Xn = i u.o.) < 1. Daraus folgt mit 9.24, dass i nicht rekurrent ist, im Widerspruch zu i ∈ R. Also ist R abgeschlossen.
246
9 Markov-Ketten
Wir fassen unsere Ergebnisse zur Klassifikation von Zust¨anden im nachfolgenden Theorem zusammen: Theorem 9.27 (Zerlegung des Zustandsraumes). Es sei (Xn ) eine (α, p)Markov-Kette mit Zustandsraum S. Dann gibt es eine disjunkte Zerlegung von S der Gestalt Rl , L ⊂ N, S=T ∪ l∈L
f¨ ur die gilt: • T ist die Menge der transienten Zust¨ ande von S. • Rl ist f¨ ur jedes l ∈ L eine irreduzible, abgeschlossene Kommunikationsklasse rekurrenter Zust¨ ande. Beweis. Zun¨ achst hat S eine disjunkte Zerlegung in abz¨ahlbar viele Kommunikationsklassen: ∞ S= Cn , n=1
wobei jedes Cn nach Satz 9.25 nur transiente oder nur rekurrente Zust¨ande enth¨ alt. Setzen wir Cn , T = Cn transient und bezeichnen die nicht in T enthaltenen Kommunikationsklassen mit Rl , l ∈ L ⊂ N, so folgt die disjunkte Zerlegung S=T ∪ Rl . l∈L
Nach Konstruktion ist jedes Rl , l ∈ L, eine rekurrente Kommunikationsklasse, damit irreduzibel und nach Satz 9.26 abgeschlossen. ¨ F¨ ur die Markov-Kette mit dem Ubergangsgraphen gem¨aß Abbildung 9.3 sieht die Zerlegung des Zustandsraumes folgendermaßen aus: S = T ∪ R1 ∪ R2 = {3} ∪ {1, 2} ∪ {4, 5, 6}. Die rekurrenten Klassen sind in diesem Fall sogar positiv rekurrent, wie der n¨achste Satz zeigt: Satz 9.28. Ist (Xn ) ein irreduzible (α, p)-Markov-Kette mit endlichem Zustandsraum S, so ist (Xn ) positiv rekurrent. Beweis. Sei i ∈ S ein beliebiger Zustand. Aus der Irreduzibilit¨at folgt, dass es zu jedem j ∈ S ein kj gibt, so dass Pj (Ti ≤ kj ) > 0 ist. Setzen wir K := max{kj : j ∈ S}, so gibt es ein ε > 0 mit Pj (Ti ≤ K) ≥ ε
f¨ ur alle j ∈ S.
9.3 Klassifikation von Zust¨ anden
247
Aus der starken Markov-Eigenschaft (9.10) folgt: Pj (Ti > nK) ≤ (1 − ε)n
f¨ ur alle j ∈ S und n ∈ N.
Damit folgt Ei (Ti ) =
∞
P(Ti > n) ≤ K
n=0
∞
P(Ti > nK) < ∞.
n=0
Also ist i ein positiv rekurrenter Zustand.
Wir haben im bisherigen Verlauf gezeigt, dass Rekurrenz eine Klasseneigenschaft ist, dass alle rekurrenten Klassen abgeschlossen sind und alle endlichen abgeschlossenen Klassen (positiv) rekurrent sind. Die Frage der Rekurrenz ist daher nur noch f¨ ur irreduzible Markov-Ketten mit unendlichem Zustandsraum interessant. Als typischen Vertreter betrachten wir die Irrfahrt auf Z: ¨ der IrrBeispiel 9.29 (Irrfahrt auf Zd ). Die Ubergangswahrscheinlichkeiten fahrt auf Z sind wie in Beispiel 9.4 gegeben durch pi,i+1 = p f¨ ur alle i ∈ Z, pi,i−1 = q := 1 − p f¨ ur alle i ∈ Z, pi,j = 0 f¨ ur alle i, j ∈ Z mit i = j oder |i − j| ≥ 2. Die zugeh¨ orige Markov-Kette (Xn ) ist irreduzibel, so dass wir ohne Einschr¨ ankung den Nullpunkt untersuchen k¨ onnen. Sei X0 = 0 fast sicher. Wir k¨onnen nicht in einer ungeraden Anzahl von Schritten zum Nullpunkt zur¨ uck2n+1 = 0 f¨ ur alle n ∈ N. Jede Folge von 2n Schritten, die kehren, daher ist p00 von uckkehrt, hat eine Wahrscheinlichkeit von q n pn , und es gibt 2n 0 nach 0 zur¨ n solcher Wege. Daher gilt: 2n n n p2n = q p . 00 n Die Stirling-Formel besagt n! ∼
√
2πn
n n e
f¨ ur n → ∞,
¨ ur die Ubergangswobei an ∼ bn bedeutet, dass an /bn −→ 1. Daraus folgt f¨ wahrscheinlichkeiten: p2n 00 =
(2n)! (4pq)n (pq)n ∼ √ 2 (n!) πn
Ist die Irrfahrt symmetrisch, d.h. p = q = ∞ √1 folgt Divergenz der Reihe n n=0
f¨ ur n → ∞. 1 2,
so ist 4pq = 1 und aus der
248
9 Markov-Ketten ∞
p2n 00 = ∞,
n=0
also die Rekurrenz der symmetrischen Irrfahrt. Ist die Irrfahrt nicht symme∞ xn √ folgt trisch, so folgt 4pq =: x < 1, und aus der Konvergenz der Reihe n n=0
die Transienz der nicht-symmetrischen Irrfahrt. Die Transienz im nicht-symmetrischen Fall ist intuitiv nicht u ¨berraschend. Sie gilt auch in h¨ oheren Dimensionen Zd , d ≥ 1. Betrachten wir hingegen die symmetrische Irrfahrt in h¨ oheren Dimensionen, 1 2d =0
pi,j =
f¨ ur i − j = ±ek , i, j ∈ Zd ,
pi,j
sonst,
wobei ek ∈ Zd ein Einheitsvektor ist, so h¨ angt erstaunlicher Weise die Rekurrenz der zugeh¨ origen Markov-Kette von der Dimension ab. F¨ ur die Ebene ¨ d = 2 erh¨ alt man durch eine analoge Uberlegung p2n 00
2 2n 2n 1 2 = ∼ n 2 2πn
Aus der Divergenz der harmonischen Reihe
∞ n=1
f¨ ur n → ∞. 1 n
folgt die Rekurrenz der
Markov-Kette in der Dimension d = 2. Sei nun d = 3. Wieder liefert die ¨ Uberlegung, dass wir in jeder Dimension gleich viele Schritte zur¨ uckgehen m¨ ussen, um zum Nullpunkt zu gelangen: p2n 00
2n 1 = 6 i,j,k≥0,i+j+k=n 2n 2 2n 2n 1 1 n = ij k n 2 3 i,j,k≥0,i+j+k=n 2n n 2n 1 1 n ≤ max , ij k i,j,k≥0,i+j+k=n n 2 3
(2n)! (i!j!k!)2
wobei die letzte Absch¨ atzung sich aus der Multinomialverteilung n 1 n =1 ij k 3 i,j,k≥0,i+j+k=n
ergibt. Betrachten wir zun¨ achst n = 3s, s ∈ N0 , so folgt n! n max , ≤ i j k i,j,k≥0,i+j+k=n (s!)3
9.3 Klassifikation von Zust¨ anden
und somit aus der Stirling-Formel 2n n 32 2n 1 1 3 n! 1 2n ∼ √ 3 p00 ≤ 3 n 2 (s!) 3 n 2 π Aus den Absch¨ atzungen 2 1 2s−2 ≥ p00 p2s 00 3
und p2s 00 ≥
folgt mit der Konvergenz der Reihe
∞
249
n → ∞.
4 1 2s−4 p00 f¨ ur alle s ∈ N0 3 3
n− 2 die Transienz der symmetrischen
n=0
Irrfahrt in Dimension 3. V¨ ollig analog ergibt sich die Transienz auch in den Dimensionen d ≥ 3. ♦ Rekurrenz und Startverteilung Ist i ein rekurrenter Zustand, so gilt nach Definition ρii = Pi (Ti < ∞) = 1. Betrachten wir eine andere Startverteilung α, gilt dann immer noch Pα (Ti < ∞) = 1 ? In einer irreduziblen, rekurrenten Markov-Kette ist dies f¨ ur jeden Zustand der Fall: Satz 9.30. Sei (Xn ) eine irreduzible, rekurrente (α, p)-Markov-Kette. Dann gilt f¨ ur jeden Zustand i ∈ S: Pα (Ti < ∞) = 1. Beweis. Zun¨ achst gilt Pα (Ti < ∞) =
Pα (X0 = j)Pj (Ti < ∞),
j∈S
ur alle j ∈ S nachzuweisen. Wir w¨ahlen so dass es gen¨ ugt, Pj (Ti < ∞) = 1 f¨ zu festem j und i ein m ≥ 0, so dass pm ij > 0. Dann gilt mit Satz 9.24: 1 = Pi (Xn = i u.o.) = Pi (Xn = i f¨ ur ein n > m) Pi (Xm = k)Pi (Xn = i f¨ ur ein n > m|Xm = k) = k∈S
=
pm ik Pk (Ti < ∞),
k∈S
wobeiwir f¨ ur die letzte Gleichung die Markov-Eigenschaft verwendet haben. m pm Aus ik = 1 und pij > 0 folgt Pj (Ti < ∞) = 1. k∈S
250
9 Markov-Ketten
9.4 Stationarit¨ at Ein System verschiedener Zust¨ ande, dessen Verteilung sich im Laufe der Zeit nicht ver¨ andert, werden wir als stabil oder im Gleichgewicht bezeichnen. Wir werden uns in diesem Abschnitt der Frage widmen, unter welchen Umst¨ anden Markov-Ketten einen Gleichgewichtszustand erreichen. Wir beginnen damit, den folgenden, zentralen Begriff der Stabilit¨atstheorie diskreter Markov-Ketten einzuf¨ uhren: Definition 9.31 (Station¨ are Verteilung). Sei (Xn ) eine (α, p)-MarkovKette mit Zustandsraum S. Eine Verteilung π auf S heißt station¨ ar, falls π(i)pij = π(j) f¨ ur alle j ∈ S gilt. (9.20) i∈S
Fasst man π als Zeilenvektor auf, so kann man Gleichung (9.20) auch in der Form πp = π (9.21) beschreiben. Der n¨ achste Satz zeigt, dass die station¨ are Verteilung ihren Namen zu Recht tr¨ agt: Satz 9.32. Es sei (Xn ) eine (π, p)-Markov-Kette und π eine station¨ are Verteilung von (Xn ). Dann haben alle Xn , n ≥ 0, die Verteilung π. Außerdem gilt f¨ ur jedes B ∈ P(S)⊗N : Pπ ((Xn , Xn+1 , . . .) ∈ B) = Pπ ((X0 , X1 , . . .) ∈ B). Beweis. Aus der definierenden Eigenschaft πp = π folgt induktiv ur alle n ∈ N. πpn = π f¨
(9.22)
Daher gilt mit Satz 9.10: Pπ (Xn = j) =
π(i)pnij = π(j).
(9.23)
i∈S
Die zweite Behauptung folgt aus dem eben Bewiesenen und der MarkovEigenschaft: Pπ (Xn = i)Pπ ((Xn , Xn+1 , . . .) ∈ B|Xn = i) Pπ ((Xn , Xn+1 , . . .) ∈ B) = i∈S
=
Pπ (X0 = i)Pi ((X0 , X1 , . . .) ∈ B)
i∈S
= Pπ ((X0 , X1 , . . .) ∈ B).
9.4 Stationarit¨ at
251
Wir werden uns jetzt mit hinreichenden und notwendigen Bedingungen f¨ ur die Existenz station¨ arer Verteilungen besch¨ aftigen. Am Ende dieses Abschnitts k¨ onnen wir dann das Verhalten irreduzibler, aperiodischer Markov-Ketten vollst¨ andig klassifizieren. Ein notwendiges Kriterium Existiert eine station¨ are Verteilung, so ist diese strikt positiv: Lemma 9.33. Ist (Xn ) eine irreduzible Markov-Kette mit Zustandsraum S und π eine station¨ are Verteilung, so gilt: π(i) > 0 f¨ ur alle i ∈ S. Beweis. Mengen S+ = ∅, wir also
(9.24)
Wir teilen die Menge der m¨ oglichen Zust¨ande S auf in zwei disjunkte ur alle i ∈ S+ . Wir wissen, dass S = S+ ∪ S0 , so dass π(i) > 0 f¨ da π eine Verteilung ist. Wir wollen beweisen, dass S0 = ∅. Nehmen at folgt S0 = ∅ an. Aus der Stationarit¨ π(i)pij = π(j) = 0 f¨ ur alle j ∈ S0 . (9.25) i∈S
Da alle Summanden nicht-negativ sind, ergibt sich pij = 0 f¨ ur alle i ∈ S+ , j ∈ S0 .
(9.26)
Aus der Irreduzibilit¨ at folgt, dass es zu jedem i ∈ S+ und j ∈ S0 ein n mit pnij > 0 gibt, mithin einen Pfad i1 , . . . , in−1 ∈ S, so dass pii1 pi1 i2 · . . . · pin−1 j > 0.
(9.27)
Da i ∈ S+ und j ∈ S0 , muss wegen (9.26) mindestens ein Faktor 0 sein und wir erhalten einen Widerspruch. Wir zeigen als n¨achstes, dass positive Rekurrenz, also Ei (Ti ) < ∞, ein notwendiges Kriterium f¨ ur die Existenz einer station¨aren Verteilung ist. Aber es gilt noch mehr. Die station¨ are Verteilung ist durch π(i) = (Ei (Ti ))−1 gegeben. Theorem 9.34. Sei (Xn ) eine irreduzible (α, p)-Markov-Kette und π eine station¨ are Verteilung. Dann gilt: π(i) =
1 > 0 f¨ ur alle i ∈ S. Ei (Ti )
Insbesondere sind alle i ∈ S positiv rekurrent, und die station¨ are Verteilung π ist eindeutig bestimmt.
252
9 Markov-Ketten
Beweis. Wir zeigen zun¨ achst f¨ ur jedes i ∈ S π(i)Ei (Ti ) = Pπ (Ti < ∞).
(9.28)
Wir beginnen damit, die Menge {Ti ≤ n} kompliziert als disjunkte Vereinigung darzustellen: {Ti ≤ n} =
n
{Xl = i, Xl+1 = i, . . . , Xn = i}
l=1
=
n−1
{Xn−l = i, Xn−l+1 = i, . . . , Xn = i}.
l=0
Betrachten wir jetzt die Wahrscheinlichkeiten, so k¨onnen wir wegen der Stationarit¨ at 9.32 um n − l Zeitpunkte verschieben und erhalten: Pπ (Ti < ∞) = lim Pπ (Ti ≤ n) n→∞
= lim
n→∞
= lim
n→∞
= =
∞ l=0 ∞
n−1
Pπ (Xn−l = i, Xn−l+1 = i, . . . , Xn = i)
l=0 n−1
Pπ (X0 = i, X1 = i, . . . , Xl = i)
l=0
Pπ (X0 = i, Ti > l) Pi (Ti > l)Pπ (X0 = i)
l=0
= Ei (Ti )π(i). Damit ist (9.28) nachgewiesen. Nach Lemma 9.33 ist π(i) > 0 f¨ ur alle i ∈ S, 1 < ∞, insbesondere also Pi (Ti < ∞) = 1, d.h. i ist daher folgt Ei (Ti ) ≤ π(i) rekurrent. Da (Xn ) irreduzibel ist, folgt nach Satz 9.30, dass Pπ (Ti < ∞) = 1 f¨ ur alle i ∈ S, also π(i)Ei (Ti ) = 1, was zu zeigen war.
Ein hinreichendes Kriterium Positive Rekurrenz eines Zustands ist schon hinreichend f¨ ur die Existenz einer station¨ aren Verteilung. Satz 9.35. Ist (Xn ) eine (α, p)-Markov-Kette und i ∈ S ein positiv rekurrenter Zustand, so gibt es eine station¨ are Verteilung π.
9.4 Stationarit¨ at
253
Beweis. Wir definieren f¨ ur jedes j ∈ S c(j) :=
∞
Pi (Xn = j, Ti > n)
(9.29)
c(j) , Ei (Ti )
(9.30)
n=0
und behaupten, dass π(j) :=
j ∈ S,
eine station¨ are Verteilung ist. Als erstes bemerken wir, dass
c(j) =
∞
Pi (Ti > n) = Ei (Ti ) < ∞
(9.31)
n=0
j∈S
ist. Dies kl¨ art zwei Dinge. Zum einen folgt die Endlichkeit der Reihen c(j), zum anderen haben wir damit π(j) = 1 j∈S
gezeigt. Zum Nachweis der cn (j) := Pi (Xn = j, Ti > n). Dann gilt:
c(j)pjk =
∞
Stationarit¨at
cn (j)pjk ,
setzen
wir
k ∈ S.
n=0 j∈S
j∈S
Es gen¨ ugt zu zeigen, dass diese Reihe c(k) ergibt. Dazu unterscheiden wir zwei F¨ alle. Sei zun¨ achst i = k. Dann gilt wegen der Markov-Eigenschaft zum Zeitpunkt n, da {Ti > n} ∈ σ(X0 , . . . , Xn ): ∞
cn (j)pjk =
n=0 j∈S
∞
Pi (Xn = j, Ti > n)P(Xn+1 = k|Xn = j)
n=0 j∈S
=
∞
Pi (Xn = j, Xn+1 = k, Ti > n)
n=0 j∈S
= =
∞ n=0 ∞
Pi (Xn+1 = k, Ti > n) cn+1 (k) = c(k),
n=0
wobei die letzte Gleichung gilt, da aus i = k c0 (k) = 0 folgt. Betrachten wir jetzt den Fall i = k, so folgt zun¨ achst wie oben:
254
9 Markov-Ketten ∞
cn (j)pji =
n=0 j∈S
∞
Pi (Xn = j, Ti > n)P(Xn+1 = i|Xn = j)
n=0 j∈S
=
∞
Pi (Xn = j, Xn+1 = i, Ti > n)
n=0 j∈S
=
∞
Pi (Ti = n + 1) = 1 = c(i),
n=0
da Pi (Ti = 0) = Pi (Ti = ∞) = 0.
Fassen wir die letzten beiden S¨ atze zusammen, so haben wir gezeigt: Satz 9.36. Sei (Xn ) eine irreduzible Markov-Kette. Dann sind ¨ aquivalent: (i) Es gibt einen positiv rekurrenten Zustand. (ii) Es gibt eine station¨ are Verteilung π. (iii) Alle Zust¨ ande sind positiv rekurrent. Außerdem ist im Falle ihrer Existenz die station¨ are Verteilung eindeutig be1 , i ∈ S. stimmt durch π(i) = Ei (T i) Beispiel 9.37. Sei S ein endlicher Zustandsraum und p eine stochastische S × S-Matrix. Ist die zugeh¨ orige Markov-Kette irreduzibel, so ist sie nach Satz 9.28 positiv rekurrent und hat nach Satz 9.36 eine station¨are Verteilung. Dies ist z.B. f¨ ur unsere Wetter-Kette (Beispiel 9.3) der Fall. Die station¨are Verteilung kann man durch L¨ osen des linearen Gleichungssystems ⎛ ⎞ 0.3 0.7 0 π ⎝ 0.3 0.5 0.2 ⎠ = π, π1 + π2 + π3 = 1, 0.1 0.2 0.7 bestimmen. In diesem Fall erh¨ alt man π = (π1 , π2 , π3 ) =
1 (33, 42, 28). 103 ♦
9.5 Grenzverhalten Im letzten Beispiel haben wir die Grenzverteilung durch L¨osen eines linearen Gleichungssystems bestimmt. Dies ist explizit nur f¨ ur kleine endliche Zustandsr¨ aume m¨ oglich. Es gibt jedoch eine weitere M¨oglichkeit, die station¨are ¨ Verteilung zu bestimmen, indem man die Grenzwerte der Mehrschritt-Ubern ur einen gangswahrscheinlichkeiten pij betrachtet. Wir wissen bereits, dass f¨ transienten Zustand i die Wahrscheinlichkeit, nach der Zeit n noch einmal zu i zur¨ uckzukehren, f¨ ur n → ∞ verschwindet,
9.5 Grenzverhalten
255
pnii = Pi (Xn = i) → 0, da die Reihe u ¨ber diese Wahrscheinlichkeiten nach Satz 9.24 konvergiert. Wie verh¨ alt sich im Allgemeinen lim pnij = lim Pi (Xn = j) ?
n→∞
n→∞
(9.32)
Periodizit¨ at Um die Existenz dieses Grenzwertes sicherzustellen, darf die Markov-Kette nicht hin und her springen, wie in unserem n¨ achsten Beispiel: Beispiel 9.38 (Markov-Kette mit Periode 2). Sei (Xn ) eine Markov-Kette mit ¨ Zustandsraum S = {1, 2} und Ubergangsmatrix 01 p= 10 Offensichtlich gilt p2 = I2 und damit p, falls n ungerade, pn = I2 , falls n gerade. Damit existieren die Limiten (9.32) nicht.
♦
Intuitiv w¨ urde man das Verhalten der Markov-Kette aus dem letzten Beispiel als periodisch mit Periode 2 bezeichnen. Die n¨achste Definition liefert daf¨ ur die pr¨ azise Begriffsbildung: Definition 9.39 (Periode). Sei (Xn ) eine Markov-Kette mit Zustandsraum S. Die Periode eines Zustands i ∈ S ist der gr¨ oßte gemeinsame Teiler von Ji := {n ∈ N : pnii > 0}. So gilt in Beispiel 9.38 J1 = J2 = {2, 4, 6, . . .}, somit ist die Periode der Zust¨ ande 1 und 2 gerade 2. Notwendig f¨ ur eine Periode gr¨oßer als 1 ist, dass pii = 0 ist. Andernfalls, wenn pii > 0 ist, gilt 1 ∈ Ji , und damit muss der gr¨oßte gemeinsame Teiler 1 sein. Da eine Periode von 1 aber nicht unserer Vorstellung eines periodischen Verhaltens entspricht, vereinbaren wir folgende Sprechweise: Definition 9.40 (aperiodisch). Ein Zustand i ∈ S einer Markov-Kette heißt aperiodisch, falls i Periode 1 hat. Wir werden bei der Untersuchung des Grenzverhaltens Aperiodizit¨at voraussetzen, um so hin und her springende Markov-Ketten auszuschließen. Um Aperiodizit¨ at zu charakterisieren, ben¨ otigen wir ein Lemma aus der elementaren Zahlentheorie:
256
9 Markov-Ketten
Lemma 9.41. Sei A ⊂ N und 1 der gr¨ oßte gemeinsame Teiler von A. Ist A abgeschlossen unter Addition, so gibt es ein n0 ∈ N, so dass n∈A
f¨ ur alle n ≥ n0 .
Beweis. Als gr¨ oßter gemeinsamer Teiler hat 1 eine Darstellung 1=
K
nk ak ,
nk ∈ Z, ak ∈ A.
k=1
Fassen wir in N die negativen Summanden und in P die positiven Summanden zusammen, so gilt auf Grund der Abgeschlossenheit von A unter Addition, dass N ∈ A und P ∈ A sowie 1 = P − N . Sei n ≥ (N + 1)(N − 1). Wir stellen n dar als n = aN + r,
mit r ∈ [0, N − 1].
Es folgt a ≥ N − 1, denn w¨ are a < N − 1, so h¨atten wir n = aN + r < N (N − 1) + (N − 1) = (N + 1)(N − 1), im Widerspruch zur Wahl von n. Mit P − N = 1 folgt: n = aN + r(P − N ) = (a − r)N + rP ∈ A, da a − r ≥ 0 ist. Daher k¨ onnen wir n0 := (N + 1)(N − 1) setzen.
Lemma 9.42. Es sei (Xn ) eine (α, p)-Markov-Kette. Dann ist i ∈ S genau dann aperiodisch, wenn es ein n0 gibt, so dass pnii > 0 f¨ ur alle n ≥ n0 . Beweis. Es sei A := {n ≥ 0 : pnii > 0}. Ist i aperiodisch, so ist 1 der gr¨oßte gemeinsame Teiler von A, und A ist wegen pm+n ≥ pnii pm ii , ii
n, m ≥ 0,
abgeschlossen unter Addition. Aus Lemma 9.41 folgt, dass es ein n0 gibt, so dass n ∈ A f¨ ur alle n ≥ n0 . Gehen wir umgekehrt davon aus, dass n ∈ A f¨ ur alle n ≥ n0 und bezeichnen mit d den gr¨ oßten gemeinsamen Teiler von A, so teilt d n0 und n0 + 1. Also teilt d auch 1 = n0 + 1 − n0 , daher ist d = 1 und i aperiodisch. Damit k¨ onnen wir leicht zeigen, dass Aperiodizit¨at eine Klasseneigenschaft ist: Satz 9.43. Sei (Xn ) eine (α, p)-Markov-Kette mit Zustandsraum S. Ist i ∈ S aperiodisch und C die Kommunikationsklasse von i, so folgt: pnjk > 0 f¨ ur alle j, k ∈ C und n ≥ n0 . Insbesondere sind alle j ∈ C aperiodisch.
9.5 Grenzverhalten
257
Beweis. Sind j, k ∈ C, so gibt es l, m ≥ 0 mit plji , pm ik > 0. Da i aperiodisch ur alle n ≥ n0 . Damit ist, gibt es mit Lemma 9.42 ein n0 , so dass pnii > 0 f¨ folgt: l+n+m ≥ plji pnii pm ur alle n ≥ n0 . pjk ik > 0 f¨ Die Aperiodizit¨ at aller Zust¨ ande in C folgt wiederum aus Lemma 9.42.
Wir k¨ onnen also von irreduziblen, aperiodischen Markov-Ketten sprechen. Kopplung Die Beweismethode f¨ ur die Aussagen u ¨ber das Grenzverhalten von MarkovKetten heißt Kopplung. Definition 9.44 (Kopplungspaar). Es seien (Xn ) und (Yn ) zwei MarkovKetten mit dem gleichen Zustandsraum S. Dann bilden (Xn ) und (Yn ) ein Kopplungspaar, wenn es eine fast sicher endliche Stoppzeit τ gibt, so dass f¨ ur jedes ω ∈ Ω gilt: n ≥ τ (ω) ⇒ Xn (ω) = Yn (ω). Die Stoppzeit τ heißt Kopplungszeit von (Xn ) und (Yn ). Der nachfolgende Satz ist ein erster Hinweis, warum es interessant sein k¨onnte, Kopplungspaare zu bestimmen. Satz 9.45. Es sei τ eine Kopplungszeit f¨ ur zwei Markov-Ketten (Xn ) und ur jedes A ⊂ S: (Yn ) mit Zustandsraum S. Dann gilt f¨ P(Xn ∈ A) − P(Yn ∈ A) −→ 0. Beweis. Wir zerlegen die Aussage in die Zeit vor und nach τ : |P(Xn ∈ A) − P(Yn ∈ A)| = |P(Xn ∈ A, τ ≤ n) + P(Xn ∈ A, τ > n) − P(Yn ∈ A, τ ≤ n) − P(Yn ∈ A, τ > n)| = |P(Xn ∈ A, τ > n) − P(Yn ∈ A, τ > n)| ≤ 2 · P(τ > n) −→ 0, da nach Definition der Kopplungszeit τ fast sicher endlich ist.
Unabh¨ angige Kopplung Der nachfolgende Satz, in dem aus zwei unabh¨angigen Markov-Ketten ein Kopplungspaar geformt wird, ist die entscheidende Zutat, um die Konvergenzs¨ atze f¨ ur Markov-Ketten zu beweisen. Wir betrachten dazu zwei MarkovKetten, die sich nur in der Startverteilung unterscheiden. (Xn ) sei eine (α, p)Markov-Kette und (Yn ) eine (β, p)-Markov-Kette auf dem gleichen Zustandsangig, so ist (Zn ) := (Xn , Yn ) eine (γ, q)raum S. Sind (Xn ) und (Yn ) unabh¨ Markov-Kette auf S × S, mit der Startverteilung
258
9 Markov-Ketten
γ(i, j) = α(i)β(j),
(i, j) ∈ S × S,
(9.33)
¨ und den Ubergangswahrscheinlichkeiten q(i0 ,j0 )(i1 ,j1 ) = pi0 i1 pj0 j1 ,
(i0 , j0 ), (i1 , j1 ) ∈ S × S.
(9.34)
Die Unabh¨ angigkeit erm¨ oglicht es, auf diese einfache Weise eine ProduktMarkov-Kette zu erhalten. Satz 9.46. Es sei (Xn ) eine (α, p)-Markov-Kette, (Yn ) eine (β, p)-Markovangig und Kette auf dem gleichen Zustandsraum S, (Xn ) und (Yn ) unabh¨ (Zn ) = (Xn , Yn ) die (γ, q)-Produkt-Markov-Kette. Ist (Zn ) irreduzibel und rekurrent, so gelten die folgenden Aussagen: (i) T := inf{n ≥ 1 : Xn = Yn = i0 }, i0 ∈ S, ist fast sicher endlich. (ii) Xn f¨ ur n ≤ T, ist eine (α, p)-Markov-Kette. Wn := ur n > T, Yn f¨ ur alle A ⊂ S. (iii) P(Xn ∈ A) − P(Yn ∈ A) −→ 0 f¨ Beweis. (i) Die Stoppzeit T ist bez¨ uglich (Zn ) nichts anderes als T(i0 ,i0 ) , also die R¨ uckkehrzeit zum Zustand (i0 , i0 ). Da (Zn ) nach Voraussetzung irreduzibel und rekurrent ist, folgt aus Satz 9.30 P(T < ∞) = P(T(i0 ,i0 ) < ∞) = 1. (ii) Die Idee der Markov-Kette (Wn ) ist in Abbildung 9.4 dargestellt. Wir ¨ wechseln in T , also bei Xn = Yn = i0 von (Xn ) zu (Yn ). Da die Ubergangswahrscheinlichkeiten von (Xn ) und (Yn ) gleich sind und die MarkovKetten unabh¨ angig von der Zeit vor T in i0 neu beginnen, ist es plausibel, ur dass (Wn ) von dem Wechsel nichts merkt und sich so verh¨alt wie (Xn ). F¨ den Nachweis m¨ ussen wir diese Gedanken lediglich mit Hilfe der starken Markov-Eigenschaft formalisieren. uglich (Zn ), vgl. (9.9). Nach der Sei FT die σ-Algebra der Zeit vor T bez¨ starken Markov-Eigenschaft 9.17 ist dann (XT +n , YT +n ) eine (δ(i0 ,i0 ) , q)unden ist geMarkov-Kette und unabh¨ angig von FT . Aus Symmetriegr¨ nauso (YT +n , XT +n ) eine (δ(i0 ,i0 ) , q)-Markov-Kette und unabh¨angig von FT . Definieren wir Yn f¨ ur n ≤ T, ˜ Wn := ur n > T, Xn f¨ ˜ n ) eine (γ, q)-Markov-Kette ist. Daraus folgt aber so folgt, dass (Wn , W wegen (9.33) und (9.34), dass (Wn ) eine (α, p)-Markov-Kette ist. (iii) Nach Definition von (Wn ) bilden (Yn ) und (Wn ) ein Kopplungspaar. Da (Wn ) und (Xn ) nach (ii) identisch verteilt sind, folgt aus Satz 9.45: P(Xn ∈ A) − P(Yn ∈ A) = P(Wn ∈ A) − P(Yn ∈ A) −→ 0.
9.5 Grenzverhalten
259
Wn S
Xn
i0
an
T
Yn
Xn Yn Wn Abbildung 9.4. Unabh¨ angige Kopplung
¨ Konvergenz der Ubergangswahrscheinlichkeiten Das nachfolgende Theorem beschreibt das Ph¨ anomen, das wir bereits bei der Wetter-Kette in Beispiel 9.9 vermutet hatten. Eine aperiodische Markov-Kette n¨ ahert sich mit der Zeit ihrer station¨ aren Verteilung. Theorem 9.47 (Konvergenz von Markov-Ketten). Sei (Xn ) eine irreduzible, aperiodische (α, p)- Markov-Kette mit station¨ arer Verteilung π. Dann gilt: P(Xn = j) −→ π(j), i, j ∈ S, also insbesondere pnij −→ π(j),
i, j ∈ S.
Beweis. Sei (Yn ) eine von (Xn ) unabh¨ angige (π, p)-Markov-Kette. Um Satz 9.46 anwenden zu k¨ onnen, m¨ ussen wir zeigen, dass (Zn ) := (Xn , Yn ) irreduzibel und rekurrent ist. Die Irreduzibilit¨ at folgt aus der Aperiodizit¨at und Irreduzibilit¨ at von (Xn ) und (Yn ): Sei (i0 , j0 ), (i1 , j1 ) ∈ S × S. Wegen Lemma 9.42 finden wir ein r ∈ N mit pri1 i1 prj1 j1 > 0. Aus der Irreduzibilit¨at folgt nun die Existenz eines n ∈ N mit pni0 i1 pnj0 j1 > 0 und daher n+r = pin+r pjn+r ≥ pni0 i1 pri1 i1 pnj0 j1 prj1 j1 > 0. q(i 0 i1 0 j1 0 ,j0 )(i1 ,j1 )
Außerdem ist π ˜ (i, j) := π(i)π(j),
(i, j) ∈ S × S,
eine station¨ are Verteilung von (Zn ). Daher ist nach Satz 9.36 (Zn ) sogar positiv rekurrent. Damit folgt nach Satz 9.46
260
9 Markov-Ketten
P(Xn = j) − π(j) = P(Xn = j) − P(Yn = j) −→ 0. Der null-rekurrente Fall ¨ Im transienten Fall konvergieren die Mehrschritt-Ubergangswahrscheinlichkein ten pij gegen 0, denn es konvergiert sogar die Reihe ∞
pnij < ∞.
n=0
Im positiv rekurrenten Fall ist diese Reihe divergent, da die Terme gegen die station¨ are Verteilung π(j) > 0 konvergieren. Der null-rekurrente Fall liegt genau dazwischen, wie der n¨ achste Satz zeigt. Satz 9.48. Ist (Xn ) eine irreduzible, aperiodische, null-rekurrente (α, p)Markov-Kette, so gilt f¨ ur alle i, j ∈ S: pnij −→ 0, aber
∞
pnij = ∞.
n=0
Beweis. Die Divergenz der Reihe haben wir bereits in Satz 9.24 gezeigt. Es bleibt also P(Xn = j) −→ 0 zu beweisen. Dazu betrachten wir als erstes die divergente Reihe ∞
Pj (Tj > k) = Ej (Tj ) = ∞.
k=0
Zu jedem ε > 0 gibt es ein K ≥ 0, so dass K k=0
Pj (Tj > k) ≥
2 . ε
Damit erhalten wir f¨ ur alle n ≥ K mit der Markov-Eigenschaft: 1≥ =
n k=n−K n
P(Xk = j, Xk+1 = j, . . . , Xn = j) P(Xk = j)Pj (Tj > n − k)
k=n−K
=
K k=0
P(Xn−k = j)Pj (Tj > k).
9.5 Grenzverhalten
261
Daher muss es in der letzten Summe einen Index k0 ≤ K geben, f¨ ur den ur alle n ≥ K gilt, folgt insbesondere: P(Xn−k0 = j) ≤ 2ε ist. Da dies f¨ F¨ ur alle n ≥ K existiert ein k0 ≤ K mit P(Xn+k0 = j) ≤
ε . 2
(9.35)
Sei (Yn ) eine von (Xn ) unabh¨ angige (β, p)-Markov-Kette mit einer zun¨achst beliebigen Startverteilung β. Wir betrachten wieder (Zn ) := (Xn , Yn ). Die Irreduzibilit¨ at von (Zn ) folgt wie im Beweis von Theorem 9.47 aus der Aperiodizit¨ at und Irreduzibilit¨ at von (Xn ) und (Yn ). Ist (Zn ) transient, so folgt mit β := α: P(Xn = j)2 = P(Zn = (j, j)) −→ 0, was zu zeigen war. Andernfalls, also wenn (Zn ) rekurrent ist, folgt aus Satz 9.46: (9.36) P(Xn = j) − P(Yn = j) −→ 0. Wir verwenden diese Konvergenz nun f¨ ur K +1 verschiedene Startverteilungen von (Yn ), indem wir βk (i) := P(Xk = i),
i ∈ S, k = 0, . . . , K,
setzen. Insbesondere folgt Pβk (Yn = j) = P(Xk+n = j),
k = 0, . . . , K, n ∈ N.
Damit erhalten wir durch simultanes Ausnutzen der Konvergenz (9.36) ein N ≥ 0, so dass f¨ ur alle n ≥ N gilt: |P(Xn = j)−Pβk (Yn = j)| = |P(Xn = j)−P(Xk+n = j)| <
ε , 2
k = 0, . . . , K.
Daraus folgt mit (9.35), dass |P(Xn = j)| < ε f¨ ur alle n ≥ N ∨ K und damit die behauptete Konvergenz P(Xn = j) −→ 0.
Klassifikation von Markov-Ketten Zum Abschluss dieses Abschnitts k¨ onnen wir eine vollst¨andige Klassifikation irreduzibler, aperiodischer Markov-Ketten angeben. Theorem 9.49 (Klassifikation von Markov-Ketten). Sei (Xn ) eine irreduzible, aperiodische (α, p)-Markov-Kette. Dann gilt genau eine der folgenden Aussagen: ur alle i, j ∈ S: (i) Die Markov-Kette (Xn ) ist transient. Dann gilt f¨ ∞ n=1
pnij < ∞, also insbesondere lim pnij = 0. n→∞
(9.37)
262
9 Markov-Ketten
(ii) Die Markov-Kette (Xn ) ist rekurrent. Eine station¨ are Verteilung π existiert genau dann, wenn die Markov-Kette (Xn ) positiv rekurrent ist. In diesem Fall gilt f¨ ur alle i, j ∈ S: lim pnij = πj > 0 und Ej (Tj ) =
n→∞
1 < ∞. πj
Andernfalls, also im null-rekurrenten Fall, ist lim pnij = 0, aber
n→∞
∞
pnij = Ej (Tj ) = ∞.
n=1
Beweis. Die Aussagen haben wir in den S¨ atzen 9.24, 9.25, 9.36, 9.47 und 9.48 bewiesen. Beispiel 9.50 (Konsensbildung). Eine kleine Anwendung der station¨aren Verteilung besteht darin, in einer endlichen Gruppe von Personen einen Konsens herbeizuf¨ uhren. Nehmen wir an, k Personen m¨ ussen eine Gr¨oße G (z.B. die Arbeitslosigkeit im n¨ achsten Jahr) sch¨ atzen. Der einfachste Weg, zu einer gemeinsamen Zahl zu kommen, ist die Bildung des arithmetischen Mittels der gesch¨ atzten Werte Gi : ¯ := 1 (G1 + . . . + Gk ). G k Dabei fließt die Meinung jedes einzelnen Gruppenmitglieds gleich stark ein. Alternativ kann man jedes Gruppenmitglied die Kompetenz der u ¨brigen Gruppenmitglieder einsch¨ atzen lassen. Jede Person ordnet allen Mitgliedern der Gruppe einen Kompetenzwert zwischen 0 und 1 so zu, dass die Summe der Kompetenzwerte 1 ist. So entsteht eine stochastische Matrix. Z.B. bedeutet die Matrix ⎛ ⎞ 0.5 0.25 0.25 p = ⎝ 0.3 0.2 0.5 ⎠ , 0.6 0.2 0.2 dass die erste Person sich selbst am kompetentesten einsch¨atzt und die u ¨brigen beiden Mitglieder der Gruppe jeweils nur f¨ ur halb so kompetent h¨alt. Verlangt man, dass niemand als total inkompetent beurteilt werden darf, also mit der Kompetenz 0, so ist die zugeh¨ orige Markov-Kette (Xn ) irreduzibel und somit (Satz 9.28) positiv rekurrent. Also konvergiert (Xn ) gegen eine station¨are Verteilung π, in der sich die Kompetenz der Mitglieder wiederfindet. Statt des arithmetischen Mittels kann man nun den i-ten Sch¨atzwert mit πi gewichten: Gπ := G1 π1 + . . . + Gk πk . So kann man, wenn die Einsch¨ atzung der Kompetenzen zutrifft, zu einem besseren Ergebnis kommen. F¨ ur unsere Beispielmatrix erhalten wir die station¨are Verteilung
9.6 Anwendung Biologie: Ein Populationsmodell
263
1 (108, 50, 65). 223 So spiegeln sich die hohen Kompetenzwerte f¨ ur die erste Person in der station¨aren Verteilung wieder. Ihre Meinung erh¨ alt mehr Gewicht. ♦ π=
9.6 Anwendung Biologie: Ein Populationsmodell In dieser Anwendung betrachten wir eine Population von Individuen, die sich am Ende ihres Lebens in neue Individuen spalten. Bei den Individuen kann es sich z.B. um Atome bei der Kernspaltung, Bakterien in einer Kolonie oder um Personen handeln. Wir stellen hier den so genannten Galton-WatsonVerzweigungsprozess vor, der besonders in der Biologie ein einfaches Modell f¨ ur die Populationsdynamik darstellt. Von besonderem Interesse ist dabei die Frage nach der Wahrscheinlichkeit f¨ ur das Aussterben der Population. Dies war auch die urspr¨ ungliche Motivation von Francis Galton und Reverend Watson am Ende des 19ten Jahrhunderts. Damals wurden englische Adelstitel nur an m¨ annliche Nachkommen vererbt, so dass man sich f¨ ur die Wahrscheinlichkeit des Ausbleibens m¨ annlicher Nachkommen interessierte, weil es das Verschwinden des Adelstitels zur Folge gehabt h¨atte. Das nachfolgende Galton-Watson-Modell ist ein klassisches Beispiel innerhalb der Theorie der Markov-Ketten. Man findet es z.B. in [Br´e99], [Geo02] und [Nor98]. Das Galton-Watson-Modell ahldichte auf N0 . Jedes Individuum der n-ten GeSei c = (cj ), j ∈ N0 , eine Z¨ neration wird unabh¨ angig von allen anderen in der nachfolgenden Generation mit Wahrscheinlichkeit cj durch j Individuen ersetzt. Es bezeichne Xn die Anzahl der Individuen der n-ten Generation. Das Galton-Watson-Modell ist ¨ dann gegeben durch die Markov-Kette (Xn ) mit den Ubergangswahrscheinlichkeiten cj1 · . . . · cjk , k ≥ 1, j ∈ N0 . pkj = j1 +...+jn =j
F¨ ur den Fall k = 0, d.h. Ausl¨ oschung der Population, setzen wir nat¨ urlich p0j = δ0j . Nun ist pkj die Wahrscheinlichkeit, dass aus einer Population mit k Individuen in der n¨ achsten Generation j Individuen werden. Setzen wir wie u ¨blich T0 := inf{n ≥ 1 : Xn = 0} f¨ ur den ersten Zeitpunkt der Ausl¨ oschung, so erhalten wir die Ausl¨ oschungswahrscheinlichkeit ρi := Pi (T0 < ∞) = P(T0 < ∞|X0 = i) bei einer Startpopulation von X0 = i Individuen. Um triviale F¨alle auszuschließen, gehen wir im Folgenden von i > 0, c0 ∈ ]0, 1[ und c0 + c1 < 1 aus. Setzen wir ρ := ρ1 , so folgt
264
9 Markov-Ketten
ρi = ρi , da sich jeder Zweig eines Individuums aus der Anfangsgeneration unabh¨angig von allen anderen nach der gleichen Verteilung entwickelt. Wir untersuchen nun ρ genauer, beginnen also mit einer Startpopulation aus einem Individuum X0 = 1. Dieses Individuum kann ohne Nachkommen sterben (Wahrscheinlichkeit c0 ) oder k Nachkommen haben (Wahrscheinlichkeit ck = P(X1 = k|X0 = 1)). Die Population X1 = k stirbt wegen der Markov-Eigenschaft mit der gleichen Wahrscheinlichkeit aus wie eine Population X0 = k, also mit der Wahrscheinlichkeit ρk . Daher erhalten wir als gesamte Ausl¨oschungswahrscheinlichkeit ρ = c0 +
∞
P(X1 = k|X0 = 1)ρk =
k=1
∞
ck ρk .
k=0
Definieren wir die Funktion M (s) :=
∞
ck sk ,
s ∈ [0, 1],
k=0
so erhalten wir als ein erstes wichtiges Ergebnis: Die Ausl¨oschungswahrscheinlichkeit ρ ist ein Fixpunkt der Funktion M : M (ρ) = ρ. Offensichtlich gilt stets M (1) = 1. Berechnung der Ausl¨ oschungswahrscheinlichkeit Um ρ zu ermitteln, unterscheiden wir die beiden F¨alle E(c) =
∞
jcj ≤ 1 und
j=0
E(c) > 1. Graphisch sind die beiden F¨ alle in Abbildung 9.5 dargestellt.
NM(s)
NM(s) N N M ’(1) < 1 1 Ns
N M ’(1) > 1 Nr
1 Ns
Abbildung 9.5. Aussterbewahrscheinlichkeit im Galton-Watson-Modell
9.6 Anwendung Biologie: Ein Populationsmodell
265
In beiden F¨ allen gilt: M (s) =
∞
k(k − 1)ck sk−2 > 0,
s ∈ ]0, 1],
k=2
d.h. M ist auf dem Intervall [0, 1] streng konvex. Weiter ist M (0) = c0 < 1 und ∞ k · ck = E(c). M (1) = k=0
Daher ist im Fall E(c) ≤ 1 der Punkt 1 der einzige Fixpunkt von M . Daraus folgt ρ = 1, d.h. die Population stirbt mit Wahrscheinlichkeit 1 aus. Ist hingegen E(c) = M (1) > 1, so folgt aus der strengen Konvexit¨at, dass M genau einen weiteren Fixpunkt ρ˜ ∈ ]0, 1[ besitzt. Es gilt ρ = ρ˜, wie wir jetzt zeigen wollen. Dazu sei gn := P(Xn = 0|X0 = 1), n ≥ 1, die Wahrscheinlichkeit, dass die n-te Generation ausgestorben ist. Dann ist g1 = P(X1 = 0|X0 = 1) = c0 = M (0) ≤ M (˜ ρ) = ρ˜, da M > 0 und daher M streng monoton w¨ achst. Aus dem gleichen Grund folgt: ρ) ≤ ρ˜. Ist gn ≤ ρ˜, so auch gn+1 = M (gn ) ≤ M (˜ Per Induktion folgt daher gn ≤ ρ˜ f¨ ur alle n ∈ N. Damit ist auch ρ = lim gn ≤ n→∞
ρ˜. Da es aber im Intervall [0, ρ˜[ keinen Fixpunkt gibt, folgt ρ = ρ˜. Zusammenfassend gelangen wir also zu folgender Erkenntnis: Die mittlere ¨ Nachkommenschaft pro Individuum E(c) entscheidet u der ¨ber das Uberleben Population. Ist E(c) ≤ 1, so stirbt die Population mit Sicherheit aus. Ist E(c) > 1, so stirbt sie mit einer positiven Wahrscheinlichkeit ρ aus, die gerade durch den kleineren Fixpunkt der Funktion M gegeben ist. Wir haben in beiden F¨ allen keine Aussage u achliche Gr¨oße der Population gemacht. ¨ber die tats¨ Dazu sind Annahmen u ¨ber die Lebensdauer der Individuen erforderlich. Die Fertilit¨ at, also die Anzahl Kinder pro Frau, lag in Deutschland im Jahre 2001 bei 1.38. Nat¨ urlich kann man das einfache Galton-Watson-Modell nicht ohne Weiteres auf die Population der Bundesrepublik Deutschland anwenden, da zahlreiche Effekte außer Acht bleiben. Dennoch ergibt sich in dieser groben Vereinfachung n¨ aherungsweise eine mittlere Nachkommenschaft von 0.69 pro Individuum, was mit Wahrscheinlichkeit 1 nicht ausreicht, um die Population zu erhalten.
10 Poisson-Prozesse
Poisson-Prozesse werden typischerweise verwendet, wenn es darum geht, zu zuf¨ alligen Zeitpunkten eintretende Ereignisse zu z¨ahlen. Dabei kann es sich beispielsweise um die Anzahl Anrufe in einem Call-Center, die Anzahl Unf¨alle auf einer Kreuzung oder die Anzahl eingehender Jobs auf einem Server handeln. Die Wartezeiten bis zum n¨ achsten Ereignis werden durch unabh¨angige exponentialverteilte Zufallsvariablen modelliert. Trotz dieser relativ einfachen Struktur spielen Poisson-Prozesse und die etwas allgemeineren Erneuerungsprozesse in vielen Anwendungen, z.B. in der Versicherungsmathematik, eine wichtige Rolle. Wegen der exponentialverteilten Wartezeiten muss der Zeitparameter bei Poisson-Prozessen kontinuierlich sein. Dies erfordert etwas Terminologie stochastischer Prozesse, mit der wir dieses Kapitel beginnen.
10.1 Terminologie stochastischer Prozesse Definition In der bisherigen Entwicklung der Wahrscheinlichkeitstheorie haben wir Zufallsvariablen X und Folgen von Zufallsvariablen (Xn )n∈N0 auf einem Wahrscheinlichkeitsraum (Ω, F, P) betrachtet. Dabei haben wir eine Zufallsvariable als das mathematische Modell f¨ ur ein vom Zufall beeinflusstes Experiment betrachtet. Stochastische Prozesse f¨ ugen diesem Grundgedanken einen weiteren Aspekt hinzu, indem die Zeit als Parameter eingef¨ uhrt wird. Wir beobachten nicht mehr ein Zufallsexperiment X, sondern zu jedem Zeitpunkt t ∈ I ein Zufallsexperiment Xt . Um t ∈ I als Zeitpunkt interpretieren zu k¨onnen, nehmen wir I ⊂ [0, ∞[ an. Dies f¨ uhrt zu folgender Definition eines stochastischen Prozesses:
268
10 Poisson-Prozesse
Definition 10.1 (stochastischer Prozess). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, (S, S) ein Messraum und I ⊂ [0, ∞[ eine Indexmenge. Dann heißt eine Familie X = (Xt )t∈I messbarer Abbildungen Xt : Ω → S,
t ∈ I,
stochastischer Prozess (mit Zustandsraum S). Ist der Zustandsraum (S, S) = (Rn , B n ), so sprechen wir genau wie bei Zufallsvariablen von einem n-dimensionalen stochastischen Prozess, im Fall n = 1 von einem reellen stochastischen Prozess. Grunds¨atzlich lassen sich stochastische Prozesse in vier Klassen einteilen, je nach Beschaffenheit der Indexmenge I und des Zustandsraumes S: Zeitdiskrete Prozesse: Ist die Indexmenge I ⊂ [0, ∞[ diskret, typischerweise I = N0 , so spricht man von einem zeitdiskreten stochastischen Prozess, den wir u ¨blicherweise mit X = (Xn )n∈N0 bezeichnen. Zeitdiskrete stochastische Prozesse sind also Folgen von Zufallsvariablen. Sie zerfallen wiederum in zwei Klassen, je nachdem, ob die Verteilung auf dem Zustandsraum diskret ist oder nicht. Markov-Ketten sind typische Beispiele zeitdiskreter stochastischer Prozesse mit diskretem Zustandsraum. Zeitstetige Prozesse: Ist die Indexmenge I ⊂ [0, ∞[ nicht-diskret, typischerweise I = [0, ∞[, so spricht man von zeitstetigen stochastischen Prozessen, die wir u ¨blicherweise mit X = (Xt )t≥0 bezeichnen. Genau wie im zeitdiskreten Fall kann man wieder nach dem Zustandsraum S unterscheiden. F¨ ur Poisson-Prozesse ist S = N0 , sie sind also typische Vertreter zeitstetiger stochastischer Prozesse mit diskretem Zustandsraum. Zuw¨ achse Eine andere M¨ oglichkeit, Klassen von stochastischen Prozessen auszuzeichnen, ist die Untersuchung ihrer Zuw¨ achse oder Inkremente: Definition 10.2 ((station¨ are, unabh¨ angige) Zuw¨ achse). F¨ ur einen stochastischen Prozess (Xt )t≥0 heißen die Zufallsvariablen Xt − Xs , s ≤ t, Zuw¨ achse oder Inkremente (¨ uber dem Intervall ]s, t]). Die Zuw¨ achse wiederum heißen (i) station¨ ar, falls f¨ ur alle t ≥ 0 und h ≥ 0 die Verteilung von Xt+h − Xt nur von h, also der Differenz der Zeitpunkte abh¨ angt, (ii) unabh¨ angig, falls f¨ ur jedes (n + 1)-Tupel reeller Zahlen 0 ≤ t0 < ... < tn gilt: Xt1 − Xt0 , Xt2 − Xt1 , . . . , Xtn − Xtn−1 sind unabh¨ angig.
10.1 Terminologie stochastischer Prozesse
269
Sowohl die Poisson-Prozesse als auch die Brownsche Bewegung, mit der wir uns im u achsten Kapitel besch¨ aftigen, sind stochastische Prozesse mit sta¨bern¨ tion¨ aren und unabh¨ angigen Zuw¨ achsen. Sie unterscheiden sich in der speziellen Verteilung der Zuw¨ achse und im Zustandsraum, der beim Poisson-Prozess diskret (N0 ) und bei der Brownschen Bewegung kontinuierlich (R) ist. Pfadabbildungen Fasst man einen stochastischen Prozess (Xt )t∈I als Funktion von ω und t auf, so kann man ein ω ∈ Ω fixieren und erh¨ alt eine Abbildung I → S. Definition 10.3 (Pfad). Es sei X = (Xt )t∈I ein stochastischer Prozess und ω ∈ Ω. Die Abbildung X. (ω) : I → S,
t → Xt (ω),
heißt Pfad von ω. Der Prozess X heißt (rechts-, links-)stetig, wenn die Pfade P-fast aller ω ∈ Ω (rechts-, links-)seitig stetig sind. F¨ ur einen reellen Prozess (Xt )t≥0 sind die Pfade demnach Abbildungen X. (ω) : [0, ∞[→ R. Von einem abstrakten Standpunkt aus kann man einen stochastischen Prozess als Zufallsvariable in einen Funktionenraum auffassen. Die Pfadabbildungen sind dann die Funktionswerte dieser Zufallsvariable. Ein Teil des Studiums stochastischer Prozesse besteht darin, sich mit Pfadeigenschaften auseinander zu setzen. Wir werden dies insbesondere f¨ ur die Brownsche Bewegung in Abschnitt 12.3 tun. Was bedeutet Gleichheit? Es seien X = (Xt )t≥0 und Y = (Yt )t≥0 zwei n-dimensionale stochastische Prozesse auf einem Wahrscheinlichkeitsraum (Ω, F, P) . Als Funktionen in ω und t w¨ urde man X und Y als gleich ansehen, wenn gilt: Xt (ω) = Yt (ω)
f¨ ur alle (ω, t) ∈ Ω × [0, ∞[.
Im Rahmen der Wahrscheinlichkeitstheorie gibt es verschiedene Abschw¨achungen dieser Gleichheit: Definition 10.4 (Nicht-Unterscheidbarkeit). Zwei stochastische Prozesse X = (Xt )t≥0 und Y = (Yt )t≥0 heißen nicht unterscheidbar, wenn f¨ ur fast alle ω ∈ Ω gilt: ur alle t ≥ 0. Xt (ω) = Yt (ω) f¨
270
10 Poisson-Prozesse
Zwei stochastische Prozesse sind also nicht unterscheidbar, wenn fast alle Pfade (als Funktionen) gleich sind. Schw¨ acher ist die folgende Bedingung: Definition 10.5 (Version). Es seien zwei stochastische Prozesse X = (Xt )t≥0 und Y = (Yt )t≥0 gegeben. X heißt Version von Y , wenn P(Xt = Yt ) = 1
f¨ ur alle t ≥ 0.
Das folgende klassische Beispiel zeigt, dass die zweite Bedingung wirklich schw¨ acher ist. Beispiel 10.6. Wir betrachten eine positive, stetig verteilte (z.B. exponentialverteilte) Zufallsvariable Z und definieren die stochastischen Prozesse 0 f¨ ur t = Z, Xt := 0, Yt := 1 f¨ ur t = Z. Wegen P(Xt = Yt ) = P(Z = t) = 1 ist (Xt )t≥0 eine Version von (Yt )t≥0 . Allerdings sind X und Y keineswegs nicht unterscheidbar. Kein Pfad von Y ist stetig, w¨ ahrend alle Pfade von X stetig sind. ♦ Mit zwei stetigen Prozessen kann man ein solches Beispiel nicht konstruieren, wie das nachfolgende Resultat zeigt: Satz 10.7. Sind X = (Xt )t≥0 und Y = (Yt )t≥0 (rechts-)stetige Prozesse auf (Ω, F, P) und Y eine Version von X, so sind X und Y nicht unterscheidbar. Beweis. Wegen der (Rechts-)stetigkeit fast aller Pfade gen¨ ugt es f¨ ur den Nachweis der Nicht-Unterscheidbarkeit, ur alle t ∈ Q+ ) = 1 P(Xt = Yt f¨ zu zeigen. Da jede abz¨ ahlbare Vereinigung von Nullmengen wieder eine Nullur alle t ≥ 0: menge ist, gilt mit P(Xt = Yt ) = 1 f¨ ⎛ ⎞ P(Xt = Yt f¨ ur alle t ∈ Q+ ) = P ⎝ {Xt = Yt }⎠ = 1. t∈Q+
Satz 10.7 kann man auch so formulieren: Jeder stochastische Prozess X = (Xt )t≥0 hat (bis auf Nicht-Unterscheidbarkeit) h¨ochstens eine stetige Version.
10.1 Terminologie stochastischer Prozesse
271
Endlich-dimensionale Verteilungen Die Frage, ob zwei stochastische Prozesse Versionen voneinander bzw. nicht unterscheidbar sind, macht nur Sinn, wenn sie auf demselben Wahrscheinlichkeitsraum definiert sind. Ein anderer Begriff, die Verteilungen, sind diesbez¨ uglich flexibler. Wir haben bereits f¨ ur zwei n-dimensionale Zufallsvariablen d uhrt, falls PX = PY gilt, d.h. X und Y die Schreibweise X = Y eingef¨ P(X ∈ A) = P(Y ∈ A)
f¨ ur alle A ∈ Bn .
Entsprechend definiert man f¨ ur zwei stochastische Prozesse: Definition 10.8 (endlich-dimensionale Verteilungen). Es seien X = ur jedes n-Tupel (Xt )t≥0 und Y = (Yt )t≥0 reelle stochastische Prozesse. F¨ 0 ≤ t1 < . . . < tn ist P[(Xt1 , . . . , Xtn ) ∈ A],
A ∈ Bn ,
eine endlich-dimensionale Verteilung. Die Prozesse X und Y haben dieselben endlich-dimensionalen Verteilungen, wenn f¨ ur jedes n ∈ N und jedes n-Tupel 0 ≤ t1 < . . . < tn gilt: d
(Xt1 , . . . , Xtn ) = (Yt1 , . . . , Ytn ), d.h. P[(Xt1 , . . . , Xtn ) ∈ A] = P[(Yt1 , . . . , Ytn ) ∈ A] d
f¨ ur alle A ∈ Bn . d
Wir schreiben in diesem Fall kurz: (Xt )t≥0 = (Yt )t≥0 oder X = Y . Sind X und Y zwei Versionen voneinander, so haben sie offensichtlich die gleichen endlich-dimensionalen Verteilungen. Es k¨onnen jedoch auch Prozesse die gleichen endlich-dimensionalen Verteilungen haben, die auf zwei verschiedenen Wahrscheinlichkeitsr¨ aumen definiert sind. Es ist durchaus u ¨blich, etwa bei der Brownschen Bewegung (Kapitel 12), einen Prozess durch gewisse Forderungen an die endlich-dimensionalen Verteilungen festzulegen. Dann stellt sich allerdings die Frage, ob es u ¨berhaupt einen stochastischen Prozess gibt, der diesen Forderungen gen¨ ugt. Diese Frage beantwortet der Existenzsatz von Kolmogorov, Theorem A.19 und Korollar A.20. Die Festlegung der endlich-dimensionalen Verteilungen sagt, wie am Beispiel 10.6 deutlich wird, noch nichts u ¨ber die Regularit¨at der Pfade aus. Daher findet man z.B. bei der Brownschen Bewegung neben den Forderungen an die endlich-dimensionalen Verteilungen eine Regularit¨atsforderung an die Pfade, n¨amlich Stetigkeit.
272
10 Poisson-Prozesse
Pfade rechtsstetiger Prozesse mit Zustandsraum N0 Poisson-Prozesse haben, wie wir zu Beginn des n¨achsten Abschnitts sehen werden, rechtsstetige Pfade, und ihr Zustandsraum ist N0 . Pfade solcher Prozesse lassen sich allgemein gut beschreiben. Die rechtsseitige Stetigkeit zwingt die Pfade dazu, in jedem angenommenen Zustand ein wenig zu verweilen. Wir beweisen dieses Resultat f¨ ur den Zustandsraum S = N0 , er u ¨bertr¨agt sich jedoch unmittelbar auf jeden diskreten Zustandsraum. Satz 10.9. Sei (Xt )t≥0 ein stochastischer Prozess mit Zustandsraum N0 . ur fast alle ω ∈ Ω zu jeDann ist (Xt )t≥0 genau dann rechtsstetig, wenn f¨ dem t ≥ 0 ein ε > 0 existiert, so dass ur alle t ≤ s ≤ t + ε. Xt (ω) = Xs (ω) f¨ ahlen ein festes t ≥ 0 und ω ∈ Ω Beweis. Es sei (Xt )t≥0 rechtsstetig. Wir w¨ mit rechtsstetigem Pfad. Dann gibt es zu δ = 12 ein ε > 0, so dass 1 , falls t ≤ s ≤ t + ε. 2 Da Xu (ω) ∈ N0 f¨ ur alle u ≥ 0, folgt daraus |Xt (ω) − Xs (ω)| <
Xt (ω) = Xs (ω)
falls t ≤ s ≤ t + ε,
wie behauptet. Die umgekehrte Implikation ist offensichtlich. Xt
W1
W2
T3 W3
At
T4 W4
W5=
8
T2
T1
T0=0
Abbildung 10.1. Stochastischer Prozess mit endlich vielen Spr¨ ungen
Betrachtet man einen Pfad eines rechtsstetigen Prozesses mit Zustandsraum achst im Anfangszustand, springt dann auf einen neuen N0 , so verweilt er zun¨ Zustand, verweilt dort wieder, etc. Daher gibt es f¨ ur die Gestalt der Pfade grunds¨ atzlich drei M¨ oglichkeiten:
10.1 Terminologie stochastischer Prozesse
273
Xt S4 S6 S0
S5
S2 S1
S7
S3 T2
T1
T0=0 W1
W2
T3 W3
T4 W4
W5
T5
T6 W6
T7
W7
At W8
Abbildung 10.2. Prozess mit endlich vielen Spr¨ ungen in endlicher Zeit
Xt
At
Abbildung 10.3. Stochastischer Prozess mit Explosion
(i) endlich viele Spr¨ unge: Der Pfad springt nur endlich oft und bleibt dann f¨ ur immer in einem Zustand. Ein typischer Pfadverlauf ist in Abbildung 10.1 dargestellt. (ii) endlich viele Spr¨ unge in endlicher Zeit: Der Pfad springt unendlich oft auf einen anderen Zustand, jedoch immer nur endlich oft in endlicher Zeit. Ein typischer Pfad ist in Abbildung 10.2 dargestellt. (iii) unendlich viele Spr¨ unge in endlicher Zeit: Der Pfad kann auch in endlicher Zeit unendlich viele Spr¨ unge machen. Stellt man sich z.B. als Ereignisse eine Flut eingehender Anfragen an einen Server, verursacht durch eine Virus-Attacke, vor, so wird deutlich, warum dieses Ph¨anomen
274
10 Poisson-Prozesse
Explosion genannt wird. Nach der Explosion startet das Leben des Pfads neu, der Neustart des Prozesses entspricht dem Neustart des Servers. Er kann wieder explodieren (z.B. wenn der Virus noch aktiv ist) oder auch nicht. Ein Beispiel einer Explosion ist in Abbildung 10.3 zu sehen. Wir wollen von nun an Explosionen ausschließen und immer von explosionsfreien Pfaden ausgehen. Poisson-Prozesse haben diese Eigenschaft nach Definition. Explosionsfreie rechtsstetige Prozesse mit Zustandsraum N0 lassen sich, wie bereits in den Abbildungen 10.1 und 10.2 deutlich wird, durch zwei zeitdiskrete Prozesse, also zwei Folgen von Zufallsvariablen beschreiben. Dazu gen¨ ugt es n¨ amlich, die Wartezeit (Wn )n∈N bis zum n-ten Sprung und die Folge der angenommenen Zust¨ ande (Sn )n∈N0 zu notieren. Wir nennen (Sn )n∈N0 den Sprungprozess. Aus der Addition der Wartezeiten (Wn )n∈N bis zum n-ten Sprung erhalten wir als dritte Folge die Sprungzeiten (Tn )n∈N0 . Hier ist die formale Definition dieser drei zeitdiskreten Prozesse. Definition 10.10 (Wartezeit-, Sprungzeit-, Sprungprozess). Sei (Xt )t≥0 ein rechtsstetiger stochastischer Prozess mit Zustandsraum N0 . Dann ist der Prozess der Sprungzeiten (Tn )n∈N0 induktiv definiert durch T0 := 0 und Tn+1 := inf{t ≥ Tn : Xt = XTn }. Dabei ist inf ∅ = ∞. Der Prozess der Wartezeiten (Wn )n∈N ist definiert durch Tn − Tn−1 f¨ ur Tn−1 < ∞, Wn := ∞ sonst. Der Sprungprozess (Sn )n∈N0 ist definiert durch XTn Sn := Xa , mit a := max{r ∈ N0 : Tr < ∞}
f¨ ur Tn < ∞, f¨ ur Tn = ∞.
Die Fallunterscheidungen in der obigen Definition dienen lediglich dazu, den im Prinzip einfacheren Fall endlich vieler Spr¨ unge mit zu erfassen. Macht ein Pfad nur endlich viele Spr¨ unge, so haben wir definiert, dass nach dem letzten Sprung die Wartezeit unendlich ist, die n¨ achste Sprungzeit unendlich ist und der Sprungprozess im letzten angenommenen Zustand Xa bleibt. Dieser Fall tritt jedoch bei Poisson-Prozessen nicht auf. Die drei Prozesse sind in Abbildung 10.2 veranschaulicht. Die Rechtsstetigkeit bewirkt nach Satz 10.9, dass die Sprungzeiten Tn streng monoton wachsen, solange sie endlich sind. Dies ur alle n ∈ N positiv sind. wiederum impliziert, dass die Wartezeiten Wn f¨ Wir haben bereits angedeutet, dass sich jeder rechtsstetige Prozess mit Zustandsraum N0 aus zwei dieser drei Folgen von Zufallsvariablen rekonstruieren l¨ asst. In der Tat gilt offensichtlich
10.2 Definition des Poisson-Prozesses
275
Xt = Sn fast sicher, falls Tn ≤ t < Tn+1 .
10.2 Definition des Poisson-Prozesses Wir haben bereits einleitend erw¨ ahnt, dass es sich bei Poisson-Prozessen um Z¨ ahlprozesse mit exponentialverteilten Wartezeiten handelt. Wir ben¨otigen daher zur Modellierung einer solchen Situation einen zeitstetigen Prozess mit Zustandsraum N0 . Erinnerung an die Exponentialverteilung Bevor wir Poisson-Prozesse definieren, erinnern wir kurz an die wichtigsten Eigenschaften der Exponentialverteilung, vgl. Abschnitt 3.3. Ist Y exponentialverteilt zum Parameter λ, in Zeichen Y ∼ Exp(λ), so hat die Dichte die Gestalt dY : R → R, λ exp(−λt) f¨ ur t > 0, dY (t) := 0 f¨ ur t ≤ 0. Insbesondere ist P(Y > 0) = 1, Y ist also fast sicher positiv. Die Verteilungsfunktion ergibt sich durch Integration: fY : R → R, fY (t)
P(Y ≤ t) = 1 − exp(−λt).
=
F¨ ur den Erwartungswert und die Varianz gilt E(Y ) =
1 , λ
V(Y ) =
1 . λ2
(10.1)
Außerdem haben wir gezeigt, dass die Exponentialverteilung ged¨achtnislos ist, d.h. f¨ ur alle s, t ≥ 0 gilt: P(Y > s + t|Y > s) = P(Y > t).
(10.2)
Im Folgenden ben¨ otigen wir noch die Verteilung einer Summe exponentialverteilter Zufallsvariablen: Lemma 10.11. Seien Y1 , . . . , Yn unabh¨ angig und Exp(λ)-verteilt. Dann ben Yi die Dichte sitzt Zn := i=1
dZn : R → R, dZn (t) :=
λ exp(−λt) · 0
(λt)n−1 (n−1)!
f¨ ur t > 0, f¨ ur t ≤ 0.
Die zugeh¨ orige Verteilung heißt Gamma-Verteilung, in Zeichen Γ(n, λ).
276
10 Poisson-Prozesse
Beweis. Wir beweisen dies per Induktion. Ist n = 1, so erhalten wir λ exp(−λt) f¨ ur t > 0, dZ1 (t) = 0 f¨ ur t ≤ 0, also die Dichte der Exponentialverteilung. F¨ ur den Induktionsschritt n → n+1 gilt wegen der Unabh¨ angigkeit von Zn und Yn+1 : t dZn (s)λ exp(−λ(t − s))ds
dZn+1 (t) = 0
t λ exp(−λs) ·
= 0
t = exp(−λt)λ
2 0
(λs)n−1 λ exp(−λ(t − s))ds (n − 1)!
(λs)n−1 ds (n − 1)!
(λt)n = λ exp(−λt) . n! Die Definition des Poisson-Prozesses Wir geben jetzt eine Definition f¨ ur Poisson-Prozesse an. Im Laufe dieses Abschnittes werden wir zeigen, dass wir auch einen anderen Zugang, also eine alternative, a atten w¨ ahlen k¨onnen. Die von uns jetzt ¨quivalente Definition h¨ gew¨ ahlte Definition hat den Vorteil, dass sie sehr anschaulich ist und sich die Existenz von Poisson-Prozessen unmittelbar konstruktiv ergibt. Die zweite“ ” Definition, also die a ur ¨quivalente Aussage aus Satz 10.15, ist gelegentlich f¨ Beweise geeigneter und zeigt die Analogien zwischen Poisson-Prozessen und der Brownschen Bewegung, die wir in Kapitel 12 behandeln werden. Definition 10.12 (Poisson-Prozess). Ein rechtsstetiger Prozess (Nt )t≥0 mit Zustandsraum N0 und N0 = 0 fast sicher heißt homogener PoissonProzess mit der Rate λ, kurz HPP(λ), falls die folgenden zwei Bedingungen gelten: angig, und f¨ ur jedes n ∈ N (i) Die Folge der Wartezeiten (Wn )n∈N ist unabh¨ ist Wn Exp(λ)-verteilt. (ii) Der Sprungprozess (Sn )n∈N0 ist gegeben durch Sn = n,
n ∈ N0 .
10.2 Definition des Poisson-Prozesses
277
Ein typischer Verlauf f¨ ur einen Pfad eines Poisson-Prozesses ist in Abbildung 10.4 dargestellt. Da der Sprungprozess durch Sn = n gegeben ist, springt Xt 6 5 4 3 2 1 T2
T1
T0=0 W1
W2
T3 W3
T4 W4
W5
T5
T6 W6
At
W7
Abbildung 10.4. Pfad eines Poisson-Prozesses
der Poisson-Prozess unendlich oft, es gilt also Tn < ∞ f¨ ur alle n und die Sprungh¨ ohe betr¨agt jeweils 1 nach oben: ur alle n ∈ N. Sn − Sn−1 = NTn − NTn−1 = 1 f¨ Konstruktion eines Poisson-Prozesses Ausgehend von einer Folge unabh¨ angiger Exp(λ)-verteilter Zufallsvariablen, deren Existenz sich aus Korollar A.23 ergibt, l¨asst sich leicht ein PoissonProzess konstruieren: angiger, Exp(λ)Satz 10.13. Sei λ > 0 und (Wn )n∈N eine Folge unabh¨ verteilter Zufallsvariablen. Wir setzen n T0 := 0 und Tn := Wi , n ∈ N, i=1
sowie Nt :=
∞
I]0,t] (Ti ),
t ≥ 0.
i=0
Dann ist (Nt )t≥0 ein Poisson-Prozess mit der Rate λ. Beweis. Zun¨ achst ist P(Tn+1 − Tn > 0) = P(Wn+1 > 0) = 1 f¨ ur alle n ∈ N0 , da die Exponentialverteilung fast sicher positiv ist. Daher gilt T0 < T1 < T2 < . . . fast sicher.
278
10 Poisson-Prozesse
Damit folgt f¨ ur jedes n ∈ N0 {Nt = n} = {Tn ≤ t < Tn+1 }, woraus wir schließen, dass (Nt )t≥0 ein stochastischer Prozess ist. Andererseits folgt auch die Rechtsstetigkeit: Denn wiederum aus P(Tn+1 − Tn > 0) = 1 folgt, dass es zu fast allen ω ∈ Ω und Tn (ω) ≤ t < Tn+1 (ω) ein ε > 0 gibt, so dass auch Tn (ω) ≤ t + ε < Tn+1 (ω) und damit Nt+ε (ω) = n = Nt (ω) gilt. Damit ist (Nt )t≥0 nach Satz 10.9 rechtsstetig. Wir bezeichnen mit (T˜n )n∈N0 die Sprungzeiten des Prozesses (Nt )t≥0 . Wegen der strengen Monotonie der (Tn )n∈N0 gilt: NTn =
∞
I]0,Tn ] (Ti ) =
i=0
n
1 = n.
i=1
Um daraus Sn = NT˜n = n folgern zu k¨ onnen, zeigen wir nun induktiv, dass ˜ Tn = Tn f¨ ur alle n ≥ 0 gilt. F¨ ur n = 0 gilt dies per Definition, f¨ ur den Induktionsschritt erhalten wir mit der Definition 10.10 der Sprungzeit: T˜n+1 = inf{t ≥ Tn : Nt = NTn } ∞ = inf{t ≥ Tn : I]0,t] (Ti ) = n} = inf{t ≥ Tn :
i=0 ∞
I]0,t] (Ti ) > 0}
i=n+1
= inf{t ≥ Tn : t ≥ Tn+1 } = Tn+1 . Damit sind (Tn )n∈N0 die Sprungzeiten des Prozesses (Nt )t≥0 , woraus nach Definition 10.10 unmittelbar folgt, dass (Wn ) die Wartezeiten von (Nt )t≥0 und damit unabh¨ angig und Exp(λ)-verteilt sind. Ebenso folgt nun Sn = NTn = n f¨ ur alle n ∈ N0 . Damit haben wir nachgewiesen, dass (Nt )t≥0 ein homogener Poisson-Prozess mit der Rate λ ist. Der Poisson-Prozess als Punktprozess Wir haben im letzten Beweis gezeigt, wie die strenge Monotonie der Sprungzeiten aus der Positivit¨ at der Exponentialverteilung folgt. Wir fassen die Eigenschaften der Sprungzeiten (Tn )n∈N0 eines Poisson-Prozesses noch einmal zusammen. ur die Sprungzeiten (Tn )n≥0 : Satz 10.14. Sei (Nt )t≥0 ein HPP(λ). Dann gilt f¨ (i) T0 = 0.
10.2 Definition des Poisson-Prozesses
279
(ii) (Tn )n≥0 ist streng monoton wachsend: T0 < T1 < T2 < . . . fast sicher. (iii) (Tn )n≥0 ist explosionsfrei: lim Tn = ∞. n→∞
Beweis. Es bleibt lediglich die Explosionsfreiheit (iii) zu zeigen. Nach dem starken Gesetz der großen Zahlen gilt mit E(W1 ) = λ1 : ⎞ ⎛ n Wi ⎟ ⎜ i=1 Tn 1 1 ⎟ − → 0 = P ⎜ P ⎝ n − λ → 0⎠ = 1. n λ Daraus folgt Tn → ∞ fast sicher.
Stochastische Prozesse, welche die drei Eigenschaften von (Tn )n≥0 aus Satz 10.14 haben, nennt man einfache explosionsfreie Punktprozesse. Das Wort einfach bezieht sich auf Eigenschaft (ii), die besagt, dass Ereignisse nicht gleichzeitig eintreten. ¨ Aquivalente Beschreibung eines Poisson-Prozesses Das n¨ achste Resultat enth¨ alt eine notwendige und hinreichende Bedingung daf¨ ur, dass ein stochastischer Prozess ein Poisson-Prozess ist. Satz 10.15. Ein rechtsstetiger Prozess (Nt )t≥0 mit Zustandsraum N0 ist genau dann ein Poisson-Prozess, wenn folgende drei Bedingungen erf¨ ullt sind: (i) N0 = 0 fast sicher. (ii) Die Zuw¨ achse sind Poisson-verteilt, d.h. f¨ ur alle s, t ≥ 0 ist Ns+t − Ns Poi(λt)-verteilt. angige Zuw¨ achse. (iii) (Nt )t≥0 hat unabh¨ Die Bedingung (ii) erkl¨ art, warum der Prozess (Nt )t≥0 Poisson-Prozess heißt. art, warum λ als Rate des PoissonInsbesondere folgt E(Nt ) = λt. Dies erkl¨ Prozesses bezeichnet wird. Im Intervall [0, t] treten im Mittel λt Ereignisse ein, pro Zeiteinheit kommen sie also mit der Rate E(Nt ) =λ t vor. F¨ ur den Beweis des Satzes 10.15 ben¨ otigen wir zwei Lemmata. Lemma 10.16. Sei n ≥ 1 und αn : Rn → R,
x = (x1 , . . . , xn ) → αn (x) :=
n i=1
Dann gilt f¨ ur jedes t ≥ 0: ∞
∞ ...
0
I{αn (x)≤t} dx1 . . . dxn = 0
tn . n!
xi .
280
10 Poisson-Prozesse
Beweis. Dies folgt durch Induktion u ur n = 1 erhalten wir ¨ber n. F¨ ∞
t I{x1 ≤t} dx1 =
0
dx1 = t =
t1 . 1!
0
F¨ ur den Induktionsschritt n → n + 1 folgt: ∞
∞ ...
0
I{αn+1 (x)≤t} dx1 . . . dxn+1 0
∞ =
∞ ...
0
t =
I{αn (x)≤t−xn+1 } I{xn+1 ≤t} dx1 . . . dxn+1 0
(t − xn+1 )n tn+1 dxn+1 = . n! (n + 1)!
0
ˆt := Lemma 10.17. Sei (Nt )t≥0 ein HPP(λ). Dann ist die Zufallsvariable N ur alle s, t ≥ 0 Poi(λt)-verteilt und unabh¨ angig von σ(Nr , r ≤ s). Ns+t − Ns f¨ Beweis. Wir zeigen Folgendes: Sind r ≤ s und k, l ∈ N0 , so gilt: (λr)k (λt)l P(Nr = k, Ns+t − Ns = l) = exp(−λr) exp(−λt) . (10.3) k! l! Daraus folgt unmittelbar die Unabh¨ angigkeit von (Ns+t − Ns ) und σ(Nr , r ≤ s), da die σ-Algebra σ(Nr , r ≤ s) von {Nr = k, k ∈ N0 , r ≤ s} erzeugt wird. Durch Summation u ¨ber k ∈ N0 in (10.3) ergibt sich die behaupˆt = Ns+t − Ns . tete Poisson-Verteilung von N Wir beginnen den Beweis von (10.3) mit dem Spezialfall r = s. Die gemeinsame Dichte der Wartezeiten (Wn )1≤n≤k+l+1 ist auf Grund der Unabh¨angigkeit der Wartezeiten das Produkt der einzelnen Dichten: f : (R+ )k+l+1 → R, x = (x1 , . . . , xk+l+1 ) → f (x) := λk+l+1 exp(−λαk+l+1 (x)). Dabei haben wir wie in Lemma 10.16 die Abk¨ urzung αn (x) = det. Daher gilt f¨ ur l ≥ 1:
n i=1
xi verwen-
10.2 Definition des Poisson-Prozesses
281
P(Ns = k, Ns+t − Ns = l) = P(Tk ≤ s < Tk+1 ≤ Tk+l ≤ s + t < Tk+l+1 ) k k+1 k+l k+l+1 Wi ≤ s < Wi ≤ Wi ≤ s + t < Wi =P ∞ =
i=1 ∞
... 0
i=1
i=1
i=1
f (x)I{αk (x)≤s<αk+1 (x)≤αk+l (x)≤s+t<αk+l+1 (x)} dx1 . . . dxk+l+1 . 0
Da der Integrand nicht-negativ ist, d¨ urfen wir dieses Integral in beliebiger Reihenfolge auswerten. Wir berechnen es in drei Schritten: Zun¨achst integrieren ur wir nach xk+l+1 , dann nach xk+1 bis xk+l , und schließlich von x1 bis xk . F¨ das Integral nach xk+l+1 erhalten wir mit der Substitution y = αk+l+1 (x), dy dxk+l+1 = 1: ∞ λ exp(−λαk+l+1 (x))I{αk+l (x)≤s+t<αk+l+1 (x)} dxk+l+1 0
∞ =
λ exp(−λy)I{αk+l (x)≤s+t
∞ =
λ exp(−λy)I{αk+l (x)≤s+t} dy = exp(−λ(s + t))I{αk+l (x)≤s+t} . s+t
Damit ergibt sich f¨ ur das Integral nach xk+1 bis xk+l zusammen mit Lemma 10.16 und der Substitution y1 = αk+1 (x) − s, y2 = xk+2 , . . . , yl = xk+l : ∞
∞ ...
0
I{αk (x)≤s<αk+1 (x)≤αk+l (x)≤s+t} dxk+1 . . . dxk+l 0
∞ =
∞ ...
0
I{αl (y)≤t} I{αk (x)≤s} dy1 . . . dyl =
tl I{αk (x)≤s} . l!
0
Schließlich ergibt sich f¨ ur das letzte Integral wieder mit Lemma 10.16: ∞
∞ ...
0
I{αk (x)≤s} dx1 . . . dxk =
sk . k!
0
Damit erhalten wir insgesamt: tl sk P(Ns = k, Ns+t − Ns = l) = λk+l exp(−λ(s + t)) l! k! (λs)k (λt)l = exp(−λs) exp(−λt) , k! l!
282
10 Poisson-Prozesse
wie wir es f¨ ur den Fall r = s in (10.3) zeigen wollten. Ist nun r < s, so gilt: P(Nr = k, Ns+t − Ns = l) =
∞
P(Nr = k, Ns − Nr = m, Ns+t − Ns = l),
m=0
(10.4) und eine v¨ ollig analoge Rechnung wie im Spezialfall r = s zeigt, dass P(Nr = k, Ns − Nr = m, Ns+t − Ns = l) = (λr)k (λ(s − r))m (λt)l exp(−λr) exp(−λ(s − r)) exp(−λt) k! m! l! (10.5) gilt. Einsetzen von (10.5) in (10.4) liefert die Behauptung f¨ ur den allgemeinen Fall r ≤ s. Beweis (des Satzes 10.15). Sei zun¨ achst (Nt )t≥0 ein HPP(λ). Bedingung (i) gilt nach Definition eines Poisson-Prozesses. Die Stationarit¨at und Unabh¨ angigkeit der Zuw¨ achse sowie Nt −Ns ∼ Poi(λ(t−s)) haben wir in Lemma 10.17 gezeigt. ulle die BedingunDie Umkehrung ergibt sich folgendermaßen. (Nt )t≥0 erf¨ ˜t )t≥0 der Poisson-Prozess, den wir in Satz gen (i) - (iii) des Satzes 10.15. Sei (N 10.13 konstruiert haben. Wir wissen nach der eben bewiesenen Schlussrich˜t )t≥0 ebenfalls den Bedingungen (i) - (iii) des Satzes 10.15 tung, dass (N gen¨ ugt. Da diese drei Bedingungen alle endlich-dimensionalen Verteilungen eindeutig festlegen, sind die endlich-dimensionalen Verteilungen von (Nt )t≥0 ˜t )t≥0 gleich, d.h. und (N d ˜t )t≥0 = (N (Nt )t≥0 . ˜ n )n∈N Damit sind aber auch die Verteilungen der Wartezeiten (Wn )n∈N bzw. (W und des Sprungprozesses (Sn )n∈N0 bzw. (S˜n )n∈N0 gleich. Da wir wissen, dass ˜ n )n∈N unabh¨ angig und exponentialverteilt sind und S˜n = n f¨ ur alle n ∈ N0 (W gilt, folgt dies auch f¨ ur (Wn )n∈N und (Sn )n∈N0 , und (Nt )t≥0 ist ein PoissonProzess. Die Markov-Eigenschaft Poisson-Prozesse kann man zu einem Zeitpunkt s ≥ 0 neu starten“, und nach ” dem Zeitpunkt s verhalten sie sich genauso wie der urspr¨ ungliche PoissonProzess, unabh¨ angig von dem Ablauf vor der Zeit s. Diese Eigenschaft nennt man, genau wie bei Markov-Ketten, die Markov-Eigenschaft: Satz 10.18 (Markov-Eigenschaft von Poisson-Prozessen). Es sei ˆt := Ns+t − Ns , t ≥ 0 (Nt )t≥0 ein HPP(λ), s ≥ 0. Dann ist der Prozess N ebenfalls ein HPP(λ) und unabh¨ angig von σ(Nr , r ≤ s). ˆ0 = Ns − Ns = 0. Die Unabh¨angigkeit von N ˆt und Beweis. Es ist N σ(Nr , r ≤ s) sowie die Poisson-Verteilung der Zuw¨achse haben wir in Lemma 10.17 gezeigt. Damit folgt die Behauptung aus Satz 10.15.
10.3 Konstruktionen rund um den Poisson-Prozess
283
10.3 Konstruktionen rund um den Poisson-Prozess In diesem Abschnitt wollen wir untersuchen, wie man aus Poisson-Prozessen neue Prozesse erzeugen kann. Modellieren wir das Eintreffen der Kunden einer Bank durch einen Poisson-Prozess, so k¨ onnen wir an Hand dieses Beispiels ¨ alle Konstruktionen motivieren. Wir beginnen mit der Uberlagerung mehrerer Poisson-Prozesse. ¨ Der Uberlagerungsprozess Nehmen wir an, eine Bank habe drei Eing¨ ange, die unterschiedlich stark und unabh¨ angig voneinander von Kunden benutzt werden. Jeden einzelnen Eingang beschreiben wir durch einen Poisson-Prozess Nti , i = 1, 2, 3, der die Anzahl der eintretenden Kunden z¨ ahlt, mit einer zugeh¨origen Rate λi . Im Inneren der Bank kommen alle Kunden zusammen, deren Anzahl zum Zeitpunkt t ist gegeben durch Nt = Nt1 + Nt2 + Nt3 . ¨ Diesen Uberlagerungsprozess bezeichnet man als Superposition. Was k¨onnen wir u ¨ber die Verteilung von Nt sagen? Und durch welchen Eingang betritt der erste Kunde die Bank? Diesen beiden Fragen werden wir im Folgenden nachgehen. Beginnen wir mit der ersten: angige Poisson-Prozesse Satz 10.19. Es seien (Nt1 )t≥0 , . . . , (Ntn )t≥0 unabh¨ mit Raten λ1 , . . . , λn . Dann ist die Superposition Nt :=
n
Nti , t ≥ 0, ein Poisson-Prozess mit der Rate λ :=
i=1
n
λi .
i=1
Beweis. Es gen¨ ugt, den Fall n = 2 zu betrachten. Offensichtlich ist N0 = angig voneinander sind und unN01 + N02 = 0. Da (Nt1 )t≥0 und (Nt2 )t≥0 unabh¨ abh¨ angige Zuw¨ achse haben, ist klar, dass auch (Nt )t≥0 unabh¨angige Zuw¨achse hat. Es bleibt zu zeigen, dass Ns+t − Ns Poi(λt)-verteilt ist. Dazu berechnen wir f¨ ur ein k ∈ N0 : 1 2 − Ns1 + Ns+t − Ns2 = k) P(Ns+t − Ns = k) = P(Ns+t
=
k
1 2 P(Ns+t − Ns1 = m)P(Ns+t − Ns2 = k − m)
m=0 k
(λ1 t)m (λ2 t)k−m · exp(−λ2 t) m! (k − m)! m=0 m k−m k λ1 λ2 (λ1 t + λ2 t)k k = exp(−(λ1 + λ2 )t) m k! λ1 + λ2 λ1 + λ2 m=0
=
exp(−λ1 t)
= exp(−(λ1 + λ2 )t)
(λ1 t + λ2 t)k , k!
284
10 Poisson-Prozesse
wobei sich in der vorletzten Zeile nach dem Binomischen Lehrsatz die Summe zu 1 addiert. Die Gesamtzahl der Kunden in der Bank l¨ asst sich also wieder als PoissonProzess modellieren, die Rate ist die Summe der einzelnen Raten jedes Eingangs. Poisson-Prozesse im Wettbewerb Wir wissen, dass die Gesamtzahl der Kunden in unserer Bank wieder ein Poisson-Prozess ist. Insbesondere folgt daraus, dass mit Wahrscheinlichkeit 1 keine zwei Kunden gleichzeitig eintreten, da die Sprungzeiten nach Satz 10.14 fast sicher streng monoton wachsen. Durch welche T¨ ur kommt der erste Kunde? Diese Frage beantwortet der folgende Satz. Er wird gelegentlich als Wettbewerbstheorem bezeichnet, da man sich vorstellen kann, die einzelnen Eing¨ ange w¨ urden darum konkurrieren, welcher als erster einen Kunden in die Bank f¨ uhrt. F¨ ur den Beweis ben¨ otigen wir folgende Hilfsaussage: angige reelle Zufallsvariablen mit DichLemma 10.20. Es seien X1 , X2 unabh¨ tefunktionen f1 bzw. f2 und g : R2 → R eine reelle Funktion. Ist g(X1 , X2 ) integrierbar, so gilt: ∞ E[g(x, X2 )]f1 (x)dx. (i) E[g(X1 , X2 )] = −∞
(ii) P(t ≤ X1 ≤ X2 ) =
∞
P(X2 ≥ x)f1 (x)dx,
t ∈ R.
t
Beweis. F¨ ur den ersten Teil der Behauptung rechnen wir die linke Seite aus und erhalten: ∞ ∞ E[g(X1 , X2 )] =
g(x1 , x2 )f1 (x1 )f2 (x2 )dx1 dx2 −∞ −∞
∞ = −∞ ∞
=
⎛
f1 (x1 ) ⎝
∞
⎞ g(x1 , x2 )f2 (x2 )dx2 ⎠ dx1
−∞
f1 (x1 )E[g(x1 , X2 )]dx1 . −∞
Die zweite Behauptung erhalten wir aus der ersten mit der speziellen Wahl g(x1 , x2 ) := I{x:t≤x} (x1 )I{y:x1 ≤y} (x2 ). Dann gilt n¨amlich einerseits E[g(X1 , X2 )] = P(t ≤ X1 ≤ X2 ) und andererseits
10.3 Konstruktionen rund um den Poisson-Prozess
285
E[g(x, X2 )] = E[I{t≤x} I{x≤X2 } ] = I{t≤x} P(X2 ≥ x), also ∞ P(t ≤ X1 ≤ X2 ) =
∞ I{t≤x} P(X2 ≥ x)f1 (x)dx =
−∞
P(X2 ≥ x)f1 (x)dx. t
Sind (Nt1 )t≥0 , . . . , (Ntn )t≥0 Poisson-Prozesse mit den zugeh¨origen Wartezeiten (Wk1 )k∈N , . . . , (Wkn )k∈N , so definieren wir die Zufallsvariablen F := min{W11 , . . . , W1n }, den Zeitpunkt des ersten Ereignisses, und J := argmin{W1i }, den f¨ ur das erste Ereignis F verantwortlichen Index, i=1,...,n
es gilt also W1J = F . Der n¨ achste Satz gibt die Verteilungen von F und J an: Satz 10.21. Es seien (Nt1 ), . . . , (Ntn ), n ≥ 1, unabh¨ angige Poisson-Prozesse n Nti mit der Rate mit den Raten λ1 , . . . , λn und die Superposition Nt = λ=
n
i=1
λi gegeben. Dann gilt f¨ ur jedes j = 1, . . . , n und t ≥ 0:
i=1
P(J = j, F ≥ t) = P(J = j)P(F ≥ t) =
λj exp(−λt). λ
(10.6)
Insbesondere sind damit F und J unabh¨ angig, sowie P(J = j) =
λj , λ
j = 1, . . . , n,
und F ist Exp(λ)-verteilt. Beweis. Ohne Einschr¨ ankung der Allgemeinheit zeigen wir Gleichung (10.6) f¨ ur den Fall j = 1. Wir wissen, dass die Wartezeiten (W1i ), i = 1, . . . , n, bis zum ersten Ereignis der Poisson-Prozesse Exp(λi )-verteilt und wegen der Unabh¨ angigkeit der Poisson-Prozesse ebenfalls unabh¨angig sind. Daher gilt: n n n
i W1 ≥ t = P(W1i ≥ t) = exp(−λi t) = exp(−λt). P(F ≥ t) = P i=1
i=1
i=1
(10.7) Definieren wir Z := min{W12 , . . . , W1n }, so erhalten wir analog
286
10 Poisson-Prozesse
P(Z ≥ t) =
n
exp(−λi t) = exp −t
i=2
n
λi
.
i=2
Mit Lemma 10.20 folgt: P(J = 1, F ≥ t) = P(t ≤ W11 ≤ Z) ∞ = P(Z ≥ x)λ1 exp(−λ1 x)dx t
∞
exp −x
=
n
λi
λ1 exp(−λ1 x)dx
i=2
t
∞ exp(−λx)dx
= λ1 t
λ1 = exp(−λt). λ
(10.8)
Nun ist {F ≥ t} ↑ Ω f¨ ur t → 0, daher erhalten wir im Limes t → 0: P(J = 1) =
λ1 λ
Aus (10.7), (10.8) und (10.9) ergibt sich insgesamt die Behauptung.
(10.9)
Beispiel 10.22. Nehmen wir an, unsere Bank habe drei Eing¨ange, einen Haupteingang und zwei Nebeneing¨ ange, und die Kunden k¨amen Poisson-verteilt mit den Raten λ1 (Haupteingang), λ2 und λ3 . Der Haupteingang werde von wesentlich mehr Kunden verwendet, es sei z.B. λ1 = 3λ2 = 3λ3 . Der eben bewiesene Satz besagt dann, dass die Wahrscheinlichkeit, dass der erste Kunde durch einen (bestimmten) Nebeneingang die Bank betritt, gerade P(J = 2) = P(J = 3) =
λ2 1 λ2 = = λ1 + λ2 + λ3 5λ2 5
ist. Die durchschnittliche Wartezeit auf den ersten Kunden ist, unabh¨angig davon, welchen Eingang er benutzt, E(F ) =
1 1 = . λ1 + λ2 + λ3 5λ2
Es sei bemerkt, dass diese Aussagen wegen der (starken) Markov-Eigenschaft von Poisson-Prozessen nicht nur f¨ ur den ersten, sondern genauso f¨ ur alle weiteren Kunden gelten. ♦
10.3 Konstruktionen rund um den Poisson-Prozess
287
Der zusammengesetzte Poisson-Prozess Unsere Kunden betreten nicht nur die Bank, sondern sie wollen dort auch eine Dienstleistung in Anspruch nehmen. So k¨ onnen wir z.B. davon ausgehen, dass alle Kunden Geld abheben wollen. Der Betrag, den sie abheben wollen, sei wiederum identisch verteilt und unabh¨ angig. Die nahe liegende Frage ist nun, wie viel Geld durchschnittlich an einem Tag abgehoben wird, damit die Bank ihre Barreserve entsprechend ausstatten kann. Zur Beantwortung dieser Frage dient der zusammengesetzte Prozess, den wir mit dem etwas griffigeren englischen Namen Compound-Prozess bezeichnen. Definition 10.23 (Compound-Prozess). Sei (Nt )t≥0 ein HPP(λ) und angiger, identisch verteilter Zufallsvariablen, die (Yn )n∈N eine Folge unabh¨ auch unabh¨ angig von (Nt )t≥0 sind. Der Prozess (Ct )t≥0 , definiert durch Ct :=
Nt
Yi ,
t ≥ 0,
i=1
heißt Compound-Prozess von (Nt )t≥0 und (Yn )n∈N . In unserer Vorstellung sind zum Zeitpunkt t genau Nt Kunden in der Bank gewesen, die jeweils den Betrag Yi abgehoben haben. Der gesamte abgehobene Betrag zum Zeitpunkt t ist gerade Ct . Wie hoch ist der u ¨ber einen Tag im Mittel abgehobene Betrag? Satz 10.24. Sei N eine Zufallsvariable mit Zustandsraum N0 und (Yn )n∈N eine Folge unabh¨ angiger und identisch verteilter Zufallsvariablen, die auch unabh¨ angig von N sind und C :=
N
Yi .
i=1
Dann gilt: (i) F¨ ur E(N ) < ∞ folgt: E(C) = E(N )E(Y1 )
(Waldsche Gleichheit).
(ii) F¨ ur E(N 2 ) < ∞ folgt: V(C) = E(N )V(Y1 ) + V(N )E(Y1 )2 . (iii) Ist speziell N Poi(λ)-verteilt, so erhalten wir E(C) = λE(Y1 ) und V(C) = λE(Y12 ).
288
10 Poisson-Prozesse
Beweis. (i) Unter der Bedingung N = n ist C = Y1 + . . . + Yn und daher die bedingte (elementare) Erwartung E(C|N = n) = nE(Y1 ). Somit folgt: E(C) = =
∞ n=0 ∞
E(C|N = n)P(N = n) nE(Y1 )P(N = n)
n=0
= E(N ) · E(Y1 ). Damit ist die erste Behauptung bewiesen. (ii) Ganz analog gehen wir f¨ ur die zweite Behauptung vor. Wieder gilt wegen der Unabh¨ angigkeit der (Yk )k∈N unter der Bedingung N = n, dass E(C 2 |N = n) = nE(Y12 ) + n(n − 1)E(Y1 )2 ist. Also erhalten wir E(C 2 ) = =
∞ n=0 ∞
E(C 2 |N = n)P(N = n) (nE(Y12 ) + n(n − 1)E(Y1 )2 )P(N = n)
n=0
= E(N )E(Y12 ) + E(N 2 )E(Y1 )2 − E(N )E(Y1 )2 . Daher erhalten wir f¨ ur die Varianz: V(C) = E(C 2 ) − E(C)2 = E(N )E(Y12 ) + E(N 2 )E(Y1 )2 − E(N )E(Y1 )2 − E(N )2 E(Y1 )2 = E(N )V(Y1 ) + V(N )E(Y1 )2 . Damit ist auch die zweite Aussage bewiesen. (iii) Die dritte Aussage ergibt sich aus den ersten beiden, wenn man E(N ) = V(N ) = λ f¨ ur eine Poisson-verteilte Zufallsvariable N ber¨ ucksichtigt. Beispiel 10.25 (Abgehobene Menge Geld in einer Bank). Kehren wir zu unserem Beispiel der Kunden einer Bank zur¨ uck. Wir modellieren die Zahl der eintreffenden Kunden durch einen Poisson-Prozess (Nt )t≥0 mit der Rate λ = 10 [Kunden pro Stunde]. Die Bank hat 8 Stunden am Tag ge¨offnet. Jeder Kunde hebt identisch-verteilt und unabh¨ angig Geld Yi ab, mit Erwartungswert E(Yi ) = 100 [Euro] und Varianz V(Yi ) = 10 [Euro2 ]. Wie viel Geld wird im Mittel pro Gesch¨ aftstag abgehoben? Der Poisson-Prozess nach 8 Stunden hat eine Rate von λt = 10 · 8 = 80. Nach Satz 10.24 ist die durchschnittlich abgehobene Geldmenge E(C8 ) = E(N8 )E(Y1 ) = 80 ∗ 100 = 8000 [Euro], und die Varianz
10.3 Konstruktionen rund um den Poisson-Prozess
289
V(C8 ) = E(N8 )V(Y1 ) + V(N8 )E(Y1 )2 = 80 · 10 + 80 · 1002 = 800800 [Euro2 ]. Wir erhalten also einen Erwartungswert von 8000 [Euro] mit einer Standardabweichung von σ ! 894.5 [Euro]. ♦ Poisson-Prozesse unter Bedingungen Nehmen wir an, unsere Bank besitze am Eingang ein Drehkreuz, das jeden ¨ Kunden registriert. Eine Stunde nach Offnung der Bank zeige das Drehkreuz an, dass 15 Kunden die Bank betreten haben. Das Drehkreuz registriert jedoch nicht, wann ein einzelner Kunde die Bank betritt. Wenn wir von einem Poisson-Prozess ausgehen, was k¨ onnen wir dann u ¨ber die Verteilung der Zeitpunkte dieser 15 Kunden sagen? Das auf den ersten Blick erstaunliche Ergebnis ist, dass die Zeitpunkte gleichverteilt sind. Entscheidend dabei ist, dass wir das Wissen um die Zahl der Kunden voraussetzen. Wir beginnen mit dem Fall eines einzigen Kunden: Satz 10.26. Sei (Nt )t≥0 ein HPP(λ). Unter der Bedingung {Nt = 1} genau eines Ereignisses im Intervall [0, t] ist der Zeitpunkt T1 des Ereignisses gleichverteilt auf [0, t]. Beweis. Wir berechnen die Verteilungsfunktion von T1 unter der Bedingung Nt = 1. Sei dazu 0 ≤ s ≤ t, dann gilt: P(T1 ≤ s, Nt = 1) P(Nt = 1) P(Ns = 1, Nt − Ns = 0) . = P(Nt = 1)
P(T1 ≤ s|Nt = 1) =
Auf Grund der Unabh¨ angigkeit der Zuw¨ achse erhalten wir f¨ ur die letzte Zeile λs exp(−λs) · exp(−λ(t − s)) s = . λt exp(−λt) t Dies ist die Verteilungsfunktion einer Gleichverteilung auf [0, t].
Es ist bemerkenswert, dass das gerade bewiesene Resultat unabh¨angig von der Rate λ gilt. Die Dichtefunktion der Ordnungsstatistik Betrachten wir jetzt n Kunden, also die Bedingung {Nt = n}, so k¨onnen die Ankunftszeiten T1 , . . . , Tn auf dem Intervall [0, t] nicht gleichverteilt sein, da sie fast sicher streng monoton wachsend angeordnet sind. Daher d¨ urfen wir statt der Gleichverteilung auf [0, t] nur geordnete n-Tupel zulassen. Um dies pr¨ azise formulieren zu k¨ onnen, f¨ uhren wir die Ordnungsstatistik von n
290
10 Poisson-Prozesse
reellen Zufallsvariablen X1 , . . . , Xn ein. Dabei handelt es sich um n neue reelle ur die Zufallsvariablen X(1) , . . . , X(n) , die Ordnungsstatistik von X1 , . . . , Xn , f¨ {X1 (ω), . . . , Xn (ω)} = {X(1) (ω), . . . , X(n) (ω)} f¨ ur alle ω ∈ Ω gilt und X(1) ≤ . . . ≤ X(n) fast sicher. Mit anderen Worten, f¨ ur fast jedes ω ∈ Ω ist (X(1) (ω), . . . , X(n) (ω)) aufsteigend geordnet. Nehmen wir an, die Zufallsvariablen X1 , . . . , Xn sind unabh¨angig und identisch verteilt mit Dichtefunktion f . Die gemeinsame Dichtefunktion der (X1 , . . . , Xn ) ist nach Korollar 5.11 das Produkt der einzelnen Dichtefunktionen. Die gemeinsame Dichtefunktion der Ordnungsstatistik (X(1) , . . . , X(n) ) ist gegeben durch: ⎧ n ⎨n! f (x ) f¨ ur x1 ≤ . . . ≤ xn , i g(x1 , . . . , xn ) = i=1 ⎩ 0 sonst. Dies folgt unmittelbar aus der Tatsache, dass n! Permutationen jedes n-Tupels (x1 , . . . , xn ) ∈ Rn dasselbe geordnete n-Tupel ergeben. Die Verteilung der Eintrittszeiten von n Kunden Nehmen wir noch konkreter an, X1 , . . . , Xn seien auf dem Intervall [0, t] gleichverteilt, so erhalten wir als gemeinsame Dichtefunktion der Ordnungsstatistik: g(t1 , . . . , tn ) =
n! I{0≤t1 ≤t2 ≤...≤tn ≤t} . tn
Unter der Bedingung {Nt = n}, d.h. wenn wir wissen, dass n Kunden im Zeitintervall [0, t] die Bank betreten haben, ist dies die Dichtefunktion der Eintrittszeiten T1 , . . . , Tn : Satz 10.27. Sei (Nt )t≥0 ein HPP(λ). Unter der Bedingung {Nt = n} haben die Sprungzeiten T1 , . . . , Tn die gemeinsame Dichtefunktion g : Rn → R, (t1 , . . . , tn )
→
n! I{0≤t1 ≤t2 ≤...≤tn ≤t} . tn
Das heißt, unter der Bedingung Nt = n haben die Sprungzeiten T1 , . . . , Tn die gleiche Verteilung wie die Ordnungsstatistik (X(1) , . . . , X(n) ) von n unabh¨ angigen und auf [0, t] gleichverteilten Zufallsvariablen.
10.3 Konstruktionen rund um den Poisson-Prozess
291
Beweis. Es seien (Wk )k∈N die Wartezeiten von (Nt )t≥0 . Diese sind unabh¨angig und Exp(λ)-verteilt. Daher haben (W1 , . . . , Wn+1 ) die gemeinsame Dichtefunktion h(s1 , . . . , sn+1 ) =
n+1
λ exp(−λsi )I{si ≥0}
i=1 n+1
=λ k
Mit Wk =
exp(−λ(s1 + . . . + sn+1 ))I{s1 ,...,sn+1 ≥0} .
Ti , k ∈ N, folgt f¨ ur die gemeinsame Dichtefunktion von
i=0
T1 , . . . , Tn+1 : f (t1 , . . . , tn+1 ) = λn+1 exp(−λtn+1 )I{0≤t1 ≤...≤tn+1 } . Damit erhalten wir f¨ ur jedes A ∈ Bn : P((T1 , . . . , Tn ) ∈ A, Nt = n) = P((T1 , . . . , Tn ) ∈ A, Tn ≤ t < Tn+1 ) ∞ f (t1 , . . . , tn+1 )I{tn ≤t} I{t
λn+1 exp(−λtn+1 )I{0≤t1 ≤...≤tn+1 } I{tn ≤t} I{t
= A −∞
= λn+1
⎛ I{0≤t1 ≤...≤tn ≤t} ⎝
∞
⎞ exp(−λtn+1 )I{t
−∞
A
1 = λn+1 I{0≤t1 ≤...≤tn ≤t} exp(−λt)dt1 . . . dtn λ A = λn exp(−λt) I{0≤t1 ≤...≤tn ≤t} dt1 . . . dtn . A n
Da P(Nt = n) = exp(−λt) (λt) n! , folgt: n! P((T1 , . . . , Tn ) ∈ A|Nt = n) = n I{0≤t1 ≤...≤tn ≤t} dt1 . . . dtn t A = g(t1 , . . . , tn )dt1 . . . dtn . A
292
10 Poisson-Prozesse
10.4 Nichthomogene Poisson-Prozesse Die Definition Zum Abschluss der Theorie dieses Kapitels wollen wir einen kurzen Blick auf eine Verallgemeinerung des homogenen Poisson-Prozesses werfen, die es erlaubt, realistischere Modelle zu erstellen. Zur Motivation betrachten wir ein weiteres Mal die Kunden einer Bank. Wollen wir ihre Eintreffzeiten durch einen Poisson-Prozess beschreiben, so bestimmt die Rate λ, wie viele Kunden pro Zeiteinheit eintreffen. Nun ist es wenig plausibel, dass in der ersten Stun¨ de der Offnungszeiten genauso viele Kunden kommen wie zwischen 16.00 Uhr und 17.00 Uhr nachmittags. F¨ ur ein realistischeres Modell ben¨otigen wir die M¨oglichkeit, dass die Rate eine Funktion der Zeit ist. Dies f¨ uhrt zur Definition des nichthomogenen Poisson-Prozesses: Definition 10.28 (Nichthomogener Poisson-Prozess). Es sei (Nt )t≥0 ein rechtsstetiger Prozess mit Zustandsraum N0 und λ : R+ → R>0 eine messbare Abbildung. Dann heißt (Nt )t≥0 nichthomogener Poisson-Prozess mit der lokalen Rate λ, (NHPP(λ)), wenn folgende Bedingungen gelten: (i) N0 = 0 fast sicher. angige Zuw¨ achse. (ii) (Nt )t≥0 hat unabh¨ (iii) F¨ ur t ≥ s ist Nt − Ns Poisson-verteilt mit der Rate t λ(u)du. s
Ist (Nt )t≥0 ein nichthomogener Poisson-Prozess mit konstanter lokaler Rate λ(t) = λ0 , so ist t λ(u)du = (t − s)λ0 , s
d.h. (Nt )t≥0 ist ein homogener Poisson-Prozess mit der Rate λ0 . Die Mittelwertfunktion Definition 10.29 (Mittelwertfunktion eines NHPP). Ist (Nt )t≥0 ein NHPP(λ), so heißt die Funktion m : R+ → R+ , die Mittelwertfunktion von (Nt )t≥0 .
m(t) := E(Nt ),
10.4 Nichthomogene Poisson-Prozesse
293
Wir fassen einige Eigenschaften der Mittelwertfunktion zusammen: Satz 10.30. Es sei (Nt )t≥0 ein NHPP(λ) mit Mittelwertfunktion m. Dann gilt: t (i) m(t) = 0 λ(u)du, insbesondere ist m (t) = λ(t), t ≥ 0. (ii) Die Mittelwertfunktion m(t) bestimmt die Verteilung eines nichthomogenen Poisson-Prozesses eindeutig. (iii) Ist λ(t) = λ0 konstant, so ist m(t) = λ0 t. Beweis. (i) Ist X Poi(α)-verteilt, so ist E(X) = α. Daher ist nach Definition des nichthomogenen Poisson-Prozesses t λ(u)du. m(t) = E(Nt ) = 0
Daraus folgt m (t) = λ(t). (ii) Die Mittelwertfunktion m(t) bestimmt eindeutig (durch Ableiten) die lokale Rate λ(t), und diese bestimmt eindeutig die Verteilung von Nt . Daher bestimmt m(t) alle endlich-dimensionalen Verteilungen von (Nt )t≥0 , und somit die Verteilung von (Nt )t≥0 . (iii) Folgt unmittelbar aus (i). Wir haben ausdr¨ ucklich auf die eigentlich offensichtliche Tatsache hingewiesen, dass die Mittelwertfunktion die Verteilung eines nichthomogenen PoissonProzesses festlegt, weil nichthomogene Poisson-Prozesse in der Praxis durch ihre Mittelwertfunktion angegeben werden. Die Verteilung der Wartezeiten Nichthomogene Poisson-Prozesse sind rechtsstetige Prozesse mit Zustandsraum N0 . Daher besitzen sie genau wie die homogenen Poisson-Prozesse Sprungzeiten (Tn )n∈N0 und Wartezeiten (Wn )n∈N . Der Umgang mit nichthomogenen Poisson-Prozessen ist jedoch erheblich aufw¨andiger als im homogenen Fall, weil die Wartezeiten i.A. weder exponentialverteilt noch unabh¨angig sind: Satz 10.31. Sei (Nt )t≥0 ein NHPP(λ). Dann hat die gemeinsame Verteilung der Sprungzeiten W1 , . . . , Wn die Dichtefunktion: g(t1 , . . . , tn ) = λ(t1 ) · . . . · λ(tn ) exp(−m(tn )),
t1 , . . . , tn ≥ 0.
Beweis. Wir f¨ uhren den Beweis durch Induktion. F¨ ur n = 1 folgt: P(W1 > t1 ) = P(Nt1 = 0) = exp(−m(t1 )). Da 1 − P(W1 > t1 ) die Verteilungsfunktion von W1 ist, erhalten wir die Dichtefunktion bis auf das Vorzeichen als Ableitung:
294
10 Poisson-Prozesse
g(t1 ) = −
d P(W1 > t1 ) = λ(t1 ) exp(−m(t1 )). dt1
F¨ ur den Induktionsschritt berechnen wir zun¨achst die bedingte Verteilungsfunktion. Wegen der Unabh¨ angigkeit der Zuw¨achse folgt: P(Wn+1 > tn+1 |W1 = t1 , . . . , Wn = tn ) Ns1 = 0, s1 < t1 , Nt1 = 1, = P Ntn+1 − Ntn = 0 Nsi − Nti−1 = 0, ti−1 ≤ si < ti , Nti = i, i = 2, . . . , n = P(Ntn+1 − Ntn = 0) = exp(−[m(tn+1 ) − m(tn )]). Die Ableitung nach tn+1 ergibt die bedingte Dichtefunktion g(tn+1 |t1 , . . . , tn ) := −
∂
P(Wn+1 > tn+1 |W1 = t1 , . . . , Wn = tn ) ∂tn+1 = λ(tn+1 ) exp(−[m(tn+1 ) − m(tn )]),
so dass mit der Induktionsvoraussetzung folgt: g(t1 , . . . , tn+1 ) = g(tn+1 |t1 , . . . , tn )g(t1 , . . . , tn ) = λ(tn+1 ) exp(−[m(tn+1 ) − m(tn )])λ(t1 ) · . . . · λ(tn ) exp(−m(tn )) = λ(t1 ) · . . . · λ(tn+1 ) exp(−m(tn+1 )). Beispiel 10.32 (Laden¨ offnungszeiten). In diesem Beispiel wollen wir f¨ ur ein nichthomogenes Poisson-Modell ausrechnen, wie viele Kunden im Mittel durch die Verk¨ urzung der Laden¨ offnungszeiten von 20.00 Uhr auf 18.00 Uhr verloren gehen. Nehmen wir an, das Gesch¨ aft ¨ offne um 10.00 Uhr und schließe um 20.00 Uhr, es ist also 10 Stunden lang ge¨ offnet. Weiter gehen wir davon aus, dass die Kunden nichthomogen Poisson-verteilt eintreffen und beschreiben dies durch einen Poisson-Prozess (Nt )t≥0 mit der folgenden lokalen Rate: ⎧ λmax ⎪ f¨ ur 0 ≤ t ≤ 5, ⎨ 5 t λmax λ(t) = λmax − 5 (t − 5) f¨ ur 5 < t ≤ 10, ⎪ ⎩ 0 sonst. Wie in Abbildung 10.5 dargestellt, steigt die lokale Rate linear von 0 auf ein Maximum λmax nach 5 Stunden (um 15.00 Uhr) an, um dann genauso wieder abzufallen. Durch eine Integration ergibt sich die Mittelwertfunktion λmax 2 f¨ ur 0 ≤ t ≤ 5, 10 t m(t) = 2 t f¨ ur 5 < t ≤ 10. 2λmax t − 5λmax − λmax 10 Wie viele Kunden treffen auf einen geschlossenen Laden, wenn dieser bereits um 18.00 Uhr schließt? Die Anzahl der Kunden zwischen 18.00 Uhr und 20.00
10.4 Nichthomogene Poisson-Prozesse
295
Nl(t) Nlmax
5
10
Nt
Abbildung 10.5. Lokale Rate f¨ ur das Eintreffen der Kunden
Uhr ist N10 − N8 , und diese Zufallsvariable ist nach Definition des nichthomogenen Poisson-Prozesses Poisson-verteilt mit der Rate m(10) − m(8). Daher ergibt sich als Erwartungswert: E(N10 − N8 ) = m(10) − m(8)
64 = 5λmax + 10λmax − 10λmax − 5λmax + 6λmax − λmax 10 2 = λmax . 5
Betrachten wir dies im Verh¨ altnis zur erwarteten Gesamtkundenzahl pro Tag, E(N10 ) = m(10) = 5λmax , so ergibt sich ein relativer Verlust von 2 λmax E(N10 − N8 ) 2 = 5 = 8%. = E(N10 ) 5λmax 25
Diese Maßnahme w¨ urde also 8% der Kunden vor verschlossene T¨ uren laufen lassen. Da man nicht weiß, wieviel ein einzelner Kunde umsetzt, k¨onnte man sich auch daf¨ ur interessieren, wie hoch die Wahrscheinlichkeit ist, dass man mindestens einen Kunden ausschließt. Die Wahrscheinlichkeit daf¨ ur ist: P(N10 − N8 > 0) = 1 − P(N10 − N8 = 0)
2 = 1 − exp[−(m(10) − m(8))] = 1 − exp − λmax . 5
Ist z.B. λmax = 10, so ergibt sich P(N10 − N8 > 0) = 1 − exp(−4) ! 98%. ♦
296
10 Poisson-Prozesse
10.5 Anwendung Versicherungsmathematik: Ruinwahrscheinlichkeit Jeder von uns kennt das Prinzip einer Versicherung: Jeder Versicherte zahlt einen bestimmten Betrag pro Zeiteinheit, die Versicherungspr¨amie. Tritt ein Schadensfall ein, z.B. ein Autounfall bei einer Kraftfahrzeugversicherung oder ein Todesfall bei einer Lebensversicherung, so zahlt das Versicherungsunternehmen einen bestimmten Betrag, z.B. die Reparaturkosten f¨ ur das Auto, von den eingezahlten Pr¨ amien aus. Obwohl sowohl die Schadenszeitpunkte als auch die Schadensh¨ ohe a priori nicht bekannt, also zuf¨allig verteilt sind, k¨onnen Versicherungsunternehmen sehr wirtschaftlich arbeiten. Dies liegt an den Gesetzen der großen Zahlen. Durch die große Anzahl versicherter Personen und die jahrzehntelange Beobachtung der Schadensverl¨aufe, z.B. in Form von Sterbetafeln f¨ ur die Lebensversicherung, sind die zu Grunde liegenden Verteilungen gut bekannt. Dennoch ist der Ruin eines Versicherungsunternehmens nicht ausgeschlossen. Wir wollen uns in dieser Anwendung mit Fragen rund um die Ruinwahrscheinlichkeit auseinander setzen. F¨ ur die Darstellung haben wir uns an [B¨ uh96], [Hei87], [HM90] und [Sch96a] orientiert. Ein Modell f¨ ur die Kapitalentwicklung Ein Ruin tritt genau dann ein, wenn das Kapital Zt einer Versicherung zum Zeitpunkt t negativ wird. Daher beginnen wir damit, ein stochastisches Modell ur die Kapitalentwicklung eines Versicherungsunternehmens zu entwickeln. Zt f¨ Allgemein l¨ asst sich dieses Modell so beschreiben: (Zt )t≥0 ist ein stochastischer Prozess der Gestalt Zt = z + ct − St , t ≥ 0. Dabei ist • z das Startkapital der Versicherung, • c die H¨ ohe der Pr¨ amie (pro Zeiteinheit), • (St )t≥0 der so genannte Schadensprozess, der die bis zum Zeitpunkt t angefallene Schadensh¨ ohe beschreibt. Eines der wichtigsten Modelle f¨ ur einen Schadensprozess, auf das wir uns hier ausschließlich beschr¨ anken wollen, ist der zusammengesetzte Poisson-Prozess, vgl. Definition 10.23: Nt Yi , t ≥ 0. St = i=1
Dabei beschreibt • der homogene Poisson-Prozess (Nt )t≥0 mit der Rate λ > 0 die Zahl der Schadensf¨ alle bis zum Zeitpunkt t, angiger und identisch verteilter Zufallsvariablen • die Folge (Yn )n∈N unabh¨ die Schadensh¨ ohe. Da es sich um einen Schaden f¨ ur die Versicherung handeln soll, fordern wir außerdem P(Y1 ≥ 0) = 1.
10.5 Anwendung Versicherungsmathematik: Ruinwahrscheinlichkeit
297
Die Ruinwahrscheinlichkeit Wir fassen die Ruinwahrscheinlichkeit als Funktion des Startkapitals z auf. Wie bereits erw¨ ahnt, tritt ein so genannter technischer Ruin auf, sobald das uhrt zu folgender Ruinwahrscheinlichkeit ψ(z): Kapital Zt negativ wird. Dies f¨ N t ψ(z) := P inf Zt < 0 = P sup Yi − ct > z , z ≥ 0. t≥0
t≥0
i=1
Wie u ¨blich bezeichnen wir mit (Tn ) den Sprungzeitenprozess von (Nt ) und mit (Wn ) den Wartezeitenprozess von (Nt ). Da Nt → ∞ fast sicher, erhalten wir n Yi − cTn > z , z ≥ 0. ψ(z) = P sup n∈N0
i=1
n n Setzen wir Xi := Yi − cWi , i ∈ N, so ist i=1 Yi − cTn = i=1 Xi und daher n (10.10) Xi > z , z ≥ 0. ψ(z) = P sup n∈N0
i=1
Dieser Ausdruck ist sehr plausibel. Denn Xi = Yi − cWi ist gerade die Bilanz ohe und cWi ist die seit dem letzdes i-ten Schadens. Yi ist die Schadensh¨ ten Schaden eingegangene Pr¨ amie. Gleichung (10.10) besagt also gerade, dass die Versicherung ruiniert ist, wenn die Summe der einzelnen Schadensbilanzen irgendwann das Startkapital u ¨bersteigt. Die Darstellung der Ruinwahrscheinlichkeit (10.10) hat den Vorteil, dass (Xn ) eine Folge unabh¨angiger und identisch verteilter Zufallsvariablen ist. Dies erlaubt erste Absch¨atzungen f¨ ur ψ(z): angiger und identisch verteilter ZuSatz 10.33. Es sei (Xn ) eine Folge unabh¨ fallsvariablen mit momenterzeugender Funktion M (s) = E[exp(sX1 )], s ∈ R. Dann gilt: ur alle z ≥ 0. (i) Ist E(X1 ) ≥ 0 und P(Y1 = 0) < 1, so folgt ψ(z) = 1 f¨ ur alle (ii) Ist E(X1 ) < 0 und existiert ein s0 > 0 mit M (s0 ) = 1, so folgt f¨ z ≥ 0: ψ(z) ≤ exp(−s0 z)
(Cramer-Lundberg-Ungleichung).
Beweis. Siehe z.B. [HM90, Kapitel 6].
Pr¨ amienprinzipien Um eine Folgerung aus Satz 10.33 ziehen zu k¨onnen, stellen wir zun¨achst verschiedene Pr¨ amienberechnungsprinzipien vor. Allgemein bezeichnet man in der Versicherungsmathematik eine fast sicher nichtnegative Zufallsvariable R ≥ 0 als Risiko. Man kann sich R als den (pro Zeiteinheit) eintretenden Schaden vorstellen. Ein Pr¨ amienprinzip f ordnet einem Risiko R ≥ 0 eine Pr¨amie f (R) ∈ R zu. Klassische Pr¨ amienprinzipien sind:
298
10 Poisson-Prozesse
(i) Nettorisikoprinzip: f (R) := E(R). Die Pr¨amie wird als mittleres Risiko festgelegt. Schwankungen bleiben unber¨ ucksichtigt. (ii) Erwartungswertprinzip: f (R) := (1 + α)E(R), α > 0. Die Pr¨amie wird proportional zum mittleren Risiko um einen Zuschlagsfaktor α erh¨oht. ' (iii) Standardabweichungsprinzip: f (R) := E(R) + α V(R), α > 0. Der Zuschlag ist proportional zur Standardabweichung des Risikos. In unserem Modell wird das Risiko, also der mittlere Schaden pro Zeiteinheit, durch die nichtnegative Zufallsvariable R = λ · Y1 beschrieben. Um dies einzusehen, gen¨ ugt es, die mittlere Schadensh¨ ohe bis zum Zeitpunkt t (s. Satz 10.24) N t Yi = E(Nt )E(Y1 ) = λtE(Y1 ) E(St ) = E i=1
durch die Zeit t zu teilen. Daher w¨ urde das Nettorisikoprinzip in diesem Fall bedeuten, dass wir die Pr¨ amie durch c := λE(Y1 ) festlegen. Da die Wartezeiten (Wn ) im Poisson-Prozess Exp(λ)-verteilt mit E(W1 ) = λ1 sind, heißt dies gerade, dass die Bilanz jedes einzelnen Schadens im Mittel 0 ist: 1 ur alle i ∈ N. E(Xi ) = E(Yi − cWi ) = E(Yi ) − λE(Yi ) · = 0 f¨ λ Nach Satz 10.33(i) bedeutet dies jedoch: Das Nettorisikoprinzip f¨ uhrt zum sicheren Ruin. Eine Integralgleichung f¨ ur die Ruinwahrscheinlichkeit F¨ ur einen zusammengesetzten Poisson-Prozess St =
Nt
Yi als Schadensprozess
i=1
kann man auf Grund der genauen Kenntnis der Verteilungen f¨ ur die Ruinwahrscheinlichkeit ψ(z) eine Integralgleichung angeben. Setzen wir µ := E(Y1 ), so bedeutet die Voraussetzung c > λµ = λE(Y1 ) aus dem n¨ achsten Satz gerade, dass der eben hergeleitete sichere Ruin und damit ψ(z) = 1 fast sicher nicht eintritt. Satz 10.34. Ist c > λµ, so gilt f¨ ur die Ruinwahrscheinlichkeit ψ(z), z ≥ 0, die Integralgleichung z λ ψ(z) − ψ(0) = − (1 − ψ(z − x))(1 − FY1 (x))dx, c 0
wobei ψ(0) =
λµ c
und FY1 die Verteilungsfunktion von Y1 ist.
Beweis. Siehe z.B. [HM90, Kapitel 10].
10.5 Anwendung Versicherungsmathematik: Ruinwahrscheinlichkeit
299
Ruinwahrscheinlichkeit f¨ ur exponentialverteilte Sch¨ aden F¨ ur den Fall exponentialverteilter Sch¨ aden, d.h. Y1 ∼ Exp( µ1 ), l¨asst sich die obige Integralgleichung explizit l¨ osen: Korollar 10.35. Ist c > λµ und Y1 ∼ Exp( µ1 ), so gilt f¨ ur die Ruinwahrscheinlichkeit 1 λµ λµ exp − ψ(z) = 1− z , z ≥ 0. c µ c Beweis. Da Y1 exponentialverteilt ist, gilt FY1 (x) = 1 − exp(− µ1 x), x ≥ 0. Damit folgt aus Satz 10.34: λ ψ(z) − ψ(0) = − c
z
1 (1 − ψ(z − x)) exp − x dx µ
0
⎡ z ⎤ z λ 1 1 = − ⎣ exp − x dx − ψ(z − x) exp − x dx⎦ c µ µ 0 0 ⎡ ⎤ z λ 1 1 = − ⎣µ 1 − exp − z − ψ(z − x) exp − x dx⎦ c µ µ 0
z λµ 1 λµ λ 1 = exp − z − + ψ(z − x) exp − x dx. c µ c c µ 0
Mit ψ(0) = folgt:
λµ c ,
Multiplikation mit exp( µ1 z) und der Substitution y = z − x
ψ(z) exp
1 z µ
λµ λ = + c c
z ψ(z − x) exp 0
λµ λ = + c c
z ψ(y) exp
1 (z − x) dx µ
1 y dy. µ
0
Differenzieren wir beide Seiten nach z, folgt 1 1 1 1 λ ψ (z) exp z + ψ(z) exp z = ψ(z) exp z , µ µ µ c µ oder ¨ aquivalent
1 λµ ψ (z) + 1− ψ(z) = 0. µ c osung der Differentialgleichung ψ (z)+ Setzen wir a := µ1 1 − λµ c , so ist die L¨
aψ(z) = 0 gerade ψ(z) = ψ(0) exp(−az), wie behauptet.
300
10 Poisson-Prozesse
Aus der expliziten Darstellung der Ruinwahrscheinlichkeit in obigem Korollar erhalten wir einige sehr plausible Schlussfolgerungen: •
Je h¨ oher das Startkapital z, desto geringer ist die Ruinwahrscheinlichkeit. Es sei allerdings daran erinnert, dass f¨ ur c ≤ λµ auch ein beliebig hohes Startkapital den sicheren Ruin nicht verhindern kann. oher die Pr¨ amie c gegen¨ uber der Nettorisikopr¨amie • Je kleiner λµ c , also je h¨ λµ, desto geringer ist die Ruinwahrscheinlichkeit. • Je kleiner die mittlere Schadensh¨ ohe µ, desto geringer ist die Ruinwahrscheinlichkeit. Um mit einem Zahlenbeispiel zu enden, nehmen wir an, in der Situation von Korollar 10.35 lege das Versicherungsunternehmen eine Pr¨amie nach dem Erwartungswertprinzip mit einem Zuschlagsfaktor α = 13 fest: 1 4 c= 1+ λµ = λµ. 3 3 Wie hoch muss das Startkapital sein, damit die Ruinwahrscheinlichkeit unter 1% liegt? Wir fordern also 1 λµ λµ exp − ψ(z) = 1− z c µ c 1 1 3 . = exp − z ≤ 4 4µ 100 Das ist a ¨quivalent zu z ≥ 4 ln(75) · µ ! 17.27 · µ. Um die Ruinwahrscheinlichkeit unter 1% zu halten, muss das Startkapital des Versicherungsunternehmens also in diesem Modell etwa 17 mal so hoch sein wie die mittlere Schadensh¨ ohe µ.
11 Zeitdiskrete Martingale
Martingale geh¨ oren zu den wichtigsten Instrumenten der modernen Wahrscheinlichkeitstheorie. Sie dienen unter anderem als Modelle f¨ ur faire Spiele. Daher ist es nicht u ¨berraschend, dass die Martingaltheorie in der Finanzmathematik, die sich mit der Bestimmung fairer Preise f¨ ur Finanzg¨ uter besch¨ aftigt, von u ¨berragender Bedeutung ist. In diesem Kapitel behandeln wir die Grundlagen der diskreten Martingaltheorie. Dazu geh¨oren neben der Einf¨ uhrung gleichgradig integrierbarer Martingale die Untersuchung von Martingalen unter Stoppzeiten und ihr Konvergenzverhalten. Viele Ergebnisse u ¨bertragen sich auf die zeitstetigen Martingale, wie wir in Kapitel 13 sehen werden.
11.1 Definition und Beispiele Adaptierte Prozesse Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und I ⊂ [0, ∞[ eine zun¨achst nicht notwendig diskrete Indexmenge. Definition 11.1 (Filtration). Ist F = (Ft )t∈I eine aufsteigende Folge von Sub-σ-Algebren, d.h. gilt ur alle s, t ∈ I, s ≤ t, Fs ⊂ Ft ⊂ F f¨ so heißt F Filtration. Filtrationen sind vom technischen Standpunkt aus gesehen n¨ utzlich, um Messbarkeitsaussagen zu formulieren. Es gibt jedoch auch einen nicht-tech¨ nischen Aspekt. Ahnlich wie bei der Interpretation bedingter Erwartungen E(X|G) als Prognose mit dem Wissensstand G, kann man sich eine Filtration F als zeitlichen Verlauf des Informationsgewinns vorstellen. Ft ist die
302
11 Zeitdiskrete Martingale
zum Zeitpunkt t zur Verf¨ ugung stehende Information. Entsprechend soll die andig beobachtbar, d.h. Ft -messbar Zufallsvariable Xt zum Zeitpunkt t vollst¨ sein. Dies motiviert die folgende Definition: Definition 11.2 (adaptierter Prozess). Sei X = (Xt )t∈I ein stochastischer Prozess mit Werten in (S, S) und F = (Ft )t∈I eine Filtration. X heißt (an F) adaptiert, falls f¨ ur alle t ∈ I Xt : Ω → S
Ft -S-messbar ist.
Beispiel 11.3 (Nat¨ urliche Filtration). Jeder stochastische Prozess (Xt )t∈I ist zu seiner eigenen, nat¨ urlichen Filtration FX = (FtX )t∈I adaptiert, die gegeben ist durch FtX := σ(Xs , s ≤ t), t ∈ I. ♦ Bis zum Ende des Kapitels betrachten wir von nun an ausschließlich zeitdiskrete stochastische Prozesse X = (Xn ) = (Xn )n∈N0 zur Indexmenge I := N0 . Außerdem seien alle stochastischen Prozesse reellwertig, wenn wir nicht ausdr¨ ucklich etwas anderes schreiben. Submartingale, Supermartingale und Martingale Ein faires Spiel kann dadurch charakterisiert werden, dass, wie auch immer die ersten n − 1 Runden verlaufen sind, der zu erwartende Gewinn des Spielers nach der n-ten Spielrunde gerade das ist, was er schon bis zur (n − 1)-ten Runde gewonnen hatte. Mit anderen Worten, sein erwarteter Zugewinn ist 0, dann ist n¨ amlich auch der erwartete Verlust seines Gegners 0 und das Spiel fair. Die Situation eines fairen Spiels wird durch ein Martingal beschrieben. ¨ Uberhaupt ist es oft hilfreich, sich Aussagen u ¨ber Martingale in der Welt eines Spielers vorzustellen. F¨ ur die Beschreibung unfairer Spiele gibt es Super- bzw. Submartingale:
11.1 Definition und Beispiele
303
Definition 11.4 ((Sub-, Super-) Martingal). Sei M = (Mn ) ein stochastischer Prozess und F = (Fn ) eine Filtration. Ist M adaptiert und Mn f¨ ur jedes n ∈ N0 integrierbar, so heißt (Mn ) (bzgl. P und F) ein (i) Submartingal, falls f¨ ur alle n ∈ N gilt: E(Mn |Fn−1 ) ≥ Mn−1
P-fast sicher.
(ii) Supermartingal, falls f¨ ur alle n ∈ N gilt: E(Mn |Fn−1 ) ≤ Mn−1
P-fast sicher.
(iii) Martingal, falls f¨ ur alle n ∈ N gilt: E(Mn |Fn−1 ) = Mn−1
P-fast sicher.
Wird keine Filtration explizit angegeben, so ist stets die nat¨ urliche Filtration des Prozesses gemeint. Bevor wir uns Beispiele f¨ ur Martingale ansehen, einige Bemerkungen zur Definition. (i) Ein Prozess (Mn ) ist genau dann ein Submartingal, wenn (−Mn ) ein Supermartingal ist, und genau dann ein Martingal, wenn (Mn ) ein Submartingal und ein Supermartingal ist. Daher lassen sich viele Aussagen sowohl f¨ ur Submartingale als auch f¨ ur Supermartingale formulieren, und die Aussage f¨ ur Martingale erh¨ alt man, indem man alle Ungleichheitszeichen durch Gleichheitszeichen ersetzt. (ii) Ein stochastischer Prozess (Mn ) ist genau dann ein Sub- bzw. Super- bzw. Martingal, wenn der Prozess (Mn − M0 ) diese Eigenschaft hat. Daher setzen wir gelegentlich M0 = 0 voraus. (iii) In der Definition ist die Schrittweite“ gleich 1, d.h. es wird E(Mn |Fn−1 ) ” betrachtet. Die jeweilige Eigenschaft u ¨bertr¨agt sich auf gr¨oßere Schritte. Ist (Mn ) beispielsweise ein Submartingal, so gilt auf Grund der Projektionseigenschaft bedingter Erwartungen f¨ ur m > n: E(Mm |Fn−1 ) = E(E(Mm |Fm−1 )|Fn−1 ) ≥ E(Mm−1 |Fn−1 ) ≥ . . . ≥ Mn−1 fast sicher. (iv) F¨ ur ein Martingal M gilt E(M0 ) = E(E(Mn |F0 )) = E(Mn ) f¨ ur alle n ∈ N0 , das heißt, ein Martingal ist im Mittel konstant“. Entsprechend ist ” ein Submartingal im Mittel steigend und ein Supermartingal im Mittel fallend. Beispiele Beispiel 11.5 (Faire und unfaire Spiele). Ist M ein stochastischer Prozess, so stellen wir uns f¨ ur n ≥ 1 die Differenz Mn − Mn−1 als unseren Gewinn in der
304
11 Zeitdiskrete Martingale
n-ten Spielrunde pro Euro Einsatz vor. Ist M ein Martingal, so gilt E(Mn − Mn−1 |Fn−1 ) = 0,
(11.1)
das heißt, der erwartete Gewinn ist 0, das Spiel ist fair. Ist M ein Supermartingal, so ist (11.2) E(Mn − Mn−1 |Fn−1 ) ≤ 0, das heißt, der erwartete Gewinn ist negativ, das Spiel ist zu unserem Nachteil. ♦ Die Gleichungen (11.1) und (11.2) sind ¨ aquivalent zur Martingal- bzw. Supermartingaleigenschaft und eignen sich gelegentlich gut, um die Martingaleigenschaft nachzuweisen, wie im n¨ achsten Beispiel. Beispiel 11.6 (Summe unabh¨ angiger Zufallsvariablen). Sei (Yn )n∈N eine Folge unabh¨ angiger integrierbarer Zufallsvariablen. Wir setzen Y0 := 0 sowie Fn := σ{Y0 , . . . , Yn }, n ∈ N0 , n Mn := (Yi − E(Yi )), n ∈ N0 . i=1
Dann ist M = (Mn ) ein Martingal: Offensichtlich ist M adaptiert und integrierbar. Weiter gilt wegen der Unabh¨ angigkeit von Yn+1 und Fn sowie der Eigenschaften bedingter Erwartungen: E(Mn+1 − Mn |Fn ) = E(Yn+1 − E(Yn+1 )|Fn ) = E(Yn+1 − E(Yn+1 )) = 0. ♦ Beispiel 11.7 (Irrfahrt mit Parameter p). Die aus der Theorie der MarkovKetten bekannte Irrfahrt auf Z ist ein Spezialfall des obigen Beispiels. Wir betrachten dazu speziell die Folge (Yn )n∈N unabh¨angiger und auf {±1} identisch verteilter Zufallsvariablen, mit P(Yi = 1) = p, P(Yi = −1) = 1 − p, p ∈ [0, 1]. Setzen wir Y0 := x ∈ R als Startpunkt fest, so erhalten wir mit n Yi wie oben das Martingal Sn := i=1
Mn = x + Sn − n(2p − 1),
n ∈ N0 ,
da E(Yi ) = 2p − 1 f¨ ur alle i ∈ N ist.
♦
Beispiel 11.8 (Produkt unabh¨ angiger Zufallsvariablen). Es sei (Xn ) eine Folge unabh¨ angiger Zufallsvariablen mit Xn ≥ 0,
E(Xn ) = 1 f¨ ur alle n ∈ N0 .
Dann setzen wir M0 := 1, F0 := {∅, Ω} und
11.1 Definition und Beispiele
Mn := X1 · . . . · Xn ,
Fn := σ(X1 , . . . , Xn ),
305
n ∈ N.
Dann ist Mn−1 Fn−1 -messbar, und Xn und Fn−1 sind unabh¨angig; daher folgt f¨ ur n ≥ 1: E(Mn |Fn−1 ) = E(Mn−1 Xn |Fn−1 ) = Mn−1 E(Xn |Fn−1 ) = Mn−1 E(Xn ) = Mn−1 . Also ist M ein Martingal. Ein Spezialfall ergibt sich folgendermaßen: Besteht angigen und identisch verteilten Zufallsvariablen und die Folge (Yn ) aus unabh¨ gilt f¨ ur ihre momenterzeugenden Funktionen m(t) = E(exp(tYn )) < ∞, so k¨ onnen wir Xn :=
exp(tYn ) m(t) ,
t ∈ R,
n ∈ N0 , setzen und erhalten so das Martingal
n exp t Yk Mn =
k=1
,
m(t)n
n ∈ N0 .
Gibt es noch spezieller ein t0 = 0, so dass m(t0 ) = 1 ist, und setzen wir n Yk , so erhalten wir das Martingal Sn := k=1
Mn = exp(t0 Sn ),
n ∈ N0 .
Letzteres ist z.B. der Fall, wenn wir wieder annehmen, Yn sei auf {±1} mit P(Yi = 1) = p, P(Yi = −1) = 1 − p verteilt. Die charakteristische Funktion der Yn ist dann m(t) = E(exp(tYn )) = p exp(t) + (1 − p) exp(−t), : und es gilt mit t0 := ln 1−p p m(t0 ) = m ln
1−p p
=p
p 1−p + (1 − p) = 1. p 1−p
Wir erhalten so das Martingal Mn = exp(t0 Sn ) =
1−p p
Sn ,
n ∈ N0 .
(11.3) ♦
Das n¨ achste Beispiel ist zwar einfach, aber so wichtig, dass wir es in einem Satz formulieren.
306
11 Zeitdiskrete Martingale
Satz 11.9. Es sei X eine integrierbare Zufallsvariable und F = (Fn ) eine Filtration. Dann ist Mn := E(X|Fn ), n ∈ N0 , ein Martingal. Beweis. Da X integrierbar ist, ist es auch Mn , und nach Definition der bedingten Erwartung ist M adaptiert. Nun folgt aus der Projektionseigenschaft bedingter Erwartungen: E(Mn+1 |Fn ) = E(E(X|Fn+1 )|Fn ) = E(X|Fn ) = Mn . Erinnern wir an die Interpretation von E(X|Fn ) als bestm¨ogliche Prognose von X mit dem Wissen Fn , so leuchtet ein, dass man bei dem Martingal Mn = E(X|Fn ) von sukzessiver Prognose spricht. Spielsysteme und Martingale Kann man durch eine geschickte Wahl des Einsatzes, den man von Runde zu Runde w¨ ahlt, aus einem fairen Spiel ein unfaires machen? Intuitiv ist die Antwort nein; um dies auch beweisen zu k¨ onnen, definieren wir als erstes, welche Spielstrategien wir als zul¨ assig betrachten: Definition 11.10 (previsibel). Sei H = (Hn )n∈N ein stochastischer Prozess und F eine Filtration. H heißt (bzgl. F) previsibel, falls gilt: ur alle n ∈ N. Hn ist Fn−1 -messbar f¨ Ein previsibler Prozess kann als Spielsystem dienen, mit dem sich dann der Gesamtgewinn bestimmen l¨ asst: Definition 11.11 (Spielsystem, stochastisches Integral, MartingalTransformierte). Sei F = (Fn ) eine Filtration, H = (Hn )n∈N ein (bzgl. F) previsibler Prozess und X = (Xn )n∈N0 ein adaptierter Prozess, so dass ur alle n ∈ N gilt. Dann heißt H ein Spielsystem (f¨ ur Hn (Xn − Xn−1 ) ∈ L1 f¨ X). Der stochastische Prozess H.X = (H.X)n∈N , (H.X)n := X0 +
n
Hk (Xk − Xk−1 ),
n ∈ N0 ,
k=1
heißt stochastisches Integral (von H bez¨ uglich X) oder Martingaltransformierte, falls X ein Martingal ist.
11.1 Definition und Beispiele
307
In Anwendungen ist H h¨ aufig ein beschr¨ ankter previsibler Prozess, der f¨ ur ur alle n ∈ N0 ein Spielsystem ist. Die Interjeden Prozess X mit Xn ∈ L1 f¨ pretation von H, X und H.X ist wie folgt: Xn − Xn−1 beschreibt den Gewinn pro Euro Einsatz in der n-ten Runde, wobei dieser auch negativ, also ein Verlust sein kann. Der Prozess H steuert den Einsatz. In der n-ten Runde setzen wir Hn ein. Da dies nach n − 1 Runden geschieht, insbesondere ohne das Wissen um die n-te Spielrunde Xn , darf Hn nur von X0 , . . . , Xn−1 abh¨angen. Hn muss daher Fn−1 -messbar sein, d.h. H ist previsibel. Schließlich ist dann Hn (Xn − Xn−1 ) der Gewinn oder Verlust in der n-ten Runde. Deren Summe H.X beschreibt also den Gesamtgewinn bzw. Gesamtverlust im Verlauf des Spiels, (H.X)n ist die Bilanz nach n Spielrunden. Der n¨ achste Satz zeigt, dass f¨ ur jedes Spielsystem mit X auch H.X ein Martingal ist. Zum einen rechtfertigt dies den Namen Martingal-Transformierte. Zum anderen folgt, dass f¨ ur jeden Zeitpunkt n, also nach n Spielrunden, E((H.X)n − X0 ) = 0 ist. Da X0 das Startkapital ist, gibt es bei einem fairen Spiel durch noch so geschickte Wahl des Einsatzes im Mittel nichts zu gewinnen. Satz 11.12. Sei H ein Spielsystem f¨ ur X. Dann gilt: (i) Ist X ein Martingal, so auch H.X. (ii) Ist Xn ein Submartingal bzw. ein Supermartingal und H ≥ 0, so ist H.X ein Submartingal bzw. ein Supermartingal. Beweis. Es ist offensichtlich, dass H.X adaptiert und integrierbar ist. Weiter gilt, da Hn Fn−1 -messbar ist: E((H.X)n − (H.X)n−1 |Fn−1 ) = E(Hn (Xn − Xn−1 )|Fn−1 ) = Hn E(Xn − Xn−1 |Fn−1 ) ⎧ ⎪ ⎨= 0, falls X ein Martingal ist. ≥ 0, falls H ≥ 0 und X ein Submartingal ist, ⎪ ⎩ ≤ 0, falls H ≥ 0 und X ein Supermartingal ist. Ein kleiner Ausblick Betrachten wir noch einmal das stochastische Integral (H.X)n = X0 +
n
Hk (Xk − Xk−1 )
k=1
und stellen uns dabei vor, dass Hn eine Fn−1 -messbare Funktion H von Xn−1 ist, H(Xn−1 ) = Hn , n ∈ N,
308
11 Zeitdiskrete Martingale
so sieht die Martingal-Transformierte (H.X)n =
n
H(Xk−1 )(Xk − Xk−1 )
k=1
einer endlichen Riemann-Summe formal schon sehr ¨ahnlich. Deren Grenzwerte f¨ uhren bekanntlich zur Definition des Riemann-Integrals. In der Tat ist H.X der diskrete Fall eines stochastischen Integrals HdX, das wir f¨ ur bestimmte Klassen stetiger Prozesse im letzten Kapitel 14 dieses Teils vorstellen werden.
11.2 Gleichgradige Integrierbarkeit Die Definition Gleichgradige Integrierbarkeit ist eine spezielle Integrierbarkeitsbedingung, die zun¨ achst nichts mit Martingalen zu tun hat. Warum besch¨aftigen wir uns dennoch in einem Kapitel u ¨ber Martingale mit einer Integrierbarkeitsbedingung? Daf¨ ur gibt es im Wesentlichen zwei Gr¨ unde. Zum einen erlaubt uns dieses Konzept, den Satz von der dominierten Konvergenz zu verallgemeinern. Dies wird sich f¨ ur die Untersuchung der Konvergenz von Martingalen im n¨ achsten Abschnitt als sehr n¨ utzlich erweisen. Zum anderen bilden bedingte Erwartungen, und damit die Klasse der sukzessiven Prognose-Martingale“ ” Mn = E(X|Fn ), n ∈ N0 , eine reichhaltige Quelle von Beispielen gleichgradig integrierbarer Familien. Definition 11.13 (Gleichgradige Integrierbarkeit). Eine Familie (Xλ )λ∈Λ von integrierbaren Zufallsvariablen heißt gleichgradig integrierbar, falls sup E[|Xλ |I{|Xλ |≥c} ] −→ 0. c→∞
λ∈Λ
Beispiel 11.14. Ist X eine integrierbare Zufallsvariable, so ist die Familie {X} gleichgradig integrierbar. Denn f¨ ur eine integrierbare Zufallsvariable ist µ(A) := |X|dP, A ∈ F, A
ein endliches Maß mit µ P, daher ist {|X| = ∞} eine µ-Nullmenge. Sei ε > 0 gegeben. Wegen der Stetigkeit des Maßes µ gibt es ein c0 > 0, so dass µ(|X| ≥ c) = E(|X|I{|X|≥c} ) < ε f¨ ur alle c ≥ c0 .
(11.4)
Genauso kann man die gleichgradige Integrierbarkeit f¨ ur jede endliche Familie integrierbarer Zufallsvariablen nachweisen. ♦
11.2 Gleichgradige Integrierbarkeit
309
Gleichgradige Integrierbarkeit und bedingte Erwartungen Auf den ersten Blick scheint es m¨ uhsam, die gleichgradige Integrierbarkeit einer konkret gegebenen Familie von Zufallsvariablen an Hand der Definition nachzupr¨ ufen. Daher geben wir im Folgenden einige hinreichende Kriterien an. Die gleichgradige Integrierbarkeit bedingter Erwartungen ergibt sich mit Hilfe des ε-δ-Kriteriums f¨ ur absolute Stetigkeit endlicher Maße. Satz 11.15. Sei Y eine integrierbare Zufallsvariable und Fi , i ∈ I = ∅ eine beliebige Familie von Sub-σ-Algebren. Dann ist die Familie Xi := E(Y |Fi ), i ∈ I, gleichgradig integrierbar. Beweis. Aus der Integrierbarkeit von Y folgt, dass µ(A) := |Y |dP, A ∈ F, A
ein endliches Maß mit µ P ist. Sei ε > 0 gegeben. Dann gibt es nach Korollar 2.40 ein δ > 0, so dass aus P(A) < δ die Absch¨atzung µ(A) < ε folgt. Da |E(Y |Fi )| = |E(Y + |Fi ) − E(Y − |Fi )| ≤ E(|Y ||Fi ) ist, erhalten wir mit der Markov-Ungleichung: E(|Xi |) E(E(|Y ||Fi )) ≤ sup c c i∈I i∈I E(|Y |) −→ 0. = c c→∞
sup P(|Xi | ≥ c) ≤ sup i∈I
Wir w¨ ahlen c > 0 so, dass supi∈I P(|Xi | ≥ c) < δ gilt. Da {|Xi | ≥ c} Fi messbar ist, folgt damit: sup E(|Xi |I{|Xi |≥c} ) ≤ sup E(E(|Y ||Fi )I{|Xi |≥c} ) i∈I
i∈I
= sup E(|Y |I{|Xi |≥c} ) = sup µ(|Xi | ≥ c) < ε. i∈I
i∈I
Beispiel 11.16 (sukzessive Prognose). Ist Y eine integrierbare Zufallsvariable und F = (Fn ) eine Filtration, so ist nach dem eben gezeigten Resultat und Satz 11.9 Mn := E(Y |Fn )
n ∈ N0 , ein gleichgradig integrierbares Martingal. ♦
310
11 Zeitdiskrete Martingale
Eine ¨ aquivalente Bedingung Ist (Xλ )λ∈Λ eine gleichgradig integrierbare Familie von Zufallsvariablen, so ur alle Xλ , λ ∈ Λ gilt: gibt es nach Definition ein c1 , so dass f¨ E(|Xλ |) ≤ E(|Xλ |I{|Xλ |≥c1 } ) + E(|Xλ |I{|Xλ |≤c1 } ) ≤ 1 + c1 . Also ist (Xλ )λ∈Λ in L1 gleichm¨ aßig beschr¨ ankt. Die Umkehrung gilt nicht, wie das folgende klassische Beispiel zeigt: Beispiel 11.17. Wir betrachten den Wahrscheinlichkeitsraum Ω := [0, 1], F := B|[0, 1] und P := λ|[0, 1], sowie die Zufallsvariablen Xn := nI[0, n1 ] ,
n ∈ N.
Dann gilt E(|Xn |) = nP([0, n1 ]) = 1 f¨ ur alle n ∈ N, so dass (Xn ) in L1 gleichm¨ aßig beschr¨ ankt ist. Jedoch gilt f¨ ur gegebenes c > 0 f¨ ur alle n > c: E(|Xn |I{|Xn |≥c} ) = E(|Xn |) = 1, ♦
daher ist (Xn ) nicht gleichgradig integrierbar.
In obigem Beispiel gilt Xn → 0 fast sicher, aber E(Xn ) 0. Schließt man diese M¨oglichkeit gleichm¨ aßig aus, so erh¨ alt man zusammen mit der L1 -Beschr¨anktheit tats¨ achlich eine zur gleichgradigen Integrierbarkeit ¨aquivalente Bedingung: Satz 11.18. F¨ ur eine Familie (Xλ )λ∈Λ integrierbarer Zufallsvariablen sind folgende Aussagen ¨ aquivalent: (i) (Xλ )λ∈Λ ist gleichgradig integrierbar. aßig beschr¨ ankt, und f¨ ur alle ε > 0 existiert ein (ii) (Xλ )λ∈Λ ist in L1 gleichm¨ δ > 0, so dass f¨ ur alle A ∈ F gilt: P(A) < δ ⇒ sup E(|Xλ |IA ) < ε.
(11.5)
λ∈Λ
Beweis. (i) ⇒ (ii): Wir wissen bereits, dass aus gleichgradiger Integrierbarkeit die gleichm¨ aßige Beschr¨ anktheit in L1 folgt. Sei ε > 0 gegeben. Wir w¨ahlen ur alle λ ∈ Λ ein cε , so dass f¨ E(Xλ I{|Xλ |≥cε } ) < Mit δ :=
ε 2cε
ε . 2
folgt dann f¨ ur jedes A ∈ F mit P(A) < δ:
E(|Xλ |IA ) ≤ cε P(A) + E(|Xλ |I{|Xλ |≥cε } ) < cε
ε ε + = ε. 2cε 2
(ii) ⇒ (i): Sei ε > 0 gegeben. Wir w¨ ahlen ein δ > 0, so dass (11.5) erf¨ ullt ist, und setzen
11.2 Gleichgradige Integrierbarkeit
311
1 sup E(|Xλ |) < ∞. δ λ∈Λ
c0 :=
Dann ist mit der Markov-Ungleichung f¨ ur alle λ ∈ Λ und c ≥ c0 : P(|Xλ | ≥ c) ≤
E(|Xλ |) <δ c
nach unserer Wahl von c0 . Damit k¨ onnen wir (11.5) auf das Ereignis {|Xλ | ≥ c} anwenden und erhalten f¨ ur alle c ≥ c0 : sup E(|Xλ |I{|Xλ |≥c} ) < ε,
λ∈Λ
also ist (Xλ )λ∈Λ gleichgradig integrierbar.
Hinreichende Bedingungen Wir zeigen als n¨achstes zwei hinreichende Bedingungen f¨ ur gleichgradige Integrierbarkeit, die leicht nachzupr¨ ufen sind: Satz 11.19. Besitzt eine Familie (Xλ )λ∈Λ integrierbarer Zufallsvariablen eine integrierbare Majorante Y , d.h. E(Y ) < ∞ und |Xλ | ≤ Y
f¨ ur alle λ ∈ Λ,
so ist (Xλ )λ∈Λ gleichgradig integrierbar. Beweis. Zu jedem ε > 0 finden wir nach (11.4) ein c0 > 0, so dass mit der ur alle λ ∈ Λ gilt: Voraussetzung und {|Xλ | > c} ⊂ {Y > c} f¨ sup E(|Xλ |I{|Xλ |>c} ) ≤ E(Y I{Y >c} ) < ε f¨ ur alle c ≥ c0 .
λ∈Λ
F¨ ur p = 1 ist gleichm¨ aßige Beschr¨ anktheit der p-Norm nicht hinreichend f¨ ur gleichgradige Integrierbarkeit, vgl. Beispiel 11.17. Jede geringf¨ ugig st¨arker als die Identit¨ at wachsende Funktion f¨ uhrt zu gleichgradiger Integrierbarkeit, wie das n¨ achste Resultat zeigt: Satz 11.20. E sei (Xλ )λ∈Λ eine Familie integrierbarer Zufallsvariablen und φ : R → R+ eine messbare Funktion mit lim φ(t) t = ∞. Gilt t→∞
K := sup E(φ(|Xλ |)) < ∞, λ∈Λ
so ist (Xλ )λ∈Λ gleichgradig integrierbar.
312
11 Zeitdiskrete Martingale
Beweis. Sei ε > 0. Wir setzen M := K ε . Nach Voraussetzung gibt es ein c0 , so φ(t) dass t ≥ M f¨ ur alle t ≥ c0 . Damit erhalten wir f¨ ur alle c ≥ c0 und λ ∈ Λ: 1 1 K φ(|Xλ |)I{|Xλ |≥c} ≤ E φ(|Xλ |) ≤ = ε. E(|Xλ |I{|Xλ |≥c} ) ≤ E M M M Beispiel 11.21. Ist p > 1 und (Xλ )λ∈Λ in Lp gleichm¨aßig beschr¨ankt, d.h. sup E(|Xλ |p ) < ∞, λ∈Λ
so ist (Xλ )λ∈Λ gleichgradig integrierbar. Dies folgt aus dem obigen Kriterium ♦ mit der Funktion φ(t) := |t|p , p > 1. Gleichgradige Integrierbarkeit und L1 -Konvergenz Unser n¨ achstes Ziel ist es, Konvergenz in L1 mit Hilfe der gleichgradigen Integrierbarkeit zu charakterisieren. Zur Vorbereitung zeigen wir das folgende Lemma: Lemma 11.22. Es seien K1 , . . . , Kn Familien gleichgradig integrierbarer Zufallsvariablen. Dann ist auch deren Vereinigung K1 ∪ . . . ∪ Kn gleichgradig integrierbar. Insbesondere ist jede endliche Menge {X1 , . . . , Xn } integrierbarer Zufallsvariablen gleichgradig integrierbar. Beweis. Da wir eine endliche Vereinigung betrachten, ist die erste Aussage offensichtlich. Die zweite folgt aus der ersten mit Ki := {Xi }, i = 1, . . . , n und Beispiel 11.14. Alternativ ist |X1 | + . . . + |Xn | eine integrierbare Majorante. Wir wissen bereits, dass L1 -Konvergenz auch Konvergenz nach Wahrscheinlichkeit impliziert, s. Abbildung 7.1. Die Umkehrung gilt unter der zus¨atzlichen Voraussetzung gleichgradiger Integrierbarkeit. Satz 11.23. F¨ ur eine Zufallsvariable X∞ und eine Folge (Xn ) von integrierbaren Zufallsvariablen sind folgende Aussage ¨ aquivalent: P
(i) Die Folge (Xn ) ist gleichgradig integrierbar und Xn −→ X∞ . L1
(ii) X∞ ∈ L1 und Xn −→ X∞ . Beweis. (i) ⇒ (ii): Es sei K := {Xn : n ∈ N}. Aus der Konvergenz nach Wahrscheinlichkeit folgt mit Satz 4.16, dass es eine Teilfolge (Xnk ) gibt, so dass Xnk → X∞ fast sicher. Daher gilt mit dem Lemma von Fatou: E(|X∞ |) ≤ lim inf E(|Xnk |) < ∞,
11.2 Gleichgradige Integrierbarkeit
313
da (Xn ) nach Voraussetzung gleichgradig integrierbar und damit in L1 gleichm¨aßig beschr¨ ankt ist. Also ist X∞ ∈ L1 . Sei ε > 0. Da K ∪ {X∞ } gleichgradig integrierbar ist, gibt es nach Satz 11.18 ein δ > 0, so dass ε E[(|Xn | + |X∞ |)I{|Xn −X∞ |> 2ε } ] < , 2 falls ε P(|Xn − X∞ | > ) < δ. 2 P
Dies k¨ onnen wir aber wegen Xn −→ X∞ f¨ ur alle n ≥ n0 (δ) erreichen. Damit folgt f¨ ur alle n ≥ n0 (δ): ε E(|Xn − X∞ |) ≤ + E(|Xn − X∞ |I{|Xn −X∞ |> 2ε } ) 2 ε ≤ + E(|Xn | + |X∞ |)I{|Xn −X∞ |> 2ε } ) 2 ε ε < + = ε, 2 2 L1
und damit Xn −→ X∞ , wie behauptet. (ii) ⇒ (i): Aus L1 -Konvergenz folgt stochastische Konvergenz, es bleibt lediglich die gleichgradige Integrierbarkeit zu beweisen. Dazu verwenden wir Satz 11.18. Da aus der L1 -Konvergenz auch die gleichm¨aßige Beschr¨anktheit in L1 folgt, bleibt zu zeigen, dass es zu jedem ε > 0 ein δ > 0 gibt, so dass gilt: (11.6) A ∈ F, P(A) < δ ⇒ sup E(|Xn |IA ) < ε. n∈N
Sei ε > 0 gegeben. Wenden wir obiges Kriterium auf die gleichgradig integrierbare Zufallsvariable X∞ an, so finden wir ein δ > 0, so dass aus P(A) < δ ε E(|X∞ |IA ) < 2 folgt. W¨ ahlen wir n0 so, dass E(|Xn − X∞ |) < wir f¨ ur jedes A ∈ F mit P(A) < δ und n ≥ n0 :
ε 2
f¨ ur alle n ≥ n0 , so erhalten
E(|Xn |IA ) ≤ E(|X∞ |IA ) + E(|Xn − X∞ |IA ) ε < + E(|Xn − X∞ |) 2 ε ε ≤ + = ε. 2 2 Nach Lemma 11.22 und Satz 11.18 k¨ onnen wir gegebenenfalls durch Verkleinerung von δ auch sup E(|Xn |IA ) < ε erreichen. Damit folgt (11.6). n
Der gerade bewiesene Satz hat gegen¨ uber dem Satz von der dominierten Konvergenz zwei wesentliche Vorteile: Zum einen ben¨otigen wir f¨ ur die Konvergenzaussage statt einer integrierbaren Majorante nur noch eine gleichgradig integrierbare Folge. Zum anderen enth¨ alt das Resultat eine Charakterisierung, also eine notwendige und hinreichende Bedingung f¨ ur L1 -Konvergenz.
314
11 Zeitdiskrete Martingale
Korollar 11.24. Sei (Xn ) eine Folge von Zufallsvariablen mit Xn → X∞ fast sicher. Ist (Xnp ) f¨ ur ein p > 1 gleichgradig integrierbar, so folgt Lp
Xn −→ X∞ . L1
p Beweis. Aus Satz 11.23 folgt, dass Xnp −→ X∞ , also Xp −→ X∞ p . Die Behauptung folgt nun aus Satz 2.33.
11.3 Stoppzeiten und Stopps¨ atze Stoppzeiten bez¨ uglich einer Filtration Wir haben Stoppzeiten bereits im Zusammenhang mit Markov-Ketten eingef¨ uhrt. Wir erinnern daran durch die nachfolgende geringf¨ ugig allgemeinere ucksichtigt. Definition, die eine gegebene Filtration F = (Fn ) mit ber¨ Definition 11.25 (Stoppzeit bzgl. F). Eine Abbildung τ : Ω → N0 ∪ {+∞} heißt Stoppzeit (bez¨ uglich F), falls {τ = n} ∈ Fn f¨ ur jedes n ∈ N0 oder ¨ aquivalent ur jedes n ∈ N0 . {τ ≤ n} ∈ Fn f¨ ¨ Die Aquivalenz der beiden Bedingungen ergibt sich aus {τ = n} = {τ ≤ n} \ {τ ≤ n − 1} f¨ ur jedes n ∈ N bzw. {τ ≤ n} =
n
{τ = k} f¨ ur jedes n ∈ N0 .
k=1
Die intuitive Vorstellung einer Stoppzeit ist eine Strategie, ein Spiel zu einem bestimmten vom Zufall abh¨ angenden Zeitpunkt zu beenden. Die Bedingung {τ = n} ∈ Fn stellt sicher, dass dazu kein Wissen aus der Zukunft verwendet wird, sondern die Entscheidung nur auf Grund der bis zum Zeitpunkt n bekannten Information Fn getroffen wird.
11.3 Stoppzeiten und Stopps¨ atze
315
¨ Beispiel 11.26 (Eintrittszeiten). Ahnlich wie bei den Markov-Ketten sind die wichtigsten Stoppzeiten diejenigen, die den Zeitpunkt des ersten Eintritts in eine Menge beschreiben. In unserem Kontext k¨onnen wir sie folgendermaßen beschreiben. Sei (Xn ) ein adaptierter Prozess, und A ∈ S. Dann definieren wir τA : Ω → N0 ∪ {∞}, ω → inf{n ∈ N0 |Xn (ω) ∈ A}. Sollte (Xn ) niemals A erreichen, so gilt wie u ¨blich inf ∅ := ∞. Wegen {τA ≤ n} =
n
{Xk ∈ A} ∈ Fn ,
n ∈ N0 ,
k=0
♦
ist τA eine Stoppzeit. Der gestoppte Prozess
Ist τ eine endliche Stoppzeit, d.h. τ < ∞ fast sicher, und X ein adaptierter Prozess, so k¨ onnen wir die Abbildung Xτ (ω) (ω) f¨ ur τ (ω) < ∞, Xτ : Ω → R, ω → 0 f¨ ur τ (ω) = ∞, definieren. Diese ist nicht nur F-messbar, sondern sogar messbar bez¨ uglich einer kleineren σ-Algebra: Definition 11.27 (Die σ-Algebra Fτ ). Ist τ eine Stoppzeit, so ist Fτ := {A ∈ F : A ∩ {τ ≤ n} ∈ Fn f¨ ur alle n ∈ N0 } eine σ-Algebra, die wir als σ-Algebra der τ -Vergangenheit bezeichnen. Die Forderungen an eine σ-Algebra u ¨bertragen sich unmittelbar von F auf Fτ . Satz 11.28. Ist τ eine endliche Stoppzeit und X = (Xn ) ein adaptierter Prozess, so ist Xτ Fτ -messbar. Beweis. F¨ ur jedes B ∈ B haben wir {Xτ ∈ B} ∈ Fτ zu zeigen. Nach Definition von Fτ ist dies gleichbedeutend mit {Xτ ∈ B} ∩ {τ ≤ n} ∈ Fn
f¨ ur alle n ∈ N0 .
Die u ur diese und viele ¨ ahnliche Aussagen u ¨bliche Strategie f¨ ¨ber Stoppzeiten besteht darin, die Aussage auf die verschiedenen Werte von τ aufzuspalten:
316
11 Zeitdiskrete Martingale
{Xτ ∈ B} ∩ {τ ≤ n} =
n
({Xk ∈ B} ∩ {τ = k}) ∈ Fn .
k=0
Ist τ eine Stoppzeit und X ein adaptierter Prozess, so wollen wir einen Prozess definieren, der sich bis zum Zeitpunkt τ wie X verh¨alt und dann in Xτ verharrt. Definition 11.29 (gestoppter Prozess). Sei (Xn ) ein adaptierter Prozess und τ eine Stoppzeit. Der gestoppte Prozess X τ = (Xnτ )n∈N0 ist definiert durch Xτ f¨ ur n ≥ τ, τ Xn := Xτ ∧n = ur n < τ. Xn f¨
Xn
1
2
3
nt
an
Abbildung 11.1. Pfad des gestoppten Prozesses X τ
Ein typischer Pfad eines gestoppten Prozesses ist in Abbildung 11.1 darur einen adaptierten Prozess X Fτ ∧n gestellt. Nach Satz 11.28 ist Xτ ∧n f¨ messbar. Nach Definition ist Fτ ∧n ⊂ Fn , daher ist mit X auch X τ adaptiert. Der Stoppsatz Wir haben im letzten Abschnitt gezeigt, dass es nicht m¨oglich ist, durch geschickte Wahl des Einsatzes aus einem fairen Spiel ein unfaires zu machen.
11.3 Stoppzeiten und Stopps¨ atze
317
Genauso erwarten wir, dass dies nicht durch geschickte Wahl einer Stoppzeit m¨ oglich ist. Das nachfolgende Theorem, als (Doobs) Optional Stopping Theorem bekannt, zeigt, dass diese Intuition richtig ist. Theorem 11.30 (Optional Stopping Theorem, Doob). Sei X = (Xn ) ein adaptierter Prozess und τ eine Stoppzeit. Dann gilt: (i) Ist (Xn ) ein Sub- bzw. Super- bzw. Martingal, so auch der gestoppte Prozess (X τ ). (ii) Ist M ein Martingal, so folgt insbesondere E(Mτ ∧n ) = E(M0 )
f¨ ur alle n ∈ N0 .
(11.7)
Ist τ beschr¨ ankt oder (Mτ ∧n ) gleichgradig integrierbar und τ fast sicher endlich, so folgt sogar (11.8) E(Mτ ) = E(M0 ). (iii) Die Aussagen (11.7) und (11.8) gelten entsprechend f¨ ur Submartingale mit ≥“ und f¨ ur Supermartingale mit ≤“. ” ” Beweis. (i) Wir definieren den Prozess (Hn )n∈N durch Hn := I{τ ≥n} = 1 − I{τ ≤n−1} ,
n ∈ N,
und bemerken, dass (Hn )n∈N previsibel ist, da τ eine Stoppzeit ist. Außerdem ist 0 ≤ H ≤ 1, H also nicht-negativ und beschr¨ankt, also ein Spielsystem f¨ ur X. Nach Satz 11.12 ist H.X wieder ein (Sub-/Super-) Martingal. Explizit erhalten wir: (H.X)n = X0 +
n
Hk (Xk − Xk−1 ) = X0 +
k=1
n
I{τ ≥k} (Xk − Xk−1 )
k=1
= Xτ ∧n = Xnτ . Mit anderen Worten, es gilt X τ = H.X, womit die erste Behauptung bewiesen ist. (ii) Ist M ein Martingal, so haben wir gerade bewiesen, dass auch M τ ein Martingal ist, und es folgt E(Mτ ∧n ) = E(Mτ ∧0 ) = E(M0 )
f¨ ur alle n ∈ N0 .
Ist τ beschr¨ ankt oder τ < ∞ fast sicher, folgt τ ∧ n → τ fast sicher f¨ ur n → ∞, und daher auch Mτ ∧n −→ Mτ
fast sicher.
Ist τ durch N ∈ N beschr¨ ankt, τ ≤ N fast sicher, so ist
max |Mk | eine
k=0,...,N
integrierbare Majorante von (Mτ ∧n ), und (11.8) folgt aus dem Satz von der dominierten Konvergenz. Ist (Mτ ∧n ) gleichgradig integrierbar, so L1
folgt aus Satz 11.23, dass sogar Mτ ∧n −→ Mτ gilt, also ebenfalls (11.8).
318
11 Zeitdiskrete Martingale
(iii) Die Aussagen f¨ ur Sub- und Supermartingale folgen v¨ollig analog. Der Beweis des Stoppsatzes hat noch einmal deutlich gemacht, weshalb die Verallgemeinerung 11.23 des Satzes von der dominierten Konvergenz so n¨ utzlich ist. F¨ ur beschr¨ ankte Stoppzeiten kommen wir mit dem Satz von der dominierten Konvergenz aus, dies ist in Beispielen jedoch selten. Gleichgradig integrierbare Martingale treten hingegen oft auf, und Satz 11.23 hat uns erm¨ oglicht, den Stoppsatz f¨ ur diesen Fall zu beweisen. Das Ruinproblem Der Stoppsatz hat viele n¨ utzliche Anwendungen, eine davon wollen wir an dieser Stelle ausf¨ uhrlich besprechen. Wir betrachten einen Spezialfall der Irrfahrt auf Z aus Beispiel 11.7. Wir bezeichnen wieder mit Yi auf {±1} identisch verteilte, unabh¨ angige Zufallsvariablen mit P(Yi = +1) = p und P(Yi = −1) = 1 − p, S0 := 0 und Sn :=
n
Yi ,
n ∈ N.
k=1
F¨ ur a, b ∈ Z mit a < 0 < b definieren wir die Stoppzeit τ := inf{n ≥ 0 : Sn ∈ / ]a, b[ }. Die Interpretation dieser Situation ist die folgende: Wir stellen uns einen Spieler mit dem Startkapital −a vor, der gegen eine Bank mit dem Startkapital b spielt. Sn beschreibt die Bilanz, also den Gewinn oder Verlust des Spielers nach n Spielrunden. Zum Zeitpunkt τ ist das Spiel zu Ende, da entweder der Spieler, Sτ = a, oder die Bank, Sτ = b, ruiniert ist. Wir berechnen nun die Ruinwahrscheinlichkeit des Spielers berechnen, also P(Sτ = a). Wir wollen den Stoppsatz 11.30 anwenden. Da τ nicht beschr¨ankt ist, besteht der erste Schritt darin, τ < ∞ fast sicher nachzuweisen. Das Spiel ist sicher beendet, wenn der Spieler (−a + b) mal hintereinander gewinnt, was mit Wahrscheinlichkeit p0 := p−a+b passiert. Bezeichnen wir das Ereignis, dass dies im Zeitintervall [k(−a + b), (k + 1)(−a + b) − 1] passiert, mit Ak , Ak := {Yi = +1 f¨ ur alle i ∈ [k(−a + b), (k + 1)(−a + b) − 1]},
k ∈ N,
so ist die Folge (Ak ) unabh¨ angig, und τ > n(−a + b) impliziert, dass keines ur alle n ∈ N: der Ereignisse Ak , k ≤ n, eingetreten ist. Daher gilt f¨ n c Ak = lim (1 − p0 )n = 0, P(τ = ∞) ≤ lim P(τ > n(−a + b)) = lim P n→∞
also P(τ < ∞) = 1.
n→∞
k=1
n→∞
11.3 Stoppzeiten und Stopps¨ atze
319
1 2,
so ist
Faires Spiel Als n¨ achstes ben¨ otigen wir ein geeignetes Martingal. Ist p = M := (Sn ) selbst ein Martingal. Da |Mτ ∧n | ≤ (−a) ∨ b, ist M τ beschr¨ ankt und somit gleichgradig integrierbar. Daher folgt aus Theorem 11.30 0 = E(M0 ) = E(Mτ ) = aP(Sτ = a) + b(1 − P(Sτ = a)). Daraus erhalten wir die Ruinwahrscheinlichkeit P(Sτ = a) =
b , b−a
das ist gerade der Anteil der Startkapitals der Bank b am gesamten Startkapital b − a. Unfaires Spiel Ist p = 12 , so ist nach Beispiel 11.8, vgl. (11.3), Mn :=
1−p p
Sn
n ∈ N0 ,
,
ankt, also gleichgradig integrierbar, ein Martingal. Mit S τ ist auch M τ beschr¨ und es folgt wiederum aus Theorem 11.30 1= =
1−p p 1−p p
so dass wir f¨ ur p =
1 2
0 = E(M0 ) = E(Mτ )
a P(Sτ = a) +
1−p p
b (1 − P(Sτ = a)),
erhalten: b p 1 − 1−p P(Sτ = a) = b−a . p 1 − 1−p
ur den Spieler unfair, so ist der Nenner kleiner als Ist p < 12 , also das Spiel f¨ 1, so dass wir die Absch¨ atzung P(Sτ = a) ≥ 1 −
p 1−p
b
320
11 Zeitdiskrete Martingale
erhalten. F¨ ur p < 12 konvergiert dieser Ausdruck f¨ ur b → ∞ gegen 1, also gegen den sicheren Ruin des Spielers. Bemerkenswert daran sind zwei Dinge. Zum einen ist diese Konvergenz sehr schnell, z.B. ist f¨ ur die Wahrscheinbereits b = 66 ausreichend, um lichkeit rot“ beim Roulette von p = 16 38 ” P(Sτ = a) ≥ 0.999 zu erreichen. Zum anderen h¨angt obige Absch¨atzung nicht vom Startkapital a ab, d.h. der Spieler kann sich nicht durch ein hohes Ge” genkapital“ absichern.
11.4 Konvergenz von Martingalen Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum, F eine Filtration und X = (Xn ) ein (reeller) stochastischer Prozess. In diesem Abschnitt untersuchen wir die Frage, wann der Grenzwert limn→∞ Xn existiert. Eine der zentralen Eigenschaften von Martingalen ist, dass sie unter schwachen Voraussetzungen bereits konvergieren. Interessant ist folgende heuristische Analogie zu Folgen reeller Zahlen. Eine monoton wachsende Folge, die nach oben beschr¨ankt ist, konvergiert. Ein Submartingal ist im Mittel monoton wachsend. Genau wie bei den Folgen gen¨ ugt es, dass das Submartingal nach oben beschr¨ankt ist, damit es konvergiert. ¨ Uberquerungen Die Grundidee f¨ ur den Beweis der Martingalkonvergenz ist die folgende: Ist (fn ) eine Funktionenfolge und konvergiert limn→∞ fn (x) weder bestimmt noch unbestimmt, so gilt lim inf fn (x) < lim sup fn (x). Folglich muss fn (x) u ¨ber einem Intervall [a, b] mit lim inf fn (x) < a < b < lim sup fn (x) unendlich oft hin und her oszillieren. F¨ ur einen Prozess X untersuchen wir daher die Anzahl ¨ der Uberquerungen eines Intervalls [a, b]. Ist X an F adaptiert, so definieren wir durch S0 := 0 und T0 := 0 sowie Sk (ω) := inf{n ≥ Tk−1 (ω) : Xn (ω) ≤ a}, k ∈ N, Tk (ω) := inf{n ≥ Sk (ω) : Xn (ω) ≥ b} k ∈ N, zwei Stoppzeiten. Die Definition ist viel schwieriger aufzuschreiben als zu ¨ zeichnen, siehe Abbildung 11.2. Das Ende der (k − 1)-ten absteigenden Uber” querung“ des Intervalls [a, b] fassen wir als Beginn der k-ten aufsteigenden ¨ Uberquerung auf (auch wenn der Prozess noch eine Weile unterhalb von a verweilen kann) und bezeichnen ihn mit Sk . Im Zeitpunkt Tk endet die k-te ¨ (aufsteigende) Uberquerung des Intervalls [a, b]. Entsprechend definieren wir ¨ die Anzahl der Uberquerungen bis zum Zeitpunkt N : U[a,b] (N )(ω) := sup{k ∈ N : Tk (ω) ≤ N },
N ∈ N0 .
Der Buchstabe U“ ist vom englischen upcrossings“ abgeleitet. ” ”
11.4 Konvergenz von Martingalen
321
T1
Xn
T2 Ab
Aa S1
S2 An
Abbildung 11.2. Zur Definition von Sk , Tk , U[a,b] (N ) und Hn
Neue Submartingale ¨ Unser n¨ achstes Ziel besteht darin, die Anzahl der Uberquerungen abzusch¨atzen. Dazu ben¨ otigen wir folgende Aussage u ¨ber das Transformationsverhalten von Submartingalen unter Abbildungen: Satz 11.31. Sei X = (Xn ) ein Submartingal und g : R → R eine konvexe ur jedes n ∈ N0 integrierbar ist. Ist g monoton Funktion, so dass g(Xn ) f¨ wachsend oder (Xn ) ein Martingal, so ist (g(Xn )) ein Submartingal. Beweis. Nach der bedingten Jensenschen Ungleichung gilt E(g(Xn+1 )|Fn ) ≥ g(E(Xn+1 |Fn )) f¨ ur alle n ∈ N0 . Ist g monoton wachsend, so folgt, da X ein Submartingal ist: E(g(Xn+1 )|Fn ) ≥ g(E(Xn+1 |Fn )) ≥ g(Xn ). Ist X ein Martingal, so folgt: E(g(Xn+1 )|Fn ) ≥ g(E(Xn+1 |Fn )) = g(Xn ). Beispiel 11.32. Aus Satz 11.31 ergeben sich folgende Beispiele: (i) Ist X ein Martingal, so ist (|Xn |p ) f¨ ur p ≥ 1, also insbesondere (|Xn |), ein Submartingal. Man w¨ ahlt die konvexe Funktion g(x) := |x|p , x ∈ R.
322
11 Zeitdiskrete Martingale
(ii) Ist X ein nicht-negatives Submartigal, so ist ebenfalls (|Xn |p ), p ≥ 1 ein Submartingal. Man w¨ ahlt die konvexe, monoton wachsende Funktion xp f¨ ur x ≥ 0, g : R → R, x → 0 f¨ ur x < 0. (iii) Ist X ein Submartingal und a ∈ R, so ist (Xn −a)+ ein Submartingal. Hier ist die konvexe, monoton wachsende Funktion g(x) = 0 ∨ (x − a), x ∈ R. Dieses Beispiel werden wir f¨ ur den Beweis der Absch¨atzung f¨ ur die Anzahl ¨ der Uberquerungen verwenden. ♦ ¨ Die Absch¨ atzung der Uberquerungen Das n¨ achste Lemma enth¨ alt eine Absch¨ atzung f¨ ur E[U[a,b] (N )], der erwarteten ¨ Anzahl Uberquerungen f¨ ur ein Submartingal. Diese wird die zentrale Zutat f¨ ur den Beweis des Konvergenzsatzes 11.34 sein. Lemma 11.33. Sei (Xn ) ein Submartingal und U[a,b] (N ), a < b, die Anzahl ¨ Uberquerungen von (Xn ) bis zum Zeitpunkt N , N ∈ N0 . Dann gilt: E[U[a,b] (N )] ≤
E((XN − a)+ ) . b−a
Beweis. Nach Beispiel 11.32 ist mit (Xn ) auch Yn := (Xn − a)+ ein Submar¨ tingal, und die Uberquerungen des Intervalls [a, b] durch (Xn ) entsprechen ¨ genau den Uberquerungen des Intervalls [0, b − a] von (Yn ). Daher k¨onnen wir ohne Einschr¨ ankung a = 0 und X ≥ 0 annehmen, so dass wir nun zu zeigen haben: (11.9) bE[U[0,b] (N )] ≤ E(XN ). Dazu definieren wir den Prozess Hn :=
∞
I{Sk
n ∈ N0 .
k=1
Da Sk und Tk Stoppzeiten sind, ist Hn previsibel. Außerdem ist H ≥ 0 und beschr¨ ankt, d.h. H ist ein Spielsystem. Das Spielsystem H kann man sich ¨ folgendermaßen vorstellen: W¨ ahrend einer aufsteigenden Uberquerung spielt man mit einem Einsatz von 1, zu allen anderen Zeitpunkten mit einem Einsatz von 0. Die Zeitpunkte, in denen H = 1 ist, sind in Abbildung 11.2 schwarz ausgef¨ ullt. Da auch (1 − H) ≥ 0 ein Spielsystem ist, folgt aus Satz 11.12, dass (1 − H).X wieder ein Submartingal ist. Daher folgt E[((1 − H).X)N ] ≥ E[((1 − H).X)0 ] = E(X0 ) ≥ 0,
N ∈ N0 .
11.4 Konvergenz von Martingalen
323
Weiter ergibt sich aus der Definition von H: (H.X)N = X0 +
N
Hn (Xn − Xn−1 )
n=1 U[0,b] (N )
= X0 +
(XTk − XSk )
k=1
≥ X0 + U[0,b] (N ) · b. Anschaulich ist die Ungleichung (H.X)N ≥ X0 + bU[0,b] (N ) klar: H.X w¨achst ¨ f¨ ur jede Uberquerung mindestens um b, da wir in dieser Zeit mit Einsatz 1 spielen. Durch Bilden des Erwartungswertes folgt: bE[U[0,b] (N )] ≤ E[(H.X)N ] − E(X0 ) ≤ E[(1.X)N ] − E(X0 ) = E(XN ),
also die Ungleichung (11.9), die zu zeigen war. Der Konvergenzsatz f¨ ur L1
Die Konvergenzs¨atze f¨ ur Martingale existieren jeweils in einer L1 -Version und p einer L -Version, p > 1. Wir beginnen mit der L1 -Variante: Theorem 11.34 (Martingal-Konvergenz in L1 ). Sei X = (Xn ) ein Submartingal mit (11.10) sup E(Xn+ ) < ∞. n∈N0
Dann existiert X∞ := lim Xn fast sicher und es ist X∞ ∈ L1 . Ist (Xn ) n→∞
L1
zus¨ atzlich gleichgradig integrierbar, so folgt sogar Xn −→ X∞ . Beweis. Zun¨ achst bemerken wir, dass Bedingung (11.10) ¨aquivalent ist zur ur alle gleichm¨ aßigen Beschr¨ anktheit in L1 : Da X ein Submartingal ist, folgt f¨ n ∈ N0 : E(X0 ) ≤ E(Xn ) = E(Xn+ ) − E(Xn− ), und damit E(|Xn |) = E(Xn+ ) + E(Xn− ) ≤ E(X0 ) + 2E(Xn+ ). Aus der Voraussetzung folgt also supn∈N0 E(|Xn |) < ∞. F¨ ur den Nachweis der Konvergenz betrachten wir die Menge der Punkte, die nicht (eigentlich oder uneigentlich) konvergieren und schreiben diese als abz¨ahlbare Vereinigung: C := {ω ∈ Ω : Xn (ω) konvergiert nicht in [−∞, +∞]} = {ω ∈ Ω : lim inf Xn (ω) < lim sup Xn (ω)} {ω ∈ Ω : lim inf Xn (ω) < a < b < lim sup Xn (ω)} = a,b∈Q,a
=:
a,b∈Q,a
Cab .
324
11 Zeitdiskrete Martingale
¨ Wir wollen P(Cab ) = 0 zeigen. Die Zahl der Uberquerungen U[a,b] (N ) steigt monoton mit wachsendem N , also gilt U[a,b] (N ) ↑ sup U[a,b] (N ) =: U[a,b] . N ∈N
F¨ ur jedes ω ∈ Cab gilt U[a,b] (ω) = ∞, da es unendliche viele i mit Xi (ω) < a und unendliche viele j mit Xj (ω) > b geben muss. Daher gilt Cab ⊂ {U[a,b] = ∞}. Mit dem Satz von der monotonen Konvergenz und Lemma 11.33 erhalten wir: E(U[a,b] ) = sup E(U[a,b] (N )) N ∈N
≤ (b − a)−1 sup E((XN − a)+ ) N ∈N
−1
≤ (b − a)
sup E(|XN |) + |a|) < ∞,
N ∈N
da nach Voraussetzung (Xn ) in L1 beschr¨ ankt ist. Damit gilt insbesondere P(U[a,b] = ∞) = 0, und daher P(C) ≤
P(Cab ) = 0.
a,b∈Q,a
Die nicht-konvergenten Punkte bilden eine Nullmenge, also konvergiert (Xn ) P-fast sicher gegen eine numerische Zufallsvariable X∞ . Nach dem Lemma von Fatou erhalten wir: E(|X∞ |) ≤ lim inf E(|Xn |) ≤ sup E(|Xn |) < ∞, n∈N
L1
also X∞ ∈ L1 . Ist (Xn ) gleichgradig integrierbar, so folgt Xn −→ X∞ nach Satz 11.23. Ist F = (Fn )n∈N0 eine Filtration, so setzen wir F∞ := σ Fn . n∈N0
Existiert der Limes limn→∞ Xn =: X∞ fast sicher und ist (Xn ) adaptiert, so ist das Ereignis der konvergenten Punkte {lim sup Xn = lim inf Xn } F∞ messbar, daher kann auch X∞ F∞ -messbar gew¨ahlt werden. Ist X ein Supermartingal, so ist −X ein Submartingal, und aus der Konurlich auch die Konvergenz von (Xn ): vergenz von (−Xn ) folgt nat¨
11.4 Konvergenz von Martingalen
325
Korollar 11.35. Sei (Xn ) ein (Super-)Martingal mit sup E(Xn− ) < ∞.
(11.11)
n∈N0
Dann existiert X∞ := limn→∞ Xn fast sicher, und es ist X∞ ∈ L1 . Insbesondere konvergiert jedes nicht-negative (Super-)Martingal fast sicher gegen einen endlichen Limes. Beweis. Bedingung (11.11) ist ¨ aquivalent zur gleichm¨aßigen Beschr¨anktheit ur alle n ∈ N0 : in L1 : Da X ein Supermartingal ist, folgt f¨ E(X0 ) ≥ E(Xn ) = E(Xn+ ) − E(Xn− ), und damit E(|Xn |) = E(Xn+ ) + E(Xn− ) ≤ E(X0 ) + 2E(Xn− ). Die Behauptung folgt nun aus dem Konvergenzsatz 11.34.
Charakterisierung gleichgradig integrierbarer Martingale Der Konvergenzsatz hat eine interessante Konsequenz f¨ ur gleichgradig integrierbare Martingale. Wir wissen bereits nach Satz 11.15, dass eine sukzessi” ve Prognose“ gleichgradig integrierbar ist. Das folgende Resultat besagt, dass auch die Umkehrung gilt. Jedes gleichgradig integrierbare Martingal (Xn ) ist ur eine F∞ -messbare Zufallsvariable Y . von der Gestalt E(Y |Fn ) f¨ Satz 11.36. Sei (Xn ) ein Martingal. Dann sind die folgenden Aussagen ¨ aquivalent: (i) (Xn ) ist gleichgradig integrierbar. (ii) Es gibt eine F∞ -messbare Zufallsvariable X∞ ∈ L1 , so dass Xn = ur alle n ∈ N0 gilt. E(X∞ |Fn ) f¨ (iii) (Xn ) konvergiert in L1 gegen eine F∞ -messbare Zufallsvariable. Beweis. (i) ⇒ (iii): Da (Xn ) gleichgradig integrierbar ist, folgt die gleichm¨aßige Beschr¨ anktheit in L1 und somit nach dem Konvergenzsatz 11.34 die Konvergenz von (Xn ) in L1 . (iii) ⇒ (ii): Wir bezeichnen den Grenzwert mit X∞ := limn→∞ Xn . Nach ussen Voraussetzung gilt die Konvergenz in L1 , also ist auch X∞ ∈ L1 . Wir m¨ ur alle n ∈ N0 nachweisen. Sei A ∈ Fn . Aus der noch Xn = E(X∞ |Fn ) f¨ Martingal-Eigenschaft von (Xn ) folgt E(Xr IA ) = E(Xn IA ) f¨ ur alle r ≥ n. Damit gilt f¨ ur r ≥ n:
326
11 Zeitdiskrete Martingale
|E(Xn IA ) − E(X∞ IA )| = |E(Xr IA ) − E(X∞ IA )| ≤ E(|(Xr − X∞ )IA |) ≤ E(|(Xr − X∞ )|) −→ 0, r→∞
da Xr → X∞ in L1 . Damit haben wir E(Xn IA ) = E(X∞ IA ) f¨ ur alle A ∈ Fn , und daher Xn = E(X∞ |Fn ) nachgewiesen. (ii) ⇒ (i): Diese Implikation haben wir schon in Satz 11.15 gezeigt.
Der Grenzwert X∞ eines gleichgradig integrierbaren Martingals (Xn )n∈N0 wird auch als letztes Element des Martingals bezeichnet. Diese Bezeichnung wird durch das folgende Korollar gerechtfertigt. Korollar 11.37. Es sei (Xn ) ein gleichgradig integrierbares Martingal und X∞ = limn→∞ Xn . Dann ist auch (Xn )n∈N¯ 0 ein Martingal und Xn = E(X∞ |Fn ), n ∈ N0 . Beweis. Wir haben bereits darauf hingewiesen, dass X∞ F∞ -messbar gew¨ahlt werden kann. Die Aussage ist dann nur eine Umformulierung von (ii) aus Satz 11.36. Ungleichungen f¨ ur Submartingale Unser n¨ achstes Ziel ist es, ein Konvergenz-Resultat f¨ ur Martingale zu zeiankt sind. Das Konvergenz-Resultat f¨ ur in gen, die in Lp mit p > 1 beschr¨ ankte Martingale ist ein Korollar aus einer Ungleichung f¨ ur SubLp beschr¨ martingale und dem Konvergenz-Resultat im L1 -Fall. Submartingale sind f¨ ur Absch¨ atzungen auf Grund ihres Transformationsverhaltens, siehe Satz 11.31, besonders geeignet. Als erstes zeigen wir eine so genannte MaximalUngleichung. Das Wort maximal“ bezieht sich dabei auf den betrachteten ” Prozess: Definition 11.38 (Supremumprozess). Ist (Xn ) ein stochastischer Prozess, so heißt Xn∗ := sup |Xi |, n ∈ N0 , 0≤i≤n
der Supremumprozess von (Xn ). Weiter definieren wir die Zufallsvariable X ∗ := sup |Xi |. i∈N0
Das n¨ achste Resultat ist als Doobs Maximal-Ungleichung bekannt. Die zeitstetige Version werden wir in Abschnitt 13.4 beweisen.
11.4 Konvergenz von Martingalen
327
Theorem 11.39 (Doobs Maximal-Ungleichung in diskreter Zeit). Sei ur jedes n ∈ N0 : (Xn ) ein nicht-negatives Submartingal und λ > 0. Dann gilt f¨ λP(Xn∗ ≥ λ) ≤ E(Xn I{Xn∗ ≥λ} ) ≤ E(Xn ). Insbesondere folgt f¨ ur jedes p ≥ 1: λp P(Xn∗ ≥ λ) ≤ E(Xnp ). Beweis. Wir setzen A := {Xn∗ ≥ λ}. Definieren wir induktiv n Mengen A0 := {X0 ≥ λ}, Ak := {Xk ≥ λ} \
k−1
Ai
,
k = 1, . . . , n,
i=0
so erhalten wir eine disjunkte Zerlegung von A: A =
n
Ak . Nun gilt offeni=0 λIAk . Bilden wir den Er-
sichtlich Ak ∈ Fk und nach Definition Xk IAk ≥ wartungswert und summieren u ¨ber k, erhalten wir, da (Xn ) ein Submartingal ist: λP(A) =
n
λP(Ak ) ≤
k=1
n
E(Xk IAk ) ≤
k=1
n
E(Xn IAk ) = E(Xn IA ),
k=1
also den ersten Teil der behaupteten Ungleichung. Der zweite Teil der Ungleichung ist klar, da Xn ≥ 0. Die zweite Behauptung folgt unmittelbar aus der ersten, da (Xnp ) ebenfalls ein nicht-negatives Submartingal ist. Das folgende Lemma ist eine Konsequenz aus der Ungleichung von H¨older. Wir ben¨ otigen es f¨ ur die nachfolgende Absch¨ atzung der p-Norm von (Xn∗ ). Lemma 11.40. Es seien X und Y nicht-negative Zufallsvariablen, f¨ ur die λP(X ≥ λ) ≤ E(Y I{X≥λ} ) gilt. Dann folgt f¨ ur p, q > 1 mit
1 p
+
1 q
f¨ ur alle λ ≥ 0
= 1:
Xp ≤ q Y p . Beweis. Aus der Voraussetzung folgt ∞
∞ px
0
p−1
P(X ≥ x)dx ≤
pxp−2 E(Y I{X≥x} )dx. 0
Wir berechnen zun¨ achst die linke Seite. Da der Integrand nicht-negativ ist, erhalten wir mit dem Satz von Fubini 2.24:
328
11 Zeitdiskrete Martingale
∞
⎛ ⎞ X(ω) ⎟ ⎜ pxp−1 dx⎠ dP(ω) = E(X p ). I{X≥x} (ω)dP(ω) pxp−1 dx = ⎝
0
0
Entsprechend gilt f¨ ur die rechte Seite ∞
⎛ ⎞ X(ω) ⎜ ⎟ pxp−2 dx⎠ dP(ω) Y I{X≥x} dP(ω) pxp−2 dx = Y ⎝
0
0
p E(Y X p−1 ) = qE(Y X p−1 ). = p−1 Mit der Ungleichung von H¨ older 2.26 erhalten wir also: E(X p ) ≤ qE(Y X p−1 ) ≤ q Y p X p−1 q .
(11.12)
Ist Y p = ∞, so ist nichts zu zeigen, sei also Y p < ∞. Nehmen wir an, es gelte auch Xp < ∞, so folgt mit (p − 1)q = p p−1 X = E(X p ) q1 < ∞. q p Ist E(X = 0, )p−1 ist wiederum nichts zu zeigen. Andernfalls k¨onnen wir (11.12) teilen und erhalten die Behauptung. Um uns von der Annahme durch X q ur allgemeines X die Zufallsvariablen Xp < ∞ zu befreien, betrachten wir f¨ Xn := X ∧ n, n ∈ N. Da die Voraussetzung sich von X auf Xn u ¨bertr¨agt, folgt aus dem bereits Bewiesenen X ∧ np ≤ q Y p , und die Behauptung folgt durch Anwendung des Satzes von der monotonen Konvergenz auf die Folge (Xnp ).
Satz 11.41. Sei (Xn ) ein nicht-negatives Submartingal. Dann gilt f¨ ur p > 1 und alle n ∈ N0 : p Xn p . Xn∗ p ≤ p−1 Insbesondere folgt X ∗ p ≤
p p−1
sup Xn p .
n∈N0
Beweis. F¨ ur festes n ∈ N0 setzen wir X := Xn∗ und Y := Xn . Doobs MaximalUngleichung 11.39 besagt dann gerade, dass die Voraussetzung aus Lemma 11.40 erf¨ ullt ist und wir Xp ≤ q Y p p folgern d¨ urfen. Wegen q = p−1 ist dies die Behauptung. Der Zusatz folgt jetzt durch Anwendung des Satzes von der monotonen Konvergenz auf 0 ≤ Xn∗ ↑ X ∗ .
11.5 Das Optional Sampling Theorem
329
Konvergenzsatz in Lp Nach so vielen Ungleichungen k¨ onnen wir jetzt den Konvergenzsatz f¨ ur Marankt sind. Wie zu erwarten, ist die Situatingale formulieren, die in Lp beschr¨ tion insgesamt einfacher als beim Konvergenzsatz in L1 , die Beschr¨anktheit aquivalent zur Lp -Konvergenz. in Lp ist ¨ Satz 11.42. Sei (Mn ) ein Martingal, p > 1. Ist (Mn ) in Lp gleichm¨ aßig beschr¨ ankt, d.h. sup E(|Mn |p ) < ∞, n∈N0
so gibt es eine F∞ -messbare Zufallsvariable M∞ ∈ Lp mit Mn −→ M∞ fast sicher und in Lp . Beweis. Aus der Beschr¨ anktheit der Lp -Norm folgt insbesondere die Be1 schr¨ anktheit der L -Norm und die gleichgradige Integrierbarkeit, so dass wir aus Theorem 11.34 wissen, dass es eine F∞ -messbare Zufallsvariable M∞ ∈ L1 L1
mit Mn −→ M∞ und Mn → M∞ fast sicher gibt. Nach Beispiel 11.32 ist (|Mn |) ein nicht-negatives Submartingal, so dass aus der Voraussetzung und Satz 11.41 folgt: p sup Mn p < ∞, M ∗ p ≤ p − 1 n∈N0 mit anderen Worten M ∗ ∈ Lp . Nun ist aber |Mn − M∞ | ≤ 2M ∗ , und daher |Mn − M∞ |p ≤ 2p (M ∗ )p ∈ L1 , Lp
so dass aus dem Satz von der dominierten Konvergenz Mn −→ M∞ folgt.
11.5 Das Optional Sampling Theorem Ist M = (Mn ) ein Martingal, so gilt E(Mn |Fm ) = Mm ,
m ≤ n.
Das Optional Sampling Theorem kann man als Verallgemeinerung dieser Martingal-Eigenschaft auffassen. Es besagt, dass die Aussage richtig bleibt, wenn die deterministischen Zeitpunkte m und n durch zuf¨allige Zeitpunkte, also Stoppzeiten σ und τ ersetzt werden. Wir erhalten so unter milden Voraussetzungen E(Mτ |Fσ ) = Mσ , σ ≤ τ. Man kann das Optional Sampling Theorem auch als Verallgemeinerung des Stoppsatzes 11.30 ansehen. Denn durch Bilden des Erwartungswertes auf beiden Seiten erhalten wir
330
11 Zeitdiskrete Martingale
E(Mτ ) = E(Mσ ),
σ ≤ τ,
und somit f¨ ur σ := 0 die Aussage des Stoppsatzes. Zur Vorbereitung des Beweises erinnern wir f¨ ur eine Stoppzeit τ an die σ-Algebra der τ -Vergangenheit ur alle n ∈ N0 } Fτ = {A ∈ F : A ∩ {τ ≤ n} ∈ Fn f¨ und stellen einige grundlegende Eigenschaften von Fτ in einem Satz zusammen: Satz 11.43. Seien τ, σ zwei Stoppzeiten. Dann gilt: (i) Fσ ∩ {σ ≤ τ } ⊂ Fτ . (ii) Fσ ∩ {σ ≤ τ } ⊂ Fτ ∧σ = Fτ ∩ Fσ . (iii) Ist σ ≤ τ , so ist Fσ ⊂ Fτ . Beweis. (i) Es sei A ∈ Fσ . Dann folgt A ∩ {σ ≤ τ } ∩ {τ ≤ n} =
n
A ∩ {σ ≤ k} ∩ {τ = k} ∈ Fn ,
k=0
also A ∩ {σ ≤ τ } ∈ Fτ . (ii) Wir ersetzen in (i) die Stoppzeit τ durch die Stoppzeit σ ∧ τ . Dadurch folgt der erste Teil der Aussage. Ersetzen wir in (i) das Paar (σ, τ ) durch (σ ∧ τ, σ) und durch (σ ∧ τ, τ ), erhalten wir die Inklusion Fσ∧τ ⊂ Fτ ∩ Fσ . F¨ ur die umgekehrte Inklusion sei A ∈ Fτ ∩ Fσ . Dann ist A ∩ {σ ∧ τ ≤ n} = A ∩ {σ ≤ n} ∪ A ∩ {τ ≤ n} ∈ Fn , also A ∈ Fσ∧τ . (iii) Folgt unmittelbar aus (i).
Optional Sampling f¨ ur beschr¨ ankte Stoppzeiten Genau wie beim Stoppsatz 11.30 gilt das Optional Sampling Theorem f¨ ur beschr¨ ankte Stoppzeiten und f¨ ur gleichgradig integrierbare Martingale. Wir beginnen mit dem Fall beschr¨ ankter Stoppzeiten: Satz 11.44. Es seien M = (Mn ) ein Martingal und σ ≤ τ zwei Stoppzeiten. Ist τ fast sicher beschr¨ ankt, so gilt Mτ ∈ L1 und E(Mτ |Fσ ) = Mσ . Beweis. Sei τ ≤ K < ∞ fast sicher. Nach Satz 11.28 ist Mτ Fτ -messbar. ugt, wenn wir Weiter ist |Mτ | ≤ max |Mk | und daher Mτ ∈ L1 . Es gen¨ k=0,...,K
E(MK |Fτ ) = Mτ
(11.13)
11.5 Das Optional Sampling Theorem
331
zeigen. Dann folgt mit σ ≤ τ ≤ K, Fσ ⊂ Fτ und der Projektionseigenschaft bedingter Erwartungen E(Mτ |Fσ ) = E(E(MK |Fτ )|Fσ ) = E(MK |Fσ ) = Mσ . Um (11.13) zu zeigen, gehen wir folgendermaßen vor: Wir teilen die Aussage in die m¨ oglichen Werte von τ auf, wenden die gew¨ohnliche Martingaleigenschaft an und f¨ ugen die Teile wieder zusammen. Im Einzelnen erhalten wir f¨ ur ein A ∈ Fτ , da A ∩ {τ = k} ∈ Fk : E(MK IA ) =
K
E(MK IA I{τ =k} ) =
k=0
=
K
K
E(MK IA∩{τ =k} )
k=0
E(Mk IA∩{τ =k} ) = E(Mτ IA ).
k=0
Mτ f¨ ur beliebige Stoppzeiten Bevor wir das Optional Stopping Theorem f¨ ur gleichgradig integrierbare Martingale zeigen, wollen wir noch ausdr¨ ucklich auf einen Punkt aufmerksam machen. Ist M = (Mn ) ein gleichgradig integrierbares Martingal, so existiert nach Korollar 11.37 ein M∞ , so dass (Mn )n∈N¯ 0 ein Martingal ist. Daraus folgt insbesondere, dass wir die Zufallsvariable Mτ : Ω → R,
ω → Mτ (ω) (ω)
f¨ ur beliebige und nicht nur f¨ ur fast sicher endliche Stoppzeiten definieren k¨onnen. Mτ stimmt auf I{τ =∞} mit M∞ u ¨berein, d.h. Mτ I{τ =∞} = M∞ I{τ =∞} .
(11.14)
Optional Sampling f¨ ur gleichgradig integrierbare Martingale Das n¨ achste Resultat zeigt die gew¨ unschte Verallgemeinerung der Martingaleigenschaft auf Stoppzeiten. Wir nehmen den Fall beschr¨ankter Stoppzeiten mit auf. Theorem 11.45 (Optional Sampling Theorem). Sei M = (Mn ) ein Martingal und τ, σ Stoppzeiten mit σ ≤ τ . Ist τ beschr¨ ankt oder M gleichgradig integrierbar, so sind Mτ , Mσ ∈ L1 und E(Mτ |Fσ ) = Mσ .
332
11 Zeitdiskrete Martingale
Beweis. Sei M gleichgradig integrierbar, und wie u ¨blich bezeichne M∞ = ugt es, lim Mn . Wiederum gen¨ n→∞
E(M∞ |Fτ ) = Mτ
(11.15)
zu zeigen, da dann aus der Projektionseigenschaft bedingter Erwartungen und Fσ ⊂ Fτ folgt: E(Mτ |Fσ ) = E(E(M∞ |Fτ )|Fσ ) = Mσ . Wir wissen nach Satz 11.28, dass Mτ Fτ -messbar ist. Als n¨achstes zeigen wir ur (Mn ) gilt: Xτ ∈ L1 . Wir wissen aus Satz 11.36, dass f¨ E(M∞ |Fn ) = Mn ,
n ∈ N0 .
Daraus folgt f¨ ur jedes n ∈ N0 : |Mn | = |E(M∞ |Fn )| ≤ E(|M∞ ||Fn ). Wegen {τ = k} ∈ Fk f¨ ur jedes k ∈ N0 folgt: E(|Mn |I{τ =k} ) ≤ E(|M∞ |I{τ =k} ).
(11.16)
Andererseits gilt: n k=0
|Mk |I{τ =k}
n ≥ Mk I{τ =k} = |Mτ I{τ ≤n} | ↑ |Mτ |I{τ <∞} , k=0
so dass wir mit (11.16) und dem Satz von der monotonen Konvergenz erhalten: E(|Mτ |I{τ <∞} ) = lim E(|Mτ |I{τ ≤n} ) ≤ lim n→∞
≤ lim
n→∞
n→∞
n
n
E(|Mk |I{τ =k} )
k=0
E(|M∞ |I{τ =k} ) = E(|M∞ |) < ∞.
k=0
Da offensichtlich auch E(|Mτ |I{τ =∞} ) ≤ E(|M∞ |) gilt, folgt Mτ ∈ L1 . Abschließend ist noch E(M∞ IA ) = E(Mτ IA )
f¨ ur alle A ∈ Fτ
zu zeigen. F¨ ur jedes i ∈ N0 ist i ≥ i ∧ τ , so dass wir aus Satz 11.44 erhalten: E(Mi |Fτ ∧i ) = Mτ ∧i . Mit der Projektionseigenschaft bedingter Erwartungen folgt:
11.5 Das Optional Sampling Theorem
333
E(M∞ |Fτ ∧i ) = E(E(M∞ |Fi )|Fτ ∧i ) = Mτ ∧i . Nach Eigenschaft (ii) aus Lemma 11.43 wissen wir, dass aus A ∈ Fτ auch ur jedes k ∈ N0 : A ∩ {τ ≤ i} ∈ Fτ ∧i folgt. Daher gilt f¨ E(M∞ IA∩{τ ≤k} ) = E(Mτ ∧k IA∩{τ ≤k} ) = E(Mτ IA∩{τ ≤k} ).
(11.17)
Wir k¨ onnen ohne Einschr¨ ankung M∞ ≥ 0 annehmen, da wir andernfalls + − und M∞ einzeln argumentieren k¨ onnen. Dann gilt auch Mi = f¨ u r M∞ ur alle i ∈ N0 und somit Mτ ≥ 0. Daher folgt mit dem E(M∞ |Fi ) ≥ 0 f¨ Satz von der monotonen Konvergenz aus Gleichung (11.17): E(M∞ IA∩{τ <∞} ) = E(Mτ IA∩{τ <∞} ). Auf {τ = ∞} gilt gem¨ aß (11.14) sogar M∞ IA∩{τ =∞} = Mτ IA∩{τ =∞} , so dass wir insgesamt E(M∞ IA ) = E(Mτ IA ), erhalten, was zu zeigen war.
Zur Bezeichnung Optional Sampling“ ” Wir haben bereits das Optional Stopping Theorem 11.30 im Hinblick auf einen Spieler in einem fairen Spiel interpretiert. Beschreibt (Xn ) das Verm¨ogen des Spielers bei einem fairen Spiel nach n Runden und ist τ seine StoppzeitStrategie, so besagt E(Xτ ) = E(X0 ), dass er durch seine Strategie, zu einer bestimmten Zeit aus dem Spiel auszusteigen, keinerlei Verbesserung seiner Gewinnchancen erreicht. Wir k¨ onnen den Vergleich von Xτ und X0 als Vergleich ur zwei Stoppzeiten τ, σ (mit σ ≡ 0) interpretieren und von Xτ und Xσ f¨ werden so zu der allgemeineren Fragestellung gef¨ uhrt, f¨ ur zwei Stoppzeiten σ ≤ τ die Situationen Xσ und Xτ miteinander zu vergleichen. Noch allgemeiner betrachten wir n aufsteigende Stoppzeiten, τ1 ≤ τ2 ≤ . . . ≤ τn , und die ur einen Spieler bedeutet dies, dass er das Spiel verfolgt zugeh¨ origen Xτi . F¨ und dabei zu verschiedenen Zeitpunkten τi Stichproben, englisch sample“, ” seines Gesamtgewinns Xτi betrachtet. Die Aussage des Optional Sampling Theorems verallgemeinert sich in offensichtlicher Weise auf n Stoppzeiten und besagt dann: E(Xτj |Fτi ) = Xτi , i ≤ j. Anders ausgedr¨ uckt bedeutet dies, dass die endliche Folge (Xτi , Fτi )1≤i≤n wieder ein Martingal ist. Die Aussage des Optional Sampling Theorems l¨asst sich also folgendermaßen zusammenfassen: Geht man von einem fairen Spielverlauf (Xn ) zu einer Stichprobe (sample) Xτ1 , . . . , Xτn u ¨ber, so bleibt der faire Charakter des Spiels erhalten.
334
11 Zeitdiskrete Martingale
11.6 Anwendung Regelungstechnik: Stochastische Filter Will man die Bahn eines bewegten Objekts, z.B. einer Raumsonde, verfolgen, so kann man dies in der Regel nicht direkt, sondern nur durch regelm¨aßige Messungen realisieren. Auf der einen Seite haben wir also ein Objekt, das sich nach gewissen Gesetzm¨ aßigkeiten bewegt, auf der anderen Seite Beobachtungen, die zuf¨ alligen St¨ orungen unterliegen. Voraussetzung f¨ ur die Regelung des Systems ist daher die Bestimmung bzw. Sch¨atzung der Dynamik an Hand der beobachteten Daten. Die Grundaufgabe der Theorie stochastischer Filter besteht darin, aus den gest¨ orten Beobachtungen den wahren dynamischen Verlauf herauszufiltern“. ” Dynamische Systeme und ihre Beobachtung In der stochastischen Filtertheorie geht man im Allgemeinen von folgender Situation aus: Gegeben ist ein dynamisches System Xk+1 = Ak Xk + Wk ,
k ∈ N,
wobei Xk den Zustand des Systems zum Zeitpunkt t = k in Form einer ndimensionalen reellen Zufallsvariablen bezeichnet. Die Folge (Ak ) von (n × n)Matrizen ist ebenso festgelegt wie die ersten beiden Momente des Startzustandes X1 . Jede der n-dimensionalen Zufallsvariablen Wk , k ∈ N, hat den Nullvektor als Erwartungswert und eine a priori bekannte Kovarianzmatrix KWk . Die Zufallsvariablen X1 , W1 , W2 , . . . werden als unabh¨ angig vorausgesetzt. Dynamische Systeme dieser Art entstehen zum Beispiel durch Linearisierung und Diskretisierung von Bewegungsgleichungen bei Raumsonden. Die Zufallsvariablen W1 , W2 , . . . repr¨asentieren dabei die nicht deterministisch modellierbaren Einfl¨ usse, die den geplanten Kurs der Sonde ver¨ andern. Nun kann die Zustandsgr¨oße Xk im Allgemeinen nicht direkt beobachtet werden, sondern es liegen Beobachtungen der Form Yk = Bk Xk + Vk ,
k ∈ N,
vor, wobei (Bk ) eine bekannte Folge von (m × n)-Matrizen darstellt und die m-dimensionalen Zufallsvariablen V1 , V2 , . . . als unabh¨angig angenommen werden; sie repr¨ asentieren Messfehler. Die jeweiligen Erwartungsvektoren werden daher als Nullvektoren angenommen und die entsprechenden Kovarianzmatrizen als bekannt vorausgesetzt. Ferner wird in nahe liegender Weise die stochastische Unabh¨ angigkeit der Zufallsvariablen X1 , W1 , V1 , W2 , V2 , . . . gefordert.
11.6 Anwendung Regelungstechnik: Stochastische Filter
335
Im Beispiel u urde der Beobachtung Ym die auf der Erde ¨ber die Raumsonde w¨ gemessene Position Xm der Raumsonde durch verschiedene Radarstationen (daher die Dimensionierung der Matrizen Bk ) entsprechen. Die mathematische Aufgabe besteht nun darin, basierend auf den Beobachˆ m , m ∈ N, zu berechnen. Intertungen Y1 , Y2 , . . . , Ym eine Approximation X pretiert man die durch Y1 , Y2 , . . . , Ym erzeugte σ-Algebra σ(Y1 , . . . , Ym ) als ugung stehenden Infordie durch die Zufallsvariablen Y1 , Y1 , . . . , Ym zur Verf¨ ˆ m durch mationen u ¨ber Xm , so ist es nahe liegend, das gesuchte X ˆ m := E(Xm |Y1 , Y2 , . . . , Ym ) X festzulegen. Die entscheidenden Fragen lauten nun: ˆ m , m ∈ N, explizit berechnen? • Kann man X ˆ m und Ym+1 zu berechnen? ˆ m+1 effizient aus X • Gibt es die M¨ oglichkeit, X ˆ m f¨ ur m → ∞ ? • Wie verh¨ alt sich X Diese Fragen k¨ onnen hier nicht ersch¨ opfend beantwortet werden. Um aber einen Eindruck u ¨ber die Vorgehensweise der stochastischen Filtertheorie zu gewinnen, betrachten wir einen Spezialfall. Beobachtung einer einzelnen Zufallsvariablen Ausgangspunkt ist eine normalverteilte Zufallsvariable X mit Erwartungswert µ = 0 und bekannter Varianz σ 2 , die allerdings nur indirekt durch Zufallsvariablen der Form Yi = X + Vi , i ∈ N, beobachtet werden kann, wobei die Folge (Vi ) aus unabh¨angigen, N(0, σi2 ) normalverteilten Zufallsvariablen besteht. ˆ m f¨ ur X verwendet man die bedingten Erwartungen Als Approximation X ˆ m = E(X|Y1 , Y2 , . . . , Ym ). X ˆ m ) bez¨ Nach Beispiel 11.16 ist (X uglich Fm = σ(Y1 , Y2 , . . . , Ym ) ein diskretes ˆ aßig beschr¨ankt. Daher gibt es nach Martingal, und (Xm ) ist in L2 gleichm¨ ˆ ∞ mit Satz 11.42 eine Zufallsvariable X ˆm → X ˆ∞ X
in L2 .
Somit muss f¨ ur die Beantwortung der dritten der oben gestellten Fragen nur noch untersucht werden, unter welchen Bedingungen ˆ∞ X=X gilt.
fast sicher
336
11 Zeitdiskrete Martingale
ˆm Die Bestimmung der X ˆ m . Dazu Wir beginnen jedoch mit der ersten Frage, der Berechnung der X betrachten wir zun¨ achst f¨ ur festes m ∈ N eine Linearkombination Zm =
m
(m)
aj
Yj
j=1
der Beobachtungen Y1 , . . . , Ym derart, dass f¨ ur alle i ∈ {1, . . . , m} die Paare X − Zm , Yi reeller Zufallsvariablen unabh¨ angig sind. Wegen der zu Grunde gelegten Normalverteilungen erhalten wir so die folgenden Bedingungen an die Koeffizien(m) (m) ten a1 , . . . , am : Cov(X − Zm , Yi ) = 0,
i = 1, . . . , m.
Wegen 1 (V(X + Yi ) − V(X) − V(Yi )) 2 1 2 4σ + σi2 − σ 2 − (σ 2 + σi2 ) = 2 ur alle i = 1, . . . , m = σ 2 f¨
Cov(X, Yi ) =
und wegen Cov(Zm , Yi ) = =
m
(m)
aj
j=1 m
Cov(Yj , Yi )
(m) 1
aj
2
j=1
=
(m) 1
aj
j∈{1,...,m} j=i
(m) 1
+ ai = σ2
m
(V(Yj + Yi ) − V(Yj ) − V(Yi ))
2
4σ 2 + 4σi2 − 2(σ 2 + σi2 )
(m)
aj
2
2 4σ + σj2 + σi2 − (σ 2 + σj2 ) − (σ 2 + σi2 )
(m) 2 σi
+ ai
j=1
ergibt sich das eindeutig l¨ osbare lineare Gleichungssystem σ2
m j=1
xj + xi σi2 = σ 2 ,
f¨ ur alle i = 1, . . . , m
11.6 Anwendung Regelungstechnik: Stochastische Filter (m)
337
(m)
in den Variablen x1 , . . . , xm zur Berechnung von a1 , . . . , am . Beispielsweise erhalten wir f¨ ur m = 1: σ2 (1) . (11.18) a1 = 2 σ + σ12 ¨ Die Bedeutung der Zufallsvariablen Zm wird aus folgender Uberlegung ersichtlich: ˆ m = E(X − Zm + Zm |Y1 , Y2 , . . . , Ym ) X = E(X − Zm |Y1 , Y2 , . . . , Ym ) + E(Zm |Y1 , Y2 , . . . , Ym ) = E(Zm |Y1 , Y2 , . . . , Ym ) = Zm . ˆ m durch die Somit ist f¨ ur jedes einzelne m ∈ N die bedingte Erwartung X L¨ osung eines linearen Gleichungssystems berechenbar. Allerdings ist diese ¨ Vorgehensweise sehr ineffizient, da bei jeder neuen Beobachtung (Ubergang von m auf (m + 1)) die Arbeit neu beginnt. Rekursive Formeln Daher versucht man, wie in der zweiten obigen Frage angedeutet, rekursive Formeln f¨ ur die Koeffizienten zu bestimmen. Dazu verwendet man den folgenden Ansatz u ¨ber die zu bestimmenden reellen Koeffizienten αm+1 , βm+1 : ˆ m + βm+1 Ym+1 . ˆ m+1 = αm+1 X X Als Bedingungen an αm+1 , βm+1 ergeben sich: ˆ m+1 , Yi ) = 0, Cov(X − X
i = 1, . . . , m + 1.
ˆ m , Yi ) = σ 2 : F¨ ur i = 1, . . . , m bedeutet dies wegen Cov(X σ 2 − αm+1 σ 2 − βm+1 σ 2 = 0 beziehungsweise αm+1 + βm+1 = 1. Da ˆ m − βm+1 Ym+1 , Ym+1 ) ˆ m+1 , Ym+1 ) = Cov(X − αm+1 X Cov(X − X m (m) 2 = σ 2 − αm+1 σ 2 aj − βm+1 (σ 2 + σm+1 ), j=1
folgt: αm+1 σ
2
m j=1
(m)
aj
2 + βm+1 (σ 2 + σm+1 ) = σ2 .
338
11 Zeitdiskrete Martingale
Auf Grund des oben gew¨ ahlten Ansatzes erhalten wir ferner: (m+1)
(m)
ai
= αm+1 ai
(m+1) am+1
= βm+1 .
,
i = 1, . . . , m
Zusammenfassend ergeben sich somit die rekursiven Formeln:
m ≥ 1,
αm+1 + βm+1 = 1, αm+1 σ 2
m
(m)
aj
2 + βm+1 (σ 2 + σm+1 ) = σ2 ,
m ≥ 1,
j=1 (m+1)
(m)
ai
= αm+1 ai
(m+1) am+1
= βm+1 ,
,
i = 1, . . . , m
m ≥ 1.
Beginnend mit Gleichung (11.18), (1)
a1 =
σ2
σ2 , + σ12
kann man aus den ersten beiden Gleichungen die Gr¨oßen α2 und β2 berechnen (2) (2) und damit dann aus den u ¨brigen Gleichungen die Gr¨oßen a1 und a2 usw. ˆn Die Konvergenz der X Schließlich erlaubt uns unser Ansatz, auch die Frage nach der Konvergenz der ˆ m zu beantworten. Aus X ˆm) = 0 ˆm, X Cov(X − X folgt ˆm ) = σ2 ˆ m ) = V(X Cov(X, X
m
(m)
aj
.
j=1
ˆ m ): Daher erhalten wir f¨ ur die Varianz der Zufallsvariablen (X − X ˆ m ) = E((X − X ˆ m )2 ) = σ 2 − σ 2 V(X − X
m
(m)
aj
.
j=1
ˆ m ) genau dann in L2 gegen X, wenn Somit konvergiert die Folge (X lim
m→∞
m j=1
(m)
aj
= 1.
11.6 Anwendung Regelungstechnik: Stochastische Filter
339
Elementare Umformungen ergeben die folgende rekursive Formel f¨ ur die Parm (m) tialsummen cm := j=1 aj : cm+1 =
Wegen c1 =
σ2 σ 2 +σ12
(1 − cm ) σ2σ (1 − cm )
2
m+1 σ2 2 σm+1
+ cm +1
.
(11.19)
folgt daraus
0 < cm < 1 f¨ ur alle m ∈ N
und
(cm ) ist monoton wachsend.
Also konvergiert (cm ) gegen ein c ∈ [0, 1]. Aus (11.19) folgt nun: 2 Ist (σm ) beschr¨ ankt, so gilt c = lim
m→∞
m
(m)
aj
= 1.
j=1
Damit haben wir ein sehr plausibles hinreichendes Kriterium f¨ ur die Konver2 L ˆ m −→ X bestimmt. genz X Der bekannteste stochastische Filter ist wohl der Kalman-Bucy-Filter, den Kalman und Bucy 1960/61 entwickelt haben. Vereinfacht gesagt besteht ihr Verfahren darin, eine Sch¨ atzung f¨ ur ein dynamisches System, das durch eine lineare Differentialgleichung beschrieben wird, auf der Grundlage gest¨orter Beobachtungen anzugeben. Mehr zum Thema stochastische Filtertheorie findet man z.B. in [Whi96] oder [DV85].
12 Brownsche Bewegung
Die Brownsche Bewegung ist ein reellwertiger zeitstetiger Prozess. Benannt ist sie nach dem Botaniker Robert Brown, der 1828 die Bewegung von Pollen im Wasser unter dem Mikroskop betrachtete und diese als continuous swarming ” motion“ bezeichnete. Die erste quantitative Betrachtung der Brownschen Bewegung geht auf Bachelier (1900) zur¨ uck, der sie verwendete, um Schwankungen von Aktienkursen zu studieren. Wenig sp¨ ater benutzte Einstein (1905) die Brownsche Bewegung in der molekular-kinetischen Theorie der W¨arme. Die ersten mathematisch pr¨ azisen Arbeiten zur Brownschen Bewegung stammen von N. Wiener (1923, 1924), der unter anderem den ersten Existenzbeweis erbrachte; daher wird f¨ ur die Brownsche Bewegung auch der Name WienerProzess verwendet. Die Bedeutung der Brownschen Bewegung liegt unter anderem darin, dass sie als Beispiel f¨ ur viele wichtige Klassen von stochastischen Prozessen dienen kann. So ist die Brownsche Bewegung ein Gauß-Prozess, sie besitzt unabh¨angige Zuw¨ achse und die Markov-Eigenschaft. Die Theorie aller drei Gebiete kann zur Anwendung kommen; daher u ¨berrascht es nicht, dass es eine reichhaltige Theorie zur Brownschen Bewegung gibt. Wir werden uns mit dem Transformationsverhalten, den Pfadeigenschaften, der starken Markov-Eigenschaft und dem daraus resultierenden Reflektionsprinzip einer Brownschen Bewegung besch¨ aftigen.
12.1 Brownsche Bewegung und Gauß-Prozesse In diesem Kapitel betrachten wir ausschließlich reellwertige stochastische Prozesse X = (Xt )t≥0 auf einem gegebenen Wahrscheinlichkeitsraum (Ω, F, P) . Wir erinnern daran, dass eine Filtration F = (Ft )t≥0 eine aufsteigende Familie von Sub-σ-Algebren ist und X (an F) adaptiert ist, falls Xt : Ω → R
Ft -messbar ist f¨ ur alle t ≥ 0.
342
12 Brownsche Bewegung
Die Definition Wir haben in Satz 10.15 gezeigt, dass ein Poisson-Prozess (Nt )t≥0 mit Zustandsraum N0 charakterisiert ist durch folgende Eigenschaften: (i) (ii) (iii) (iv)
N0 = 0 fast sicher. angige Zuw¨ achse. (Nt )t≥0 hat unabh¨ Nt − Ns , 0 ≤ s < t, ist Poi(λ(t − s))-verteilt. (Nt )t≥0 ist rechtsstetig.
Ganz ¨ ahnlich kann man eine Brownsche Bewegung definieren. Die PoissonVerteilung wird durch die Normalverteilung ersetzt. Definition 12.1 (Brownsche Bewegung). Ein stochastischer Prozess ullt B = (Bt )t≥0 heißt Brownsche Bewegung, falls folgende Bedingungen erf¨ sind: (BB1) B0 = 0 fast sicher. angige Zuw¨ achse. (BB2) (Bt )t≥0 hat unabh¨ (BB3) Die Zuw¨ achse Bt − Bs , 0 ≤ s < t, sind N(0, t − s)-verteilt. (BB4) (Bt )t≥0 ist ein stetiger Prozess, d.h. fast alle Pfade von (Bt )t≥0 sind stetig. Analog ist eine Brownsche Bewegung (Bt )t∈[0,T ] auf einem Intervall [0, T ], T > 0, definiert. Wir wollen die Definition etwas erl¨ autern: (i) Der Wahrscheinlichkeitsraum (Ω, F, P), auf dem die Brownsche Bewegung definiert ist, ist nicht weiter spezifiziert. Wir d¨ urfen also je nach Bedarf verschiedene Wahrscheinlichkeitsr¨ aume verwenden. (ii) Die Eigenschaften (BB1) - (BB3) betreffen nur die endlich-dimensionalen Verteilungen des Prozesses. (iii) Die Stetigkeit der Pfade ist im Hinblick auf die Interpretation als Bewegung von Pollen im Wasser einsichtig. Sie wird gelegentlich nicht nur außerhalb einer Nullmenge, sondern f¨ ur jeden Pfad gefordert. (iv) Neben Brownschen Bewegungen (Bt )t≥0 auf der positiven Halbachse werden wir haupts¨ achlich Brownsche Bewegungen auf dem Einheitsintervall (Bt )t∈[0,1] betrachten. Zur Existenz der Brownschen Bewegung Gibt es u ¨berhaupt einen stochastischen Prozess, der die Bedingungen (BB1) - (BB4) erf¨ ullt? Die Antwort ist nat¨ urlich ja, aber der Nachweis der Existenz ist nicht ganz einfach. Deshalb skizzieren wir an dieser Stelle verschiedene Ans¨ atze, einen ausf¨ uhrlichen Existenzbeweis f¨ uhren wir im Anhang in Abschnitt A.4.
12.1 Brownsche Bewegung und Gauß-Prozesse
343
(i) Konstruktion mit Hilfe des Existenzsatzes von Kolmogorov: Die Forderungen (BB1) - (BB3) legen eine konsistente Familie endlich-dimensionaler Randverteilungen fest. Der Existenzsatz von Kolmogorov A.19 stellt sicher, dass es einen stochastischen Prozess gibt, der den Bedingungen (BB1) - (BB3) gen¨ ugt. Dieser Prozess hat allerdings keineswegs nur stetige Pfade. Um eine stetige Version zu erhalten, muss der Prozess noch geeignet modifiziert werden, was nach dem Stetigkeitskriterium von KolmogorovChentsov m¨ oglich ist. F¨ ur Details zu diesem Ansatz vgl. z.B. [KS91]. (ii) Grenz¨ ubergang aus skalierter Irrfahrt: Man betrachtet eine Folge (Yn )n∈N unabh¨ angiger, identisch verteilter Zufallsvariablen mit E(Y1 ) = 0 und n Yi . Diese Irrfahrt wird durch den FakV(Y1 ) = 1 sowie Sn := i=1
tor
√1 n
skaliert, d.h. f¨ ur jedes n betrachtet man die Zufallsvariablen, √1 Sk , k = 1, . . . , n, und konstruiert aus diesen durch st¨ uckweise linean re Approximation einen zeitstetigen Prozess (Xtn )t∈[0,1] . Die Verteilungen dieser Zufallsvariablen konvergieren gegen die Verteilung einer Brownschen Bewegung. Dies besagt der f¨ ur diesen Zugang zentrale Satz von Donsker. F¨ ur Details vgl. [KS91]. ¨ (iii) Zuf¨ allige Uberlagerung deterministischer Funktionen: Bei diesem Zugang ist eine Folge unabh¨ angiger identisch standardnormalverteilter Zufallsvariablen (Yn )n∈N Ausgangspunkt. Diese werden durch geeignete Wahl deterministischer Funktionen (gn )n∈N auf [0, 1] gewichtet, so dass Xt (ω) = ∞ gn (t)Yn (ω) eine Brownsche Bewegung auf [0, 1] ergibt. Diesen Ansatz n=1
verwenden wir f¨ ur unseren Existenzbeweis im Anhang, Abschnitt A.4, s. z.B. auch [KS91], [Ste01]. Unabh¨ angigkeit der Zuw¨ achse Genau wie im zeitdiskreten Fall bezeichnen wir mit FX := (FtX )t≥0 die nat¨ urliche Filtration eines stochastischen Prozesses X: FtX := σ(Xs : s ≤ t),
t ≥ 0.
Satz 12.2. Es sei X = (Xt )t≥0 ein stochastischer Prozess mit X0 = 0 fast sicher und nat¨ urlicher Filtration FX = (FtX )t≥0 . Dann sind folgende Aussagen aquivalent: ¨ (i) (Xt )t≥0 hat unabh¨ angige Zuw¨ achse. angige Zuw¨ achse, d.h. f¨ ur t ≥ s ist Xt − Xs un(ii) (Xt )t≥0 hat FX -unabh¨ abh¨ angig von FsX . Beweis. (i) ⇒ (ii): Wir fixieren s und t mit t ≥ s. Dann ist nach Voraussetzung f¨ ur jedes n ≥ 1 und 0 = s0 < s1 < . . . < sn = s die σ-Algebra σ(Xs0 , Xs1 , . . . , Xsn ) = σ(Xs0 , Xs1 − Xs0 , . . . , Xsn − Xsn−1 )
344
12 Brownsche Bewegung
unabh¨ angig von Xt − Xs . Damit ist das Mengensystem Us,t :=
∞
{σ(Xs0 , Xs1 , . . . , Xsn ) : 0 = s0 < s1 < . . . < sn = s}
n=1
unabh¨ angig von Xt − Xs . Außerdem ist Us,t durchschnittsstabil. Jetzt ist aber Ds,t := {A ∈ Fs : A ist unabh¨ angig von Xt − Xs }, ein λ-System mit Us,t ⊂ Ds,t . Nach dem π-λ-Lemma 1.20 folgt: σ(Us,t ) = FsX ⊂ Ds,t . Dies ist genau die behauptete Unabh¨ angigkeit von FsX und Xt − Xs . (ii) ⇒ (i): Klar.
In der Definition der Brownschen Bewegung k¨ onnen wir daher die Forderung (BB2) ersetzen durch (BB2’): F¨ ur t ≥ s ist Xt − Xs unabh¨angig von FsX . Ersetzt man FX durch eine andere Filtration, gelangt man zu einer etwas allgemeineren Definition der Brownschen Bewegung: Definition 12.3 (Brownsche Bewegung bzgl. Filtration). Sei F eine Filtration. Ein adaptierter stochastischer Prozess (Bt )t≥0 heißt Brownsche Bewegung (bez¨ uglich F), falls folgende Bedingungen erf¨ ullt sind: (BB1) B0 = 0 fast sicher. angig von Fs . (BB2’) F¨ ur t ≥ s ist Bt − Bs unabh¨ (BB3) Die Zuw¨ achse Bt − Bs , 0 ≤ s < t, sind N(0, t − s)-verteilt. (BB4) (Bt )t≥0 ist ein stetiger Prozess, d.h. fast alle Pfade von (Bt )t≥0 sind stetig. Jede Brownsche Bewegung ist eine Brownsche Bewegung bez¨ uglich ihrer nat¨ urlichen Filtration. Gelegentlich ist es jedoch notwendig, zu einer gr¨oßeren Filtration u ¨berzugehen. Gauß-Prozesse Alternativ kann man Brownsche Bewegungen mit Hilfe von Gauß-Prozessen definieren: Definition 12.4 (Gauß-Prozess). Ein stochastischer Prozess X = ur jedes n-Tupel 0 ≤ t1 < . . . < tn (Xt )t≥0 heißt Gauß-Prozess, wenn f¨ gilt: (Xt1 , . . . , Xtn ) ist n-dimensional normalverteilt.
12.1 Brownsche Bewegung und Gauß-Prozesse
345
Ein stochastischer Prozess (Xt )t≥0 heißt zentriert, wenn E(Xt ) = 0 f¨ ur alle t ≥ 0 gilt. Die Brownsche Bewegung ist der Prototyp eines zentrierten GaußProzesses: Satz 12.5. Eine Brownsche Bewegung (Bt )t≥0 ist ein zentrierter Gauß-Prozess mit Kovarianzfunktion Cov(Bt , Bs ) = s ∧ t, s, t ≥ 0. Beweis. Da Bt N(0, t)-verteilt ist, ist (Bt )t≥0 zentriert. F¨ ur 0 ≤ t0 < t1 < . . . < tn ist die Menge der reellen Linearkombinationen von Bt0 , Bt1 , . . . , Btn und von Bt0 , Bt1 − Bt0 , . . . , Btn − Btn−1 gleich. Da letztere Zufallsvariablen nach Definition der Brownschen Bewegung s¨ amtlich normalverteilt sind, gilt dies auch f¨ ur jede Linearkombination (Satz 7.26) und damit auch f¨ ur jede Linearkombination von Bt0 , Bt1 , . . . , Btn . Nach Satz 7.35 ist somit (Bt0 , Bt1 , . . . , Btn ) n-dimensional normalverteilt, also (Bt )t≥0 ein Gauß-Prozess. Zur Berechnung der Kovarianzfunktion nehmen wir ohne Einschr¨ankung der Allgemeinheit s ≤ t an. Wir nutzen aus, dass angig ist, und erhalten mit E(Bs2 ) = V(Bs ) = s: Bt − Bs von Bs unabh¨ Cov(Bt , Bs ) = E(Bt Bs ) − E(Bt )E(Bs ) = E[(Bt − Bs + Bs )Bs ] = E(Bt − Bs )E(Bs ) + E(Bs2 ) = E(Bs2 ) = s. Im Allgemeinen lassen sich Gauß-Prozesse gut untersuchen, weil sie sich durch die Erwartungswertfunktion
E(Xt ),
und die Kovarianzfunktion Cov(Xt , Xs ),
t ≥ 0,
(12.1)
s, t ≥ 0,
(12.2)
beschreiben lassen. Im folgenden Sinn gilt auch die Umkehrung zu Satz 12.5: Satz 12.6. Ist X = (Xt )t≥0 ein zentrierter Gauß-Prozess mit Kovarianzangige Zuw¨ achse. Sind funktion Cov(Xs , Xt ) = t ∧ s, t, s ≥ 0, so hat X unabh¨ zus¨ atzlich fast alle Pfade von X stetig, so ist X eine Brownsche Bewegung. Beweis. Nach Voraussetzung ist E(X0 ) = 0 und V(X0 ) = Cov(X0 , X0 ) = 0, daher ist X0 = 0 fast sicher. Sei 0 ≤ t0 < t1 < . . . < tn . Da X ein GaußProzess ist, ist jedes Xt N(0, t)-verteilt und nach Satz 7.26 jeder Zuwachs Xti − Xti−1 N(0, ti − ti−1 )-verteilt. Damit ist auch die gemeinsame Verteilung der Zuw¨ achse
346
12 Brownsche Bewegung
(Xt1 − Xt0 , . . . , Xtn − Xtn−1 ) normalverteilt, und f¨ ur die Kovarianzfunktion folgt, wenn wir ohne Einschr¨ ankung i < j annehmen: Cov(Xti − Xti−1 , Xtj − Xtj−1 ) = E(Xti − Xti−1 , Xtj − Xtj−1 ) = E(Xti Xtj ) − E(Xti Xtj−1 ) − E(Xti−1 Xtj ) + E(Xti−1 Xtj−1 ) = ti − ti − ti−1 + ti−1 = 0. Damit ist die Kovarianzmatrix eine Diagonalmatrix, und nach Satz 7.33 folgt, dass die Zuw¨ achse unabh¨ angig sind. Die zweite Behauptung folgt unmittelbar aus der Definition der Brownschen Bewegung. Man kann eine Brownsche Bewegung nach dem gerade gezeigten Satz auch als stetigen zentrierten Gauß-Prozess mit Kovarianzfunktion Cov(Xs , Xt ) = s ∧ t definieren. Dies werden wir im n¨ achsten Abschnitt ausnutzen.
12.2 Konstruktionen rund um die Brownsche Bewegung In diesem Abschnitt zeigen wir, dass die Menge der Brownschen Bewegungen gegen¨ uber bestimmten Transformationen abgeschlossen ist. Ausgehend von uhren z.B. gewisse Manipulationen der einer Brownschen Bewegung (Bt )t≥0 f¨ Zeitvariablen zu einem neuen Prozess, der wieder eine Brownsche Bewegung ist. Neue Brownsche Bewegungen Um nachzuweisen, dass ein Prozess eine Brownsche Bewegung ist, verwenden wir neben der Definition auch Satz 12.6. Wir weisen nach, dass es sich um einen stetigen, zentrierten Gauß-Prozess handelt, der die Kovarianzfunktion Cov(Xs , Xt ) = s ∧ t besitzt. Satz 12.7. Ist B = (Bt )t≥0 eine Brownsche Bewegung, so auch jeder der folgenden Prozesse: (i) X 1 := −B. (ii) F¨ ur festes s ≥ 0: Xt2 := Bs+t − Bs , t ≥ 0. (iii) F¨ ur festes c > 0: Xt3 := 1c Bc2 t , t ≥ 0. (iv) F¨ ur festes T > 0: Xt4 := BT − BT −t , 0 ≤ t ≤ T.
(Spiegelung) (Zeithomogenit¨at) (Skalierung) (Zeitumkehr)
Beweis. F¨ ur alle Prozesse ist klar, dass es sich um stetige, zentrierte GaußProzesse handelt. Daher bleibt lediglich nachzuweisen, dass sie die richtige Kovarianzfunktion besitzen. (i) Cov(Xt1 , Xu1 ) = Cov(−Bt , −Bu ) = Cov(Bt , Bu ).
12.2 Konstruktionen rund um die Brownsche Bewegung
347
(ii) Cov(Xt2 , Xu2 ) = Cov(Bs+t − Bs , Bs+u − Bs ) = Cov(Bs+t , Bs+u ) − Cov(Bs , Bs+u ) − Cov(Bs+t , Bs ) + Cov(Bs , Bs ) = s + (t ∧ u) − s − s + s = t ∧ u. (iii) Cov(Xt3 , Xu3 ) = Cov( 1c Bc2 t , 1c Bc2 u ) = (iv)
1 2 c2 (c t
∧ c2 u) = t ∧ u.
Cov(Xt4 , Xu4 ) = Cov(BT − BT −t , BT − BT −u ) = Cov(BT , BT ) − Cov(BT , BT −u ) − Cov(BT −t , BT ) + Cov(BT −t , BT −u ) = T − (T − u) − (T − t) + ((T − t) ∧ (T − u)) = u + t − (t ∨ u) = t ∧ u. Aus dem Beweis von (iii) folgt, dass f¨ ur die normalverteilte Zufallsvariable Bt einer Brownschen Bewegung gilt: d
Bc2 t = cBt ,
c > 0.
Diese Eigenschaft wird als Skalierungseigenschaft der Brownschen Bewegung bezeichnet, da die Multiplikation der Zeitvariable mit c2 einer Umskalierung des Raumes mit dem Faktor c entspricht. Als unmittelbares Korollar aus Satz 12.7(ii) erhalten wir die (gew¨ohnliche) Markov-Eigenschaft der Brownschen Bewegung: Korollar 12.8 (Markov-Eigenschaft). Sei B = (Bt )t≥0 eine Brownsche Bewegung und s ≥ 0. Dann ist der Prozess Yt := Bs+t − Bs , t ≥ 0, eine Brownsche Bewegung und unabh¨ angig von Fs . Beweis. Die Behauptung folgt unmittelbar aus Satz 12.7(ii) und Satz 12.2. Das Gesetz der großen Zahlen f¨ ur eine Brownsche Bewegung Eine weitere M¨ oglichkeit, eine Brownsche Bewegung zu erhalten, besteht darin, die Zeitvariable zu invertieren, indem man den Prozess tB 1t betrachtet. Um die Stetigkeit in 0 sicherzustellen, beweisen wir zun¨achst das so genannte Gesetz der großen Zahlen f¨ ur die Brownsche Bewegung. Ist (Bt )t≥0 eine Brownsche Bewegung, so ist Yn := Bn − Bn−1 , n ∈ N, eine Folge unabh¨angiger, identisch standardnormalverteilter Zufallsvariablen, so dass nach dem starken Gesetz der großen Zahlen folgt: n
Bn = n
Yk
k=1
n
−→ 0 fast sicher.
(12.3)
Die analoge Aussage gilt auch f¨ ur den Grenzwert t → ∞, daher der Name des nachfolgenden Resultats:
348
12 Brownsche Bewegung
Satz 12.9 (Gesetz der großen Zahlen). Sei (Bt )t≥0 eine Brownsche Bewegung. Dann gilt: Bt = 0 fast sicher. lim t→∞ t F¨ ur den Beweis ben¨ otigen wir das folgende Lemma: Lemma 12.10. Ist X integrierbar, so ist die Reihe ∞
P(|X| > n) konvergent.
n=1
Beweis. Ohne Einschr¨ ankung der Allgemeinheit sei X ≥ 0. Wir definieren die Ereignisse An := {n ≤ X < n + 1} und Cn := {X ≥ n},
n ∈ N0 .
Die Folge (An ) bildet eine Partition von Ω, daher gilt ∞ ∞ ∞ > E(X) = XdP ≥ nP(An ), n=0A n
und
somit
ist
die
Reihe
nP(An )
konvergent.
Andererseits
ist
n=0
An = Cn \Cn+1 , und daher K
∞
n=0
nP(An ) + KP(CK+1 ) =
n=0
K
nP(Cn ) −
n=0
=
K
K
nP(Cn+1 ) + KP(CK+1 )
n=0
nP(Cn ) −
n=0
K
(n − 1)P(Cn ) =
n=1
Da Cn ↓ ∅, ist
K
P(Cn ).
n=1
KP(CK+1 ) ≤ (K + 1)P(CK+1 ) ≤
XdP −→ 0. K→∞
CK+1
Daher ist auch
∞
P(Cn ) konvergent, wie behauptet.
n=1
Beweis (des Satzes 12.9). Wir f¨ uhren die Konvergenz von Btt auf die Konveruck. Dazu sch¨ atzen wir f¨ ur t ∈ [n, n + 1] ab: genz von Bnn zur¨ Bt Bn Bt Bn Bn Bn t − n = t − t + t − n 1 1 1 ≤ |Bn | − + sup |Bs − Bn | t n n s∈[n,n+1] ≤
|Bn | Zn , + n2 n
12.2 Konstruktionen rund um die Brownsche Bewegung
wobei Zn :=
sup
349
d
|Bs − Bn | = sup |Bs | = Z1
s∈[n,n+1]
s∈[0,1]
eine Folge identisch verteilter, unabh¨ angiger Zufallsvariablen ist. Wir wissen bereits nach (12.3), dass Bnn und damit erst recht |Bn2n | → 0 fast sicher konvergiert. F¨ ur den Nachweis von Zn −→ 0 fast sicher n nehmen wir zun¨ achst E(Z1 ) < ∞ an. Dann folgt f¨ ur jedes ε > 0 nach Lemma 12.10 ∞ P(Zn > εn) < ∞. n=1
Nach dem Lemma von Borel-Cantelli folgt Zn > ε unendlich oft = 0, P n also Znn −→ 0 fast sicher. Es bleibt E(Z1 ) < ∞ zu zeigen. Dazu greifen wir auf ein Ergebnis vor, das wir im u achsten Abschnitt u ¨bern¨ ¨ber die MarkovEigenschaft zeigen werden: Nach Satz 12.30 ist B1∗ = sups∈[0,1] Bs genauso verteilt wie |B1 |. Wegen der Symmetrie der Normalverteilung ist daher E(Z1 ) ≤ 2E(B1∗ ) = 2E(|B1 |) < ∞. Die Inversion der Zeit Mit Hilfe des Gesetzes der großen Zahlen f¨ ur die Brownsche Bewegung k¨onnen wir zeigen, dass der zeitinvertierte Prozess tB 1t eine Brownsche Bewegung ist: Satz 12.11. Sei (Bt )t≥0 eine Brownsche Bewegung. Dann ist der stochastische Prozess tB 1t f¨ ur t > 0, Xt := 0 f¨ ur t = 0, ebenfalls eine Brownsche Bewegung. Beweis. Offensichtlich ist (Xt )t≥0 ein zentrierter Gauß-Prozess. Die Stetigkeit der Pfade auf ]0, ∞[ ist klar. F¨ ur die Stetigkeit in 0 folgt mit Satz 12.9 und s = 1t : Bt = 0 fast sicher. lim Xs = lim sB 1s = lim t→∞ t s→0 s→0 Schließlich folgt f¨ ur die Kovarianzfunktion: 1 1 Cov(Xu , Xv ) = Cov(uB u1 , vB v1 ) = uv ∧ = u ∧ v. v u
350
12 Brownsche Bewegung
Die Brownsche Br¨ ucke Die Brownsche Br¨ ucke dient zur Modellierung einer Situation, in der ein stochastischer Prozess wie eine Brownsche Bewegung fast sicher in 0 beginnt, jedoch im Gegensatz zu einer Brownschen Bewegung nach einer Zeiteinheit fast sicher wieder in 0 endet. Formal l¨ asst sich die Brownsche Br¨ ucke folgendermaßen definieren: Definition 12.12 (Brownsche Br¨ ucke). Ein stetiger, zentrierter Gaußucke, falls seine Kovarianzfunktion Prozess (Bt0 )t∈[0,1] heißt Brownsche Br¨ durch Cov(Bt0 , Bs0 ) = (s ∧ t) − st, 0 ≤ s, t ≤ 1, gegeben ist. Konkret lassen sich Brownsche Br¨ ucken durch Brownsche Bewegungen angeben: Satz 12.13. Sei (Bt )t≥0 eine Brownsche Bewegung. Dann ist Bt0 := Bt − tB1 ,
t ∈ [0, 1] eine Brownsche Br¨ ucke.
Beweis. Es bleibt lediglich die Kovarianzfunktion auszurechnen. Sei dazu 0 ≤ s ≤ t ≤ 1, dann erhalten wir: Cov(Bt0 , Bs0 ) = Cov(Bt − tB1 , Bs − sB1 ) = Cov(Bt , Bs ) − s Cov(Bt , B1 ) − t Cov(B1 , Bs ) + stE(B12 ) = s − st − ts + st = (s ∧ t) − st. Offensichtlich gilt f¨ ur die Brownsche Br¨ ucke Bt0 = Bt − tB1 , t ∈ [0, 1], fast 0 0 sicher B0 = 0 und B1 = B1 − B1 = 0. Diese Eigenschaft gibt dem Prozess seinen Namen. Umgekehrt kann man auch aus einer Brownschen Br¨ ucke eine Brownsche Bewegung konstruieren. ucke. Dann gilt: Satz 12.14. Sei (Bt0 )t∈[0,1] eine Brownsche Br¨ (i) B00 = B10 = 0 fast sicher. 0 , t ∈ [0, 1] sind Brownsche (ii) Die Prozesse Xt1 := −Bt0 und Xt2 := B1−t Br¨ ucken. (iii) Yt := (1 + t)B 0 1 , t ≥ 0, ist eine Brownsche Bewegung. 1+t
Beweis. (i) Nach Definition der Brownschen Br¨ ucke ist E(B00 ) = E(B10 ) = 0 0 0 0 0 und Cov(B0 , B0 ) = Cov(B1 , B1 ) = 0. Daher folgt B00 = B10 = 0 fast sicher.
12.3 Pfadeigenschaften
351
(ii) Offensichtlich sind (Xt1 )t∈[0,1] und (Xt2 )t∈[0,1] stetige zentrierte GaußProzesse, so dass wir jeweils die Kovarianzfunktion zu u ufen haben. ¨berpr¨ F¨ ur 0 ≤ s, t ≤ 1 folgt: Cov(Xt1 , Xs1 ) = Cov(−Bt0 , −Bs0 ) = Cov(Bt0 , Bs0 ) sowie 0 0 Cov(Xt2 , Xs2 ) = Cov(B1−t , B1−s ) = ((1 − s) ∧ (1 − t)) − (1 − s)(1 − t) = 1 − (s ∨ t) − 1 + s + t − st = (s ∧ t) − st.
(iii) Wiederum ist klar, dass (Yt )t≥0 ein stetiger, zentrierter Gauß-Prozess ist. F¨ ur die Kovarianzfunktion erhalten wir: Cov(Yt , Ys ) = Cov((1 + t)B 0 1 , (1 + s)B 0 1 ) 1+t
1+s
1 1 1 1 ∧ − ) = (1 + t)(1 + s)( 1+t 1+s 1+s1+t = (1 + s) ∧ (1 + t) − 1 = s ∧ t.
12.3 Pfadeigenschaften Nach Definition sind fast alle Pfadabbildungen einer Brownschen Bewegung stetig. Unsere u ¨bliche Vorstellung einer stetigen Funktion ist ein sch¨on geschwungener Graph, der vielleicht hier und da einige Ecken und damit Punkte besitzt, in denen er nicht differenzierbar ist. Dies trifft jedoch auf die Pfade der Brownschen Bewegung ganz und gar nicht zu. Wie wir in diesem Abschnitt zeigen werden, ist ein typischer Pfad der Brownschen Bewegung in keinem Punkt differenzierbar. Damit ist auch die (lineare) Variation der Pfade, ein Maß f¨ ur das Oszillationsverhalten, unbeschr¨ ankt. Dies ist der entscheidende Grund daf¨ ur, dass die Definition eines Integralbegriffs f¨ ur die Brownsche Bewegung etwas mehr M¨ uhe bereitet, wie wir in Kapitel 14 sehen werden. ¨ Heuristische Uberlegungen zur Variation Die Variation misst, wie stark eine Funktion auf einem Intervall oszilliert. Um dies f¨ ur die Pfade einer Brownschen Bewegung (Bt )t≥0 pr¨azise zu bestimmen, betrachten wir zu einer Zerlegung Π = {t0 , . . . , tk },
0 = t0 < t1 < . . . < tk = t,
des Intervalls [0, t] zwei Zufallsvariablen:
352
12 Brownsche Bewegung
Vt (Π) :=
k
|Bti − Bti−1 | sowie
Qt (Π) :=
i=1
k
(Bti − Bti−1 )2 .
i=1
Wir interessieren uns f¨ ur das Verhalten von Vt (Π) bzw. Qt (Π), wenn der Feinheitsgrad |Π| von Π, |Π| := max |ti − ti−1 |, i=1,...,k
gegen 0 konvergiert. Die Grenzwerte Vt := lim Vt (Π) |Π|→0
bzw.
Qt := lim Qt (Π) |Π|→0
bezeichnet man als lineare bzw. quadratische Variation der Pfade der Brownschen Bewegung auf dem Intervall [0, t]. Bevor wir die lineare und quadratische Variation der Brownschen Bewegung berechnen, wollen wir ein heuristisches Argument betrachten. Bt+h − Bt ist N(0, h)-verteilt, d.h. es ist 2 E(Bt+h − Bt ) = 0 und E[(B √ t+h − Bt ) ] = h. Damit ist |Bt+h − Bt | im Mittel von der Gr¨ oßenordnung h und somit Vt (Π) =
k
|Bti − Bti−1 | ≈
i=1
k '
ti − ti−1 .
i=1
3 1 Zerlegen wir das Intervall [0, t] ¨ aquidistant, so ist ti − ti−1 = k1 . Da k nicht summierbar ist, erhalten wir f¨ ur eine Folge von Zerlegungen (Πn ) mit |Πn | −→ 0 Vt (Πn ) −→ +∞. n→∞
Betrachtet man hingegen die Quadrate der Zuw¨achse, so sind diese entsprechend im Mittel von der Gr¨ oßenordnung ti − ti−1 , und es folgt Qt (Π) =
k
(Bti − Bti−1 )2 ≈
i=1
k
(ti − ti−1 ) = t.
i=1
Wir haben einleitend darauf hingewiesen, dass sich die Pfade der Brownschen Bewegung nicht sehr intuitiv verhalten. Umso erstaunlicher ist, dass unsere heuristischen Argumente f¨ ur die lineare und quadratische Variation der Brownschen Bewegung zum richtigen Ergebnis f¨ uhren, wie wir jetzt beweisen werden. Die quadratische Variation Ist (Πn ) eine Folge von Zerlegungen, die hinreichend schnell feiner wird, so ∞ |Πn | < ∞, so gilt die Konvergenz von Qt (Π) −→ t sogar fast sicher: dass n=1
12.3 Pfadeigenschaften
353
Satz 12.15. Sei (Bt )t≥0 eine Brownsche Bewegung und (Πn ) eine Folge von Zerlegungen des Intervalls [0, t] mit |Πn | −→ 0. Dann gilt L2
Qt (Πn ) −→ t. Ist
∞
|Πn | < ∞, so gilt sogar Qt (Πn ) −→ t fast sicher.
n=1
Beweis. Zun¨ achst gilt f¨ ur jede Zerlegung Πn = {0 = t0 , . . . , tk = t} E[Qt (Πn )] =
k
E[(Bti − Bti−1 )2 ] =
i=1
k
(ti − ti−1 ) = t.
i=1
Weiter schreiben wir Qt (Πn ) − t als Summe unabh¨angiger, zentrierter Zufallsvariablen: k Qt (Πn ) − t = [(Bti − Bti−1 )2 − (ti − ti−1 )]. i=1
Wegen der Unabh¨ angigkeit d¨ urfen wir Summe und Varianz vertauschen und erhalten: E[(Qt (Πn ) − t)2 ] =
k E [(Bti − Bti−1 )2 − (ti − ti−1 )]2 i=1
=
k
(ti − ti−1 ) E 2
i=1
≤ max |ti − ti−1 | i=1...,k
2 (Bti − Bti−1 )2 −1 ti − ti−1
k
|ti − ti−1 |E([Z 2 − 1]2 )
i=1
≤ |Πn |tE([Z 2 − 1]2 ), mit einer N(0, 1)-verteilten Zufallsvariable Z: d Bt − Bti−1 Z = √i , ti − ti−1
i = 1 . . . , k.
ur alle n ∈ N (s. Beispiel Da Z standardnormalverteilt ist, ist E(Z n ) < ∞ f¨ 4.24), insbesondere E([Z 2 − 1]2 ) ≤ C < ∞, und es folgt E[(Qt (Πn ) − t)2 ] ≤ |Πn |tC −→ 0, n→∞
L2
atzlich d.h. Qt (Πn ) −→ t. Gilt zus¨
∞ n=1
Ungleichung f¨ ur jedes ε > 0:
|Πn | < ∞, so folgt aus der Tschebyschev-
354
12 Brownsche Bewegung ∞
∞ E[(Qt (Πn ) − t)2 ] P[|Qt (Πn ) − t| > ε] ≤ ε2 n=1 n=1
≤
∞ tC |Πn | < ∞. ε2 n=1
Aus dem Lemma von Borel-Cantelli folgt P(|Qt (Πn ) − t| > ε unendlich oft) = 0, also Qt (Πn ) −→ t fast sicher.
Die fast sichere Konvergenz Qt (Πn ) −→ t gilt ebenfalls, wenn die Folge (Πn ) ur alle n ∈ N0 gilt, s. z.B. [RY99]. aufsteigend ist, d.h. wenn Πn ⊂ Πn+1 f¨ Ebenso gibt es nach Satz 4.16 zu jeder Folge (Πn ) eine geeignete Teilfolge (Πnk ), so dass Qt (Πnk ) −→ t fast sicher konvergiert. k→∞
Die lineare Variation Die Unbeschr¨ anktheit der linearen Variation l¨ asst sich leicht mit der gerade gezeigten Beschr¨ anktheit der quadratischen Variation zeigen: Satz 12.16. Sei (Bt )t≥0 eine Brownsche Bewegung und ∆t die Menge der Zerlegungen des Intervalls [0, t]. Dann gilt Vt = sup Vt (Π) = +∞
fast sicher.
Π∈∆t
Beweis. Sei (Πn ), Πn = {tn0 , . . . , tnkn }, eine Folge von Zerlegungen mit |Πn | → L2
0. Nach Satz 12.15 gilt Qt (Πn ) −→ t. Mit Satz 4.16 k¨onnen wir (ggf. durch ¨ Ubergang zu einer Teilfolge) sogar annehmen: Qt (Πn ) =
kn
(Btni − Btni−1 )2 → t fast sicher.
(12.4)
i=1
Da (Bt )t≥0 fast sicher stetige Pfade hat, sind sie auf dem kompakten Intervall [0, t] gleichm¨ aßig stetig, so dass max |Btni (ω) − Btni−1 (ω)| −→ 0 f¨ ur fast alle ω ∈ Ω.
i=1,...,kn
n→∞
Andererseits ist kn (Btni (ω) − Btni−1 (ω))2 ≤ i=1
max |Btni (ω) − Btni−1 (ω)|Vt (ω).
i=1,...,kn
Ist Vt (ω) < ∞, so konvergiert die rechte Seite gegen 0, was wegen (12.4) nur auf einer Menge vom Maß 0 m¨ oglich ist. Damit ist Vt = +∞ fast sicher, wie behauptet.
12.3 Pfadeigenschaften
355
H¨ older-Stetigkeit Die Pfade einer Brownschen Bewegung sind stetig. Die H¨older-Stetigkeit kann man als Maß f¨ ur den Grad der Stetigkeit ansehen. Wir erinnern an die Definition: Definition 12.17 (lokale H¨ older-Stetigkeit). Sei γ > 0 und f : [a, b] → R eine Funktion. f heißt lokal H¨ older-stetig vom Grad γ, falls es zu jedem x ∈ [a, b] eine Umgebung U und ein c ≥ 0 gibt, so dass |f (x) − f (y)| ≤ c|x − y|γ
f¨ ur alle x, y ∈ U.
Die Menge aller lokal H¨ older-stetigen Funktionen vom Grad γ auf dem Intervall [a, b] wird mit C γ [a, b] bezeichnet. Die H¨ older-Stetigkeit ist ein Maß f¨ ur die Glattheit einer Funktion. Jede lokal H¨ older-stetige Funktion ist stetig, die Umkehrung ist im Allgemeinen falsch. Außerdem gilt offensichtlich, dass C γ [a, b] ⊂ C δ [a, b], wenn γ > δ.
(12.5)
F¨ ur eine Funktion ist also ein m¨ oglichst großes γ gesucht, so dass f lokal H¨older-stetig vom Grad γ ist. Als ein Beispiel erw¨ahnen wir: Jede differenzierbare Funktion f ist lokal H¨ older-stetig vom Grad γ = 1. F¨ ur γ = 1 ergibt sich die lokale Form der Lipschitz-Bedingung, die von jeder differenzierbaren Funktion erf¨ ullt wird. F¨ ur γ > 1 ist der Begriff zwar formal ur jedes x ∈ [a, b] folgt und die definiert, aber uninteressant, da f (x) = 0 f¨ Funktion damit konstant ist. Wir haben bereits erw¨ ahnt, dass die Pfade der Brownschen Bewegung fast sicher nirgends differenzierbar sind. Auf Grund von (12.5) suchen wir also ein m¨ oglichst großes α < 1, so dass die Pfade der Brownschen Bewegung f¨ ur γ < α H¨ older-stetig sind. Wir werden in zwei Schritten zeigen, dass α = 12 ist. Die H¨ older-Stetigkeit der Pfade f¨ ur γ <
1 2
Als ersten Schritt wollen wir zeigen, dass fast alle Pfade der Brownschen Bewegung lokal H¨ older-stetig sind vom Grad γ < 12 . Dazu zeigen wir folgendes allgemeines Resultat: Satz 12.18. Es sei (Xt )t≥0 ein stochastischer Prozess mit fast sicher stetigen Pfaden. Gibt es Konstanten α, β, C > 0 mit E(|Xt − Xs |β ) ≤ C|t − s|1+α so ist f¨ ur jedes γ < Grad γ.
α β
f¨ ur alle s, t ≥ 0,
fast jeder Pfad von (Xt )t≥0 lokal H¨ older-stetig vom
356
12 Brownsche Bewegung
Beweis. Sei γ <
α β
und δ > 0. F¨ ur jede Zufallsvariable Y und a ≥ 0 ist aβ P(|Y | ≥ a) ≤ E(|Y |β ).
Daher erhalten wir mit a = ((j − i)2−n )γ , Y = Xj2−n − Xi2−n und An := {|Xj2−n − Xi2−n | ≥ ((j − i)2−n )γ f¨ ur 0 ≤ i, j ≤ 2n , 0 ≤ j − i < 2nδ } : P(An ) ≤ (j2−n − i2−n )−βγ E(|Xj2−n − Xi2−n |β ), n ∈ N. 0≤i,j≤2n
0≤j−i<2nδ
Nimmt j irgendeinen Wert 0 ≤ j ≤ 2n an, so hat i h¨ochstens 2nδ M¨oglichkeiten, die Bedingungen unter der Summe zu erf¨ ullen. Mit anderen Worten, die Summe auf der rechten Seite erstreckt sich u ¨ber h¨ochstens 2n 2nδ Paare (i, j). Wenden wir als erstes die Voraussetzung an, so erhalten wir: (j2−n − i2−n )−βγ · C(j2−n − i2−n )1+α P(An ) ≤ 0≤i,j<2n
0≤j−i<2nδ
≤ C2n 2nδ (2nδ 2−n )1+α−βγ = C2−n[(1−δ)(1+α−βγ)−(1+δ)] = C2−nε . Dabei haben wir ε := (1 − δ)(1 + α − βγ) − (1 + δ) gesetzt. Da γ < α β , ist (1 + α − βγ) > 1, und wir k¨ onnen δ > 0 so klein w¨ahlen, dass ε > 0 ist. Dann ist aber ∞ P(An ) < ∞, n=1
und damit nach dem Lemma von Borel-Cantelli P(lim inf Acn ) = P(Acn f¨ ur fast alle n) = 1. Schreiben wir dies aus, so erhalten wir, dass es zu P-fast jedem ω ∈ Ω ein N (ω) gibt, so dass f¨ ur alle n ≥ N (ω) gilt: |Xj2−n (ω) − Xi2−n (ω)| < ((j − i)2−n )γ f¨ ur alle 0 ≤ i, j < 2n , 0 ≤ j − i < 2nδ . Auf Grund der Stetigkeit fast aller Pfade von (Xt )t≥0 folgt daraus, dass |Xs (ω) − Xt (ω)| ≤ |s − t|γ f¨ ur alle s, t ≥ 0, |s − t| ≤ 2δ . Dies ist aber gerade die zu zeigende lokale H¨ older-Stetigkeit vom Grad γ.
Aus dem gerade bewiesenen Resultat l¨ asst sich die H¨older-Stetigkeit der Pfade einer Brownschen Bewegung leicht ableiten: Satz 12.19. Es sei (Bt )t≥0 eine Brownsche Bewegung und γ < 12 . Dann sind older-stetig vom Grad γ. fast alle Pfade von (Bt )t≥0 lokal H¨
12.3 Pfadeigenschaften
357
Beweis. Nach der Skalierungseigenschaft der Brownschen Bewegung ist f¨ ur s, t ≥ 0 1 d |Bt − Bs | = |t − s| 2 |Z|, mit einer N(0, 1)-normalverteilten Zufallsvariable Z. Daher ist f¨ ur jedes n ∈ N: E(|Bt − Bs |2n ) = |t − s|n E(|Z|2n ) = Cn |t − s|n , mit einer nur von n abh¨ angigen Konstanten Cn := E(|Z|2n ) < ∞. Damit sind f¨ ur jedes n ≥ 2 mit α := n − 1 und β := 2n die Voraussetzungen des Satzes 12.18 erf¨ ullt, d.h. die Pfade der Brownschen Bewegung sind H¨older-stetig vom n−1 Grad γ, falls γ < α β = 2n ist. Aus n−1 α 1 = −→ β 2n n→∞ 2
folgt die Behauptung. Keine H¨ older-Stetigkeit f¨ ur γ >
1 2
F¨ ur γ > 12 gibt es fast sicher keinen Pfad mehr, der lokal H¨older-stetig vom Grad γ ist. Genau genommen gilt eine st¨ arkere Aussage, f¨ ur die wir die H¨olderStetigkeit in einem Punkt einf¨ uhren. Eine Funktion f : I → R auf einem older-stetig vom Grad γ, wenn es eine Umgebung Intervall I heißt in x0 ∈ I H¨ U von x0 und ein c ≥ 0 gibt, so dass |f (x) − f (y)| ≤ c|x − y|γ
f¨ ur alle x, y ∈ U.
Definitionsgem¨ aß ist eine Funktion lokal H¨ older-stetig, wenn sie in jedem Punkt H¨ older-stetig ist. Wir bezeichnen eine Funktion als nirgends H¨olderstetig vom Grad γ, wenn sie in keinem Punkt x0 ∈ I H¨older-stetig vom Grad γ ist. F¨ ur γ > 12 sind fast alle Pfade einer Brownschen Bewegung nirgends H¨older-stetig, also erst recht nicht lokal H¨ older-stetig vom Grad γ. Den Beweis f¨ uhren wir, wie schon die Unbeschr¨ anktheit der linearen Variation, auf die Beschr¨ anktheit der quadratischen Variation zur¨ uck. Wir haben in Satz 12.15 gezeigt, dass f¨ ur jede Folge von Zerlegungen (Πn ) des Intervalls [0, t] mit |Πn | −→ 0 hinreichend schnell gilt: Qt (Πn ) −→ t
fast sicher.
Wegen der Markov-Eigenschaft der Brownschen Bewegung 12.8 gilt genauso f¨ ur jedes Intervall [a, b] und jede Folge von Zerlegungen (Πn ) des Intervalls [a, b] mit |Πn | −→ 0 hinreichend schnell: Qt (Πn ) −→ b − a
fast sicher.
(12.6)
358
12 Brownsche Bewegung
Satz 12.20. Es sei (Bt )t≥0 eine Brownsche Bewegung und γ > 12 . Dann sind older-stetig vom Grad γ. fast alle Pfade von (Bt )t≥0 nirgends H¨ Beweis. Sei H die Menge aller ω ∈ Ω, deren Pfade in einem Punkt H¨olderstetig vom Grad γ sind: older-stetig vom Grad γ in t0 }. H := {ω ∈ Ω : es gibt ein t0 ≥ 0 mit B. (ω) H¨ Wir zeigen, dass H eine Nullmenge ist. Sei dazu ω0 ∈ H und t0 ≥ 0, so dass older-stetig vom Grad γ ist. Wir w¨ahlen eine Umgebung U und B. (ω0 ) in t0 H¨ eine Konstante c ≥ 0, so dass gilt: ur alle s, t ∈ U . |Bs (ω0 ) − Bt (ω0 )| ≤ c|s − t|γ f¨ F¨ ur ein nichtleeres Intervall [a, b] ⊂ U folgt: ur alle s, t ∈ [a, b]. |Bs (ω0 ) − Bt (ω0 )|2 ≤ c2 |s − t|2γ f¨ Weiter sei (Πn ), Πn = {a = tn0 , tn1 , . . . , tnkn = b}, eine Folge von Zerlegungen des Intervalls [a, b], f¨ ur die gem¨ aß Satz 12.15 und unserer Vor¨ uberlegung (12.6) gilt: kn (Btni − Btni−1 )2 −→ b − a fast sicher. Qt (Πn ) = n→∞
i=1
Damit erhalten wir: Qt (Πn )(ω0 ) =
kn
(Btni (ω0 ) − Btni−1 (ω0 ))2
i=1
≤
kn
c2 (tni − tni−1 )2γ
i=1
=
kn
c2 (tni − tni−1 )2γ−1 (tni − tni−1 )
i=1
≤ c2 ( max |tni − tni−1 |)2γ−1 i=1,...,kn
kn
c2 (tni − tni−1 )
i=1
= c2 |Πn |2γ−1 (b − a) −→ 0, n→∞
da 2γ − 1 > 0. Also ist H eine Nullmenge.
Nirgends differenzierbare Pfade Wir haben bereits erw¨ ahnt, dass jede differenzierbare Funktion lokal Lipschitzstetig, d.h. lokal H¨ older-stetig vom Grad 1 ist. Aus dem eben bewiesenen Satz folgt damit das bekannte Resultat u ¨ber die Nicht-Differenzierbarkeit der Pfade der Brownschen Bewegung. Ob die Menge der Pfade, die nirgends differenzierbar sind, eine messbare Menge bilden, scheint nicht bekannt zu sein. Daher die etwas umst¨ andliche Formulierung:
12.4 Die starke Markov-Eigenschaft
359
Satz 12.21. Ist (Bt )t≥0 eine Brownsche Bewegung, so ist fast sicher jeder Pfad nirgends differenzierbar. Genauer gilt: Es gibt ein Ereignis F ∈ F mit P(F ) = 1 und F ⊂ {ω ∈ Ω : Bt (ω) ist nirgends differenzierbar}. Beweis. Ist Bt (ω) in einem Punkt t0 ≥ 0 differenzierbar, so ist Bt (ω) in t0 H¨ older-stetig vom Grad 1. Nach Satz 12.20 ist dies nur f¨ ur eine Nullmenge m¨ oglich. In der Analysis ist eine stetige, nirgends differenzierbare Funktion eine Pathologie, die man am Rande erw¨ ahnt, um davor zu warnen, allzu leichtfertig mit der Anschauung umzugehen. Bei der Brownschen Bewegung wird diese Eigenschaft zur Regel.
12.4 Die starke Markov-Eigenschaft Es sei (Bt )t≥0 eine Brownsche Bewegung. Wir haben in Korollar 12.8 gezeigt, ur festes s ≥ 0 ist dass (Bt )t≥0 die Markov-Eigenschaft besitzt, d.h. f¨ Yt := Bs+t − Bs , t ≥ 0, eine Brownsche Bewegung und unabh¨angig von Fs . (12.7) Ziel dieses Abschnitts ist es zu zeigen, dass die obige Aussage richtig bleibt, wenn der deterministische Zeitpunkt s durch einen zuf¨alligen Zeitpunkt τ , genauer gesagt eine Stoppzeit τ , ersetzt wird. Wie schon bei den MarkovKetten nennt man dies die starke Markov-Eigenschaft. Stoppzeiten in stetiger Zeit Zur Formulierung der starken Markov-Eigenschaft ben¨otigen wir Stoppzeiten τ , die σ-Algebra Fτ der τ -Vergangenheit und die Fτ -Messbarkeit von Xτ jeweils in stetiger Zeit. Die Definition der Stoppzeit bez¨ uglich einer Filtration Fu agt sich problemlos von der diskreten in die stetige Zeit: ¨bertr¨ Definition 12.22 (Stoppzeit bzgl. F). Sei F = (Ft )t≥0 eine Filtration. Eine Abbildung τ : Ω → [0, ∞] heißt Stoppzeit bzgl. F oder F-Stoppzeit, falls {τ ≤ t} ∈ Ft f¨ ur alle t ≥ 0.
360
12 Brownsche Bewegung
Beispiel 12.23 (Passierzeit). Es sei B = (Bt )t≥0 eine Brownsche Bewegung urliche Filtration von B. F¨ ur a > 0 sei und FB die nat¨ τa := inf{t > 0 : Bt = a}, die erste Passierzeit von B in a. Dann ist τa eine Stoppzeit bez¨ uglich FB . Denn es gilt {τa ≤ t} = { sup Br ≥ a} ∈ FtB , t ≥ 0. r∈Q,r≤t
Wir werden zu einem sp¨ ateren Zeitpunkt zeigen, dass τa fast sicher endlich ♦ ist und die Verteilung von τa bestimmen. Genau wie in diskreter Zeit ist f¨ ur einen adaptierten Prozess X = (Xt )t≥0 und eine endliche Stoppzeit τ Xτ : Ω → R,
ω → Xτ (ω) (ω).
Auch die Definition der σ-Algebra der τ -Vergangenheit u ¨bertr¨agt sich problemlos. Zu einer gegebenen Filtration F und Stoppzeit τ ist Fτ gegeben durch ur alle t ≥ 0}. Fτ := {A ∈ F : A ∩ {τ ≤ t} ∈ Ft f¨ Progressive Messbarkeit Unsere bisherige Begriffsbildung ist nur dann sinnvoll, wenn Xτ Fτ -messbar ist. Um dies sicherzustellen, reicht es nicht, dass X adaptiert ist. Wir ben¨otigen einen sch¨ arferen Messbarkeitsbegriff: Definition 12.24 (progressiv messbar). Ein stochastischer Prozess X = ur jedes t ≥ 0 die Abbildung (Xt )t≥0 heißt (bzgl. F) progressiv messbar, falls f¨ Ω × [0, t] → R,
(ω, s) → Xs (ω)
Ft ⊗ B[0, t]-messbar ist. Es folgt aus Lemma 2.22, dass jeder progressiv messbare Prozess auch adaptiert ist. Umgekehrt gilt dies f¨ ur rechtsseitig stetige Prozesse, wie wir im nachfolgenden Beispiel zeigen. Beispiel 12.25. Ist X ein adaptierter rechtsstetiger oder linksstetiger Prozess, so ist X progressiv messbar. Wir zeigen dies f¨ ur rechtsstetige Prozesse. Die Argumentation f¨ ur linksstetige Prozesse verl¨ auft analog. Wir definieren f¨ ur ein fixiertes t ≥ 0 eine Folge von Zufallsvariablen X(j+1)2−n t (ω), s ∈ [j2−n t, (j + 1)2−n t[, f¨ ur j = 0, 1, . . . , 2n − 1, Yn (ω, s) := s ≥ t. Xs (ω),
12.4 Die starke Markov-Eigenschaft
361
Wegen der Rechtsstetigkeit der Pfade gilt dann lim Yn (ω, s) = Xs (ω),
n→∞
(ω, s) ∈ Ω × [0, ∞[.
Daher gen¨ ugt es nachzuweisen, dass die Einschr¨ankung von Yn auf Ω × [0, t] Ft ⊗ B[0, t]-messbar ist. Sei also B ∈ B, dann ist {Yn ∈ B} =
2n −1
{X(j+1)2−n t ∈ B} × [j2−n t, (j + 1)2−n t[ ∪ {Xt ∈ B} × {t}
j=0
∈ Ft ⊗ B[0, t]. Damit ist Yn Ft ⊗ B[0, t]-messbar.
♦
Die Messbarkeit von Xτ F¨ ur progressive Prozesse ist Xτ Fτ -messbar: Satz 12.26. Zu einer gegebenen Filtration F sei X = (Xt )t≥0 ein progressiv messbarer Prozess und τ eine F-Stoppzeit. Dann ist (mit X∞ := 0) Xτ Fτ messbar. ur jedes B ∈ B und t ≥ 0 zu zeigen: Beweis. Nach Definition von Fτ ist f¨ {Xτ ∈ B} ∩ {τ ≤ t} ∈ Ft . Wegen {Xτ ∈ B} ∩ {τ ≤ t} = {Xτ ∧t ∈ B} ∩ {τ ≤ t} und {τ ≤ t} ∈ Ft gen¨ ugt es zu zeigen, dass Xτ ∧t Ft -messbar ist. Daher k¨onnen wir wiederum annehmen, dass τ ≤ t ist und zeigen, dass Xτ Ft -messbar ist. Dazu definieren wir die Abbildung ψ : Ω → Ω × [0, t],
ψ(ω) := (ω, τ (ω)).
Die Abbildung ψ ist Ft -Ft ⊗ B[0, t]-messbar, denn f¨ ur jedes At ∈ Ft und u ≤ t ist {τ ≤ u} ∈ Fu ⊂ Ft und daher: {ω ∈ Ω : ω ∈ At , τ (ω) ≤ u} = At ∩ {τ ≤ u} ∈ Ft . Nun ist Xτ = X◦ψ die Verkn¨ upfung einer Ft -Ft ⊗B[0, t]-messbaren Abbildung mit einer Ft ⊗ B[0, t]-B-messbaren Abbildung und daher Ft -B-messbar, was zu zeigen war.
362
12 Brownsche Bewegung
Die starke Markov-Eigenschaft Die starke Markov-Eigenschaft ergibt sich aus der gew¨ohnlichen MarkovEigenschaft (12.7) ganz formal durch Ersetzen des deterministischen Zeitpunkts s durch eine Stoppzeit τ . Die zu Grunde liegende Filtration ist die nat¨ urliche Filtration FB der Brownschen Bewegung. Entsprechend ist Fτ = {A ∈ F : A ∩ {τ ≤ t} ∈ FtB , t ≥ 0}. Theorem 12.27 (Starke Markov-Eigenschaft der Brownschen Bewegung). Es sei (Bt )t≥0 eine Brownsche Bewegung und τ eine fast sicher endliche FB -Stoppzeit. Dann ist angig von Fτ . Yt := Bt+τ − Bτ , t ≥ 0, eine Brownsche Bewegung und unabh¨ Beweis. Wir zeigen, dass f¨ ur jedes A ∈ Bk und B ∈ Fτ gilt: P([(Yt1 , . . . , Ytk ) ∈ A] ∩ B) = P[(Yt1 , . . . , Ytk ) ∈ A]P(B) = P[(Bt1 , . . . , Btk ) ∈ A]P(B).
(12.8)
Die behauptete Unabh¨ angigkeit folgt aus der ersten Gleichung. Setzen wir B = Ω, so folgt aus der Gleichheit des ersten und dritten Terms, dass (Yt )t≥0 und (Bt )t≥0 die gleichen endlich-dimensionalen Verteilungen haben. Da fast alle Pfade von (Yt ) stetig sind, folgt damit, dass (Yt )t≥0 ebenfalls eine Brownsche Bewegung ist. Um (12.8) zu zeigen, gehen wir in zwei Schritten vor: ur 1. Schritt: τ nimmt nur abz¨ ahlbar viele Werte (sn )n∈N an. Die Strategie f¨ diesen Fall kennen wir bereits: Aufteilen der Aussage auf τ = sn , gew¨ohnliche Markov-Eigenschaft anwenden und die Teile wieder zusammenf¨ ugen: Ist B ∈ Fτ , so ist B ∩ {τ = sn } ∈ Fsn und auf {τ = sn } stimmen (Yt )t≥0 und Y˜t := Bt+sn − Bsn , t ≥ 0, u ¨berein. Daher erhalten wir, indem wir (12.7) auf (Y˜t )t≥0 anwenden: P([(Yt1 , . . . , Ytk ) ∈ A] ∩ B) = = =
∞ n=1 ∞ n=1 ∞
P([(Yt1 , . . . , Ytk ) ∈ A] ∩ B ∩ {τ = sn }) P([(Y˜t1 , . . . , Y˜tk ) ∈ A] ∩ B ∩ {τ = sn }) P[(Bt1 , . . . , Btk ) ∈ A]P(B ∩ {τ = sn })
n=1
= P[(Bt1 , . . . , Btk ) ∈ A]P(B). Das ist gerade die behauptete Gleichheit des ersten und dritten Terms in (12.8). Setzen wir B = Ω, folgt die Gleichheit des mittleren Ausdrucks mit den beiden anderen. 2. Schritt: τ beliebig. In diesem Fall approximieren wir τ durch eine Folge von Stoppzeiten, die abz¨ ahlbar viele Werte annehmen. Sei dazu
12.4 Die starke Markov-Eigenschaft
τn :=
∞ (k + 1) k=0
2n
I{k2−n ≤τ <(k+1)2−n } ,
363
n ∈ N0 ,
ur jedes t ≥ 0 und τn (ω) = ∞, falls τ (ω) = ∞. Die τn sind Stoppzeiten, denn f¨ gilt: {τn ≤ t} = {k2−n ≤ τ < (k + 1)2−n }. k∈N0
(k+1)2−n ≤t
Da τ eine Stoppzeit ist, ist jede der Mengen auf der rechten Seite in F(k+1)2−n und somit in Ft . Nach Konstruktion ist τ ≤ τn und damit Fτ ⊂ Fτn f¨ ur alle ur jedes n ∈ N0 n ∈ N0 . Setzen wir f¨ Ytn := Bτn +t − Bτn ,
t ≥ 0,
so k¨ onnen wir wegen des bereits bewiesenen Falls und mit B ∈ Fτ ⊂ Fτn schließen: P([(Ytn1 , . . . , Ytnk ) ∈ A] ∩ B) = P[(Bt1 , . . . , Btk ) ∈ A]P(B).
(12.9)
Aus τn ↓ τ und der Stetigkeit der Pfade von (Ytn )t≥0 folgt Ytn −→ Yt
fast sicher.
Aus der fast sicheren Konvergenz folgt insbesondere die Konvergenz in Verteilung, so dass wir aus (12.9) schließen k¨ onnen: P([(Yt1 , . . . , Ytk ) ∈ A] ∩ B) = P[(Bt1 , . . . , Btk ) ∈ A]P(B). Wieder folgt die Gleichheit mit dem mittleren Term in (12.8) durch Einsetzen von B = Ω. Das Reflektionsprinzip - heuristisch Eine bekannte Anwendung der starken Markov-Eigenschaft ist das so genannte Reflektionsprinzip. Wir wollen das Reflektionsprinzip zun¨achst heuristisch ur ein a > 0 herleiten. Sei dazu (Bt )t≥0 eine Brownsche Bewegung und f¨ τa := inf{t ≥ 0 : Bt = a} die erste Passierzeit von (Bt )t≥0 in a. Was k¨ onnen wir u ¨ber die Verteilungsfunktion P(τa ≤ t) sagen? Dazu betrachten wir alle Pfade, die irgendwann vor dem Zeitpunkt t das Niveau a erreicht haben. Bis zum Zeitpunkt t kann sie ihr Weg zu einem Punkt oberhalb oder unterhalb von a gef¨ uhrt haben: P(τa ≤ t) = P(τa ≤ t, Bt ≥ a) + P(τa ≤ t, Bt ≤ a). Nun ist offensichtlich P(τa ≤ t, Bt ≥ a) = P(Bt ≥ a). Nimmt ein Pfad hingegen nach Erreichen des Niveaus a einen Weg bis zum Zeitpunkt t, der zu einem
364
12 Brownsche Bewegung
~ Ngespiegelter Pfad Bt
Na Bt
Nt
a
Nt
Abbildung 12.1. Das Reflektionsprinzip f¨ ur die Brownsche Bewegung
Punkt unterhalb von a f¨ uhrt, so gibt es dazu einen am Niveau a gespiegelten Pfad, siehe Abbildung 12.1, der oberhalb von a landet. Beide Pfade haben wegen der Symmetrie der Brownschen Bewegung, die in a neu startet, die gleiche Wahrscheinlichkeit“. Daher ergibt sich ” P(τa ≤ t, Bt ≤ a) = P(τa ≤ t, Bt ≥ a) = P(Bt ≥ a) und damit insgesamt f¨ ur die Verteilung von τa : P(τa ≤ t) = 2P(Bt ≥ a). Dieses Ergebnis ist in der Tat richtig, wie wir als n¨achstes beweisen werden. Die obige Argumentation ist aus zwei Gr¨ unden heuristisch. Zum einen hat jeder einzelne Pfad genau wie sein gespiegeltes Abbild die Wahrscheinlichkeit 0. Zum anderen w¨ are es selbst bei positiver Wahrscheinlichkeit f¨ ur einzelne Pfade nicht klar, welches Symmetrie-Argument“ der Brownschen Bewegung ” im Niveau a genau Verwendung findet. Das Reflektionsprinzip - exakt Der Beweis des Reflektionsprinzips folgt aus der starken Markov-Eigenschaft. Wir zeigen zun¨ achst die folgende Aussage, die man sich ebenfalls an der Abbildung 12.1 veranschaulichen kann. Satz 12.28. Sei (Bt )t≥0 eine Brownsche Bewegung, a > 0, und τa := inf{t > 0 : Bt = a} die Passierzeit von (Bt )t≥0 durch a. Dann ist der stochastische Prozess Bt f¨ u r t ≤ τa , ˜ Bt := ur t > τa , 2a − Bt f¨
12.4 Die starke Markov-Eigenschaft
365
ebenfalls eine Brownsche Bewegung. Beweis. Sei Yt := Bτa +t − Bτa , t ≥ 0. Nach der starken Markov-Eigenschaft 12.27 und Satz 12.7 gilt d d Yt = −Yt = Bt , und (Yt )t≥0 ist unabh¨ angig von Fτa . Damit ist (Yt )t≥0 insbesondere unabh¨ angig von den Fτa -messbaren Zufallsvariablen τa und B τa , dem gestoppten Prozess (B τa )t = Bτa ∧t , so dass die folgenden Prozesse die gleiche Verteilung haben: d (12.10) (B τa , τa , Yt ) = (B τa , τa , −Yt ) Bezeichnen wir mit C[0, ∞[ die stetigen Funktionen auf [0, ∞[ und setzen C0 := {g ∈ C[0, ∞[: g(0) = 0}, so ist die Abbildung ψ, ψ : C[0, ∞[×[0, ∞[×C0 → C[0, ∞[, f (t) f¨ u r t ≤ t0 , ψ(f, t0 , g) := ur t > t0 , f (t0 ) + g(t − t0 ) f¨ sinnvoll definiert. Durch Anwenden von ψ auf (12.10) erhalten wir wieder zwei Prozesse mit den gleichen Verteilungen: d
ψ(B τa , τa , Yt ) = ψ(B τa , τa , −Yt ). Auf der linken Seite steht der Prozess (Bt )t≥0 : Bt τa ψ(B , τa , Yt ) = Bτa + Yt−τa = Bτa + Bτa +t−τa − Bτa
f¨ u r t ≤ τa , f¨ ur t > τa ,
= Bt . ˜t )t≥0 , da Bτ = a: Auf der rechten Seite steht der Prozess (B a Bt f¨ u r t ≤ τa , ψ(B τa , τa , −Yt ) = ur t > τa , Bτa − Yt−τa = Bτa − Bτa +t−τa + Bτa f¨ Bt f¨ u r t ≤ τa , = ur t > τa , 2a − Bt f¨ ˜t . =B ˜t ) und (Bt ) die gleiche Verteilung, Damit haben die stochastischen Prozesse (B ˜ und die Beobachtung, dass (Bt ) mit Wahrscheinlichkeit 1 stetige Pfade hat, beendet den Beweis. Jetzt k¨ onnen wir die heuristisch bereits begr¨ undete P(τa ≤ t, Bt ≤ a) = P(τa ≤ t, Bt ≥ a) exakt beweisen:
Gleichheit
366
12 Brownsche Bewegung
Theorem 12.29 (Reflektionsprinzip). Sei (Bt )t≥0 eine Brownsche Bewegung, a > 0, und τa := inf{t > 0 : Bt = a} die Passierzeit von (Bt )t≥0 durch a. Dann gilt: P(τa ≤ t) = 2P(Bt ≥ a) = P(|Bt | ≥ a). ˜t = a}. ˜t )t≥0 der Prozess aus Satz 12.28 und τ ∗ := inf{t > 0 : B Beweis. Sei (B a d ˜ Da Bt = Bt f¨ ur alle t ≥ 0, ist τa = τa∗ fast sicher, und wir erhalten: ˜t ≤ a) P(τa ≤ t, Bt ≤ a) = P(τa ≤ t, B = P(τa ≤ t, 2a − Bt ≤ a) = P(τa ≤ t, Bt ≥ a). Da {τa ≤ t} ⊂ {Bt ≥ a}, folgt weiter: P(τa ≤ t) = P(τa ≤ t, Bt ≤ a) + P(τa ≤ t, Bt ≥ a) = 2P(τa ≤ t, Bt ≥ a) = 2P(Bt ≥ a), was wir zeigen wollten. Die zweite Gleichheit folgt unmittelbar aus der Symmetrie der Normalverteilung. Die Verteilung des Maximums Ist (Bt )t≥0 eine Brownsche Bewegung, so bezeichnen wir mit Bt∗ := max Bs , 0≤s≤t
t ≥ 0,
den Prozess, der das Maximum auf dem Intervall [0, t] beschreibt. Wir haben im Beweis des starken Gesetzes der großen Zahlen f¨ ur die Brownsche Bewegung, Satz 12.9, bereits verwendet, dass B1∗ die gleiche Verteilung hat wie |B1 |. Wir holen den Beweis jetzt nach. Die entscheidende Verbindung zum Reflektionsprinzip besteht in der Beobachtung, dass {τa ≤ t} = {Bt∗ ≥ a} gilt. Satz 12.30. Es sei (Bt )t≥0 eine Brownsche Bewegung und Bt∗ := max0≤s≤t Bs . F¨ ur jedes t ≥ 0 haben die Zufallsvariablen |Bt |, Bt∗ und Yt := Bt∗ − Bt dieselbe Verteilung. ur jedes a > 0, folgt unmittelbar aus dem Beweis. Da {τa ≤ t} = {Bt∗ ≥ a} f¨ Reflektionsprinzip 12.29, dass P(Bt∗ ≥ a) = P(τa ≤ t) = P(|Bt | ≥ a). Somit haben Bt∗ und |Bt | die gleiche Verteilung. F¨ ur Yt betrachten wir f¨ ur fixiertes t den zeit-umgekehrten Prozess Xs := Bt−s − Bt , s ≤ t, von dem wir nach Satz 12.7 wissen, dass es sich um eine Brownsche Bewegung
12.5 Anwendung numerische Mathematik: Globale Minimierung
367
auf dem Intervall [0, t] handelt. Daher gilt nach dem bereits Bewiesenen d
max0≤s≤t Xs = |Xt |, und wir erhalten: Yt = Bt∗ − Bt = max Bs − Bt = max (Bt−s − Bt ) 0≤s≤t
0≤s≤t
d
d
= max Xs = |Xt | = |Bt |. 0≤s≤t
d
Die Gleichheit der Verteilungen Bt∗ = |Bt | gilt nur f¨ ur fest gew¨ahltes t ≥ 0, nicht etwa f¨ ur die Prozesse. So ist (Bt∗ ) fast sicher monoton wachsend, (|Bt |) offenbar nicht.
12.5 Anwendung numerische Mathematik: Globale Minimierung Viele Fragestellungen aus Wirtschaft und Technik f¨ uhren auf globale Optimierungsprobleme: Von einer Zielgr¨ oße, die im Allgemeinen von sehr vielen Variablen abh¨ angt, soll das absolute Maximum oder das absolute Minimum bestimmt werden. Wir beschreiben in diesem Abschnitt ein Verfahren zur Bestimmung solcher Extrema. Beispiele f¨ ur industrielle Optimierungsprobleme sind am Ende dieses Abschnitts aufgef¨ uhrt. Zielfunktionen und ihre globalen Minima Gegeben ist eine zweimal stetig differenzierbare Funktion f : Rk → R. Die Funktion f wird als Zielfunktion bezeichnet. Sie soll stets die folgende Bedingung A erf¨ ullen (wobei ∇f (x) den Gradienten von f an der Stelle x bezeichnet): Bedingung A: Es existiert ein ε > 0 derart, dass x ∇f (x) ≥
1 + kε2 max(1, ∇f (x)2 ) 2
f¨ ur alle x ∈ Rk \{x ∈ Rk : x2 ≤ r} mit festem, aber beliebigem r > 0. Diese Bedingung A legt das Verhalten der Funktion f nur im Unendlichen“ ” fest und garantiert, dass es ein x∗ ∈ Rk gibt mit: f (x∗ ) ≤ f (x)
f¨ ur alle x ∈ Rk .
368
12 Brownsche Bewegung
Ein solcher Wert x∗ heißt globaler Minimierer. Gesucht ist ein Algorithmus zur Berechnung von x∗ . Dank Bedingung A gibt es einen geeigneten Wahrscheinlichkeitsraum (Ω, S, P) und zu jedem ε > 0 aus Bedingung A eine Zufallsvariable Xε : Ω → Rk , deren Verteilung durch die Lebesgue-Dichte d : R → R, k
x →
(x exp( −2(f (x)−f ε2
exp(
∗
))
−2(f (x)−f (x∗ )) ε2
)
)dx
gegeben ist. Diese Lebesgue-Dichte d besitzt nun die interessante Eigenschaft, dass sie an den Stellen ihr globales Maximum annimmt, an denen die Zielfunktion f ihr globales Minimum annimmt. K¨ onnte man also mit einem Computer Pseudozufallsvektoren erzeugen, die als Realisierungen der Zufallsvariablen ur ein entsprechendes ε > 0 interpretiert werden k¨onnen, so k¨onnte man Xε f¨ auf Grund der obigen Eigenschaft von d davon ausgehen, dass sich ein großer Anteil dieser Realisierungen in geeigneten Umgebungen globaler Minimierer von f befindet. Auf dieser Grundidee basiert eine spezielle Methode zur globalen Minimierung, die im Folgenden vorgestellt werden soll. Diese Methode wurde erstmals 1993 untersucht und unter verschiedenen Gesichtspunkten (Parallelisierung, große Probleme, Nebenbedingungen) weiterentwickelt (vgl. z.B. [RS94] und [Sch95]). Die Integralgleichung (Iε ) Als Grundlage f¨ ur das zu betrachtende Minimierungsverfahren dient f¨ ur jedes ε > 0 aus Bedingung A die folgende Integralgleichung, die wir mit (Iε ) bezeichnen: t (Iε ) :
Xxε0 (ω, t)
= x0 −
∇f (Xxε0 (ω, τ ))dτ + εBt (ω), 0
wobei (Bt )t≥0 eine k-dimensionale Brownsche Bewegung darstellt1 . Die Idee, ¨ der die sich hinter der Integralgleichung (Iε ) verbirgt, ist eine Uberlagerung klassisch betrachteten Kurve des steilsten Abstiegs t x0 −
∇f (X(x0 , τ ))dτ, 0
und einer rein zuf¨ alligen Suche 1
Eine k-dimensionale Brownsche Bewegung ist ein k-dimensionaler stochastischer Prozess, dessen Koordinationfunktionen (ein-dimensionale) Brownsche Bewegungen und unabh¨ angig sind.
12.5 Anwendung numerische Mathematik: Globale Minimierung
369
x0 + Bt (¯ ω ) − B0 (¯ ω ), die mit dem Faktor ε gewichtet werden. Untersucht man nun die Integralgleiur jedes chungen (Iε ) mit der oben betrachteten Zielfunktion f , so lassen sich f¨ ε > 0 aus Bedingung A und f¨ ur jeden Vektor x0 ∈ Rk die folgenden Aussagen beweisen: • Es existiert genau eine Abbildung Xxε0 : Ω × R+ → Rk , die die Integralost. gleichung (Iε ) l¨ • F¨ ur jedes ω ∈ Ω ist Xxε0 (ω, •) : R+ → Rk eine stetige Funktion. ur t → ∞ in Verteilung gegen • Die Zufallsvariablen Xxε0 (•, t) konvergieren f¨ eine k-dimensionale reelle Zufallsvariable Xε , deren Verteilung durch die Lebesgue-Dichte: d : Rk → R,
x →
(x exp( −2(f (x)−f ε2
∗
))
)
(x∗ )) exp( −2(f (x)−f )dx ε2
gegeben ist. Es ist wichtig festzuhalten, dass diese Lebesgue-Dichte nicht angt. mehr vom gew¨ ahlten Startpunkt x0 abh¨ • Betrachtet man zu jeder δ-Kugel Kδ,x∗ := {x ∈ Rk : x − x∗ 2 ≤ δ},
δ > 0,
um einen globalen Minimierer x∗ von f und zu jedem ω ∈ Ω die Stoppzeit sδ,x∗ : Ω → R+ ∪ {∞}, ω → sδ,x∗ (ω) := inf {Xxε0 (ω, t) ∈ Kδ,x∗ }, t≥0
bei der die Funktion Xxε0 (ω, •) : R+ → Rk zum ersten Mal die Kugel Kδ,x∗ schneidet, so l¨asst sich f¨ ur alle δ > 0 und f¨ ur jeden globalen Minimierer x∗ zeigen: sδ,x∗ < ∞ fast sicher. Somit f¨ uhrt (P-)fast jede Funktion Xxε0 (ω, •) : R+ → Rk mit einem endlichen Wert t beliebig nahe an einen globalen Minimierer von f . Es gen¨ ugt daher, f¨ ur einen beliebig gew¨ ahlten Startpunkt x0 aus der L¨osung Xxε0 der Integralgleichung (Iε ) einen Pfad Xxε0 (ω, •) : R+ → Rk numerisch zu berechnen. Die Beweise zu den eben betrachteten Eigenschaften der L¨osung Xxε0 der Inteuhrt. gralgleichung (Iε ) werden mit Methoden der stochastischen Analysis gef¨ Ein semi-implizites Eulerverfahren Ausgehend von einem Punkt x0 ∈ Rk , der als L¨osung der Integralgleichung ur ω = ω ¯ interpretiert wird, betrachten wir nun das (Iε ) zum Zeitpunkt t = t¯ f¨
370
12 Brownsche Bewegung
semi-implizite Eulerverfahren zur Berechnung der L¨osung Xxε0 (¯ ω , t¯ + h) von ¯ ur festes ω ¯ ∈ Ω: (Iε ) an der Stelle t + h, h > 0, f¨ t¯+h Xxε0 (¯ ω , t¯ + h) = x0 − ∇f (Xxε0 (¯ ω , τ ))dτ + ε(Bt¯+h (¯ ω ) − Bt¯(¯ ω )). t¯
Eine numerische Approximation f¨ ur Xxε0 (¯ ω , t¯ + h) wird folgendermaßen berechnet: Zun¨ achst werden durch einen Zufallsgenerator zwei N(0, Ik ) normalverteilte Pseudozufallsvektoren n1 und n2 erzeugt. Eine erste Approximation ω , t¯ + h) erh¨ alt man durch f¨ ur Xxε0 (¯ # h ε 2 −1 ¯ (¯ ¯ X (n1 + n2 ) , h∇f (x0 ) − ε x0 ω , t + h) := x0 − (Ik + h∇ f (x0 )) 2 wobei darauf zu achten ist, dass h so gew¨ ahlt sein muss, dass die Matrix (Ik + h∇2 f (x0 )) positiv definit ist (man startet etwa mit h = 1 und halbiert h so lange, bis diese Bedingung erf¨ ullt ist). Die Matrix ∇2 f (x) bezeichnet dabei die Hessematrix von f an der Stelle x. Schließlich errechnet man eine zweite Approximation ˜ ε (¯ ¯ X ur Xxε0 (¯ ω , t¯ + h) durch zwei h2 -Schritte x0 ω , t + h) f¨ h ˜ xε (¯ ˜ xε (¯ X ω , t¯ + h) := X ω , t¯ + ) 0 0 2 # −1 h h 2 ˜ε h h h ε ˜ − Ik + ∇ f (Xx0 (¯ ∇f (Xx0 (¯ n2 , ω , t¯ + )) ω , t¯ + )) − ε 2 2 2 2 2 wobei # −1 h h h h ˜ xε (¯ X ∇f (x0 ) − ε n1 . ω , t¯ + ) := x0 − Ik + ∇2 f (x0 ) 0 2 2 2 2 Ist nun die euklidische Norm der Differenz ˜ ε (¯ ¯ ε ω , t¯ + h) ¯ X x0 ω , t + h) − Xx0 (¯ ˜ ε (¯ ¯ kleiner als eine vorgegebene Schranke ζ, so wird X x0 ω , t + h) als Approximaε ¯ ω , t + h) akzeptiert, und im n¨ achsten Schritt ist der Startpunkt tion f¨ ur Xx0 (¯ ˜ xε (¯ ¯ + h) und t¯ gleich t¯ + h. Falls diese Norm zu groß ist, wird h gleich X ω , t 0 halbiert, und die Berechnungen beginnen neu. Auf Grund der Erzeugung der ¯ ∈ Ω. Zufallsvektoren n1 und n2 u ¨bernimmt der Computer die Wahl von ω
12.5 Anwendung numerische Mathematik: Globale Minimierung
371
Zur Wahl des Gewichtungsfaktors ε Die Wahl des Parameters ε hat im Rahmen von Bedingung A heuristisch zu erfolgen und wird durch Beobachtung der berechneten Iterationspunkte nach folgenden Kriterien vorgenommen: • Zeigt sich bei der Betrachtung der bisher berechneten Iterationspunkte, dass bei der numerischen L¨ osung von (Iε ) die Kurve des steilsten Abstiegs t X(x0 , t) = x0 −
∇f (X(x0 , τ ))dτ 0
•
dominant ist, so ist ε zu erh¨ ohen. Zeigt sich bei der Betrachtung der bisher berechneten Iterationspunkte, dass bei der numerischen L¨ osung von (Iε ) die Zufallssuche X(x0 , ω ¯ , t) = x0 + Bt (¯ ω ) − B0 (¯ ω) dominant ist, so ist ε zu verringern.
Der folgende Algorithmus beschreibt die numerische Approximation der Funkω , •) : R+ → Rk mit einem semi-impliziten Eulerverfahren. Selbsttion Xxε0 (¯ verst¨ andlich k¨ onnen auch andere numerische Verfahren zur L¨osung von Anfangswertproblemen f¨ ur die numerische Behandlung von (Iε ) angewendet werden. Allerdings hat sich das semi-implizite Eulerverfahren f¨ ur die unterschiedlichsten Anwendungen sehr bew¨ ahrt. In der Praxis wird man sich eine feste Zahl N von zu berechnenden Punkten vorgeben. Der Punkt mit dem kleinsten Funktionswert dient dann als Startpunkt f¨ ur eine lokale Minimierung von f . Ein Algorithmus Bei der nun folgenden algorithmischen Formulierung des semi-impliziten Eulerverfahrens zur numerischen Approximation der Funktion ω , •) : R+ → Rk Xxε0 (¯ wird von keiner festen Anzahl von zu berechnenden Punkten ausgegangen. Ferner wird vorausgesetzt, dass ein festes ε > 0 gem¨aß Bedingung A gew¨ahlt wurde.
Semi-implizites Eulerverfahren zur globalen Minimierung Schritt 0:(Initialisierung) W¨ ahle x0 , ε und ζ, j := 0, gehe zu Schritt 1.
372
12 Brownsche Bewegung
Schritt 1:(Ableitungen) h := 1. Berechne ∇f (xj ) und ∇2 f (xj ), gehe zu Schritt 2. Schritt 2:(Simulation) Berechne Realisierungen n1 und n2 zweier unabh¨angiger, N(0, Ik ) normalverteilter Zufallsvektoren, gehe zu Schritt 3. Schritt 3:(Cholesky-Zerlegung) Berechne L ∈ Rk,k mit LLT = Ik + h∇2 f (xj ). Ist Ik + h∇2 f (xj ) positiv definit, dann gehe zu Schritt 4. Sonst: h := h2 , gehe zu Schritt 3. ¯ ε (¯ ¯ Schritt 4:(Berechnung von x∗j+1 := X x0 ω , t + h)) Berechne x∗j+1 durch # T
LL
x∗j+1
= h∇f (xj ) − ε
x∗j+1 := xj − x∗j+1 ,
h (n1 + n2 ) 2
gehe zu Schritt 5. Schritt 5:(Cholesky-Zerlegung) Berechne L ∈ Rk,k mit LLT = Ik +
h 2 ∇ f (xj ) 2
gehe zu Schritt 6. ˜ xε (¯ Schritt 6:(Berechnung von x1j+1 := X ω , t¯ + h2 )) 0 Berechne x1j+1 durch T
LL
x1j+1 x1j+1
gehe zu Schritt 7. Schritt 7:(Ableitungen)
h = ∇f (xj ) − ε 2 := xj − x1j+1 ,
#
h n1 2
12.5 Anwendung numerische Mathematik: Globale Minimierung
373
Berechne ∇f (x1j+1 ) und ∇2 f (x1j+1 ), gehe zu Schritt 8. Schritt 8:(Cholesky-Zerlegung) Berechne L ∈ Rk,k mit LLT = Ik +
h 2 ∇ f (x1j+1 ). 2
Ist Ik + h2 ∇2 f (x1j+1 ) positiv definit, dann gehe zu Schritt 9. Sonst: h := h2 , gehe zu Schritt 3. ˜ ε (¯ ¯ Schritt 9:(Berechnung von x2j+1 := X x0 ω , t + h)) Berechne x2j+1 durch T
LL
x2j+1 x2j+1
h = ∇f (x1j+1 ) − ε 2 := x1j+1 − x2j+1 ,
#
h n2 2
gehe zu Schritt 10. Schritt 10:(Akzeptanzbedingung) Ist
x∗j+1 − x2j+1 2 < ζ,
dann setze xj+1 = x2j+1 , j := j+1 und gehe zu Schritt 1. Sonst: h := h2 , gehe zu Schritt 3. Dieser Algorithmus eignet sich besonders zur globalen Optimierung hochdimensionaler Probleme und wurde (insbesondere in einer Version zur Ber¨ ucksichtigung von Nebenbedingungen) in Zusammenarbeit mit Industrieunternehmen in den folgenden Anwendungen erfolgreich eingesetzt: • Kalibrierung von Modellen f¨ ur Industrieroboter in der Automobilindustrie (k = 180), • Soft-Output Decodierung in der Weltraumfahrt, • Parameteranpassung in GARCH-Modellen zur Prognose ¨okonomischer Gr¨ oßen, • Globale Optimierung von L-J Potentialen in der physikalischen Chemie (k ≥ 60000), • K¨ uhlstreckenoptimierung f¨ ur die Stahlherstellung in der Verfahrenstechnik.
13 Zeitstetige Martingale
In diesem Kapitel besch¨ aftigen wir uns mit Martingalen in stetiger Zeit. Diese werden in Anwendungen ben¨ otigt, wenn ein faires Spiel in stetiger Zeit“ ” modelliert werden soll, z.B. der Preisprozess eines Finanzgutes. F¨ ur die stochastische Analysis ist die zeitstetige Martingaltheorie von fundamentaler Bedeutung, wie wir schon bei der stochastischen Integration im n¨achsten Kapitel sehen werden. Viele Resultate aus der zeitdiskreten Martingaltheorie gelten auch in stetiger Zeit, wie z.B. die fundamentalen Ungleichungen, die Konvergenzs¨atze und die Stopps¨ atze. Dar¨ uber hinaus greifen viele Beweise auf die diskrete Theorie zur¨ uck. Die Brownsche Bewegung und Funktionen der Brownschen Bewegung liefern wichtige Beispiele f¨ ur Martingale in stetiger Zeit. Wie die Martingaltheorie in die Finanzmathematik einfließt, zeigen wir im letzten Abschnitt am Beispiel von Optionspreisformeln.
13.1 Definition Wir haben bereits zu Beginn des Kapitels 11 u ¨ber Martingale in diskreter Zeit den Begriff des bez¨ uglich einer Filtration adaptierten Prozesses f¨ ur eine beliebige Indexmenge I ⊂ [0, ∞[ definiert. Demnach ist eine aufsteigende Familie von σ-Algebren F = (Ft )t∈I mit Fs ⊂ Ft ,
s ≤ t, s, t ∈ I,
eine Filtration, und ein (reeller) stochastischer Prozess X = (Xt )t∈I heißt adaptiert, wenn ur alle t ∈ I. Xt Ft -messbar ist f¨ Die Definition ur alle t ∈ I kurz Wir nennen einen stochastischen Prozess X mit Xt ∈ L1 f¨ integrierbar. Die Definition von Martingalen u ¨bertr¨agt sich von diskreter in
376
13 Zeitstetige Martingale
stetige Zeit: Definition 13.1 ((Sub-, Super-) Martingal). Sei M = (Mt )t∈I , ∅ = I ⊂ R, ein stochastischer Prozess und F eine Filtration. Ist M adaptiert und integrierbar, so heißt M (bzgl. P und F) ein (i) Submartingal, falls f¨ ur alle s, t ∈ I, s ≤ t, gilt: E(Mt |Fs ) ≥ Ms
P-fast sicher.
(ii) Supermartingal, falls f¨ ur alle s, t ∈ I, s ≤ t, gilt: E(Mt |Fs ) ≤ Ms
P-fast sicher.
(iii) Martingal, falls f¨ ur alle s, t ∈ I, s ≤ t, gilt: E(Mt |Fs ) = Ms
P-fast sicher.
Wie in diskreter Zeit kommt es bei der Martingaleigenschaft sowohl auf das Wahrscheinlichkeitsmaß P als auch auf die Filtration F an. Wenn keine Filtration explizit gegeben ist, so ist stets die nat¨ urliche Filtration FM des Prozesses M gemeint. Wir werden von nun an ausschließlich reellwertige Prozesse M = (Mt )t≥0 auf der Zeitachse I = [0, ∞[ betrachten, die auf einem Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Ebenfalls gegeben sei eine Filtration F = (Ft )t≥0 , und sei F∞ := σ(Ft , t ≥ 0). Unabh¨ angige Zuw¨ achse und Martingale Klassische Beispiele f¨ ur zeitstetige Martingale ergeben sich als Funktionen der Brownschen Bewegung und der Zeit. Da wir diese Beispiele ausf¨ uhrlich in Abschnitt 13.3 besprechen wollen, geben wir hier eine andere Klasse von Beispielen an. angiSatz 13.2. Sei X = (Xt )t≥0 ein integrierbarer Prozess. Besitzt X unabh¨ urlichen Filge Zuw¨ achse, so ist (Xt − E(Xt ))t≥0 ein Martingal (bzgl. der nat¨ tration). Beweis. Sei t ≥ s. Auf Grund der Unabh¨ angigkeit der Zuw¨achse Xt − Xs von FsX = σ(Xu , u ≤ s) folgt mit den Eigenschaften bedingter Erwartungen: E(Xt |FsX ) = E((Xt − Xs ) + Xs |FsX ) = E(Xt − Xs |FsX ) + E(Xs |FsX ) = E(Xt − Xs ) + Xs = E(Xt ) + (Xs − E(Xs )). Subtraktion von E(Xt ) ergibt die Behauptung.
13.2 Stopps¨ atze in stetiger Zeit
377
Als Korollar erhalten wir die Martingal-Eigenschaft der Brownschen Bewegung und der zentrierten Poisson-Prozesse: Korollar 13.3. (i) Die Brownsche Bewegung (Bt )t≥0 ist ein Martingal. (ii) Ist (Nt )t≥0 ein homogener Poisson-Prozess mit der Rate λ, so ist Yt := Nt − λt, t ≥ 0, ein Martingal. Beweis. Sowohl die Brownsche Bewegung (Bt )t≥0 als auch der Poissonangige Zuw¨ achse, so dass die Behauptung aus Prozess (Nt )t≥0 haben unabh¨ Satz 13.2 folgt.
13.2 Stopps¨ atze in stetiger Zeit Der allgemeinste Stoppsatz, den wir in diskreter Zeit gezeigt haben, ist das Optional Sampling Theorem 11.45. Dieses gilt v¨ollig analog in stetiger Zeit. Optional Sampling Theorem in stetiger Zeit Zur Vorbereitung des Optional Sampling Theorems ben¨otigen wir das zeitstetige Analogon zu Satz 11.43 u ¨ber ¨ber Eigenschaften von Fτ und zu Satz 11.36 u die Gestalt gleichgradig integrierbarer Martingale. Wir erinnern daran, dass zu einer Filtration F und einer Stoppzeit τ die σ-Algebra der τ -Vergangenheit Fτ gegeben ist durch Fτ := {A ∈ F : A ∩ {τ ≤ t} ∈ Ft f¨ ur alle t ≥ 0}. Satz 13.4. Seien τ, σ zwei F-Stoppzeiten. Dann gilt: (i) Fσ ∩ {σ ≤ τ } ⊂ Fτ . (ii) Fσ ∩ {σ ≤ τ } ⊂ Fτ ∧σ = Fτ ∩ Fσ . (iii) Ist σ ≤ τ , so ist Fσ ⊂ Fτ . Beweis. (i) Es sei A ∈ Fσ und t ≥ 0. Dann ist A ∩ {σ ≤ τ } ∩ {τ ≤ t} = (A ∩ {σ ≤ t}) ∩ {τ ≤ t} ∩ {σ ∧ t ≤ τ ∧ t} in Ft , da σ ∧ t und τ ∧ t Ft -messbar sind. Damit ist A ∩ {σ ≤ τ } ∈ Fτ nachgewiesen. (ii) Wir ersetzen in (i) τ durch die Stoppzeit σ ∧τ . Dadurch folgt der erste Teil der Aussage. Ersetzen wir in (i) das Paar (σ, τ ) durch (σ ∧ τ, σ) und durch ur die umgekehrte (σ ∧ τ, τ ), erhalten wir die Inklusion Fσ∧τ ⊂ Fτ ∩ Fσ . F¨ ur jedes t ≥ 0 Inklusion sei A ∈ Fτ ∩ Fσ . Dann ist f¨ A ∩ {σ ∧ τ ≤ t} = (A ∩ {σ ≤ t}) ∪ (A ∩ {τ ≤ t}) ∈ Ft , also A ∈ Fσ∧τ . (iii) Folgt unmittelbar aus (i).
378
13 Zeitstetige Martingale
Gleichgradig integrierbare Martingale besitzen, genau wie in diskreter Zeit (vgl. Satz 11.36), die spezielle Gestalt E(X∞ |Ft ), t ≥ 0: Satz 13.5. Sei X = (Xt )t≥0 ein Martingal. Dann sind die folgenden Aussagen ¨ aquivalent: (i) X ist gleichgradig integrierbar. (ii) Es gibt eine F∞ -messbare Zufallsvariable X∞ ∈ L1 , so dass Xt = ur alle t ≥ 0 gilt. E(X∞ |Ft ) f¨ Beweis. (i) ⇒ (ii): Wir betrachten das zeitdiskrete Martingal (Xn )n∈N0 . Dann gibt es nach Satz 11.36 eine F∞ -messbare Zufallsvariable X∞ ∈ L1 , so dass Xn = E(X∞ |Fn )
f¨ ur alle n ∈ N0 .
Sei t ≥ 0 und n ∈ N mit n > t. Mit der Projektionseigenschaft bedingter Erwartungen folgt: E(X∞ |Ft ) = E(E(X∞ |Fn )|Ft ) = E(Xn |Ft ) = Xt . (ii) ⇒ (i): Diese Implikation haben wir schon in Satz 11.15 gezeigt.
Genau wie im zeitdiskreten Fall folgt, dass f¨ ur gleichgradig integrierbare Martingale Mτ : Ω → R, ω → Mτ (ω) (ω), f¨ ur beliebige Stoppzeiten sinnvoll erkl¨ art ist. Dies werden wir im nachfolgenden Optional Sampling Theorem ausnutzen. Die Grundidee f¨ ur den Beweis besteht darin, die gegebene Stoppzeit durch eine diskrete Folge von Stoppzeiten zu approximieren und dann auf die diskrete Version des Optional Sampling Theorems zur¨ uckzugreifen. Damit sich als Grenzprozess das gegebene Martingal ergibt, setzen wir dieses als rechtsstetig voraus. Theorem 13.6 (Optional Sampling Theorem). Sei M = (Mt )t≥0 ein rechtsstetiges Martingal und τ, σ Stoppzeiten mit σ ≤ τ . Ist τ beschr¨ ankt oder M gleichgradig integrierbar, so sind Mτ , Mσ ∈ L1 und E(Mτ |Fσ ) = Mσ . Beweis. Sowohl f¨ ur den Fall einer beschr¨ ankten Stoppzeit als auch f¨ ur ein gleichgradig integrierbares Martingal wissen wir, dass es ein K ∈ [0, ∞] gibt, so dass Mt = E(MK |Ft ), t ≥ 0. Ist τ ≤ K, so gen¨ ugt es, t ≤ K zu betrachten, und f¨ ur diese t ist Mt = E(MK |Ft ). Ist M gleichgradig integrierbar, so folgt aus Satz 13.5, dass wir K = ∞ w¨ ahlen k¨ onnen. Nach Satz 13.4 ist Fσ ⊂ Fτ , so dass es wie im diskreten Fall gen¨ ugt, (13.1) E(MK |Fτ ) = Mτ
13.2 Stopps¨ atze in stetiger Zeit
379
zu zeigen. Die Behauptung folgt daraus wie u ¨blich mit der Projektionseigenschaft bedingter Erwartungen. F¨ ur den Beweis von (13.1) zeigen wir zun¨ achst, dass ur alle Stoppzeiten τ E(Mτ ) = E(MK ) f¨ gilt. Dabei unterscheiden wir zwei F¨ alle: (i) τ nimmt abz¨ ahlbar viele, aufsteigend geordnete Werte tn , n ∈ N, an: In diesem Fall k¨ onnen wir das zeitdiskrete Martingal (Mtn )n∈N bzgl. der Filtration (Ftn )n∈N betrachten, und aus dem Stoppsatz 11.30 folgt: E(Mτ ) = E(MK ). (ii) τ beliebig: Wir approximieren τ durch eine Folge (τn ) von oben: τn :=
∞ (k + 1) k=0
2n
I{k2−n ≤τ <(k+1)2−n } ,
n ∈ N0 ,
und τn (ω) = ∞, falls τ (ω) = ∞. Jedes τn , n ∈ N0 , ist eine Stoppzeit, denn f¨ ur jedes t ≥ 0 gilt: {τn ≤ t} = {k2−n ≤ τ < (k + 1)2−n }. k∈N0
(k+1)2−n ≤t
Da τ eine Stoppzeit ist, ist jede der Mengen auf der rechten Seite in F(k+1)2−n und somit in Ft . Aus τn ↓ τ und der rechtsseitigen Stetigkeit von M folgt Mτn −→ Mτ fast sicher. Aus dem zeitdiskreten Optional Sampling Theorem 11.45 folgt Mτn = E(MK |Fτn ), so dass (Mτn )n∈N0 nach Satz 11.15 gleichgradig integrierbar ist. Aus dem in (i) gezeigten Fall folgt weiter E(Mτn ) = E(MK ), so dass wir mit Satz 11.23 folgern k¨ onnen: Mτ ∈ L1 und E(Mτ ) = lim E(Mτn ) = E(MK ). n→∞
Sei nun A ∈ Fτ . Wir definieren ρ := τ IAc + KIA . Dann ist ρ eine Stoppzeit, also gilt nach dem eben Gezeigten E(Mρ ) = E(MK ), und weiter: E(Mτ ) = E(Mρ ) = E(Mτ IAc ) + E(MK IA ). Daraus folgt ur alle A ∈ Fτ , E(Mτ IA ) = E(MK IA ) f¨ also (13.1), was zu zeigen war.
380
13 Zeitstetige Martingale
Das Optional Stopping Theorem erhalten wir als Korollar: Korollar 13.7 (Optional Stopping Theorem, Doob). Sei M = (Mt )t≥0 ein rechtsseitig stetiges Martingal und τ eine Stoppzeit. Dann ist (Mt∧τ )t≥0 ein Martingal. Ist τ beschr¨ ankt oder M gleichgradig integrierbar, so ist Mτ ∈ L1 und E(Mτ ) = E(M0 ). Beweis. F¨ ur den Nachweis der Martingaleigenschaft von (Mt∧τ )t≥0 ersetzen wir in Theorem 13.6 die Stoppzeiten τ, σ f¨ ur s ≤ t durch t ∧ τ, s ∧ τ . Die zweite Aussage folgt, indem wir in Theorem 13.6 die Stoppzeit σ := 0 setzen. Wir erhalten so E(Mτ |F0 ) = M0 , so dass sich durch Bilden des Erwartungswertes die Behauptung ergibt.
13.3 Brownsche Bewegung und Martingale Wie in Kapitel 12 bezeichnen wir mit B = (Bt )t≥0
eine Brownsche Bewegung auf [0, ∞[.
Die Brownsche Bewegung ist eine reichhaltige Quelle f¨ ur zeitstetige Martingale. Wir wollen einige Martingale rund um die Brownsche Bewegung in diesem Abschnitt vorstellen. Dabei entstehen die Martingale als eine Funktion von Bt und t: (13.2) f (Bt , t) mit f : R × R+ → R. Wir unterscheiden die Beispiele nach dem Grad der Funktion f . Der lineare und der quadratische Fall Wir wissen bereits aus Korollar 13.3, dass die Brownsche Bewegung selbst ein Martingal ist. In unserer Notation (13.2) bedeutet dies Bt = f1 (Bt , t)
mit f1 : R × R+ → R, (x, t) → x
mit einer linearen Funktion f1 . Wir beweisen dies hier noch einmal explizit. Außerdem zeigen wir, dass auch Bt2 − t ein Martingal ist. In unserer Notation aus (13.2) bedeutet dies Bt2 − t = f2 (Bt , t)
mit f2 : R × R+ → R, (x, t) → x2 − t
mit einer Funktion f2 vom Grad 2. Satz 13.8. Es sei (Bt )t≥0 eine Brownsche Bewegung. Dann sind (Bt )t≥0 und (Bt2 − t)t≥0 stetige Martingale.
13.3 Brownsche Bewegung und Martingale
381
Beweis. Offensichtlich sind beide Prozesse integrierbar, (an FB ) adaptiert und stetig. Es bleibt jeweils die Martingaleigenschaft zu u ufen. F¨ ur t ≥ s ¨berpr¨ angig von FsB und Bs FsB -messbar ist, mit erhalten wir, da (Bt − Bs ) unabh¨ den Eigenschaften bedingter Erwartungen: E(Bt |FsB ) = E((Bt − Bs ) + Bs |FsB ) = E(Bt − Bs |FsB ) + E(Bs |FsB ) = E(Bt − Bs ) + Bs = Bs . Daher ist (Bt )t≥0 ein Martingal. Um auch im quadratischen Fall die Unabh¨ angigkeit der Zuw¨achse von der onnen, schreiben wir wieder Bt2 = (Bs + Vergangenheit FsB ausnutzen zu k¨ Bt − Bs )2 und erhalten: E(Bt2 |FsB ) = E((Bs + Bt − Bs )2 |FsB ) = E(Bs2 |Fs ) + 2E(Bs (Bt − Bs )|FsB ) + E((Bt − Bs )2 |FsB ) = Bs2 + 2Bs E(Bt − Bs |FsB ) + E((Bt − Bs )2 ) = Bs2 + 0 + (t − s). Im letzten Schritt haben wir die Martingaleigenschaft von (Bt )t≥0 ausgenutzt. Subtraktion von t auf beiden Seiten liefert die Behauptung. Das Ruinproblem f¨ ur die Brownsche Bewegung Als Anwendung des letzten Satzes und des Stoppsatzes f¨ ur stetige Martingale besprechen wir das Ruinproblem f¨ ur die Brownsche Bewegung. Wir betrachten ein Intervall um 0, ]a, b[, a < 0 < b, und stellen die Frage, wann eine Brownsche Bewegung, die fast sicher in 0 startet, zum ersten Mal das Intervall ]a, b[ verl¨ asst, vgl. Abbildung 13.1: τ := inf{t > 0 : Bt = a oder Bt = b}. Die Situation ist v¨ ollig analog zum diskreten Ruinproblem, das wir in Abschnitt 11.3 behandelt haben. Der einzige Unterschied besteht darin, dass wir die symmetrische Irrfahrt auf Z, die wir als faires Spiel zwischen einem Spieler und einer Bank interpretieren konnten, durch ihr stetiges Analogon, die Brownsche Bewegung (Bt )t≥0 , ersetzt haben. Auch die Antwort, also die Ruinwahrscheinlichkeit f¨ ur die Brownsche Bewegung, hat genau die gleiche Gestalt: b b = (13.3) P(Bτ = a) = b−a b + |a| und weiter E(τ ) = −ab = |a|b,
(13.4)
wie wir jetzt zeigen werden: Zun¨ achst ist nach Satz 13.8 Mt := − t, t ≥ 0, ein Martingal. Da τ eine Stoppzeit ist, ist τ ∧ n f¨ ur jedes n ∈ N0 eine Bt2
382
13 Zeitstetige Martingale Bt
nb
nt
n0
Nt
Na
Abbildung 13.1. Das Ruinproblem f¨ ur die Brownsche Bewegung
beschr¨ ankte Stoppzeit, so dass wir nach dem Optional Stopping Theorem 13.7 erhalten: E(Mτ ∧n ) = E(M0 ) = 0. Setzen wir die Definition von Mt ein, so erhalten wir E(Bτ2∧n ) = E(τ ∧ n). Da einerseits 0 ≤ τ ∧ n ↑ τ fast sicher, andererseits nach Definition von τ Bτ2∧n ≤ a2 ∨ b2 , folgt aus dem Satz von der monotonen Konvergenz a2 ∨ b2 ≥ E(Bτ2∧n ) = E(τ ∧ n) ↑ E(τ ). Insbesondere erhalten wir E(τ ) < ∞ und damit P(τ < ∞) = 1, d.h. τ ist fast sicher endlich. Damit folgt Bτ2∧n −→ Bτ2
fast sicher,
so dass wir mit dem Satz von der dominierten Konvergenz E(Bτ2 ) = lim E(Bτ2∧n ) = E(τ ) n→∞
schließen k¨ onnen. Nennen wir die Ruinwahrscheinlichkeit p, also p := P(Bτ = a), so erhalten wir, da Bτ2 entweder den Wert a2 (mit Wahrscheinlichkeit p) oder den Wert b2 (mit Wahrscheinlichkeit 1 − p) annimmt: E(τ ) = E(Bτ2 ) = a2 P(Bτ = a) + b2 P(Bτ = b) = a2 p + b2 (1 − p).
(13.5)
¨ uhren uns zu einer GleiAnaloge Uberlegungen f¨ ur das Martingal (Bt )t≥0 f¨ chung f¨ ur p. Zun¨ achst ist wieder nach dem Stoppsatz 13.7
13.3 Brownsche Bewegung und Martingale
383
E(Bτ ∧n ) = E(B0 ) = 0, und da |Bτ ∧n | ≤ (−a) ∨ b beschr¨ ankt ist sowie Bτ ∧n → Bτ fast sicher, folgt wiederum mit dem Satz von der dominierten Konvergenz: E(Bτ ) = lim E(Bτ ∧n ) = 0. n→∞
¨ Damit erhalten wir analog zur obigen Uberlegung: 0 = E(Bτ ) = ap + b(1 − p), a¨quivalent zu p=
b , b−a
also unsere Behauptung (13.3). Setzen wir dieses p in Gleichung (13.5) ein, so erhalten wir auch unsere zweite Behauptung (13.4): b b + b2 1 − E(τ ) = a2 = −ab. b−a b−a Fast sicher endliche Stoppzeit mit unendlichem Erwartungswert Obige Stoppzeit τ beschreibt den ersten Austritt einer Brownschen Bewegung aus dem Intervall ]a, b[. Genauso kann man die Frage stellen, wann die H¨ohe b zum ersten Mal passiert wird: τb := inf{t > 0 : Bt = b},
b > 0,
τa := inf{t > 0 : Bt = a},
a < 0.
und analog Zum einen ist {Bτ = a} ⊂ {τa < ∞} und daher P(τa < ∞) ≥ P(Bτ = a) =
b −→ 1, b − a b→∞
so dass wir P(τa < ∞) = 1 erhalten. Auf der anderen Seite ist jedoch τ = τa ∧ τb , und daher τ ↑ τa , wenn b → ∞. Daher erhalten wir mit dem Satz von der monotonen Konvergenz: E(τa ) = lim E(τ ) = lim −ab = +∞. b→∞
b→∞
Analog gilt nat¨ urlich P(τb < ∞) und E(τb ) = ∞. τa und τb sind also typische Beispiele f¨ ur Stoppzeiten, die fast sicher endlich sind, aber unendlichen Erwartungswert besitzen.
384
13 Zeitstetige Martingale
Die Verteilung von τa Mit dem Reflektionsprinzip f¨ ur die Brownsche Bewegung, Theorem 12.29, k¨ onnen wir sogar die Verteilung von τa bestimmen. Satz 13.9. Sei B = (Bt )t≥0 eine Brownsche Bewegung und τa := inf{t > 0 : ur a > 0 die erste Passierzeit von B durch a. Die Zufallsvariable τa Bt = a} f¨ besitzt die Dichtefunktion 2 −a |a| fa (t) = √ exp , t ≥ 0. 3 2t 2πt Insbesondere ist E(τa ) = ∞. Beweis. Nach dem Reflektionsprinzip 12.29 ist ∞ P(τa ≤ t) = 2P(Bt > a) = 2
1 √ exp 2πt
−x2 2t
dx
a
3 2 Wir substituieren s := ax2t , dann ist x = |a| st und dass wir weiter erhalten: 0 P(τa ≤ t) =
1 exp 2√ 2πt
−a2 2s
dx ds
√ 3 = |a| t(− 12 )s− 2 , so
√ 1 −3 |a| t · − s 2 dx 2
t
t √
= 0
|a| 2πs3
exp
−a2 2s
dx. 2
exp( −a Damit ist die Dichtefunktion bestimmt. Da tfa (t) = √|a| 2t ) auf [0, ∞[ 2πt 1 genau wie √t nicht eigentlich integrierbar ist, folgt E(τa ) = ∞, wie wir ja bereits wissen. Der Exponential-Fall Wir kehren zur¨ uck zur Untersuchung von Martingalen der Gestalt fn (Bt , t). Bevor wir weitere h¨ ohergradige Polynome untersuchen, betrachten wir f¨ ur ein α ∈ R: α2 t = g(Bt , t) mit g : R × R+ → R, exp αBt − 2 α2 t . (x, t) → exp αx − 2
13.3 Brownsche Bewegung und Martingale
385
Satz 13.10. Sei B = (Bt )t≥0 eine Brownsche Bewegung und α ∈ R. Dann ist α2 t , t ≥ 0, Xt := exp αBt − 2 ein stetiges Martingal. Beweis. Der Prozess (Xt )t≥0 ist offensichtlich adaptiert und stetig. Die Integrierbarkeit erhalten wir auf folgende Weise aus der momenterzeugenden Funktion der Normalverteilung. Sei t ≥ s. Wenn wir mit χ eine standardnormalverteilte Zufallsvariable bezeichnen, so gilt d √ Bt − Bs = t − s χ. Nach Beispiel 4.24 erhalten wir: √ E[exp(α(Bt − Bs ))] = E[exp(α t − sχ)] = exp
α2 (t − s) 2
< ∞.
(13.6)
ur jedes t ≥ 0 integrierbar ist. F¨ ur Setzen wir s = 0, so sehen wir, dass Xt f¨ die Martingal-Eigenschaft benutzen wir wieder einmal Bt = Bs + Bt − Bs : α2 E(Xt |FsB ) = exp − t E(exp(αBt )|FsB ) 2 α2 = exp − t E(exp(αBs ) exp(α(Bt − Bs ))|FsB ) 2 α2 = exp αBs − t E(exp(α(Bt − Bs ))|FsB ) 2 α2 t E(exp(α(Bt − Bs ))). = exp αBs − 2 Nach unserer Vor¨ uberlegung (13.6) erhalten wir weiter: 2 α α2 B E(Xt |Fs ) = exp αBs − t exp (t − s) = Xs . 2 2 H¨ ohergradige Polynome Wir haben gerade bewiesen, dass f¨ ur jedes α ∈ R und g : R × R+ → R,
α2 (x, t) → exp αx − t , 2
der Prozess g(Bt , t) ein Martingal ist. Nehmen wir α noch in die Reihe der Variablen auf, so erhalten wir die Funktion
386
13 Zeitstetige Martingale
g : R2 × R+ → R,
α2 (α, x, t) → exp αx − t . 2
Die Abbildung g ist offensichtlich beliebig oft differenzierbar, und wenn wir partiell nach α ableiten, erhalten wir ∂g(α, x, t) = (x − αt)g(α, x, t). ∂α Setzen wir jetzt α = 0, so folgt, da g(0, x, t) = 1 f¨ ur alle x, t ∈ R: ∂g (0, x, t) = x = f1 (x, t). ∂α Wir erhalten die lineare Funktion zur¨ uck, mit der wir die Martingaleigenschaft der Brownschen Bewegung beschreiben konnten. Um zu kl¨aren, ob dies ein Zufall war, leiten wir ein zweites Mal nach α ab und erhalten: ∂2g (α, x, t) = [(x − αt)2 − t]g(α, x, t). ∂α2 Durch Einsetzen von α = 0 folgt ∂2g (0, x, t) = x2 − t = f2 (x, t), ∂α2 die Funktion f2 , mit der wir den quadratischen Fall erledigt haben. Es gibt keinen Grund, nicht weiter abzuleiten, α = 0 einzusetzen und so weitere Martingale durch Polynome h¨ oherer Ordnung zu gewinnen. Konsistent mit unserer bisherigen Notation setzen wir f¨ ur jedes n ≥ 1: fn (x, t) :=
∂ng (0, x, t). ∂αn
Diese Funktionen, die als Hermite-Polynome bezeichnet werden, sind die Koeffizienten der Potenzreihe von g f¨ ur den Entwicklungspunkt α = 0: ∞ α2 t = fn (x, t)αn , exp αx − 2 n=0
x, t, α ∈ R.
Unsere nahe liegende Vermutung lautet nun: Satz 13.11. Sei (Bt ) eine Brownsche Bewegung. Dann ist fn (Bt , t), f¨ ur jedes n ≥ 1 ein Martingal.
t ≥ 0,
13.4 Konvergenz von Martingalen
387
Beweis. Die Funktion fn (x, t) ist ein Polynom, insbesondere ist damit der Prour alle n ∈ N integrierbar. Dies gilt nach Satz 13.10 ebenfalls zess fn (Bt , t) f¨ f¨ ur das Martingal g(α, Xt , t), so dass wir mit den Eigenschaften der Exponentialreihe folgern k¨ onnen: ∞
∞ E fn (Xt , t)|FsB αn = E(g(α, Xt , t)|FsB ) = g(α, Xs , s) = fn (Xs , s)αn .
n=0
n=0
Ein Koeffizientenvergleich ergibt die Behauptung.
Wir werden mit Hilfe der Itˆ o-Formel in Beispiel 14.39 einen alternativen Weg f¨ ur den Nachweis der Martingaleigenschaft von fn (Bt , t) aufzeigen.
13.4 Konvergenz von Martingalen Die Konvergenz-Aussagen f¨ ur zeitstetige Martingale gelten vollkommen analog wie im zeitdiskreten Fall. Auch die Beweise verwenden die gleichen Methoden. Wir beginnen mit einer zeitstetigen Version der Maximal-Ungleichungen. Maximal-Ungleichungen F¨ ur einen zeitdiskreten Prozess (Yn ) haben wir den Supremumprozess Yn∗ := sup |Xm |
sowie Y ∗ := sup |Xm |
0≤m≤n
m∈N0
eingef¨ uhrt. Analog dazu definieren wir f¨ ur einen rechtsstetigen Prozess (Xt )t≥0 : Xt∗ := sup |Xs |,
t ≥ 0,
sowie X ∗ := sup |Xs |.
0≤s≤t
s≥0
Da wir das Supremum u ahlbare Menge bilden, ist die Messbar¨ber eine u ¨berabz¨ keit f¨ ur beliebige Prozesse nicht gegeben. F¨ ur rechtsstetige Prozesse gilt jedoch mit Qt := (Q ∩ [0, t]) ∪ {t}: Xt∗ = sup |Xs |,
t ≥ 0,
sowie X ∗ := sup |Xs |.
s∈Qt
s∈Q+
Wir k¨ onnen das Supremum also stets auf eine abz¨ahlbare Teilmenge reduzieren, so dass Xt∗ und X ∗ messbar sind. Theorem 13.12 (Doobs Maximal-Ungleichung in stetiger Zeit). Sei X = (Xt )t≥0 ein rechtsstetiges, nicht-negatives Submartingal und λ > 0. Dann gilt f¨ ur jedes p ≥ 1 und t ≥ 0: λp P(Xt∗ > λ) ≤ E(Xtp )
388
13 Zeitstetige Martingale
und f¨ ur p > 1:
p Xt p p−1
(13.7)
p sup Xt p . p − 1 t≥0
(13.8)
Xt∗ p ≤ sowie
X ∗ p ≤
Beweis. Die zeitdiskreten Aussagen, Theorem 11.39 und Satz 11.41, die wir f¨ ur die Indexmenge I = N0 gezeigt haben, u ¨bertragen sich unver¨andert auf beliebige abz¨ ahlbare Indexmengen. Daher gilt f¨ ur die abz¨ahlbare dichte Teilmenge Qt := (Q ∩ [0, t]) ∪ {t} von [0, t]: λp P( sup Xs ≥ λ) ≤ E(Xtp ) s∈Qt
sowie
sup Xs ≤ p Xt . p s∈Q p−1 t p
Da X rechtsstetig ist, gilt aber Xt∗ = sup Xs . s∈Qt
Damit sind die ersten beiden Ungleichungen bewiesen. Ungleichung (13.8) folgt aus (13.7), indem wir auf beiden Seiten das Supremum bilden und den Satz von der monotonen Konvergenz anwenden. In L1 beschr¨ ankte Martingale Genau wie in diskreter Zeit folgt auch in stetiger Zeit f¨ ur ein stetiges Martingal aus der Beschr¨ anktheit unter der L1 -Norm fast sichere Konvergenz. Der Beweis ist eine exakte Kopie des zeitdiskreten Falls, da die zentrale Absch¨atzung ¨ der aufsteigenden Uberquerungen f¨ ur jede abz¨ ahlbare Indexmenge gilt. aßig Satz 13.13. Sei M = (Mt )t≥0 ein rechtsstetiges Martingal. Ist M gleichm¨ beschr¨ ankt in L1 , d.h. sup E(|Mt |) ≤ K < ∞, t≥0
so existiert eine F∞ -messbare Zufallsvariable M∞ ∈ L1 mit Mt → M∞ fast sicher. ¨ Beweis. Die Absch¨ atzung der aufsteigenden Uberquerungen, die wir f¨ ur die Indexmenge I = N0 in Lemma 11.33 gezeigt haben, u ¨bertr¨agt sich w¨ortlich ur alle a < b: auf die abz¨ ahlbare Indexmenge Q+ , daher gilt f¨ E[U[a,b] (t)] ≤
E((Xt − a)+ ) , b−a
t ∈ Q+ .
13.4 Konvergenz von Martingalen
389
¨ Dabei bezeichnet U[a,b] (t) die Anzahl aufsteigender Uberquerungen des Intervalls [a, b] von (Ms )s∈Q+ bis zum Zeitpunkt t. Exakt wie im Beweis des zeitdiskreten Konvergenzsatzes 11.34 folgt daraus die fast sichere Konvergenz von (Ms )s∈Q+ gegen eine F∞ -messbare Zufallsvariable M∞ ∈ L1 . Wegen der Rechtsstetigkeit von M gilt aber {(Ms )s∈Q+ konvergiert} = {(Mt )t∈R+ konvergiert}. Also konvergiert auch Mt −→ M∞ fast sicher.
In Lp beschr¨ ankte Martingale Auch die Martingalkonvergenz in Lp gilt v¨ ollig analog zum zeitdiskreten Fall: Satz 13.14. Sei M = (Mt )t≥0 ein rechtsstetiges Martingal, p > 1. Ist M in aßig beschr¨ ankt, d.h. Lp gleichm¨ sup E(|Mt |p ) < ∞, t≥0
so gibt es eine F∞ -messbare Zufallsvariable M∞ ∈ Lp mit Mt −→ M∞ fast sicher und in Lp . Beweis. Nach Satz 13.13 existiert eine F∞ -messbare Zufallsvariable M∞ ∈ L1 mit Mt → M∞ fast sicher. Aus der Doob-Ungleichung 13.8 und der Voraussetzung folgt p sup Mt p < ∞, M ∗ p ≤ p − 1 t≥0 d.h. M ∗ ∈ Lp . Damit ist (M ∗ )p ∈ L1 eine integrierbare Majorante von (|Mt |p )t≥0 . Somit ist (s. Satz 11.19) (|Mt |p )t≥0 gleichgradig integrierbar. Nach Lp
Korollar 11.24 folgt zusammen mit der Rechtsstetigkeit Mt −→ M∞ .
Die u ¨ blichen Bedingungen einer Filtration Wir haben in den Konvergenztheoremen stets vorausgesetzt, dass die Martingale rechtsstetig sind. Wir wollen jetzt zeigen, dass dies f¨ ur geeignete Filtrationen keine Einschr¨ ankung bedeutet. Dazu definieren wir:
390
13 Zeitstetige Martingale
ˆ die Verˆ P) Definition 13.15 (Augmentierte Filtration). Sei (Ω, F, vollst¨ andigung des Wahrscheinlichkeitsraums (Ω, F, P) , F eine Filtration in F und N := {A ⊂ Ω : es gibt ein B ∈ F mit A ⊂ B, P(B) = 0}. ˆ = (Fˆt )t≥0 in F, ˆ gegeben durch Dann heißt die Filtration F Fˆt := σ(Ft ∪ N ),
t ≥ 0,
die augmentierte Filtration (von F bzgl. P). ˆ ist im Allgemeinen gr¨oßer als diejenige, die Die augmentierte Filtration F urde. Insdurch Vervollst¨ andigung jeder einzelnen σ-Algebra Ft entstehen w¨ ˆ Weiter ur jedes t ≥ 0 vollst¨andig (bez¨ uglich P). besondere ist jedoch Fˆt f¨ definieren wir: F+ = (Ft+ )t≥0 , Ft+ := Ft+ε , t ≥ 0. ε>0
Intuitiv kann die Filtration F+ infinitesimal in die Zukunft blicken, Ft+ enth¨ alt die Information bis t und infinitesimal dar¨ uber hinaus. Eine Filtration F heißt rechtsstetig, wenn F+ = F gilt. Eine Filtration F heißt Standardfiltration, wenn sie rechtsstetig ist, also F = F+ gilt, und alle Teilmengen von ˆ = F ist. Startet man mit einer beliebigen FilNullmengen enth¨ alt, also F tration F auf einem vollst¨ andigen Wahrscheinlichkeitsraum, so kann man zur ˆ +u Filtration (F) ¨bergehen, um eine Standardfiltration zu erhalten. In der Literatur weit verbreitet ist die Redewendung von den u ¨blichen Bedingungen“, ” wenn eine Filtration eine Standardfiltration ist. Die u ¨blichen Bedingungen sind technische Voraussetzungen an eine Filtration, die f¨ ur viele Aussagen u otigt werden. Exemplarisch sei erw¨ahnt, dass f¨ ur ¨ber zeitstetige Prozesse ben¨ einen stetigen Prozess X τ := {t > 0 : Xt ∈ ]a, b[ } eine Stoppzeit ist, wenn die Filtration rechtsstetig ist. F¨ ur uns von zentraler Bedeutung ist das folgende Resultat: Satz 13.16. Sei F eine Standardfiltration eines vollst¨ andigen Wahrscheinlichkeitsraumes. Dann gibt es zu jedem Martingal M eine rechtsstetige Version. Beweis. Der Beweis ¨ ahnelt sehr dem Beweis des Konvergenzsatzes 11.34. Dort ¨ haben wir mit Hilfe der Absch¨ atzung der aufsteigenden Uberquerungen gezeigt, dass die Nichtkonvergenzpunkte eine Nullmenge bilden. Hier zeigen wir, dass die Menge
13.4 Konvergenz von Martingalen
391
C := {ω ∈ Ω : Es gibt ein t ≥ 0 mit lim inf Mq < lim sup Mq } q↓t,q∈Q+
q↓t,q∈Q+
eine Nullmenge bildet. Dazu sei Cab,r := {ω ∈ Ω : Es gibt ein t ∈ [0, r] mit lim inf Mq < a < b < lim sup Mq }, q↓t,q∈Q+
q↓t,q∈Q+
a, b, r ∈ Q+ . Offensichtlich ist C ⊂
Cab,r , so dass es gen¨ ugt P(Cab,r ) = 0 nach-
a,b,r∈Q+
zuweisen. Nun gilt f¨ ur den Prozess (Ms )s∈Q+ genau wie im Beweis von Satz 13.13 E((Mr − a)+ ) , r ∈ Q+ . E[U[a,b] (r)] ≤ b−a ¨ des InterDabei bezeichnet U[a,b] (r) die Anzahl aufsteigender Uberquerungen valls [a, b] von (Ms )s∈Q+ bis zum Zeitpunkt r. Daraus folgt mit der MarkovUngleichung f¨ ur jedes α > 0: P(U[a,b] (r) ≥ α) ≤
1 E((Mr − a)+ ). α(b − a)
Betrachten wir α → ∞, so folgt P(U[a,b] (r) = ∞) = 0. Da Cab,r ⊂ {U[a,b] (r) = ∞} und der Wahrscheinlichkeitsraum vollst¨ andig ist, folgt, dass Cab,r messbar ist und P(Cab,r ) = 0. Damit ist auch A messbar und P(A) = 0. Nun k¨ onnen wir den Prozess (Xt )t≥0 definieren: ⎧ ⎨ lim inf Mq (ω) f¨ ur ω ∈ Ac , Xt (ω) := q↓t,q∈Q+ ⎩0 f¨ ur ω ∈ A. alt, ist Xt Ft -messbar. Es bleibt zu zeigen, Da Ft alle Nullmengen von F enth¨ dass (Xt )t≥0 eine Version von (Mt )t≥0 ist. Dazu gehen wir aus von Mq = E(Ms |Fq ) f¨ ur q ≤ s und betrachten auf beiden Seiten den Grenz¨ ubergang q ↓ t. Auf der linken Seite ist der Grenzwert fast sicher Xt . Die rechte Seite konvergiert gegen ur alle t ≥ 0. E(Ms |Ft+ ) = E(Ms |Ft ) = Mt . Also gilt Xt = Mt fast sicher f¨ Wir werden in Zukunft stets von einem vollst¨ andigen Wahrscheinlichkeitsraum (Ω, F, P) mit einer Standardfiltration F ausgehen. Dies bedeutet, dass wir zu jedem Martingal eine rechtsstetige Version w¨ ahlen k¨onnen, so dass wir ohne Einschr¨ ankung Rechtsstetigkeit voraussetzen k¨ onnen.
392
13 Zeitstetige Martingale
Die Standardfiltration einer Brownschen Bewegung Eine Brownsche Bewegung B = (Bt )t≥0 ist ein Martingal bez¨ uglich der nat¨ urlichen Filtration FB . Da wir in Zukunft stets mit Standardfiltrationen arbeiten m¨ ochten, m¨ ussen wir auch hier zur augmentierten und rechtsstetigen ˆ B )+ u Filtration (F ¨bergehen. Da wir die Brownsche Bewegung weiter als Standardbeispiel f¨ ur ein Martingal verwenden wollen, ist es sehr wichtig, dass beim ¨ Ubergang zur augmentierten und rechtsstetigen Filtration die Martingaleigenschaft nicht verloren geht. Zun¨ achst ist klar, dass jede Brownsche Bewegung ˆB B auch eine Brownsche Bewegung bez¨ uglich der augmentierten Filtration F ist, da die Hinzunahme von Nullmengen an der G¨ ultigkeit von (BB2’) aus Definition 12.3 nichts ¨ andert. Das gleiche gilt genauso f¨ ur die Martingaleigenschaften. Mehr ist nicht zu u ufen, denn die augmentierte nat¨ urliche ¨berpr¨ ˆ B einer Brownschen Bewegung ist bereits rechtsstetig: Filtration F ˆ B )+ = F ˆB . (F Dies ist ein Spezialfall einer allgemeinen Aussage, die f¨ ur jeden so genannten starken Markov-Prozess gilt, deren Beweis jedoch den hier dargestellten Rahmen sprengen w¨ urde (vgl. [KS91, Proposition 2.7.7]). F¨ ur uns entscheiˆ B eine Standardfiltration ist, bez¨ uglich der B dend ist die Tatsache, dass F eine Brownsche Bewegung ist und alle bisher gezeigten Martingaleigenschaften beh¨ alt. Sprechen wir in Zukunft von einer Brownschen Bewegung ohne explizite Angabe einer Filtration, so ist stets diese Standardfiltration gemeint.
13.5 Anwendung Finanzmathematik: Preisformeln Eine wesentliche Aufgabe der Finanzmathematik besteht darin, f¨ ur am Markt gehandelte Finanzg¨ uter faire Preise zu bestimmen. Dabei bezeichnet man einen Preis als fair, wenn er keine Arbitrage-M¨oglichkeit bietet. Unter Arbitrage versteht man, lax formuliert, risikofreie wirtschaftliche Gewinne aus dem Nichts (eine genaue Erkl¨ arung geben wir in Definition 13.19). Ein realer Markt wird durch ein finanzmathematisch arbitragefreies Modell gut beschrieben, da Arbitrage-M¨ oglichkeiten durch so genannte Arbitrageure genutzt werden, was zum schnellen Verschwinden der Arbitrage-M¨oglichkeit f¨ uhrt. Wir werden im Folgenden darstellen, wie man in einem arbitragefreien Markt Preisformeln, also Berechnungsm¨ oglichkeiten f¨ ur den fairen Preis eines Finanzgutes herleiten kann. Bei der Darstellung haben wir uns u.a. an [BK98] und [Bj¨ o97] orientiert. [BK98] bietet einen Einstieg in die Finanzmathematik, ¨ [Bj¨ o97] gibt einen Uberblick u ¨ber den Zinsmarkt. Einperiodenmodell Eine so genannte europ¨ aische Call-Option gibt dem Halter (=K¨aufer) dieser Option das Recht, z.B. eine Aktie zu einem vorher bestimmten Kurs und
13.5 Anwendung Finanzmathematik: Preisformeln
393
zu einem vorher bestimmten Zeitpunkt zu erwerben1 . F¨ ur dieses Recht hat der K¨ aufer einen Preis zu bezahlen, dessen H¨ ohe wir im Folgenden f¨ ur einen Spezialfall bestimmen wollen. Dazu betrachten wir eine stark vereinfachte Situation, an der sich jedoch bereits viele Merkmale der Optionspreistheorie verdeutlichen lassen. Wir erlauben nur zwei Handelszeitpunkte, daher ist unser Zeitparameter t ∈ {0, T }. Wir stellen uns t = 0 als heute und t = T als morgen vor. In unserem Markt gibt es eine Aktie, deren Preis durch den stochastischen Prozess S = {S0 , ST } beschrieben wird. S0 ist also der heutige Preis der Aktie, ST ihr Preis morgen. Der heutige Preis der Aktie ist uns bekannt, er sei etwa S0 = 90 (z.B. 90 Euro, die W¨ahrung bzw. Einheit spielt jedoch keine Rolle, daher lassen wir sie im Folgenden weg). F¨ ur den Wert ST der Aktie morgen gebe es zwei M¨ oglichkeiten a1 = 120 und a2 = 30, die mit Wahrscheinlichkeit p bzw. 1 − p eintreten, d.h. mit Wahrscheinlichkeit p steigt die Aktie auf den Wert a1 = 120 und mit der Wahrscheinlichkeit 1 − p f¨allt sie auf den Wert a2 = 30. Weiter gibt es eine Bank, die einen t¨aglichen Zinssatz r zahlt, d.h. ein beliebiger Betrag B0 ist morgen risikolos BT = B0 (1 + r) wert. Wir k¨ onnen uns den (deterministischen) Prozess B = {B0 , BT } als risikoloses Bankkonto mit einer Verzinsung r vorstellen. In diesem Modell vergibt die Bank auch zum gleichen Zinssatz r Kredite. Wir betrachten nun eine europ¨ aische Call-Option auf die Aktie S. Der Besitzer dieser Option habe das Recht, zum Zeitpunkt T , also morgen, die Aktie zum heutigen Preis S0 zu kaufen. Beschreibt die Zufallsvariable X den (Auszahlungs-)Wert dieser Option, so gilt: a1 − S0 = 30 falls ST = a1 , X= 0 falls ST = a2 , oder kurz X = (ST − S0 )+ . Denn steigt die Aktie auf den Wert ST = a1 , so ur wird der Besitzer die Option aus¨ uben, die Aktie f¨ ur S0 kaufen und sofort f¨ a1 verkaufen und so einen Gewinn von a1 − S0 erzielen. Dies geschieht mit Wahrscheinlichkeit p. Andernfalls, also wenn der Aktienpreis sinkt, wird er die Option nicht aus¨ uben, da er die Aktie am Markt billiger erhalten kann. Mit Wahrscheinlichkeit 1−p ist die Option also wertlos. Die Situation ist in Tabelle 13.1 noch einmal dargestellt. Die alles entscheidende Frage lautet nun: Was ist ein fairer Preis Π(X) f¨ ur die Option X zum Zeitpunkt t = 0? Dabei sei ein Preis f¨ ur eine Option fair, wenn er keine Arbitragem¨oglichkeit er¨offnet, d.h. niemand durch geschicktes Kaufen bzw. Verkaufen der am Markt gehandelten Finanzg¨ uter oberhalb der Verzinsung r risikolos Gewinne erzielen kann. Intuitiv scheint der Erwartungswert E(X) des Optionswertes X ein guter Kandidat f¨ ur einen fairen Preis zu sein. Da wir stets die M¨oglichkeit haben, das Geld einen Tag lang risikolos zu verzinsen, werten wir den Preis noch um den Faktor uglich eines festgelegten Finanzgutes, hier (1 + r)−1 ab. Diese Abwertung bez¨ 1
Entsprechend hat ein Halter einer europ¨ aischen Put-Option das Recht, eine Aktie zu einem bestimmten Preis und Zeitpunkt zu verkaufen.
394
13 Zeitstetige Martingale
Wahrscheinlichkeit
Wert der Aktie
Wert des Bankkontos
Wert der Option
p
120
(1 + r) · 90
30
1−p
30
(1 + r) · 90
0
Tabelle 13.1. Wertentwicklung zum Zeitpunkt T
des risikolosen Bankkontos B = {B0 , BT }, heißt Diskontierung. So kommen wir zu einem fairen Preis X 30p . Π(X) = E = 1+r 1+r Setzen wir z.B. r = 0 (keine Verzinsung) und p = 12 , so erhalten wir Π(X) = 15. Erstaunlicherweise ist dieses Ergebnis falsch, denn der Preis Π(X) = 15 er¨offnet eine Arbitragem¨ oglichkeit, wie wir nun zeigen werden. Eine replizierende Strategie Wir bleiben der Einfachheit halber bei r = 0. Jetzt verkaufen wir jemandem die Option zum Preis Π(X). Der neue Optionshalter kann also morgen von uns die Aktie zum Preis von S0 = 90 kaufen. Um uns darauf vorzubereiten, kaufen wir 13 einer Aktie2 und leihen 10 (Einheiten) von der Bank. Die Bilanz unseres Portfolios“ sieht in t = 0 dann folgendermaßen aus: ” Verkauf der Option
+Π(X)
1 -Aktie 3
−30
Kauf einer
Kredit u ¨ber 10 Bilanz:
+10 Π(X) − 20
Tabelle 13.2. Replizierende Strategie
Mit diesem Portfolio in der Hand k¨ onnen wir ruhig schlafen. Denn aus Tabelle 13.3 wird deutlich, dass mit diesem Portfolio unsere Bilanz am morgigen Tag 2
In der finanzmathematischen Welt wird in der Regel von einer beliebigen Teilbarkeit der Finanzg¨ uter ausgegangen. Plausibel wird dies durch die Betrachtung eines Halters mit 100000 Optionen, was in der Praxis durchaus u ¨blich ist.
13.5 Anwendung Finanzmathematik: Preisformeln Die Aktie f¨ allt auf ST = 30. Option ist wertlos Verkauf der
Die Aktie steigt auf ST = 120. 0
1 -Aktie 3
R¨ uckzahlung des Kredits Bilanz:
395
Option wird gegen uns ausge¨ ubt
−30
1 -Aktie 3
+40
+10
Verkauf der
−10
R¨ uckzahlung des Kredits
0
Bilanz:
−10 0
Tabelle 13.3. Bilanz zum Zeitpunkt T
stets 0 ist, wie auch immer sich der Aktienkurs entwickelt. Ein solches Portfolio heißt replizierend. Dies erzwingt, dass auch die Bilanz des Portfolios 0 sein muss, d.h. Π(X) = 20, da andernfalls eine Arbitragem¨oglichkeit entsteht: Ist die Option billiger als 20, kauft man sie; ist sie teurer als 20, bietet man sie an. Jeder andere Preis als 20 erlaubt es folglich einem Arbitrageur, durch geschicktes Kaufen und Verkaufen der Finanzinstrumente Aktie, Bankkonto und Option einen risikolosen Gewinn zu erzielen und so die falsche Bewertung der Option auszunutzen. Abschließend sei bemerkt, dass diese Argumentation ganz ¨ ahnlich auch f¨ ur jede Zinsrate r > 0 m¨ oglich ist. Risiko-neutrale Bewertung Wir haben oben den fairen Preis der Option durch ein replizierendes Portfolio bestimmt. In komplizierten F¨ allen kann es schwierig sein, ein replizierendes Portfolio explizit anzugeben. Es gibt jedoch eine Alternative zur Berechnung des fairen Optionspreises, f¨ ur die keine explizite Konstruktion eines replizierenden Portfolios notwendig ist. Dazu sei B0 = 1, BT = 1 + r die Wertentwicklung des risikolosen Bankkontos mit dem Guthaben 1 und S˜ der St diskontierte Prozess S˜t := , Bt
t = 0, T.
ST . Der diskontierte Prozess beschreibt die Es ist also S˜0 = S0 und S˜T = 1+r Wertentwicklung der Aktie relativ zur risikolosen Wertentwicklung des Bankkontos. Die Bestimmung des fairen Preises Π(X) f¨ ur die Option X besteht nun aus zwei Schritten:
(i) Bestimme ein p∗ so, dass der diskontierte Prozess S˜ unter dem Wahrscheinlichkeitsmaß P∗ ein faires Spiel“, also ein Martingal ist. Da S˜0 ” konstant ist, reduziert sich die Martingaleigenschaft auf die Forderung ST ∗ ˜ ∗ ˜ S0 = E (ST ) = E . 1+r
396
13 Zeitstetige Martingale
Dabei bedeutet E∗ stets, dass der Erwartungswert bez¨ uglich P∗ gebildet wird. In unserem Beispiel heißt dies: 90 =
1 (120 · p∗ + 30 · (1 − p∗ )). 1+r
Setzen wir wieder r = 0, so folgt p∗ = 23 . (ii) Bestimme nun den Erwartungswert des diskontierten Optionswertes X unter dem neuen Wahrscheinlichkeitsmaß P∗ : X 30p∗ ∗ Π(X) = E . (13.9) = 1+r 1+r F¨ ur r = 0 erhalten wir, genau wie durch unser replizierendes Portfolio, den fairen Optionspreis Π(X) = 20. Das Maß P∗ , unter dem der diskontierte Prozess ein Martingal ist, heißt ¨aquivalentes Martingalmaß. Interessanterweise h¨ angt P∗ u ¨berhaupt nicht von p, d.h. der wahren“ Verteilung ab. Wir fassen zusammen: ” (i) Es gibt genau einen arbitragefreien Preis f¨ ur die Option. (ii) Dieser Preis kann als diskontierter Erwartungswert bez¨ uglich eines bestimmten Wahrscheinlichkeitsmaßes P∗ oder durch ein replizierendes Portfolio berechnet werden. (iii) Das Maß P∗ ist eindeutig charakterisiert durch die Eigenschaft, dass der diskontierte Aktienprozess S˜ unter P∗ ein Martingal ist. Diese Aussagen gelten, wie wir im Folgenden skizzieren werden, in viel allgemeineren Situationen. Kontinuierliche Finanzm¨ arkte Wir u uchern zur Finanzma¨berspringen nun mehrere hundert Seiten in Lehrb¨ thematik, in denen n-Perioden-Modelle, allgemeinere Binomialmodelle (CoxRoss-Rubinstein-Modelle) und die Theorie zeitdiskreter Finanzm¨arkte behandelt werden, und wenden uns zeitstetigen Finanzm¨arkten zu. Marktmodelle in stetiger Zeit sind technisch sehr viel komplizierter. Wir werden daher nicht alle technischen Details erw¨ ahnen, aber dennoch versuchen, einen Eindruck der Optionspreistheorie in stetiger Zeit zu vermitteln. In einem zeitstetigen Finanzmarkt kann zu jeder Zeit innerhalb eines festen Zeithorizontes [0, T ] gehandelt werden. Gegeben ist ein Wahrscheinlichkeitsraum (Ω, F, P) und eine Filtration F = (Ft )t≥0 . Die Preisprozesse der gehandelten Finanzg¨ uter, Aktien, Bonds, Optionen etc., werden durch d + 1 stochastische Prozesse S0 , . . . , Sd beschrieben. Wir nehmen an, jedes Si sei ein stetiges Semimartingal. Dem Prozess S0 wird eine Sonderrolle zugewiesen, er dient als so genannter Num´eraire. Ein Num´eraire ist ein strikt positiver Preisprozess, der als Bezugsgr¨ oße dient. Wir folgen der Konvention, dass stets S0 (0) = 1 gilt. Im Einperiodenmodell hatten wir B = {B0 , BT } = {1, 1+r} als
13.5 Anwendung Finanzmathematik: Preisformeln
397
Num´eraire gew¨ ahlt. Eine klassische Wahl eines Num´eraire ist gegeben durch den Prozess t B(t) = exp r(s)ds , 0
wobei r(t) ein stetiger, adaptierter Prozess mit fast sicher strikt positiven Pfaden ist. B(t) entspricht dem Guthaben bei einer risikofreien Verzinsung mit einer instantanen“ Zinsrate r(t). Es schadet nicht, sich im Folgenden ” stets S0 (t) = B(t) vorzustellen. Es hat sich jedoch herausgestellt, dass die Entwicklung von Optionspreisformeln in manchen F¨allen dadurch vereinfacht werden kann, dass man zu anderen Num´eraires wechselt. Diese Technik heißt Change of Num´eraire“, vgl. [GEKR95]. ” Beispiel 13.17 (Black-Scholes-Modell). Das wohl bekannteste Modell eines kontinuierlichen Finanzmarktes ist das Black-Scholes-Modell, in dem es genau zwei Finanzg¨ uter gibt. Das erste Finanzgut ist der oben beschriebene Num´eraire B(t) mit einer konstanten deterministischen Zinsrate r(t) ≡ ρ, so dass gilt: S0 (t) = B(t) = exp(ρt), t ∈ [0, T ]. Das zweite Finanzgut wird durch den Prozess σ2 S1 (t) = A0 exp σWt + µ − t , 2
t ∈ [0, T ],
mit zwei Parametern µ ∈ R und σ > 0 sowie einer Brownschen Bewegung W = (Wt )t∈[0,T ] beschrieben. S1 (t) soll den Preisprozess einer Aktie mit Trend µ und Volatilit¨ at σ modellieren. Im Jahre 1973 haben F. Black und M. Scholes [BS73] sowie R. Merton [Mer73] Arbeiten ver¨offentlicht, in denen eine Optionspreisformel f¨ ur diesen Finanzmarkt, die ber¨ uhmte Black-ScholesFormel, hergeleitet wird. Die aus heutiger Sicht bahnbrechende Publikation von Black und Scholes wurde damals zun¨ achst von mehreren renommierten Zeitschriften abgelehnt. Erst 24 Jahre sp¨ ater, im Jahre 1997, erhielten Mer¨ ton und Scholes den Okonomie-Nobelpreis, der zweite Namensgeber Black war 1995 verstorben. ♦ Eine Handelsstrategie wird durch einen Rd+1 -wertigen previsiblen und linksstetigen Prozess φ(t) = (φ0 (t), . . . , φd (t)),
t ∈ [0, T ],
beschrieben. Dabei bezeichnet φi (t) die Anteile des i-ten Finanzgutes Si , die man zum Zeitpunkt t in seinem Portfolio hat. Dementsprechend definiert man:
398
13 Zeitstetige Martingale
Definition 13.18 ((diskontierter) Preisprozess, Wertprozess). Der Wertprozess Vφ einer Handelsstrategie φ zum Zeitpunkt t ist gegeben durch das Skalarprodukt Vφ (t) := φ(t)S(t) =
d
φi (t)Si (t).
i=0
Der diskontierte Preisprozess S˜ ist gegeben durch ˜ := S(t) = 1, S1 (t) , . . . , Sd (t) . S(t) S0 (t) S0 (t) S0 (t) Der diskontierte Wertprozess V˜φ ergibt sich entsprechend als d Vφ (t) ˜ ˜ = φ(t)S(t) = φ0 (t) + Vφ (t) := φi (t)S˜i (t). S0 (t) i=1
Betrachten wir f¨ ur einen kurzen Moment noch einmal einen diskreten Markt mit den zwei Handelszeitpunkten 0 und T , so ist durch Gφ (T ) =
d
φi (0)(Si (T ) − Si (0))
i=0
der Gewinn erfasst, den wir zum Zeitpunkt T gemacht haben. Mit viel Phantasie kann man sich vorstellen, dass daraus im kontinuierlichen Fall ein Integral Gφ (t) =
d
t
φi (s)dSi (s)
i=0 0
wird. Dabei haben wir nat¨ urlich nirgendwo erkl¨art, was dieses Integral mit einem Semimartingal Si als Integrator u ¨berhaupt sein soll. Es handelt sich dabei um ein so genanntes stochastisches Integral, das wir f¨ ur den Spezialfall der Brownschen Bewegung im n¨ achsten Kapitel behandeln. F¨ ur unsere Zwecke gen¨ ugt es v¨ ollig, sich Gφ (t) als Gewinn (oder Verlust) zum Zeitpunkt t vorzustellen. Pr¨ azise k¨ onnen wir damit wiederum formulieren, wann eine Handelsstrategie selbstfinanzierend heißt: Eine Handelsstrategie φ heißt selbstfinanzierend, wenn gilt: Vφ (t) = Vφ (0) + Gφ (t)
f¨ ur alle t ∈ [0, T ].
Dies bedeutet, dass s¨ amtliche Wertver¨ anderungen des Portfolios aus Kapitalgewinnen hervorgegangen sind, nicht etwa durch Geldzufluss oder Geldentzug. Bezeichnen wir den diskontierten Gewinnprozess mit
13.5 Anwendung Finanzmathematik: Preisformeln
˜ φ (t) := Gφ (t) , G S0 (t)
399
t ∈ [0, T ],
so gilt offensichtlich f¨ ur eine selbstfinanzierende Handelsstrategie φ: ˜ φ (t) V˜φ (t) = V˜φ (0) + G
f¨ ur alle t ∈ [0, T ].
(13.10)
Arbitrage und ¨ aquivalente Martingalmaße Wir haben bereits in unserem einf¨ uhrenden Einperiodenmodell gesehen, dass wir genau dann Arbitragefreiheit erreicht haben, wenn der Optionspreis mit Hilfe eines ¨ aquivalenten Martingalmaßes berechnet werden kann. Um die analogen Aussagen f¨ ur stetige Finanzm¨ arkte formulieren zu k¨onnen, definieren wir zun¨ achst die Begriffe Arbitragem¨ oglichkeit sowie ¨aquivalentes Martingalmaß. Definition 13.19 (Arbitragem¨ oglichkeit). Eine selbstfinanzierende Handelsstrategie φ heißt Arbitragem¨ oglichkeit, falls f¨ ur den Wertprozess Vφ gilt: Vφ (0) = 0, P(Vφ (T ) ≥ 0) = 1, P(Vφ (T ) > 0) > 0. Die Interpretation dieser drei Bedingungen ist die Folgende: Wir starten mit einem wertlosen Portfolio (Vφ (0) = 0), stehen am Ende sicher nicht schlechter da (P(Vφ (T ) ≥ 0) = 1), haben aber mit positiver Wahrscheinlichkeit einen Gewinn erzielt (P(Vφ (T ) > 0) > 0). Genau diese Form risikofreien Gewinns aus dem Nichts bezeichnet man als Arbitragem¨ oglichkeit, die in einem gut funktionierenden Markt nicht (oder nur sehr kurzzeitig) vorhanden sein sollte. Wie im Einperiodenmodell gibt es auch in diesem viel komplexeren Marktmodell einen Zusammenhang zwischen Arbitrage und ¨aquivalenten Martingalmaßen: Definition 13.20 (¨ aquivalentes Martingalmaß). Ein Wahrscheinlichkeitsmaß Q auf (Ω, F) heißt ¨ aquivalentes Martingalmaß, falls gilt: (i) Q ist ¨ aquivalent zu P (d.h. Q und P haben dieselben Nullmengen), (ii) der diskontierte Preisprozess S˜ ist unter Q ein Martingal. Bezeichnen wir schließlich mit Φ die Menge derjenigen Handelsstrategien φ, f¨ ur die V˜φ (t) ≥ 0 f¨ ur alle t ≥ 0 gilt, so k¨ onnen wir als erstes Teilresultat formulieren: Satz 13.21. Es gebe ein ¨ aquivalentes Martingalmaß Q. Dann gibt es innerhalb von Φ keine Arbitragem¨ oglichkeit.
400
13 Zeitstetige Martingale
Nat¨ urlich stellt sich sofort die Frage nach der Umkehrung dieser Aussage. Diese ist, im Gegensatz zu diskreten Marktmodellen, im Allgemeinen falsch. Daher ist viel Arbeit investiert worden, um die No-Arbitrage-Bedingung durch eine alternative Bedingung zu ersetzen. Diese alternative Forderung sollte einerseits ¨ okonomisch interpretierbar und andererseits ¨aquivalent zur Existenz eines ¨ aquivalenten Martingalmaßes sein. Zufriedenstellend ist dies erst in den 90er Jahren gelungen. Delbaen und Schachermayer [DS94] geben eine solche Bedingung an, die sie no free lunch with vanishing risk“ (NFLVR) nennen. ” (NFLVR) erg¨ anzt die rein algebraisch formulierbare No-Arbitrage-Bedingung um eine topologische Bedingung. Die zur exakten Beschreibung ben¨otigten Begriffe und Beweise sind sehr technisch, so dass wir darauf verzichten und den an dieser Frage interessierten Leser auf die Originalarbeiten [DS94] und [DS00] verweisen. Wir werden im Folgenden, so wie es in der t¨aglichen Praxis der Financial Engineers in den Banken geschieht, die Existenz eines ¨aquivalenten Martingalmaßes voraussetzen. Eine Bewertungsformel Der Halter einer Option besitzt einen Anspruch gegen¨ uber dem Verk¨aufer der Option, deren H¨ ohe im Allgemeinen vom Zufall abh¨angig ist. Wir u ¨bernehmen daher die international u ¨bliche Bezeichnung Claim“. Ein T -Claim ist ” eine nichtnegative FT -messbare Zufallsvariable X. Definition 13.22 (absicherbarer Claim). Sei P∗ ein ¨ aquivalentes Martingalmaß und X ein T -Claim. Dann heißt X absicherbar, falls es eine selbstfinanzierende Handelsstrategie φ gibt, f¨ ur die der Gewinnprozess Gφ ein P∗ -Martingal ist und Vφ (T ) = X. Ein Markt heißt vollst¨ andig, falls jeder T -Claim absicherbar ist. Ist X ein absicherbarer T -Claim, so gibt es also eine selbstfinanzierende Handelsstrategie φ mit Vφ (T ) = X. In diesem Fall heißt φ Hedging-Strategie oder replizierendes Portfolio. Vom ¨ okonomischen Standpunkt aus gesehen bedeutet Vφ (T ) = X, dass der Besitz des Claims X und der Besitz des replizierenden Portfolios gleichwertig sind. Daher muss der faire, d.h. keine ArbitrageM¨oglichkeit bietende Preis ΠX (t) des Claims X gegeben sein durch ΠX (t) = Vφ (t),
t ∈ [0, T ].
F¨ ur eine Hedging-Strategie l¨ asst sich Vφ jedoch bestimmen, was zu folgender zentraler Bewertungsformel f¨ uhrt: Theorem 13.23 (Bewertungsformel f¨ ur absicherbare Claims). Sei P∗ ein ¨ aquivalentes Martingalmaß und X ein absicherbarer T -Claim. Dann ist der faire Preis ΠX von X gegeben durch
13.5 Anwendung Finanzmathematik: Preisformeln
ΠX (t) = S0 (t)E∗
X Ft , S0 (T )
401
t ∈ [0, T ].
Insbesondere folgt (da S0 (0) = 1 und F0 = {∅, Ω}) X ∗ ΠX (0) = E . S0 (T )
(13.11)
Beweis. Der Beweis dieses Schl¨ usselresultats f¨ ur die Bewertung von Derivaten ist nicht schwer: Es werde X durch die Hedging-Strategie φ abgesichert. Dann ˜ φ ein P∗ -Martingal. Nach Gleichung ist definitionsgem¨ aß Vφ (T ) = X und G ˜ ˜ ˜ (13.10) gilt Vφ (t) = Vφ (0) + Gφ , daher ist auch V˜φ ein P∗ -Martingal, und es folgt f¨ ur jedes t ∈ [0, T ]: ΠX (t) = Vφ (t) = S0 (t)V˜φ (t) ∗
= S0 (t)E (V˜φ (T )|Ft ) = S0 (t)E∗ X ∗ Ft . = S0 (t)E S0 (T )
Vφ (T ) Ft S0 (T )
Diese Bewertungsformel, speziell Gleichung (13.11), ist das zeitstetige Analogon zu Gleichung (13.9) im Einperiodenmodell. Auch wenn wir hier die Existenz des a ¨quivalenten Wahrscheinlichkeitsmaßes vorausgesetzt haben, so sollte der Preis eines Claims nicht von der Wahl des a¨quivalenten Wahrscheinangen. Dies wird unter bestimmten technischen Vorauslichkeitsmaßes P∗ abh¨ setzungen (vgl. [HP81] oder [MR97]) gerade durch die Vollst¨andigkeit eines Marktes sichergestellt. Ohne R¨ ucksicht auf diese Details k¨onnen wir also die Situation in kontinuierlichen Finanzm¨ arkten so zusammenfassen: (i) Existiert ein ¨ aquivalentes Martingalmaß, so gibt es keine ArbitrageM¨ oglichkeit. Die Umkehrung gilt unter einer zus¨atzlichen topologischen Bedingung (NFLVR). (ii) In einem arbitragefreien Markt ist das ¨ aquivalente Martingalmaß genau dann eindeutig bestimmt, wenn der Markt vollst¨andig ist. Genau wie schon beim Einperiodenmodell (vgl. (13.9) und (13.11)) ergibt sich f¨ ur den fairen Preis einer Option: (iii) Der arbitragefreie Preis eines Claims kann als diskontierter Erwartungswert bez¨ uglich des ¨ aquivalenten Martingalmaßes berechnet werden. Die Bewertung eines Swaps Wir wollen die Preisformel auf ein konkretes Beispiel, einen so genannten Swap, anwenden. Ein Swap ist einer der am h¨aufigsten gehandelten Claims
402
13 Zeitstetige Martingale
im Zinsbereich, das Nominalvolumen aller Swaps weltweit betrug im Jahr 1998 etwa 33 Billionen Dollar. Die Grundidee bei einem Swap ist der Austausch eines festen Zinssatzes gegen einen variablen Zinssatz: Ein Vertragspartner erh¨ alt zu festgelegten Zeitpunkten Zinszahlungen in H¨ohe eines zu Vertragsbeginn festgelegten Zinssatzes R. Die Gegenseite erh¨alt ebenfalls zu festgelegten Zeitpunkten Zinszahlungen, allerdings ist der Zinssatz variabel. Unser Marktmodell besteht aus einem Wahrscheinlichkeitsraum (Ω, F, P) , einer Filtration F und d so genannten Zero-Coupon-Bonds S1 , . . . , Sd . Ein Zero-Coupon-Bond mit Laufzeit T ∗ ∈ [0, T ], kurz T ∗ -Bond, ist ein Vertrag, der dem Besitzer die Auszahlung von 1 (z.B. Euro) zum Zeitpunkt T ∗ garantiert. Es seien T1 , . . . , Td die Laufzeiten der Bonds S1 , . . . , Sd . Den Preis, der f¨ ur den Bond Si zum Zeitpunkt t, t ∈ [0, Ti ], zu zahlen ist, bezeichnen wir mit ur alle i = 1, . . . , d. Als Num´eraire p(t, Ti ). Offensichtlich gilt p(Ti , Ti ) = 1 f¨ betrachten wir wiederum den Prozess S0 (t) = B(t), t r(s)ds , B(t) = exp 0
mit einem stetigen Prozess r(t) mit fast sicher positiven Pfaden. Dieses Marktmodell heißt Bond-Markt. Ist P∗ in diesem Markt ein ¨aquivalentes Martingalmaß, so gilt definitionsgem¨ aß f¨ ur die diskontierten Preisprozesse der Ti -Bonds: p(t, Ti ) , B(t)
t ∈ [0, Ti ] ist ein P∗ -Martingal.
Aus unserer Preisformel 13.23 erhalten wir: aquiKorollar 13.24 (Bewertungsformel im Bond-Markt). Sei P∗ ein ¨ valentes Martingalmaß im Bond-Markt und X ein absicherbarer T -Claim. Dann ist der faire Preis ΠX von X gegeben durch T X ∗ ∗ F ΠX (t) = B(t)E r(s)ds X exp − = E Ft , t ∈ [0, T ]. t B(T ) t Insbesondere folgt f¨ ur den Preis eines Ti -Bonds: Ti p(t, Ti ) = E∗ exp − r(s)ds Ft , t
t ∈ [0, Ti ].
Um einen Swap zu definieren, zerlegen wir das Zeitintervall [0, T ] in n ¨aquidistante Zeitintervalle der L¨ ange δ > 0: T0 < T1 < . . . < Tn
mit Ti+1 − Ti = δ,
i = 0, . . . , n − 1.
Weiter gegeben sind eine feste Zinsrate R und ein fixierter Betrag K. Aus Sicht des Festzinszahlers besteht ein Swap X nun aus einer Folge von n Auszahlungen Xi+1 zu den Zeitpunkten Ti+1 , i = 0, . . . , n − 1, wobei die (i + 1)-te Auszahlung Xi+1 bestimmt ist durch
13.5 Anwendung Finanzmathematik: Preisformeln
Xi+1 = Kδ(L(Ti ) − R),
403
i = 0, . . . , n − 1.
ur den Zeitraum [Ti , Ti+1 ], f¨ ur den wir Dabei ist L(Ti ) ein variabler Zinssatz f¨ vereinbaren: 1 1 −1 , i = 0, . . . , n − 1. L(Ti ) := p(Ti , Ti+1 ) δ Dies ist ¨ aquivalent zu p(Ti , Ti+1 )(1 + δL(Ti )) = 1. Daraus ergibt sich folgende Interpretation der Definition von L(Ti ): Wird der Betrag p(Ti , Ti+1 ) zum Zeitpunkt Ti angelegt und mit dem Zinssatz L(Ti ) u ¨ber den Zeitraum δ ohne Zinseszins, also einfach verzinst, so erh¨alt man zum Zeitpunkt Ti+1 den Betrag 1. Daher heißt dieser Zinssatz auch simple ” rate“. Der Swap X = X1 + . . . + Xn werde nun zum Zeitpunkt t abgeschlossen. Was ist der faire Preis ΠX (t)? Nach Korollar 13.24 gilt mit K = 1: ⎡ ⎛ T ⎞ ⎤ i n ∗⎣ ⎝ ⎠ ΠX (t) = E δ(L(Ti−1 ) − R) exp − r(s)ds Ft ⎦ i=1 t ⎡ ⎛ T ⎞ ⎤ i n 1 ∗⎣ ⎝ ⎠ = − (1 + δR) exp − r(s)ds Ft ⎦ E p(Ti−1 , Ti ) i=1 t n 1 = − (1 + δR) E∗ p(Ti−1 , Ti ) i=1 ⎛ ⎤ ⎤ ⎞ ⎛ ⎞ ⎡ T i−1 Ti ⎜ ⎥ ⎥ ⎟ ⎜ ∗⎢ ⎠ exp ⎝ − r(s)ds E ⎣ exp ⎝− r(s)ds⎠ FTi−1 ⎦ Ft ⎦ t Ti−1 =
n
[p(t, Ti−1 ) − (1 + δR)p(t, Ti )].
i=1
Setzen wir ci := δR, i = 1, . . . , n − 1, und cn := 1 + δR, so erhalten wir als Preis f¨ ur den Swap ΠX (t) = p(t, T0 ) −
n
ci p(t, Ti ).
i=1
Der Preis des Swaps kann also vollst¨ andig durch die Kenntnis der Preise p(t, Ti ) der Ti -Bonds zum Zeitpunkt t bestimmt werden. Wir haben den fixierten Zinssatz R bisher als bekannt vorausgesetzt. Die ˆ swap rate“ R(t) ist als derjenige Zinssatz definiert, f¨ ur den ΠX (t) = 0 gilt. ” Aus obiger Gleichung k¨ onnen wir die swap rate leicht bestimmen:
404
13 Zeitstetige Martingale
ˆ 0 = p(t, T0 ) − R(t)δ
n
p(t, Ti ) − p(t, Tn )
i=1
ist ¨ aquivalent zu
ˆ = p(t, T0 ) − p(t, Tn ) . R(t) n δ p(t, Ti ) i=1
Der von uns hier beschriebene Swap heißt in der Literatur auch Forward ” Swap settled in arrears“. Es gibt viele weitere Swap-Varianten, bei denen verschiedenste Zinss¨ atze getauscht werden. So sind in der Praxis meist die Auszahlungszeitpunkte auf der Festzinsseite und auf der variablen Seite unterschiedlich, man ben¨ otigt daher zwei Zeitspannen δR und δL . Typisch sind z.B. Swaps mit einer Laufzeit von zwei bis zu 10 Jahren, bei denen der feste Zins j¨ ahrlich und der variable Zins halbj¨ ahrlich ausbezahlt werden. Als variabler Zins werden in Europa z.B. der LIBOR (London Inter-Bank Offer Rate) oder der EURIBOR (Euro Inter-Bank Offer Rate) verwendet, die jeweils einmal am Tag in London bzw. Br¨ ussel gefixed“, also auf einen bestimm” ten Wert festgeschrieben werden. Grunds¨ atzlich sind LIBOR und EURIBOR Zinss¨ atze, zu denen Banken untereinander Geld leihen. In der Praxis werden die swap rates f¨ ur viele ganzzahlige Laufzeiten, z.B. 1 bis 10, 12, 15 und 20 Jahre, st¨ andig am Markt quotiert und fließen daher umgekehrt in die Berechnung anderer fairer Preise ein. Nach Abschluss eines Swaps, wenn eine nicht ganzzahlige Restlaufzeit verbleibt, m¨ ussen die swap rates jedoch tats¨achlich berechnet werden.
14 Itˆ o-Integrale
Das Ziel dieses Kapitels ist die Definition eines sinnvollen Integralbegriffs t Xs dBs 0
f¨ ur eine hinreichend große Klasse von Integranden (Xt )t≥0 und f¨ ur eine Brownsche Bewegung (Bt )t≥0 als Integrator. Bei diesem stochastischen Integral handelt es sich um das zeitstetige Analogon zur Martingaltransformierten (H.X)n :=
n
Hk (Xk − Xk−1 ),
n ∈ N0 ,
k=1
eines Spielsystems H und eines (zeitdiskreten) Martingals X, vgl. Definition 11.11. Man k¨ onnte daher zur Definition des stochastischen Integrals folgenden Ansatz w¨ ahlen: t Xs dBs (ω) = lim
n→∞
0
Xti (ω)(Bti+1 (ω) − Bti (ω)),
ω ∈ Ω,
(14.1)
ti ∈Πn
wobei (Πn )n∈N eine Folge von Zerlegungen des Intervall [0, t] mit |Πn | → 0 ist. Dieser pfadweise (d.h. f¨ ur jedes einzelne ω ∈ Ω) definierte Ansatz schl¨agt wegen der unbeschr¨ ankten Variation der Pfade einer Brownschen Bewegung fehl. Um dies zu beweisen, werden wir im ersten Abschnitt pfadweise definierte Integrale und ihre Eigenschaften untersuchen. In den folgenden Abschnitten f¨ uhrt uns ein neuer Ansatz zum Itˆ o-Integral und seinen fundamentalen Eigenschaften.
406
14 Itˆ o-Integrale
14.1 Stieltjes-Integrale und Variation Da wir in diesem Abschnitt pfadweise definierte Integrale untersuchen wollen, betrachten wir zun¨ achst keine stochastischen Prozesse, sondern reellwertige Funktionen. Stieltjes-Integrale Wir erinnern daran, dass es zu jeder rechtsstetigen, monoton wachsenden Funktion F :R→R ein eindeutig bestimmtes, so genanntes Lebesgue-Stieltjes-Maß λF gibt, f¨ ur das ur alle ]a, b] ⊂ R λF (]a, b]) = F (b) − F (a) f¨ gilt, s. Theorem A.8. Aus diesem Grund heißen rechtsstetige, monoton wachsende Funktionen F : R → R maßerzeugend. Das Lebesgue-Integral einer λF -integrierbaren Funktion g heißt Stieltjes-Integral: gdλF , A ∈ B. A
Ist F = id : R → R, id(x) := x, die Identit¨ at auf R, so ist das zugeh¨orige Lebesgue-Stieltjes-Maß das Lebesgue-Maß: λid = λ. F¨ ur das LebesgueIntegral haben wir in Satz 2.17 gezeigt, dass es f¨ ur eine Riemann-integrierbare Funktion g mit dem Riemann-Integral u ¨bereinstimmt: t
gdλ =
g(x)dx. 0
[0,t]
Ist (Πn ), Πn = {0 = tn0 , tn1 , . . . , tnr = t}, eine Folge von Zerlegungen des Interonnen wir das Riemann-Integral auf der rechten valls [0, t] mit |Πn | → 0, so k¨ Seite durch den Grenzwert der Riemann-Summen ersetzen und erhalten: r r gdλ = lim g(tnk−1 )(tnk − tnk−1 ) = lim g(tnk−1 )[id(tnk ) − id(tnk−1 )]. n→∞
[0,t]
n→∞
k=1
k=1
Da das Lebesgue-Maß λ den Spezialfall F = id darstellt, ist es eine nahe liegende Vermutung, dass wir in obiger Gleichung allgemein λ durch λF und id durch F ersetzen d¨ urfen. Dies f¨ uhrt zu der Gleichung gdλF = lim
n→∞
[0,t]
r k=1
g(tnk−1 )[F (tnk ) − F (tnk−1 )].
(14.2)
14.1 Stieltjes-Integrale und Variation
407
Sofern die rechte Seite konvergiert, ist diese Aussage richtig, wie wir im nachfolgenden Satz zeigen werden. Zur Vereinfachung der Notation f¨ uhren wir vorher einige Begriffe ein: Definition 14.1 (F -Integral). Es seien F, g : R → R Funktionen. F¨ ur eine Zerlegung Π = {0 = t0 , t1 , . . . , tr = t} des Intervalls [0, t] sei
gdF :=
Π
r
g(tk−1 )[F (tk ) − F (tk−1 )].
k=1
Die Funktion g heißt F -integrierbar auf [0, t], wenn t gdF := lim
|Π|→0
0
t
in R existiert.
gdF
Π
gdF heißt das F -Integral von g.
0
Jetzt k¨ onnen wir die zu Satz 2.17 analoge Aussage, die wir bereits in (14.2) vermutet haben, f¨ ur Stieltjes- und F -Integrale beweisen. Satz 14.2. Es sei F : R → R eine maßerzeugende Funktion und g : R+ → R linksstetig sowie lokal, d.h. auf jedem Intervall [0, t], t ≥ 0, beschr¨ ankt. Dann ist g F -integrierbar und: t
gdλF =
gdF,
t ≥ 0.
0
[0,t]
Beweis. F¨ ur eine Zerlegung Π = {0 = t0 , t1 , . . . , tr = t} des Intervalls [0, t] r setzen wir gΠ := g(tk−1 )I]tk−1 ,tk ] . Sei (Πn ) eine Folge von Zerlegungen des k=1
Intervalls [0, t] mit |Πn | → 0. Nach Voraussetzung ist g linksstetig, daher gilt: ur alle 0 ≤ s ≤ t. gΠn (s) −→ g(s) f¨ Da (gΠn ) eine Folge messbarer Treppenfunktionen ist, folgt gdF = gΠn dλF −→ gdλF . Πn
[0,t]
[0,t]
Aus der lokalen Beschr¨ anktheit von g folgt gdλF < ∞, d.h. g ist F [0,t] integrierbar und gdF konvergiert gegen gdλF , wie behauptet. Πn
[0,t]
408
14 Itˆ o-Integrale
Funktionen mit endlicher Variation Das Lebesgue-Stieltjes-Maß und das Stieltjes-Integral stehen uns f¨ ur jede maßerzeugende Funktionen F zur Verf¨ ugung. Andererseits erm¨oglicht uns Satz 14.2, das Stieltjes-Integral einer maßerzeugenden Funktion F ganz ohne Lebesgue-Integrale als F -Integral, also als Grenzwert einer Summe t
gdλF = [0,t]
gdF = lim
n→∞
0
gdF,
t ≥ 0,
Πn
zu erhalten. Es ist daher eine nahe liegende Frage, ob die rechte Seite der Gleichung, also das F -Integral, f¨ ur eine gr¨ oßere Klasse als die maßerzeugenden Funktionen sinnvoll erkl¨ art werden kann. Wir zeigen im Folgenden, dass dies f¨ ur Funktionen mit endlicher Variation der Fall ist. Wir erinnern daran, dass f¨ ur eine Funktion f : R+ → R die (lineare) Variation auf dem Intervall [0, t] gegeben ist durch Vt (f ) = sup VΠ (f ), Π
wobei f¨ ur Π = {0 = t0 , . . . , tr = t} VΠ (f ) =
r
|f (tk ) − f (tk−1 )|
k=1
gilt. Eine Funktion f : R+ → R heißt von endlicher Variation, wenn Vt (f ) f¨ ur jedes t ≥ 0 endlich ist. Beispiel 14.3 (Monotone Funktionen). Ist f : R+ → R monoton wachsend oder monoton fallend, so ist f von endlicher Variation. Denn es ist offensichtlich Vt (f ) = |f (t) − f (0)|, t ≥ 0. ♦ Den entscheidenden Zusammenhang zwischen Funktionen von endlicher Variation und maßerzeugenden Funktionen liefert der folgende Satz: Satz 14.4. Es sei f : R+ → R. Dann gilt: (i) f ist genau dann von endlicher Variation, wenn f eine Differenz von zwei monoton wachsenden Funktionen ist. (ii) f ist genau dann rechtsstetig und von endlicher Variation, wenn f eine Differenz von zwei maßerzeugenden Funktionen ist. Beweis. (i) Ist f = F − G eine Differenz von zwei monoton wachsenden Funktionen, so haben F und G nach Beispiel 14.3 endliche Variation. Weiter folgt mit der Dreiecksungleichung
14.1 Stieltjes-Integrale und Variation
409
Vt (f ) = Vt (F − G) ≤ Vt (F ) + Vt (G), daher ist auch f von endlicher Variation. Setzen wir umgekehrt f von endlicher Variation voraus, so zeigen wir zun¨ achst, dass Vt (f ) − f (t) monoton wachsend ist. Dazu sei ε > 0, s ≤ t und Π0 = {0 = t0 , . . . , tr = s} eine Zerlegung des Intervalls [0, s], so dass VΠ0 (f ) ≥ Vs (f ) − ε ist. Dann gilt f¨ ur jede Zerlegung Π = {0 = t0 , . . . , tr = s, tr+1 , . . . , tn = t}, die Π0 auf das Intervall [0, t] fortsetzt: VΠ (f ) − VΠ0 (f ) =
n
|f (tk ) − f (tk−1 )| ≥ |f (t) − f (s)|.
k=r+1
Bilden wir die Differenz von Vt (f ) − f (t) und Vs (f ) − f (s), so erhalten wir: Vt (f ) − f (t) − [Vs (f ) − f (s)] ≥ Vt (f ) − Vs (f ) − |f (t) − f (s)| ≥ VΠ (f ) − VΠ0 (f ) − ε − |f (t) − f (s)| ≥ −ε. Da ε > 0 beliebig gew¨ ahlt war, folgt Vs (f ) − f (s) ≤ Vt (f ) − f (t),
s ≤ t,
also die Monotonie von Vt (f ) − f (t). Offensichtlich ist t → Vt (f ) monoton wachsend, daher ist f (t) = Vt (f ) − [Vt (f ) − f (t)],
t ≥ 0,
eine Differenz zweier monoton wachsender Funktionen. (ii) Nach dem gerade gezeigten Teil (i) gen¨ ugt es zu zeigen, dass Vf (t) rechtsstetig ist, wenn f rechtsstetig ist. Dazu sei ε > 0, t > x ≥ 0, und Π0 = {0 = t0 , . . . , tr = t} eine Zerlegung des Intervalls [0, t], so dass f¨ ur jede Verfeinerung Π von Π0 , d.h. Π0 ⊂ Π, gilt: Vt (f ) − VΠ (f ) < ε. Es sei (xn ) eine Folge mit xn > x f¨ ur alle n ∈ N und xn ↓ x. Dann gibt es einen Index k ∈ {0, . . . , r − 1} und ein n0 ∈ N, so dass tk ≤ x < xn < tk+1
f¨ ur alle n ≥ n0 .
Verfeinern wir Π0 durch Hinzunahme der Punkte x und xn f¨ ur ein fest gew¨ ahltes n ≥ n0 zu einer Zerlegung Π, so folgt:
410
14 Itˆ o-Integrale
ε > Vt (f ) − VΠ (f ) = Vt (f ) − Vxn (f ) + Vxn (f ) − Vx (f ) + Vx (f ) −(|f (tr ) − f (tr−1 )| + . . . + |f (tk+1 ) − f (xn )| +|f (xn ) − f (x)| + |f (x) − f (tk )| + . . . + |f (t1 ) − f (t0 )|) = Vt (f ) − Vxn (f ) − (|f (tr ) − f (tr−1 )| + . . . + |f (tk+1 ) − f (xn )|) +Vxn (f ) − Vx (f ) − (|f (xn ) − f (x)|) +Vx (f ) − (|f (x) − f (tk )| + . . . + |f (t1 ) − f (t0 )|) ≥ Vxn (f ) − Vx (f ) − (|f (xn ) − f (x)|) ≥ 0. Lassen wir in 0 ≤ Vxn (f ) − Vx (f ) − (|f (xn ) − f (x)|) < ε (xn ) von oben gegen x konvergieren, so folgt aus der Rechtsstetigkeit von f in x die Rechtsstetigkeit von Vt (f ) in x, da ε > 0 beliebig war. Ist f = F − G Differenz zweier maßerzeugender Funktionen, so existiert mit den Integralen nach F und G auch das f -Integral: Satz 14.5. Es sei f : R+ → R eine rechtsstetige Funktion von endlicher Variation und g : R+ → R linksstetig sowie lokal, d.h. auf jedem Intervall [0, t], t ≥ 0, beschr¨ ankt. Dann ist g f -integrierbar, d.h: t gdf = lim
|Π|→0
0
gdf
existiert in R.
Π
Beweis. Es sei f = F − G mit zwei maßerzeugenden Funktionen F, G wie in Satz 14.4. Dann gilt f¨ ur jede Zerlegung Π des Intervalls [0, t]: gdf = gdF − gdG. Π
Π
Π
Nach Satz 14.2 konvergieren die beiden Terme auf der rechten Seite f¨ ur |Π| → 0, also gilt dies auch f¨ ur die linke Seite. Damit haben wir das Stieltjes-Integral auf Funktionen mit endlicher Variation als Integratoren erweitert. Ist (Yt )t≥0 ein Prozess mit pfadweise endlicher Variation, so k¨ onnen wir auf diese Weise ein stochastisches Integral mit (Yt )t≥0 als Integrator definieren:
14.1 Stieltjes-Integrale und Variation
411
Definition 14.6 (stochastisches Integral f¨ ur Prozesse mit endlicher ankVariation). Sei X = (Xt )t≥0 ein linksstetiger Prozess mit lokal beschr¨ ten Pfaden und Y = (Yt )t≥0 ein rechtsstetiger Prozess mit Pfaden von endlit cher Variation. Dann heißt die Zufallsvariable Xs dYs , definiert durch das 0
pfadweise Stieltjes-Integral ⎛ t ⎞ t ⎝ Xs dYs ⎠ (ω) := X. (ω)dY. (ω), 0
ω ∈ Ω,
0
stochastisches Integral von X nach Y .
Funktionen unbeschr¨ ankter Variation Wir haben bisher noch kein stochastisches Integral t Xs dBs 0
nach einer Brownschen Bewegung B = (Bt )t≥0 definiert, da die Brownsche Bewegung nach Satz 12.16 fast sicher unbeschr¨ ankte Variation hat. Man k¨onnte versuchen, den gleichen Weg wie bei Funktionen endlicher Variation zu gehen, also das pfadweise B. (ω)-Integral zu betrachten. Dies ist jedoch nicht m¨oglich, wie das folgende Resultat zeigt: Satz 14.7. Es sei C[0, t] der Raum der stetigen Funktionen auf [0, t] und F : R+ → R eine reelle Funktion. Ist jedes g ∈ C[0, t] F -integrierbar, so ist F auf dem Intervall [0, t] von endlicher Variation. Beweis. Wir w¨ ahlen ohne Einschr¨ ankung der Allgemeinheit t = 1. F¨ ur eine fest gew¨ ahlte Zerlegung Π = {t0 , . . . , tr } des Intervalls [0, 1] betrachten wir die Abbildung SΠ : C[0, 1] −→ R, SΠ (g) := gdF. Π
Wir zeigen, dass SΠ eine stetige Linearform auf dem Banach-Raum C[0, 1] (mit der Supremumsnorm) nach R ist. Die Linearit¨at von SΠ ist offensichtlich. F¨ ur den Nachweis der Stetigkeit gen¨ ugt es zu zeigen, dass die Norm SΠ von aß ist die Norm von SΠ SΠ endlich ist. Definitionsgem¨ SΠ = sup{|SΠ (g)| : g ∈ C[0, 1], g = 1}.
412
14 Itˆ o-Integrale
Es folgt zun¨ achst |SΠ (g)| = |
gdF | ≤ g VΠ (F ),
g ∈ C[0, 1],
Π
also insbesondere SΠ ≤ VΠ (F ) < ∞.
(14.3)
Damit ist SΠ eine Linearform mit beschr¨ ankter Norm, also stetig. Wir k¨onnen ahlen wir ein g0 ∈ C[0, 1] mit die Norm von SΠ genau bestimmen. Denn w¨ g0 = 1 und +1 f¨ ur F (tk ) − F (tk−1 ) ≥ 0, g0 (tk−1 ) = k = 1, . . . , r, −1 f¨ ur F (tk ) − F (tk−1 ) < 0, so ist |SΠ (g0 )| = | =
Π r
g0 dF | = |
r
g(tk−1 )[F (tk ) − F (tk−1 )]|
k=1
|[F (tk ) − F (tk−1 )]| = VΠ (F ).
k=1
Mit (14.3) ergibt sich SΠ = VΠ (F ). Da jedes g ∈ C[0, 1] F -integrierbar ist, gilt 1 gdF ∈ R
lim SΠ (g) =
|Π|→0
f¨ ur alle g ∈ C[0, 1].
0
Wir w¨ ahlen eine Folge (Πn ) von Zerlegungen mit |Πn | → 0 und lim VΠn (F ) = sup VΠ (F ).
n→∞
Π
Wenden wir das Theorem von Banach-Steinhaus B.14 auf die Folge (SΠn ) an, so folgt V1 (F ) = sup VΠ (F ) = sup SΠ < ∞. Π
Π
Damit ist die Funktion F auf [0, 1] von endlicher Variation.
Das letzte Resultat besagt, dass wir ein pfadweise berechnetes Integral der Gestalt (14.1) f¨ ur eine Brownsche Bewegung nicht einmal dann definieren k¨ onnten, wenn wir uns auf stetige Funktionen als Integranden beschr¨anken w¨ urden. Sobald wir stetige Funktionen pfadweise integrieren wollen, muss der Integrator von endlicher Variation sein. Unser Ziel, ein stochastisches Integral f¨ ur die Brownsche Bewegung als Integrator zu definieren, zwingt uns daher zu einem fundamental neuen Ansatz, der Gegenstand des n¨achsten Abschnitts ist.
14.2 Das Itˆ o-Integral
413
14.2 Das Itˆ o-Integral In diesem Abschnitt gehen wir von einem vollst¨andigen Wahrscheinlichkeitsraum (Ω, F, P) mit einer Standardfiltration F = (Ft )t≥0 aus, die also den u ugt. Die Definition des Itˆ o-Integrals verl¨auft in meh¨blichen Bedingungen gen¨ reren Schritten f¨ ur eine immer gr¨ oßer werdende Klasse von Integranden. Als ¨ Leitfaden f¨ ur die n¨ achsten Seiten geben wir zun¨achst einen Uberblick. ¨ Das Itˆ o-Integral im Uberblick Die Integranden m¨ ussen stets eine gewisse Integrierbarkeitsbedingung und eine Messbarkeitsbedingung erf¨ ullen. In unserem Zusammenhang, d.h. f¨ ur die Integration nach einer Brownschen Bewegung, gen¨ ugt es, wenn die Integranden progressiv messbar sind. Wir erinnern daran, dass ein reeller stochastiuglich F) ist, wenn f¨ ur alle scher Prozess X = (Xt )t≥0 progressiv messbar (bez¨ t≥0 X : Ω × [0, t] −→ R, (ω, s) → Xs (ω) Ft ⊗ B[0, t]-messbar ist. Wir bezeichnen mit P die Menge der (bez¨ uglich F) progressiv messbaren Prozesse. Die ben¨ otigten Integrierbarkeitsbedingungen beschreiben wir im Folgenden: (i) Ist X ein reeller Prozess mit einer Darstellung X=
n
Hi I]ti−1 ,ti ] ,
n ∈ N, 0 ≤ t0 < t1 < . . . < tn < ∞,
i=1
Hi Fti−1 -messbar, i = 1, . . . , n, so heißt X elementarer Prozess. Die Menge der elementaren Prozesse bezeichnen wir mit E. Offensichtlich ist jeder elementare Prozess linksstetig und daher nach Beispiel 12.25 E ⊂ P. Weiter bezeichnen wir mit bE := X ∈ E : sup |Xt (ω)| < ∞ ω∈Ω,t≥0
die Menge der beschr¨ ankten elementaren Prozesse. (ii) Als Erweiterung der beschr¨ ankten elementaren Prozesse betrachten wir die Menge 4 5 P 2 := X ∈ P : XL2 (P⊗dt) < ∞ . Dabei haben wir die intuitive Schreibweise dt f¨ ur das Lebesgue-Maß auf R verwendet. Nach Definition ist X ∈ P 2 genau dann, wenn X progressiv messbar ist und ⎛∞ ⎞ E ⎝ Xs2 ds⎠ < ∞. 0
414
14 Itˆ o-Integrale
(iii) Schließlich betrachten wir die progressiv messbaren Prozesse, deren Integrale nur fast sicher endlich sind: ⎧ ⎫ ⎛∞ ⎞ ⎨ ⎬ 2 := X ∈ P : P ⎝ Xs2 ds < ∞⎠ = 1 . Ploc ⎩ ⎭ 0
Offensichtlich gelten folgende Inklusionen: 2 bE ⊂ P 2 ⊂ Ploc .
Die Definition des Itˆ o-Integrals verl¨ auft folgendermaßen entlang dieser Inklusionen: Ist X ein beschr¨ ankter elementarer Prozess, X=
n
Hi I]ti−1 ,ti ] ,
i=1
so definiert man das stochastische Integral (X.B)t :=
n
XdB = X.B durch
Hi (Bti ∧t − Bti−1 ∧t ).
i=1
Der entscheidende Schritt besteht in der Erweiterung des Integralbegriffs von bE auf P 2 . Dazu werden wir feststellen, dass X.B Element eines normierten Raums (M2 , ·M2 ) ist und weiter gilt: (i) bE liegt dicht in P 2 . (ii) F¨ ur jedes X ∈ bE gilt: XL2 (P⊗dt) = X.BM2 . (iii) (M2 , ·M2 ) ist ein Hilbert-Raum, also insbesondere vollst¨andig. Nun ist die Strategie klar: Zu X ∈ P 2 existiert wegen (i) eine Folge (Xn ) aus bE mit Xn −→ X. Dann ist (Xn ) eine Cauchy-Folge in L2 (P ⊗ dt) und wegen (ii) (Xn .B) eine Cauchy-Folge in M2 . Nach (iii) besitzt diese einen Grenzwert in M2 , den wir als Integral X.B definieren werden. 2 ben¨otigen F¨ ur die letzte Erweiterung des Integralbegriffs von P 2 auf Ploc wir die Technik der Lokalisierung, mit der wir uns im n¨achsten Abschnitt besch¨ aftigen. Das Itˆ o-Integral f¨ ur elementare Prozesse Wir beginnen nun damit, das oben skizzierte Programm im Detail vorzustellen. Um die Theorie stochastischer Prozesse auch f¨ ur das stochastische Integral nutzen zu k¨ onnen, betrachtet man das stochastische Integral mit variabler oberer Grenze und erh¨ alt so einen Prozess:
14.2 Das Itˆ o-Integral
415
Definition 14.8 (stochastisches Integral f¨ ur elementare Prozesse). Ist X ∈ bE ein elementarer Prozess mit der Darstellung X=
n
Hi I]ti−1 ,ti ] ,
n ∈ N, 0 ≤ t0 < t1 < . . . < tn < ∞,
i=1
Hi Fti−1 -messbar, i = 1, . . . , n, so definieren wir das stochastische Integral X.B = (X.B)t≥0 durch t (X.B)t :=
Xs dBs :=
n
Hi (Bti ∧t − Bti−1 ∧t ).
i=1
0
Es ist offensichtlich, dass das Integral X.B f¨ ur X ∈ bE wohldefiniert, d.h. unabh¨ angig von der Darstellung von X ist. Besitzt X die Darstellung X = HI]a,b] ,
H Fa -messbar,
so gilt t (X.B)t = 0
⎧ ⎪ ⎨0 Xs dBs = H(Bt − Ba ) ⎪ ⎩ H(Bb − Ba )
f¨ ur 0 ≤ t ≤ a, f¨ ur a ≤ t ≤ b, f¨ ur b ≤ t < ∞.
(14.4)
Eigenschaften des Itˆ o-Integrals elementarer Prozesse Von entscheidender Bedeutung f¨ ur die Theorie der stochastischen Integrale ist die Tatsache, dass der Integral-Prozess ein Martingal ist: Satz 14.9. Ist X ∈ bE, so ist X.B ein stetiges Martingal. Beweis. Wir gehen zun¨ achst davon aus, dass X = HI]a,b] mit einem Fa messbaren H gilt. Aus der Darstellung (14.4) folgt, dass (X.B)t Ft -messbar ur alle t ≥ 0 gilt. Ebenfalls aus der Darstellung (14.4) und E(|(X.B)t |) < ∞ f¨ ergibt sich, dass X.B stetige Pfade hat, und es gen¨ ugt, die Martingaleigenschaft f¨ ur a ≤ s ≤ t ≤ b zu u berpr¨ u fen. In diesem Fall erhalten wir mit der ¨ Fa -Messbarkeit von H und den Eigenschaften bedingter Erwartungen: E[(X.B)t − (X.B)s |Fs ] = E[H(Bt − Ba ) − H(Bs − Ba )|Fs ] = E[H(Bt − Bs )|Fs ] = HE[Bt − Bs |Fs ] = 0. Damit ist X.B ein Martingal. Sei nun X ∈ bE allgemein von der Gestalt
416
14 Itˆ o-Integrale
X=
n
Hi I]ti−1 ,ti ] .
i=1
Da das stochastische Integral offensichtlich linear ist, ist X.B als endliche Summe von Martingalen wieder ein Martingal. Weitere Eigenschaften des Itˆo-Integrals fassen wir im folgenden Satz zusammen: Satz 14.10. Es seien X, Y ∈ bE. Dann gilt: (i) Start in 0: (X.B)0 = 0 fast sicher. (ii) Linearit¨ at: F¨ ur α, β ∈ R gilt: (αX + βY ).B = α(X.B) + β(Y.B). (iii) F¨ ur t ≥ s gilt: E[(X.B)t |Fs ] = (X.B)s . (iv) F¨ ur t ≥ s gilt: ⎤ ⎡ t E[(X.B)2t − (X.B)2s |Fs ] = E ⎣ Xu2 duFs ⎦
fast sicher.
s
(v) Zt := (X.B)2t −
t
Xu2 du, t ≥ 0, ist ein Martingal.
0
Beweis. Die Eigenschaften (i) und (ii) sind nach Definition des Itˆ o-Integrals offensichtlich. In (iii) haben wir die Martingaleigenschaft lediglich wiederholt. (v) folgt unmittelbar aus (iv), es bleibt also (iv) zu zeigen. Dazu bemerken wir zun¨ achst, dass f¨ ur jedes Martingal Z und t ≥ s gilt: E[(Zt − Zs )2 |Fs ] = E[Zt2 − Zs2 |Fs ],
(14.5)
da E[2Zt Zs |Fs ] = 2Zs E[Zt |Fs ] = 2Zs2 . Der beschr¨ ankte elementare Prozess X habe die Darstellung X=
n
Hi I]ti−1 ,ti ] .
i=1
Wir w¨ ahlen zwei Indizes k und l, so dass tk−1 ≤ s < tk und tl ≤ t < tl+1 . Dann gilt f¨ ur i < j mit der Projektionseigenschaft bedingter Erwartungen E[Hi+1 Hj+1 (Bti+1 − Bti )(Btj+1 − Btj )|Fs ] = E[Hi+1 Hj+1 (Bti+1 − Bti )E(Btj+1 − Btj |Fj )|Fs ] = 0, und analog mit den Martingaleigenschaften von (Bt2 − t)
14.2 Das Itˆ o-Integral
417
2 2 E[Hi+1 (Bti+1 − Bti )2 |Fs ] = E[Hi+1 (ti+1 − ti )|Fs ].
Damit gilt nach Definition des Itˆ o-Integrals unter mehrfacher Verwendung von (14.5): E[(X.B)2t − (X.B)2s |Fs ] = E[((X.B)t − (X.B)s )2 |Fs ] ⎤ ⎡ 2 l−1 = E ⎣ Hk (Btk − Bs ) + Hi+1 (Bti+1 − Bti ) + Hl+1 l(Bt − Btl ) Fs ⎦ i=k
( = E Hk2 (Btk − Bs )2 +
2 Hi+1 (Bti+1
2 − Bti )2 + Hl+1 (Bt − Btl )2 Fs
i=k
( =E
l−1
Hk2 (tk ⎡
= E⎣
− s) +
l−1
2 Hi+1 (ti+1
− ti ) +
2 Hl+1 (t
− tl )Fs
)
)
i=k
t
⎤ Xu2 duFs ⎦ .
s
Die Itˆ o-Isometrie f¨ ur elementare Prozesse Die Itˆo-Isometrie ist die entscheidende Aussage, mit der wir aus einer CauchyFolge von elementaren Prozessen (Xn ) eine weitere Cauchy-Folge ihrer Integrale (Xn .B) gewinnen werden. Um die Itˆo-Isometrie formulieren zu k¨ onnen, ben¨otigen wir die folgenden R¨ aume: Definition 14.11 (M2 , M2c ). Mit M2 bezeichnen wir den Raum der ankten, rechtsstetigen Martingale, d.h. X = (Xt )t≥0 ∈ gleichm¨ aßig L2 -beschr¨ 2 M genau dann, wenn X ein rechtsstetiges Martingal ist und sup E[Xt2 ] < ∞. t≥0
aßig L2 Mit M2c ⊂ M2 bezeichnen wir den Unterraum der stetigen gleichm¨ beschr¨ ankten Martingale. Ist X ∈ M2 , so setzen wir 1
XM2 := (sup E[Xt2 ]) 2 . t≥0
Wir werden in K¨ urze zeigen, dass (M2 , ·M2 ) ein Hilbert-Raum ist. Zun¨achst zeigen wir die Itˆo-Isometrie:
418
14 Itˆ o-Integrale
Theorem 14.12 (Itˆ o-Isometrie f¨ ur elementare Prozesse). Ist X ∈ bE, so gilt: ⎡ t ⎤ E[(X.B)2t ] = E ⎣ Xs2 ds⎦ f¨ ur alle t ≥ 0. 0
Weiterhin ist X.B ∈ M2c und XL2 (P⊗dt) = X.BM2 . Beweis. Der erste Teil der Behauptung folgt unmittelbar aus Satz 14.10(iv), indem wir s = 0 setzen und auf beiden Seiten den Erwartungswert bilden. Wegen der Beschr¨ anktheit von X und Satz 14.9 folgt X ∈ M2c . Schließlich folgt mit dem Satz von der monotonen Konvergenz und dem ersten Teil der Behauptung: ⎡∞ ⎤ ⎡ t ⎤ 2 = E ⎣ Xs2 ds⎦ = sup E ⎣ Xs2 ds⎦ X 2 L (P⊗dt)
t≥0
0
0 2
= sup E[(X.B)2t ] = X.BM2 . t≥0
bE dicht in P 2 Die Itˆo-Isometrie war der erste von drei Schritten, die wir zur Erweiterung otigen. Wir erinnern daran, dass der des Integralbegriffs von bE auf P 2 ben¨ Raum P 2 aus den progressiv messbaren Prozessen X = (Xt )t≥0 mit ⎛∞ ⎞ E ⎝ Xs2 ds⎠ < ∞ 0
besteht. Der zweite Schritt besteht darin, zu zeigen, dass sich jedes X ∈ P 2 durch eine Folge (Xn ) von elementaren Prozessen in bE approximieren l¨asst: Satz 14.13. Ist X ∈ P 2 , so gibt es eine Folge von elementaren Prozessen (Xn ) in bE mit Xn − XL2 (P⊗dt) −→ 0. Beweis. Wir zeigen die Behauptung in drei Schritten: 1. Schritt: X sei stetig und beschr¨ ankt. Dann definieren wir die Folge (Xn ) durch n 2 −1 X knn I] knn , (k+1)n (t), t ≥ 0, n ∈ N. (Xn )t := ] n 2
k=0
2
2
14.2 Das Itˆ o-Integral
419
Dann ist (Xn )n∈N eine Folge beschr¨ ankter elementarer Prozesse. Wegen der Stetigkeit von X und X ∈ P 2 ist ∞ [(Xn )s − Xs ]2 ds = 0. lim n→∞
0
Aus dem Satz von der dominierten Konvergenz folgt die zu beweisende Konvergenz Xn − XL2 (P⊗dt) −→ 0. 2. Schritt: X ist beschr¨ ankt. Die Idee in diesem Schritt besteht darin, X durch eine Folge zu approximieren, deren Glieder stetig und beschr¨ankt sind, so dass wir den ersten Schritt anwenden k¨ onnen. Um Stetigkeit zu erreichen, betrachten wir eine Folge ρn : R → R+ nicht-negativer, stetiger Funktionen mit ur alle x ≤ − n1 und f¨ ur alle x ≥ 0. (i) ρn (x) = 0 f¨ ∞ (ii) ρn (x)dx = 1. −∞
Wir definieren die Folge (Yn )n∈N durch t ρn (s − t)Xs ds,
(Yn )t :=
n ∈ N, t ≥ 0.
0
Dann ist Yn f¨ ur jedes n ∈ N ein stetiger beschr¨ankter Prozess. Aus X ∈ P 2 folgt, dass Yn f¨ ur jedes n ∈ N progressiv messbar ist. Weiter gilt nach Satz L1
B.16 die Konvergenz Yn −→ X in L1 (R), da die Funktionen (ρn )n∈N eine so genannte approximative Eins bilden, vgl. Anhang B. Wegen der gleichm¨aßigen Beschr¨ anktheit der (Yn ) folgt sogar die L2 -Konvergenz: ∞ lim [(Yn )s − Xs ]2 ds = 0. n→∞
0
Aus dem Satz von der dominierten Konvergenz folgt wieder die Konvergenz Yn − XL2 (P⊗dt) −→ 0. Da wir zu jedem Yn nach dem ersten Schritt eine Folge elementarer Funktionen (Xn,m ) mit Xn,m − Yn L2 (P⊗dt) −→ 0 finm→∞
den, gibt es eine Teilfolge (mn )n∈N , so dass Xn,mn − XL2 (P⊗dt) −→ 0 gilt. 3. Schritt: X ∈ P 2 beliebig: Hier betrachten wir die Folge Zn := XI{|X|≤n} ,
n→∞
n ∈ N.
Die Zufallsvariable Zn ist f¨ ur jedes n ∈ N beschr¨ankt und progressiv messbar. Weiter gilt ∞
lim
n→∞
[(Zn )s − Xs ]2 ds = 0.
0
Da wir nach dem zweiten Schritt jedes Zn durch eine Folge (Xn,m ) in bE approximieren k¨ onnen, folgt genau wie im zweiten Schritt die Behauptung.
420
14 Itˆ o-Integrale
Die Vollst¨ andigkeit von M2 Die Approximation durch elementare Prozesse hilft uns nur dann weiter, wenn wir aus der Konvergenz auf der einen Seite der Itˆ o-Isometrie auch auf die Konvergenz auf der anderen Seite schließen k¨ onnen. Dazu m¨ ussen wir zeigen, dass (M2 , ·M2 ) ein Hilbert-Raum, also vollst¨andig ist. Da X ∈ M2 eine gleichm¨ aßig beschr¨ ankte L2 -Norm besitzt, gibt es nach Satz 13.14 eine F∞ ur die gilt: messbare Zufallsvariable X∞ ∈ L2 , f¨ Xt −→ X∞
fast sicher und in L2 .
Ordnen wir jedem X ∈ M2 den Grenzwert X∞ ∈ L2 (F∞ ) zu, so erhalten wir eine Isometrie zwischen Hilbert-R¨ aumen, wie wir im nachfolgenden Satz zeigen werden. Dazu verwenden wir Satz 13.16 u ¨ber die Existenz einer rechtsstetigen Version eines Martingals. An dieser f¨ ur die Konstruktion des Itˆ o-Integrals entscheidenden Stelle ben¨ otigen wir also eine Standardfiltration, wie wir sie generell in diesem Abschnitt vorausgesetzt haben. Satz 14.14. (i) Die Abbildung M2 −→ L2 (F∞ ),
X = (Xt )t≥0 → X∞ ,
ist eine lineare Bijektion mit 1
XM2 = lim [E(Xt2 )] 2 = X∞ L2 . t→∞
oge dieser Abbildung ein Hilbert-Raum. Daher ist (M2 , ·M2 ) verm¨ (ii) M2c ⊂ M2 ist ein abgeschlossener Unterraum. Beweis. (i) Die Linearit¨ at der Abbildung ist offensichtlich. Nach Satz 13.14 gilt: Xt −→ X∞ fast sicher und in L2 . Da (Xt2 )t≥0 ein Submartingal ist, ist E(Xt2 ), t ≥ 0 monoton wachsend. Zusammen mit dem Satz von der monotonen Konvergenz ergibt sich: 1 1 X∞ L2 = lim [E(Xt2 )] 2 = sup[E(Xt2 )] 2 = XM2 . t→∞
t≥0
Es bleibt die Bijektivit¨ at der Abbildung zu zeigen. Sind X, Y ∈ M2 mit X∞ = Y∞ fast sicher, so folgt nach Satz 13.5 Xt = E(X∞ |Ft ) = E(Y∞ |Ft ) = Yt
fast sicher f¨ ur alle t ≥ 0.
Daher ist X eine rechtsstetige Version des rechtsstetigen Prozesses Y , so dass X und Y nach Satz 10.7 nicht unterscheidbar sind. Damit ist die Injektivit¨ at gezeigt. Ist Z ∈ L2 (F∞ ), so definieren wir das L2 -Martingal M = (Mt )t≥0 durch
14.2 Das Itˆ o-Integral
Mt := E(Z|Ft ),
421
t ≥ 0.
Nach Satz 13.16 k¨ onnen wir (Mt )t≥0 als rechtsstetige Version w¨ahlen, so dass M ∈ M2 . Da Z F∞ -messbar ist, folgt M∞ = Z fast sicher und damit die Surjektivit¨ at der Abbildung. (ii) Sei (Xn ) eine Folge in M2c , die gegen ein X ∈ M2 konvergiert. Aus der Doob-Ungleichung 13.12 folgt f¨ ur das Supremum (Xn − X)∗ : (Xn − X)∗ L2 ≤ 2 sup (Xn )t − Xt 2 = 2 Xn − XM2 −→ 0. t≥0
Daher gibt es eine Teilfolge (nk ), so dass sup |(Xnk )t − Xt | = (Xnk − X)∗ −→ 0
fast sicher.
t≥0
Also ist X ∈ M2c , und damit ist M2c vollst¨andig.
Die Definition des Integrals Wir haben jetzt alle Bausteine zusammen, um f¨ ur ein X ∈ P 2 das Integral X.B zu definieren. Nach Satz 14.13 gibt es zu jedem X ∈ P 2 eine Folge (Xn ) in bE mit Xn − XL2 (P⊗dt) −→ 0, insbesondere ist (Xn ) eine Cauchy-Folge in L2 (P ⊗ dt). Mit der Itˆ o-Isometrie 14.12 ist Xn − Xm L2 (P⊗dt) = Xn .B − Xm .BM2 , und daher auch (Xn .B) eine Cauchy-Folge in M2 . Nach Satz 14.9 ist (Xn .B) sogar eine Cauchy-Folge in M2c . Da dieser Raum gem¨aß Satz 14.14 vollst¨andig ist, k¨ onnen wir den Grenzwert als Integral auffassen: X.B = lim Xn .B ∈ M2c , n→∞
d.h. X.B − Xn .BM2 −→ 0.
Bevor wir dies formal definieren, u ufen wir die Wohldefiniertheit. Ist ¨berpr¨ (Yn ) eine weitere Folge in bE mit Yn − XL2 (P⊗dt) −→ 0, so folgt Yn − Xn L2 (P⊗dt) ≤ Xn − XL2 (P⊗dt) + Yn − XL2 (P⊗dt) −→ 0. Aus der Itˆ o-Isometrie 14.12 folgt Yn .B − Xn .BM2 −→ 0. Damit haben (Yn .B) und (Xn .B) in M2 den gleichen Grenzwert. Wir fassen zusammen:
422
14 Itˆ o-Integrale
Definition 14.15 (Itˆ o-Integral f¨ ur P 2 ). Ist X ∈ P 2 , so gibt es ein eindeutig bestimmtes stetiges Martingal Y ∈ M2c , so dass Y − Xn .BM2 −→ 0 f¨ ur jede Folge (Xn ) in bE mit Xn − XL2 (P⊗dt) −→ 0 gilt. Y heißt Itˆ oIntegral von X und wird mit t X.B := Y
bzw. (X.B)t :=
Xs dBs := Yt ,
t ≥ 0,
0
bezeichnet.
Die Itˆ o-Isometrie Die Itˆo-Isometrie u agt sich auf X ∈ P 2 : ¨bertr¨ Theorem 14.16 (Itˆ o-Isometrie). Ist X ∈ P 2 , so gilt f¨ ur alle t ≥ 0 ⎡ t ⎤ E[(X.B)2t ] = E ⎣ Xs2 ds⎦ . 0
Weiterhin ist X.B ∈ M2c und XL2 (P⊗dt) = X.BM2 . Beweis. Sei (Xn ) eine Folge in bE mit Xn − XL2 (P⊗dt) −→ 0. Dann gilt insbesondere Xn L2 (P⊗dt) −→ XL2 (P⊗dt) . Aus der Definition des Itˆ o-Integrals f¨ ur X folgt Xn .B − X.BM2 −→ 0, also wieder Xn .BM2 −→ X.BM2 . Nach der Itˆ o-Isometrie f¨ ur elementare Prozesse 14.12 gilt Xn L2 (P⊗dt) = Xn .BM2
f¨ ur alle n ∈ N,
also sind auch die Grenzwerte gleich: XL2 (P⊗dt) = X.BM2 . Den ersten Teil der Behauptung erhalten wir, indem wir das gerade bewiesene Resultat f¨ ur ein fest gew¨ ahltes t ≥ 0 auf die Prozesse
14.2 Das Itˆ o-Integral
Ys := Xs I[0,t] (s)
423
s ≥ 0,
bzw. (Yn )s := (Xn )s I[0,t] (s),
anwenden: Mit der Itˆ o-Isometrie f¨ ur elementare Prozesse folgt ⎡ s ⎤ 2 2 2 Yn .BM2 = sup E[(Yn .B)s ] = sup E ⎣ (Yn )u du⎦ s≥0
s≥0
⎡ = E⎣
t
0
⎤
(Xn )2u du⎦ = E[(Xn .B)2t ] −→ E[(X.B)2t ],
0
da 2
E[((Xn .B)t −(X.B)t )2 ] ≤ sup E[((Xn .B)s −(X.B)s )2 ] = Xn .B − X.BM2 → 0. s≥0
Andererseits ist ⎡ Y.BM2 = Y L2 (P⊗dt) = E ⎣ 2
t
2
⎤ Xs2 ds⎦ .
0 2
2
Da offensichtlich Yn − Y L2 (P⊗dt) −→ 0 und daher Yn .BM2 −→ Y.BM2 , folgt ⎡ t ⎤ E[(X.B)2t ] = E ⎣ Xs2 ds⎦ , 0
wie behauptet. Eigenschaften des Itˆ o-Integrals
Wir haben in Satz 14.10 einige Eigenschaften des Itˆ o-Integrals f¨ ur elementare Prozesse gezeigt. Diese u ¨bertragen sich auf P 2 : Satz 14.17. Es seien X, Y ∈ P 2 . Dann gilt: (i) Start in 0: (X.B)0 = 0 fast sicher. (ii) Linearit¨ at: F¨ ur α, β ∈ R gilt: (αX + βY ).B = α(X.B) + β(Y.B)
fast sicher.
(iii) F¨ ur t ≥ s gilt: E[(X.B)t |Fs ] = (X.B)s . (iv) F¨ ur t ≥ s gilt: ⎤ ⎡ t E[(X.B)2t − (X.B)2s |Fs ] = E ⎣ Xu2 duFs ⎦ s
fast sicher.
424
14 Itˆ o-Integrale
t
(v) Zt := (X.B)2t −
Xu2 du, t ≥ 0, ist ein Martingal.
0
Beweis. Es sei (Xn ) eine Folge in bE mit Xn − XL2 ⊗dt −→ 0. Es folgt Xn .B − X.BM2 −→ 0, also insbesondere E[(Xn .B)2t ] −→ E[(X.B)2t ]
f¨ ur alle t ≥ 0.
(14.6)
Nach Satz 14.10 ist E[(Xn .B)20 ] = 0 f¨ ur alle n ∈ N, damit auch E[(X.B)20 ], und somit (X.B)0 = 0 fast sicher, damit ist (i) gezeigt. Die Behauptung (ii) ist wegen der Linearit¨ at der Normen klar, die Martingaleigenschaft (iii) gilt nach Definition des Itˆ o-Integrals. Wieder folgt (v) aus (iv), so dass nur noch ur s ≤ t (iv) zu zeigen ist. Dazu sei A ∈ Fs . Setzen wir f¨ (Yn )u := (Xn )u I[s,t] (u)IA ,
Yu := Xu I[s,t] (u)IA ,
u ≥ 0,
so gilt weiterhin Yn − Y L2 ⊗dt −→ 0, d.h. ⎡ E ⎣IA
t
⎤
⎡
(Xn )2u du⎦ −→ E ⎣IA
s
t
⎤ Xu2 du⎦ .
s
Damit ergibt sich unter Ber¨ ucksichtigung von (14.6) durch Anwenden von Satz 14.10(iv): E(IA [(X.B)2t − (X.B)2s ]) = E(IA [(X.B)t − (X.B)s ]2 ) = lim E(IA [(Xn .B)t − (Xn .B)s ]2 ) n→∞ ⎡ ⎤ ⎡ ⎤ t t = lim E ⎣IA (Xn )2u du⎦ = E ⎣IA Xu2 du⎦ , n→∞
s
s
und damit (iv). Die Erweiterung auf P 2 [0, T ]
Nachdem wir das Itˆo-Integral definiert haben und erste Eigenschaften kennen, w¨are es an der Zeit, ein konkretes Itˆo-Integral auszurechnen. Als erstes nichttriviales, aber dennoch explizit berechenbares Beispiel dient das Itˆ o-Integral t Xt = Bs dBs . 0
Nun ist
⎡ E⎣
∞ 0
⎤ Bs2 ds⎦
t E(Bs2 )ds = lim
= lim
t→∞
t→∞
0
1 2 t = ∞, 2
14.2 Das Itˆ o-Integral
425
also B = (Bt )t≥0 ∈ / P 2 . Daher erweitern wir zun¨achst den Integralbegriff auf 2 Elemente X ∈ P [0, T ] mit ⎧ ⎫ ⎛ T ⎞ ⎨ ⎬ P 2 [0, T ] := X ∈ P : E ⎝ Xs2 ds⎠ < ∞ . ⎩ ⎭ 0
Aus obiger Rechnung wird klar, dass B ∈ P 2 [0, T ]
f¨ ur jedes T ≥ 0.
Die Erweiterung von P 2 auf P 2 [0, T ] ist problemlos. Es gen¨ ugt zu bemerken, dass f¨ ur ein X ∈ P 2 [0, T ] mit Ys := Xs I[0,T ] (s), s ≥ 0, Y ∈ P 2 gilt. Definition 14.18 (Itˆ o-Integral f¨ ur P 2 [0, T ]). Es sei X ∈ P 2 [0, T ] und Ys := Xs I[0,T ] (s), s ≥ 0. Dann ist Y ∈ P 2 und X.B := Y.B
das Itˆ o-Integral von X auf [0, T ].
Auf Grund dieser Definition ist klar, dass die Itˆ o-Isometrie 14.16 und alle Eigenschaften aus Satz 14.17 auch f¨ ur X ∈ P 2 [0, T ] gelten. Das Itˆ o-Integral
Bs dBs - heuristisch
Wir fixieren ein T > 0. Wir haben bereits gezeigt, dass (Bt )t≥0 ∈ P 2 [0, T ] gilt und wollen nun das Itˆ o-Integral t Xt :=
Bs dBs ,
t ∈ [0, T ],
0
berechnen. Heuristisch k¨ onnten wir mit einem Vergleich zur reellen Analysis beginnen, t 1 xdx = x2 , 2 0
und daher den Ansatz t Xt =
Bs dBs = 0
1 2 B +R 2 t
426
14 Itˆ o-Integrale
versuchen. Die erste, wichtige Erkenntnis lautet: R kann nicht 0 sein. Denn ur alle t ≥ 0, auf der (Xt )t≥0 ist ein Martingal mit E(Xt ) = E(X0 ) = 0 f¨ anderen Seite ist 1 2 1 B = t. E 2 t 2 Der einfachste Ansatz, um zumindest auf beiden Seiten den gleichen Erwartungswert zu erhalten, ist daher R = − 12 t: t Xt =
Bs dBs =
1 2 1 B − t. 2 t 2
0
In der Tat ist dies der richtige Ausdruck. Wir k¨onnen dies durch zwei weitere Aussagen erh¨ arten. Zum einen steht auf der rechten Seite ein Martingal, bis auf den Faktor 12 ist es Bt2 − t. Zum anderen ist die Varianz auf beiden Seiten gleich, denn mit der Itˆ o-Isometrie folgt ⎡ t ⎤ t 1 2 ⎦ ⎣ Bs ds = E(Bs2 )ds = t2 V(Xt ) = E 2 0
0
f¨ ur die linke Seite. Auf der rechten Seite folgt wegen E(Bt4 ) = 3t2 (s. Beispiel 4.24): ( 2 ) 1 2 1 1 1 B − t = (E(Bt4 ) − 2tE(Bt2 ) + t2 ) = t2 . E 2 t 2 4 2
Bs dBs - exakt Um das Itˆo-Integral Bs dBs berechnen zu k¨onnen, ben¨otigen wir eine Folge beschr¨ ankter, elementarer Prozesse. Sei dazu (Πn )n∈N , Πn = {0 = tn0 , . . . , tnkn = T } eine Folge von Zerlegungen des Intervalls [0, T ] mit |Πn | → 0. Wir setzen kn Btni−1 I]tni−1 ,tni ] , n ∈ N. Xn := Das Itˆ o-Integral
i=1
˜s := Bs I[0,T ] (s), s ≥ 0: Dann ist Xn ∈ bE f¨ ur jedes n ∈ N. Weiter ist mit B ⎡ T ⎤ kn 2 ˜ = E⎣ (Bt − Btni−1 )2 I]tni−1 ,tni ] dt⎦ B − Xn L2 (P⊗dt)
i=1
0
tn i
=
kn i=1tn
n 1 1 (tni − tni−1 )2 ≤ |Πn |T −→ 0. 2 i=1 2
k
(t − tni−1 )dt =
i−1
Nach Definition des Itˆ o-Integrals gilt daher f¨ ur jedes t ∈ [0, T ]:
14.3 Lokalisierung
427
⎛⎡ ⎤2 ⎞ t ⎟ ⎜ E[(Xn .B)2t ] −→ E[(B.B)2t ] = E ⎝⎣ Bs dBs ⎦ ⎠ . 0
Nun ist nach Definition des Itˆ o-Integrals f¨ ur elementare Prozesse (Xn .B)t =
kn
Btni−1 ∧t (Btni ∧t − Btni−1 ∧t ).
i=1
Ausgangspunkt f¨ ur die weiteren Berechnungen ist die elementare Formel a(b − a) =
1 2 1 (b − a2 ) − (b − a)2 , 2 2
a, b ∈ R,
mit der gilt: n n 1 1 (Bt2ni ∧t − Bt2ni−1 ∧t ) − (Btni ∧t − Btni−1 ∧t )2 2 i=1 2 i=1
k
(Xn .B)t =
k
n 1 2 1 Btnk ∧t − (Btni ∧t − Btni−1 ∧t )2 . n 2 2 i=1
k
=
Die letzte Summe konvergiert nach Satz 12.15 in L2 gegen die quadratische Variation Brownscher Pfade auf [0, t]: kn
L2
(Btni ∧t − Btni−1 ∧t )2 −→ t.
i=1
Da tnkn ∧ t = T ∧ t = t, ist Bt2nk ∧t = Bt2 , so dass wir insgesamt unser heuristin sches Resultat best¨ atigen k¨ onnen: L2
t
(Xn .B)t −→
Bs dBs =
1 2 (B − t), 2 t
t ≥ 0.
0
14.3 Lokalisierung Im letzten Abschnitt haben wir das Itˆ o-Integral f¨ ur Prozesse X ∈ P 2 [0, T ] definiert, d.h. f¨ ur progressiv messbare Integranden X, die der Integrierbarkeitsbedingung ⎤ ⎡ T E ⎣ Xs2 ds⎦ < ∞ 0
gen¨ ugen. Dieser Raum ist jedoch nicht groß genug, um z.B. f¨ ur alle stetigen Funktionen f : R → R die Integrale
428
14 Itˆ o-Integrale
t f (Bs )dBs ,
t ≤ T,
0
einzuschließen. Daher erweitern wir die Klasse der zul¨assigen Integranden ein 2 2 bzw. Ploc [0, T ] betrachten: weiteres Mal, indem wir die R¨ aume Ploc ⎧ ⎫ ⎛∞ ⎞ ⎨ ⎬ 2 bzw. := X ∈ P : P ⎝ Xs2 ds < ∞⎠ = 1 Ploc ⎩ ⎭ 0 ⎧ ⎫ ⎛ T ⎞ ⎨ ⎬ 2 Ploc [0, T ] := X ∈ P : P ⎝ Xs2 ds < ∞⎠ = 1 . ⎩ ⎭ 0
Die dabei verwendete Technik der Lokalisierung ist weit u ¨ber die hier behandelte Fragestellung von Bedeutung. Itˆ o-Integral und Stoppzeiten 2 Um die Wohldefiniertheit des noch zu definierenden Itˆ o-Integrals auf Ploc nachweisen zu k¨ onnen, m¨ ussen wir wissen, wie sich ein gestopptes Itˆo-Integral alt. Dazu wiederum verallgemeinern wir die Itˆ o(X.B)τ = ((X.B)t∧τ )t≥0 verh¨ Isometrie auf Stoppzeiten:
Satz 14.19. Sind X, Y ∈ P 2 sowie τ und σ zwei Stoppzeiten mit σ ≤ τ , so gilt: ⎡ t∧τ ⎤ E[((X.B)t∧τ − (X.B)t∧σ )2 ] = E[(X.B)2t∧τ − (X.B)2t∧σ ] = E ⎣ Xs2 ds⎦ . t∧σ
Beweis. Wenden wir den Stoppsatz 13.7 auf das Martingal (X.B)2t −
t
Xs2 ds
0
(Satz 14.17) und die Stoppzeiten t ∧ τ und t ∧ σ an, so erhalten wir durch Bilden der Differenz: ⎡ t∧τ ⎤ E[(X.B)2t∧τ − (X.B)2t∧σ ] = E ⎣ Xs2 ds⎦ . t∧σ
Damit ist die zweite Gleichung gezeigt. Die Gleichheit der ersten beiden Terme gilt f¨ ur jedes Martingal Z = (Zt )t≥0 . Denn mit dem Optional Sampling Theorem 13.6 erhalten wir: 2 ]. E[Zt∧τ Zt∧σ ] = E[E[Zt∧τ Zt∧σ |Ft∧σ ]] = E[Zt∧σ
Damit folgt: 2 2 2 2 E[(Zt∧τ − Zt∧σ )2 ] = E[Zt∧τ − 2Zt∧τ Zt∧σ + Zt∧σ ] = E[Zt∧τ − Zt∧σ ].
Ersetzen wir Z durch X.B, folgt die erste Gleichung.
14.3 Lokalisierung
429
Um einen Prozess zu einer Stoppzeit abschneiden“ zu k¨onnen, f¨ uhren wir ” folgende Notation ein: Ist τ eine Stoppzeit, so heißt [[0, τ ]] := {(ω, t) ∈ Ω × R+ : t ≤ τ (ω)}
stochastisches Intervall.
Stochastische Intervalle sind stets Teilmengen von Ω × R+ , insbesondere gilt f¨ ur eine deterministische Stoppzeit τ := T ∈ R+ [[0, T ]] = Ω × [0, T ]. Typischerweise betrachten wir zu einem Prozess X den Prozess Xs (ω) f¨ ur s ≤ τ (ω), Y := XI[[0,τ ]] , d.h. Ys (ω) = Xs (ω)I[[0,τ ]] (ω, s) = 0 sonst. Satz 14.20. Es seien X ∈ P 2 und τ eine Stoppzeit. Setzen wir Y := XI[[0,τ ]] , so gilt: (X.B)t∧τ = (Y.B)t ,
t ≥ 0.
Beweis. Wir fixieren ein t ≥ 0 und schreiben (X.B)t∧τ − (Y.B)t als (X.B)t∧τ − (Y.B)t = ((X − Y ).B)t∧τ − [(Y.B)t − (Y.B)t∧τ ]. Sowohl ((X − Y ).B)t∧τ ) als auch (Y.B)t − (Y.B)t∧τ sind stetige Martingale in M2c mit Start in 0. Wenden wir auf den ersten Prozess Satz 14.19 mit σ := 0 an, so erhalten wir: ⎡ t∧τ ⎤ E[(X − Y ).B)2t∧τ ] = E ⎣ (Xs − Ys )2 ds⎦ = 0, 0
da Xs und Ys nach Definition von Y auf dem Intervall [0, t ∧ τ (ω)] u ¨bereinstimmen und das Integral auf der rechten Seite pfadweise definiert ist. Daraus folgt ((X − Y ).B)2t∧τ = 0 fast sicher. Analog schließen wir f¨ ur den zweiten Prozess (Y.B)t −(Y.B)t∧τ mit Satz 14.19: ⎡ t ⎤ E[((Y.B)t − (Y.B)t∧τ )2 ] = E ⎣ Ys2 ds⎦ = 0. t∧τ
Im Fall t ∧ τ = t ist dies klar, ist t ∧ τ = τ , so folgt dies aus Ys I[τ (ω),t] (s) = 0. Damit erhalten wir wieder (Y.B)t − (Y.B)t∧τ = 0 fast sicher, und somit (X.B)t∧τ − (Y.B)t = ((X − Y ).B)t∧τ − [(Y.B)t − (Y.B)t∧τ ] = 0
fast sicher.
430
14 Itˆ o-Integrale
2 Das Itˆ o-Integral auf Ploc 2 Die Grundidee f¨ ur die Erweiterung des Itˆ o-Integrals auf Elemente X ∈ Ploc besteht darin, X so durch eine Folge von Stoppzeiten zu beschr¨anken, dass die ur die der Integralbegriff bereits existiert: gestoppten Prozesse in P 2 liegen, f¨ 2 2 Definition 14.21 (lokalisierende Folge zu X ∈ Ploc ). Ist X ∈ Ploc , so heißt eine Folge von Stoppzeiten (τn )n∈N mit τ1 ≤ τ2 ≤ . . . lokalisierende ur Folge zu X, wenn τn −→ ∞ fast sicher und f¨
Xn := XI[[0,τn ]] ,
n ∈ N,
gilt: Xn ∈ P 2
f¨ ur alle n ∈ N.
2 Dieser Ansatz w¨are sinnlos, wenn wir nicht zu jedem Element X ∈ Ploc eine lokalisierende Folge von Stoppzeiten finden k¨ onnten. Diese l¨asst sich konkret angeben: 2 . Dann ist Satz 14.22. Es sei X ∈ Ploc ⎧ ⎫ t ⎨ ⎬ τn := inf t ≥ 0 : Xs2 ds ≥ n , ⎩ ⎭
n ∈ N,
0
eine lokalisierende Folge von Stoppzeiten f¨ ur X. Beweis. Offensichtlich ist (τn )n∈N eine aufsteigende Folge von Stoppzeiten. 2 , ist Da X ∈ Ploc ∞ 2 Xs ds < ∞ = 1, P 0
und daraus folgt (mit inf ∅ = +∞), dass τn → ∞ fast sicher. Mit X ist auch jedes Xn = XI[[0,τn ]] progressiv messbar und außerdem ⎡∞ ⎤ 2 Xn L2 ⊗dt = E ⎣ (Xn )2s ds⎦ ≤ n < ∞, 0
ur alle n ∈ N. also ist Xn ∈ P f¨
2
2 Ist X ∈ Ploc und (τn )n∈N eine lokalisierende Folge f¨ ur X, so ist
Xn I[[0,τm ]] = Xm
f¨ ur alle m ≤ n.
Daher ist nach Satz 14.20 f¨ ur t ≤ τm und m ≤ n: (Xn .B)t = (Xn .B)t∧τm = ((Xn I[[0,τm ]] ).B)t = (Xm .B)t .
14.3 Lokalisierung
431
Diese Konstruktion h¨ angt auch nicht von der Wahl der lokalisierenden Folge ur X, so gilt dies auch f¨ ur ab. Ist (σn )n∈N eine weitere lokalisierende Folge f¨ (τn ∧ σn )n∈N . Genau wie oben folgt (XI[[0,τn ]] .B)t = (XI[[0,τn ∧σn ]] .B)t = (XI[[0,σn ]] .B)t
f¨ ur alle t ≤ σn ∧ τn .
¨ Diese Uberlegungen begr¨ unden die Wohldefiniertheit des folgenden Integrals: 2 2 Definition 14.23 (Itˆ o-Integral f¨ ur X ∈ Ploc ). Es sei X ∈ Ploc , (τn )n∈N eine lokalisierende Folge f¨ ur X und Xn := XI[[0,τn ]] , n ∈ N. Dann ist das Itˆ o-Integral X.B = (X.B)t≥0 der stetige Prozess
(X.B)t := (Xn .B)t ,
f¨ ur t ≥ 0, t ≤ τn .
Satz 14.22 stellt sicher, dass die Definition u ¨berhaupt m¨oglich ist, d.h. Xn ∈ ur alle n ∈ N ist und daher das Integral Xn .B existiert. Wegen τn −→ ∞ P 2 f¨ fast sicher, ist das Integral f¨ ur jedes t ≥ 0 definiert. Den Nachweis der Wohldefiniertheit haben wir bereits erbracht. Die Stetigkeit der Pfade u ¨bertr¨agt ur jedes n ∈ N auf X.B. sich von (Xn .B) f¨ 2 : Das Verhalten gestoppter Integrale aus Satz 14.20 u ¨bertr¨agt sich auf Ploc 2 Satz 14.24. Es sei X ∈ Ploc und τ eine Stoppzeit. Setzen wir
Y := XI[[0,τ ]] , so gilt: (X.B)t∧τ = (Y.B)t ,
t ≥ 0.
Beweis. Sei (τn )n∈N eine lokalisierende Folge f¨ ur X. Dann ist (τn )n∈N auch eine lokalisierende Folge f¨ ur Y , so dass nach Definition des Itˆ o-Integrals und mit Satz 14.20 f¨ ur t ≤ τn folgt: (Y.B)t = (Yn .B)t = ((XI[[0,τ ]] I[[0,τn ]] ).B)t = (Xn .B)t∧τ = (X.B)t∧τ . Der gerade bewiesene Satz wird auch als Erhaltung der Gleichheit“ bezeich” net. Denn er besagt, dass f¨ ur zwei Prozesse X und X , die bis zu einer Stoppzeit u ¨bereinstimmen, XI[[0,τ ]] = X I[[0,τ ]] , auch die gestoppten Integrale gleich sind: (X.B)t∧τ = (X .B)t∧τ ,
t ≥ 0.
432
14 Itˆ o-Integrale
Lokalisierung 2 Das Itˆo-Integral X.B f¨ ur X ∈ Ploc ist im Allgemeinen kein Martingal. Nach Definition von X.B ist jedoch f¨ ur eine lokalisierende Folge (τn )n∈N
(X.B)τn ∧t = ((XI[[0,τn ]] ).B)t f¨ u r t ≤ τn , und auf der rechten Seite steht ein Martingal. Um diesen Zusammenhang systematisch untersuchen zu k¨ onnen, f¨ uhren wir einen neuen Begriff ein: Definition 14.25 (Lokales Martingal). Sei M = (Mt )t≥0 ein adaptierter uglich reeller Prozess mit M0 = 0 fast sicher. M heißt lokales Martingal (bez¨ F und P), wenn es eine Folge von Stoppzeiten (τn )n∈N mit τn −→ ∞ fast sicher gibt, so dass gilt: ur jedes n ∈ N ein gleichgradig integrierbares Martingal. M τn ist f¨ Die Forderung, dass M τn nicht nur ein Martingal, sondern auch gleichgradig integrierbar ist, stellt keine echte Versch¨ arfung dar. Ist M τn ein Martingal, so gen¨ ugt es τn durch τn ∧ n zu ersetzen, um ein gleichgradig integrierbares Martingal zu erhalten. Eine Folge von Stoppzeiten (τn )n∈N mit τn −→ ∞ fast sicher, f¨ ur die M τn ein (gleichgradig integrierbares) Martingal ist, heißt lokalisierende Folge des lokalen Martingals M . Das n¨achste Resultat zeigt, dass das 2 ein lokales Martingal ist. Wir haben nun zwei Itˆo-Integral X.B f¨ ur X ∈ Ploc Bedeutungen f¨ ur den Begriff der lokalisierenden Folge eingef¨ uhrt, einerseits 2 , andererseits f¨ ur ein lokales Martingal X.B. f¨ ur einen Integranden X ∈ Ploc Die Bezeichnung w¨ are nicht klug gew¨ ahlt, wenn diese nicht u ¨bereinstimmen w¨ urden: 2 Satz 14.26. Ist X ∈ Ploc , so ist das Itˆ o-Integral X.B ein lokales Martingal, und jede lokalisierende Folge f¨ ur X ist auch eine lokalisierende Folge f¨ ur X.B.
Beweis. Es sei (τn ) eine lokalisierende Folge von X. Dann ist nach Definition des Itˆo-Integrals (Xn .B)t f¨ u r t ≤ τn , (X.B)t∧τn = u r t ≥ τn . (Xn .B)τn f¨ Nach Satz 14.24 ist aber f¨ u r t ≥ τn (X.B)τn = (Xn .B)τn , daher gilt (X.B)τn = (Xn .B)τn f¨ ur alle n ∈ N. Da (Xn .B) ein Martingal ist, ur alle n ∈ N. Damit gilt dies nach dem Stoppsatz 13.7 auch f¨ ur (Xn .B)τn f¨ τn ur alle n ∈ N, also X.B ein lokales Martingal und ist (X.B) ein Martingal f¨ (τn )n∈N eine lokalisierende Folge.
14.3 Lokalisierung
433
Eigenschaften lokaler Martingale Ein gestopptes gleichgradig integrierbares Martingal ist wieder ein Martingal. Daher gilt f¨ ur lokale Martingale: Satz 14.27. Ist M ein lokales Martingal und τ eine Stoppzeit, so ist auch der gestoppte Prozess M τ ein lokales Martingal. Beweis. Sei (τn ) eine lokalisierende Folge von M . Da M τn ein gleichgradig integrierbares Martingal ist, folgt aus dem Stoppsatz 13.7, dass (M τn )τ ein Martingal ist. Andererseits ist (M τ )τn = (M τn )τ , also ist (τn ) auch lokalisie rende Folge von M τ . Das n¨ achste Resultat gibt ein hinreichendes Kriterium daf¨ ur an, dass ein lokales Martingal schon ein echtes Martingal ist: Satz 14.28. Ist M ein lokales Martingal und beschr¨ ankt, also |Mt | ≤ C < ∞ f¨ ur alle t ≥ 0, so ist M ein Martingal. Beweis. Offensichtlich ist M adaptiert und integrierbar. Es sei (τn )n∈N eine lokalisierende Folge von M . Ist s ≤ t, so gilt E(Mt∧τn |Fs ) = Ms∧τn
f¨ ur alle n ∈ N.
Da τn −→ ∞ fast sicher, gilt Mt∧τn −→ Mt und Ms∧τn −→ Ms fast sicher. ur alle n ∈ N. Daher folgt aus der bedingten Version Weiter ist |Mt∧τn | ≤ C f¨ des Satzes von der dominierten Konvergenz 8.5 durch Bilden des Grenzwertes n → ∞ auf beiden Seiten: E(Mt |Fs ) = Ms .
Also ist M ein Martingal.
Lokale Eigenschaften f¨ ur stochastische Prozesse kann man allgemein erkl¨aren, indem man eine Folge gestoppter Prozesse betrachtet. Beispielsweise heißt ein adaptierter Prozess X lokal beschr¨ ankt, wenn es eine Folge von Stoppzeiten (τn ) mit τn −→ ∞ fast sicher gibt, so dass sup ω∈Ω,t≥0
|Xtτn (ω)| < ∞ f¨ ur alle n ∈ N
gilt, also alle gestoppten Prozesse beschr¨ ankt sind. Satz 14.29. Ist X ein stetiger, adaptierter Prozess mit X0 = 0, so ist X lokal beschr¨ ankt. Insbesondere gibt es zu jedem stetigen lokalen Martingal X eine ur die X τn ein beschr¨ anktes Martingal ist. lokalisierende Folge (τn )n∈N , f¨ Beweis. Sei X stetig und adaptiert. Wir definieren die Stoppzeiten σn := inf{t ≥ 0 : |Xt | = n},
n ∈ N.
ur alle n ∈ N und damit X lokal beschr¨ankt. Ist Offensichtlich ist |X σn | ≤ n f¨ ugt X ein stetiges lokales Martingal mit lokalisierender Folge (˜ σn )n∈N , so gen¨ ˜n , n ∈ N, zu setzen. es, τn := σn ∧ σ
434
14 Itˆ o-Integrale
2 Die Erweiterung auf Ploc [0, T ]
Genau wie die Erweiterung des Itˆ o-Integrals von P 2 auf P 2 [0, T ] ist auch die 2 Erweiterung von Ploc auf ⎧ ⎫ ⎛ T ⎞ ⎨ ⎬ 2 [0, T ] := X ∈ P : P ⎝ Xs2 ds < ∞⎠ = 1 Ploc ⎩ ⎭ 0
2 problemlos. Wieder gen¨ ugt es festzustellen, dass f¨ ur jedes X ∈ Ploc [0, T ] der Prozess Ys := Xs I[0,T ] (s), s ≥ 0, 2 in Ploc liegt. 2 2 Definition 14.30 (Itˆ o-Integral f¨ ur Ploc [0, T ]). Es sei X ∈ Ploc [0, T ] und 2 Ys := Xs I[0,T ] (s), s ≥ 0. Dann ist Y ∈ Ploc und
X.B := Y.B
das Itˆ o-Integral von X auf [0, T ].
Auf Grund der Definition ist klar, dass sich alle Eigenschaften des Itˆ o-Integrals 2 2 auf Ploc [0, T ] u von Ploc ¨bertragen. Andererseits k¨onnen wir jetzt alle stetigen progressiv messbaren Prozesse auf jedem Intervall [0, T ] integrieren, also z.B. t f (Bs )dBs ,
f stetig,
t ≤ T,
0 2 [0, T ] liegen. da diese auf dem Intervall [0, T ] beschr¨ ankt sind und daher in Ploc Das gleiche gilt f¨ ur lokal beschr¨ ankte progressiv messbare Prozesse, wie sie in den nachfolgenden Resultaten vorkommen.
Ein Konvergenzsatz f¨ ur Itˆ o-Integrale Das n¨ achste Resultat kann man als Analogon zum Satz von der dominierten Konvergenz f¨ ur Itˆ o-Integrale auffassen. Allerdings folgt hier aus punktweiser Konvergenz und Beschr¨ anktheit lediglich Konvergenz nach Wahrscheinlichkeit: Satz 14.31. Es sei (X n )n∈N eine Folge progressiv messbarer Prozesse mit ur alle n ∈ N mit X n −→ 0 auf Ω × R+ fast u ¨berall. Weiter sei |X n | ≤ X f¨ einem progressiv messbaren, lokal beschr¨ ankten Prozess X. Dann gilt f¨ ur alle t ≥ 0: P sup |(X n .B)s | −→ 0. 0≤s≤t
14.3 Lokalisierung
435
Beweis. Sei t ≥ 0 fixiert. Wir nehmen zun¨ achst an, X sei nicht nur lokal beschr¨ ankt, sondern beschr¨ ankt. Dann sind alle X n beschr¨ankt, und es folgt aus dem Satz von der dominierten Konvergenz auf dem Raum Ω × R+ mit dem Maß P ⊗ dt: X n −→ 0
in L2 (P ⊗ dt).
Aus der Itˆ o-Isometrie 14.16 erhalten wir n (X I[[0,t]] ).B 2 −→ 0. M Daraus folgt mit Doobs Maximal-Ungleichung 13.12 nicht nur Konvergenz in Wahrscheinlichkeit, sondern sogar in L2 : L2
sup |(X n .B)s | −→ 0. 0≤s≤t
ur die Sei nun X lokal beschr¨ ankt und (τn ) eine Folge von Stoppzeiten, f¨ ankt ist f¨ ur jedes n ∈ N. Dann ist auch Xn I[[0,τm ]] f¨ ur |X n |τn ≤ X τn beschr¨ jedes n und m beschr¨ ankt, und nach Satz 14.24 ist (XI[[0,τm ]] ).B) = (X.B)τm . Seien δ, ε > 0. Nach dem gerade bewiesenen Fall gibt es dann zu jedem fest gew¨ ahlten m ∈ N ein n0 ∈ N, so dass δ n τm f¨ ur alle n ≥ n0 . P sup |(X .B)s | > ε < 2 0≤s≤t onnen wir m ∈ N so w¨ahlen, dass Da τn −→ ∞ fast sicher, k¨ P(τm ≤ t) <
δ . 2
Damit erhalten wir: P( sup |(X n .B)s | > ε) ≤ P(τm ≤ t) + P(τm ≥ t, sup |(X n .B)s | > ε) 0≤s≤t
0≤s≤t
≤ P(τm ≤ t) + P( sup |(X n .B)τsm | > ε) 0≤s≤t
δ δ + = δ. 2 2 Da δ, ε > 0 beliebig gew¨ ahlt sind, folgt die Behauptung. <
Eine Approximation durch Riemann-Summen Wir haben in Abschnitt 14.1 ausf¨ uhrlich dargestellt, warum es nicht m¨oglich ist, das Itˆo-Integral pfadweise als Grenzwert einer Riemann-Summe zu definieren. Wir haben insbesondere gezeigt, dass dies bereits f¨ ur stetige Integranden scheitert, wenn man fast sichere Konvergenz erreichen m¨ochte. Betrachtet man stattdessen nur stochastische Konvergenz, so zeigt das n¨achste Resultat, dass wir spezielle Itˆo-Integrale doch als Approximation durch pfadweise Summen erhalten k¨ onnen. Der Beweis ist im Wesentlichen eine Anwendung des Konvergenzsatzes 14.31.
436
14 Itˆ o-Integrale
Satz 14.32. Es sei X ein stetiger und adaptierter Prozess mit X0 = 0 fast sicher und (Πn ) eine Folge von Zerlegungen des Intervalls [0, t] mit |Πn | −→ 0. Dann gilt:
P
t
Xti (Bti+1 − Bti ) −→
ti ∈Πn
Xs dBs = (X.B)t . 0
Beweis. Nach Satz 14.29 ist X lokal beschr¨ ankt. Wir nehmen zun¨achst an, X sei sogar beschr¨ ankt und definieren die (dann ebenfalls beschr¨ankten) elementaren Prozesse Xti I]ti ,ti+1 ] , n ∈ N. X n := ti ∈Πn
Dann ist |X n − X| ≤ 2 sup |Xt | < ∞ f¨ ur alle n ∈ N und X n − X −→ 0 auf t≥0
Ω × [0, ∞[ fast u ¨berall. Daher gilt nach Satz 14.31 und der Definition des Itˆo-Integrals f¨ ur elementare Prozesse:
P
t
Xti (Bti+1 − Bti ) = (X n .B)t −→
ti ∈Πn
Xs dBs = (X.B)t . 0
Ist X nicht beschr¨ ankt, so folgt die Behauptung durch Lokalisierung, d.h. ur die durch Betrachten einer lokalisierenden Folge (τn ) von Stoppzeiten, f¨ ankt ist. X τn beschr¨ Es sollte an dieser Stelle nicht der Eindruck entstehen, Itˆ o-Integrale seien im Wesentlichen doch Riemann-Summen. So kommt es im obigen Beweis entscheidend darauf an, dass X f¨ ur die elementaren Prozesse X n jeweils am linken Rand des Intervalls der Indikatorfunktion ausgewertet wird. W¨ahlt man einen anderen Auswertungspunkt, z.B. den Mittelpunkt 12 (ti+1 − ti ) des Intervalls, so f¨ uhrt dies zu anderen stochastischen Integralen (wie dem StratonovichIntegral), deren Eigenschaften sich vom Itˆ o-Integral unterscheiden. F¨ ur praktische Anwendungen ist die Wahl des stochastischen Integrals daher Teil der Modellierung.
14.4 Die Itˆ o-Formel Die Itˆ o-Formel - heuristisch Betrachtet man unsere bisherige Entwicklung des Itˆ o-Integrals, so f¨allt auf, dass wir erst ein einziges Integral berechnet haben, n¨amlich Bs dBs . Uns fehlt ein fundamentales Hilfsmittel, um Itˆ o-Integrale auszurechnen, ohne auf die Definition zur¨ uckzugreifen. Die Itˆ o-Formel wird diese L¨ ucke schließen.
14.4 Die Itˆ o-Formel
437
Sie ist daher f¨ ur die stochastische Analysis von ¨ahnlicher Bedeutung wie der Hauptsatz der Differential- und Integralrechnung f¨ ur die reelle Analysis. Zur Motivation betrachten wir eine reelle C 1 -Funktionen x : t → x(t), t ≥ 0, die insbesondere von endlicher Variation ist, und eine weitere C 1 -Funktion f . Was k¨onnen wir u ¨ber f (x(t)) sagen? Nach der klassischen Kettenregel ist die erste Ableitung von f (x(t)) d f (x(t)) = f (x(t))x(t), ˙ dt
t ≥ 0.
Integration auf beiden Seiten f¨ uhrt zu t f (x(t)) = f (x(0)) +
f (x(s))dx(s),
t ≥ 0.
0
Leider n¨ utzt uns dies f¨ ur die Bestimmung von f (B) nichts, da die Brownsche Bewegung nicht von endlicher Variation ist. Es wird sich herausstellen, dass wir zur Bestimmung von f (B) einen Term zweiter Ordnung aus der TaylorEntwicklung von f ber¨ ucksichtigen m¨ ussen. Heuristisch k¨onnen wir mit Hilfe der Taylor-Entwicklung von f so argumentieren: df (Bt ) = f (Bt+dt ) − f (Bt ) 1 = f (Bt )(Bt+dt − Bt ) + f (Bt )(Bt+dt − Bt )2 + . . . 2 1 = f (Bt )(Bt+dt − Bt ) + f (Bt )dt + . . . , 2 wobei wir wegen der quadratischen Variation der Brownschen Bewegung (Bt+dt − Bt )2 durch dt ersetzt haben. In Integral-Schreibweise erhalten wir unter Vernachl¨ assigung der Terme h¨ oherer Ordnung: t f (Bt ) = f (B0 ) + 0
1 f (Bs )dBs + 2
t
f (Bs )ds,
t ≥ 0.
0
Dies ist in der Tat die richtige Gestalt der Itˆ o-Formel. Die Itˆ o-Formel - pr¨ azise Unser Beweis der Itˆo-Formel besteht darin, die obige Heuristik exakt auszuarbeiten. Das folgende Lemma dient dazu zu begr¨ unden, warum die Terme h¨ oherer Ordnung verschwinden. Lemma 14.33. Sei (Πn )n∈N eine Folge von Zerlegungen des Intervalls [0, t] ager. mit |Πn | −→ 0 und g : R → R eine stetige Funktion mit kompaktem Tr¨ Dann gilt:
438
14 Itˆ o-Integrale
(i) F¨ ur p ≥ 3 ist
P
ti ∈Πn
(ii) Sn :=
|Bti − Bti−1 |p −→ 0.
P
g(Bti−1 )[(Bti − Bti−1 )2 − (ti − ti−1 )] −→ 0.
ti ∈Πn
Beweis. (i) Die stetigen Pfade der Brownschen Bewegung B sind auf [0, t] gleichm¨ aßig stetig, daher ist sup |Bti − Bti−1 | −→ 0
ti ∈Πn
fast sicher.
Aus der Darstellung p |Bti − Bti−1 | ≤ sup |Bti − Bti−1 | |Bti − Bti−1 |p−1 ti ∈Πn ti ∈Πn
ti ∈Πn
erhalten wir die Behauptung per Induktion: Der Induktionsanfang p = 3 folgt, da nach Satz 12.15 gilt: P |Bti − Bti−1 |2 −→ t. ti ∈Πn
Der Induktionsschritt ist mit obiger Darstellung offensichtlich. (ii) Da g stetig ist und kompakten Tr¨ ager hat, ist g beschr¨ankt. Es sei achst E(Sn2 ) −→ 0. Da f¨ ur i = j sup |g(x)| ≤ C < ∞. Wir zeigen zun¨ x∈R
E[((Bti − Bti−1 )2 − (ti − ti−1 ))((Btj − Btj−1 )2 − (tj − tj−1 ))] = E[(Bti − Bti−1 )2 (Btj − Btj−1 )2 ] − (tj − tj−1 )E[(Bti − Bti−1 )2 ] − (ti − ti−1 )E[(Btj − Btj−1 )2 ] + (ti − ti−1 )(tj − tj−1 ) = 0, erhalten wir beim Quadrieren der Summe Sn im Erwartungswert nur die Diagonalelemente. Beachten wir, dass Bti − Bti−1 N(0, ti − ti−1 )-verteilt ist und damit E[(Bti − Bti−1 )4 ] = 3(ti − ti−1 )2 , so folgt: E[((Bti − Bti−1 )2 − (ti − ti−1 ))2 ] E(Sn2 ) ≤ C 2 =C
2
=C
2
ti ∈Πn
E[(Bti − Bti−1 )4 ] − 2(ti − ti−1 )E[(Bti − Bti−1 )2 ] + (ti − ti−1 )2
ti ∈Πn
[3(ti − ti−1 )2 − 2(ti − ti−1 )2 + (ti − ti−1 )2 ]
ti ∈Πn
= 2C
2
(ti − ti−1 )2
ti ∈Πn
≤ 2C |Πn | 2
|ti − ti−1 |
ti ∈Πn
= 2C 2 |Πn | t −→ 0.
14.4 Die Itˆ o-Formel
439
Insbesondere folgt E(|Sn |) −→ 0. Aus der Markov-Ungleichung erhalten wir f¨ ur jedes ε > 0: P(|Sn | ≥ ε) ≤
E(|Sn |) −→ 0, ε
P
also Sn −→ 0, was zu zeigen war.
Der Beweis der Itˆo-Formel ist mit obigem Lemma nicht mehr schwer. Wir verwenden zwei bekannte Resultate aus der reellen Analysis. Zum einen gibt es zu jeder C 2 -Funktion f eine C 2 -Funktion fK mit kompaktem Tr¨ager und ur alle |x| ≤ K. Zum anderen gibt es zu jeder C 2 -Funktion fK f (x) = fK (x) f¨ mit kompaktem Tr¨ ager eine Folge von C ∞ -Funktionen (fn )n∈N mit kompaktem Tr¨ ager, so dass die Folge (fn )n∈N die Funktion fK auf ihrem Tr¨ager T zusammen mit ihren ersten beiden Ableitungen gleichm¨aßig approximiert: (k)
sup |fn(k) (x) − fK (x)| −→ 0,
k = 0, 1, 2.
x∈T
Dies ist eine unmittelbare Folge des Approximationssatzes von Weierstraß, s. z.B. [K¨ on01]. Theorem 14.34 (Itˆ o-Formel). Sei f : R → R eine C 2 -Funktion. Dann gilt fast sicher f¨ ur alle t ≥ 0: t f (Bt ) = f (0) +
1 f (Bs )dBs + 2
0
t
f (Bs )ds.
0
Beweis. Wir beweisen die Itˆo-Formel in drei Schritten: 1. Schritt: Die Itˆ o-Formel gilt f¨ ur jede C 3 -Funktion f mit kompaktem Tr¨ager: Da f dreimal stetig differenzierbar ist, besitzt f eine Taylor-Entwicklung 1 f (c(x, y)) (x − y)3 , f (x) − f (y) = f (y)(x − y) + f (y)(x − y)2 + 2 6
x, y ∈ R,
mit einem von x und y abh¨ angigen Zwischenwert c(x, y). Sei (Πn )n∈N eine Folge von Zerlegungen des Intervalls [0, t] mit |Πn | −→ 0. Dann folgt durch Anwenden der Taylor-Entwicklung auf x = Bti und y = Bti−1 : f (Bti ) − f (Bti−1 ) f (Bt ) − f (B0 ) = ti ∈Πn
=
f (Bti−1 )(Bti − Bti−1 )
ti ∈Πn
1 f (Bti−1 )(Bti − Bti−1 )2 2 ti ∈Πn 1 + f (c(Bti , Bti−1 ))(Bti − Bti−1 )3 . 6
+
ti ∈Πn
440
14 Itˆ o-Integrale
Die erste Summe konvergiert nach Satz 14.32:
P
t
f (Bti−1 )(Bti − Bti−1 ) −→
ti ∈Πn
f (Bs )dBs .
0
F¨ ur die zweite Summe erhalten wir mit Lemma 14.33 und der gew¨ohnlichen Riemann-Approximation: 1 f (Bti−1 )(Bti − Bti−1 )2 2 ti ∈Πn 1 = f (Bti−1 )(ti − ti−1 ) + f (Bti−1 )[(Bti − Bti−1 )2 − (ti − ti−1 )] 2 ti ∈Πn
−→
P
1 2
Da f
t
ti ∈Πn
f (Bs )ds.
0
beschr¨ ankt ist, folgt f¨ ur die dritte Summe mit Lemma 14.33: P f (c(Bti , Bti−1 ))(Bti − Bti−1 )3 −→ 0. ti ∈Πn
¨ Nach Ubergang zu einer geeigneten Teilfolge gelten die Konvergenzen jeweils fast sicher. Damit ist die Itˆo-Formel f¨ ur jede C 3 -Funktion mit kompaktem Tr¨ ager gezeigt. Dieser erste Schritt ist der eigentliche Kern des Beweises. Die u ¨brigen beiden Schritte dienen lediglich dazu, die Voraussetzungen an f abzuschw¨ achen. 2. Schritt: Die Itˆ o-Formel gilt f¨ ur jede C 2 -Funktion f mit kompaktem Tr¨ager: ∞ Es sei (fn ) eine Folge von C -Funktionen mit kompaktem Tr¨ager, die auf dem Tr¨ager T von f die Funktion f und ihre ersten beiden Ableitungen gleichm¨aßig approximiert: sup |fn(k) (x) − f (k) (x)| −→ 0,
k = 0, 1, 2.
x∈T
Dann gilt fn (Bt ) −→ f (Bt )
fast sicher,
sowie wegen der gleichm¨ aßigen Approximation der zweiten Ableitung 1 2
t
fn (Bs )ds −→
1 2
0
t
f (Bs )ds
fast sicher.
0
Schließlich folgt aus dem Konvergenzsatz f¨ ur Itˆ o-Integrale 14.31: t 0
fn (Bs )dBs
P
t
−→ 0
f (Bs )dBs .
14.4 Die Itˆ o-Formel
441
¨ Nach Ubergang zu einer Teilfolge gilt auch diese Konvergenz fast sicher. Da wir die Itˆ o-Formel f¨ ur jedes fn bereits bewiesen haben, folgt sie damit auch f¨ ur f . 3. Schritt: Die Itˆ o-Formel gilt f¨ ur jedes f ∈ C 2 : Es sei N ∈ N und fN eine C 2 ur alle |x| ≤ N . Weiter Funktion mit kompaktem Tr¨ ager mit fN (x) = f (x) f¨ betrachten wir die Stoppzeiten τN := inf{t ≥ 0 : |Bt | ≥ N },
N ∈ N.
Dann ist nach Definition von fN und τN fN (B)I[[0,τN ]] = f (B)I[[0,τN ]] ,
N ∈ N,
und damit nach Satz 14.24: t
fN (Bs )dBs
0
t =
f (Bs )dBs
f¨ ur alle (ω, t) ∈ [[0, τN ]].
0
Offensichtlich ist auch t 0
fN (Bs )ds
t =
f (Bs )ds und f (Bt ) = fN (Bt ) f¨ ur alle (ω, t) ∈ [[0, τN ]].
0
Aus der bereits im zweiten Schritt bewiesenen Itˆo-Formel f¨ ur fN folgt daher die Itˆ o-Formel f¨ ur f auf [[0, τN ]]. Da τN −→ ∞ fast sicher, folgt die Behauptung. Berechnung von Itˆ o-Integralen mit der Itˆ o-Formel Um die Itˆo-Formel zur Berechnung von Itˆ o-Integralen verwenden zu k¨onnen, wenden wir sie auf eine Stammfunktion F der C 2 -Funktion f , also F = f , an: t t 1 f (Bs )ds. F (Bt ) = F (0) + f (Bs )dBs + 2 0
0
W¨ ahlen wir die Stammfunktion F so, dass F (0) = 0 gilt, folgt: t
1 f (Bs )dBs = F (Bt ) − 2
0
t
f (Bs )ds.
0
Diese Gleichung hat mehrere bemerkenswerte Aspekte. Zum einen er¨offnet t sie die M¨ oglichkeit, Itˆ o-Integrale der Form f (Bs )dBs konkret zu berechnen. 0
Zum anderen stehen auf der rechten Seite ausschließlich Gr¨oßen, die pfadweise, d.h. f¨ ur jedes ω ∈ Ω einzeln berechnet werden k¨onnen. Wir erhalten so eine pfadweise Interpretation des Itˆ o-Integrals.
442
14 Itˆ o-Integrale
Beispiel 14.35. Betrachten wir die Funktion f (s) = s, s ≥ 0, so w¨ahlen wir die Stammfunktion F (s) = 12 s2 , s ≥ 0, und es folgt: t Bs dBs =
1 2 1 B − 2 t 2
0
t ds =
1 2 1 B − t, 2 t 2
t ≥ 0.
0
Dieses Resultat war uns zwar schon bekannt, aber die m¨ uhsame R¨ uckf¨ uhrung auf die Definition zur Berechnung des Integrals bleibt uns dank der Itˆ o-Formel erspart. ♦ Die Itˆ o-Formel in Raum und Zeit Theorem 14.34 stellt den einfachsten Fall der Itˆ o-Formel dar, es gibt zahlreiche Varianten und Erweiterungen. So kann man z.B. statt f (Bt ) auch f (Bt , t) betrachten, also eine Funktion in Raum und Zeit. Wieder bereiten wir den Beweis durch ein Lemma vor: Lemma 14.36. Sei (Πn )n∈N eine Folge von Zerlegungen des Intervalls [0, t] ur l, k ∈ N0 , l + k ≥ 2, (k, l) = (0, 2): mit |Πn | −→ 0. Dann gilt f¨ k l P (ti − ti−1 ) (Bti − Bti−1 ) −→ 0. |Skl | := ti ∈Πn
Beweis. F¨ ur k = 0 und l ≥ 3 haben wir die Behauptung in Lemma 14.33 gezeigt. F¨ ur k ≥ 1 und l ≥ 2 folgt damit P |Skl | ≤ |Πn |k |Bti − Bti−1 |l −→ 0, ti ∈Πn
wenn man f¨ ur den Fall l = 2 Satz 12.15 beachtet. F¨ ur l = 0 und k ≥ 2 gilt |Sk0 | ≤ |Πn |k−1 |ti − ti−1 | = |Πn |k−1 t −→ 0. ti ∈Πn
Es bleibt noch der Fall k ≥ 1, l = 1 zu betrachten. Hier m¨ ussen wir etwas 2 ). Wegen der Unabh¨angigkeit vorsichtiger argumentieren. Wir berechnen E(Sk1 der Inkremente einer Brownschen Bewegung erhalten wir beim Quadrieren der Summe nur die Diagonalelemente: 2 ]= E[(ti − ti−1 )2k (Bti − Bti−1 )2 ] E[Sk1 ti ∈Πn
=
(ti − ti−1 )2k+1 −→ 0.
ti ∈Πn
Insbesondere folgt E(|Sk1 |) −→ 0. Aus der Markov-Ungleichung erhalten wir f¨ ur jedes ε > 0:
14.4 Die Itˆ o-Formel
P(|Sk1 | ≥ ε) ≤
443
E(|Sk1 |) −→ 0, ε
P
also Sk1 −→ 0, was noch zu zeigen war.
Theorem 14.37 (Itˆ o-Formel in Raum und Zeit). Sei f : R × R+ → R, ur alle t ≥ 0: (x, t) → f (x, t) eine C 2,1 -Funktion. Dann gilt fast sicher f¨ t f (Bt , t) = f (0, 0) +
∂f (Bs , s)dBs + ∂x
0
t
∂f 1 (Bs , s)ds + ∂t 2
0
t
∂2f (Bs , s)ds. ∂x2
0
(14.7) Beweis. Genau wie im Beweis der Itˆo-Formel in Theorem 14.34 gen¨ ugt es, Gleichung (14.7) f¨ ur C 3,3 -Funktionen f mit kompaktem Tr¨ager zu beweisen. Diese besitzen eine Taylor-Entwicklung ∂f ∂f (y, s)(x − y) + (y, s)(t − s) ∂x ∂t 1 ∂2f + (y, s)(x − y)k (t − s)l k!l! ∂xk ∂tl
f (x, t) − f (y, s) =
k+l=2
+
k+l=3
1 ∂3f (c(y, x), c(t, s))(x − y)k (t − s)l , k!l! ∂xk ∂tl
mit von x, y bzw. t, s abh¨ angigen Zwischenwerten c(x, y) bzw. c(t, s). Sei (Πn )n∈N eine Folge von Zerlegungen des Intervalls [0, t] mit |Πn | −→ 0. Wenden wir die Taylor-Entwicklung auf jeden Summanden in f (Bti , ti ) − f (Bti−1 , ti−1 ) f (Bt , t) − f (B0 , 0) = ti ∈Πn
an, so besagt das Lemma 14.36 gerade, dass im Limes stochastischer Konvergenz alle Terme der Ordnung gr¨ oßer oder gleich 2 außer (k, l) = (2, 0) verschwinden. Der u ¨brig bleibende Term zweiter Ordnung ist 1 ∂2f (Bti−1 , ti−1 )(Bti − Bti−1 )2 , 2 ∂x2 ti ∈Πn
von dem wir genau wie im Beweis der Itˆo-Formel 14.34 zeigen k¨onnen: 2 1 ∂2f ∂ f 2 P 1 (Bti−1 , ti−1 )(Bti − Bti−1 ) −→ (Bs , s)ds. 2 ∂x2 2 ∂x2 t
ti ∈Πn
0
Auch f¨ ur die Terme erster Ordnung schließen wir genau wie im Beweis von Theorem 14.34:
444
14 Itˆ o-Integrale
∂f ∂f P (Bti−1 , ti−1 )(Bti − Bti−1 ) −→ (Bs , s)dBs ∂x ∂x t
ti ∈Πn
und
0
∂f ∂f P (Bti−1 , ti−1 )(ti − ti−1 ) −→ (Bs , s)ds. ∂t ∂t t
ti ∈Πn
0
Insgesamt erhalten wir, dass
ti ∈Πn
t
∂f (Bs , s)dBs + ∂x
0
t
f (Bti , ti )−f (Bti−1 , ti−1 ) stochastisch gegen
∂f 1 (Bs , s)ds + ∂t 2
0
t
∂2f (Bs , s)ds. ∂x2
0
¨ konvergiert. Durch Ubergang zu einer geeigneten Teilfolge erhalten wir fast sichere Konvergenz. Ein Martingalkriterium Zum Abschluss dieses Kapitels stellen wir exemplarisch zwei Anwendungen der Itˆ o-Formel vor. Die erste liefert f¨ ur eine Funktion f ∈ C 2,1 ein Kriterium, wann f (Bt , t) ein (lokales) Martingal ist. Der Beweis ist lediglich eine Umformulierung unserer bisherigen Ergebnisse. Satz 14.38. Erf¨ ullt eine Funktion f ∈ C 2,1 die partielle Differentialgleichung 1 ∂2f ∂f (x, t) = − (x, t) ∂t 2 ∂x2
f¨ ur alle x ∈ R, t ≥ 0,
(14.8)
atzlich f¨ ur ein T > 0 so ist f (Bt , t) ein lokales Martingal. Gilt zus¨ ⎤ ⎡ T 2 ∂f E⎣ (Bs , s)ds⎦ < ∞, ∂x 0
so ist f (Bt , t)0≤t≤T sogar ein Martingal. Beweis. Aus der Itˆ o-Formel 14.37 und (14.8) erhalten wir f¨ ur f (Bt , t) die Darstellung t ∂f (Bs , s)dBs . f (Bt , t) = f (0, 0) + ∂x 0
Daher ist f (Bt , t) wie jedes Itˆo-Integral ein lokales Martingal. Die zweite Bedingung bedeutet gerade, dass der Integrand ein Element von P 2 [0, T ] ist. Dann ist das Itˆ o-Integral und somit f (Bt , t) sogar ein Martingal.
14.4 Die Itˆ o-Formel
445
Der obige Satz zeigt einen ersten Zusammenhang zwischen der Theorie der stochastischen Integration und partiellen Differentialgleichungen. Die partielle Differentialgleichung (14.8) heißt W¨ armeleitungsgleichung. Sie spielt in verschiedenen Gebieten der Mathematik und Physik eine Rolle. Beispiel 14.39 (Hermite-Polynome). Wir haben in Abschnitt 13.3 die Funktion g : R2 × R+ → R,
α2 (α, x, t) → exp αx − t , 2
und ihre Entwicklungskoeffizienten nach α, fn (x, t) :=
∂ng (0, x, t), ∂αn
betrachtet: ∞ α2 t = fn (x, t)αn , exp αx − 2 n=0
x, t, α ∈ R.
Die Funktionen fn (x, t) sind Polynome und heißen Hermite-Polynome. Wir ur jedes n ≥ 1 ein Martinhaben bereits in Satz 13.11 gezeigt, dass fn (Bt , t) f¨ gal ist. Das Martingal-Kriterium 14.38 bietet daf¨ ur einen alternativen Weg. armeleitungsgleichung erf¨ ullt. Da Es gen¨ ugt nachzuweisen, dass fn (s, t) die W¨ die Exponentialreihe auf jedem Kompaktum gleichm¨aßig konvergiert und alle urfen wir unter der Reihe differenfn (s, t) beliebig oft differenzierbar sind, d¨ zieren und erhalten: ∞ 1 ∂ ∂g (α, x, t) = − α2 g(α, x, t) = fn (x, t)αn ∂t 2 ∂t n=0
sowie
∞ ∂2g ∂2 2 (α, x, t) = α g(α, x, t) = f (x, t)αn . 2 n ∂s2 ∂x n=0
Damit gilt ∞ ∞ 1 ∂2g ∂ ∂g 1 ∂2 fn (x, t)αn = (α, x, t) = − (α, x, t) = − f (x, t)αn , 2 2 n ∂t ∂t 2 ∂x 2 ∂x n=0 n=0
und ein Koeffizientenvergleich zeigt, dass fn (x, t) die W¨armeleitungsgleichung (14.8) erf¨ ullt. Damit ist fn (Bs , s) nach Satz 14.38 ein lokales Martingal. ♦
446
14 Itˆ o-Integrale
Eine stochastische Integralgleichung Die zweite Anwendung zeigt, wie man die Itˆo-Formel im Zusammenhang mit Integralgleichungen verwenden kann. Wir betrachten die Gleichung t Zt = 1 +
t ≥ 0,
Zs dBs ,
(14.9)
0
und stellen uns die Frage, ob diese stochastische Integralgleichung eine L¨osung besitzt. Dabei verstehen wir unter einer L¨ osung von (14.9) einen adaptierten ur alle t ≥ 0 fast sicher gilt. stetigen Prozess Z = (Zt )t≥0 , so dass (14.9) f¨ Satz 14.40. Der Prozess
1 Zt := exp Bt − t , 2
t ≥ 0,
ist eine L¨ osung der linearen stochastischen Integralgleichung t Zt = 1 +
t ≥ 0.
Zs dBs , 0
Beweis. Offensichtlich ist Z ein adaptierter stetiger Prozess. Mit f (x, t) := exp(x − 12 t) gilt f (Bt , t) = Zt . Die partiellen Ableitungen von f sind: ∂f ∂2f 1 ∂f = f, = − f. = f und ∂x ∂x2 ∂t 2 Damit folgt mit der Itˆ o-Formel 14.37: t Zt = f (Bt , t) = f (0, 0) +
∂f (Bs , s)dBs + ∂x
0
t
∂f 1 (Bs , s)ds + ∂t 2
0
t
∂2f (Bs , s)ds ∂x2
0
t = f (0, 0) +
f (Bs , s)dBs 0
t = 1+
Zs dBs . 0
Das Martingal Zt = exp(Bt − heißt Exponential von B. Es entspricht dem gew¨ ohnlichen Exponential z(t) := exp(x(t)) einer C 1 -Funktion x(t), das L¨ osung der analogen gew¨ ohnlichen Integralgleichung 1 2 t)
t z(s)dx(s) = 1 +
z(t) = 1 + 0
ist.
t z(s)x(s)ds ˙ 0
(x(0) = 0)
(14.10)
14.4 Die Itˆ o-Formel
447
Stochastische Differentialgleichungen Die Integralgleichung (14.10) schreibt man u ¨blicherweise als gew¨ohnliche Differentialgleichung z(t) ˙ = z(t)x(t), ˙ z(0) = 1, bzw. in differentieller Notation dz(t) = z(t)dx(t),
z(0) = 1.
Analog schreibt man f¨ ur die Integralgleichung t Zt = 1 +
Zs dBs ,
t ≥ 0,
0
ebenfalls in differentieller Notation dZ(t) = Z(t)dB(t),
Z(0) = 1.
(14.11)
Im Unterschied zu gew¨ ohnlichen Differentialgleichungen gibt es daf¨ ur keine Interpretation im Sinne eines Differentialkalk¨ uls, gemeint ist mit dieser Schreibweise immer die entsprechende Integralgleichung. Dennoch hat es sich eingeb¨ urgert, von stochastischen Differentialgleichungen zu sprechen, und (14.11) ist ein erstes Beispiel f¨ ur eine stochastische Differentialgleichung. Allgemeinere stochastische Differentialgleichungen sind von der Gestalt dXt = a(t, Xt )dt + b(t, Xt )dBt ,
X0 = Y,
f¨ ur geeignete Funktion a, b : R+ × R → R, was nichts anderes bedeutet als t X t = X0 +
t a(s, Xs )ds +
0
b(s, Xs )dBs ,
X0 = Y.
0
Hat man gekl¨ art, was unter einer L¨ osung einer stochastischen Differentialgleichung zu verstehen ist, stellt sich die Frage nach ihrer Existenz und Eindeutigkeit. Es stellt sich heraus, dass unter a ¨hnlichen Bedingungen wie bei gew¨ ohnlichen Differentialgleichungen jede stochastische Differentialgleichung eine eindeutige L¨ osung besitzt. Die Behandlung stochastischer Differentialgleichungen und ihrer L¨ osungen nimmt in der Spezialliteratur einen breiten Raum ein. F¨ ur viele Gebiete, wie z.B. die Finanzmathematik, ist die Theorie der stochastischen Differentialgleichungen von zentraler Bedeutung. In den Literaturhinweisen geben wir einige weiterf¨ uhrende B¨ ucher an, denen sich der Leser nun hoffentlich mit Freude widmen kann.
448
14 Itˆ o-Integrale
14.5 Anwendung Mikroelektronik: Schaltkreissimulation Eine wichtige Anwendung der Itˆ o-Integration besteht in der Beschreibung elektronischer Schaltkreise unter Ber¨ ucksichtigung von thermischem Rauschen in Widerst¨ anden. Um dieses Rauschen modellieren zu k¨onnen, sind noch einige mathematische Vorbereitungen erforderlich. Distributionen Dazu betrachtet man den R-Vektorraum K aller beliebig oft stetig differenzierbaren Funktionen φ:R→R mit kompaktem Tr¨ ager. Dieser Vektorraum wird als Raum der Testfunktionen bezeichnet. Eine Folge (φk ), k ∈ N, von Funktionen aus K heißt konvergent gegen eine Funktion φ ∈ K, falls alle φk außerhalb einer gemeinsamen kompakten Menge identisch Null sind und f¨ ur jedes q ∈ N neben der Folge (φk ) (q) auch die Folge (φk ) der q-ten Ableitungen gleichm¨aßig gegen φ beziehungsweise φ(q) konvergiert. Jedes stetige lineare Funktional Φ : K → R,
φ → Φ(φ),
heißt verallgemeinerte Funktion oder Distribution. Die Menge aller Distributionen bildet einen R-Vektorraum. Man kann jeder stetigen Funktion f : R → R durch ∞ Φf : K → R, φ → f (t)φ(t)dt, −∞
eine Distribution zuordnen, die die Funktion f repr¨asentiert. Die f¨ ur jedes t0 ∈ R durch δt0 : K → R, φ → φ(t0 ), definierte Distribution wird Diracsche Deltadistribution genannt. Diese Distribution repr¨ asentiert keine Funktion in obigem Sinne, denn w¨are δt0 eine Funktion, so kann man sich leicht u ¨berlegen, dass aus der Bedingung ∞ δt0 (t)φ(t)dt = φ(t0 )
f¨ ur alle φ ∈ K
−∞
ein Widerspruch folgen w¨ urde. Entscheidend dabei ist, dass diese Gleichheit f¨ ur alle Testfunktionen φ ∈ K gelten m¨ usste. Als Ableitung Φ˙ einer Distribution definiert man die Distribution Φ˙ : K → R,
φ → −Φ(φ ).
14.5 Anwendung Mikroelektronik: Schaltkreissimulation
449
Diese Festlegung ist sinnvoll angesichts der Tatsache, dass f¨ ur eine stetig differenzierbare Funktion f : R → R gilt: Φ˙ f = −Φf (φ ) = −
∞
∞
f (t)φ (t)dt =
−∞
f (t)φ(t)dt = Φf .
−∞
Verallgemeinerte stochastische Prozesse Nun betrachten wir f¨ ur jedes φ ∈ K basierend auf einem Wahrscheinlichkeitsraum (Ω, F, P) eine reelle Zufallsvariable Φ(φ) : Ω → R. Die Menge {Φ(φ) : φ ∈ K} dieser Zufallsvariablen heißt verallgemeinerter ” stochastischer Prozess“, falls die folgenden beiden Bedingungen erf¨ ullt sind: •
F¨ ur alle α, β ∈ R und alle φ, ψ ∈ K gilt: Φ(αφ + βψ) = αΦ(φ) + βΦ(ψ)
•
fast sicher.
F¨ ur alle Folgen (φkj ) aus K, k = 1, . . . , n, die f¨ ur j → ∞ in K gegen φk konvergieren, konvergieren die n-dimensionalen reellen Zufallsvariablen (Φ(φ1j ), . . . , Φ(φnj )) in Verteilung gegen (Φ(φ1 ), . . . , Φ(φn )).
Mit diesen beiden Bedingungen erh¨ alt man Distributionen als Pfade eines verallgemeinerten stochastischen Prozesses. Genauso wie man jeder stetigen Funktion eine Distribution zuordnen kann, kann man aus einem stetigen stochastischen Prozess X = (Xt )t≥0 einen verallgemeinerten stochastischen Prozess konstruieren, in dem man pfadweise integriert: ∞ ΦX (φ)(ω) =
Xt (ω)φ(t)dt,
ω ∈ Ω.
(14.12)
0
Verallgemeinerte Brownsche Bewegung und weißes Rauschen Sei B = (Bt )t≥0 eine Brownsche Bewegung und ∞ ΦB (φ)(ω) =
Bt (ω)φ(t)dt,
ω ∈ Ω,
0
der zugeh¨ orige verallgemeinerte Prozess {ΦB (φ) : φ ∈ K}. Da man zeigen ˙ kann, dass die Ableitung {Φ(φ) : φ ∈ K} eines verallgemeinerten stochastischen Prozesses {Φ(φ) : φ ∈ K} wieder ein verallgemeinerter stochastischer Prozess ist, k¨ onnen wir den verallgemeinerten stochastischen Prozess {Φ˙ B (φ) : φ ∈ K} betrachten. Dieser hat folgende Eigenschaften:
450
14 Itˆ o-Integrale
•
E(Φ˙ B (φ)) = 0
•
F¨ ur beliebige, linear unabh¨ angige Funktionen φ1 , . . . , φn ∈ K, n ∈ N, ist die Zufallsgr¨ oße (Φ˙ B (φ1 ), . . . , Φ˙ B (φn )) normalverteilt.
f¨ ur alle φ ∈ K. ∞ φ(t)ψ(t)dt. • Cov(Φ˙ B (φ), Φ˙ B (ψ)) = −∞
Versucht man, die Kovarianzfunktion Cov(Φ˙ B (φ), Φ˙ B (ψ)) als klassische Funktion in zwei Variablen s und t darzustellen, so w¨ urden sich exakt die Eigenschaften von δs (t) ergeben. Wegen dieser Kovarianzstruktur und wegen E(Φ˙ B (φ)) = 0
f¨ ur alle φ ∈ K
dient {Φ˙ B (φ) : φ ∈ K} in den Naturwissenschaften als klassisches Modell f¨ ur nicht deterministisch modellierbare St¨ orungen. {Φ˙ B (φ) : φ ∈ K} wird als weißes Rauschen“ bezeichnet und etwas ungenau durch νt notiert, obwohl ” es kein stochastischer Prozess im klassischen Sinne ist. Dennoch wird oft so getan, als ob weißes Rauschen νt ein stochastischer Prozess w¨are und analog zu (14.12) f¨ ur den verallgemeinerten Prozess die folgende Notation verwendet: Φ˙ B (φ) = νt (φ) =
∞ ” −∞
φνt dt “.
(14.13)
Zwischen weißem Rauschen und der Itˆo-Integration besteht ein enger Zusammenhang: Zun¨ achst folgt durch Anwendung der Itˆ o-Formel 14.37 auf die Funktion f (x, t) := x·φ(t) (Die Integrale u ¨ber die negative Halbachse verschwinden, ur alle t < 0 vereinbart): da man die Konvention Bt := 0 f¨ u
Bu φ(u) =
u
φ (t)Bt dt + −∞
φ(t)dBt .
−∞
F¨ ur u −→ ∞ konvergiert Bu φ(u) gegen 0, daher erhalten wir: ∞ Φ˙ B (φ) = −
∞
φ (t)Bt dt =
−∞
φ(t)dBt (= −∞
∞ ” −∞
φνt dt “).
(14.14)
Der distributiven Ableitung eines Itˆ o-Integrals entspricht ein durch den Integranden multiplikativ gewichtetes weißes Rauschen. In laxer, aber sehr verbreiteter Schreibweise wird dies beschrieben durch die Gleichung ”
dBt = νt dt “.
Um pr¨ azise zu bleiben, muss dieser Ausdruck in zweifacher Weise richtig interpretiert werden: zum einen, wie bei jeder stochastischen Differentialgleichung, als Integralgleichung, wie in Gleichung (14.14). Zum anderen muss das Integral auf der rechten Seite im Sinne von Gleichung (14.13) gedeutet werden.
14.5 Anwendung Mikroelektronik: Schaltkreissimulation
451
Spannungsverlauf in einem Schaltkreis Eine wichtige Anwendung von weißem Rauschen in der Elektrotechnik ist die Modellierung von thermischem Rauschen in elektronischen Bauteilen. Bei ei¨ nem Widerstand R ergibt sich zum Beispiel eine additive Uberlagerung von R mit speziell skaliertem weißem Rauschen. Die Wirkung von thermischem Rauschen in Widerst¨ anden untersuchen wir nun an Hand der folgenden einfachen Schaltung, wie sie in Abbildung 14.1 dargestellt ist: Drei in Serie ge-
Abbildung 14.1. Beispiel eines Schaltkreises
schaltete Bauteile, eine Spule der Induktivit¨ at L > 0, ein Kondensator der Kapazit¨ at C > 0 und ein Widerstand R > 0 werden durch eine Wechselspannung Ua : R → R gespeist. Gesucht ist der Spannungsverlauf U : R → R am Kondensator f¨ ur t ≥ 0. Vernachl¨ assigt man zun¨achst das thermische Rauschen im Widerstand, so ist die Funktion U implizit durch folgende Differentialgleichung gegeben: ¨ (t) + RC U˙ (t) + U (t) = Ua (t), LC U
U (0) = u0 , U˙ (0) = u1 .
Durch Substitution x1 (t) = U (t) und x2 (t) = U˙ (t) erh¨alt man das Anfangswertproblem: x2 (t) x˙ 1 (t) = , x1 (0) = u0 , x2 (0) = u1 . 1 1 R x˙ 2 (t) LC Ua (t) − LC x1 (t) − L x2 (t)
452
14 Itˆ o-Integrale
¨ Ubergang zum stochastischen Modell Modelliert man nun die thermischen Rauscheffekte im Widerstand mit, so gibt es zwei Dinge zu ber¨ ucksichtigen. Zum einen wird der Widerstand nicht mehr als konstant angesehen, sondern durch ein additives weißes Rauschen u oße R durch R + k · νt zu ersetzen. Zum ¨berlagert. Wir haben also die Gr¨ anderen werden dadurch die beteiligten Funktionen x1 , x2 zu stochastischen uhren in der oben beschriebenen laxen Prozessen X1 , X2 . Diese Ersetzungen f¨ Notation zu folgenden (stochastischen) Differentialgleichungen: X2 (s) dX1 (s) = . R+kνt 1 1 dX2 (s) LC Ua (s) − LC X1 (s) − L X2 (s) Die pr¨ azise Bedeutung ergibt sich, wie u ¨blich, durch Integration:
X1 (t) X2 (t)
=
u0 u1
t + 0
t − 0
X2 (s) 1 LC Ua (s) −
0 k X L 2 (s)
1 LC X1 (s)
−
R L X2 (s)
ds
dBs .
In der Mikroelektronik sind thermisches Rauschen und andere parasit¨are Effekte nicht mehr vernachl¨ assigbar. Will man diese bei der Modellierung ber¨ ucksichtigen, wie es von der Industrie gefordert wird, so erfordert dies den ¨ Ubergang von der Riemann-Integration zur Itˆ o-Integration. F¨ ur die L¨osung der entsprechenden stochastischen Differentialgleichungen ben¨otigt man effiziente numerische Verfahren (s. z.B. [DS97]). Auch f¨ ur andere Rauscheinfl¨ usse, die nicht unbedingt weißem Rauschen entsprechen, sind ¨ahnliche Ans¨atze m¨ oglich (s. z.B. [DMS03]).
Teil IV
Mathematische Statistik
15 Sch¨ atztheorie
15.1 Das statistische Modell Der statistische Raum Hat man ein Zufallsexperiment durch einen Wahrscheinlichkeitsraum modelliert, so stellt die Wahrscheinlichkeitstheorie Hilfsmittel bereit, um bei bekanntem Wahrscheinlichkeitsraum Aussagen u ¨ber den Ablauf des zu Grunde liegenden Zufallsexperimentes machen zu k¨ onnen. Die mathematische Statistik behandelt die folgende Problemstellung: Das zu modellierende Zufallsexperiment wird zun¨ achst durch einen unvollst¨andigen Wahrscheinlichkeitsraum beschrieben. Bei dieser Beschreibung werden die Grundmenge Ω, die σ−Algebra F und eine Menge W von Wahrscheinlichkeitsmaßen auf F festgelegt. Dabei wird die Menge der in Frage kommenden Wahrscheinlichkeitsmaße h¨aufig durch einen Parameter θ aus einem Parameterraum Θ dargestellt. Zur Erl¨ auterung betrachten wir das folgende Beispiel, das wir immer wieder zur Veranschaulichung heranziehen werden: Beispiel 15.1 (Herstellung von Gl¨ uhbirnen). Eine Firma stellt Gl¨ uhbirnen her, wobei jede Gl¨ uhbirne mit einer festen Wahrscheinlichkeit θ ∈ [0, 1] defekt ist. In einem großen Lager werden M Gl¨ uhbirnen aufbewahrt. Das im Lager befindliche M -Tupel von Gl¨ uhbirnen modellieren wir durch einen bin¨aren Vektor uhbirnen als durchnummeriert vorω ∈ Ω = {0, 1}M , wobei wir uns die M Gl¨ uhbirne defekt ist (also ist f¨ ur stellen, und ωi = 1 bedeutet, dass die i-te Gl¨ uhbirne in Ordnung). Als σ-Algebra F auf {0, 1}M k¨onnen ωi = 0 die i-te Gl¨ wir die Potenzmenge P({0, 1}M ) verwenden. Unter der Annahme, dass die Zust¨ ande der einzelnen Gl¨ uhbirnen unabh¨ angig sind, ist es plausibel, folgende Wahrscheinlichkeitsmaße auf (Ω, F) zuzulassen: Wθ =
M i=1
B(1, θ),
θ ∈ [0, 1],
456
15 Sch¨ atztheorie
wobei B(1, θ) wie u ¨blich die Bernoulli-Verteilung zum Parameter θ bezeichnet. Entsprechend besitzen die Wahrscheinlichkeitsmaße Wθ die Lebesgue-Dichten fθ (ω) = θ
M
i=1
ωi
(1 − θ)M −
M
i=1
ωi
,
ω ∈ {0, 1}M .
Aufgabe der mathematischen Statistik ist es nun, auf der Grundlage einer beobachteten Realisierung, z.B. einer Stichprobe von 100 Gl¨ uhbirnen aus dem zu ziehen. In diesem Lager, R¨ uckschl¨ usse u ber die richtige“ Verteilung W ¨ θ ” Sinn kann man die Aufgabe der Statistik als Umkehrung der Aufgabe der Wahrscheinlichkeitstheorie ansehen. ♦ Wir erhalten somit die folgende Ausgangssituation: Gegeben ist ein Tripel (Ω, F, W) bestehend aus einer Grundmenge Ω, einer σ−Algebra F und einer Menge W von Wahrscheinlichkeitsmaßen auf F. Ist diese Menge W durch einen Parameter θ ∈ Θ beschrieben, so schreiben wir (Ω, F, Wθ∈Θ ). Um zu einer vollst¨ andigen mathematischen Beschreibung dieses Zufallsexperimentes zu kommen, muss man sich f¨ ur ein Wahrscheinlichkeitsmaß P aus der Menge der in Frage kommenden Wahrscheinlichkeitsmaße entscheiden. Ein wesentliches Kriterium der mathematischen Statistik besteht darin, dass eine Entscheidung u ¨ber die Wahl des Wahrscheinlichkeitsmaßes beziehungsweise u ¨ber die Verkleinerung der Menge aller in Frage kommenden Wahrscheinlichkeitsmaße von einer beobachteten oder gemessenen Realisierung des Zufallsexperimentes abh¨ angt. Diese ist durch den Funktionswert X(ˆ ω ) einer Zufallsvariablen X : (Ω, F) −→ (Ψ, G) f¨ ur ein beobachtetes Ergebnis ω ˆ ∈ Ω des zu Grunde gelegten Zufallsexperimentes gegeben. Basierend auf X(ˆ ω ) soll nun unter verschiedenen weiteren Vorgaben eine Entscheidung f¨ ur die Wahl des Wahrscheinlichkeitsmaßes P ∈ W auf F erm¨oglicht oder zumindest vereinfacht werden. Durch die Zufallsvariable X : Ω → Ψ erhalten wir zu jedem P ∈ W ein Wahrscheinlichkeitsmaß PX auf G, das Bildmaß von P unter X. Die zu W geh¨orige Menge aller Bildmaße PX auf G bezeichnen wir mit PX,W beziehungsweise mit PX,Wθ∈Θ , falls W durch einen Parameter θ ∈ Θ dargestellt wird. Da wir nicht die Beobach¨ tung ω ˆ ∈ Ω als Basis unserer Uberlegungen gew¨ahlt haben, sondern X(ˆ ω ), ist es sinnvoll, Aussagen u ber Wahrscheinlichkeitsmaße P ∈ W (auf F) auf ¨ Aussagen u ¨ber Wahrscheinlichkeitsmaße PX ∈ PX,W (auf G) zu verlagern. Wir fassen zusammen: Definition 15.2 (Stichprobe(nraum), stat. Raum, Realisierung). Seien (Ω, F) und (Ψ, G) Messr¨ aume, W eine Menge von Wahrscheinlichkeitsmaßen auf F und X : Ω → Ψ eine Zufallsvariable. Dann heißt das Tupel (Ψ, G, PX,W ) statistischer Raum. (Ψ, G) heißt Stichprobenraum. Ist ω ˆ ∈ Ω ein beobachtetes Ergebnis, so heißt der Wert x ¯ = X(ˆ ω ) Stichprobe oder Realisierung von X.
15.1 Das statistische Modell
457
Ein statistischer Raum (Ψ, G, PX,W ) setzt somit implizit die Existenz einer Zufallsvariablen X : Ω → Ψ voraus. Genau wie in der Wahrscheinlichkeitstheorie kommt es in der Regel weniger auf X als vielmehr auf die von X induzierten Verteilungen PX,W an. Es sei noch einmal betont, dass im Unterschied zur Wahrscheinlichkeitstheorie das Wahrscheinlichkeitsmaß zun¨achst nicht bekannt ist. Beispiel 15.3 (Gl¨ uhbirnen). Betrachten wir noch einmal die Firma, die Gl¨ uhbirnen herstellt, so k¨ onnen wir ihr Lager durch (Ω, F) = ({0, 1}M , P({0, 1}M ))
sowie
Wθ =
M
B(1, θ),
θ ∈ [0, 1],
i=1
¨ modellieren. Ublicherweise steht uns jedoch kein Ergebnis dieses Zufallsexperimentes zur Verf¨ ugung, da dies einer Pr¨ ufung des gesamten Lagers entspr¨ache. Daher betrachten wir eine Stichprobe vom Umfang K < M , z.B. die Lieferung an einen Kunden, und definieren entsprechend mit Ψ = {0, 1}K und G = P({0, 1}K ) die Zufallsvariable X : Ω → Ψ,
ω = (ω1 , . . . , ωM ) → (ωi1 , . . . , ωiK ) =: x = (x1 , . . . , xK ).
F¨ ur die Bildmaße auf Ψ folgt: PX,Wθ =
K
B(1, θ),
θ ∈ [0, 1].
i=1
Somit erhalten wir als Modell f¨ ur die Lieferung an den Kunden den statistischen Raum K K K B(1, θ) , θ ∈ [0, 1]. {0, 1} , P({0, 1} ), i=1
♦ Entscheidungen Ist ein statistischer Raum (Ψ, G, PX,Wθ∈Θ ) gegeben, so will man auf der Grundlage einer Stichprobe x ¯ = X(ˆ ω ) ∈ Ψ eine Entscheidung u ¨ber die Menge der zur Konkurrenz zugelassenen Verteilungen PX,Wθ∈Θ treffen. Je nach Fragestellung kommt es dabei zu unterschiedlichen Entscheidungstypen, die wir an unserem Standardbeispiel 15.1 erl¨ autern: Beispiel 15.4 (Gl¨ uhbirnen). Der statistische Raum f¨ ur die Lieferung von K Gl¨ uhbirnen an einen Kunden ist gegeben durch K K K B(1, θ) , θ ∈ [0, 1]. {0, 1} , P({0, 1} ), i=1
458
15 Sch¨ atztheorie
Die Firma h¨ atte gerne auf Grund der Erfahrung des Kunden Aussagen u ¨ber den Wert von θ, d.h. u ¨ber die Verteilung PX,Wθ . Je nach Fragestellung sind verschiedene Situationen denkbar: (i) Es ist m¨ oglich, dass der Hersteller den genauen Wert von θ ∈ [0, 1] ermitteln will. Gesucht ist dann eine Funktion g : Ψ −→ R, die in Abh¨ angigkeit einer Stichprobe x ¯ ∈ Ψ einen Sch¨atzwert g(¯ x) f¨ ur θ angibt. Etwas allgemeiner l¨ asst man zu, dass g nicht θ selbst, sondern einen Funktionswert γ(θ) einer vorgegebenen Funktion γ : Θ −→ R sch¨ atzt. In unserem Beispiel ist γ die Inklusion [0, 1] → R. In diesem Fall heißt g Sch¨ atzfunktion f¨ ur γ. In diesem Kapitel besch¨aftigen wir uns mit der Theorie solcher Sch¨ atzfunktionen. (ii) Alternativ k¨onnte es dem Hersteller gen¨ ugen zu wissen, ob mehr oder weniger als 10% seiner Gl¨ uhbirnen defekt sind. In diesem Fall zerlegen wir den Parameterraum [0, 1] [0, 1] = [0, 0.1] ∪ ]0.1, 1], und wir haben zu entscheiden, ob θ ∈ [0, 0.1]
oder θ ∈ ]0.1, 1].
Die Behandlung solcher so genannter Alternativtestprobleme, bei denen der Parameterraum Θ = H0 ∪ H1 in zwei disjunkte Mengen H0 und H1 zerlegt ist und wir zu entscheiden haben, ob θ ∈ H0 oder θ ∈ H1 , ist Inhalt der Testtheorie, mit der wir uns im n¨achsten Kapitel besch¨aftigen. (iii) Schließlich besteht die M¨ oglichkeit, zwar nicht den genauen Wert von θ ∈ [0, 1] ermitteln zu wollen, aber zu jedem Intervall [a, b] ⊂ [0, 1] die Frage aufzuwerfen, ob θ ∈ [a, b] ist. Dies f¨ uhrt auf so genannte Konfidenzintervalle bzw. Bereichssch¨atzer. Systematisch l¨ aßt sich ihre Theorie am besten im Rahmen eines vertieften Studiums der Testtheorie behandeln. Wir beschr¨anken uns daher auf ein einfaches Beispiel, s. 15.23. ♦
15.1 Das statistische Modell
459
Wir haben uns bisher noch nicht dazu ge¨ außert, nach welchen Maßst¨aben wir eine getroffene Entscheidung beurteilen werden. Die Frage nach der G¨ ute einer Entscheidung ist stark abh¨ angig von der Fragestellung und von unter Umst¨ anden vorhandenem Zusatzwissen. Dementsprechend gibt es unterschiedliche G¨ utekriterien, die zum Teil nicht untereinander vergleichbar sind. Wir werden im Laufe der Entwicklung der Theorie verschiedene G¨ utekriterien vorstellen. Erwartungstreue Sch¨ atzer F¨ ur einen Sch¨ atzwert ist sicherlich ein G¨ utekriterium, dass er im Mittel den zu sch¨ atzenden Wert ergibt. Daher definieren wir: Definition 15.5 ((erwartungstreue) Sch¨ atzfunktion, Sch¨ atzer). Sei ¯ ∈ (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, γ : Θ → R eine Abbildung, x Ψ eine Realisierung und g : Ψ → R eine G-B-messbare Funktion. Dann nennt man g eine Sch¨ atzfunktion f¨ ur γ und g(¯ x) einen Sch¨ atzer f¨ ur γ(θ). Die Sch¨ atzfunktion g heißt erwartungstreu, falls ur alle θ ∈ Θ. Eθ (g) := gdPX,Wθ = γ(θ) f¨ Es kann passieren, dass es f¨ ur γ(θ) keine erwartungstreue Sch¨atzfunktion gibt; in diesem Fall wird γ(θ) als nicht sch¨ atzbar bezeichnet. Ansonsten heißt γ(θ) sch¨ atzbar. Wir gehen im Folgenden immer von sch¨atzbaren γ(θ) aus. Beispiel 15.6. Wir wollen f¨ ur unser Standardbeispiel, die Herstellung von Gl¨ uhbirnen, K K K B(1, θ) , θ ∈ [0, 1], {0, 1} , P({0, 1} ), i=1
eine erwartungstreue Sch¨ atzfunktion f¨ ur den unbekannten Parameter θ γ : [0, 1] → R,
θ → γ(θ) := θ,
angeben. Nahe liegend ist die Sch¨ atzfunktion K
g : {0, 1}
K
→ R,
x ¯ →
x ¯i
i=1
. K Diese Sch¨ atzfunktion ist erwartungstreu, denn es gilt: K 1 Kθ Eθ (g) = = θ = γ(θ). xi dPXi ,θ = K i=1 K ♦
460
15 Sch¨ atztheorie
15.2 Suffizienz und Vollst¨ andigkeit Ist ein Sch¨ atzer erwartungstreu, so bedeutet dies gerade, dass er keinen systematischen Fehler besitzt. Um verschiedene erwartungstreue Sch¨atzer vergleichen zu k¨ onnen, ben¨ otigen wir die Konzepte der Suffizienz und Vollst¨andigkeit. Suffizienz Der Begriff der Suffizienz dient dazu, Daten zu komprimieren, ohne dass dabei relevante Information verloren geht. Zur Erl¨ auterung betrachten wir wiederum unser Standardbeispiel: Beispiel 15.7. Die Firma liefert K Gl¨ uhbirnen an einen Kunden aus, beschrieben durch den statistischen Raum K K K B(1, θ) , θ ∈ [0, 1]. {0, 1} , P({0, 1} ), i=1
Wir wissen bereits, dass K
g : {0, 1}K → R,
x ¯ →
x ¯i
i=1
K
ein erwartungstreuer Sch¨ atzer f¨ ur θ ist. F¨ ur die Bestimmung von g und damit die Sch¨ atzung von θ scheint es zu gen¨ ugen, sich statt x ¯ ∈ {0, 1}K nur die Zahl K ¯i zu merken. Die entscheidende Frage lautet nun: Sind alle Informai=1 x tionen, die in x ¯ ∈ {0, 1}K u ¨ber den unbekannten Parameter θ enthalten sind, K auch in der Zahl i=1 x ¯i enthalten? In diesem Fall nennt man die Abbildung T : Ψ = {0, 1}K → ΩT = {0, 1, . . . , K},
x →
K
xi
i=1
eine suffiziente Statistik f¨ ur θ. Wie kann man nun entscheiden, ob alle Informationen u ¨ber θ bereits in der Abbildung T enthalten sind? Zur Beantwortung dieser Frage stellen wir zun¨ achst fest, dass T P({0, 1}K )-P({0, 1, . . . , K})messbar ist. Somit k¨ onnen wir f¨ ur jede Menge Dt := {x ∈ {0, 1}K : T (x) = t},
t ∈ {0, 1, . . . , K},
die bedingten Wahrscheinlichkeiten t PD X,Wθ ({x}) =
f¨ ur θ ∈ [0, 1] berechnen. Es gilt:
PX,Wθ ({x} ∩ Dt ) PX,Wθ (Dt )
15.2 Suffizienz und Vollst¨ andigkeit
t PD X,Wθ ({x}) =
⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩
0 θ t (1−θ)(K−t) )θt (1−θ)(K−t)
K t
(
f¨ ur alle x mit =
1
(Kt )
f¨ ur alle x mit
K i=1 K
461
xi = t, xi = t.
i=1
t Entscheidend ist nun die Tatsache, dass die Werte PD ur alle X,Wθ ({x}) f¨ K x ∈ {0, 1} und alle t ∈ {0, 1, . . . , K} nicht mehr von θ abh¨angen. Diesen Sachverhalt interpretieren wir dahingehend, dass bei bekanntem T (x) = t die genaue Kenntnis von x keinerlei zus¨ atzliche Information u ¨ber θ enth¨alt. Die Beobachtung T (x) ist hinreichend (suffizient) daf¨ ur, jede Information u ¨ber θ zu erhalten, die man der Stichprobe x ¯ = X(ˆ ω ) entnehmen kann. ♦
Das obige Beispiel motiviert folgende Definition: Definition 15.8 (Suffizienz). Es sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, (ΩT , FT ) ein Messraum und T : Ψ −→ ΩT eine messbare Abbildung. Dann heißt T suffizient, falls es f¨ ur jedes A ∈ G eine von θ ∈ Θ unabh¨ angige Version P∗ (A|T ) der bedingten Wahrscheinlichkeit Pθ (A|T ) = Eθ (IA |T ) gibt. Eine unmittelbare Konsequenz der Definition von Suffizienz ist: Satz 15.9. Es sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, (ΩT , FT ) ein Messraum und T : Ψ −→ ΩT suffizient. Dann gibt es zu jeder integrierbaren reellen Zufallsvariablen X eine Version E∗ (X|T ) von Eθ (X|T ), die nicht von θ ∈ Θ abh¨ angt. Beweis. F¨ ur X = IA , A ∈ G, ist dies die Definition der Suffizienz von T . Der Rest folgt mit unserer (bedingten Variante der) Standardprozedur. Allgemein heißen messbare Abbildungen T : Ψ → ΩT auf dem Stichprobenraum Statistiken. Die von θ unabh¨ angige Version E∗ (X|T ) einer suffizienten Statistik T wird im Folgenden eine entscheidende Rolle spielen. Verbesserung eines erwartungstreuen Sch¨ atzers Wir kommen nun zu der Frage zur¨ uck, wie man mit Hilfe suffizienter Staur γ(θ) tistiken zwei gegebene erwartungstreue Sch¨ atzfunktionen g1 und g2 f¨ vergleichen kann. Dazu ben¨ otigen wir neben der Erwartungstreue ein weiteres G¨ utekriterium. Ein Maß f¨ ur die Abweichung einer Zufallsvariable von ihrem Erwartungswert ist die Varianz dieser Zufallsvariable. Da der Erwartungswert
462
15 Sch¨ atztheorie
einer erwartungstreuen Sch¨ atzfunktion gerade die zu sch¨atzende Gr¨oße ist, sei ur alle θ ∈ Θ die Varianz von g1 kleiner ist als die Varianz g1 besser als g2 , falls f¨ oglichkeit, mit Hilfe suffizienter von g2 . Der folgende Satz beschreibt eine M¨ Statistiken zu verbesserten erwartungstreuen Sch¨atzfunktionen zu kommen. Theorem 15.10 (Rao-Blackwell). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, (ΩT , FT ) ein Messraum, γ : Θ → R eine Abbildung und g : Ψ → R eine erwartungstreue Sch¨ atzfunktion f¨ ur γ(θ). Ist ferner T : Ψ → ΩT eine suffiziente Statistik, so ist die von θ unabh¨ angige Funktion h := E∗ (g|T ) : Ψ → R,
x → E∗ (g|T )(x),
ebenfalls ein erwartungstreuer Sch¨ atzer f¨ ur γ(θ), und es gilt f¨ ur alle θ ∈ Θ: Vθ (h) ≤ Vθ (g). Beweis. Da T suffizient ist, existiert E∗ (g|T ) nach Satz 15.9. Somit ist h eine wohldefinierte Sch¨ atzfunktion. Nach Definition der Sch¨atzfunktion h gilt f¨ ur alle θ ∈ Θ: hdPX,Wθ = Eθ (g|T )dPX,Wθ = gdPX,Wθ = γ(θ). Somit ist h erwartungstreu. F¨ ur die Varianz von h erhalten wir mit der bedingten Jensenschen Ungleichung: Vθ (h) = (h − γ(θ))2 dPX,Wθ = (Eθ (g|T ) − γ(θ))2 dPX,Wθ 2 ≤ Eθ ((g − γ(θ)) |T )dPX,Wθ = (g − γ(θ))2 dPX,Wθ = Vθ (g). Wir stellen somit w¨ unschenswerte G¨ utekriterien f¨ ur Sch¨atzfunktionen fest: • Eine Sch¨ atzfunktion soll erwartungstreu sein. • Eine erwartungstreue Sch¨ atzfunktion soll f¨ ur jedes θ ∈ Θ eine m¨oglichst kleine Varianz haben. Vollst¨ andigkeit Das Theorem von Rao-Blackwell 15.10 er¨ offnet die M¨oglichkeit, mit Hilfe einer suffizienten Statistik die Varianz eines erwartungstreuen Sch¨atzers gleichm¨ aßig zu verringern. Man kann sich jedoch zun¨achst nicht sicher sein, dadurch eine erwartungstreue Sch¨ atzfunktion mit gleichm¨aßig minimaler Varianz f¨ ur alle θ ∈ Θ bestimmt zu haben. Eine Sch¨atzfunktion mit gleichm¨aßig minimaler Varianz f¨ ur alle θ ∈ Θ heißt gleichm¨aßig effizient. Zur Bestimmung gleichm¨ aßig effizienter Sch¨ atzfunktionen ben¨otigen wir den Begriff der Vollst¨ andigkeit:
15.2 Suffizienz und Vollst¨ andigkeit
463
Definition 15.11 (Vollst¨ andigkeit). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum und (ΩT , FT ) ein Messraum. Eine Statistik T : Ψ −→ ΩT heißt vollst¨ andig (bzgl. PX,Wθ∈Θ ), wenn gilt: Ist f : ΩT → R eine messbare Funkur alle θ ∈ Θ, so folgt tion mit Eθ (f ◦ T ) = 0 f¨ f =0
PT ◦X,Wθ -fast sicher f¨ ur alle θ ∈ Θ.
Die Vollst¨ andigkeit (bzgl. PX,Wθ∈Θ ) einer Statistik T kann man sich so vorstellen: Die Familie der Verteilungen ist reichhaltig genug, um aus dem Verschwinden der Integrale Eθ (f ◦ T ) = 0 auf das Verschwinden des Integranden f = 0 fast sicher schließen zu k¨ onnen. Optimaler erwartungstreuer Sch¨ atzer Die Vollst¨ andigkeit der Statistik stellt gerade sicher, dass die Sch¨atzfunktion aus dem Theorem von Rao-Blackwell gleichm¨ aßig effizient, d.h. bez¨ uglich des Varianzg¨ utekriteriums optimal ist: Theorem 15.12 (Lehmann-Scheff´ e). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, (ΩT , FT ) ein Messraum, γ : Θ → R eine Abbildung und g : Ψ → R eine erwartungstreue Sch¨ atzfunktion f¨ ur γ(θ). Sei ferner T : Ψ → ΩT eine vollst¨ andige und suffiziente Statistik, so ist die von θ unabh¨ angige Sch¨ atzfunktion h := E∗ (g|T ) : Ψ → R, x → E∗ (g|T )(x) gleichm¨ aßig effizient. Beweis. Sei κ : Ψ → R eine weitere erwartungstreue Sch¨atzfunktion f¨ ur γ(θ), so gilt f¨ ur alle θ ∈ Θ: Eθ (κ|T )dPX,Wθ = γ(θ) = Eθ (g|T )dPX,Wθ und somit
ur alle θ ∈ Θ. Eθ ((κ − g)|T )dPX,Wθ = 0 f¨
Aus dem Faktorisierungslemma 8.3 folgt die Existenz einer messbaren Abbildung f : ΩT → R mit f ◦ T = Eθ ((κ − g)|T ). Aus der Vollst¨andigkeit von T folgt daher Eθ ((κ − g)|T ) = 0 PX,Wθ -fast sicher oder a¨quivalent PX,Wθ ({x ∈ Ψ : Eθ (κ|T )(x) = Eθ (g|T )(x)}) = 1 f¨ ur alle θ ∈ Θ und somit wieder mit der bedingten Jensenschen Ungleichung:
464
15 Sch¨ atztheorie
Vθ (h) =
(Eθ (g|T ) − γ(θ)) dPX,Wθ = 2
≤
(Eθ (κ|T ) − γ(θ))2 dPX,Wθ
Eθ ((κ − γ(θ))2 |T )dPX,Wθ =
(κ − γ(θ))2 dPX,Wθ = Vθ (κ).
Beispiel 15.13 (Gl¨ uhbirnen). Wir betrachten ein weiteres Mal den statistiur die Herstellung schen Raum ({0, 1}K , P({0, 1}K ), PX,Wθ∈[0,1] ) als Modell f¨ von Gl¨ uhbirnen und definieren die erwartungstreuen Sch¨atzfunktionen g : {0, 1}K → R, sowie mit T : {0, 1}K → {0, . . . , K},
x → x1 ,
x →
K
xi die erwartungstreue Sch¨atz-
i=1
funktion: h : {0, 1}K → R,
h := E∗ (g|T ).
Durch Berechnung der bedingten Erwartung erhalten wir f¨ ur h: K
h(x) =
xi
i=1
K
.
F¨ ur die Varianzen folgt: θ(1 − θ) . K
θ(1 − θ) = Vθ (g) ≥ Vθ (h) =
Die Statistik T ist vollst¨ andig. Denn aus Eθ (f ◦ T ) = 0 f¨ ur alle θ ∈ [0, 1] folgt 0=
K k=0
k K K k K θ K−k K f (k) θ (1 − θ) = (1 − θ) f (k) k k 1−θ k=0
θ verschwinden, d.h. alle f¨ ur alle θ ∈ [0, 1]. Dann muss das Polynom in 1−θ Koeffizienten sind 0, also f = 0. Da T auch suffizient ist (vgl. Beispiel 15.7), ist h nach Theorem 15.12 gleichm¨ aßig effizient. ♦
15.3 Das Maximum-Likelihood-Verfahren Der Maximum-Likelihood-Sch¨ atzer Bisher haben wir Sch¨ atzverfahren analysiert und f¨ ur einfache Spezialf¨alle erwartungstreue Sch¨ atzfunktionen gefunden. Nun betrachten wir die Frage, wie man bei komplizierteren Szenarien u ur γ(θ) ¨berhaupt zu einem Sch¨atzer f¨ kommt; eine M¨ oglichkeit ist das Maximum-Likelihood-Verfahren:
15.3 Das Maximum-Likelihood-Verfahren
465
Definition 15.14 (Maximum-Likelihood-Sch¨ atzer). ¯ ∈ Ψ eine Stichprobe, µ ein Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, x ur jedes θ ∈ Θ absolut stetig bez¨ uglich µ σ-endliches Maß auf G und PX,Wθ f¨ ˆ mit der Dichte fX,θ : Ψ → R+ . Ist nun γ : Θ → R bijektiv und θ ∈ Θ mit fX,θˆ(¯ x) ≥ fX,θ (¯ x) f¨ ur alle θ ∈ Θ, ˆ Maximum-Likelihood-Sch¨ so heißt θˆ bzw. γ(θ) atzer f¨ ur θ bzw. γ(θ). Maximum-Likelihood-Sch¨ atzer m¨ ussen nicht existieren. Die Berechnung von θˆ f¨ uhrt auf das Gebiet der mathematischen Optimierung; ferner sind Sch¨atzfunktionen zu Maximum-Likelihood-Sch¨ atzern im Allgemeinen nicht erwartungstreu. Beispiel 15.15 (Gl¨ uhbirnen). Betrachten wir unser Standardbeispiel f¨ ur die Herstellung von Gl¨ uhbirnen, K {0, 1}K , P({0, 1}K ), B(1, θ) , θ ∈ [0, 1], i=1 K
so besitzen die Wahrscheinlichkeitsmaße
B(1, θ) die Lebesgue-Dichten
i=1
fX,θ (x) = θ
K
i=1
xi
(1 − θ)K−
K
i=1
xi
,
x ∈ {0, 1}K .
Als Maximum-Likelihood-Sch¨ atzer ergibt sich K
θˆ =
x ¯i
i=1
K
.
Wir wissen bereits, dass dieser Sch¨ atzer erwartungstreu ist.
♦
Beispiel 15.16 (Normalverteilung). In diesem Beispiel betrachten wir einen statistischen Raum mit einer Familie von Normalverteilungen: K K K R ,B , N(θ1 , θ2 ) , θ = (θ1 , θ2 ) ∈ R × R>0 . i=1
Die zugeh¨ origen Dichten fX,θ (x) =
K
i=1
√
1 (xi − θ1 )2 exp − , 2θ2 2πθ2
x ∈ RK ,
f¨ uhren zu den Maximum-Likelihood-Sch¨ atzern f¨ ur θ1 bzw. θ2 :
466
15 Sch¨ atztheorie K
θˆ1 =
K
x ¯i
i=1
K
bzw.
θˆ2 =
(¯ xi − θˆ1 )2
i=1
K
.
Eine Rechnung zeigt, dass θˆ1 erwartungstreu ist, w¨ahrend θˆ2 nicht erwartungstreu ist. Ein erwartungstreuer Sch¨ atzer f¨ ur die Varianz normalverteilter Wahrscheinlichkeitsmaße ist f¨ ur K > 1 K
g(θ) =
(¯ xi − θˆ1 )2
i=1
.
K −1
♦ Versuchsserien Wie wir am letzten Beispiel gesehen haben, ist ein Maximum-LikelihoodSch¨ atzer im Allgemeinen nicht erwartungstreu. Trotzdem geh¨ort das MaximumLikelihood-Verfahren zu den wichtigsten Methoden der mathematischen Statistik. Um dies zu verstehen, ben¨ otigen wir den Begriff der Versuchsserie: Definition 15.17 (Versuchsserie). Seien (Ω, F) und (Ψ, G) zwei Messr¨ aume und Wθ∈Θ eine Menge von Wahrscheinlichkeitsmaßen auf F. angiger, identisch Ist (Xn ) mit Xn : Ω → Ψ , n ∈ N, eine Folge unabh¨ verteilter Zufallsvariablen, so heißt die Folge (Yn ) von Zufallsvariablen mit Yn : Ω → Ψ n , ω → (X1 (ω), . . . , Xn (ω)) , n ∈ N, Versuchsserie. Zu einer gegebenen Versuchsserie (Yn ) erhalten wir eine Folge ((Ψ n , G n , PYn ,Wθ∈Θ )n ) statistischer R¨ aume. Klassische erwartungstreue Sch¨atzfunktionen bei Versuchsserien reeller Zufallsvariablen sind n xi , x ∈ Ψ n , • f¨ ur den Erwartungswert E(Xi ) : x → n1 i=1
• f¨ ur die Varianz V(Xi ) bei bekanntem Erwartungswert: n (xi − E(Xi ))2 , x ∈ Ψ n . x → n1 i=1
Konsistenz Auf Grund der Definition der Versuchsserie wird klar, dass mit Fortschreiten dieser Folge auch verbesserte Kenntnisse u ¨ber das unbekannte Wahrscheinlichkeitsmaß gewonnen werden. Dieser Sachverhalt muss sich bei der Sch¨atzung des unbekannten Parameters wiederspiegeln. Daher definiert man:
15.3 Das Maximum-Likelihood-Verfahren
467
Definition 15.18 (Konsistenz). Sei ((Ψ n , G n , PYn ,Wθ∈Θ )n ) die zu einer orige Folge von statistischen R¨ aumen und gegebenen Versuchsserie (Yn ) geh¨ atzfunktionen f¨ ur γ(θ), so (gn ) mit gn : Ψ n → R, n ∈ N, eine Folge von Sch¨ heißt (gn ) konsistent, falls lim PYn ,Wθ ({(x1 , . . . , xn ) ∈ Ψ n : |gn (x1 , . . . , xn ) − γ(θ)| ≥ }) = 0
n→∞
f¨ ur jedes > 0 und jedes θ ∈ Θ. Im Folgenden untersuchen wir den Zusammenhang zwischen dem MaximumLikelihood-Verfahren und dem Vorliegen einer Versuchsserie. Dazu setzen wir voraus, dass die Menge Θ ⊆ R ein offenes Intervall ist und dass die Verteilung ur jedes der in Definition 15.17 angesprochenen Zufallsvariablen Xn , n ∈ N, f¨ θ ∈ Θ durch eine Dichtefunktion fX,θ : Ψ → R+ bez¨ uglich eines σ-endlichen Maßes µ gegeben ist. F¨ ur jedes n ∈ N und jedes θ ∈ Θ erhalten wir somit die Verteilung der entsprechenden Zufallsvariablen Yn einer Versuchsserie (Yn ) durch die µ-Dichte: fYn ,θ : Ψ n → R+ ,
(x1 , . . . , xn ) →
n
fX,θ (xj ).
j=1
Basierend auf einer Folge (xn ) m¨ oglicher Realisierungen der Folge von Zufallsvariablen (Xn ) und damit der Versuchsserie (Yn ) erhalten wir (falls existent) atzern f¨ ur θ durch Maximierung eine Folge (θˆn ) von Maximum-Likelihood-Sch¨ der Funktionen lYn ,x1 ,...,xn : Θ → R+ ,
θ → fYn ,θ (x1 , . . . , xn ) =
n
fX,θ (xj )
j=1
f¨ ur jedes n ∈ N. Die Funktion lYn ,x1 ,...,xn heißt Likelihood-Funktion. H¨aufig verwendet man statt der Likelihood-Funktionen die so genannten LoglikelihoodFunktionen LYn ,x1 ,...,xn : Θ → R,
θ → ln(lYn ,x1 ,...,xn (θ)) =
n
ln(fX,θ (xj )),
j=1
zur Maximierung in θ. Am entsprechenden Maximum-Likelihood-Sch¨atzer θˆn andert diese Vorgehensweise nichts; da aber aus dem Produkt der Dichten eine ¨ Summe wird und da in vielen Dichtefunktionen die Exponentialfunktion eine wichtige Rolle spielt, ist diese Vorgehensweise f¨ ur die Optimierung hilfreich.
468
15 Sch¨ atztheorie
Konsistenz von Maximum-Likelihood-Sch¨ atzern Die entscheidende Frage lautet nun, unter welchen Voraussetzungen die Folatzern existiert und die entsprechende ge (θˆn ) von Maximum-Likelihood-Sch¨ atzfunktionen f¨ ur θ konsistent ist. Folge (ˆ gn ) von Sch¨ Theorem 15.19 (Konsistenz von Maximum-Likelihood-Sch¨ atzfunktionen). Sei ((Ψ n , G n , PYn ,Wθ∈Θ )n ) die zu einer gegebenen Versuchsserie orige Folge von statistischen R¨ aumen, und sei f¨ ur jedes x ∈ Ψ die (Yn ) geh¨ Funktion lX,x : Θ → R+ ,
θ → fX,θ (x),
Θ ⊆ R offenes Intervall,
positiv und differenzierbar. Ferner existiere eine Folge (Cn ) von Mengen Cn ∈ G n , n ∈ N, mit folgenden Eigenschaften: (i) (ii)
lim PYn ,Wθ (Cn ) = 1
n→∞
f¨ ur jedes θ ∈ Θ.
F¨ ur jedes n ∈ N und jedes (x1 , . . . , xn ) ∈ Cn hat die Gleichung dLYn ,x1 ,...,xn (θ) = 0 dθ genau eine L¨ osung, wobei diese L¨ osung die Funktion LYn ,x1 ,...,xn maximiert.
Dann existiert die Folge (ˆ gn ) von Maximum-Likelihood-Sch¨ atzfunktionen auf ur θ. (Cn ) und ist konsistent f¨ F¨ ur den Beweis dieser Aussage ben¨ otigen wir das folgende Lemma. Lemma 15.20. Sei ((Ψ n , G n , PYn ,Wθ∈Θ )n ) die zu einer gegebenen Versuchsorige Folge von statistischen R¨ aumen, und sei f¨ ur jedes x ∈ Ψ serie (Yn ) geh¨ die Funktion lX,x : Θ → R+ ,
θ → fX,θ (x),
Θ ⊆ R offenes Intervall,
positiv und differenzierbar. Dann gilt f¨ ur jedes θ ∈ Θ: Es existiert eine Folge (Aθn ) von Mengen Aθn ∈ G n , n ∈ N, und eine Folge (hθn ) von Abbildungen hθn : Aθn → Θ mit: (i) (ii) (iii)
lim PYn ,Wθ (Aθn ) = 1, n→∞ dLYn ,x1 ,...,xn (hθn (x1 , . . . , xn )) dθ lim
n→∞
sup (x1 ,...,xn )∈Aθn
θ f¨ ur alle (x1 , . . . , xn ) ∈ An , θ hn (x1 , . . . , xn ) − θ = 0.
=0
15.3 Das Maximum-Likelihood-Verfahren
469
Beweis. Sei f¨ ur jedes θ ∈ Θ das Bildmaß von Xn : Ω → Ψ , n ∈ N, mit PX,Wθ bezeichnet. Wir w¨ ahlen η ∈ Θ so, dass PX,Wη = PX,Wθ . Dann gilt wegen ur alle x > 0: ln(x)+ ≤ x f¨ fX,Wη fX,Wη fX,Wη + dPX,Wθ ≤ dPX,Wθ = fX,Wθ dµ = 1. fX,Wθ fX,Wθ fX,Wθ fX,W Somit ist ln fX,Wη PX,Wθ -quasiintegrierbar, und wir erhalten wegen ln(x) ≤ θ x − 1 f¨ ur x > 0 (Gleichheit besteht nur f¨ ur x = 1): fX,Wη fX,Wη dPX,Wθ − 1 = 0. ln dPX,Wθ ≤ fX,Wθ fX,Wθ fX,W Nehmen wir nun an, dass ln fX,Wη dPX,Wθ gleich Null w¨are, so folgt dar
ln
θ
aus wegen ln(x) = x − 1 ⇐⇒ x = 1: fX,Wη (x) PX,Wθ =1 = 1. x∈Ψ : fX,Wθ (x)
Somit folgt f¨ ur jedes A ∈ G: fX,Wη fX,Wη PX,Wη (A) = fX,Wη dµ = fX,Wθ dµ = dPX,Wθ fX,Wθ fX,Wθ A
A
A
= PX,Wθ (A). Dies ist ein Widerspruch zu PX,Wη = PX,Wθ , und deshalb gilt: fX,Wη ln dPX,Wθ < 0. fX,Wθ Da fX,Wη fX,Wη (X1 ) fX,Wη (X1 ) Eθ ln dPX,Wθ , = ln dWθ = ln fX,Wθ (X1 ) fX,Wθ (X1 ) fX,Wθ gilt mit dem starken Gesetz der großen Zahlen: 1 ln n i=1 n
Da
ln
fX,Wη fX,Wθ
fX,Wη (Xi ) fX,Wθ (Xi )
−→
ln
n→∞
fX,Wη fX,Wθ
dPX,Wθ
Wθ -fast sicher.
dPX,Wθ < 0, folgt aus der obigen Konvergenz:
lim Wθ
n→∞
ω∈Ω:
n i=1
ln
fX,Wη (Xi (ω)) fX,Wθ (Xi (ω))
, <0
= 1.
470
15 Sch¨ atztheorie
Wegen n i=1
ln
fX,Wη (xi ) fX,Wθ (xi )
=
n
n ln fX,Wη (xi ) − ln (fX,Wθ (xi ))
i=1
i=1
= LYn ,x1 ,...,xn (η) − LYn ,x1 ,...,xn (θ) f¨ ur alle (x1 , . . . , xn ) ∈ Ψ n erh¨ alt man somit: lim PYn ,Wθ ({(x1 , . . . , xn ) ∈ Ψ n : LYn ,x1 ,...,xn (η) − LYn ,x1 ,...,xn (θ) < 0}) = 1.
n→∞
Da Θ ein offenes Intervall ist, gibt es ein a ∈ R mit [θ − a, θ + a] ⊂ Θ. F¨ ur k, n ∈ N w¨ ahlen wir: 4 5 a An (k) := (x1 , . . . , xn ) ∈ Ψ n : LYn ,x1 ,...,xn (θ − ) − LYn ,x1 ,...,xn (θ) < 0 k 5 4 a n ∩ (x1 , . . . , xn ) ∈ Ψ : LYn ,x1 ,...,xn (θ + ) − LYn ,x1 ,...,xn (θ) < 0 . k Offensichtlich ist f¨ ur jedes (x1 , . . . , xn ) ∈ An (k) die Einschr¨ankung [θ− a ,θ+ a ]
LYn ,xk1 ,...,xk n : [θ −
a a ,θ + ] → R k k
der Funktion LYn ,x1 ,...,xn auf den Definitionsbereich [θ − ka , θ + ka ] auf ]θ − a a a a k , θ + k [ differenzierbar und nimmt ihr Maximum im Intervall ]θ − k , θ + k [ an. Diese Maximalstelle bezeichnen wir mit hn (k, (x1 , . . . , xn )). Somit gilt: dLYn ,x1 ,...,xn (hn (k, (x1 , . . . , xn ))) = 0. dθ Setzen wir in lim PYn ,Wθ ({(x1 , . . . , xn ) ∈ Ψ n : LYn ,x1 ,...,xn (η) − LYn ,x1 ,...,xn (θ) < 0}) = 1
n→∞
f¨ ur η die Werte θ −
a k
bzw. θ +
a k
ein, so folgt f¨ ur jedes k ∈ N:
lim PYn ,Wθ (An (k)) = 1.
n→∞
Somit gibt es eine monoton wachsende Folge (kn ) nat¨ urlicher Zahlen mit lim kn = ∞ und lim PYn ,Wθ (An (kn )) = 1.
n→∞
n→∞
Mit Aθn := An (kn )) und hθn : Aθn → Θ, (x1 , . . . , xn ) → hn (kn , x1 , . . . , xn ) folgt: dLYn ,x1 ,...,xn θ (hn (x1 , . . . , xn )) = 0, lim PYn ,Wθ Aθn = 1 und n→∞ dθ
15.3 Das Maximum-Likelihood-Verfahren
471
θ θ f¨ 9ur alle (x1 , . . .:, xn ) ∈ An und n ∈ N. Ferner gilt wegen hn (x1 , . . . , xn ) ∈ ur alle (x1 , . . . , xn ) ∈ Aθn : θ − kan , θ + kan f¨
sup (x1 ,...,xn )∈Aθn
θ hn (x1 , . . . , xn ) − θ ≤ a −→ 0. kn n→∞
Nach diesen Vorbereitungen sind wir nun in der Lage, Theorem 15.19 zu beweisen. Beweis (des Theorems 15.19). F¨ ur x ∈ Cn sei gˆn (x) die einzige L¨osung der Likelihood-Gleichung dLYn ,x1 ,...,xn (θ) = 0, dθ und gˆn (x) := 0 f¨ ur alle x ∈ Cnc . Zu θ ∈ Θ w¨ ahlen wir (Aθn ) und (hθn ) gem¨aß Lemma 15.20. Dann ist hθn (x1 , . . . , xn ) = gˆn (x1 , . . . , xn )
f¨ ur jedes (x1 , . . . , xn ) ∈ Aθn ∩ Cn .
Somit ergibt sich lim (
sup
n→∞ (x ,...,x )∈(Aθ ∩C ) 1 n n n
|ˆ gn (x1 , . . . , xn ) − θ|) = 0.
Sei nun > 0, so gibt es ein n0 ∈ N mit sup (x1 ,...,xn )∈(Aθn ∩Cn )
|ˆ gn (x1 , . . . , xn ) − θ| < f¨ ur alle n ≥ n0 .
Es folgt f¨ ur n ≥ n0 : gn (x1 , . . . , xn ) − θ| ≥ }) PYn ,Wθ ({(x1 , . . . , xn ) ∈ Ψ n : |ˆ θ ; < = PYn ,Wθ An ∩ Cn ∩ (x1 , . . . , xn ) ∈ Ψ n : |hθn (x1 , . . . , xn ) − θ| ≥ gn (x1 , . . . , xn ) − θ| ≥ } + PYn ,Wθ (Aθn ∩ Cn )c ∩ {(x1 , . . . , xn ) ∈ Ψ n : |ˆ ≤ PYn ,Wθ (Aθn )c + PYn ,Wθ ((Cn )c ) −→ 0. n→∞
Fassen wir das bisher Erreichte zusammen: Wir wissen, dass bei Vorliegen eines statistischen Raumes (Ψ, G, PX,Wθ∈Θ ) und bei Vorliegen einer erwartungstreuen Sch¨ atzfunktion g : Ψ → R f¨ ur γ(θ) diese Sch¨atzfunktion durch Verwendung einer geeigneten suffizienten Statistik (falls vorhanden) verbessert werden kann, dass also die Varianz der Sch¨atzfunktion gleichm¨aßig verkleinert werden kann. Ist die verwendete suffiziente Statistik allerdings nicht vollst¨ andig, so weiß man nicht, ob man minimale Varianz f¨ ur jedes θ ∈ Θ erreicht hat.
472
15 Sch¨ atztheorie
Fisher-Information Verwendet man die Maximum-Likelihood-Methode, so erh¨alt man zwar im Allgemeinen keine erwartungstreuen Sch¨ atzfunktionen, aber man kann bei Versuchsreihen unter gewissen Voraussetzungen Konsistenz beweisen. Wichtig ist nun, dass durch die Likelihood-Funktion implizit die Information gegeben ist, welche Varianz bei erwartungstreuen Sch¨ atzfunktionen nicht unterschritten werden kann. Um diese untere Schranke zu berechnen, betrachten wir folgende Ausgangssituation. Definition 15.21 (regul¨ arer statistischer Raum, Fisher-Informaar, falls die foltion). Ein statistischer Raum (Ψ, G, PX,Wθ∈Θ ) heißt regul¨ genden Bedingungen erf¨ ullt sind: (i) Θ ist ein offenes Intervall in R. (ii) Die Verteilung der Zufallsvariablen X : Ω → Ψ ist f¨ ur jedes θ ∈ Θ durch uglich eines σ-endlichen Maßes eine Dichtefunktion fX,θ : Ψ → R+ bez¨ µ gegeben. Die zugeh¨ orige Likelihood-Funktion lX,x : Θ → R+ ,
θ → fX,θ (x)
ist f¨ ur jedes x ∈ Ψ positiv und stetig differenzierbar. (iii) F¨ ur jedes θ ∈ Θ gilt: dlX,x (θ)dµ(x) = 0. dθ (iv) F¨ ur jedes θ ∈ Θ existiert das Integral I(θ) =
2 d ln(lX,x ) (θ) lX,x (θ)dµ(x) dθ
und I(θ) > 0 f¨ ur alle θ ∈ Θ. Die Funktion I : Θ → R heißt Fisher-Information. Bedingung (iii) scheint auf den ersten Blick sehr restriktiv. Es handelt sich jedoch nur um eine Vertauschungsrelation, die ¨aquivalent auch so formuliert werden kann: d lX,x dµ(x) dlX,x (θ)dµ(x) = (θ). dθ dθ Denn aus lX,x dµ(x) = 1 f¨ ur alle θ ∈ Θ folgt, dass die rechte Seite gleich 0 ist. Mit Hilfe der Fisher-Information k¨ onnen wir nun besagte untere Schranke f¨ ur die Varianz angeben. Theorem 15.22 (Informationsungleichung, Fr´ echet, Cram´ er-Rao). arer statistischer Raum und γ : Θ → R eine zu Sei (Ψ, G, PX,Wθ∈Θ ) ein regul¨
15.3 Das Maximum-Likelihood-Verfahren
473
sch¨ atzende stetig differenzierbare Funktion mit γ (θ) = 0 f¨ ur alle θ ∈ Θ. Sei ferner g : Ψ → R eine erwartungstreue Sch¨ atzfunktion f¨ ur γ(θ), und es gelte f¨ ur jedes θ ∈ Θ die Vertauschungsrelation d g(x)lX,x dµ(x) dlX,x (θ)dµ(x) = (θ). g(x) dθ dθ Dann gilt: Vθ (g) ≥
γ (θ)2 I(θ)
f¨ ur alle
θ ∈ Θ.
Beweis. Betrachten wir f¨ ur jedes θ ∈ Θ die Zufallsvariable Uθ : Ψ → R,
x →
d ln(lX,x ) (θ), dθ
so gilt:
d ln(lX,x ) (θ)dPX,Wθ = dθ d lX,x dµ(x) (θ) = 0 = dθ
Eθ (Uθ ) =
und somit
dlX,x dθ (θ)
lX,x (θ)
lX,x (θ)dµ(x)
dlX,x Covθ (g, Uθ ) = Eθ (gUθ ) = g (θ)dµ(x) dθ d glX,x dµ(x) dEθ (g) = (θ) = = γ (θ). dθ dθ Also erhalten wir mit Vθ (Uθ ) = I(θ): 2 γ (θ) γ (θ) γ (θ) 0 ≤ Vθ (g − Uθ ) = Vθ (g) + Covθ (g, Uθ ) Vθ (Uθ ) − 2 I(θ) I(θ) I(θ) γ (θ)2 γ (θ)2 γ (θ)2 = Vθ (g) + −2 = Vθ (g) − . I(θ) I(θ) I(θ) Theorem 15.22 gibt lediglich eine untere Schranke f¨ ur die minimale Varianz spezieller erwartungstreuer Sch¨ atzfunktionen an. Ob diese Schranke in gegebenen Szenarien erreichbar ist, bleibt unbeantwortet. In der Praxis weiß man somit im Allgemeinen nicht, ob und f¨ ur welche θ ∈ Θ (bzw γ(θ) ∈ γ(Θ)) eine erwartungstreue Sch¨ atzfunktion im Sinne der Varianz optimal ist, es sei denn, man kann das Theorem von Lehmann-Scheff´e 15.12 verwenden.
474
15 Sch¨ atztheorie
Bereichssch¨ atzer Anstatt in der Sch¨ atztheorie den unbekannten Parameter θ (bzw. γ(θ)) exakt festzulegen, k¨ onnte man auch auf die Idee kommen, lediglich den Bereich Θ (bzw. γ(Θ)) einzuschr¨ anken. Diese Fragestellung f¨ uhrt auf das Gebiet der Bereichssch¨ atzung, das wir zum Abschluss dieses Abschnittes an Hand eines Beispiels vorstellen wollen; zu diesem Zweck betrachten wir im Zusammenhang mit normalverteilten Versuchsserien die Bereichssch¨atzung des Erwartungswertes. Beispiel 15.23 (Bereichssch¨ atzer). Wir betrachten eine Folge unabh¨angiger und identisch N(θ, 1)-verteilter Zufallsvariablen (Xn ) und die zugeh¨orige Versuchsserie (Yn ). Entsprechend ist PYn ,Wθ gegeben durch die Dichte n
1 (x − θ)2 √ exp − i fYn ,θ : Ψ n → R, (x1 , . . . , xn ) → . 2 2π i=1 ur gegebenes 0 ≤ c ≤ 1 gilt: Gesucht ist ein a ∈ R+ derart, dass f¨ ( n ), n 1 1 (x1 , . . . , xn ) ∈ Ψ n : θ ∈ xi − a, xi + a ≥c PYn ,Wθ n i=1 n i=1 f¨ ur alle θ ∈ R. Dies ist ¨ aquivalent zu , n √ √ √ 1 n PYn ,Wθ xi − nθ ≤ a n ≥ c. (x1 , . . . , xn ) ∈ Ψ : −a n ≤ √ n i=1 Da aber die Zufallsvariable √ 1 Zn : Ψ n → R, (x1 , . . . , xn ) → √ xi − nθ n i=1 n
N(0, 1)-normalverteilt ist f¨ ur alle n ∈ N, erhalten wir f¨ ur a: √ √ Φ(a n) − Φ(−a n) ≥ c beziehungsweise
√ 1+c . Φ(a n) ≥ 2 Daraus l¨ asst sich ein (minimales) a bestimmen. F¨ ur eine konkrete Stichprobe x ¯ ∈ Ψ n wird das Intervall ( n ) n 1 1 x ¯i − a, x ¯i + a n i=1 n i=1 als Konfidenzintervall zum Niveau c f¨ ur die Sch¨atzung von θ durch interpretiert.
1 n
n i=1
x ¯i ♦
15.4 Bayes-Sch¨ atzung
475
15.4 Bayes-Sch¨ atzung Im Rahmen der Sch¨ atztheorie haben wir, vgl. zum Beispiel das Theorem von Rao-Blackwell 15.10, die Varianz eines erwartungstreuen Sch¨atzers g, Vθ (g) = (g − γ(θ))2 dPX,Wθ , als G¨ utefunktion f¨ ur die Sch¨ atzung verwendet. Bei der Vorstellung der Maximum-Likelihood-Methode in Abschnitt 15.3 haben wir gesehen, dass die daraus resultierenden Sch¨ atzfunktionen im Allgemeinen nicht erwartungstreu sind. Somit repr¨ asentiert zwar das f¨ ur die G¨ ute der Sch¨atzfunktion gew¨ahlte Integral (g − γ(θ))2 dPX,Wθ nicht mehr die Varianz der Sch¨ atzfunktion, kann aber als mittlere quadratische Abweichung der Sch¨ atzfunktion g vom zu sch¨atzenden γ(θ) interpretiert werden. Aus dieser Beobachtung resultiert die Idee, auf die Eigenschaft der Erwartungstreue zu verzichten, um bez¨ uglich des obigen Fehlerintegrals zumindest f¨ ur gewisse θ ∈ Θ bessere Sch¨ atzfunktionen zu erhalten. Beispiel 15.24 (Gl¨ uhbirnen). F¨ ur unser Standardbeispiel, den statistischen K B(1, θ) mit den Dichtefunktionen Raum {0, 1}K , P({0, 1}K ), i=1
fX,θ (x) = θ
K
i=1
xi
(1 − θ)K−
K
i=1
xi
x ∈ {0, 1}K ,
,
ergab sich die erwartungstreue Sch¨ atzfunktion K
h : {0, 1}K → R,
x →
xi
i=1
K
f¨ ur θ mit der gleichm¨ aßig besten Varianz Vθ =
θ(1 − θ) . K
Verwendet man zum Beispiel die nicht erwartungstreue Sch¨atzfunktion 1+ g : {0, 1}
K
→ R,
x →
K
xi
i=1
K +2
,
so ergibt sich: (g − θ)2 dPX,Wθ =
Kθ(1 − θ) + (1 − 2θ)2 . (K + 2)2
476
15 Sch¨ atztheorie
F¨ ur alle θ ∈ [0, 1] mit
(θ − 12 )2 1 ≤1+ θ(1 − θ) K
ist der mittlere quadratische Fehler von g kleiner als die Varianz von h.
♦
Da im obigen Beispiel die Sch¨ atzfunktion g f¨ ur gewisse θ ∈ Θ besser ist als die Sch¨ atzfunktion h, bleibt die Frage, wie g und h als Ganzes unabh¨angig von θ bewertet werden k¨ onnen. Hat man keine weitere Information u ¨ber θ zur Verf¨ ugung, so wird man sich auf erwartungstreue Sch¨atzfunktionen beschr¨ anken; mit der Sch¨ atzfunktion h hat man somit die gleichm¨aßig beste gefunden. Unter allen nicht notwendig erwartungstreuen Sch¨atzfunktionen gibt es im Allgemeinen keine gleichm¨ aßig beste bez¨ uglich des quadratischen Fehlerintegrals. Stehen allerdings zus¨ atzliche Informationen u ¨ber θ ∈ Θ in Form einer Wahrscheinlichkeitsverteilung auf Θ zur Verf¨ ugung, so ist es m¨oglich, ein von θ unabh¨ angiges Vergleichskriterium f¨ ur erwartungstreue und nicht erwartungstreue Sch¨ atzfunktionen anzugeben. Das Bayes-Risiko Wie in Beispiel 15.24 angedeutet, kann man bisweilen bei Verzicht auf die Erwartungstreue den mittleren quadratischen Fehler (g − γ(θ))2 dPX,Wθ einer Sch¨ atzfunktion g f¨ ur gewisse θ ∈ Θ verringern. Allerdings ist es dann im Allgemeinen unm¨ oglich, eine gleichm¨ aßig beste Sch¨atzfunktion bez¨ uglich dieses G¨ utekriteriums zu finden. Um aber Sch¨atzfunktionen klassifizieren zu k¨ onnen, ben¨ otigt man ein von θ unabh¨ angiges G¨ utekriterium. Dieses Kriterium ist unter Verwendung des Integrals (g − γ(θ))2 dPX,Wθ in nat¨ urlicher Weise gegeben, wenn u ¨ber θ ∈ Θ eine a priori Information in Form einer Wahrscheinlichkeitsverteilung auf Θ vorliegt. Das entsprechende G¨ utekriterium ist dann durch die folgende Definition festgelegt.
15.4 Bayes-Sch¨ atzung
477
Definition 15.25 (Bayes-Risiko). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, γ : Θ → R eine Abbildung und g : Ψ → R eine Sch¨ atzfunktion f¨ ur γ(θ). Sei ferner BΘ eine σ-Algebra auf Θ und β : BΘ → [0, 1] ein Wahrscheinlichkeitsmaß auf BΘ , so wird unter der Voraussetzung, dass die Abbildung Θ → R+ , θ → (g − γ(θ))2 dPX,Wθ , BΘ -messbar ist, die Gr¨ oße
(g − γ(θ)) dPX,Wθ 2
dβ(θ)
als Bayes-Risiko von g bezeichnet. Um das Bayes-Risiko berechnen zu k¨ onnen, ist also eine a priori Verteilung auf θ notwendig ( a priori“ ist bezogen auf die Realisierung x ¯ des zu Grunde ” gelegten Zufallsexperimentes, die dann weitere Informationen u ¨ber θ liefert). Beispiel 15.26 (Gl¨ uhbirnen). Nehmen wir als Fortsetzung von Beispiel 15.24 an, dass β durch eine Gleichverteilung auf [0, 1] gegeben ist, so erhalten wir das 1 f¨ ur die gleichm¨ aßig effiziente erwartungstreue Sch¨atzfunktion Bayes-Risiko 6K K
h : Ψ → R, und das minimale Bayes-Risiko
x →
1 6(K+2)
,
K
f¨ ur die Sch¨atzfunktion 1+
g : Ψ → R,
xi
i=1
x →
K
xi
i=1
K +2
. ♦
Bayes-Sch¨ atzer Hat man eine a priori Verteilung β auf Θ gegeben und l¨asst man auch Sch¨atzfunktionen zu, die nicht erwartungstreu sind, so ist das Bayes-Risiko ein geeignetes G¨ utekriterium, und gesucht ist die entsprechende beste Sch¨atzfunktion.
478
15 Sch¨ atztheorie
Definition 15.27 (Bayes-Sch¨ atzfunktion). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum und γ : Θ → R eine Abbildung. Sei ferner BΘ eine σ-Algebra auf Θ und β : BΘ → [0, 1] ein Wahrscheinlichkeitsmaß auf BΘ , so wird unter allen Sch¨ atzfunktionen h : Ψ → R, f¨ ur die die Abbildung Θ → R+ , θ → (h − γ(θ))2 dPX,Wθ , BΘ -messbar ist, diejenige Sch¨ atzfunktion g als Bayes-Sch¨ atzfunktion bezeichnet, die die Gr¨ oße (h − γ(θ))2 dPX,Wθ dβ(θ) minimiert. Bayes-Sch¨ atzungen treten u ¨blicherweise in Zusammenhang mit Dichten auf. Satz 15.28. Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, BΘ eine σ-Algebra auf Θ, γ : Θ → R eine BΘ -integrierbare Funktion und β ein Wahrscheinlichkeitsmaß auf Θ. Sei ferner die Verteilung der Zufallsvariablen X : Ω → Ψ uglich eines f¨ ur jedes θ ∈ Θ durch eine Dichtefunktion fX,θ : Ψ → R+ bez¨ σ-endlichen Maßes µ gegeben, und sei die Funktion Θ × Ψ → R>0 ,
(θ, x) → fX,θ (x),
positiv und BΘ ⊗ G-messbar, so ist die Bayes-Sch¨ atzfunktion f¨ ur γ(θ) gegeben durch fX,θ (x) dβ(θ). hB : Ψ → R, x → γ(θ) fX,θ (x)dβ(θ) Beweis. Sei h eine beliebige Sch¨ atzfunktion, so gilt:
15.4 Bayes-Sch¨ atzung
479
(h − γ(θ))2 dPX,Wθ dβ(θ) − (hB − γ(θ))2 dPX,Wθ dβ(θ) 2 2 = (h − 2hγ(θ) − hB + 2hB γ(θ))dPX,Wθ dβ(θ) 2 2 = (h − 2hγ(θ) − hB + 2hB γ(θ))fX,θ dµ dβ(θ) fX,θ 2 2 fX,θ dβ(θ) dµ dβ(θ) = (h − 2hγ(θ) − hB + 2hB γ(θ)) fX,θ dβ(θ) fX,θ fX,θ dβ(θ) dβ(θ) dµ = (h2 − 2hγ(θ) − h2B + 2hB γ(θ)) fX,θ dβ(θ) fX,θ dµ dβ(θ) fX,θ dβ(θ) = (h2 − 2hγ(θ) − h2B + 2hB γ(θ)) fX,θ dβ(θ) fX,θ dβ(θ) dµ = (h2 − 2hhB − h2B + 2h2B ) fX,θ dβ(θ) dµ ≥ 0. = (h − hB )2 Die obige Absch¨ atzung kann nur dann Null werden, wenn h = hB µ-fast ur alle θ ∈ Θ auch PX,Wθ -fast sicher. sicher, also wenn h = hB f¨ Zum Abschluss dieses Abschnittes betrachten wir noch einmal die BayesSch¨ atzfunktion fX,θ (x) hB : Ψ → R, x → γ(θ) dβ(θ), fX,θ (x)dβ(θ) unter einem anderen Gesichtspunkt. F¨ ur jedes x ∈ Ψ spielt bei der Berechnung eines Bayes-Sch¨ atzers die Funktion βx : Θ → R+ ,
θ →
fX,θ (x) , fX,θ (x)dβ(θ)
eine entscheidende Rolle. Offensichtlich gilt f¨ ur jedes x ∈ Ψ : • βx (θ) > 0 f¨ ur alle θ ∈ Θ, • βx dβ = 1. Somit ist βx bez¨ uglich des Wahrscheinlichkeitsmaßes β eine Dichtefunktion, die in Abh¨ angigkeit von x ∈ Ψ ein weiteres Wahrscheinlichkeitsmaß auf BΘ darstellt. Hat man eine Realisierung x ¯ ∈ Ψ des zu Grunde gelegten Zufallsexperimentes beobachtet, so l¨ asst sich das durch βx¯ induzierte Wahrscheinlichkeitsmaß als a posteriori Information u ¨ber θ ∈ Θ interpretieren. Durch die Beobachtung von x ¯ hat sich somit die a priori Information β zur a posteriori Information repr¨asentiert durch βx¯ u ¨ber θ ∈ Θ entwickelt. Diese Information erh¨ alt man zus¨ atzlich zum Bayes-Sch¨ atzer f¨ ur γ(θ).
480
15 Sch¨ atztheorie
15.5 Anwendung Nachrichtentechnik: Wortfehleroptimale Decodierung In dieser Anwendung betrachten wir noch einmal die digitale Nachrichten¨ ubertragung, wie wir sie bereits in Anwendung 5.4 vorgestellt haben. Insbesondere gehen wir wiederum von einem Code C, einem zu u ¨bertragenden Codewort c ∈ C ⊂ {±1}n und einem AWGN-Kanal KBP SK : C × Ω → Rn , N0 n KcBP SK ist N c, In normalverteilt, 2Eb k aus. Wir erinnern daran, dass mathematisch die Decodieraufgabe darin besteht, aus der gegebenen Realisierung y ∈ Rn der Zufallsvariablen Y := anger liefert, die Informationsbits u ∈ KcBP SK , die in der Praxis der Empf¨ {±1}k im noch zu definierenden Sinne optimal“ zu rekonstruieren. Dies ist ” eine klassische Aufgabe der mathematischen Statistik und der mathematischen Optimierung. Zur L¨ osung dieser Aufgabe ist unter speziellen Rahmenbedingungen (Echtzeitanforderungen, Komplexit¨atsrestriktionen durch Chipdimensionierung) eine Entscheidungsfunktion δ : Rn → {±1}k , y → u ˆ = δ(y), zu definieren, die jeder m¨ oglichen Realisierung y ∈ Rn eine Rekonstruktion k u ˆ ∈ {±1} der Informationsbits u ∈ {±1}k zuordnet. Dabei kann man im Wesentlichen zwei verschiedene Strategien verfolgen: •
Wortfehleroptimalit¨ at: Berechne δW O (y) so, dass die Wahrscheinlichkeit, dass sich in dem rekonstruierten Wort u ˆ ∈ {±1}k (= δW O (y)) kein falsches Bit befindet, maximal ist. ur • Bitfehleroptimalit¨ at: Berechne δBO (y) so, dass die Wahrscheinlichkeit f¨ jedes einzelne Bit in u ˆ ∈ {±1}k (= δBO (y)), richtig zu sein, maximal ist.
Ein wortfehleroptimaler Maximum-Likelihood-Sch¨ atzer In Anwendung 5.4 haben wir eine bitfehleroptimale Decodierung vorgestellt. In diesem Abschnitt wollen wir wortfehleroptimal decodieren. Im Gegensatz zur Bitfehleroptimalit¨ at spielt bei der Wortfehleroptimalit¨at die Anzahl der Fehler in u ˆ ∈ {±1}k keine Rolle. Welches Optimalit¨atskriterium verwendet wird, h¨ angt im Allgemeinen von der entsprechenden Anwendung ab. Auf Grund der Komplexit¨ at der Aufgabenstellung ist klar, dass die Funktion δ nicht explizit angegeben werden kann, sondern dass die Funktionswerte δ(y) f¨ ur jedes im Empf¨ anger auftretende y ∈ Rn durch numerische Verfahren zu berechnen sind. Betrachtet man Wortfehleroptimalit¨ at, so f¨ uhrt jedes Informationswort u ∈
15.5 Anwendung Nachrichtentechnik: Wortfehleroptimale Decodierung
481
{±1}k zu einem normalverteilten Wahrscheinlichkeitsraum, so dass wir als statistischen Raum N0 n n n R , B , N c(u), In , u ∈ {±1}k =: Θ, 2Eb k erhalten. Der Maximum-Likelihood-Sch¨ atzer u ˆ ∈ Θ = {±1}k ergibt sich mit den Dichten der n-dimensionalen Normalverteilungen als L¨osung eines diskreten Optimierungsproblems: 2 y − c(u)2 1 2 exp − = argmin y − c(u)2 . u ˆ = argmax 3 N0 n N n k k 2 0 n u∈{±1} u∈{±1} (2π ) 2Eb k 2Eb k
Zu jeder empfangenen Nachricht y ∈ Rn ist jeweils ein Wort u ˆ ∈ {±1}k gesucht mit der Eigenschaft 2
2
y − c(ˆ u)2 ≤ y − c(u)2
f¨ ur alle u ∈ {±1}k .
Das Branch-and-Bound Verfahren In der Praxis treten u ¨blicherweise Codes mit großen k auf. Um nicht alle 2k m¨ oglichen Codew¨ orter untersuchen zu m¨ ussen, was bei großen k nicht realisierbar ist, wird nun ein Branch-and-Bound Algorithmus vorgestellt, der die Zahl der zu untersuchenden Codew¨ orter stark reduziert. Zudem kann der Algorithmus zu jeder Zeit ein bis dahin bestes Codewort als Ergebnis liefern. Der
+1
-1 -1
+1 -1
Abbildung 15.1. Branch-and-Bound auf bin¨ arem Code
in Abbildung 15.1 dargestellte Baum entspricht einem Entscheidungsbaum f¨ ur k = 5 Informationsbits u1 , . . . , u5 , wobei jedes Informationsbit durch eine
482
15 Sch¨ atztheorie
Ebene im Baum charakterisiert ist. Der angegebene Pfad entspricht somit der Belegung u1 = +1, u2 = −1, u3 = −1, u4 = +1, u5 = −1. An jeder Verzweigung (Knoten) werden nun untere Schranken f¨ ur den maximalen Wert der 2 Funktion y − c(u)2 eingetragen, wobei alle Informationsbits bis zu diesem Knoten entsprechend festgelegt sind (Berechnung von Bounds). Betrachtet man zum Beispiel die Verzweigung im angegebenen Pfad der Abbildung 15.1 2 zwischen u2 = −1 und u3 = −1, so kann die Funktion y − c(u)2 mit u1 = +1 ur einen systematischen Code (also ci = ui f¨ ur i = 1, . . . , k) und u2 = −1 f¨ folgendermaßen nach unten abgesch¨ atzt werden: 2
y − c(u1 = +1, u2 = −1, u3 , u4 , u5 )2 ≥ (y1 − 1)2 + (y2 + 1)2 +
n
(|yi | − 1)2 .
i=3
Bewegt man sich auf dem Pfad weiter nach unten, so kann diese Schranke nur schlechter (also gr¨ oßer) werden, da immer mehr Komponenten von u festgelegt werden. Am Ende des Pfades ist u festgelegt, und dort wird dann der entsprechende Funktionswert notiert. Hat man nun f¨ ur einen festen Wert 2 u) = y − c(˜ u)2 berechnet, so kann man u ˜ ∈ {±1}k den Funktionswert f (˜ im Baum von Abbildung 15.1 alle Teilb¨ aume (Branch) streichen, die bei einer Verzweigung starten, deren Schranke gr¨ oßer ist als f (˜ u), denn nach unten werden die Schranken (und damit die Funktionswerte ) ja gr¨oßer. Somit muss oglichkeiten ausprobieren. H¨aufig verwenman im Allgemeinen nicht alle 2k M¨ det man zur Komplexit¨ atsreduktion des Branch-and-Bound Verfahrens noch spezielle Code-Transformationen. Beispiel 15.29. Sei y = (1.1, −0.5, 0.3, −1.5, 0.7) und c = (u1 , u2 , u3 , u1 ⊕ ahle u ˜i = sign(yi ), i = 1, 2, 3, also u ˜1 = +1, u ˜2 = −1, u ˜3 = u2 , u2 ⊕ u3 ), und w¨ +1, so gilt: f (˜ u) = 0.12 + 0.52 + (−0.7)2 + (−0.5)2 + 1.72 = 3.89. Der Teilbaum beginnend ab u1 = −1 ist wegen (1.1 − (−1))2 = 4.41 > 3.89 schon nicht mehr zu untersuchen. ♦ Manche Codes besitzen eine spezielle Struktur, die jeweils durch ein so genanntes Trellis-Diagramm gegeben ist. Wendet man das Branch-and-Bound Verfahren auf Trellis-Diagramme an, f¨ uhrt dies zum Viterbi-Algorithmus. Ein Trellis-Diagramm ist einerseits nicht so komplex wie der obige Entscheidungsbaum, auf der anderen Seite kann das Branch-and-Bound Verfahren auf dem Entscheidungsbaum f¨ ur alle (systematischen) Block-Codes angewendet werden. Eine ausf¨ uhrliche Auseinandersetzung mit der Soft-Decodierung linearer Block-Codes findet man in [Stu03].
16 Testtheorie
16.1 Das Neyman-Pearson-Lemma Die Testtheorie ist ein wichtiges und umfangreiches Teilgebiet der mathematischen Statistik. Ausgangspunkt ist, wie bereits in Abschnitt 15.1 skizziert, ein statistischer Raum (Ψ, G, PX,Wθ∈Θ ) und eine Partition Θ0 , Θ1 von Θ (also: Θ0 , Θ1 = ∅, Θ0 ∩ Θ1 = ∅ und Θ0 ∪ Θ1 = Θ). Basierend auf einer Stichprobe x ¯ ∈ Ψ soll nun entschieden werden, ob Θ auf Θ1 oder Θ2 reduziert wird. In der Testtheorie wird diese Fragestellung durch die Entscheidung zwischen einer Nullhypothese H0 : θ ∈ Θ0 und einer Gegenhypothese H1 : θ ∈ Θ1 formuliert. Diese Ausgangssituation bezeichnet man auch als Alternativtestproblem. Tests Der Entscheidungsvorgang zwischen den zwei Hypothesen heißt Test: Definition 16.1 (Test). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, H0 : θ ∈ Θ0 eine Nullhypothese und H1 : θ ∈ Θ1 eine Gegenhypothese. Ein Test φ ist dann eine messbare Funktion φ : Ψ → [0, 1]. Ist φ ein Test und x ¯ ∈ Ψ eine Stichprobe, so interpretieren wir φ(¯ x) als die Wahrscheinlichkeit, die Nullhypothese H0 abzulehnen. Auf den ersten Blick scheint es plausibler, nur so genannte nichtrandomisierte Tests
484
16 Testtheorie
φ : Ψ −→ {0, 1} zu betrachten, die nur die Werte 0 und 1 annehmen und so zu jeder Stichprobe x ¯ ∈ Ψ zu einer klaren Entscheidung φ(¯ x) ∈ {0, 1} f¨ uhren. An dieser Stelle sei lediglich bemerkt, dass nichtrandomisierte Tests Spezialf¨alle der von uns definierten (randomisierten) Tests φ : Ψ −→ [0, 1] sind. Auf die volle Bedeutung der Randomisierung werden wir an sp¨aterer Stelle zur¨ uckkommen. G¨ ute von Tests Entscheidend ist die Frage, wie bei einem Alternativtestproblem die Testfunk¨ tion φ gew¨ ahlt werden soll. Dazu folgende Uberlegung: Auf dem Messraum ({0, 1}, P({0, 1})) erhalten wir zu jeder Stichprobe x ¯∈Ψ durch die Festlegung Px¯ ({1}) = φ(¯ x),
Px¯ ({0}) = 1 − φ(¯ x)
ein Wahrscheinlichkeitsmaß. Neben den Wahrscheinlichkeitsmaßen Px¯ f¨ ur x ¯ ∈ Ψ gibt es auch noch f¨ ur jedes θ ∈ Θ ein von x ¯ unabh¨angiges Wahrscheinlichkeitsmaß Pθ mit Pθ ({1}) = φdPX,Wθ∈Θ = Eθ (φ)
und Pθ ({0}) =
(1 − φ)dPX,Wθ∈Θ = Eθ (1 − φ).
Da φ(¯ x) die Wahrscheinlichkeit f¨ ur das Ablehnen der Nullhypothese bei gegebener Stichprobe x ¯ ist, interpretieren wir Pθ ({1}) = Eθ (φ) als die Wahr¯) scheinlichkeit, die Nullhypothese H0 (ohne Kenntnis einer Realisierung x uhrt zu folgender Defiabzulehnen. Eine analoge Interpretation f¨ ur Pθ ({0}) f¨ nition: Definition 16.2 (G¨ utefunktion eines Tests). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, H0 : θ ∈ Θ0 eine Nullhypothese, H1 : θ ∈ Θ1 eine Gegenhypothese und φ ein Test. Dann heißt G : Θ → [0, 1],
θ → Eθ (φ),
G¨ ute(funktion) des Tests φ. Die Funktion OR : Θ → [0, 1], heißt Operationscharakteristik.
θ → Eθ (1 − φ),
16.1 Das Neyman-Pearson-Lemma
485
Fehler 1. und 2. Art Auf Grund der Fragestellung gibt es zwei verschiedene Fehler, die bei einem Test auftreten k¨ onnen: Fehler 1. Art: Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist. Die entsprechende Irrtumswahrscheinlichkeit ist gegeben durch Pθ ({1}) = Eθ (φ),
θ ∈ Θ0 ,
und heißt Fehler 1. Art. Der Fehler 1. Art definiert das Testniveau α durch α := sup Eθ (φ). θ∈Θ0
Fehler 2. Art: Die Gegenhypothese H1 wird abgelehnt, obwohl sie richtig ist. Die entsprechende Irrtumswahrscheinlichkeit, der Fehler 2. Art, ist gegeben durch Pθ ({0}) = 1 − Eθ (φ), θ ∈ Θ1 . Die konstanten Tests φ ≡ 0 bzw. φ ≡ 1 haben jeweils keinen Fehler 1. bzw. 2. Art. Dies zeigt bereits, dass es im Allgemeinen keinen gleichm¨aßig besten Test gibt, der beide Fehlerarten gleichzeitig minimiert. Daher w¨ahlt man folgendes Vorgehen: Bei der Wahl eines Testverfahrens wird die kleinste obere Schranke f¨ ur den Fehler 1. Art, also das Testniveau α, festgelegt, w¨ahrend man mit dem entsprechenden Fehler 2. Art leben muss. Unter allen Tests vom Testniveau α sucht man dann den besten, also denjenigen, mit dem (gleichm¨aßig) kleinsten Fehler 2. Art. Bezeichnen wir mit ur alle θ ∈ Θ0 } Φα := {φ : φ Test mit Eθ (φ) ≤ α f¨ die Menge aller Tests zum Niveau α, so ergibt sich daraus folgende Definition: Definition 16.3 (gleichm¨ aßig bester Test). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, H0 : θ ∈ Θ0 eine Nullhypothese, H1 : θ ∈ Θ1 eine Gegenhypothese, φ ein Test und α ∈ ]0, 1[. Dann heißt φ gleichm¨ aßig bester Test zum Niveau α, wenn (i) φ ∈ Φα , d.h. Eθ (φ) ≤ α f¨ ur alle θ ∈ Θ0 . ur alle θ ∈ Θ1 . (ii) Eθ (φ) = sup Eθ (ψ) = 1 − inf Eθ (1 − ψ) f¨ ψ∈Φα
ψ∈Φα
Ein gleichm¨ aßig bester Test zum Niveau α ist also unter allen Tests zum Niveau α derjenige, der den Fehler 2. Art gleichm¨aßig minimiert. Hier ist also eine Asymmetrie zwischen den Hypothesen H0 und H1 erkennbar. Diese Asymmetrie ist gewollt, da sie h¨ aufig den praktischen Gegebenheiten entspricht. Soll zum Beispiel auf Grund von Messungen u uft werden, ob es ¨berpr¨ gef¨ ahrliche Wechselwirkungen zwischen zwei Medikamenten gibt (Hypothese
486
16 Testtheorie
H0 : Ja (θ = 0), Hypothese H1 : Nein (θ = 1)), so ist der Fehler 1. Art, also die Entscheidung, dass es diese Wechselwirkungen nicht gibt, obwohl sie existieren, viel gef¨ ahrlicher als der Fehler 2. Art, also die Entscheidung, dass diese Wechselwirkungen vorhanden sind, obwohl sie nicht existieren. Daher l¨ asst man nur Tests zu, die den gef¨ ahrlichen Fehler 1. Art kleiner als eine vorgegebene Schranke halten. Selbstverst¨ andlich hat diese asymmetrische Behandlung der m¨ oglichen Fehler die Konsequenz, dass man sehr genau pr¨ ufen muss, welche Hypothese man als Nullhypothese und welche Hypothese man als Gegenhypothese festlegt. Das Neyman-Pearson-Lemma Wie bei der Punktsch¨ atzung stellt sich die Frage, ob es f¨ ur festes Testniveau einen Test mit maximaler G¨ ute f¨ ur jedes θ ∈ Θ1 , also einen gleichm¨aßig besten Test gibt, und wie diese Testvorschrift aussieht. Wir betrachten zun¨achst den wichtigen Spezialfall eines zweielementigen Parameterraums Θ = {θ0 , θ1 }. Das nachfolgende Lemma enth¨ alt formal nur eine Existenzaussage f¨ ur einen gleichm¨ aßig besten Test, der Beweis ist jedoch konstruktiv, so dass man ein Konstruktionsverfahren f¨ ur einen solchen Test ableiten kann. Wir werden dies im Anschluss an den Beweis in einem Beispiel erl¨autern. Lemma 16.4 (Neyman, Pearson). Seien (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, Θ = {θ0 , θ1 } und die Wahrscheinlichkeitsmaße PX,Wθ0 bzw. PX,Wθ1 geuglich geben durch Dichtefunktionen fX,θ0 : Ψ → R+ bzw. fX,θ1 : Ψ → R+ bez¨ eines σ-endlichen Maßes µ. Sei ferner die Nullhypothese H0 : θ = θ0 gegen H1 : θ = θ1 zu testen, so gibt es zu jedem α ∈ [0, 1] ein k ∈ [0, ∞] und ein γ ∈ [0, 1] derart, dass der Test φ : Ψ → [0, 1], ⎧ ur alle x mit fX,θ1 (x) > kfX,θ0 (x), ⎨ 1 f¨ ur alle x mit fX,θ1 (x) = kfX,θ0 (x), x → φ(x) := γ f¨ ⎩ 0 f¨ ur alle x mit fX,θ1 (x) < kfX,θ0 (x), (gleichm¨ aßig) bester Test unter allen Tests vom Testniveau α ist. Beweis. Ist α = 0, so w¨ ahlen wir k = ∞ und γ = 0. Offensichtlich gilt wegen der maßtheoretischen Vereinbarung 0 · ∞ = 0: 1dPX,Wθ0 Eθ0 (φ) = {x∈Ψ :(fX,θ0 (x)=0)∧(fX,θ1 (x)>0)}
=
fX,θ0 dµ {x∈Ψ :(fX,θ0 (x)=0)∧(fX,θ1 (x)>0)}
= 0 = α, also ist φ ein Test zum Niveau α. Weiter erhalten wir f¨ ur die G¨ ute
16.1 Das Neyman-Pearson-Lemma
487
Eθ1 (φ) =
fX,θ1 dµ. {x∈Ψ :(fX,θ0 (x)=0)∧(fX,θ1 (x)>0)}
Sei nun φ1 irgendein Test mit Testniveau α = 0, so gilt: Eθ0 (φ1 ) = φ1 fX,θ0 dµ = 0, also φ1 fX,θ0 = 0 µ-fast u ¨berall. F¨ ur die G¨ ute ergibt sich Eθ1 (φ1 ) =
φ1 fX,θ1 dµ {x∈Ψ :(fX,θ0 (x)=0)∧(fX,θ1 (x)>0)}
+
φ1 fX,θ1 dµ {x∈Ψ :(fX,θ0 (x)>0)∨(fX,θ1 (x)=0)}
=
>?
=0,
da
φ1 fX,θ0 =0
µ-fast
@
u ¨berall
≤
fX,θ1 dµ = Eθ1 (φ). {x∈Ψ :(fX,θ0 (x)=0)∧(fX,θ1 (x)>0)}
Somit ist φ gleichm¨ aßig bester Test zum Testniveau α = 0. Sei nun α > 0 gew¨ ahlt, so betrachten wir die Zufallsvariable fX,θ1 (x) f¨ ur fX,θ0 (x) > 0, Y : Ψ → R+ , x → fX,θ0 (x) 0 sonst, und untersuchen die Gleichung 1 − α = PX,Wθ0 ({x ∈ Ψ : Y (x) ≤ k}) − γPX,Wθ0 ({x ∈ Ψ : Y (x) = k}) in den Unbekannten k und γ. Da die Verteilungsfunktion g : [0, ∞[→ [0, 1],
k → PX,Wθ0 ({x ∈ Ψ : Y (x) ≤ k}),
von Y eine monoton wachsende, rechtsseitig stetige Funktion in k ist, gibt es f¨ ur vorgegebenes α nur zwei M¨ oglichkeiten: (i) Es existiert ein k¯ ∈ [0, ∞[ mit ¯ 1 − α = g(k). In diesem Fall w¨ ahle k = k¯ und γ = 0.
488
16 Testtheorie
(ii) Es existiert kein k¯ ∈ [0, ∞[ mit ¯ 1 − α = g(k). In diesem Fall gibt es ein k¯ ∈ [0, ∞[ derart, dass die Funktion g in k¯ unstetig ist und dass gilt: lim g(k) ≤ 1 − α < lim g(k), ¯ k↑k
¯ k↓k
also ¯ − PX,W ({x ∈ Ψ : Y (x) = k}) ¯ PX,Wθ0 ({x ∈ Ψ : Y (x) ≤ k}) θ0
(16.1) ¯ ≤ 1 − α < Wθ0 ({x ∈ Ψ : Y (x) ≤ k}).
Somit gibt es ein γ ∈ ]0, 1] mit ¯ − γPX,W ({x ∈ Ψ : Y (x) = k}) ¯ = 1 − α. PX,Wθ0 ({x ∈ Ψ : Y (x) ≤ k}) θ0 (16.2) W¨ahlen wir nun in unserem Test k = k¯ und das entsprechende γ, so erhalten wir das Testniveau α: φfX,θ0 dµ Eθ0 (φ) = φfX,θ0 dµ = {x∈Ψ :fX,θ0 (x)>0}
=
fX,θ0 dµ {x∈Ψ :(fX,θ0 (x)>0)∧(fX,θ1 (x)>kfX,θ0 (x))}
+γ·
fX,θ0 dµ
{x∈Ψ :(fX,θ0 (x)>0)∧(fX,θ1 (x)=kfX,θ0 (x))}
= 1 − PX,Wθ0 ({x ∈ Ψ : Y (x) ≤ k}) + γPX,Wθ0 ({x ∈ Ψ : Y (x) = k}) = α. Somit ist unsere Wahl von k und γ in Ordnung. Sei nun φ0 irgendein Test mit Testniveau α, so gilt f¨ ur alle x ∈ Ψ : (φ(x) − φ0 (x))(fX,θ1 (x) − kfX,θ0 (x)) ≥ 0 und Integration liefert 0≤
(φ − φ0 )(fX,θ1 − kfX,θ0 )dµ
= Eθ1 (φ) − Eθ1 (φ0 ) − kα + kα = Eθ1 (φ) − Eθ1 (φ0 ). Somit ist φ gleichm¨ aßig bester Test zum Testniveau α.
16.1 Das Neyman-Pearson-Lemma
489
Randomisierung Kommen wir nun zum Problem der Randomisierung zur¨ uck. Erwarten w¨ urde man bei der Testfunktion φ eine eindeutige Entscheidung φ : Ψ → {0, 1} f¨ ur die Nullhypothese oder f¨ ur die Gegenhypothese. Der eben gef¨ uhrte Beweis zeigt allerdings, dass bei dieser Vorgehensweise im Allgemeinen nicht jedes gew¨ ahlte Testniveau α erreicht werden kann. Dazu ein Beispiel. Beispiel 16.5 (Gl¨ uhbirnen). Kehren wir zu unserem Beispiel u ¨ber die Herstellung von Gl¨ uhbirnen zur¨ uck und betrachten wir Θ = {0.2, 0.8} mit H0 : θ = 0.2 und H1 : θ = 0.8, so erhalten wir den statistischen Raum ({0, 1}K , P({0, 1}K ), PX,Wθ∈{0.2,0.8} ) und die Dichten K
fX,0.2 : {0, 1}K → R+ ,
x → 0.2
i=1
fX,0.8 : {0, 1}K → R+ ,
x → 0.8
i=1
K
Da ⇐⇒
fX,0.8 (x) > kfX,0.2 (x)
K
xi xi
xi >
i=1
(1 − 0.2)K− (1 − 0.8)K−
K
i=1
K
i=1
xi xi
.
1 K + log2 (k) =: C 2 4
f¨ ur jedes k ∈ [0, ∞[ und jedes x ∈ {0, 1}K und da ein gleichm¨aßig bester Test ohne Randomisierung die Neyman-Pearson Form ⎧ K ⎪ ⎪ ur alle x mit xi > C, ⎨ 1 f¨ i=1 δ : Ψ → {0, 1}, x → K ⎪ ⎪ ⎩ 0 f¨ xi ≤ C, ur alle x mit i=1
mit Testniveau
α = PX,W0.2
x∈Ψ :
K
, xi > C
i=1
beziehungsweise
δ : Ψ → {0, 1}, x →
⎧ K ⎪ ⎪ ur alle x mit xi ≥ C, ⎨ 1 f¨ i=1
K ⎪ ⎪ ⎩ 0 f¨ xi < C, ur alle x mit i=1
mit Testniveau
α = PX,W0.2
x∈Ψ :
K
, xi ≥ C
i=1
haben muss, ist nicht frei gew¨ ahlte Testniveau α erreichbar, denn die jedes K Binomialverteilung f¨ ur xi ist eine diskrete Verteilung. ♦ i=1
490
16 Testtheorie
Die Randomisierung bei Tests ist also ein mathematischer Kunstgriff, um (gleichm¨ aßig beste) Tests mit jedem frei gew¨ ahlten Testniveau α konstruieren zu k¨ onnen. Konstruktion eines Tests Die Berechnung des entsprechenden γ und damit eine Entscheidung u ¨ber die Frage, ob randomisiert werden muss oder nicht, ergibt sich unmittelbar aus dem Beweis des Neyman-Pearson-Lemmas. Die Randomisierung selbst wird durch eine Realisierung ρ einer [0, 1]-gleichverteilten Zufallsvariablen durchgef¨ uhrt. Ist ρ ≤ γ, so w¨ ahlt man die Hypothese H1 , ansonsten die Hypothese H0 . Beispiel 16.6 (Gl¨ uhbirnen). Wir f¨ uhren unser Beispiel 16.5 u ¨ber die Herstellung von Gl¨ uhbirnen mit H0 : θ = 0.2 und H1 : θ = 0.8 weiter und w¨ahlen zudem K = 20 und das Testniveau α = 0.05. Aus dem Beweis des NeymanPearson-Lemmas geht hervor, dass wir die Verteilungsfunktion der Zufallsvariablen 20 2 xi −20 (x) f X,0.8 + 20 Y˜ : {0, 1} → R0 , x → = 4 i=1 fX,0.2 (x) betrachten m¨ ussen. Da mit Y : {0, 1}20 → R+ 0,
x →
20
xi
i=1 20 die Zufallsvariablen Y und Y˜ als Funktion von xi verm¨oge einer monoi=1
ton wachsenden Bijektion auseinander hervorgehen, erhalten wir den gleichen Test, wenn wir die Verteilungsfunktion von Y f¨ ur die Herleitung heranziehen. F¨ ur die Verteilungsfunktion gY von Y unter Wθ0 erhalten wir: , 20 xi ≤ 6 ! 0.9133, x∈Ψ : gY (6) = PX,W0.2 i=1
gY (7) = PX,W0.2
x∈Ψ :
20
, xi ≤ 7
! 0.9679.
i=1
Somit ergibt sich k = 7, denn, vgl. (16.1): , 20 xi = 7 ≤ 0.95 = 1 − α < gY (7). x∈Ψ : gY (6) = gY (7) − PX,W0.2 i=1
Aus (16.2) folgt nun die Bestimmungsgleichung f¨ ur γ ∈ ]0, 1]:
16.2 Einseitige Tests
gY (7) − γ · PX,W0.2
x∈Ψ :
20
491
, xi = 7
= 0.95,
i=1
also 0.96787 − γ · 0.0545 = 0.95, woraus sich γ ! 0.3274 ergibt. Damit erhalten wir den φ : Ψ → [0, 1], ⎧ 20 ⎪ ⎪ 1 f¨ ur alle x mit xi ⎪ ⎪ ⎪ i=1 ⎪ ⎨ 20 x → φ(x) := γ f¨ xi ur alle x mit ⎪ i=1 ⎪ ⎪ 20 ⎪ ⎪ ⎪ ⎩ 0 f¨ xi ur alle x mit
Neyman-Pearson Test
> 7, = 7, < 7.
i=1
Die Interpretation dieses Tests ergibt sich wie folgt: Sind von 20 Gl¨ uhbirnen mehr als sieben defekt, so ist H0 abzulehnen und θ = 0.8 zu w¨ahlen. Sind weniger als sieben Gl¨ uhbirnen defekt, so ist H1 abzulehnen und θ = 0.2 zu w¨ahlen. Bei genau sieben defekten Gl¨ uhbirnen realisiert man eine [0, 1]-gleichverteilte Zufallsvariable mit dem Ergebnis ρ und entscheidet sich f¨ ur θ = 0.8, falls ♦ ρ ≤ 0.3274, ansonsten entscheidet man sich f¨ ur H0 , also θ = 0.2.
16.2 Einseitige Tests Bisher haben wir nur den Spezialfall eines zweielementigen Parameterraums Θ = {θ0 , θ1 } mit den einfachen Hypothesen der Form H0 : θ = θ0 und H1 : θ = θ1 betrachtet. Nun untersuchen wir die Frage nach gleichm¨aßig besten Tests bei so genannten einseitigen Hypothesen der Gestalt H0 : θ ≤ θ0 (bzw. H0 : θ ≥ θ0 ) und H1 : θ > θ0 (bzw. H0 : θ < θ0 ) mit Θ ⊆ R. Die entscheidende Frage lautet, unter welchen Voraussetzungen das NeymanPearson-Lemma 16.4 auch f¨ ur einseitige Hypothesen verwendet werden kann. Zur Beantwortung dieser Frage ben¨ otigen wir den Begriff des monotonen Dichtequotienten.
492
16 Testtheorie
Definition 16.7 (monotoner Dichtequotient). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum mit Θ ⊆ R, und sei die Verteilung der Zufallsvariablen X : Ω → Ψ f¨ ur jedes θ ∈ Θ durch eine Dichtefunktion fX,θ : Ψ → R>0 bez¨ uglich eines σ-endlichen Maßes µ gegeben. Sei ferner T : Ψ → R eine Gmessbare Abbildung, dann besitzt die Familie PX,Wθ∈Θ von Bildmaßen einen ˆ θ¯ ∈ Θ, θˆ < θ, ¯ monotonen Dichtequotienten bez¨ uglich T , falls f¨ ur jedes Paar θ, eine streng monoton wachsende Funktion qθ, ˆ θ¯ : R → R existiert mit qθ, ˆ θ¯(T (x)) =
fX,θ¯(x) f¨ ur alle x ∈ Ψ. fX,θˆ(x)
Es wird sich im Folgenden herausstellen, dass die Existenz eines monotonen Dichtequotienten im Wesentlichen gen¨ ugt, um das Lemma von NeymanPearson auf einseitige Tests zu verallgemeinern. Exponentialfamilien Um eine große Klasse von Verteilungen angeben zu k¨onnen, f¨ ur die monotone Dichtequotienten existieren, f¨ uhren wir Exponentialfamilien ein: Definition 16.8 ((n-parametrige) Exponentialfamilie). Seien (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum, µ ein σ-endliches Maß auf G und T1 , . . . , Tn : Ψ → R G-messbare Funktionen. Seien ferner C : Θ → R+ , ξ1 , . . . , ξn : Θ → R reellwertige Abbildungen und h : Ψ → R+ G-messbar. Dann heißt die Familie PX,Wθ∈Θ von Wahrscheinlichkeitsmaßen eine (n-parametrige) Exponentialfamilie, wenn f¨ ur jedes θ ∈ Θ durch ⎛ ⎞ n fX,θ : Ψ → R+ , x → C(θ)h(x) exp ⎝ ξj (θ)Tj (x)⎠ , j=1
eine µ-Dichte von PX,Wθ gegeben ist. Exponentialfamilien zu definieren, ist auf den ersten Blick nicht gerade nahe liegend. Sie bieten jedoch zwei Vorteile. Zum einen sind, wie wir noch sehen werden, viele bekannte Verteilungen Exponentialfamilien. Damit gilt jede Aussage, die f¨ ur Exponentialfamilien gezeigt werden kann, ebenfalls f¨ ur viele konkrete Verteilungsklassen. Zum anderen ist bei Exponentialfamilien die Statistik T : Ψ → Rn , x → (T1 (x), . . . , Tn (x)) ,
16.2 Einseitige Tests
493
suffizient f¨ ur θ ∈ Θ. Dies ist eine unmittelbare Folgerung aus dem NeymanKriterium f¨ ur Suffizienz, das wir an dieser Stelle zitieren (vgl. z.B. [Wit85, Satz 3.19]). Theorem 16.9 (Neyman-Kriterium). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum mit Θ ⊆ R, und sei die Verteilung der Zufallsvariablen X : Ω → uglich eines Ψ f¨ ur jedes θ ∈ Θ durch eine Dichtefunktion fX,θ : Ψ → R+ bez¨ σ-endlichen Maßes µ gegeben. Eine Statistik T : Ψ → ΩT ist genau dann suffizient, wenn es f¨ ur jedes θ ∈ Θ eine messbare Funktion gθ und eine messbare Funktion h gibt mit fX,θ = (gθ ◦ T ) · h
µ-fast sicher.
Ist PX,Wθ∈Θ eine Exponentialfamilie mit suffizienter Statistik T f¨ ur θ ∈ Θ und betrachtet man statt der Zufallsvariable X den Produktmessraum (Ψ p , G p ) und eine Zufallsvariable ˆ : Ω → Ψ p, X
ω → (X1 (ω), . . . , Xp (ω)) ,
p ∈ N,
wobei X1 , . . . , Xp unabh¨ angige Zufallsvariablen sind mit PX,Wθ = PXi ,Wθ f¨ ur alle θ ∈ Θ und alle i ∈ {1, . . . , p}, so erh¨ alt man einen neuen statistischen Raum (Ψ p , G p , PX,W ). ˆ θ∈Θ Die zugeh¨ origen
p
µ-Dichten sind
i=1
fX,θ : Ψ p → R+ , ˆ
η → C(θ)p
p
i=1
= C(θ)p
p
i=1
⎛ h(ηi ) exp ⎝ ⎛ h(ηi ) exp ⎝
n j=1 n
ξj (θ)
p
⎞ Tj (ηi )⎠
i=1
ξj (θ)Tˆ(η)j ⎠ .
j=1
Dabei bezeichnet Tˆ die Statistik p p p n Tˆ : Ψ → R , η → T1 (ηi ), . . . , Tn (ηi ) , i=1
⎞
i=1
die nach dem Neyman-Kriterium 16.9 ebenfalls suffizient ist.
(16.3)
494
16 Testtheorie
Beispiele einparametriger Exponentialfamilien F¨ ur n = 1 und Θ ⊆ R erhalten wir die einparametrige Exponentialfamilie fX,θ : Ψ → R+ ,
x → C(θ)h(x) exp (ξ(θ)T (x)) .
Ist nun die Funktion ξ in θ streng monoton wachsend, so besitzt die Familie uglich T einen monotonen Dichtequotienten gegeben durch PX,Wθ∈Θ bez¨ qθ, ˆ θ¯ : R → R,
t →
¯ C(θ) ¯ − ξ(θ))t). ˆ exp((ξ(θ) ˆ C(θ)
besitzt bez¨ uglich Tˆ einen monotonen Dichtequotienten Die Familie PX,W ˆ θ∈Θ gegeben durch qθ, ˆ θ¯ : R → R,
t →
¯ C p (θ) ¯ − ξ(θ))t). ˆ exp((ξ(θ) ˆ C p (θ)
(16.4)
Viele wichtige Verteilungsklassen sind einparametrige Exponentialfamilien mit streng monoton wachsender Funktion ξ, zum Beispiel •
die Binomialverteilung B(N, θ) mit festem Parameter N , θ = p ∈ [0, 1] und T : {0, . . . , N } → N0 , x → x,
• die Poisson-Verteilung Poi(λ) mit Parameter θ = λ > 0 und T : N0 → N0 , •
x → x,
die Normalverteilung N(m, σ 2 ) mit bekannter Varianz, Parameter θ = m ∈ R und T : R → R, x → x,
• die Exponentialverteilung Exp(λ) mit Parameter θ = λ > 0 und T : R → R,
x → −x,
• die Normalverteilung N(m, σ 2 ) mit bekanntem Erwartungswert m, Parameter θ = σ 2 > 0 und T : R → R+ ,
x → x2 .
Gleichm¨ aßig bester Test f¨ ur einseitige Hypothesen Nach diesen Vorbereitungen k¨ onnen wir nun das Lemma von Neyman-Pearson auf einseitige Hypothesen ausdehnen und einen gleichm¨aßig besten Test angeben.
16.2 Einseitige Tests
495
Theorem 16.10 (gleichm¨ aßig beste Tests bei einseitigen Hypothesen). Sei (Ψ, G, PX,Wθ∈Θ ) ein statistischer Raum mit Θ ⊆ R und T : Ψ → R uglich T einen monotonen eine G-messbare Abbildung, so dass PX,Wθ∈Θ bez¨ Dichtequotienten besitzt. Sei ferner das Testniveau α ∈ ]0, 1[ gew¨ ahlt und die Nullhypothese H0 : θ ≤ θ0 (also Θ0 = {θ ∈ Θ : θ ≤ θ0 }) gegen H1 : θ > θ0 (also Θ1 = {θ ∈ Θ : θ > θ0 }) zu testen. Dann gibt es ein a ∈ R und ein γ ∈ [0, 1], so dass der Test φ : Ψ → [0, 1], ⎧ ur alle x mit T (x) > a, ⎨ 1 f¨ ur alle x mit T (x) = a, x → φ(x) := γ f¨ ⎩ 0 f¨ ur alle x mit T (x) < a, gleichm¨ aßig bester Test unter allen Tests vom Testniveau α ist. Beweis. V¨ ollig analog zum Beweis von Lemma 16.4 folgt aus den Eigenschaften der Verteilungsfunktion der Zufallsvariablen h : Ω → R,
ω → T (X(ω)),
dass es ein a ∈ R und ein γ ∈ [0, 1] gibt mit Eθ0 (φ) = α. Seien nun a und γ entsprechend gew¨ ahlt, so gilt f¨ ur θ1 ∈ Θ1 , k und alle x ∈ Ψ : ⎧ ⎫ ⎧ ⎫ ⎨>⎬ ⎨>⎬ fX,θ1 (x) = kfX,θ0 (x) ⇐⇒ qθ0 ,θ1 (T (x)) = k ⇐⇒ T (x) ⎩ ⎭ ⎩ ⎭ < <
:= qθ0 ,θ1 (a) ⎧ ⎫ ⎨>⎬ = a. ⎩ ⎭ <
Somit ist unser Test φ gleichm¨ aßig bester Test f¨ ur die Hypothesen H0 : θ = θ0 und H1 : θ = θ1 f¨ ur alle θ1 ∈ Θ1 , also auch f¨ ur die Hypothesen H0 : θ = θ0 und H1 : θ > θ0 . Nun zeigen wir α = sup Eθ (φ). θ≤θ0 θ∈Θ
Da φ auch gleichm¨ aßig bester Test f¨ ur die Hypothesen H0 : θ = θ0 und H1 : θ = θ1 mit θ0 , θ1 ∈ Θ und θ0 < θ1 ist, folgt: ¯ Eθ1 (φ) ≥ Eθ1 (φ) ¯ f¨ ur alle Tests φ¯ mit Eθ0 (φ) = Eθ0 (φ). W¨ ahlt man nun φ1 : Ψ → [0, 1],
x → Eθ0 (φ),
so gilt Eθ1 (φ) ≥ Eθ1 (φ1 ) = Eθ0 (φ).
496
16 Testtheorie
Somit ist die Abbildung θ → Eθ (φ) monoton wachsend, und wir erhalten α = sup Eθ (φ) = Eθ0 (φ). θ≤θ0 θ∈Θ
Damit ist φ ein Test zum Niveau α f¨ ur H0 : θ ≤ θ0 und H1 : θ > θ1 und gleichm¨ aßig bester Test f¨ ur H0 : θ = θ0 und H1 : θ > θ0 . Ist nun φ¯ ein beliebiger Test zum Niveau α f¨ ur H0 : θ ≤ θ0 und H1 : θ > θ0 , so ist φ¯ ebenfalls ein Test zum Niveau α f¨ ur H0 : θ = θ0 und H1 : θ > θ0 . Daher ist φ auch gleichm¨ aßig bester Test f¨ ur die Hypothesen H0 : θ ≤ θ0 und H1 : θ > θ0 , was noch zu zeigen war. Beispiel 16.11 (Beratungsb¨ uro). In einem Beratungsb¨ uro wird die Anzahl m der Beratungen pro Tag durch eine Poisson-Verteilung mit unbekanntem Parameter λ modelliert. Ist die durchschnittliche Anzahl der Beratungen pro Tag gr¨ oßer als ein spezieller Wert λ0 , so reichen die bestehenden Kapazit¨aten nicht aus und das Beratungsb¨ uro muss erweitern. Da diese Maßnahmen mit gr¨ oßeren Investitionen verbunden sind, will man weitestgehend ausschließen, diese Investitionen unn¨ otigerweise zu t¨ atigen. Deshalb w¨ahlt man die Nullhypothese H0 : λ ≤ λ0 und testet gegen die Hypothese H1 : λ > λ0 bei einem gew¨ ahlten Testniveau α. Da als Entscheidungsgrundlage die Anzahl ¯ p der Beratungen an p verschiedenen Tagen zur Verf¨ ugung steht, m ¯ 1, . . . , m verwendet man unter der Annahme der stochastischen Unabh¨angigkeit den statistischen Raum ) (Np0 , P(Np0 ), PX,W ˆ + λ∈R
mit den Dichten fX,λ : Np0 → R+ , ˆ
(m1 , . . . , mp ) → exp(−pλ)
p i=1
λmi mi !
,
bez¨ uglich des Z¨ ahlmaßes. Nach (16.3) und (16.4) wissen wir, dass die Familie PX,W von Bildmaßen ˆ λ∈R+ bez¨ uglich der suffizienten Statistik Tˆ : Np0 → N0 ,
(m1 , . . . , mp ) →
p
mi
i=1
einen monotonen Dichtequotienten besitzt. Wir k¨onnen also den gleichm¨aßig besten Test φ : Ψ → [0, 1], ⎧ ur alle x mit Tˆ(x) > a, ⎨ 1 f¨ x → γ f¨ ur alle x mit Tˆ(x) = a, ⎩ 0 f¨ ur alle x mit Tˆ(x) < a, anwenden.
16.2 Einseitige Tests
497
F¨ ur α = 0.01, p = 10 und λ0 = 10 erhalten wir durch analoge Rechnungen, wie wir sie in Beispiel 16.6 durchgef¨ uhrt haben, a = 124
und γ ≈ 0.5.
Somit sollte das Beratungsb¨ uro erweitern, wenn in den zehn beobachteten Tagen zusammen mehr als 124 Beratungen durchgef¨ uhrt wurden. ♦ Ist auf Grund der unterschiedlichen Bedeutungen der Fehler 1. und 2. Art die Nullhypothese H0 : θ ≥ θ0 gegen H1 : θ < θ0 zu testen, so gibt es analog zu Theorem 16.10 unter den entsprechenden Voraussetzungen ein a ∈ R und ein γ ∈ [0, 1] derart, dass der Test φ : Ψ → [0, 1], ⎧ ur alle x mit T (x) < a, ⎨ 1 f¨ ur alle x mit T (x) = a, x → γ f¨ ⎩ 0 f¨ ur alle x mit T (x) > a, gleichm¨ aßig bester Test unter allen Tests vom Testniveau α = Eθ0 (φ) ist. Zweiseitige Hypothesen Zum Abschluss dieses Abschnittes u ¨ber parametrische Tests soll noch kurz auf zweiseitige Hypothesen der Form H0 : θ = θ0
und H1 : θ = θ0 ,
Θ ⊆ R,
eingegangen werden. Da es f¨ ur Hypothesen dieser Art im Allgemeinen keinen gleichm¨aßig besten Test gibt, kann man sich im Prinzip auf zwei Arten helfen: • Man schr¨ ankt die Menge der zul¨ assigen Tests geeignet ein, so dass in dieser Menge ein gleichm¨ aßig bester Test existiert. In der klassischen Testtheorie betrachtet man daher nur Tests, f¨ ur die bei gegebenem Testniveau α der Fehler 2. Art kleiner oder gleich 1 − α ist, also sup Eθ (1 − φ) ≤ 1 − α. θ∈Θ1
Diese Tests werden unverf¨ alschte Tests“ genannt. Die Namensgebung soll ” dabei suggerieren, dass nur solche Tests interessant sind. Man kann nun f¨ ur spezielle einparametrige Exponentialfamilien, die einen monotonen Dichtequotienten besitzen, unter gewissen Regularit¨atsvoraussetzungen einen gleichm¨ aßig besten Test unter allen unverf¨alschten Tests angeben. • Ein weitaus pragmatischerer Weg, einen Test f¨ ur zweiseitige Hypothesen zu finden, liegt in der Kombination von zwei Tests f¨ ur einseitige Hypothesen. Seien dazu die Voraussetzungen von Theorem 16.10 erf¨ ullt und das
498
16 Testtheorie
Testniveau α vorgegeben, so bestimmt man zun¨achst zum Testniveau einen gleichm¨aßig besten Test φ1 : Ψ → [0, 1], ⎧ ur alle x mit T (x) > a1 , ⎨ 1 f¨ ur alle x mit T (x) = a1 , x → γ1 f¨ ⎩ 0 f¨ ur alle x mit T (x) < a1 ,
α 2
f¨ ur die Hypothesen H0 : θ ≤ θ 0
und H1 : θ > θ0
durch geeignete Wahl von a1 ∈ R und γ1 ∈ [0, 1]. Im zweiten Schritt bestimmt man zum Testniveau α2 einen gleichm¨aßig besten Test φ2 : Ψ → [0, 1], ⎧ ur alle x mit T (x) < a2 , ⎨ 1 f¨ ur alle x mit T (x) = a2 , x → γ2 f¨ ⎩ 0 f¨ ur alle x mit T (x) > a2 , f¨ ur die Hypothesen H0 : θ ≥ θ 0
und H1 : θ < θ0
durch geeignete Wahl von a2 ∈ R und γ2 ∈ [0, 1]. Wegen des Testniveaus α2 ergeben sich die Parameter a1 und γ1 im ersten Test genau wie im Beweis des Neyman-Pearson-Lemmas 16.4 aus der Gleichung 1−
α = PX,Wθ0 ({x ∈ Ψ : T (x) ≤ a1 }) − γ1 PX,Wθ0 ({x ∈ Ψ : T (x) = a1 }). 2
¨ Analoge Uberlegungen f¨ uhren f¨ ur den zweiten Test zum Niveau Bestimmungsgleichung
α 2
zu der
α = PX,Wθ0 ({x ∈ Ψ : T (x) ≤ a2 }) + (γ2 − 1)PX,Wθ0 ({x ∈ Ψ : T (x) = a2 }) 2 f¨ ur die Parameter a2 und γ2 . Aus α < 1 folgt stets, dass a1 ≥ a2 gilt. Daher k¨ onnen wir f¨ ur den Fall a1 > a2 die beiden Tests φ1 und φ2 zu einem Test φ : Ψ → [0, 1], ⎧ 1 f¨ ur alle x mit T (x) > a1 oder T (x) < a2 , ⎪ ⎪ ⎨ ur alle x mit T (x) = a1 , γ1 f¨ x → ur alle x mit T (x) = a2 , γ2 f¨ ⎪ ⎪ ⎩ 0 f¨ ur alle x mit a1 > T (x) > a2 , f¨ ur die Hypothesen H0 : θ = θ 0
und H1 : θ = θ0 ,
Θ ⊆ R,
16.3 Nichtparametrische Tests
499
kombinieren. Dieser Test besitzt das Testniveau α. Interessant ist, dass diese Herleitung genau den gleichen Test f¨ ur zweiseitige Hypothesen ergibt, der auch durch die theoretisch aufw¨ andigere Betrachtung unverf¨alschter Tests als gleichm¨ aßig bester Test hergeleitet werden kann. Im (wenig praxisrelevanten) Fall PX,Wθ0 ({x ∈ Ψ : T (x) = a1 }) > 1 − α alt man dann φ : Ψ → [0, 1], folgt a1 = a2 . Formal erh¨ 1 f¨ ur alle x mit T (x) = a1 , x → ur alle x mit T (x) = a1 , γ1 + γ2 f¨ als Test zum Testniveau α f¨ ur die Hypothesen H0 : θ = θ0 θ = θ0 , Θ ⊆ R.
und H1 :
16.3 Nichtparametrische Tests Bisher haben wir vorausgesetzt, dass die Familie PX,W der zu betrachtenden Wahrscheinlichkeitsmaße in einem statistischen Raum (Ψ, G, PX,W ) in der Form PX,Wθ∈Θ gegeben ist. Obwohl man jede Menge von Wahrscheinlichkeitsmaßen in dieser Form darstellen kann, unterstellt man mit der gew¨ahlten Schreibweise, dass die Art der zu Grunde liegenden Verteilungen wohlbekannt ist und nur der Parameter θ unbekannt ist (zum Beispiel die Normalverteilung mit unbekanntem Erwartungsvektor). Auf der anderen Seite weiß man aber oft nicht, welcher Typ von Verteilungen vorliegt. F¨ ur solche Situationen stehen so genannte nichtparametrische Tests zur Verf¨ ugung. Wir betrachten in diesem Abschnitt einen typischen und wichtigen Spezialfall. Immer wieder kommt es in Anwendungen vor, dass die Wirksamkeit einer Methode, die Unsch¨adlichkeit eines Mittels oder der Einfluss irgendwelcher anderer Faktoren statistisch bewertet werden sollen. Konkret kann es dabei z.B. um die Frage gehen, ob ein Medikament eine bestimmte Nebenwirkung hat oder nicht, oder ob M¨ause, mit denen man trainiert hat, den Ausweg aus einem Labyrinth schneller finden als untrainierte Artgenossen. Ordnungs- und Rangstatistik Wir betrachten folgende Situation: Sei Ψ = Rn , n ∈ N, und jedes Wahrscheinlichkeitsmaß in PX,W sei durch eine reelle λn -Dichte fn : Rn → R+ in der Form n
f (xi ) fn (x) = i=1
beschreibbar, wobei f : R → R+ eine stetige (aber unbekannte) λ-Dichte bezeichnet. Ferner setzen wir voraus, dass eine gegebene Stichprobe x ¯ ∈ Rn lediglich eine Rangfolge (Benotung) repr¨ asentiert. Wegen der Stetigkeit von f sind mit Wahrscheinlichkeit 1 alle Komponenten von x¯ paarweise verschieden.
500
16 Testtheorie
Davon gehen wir im Folgenden aus. Da die Stichprobe lediglich als Rangfolge interpretiert werden soll, wollen wir diese Stichprobe der Gr¨ oße nach sortieren. Dazu sei s : {1, . . . , n} → {1, . . . , n} eine Permutation auf {1, . . . , n}, von denen es bekanntlich n! gibt. Die Menge dieser n! Permutationen bezeichnen wir mit Π. Wendet man eine Permutation der Menge {1, . . . , n} auf die Indizes eines Vektors x ∈ Rn an, so bedeutet dies eine Umnummerierung der Komponenten von x. Eine Sortierung der Komponenten unserer Stichprobe x ¯ der Gr¨ oße nach bedeutet also die Anwendung einer speziellen Permutation s auf die Indizes von x ¯. Wir betrachten somit eine Abbildung R : Rn → Π, x → s = R(x), die jeder m¨ oglichen Stichprobe x ¯ ∈ Rn (mit paarweise verschiedenen Eintr¨agen) genau die Permutation s zuordnet, f¨ ur die gilt: x ¯s(1) < . . . < x ¯s(n) . Mit dem Messraum (Π, P(Π)) wird die Abbildung R Bn -P(Π)-messbar und wird als Rangstatistik bezeichnet. Die Abbildung T : Rn → Rn ,
(x1 , . . . , xn ) → (xs(1) , . . . , xs(n) ),
ist B n -B n -messbar und wird als Ordnungsstatistik bezeichnet. Unter den obigen Voraussetzungen gilt: •
Die Zufallsvariable R ist gleichverteilt, also PX ({x ∈ Rn : R(x) = s}) =
1 n!
f¨ ur alle s ∈ Π und alle PX ∈ PX,W (also ohne konkrete Festsetzung der λ-Dichte f ). Denn mit G := {x ∈ Rn : x1 < x2 < . . . < xn } erhalten wir n f (xi ): wegen fn (x) = i=1
PX ({x ∈ Rn : R(x) = s}) = PX ({x ∈ Rn : (xs(1) , . . . , xs(n) ) ∈ G}) = PX ({x ∈ Rn : (x1 , . . . , xn ) ∈ G}) = >? @
f¨ ur alle s ∈ Π.
unabh¨ angig von s 1 . Da aber |Π| = n!, folgt PX ({x ∈ Rn : R(x) = s}) = n! • Die Zufallsvariablen R und T sind f¨ ur alle Wahrscheinlichkeitsmaße PX ∈ angig, denn mit messbarem PX,W unabh¨
D ⊆ G = {x ∈ Rn : x1 < x2 < . . . < xn } gilt:
16.3 Nichtparametrische Tests
501
PX ({x ∈ Rn : (R(x) = s) ∧ (T (x) ∈ D)}) = PX ({x ∈ Rn : (xs(1) , . . . , xs(n) ) ∈ D}) = PX ({x ∈ Rn : (x1 , . . . , xn ) ∈ D}) 1 PX ({x ∈ Rn : (x1 , . . . , xn ) ∈ D}) = n! s∈Π 1 PX ({x ∈ Rn : (xs(1) , . . . , xs(n) ) ∈ D}) = n! s∈Π
= PX ({x ∈ Rn : R(x) = s}) · PX ({x ∈ Rn : T (x) ∈ D}). Wilcoxon-Rangstatistiktest Wir wollen diese Ergebnisse nun auf die eingangs geschilderten Vergleichssituationen anwenden. Dazu sei (Ω, S, W) gegeben. Wir betrachten zwei Zufallsvariablen X : Ω → Rn und Y : Ω → Rk unter folgenden Voraussetzungen: • X und Y sind f¨ ur alle Wahrscheinlichkeitsmaße in W unabh¨angig. • Jedes m¨ ogliche Bildmaß PX,W ist durch eine reelle λn -Dichte fn : Rn → R+ in der Form n
fn (x) = f (xi ) i=1
beschreibbar, wobei f : R → R+ eine stetige (aber unbekannte) λ-Dichte bezeichnet. • Jedes m¨ ogliche Bildmaß PY,W ist durch eine reelle λk -Dichte gk : Rk → R+ in der Form k
gk (x) = g(xi ) i=1
beschreibbar, wobei g : R → R+ eine stetige (aber unbekannte) λ-Dichte bezeichnet. Wir haben es also mit zwei statistischen R¨ aumen (Rn , B n , PX,W )
und (Rk , B k , PY,W )
zu tun. Zur Veranschaulichung betrachten wir den Vergleich von zwei Gruppen von M¨ ausen, die den Ausgang eines Labyrinths finden sollen. Der erste statistische Raum repr¨ asentiert z.B. diejenigen M¨ause, mit denen das Auffinden des Ausgangs im Labyrinth nicht trainiert wurde, der zweite Raum steht f¨ ur die trainierten M¨ ause. Um die Effizienz des Trainings nachzuweisen, stellt sich die Frage, ob die Verteilungen beider Gruppen gleich sind oder die Verteilung der zweiten Gruppe kleiner ist (die M¨ ause schneller den Ausgang finden). Daher soll der Rangstatistiktest von Wilcoxon die Frage beantworten, ob die Verteilungsfunktion
502
16 Testtheorie
x G : R → [0, 1],
x →
g(t)dt, −∞
f¨ ur jedes x ∈ R kleiner ist als die Verteilungsfunktion x F : R → [0, 1],
x →
f (t)dt. −∞
Getestet wird also die Nullhypothese H0 : G(x) = F (x) f¨ ur alle x ∈ R gegen die Hypothese H1 : G(x) < F (x)
f¨ ur alle x ∈ R.
Warum gerade diese Reihenfolge der Hypothesen gew¨ahlt wurde, wird sich noch zeigen. Es seien ψ = (ψ1 , . . . , ψn )
bzw.
ξ = (ξ1 , . . . , ξk )
Realisierungen der statistischen R¨ aume (Rn , B n , PX,W ) bzw. (Rk , B k , PY,W ). Die Gegenhypothese w¨ urde bedeuten, dass kleinere Werte f¨ ur die Komponenten von ξ zu erwarten sind als f¨ ur die Komponenten von ψ (die trainierten M¨ ause finden den Ausgang schneller). Setzt man nun voraus, dass die n + k reellen Zahlen ψ1 , . . . , ψn , ξ1 , . . . , ξk wieder nur eine Rangfolge festlegen, so kann man mit Hilfe einer Permutation s auf {1, 2, . . . , n + k} diese Zahlen der Gr¨ oße nach aufsteigend ordnen. Sollte die Gegenhypothese richtig sein, so w¨ urde man f¨ ur s(n + 1), . . . , s(n + k) relativ kleine Zahlen erwarten, da die ξ1 , . . . , ξk nach der Umsortierung relativ fr¨ uh auftauchen m¨ ussten. Die Testvorschrift des Wilcoxon-Rangstatistiktests lautet daher: k s(n + i) < a =⇒ H0 ablehnen. i=1
gelten Die Wahl des Parameters a ∈ N, f¨ ur den offensichtlich a > k(k+1) 2 muss, ergibt sich nun aus dem gew¨ unschten Testniveau α, das ja den Fehler 1. Art darstellt (die Nullhypothese wird abgelehnt, obwohl sie richtig ist). Auf Grund der Wahl unserer Hypothesen k¨ onnen wir diesen Fehler aber ausrechnen; wenn die Nullhypothese richtig ist, sind die zwei Stichproben ψ und ξ als eine Stichprobe ρ der Dimension n+k interpretierbar. F¨ ur die entsprechenden Rang- und Ordnungsstatistiken gelten die obigen Eigenschaften; insbesondere ist dann die Rangstatistik gleichverteilt. F¨ ur jedes gew¨ahlte a kann nun die Wahrscheinlichkeit
16.3 Nichtparametrische Tests
α = P({ω ∈ Ω :
k
503
R(X(ω), Y (ω))(n + i) < a})
i=1
und somit das Testniveau berechnet werden, wobei mit R(X(ω), Y (ω)) die gemeinsame Rangstatistik der beiden Stichproben bezeichnet wird. Umgekehrt kann so zu einem gew¨ ahlten Testniveau das gr¨oßte ganzzahlige a berechnet werden, so dass das Testniveau sicher unterschritten wird. Ein Ausschnitt aus den entsprechenden Quantiltafeln f¨ ur den Fall n = k (also dem typischen Fall gleich großer Stichproben in beiden Gruppen) ist in Tabelle 16.1 wiedergegeben. So bedeutet z.B. die 46 in der zweiten Zeile, dass f¨ ur Stichproben der
n=k
5
6
7
8
9
10
α = 1%
17
25
35
46
60
75
α = 5%
20
29
40
52
66
83
Tabelle 16.1. Quantile f¨ ur den Wilcoxon-Rangstatistiktest
L¨ ange 8 die Summe der R¨ ange von Y kleiner 46 sein m¨ ussen, um bei einem Testniveau von 1% die Nullhypothese abzulehnen: P({ω ∈ Ω;
8
R(X(ω), Y (ω))(n + i) < 46}) ≤ 0.01 = α,
i=1
diese Ungleichung f¨ ur a = 47 jedoch nicht mehr gilt. Beispiel 16.12 (M¨ ause). Betrachten wir als konkretes Beispiel eine untrainierte Gruppe X von 6 M¨ ausen, die den Ausgang eines Labyrinths finden sollen,
Gruppe X
23
25
13
38
33
36
Gruppe Y
19
11
14
32
22
10
Tabelle 16.2. Zeiten (in Sek.) trainierter (Y ) und untrainierter (X) M¨ ause
gegen¨ uber einer trainierten Gruppe Y von ebenfalls 6 M¨ausen. F¨ uhrt das Training zum schnelleren Auffinden des Ausgangs? In Tabelle 16.2 sind die
504
16 Testtheorie
gemessenen Zeiten aufgef¨ uhrt. Daraus ergibt sich als gemeinsame Rangstatistik von X und Y : 1 2 3 4 5 6 7 8 9 10 11 12 s= . 7 8 3 12 10 11 5 2 4 9 6 1 Daraus folgt 6
s(6 + i) = 5 + 2 + 4 + 9 + 6 + 1 = 27.
i=1
Tabelle 16.1 entnehmen wir, dass wir zum Testniveau 5% (27 < 29) die Nullhypothese ablehnen k¨ onnen, w¨ ahrend zum Testniveau 1% (27 > 25) der Unterschied zwischen trainierten und untrainierten M¨ausen noch nicht groß genug ist. ♦
16.4 Anwendung medizinische Biometrie: Arzneimittelpru ¨ fung Die medizinische Biometrie, im Rahmen des Medizinstudiums auch Biomathematik genannt, stellt die Verbindung zwischen Medizin und Mathematik, insbesondere der Statistik her. Die Werkzeuge der Mathematik bzw. Statistik werden in der Biometrie verwendet, um medizinische Ph¨anomene durch mathematische Modelle zu beschreiben und gegebenenfalls medizinische Fragestellungen zu l¨ osen. Ein typisches Einsatzgebiet der Biometrie ist die Arzneimittelpr¨ ufung, auf die wir in dieser Anwendung eingehen wollen. Bevor in Deutschland ein neues Arzneimittel auf den Markt gelangt, m¨ ussen Studien u ur solche Arz¨ber seine Wirksamkeit vorliegen. Die Grundlagen f¨ neimittelpr¨ ufungen sind in mehreren Gesetzen und Verordnungen geregelt, z.B. im Arzneimittelgesetz. So darf eine Arzneimittelpr¨ ufung am Menschen nur dann durchgef¨ uhrt werden, wenn die Risiken, die mit ihr f¨ ur die Person ” verbunden sind, [. . . ], gemessen an der voraussichtlichen Bedeutung des Arzneimittels f¨ ur die Heilkunde ¨ arztlich vertretbar sind“ (Arzneimittelgesetz §40). Weiter muss das Einverst¨ andnis des Patienten vorliegen, ein erfahrener Arzt muss die Durchf¨ uhrung begleiten, der Patient muss gegen potentielle Sch¨aden versichert werden etc. Insgesamt sind die Anforderungen an die methodischen Grundlagen sowie an die Qualit¨ at einer Arzneimittelpr¨ ufung außerordentlich hoch. Struktur einer Arzneimittelpr¨ ufung Zur Strukturierung einer Arzneimittelpr¨ ufung haben sich vier Phasen etabliert. Im Allgemeinen steigt die Anzahl behandelter Personen und die Dauer der Behandlung von Phase zu Phase an.
16.4 Anwendung medizinische Biometrie: Arzneimittelpr¨ ufung
505
Phase I: Das Medikament wird zum ersten Mal an (gesunden) Menschen eingesetzt. Ziele der Untersuchung sind etwa Fragen der Vertr¨aglichkeit bei verschiedenen Dosierungen oder der biochemischen Folgen des Pr¨aparats im Organismus. Phase II: Das Medikament wird zum ersten Mal an Patienten erprobt. Es sollen die erwarteten Wirkungen u uft sowie erste Ergebnisse zur Arz¨berpr¨ neimittelsicherheit gesammelt werden. Außerdem dient diese Phase zur Bestimmung der Dosis-Wirkungsrelation. Phase III: In dieser Phase soll die Wirksamkeit und Sicherheit des Medikaments im Vergleich zu einer Standardtherapie oder einem Plazebo nachgewiesen werden. Dazu wird eine gr¨ oßere Anzahl von Patienten unter Praxisbedingungen untersucht. Phase IV: Diese Phase umfasst alle Untersuchungen, die nach der Zulassung des Medikaments erfolgen. Diese beziehen sich z.B. auf die Arzneimittelsicherheit oder auf den Vergleich mit einer anderen Therapie. Nat¨ urlich gibt es F¨ alle, in denen mehr Phasen unterschieden werden, einzelne Phasen nicht scharf getrennt werden k¨ onnen oder Phasen anders aufgebaut sind. So kann es vorkommen, dass bereits in Phase I erkrankte Personen untersucht werden (z.B. in der Onkologie). Methodik Es gibt zahlreiche Fehlerquellen, die Arzneimittelpr¨ ufungen von vornherein unsinnig machen. Die wichtigsten methodischen Prinzipien zur Vermeidung von Fehlern wollen wir am Beispiel einer randomisierten Doppelblindstudie, wie sie in Phase III erfolgen k¨ onnte, erl¨ autern: Strukturgleichheit: Typischerweise werden die Patienten in zwei Gruppen eingeteilt, von denen eine mit dem Pr¨ ufpr¨aparat (Verum) und die andere mit einem Kontrollpr¨ aparat (z.B. einem Plazebo) behandelt wird. Diese sollen strukturgleich sein, d.h. z.B. aus der gleichen Altersgruppe stammen, die gleiche Risikoexposition und den gleichen Schweregrad der Erkrankung besitzen. Um dies zu erreichen, werden die Patienten rein zuf¨ allig auf die zwei Gruppen verteilt. Diese zuf¨allige Zuteilung zur Vermeidung unerw¨ unschter St¨ oreinfl¨ usse wird Randomisierung (nicht zu verwechseln mit der Randomisierung eines Tests) genannt. Die Randomisierung darf keinerlei Eigenschaften eines Patienten in den Auswahlprozess einbeziehen. Beobachtungsgleichheit: Die Beobachtungsgleichheit der Vergleichsgruppen erfordert z.B. die Verwendung der gleichen Messverfahren sowie der gleichen Dokumentationstechnik. Weiterhin m¨ ussen beide Gruppen zu gleichen Zeitpunkten und mit der gleichen Beobachtungstechnik, z.B. doppelblind, untersucht werden. Die Doppelblindheit bedeutet, dass weder der Patient noch der behandelnde Arzt weiß, ob der Patient das Verum oder das Plazebo bekommt.
506
16 Testtheorie
Zielkriterium: Unverzichtbare Voraussetzung f¨ ur die Durchf¨ uhrung einer Pr¨ ufung ist die vor Beginn der Studie erfolgte Festlegung eines Zielkriteriums. Dies kann z.B. die Messung eines bestimmten Wertes 8 Wochen nach Behandlungsbeginn sein. Nat¨ urlich muss es sich bei der Zielvariable um eine Gr¨ oße handeln, deren Relevanz f¨ ur die Wirksamkeit des Medikaments bekannt ist. Verallgemeinerbarkeit: Patienten werden nach bestimmten Kriterien zu einer Studie zugelassen oder aber von der Studie ausgeschlossen. Diese Ein- und Ausschlusskriterien sollen einerseits die Indikation sichern sowie die m¨ oglichen Risiken beschr¨ anken. Andererseits m¨ ussen sie sicherstellen, dass die Ergebnisse verallgemeinerbar sind. Ein t-Test f¨ ur unabh¨ angige Stichprobenvariablen Um einen Test zu beschreiben, der in Phase III einer Arzneimittelpr¨ ufung verwendet werden k¨ onnte, wollen wir von folgender Situation ausgehen: Zwei gleich große Patientengruppen werden mit einem neuen Pr¨aparat (Verum) bzw. einer Alternative (z.B. einem Plazebo oder einer Standardtherapie) behandelt. Wir bezeichnen mit V1 , . . . , Vn bzw. U1 , . . . , Un die Zufallsvariablen, die die Zielvariable f¨ ur die zwei Patientengruppen beschreiben. Wir gehen daangig und normalverteilt mit konvon aus, dass V1 , . . . , Vn , U1 , . . . , Un unabh¨ stanter Varianz σ 2 sind, V1 , . . . , Vn den Erwartungswert µ1 , und U1 , . . . , Un den Erwartungswert µ2 besitzen. Sollte das neue Pr¨aparat wirksam sein, sollte sich der Erwartungswert µ1 bei den behandelten Patienten V1 , . . . , Vn von dem Erwartungswert µ2 der Patienten U1 , . . . , Un unterscheiden. Um dies zu testen, stellen wir die Hypothesen H0 : µ1 = µ2
und
H1 : µ1 = µ2
auf. Zur Formulierung eines passenden Tests definieren wir ¯ := 1 U Ui , n i=1 n
1 V¯ := Vi , n i=1 n
1 ¯ )2 , (Ui − U n − 1 i=1 n
SU2 :=
1 (Vi − V¯ )2 n − 1 i=1 n
SV2 :=
sowie die Zufallsvariable ¯ √ V¯ − U Tˆ := ' 2 n. SU + SV2 F¨ ur eine Realisierung u = (u1 , . . . , un ) = (U1 (ˆ ω ), . . . , Un (ˆ ω )) und v = ω ), . . . , Vn (ˆ ω )) setzen wir T (u, v) := Tˆ(ˆ ω ). Sei α ∈ ]0, 1[ (v1 , . . . , vn ) = (V1 (ˆ das gew¨ ahlte Testniveau. Im Rahmen der Testtheorie erh¨alt man f¨ ur diese Situation den folgenden Test (ganz ¨ ahnliche Tests werden wir in Abschnitt 17.3 herleiten):
16.4 Anwendung medizinische Biometrie: Arzneimittelpr¨ ufung
φ : R2n → {0, 1},
(u, v) →
507
1 f¨ ur alle y mit |T (u, v)| > t2n−2,1− α2 , 0 f¨ ur alle y mit |T (u, v)| ≤ t2n−2,1− α2 .
Dabei bezeichnet t2n−2,1− α2 das (1 − α2 )-Quantil der so genannten t2n−2 Verteilung (vgl. f¨ ur die Definition Lemma 17.7). Eine Tabelle mit den Quantilen dieser Verteilung befindet sich in Anhang C in Abschnitt C.2. In diesem Zusammenhang heißt Tˆ Teststatistik und T (u, v) Pr¨ ufgr¨oße. Ist der Betrag |T (u, v)| der Pr¨ ufgr¨ oße gr¨ oßer als ein bestimmtes, vom Testniveau abh¨ angiges Quantil (hier der t-Verteilung), so wird die Nullhypothese abgelehnt. Da es sich hier um ein Quantil der t-Verteilung handelt, heißt dieser Test auch t-Test f¨ ur unabh¨ angige Stichproben. Pr¨ ufung eines Blutdrucksenkers Wir wollen eine Arzneimittelpr¨ ufung in Phase III mit obigem t-Test am Beispiel eines Blutdrucksenkers, den wir Mathol nennen, durchf¨ uhren. Um die Wirksamkeit nachzuweisen, wurde eine randomisierte Doppelblindstudie mit einem Plazebo durchgef¨ uhrt. Es wurden also rein zuf¨allig zwei Patientengruppen gebildet, denen u ¨ber einen Zeitraum von 6 Monaten Mathol bzw. ein ¨außerlich in keiner Hinsicht unterscheidbares Plazebo verabreicht wurde. Als Zielkriterium wurde die Differenz des Blutdrucks zwischen Behandlungsbeginn und dem Ende der sechsmonatigen Behandlungsphase festgelegt. Tabelle 16.3 zeigt die Werte des Zielkriteriums bei zwei mal 10 Patienten aus einer der beteiligten internistischen Praxen. Als Testniveau f¨ ur die Pr¨ ufung war
Verum-Gruppe V
-42
-25
13
-22
-19
-45
-22
8
0
- 33
Plazebo-Gruppe U
-12
15
3
5
-10
5
0
6
-24
-3
Tabelle 16.3. Differenzwert des Blutdrucks nach 6 Monaten
α = 0.05 vorgesehen. Um die Pr¨ ufgr¨ oße zu bestimmen, berechnen wir die Mittelwerte ¯ (ˆ V¯ (ˆ ω ) ! −18.70, U ω ) ! −1.50, sowie SV2 (ˆ ω ) ! 396.46,
SU2 (ˆ ω ) ! 125.17.
Damit erhalten wir die Pr¨ ufgr¨ oße ¯ (ˆ V¯ (ˆ ω) − U ω) √ −18.70 − (−1.50) √ √ T (u, v) = ' 2 n ! 10 ! −2.38. 396.46 + 125.17 SU (ˆ ω ) + SV2 (ˆ ω)
508
16 Testtheorie
Der Tabelle C.2 entnimmt man das 97.5%-Quantil der t-Verteilung mit 18 Freiheitsgraden: t18,0.975 ! 2.101. Wegen |T (u, v)| ! 2.38 > t18,0.975 ! 2.101 ist die Nullhypothese abzulehnen. Das Testresultat legt also die Wirksamkeit des Pr¨ aparats nahe. Es mag auf den ersten Blick verwundern, dass wir einen zweiseitigen Test ¨ betrachten haben, da wir haupts¨ achlich an einer Uberlegenheit des Verums gegen¨ uber dem Standard oder einem Plazebo interessiert sind. Dies ist jedoch deshalb sinnvoll, da auch die Unterlegenheit nicht ohne Konsequenzen bleibt. So k¨ onnten etwa alle weiteren klinischen Studien mit diesem Pr¨aparat abgebrochen werden. ¨ Signifikanz-, Relevanz-, Aquivalenztests Zum Abschluss stellen wir einige weitere Fragestellungen und Hypothesen vor, die im Zusammenhang mit Arzneimittelpr¨ ufungen plausibel sind. Unser ¨ obiger t-Test ist so konstruiert, dass die Ubereinstimmung eines Parameters als Nullhypothese dient. Er soll also mit hoher Wahrscheinlichkeit Abweichungen ¨ ¨ von der Ubereinstimmung erkennen. Solche Tests heißen Signifikanztests. Uber die Gr¨ oße der Abweichung sagen sie zun¨ achst nichts aus. Es sollte durch die Versuchsplanung, z.B. durch die Wahl des Stichprobenumfangs, gew¨ahrleistet sein, dass erst relevante Abweichungen zu einer entsprechenden Ablehnung der Nullhypothese f¨ uhren. Diesen Aspekt kann man allerdings auch direkt einfließen lassen, indem man die Hypothesen anders w¨ahlt: H0 : |µ1 − µ2 | ≤ δ,
H1 : |µ1 − µ2 | > δ.
Der Unterschied der Erwartungswerte muss in diesem Fall die Gr¨oße δ u ¨bersteigen, damit der Test entsprechend reagiert. Diese Tests heißen Relevanztests, da man Abweichungen um weniger als δ als irrelevant betrachtet. Ihre Konstruktion ist im Allgemeinen wesentlich komplizierter. Einfacher hingegen ist die entsprechende einseitige Fragestellung, bei der also z.B. getestet wird, ob das Verum den Standard um mindestens δ u ¨bertrifft: H0 : µ2 − µ1 ≤ δ,
H1 : µ2 − µ1 > δ.
Ein solcher Nachweis kann z.B. dann gefordert werden, wenn mit dem neuen Pr¨aparat starke Nebenwirkungen auftreten, die nur bei einer deutlichen Verbesserung um mindestens δ in Kauf genommen werden. Denkbar ist auch die umgekehrte Fragestellung: Ist die bisherige Standardbehandlung mit schweren Nebenwirkungen verbunden oder sehr teuer, wird man eine gewisse Unterlegenheit vom Maß δ des neuen Pr¨aparats akzeptieren, wenn es die entsprechenden Nachteile nicht hat. Dies f¨ uhrt zu den Hypothesen H0 : µ2 − µ1 ≤ −δ,
H1 : µ2 − µ1 > −δ.
Einen solchen Test nennt man Test auf h¨ ochstens irrelevanten Unterschied, ¨ oder kurz Aquivalenztest.
17 Lineare statistische Modelle
17.1 Das lineare Modell In vielen Anwendungen h¨ angen beobachtbare Daten linear von gewissen Parametern ab. Bei konkreten Messungen treten jedoch zuf¨allige Messfehler auf, so dass die Koeffizienten nicht unmittelbar bestimmt werden k¨onnen. Lineare statistische Modelle dienen unter anderem dazu, trotz der St¨orung durch ¨ auf Grundlage der gemessenen Daten die Koeffizienten und Messfehler o.A. damit den linearen Zusammenhang zu bestimmen. Ausgangspunkt der linearen statistischen Modelle ist ein statistischer Raum (Rn , B n , PY,θ∈Θ ). Das Besondere des statistischen Raumes (Rn , B n , PY,θ∈Θ ) besteht nun in der Tatsache, dass u ¨ber PY,θ∈Θ nur der Erwartungswert von Y in Form einer Linearkombination der Vektoren x1 , . . . , xp mit unbekannten Linearfaktoren β ∈ Rp und lediglich die Kovarianzmatrix von Y in Form eines Vielfachen der Einheitsmatrix mit unbekanntem Koeffizienten σ 2 > 0 bekannt sind. Daher modelliert man Y durch Y = Xβ + E, mit einer Matrix X = (x1 , . . . , xp ) ∈ Rn,p und einer n-dimensionalen reellen Zufallsvariablen E. Im Gegensatz zu den bisher betrachteten statistischen R¨ aumen parametrisiert θ = (β, σ 2 ) ∈ Rp × R+ in einem linearen Modell also die Familie der Zufallsvariablen Y = Y (θ) und damit nur mittelbar die Familie der induzierten Verteilungen PY,θ∈Θ . Wir fassen zusammen:
510
17 Lineare statistische Modelle
Definition 17.1 (lineares Modell). Es sei X ∈ Rn,p eine Matrix, β ∈ Rp und σ 2 > 0. Ferner sei E eine n-dimensionale Zufallsvariable mit E(β,σ2 ) (E) = 0
und
Cov(β,σ2 ) (E) = σ 2 I.
Dann heißt ein statistischer Raum (Rn , B n , PY,θ∈Θ ),
θ = (β, σ 2 ) ∈ Rp × R+ = Θ,
mit Y = Xβ + E lineares Modell. Die Matrix X ∈ Rn,p wird als Designmatrix bezeichnet und besteht aus den Spalten x1 , . . . , xp ∈ Rn . Diese wiederum heißen Regressoren. Die Forderungen an E stellen sicher, dass E(β,σ2 ) (Y ) = Xβ
und
Cov(β,σ2 ) (Y ) = σ 2 I
gilt. Die Komponenten von Y1 , . . . , Yn von Y haben also i.A. unterschiedliche Erwartungswerte, sind paarweise unkorreliert und haben die gemeinsame Varianz σ 2 . Das lineare Regressionsmodell Eine typische Anwendung linearer Modelle tritt bei linearen physikalischen Gesetzen auf, wie im nachfolgenden Beispiel. Beispiel 17.2 (Hookesches Gesetz). Die L¨ angen¨anderung ∆l einer Feder ist proportional zur dehnenden Kraft F . Die Proportionalit¨atskonstante D wird als Federkonstante bezeichnet: F = D · ∆l. Um die Federkonstante experimentell zu ermitteln, w¨ahlt man gewisse Kr¨afte F1 , . . . , Fn und misst die entsprechenden L¨ angen¨anderungen ∆l1 , . . . , ∆ln . F1 Fn Da dabei Messfehler auftreten, werden die Zahlen ∆l , . . . , ∆l nicht gleich 1 n sein. F¨ ur welchen Wert der Federkonstanten soll man sich nun entscheiden? Wir stellen die obige Formel um,
∆l =
1 F, D
17.1 Das lineare Modell
511
und interpretieren den Messvorgang als Realisierung eines Zufallsexperimentes. Die n Messungen ∆l1 , . . . , ∆ln ergeben dann die Realisierung y¯ ∈ Rn in unserem linearen Modell. Als einziger Regressor fungiert der Vektor 1 atzende β ∈ R repr¨asentiert die Zahl D . Wir (F1 , . . . , Fn ) ∈ Rn . Das zu sch¨ erhalten Y = x1 β + E mit y¯i = ∆li und xi1 = Fi , i = 1, . . . , n. Durch eine Sch¨atzung βˆ f¨ ur β erhalten ˆ = 1 f¨ u r die Federkonstante, und durch eine Sch¨atzung wir eine Sch¨ atzung D βˆ 2 2 ˆ σ ˆ f¨ ur σ erhalten wir ein Maß f¨ ur die G¨ ute von D. ♦ Im obigen Beispiel besteht die Designmatrix aus einer metrischen Gr¨oße (die dehnende Kraft), die unter anderem von der Skalierung (etwa gemessen in Newton oder Kilopond) abh¨ angig ist. Bestehen in einem linearen statistischen Modell alle Spalten der Designmatrix, d.h. alle Regressoren, aus metrischen Gr¨ oßen, so spricht man von einem linearen Regressionsmodell. Lineare varianzanalytische Modelle Eine etwas andere Situation beschreibt das nachfolgende Beispiel: Beispiel 17.3 (Eichen von Sensoren). In der Umweltschutztechnik spielen Sensoren zur Messung der Ozonkonzentration eine wichtige Rolle. Seien m verschiedene Sensoren gegeben, die eine unbekannte Ozonkonzentration messen sollen. Der i-te Sensor nimmt dabei ni Messungen vor, die in dem Vektor y (i) ∈ Rni gespeichert werden. Ist µ die unbekannte, zu messende Ozonkonzentration, so nimmt man an, dass der i-te Sensor diese Konzentration im Mittel mit einem systematischen Fehler αi misst. Hinzu kommen noch Einzelfehler pro Messung. Insgesamt fasst man die Messungen als Realisierung einer reellen Zufallsvariablen Y : Ω → Rn1 × Rn2 × . . . × Rnm auf und betrachtet das lineare statistische Modell ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ α1 y1 µ ⎜ ⎟ ⎜ ⎟ ⎜ .. ⎟ .. ⎜ ⎟ ⎜ ⎟ ⎜ . ⎟ . ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ α1 ⎟ y n1 ⎜ ⎟ ⎜.⎟ ⎜ ⎟ ⎜ yn1 +1 ⎟ ⎜ . ⎟ ⎜ α2 ⎟ ⎜ ⎟ ⎜.⎟ ⎜ ⎟ ⎜ ⎟ = ⎜ . ⎟ + ⎜ .. ⎟ + E .. ⎜ ⎜ ⎟ . . ⎟ ⎜ ⎟ ⎜ .. ⎟ ⎟ ⎟ ⎜ ⎜ ⎜ yn +n ⎟ ⎜ ⎟ ⎜ α2 ⎟ 1 2 ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ .. .. ⎟ ⎝ ⎠ ⎜ ⎝ ⎝ ⎠ . . ⎠ µ yn1 +...+nm αm bzw.
512
17 Lineare statistische Modelle
Y = Xβ + E mit
⎛
X ∈ Rn1 +...+nm ,m+1 ,
und
1 1 0 ··· ⎜ .. .. .. ⎜. . . ⎜ ⎜1 1 0 ··· ⎜ ⎜1 0 1 0 ⎜ X=⎜. . . . ⎜ .. .. .. .. ⎜ ⎜1 0 1 0 ⎜ ⎜. . .. ⎝ .. .. . 1 0 0 ···
0 .. . 0 ··· ··· 0
⎞ 0 .. ⎟ .⎟ ⎟ 0⎟ ⎟ 0⎟ ⎟ .. ⎟ .⎟ ⎟ 0⎟ ⎟ ⎟ ⎠ 1
β = (µ, α1 , . . . , αm ) .
Durch Sch¨ atzungen µ ˆ, α ˆ1 , . . . , α ˆ m lassen sich die Sensoren entsprechend eichen. ♦ Die eben betrachteten Beispiele spiegeln zwei verschiedene Typen von linearen statistischen Modellen wieder. Die Eintr¨ age der Designmatrix im letzten Beispiel haben die Funktion von Indikatoren, die anzeigen, ob ein Parameter βi an der entsprechenden Stelle im Modell vorkommt oder nicht. Derartige lineare statistische Modelle nennt man lineare varianzanalytische Modelle. Selbstverst¨ andlich gibt es auch Mischformen linearer Regressions- und varianzanalytischer Modelle. Wichtiger als diese Klassifikation ist die Frage, wie unter den gegebenen Rahmenbedingungen Punktsch¨atzungen oder (unter weiteren Voraussetzungen u orung) Tests f¨ ur die unbekannten Parameter ¨ber die St¨ durchgef¨ uhrt werden k¨ onnen. Damit werden wir uns in den n¨achsten beiden Abschnitten besch¨ aftigen.
17.2 Kleinste-Quadrate-Sch¨ atzung Im Gegensatz zur Theorie der Punktsch¨ atzer, wie wir sie in Kapitel 15 behandelt haben, ist bei linearen statistischen Modellen der Verteilungstyp der Zufallsvariablen Y mit Y = Xβ + E im Allgemeinen nicht bekannt. Daher st¨ utzt man sich bei der Sch¨atzung des arker heuristischen Zugang. unbekannten Parameters β ∈ Rp auf einen st¨ Designmatrizen mit vollem Rang Wegen E(β,σ2 ) (E) = 0
und
Cov(β,σ2 ) (E) = σ 2 I
17.2 Kleinste-Quadrate-Sch¨ atzung
513
w¨ahlt man folgende Sch¨ atzfunktion g f¨ ur β unter der Voraussetzung, dass die Designmatrix X vollen Rang p besitzt: 4 5 2 g : Ω → Rp , ω → argmin E(ω)2 , β∈Rp
4 5 2 ¯ ∈ Rp bewobei argmin E(ω)2 den eindeutig bestimmten Vektor β(ω) β∈Rp
zeichnet, f¨ ur den die Funktion 2
2
E(ω)2 = Y (ω) − Xβ2 minimal wird. Durch partielle Differentiation nach den Komponenten von β und durch L¨ osung eines linearen Gleichungssystems erh¨alt man die explizite Form −1 X Y (ω). g : Ω → Rp , ω → X X Somit ist g messbar und wegen E(β,σ2 ) (g) = E(β,σ2 )
−1 X X X Y (ω) = β
auch erwartungstreu. Ferner ist g eine lineare Funktion in Y . Damit haben wir gezeigt: Satz 17.4. Sei (Rn , B n , PY,(β,σ2 )∈Rp ×R+ ) mit Y = Xβ+E ein lineares Modell. Hat die Designmatrix X vollen Rang p, so ist g : Ω → Rp ,
−1 ω → X X X Y (ω),
eine erwartungstreue Sch¨ atzfunktion f¨ ur β mit 4 5 4 5 2 2 g(ω) = argmin E(ω)2 = argmin Y (ω) − Xβ2 . β∈Rp
β∈Rp
Auf Grund dieser Eigenschaften wird die Sch¨ atzfunktion g auch als Kleinste” Quadrate-Sch¨ atzfunktion“ bezeichnet. Der Satz von Gauß-Markov Wir betrachten weiter Designmatrizen X mit vollem Rang, wollen aber nun nicht mehr β, sondern f¨ ur einen fest gew¨ ahlten Vektor c ∈ Rp den reellwertigen
atzen. Offensichtlich ist Parameter c β sch¨ gc : Ω → Rp ,
−1 ω → c X X X Y (ω),
eine erwartungstreue Sch¨ atzfunktion f¨ ur c β. Das folgende Theorem zeigt, ur c β die dass gc innerhalb einer gewissen Klasse von Sch¨atzfunktionen f¨ gleichm¨ aßig beste Sch¨ atzfunktion ist.
514
17 Lineare statistische Modelle
Theorem 17.5 (Gauß-Markov). Es sei (Rn , B n , PY,(β,σ2 )∈Rp ×R+ ) mit Y = Xβ + E ein lineares Modell mit einer Designmatrix X mit vollem Rang atzfunktion p. Sei ferner f¨ ur jedes c ∈ Rp die Sch¨ gc : Ω → R,
ω → c (X X)−1 X Y (ω),
gegeben, so ist gc die gleichm¨ aßig beste unter allen (in Y ) linearen erwartungstreuen Sch¨ atzfunktionen f¨ ur c β. Beweis. Sei T eine weitere (in Y ) lineare erwartungstreue Sch¨atzfunktion f¨ ur at ein b ∈ Rn mit c β, so gibt es wegen der Linearit¨ T (ω) = b Y (ω)
f¨ ur alle ω ∈ Ω,
und wegen der Erwartungstreue gilt c β = c (X X)−1 X Xβ = b Xβ. Somit ist
b u = c (X X)−1 X u
beziehungsweise Da aber
f¨ ur alle u ∈ Bild(X)
(b − X(X X)−1 c) ∈ Bild(X)⊥ . X(X X)−1 c ∈ Bild(X),
kann man den Vektor b folgendermaßen zerlegen: b = b1 + X(X X)−1 c
mit b1 ⊥ X(X X)−1 c.
F¨ ur die Differenz der Varianzen der Sch¨ atzfunktionen folgt also V(β,σ2 ) (b Y ) − V(β,σ2 ) (c (X X)−1 X Y ) =
E(β,σ2 ) ((b (Y − Xβ))2 ) − E(β,σ2 ) ((c (X X)−1 X (Y − Xβ))2 )
=
b E(β,σ2 ) (EE )b − c (X X)−1 X E(β,σ2 ) (EE )X(X X)−1 c
= =
σ 2 (b b − c (X X)−1 X X(X X)−1 c)
−1 σ 2 (b c 1 b1 + 2 b1 X(X X) >? @ = =0
+c (X X)−1 X X(X X)−1 c − c (X X)−1 X X(X X)−1 c) =
σ 2 b 1 b1 ≥ 0.
17.2 Kleinste-Quadrate-Sch¨ atzung
515
Sch¨ atzfunktion f¨ ur die Varianz Da nach Voraussetzung die einzelnen Komponenten E1 , . . . , En des Fehlers E unkorreliert sind und identische Varianz besitzen, bietet sich als Sch¨atzfunktion f¨ ur σ 2 die Funktion 1 2 1 1 E = E22 = Y − Xβ22 , n i=1 i n n n
S¯2 : Ω → R+ ,
ω →
an. Diese Sch¨ atzfunktion h¨ angt aber vom unbekannten Parameter β ab. Daher ersetzen wir β durch den Kleinste-Quadrate-Sch¨atzer g aus Satz 17.4 und erhalten so einen Sch¨ atzer Sˆ2 Sˆ2 : Ω → R+ ,
ω →
1 Y (ω) − X(X X)−1 X Y (ω)22 . n
F¨ ur E(β,σ2 ) (Sˆ2 ) gilt: 1 E(β,σ2 ) (Sˆ2 ) = E(β,σ2 ) (Y (I − X(X X)−1 X ) (I − X(X X)−1 X )Y ) n 1 = Spur(Cov(β,σ2 ) ((I − X(X X)−1 X )Y )) n 1 = Spur(σ 2 (I − X(X X)−1 X )) n 1 = σ 2 (n − p), n da (I − X(X X)−1 X ) die lineare Projektion auf Bild(X)⊥ darstellt. ur σ 2 zu erhalten, modifizieren Um eine erwartungstreue Sch¨ atzfunktion S 2 f¨ 2 wir Sˆ zu S 2 : Ω → R+ ,
ω →
1 Y (ω) − X(X X)−1 X Y (ω)22 . n−p
In der Praxis hat man eine Realisierung y¯ = Y (ˆ ω ) von Y vorliegen. Der entsprechende Wert ω) = S 2 (ˆ
1 ¯ y − X(X X)−1 X y¯22 n−p
(17.1)
dient als Maß f¨ ur die G¨ ute der Sch¨ atzung des Erwartungswertes Xβ von Y durch X(X X)−1 X y¯. Beispiel 17.6 (Hookesches Gesetz). Wir wollen die bisher erzielten Ergebnisse der Kleinste-Quadrate-Sch¨ atzung an Beispiel 17.2, der Ermittlung einer Federkonstanten, erl¨ autern. Dazu nehmen wir an, wir h¨atten zu den Kr¨aften von 1 bis 5 N [Newton], also zum Regressor
516
17 Lineare statistische Modelle
x1 = (1, 2, 3, 4, 5) , die L¨ angenausdehnungen [in Zentimetern] Y (ˆ ω ) = y¯ = (∆l1 , . . . , ∆l5 ) = (2.3, 4.2, 6.1, 7.8, 9.5) gemessen. Nach Satz 17.4 ist −1 g(ˆ ω ) = X X X y¯ −1 = (1, 2, 3, 4, 5)(1, 2, 3, 4, 5) (1, 2, 3, 4, 5)(2.3, 4.2, 6.1, 7.8, 9.5) 1 · 107.7 ! 1.96 = 55 der Kleinste-Quadrate-Sch¨ atzer f¨ ur βˆ = 1 . Damit erhalten wir als Sch¨atzung ˆ= der Federkonstanten D
ˆ D
1 βˆ
! 0.51. Um die G¨ ute dieser Sch¨atzung einzuord-
nen, berechnen wir gem¨ aß (17.1) den Wert S 2 (ˆ ω ): 1 1 ¯ y − X(X X)−1 X y¯22 = ¯ y − Xg(ˆ ω )22 n−1 n−1 1 (2.3, 4.2, 6.1, 7.8, 9.5) − (1, 2, 3, 4, 5) · 0.5122 ! 0.58. ! 5−1
S 2 (ˆ ω) =
♦ Hat man die Designmatrix X = (x1 , . . . , xp ) ∈ Rn,p mit Rang(X) = p gegeben, so k¨ onnte man auf die Idee kommen, die Matrix X zu einer regul¨aren Matrix ˜ = (x1 , . . . , xp , x ˜p+1 , . . . , x ˜n ) ∈ Rn,n X zu erg¨ anzen und damit durch die Sch¨ atzfunktion β˜ : Ω → Rn ,
˜ −1 Y (ω), ω → X
die Gleichung ˜ β˜ + 0 Y =X
(also: E = 0)
zu erreichen. Allerdings ist dann die erwartungstreue Sch¨atzung der Varianz atzfunktion S 2 nicht mehr m¨oglich, da sowohl der Z¨ahler σ 2 durch die Sch¨ ˜X ˜ −1 Y (ω)2 Y (ω) − X 2 als auch der Nenner (n−p) gleich Null werden. Dies ist in der Regel ein Hinweis daf¨ ur, dass der beste lineare erwartungstreue Sch¨atzer f¨ ur β sehr sensitiv auf ¨ kleine Anderungen der Realisierung y¯ von Y reagiert. In der Numerik spricht man von einem schlecht konditionierten Problem. In Anbetracht der Tatsache, dass jeder Computer nur endlich viele verschiedene Zahlen darstellen kann und deshalb bei der Speicherung von y¯ im Allgemeinen eine Rundung und ¨ damit eine kleine Anderung der Daten vornehmen muss, ist die Verwendung ˜ der Matrix X f¨ ur X ein Kunstfehler. In der Praxis wird man versuchen, die Anzahl der Spalten von X durch Tests zu reduzieren. Darauf werden wir im folgenden Abschnitt genauer eingehen.
17.2 Kleinste-Quadrate-Sch¨ atzung
517
Designmatrizen mit R¨ angen < p Bisher haben wir lineare statistische Modelle ausschließlich unter der Bedingung betrachtet, dass die Designmatrix X vollen Rang besitzt. Im Prinzip kann man diesen Zustand stets dadurch erreichen, dass man im Falle einer Designmatrix mit Rang < p die linear abh¨ angigen Spalten eliminiert und so die Dimension der Problems reduziert. Dies kann in konkreten F¨allen (z.B. bei sehr großen Matrizen) in der Praxis schwierig sein, so dass wir kurz einen anderen Ausweg skizzieren: Besitzt die Designmatrix X keinen vollen Rang, so hat unser Zugang u ¨ber 4 5 2 argmin E(ω)2 β∈Rp
zur Gewinnung einer Sch¨ atzfunktion f¨ ur β keine eindeutige L¨osung mehr, denn ur den die Funktion ein Vektor βω ∈ Rp , f¨ 2
2
E(ω)2 = Y (ω) − Xβ2 minimal wird, ist nun nicht mehr eindeutig bestimmt. Sei f¨ ur festes ω ∈ Ω die Menge Bω gegeben durch , 4 5 2 p Bω := βω ∈ R : βω = argmin E(ω)2 , β∈Rp
so gibt es in Bω ein eindeutiges βˆω mit βˆω 22 ≤ βω 22
f¨ ur alle βω ∈ Bω .
ur alle ω ∈ Ω durch eine eindeutig bestimmte Matrix X+ ∈ Dieses βˆω kann f¨ p,n angig von ω ∈ Ω ist, verm¨ oge R , die unabh¨ βˆω = X+ Y (ω) berechnet werden. Wir erhalten somit alternativ zum Fall Rang(X) = p eine (in Y ) lineare Sch¨ atzfunktion g + : Ω ∈ Rp ,
ω → X+ Y (ω),
im Falle Rang(X) < p. Die Matrix X+ wird Pseudoinverse von X genannt und im Rahmen der numerischen Mathematik u ¨ber die Singul¨arwertzerlegung von X berechnet. F¨ ur Rang(X) = p ergibt sich X+ = (X X)−1 X , d.h. f¨ ur Designmatrizen mit vollem Rang erhalten wir die bereits bekannte Sch¨ atzfunktion aus Satz 17.4 zur¨ uck. F¨ ur c ∈ Kern(X)⊥ ist ω → c X+ Y (ω) eine lineare erwartungstreue Sch¨ atzfunktion f¨ ur c β.
518
17 Lineare statistische Modelle
17.3 Normalverteilte Fehler In diesem Abschnitt betrachten wir lineare Modelle (Rn , B n , PY,(β,σ2 )∈Rp ×R+ ) mit Y = Xβ + E und Rang(X) = p < n unter der zus¨ atzlichen Annahme, dass die zentrierte, unkorrelierte n-dimensionale reelle Zufallsvariable E normalverteilt ist: E ∼ N(0, σ 2 In ). Denkt man z.B. an die Beschreibung von Messfehlern, so ist diese Annahme in der Regel gerechtfertigt. Diese speziellen linearen Modelle heißen normalverteilte lineare Modelle oder auch lineare Gaußmodelle. In einem normalverteilten linearen Modell ist die Sch¨ atzfunktion gc : Ω → R,
ω → c (X X)−1 X Y (ω),
aus dem Theorem 17.5 von Gauß-Markov f¨ ur jedes c ∈ Rp sogar gleichm¨aßig beste Sch¨ atzfunktion unter allen (nicht notwendig linearen) erwartungstreuen Sch¨ atzfunktionen f¨ ur c β. Dies ist eine Anwendung des Theorems 15.12 von Lehmann-Scheff´e, siehe z.B. [Wit85, Satz 4.5]. Tests in linearen Gaußmodellen Durch die Normalverteilungsannahme f¨ ur E (und damit auch f¨ ur Y ) erhalten wir die M¨ oglichkeit, spezielle Tests durchzuf¨ uhren. Wir wollen dies an zwei Beispielen erl¨ autern1 . Insbesondere ist man an Tests der Form H0 : βi = 0
und
H1 : βi = 0,
i ∈ {1, . . . , p},
bezogen auf einzelne Komponenten von β, und an Tests der Form H0 : σ 2 ≤ σ02
und
H1 : σ 2 > σ02
interessiert. Tests der Form H0 : βi = 0
und
H1 : βi = 0,
i ∈ {1, . . . , p}
sind deshalb so wichtig, da bei Annahme der Nullhypothese die Designmatrix X = (x1 , . . . , xp ) zu ˆ = (x1 , . . . , xi−1 , xi+1 , . . . , xp ) ∈ Rn,(p−1) X 1
Ein weiterer Test dieser Art wurde in Abschnitt 16.4 skizziert.
17.3 Normalverteilte Fehler
519
abge¨ andert werden kann (wegen βi = 0 spielt die Spalte xi in X keine Rolle). ur σ 2 dann Dies hat den Vorteil, dass sich im Nenner der Sch¨atzfunktion S 2 f¨ (n − p + 1) anstelle von (n − p) und somit eine kleinere Varianz, also eine h¨ohere G¨ ute, ergibt. Tests der Form H0 : σ 2 ≤ σ02 und H1 : σ 2 > σ02 haben Bedeutung, da die Varianz σ 2 in linearen statistischen Modellen ein Maß f¨ ur die G¨ ute der Sch¨ atzung des Erwartungswertes Xβ von Y durch ur diese beiden AlternativX(X X)−1 X y¯ ist. Wir wollen im Folgenden f¨ testprobleme Tests herleiten. χ2 - und t-Verteilung Bevor wir geeignete Testvorschriften angeben k¨onnen, ben¨otigen wir das folgende Lemma u ¨ber die Verteilungen quadratischer Formen normalverteilter Zufallsvariablen. Lemma 17.7. Seien (Ω, F, P) ein Wahrscheinlichkeitsraum, E1 , . . . , En : Ω → R unabh¨ angige, N(0, 1)-verteilte Zufallsvariablen und P ∈ Rn,n eine lineare Projektion auf einen (n − p)-dimensionalen linearen Unterraum des Rn mit 0 ≤ p < n, so gilt: (i) Die Verteilung der Zufallsvariablen Z : Ω → R,
ω → E (ω)PE(ω),
(E = (E1 , . . . , En ) )
ist bez¨ uglich des Lebesgue-Maßes λ durch die Dichte ⎧ 0 f¨ ur alle x mit x ≤ 0, ⎨ n−p−2 x 2 2 fχ : R → R+ , x → x exp(− 2 ) f¨ ur alle x mit x > 0, ⎩ n−p n−p 2
2
Γ(
2
)
(χ2 -Verteilung mit (n − p) Freiheitsgraden) gegeben, wobei ∞ Γ : R>0 → R,
s →
exp(−x)xs−1 dx. 0
(ii) Ist U : Ω → R eine N(0, 1)-verteilte Zufallsvariable und V : Ω → R eine χ2 -verteilte Zufallsvariable mit (n − p) Freiheitsgraden, und sind ferner U und V unabh¨ angig, so ist die Verteilung der Zufallsvariablen √ U n−p √ , W : Ω → R, ω → V
520
17 Lineare statistische Modelle
bez¨ uglich des Lebesgue-Maßes λ durch die Dichte n−p+1
− n−p+1 2 x2 1+ x → n−p ' , n−p Γ 2 π(n − p) Γ
t : R → R+ ,
2
(t-Verteilung mit (n − p) Freiheitsgraden) gegeben. Beweis. Jede lineare Projektion P ∈ Rn,n auf einen (n − p)-dimensionalen asst sich durch eine orthogonale Matrix Q ∈ Rn,n linearen Unterraum des Rn l¨ in der Form P = Q diag(1, . . . , 1, 0, . . . , 0) Q = >? @ n−p
˜ = Q E, so ist E ˜ N(0, I)-normalverteilt und ferner gilt: darstellen. Sei nun E ˜ Q PQE ˜= E PE = E
n−p
˜i2 . E
i=1
˜1 , . . . , E ˜n−p unabh¨ Da E angig und jeweils N(0, 1)-verteilt sind, gilt f¨ ur die charakteristische Funktion ϕE PE : R → C mit Satz 7.9: ϕE PE (t) =
n−p
j=1
ϕE˜ 2 (t) =
n−p
j
j=1−∞ − n−p 2
= (1 − 2it) Wegen − n−p 2
(1 − 2it)
∞
x2j 1 exp(itx2j ) √ exp(− )dxj 2 2π
f¨ ur alle t ∈ R.
∞ =
exp(itx) 0
x
n−p−2 2
2
n−p 2
exp − x2 Γ ( n−p 2 )
dx
ist der erste Teil der Behauptung bewiesen. F¨ ur den zweiten Teil berechnen wir zun¨ achst die Verteilung der Zufallsvariablen √ B √ : Ω → R, n−p wobei B χ2 -verteilt ist mit (n − p) Freiheitsgraden. Es gilt: , ' B(ω) ≤x = P({ω ∈ Ω : B(ω) ≤ (n − p)x2 }). P ω∈Ω: √ n−p Durch Differentiation nach x erhalten wir die Verteilung von einer Lebesgue-Dichte f √√B : R → R+ : n−p
√ √ B n−p
in Form
17.3 Normalverteilte Fehler
√
B(ω) √ n−p
ω∈Ω:
dP
521
≤x (x) = fχ2 ((n − p)x2 )2(n − p)x = f √√B (x)
dx
n−p
f¨ ur alle x ∈ R. Nun betrachten wir die Lebesgue-Dichte f A des Quotienten zweier unabh¨angiB ger Zufallsvariablen A, B : Ω → R mit B > 0 (P)-fast sicher und mit Lebesgue-Dichten fA , fB : A(ω) P ω∈Ω: ≤z = P ({ω ∈ Ω : A(ω) ≤ zB(ω)}) B(ω) ∞ = P ({ω ∈ Ω : A(ω) ≤ zt}) fB (t)dt 0
∞ zt =
fA (y)dyfB (t)dt 0 −∞ ∞ z
fA (tx)tdxfB (t)dt
= 0 −∞ z ∞
fA (tx)tfB (t)dtdx.
= −∞ 0
Somit ist
∞ f A (x) =
fA (tx)tfB (t)dt
B
0
Setzen wir nun A = U und B = ∞ f √n−pU (x) = √ V
0
=
so erhalten wir:
(n−p)t2 2 2 (n − p) n−p 2 tn−p−1 exp − 2 1 t x √ exp − dt t n−p n−p−2 2 2π Γ 2 2 2 Γ
Γ
√ √ V , n−p
f¨ ur alle x ∈ R.
n−p+1
n−p ' 2
f¨ ur alle x ∈ R.
2
π(n − p)
x2 1+ n−p
− n−p+1 2
Quantile und Fraktile Ist X eine reellwertige Zufallsvariable mit Verteilungsfunktion F und α ∈ ]0, 1[, so heißt zα ∈ R ein α-Quantil, falls
522
17 Lineare statistische Modelle
F (zα ) = α. Besitzt X eine Lebesgue-Dichte f , so gilt folglich f¨ ur ein α-Quantil zα zα f (x)dx = α. −∞
Ein α-Fraktil ist definitionsgem¨ aß ein (1 − α)-Quantil. Ist X eine stetige reelle Zufallsvariable mit den Quantilen z α2 und z1− α2 , so gilt P(z α2 ≤ X ≤ z1− α2 ) = F (z1− α2 ) − F (z α2 ) = 1 − α und analog P(X ≤ z1−α ) = F (z1−α ) = 1 − α
P(X > zα ) = 1 − F (zα ) = 1 − α. (17.2) Ist X eine Zufallsvariable in einem zweiseitigen Alternativtestproblem, deren Verteilung man bei G¨ ultigkeit der Nullhypothese kennt (typischerweise die talt man daraus unmittelbar einen Test zum Signifioder χ2 -Verteilung), erh¨ kanzniveau α, indem man die Nullhypothese f¨ ur X > z1− α2 oder X < z α2 ablehnt. Analog geht man bei einseitigen Tests mit Hilfe der Gleichungen (17.2) vor. Auf diesem Prinzip beruhen eine Vielzahl von Tests, von denen wir nun zwei vorstellen. Wir werden f¨ ur diese Tests insbesondere die Quanur die wir folgende tile von t- bzw. χ2 -verteilten Zufallsvariablen ben¨otigen, f¨ Notationen verwenden: bzw.
tn,α : α-Quantil der t-Verteilung mit n Freiheitsgraden, χ2n,α : α-Quantil der χ2 -Verteilung mit n Freiheitsgraden. Eine Wertetabelle f¨ ur die Quantile der t-Verteilung bzw. der χ2 -Verteilung befindet sich in Anhang C in den Abschnitten C.2 bzw. C.3. Ein Test f¨ ur die Varianz Um einen Test f¨ ur die Hypothesen H0 : σ 2 ≤ σ02
und
H1 : σ 2 > σ02 ,
σ02 > 0,
mit einem festgelegten Testniveau α zu erhalten, verwendet man nahe liegender Weise die erwartungstreue Sch¨ atzfunktion S 2 : Ω → R+ ,
1 Y (ω) − X(X X)−1 X Y (ω)22 n−p 1 (Y (ω) − Xβ) P(Y (ω) − Xβ), = n−p
ω →
17.3 Normalverteilte Fehler
523
wobei P = (I − X(X X)−1 X ) die lineare Projektion auf Bild(X)⊥ darstellt. Da (Y − Xβ) N(0, σ 2 I)-normalverteilt ist, erhalten wir mit Lemma 17.7 die Verteilung von S 2 in Form einer Lebesgue-Dichte fS 2 : (n − p)x n−p 2 S (ω) ≤ Wθ ({ω ∈ Ω : S 2 (ω) ≤ x}) = Wθ ω∈Ω: σ2 σ2 f¨ ur alle x ∈ R+ und somit:
fS 2 (x) = fχ2
n−p n−p x σ2 σ2
f¨ ur alle x ∈ R,
wobei fχ2 die Lebesgue-Dichte einer χ2 -Verteilung mit (n−p) Freiheitsgraden darstellt. An Hand der expliziten Form ⎧ 0 f¨ ur alle x ≤ 0, ⎨ n−p n−p−2 (n−p)x 2 x 2 ) exp − fS 2 : R → R+ , x → ( n−p ( ) 2σ 2 ⎩ σ2 f¨ ur alle x > 0, n−p n−p 2
2
Γ(
2
)
erkennt man, dass PS 2 ,Wθ mit θ = σ 2 > 0 einen monotonen Dichtequotienten bez¨ uglich der Identit¨ at besitzt. Damit erhalten wir nach Theorem 16.10 einen (gleichm¨ aßig besten) so genannten χ2 -Test. Einseitiger χ2 -Test: Sei ein lineares Gaußmodell mit den Hypothesen H0 : σ 2 ≤ σ02
und
H1 : σ 2 > σ02
(σ02 > 0),
gegeben. Dann ist φ : Rn → {0, 1},
y →
1 f¨ ur alle y mit T (y) > χ2n−p,1−α , 0 f¨ ur alle y mit T (y) ≤ χ2n−p,1−α ,
ein gleichm¨ aßig bester Test. Dabei ist mit Y (ˆ ω ) = y¯: T : Rn → R+ ,
T (¯ y) =
n−p 2 1 S (ˆ ω ) = 2 ¯ y − X(X X)−1 X y¯22 . 2 σ0 σ0
Wir wollen den einseitigen χ2 -Test am folgenden Beispiel noch einmal erl¨autern. Beispiel 17.8. Ein empfindliches medizinisches Messger¨at hat bei Auslieferung einen Messfehler, der N(0, 0.1)-verteilt ist. Nach zwei Jahren soll durch Probemessungen u uft werden, ob die Genauigkeit noch vorhanden ist oder ¨berpr¨ sich verschlechtert hat. Daher wollen wir einen χ2 -Test H0 : σ 2 ≤ σ02
und
H1 : σ 2 > σ02
mit σ02 = 0.1
durchf¨ uhren. Wir testen das Messger¨ at unter stets gleichen Bedingungen, daher ist es plausibel, unser allgemeines lineares Gaußmodell
524
17 Lineare statistische Modelle
Y = Xβ + E durch die zus¨ atzlichen Annahmen X = (1, . . . , 1) ∈ Rn und β ∈ R zu vereinfachen. Dies bedeutet lediglich, dass die einzelnen Messungen Y1 , . . . , Yn den gleichen Erwartungswert β besitzen. Dadurch erh¨alt unsere Teststatistik die einfache Gestalt 1 y − X(X X)−1 X y¯22 T (¯ y ) = 2 ¯ σ0 2 n n 1 1 y¯i − = 2 y¯i σ0 i=1 n i=1 =
wobei wir mit y¯∅ :=
1 n
n
n 1 2 (¯ yi − y¯∅ ) , σ02 i=1
y¯i das Stichprobenmittel bezeichnet haben. Gehen
i=1
wir z.B. von n = 30 Messungen und einem Testniveau von α = 0.05 aus, so entnimmt man der Wertetabelle C.3 das (1 − α)-Quantil der χ2 -Verteilung mit 29 Freiheitsgraden χ229,0.95 ! 42.56. Nach dem χ2 -Test ist demnach die Nullhypothese abzulehnen (d.h. eine Verschlechterung der Messgenauigkeit festzustellen), falls f¨ ur die gemessene Realisierung y¯ der L¨ ange 30 gilt: T (¯ y ) · σ02 =
30
(¯ yi − y¯∅ )2 > σ02 · χ229,0.95 ! 0.1 · 42.56 = 4.256
i=1
♦ Ein Test f¨ ur βi F¨ ur einen Test der Form H0 : βi = 0
und
H1 : βi = 0,
i ∈ {1, . . . , p}
ben¨ otigt man einerseits eine Teststatistik, welche die Gr¨oße βi geeignet reultigpr¨ asentiert (etwa ((X X)−1 X Y )i ), deren Verteilung andererseits bei G¨ keit der Nullhypothese bekannt, also insbesondere unabh¨angig von σ 2 sein muss. Bezeichnet ci,i das i-te Diagonalelement von (X X)−1 , so ist ((X X)−1 X Y (ω))i ' ci,i σ 2 zwar standardisiert, aber als Teststatistik immer noch von σ 2 abh¨angig. Daher teilt man diesen Term noch einmal durch den bereits bekannten Sch¨atzer f¨ ur σ 2 , der wiederum standardisiert wird und kommt so zur Sch¨atzfunktion
17.3 Normalverteilte Fehler
R : Ω → R,
ω → 3
((X X)−1 X Y (ω))i √ ci,i σ 2 1 (n−p)σ 2 Y
(ω) PY (ω)
=
525
√ ((X X)−1 X Y (ω))i n − p ' . ci,i Y (ω) PY (ω)
Offensichtlich ist die Zufallsvariable ((X X)−1 X Y )i ' ci,i σ 2 N(0, 1)-verteilt, falls die Nullhypothese g¨ ultig ist. K¨onnte man noch beweisen, dass die Zufallsvariablen $ 1 ((X X)−1 X Y )i ' und Y PY (n − p)σ 2 ci,i σ 2 unabh¨ angig sind, so w¨ are die Verteilung von R dank Lemma 17.7 bei G¨ ultigkeit der Nullhypothese als t-Verteilung mit (n − p) Freiheitsgraden bekannt. Eine Realisierung von R ist durch eine Realisierung y¯ = Y (ˆ ω ) verm¨oge
R(ˆ ω) = 3
((X X)−1 X Y (ˆ ω ))i √ ci,i σ 2 1 (n−p)σ 2 Y
(ˆ ω ) PY (ˆ ω)
=
√ ((X X)−1 X y¯)i n − p ' = T˜(¯ y) ci,i y¯ P¯ y
f¨ ur eine entsprechende Abbildung T˜ : Rn → R gegeben. Betrachten wir nun die Zufallsvariable (X X)−1 X p+n , ω → Y (ω), K:Ω→R I − X(X X)−1 X = >? @ ∈R(p+n),n
so ergibt sich: Cov
(β,σ 2 )
(K) = σ
2
0 (X X)−1 0 (I − X(X X)−1 X )
.
Somit sind wegen der Normalverteilung von Y die Zufallsvariablen (X X)−1 X Y
und
(I − X(X X)−1 X )Y
unabh¨ angig und damit auch die Zufallsvariablen $ ((X X)−1 X Y )i 1
' und Y =P>? P@ Y . (n − p)σ 2 ci,i σ 2 =P
Zusammenfassend erhalten wir einen so genannten t-Test.
526
17 Lineare statistische Modelle
Zweiseitiger t-Test: Sei ein lineares Gaußmodell mit den Hypothesen H0 : βi = 0
H1 : βi = 0,
und
i ∈ {1, . . . , p},
gegeben. Dann ist φ : Rn → {0, 1},
y →
1 f¨ ur alle y mit |T˜(y)| > tn−p,1− α2 , 0 f¨ ur alle y mit |T˜(y)| ≤ tn−p,1− α2 ,
ein geeigneter Test. Dabei ist mit Y (ˆ ω ) = y¯: T˜ : Rn → R+ ,
√ ((X X)−1 X y¯)i n − p ' , T˜(¯ y ) = R(ˆ ω) = ci,i y¯ P¯ y
cii das i-te Diagonalelement von (X X)−1 und P = (I − X(X X)−1 X ). Wir wollen auch diesen t-Test an einem Beispiel erl¨autern. Dazu betrachten wir eine typische Situation, in der ein linearer Zusammenhang zwischen zwei Gr¨ oßen vermutet wird. Beispiel 17.9. Zwischen dem relativen Gewicht und dem Blutdruck wird ein linearer Zusammenhang vermutet: a, b ∈ R,
y = bx + a,
wobei x das relative Gewicht und y den Blutdruck darstellt. Auf der Basis einer Stichprobe (x1 , y1 ), . . . , (xn , yn ) wollen wir die Frage kl¨ aren, ob die Steigung b ungleich Null ist. Dazu betrachten wir das lineare Gaußmodell Y = Xβ + E mit der Designmatrix
⎛
1 ⎜ .. X=⎝.
⎞ x1 .. ⎟ . ⎠
1 xn sowie β = (a, b) . Als Hypothesen erhalten wir entsprechend H0 : b = β2 = 0,
H1 : b = β2 = 0.
Um die Teststatistik T˜ auszuwerten, berechnen wir ((X X)−1 X y)2 = sowie
x, y − nx∅ y∅ x, x − nx2∅
17.3 Normalverteilte Fehler
y, y − ny∅ c22 y Py = − x, x − nx2∅
wobei wir mit x∅ =
1 n
n
x, y − nx∅ y∅ x, x − nx2∅
527
2 ,
xi bzw. y∅ wieder das Stichprobenmittel bezeichnet
i=1
haben. Damit erhalten wir als Teststatistik T˜(y) = #
x,y−nx∅ y∅ x,x−nx2∅ y,y−ny∅ x,x−nx2∅
−
·
√ n−2
x,y−nx∅ y∅ x,x−nx2∅
2 .
Betrachten wir z.B. die konkrete Stichprobe mit n = 10 (80, 112), (90, 111), (104, 116), (110, 141), (116, 134), (141, 144), (168, 149), (170, 159), (160, 139), (183, 164), so folgt f¨ ur den Wert der Teststatistik T˜(y) = 6.47. Legen wir das Signifikanzniveau α = 5% fest, so ergibt sich aus t8,0.975 = 2.306 (Tabelle C.2), dass wir wegen T˜(y) = 6.47 > 2.306 = t8,0.975 die Nullhypothese zum Signifikanzniveau 5% ablehnen m¨ ussen.
♦
Ein anderes, historisch bekanntes Beispiel f¨ ur die Anwendung eines solchen t-Tests sind die Longley-Daten. Beispiel 17.10 (Longley-Daten). J. W. Longley hat im Jahr 1967 die folgenden volkswirtschaftlichen Daten der USA aus dem Zeitraum von 1947 bis 1962 ver¨ offentlicht: y:
Erwerbst¨ atigkeit in 1000
x1 : x2 :
Preisdeflator (1954 entspricht 100) Bruttosozialprodukt in Mio.
x3 : x4 : x5 :
Arbeitslosigkeit in 1000 Truppenst¨ arke in 1000 Bev¨ olkerung u uler und Studenten) in 1000 ¨ber 14 Jahre (ohne Sch¨
x6 :
Jahr
mit den numerischen Werten
528
17 Lineare statistische Modelle
y 60323 61122 60171 61187 63221 63639 64989 63761 66019 67857 68169 66513 68655 69564 69331 70551
x1 83.0 88.5 88.2 89.5 96.2 98.1 99.0 100.0 101.2 104.6 108.4 110.8 112.6 114.2 115.7 116.9
x2 234289 259426 258054 284599 328975 346999 365385 363112 397469 419180 442769 444546 482704 502601 518173 554894
x3 2356 2325 3682 3351 2099 1932 1870 3578 2904 2822 2936 4681 3813 3931 4806 4007
x4 1590 1456 1616 1650 3099 3594 3547 3350 3048 2857 2789 2637 2552 2514 2572 2827
x5 107608 108632 109773 110929 112075 113270 115094 116219 117388 118734 120445 121950 123366 125368 127852 130081
x6 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962
.
Verwendet man das lineare Regressionsmodell Y = Xβ + E mit
⎛
1 83.0 ⎜ 1 88.5 ⎜ ⎜ 1 88.2 ⎜ ⎜ 1 89.5 ⎜ ⎜ 1 96.2 ⎜ ⎜ 1 98.1 ⎜ ⎜ 1 99.0 ⎜ ⎜ 1 100.0 X=⎜ ⎜ 1 101.2 ⎜ ⎜ 1 104.6 ⎜ ⎜ 1 108.4 ⎜ ⎜ 1 110.8 ⎜ ⎜ 1 112.6 ⎜ ⎜ 1 114.2 ⎜ ⎝ 1 115.7 1 116.9
234289 259426 258054 284599 328975 346999 365385 363112 397469 419180 442769 444546 482704 502601 518173 554894
2356 2325 3682 3351 2099 1932 1870 3578 2904 2822 2936 4681 3813 3931 4806 4007
1590 1456 1616 1650 3099 3594 3547 3350 3048 2857 2789 2637 2552 2514 2572 2827
107608 108632 109773 110929 112075 113270 115094 116219 117388 118734 120445 121950 123366 125368 127852 130081
⎞ 1947 1948 ⎟ ⎟ 1949 ⎟ ⎟ 1950 ⎟ ⎟ 1951 ⎟ ⎟ 1952 ⎟ ⎟ 1953 ⎟ ⎟ 1954 ⎟ ⎟, 1955 ⎟ ⎟ 1956 ⎟ ⎟ 1957 ⎟ ⎟ 1958 ⎟ ⎟ 1959 ⎟ ⎟ 1960 ⎟ ⎟ 1961 ⎠ 1962
mit normalverteilten Fehlern und mit y als Realisierung von Y , so zeigt sich, ¨ ¨ dass kleine Anderungen in y zu großen Anderungen im Sch¨atzer (X X)−1 X y f¨ ur β f¨ uhren (schlechte Kondition), da die Spalten von X stark korreliert sind. Es liegt also nahe, u ¨ber einen t−Test geeignete Regressoren (also Spalten von X) aus dem linearen Modell zu eliminieren. Betrachtet man den t-Test f¨ ur das Modell mit den Regressoren const., x1 , x2 , x3 , x4 , x5 , x6
17.3 Normalverteilte Fehler
529
f¨ ur jedes βi derart, dass das gr¨ oßte Signifikanzniveau berechnet wird, so dass die Hypothese H0 : βi = 0 nicht abgelehnt werden kann, so ergibt sich f¨ ur i = 1 das maximale Signifikanzniveau α = 0.86. Dies ist der gr¨ oßte Wert unter allen Regressoren im Modell. Somit ist die Spalte x1 aus der Matrix X zu eliminieren, und man untersucht das Modell mit den Regressoren const., x2 , x3 , x4 , x5 , x6 . Die analoge Vorgehensweise ergibt f¨ ur i = 5 das maximale Signifikanzniveau α = 0.36. Folglich ist die Spalte x5 zu eliminieren, und man untersucht das Modell mit den Regressoren const., x2 , x3 , x4 , x6 . Da jetzt kein Regressor mit einem Signifikanzniveau gr¨oßer als 0.03 eliminiert werden kann, erh¨ alt man schließlich das Modell mit den Regressoren const., x2 , x3 , x4 , x6 und der Designmatrix ⎛
1 234289 ⎜ 1 259426 ⎜ ⎜ 1 258054 ⎜ ⎜ 1 284599 ⎜ ⎜ 1 328975 ⎜ ⎜ 1 346999 ⎜ ⎜ 1 365385 ⎜ ⎜ 1 363112 ˜ X=⎜ ⎜ 1 397469 ⎜ ⎜ 1 419180 ⎜ ⎜ 1 442769 ⎜ ⎜ 1 444546 ⎜ ⎜ 1 482704 ⎜ ⎜ 1 502601 ⎜ ⎝ 1 518173 1 554894
2356 2325 3682 3351 2099 1932 1870 3578 2904 2822 2936 4681 3813 3931 4806 4007
1590 1456 1616 1650 3099 3594 3547 3350 3048 2857 2789 2637 2552 2514 2572 2827
⎞ 1947 1948 ⎟ ⎟ 1949 ⎟ ⎟ 1950 ⎟ ⎟ 1951 ⎟ ⎟ 1952 ⎟ ⎟ 1953 ⎟ ⎟ 1954 ⎟ ⎟. 1955 ⎟ ⎟ 1956 ⎟ ⎟ 1957 ⎟ ⎟ 1958 ⎟ ⎟ 1959 ⎟ ⎟ 1960 ⎟ ⎟ 1961 ⎠ 1962
Das entsprechende Sch¨ atzproblem ist nun gut konditioniert. F -Verteilung Gelegentlich werden in der Praxis auch Hypothesen der Form H0 : Aβ = 0
und
H1 : Aβ = 0
♦
530
17 Lineare statistische Modelle
mit A ∈ Rq,p , q < p und Rang(A) = q betrachtet. Tests dieser Art f¨ uhren auf F -verteilte Teststatistiken mit den Freiheitsgraden (p − q) und (n − p) und der Lebesgue-Dichte ⎧ 0 f¨ ur alle x ≤ 0, ⎨ p−q−2 2 2 R → R+ , x → Γ ( n−q )(p−q) x 2 ur alle x > 0. ⎩ p−q n−p n−q f¨ p−q Γ(
2
)Γ (
2
)(n−p)2 (1+ n−p x)
2
Diese F -Verteilung resultiert aus unabh¨ angigen, χ2 -verteilten Zufallsvariablen X und Y mit den Freiheitsgraden (p − q) bzw. (n − p) und ist die Verteilung der Zufallsvariablen (n−p)X (p−q)Y .
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler Das Funktionsprinzip eines Recovery Boilers In der Papier- und Zellstoffindustrie werden zum Aufschluss von Zellstoff verschiedene Chemikalien sowie W¨ arme- und Elektroenergie ben¨otigt. Aus der eingedickten Prozessablauge (Schwarzlauge, Black Liquor ) lassen sich mit Hilfe eines Recovery Boilers die verwendeten Chemikalien und W¨armeenergie zur¨ uckgewinnen. Der Grad der Chemikalienr¨ uckgewinnung ist von entscheidender Bedeutung f¨ ur die Wirtschaftlichkeit der Gesamtanlage. Der Black Liquor wird im Schmelzbett (Char Bed) verbrannt. Dabei bildet sich eine Alkalischmelze, die abfließt und aus deren Bestandteilen in weiteren Verfahrensschritten die eingesetzten Chemikalien zur¨ uckgewonnen werden. Die frei werdende Verbrennungsw¨ arme wird zur Erzeugung von Wasserdampf genutzt. Die Verbrennung der Ablauge und damit die Chemikalienr¨ uckgewinnung beginnt mit der Zerst¨ aubung der Schwarzlauge in die Brennkammer (Liquor Guns). Hierbei wird die Ablauge recht grob zerst¨aubt, und die entstehenden Tropfen werden bei ihrem Fall durch das heiße Rauchgas getrocknet. Die getrockneten Laugenpartikel fallen auf das Schmelzbett, in dem eine erste Verbrennung und chemische Reduktion stattfindet. Fl¨ uchtige Bestandteile und Reaktionsprodukte gelangen in eine Oxidationszone, in der oxidierende Reaktionen ablaufen und in der die Verbrennung abgeschlossen wird. Wichtige Zielvorgaben f¨ ur die Steuerung des Recovery Boilers sind unter anderem die Dampfproduktion zur Energiegewinnung, die Einhaltung von Emissionswerten unter Umweltgesichtspunkten und die Effizienz der chemischen Reduktion. Der Verbrennungsvorgang und damit die Zielvorgaben k¨onnen unter anderem durch die Luftzufuhr in drei Ebenen (Primary Air (PA), Secondary Air (SA), Tertiary Air (TA)) gesteuert werden.
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler
531
Abbildung 17.1. Schematische Darstellung eines Recovery Boilers
Eingangs-, Ausgangs- und Stellgr¨ oßen Die gemessenen Gr¨ oßen des Gesamtprozesses werden in nat¨ urlicher Weise in Eingangsgr¨ oßen (Prozess-Inputs) und Ausgangsgr¨ oßen (Prozess-Outputs) unterteilt. Jede Minute werden Messwerte abgespeichert. Tabelle 17.1 zeigt eine ¨ Ubersicht der Eingangsgr¨ oßen. Vier der Eingangsgr¨ oßen kommen auch als Stellgr¨ oßen (einstellbare Parameter, manipulated variables, Tabelle 17.2) vor. Die Stellgr¨oßen sind im Wesentlichen als unabh¨ angig voneinander einstellbare freie Parameter des Gesamtprozesses anzusehen. Die obigen vier Gr¨ oßen sind in zweifacher Weise in den Datens¨atzen abgelegt: zum einen als Stellgr¨ oßen (mit dem gew¨ unschten Wert) und zum anderen als Eingangsgr¨ oßen (mit dem gemessenen Wert). Als wichtige Ausgangsgr¨ oßen (Tabelle 17.3) gelten Steam Production, O2 , SO2 , Bed Temperature und Reduction Efficiency. Ziele und Vorgehensweise Auf Grund der Komplexit¨ at der chemischen Vorg¨ange steht f¨ ur die mathematische Beschreibung des Recovery Boilers kein naturwissenschaftliches Modell zur Verf¨ ugung. Daher greift man auf ph¨ anomenologische (datengetriebene) Modelle zur¨ uck. Zudem treten nicht modellierbare, parasit¨are Effekte (z.B.
532
17 Lineare statistische Modelle
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Eingangsgr¨ oßen Messgr¨ oße Beschreibung FI 7081 BL Flow QI 7082 A Dry Solids Content FIC 7280 X PA Primary Air FIC 7281 X SA Secondary Air FIC 7282 X TA Tertiary Air PI 7283 PA Pressure PI 7284 SA Pressure PHI 7285 TA Pressure TIC 7288 X PA Temperature TIC 7289 X SA Temperature PIC 7305 X Press Induced Draft HO 7338 Oil Valve TI 7347 BL Temperature PIC 7349 X BL Front Pressure
Tabelle 17.1. Eingangsgr¨ oßen
1 2 3 4
Stellgr¨ oßen Messgr¨ oße Beschreibung FIC 7280 X PA Primary Air FIC 7281 X SA Secondary Air FIC 7282 X TA Tertiary Air PIC 7349 X BL Front Pressure Tabelle 17.2. Stellgr¨ oßen
Turbulenzen, wechselnde Stoffzusammensetzungen, etc.) auf, die zu Schwankungen in den entsprechenden Messungen f¨ uhren. Auf der anderen Seite stehen eine große Zahl von Messungen zur Verf¨ ugung; daher k¨onnen die parasit¨ aren Effekte durch geeignete Datenreduktion eliminiert werden. Basis der ¨ folgenden Uberlegungen ist der bereits reduzierte Datensatz. Da die gegebene Problemstellung darin besteht, gewisse Zielvorgaben zu erf¨ ullen, bietet es sich an, ein stochastisches Modell zur Darstellung der Messgr¨ oßen in Abh¨ angigkeit von den einstellbaren Parametern zu verwenden. Bei den Zielvorgaben handelt es sich um physikalisch-technische bzw. betriebswirtschaftliche Optimalit¨ atskriterien (z.B. minimale Abweichungen von gegebenen Referenzpunkten), die in der Regel Rand- und Sicherheitsbedingungen erf¨ ullen m¨ ussen. H¨ aufig m¨ ussen mehrere dieser Kriterien simultan betrachtet werden. Die Verwendung eines stochastischen Modells kann insbesondere dazu verwendet werden, die zu optimierenden Zielgr¨oßen und ihre Abh¨angigkeit von den einzustellenden Parametern an einem Computer zu simulieren. Von zentraler Bedeutung ist es daher, die (erwarteten) Werte der Ausgangsgr¨oßen
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
533
Ausgangsgr¨ oßen Messgr¨ oße Beschreibung TIC 7249 X Steam Temperature FI 7250 Steam Production QI 7322 O2 TI 7323 Smoke Temperature QI 7331 H2 S QI 7332 SO2 QIC 7333 X CO QIC 7370 X Spec.Weight of Green Liquor QI 7531 NO IBM 8096 Reduction Efficiency IBM 8109 PH Value TI 7352 Bed Temperature IBM 8015 N aOH IBM 8016 N a2 S IBM 8017 N a2 CO3 Tabelle 17.3. Ausgangsgr¨ oßen
als Funktion der einstellbaren Parameter beschreiben zu k¨onnen. Um dies zu erreichen, besteht unser weiteres Vorgehen aus den folgenden drei Schritten: •
Wir entwickeln ein stochastisches Modell, das die Abh¨angigkeit der Eingangs- und Ausgangsgr¨ oßen von den Stellgr¨oßen und zuf¨alligen Effekten modelliert. • Wir beschreiben ein lineares Regressionsmodell, um die zugeh¨origen Datens¨ atze ph¨ anomenologisch zu analysieren. • Wir entnehmen dem linearen Regressionsmodell die gesuchten Erwartungswerte f¨ ur die Messgr¨ oßen in Abh¨ angigkeit der Stellgr¨oßen. Wir beginnen nun damit, ein stochastisches Modell f¨ ur die Messdaten zu entwickeln. Eine stochastische Beschreibung der Messdaten Die a Eingangsgr¨ oßen (a ∈ N) sind von den n Stellgr¨oßen (n ∈ N) und von Zufallseffekten abh¨ angig. Daher k¨ onnen sie wie folgt beschrieben werden: Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und sei B ν die Borelsche σ-Algebra u ur jedes ν ∈ N. Die Eingangsgr¨ oßen werden u ¨ber Rν f¨ ¨ber eine B n × S-B a messbare Abbildung ϕ dargestellt: ϕ : Rn × Ω → Ra .
Beim Recovery Boiler gibt es n = 4 Stellgr¨ oßen und a = 14 Eingangsgr¨oßen. Das Prozessmodell M des Recovery Boilers wird als Funktion in Abh¨angigkeit
534
17 Lineare statistische Modelle
von den Eingangsgr¨ oßen und weiteren Zufallseffekten beschrieben. Dabei sei (Ω, F, P) der obige Wahrscheinlichkeitsraum. Das Prozessmodell M ist dann eine B a × S-B b -messbare Abbildung: M : Ra × Ω → Rb . Die Ausgangsgr¨ oßen lassen sich damit durch B n ×S-B b -messbare Abbildungen ψ darstellen: ψ : Rn × Ω → Rb , (x, ω) → M (ϕ(x, ω), ω) . Beim Recovery Boiler gibt es b = 15 Ausgangsgr¨oßen. Die Tatsache, dass in der Definition von ψ zwischen den verwendeten ω’s nicht unterschieden wird, bedeutet keine Einschr¨ ankung, da Ω etwa als kartesisches Produkt aus einem Ω1 und Ω2 dargestellt werden kann. Die obige Darstellung beinhaltet somit auch das folgende Modell: ψ : Rn × Ω1 × Ω2 → Rb , (x, ω1 , ω2 ) → M (ϕ(x, ω1 ), ω2 ) . Mit diesen Beschreibungen kann man nun Eingangs- und Ausgangsgr¨oßen gemeinsam zu Messgr¨ oßen Φ zusammenfassen. Φ ist eine B n ×S-B m -messbare Abbildung mit m = a + b und Φ : Rn × Ω → Rm , ϕ(x, ω) (x, ω) → . ψ(x, ω) F¨ ur jedes gew¨ ahlte Stellgr¨ oßentupel xj ∈ Rn wird beim Recovery Boiler durch ˆ j ) ermittelt. F¨ ur die nachfolgende Messung eine Realisierung Φj = Φ(xj , ω lineare Regression stehen uns also Datens¨ atze der Gestalt (x1 , Φ1 ), . . . , (xu , Φu ),
u ∈ N,
zur Verf¨ ugung. Das lineare Regressionsmodell F¨ ur jede Messgr¨oße Φ(i) (i = 1, . . . , m) wird ein lineares Regressionsmodell in Abh¨ angigkeit von der quadratischen Kombination der vier Einstellparameter berechnet. In der folgenden Darstellung ist x ∈ R4 , wobei die Komponenten von x den vier Stellgr¨ oßen entsprechen: x(1) : Primary Air, x(2) : Secondary Air, x(3) : Tertiary Air, x(4) : Black Liquor Front Pressure.
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler
535
Jede Messgr¨ oße Φ(i) wird nun durch Φ(i) (x, ω) = r(x) ai + ei (ω) mit ai ∈ R15 modelliert. Dabei ist r : R4 → R15 , (ζ1 , ζ2 , ζ3 , ζ4 ) → 1, ζ1 , ζ2 , ζ3 , ζ4 , ζ12 , ζ22 , ζ32 , ζ42 , ζ1 ζ2 , ζ1 ζ3 , ζ1 ζ4 , ζ2 ζ3 , ζ2 ζ4 , ζ3 ζ4 , d.h. Polynome zweiten Grades werden an die Messdaten angepasst, und ei : Ω → R ist eine Zufallsvariable mit Erwartungswert 0. Sind nun Realisierungen, d.h. Messungen von Φ(i) zu den Stellgr¨oßentupeln uhrt worden, so f¨ uhrt dies zu folgendem linearen x1 , . . . , xu , u ∈ N, durchgef¨ Regressionsmodell: ⎛ ⎞ ⎛ ⎞ (i) r(x1 ) Φ1 ⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟ = ⎝ . ⎠ · ai + Eu , . ⎝ . ⎠ (i) r(xu ) Φu wobei Eu eine u-dimensionale, zentrierte Zufallsvariable mit diagonaler Kovarianzmatrix ist. Ein Modell f¨ ur den Erwartungswert der Messgr¨ oßen Der Vektor ai wird mit der Methode der Kleinste-Quadrate-Sch¨atzung bestimmt, wie wir sie in Abschnitt 17.2 beschrieben haben. Sei a ˆi der nach Satz osung des Minimierungsproblems 17.4 bestimmte Sch¨ atzwert f¨ ur ai , d.h. L¨ ⎧⎛ 2 ⎫ ⎞ ⎛ ⎞ (i) ⎪
⎪ Φ ) r(x ⎪ ⎪ 1 1 ⎨⎜ ⎬ ⎟ ⎜ .. ⎟ . ⎜ ⎟ . min15 ⎝ . ⎠ − ⎝ . ⎠ · ai ⎪. ai ∈R ⎪ ⎪ ⎪ ⎩ r(xu ) Φ(i) ⎭ u
2
˜(i) des ErwartungswerAus dem linearen Modell ergibt sich dann als Modell Φ (i) tes der Messgr¨ oße Φ : Φ˜(i) : Rn → R, x → r(x) a ˆi . Insbesondere l¨ asst sich der Gradient ∇Φ˜(i) analytisch angeben: dr (x) · a ˆi f¨ ur alle x ∈ Rn . dx Damit haben wir unser eingangs beschriebenes Ziel erreicht. Zu jedem Stellgr¨ oßentupel x k¨ onnen wir f¨ ur jede Messgr¨ oße den Erwartungswert Φ˜(i) angeben. ∇Φ˜(i) (x) =
536
17 Lineare statistische Modelle
Validierung Es stellt sich die Frage, ob unser Regressionsansatz, also die Anpassung der Messdaten durch Polynome h¨ ochstens zweiter Ordnung, gerechtfertigt ist. Dazu seien ⎞ ⎛ r(x1 ) u 1 (i) ⎜ .. ⎟ y¯i := Φ ∈ R. yˆi := ⎝ . ⎠ · a ˆi , u j=1 j r(xu ) Zur Validierung des Regressionsansatzes wird das Bestimmtheitsmaß Ri2 berechnet: yi2 yˆi yˆi − u¯ . Ri2 := (i) Φ Φ(i) − u¯ yi2 Je n¨ aher Ri2 bei 1 liegt, desto besser wird die abh¨angige Variable durch die unabh¨ angigen Variablen erkl¨ art (0 ≤ Ri2 ≤ 1). Ergebnisse der Regression an zwei Beispielen Der obige Regressionsansatz ist bei einem Recovery Boiler f¨ ur alle Messgr¨oßen durchgef¨ uhrt worden. Wir wollen die Ergebnisse der linearen Regression f¨ ur zwei Messgr¨ oßen, der Steam Temperature (ST) und dem Sauerstoff (O2 ), bei(i) spielhaft angeben. Zus¨ atzlich wird das Maximum Emax des Absolutwertes der Abweichung der Daten vom Modell angegeben, d.h. 5 4 (i) (j) (i) Emax := max Φj − yˆi . j=1,...,u
Die Grafiken in Abbildung 17.2 und 17.3 zeigen f¨ ur jeweils u = 205 Messungen die Abweichung der Daten vom Modell aufsteigend angeordnet. Darin enthal(i) (i) ten sind auch die Werte E90%max und E80%max , unter dem mindestens 90% bzw. 80% der Absolutwerte der Abweichungen der Daten vom Modell liegen.
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler
537
Erwartungswertmodell f¨ ur Steam Produktion (ST) ⎞ ⎛ ⎞ −0.015704 1 ⎜ +56.429151 ⎟ ⎜ ζ1 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −29.415827 ⎟ ⎜ ζ2 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −44.803250 ⎟ ⎜ ζ3 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −37.851503 ⎟ ⎜ ζ4 ⎟ ⎟ ⎜ 2 ⎟ ⎜ ⎜ −0.202731 ⎟ ⎜ ζ1 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −0.211298 ⎟ ⎜ ζ22 ⎟ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ 2 ⎟ Φ˜ST (ζ) = ⎜ ⎜ +0.151578 ⎟ · ⎜ ζ32 ⎟ ⎜+288.124736⎟ ⎜ ζ4 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ +0.358929 ⎟ ⎜ζ1 ζ2 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −0.147514 ⎟ ⎜ζ1 ζ3 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −46.824108 ⎟ ⎜ζ1 ζ4 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ +0.213022 ⎟ ⎜ζ2 ζ3 ⎟ ⎟ ⎜ ⎟ ⎜ ⎝ +28.336969 ⎠ ⎝ζ2 ζ4 ⎠ +28.842892 ζ3 ζ4 = >? @ ⎛
a ˆST ST Emax
= 21.11
ST E90%max
= 14.15
ST E80%max = 11.77
2 RST = 0.97
Regression Model for Steam Temperature
Absolute error between regression function and data
25
20
15
90% below 14.155 80% below 11.7726
10
5
0
0
50
100 150 Intervalls sorted by error increase
200
250
Abbildung 17.2. Absolute Abweichungen Steam Temperature
2 Der Wert RST = 0.97 liegt nahe bei 1, so dass f¨ ur diese Messgr¨oße von einer guten Beschreibung durch das lineare Regressionsmodell ausgegangen werden kann.
538
17 Lineare statistische Modelle
Erwartungswertmodell f¨ ur Sauerstoff (O2 ) ⎞ ⎛ ⎞ +0.000276 1 ⎜ +0.293806 ⎟ ⎜ ζ1 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ +1.435007 ⎟ ⎜ ζ2 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ −1.584673 ⎟ ⎜ ζ3 ⎟ ⎟ ⎜ ⎜ ⎟ ⎜−63.098567⎟ ⎜ ζ4 ⎟ ⎟ ⎜ 2 ⎟ ⎜ ⎜ −0.008425 ⎟ ⎜ ζ1 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ −0.021968 ⎟ ⎜ ζ22 ⎟ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ 2 ⎟ Φ˜O2 (ζ) = ⎜ ⎜ +0.005403 ⎟ · ⎜ ζ32 ⎟ ⎜+11.462043⎟ ⎜ ζ4 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ +0.012307 ⎟ ⎜ζ1 ζ2 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ −0.007331 ⎟ ⎜ζ1 ζ3 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ −0.051823 ⎟ ⎜ζ1 ζ4 ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ +0.007000 ⎟ ⎜ζ2 ζ3 ⎟ ⎟ ⎜ ⎟ ⎜ ⎝ +0.386993 ⎠ ⎝ζ2 ζ4 ⎠ +1.259304 ζ3 ζ4 = >? @ ⎛
a ˆO2 O2 Emax = 1.32
O2 E90%max = 0.79
O2 E80%max = 0.59
2 RO = 0.69 2
Regression Model for O
2
1.4
Absolute error between regression function and data
1.2
1
90% below 0.7859
0.8
80% below 0.58747
0.6
0.4
0.2
0
0
50
100 150 Intervalls sorted by error increase
200
250
Abbildung 17.3. Absolute Abweichungen f¨ ur O2
2 Der Wert RO = 0.69 l¨ asst auf eine etwas schlechtere Beschreibung durch das 2 Regressionsmodell als etwa bei der Steam Temperature schließen.
17.4 Anwendung Verfahrenstechnik: Datenanalyse bei einem Recovery Boiler
539
Mit den ermittelten Erwartungswertmodellen Φ˜(i) aller Messgr¨oßen kann das Verhalten des Recovery Boilers nun als Computermodell simuliert werden. Anschließend wird man versuchen, die Anlagensteuerung zun¨achst im Modell und dann in der Praxis so zu regeln, dass sowohl die physikalisch-technischen als auch die betriebswirtschaftlichen Zielvorgaben m¨oglichst optimal erreicht werden.
Teil V
Anhang
A Existenzaussagen
A.1 Das Lebesgue-Maß Ziel dieses Abschnitts ist der Beweis des Theorems 1.40. Wir zeigen die Existenz des Lebesgue-Maßes sowie seine Bewegungsinvarianz (Satz 1.41). Die Grundidee des Beweisverfahrens von Carath´eodory besteht darin, zun¨achst ein ¨ außeres Maß, eine Abschw¨ achung des Maßbegriffs, auf der Potenzmenge zu definieren. Die Einschr¨ ankung des ¨ außeren Maßes auf eine geeignete σ-Algebra liefert dann das gesuchte Maß. ¨ Außere Maße Definition A.1 (¨ außeres Maß, µ∗ -messbar). Eine Funktion µ∗ : ¯ P(Ω) → R heißt ¨ außeres Maß auf P(Ω), falls die folgenden Bedingungen erf¨ ullt sind: ¨ (A1) µ∗ (∅) = 0. ¨ (A2) Monotonie: F¨ ur A, B ∈ P(Ω), A ⊆ B, folgt µ∗ (A) ≤ µ∗ (B). ¨ (A3) Sub-σ-Additivit¨ at: F¨ ur jede Folge (An ) von Mengen aus P(Ω) gilt ∞ ∞ ∗ µ An ≤ µ∗ (An ). n=1
n=1
Eine Menge A ∈ P(Ω) heißt µ∗ -messbar, falls f¨ ur alle B ∈ P(Ω) gilt: µ∗ (B) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ Ac ).
(A.1)
Aus der Sub-σ-Additivit¨ at eines ¨ außeren Maßes µ∗ folgt insbesondere die endliche Subadditivit¨ at. Daher gilt f¨ ur jede µ∗ -messbare Menge A und alle B ⊂ Ω ∗ ∗ die Ungleichung µ (B) ≤ µ (B ∩ A) + µ∗ (B ∩ Ac ). Zusammen mit (A.1) ergibt sich
544
A Existenzaussagen
µ∗ (B) = µ∗ (B ∩ A) + µ∗ (B ∩ Ac ).
(A.2)
Offensichtlich folgt aus (A.2) auch (A.1), so dass (A.2) eine alternative, besonders einpr¨ agsame Definition der µ∗ -Messbarkeit darstellt: Eine Menge A ist genau dann µ∗ -messbar, wenn sie jede Teilmenge B ⊂ Ω in disjunkte Mengen B ∩ A und B ∩ Ac zerlegt, auf denen µ∗ additiv ist. Die zentrale Eigenschaft ¨ außerer Maße zeigt sich im folgenden Resultat: ¯ ein ¨ außeres Maß. Dann ist Satz A.2. Es sei µ∗ : P(Ω) → R A∗µ := {A ⊂ Ω : A µ∗ -messbar} eine σ-Algebra und µ∗ |A∗µ ein Maß. Beweis. Offensichtlich ist Ω ∈ A∗µ . Da (A.1) in A und Ac symmetrisch ist, ist mit A auch das Komplement Ac µ∗ -messbar. Den weiteren Beweis teilen wir in zwei Schritte auf: uber endlichen Vereinigungen. Sind Schritt 1: A∗µ ist abgeschlossen gegen¨ ur alle B ⊂ Ω durch Anwenden der µ∗ A1 , A2 ∈ A∗µ , so erhalten wir f¨ Messbarkeitsbedingung von A2 auf die Menge B ∩ Ac1 : µ∗ (B) ≥ µ∗ (B ∩ A1 ) + µ∗ (B ∩ Ac1 ) ≥ µ∗ (B ∩ A1 ) + µ∗ (B ∩ Ac1 ∩ A2 ) + µ∗ (B ∩ Ac1 ∩ Ac2 ) ≥ µ∗ ((B ∩ A1 ) ∪ (B ∩ Ac1 ∩ A2 )) + µ∗ (B ∩ Ac1 ∩ Ac2 ) = µ∗ (B ∩ (A1 ∪ A2 )) + µ∗ (B ∩ (A1 ∪ A2 )c ), wobei wir im vorletzten Schritt die Subadditivit¨at von µ∗ ausgenutzt haben. uber endlichen Vereinigungen abgeEs folgt A1 ∪ A2 ∈ A∗µ , A∗µ ist also gegen¨ uber abz¨ahlbaren schlossen. Wir zeigen die Abgeschlossenheit von A∗µ gegen¨ Vereinigungen und die σ-Additivit¨ at von µ∗ auf A∗µ parallel, indem wir beweisen: Schritt 2: Ist (An )n∈N eine Folge disjunkter Mengen aus A∗µ , so ist A := ∞ An ∈ A∗µ und n=1
µ∗ (A) =
∞
µ∗ (An ).
(A.3)
n=1
Um diese Behauptung zu beweisen, setzen wir in (A.2) f¨ ur B die Menge B ∩ ur A die Menge A1 ein. Dann folgt wegen A1 ∩ A2 = ∅ die (A1 ∪ A2 ) und f¨ Gleichung µ∗ (B ∩ (A1 ∪ A2 )) = µ∗ (B ∩ A1 ) + µ∗ (B ∩ A2 ), so dass wir per Induktion erhalten: n n ∗ Ai = µ∗ (B ∩ Ai ) f¨ ur alle n ∈ N. (A.4) µ B∩ i=1
Nach Schritt 1 ist
n i=1
folgt:
i=1
Ai ∈ A∗µ , so dass mit (A.4) f¨ ur alle B ⊂ Ω und n ∈ N
A.1 Das Lebesgue-Maß
∗
∗
µ (B) ≥ µ
B∩
n
∗
Ai +µ
i=1
B∩
n
c ≥
Ai
i=1
n
545
µ∗ (B∩Ai )+µ∗ (B∩Ac ).
i=1
Durch zweimaliges Anwenden der Sub-σ-Additivit¨at erhalten wir: µ∗ (B) ≥
∞
µ∗ (B∩Ai )+µ∗ (B∩Ac ) ≥ µ∗ (B∩A)+µ∗ (B∩Ac ) ≥ µ∗ (B). (A.5)
i=1
Damit sind alle Terme in (A.5) gleich und wir erhalten f¨ ur jedes B ⊂ Ω: µ∗ (B) =
∞
µ∗ (B ∩ Ai ) + µ∗ (B ∩ Ac ) = µ∗ (B ∩ A) + µ∗ (B ∩ Ac ).
i=1
Insbesondere ist A ∈ A∗µ , und es folgt (A.3), wenn wir B = A setzen. Insgesamt haben wir gezeigt, dass A∗µ eine σ-Algebra und µ∗ |A∗µ σ-additiv und damit ein Maß auf A∗µ ist. Pr¨ amaße auf Halbringen Wir wissen bereits, wie das zu konstruierende Lebesgue-Maß λ auf dem Mengensystem I = {]a, b] : a, b ∈ R, a ≤ b} definiert sein soll: λ(]a, b]) = b − a. Nach Satz 1.14 ist I ein Erzeuger der Borelschen σ-Algebra B. I selbst ist keine σ-Algebra, da I nicht gegen¨ uber Komplementen abgeschlossen ist, aber I ist ein so genannter Halbring: Definition A.3 (Halbring). Ein Mengensystem H ⊆ P(Ω) heißt Halbring (¨ uber Ω), falls die folgenden Bedingungen erf¨ ullt sind: (H1) ∅ ∈ H. (H2) Aus A, B ∈ H folgt A ∩ B ∈ H. (H3) F¨ ur jedes Paar A, B ∈ H existieren endlich viele disjunkte Mengen C1 , . . . , Ck ∈ H, k ∈ N, mit: B ∩ Ac =
k
Ci .
i=1
Das Mengensystem I ist ein Halbring, genauso wie in h¨oheren Dimensionen I n = {]a, b] : a, b ∈ Rn , a ≤ b}. Wir haben Maße formal nur auf σ-Algebren definiert. Gelten die Maßeigenschaften auf einem Halbring, so nennen wir die Funktion Pr¨ amaß:
546
A Existenzaussagen
Definition A.4 (Pr¨ amaß). Sei H ein Halbring u ¨ber Ω. Eine Funktion µ : ¯ heißt Pr¨ H→R amaß auf H, falls die folgenden Bedingungen erf¨ ullt sind: (P1) µ(∅) = 0. (P2) µ(A) ≥ 0 f¨ ur alle A ∈ H. ∞ An ∈ H (P3) F¨ ur jede Folge (An )n∈N disjunkter Mengen aus H mit n=1
gilt:
µ
∞
=
An
n=1
∞
µ(An ).
n=1
Pr¨ amaße haben ¨ahnliche Eigenschaften wie Maße. F¨ ur sp¨atere Zwecke notieren wir: ¯ ein Pr¨ Lemma A.5. Sei µ : H → R amaß auf einem Halbring H. (i) Monotonie: Ist A, B ∈ H und A ⊂ B, so folgt: µ(A) ≤ µ(B). (ii) Sub-σ-Additivit¨ at: Ist (An )n∈N eine Folge von Mengen in H und A ∈ H, ∞ An , so gilt: so dass A ⊂ n=1 ∞
µ(A) ≤
µ(An ).
n=1
Beweis. (i) Da H ein Halbring ist, hat B ∩ Ac eine Darstellung als disjunkte Zerlegung von Mengen in H: B ∩ Ac =
k
Ci ,
C1 , . . . , Ck ∈ H disjunkt.
i=1
Damit k¨ onnen wir B disjunkt zerlegen: B =A∪
k
Ci .
i=1
Aus der σ-Additivit¨ at folgt insbesondere die endliche Additivit¨at von µ. Damit erhalten wir: µ(B) = µ(A) +
k
µ(Ci ) ≥ µ(A).
i=1
(ii) F¨ ur den Nachweis der Sub-σ-Additivit¨ at betrachten wir das Mengensystem R := {M ∈ P(Ω) : M =
k i=1
Ci , C1 , . . . , Ck ∈ H disjunkt}.
A.1 Das Lebesgue-Maß
547
Aus der Durchschnittsstabilit¨ at von H folgt unmittelbar die Durchschnittsstabilit¨ at von R. Sei nun (An )n∈N eine Folge von Mengen in H mit ∞ An . Wir definieren A⊂ n=1
Bn+1 := An+1 ∩ Bnc ,
B1 := A1 ,
n ≥ 1,
und zeigen induktiv, dass Bn ∈ R f¨ ur jedes n ∈ N. F¨ ur B1 ist dies klar. Hat Bn die disjunkte Darstellung Bn =
kn
Cnj ∈ H,
Cnj ,
(A.6)
j=1
so gilt f¨ ur Bn+1 : Bn+1 =
kn
c (An+1 ∩ Cnj ).
j=1 c ∈ R f¨ ur jedes j = 1, . . . , kn , Nach Definition eines Halbrings ist An+1 ∩Cnj und wegen der Durchschnittsstabilit¨ at von R folgt Bn+1 ∈ R. Aus der Darstellung (A.6) und der bereits gezeigten Monotonie folgt
µ(An ) ≥
kn
µ(Cnj ).
j=1
Die Folge (Bn )n∈N ist disjunkt, daher erhalten wir eine disjunkte abz¨ahlbare Zerlegung von A: ∞
A=
(Bn ∩ A) =
n=1
kn ∞
(Cnj ∩ A).
n=1 j=1
Aus der σ-Additivit¨ at und der bereits bewiesenen Monotonie folgt: µ(A) =
kn ∞
µ(Cnj ∩ A) ≤
n=1 j=1
kn ∞
µ(Cnj ) ≤
n=1 j=1
∞
µ(An ).
n=1
Unser Ziel ist es, Pr¨ amaße auf Halbringen zu Maßen auf den von den Halbringen erzeugten σ-Algebren fortzusetzen. Die Pr¨amaße erhalten wir durch folgende Beobachtung: Satz A.6. Sei F : R → R eine maßerzeugende Funktion, d.h. monoton wachsend und rechtsseitig stetig. Dann ist λF : I → R, ein Pr¨ amaß.
λF (]a, b]) := F (b) − F (a),
548
A Existenzaussagen
Beweis. Offensichtlich ist λF (∅) = 0 und λF ≥ 0, da F monoton wachsend ist. n ]ai , bi ] Wir zeigen zun¨ achst, dass λF endlich additiv ist. Sei dazu ]a, b] = i=1
als endliche disjunkte Vereinigung dargestellt. Dann k¨onnen wir ohne Einschr¨ ankung der Allgemeinheit a = a1 ≤ b1 = a2 ≤ b2 = a2 ≤ . . . ≤ bn−1 = an ≤ bn = b annehmen. Damit folgt nach Definition von λF : λF (]a, b]) = F (b) − F (a) =
n
(F (bi ) − F (ai )) =
i=1
n
λF (]ai , bi ]).
i=1
Somit ist die endliche Additivit¨ at von λF gezeigt, aus der mit λF ≥ 0 sofort ∞ ]ai , bi ] als abz¨ahlbare disdie Monotonie von λF folgt. Sei nun ]a, b] = i=1
junkte Vereinigung dargestellt. Aus der Monotonie von λF und der endlichen Additivit¨ at folgt λF (]a, b]) ≥
n
λF (]ai , bi ])
f¨ ur alle n ∈ N,
i=1
also λF (]a, b]) ≥
∞
λF (]ai , bi ]).
(A.7)
i=1
Die Grundidee f¨ ur den Beweis der umgekehrten Ungleichung ist ein Kom¨ paktheitsargument, das es erlaubt, aus einer abz¨ahlbaren Uberdeckung eine endliche Teil¨ uberdeckung zu w¨ ahlen. Sei ε > 0 gegeben. Da F rechtsstetig ist, gibt es ein α ∈]a, b], so dass F (α) ≤ F (a) + 2ε . Genauso gibt es zu jedem bi ein βi > bi mit F (βi ) ≤ F (bi ) + ε2−(i+1) , i ∈ N. Da α echt gr¨oßer a und βi echt gr¨ oßer bi ist, folgt ∞ ]ai , βi [. [α, b] ⊂ i=1
Da [α, b] kompakt ist, gibt es eine endliche Teil¨ uberdeckung, d.h. es gibt ein n ∈ N mit n n ]ai , βi [⊂ ]ai , βi ]. [α, b] ⊂ i=1
Erst recht gilt damit ]α, b] ⊂
n
i=1
]ai , βi ]. Aus der endlichen Additivit¨at und
i=1
Monotonie von λF folgt: F (b) − F (α) = λF (]α, b]) ≤
n i=1
λF (]ai , βi ]).
A.1 Das Lebesgue-Maß
549
Aus unserer Wahl der Punkte βi , i ∈ N folgt λF (]ai , βi ]) = F (βi ) − F (ai ) ≤ F (bi ) − F (ai ) + ε · 2−(i+1) ,
i ∈ N,
und damit: λF (]a, b]) = F (b) − F (a) ≤ F (b) − F (α) + ≤
n
λF (]ai , βi ]) +
i=1
≤
n
ε 2
ε 2
(F (bi ) − F (ai ) + ε · 2−(i+1) ) +
i=1
≤
∞
λF (]ai , bi ]) +
i=1
∞
ε · 2−(i+1) +
i=1
ε 2 ∞
ε = λF (]ai , bi ]) + ε. 2 i=1
Da ε > 0 beliebig gew¨ ahlt war, folgt zusammen mit (A.7) die σ-Additivit¨at amaß. von λF . Damit ist λF ein Pr¨ Der Fortsetzungssatz Der letzte Baustein f¨ ur den Existenzbeweis des Lebesgue-Maßes ist der folgende Fortsetzungssatz, der es erlaubt, ein Pr¨ amaß auf einem Halbring zu einem a¨ußeren Maß auf der ganzen Potenzmenge fortzusetzen. Die Einschr¨ankung des a ¨ußeren Maßes auf die µ∗ -messbaren Mengen ergibt das gesuchte Maß. ¯ ein Pr¨ Satz A.7. Es sei µ : H → R amaß auf einem Halbring H. F¨ ur A ⊂ Ω definieren wir ∞ , ∞ µ(Ai ) : Ai ∈ H, i ∈ N, A ⊂ Ai ∈ [0, ∞] (inf ∅ := ∞). µ∗ (A) := inf i=1
i=1
Dann gilt: ¯ ist ein ¨ (i) µ∗ : P(Ω) −→ R außeres Maß. (ii) H ⊂ A∗µ und µ∗ |H = µ. Insbesondere ist µ∗ |A∗µ eine Fortsetzung von µ zu einem Maß auf eine σ-Algebra, die σ(H) enth¨ alt. (iii) Ist µ σ-endlich, d.h. existiert eine Folge (En )n∈N von Mengen aus H mit ∞ ur alle n ∈ N und Ω = En , so ist die Fortsetzung von µ µ(En ) < ∞ f¨ n=1
zu einem Maß auf σ(H) eindeutig. ¨ ur A ⊂ B jede Uberdeckung Beweis. (i) Offensichtlich ist µ∗ (∅) = 0. Da f¨ ∗ von B auch A u ¨berdeckt, folgt die Monotonie von µ . Zum Nachweis der Sub-σ-Additivit¨ at von µ∗ sei eine Folge (An )n∈N von Teilmengen von Ω gegeben. Wir k¨ onnen ohne Einschr¨ ankung der Allgemeinheit µ∗ (An ) < ∞ f¨ ur alle n ∈ N annehmen, da andernfalls die zu beweisende Ungleichung
550
A Existenzaussagen
µ∗
∞
An
≤
n=1
∞
µ∗ (An )
(A.8)
n=1
offensichtlich erf¨ ullt ist. Sei ε > 0. Nach Definition von µ∗ gibt es zu jedem n ∈ N eine Folge (Ani )i∈N von Mengen in H, so dass An ⊂
∞
Ani
∞
und
i=1
µ(Ani ) < µ∗ (An ) + ε · 2−n ,
n ∈ N.
i=1
Betrachten wir die abz¨ ahlbare Familie (Ani )(n,i)∈N2 von Mengen aus H, so ist ∞ ∞ ∞ An ⊂ Ani n=1
n=1 i=1
und daher nach Definition von µ∗ : ∞ ∞ ∞ ∞ ∞ ∗ ∗ −n µ An ≤ µ(Ani ) ≤ (µ (An ) + ε · 2 ) = µ∗ (An ) + ε. n=1
n=1 i=1
n=1
n=1 ∗
Da ε > 0 beliebig gew¨ ahlt war, folgt (A.8), und µ ist ein ¨außeres Maß. (ii) Wir beginnen damit, H ⊂ A∗µ zu zeigen. Sei A ∈ H und B ⊂ Ω mit µ∗ (B) < ∞. Dann gibt es eine Folge (Bn )n∈N von Mengen aus H mit ∞ Bn . Nach Definition eines Halbringes ist A ∩ Bn ∈ H f¨ ur alle B ⊂ n=1
n ∈ N, und zu jedem n ∈ N gibt es disjunkte Mengen Cn1 , . . . , Cnkn ∈ H mit kn Cnj , n ∈ N. Bn ∩ Ac = j=1
Mit der σ-Additivit¨ at von µ folgt: ∞
µ(Bn ) =
n=1
∞
µ(Bn ∩ A) +
n=1
=
∞ n=1 ∗
∞
µ(Bn ∩ Ac )
n=1
µ(Bn ∩ A) +
kn ∞
µ(Cnj )
n=1 j=1 ∗ c
≥ µ (B ∩ A) + µ (B ∩ A ). Bilden wir das Infimum, so folgt µ∗ (B) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ Ac ). F¨ ur den Fall µ∗ (B) = ∞ ist diese Ungleichung trivial. Also folgt A ∈ A∗µ . Um µ∗ |H = µ nachzuweisen, bemerken wir zun¨achst, dass durch die spe¨ zielle Uberdeckung A, ∅, ∅, . . . einer Menge A ∈ H nach Definition von ur den Beweis der umgekehrten µ∗ die Ungleichung µ∗ |H ≤ µ folgt. F¨ Ungleichung betrachten wir eine Folge (An )n∈N von Mengen in H mit ∞ An . Nach Lemma A.5 gilt A⊂ n=1
A.1 Das Lebesgue-Maß
µ(A) ≤
∞
551
µ(An ),
n=1
und daher µ(A) ≤ µ∗ (A). Insgesamt folgt µ∗ |H = µ. ¯ ein weiteres Maß mit ν|H = µ. Da H durch(iii) Es sei ν : σ(H) → R schnittsstabil ist, folgt aus dem Maßeindeutigkeitssatz unmittelbar ν = µ∗ |σ(H). Lebesgue- und Lebesgue-Stieltjes-Maße Jetzt sind wir in der Lage, Theorem 1.40 zu beweisen: Theorem A.8 (Existenz und Eindeutigkeit des Lebesgue-Maßes). In jeder Dimension n ∈ N gibt es genau ein Maß λn : B n → [0, ∞], so dass f¨ ur jedes n-dimensionale Intervall ]a, b] =]a1 , b1 ] × . . . ×]an , bn ] ⊂ Rn gilt: n
(bi − ai ). λn (]a, b]) = i=1 n
λ heißt (n-dimensionales) Lebesgue-Maß. Weiter gibt es zu jeder maßerzeu¯ so dass f¨ ur alle genden Funktion F : R → R genau ein Maß λF : B → R, ]a, b] ⊂ R gilt: λF (]a, b]) = F (b) − F (a). λF heißt Lebesgue-Stieltjes-Maß von F . Beweis. Sei zun¨ achst n = 1 und F eine maßerzeugende Funktion. Nach Satz A.6 ist ˜ F (]a, b]) := F (b) − F (a) ˜ F : I → R, λ λ ˜ F σ-endlich. Daher gibt es ein Pr¨ amaß auf dem Halbring I. Offensichtlich ist λ nach dem Fortsetzungssatz A.7 genau ein Maß λF auf σ(I) = B mit λF |I = ˜ F . Damit ist der zweite Teil der Behauptung gezeigt. Setzen wir F = id, λ erhalten wir die Behauptung f¨ ur das eindimensionale Lebesgue-Maß λ := µid . Ist n ≥ 2, folgt die Behauptung induktiv aus Satz 2.23. Die Bewegungsinvarianz des Lebesgue-Maßes Abschließend zeigen wir in zwei Schritten Satz 1.41, die Bewegungsinvarianz des Lebesgue-Maßes. Der erste Schritt besteht darin zu zeigen, dass das Lebesgue-Maß das einzige normierte Maß auf dem Rn ist, das translationsinvariant ist.
552
A Existenzaussagen
Satz A.9. Sei µ ein Maß auf Rn mit µ(]0, 1]n ) = 1. Dann ist µ = λn genau dann, wenn µ translationsinvariant ist, d.h. wenn f¨ ur alle A ∈ Bn und v ∈ Rn gilt: µ(A + v) = µ(A). Beweis. F¨ ur das Lebesgue-Maß λn ist offensichtlich f¨ ur jedes v ∈ Rn f¨ ur alle ]a, b] ⊂ Rn .
λn (]a, b] + v) = λn (]a, b])
Setzen wir νv (A) := λn (A+v), A ∈ Bn , so folgt aus der Eindeutigkeitsaussage in Theorem A.8 νv = λn , d.h. das Lebesgue-Maß λn ist translationsinvariant. Sei umgekehrt µ translationsinvariant und µ(]0, 1]n ) = 1. Zu q1 , . . . , qn ∈ N betrachten wir das halboffene Intervall A :=
n
i=1
]0,
1 ]. qi
Durch Verschieben von A um q1i in der i-ten Dimension erhalten wir eine disjunkte Zerlegung des Einheitsintervalls ]0, 1]n : ]0, 1]n =
n
0≤kj
i=1
]0,
1 ]+ qi
k1 kn ,..., q1 qn
.
j=1,...,n
Auf der rechten Seite stehen q1 · . . . · qn Mengen, die wegen der Translationsinvarianz von µ das gleiche Maß haben. Daher gilt 1 = µ(]0, 1]n ) = q1 · . . . · qn · µ(A). Ist nun B =]0,
pn p1 ] × . . . ×]0, ], q1 qn
so folgt v¨ ollig analog µ(B) = p1 · . . . · pn µ(A). Insgesamt erhalten wir µ(B) =
pn p1 · ... · = λn (B). q1 qn
Verwenden wir ein weiteres Mal die Translationsinvarianz von µ, so folgt µ(]a, b]) = λn (]a, b])
f¨ ur alle a, b ∈ Qn ,
und durch Approximation eines reellen Intervalls durch rationale Intervalle µ(]a, b]) = λn (]a, b])
f¨ ur alle a, b ∈ Rn .
Wiederum aus der Eindeutigkeitsaussage in Theorem A.8 folgt µ = λn .
Im zweiten Schritt zeigen wir die Invarianz des Lebesgue-Maßes unter orthogonalen Transformationen, also unter Drehungen:
A.2 Existenz von Markov-Ketten
553
Satz A.10. Das Lebesgue-Maß λn auf (Rn , B n ) ist bewegungsinvariant: λn (A) = λn (B), falls A, B ∈ Bn , A, B kongruent. Beweis. Zu jedem v ∈ Rn definieren wir den Shift-Operator Tv : Rn → Rn ,
Tv (x) := x + v.
Nach Satz A.9 bleibt lediglich zu zeigen, dass f¨ ur jede orthogonale Matrix U ∈ Rn,n gilt: λ n ◦ U = λn . Zun¨ achst gilt f¨ ur jedes x ∈ Rn mit v := U v: (Tv ◦ U −1 )(x) = U −1 x + v = U −1 (x + U v) = U −1 (x + v ) = (U −1 ◦ Tv )(x). F¨ ur die Umkehrabbildung bedeutet dies U ◦ Tv−1 = Tv−1 ◦ U = T−v ◦ U , so dass mit der Translationsinvarianz des Lebesgue-Maßes folgt: λn ◦ U ◦ Tv−1 = λn ◦ U, d.h. λn ◦ U ist translationsinvariant. Nach Satz A.9 bedeutet dies, dass λn ◦ U bis auf einen Normierungsfaktor gleich dem Lebesgue-Maß ist: λn ◦ U = cλn
f¨ ur ein c > 0.
Um c = 1 nachzuweisen, betrachten wir den Einheitsball B := {x ∈ Rn : at von U ist U B = B, und daher x ≤ 1} im Rn . Wegen der Orthogonalit¨ λn ◦ U (B) = λn (B) = cλn (B),
also c = 1.
A.2 Existenz von Markov-Ketten Ziel dieses kurzen Abschnitts ist es zu zeigen, dass es zu jeder stochastischen ur das Matrix p und Startverteilung α eine (α, p)-Markov-Kette (Xn ) gibt. F¨ explizite Konstruktionsverfahren werden wir wiederholt verwenden, dass man ein Intervall ]a, b] in abz¨ ahlbar viele Teilintervalle vorgegebener L¨ange zerlegen kann. Sei dazu (cn ) eine Folge reeller Zahlen mit cn ≥ 0 f¨ ur alle n ∈ N und
∞
cn = b − a.
n=1
Dann ist
⎤ In := ⎦b −
i≤n
ci , b −
⎤ ci ⎦ ,
n ∈ N,
i
eine abz¨ ahlbare Partition des Intervalls ]a, b] in Teilintervalle der L¨ange cn .
554
A Existenzaussagen
Satz A.11. Sei S eine abz¨ ahlbare Menge, p eine stochastische S × S-Matrix α(i) = 1. und α eine Z¨ ahldichte auf S, d.h. α(i) ≥ 0 f¨ ur alle i ∈ S und i∈S
Dann gibt es eine Folge von S-wertigen Zufallsvariablen (Xn ) mit PX0 = α, und f¨ ur jedes n ∈ N, j ∈ S und alle (n + 1)-Tupel (i0 , . . . , in ) ∈ S n+1 gilt: P(Xn+1 = j|X0 = i0 , . . . , Xn = in ) = P(Xn+1 = j|Xn = in ) = pin j , d.h. (Xn ) ist eine (α, p)-Markov-Kette. Beweis. Ohne Einschr¨ ankung der Allgemeinheit sei S = N. Wir betrachten den Wahrscheinlichkeitsraum Ω := ]0, 1], F := B|]0, 1], P := λ|]0, 1]. (0) (0) Sei I1 , I2 , . . . eine Partition des Intervalls ]0, 1] in Teilintervalle der L¨ange (0) ur alle i ∈ N. Als n¨achstes zerlegen α(1), α(2), . . .. Dann folgt P(Ii ) = α(i) f¨ (0) (1) wir jedes Intervall Ii in abz¨ ahlbar viele Teilintervalle Iij , j ∈ N, der L¨ange (1)
α(i)pij . Entsprechend folgt P(Iij ) = α(i)pij f¨ ur alle i, j ∈ N. F¨ uhren wir dieses Verfahren induktiv fort, so erhalten wir eine Folge von immer feineren (n) ur die gilt: Partitionen {Ii0 i1 ...in : i0 , . . . , in ∈ N}, n ∈ N, f¨ (n)
P(Ii0 i1 ...in ) = αi0 pi0 i1 · . . . · pin−1 in . Aus der disjunkten Zerlegung (n) Ii0 i1 ...in = ]0, 1] = i0 ,...,in ∈N
(n)
i∈N i0 ,...,in−1 ∈N
Ii0 i1 ...in−1 i
folgt, dass f¨ ur jedes n ∈ N die Abbildung Xn : Ω −→ N,
ω → Xn (ω) := i f¨ ur ω ∈
(n)
i0 ,...,in−1 ∈N
Ii0 i1 ...in−1 i
wohldefiniert ist. Nach Definition der Folge (Xn ) ist (n)
{X0 = i0 , . . . , Xn = in } = Ii0 ...in ,
i0 , . . . , in ∈ N.
Daher ist Xn f¨ ur jedes n ∈ N messbar und P(X0 = i0 , . . . , Xn = in ) = αi0 pi0 i1 · . . . · pin−1 in ,
i0 , . . . , in ∈ N.
Daraus folgt einerseits PX0 = α, d.h. (Xn ) hat die gew¨ unschte Startverteilung α, andererseits gilt f¨ ur jedes n-Tupel i0 , . . . , in ∈ N und j ∈ N: P(Xn+1 = j|X0 = i0 , . . . , Xn = in ) = Schließlich folgt
αi0 pi0 i1 · . . . · pin−1 in pin j = pin j . αi0 pi0 i1 · . . . · pin−1 in
A.3 Ein Existenzsatz von Kolmogorov
P(Xn+1 = j|Xn = in ) =
=
555
P(Xn+1 = j, Xn = in ) P(Xn = in ) αi0 pi0 i1 · . . . · pin−1 in pin j i0 ,...,in−1 ∈N
i0 ,...,in−1 ∈N
αi0 pi0 i1 · . . . · pin−1 in
= pin j .
A.3 Ein Existenzsatz von Kolmogorov Sei I eine nichtleere Indexmenge, E(I) die Menge der endlichen Teilmengen von I und (Ωi , Fi ), i ∈ I, eine Familie von Messr¨aumen. Zur Vereinfachung der Notation bezeichnen wir den Produktraum mit
Ωi , und F ⊗I := Fi . Ω I := i∈I
i∈I
In den meisten Anwendungen gilt (Ωi , Fi ) = (Ω, F) f¨ ur alle i ∈ I, so dass diese Notation unproblematisch ist. F¨ ur beliebige J ⊂ K ⊂ I bezeichnen wir mit pKJ die kanonische Projektion pKJ : Ω K → Ω J , (xi )i∈K → (xi )i∈J . Gegeben sei nun f¨ ur jedes J ∈ E(I) ein Wahrscheinlichkeitsmaß PJ auf RJ . Gibt es dann einen stochastischen Prozess (Xt )t∈I , dessen endlichdimensionale Verteilungen gerade durch PJ , J ∈ E(I), gegeben sind? Wir werden zun¨ achst versuchen, ein Wahrscheinlichkeitsmaß PI auf Ω I zu konstruieren, dessen endliche Projektionen gerade PJ , J ∈ E(I), sind: PI ◦ p−1 IJ = PJ ,
J ∈ E(I).
(A.9)
Die Koordinatenfunktionen werden dann den gesuchten stochastischen Prozess ergeben. Aus (A.9) folgt, dass die Konstruktion von PI nur dann gelingen kann, wenn PK ◦ p−1 KJ = PJ
f¨ ur alle J, K ∈ E(I) mit J ⊂ K,
gilt. Daher definieren wir: Definition A.12 (konsistente Familie von Wahrscheinlichkeitsmaßen). Sei I = ∅ eine beliebige Indexmenge und (Ωi , Si )i∈I eine Familie von Messr¨ aumen. Weiter sei f¨ ur jedes J ∈ E(I) ein Wahrscheinlichkeitsmaß Ωj gegeben. Gilt PJ auf dem kartesischen Produkt Ω J = j∈J
PK ◦ p−1 KJ = PJ
f¨ ur alle J, K ∈ E(I) mit J ⊂ K,
so heißt die Familie von Wahrscheinlichkeitsmaßen PJ , J ∈ E(I), konsistent.
556
A Existenzaussagen
Ist Ωi = R f¨ ur alle i ∈ I, so ist die Konsistenz bereits hinreichend f¨ ur die Existenz des gesuchten Wahrscheinlichkeitsmaßes PI auf dem RI . Im Allgemeinen muss der Messraum folgender topologischer Bedingung gen¨ ugen: Definition A.13 (Standardraum). Ein Messraum (Ω, S) heißt Standardraum, wenn es einen kompakten metrischen Raum (X, B(X)) gibt, so dass (Ω, S) und (X, B(X)) isomorph sind, d.h. wenn es eine bijektive Abbildung f : Ω → X gibt, so dass f und f −1 messbar sind. Jeder diskrete Messraum (Z, P(Z)) mit abz¨ ahlbarem Z ist ein Standardraum: Entweder Z ist endlich und damit kompakt, oder Z ist isomorph zum komur uns, dass pakten metrischen Raum {0} ∪ { n1 : n ∈ N}. Entscheidend ist f¨ (R, B) ein Standardraum ist: Satz A.14. (R, B) ist ein Standardraum. Beweis. Es sei fn : An := [−n − 1, −n[ ∪ ]n, n + 1] −→ Bn := ]
1 1 , ], n+2 n+1
n ∈ N0 ,
ein Borel-Isomorphismus, also eine bijektive Abbildung, so dass fn und fn−1 f¨ ur alle n ∈ N0 messbar sind. Nun sind An und [0, 1] = {0} ∪ Bn R = {0} ∪ n∈N0
n∈N0
disjunkte Vereinigungen, so dass verm¨ oge der Abbildungen (fn ) die R¨aume (R, B) und ([0, 1], B([0, 1])) isomorph sind. Regularit¨ at Definition A.15 (Algebra). Ein Mengensystem F ⊂ P(Ω) heißt Algebra u ullt sind: ¨ber Ω, falls die folgenden Bedingungen erf¨ (i) Ω ∈ F. (ii) Aus A ∈ F folgt Ac ∈ F. (iii) Aus A, B ∈ F folgt A ∪ B ∈ F. Eine Algebra unterscheidet sich also von einer σ-Algebra nur darin, dass sie nicht notwendig gegen¨ uber abz¨ ahlbaren Vereinigungen abgeschlossen ist. Jede Algebra ist ein Halbring. Daher k¨ onnen wir genauso gut Pr¨amaße auf Algebren betrachten, um diese nach dem Fortsetzungssatz A.7 fortzusetzen. Der entscheidende Schritt im nachfolgenden Existenztheorem ist der Beweis des σ-Additivit¨ at von PI . Diese ergibt sich automatisch, wenn die Mengenfunktion eine so genannte Regularit¨ atsbedingung erf¨ ullt:
A.3 Ein Existenzsatz von Kolmogorov
557
Definition A.16 (Regularit¨ at). Sei Ω ein topologischer Raum, A eine Algebra u ¨ber Ω und µ ein Inhalt auf (Ω, A). Dann heißt ein Ereignis A ∈ A regul¨ ar, wenn gilt: µ(A) = sup{µ(K) : K ⊂ A, K ∈ A kompakt}.
(A.10)
Der Inhalt µ heißt regul¨ ar, wenn alle A ∈ A regul¨ ar sind. Jeder endliche regul¨ are Inhalt ist bereits σ-additiv: Lemma A.17. Es sei A eine Algebra u ¨ber einem metrischen Raum Ω und µ : A −→ R ein endlicher Inhalt. Ist µ regul¨ ar, so ist µ sogar σ-additiv, also ein Pr¨ amaß auf A. Beweis. Gilt f¨ ur jede Folge (Bn ) von Ereignissen aus A mit Bn ↓ ∅, dass ur eine disjunkte Folge (An ) von Ereigµ(Bn ) −→ 0, so ist µ σ-additiv; denn f¨ ∞ n Ai ∈ A k¨ onnen wir Bn := A\( An ) setzen. Dann nissen in A mit A := i=1
i=1
ist Bn ↓ ∅, und aus µ(Bn ) −→ 0 folgt die σ-Additivit¨at von µ. Sei also (Bn ) eine Folge von Ereignissen aus A mit Bn ↓ ∅. Wir nehmen ur alle n ∈ N. Wegen der Regularit¨at von µ finden an, es w¨ are µ(Bn ) ≥ α f¨ wir zu jedem Bn eine kompakte Menge Cn ⊂ Bn , Cn ∈ A mit µ(Bn \Cn ) <
α , 3n
n ∈ N.
Daraus folgt mit einer vollst¨ andigen Induktion: n α α > . µ(C1 ∩ . . . ∩ Cn ) ≥ µ(Bn ) − i 3 2 i=1
Damit bildet Kn := C1 ∩ . . . ∩ Cn eine fallende Folge kompakter, nichtleerer Mengen, also ist auch ihr Durchschnitt nichtleer. Folglich ist ∞
Kn =
n=1
∞ n=1
Cn ⊂
∞
Bn = ∅,
n=1
im Widerspruch zu Bn ↓ ∅.
Um Regularit¨ at nachzuweisen, werden wir das folgende Lemma verwenden: Lemma A.18. Sei (Ω, B(Ω)) ein kompakter metrischer Raum. Dann ist jedes Wahrscheinlichkeitsmaß µ auf (Ω, B(Ω)) regul¨ ar. Beweis. Man pr¨ uft leicht nach, dass S := {A ∈ B(Ω) : A und Ac sind regul¨ar}
558
A Existenzaussagen
eine σ-Algebra ist. Sei U ⊂ Ω offen und C := U c . Bezeichnen wir mit d(·, ·) die Metrik auf Ω, so sind Cn := {ω ∈ Ω : d(ω, C) ≥ abgeschlossene, also kompakte Mengen mit
1 }, n ∞
n ∈ N,
Cn = U . Daher ist U ∈ S,
n=1
und somit B(Ω) ⊂ S. Das bedeutet aber gerade, dass µ regul¨ar ist.
Der Existenzsatz F¨ ur den Beweis des nachfolgenden Existenzsatzes verwenden wir das bekannte Theorem von Tychonov aus der Topologie: Das Produkt Ω I = Ωi , I = ∅, kompakter R¨ aume Ωi , i ∈ I, ist kompakt, s. z.B. [Dud89].
i∈I
Theorem A.19 (Existenzsatz von Kolmogorov). Sei I = ∅ eine Indexaumen. Ist PJ , J ∈ E(I), menge und (Ωi , Fi )i∈I eine Familie von Standardr¨ eine konsistente Familie von Wahrscheinlichkeitsmaßen, so gibt es genau ein ur das gilt: Wahrscheinlichkeitsmaß PI auf Ω I , f¨ PI ◦ p−1 IJ = PJ
f¨ ur alle J ∈ E(I).
Beweis. Da wir eine Familie von Standardr¨ aumen betrachten, k¨onnen wir ohne Einschr¨ ankung annehmen, dass Ωi ein kompakter metrischer Raum und ur alle i ∈ I ist. Wir definieren die σ-Algebren Fi = B(Ωi ) f¨ J AJ := p−1 IJ (σ(B )),
und das Mengensystem
J ⊂ I endlich,
A := J⊂I
AJ .
endlich
Dann ist A eine Algebra u ¨ber Ω : Offensichtlich ist Ω I ∈ A. Ist A = p−1 IJ (B) ∈ −1 J c (B ) ∈ A. Sei weiter C = p (D) ∈ A, A, B ∈ B , J endlich, so ist Ac = p−1 IJ IK D ∈ BK , K endlich, so setzen wir L := K ∪ J. Dann gilt I
−1 −1 A ∪ C = p−1 IL (pLK (D) ∪ pLJ (B)) ∈ A,
(A.11)
so dass A eine Algebra ist. Als n¨ achstes definieren wir PI auf A: PI (A) := PJ (B) f¨ ur A = p−1 IJ (B) ∈ A. K PI ist auf A wohldefiniert, da aus C = p−1 IK (D) ∈ A, D ∈ B , K endlich, und A = C sofort K = J und B = D folgt. Um die Additivit¨at von PI −1 J nachzuweisen, sei wieder A = p−1 IJ (B) ∈ A, B ∈ B , J endlich, C = pIK (D) ∈ K A, D ∈ B , K endlich, L := K ∪ J und A ∩ C = ∅. Dann sind auch p−1 LK (D) (B) disjunkt. Daher folgt mit (A.11) und der Konsistenz und p−1 LJ
A.3 Ein Existenzsatz von Kolmogorov
559
−1 −1 PI (A ∪ C) = PI (p−1 IL (pLK (D) ∪ pLJ (B))) −1 = PL (p−1 LK (D) ∪ pLJ (B)) = PK (D) + PJ (B) = PI (A) + PI (C).
Also ist PI ein endlicher Inhalt auf der Algebra A. Die Behauptung folgt jetzt aus dem Fortsetzungssatz A.7, wenn wir zeigen k¨onnen, dass PI auf A ein Pr¨ amaß, also σ-additiv ist. Dies zeigen wir folgendermaßen: Da f¨ ur jedes J ⊂ I endlich PJ ein Wahrscheinlichkeitsmaß auf den Borelmengen BJ des kompakten Raums Ω J ist, folgt nach Lemma A.18: PI (A) = PJ (B) = sup{PJ (V ) : V ⊂ B kompakt} J f¨ ur A = p−1 IJ (B) ∈ A, B ∈ B , J endlich.
Nach dem Theorem von Tychonov ist Ω I kompakt. Daher ist f¨ ur jedes kompakte K ⊂ B das Urbild W := p−1 IJ (K) eine abgeschlossene Teilmenge im kompakten Raum Ω I , also kompakt. Daher gilt PI (A) = sup{PI (W ) : W ⊂ A kompakt , W ∈ A}
f¨ ur A ∈ A.
Aus Lemma A.17 erhalten wir, dass PI auf A σ-additiv ist.
Existenz von stochastischen Prozessen Im Folgenden betrachten wir Konsequenzen aus dem Existenzsatz. Als erstes beantworten wir die Frage nach der Existenz stochastischer Prozesse mit vorgegebenen endlich-dimensionalen Verteilungen: Korollar A.20. Sei (Ω, S) ein Standardraum, I = ∅ eine Indexmenge und PJ , J ∈ E(I) eine konsistente Familie von Wahrscheinlichkeitsmaßen. Dann gibt es einen stochastischen Prozess (Xt )t∈I mit Zustandsraum Ω, so dass PJ , J ∈ E(I) die Familie seiner endlich-dimensionalen Verteilungen ist: P((Xi : i ∈ J) ∈ B) = PJ (B)
f¨ ur alle B ∈ S J , J ∈ E(I).
Beweis. Es sei P := PI das Wahrscheinlichkeitsmaß aus dem Existenzsatz von Kolmogorov A.19. Auf dem Wahrscheinlichkeitsraum (Ω I , S ⊗I , P) betrachten wir die Projektionen auf einelementige Mengen {t} ⊂ I: Xt := pI{t} : Ω I −→ Ω,
(ωs )s∈I → ωt .
Dann sind die Xt , t ∈ I, messbare Abbildungen mit Zustandsraum Ω. F¨ ur die endlich-dimensionalen Verteilungen ergibt sich nach Definition von PI : P((Xi : i ∈ J) ∈ B) = PI (p−1 IJ (B)) = PJ (B),
B ∈ S J , J ∈ E(I).
560
A Existenzaussagen
Existenz von Produktmaßen Ebenfalls als Spezialfall des Existenzsatzes von Kolmogorov ergibt sich in Verallgemeinerung von Satz 2.23 die Existenz von Produktmaßen auf beliebigen Produkten: Korollar A.21. Sei I = ∅ eine Indexmenge und (Ωi , Fi , Pi )i∈I eine Familie aumen mitWahrscheinlichkeitsmaßen Pi . Dann gibt es auf von Standardr¨ Ωi , F ⊗I = Fi genau ein Wahrscheinlichkeitsmaß P, so dass ΩI = i∈I
i∈I
gilt: P ◦ p−1 IJ =
Pi
f¨ ur alle J ∈ E(I).
i∈J
Das eindeutig bestimmte Maß P heißt Produktmaß und wird mit
Pi bezeich-
i∈I
net. Beweis. Es gen¨ ugt, PJ :=
Pi , J ∈ E(I) zu setzen. Dies ist offensichtlich
i∈J
eine konsistente Familie von Wahrscheinlichkeitsmaßen, so dass die Behauptung aus dem Existenzsatz von Kolmogorov A.19 folgt. Wir haben den Existenzsatz von Kolmogorov f¨ ur Standardr¨aume bewiesen. Dies ist nicht die allgemeinste Klasse von Wahrscheinlichkeitsr¨aumen, f¨ ur die die Aussage gilt, es gen¨ ugen schw¨ achere topologische Voraussetzungen. Ganz ohne topologische Voraussetzungen ist der Existenzsatz jedoch falsch, auch wenn man sich auf abz¨ ahlbare Indexmengen (s. [Hal50]) oder identische Wahrur alle i ∈ I (s. [Weg73]) beschr¨ankt. Das gleiche scheinlichkeitsr¨ aume Ω = Ωi f¨ gilt nicht f¨ ur die Existenz von Produktmaßen. Diese existieren f¨ ur beliebige Wahrscheinlichkeitsr¨ aume. Existenz unabh¨ angiger Zufallsvariablen Als dritte Anwendung des Existenzsatzes von Kolmogorov wollen wir zeigen, dass es zu jeder vorgegebenen Verteilung eine Folge unabh¨angiger Zufallsvariablen mit der entsprechenden Verteilung gibt. Dazu verallgemeinern wir zun¨ achst Satz 5.12 auf beliebige Indexmengen: Satz A.22. Sei (Xi )i∈I eine Familie von Zufallsvariablen mit den Standardaumen, und r¨ aumen (Ωi , Fi )i∈I als Zustandsr¨
Y :Ω→ Ωi , ω → (Xi (ω))i∈I . i∈I
angig, wenn ihre gemeinsame VerDann sind die (Xi )i∈I genau dann unabh¨ teilung PY das Produkt der einzelnen Verteilungen PXi ist: PY = PXi . i∈I
A.3 Ein Existenzsatz von Kolmogorov
561
Beweis. F¨ ur jede Teilmenge J ⊂ I sei YJ := pIJ ◦ Y . Daraus folgt PYJ = PY ◦ p−1 IJ
f¨ ur alle J ∈ E(I).
aquivalent zur Unabh¨angigkeit von Nun ist die Unabh¨ angigkeit von (Xi )i∈I ¨ (Xi )i∈J f¨ ur alle J ∈ E(I). Dies ist nach Satz 5.12 ¨aquivalent zu PYJ = PXi f¨ ur alle J ∈ E(I), i∈J
also zu
PY ◦ p−1 IJ =
PXi
f¨ ur alle J ∈ E(I).
i∈J
Dies ist nach Korollar A.21 genau dann der Fall, wenn PY =
i∈I
PXi gilt.
Leicht folgt nun die Existenz unabh¨ angiger Zufallsvariablen mit vorgegebenen Verteilungen: aumen mit Korollar A.23. Sei (Ωi , Fi , Pi )i∈I eine Familie von Standardr¨ angige Familie von Wahrscheinlichkeitsmaßen Pi . Dann existiert eine unabh¨ Ωi -wertigen Zufallsvariablen Xi , i ∈ I, so dass gilt: PXi = Pi
f¨ ur jedes i ∈ I.
Beweis. Wir betrachten den Produktwahrscheinlichkeitsraum
Ωi , Fi , Pi . (Ω, F, P) := i∈I
i∈I
i∈I
Wieder definieren wir als Zufallsvariablen Xi die Projektionen auf die einelementigen Mengen {t} ⊂ I:
Ωi → Ωi . Xi := pI{t} : i∈I
Nach Definition des Produktmaßes ist PXi = P ◦ p−1 I{t} = Pi . Nach Konstruktion ist die Abbildung
Y :Ω= Ωi −→ Ωi , ω → (Xi (ω))i∈I , i∈I
i∈I
gerade die Identit¨ at. Daher folgt PY = P =
PXi ,
i∈I
und mit Satz A.22 sind die Zufallsvariablen (Xi )i∈I unabh¨angig.
Aus dem letzten Resultat erhalten wir beispielsweise die Existenz einer Folge unabh¨ angiger, standardnormalverteilter Zufallsvariablen. Eine solche Folge bildet im n¨ achsten Abschnitt die Grundlage f¨ ur die Konstruktion einer Brownschen Bewegung.
562
A Existenzaussagen
A.4 Brownsche Bewegungen Seit dem ersten Beweis der Existenz der Brownschen Bewegung durch Norbert Wiener haben sich etliche Varianten etabliert, einige davon haben wir bereits in Abschnitt 12.1 skizziert. Wir zeigen die Existenz einer Brownschen Bewegung durch eine explizite Reihendarstellung u ¨ber standardnormalverteil(n) ahlten reellen Gewichtsfunktionen te Zufallsvariablen Zk mit geeignet gew¨ (n) ∆k : ∞ (n) (n) ∆k (t)Zk (ω), t ∈ [0, 1]. (A.12) Bt (ω) = n=0 k∈U (n)
Die Indexmenge U (n) steht f¨ ur die ungeraden Zahlen zwischen 0 und 2n : U (n) := {k ∈ N0 : 0 ≤ k ≤ 2n , k ungerade}, also U (0) := {1}, U (1) := {1}, U (2) := {1, 3}, U (3) := {1, 3, 5, 7} etc. Im Einzelnen besteht der Beweis aus folgenden Schritten: •
Wir weisen nach, dass die Reihe (A.12) auf dem Intervall [0, 1] fast sicher absolut und gleichm¨ aßig konvergiert. Damit ist der Grenzwert der Reihe f¨ ur fast jedes ω ∈ Ω eine reelle Funktion. • Anschließend zeigen wir, dass der Grenzwert eine Brownsche Bewegung ist, also stetige Pfade besitzt und ein zentrierter Gauß-Prozess mit der passenden Kovarianzfunktion ist. Die Haar- und Schauder-Funktionen Der Grundbaustein f¨ ur unsere Gewichtsfunktionen ist die folgende Funktio(0) ur n ≥ 1, nenklasse der Haar-Funktionen. Sei H1 (t) := 1, t ∈ [0, 1], und f¨ k ∈ U (n): ⎧ n−1 k ⎪ f¨ ur k−1 ⎨2 2 2n ≤ t < 2n , n−1 (n) Hk : [0, 1] → R, t → −2 2 f¨ ur 2kn ≤ t ≤ k+1 2n , ⎪ ⎩ 0 sonst. (n)
Die Gewichtsfunktionen ∆k sind die Stammfunktionen der Haar-Funktionen. t (n) ∆k (t)
(n)
:=
Hk (u)du,
t ∈ [0, 1], k ∈ U (n).
0 (n)
Die Funktionen ∆k heißen auch Schauder-Funktionen. Wir haben den griechischen Buchstaben ∆ gew¨ ahlt, um an die Form des Graphen der SchauderFunktionen zu erinnern. In Abbildung A.1 sind f¨ ur den Fall n = 3 die Haar-
A.4 Brownsche Bewegungen
563
2 (3)
(3) N1
(3)
N3
(3) N7
N5
1
-2
H1(3)
H3(3)
H5(3)
H7(3)
Abbildung A.1. Haar-Funktionen und Schauder-Funktionen f¨ ur n = 3
(0)
Funktionen und ihre Stammfunktionen dargestellt. Es ist ∆1 (t) = t, und (n) f¨ ur n ≥ 1 bilden die Schauder-Funktionen ∆k kleine Dreiecke u ¨ber den Inur verschiedene k ∈ U (n) haben sie disjunkte tervallen der L¨ ange 21−n . F¨ Tr¨ ager. Die Schauder-Funktionen und Haar-Funktionen werden in der Funk(n) tionalanalysis studiert, weil {Hk , n ≥ 0, k ∈ U (n)} eine Orthonormalbasis (n) 2 im Hilbert-Raum L [0, 1] bilden. Diese und weitere Eigenschaften von ∆k (n) und Hk fassen wir im folgenden Satz zusammen: (n)
Satz A.24. F¨ ur die Haar-Funktionen Hk gilt:
(n)
und Schauder-Funktionen ∆k
(n)
(i) {Hk , n ≥ 0, k ∈ U (n)} ist ein vollst¨ andiges, orthonormales System in L2 [0, 1]. (ii) F¨ ur alle n ∈ N0 gilt:
(n)
∆k (t) ≤ 2
−(n+1) 2
.
(A.13)
k∈U (n)
(iii) F¨ ur s, t ∈ [0, 1] gilt: ∞
(n)
(n)
∆k (t)∆k (s) = s ∧ t.
(A.14)
n=0 k∈U (n)
Beweis. (i) Bewiesen wird diese Aussage in [KS51], einige Begriffe in diesem Zusammenhang erl¨ autern wir in Anhang B.
564
A Existenzaussagen (n)
(n)
(ii) Wir haben bereits bemerkt, dass ∆k (t) und ∆j (t) f¨ ur k, j ∈ U (n) und k = j disjunkte Tr¨ ager haben. Daher ist in der Summe h¨ochstens ein Summand von 0 verschieden und es gen¨ ugt, (n)
∆k (t) ≤ 2
−(n+1) 2
t ∈ [0, 1],
,
nachzuweisen. Weiter gen¨ ugt es, den Fall k = 1 zu betrachten. Eine elementare Integration ergibt: ⎧ n−1 ⎪ f¨ ur 0 ≤ t < 21n , ⎨2 2 t −(n+1) n−1 (n) ∆1 : [0, 1] → R, t → 2 2 − 2 2 t f¨ ur 21n ≤ t ≤ 22n , ⎪ ⎩ 0 sonst. −(n+1)
(n)
das Maximum von ∆1 . Nun ist offensichtlich 2 2 (n) (iii) F¨ ur die Orthonormalbasis {Hk , n ≥ 0, k ∈ U (n)} und zwei Funktionen 2 f, g ∈ L [0, 1] gilt nach der Parsevalschen Gleichung B.12: ∞
f, g =
(n)
(n)
f, Hk g, Hk ,
n=0 k∈U (n)
wobei f, g =
1
f (u)g(u)du das Skalarprodukt des Hilbert-Raumes L2 [0, 1]
0
bezeichnet. Setzen wir f = I[0,t] und g = I[0,s] ein, so erhalten wir mit I[0,s] I[0,t] = I[0,s∧t] : s∧t=
∞
(n)
(n)
I[0,t] , Hk I[0,s] , Hk =
n=0 k∈U (n)
∞
(n)
(n)
∆k (t)∆k (s).
n=0 k∈U (n)
Die Konvergenz der Reihe Wir beginnen nun mit unserem Beweisprogramm und zeigen als erstes die gleichm¨ aßige und absolute Konvergenz der Reihe (A.12). F¨ ur den Beweis ben¨ otigen wir eine Absch¨ atzung f¨ ur das Maximum der Betr¨age standardnormalverteilter Zufallsvariablen: (n)
Lemma A.25. Sei Zk , n ∈ N0 , k ∈ U (n), eine Folge unabh¨ angiger N(0, 1)verteilter Zufallsvariablen und (n)
mn := max |Zk |, k∈U (n)
n ∈ N0 .
Dann ist ur fast alle n) = 1. P(mn ≤ n f¨
A.4 Brownsche Bewegungen
565
Beweis. Wie immer, wenn es um die Wahrscheinlichkeit eines Limes Inferior geht, verwenden wir das Lemma von Borel-Cantelli. Zun¨achst gilt f¨ ur jedes t > 0: 2 ∞ 2 u (n) P(|Z1 | > t) = √ exp − du 2 2π t
∞ ≤
2 2 exp(− t2 ) u u exp − . du = t 2 t
t
Daraus folgt:
⎛
P(mn > n) =
⎞
(n) P⎝ {|Zk | k∈U (n)
2
(n) > n}⎠ ≤ 2n P(|Z1 | > n) ≤
2n exp(− n2 ) . n
Nun ist
2 n 2n exp(− n2 ) 2 ≤ f¨ ur n ≥ 2 n e und damit summierbar. Daher folgt aus dem Lemma von Borel-Cantelli ur unendlich viele n) = 0, also durch Komplementbildung die BeP(mn > n f¨ hauptung.
F¨ ur den Beweis der Konvergenz der Reihe (A.12) f¨ uhren wir eine Bezeichnung f¨ ur die Partialsummen ein: (N )
Bt
(ω) =
N
(n)
(n)
∆k (t)Zk (ω),
t ∈ [0, 1], N ∈ N0 .
(A.15)
n=0 k∈U (n)
Satz A.26. F¨ ur fast alle ω ∈ Ω konvergiert die Folge der Partialsummen (N ) (Bt (ω))N ∈N0 f¨ ur N → ∞ absolut und in t auf [0, 1] gleichm¨ aßig gegen eine stetige Funktion Bt (ω), t ∈ [0, 1]. Beweis. Nach Lemma A.25 gibt es ein Ω0 ⊂ Ω mit P(Ω0 ) = 1, so dass es zu jedem ω ∈ Ω0 ein n(ω) ∈ N mit (n)
mn (ω) = max |Zk (ω)| ≤ n f¨ ur alle n ≥ n(ω) k∈U (n)
angig von t ∈ [0, 1] mit (A.13): gibt. Damit gilt f¨ ur jedes ω ∈ Ω0 und unabh¨ ∞
n=n(ω) k∈U (n)
(n)
(n)
|∆k (t)Zk (ω)| ≤
∞
n2
−(n+1) 2
< ∞.
n=n(ω) (N )
Daher konvergieren die Partialsummen (Bt (ω)) absolut und in t ∈ [0, 1] gleichm¨ aßig, und wir bezeichnen den Grenzwert mit Bt (ω). Die Stetigkeit von (N ) Bt (ω) folgt aus der Stetigkeit von (Bt (ω)), N ∈ N und der gleichm¨aßigen Konvergenz.
566
A Existenzaussagen
Erwartungswert, Kovarianzfunktion, Gauß-Prozess Die absolute Konvergenz der Reihe erlaubt uns, Erwartungswert und Reihenbildung zu vertauschen. Dadurch gelingt es leicht, den Erwartungswert und die Kovarianzfunktion auszurechnen. Um schließlich nachzuweisen, dass (Bt )t∈[0,1] ein Gauß-Prozess ist, bestimmen wir die charakteristische Funktion. (N )
Satz A.27. Es sei (Bt )N ∈N die Folge der Partialsummen aus (A.15) und (N ) Bt := limN →∞ Bt , t ∈ [0, 1]. Dann ist (Bt )t∈[0,1] eine Brownsche Bewegung auf [0, 1]. (N )
ur jedes t ∈ [0, 1] Beweis. Wir wissen bereits aus Satz A.26, dass (Bt )N ∈N f¨ fast sicher konvergiert, daher ist (Bt )t∈[0,1] ein wohldefinierter stochastischer Prozess mit fast sicher stetigen Pfaden (wiederum nach Satz A.26). Es bleibt zu zeigen, dass (Bt )t∈[0,1] ein zentrierter Gauß-Prozess mit Cov(Xs , Xt ) = (n) (n) s ∧ t, s, t ∈ [0, 1] ist. Wir setzen fn (t) := ∆k (t)Zk , n ∈ N0 , so dass k∈U (n) (N ) Bt
=
N
fn (t) ist.
n=0
1. (Bt )t∈[0,1] ist zentriert: Es ist E(|fn (t)|) ≤ 2 daher ∞ E(|fn (t)|) < ∞.
−(n+1) 2
(0)
E(|Z1 |), n ∈ N0 , und
n=0
Nach dem Satz von der monotonen Konvergenz ist aber ∞ ∞ |fn (t)| = E(|fn (t)|) < ∞ E n=0
und damit
∞
n=0
|fn (t)| integrierbar, insbesondere fast sicher endlich. Damit
n=0
haben wir eine integrierbare Majorante f¨ ur die Folge der Partialsummen N (N ) Bt = fn (t) gefunden, so dass nach dem Satz von der dominierten n=1
ur alle n ∈ N0 gilt: Konvergenz und mit E (fn (t)) = 0 f¨ ∞ ∞ fn (t) = E (fn (t)) = 0. E(Bt ) = E n=0
n=0
Also ist der Prozess (Bt )t∈[0,1] zentriert. 2. Die Kovarianzfunktion: Wegen der absoluten Konvergenz (Satz A.26) N (N ) von Bt = fn gilt f¨ ur s, t ∈ [0, 1]: n=0
Cov(Bt , Bs ) = E(Bt Bs ) = E
∞ n,m=0
fn (t)fm (s) .
A.4 Brownsche Bewegungen
567
Wegen E(|fn (t)fm (s)|) ≤ 2
−(n+1) 2
2
−(m+1) 2
(0)
E(|Z1 |)2 ,
n, m ∈ N,
¨ f¨ uhrt eine v¨ ollig analoge Uberlegung wieder dazu, dass wir Erwartungswert und Reihenbildung vertauschen k¨ onnen, und wir erhalten: ∞ ∞ fn fm = E(fn fm ). Cov(Bt , Bs ) = E n,m=0
n,m=0 (n)
Wegen der Unabh¨ angigkeit der standardnormalverteilten Folge (Zk ) gilt: ⎞ ⎛ (n) (n) (m) (m) ∆k (t)Zk ∆j (s)Zj ⎠ E (fn (t)fm (s)) = E ⎝ ⎧ ⎨0, =
⎩
k∈U (n) j∈U (m)
(n)
(n)
∆k (t)∆k (s),
m = n, m = n.
k∈U (n)
Damit erhalten wir mit (A.14): Cov(Bt , Bs ) =
∞
(n)
(n)
∆k (t)∆k (s) = s ∧ t,
(A.16)
n=0 k∈U (n)
also die Kovarianzfunktion einer Brownschen Bewegung. 3. Die Gauß-Verteilung: F¨ ur den Nachweis, dass der Prozess (Bt )t∈[0,1] ein Gauß-Prozess ist, berechnen wir die charakteristische Funktion der Zufallsvariablen (Bt1 , . . . , Btm ), 0 ≤ t1 < . . . < tm ≤ 1. Zun¨achst bemerken wir, dass aus der obigen Berechnung der Kovarianzfunktion (A.16) f¨ ur ein y = (y1 , . . . , ym ) ∈ Rm folgt: ∞ n=0 k∈U (n)
⎡ ⎤2 ∞ m m m (n) (n) (n) ⎣ yj ∆k (tj )⎦ = yj yl ∆k (tj )∆k (tl ) j=1
j=1 l=1
=
m m
n=0 k∈U (n)
y j y l tj ∧ tl .
(A.17)
j=1 l=1
Wir erinnern an die charakteristische Funktion einer standardnormalverteilten Zufallsvariable Z: 2 −y E[exp(iyZ)] = exp , y ∈ R. (A.18) 2 Damit folgt f¨ ur die charakteristische Funktion von (Bt1 , . . . , Btm ) wegen der (n) Unabh¨ angigkeit der Folge (Zk ) mit y = (y1 , . . . , ym ) ∈ Rm :
568
A Existenzaussagen
⎡
⎛
ϕ(y) = E ⎣exp ⎝i
m
⎞⎤
∞
⎛
yj Btj ⎠⎦ = E ⎣exp ⎝i
j=1
=
⎡
⎡
⎛ ⎡
E ⎣exp ⎝i ⎣
n=0 k∈U (n)
m j=1
m
⎤
yj
∞
⎞⎤ (n) (n) ∆k (tj )Zk ⎠⎦
n=0 k∈U (n)
⎞⎤
(n) (n) yj ∆k (tj )⎦ Zk ⎠⎦ .
j=1
Mit (A.18) und (A.17) folgt weiter ⎛ ⎡ ⎤2 ⎞ ∞ m
⎟ ⎜ 1 (n) ϕ(y) = exp ⎝− ⎣ yj ∆k (tj )⎦ ⎠ 2 n=0 j=1 k∈U (n)
⎞ m m 1 = exp ⎝− y j y l tj ∧ tl ⎠ 2 j=1 l=1 1 = exp − y Cy , mit Cjl := tj ∧ tl , 1 ≤ j, l ≤ m. 2 ⎛
Dies ist nach Satz 7.28 gerade die charakteristische Funktion einer N(0, C)verteilten Zufallsvariable. Damit ist (Bt1 , . . . , Btm ) normalverteilt und (Bt )t≥0 ein Gauß-Prozess. Abschließend wollen wir noch kl¨ aren, wie man aus einer Brownschen Bewegung auf dem Intervall [0, 1] eine Brownsche Bewegung auf [0, ∞[ erh¨alt. Dazu (n) betrachtet man eine Folge (Bt )t∈[0,1] , n ∈ N, unabh¨angiger Brownscher Bewegungen auf [0, 1] und f¨ ugt sie schlicht aneinander: Bt :=
[t]
(k)
([t]+1)
B1 + Bt−[t] ,
t ≥ 0,
k=1
wobei wir mit [t] die gr¨ oßte ganze Zahl kleiner oder gleich t bezeichnet haben. Deutlicher wird die Konstruktion f¨ ur t ∈ [n, n + 1[: Bt :=
n
(k)
(n+1)
B1 + Bt−n ,
t ∈ [n, n + 1[.
k=1 (n)
Wegen der Unabh¨ angigkeit der Folge (Bt )t∈[0,1] u ¨bertragen sich die Verteilungseigenschaften der Brownschen Bewegung unmittelbar auf den Prozess (Bt )t≥0 .
B aume Lp -R¨
In diesem Teil des Anhangs fassen wir die wichtigsten Begriffe und Resultate aus der Funktionalanalysis zusammen, die wir in der Wahrscheinlichkeitstheorie ben¨ otigen. Die dargestellten Ergebnisse geh¨oren zu den Grundlagen der Funktionalanalysis, die in jeder Einf¨ uhrung in die Funktionalanalysis vorkommen. Wir haben daher auf Beweise verzichtet. Ausf¨ uhrliche Darstellungen findet man z.B. in [HS91], [Wer02] oder [Rud91] sowie in [Dud89] und [Els02]. Banach- und Hilbertr¨ aume Definition B.1 ((Halb-)Norm). Sei X ein reeller Vektorraum. Eine Abbildung · : X → [0, ∞[ heißt Halbnorm, falls (i) λx = |λ| x f¨ ur alle x ∈ X, λ ∈ R. (ii) x + y ≤ x + y f¨ ur alle x, y ∈ X. Gilt zus¨ atzlich (iii) x = 0 ⇔ x = 0, so heißt · eine Norm. Das Tupel (X, ·) heißt halbnormierter bzw. normierter Raum. Oft versteht sich die Norm von selbst, so dass man von einem normierten Raum X spricht. Jede (Halb-)Norm induziert auf X durch d(x, y) := x − y ,
x, y ∈ X,
eine (Halb-)Metrik, d.h. es gilt f¨ ur alle x, y, z ∈ X: (i) d(x, y) ≥ 0, (ii) d(x, y) = d(y, x), (iii) d(x, z) ≤ d(x, y) + d(y, z),
570
B Lp -R¨ aume
(iv) d(x, y) = 0 ⇔ x = y (Norm) bzw. x = y ⇒ d(x, y) = 0 (Halbnorm). Daher stehen in jedem (halb-)normierten Raum topologische Begriffe wie Konvergenz, Stetigkeit, etc. zur Verf¨ ugung. Insbesondere ist (xn ) eine CauchyFolge in X, falls es zu jedem ε > 0 ein Nε gibt, so dass xn − xm < ε f¨ ur alle n, m ≥ Nε .
Definition B.2 (Vollst¨ andigkeit, Banach-Raum). Ein halbnormierter Raum, in dem jede Cauchy-Folge konvergiert, heißt vollst¨ andig. Ein vollst¨ andiger normierter Raum heißt Banach-Raum. Die reellen Zahlen R sind ein Banach-Raum. Im Rahmen der Funktionalanalysis untersucht man typischerweise Funktionenr¨aume. So ist z.B. der Raum C[a, b] der stetigen Funktionen auf einem kompakten Intervall [a, b] mit der Supremumsnorm f ∞ := sup |f (x)| x∈[a,b]
ein Banach-Raum. Wir fixieren einen Maßraum (Ω, F, µ) und definieren: Definition B.3 (Lp -Raum). F¨ ur p ≥ 1 sei Lp := Lp (µ) := Lp (Ω, F, µ) die Menge aller messbaren Funktionen f : Ω → R mit f p :=
|f |p dµ
p1
< ∞.
Wir haben bereits in Abschnitt 2.4 darauf hingewiesen, dass man Lp -R¨aume auch f¨ ur 0 < p < 1 definieren kann, wir diese aber nicht ben¨otigen. F¨ ur jedes p ≥ 1 ist Lp ein reeller Vektorraum. Nicht offensichtlich ist dabei nur die Abgeschlossenheit gegen¨ uber Addition, diese folgt aber aus der Ungleichung |f + g|p ≤ 2p (|f |p ∨ |g|p ) ≤ 2p (|f |p + |g|p ). f p heißt p-Norm von f . Einige Eigenschaften der p-Norm auf Lp fassen wir im folgenden Satz zusammen. Satz B.4. Seien p ≥ 1, λ ∈ R und f, g ∈ Lp . Dann gilt: (i) f p ≥ 0 und aus f p = 0 folgt f = 0 µ-fast u ¨berall. (ii) λf p = |λ| f p . (iii) Ungleichung von Minkowski: f + gp ≤ f p + gp .
B Lp -R¨ aume
(iv) Ungleichung von H¨ older: Ist q ≥ 1 mit
1 p
+
1 q
571
= 1, so gilt:
f g1 ≤ f p gq . Die Ungleichungen von H¨ older und Minkowski haben wir in Abschnitt 2.4 bewiesen. Insgesamt folgt aus Satz B.4 unmittelbar: Satz B.5. Sei p ≥ 1. Dann ist (Lp , ·p ) ein halbnormierter Raum. Die Frage nach der Vollst¨ andigkeit von Lp beantwortet der Satz von RieszFischer: andiger Raum, d.h. jede Satz B.6. Sei p ≥ 1. Dann ist (Lp , ·p ) ein vollst¨ Cauchy-Folge konvergiert. Lp ist allerdings kein Banach-Raum, da · eine Halbnorm und keine Norm ist. Aus f p = 0 folgt nur f = 0 µ-fast u ¨berall. Dies hat z.B. die unangenehme Folge, dass Grenzwerte nicht eindeutig sind. Sie sind nur bestimmt bis auf ein Element des Kerns von ·p : N := {f ∈ Lp : asst sich jedoch ganz allgemein leicht reparieren, f p = 0}. Dieser Defekt l¨ wie der nachfolgende Satz zeigt. ∗
Satz B.7. Sei (X, · ) ein halbnormierter Raum. Dann gilt: (i) N := {f ∈ Lp : f p = 0} ist ein Unterraum von X. (ii) Es sei X/N der Quotientenvektorraum und [x] ∈ X/N eine Nebenklasse. Dann definiert ∗
[x] := x
eine Norm auf X/N .
(iii) Ist X vollst¨ andig, so auch X/N , d.h. X/N ist ein Banach-Raum. F¨ ur unsere Lp -R¨aume bedeutet dies, dass wir als Kern der Halbnorm N := {f ∈ Lp : f p = 0} = {f ∈ Lp : f = 0 µ-fast u ¨berall} erhalten und den Quotientenvektorraum Lp := Lp /N mit [f ]p := f p betrachten. Es folgt aus Satz B.7: Satz B.8. Sei p ≥ 1. Dann ist (Lp , ·p ) ein Banach-Raum. Es ist u ¨blich, sowohl die Halbnorm auf Lp als auch die Norm auf Lp mit ·p zu bezeichnen. Genauso unterscheidet man nicht so genau zwischen der Nebenklasse [f ] = f + N ∈ Lp und der Funktion f ∈ Lp und schreibt einfach f ∈ Lp etc. Dieses u ¨bliche Vorgehen ist im Allgemeinen unproblematisch, da Operationen auf Lp durch Vertreter der Nebenklassen in Lp gegeben sind.
572
B Lp -R¨ aume
Der Hilbert-Raum L2 Der Fall p = 2 nimmt eine Sonderstellung ein. Um dies zu erl¨autern, erinnern wir an den Begriff eines Skalarprodukts: Eine Funktion ·, · : H × H → R auf einem reellen Vektorraum H heißt Skalarprodukt, falls gilt: (i) (ii) (iii) (iv)
λf + g, h = λf, h + g, h f¨ ur alle λ ∈ R, f, g ∈ H. f, g = g, f f¨ ur alle f, g ∈ H. f, f ≥ 0 f¨ ur alle f ∈ H. f, f = 0 impliziert f = 0.
Ein Skalarprodukt ist demnach (i) bilinear, (ii) symmetrisch, (iii) + (iv) positiv definit. Satz B.9. Seien f, g ∈ L2 . Dann ist
f, g :=
f gdµ
ein Skalarprodukt auf L2 . Weiter gilt: 1
f 2 = f, f 2
f¨ ur alle f ∈ L2 .
Dieses Resultat motiviert die folgende Definition: Definition B.10 (Hilbert-Raum). Ein normierter Raum (H, ·) heißt Pr¨ a-Hilbert-Raum, wenn es ein Skalarprodukt ·, · auf H × H gibt, so dass 1
x = x, x 2
f¨ ur alle x ∈ X
gilt. Ein vollst¨ andiger Pr¨ a-Hilbert-Raum heißt Hilbert-Raum. Satz B.9 bedeutet also, dass (L2 , ·2 ) durch das Skalarprodukt f, g := f gdµ, f, g ∈ L2 , zu einem Hilbert-Raum wird. Einige Eigenschaften von Hilbert-R¨aumen fassen wir zusammen: Satz B.11. Sei H ein Hilbert-Raum. Dann gilt: (i) Cauchy-Schwarzsche Ungleichung: |x, y| ≤ x y
f¨ ur alle x, y ∈ H.
(ii) Parallelogrammgleichung: 2
2
2
2
x + y + x − y = 2 x + 2 y
(iii) Das Skalarprodukt ·, · : H × H → R ist stetig.
f¨ ur alle x, y ∈ H.
B Lp -R¨ aume
573
Orthonormale Folgen Sei H ein Hilbert-Raum und E ⊂ H. E heißt Orthonormalsystem, falls f¨ ur alle ei , ej ∈ E gilt: 1 f¨ ur i = j, ei , ej = δij = 0 f¨ ur i = j. Ein Orthonormalsystem E heißt vollst¨ andiges Orthonormalsystem oder Orthonormalbasis, falls gilt: E ⊂ F, F Orthonormalsystem ⇒ F = E. Warum E in diesem Fall als Basis bezeichnet wird, kl¨art der folgende Satz: Satz B.12. Sei H ein Hilbert-Raum und E ⊂ H ein Orthonormalsystem. Dann sind folgende Aussagen ¨ aquivalent: (i) E ist eine Orthonormalbasis. (ii) Es gilt H = lin E, der abgeschlossenen linearen H¨ ulle von E. (iii) F¨ ur jedes x ∈ H gilt: x= x, ee. e∈E
(iv) Parsevalsche Gleichung: F¨ ur jedes x, y ∈ H gilt: x, ey, e. x, y = e∈E
Eigenschaft (iii) motiviert die Bezeichnung Basis. Jeder Hilbert-Raum H besitzt eine Orthonormalbasis. Ist H separabel, d.h. existiert eine abz¨ahlbare dichte Teilmenge von H, so sind alle Orthonormalbasen von H sogar abz¨ahlbar. Ist µ := λ|[a, b] das Lebesgue-Maß eingeschr¨ankt auf das Intervall [a, b], so setzen wir L2 [a, b] := L2 (µ). Betrachten wir L2 [0, 2π], so ist dies ein separabler Hilbert-Raum mit der Orthonormalbasis 1 1 1 √ √ √ id[0,2π] ∪ cos(nx) : n ∈ N ∪ sin(nx) : n ∈ N . E := π π 2π Die Orthonormalit¨ at von E folgt durch partielle Integration. F¨ ur den Nachweis der Basiseigenschaft verwendet man Eigenschaft (ii). Es ist allerdings nicht offensichtlich, dass lin E, die Menge der trigonometrischen Polynome, dicht in ahlbare Orthonormalbasis von L2 [0, 1], so hat L2 [0, 2π] liegt. Ist (en ) eine abz¨ die Parsevalsche Gleichung die Gestalt: f, g =
∞ n=1
f, en g, en .
B Lp -R¨ aume
574
Eine Basis von L2 [0, 1] bilden auch die so genannten Haar-Funktionen: Wir bezeichnen mit U (n) die ungeraden Zahlen zwischen 1 und 2n : U (n) := {k ∈ N0 : 0 ≤ k ≤ 2n , k ungerade}, also U (0) := {1}, U (1) := {1}, U (2) := {1, 3}, U (3) := {1, 3, 5, 7} etc. Die Haar-Funktionen sind dann gegeben durch f¨ ur n ≥ 1, k ∈ U (n): ⎧ n−1 ⎪ ⎨2 2 n−1 (n) Hk : [0, 1] → R, t → −2 2 ⎪ ⎩ 0
(0)
H1 (t) := 1, t ∈ [0, 1], und k f¨ ur k−1 2n ≤ t < 2n , f¨ ur 2kn ≤ t ≤ k+1 2n , sonst.
(n)
{Hk , n ≥ 0, k ∈ U (n)} bilden eine Orthonormalbasis des separablen HilbertRaums L2 [0, 1], siehe z.B. [KS51]. Speziell erhalten wir die Parsevalsche Gleichung ∞ (n) (n) f, Hk g, Hk , f, g ∈ L2 [0, 1]. f, g = n=0 k∈U (n)
Die Haarfunktionen spielen eine zentrale Rolle f¨ ur unseren Existenzbeweis der Brownsche Bewegung, vgl. Abschnitt A.4. Darstellung von Linearformen Jede lineare Funktion f : Rn → R ist stetig und kann als Skalarprodukt dargestellt werden (ei sei der i-te Einheitsvektor): f (x) =
n
xi hi = x, h,
mit hi := f (ei ),
i = 1, . . . , n.
i=1
Diese Eigenschaft u agt sich auf stetige Linearformen, also stetige lineare ¨bertr¨ Abbildungen f : H → R auf einem Hilbert-Raum H: Theorem B.13 (Darstellungssatz von Riesz-Fr´ echet). Sei H ein HilbertRaum und f : H → R eine stetige Linearform. Dann gibt es ein h ∈ H mit f (x) = x, h
f¨ ur alle x ∈ X.
Dieser Darstellungssatz kann f¨ ur den Beweis des Satzes von Radon-Nikodym verwendet werden, vgl. Abschnitt 2.5.
B Lp -R¨ aume
575
Gleichm¨ aßige Beschr¨ anktheit Seien X und Y normierte R¨ aume und L(X, Y ) := {T : X → Y : T linear und stetig}. Ein T ∈ L(X, Y ) bezeichnet man als stetigen Operator, im Fall Y = R als stetiges Funktional. Eine lineare Abbildung T : X → Y ist genau dann stetig, wenn es ein M > 0 gibt, so dass T (x) ≤ M x
f¨ ur alle x ∈ X.
Daher ist es sinnvoll, die Gr¨ oße T := sup T (x) = sup T (x) = sup
x =1
x ≤1
x=0
T (x) x
zu definieren. T ist genau dann endlich, wenn T stetig und damit ein stetiger Operator ist. In diesem Fall wird T als Operatornorm bezeichnet. Diese Bezeichnung ist gerechtfertigt, da T eine Norm auf L(X, Y ) definiert. Ist X ein Banach-Raum, so gilt f¨ ur eine Familie stetiger Operatoren das Prinzip der gleichm¨ aßigen Beschr¨ anktheit“, das auch als Theorem von ” Banach-Steinhaus bekannt ist: Theorem B.14 (Banach-Steinhaus). Sei X ein Banach-Raum und Y ein normierter Raum. Gilt f¨ ur eine Familie stetiger Operatoren Ti ∈ L(X, Y ), i∈I ur alle x ∈ X, sup Ti (x) < ∞ f¨ i∈I
so folgt: sup Ti < ∞. i∈I
Dieses Resultat verwenden wir in Abschnitt 14.1, um zu zeigen, dass man ein Integral nach einer Brownschen Bewegung nicht pfadweise definieren kann, vgl. Satz 14.7. Approximative Eins Ist (G, ∗) eine Gruppe, so ist das Einselement e ∈ G eindeutig charakterisiert durch die Eigenschaft e∗g =g∗e=g
f¨ ur alle g ∈ G.
Es gibt algebraische Strukturen, in denen es kein solches Einselement geben muss (z.B. Ringe), es jedoch eine Folge von Elementen gibt, die sich im Grenzwert wie ein Einselement verhalten. Eine solche Situation tritt auf, wenn man
B Lp -R¨ aume
576
den Funktionenraum L1 (R) der (bzgl. des Lebesgue-Maßes) integrierbaren Funktionen sowie die Faltung auf L1 (R) betrachtet: (f ∗ g)(t) := f (s)g(t − s)ds, f, g ∈ L1 (R). R
Definition B.15 (approximative Eins). Eine Folge von Funktionen (hn ) aus L1 (R) heißt approximative Eins, falls gilt: (i) hn ≥ 0 f¨ ur alle n ∈ N. ur alle n ∈ N. (ii) hn (s)ds = 1 f¨ R
(iii) lim
∞
n→∞ ε
|hn (s)|ds = 0 f¨ ur alle ε > 0.
Es gibt allgemeinere Definitionen approximativer Einsen, diese reicht f¨ ur unsere Zwecke jedoch v¨ ollig aus. Entscheidend ist, dass sich die Funktionen im Grenzwert so um den Nullpunkt konzentrieren, dass das Integral stets den Wert 1 annimmt. Approximative Einsen spielen in der Theorie der FourierReihen eine wichtige Rolle. Ihr Name wird durch das folgende Resultat gerechtfertigt. Satz B.16. Sei (hn ) eine approximative Eins aus L1 (R). Dann gilt: L1
hn ∗ f −→ f
f¨ ur alle f ∈ L1 (R).
Wir verwenden eine approximative Eins im Beweis von Satz 14.13, um zu zeigen, dass die elementaren progressiv messbaren Prozesse in P 2 dicht liegen. Mehr zum Thema approximative Einsen findet man z.B. bei [K¨on02], [Las96] oder [Edw79].
C Wertetabellen C.1 Verteilung der Standardnormalverteilung 1 Φ(u) = √ · 2π
2 t exp − dt = 1 − Φ(−u) , 2 −∞
u
z.B. Φ(1.32) = 0.90658 .
u
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0 0.1 0.2 0.3 0.4
0.50000 0.53983 0.57926 0.61791 0.65542
0.50399 0.54380 0.58317 0.62172 0.65910
0.50798 0.54776 0.58707 0.62552 0.66276
0.51197 0.55172 0.59096 0.62930 0.66640
0.51595 0.55567 0.59484 0.63307 0.67003
0.51994 0.55962 0.59871 0.63683 0.67364
0.52392 0.56356 0.60257 0.64058 0.67724
0.52791 0.56750 0.60642 0.64431 0.68082
0.53188 0.57143 0.61026 0.64803 0.68438
0.53586 0.57535 0.61409 0.65173 0.68793
0.5 0.6 0.7 0.8 0.9
0.69146 0.72575 0.75804 0.78814 0.81594
0.69497 0.72907 0.76115 0.79103 0.81859
0.69847 0.73237 0.76424 0.79389 0.82121
0.70194 0.73565 0.76730 0.79673 0.82381
0.70540 0.73891 0.77035 0.79955 0.82639
0.70884 0.74215 0.77337 0.80234 0.82894
0.71226 0.74537 0.77637 0.80511 0.83147
0.71566 0.74857 0.77935 0.80785 0.83398
0.71904 0.75175 0.78230 0.81057 0.83646
0.72240 0.75490 0.78524 0.81327 0.83891
1.0 1.1 1.2 1.3 1.4
0.84135 0.86433 0.88493 0.90320 0.91924
0.84375 0.86650 0.88686 0.90490 0.92073
0.84614 0.86864 0.88877 0.90658 0.92220
0.84850 0.87076 0.89065 0.90824 0.92364
0.85083 0.87286 0.89251 0.90988 0.92507
0.85314 0.87493 0.89435 0.91149 0.92647
0.85543 0.87698 0.89617 0.91309 0.92786
0.85769 0.87900 0.89796 0.91466 0.92922
0.85993 0.88100 0.89973 0.91621 0.93056
0.86214 0.88298 0.90148 0.91774 0.93189
1.5 1.6 1.7 1.8 1.9
0.93319 0.94520 0.95543 0.96407 0.97128
0.93448 0.94630 0.95637 0.96485 0.97193
0.93574 0.94738 0.95728 0.96562 0.97257
0.93699 0.94845 0.95819 0.96638 0.97320
0.93822 0.94950 0.95907 0.96712 0.97381
0.93943 0.95053 0.95994 0.96784 0.97441
0.94062 0.95154 0.96080 0.96856 0.97500
0.94179 0.95254 0.96164 0.96926 0.97558
0.94295 0.95352 0.96246 0.96995 0.97615
0.94408 0.95449 0.96327 0.97062 0.97670
2.0 2.1 2.2 2.3 2.4
0.97725 0.98214 0.98610 0.98928 0.99180
0.97778 0.98257 0.98645 0.98956 0.99202
0.97831 0.98300 0.98679 0.98983 0.99224
0.97882 0.98341 0.98713 0.99010 0.99245
0.97932 0.98382 0.98745 0.99036 0.99266
0.97982 0.98422 0.98778 0.99061 0.99286
0.98030 0.98461 0.98809 0.99086 0.99305
0.98077 0.98500 0.98840 0.99111 0.99324
0.98124 0.98537 0.98870 0.99134 0.99343
0.98169 0.98574 0.98899 0.99158 0.99361
2.5 2.6 2.7 2.8 2.9
0.99379 0.99534 0.99653 0.99744 0.99813
0.99396 0.99547 0.99664 0.99752 0.99819
0.99413 0.99560 0.99674 0.99760 0.99825
0.99430 0.99573 0.99683 0.99767 0.99831
0.99446 0.99585 0.99693 0.99774 0.99836
0.99461 0.99598 0.99702 0.99781 0.99841
0.99477 0.99609 0.99711 0.99788 0.99846
0.99492 0.99621 0.99720 0.99795 0.99851
0.99506 0.99632 0.99728 0.99801 0.99856
0.99520 0.99643 0.99736 0.99807 0.99861
3.0 3.1 3.2 3.3 3.4
0.99865 0.99903 0.99931 0.99952 0.99966
0.99869 0.99906 0.99934 0.99953 0.99968
0.99874 0.99910 0.99936 0.99955 0.99969
0.99878 0.99913 0.99938 0.99957 0.99970
0.99882 0.99916 0.99940 0.99958 0.99971
0.99886 0.99918 0.99942 0.99960 0.99972
0.99889 0.99921 0.99944 0.99961 0.99973
0.99893 0.99924 0.99946 0.99962 0.99974
0.99896 0.99926 0.99948 0.99964 0.99975
0.99900 0.99929 0.99950 0.99965 0.99976
3.5 3.6 3.7 3.8 3.9
0.99977 0.99984 0.99989 0.99993 0.99995
0.99978 0.99985 0.99990 0.99993 0.99995
0.99978 0.99985 0.99990 0.99993 0.99996
0.99979 0.99986 0.99990 0.99994 0.99996
0.99980 0.99986 0.99991 0.99994 0.99996
0.99981 0.99987 0.99991 0.99994 0.99996
0.99981 0.99987 0.99992 0.99994 0.99996
0.99982 0.99988 0.99992 0.99995 0.99996
0.99983 0.99988 0.99992 0.99995 0.99997
0.99983 0.99989 0.99992 0.99995 0.99997
578
C Wertetabellen
C.2 Quantile der t-Verteilung X sei tn -verteilt. Die folgende Tabelle gibt die tn -Quantile an, f¨ ur die definitionsgem¨ aß gilt: P(X ≤ tn;α ) = α, z.B. t20;0.90 = 1.325. α
0.80
0.90
0.95
0.975
0.99
0.995
0.999
0.9995
1 2 3 4 5
1.376 1.061 0.978 0.941 0.920
3.078 1.886 1.638 1.533 1.476
6.314 2.920 2.353 2.132 2.015
12.71 4.303 3.182 2.776 2.571
31.82 6.965 4.541 3.747 3.365
63.66 9.925 5.841 4.604 4.032
318.3 22.33 10.21 7.173 5.893
636.6 31.60 12.92 8.610 6.869
6 7 8 9 10
0.906 0.896 0.889 0.883 0.879
1.440 1.415 1.397 1.383 1.372
1.943 1.895 1.859 1.833 1.812
2.447 2.365 2.306 2.262 2.228
3.143 2.998 2.896 2.821 2.764
3.708 3.499 3.355 3.250 3.169
5.208 4.785 4.500 4.296 4.143
5.959 5.408 5.041 4.781 4.587
11 12 13 14 15
0.876 0.873 0.870 0.868 0.866
1.363 1.356 1.350 1.345 1.341
1.796 1.782 1.771 1.761 1.753
2.201 2.179 2.160 2.145 2.131
2.718 2.681 2.650 2.624 2.602
3.106 3.054 3.012 2.977 2.947
4.024 3.929 3.852 3.787 3.732
4.437 4.318 4.221 4.140 4.073
16 17 18 19 20
0.865 0.863 0.862 0.861 0.860
1.337 1.333 1.330 1.328 1.325
1.746 1.740 1.734 1.729 1.725
2.120 2.110 2.101 2.093 2.086
2.583 2.567 2.552 2.539 2.528
2.921 2.898 2.878 2.861 2.845
3.686 3.645 3.610 3.579 3.551
4.015 3.965 3.922 3.883 3.849
21 22 23 24 25
0.859 0.858 0.858 0.857 0.856
1.323 1.321 1.319 1.318 1.316
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.059
2.518 2.508 2.500 2.492 2.485
2.831 2.819 2.807 2.797 2.787
3.527 3.505 3.485 3.466 3.450
3.819 3.792 3.768 3.745 3.725
26 27 28 29 30
0.856 0.855 0.855 0.854 0.854
1.315 1.314 1.313 1.311 1.310
1.706 1.703 1.701 1.699 1.697
2.055 2.052 2.048 2.045 2.042
2.479 2.473 2.467 2.462 2.457
2.779 2.771 2.763 2.756 2.750
3.435 3.421 3.408 3.396 3.385
3.707 3.689 3.674 3.659 3.646
40 50 60 80
0.851 0.849 0.848 0.846
1.303 1.299 1.296 1.292
1.684 1.676 1.671 1.664
2.021 2.009 2.000 1.990
2.423 2.403 2.390 2.374
2.704 2.678 2.660 2.639
3.307 3.261 3.231 3.195
3.551 3.496 3.460 3.416
100 200 500
0.845 0.843 0.842
1.290 1.286 1.283
1.660 1.653 1.648
1.984 1.972 1.965
2.364 2.345 2.334
2.626 2.601 2.586
3.174 3.131 3.106
3.390 3.340 3.310
n
C.3 Quantile der χ2 -Verteilung
579
C.3 Quantile der χ2 -Verteilung X sei χ2n -verteilt. Die folgende Tabelle gibt die χ2n -Quantile an, f¨ ur die definitionsgem¨ aß gilt: P(X ≤ χ2n;α ) = α, z.B. χ220;0.90 = 28.412. α n
0.005
0.01
0.025
0.05
0.1
0.9
0.95
0.975
0.99
0.995
1 2 3 4 5
3.9E-5 0.0100 0.0717 0.2070 0.4117
0.0002 0.0201 0.1148 0.2971 0.5543
0.0010 0.0506 0.2158 0.4844 0.8312
0.0039 0.1026 0.3518 0.7107 1.1455
0.0158 0.2107 0.5844 1.0636 1.6103
2.7055 4.6052 6.2514 7.7794 9.2364
3.8415 5.9915 7.8147 9.4877 11.070
5.0239 7.3778 9.3484 11.143 12.833
6.6349 9.2103 11.345 13.277 15.086
7.8794 10.597 12.838 14.860 16.750
6 7 8 9 10
0.6757 0.9893 1.3444 1.7349 2.1559
0.8721 1.2390 1.6465 2.0879 2.5582
1.2373 1.6899 2.1797 2.7004 3.2470
1.6354 2.1673 2.7326 3.3251 3.9403
2.2041 2.8331 3.4895 4.1682 4.8652
10.645 12.017 13.362 14.684 15.987
12.592 14.067 15.507 16.919 18.307
14.449 16.013 17.535 19.023 20.483
16.812 18.475 20.090 21.666 23.209
18.548 20.278 21.955 23.589 25.188
11 12 13 14 15
2.6032 3.0738 3.5650 4.0747 4.6009
3.0535 3.5706 4.1069 4.6604 5.2293
3.8157 4.4038 5.0088 5.6287 6.2621
4.5748 5.2260 5.8919 6.5706 7.2609
5.5778 6.3038 7.0415 7.7895 8.5468
17.275 18.549 19.812 21.064 22.307
19.675 21.026 22.362 23.685 24.996
21.920 23.337 24.736 26.119 27.488
24.725 26.217 27.688 29.141 30.578
26.757 28.300 29.819 31.319 32.801
16 17 18 19 20
5.1422 5.6972 6.2648 6.8440 7.4338
5.8122 6.4078 7.0149 7.6327 8.2604
6.9077 7.5642 8.2307 8.9065 9.5908
7.9616 8.6718 9.3905 10.117 10.851
9.3122 10.085 10.865 11.651 12.443
23.542 24.769 25.989 27.204 28.412
26.296 27.587 28.869 30.144 31.410
28.845 30.191 31.526 32.852 34.170
32.000 33.409 34.805 36.191 37.566
34.267 35.718 37.156 38.582 39.997
21 22 23 24 25
8.0337 8.6427 9.2604 9.8862 10.520
8.8972 9.5425 10.196 10.856 11.524
10.283 10.982 11.689 12.401 13.120
11.591 12.338 13.091 13.848 14.611
13.240 14.041 14.848 15.659 16.473
29.615 30.813 32.007 33.196 34.382
32.671 33.924 35.172 36.415 37.652
35.479 36.781 38.076 39.364 40.646
38.932 40.289 41.638 42.980 44.314
41.401 42.796 44.181 45.559 46.928
26 27 28 29 30
11.160 11.808 12.461 13.121 13.787
12.198 12.879 13.565 14.256 14.953
13.844 14.573 15.308 16.047 16.791
15.379 16.151 16.928 17.708 18.493
17.292 18.114 18.939 19.768 20.599
35.563 36.741 37.916 39.087 40.256
38.885 40.113 41.337 42.557 43.773
41.923 43.195 44.461 45.722 46.979
45.642 46.963 48.278 49.588 50.892
48.290 49.645 50.993 52.336 53.672
35 40 45 50 55
17.192 20.707 24.311 27.991 31.735
18.509 22.164 25.901 29.707 33.570
20.569 24.433 28.366 32.357 36.398
22.465 26.509 30.612 34.764 38.958
24.797 29.051 33.350 37.689 42.060
46.059 51.805 57.505 63.167 68.796
49.802 55.758 61.656 67.505 73.311
53.203 59.342 65.410 71.420 77.380
57.342 63.691 69.957 76.154 82.292
60.275 66.766 73.166 79.490 85.749
60 70 80
35.534 43.275 51.172
37.485 45.442 53.540
40.482 48.758 57.153
43.188 51.739 60.391
46.459 55.329 64.278
74.397 85.527 96.578
79.082 90.531 101.88
83.298 95.023 106.63
88.379 100.43 112.33
91.952 104.21 116.32
D Wahrscheinlichkeitstheorie zum Nachschlagen
In diesem Anhang haben wir die am h¨ aufigsten zitierten Resultate der Wahrscheinlichkeitstheorie zum Nachschlagen zusammengefasst. S¨atze, die hier zu finden sind, sind im Text durch die Verwendung von Kapit¨ alchen hervorgehoben. Standardbeweisprinzip aus der Maßtheorie Standardprozedur: Wir wollen eine Behauptung f¨ ur eine Funktionenklasse beweisen: (i) Wir zeigen die Behauptung f¨ ur alle Indikatorfunktionen f = IA , A ∈ F. (ii) Wir benutzen Linearit¨ at, um die Behauptung f¨ ur alle f ∈ T + zu zeigen. (iii) Aus dem Satz von der monotonen Konvergenz 2.7 folgt die Behauptung f¨ ur alle f ∈ M + . (iv) Gelegentlich k¨ onnen wir wegen f = f + − f − , f + , f − ∈ M + noch einen Schritt weiter gehen und die Behauptung auf diesem Weg f¨ ur alle inte¯ zeigen. grierbaren numerischen Funktionen f : Ω → R
Maßeindeutigkeitssatz Maßeindeutigkeitssatz: Es seien µ und ν zwei Maße auf einem Messraum (Ω, F) und E ein durchschnittsstabiler Erzeuger von F mit folgenden Eigenschaften: (i) µ(E) = ν(E) f¨ ur alle E ∈ E. (ii) Es gibt eine Folge (En )n∈N disjunkter Mengen aus E mit µ(En ) = ν(En ) < ∞
und
∞ n=1
Dann folgt µ = ν.
En = Ω.
582
D Wahrscheinlichkeitstheorie zum Nachschlagen
Borel-Cantelli Lemma von Borel-Cantelli: Sei (An ) eine Folge von Ereignissen. (i) Ist
∞
P(An ) < ∞, so folgt P(lim sup An ) = 0.
n=1
angig, so gilt: (ii) Sind die Ereignisse (An ) unabh¨ Ist
∞
P(An ) = ∞, so folgt P(lim sup An ) = 1.
n=1
Ungleichungen Markov-Ungleichung: Sei X eine reelle Zufallsvariable und ε > 0. Dann gilt: E(|X|) P(|X| ≥ ε) ≤ . ε
Tschebyschev-Ungleichung: Sei X eine integrierbare Zufallsvariable und ε > 0. Dann gilt: V(X) P(|X − E(X)| ≥ ε) ≤ . ε2 Jensensche Ungleichung: Sei φ : I → R eine konvexe Funktion auf einem Intervall I und X : Ω → I eine integrierbare Zufallsvariable. Dann ist E(X) ∈ I, φ(X) quasiintegrierbar und φ(E(X)) ≤ E(φ(X)). Konvergenzs¨ atze Satz von der monotonen Konvergenz: Ist 0 ≤ Xn ↑ X, so folgt E(Xn ) ↑ E(X).
Lemma von Fatou: Ist Xn ≥ 0 f¨ ur alle n ∈ N, so folgt E(lim inf Xn ) ≤ lim inf E(Xn ). n→∞
n→∞
D Wahrscheinlichkeitstheorie zum Nachschlagen
583
Satz von der dominierten Konvergenz: Gilt Xn → X fast sicher sour alle n ∈ N, so folgt E(|X|) < ∞ und wie E(|Y |) < ∞ und |Xn | ≤ Y f¨ ur alle n ∈ N sowie E(|Xn |) < ∞ f¨ E(|Xn − X|) −→ 0. Grenzwerts¨ atze Wir geben an dieser Stelle die Grenzwerts¨ atze jeweils f¨ ur eine Folge unabh¨ angiger und identisch verteilter Zufallsvariablen an. Weitere Varianten stehen in den Abschnitten 6.2 bzw. 7.4. Starkes Gesetz des großen Zahlen: Ist (Xn ) eine Folge unabh¨angiger und identisch verteilter Zufallsvariablen mit E(|X1 |) < ∞, so gilt: 1 Xi −→ E(X1 ) n i=1 n
fast sicher.
Zentraler Grenzwertsatz: Sei (Xn ) eine Folge unabh¨angiger und identisch verteilter Zufallsvariablen mit σ 2 = V(X1 ) < ∞. Dann gilt n i=1
(Xi − E(X1 )) d √ −→ χ, σ n
wobei χ N(0, 1)-verteilt ist. Eigenschaften bedingter Erwartungen Eigenschaften bedingter Erwartungen: Seien X, X1 und X2 integrierbare Zufallsvariablen und G, H Sub-σ-Algebren von F. Dann gilt: (i) Ist Y eine Version von E(X|G), so ist E(Y ) = E(X). (ii) Ist X G-messbar, so ist E(X|G) = X fast sicher. (iii) Linearit¨ at: F¨ ur a1 , a2 ∈ R ist E(a1 X1 + a2 X2 |G) = a1 E(X1 |G) + a2 E(X2 |G)
fast sicher.
(iv) Monotonie: Ist X1 ≤ X2 , so ist E(X1 |G) ≤ E(X2 |G). (v) bedingte Jensensche Ungleichung: Ist φ : R → R konvex und φ(X) integrierbar, so gilt: φ(E(X|G)) ≤ E(φ(X)|G). (vi) Projektionseigenschaft: Ist H ⊂ G ⊂ F, so gilt: E(E(X|G)|H) = E(X|H) fast sicher. (vii) Ist X G-messbar, so folgt: E(XY |G) = XE(Y |G) fast sicher. (viii) Sind σ(X) und G unabh¨ angig, so gilt: E(X|G) = E(X).
E Literaturhinweise
Wie bereits im Vorwort erw¨ ahnt, haben wir im Text weitgehend auf Literaturhinweise verzichtet. An dieser Stelle wollen wir denjenigen Autoren danken, an deren Arbeiten wir uns orientiert haben und gleichzeitig Hinweise f¨ ur ein begleitendes, alternatives oder weiterf¨ uhrendes Studium der dargestellten Theorie geben. Literaturhinweise zu den Anwendungen befinden sich in den entsprechenden Abschnitten. Maßtheorie Eine umfassende Einf¨ uhrung in die Maß- und Integrationstheorie bietet [Els02], von dem wir reichlich profitiert haben. Neben der pr¨azisen Darstellung der Mathematik enth¨ alt es zahlreiche Kurzbiographien der Mathematiker, die Beitr¨ age zur Maß- und Integrationstheorie geleistet haben. Weitere B¨ ucher zur Maßtheorie, die wir verwendet haben, sind [Bau92], [Hac87] und [Hen85]. ¨ Ahnlich wie in unserem Fall gibt es zahlreiche B¨ ucher zur Wahrscheinlichkeitstheorie, die Kapitel oder einen Anhang zur Maßtheorie enthalten, z.B. [Dur91], [Bil95] oder [Kal02]. Wahrscheinlichkeitstheorie Die von uns in diesem Teil dargestellte Theorie geh¨ort, vielleicht mit Ausnahme des Drei-Reihen-Theorems und bedingter Erwartungen, zum klassischen Kanon einer Einf¨ uhrung in die Wahrscheinlichkeitstheorie. Daher gibt es eine Vielzahl von Lehrb¨ uchern, die auf unterschiedlichen Niveaus ¨ahnliche Inhalte vermitteln, an denen wir uns orientieren konnten. Einen leichten Einstieg in die Wahrscheinlichkeitstheorie erm¨oglichen [Hen03], [Irl01], [Kre02] und [Ros00]. Weiter seien [ADD00], [Bau02], [Bil95], [Dur91], [Geo02], [Hes03], [Sch96b] sowie [Wil01] genannt, wobei [Geo02] genau wie [Irl01] auch eine Einf¨ uhrung in die Statistik enthalten. Als Klassiker gelten die beiden B¨ande [Fel68] und [Fel71]. F¨ ur die bedingten Erwartungen haben wir vor allem [Wil91] und [Bau02] verwendet. Das Drei-Reihen-Theorem findet man
586
E Literaturhinweise
¨ahnlich in [ADD00], [Bil95] und mit einem martingaltheoretischen Beweis in [Wil91]. Stochastische Prozesse Dem fortgeschritteneren Inhalt entsprechend geben wir an dieser Stelle Literaturhinweise f¨ ur jedes einzelne Kapitel. Abschnitte zu Markov-Ketten sind in vielen B¨ uchern zur Wahrscheinlichkeitstheorie enthalten, z.B. in [Bil95], [Geo02], [Hes03], [Dur91]. Markov-Ketten in diskreter und in stetiger Zeit findet man in B¨ uchern u ¨ber stochastische Prozesse, z.B. [Dur99] und [Res92], oder in spezieller Literatur zu Markov-Ketten, z.B. [Br´e99] oder [Nor98]. Poisson-Prozesse werden in B¨ uchern zur Wahrscheinlichkeitstheorie meist nur kurz erw¨ ahnt. Ausf¨ uhrlicher werden sie in [Br´e99], [Dur99], [Nor98], [Ros96] sowie im allgemeineren Rahmen der Theorie der Punktprozesse in [Res92] sowie [DVJ03] behandelt, die insbesondere auch auf nichthomogene Poisson-Prozesse eingehen. Martingale sind f¨ ur die Finanzmathematik von u ¨berragender Bedeutung. Daher findet man in vielen B¨ uchern zur Finanzmathematik eine Einf¨ uhrung in die zeitdiskrete oder auch zeitstetige Martingaltheorie, z.B. in [Irl98] oder [Ste01]. Eine finanzmathematikfreie Darstellung der zeitdiskreten Martingaltheorie ist [Wil91]. Ebenfalls ganz der zeitdiskreten Theorie ist [Nev75] gewidmet. Weiter findet man Kapitel u ¨ber zeitdiskrete Martingale z.B. in [Bil95], [Dur99], [Dur91], [Hes03] und [Ros96]. Die Brownsche Bewegung findet man selten im mittleren Teil eines Buches. Entweder sie bildet den kr¨ onenden Abschluss einer Entwicklung, oder sie dient als Ausgangspunkt f¨ ur die Besch¨ aftigung mit stetigen Martingalen oder stochastischer Analysis. Ersteres ist z.B. in [ADD00], [Bau02], [Bil95], [Dud89], [Dur91] und [Dur99] der Fall. Letzteres trifft z.B. auf [Dur84], [KS91] oder [RY99] zu. Erw¨ ahnen wollen wir noch den Klassiker [IM96] sowie die Formelsammlung“ zur Brownschen Bewegung [BS02]. ” F¨ ur die allgemeine Martingaltheorie verweisen wir wieder auf [KS91] und [RY99], die jedoch weit u asentierten Umfang hinausgehen. ¨ber den von uns pr¨ Das gleiche gilt f¨ ur die Klassiker [DM82], [Mey72] und [RW00a]. Die wichtigsten Resultate findet man auch in [Ste01] sowie in [Bau02]. Das Itˆo-Integral f¨ ur die Brownsche Bewegung als Integrator wird in [Ste01] eingef¨ uhrt. Unsere Darstellung haben wir an [Dur84] und [CW90] angelehnt. Weitere B¨ ucher, die die allgemeine Theorie der stochastischen Integration und stochastischer Differentialgleichungen pr¨ asentieren, sind z.B. [HT94], [KS91], [RY99], [RW00b] und [Øks98]. Wir h¨ atten von der Definition der σ-Algebra bis zur Itˆ o-Formel jedes Mal auch Kallenbergs Werk [Kal02] zitieren k¨ onnen. Es enth¨alt alles von der Maßtheorie u ¨ber die Martingaltheorie und Markov-Prozesse bis zur stochastischen Integration und noch sehr viel mehr. Es versteht sich von selbst, dass dies eine sehr kompakte Schreibweise erfordert, die f¨ ur einen Einstieg eher ungeeignet ist. Was dieses Buch jedoch f¨ ur den fortgeschrittenen Studenten bis
E Literaturhinweise
587
zum aktiven Forscher zu leisten im Stande ist, kann man den Lobpreisungen entnehmen, die in der zweiten Auflage abgedruckt sind. Statistik Einf¨ uhrungen in die Statistik bieten die B¨ ucher [BB93], [LW00] sowie im Rahmen eines Stochastiklehrbuchs [Geo02] und [Irl01]. Als weiterf¨ uhrende Literatur seien die Klassiker [Leh97] und [LC98], [CH74], [CH78] sowie die Monographien [Wit85] und [WMF95] genannt.
Literatur
[ABH+ 01] Alber, G., T. Beth, M. Horodecki, P. Horodecki, R. Horodecki, M. R¨ otteler, H. Weinfurter, R. Werner und A. Zeilinger: Quantum information. Springer Tracts in Modern Physics, 173, Berlin: Springer, 2001. ´ans-Dade: Probability and measure theory, 2nd [ADD00] Ash, R.B. und C. Dole ed. San Diego: Academic Press, 2000. [AS01] Albanese, C. und L. Seco: Harmonic analysis in value at risk calculations. Rev. Mat. Iberoam., 17(2):195–219, 2001. [Bau92] Bauer, H.: Maß- und Integrationstheorie, 2. Aufl. de Gruyter Lehrbuch, Berlin: Walter de Gruyter, 1992. [Bau00] Bauer, F.L.: Entzifferte Geheimnisse, Methoden und Maximen der Kryptologie, 3. Aufl. Berlin: Springer, 2000. [Bau02] Bauer, H.: Wahrscheinlichkeitstheorie, 5. Aufl. Berlin: Walter de Gruyter, 2002. [BB93] Bamberg, G. und F. Baur: Statistik, 8. Aufl. Oldenbourgs Lehr- und Handb¨ ucher der Wirtschafts- und Sozialwissenschaften, M¨ unchen: Oldenbourg, 1993. [Beu02] Beutelspacher, A.: Kryptologie. Wiesbaden: Vieweg, 2002. [BEZ00] Bouwmeester, D., A. Ekert und A. Zeilinger (eds.): The physics of quantum information. Quantum cryptography, quantum teleportation, quantum computation. Berlin: Springer, 2000. [Bil95] Billingsley, P.: Probability and measure, 3rd ed. Chichester: John Wiley & Sons Ltd., 1995. ork, T.: Interest rate theory. In: Biais, B. et al. (eds.), Financial [Bj¨ o97] Bj¨ mathematics. Lect. Notes Math. 1656, Berlin: Springer, 1997. [BK98] Bingham, N.H. und R. Kiesel: Risk-neutral valuation: Pricing and hedging of financial derivatives. Springer Finance, London: Springer, 1998. [Bos82] Bossert, M.: Kanalcodierung. Stuttgart: B.G. Teubner, 1982. ´maud, P.: Markov chains. Gibbs fields, Monte Carlo simulation, and [Br´e99] Bre queues. Texts in Applied Mathematics, New York: Springer, 1999. [BS73] Black, F. und M. Scholes: The pricing of options and corporate liabilities. Political Econom., 72:637–659, 1973. [BS02] Borodin, A.N. und P. Salminen: Handbook of Brownian motion: Facts and formulae, 2nd ed. Probability and Its Applications, Basel: Birkh¨ auser, 2002.
590 [B¨ uh96]
Literatur
B¨ uhlmann, H.: Mathematical methods in risk theory, 2nd print. Grundlehren der Mathematischen Wissenschaften, 172, Berlin: Springer, 1996. [CH74] Cox, D.R. und D.V. Hinkley: Theoretical statistics. London: Chapman & Hall Ltd., 1974. [CH78] Cox, D.R. und D.V. Hinkley: Problems and solutions in theoretical statistics. London: Chapman and Hall, 1978. [CT91] Cover, T.M. und J.A. Thomas: Elements of Information Theory. Wiley Series in Telecommunications, New York: John Wiley and Sons, 1991. [CW90] Chung, K.L. und R.J. Williams: Introduction to stochastic integration, 2nd ed. Probability and Its Applications, Boston: Birkh¨ auser, 1990. [Deu85] Deutsch, D.: Quantum theory, the Church-Turing principle and the universal quantum computer. Proc. R. Soc. Lond., Ser. A, 400(1818):97–117, 1985. [DJ92] Deutsch, D. und R. Jozsa: Rapid solution of problems by quantum computation. Proc. R. Soc. Lond., Ser. A, 439(1907):553–558, 1992. [DM82] Dellacherie, C. und P. Meyer: Probabilities and potential, B: Theory of martingales. North-Holland Mathematics Studies, Amsterdam: NorthHolland, 1982. [DMS03] Denk, G., D. Meintrup und S. Sch¨ affler: Transient Noise Simulation: Modeling and Simulation of 1/f-Noise, in: Modeling, Simulation and Optimization of Integrated Circuits. Int. Series of Numer. Math., 146:251–267, 2003. [DS94] Delbaen, F. und W. Schachermayer: A general version of the fundamental theorem of asset pricing. Math. Ann., 300(3):463–520, 1994. [DS97] Denk, G. und S. Sch¨ affler: Adams methods for the efficient solution of stochastic differential equations with additive noise. Computing, 59(2):153–161, 1997. [DS00] Delbaen, F. und W. Schachermayer: Non-arbitrage and the fundamental theorem of asset pricing: Summary of main results. In: Heath, D.C. et al. (eds.), Introduction to mathematical finance, AMS, Proc. Symp. Appl. Math. 57, 49-58. Providence: American Mathematical Society, 2000. [Dud89] Dudley, R.M.: Real analysis and probability. Wadsworth & Brooks/Cole Mathematics Series, Pacific Grove: Wadsworth & Brooks/Cole Advanced Books & Software, 1989. [Dur84] Durrett, R.: Brownian motion and martingales in analysis. The Wadsworth Mathematics Series, Belmont: Wadsworth Advanced Books & Software, 1984. [Dur91] Durrett, R.: Probability. Theory and examples. The Wadsworth & Brooks/Cole Statistics/Probability Series, Pacific Grove: Wadsworth & Brooks/Cole Advanced Books & Software, 1991. [Dur99] Durrett, R.: Essentials of stochastic processes. Springer Texts in Statistics, New York: Springer, 1999. [DV85] Davis, M.H.A. und R.B. Vinter: Stochastic modelling and control. Monographs on Statistics and Applied Probability, London: Chapman and Hall, 1985. [DVJ03] Daley, D.J. und D. Vere-Jones: An introduction to the theory of point processes, Vol. I: Elementary theory and methods, 2nd ed. Probability and Its Applications, New York: Springer, 2003.
Literatur [Edw79]
591
Edwards, R.E.: Fourier series. A modern introduction, Vol. 1, 2nd ed. Graduate Textes in Mathematics, 64, New York: Springer, 1979. [Els02] Elstrodt, J.: Maß- und Integrationstheorie, 3. Aufl. Springer-Lehrbuch, Berlin: Springer, 2002. [Fel68] Feller, W.: An introduction to probability theory and its applications, Vol. I. New York: John Wiley and Sons, 1968. [Fel71] Feller, W.: An introduction to probability theory and its applications, Vol. II, 2nd ed. New York: John Wiley and Sons, 1971. [FR94] Fumy, W. und H.P. Rieß: Kryptographie. M¨ unchen: Oldenbourg, 1994. [Fri96] Friedrichs, B.: Kanalcodierung. New York: Springer, 1996. [GEKR95] Geman, H., N. El Karoui und J.-C. Rochet: Changes of num´ eraire, changes of probability measure and option pricing. J. Appl. Probab., 32(2):443–458, 1995. [Geo02] Georgii, H.-O.: Stochastik. Berlin: Walter de Gruyter, 2002. [Hac87] Hackenbroch, W.: Integrationstheorie. Teubner Studienb¨ ucher Mathematik, Stuttgart: B.G. Teubner, 1987. [Hal50] Halmos, P.R.: Measure theory. University Series in Higher Mathematics, New York: D. Van Nostrand, 1950. [H¨ an01] H¨ ansler, E.: Statistische Signale, 3. Aufl. Berlin: Springer, 2001. [Hei87] Heilmann, W.-R.: Grundbegriffe der Risikotheorie. Karlsruhe: Verlag Versicherungswirtschaft e.V., 1987. [Hen85] Henze, E.: Einf¨ uhrung in die Maßtheorie, 2. Aufl. Mannheim: B.I.Wissenschaftsverlag, 1985. [Hen03] Henze, N.: Stochastik f¨ ur Einsteiger, 4. Aufl. Braunschweig: Vieweg, 2003. [Hes03] Hesse, C.: Angewandte Wahrscheinlichkeitstheorie. Braunschweig: Vieweg, 2003. [HM90] Hipp, C. und R. Michel: Risikotheorie: stochastische Modelle und statistische Methoden. Schriftenreihe Angewandte Versicherungsmathematik, Karlsruhe: Verl. Versicherungswirtschaft, 1990. [HP81] Harrison, J.M. und S.R. Pliska: Martingales and stochastic integrals in the theory of continuous trading. Stochastic Processes Appl., 11:215– 260, 1981. [HQ95] Heise, W. und P. Quattrocchi: Informations- und Codierungstheorie, 3. Aufl. Berlin: Springer, 1995. [HS91] Hirzebruch, F. und W. Scharlau: Einf¨ uhrung in die Funktionalanalysis. BI-Hochschultaschenb¨ ucher, Mannheim: BI-Wissenschaftsverlag, 1991. [HT94] Hackenbroch, W. und A. Thalmaier: Stochastische Analysis. Mathematische Leitf¨ aden, Stuttgart: B.G. Teubner, 1994. ˆ , K. und H.P.jun. McKean: Diffusion processes and their sample [IM96] Ito paths. Repr. of the 1974 ed. Classics in Mathematics, Berlin: Springer, 1996. [Irl98] Irle, A.: Finanzmathematik. Stuttgart: B.G. Teubner, 1998. [Irl01] Irle, A.: Wahrscheinlichkeitstheorie und Statistik. Leipzig: B.G. Teubner, 2001. [Jun95] Jungnickel, D.: Codierungstheorie. Heidelberg: Spektrum Akadem. Verlag, 1995. [Kal02] Kallenberg, O.: Foundations of modern probability, 2nd ed. Probability and Its Applications, New York: Springer, 2002.
592
Literatur
[K¨ on01] [K¨ on02] [Kre02] [KS51] [KS91]
[Las96] [LC98] [Leh97] [LW00] [Mer73] [Mey72] [M¨ ol97] [MR97] [NC00] [Nev75] [Nor98] [Øks98] [P¨ at99] [Res92] [Rom96] [Ros96] [Ros00] [RS94] [Rud91] [RW00a]
K¨ onigsberger, K.: Analysis 1, 5. Aufl. Springer-Lehrbuch, Berlin: Springer, 2001. K¨ onigsberger, K.: Analysis 2, 4. Aufl. Springer-Lehrbuch, Berlin: Springer, 2002. Krengel, U.: Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik, 6. Aufl. Braunschweig: Vieweg, 2002. Kaczmarz, S. und H. Steinhaus: Theorie der Orthogonalreihen. New York: Chelsea Publishing Co., 1951. Karatzas, I. und S.E. Shreve: Brownian motion and stochastic calculus, 2nd ed. Graduate Texts in Mathematics, 113, New York: Springer, 1991. Lasser, R.: Introduction to Fourier series. Pure and Applied Mathematics, Marcel Dekker, 199, New York: Marcel Dekker, 1996. Lehmann, E.L. und G. Casella: Theory of point estimation, 2nd ed. Springer Texts in Statistics, New York: Springer, 1998. Lehmann, E.L.: Testing statistical hypotheses. Reprint of the 2nd ed. publ. by Wiley 1986. New York: Springer, 1997. Lehn, J. und H. Wegmann: Einf¨ uhrung in die Statistik, 3. Aufl. Teubner Studienb¨ ucher Mathematik, Stuttgart: B.G. Teubner, 2000. Merton, R.C.: Theory of rational option pricing. Bell J. Econom. Managem. Sci., 4:141–183, 1973. Meyer, P.-A.: Martingales and stochastic integrals, I. Lecture Notes in Mathematics, 284, Berlin: Springer, 1972. M¨ oller, H.: Algorithmische lineare Algebra. Wiesbaden: Vieweg, 1997. Musiela, M. und M. Rutkowski: Martingale methods in financial modelling. Applications of Mathematics, 36, Berlin: Springer, 1997. Nielsen, M.A. und I.L. Chuang: Quantum computation and quantum information. Cambridge: Cambridge University Press, 2000. Neveu, J.: Discrete-parameter martingales. North-Holland Mathematical Library, Vol. 10, Amsterdam, 1975. Norris, J.R.: Markov chains. Cambridge Series on Statistical and Probabilistic Mathematics, Cambridge: Cambridge University Press, 1998. Øksendal, B.: Stochastic differential equations, 5th ed. Universitext, Berlin: Springer, 1998. P¨ atzold, A.: Mobilfunkkan¨ ale. Wiesbaden: Vieweg, 1999. Resnick, S.I.: Adventures in stochastic processes. Boston: Birkh¨ auser, 1992. Roman, S.: Introduction to coding and information theory. Undergraduate Texts in Mathematics, New York: Springer, 1996. Ross, S.M.: Stochastic processes, 2nd ed. New York: John Wiley & Sons, 1996. Ross, S.M.: Introduction to probability models, 7th ed. San Diego: Harcourt/Academic Press, 2000. Ritter, K. und S. Sch¨ affler: A stochastic method for constrained global optimization. SIAM J. Optim., 4(4):894–904, 1994. Rudin, W.: Functional analysis, 2nd ed. International Series in Pure and Applied Mathematics, New York: McGraw-Hill, 1991. Rogers, L.C.G. und D. Williams: Diffusions, Markov processes and martingales, Vol. 1: Foundations, 2nd ed. Cambridge: Cambridge University Press, 2000.
Literatur
593
[RW00b] Rogers, L.C.G. und D. Williams: Diffusions, Markov processes, and martingales, Vol. 2: Itˆ o calculus, 2nd ed. Cambridge: Cambridge University Press, 2000. [RY99] Revuz, D. und M. Yor: Continuous martingales and Brownian motion, 3rd ed. Graduate Texts in Mathematics, 293, Berlin: Springer, 1999. [Sch95] Sch¨ affler, S.: Unconstrained global optimization using stochastic integral equations. Optimization, 35(1):43–60, 1995. [Sch96a] Schmidt, K.D.: Lectures on risk theory. Teubner Skripten zur Mathematischen Stochastik, Stuttgart: B.G. Teubner, 1996. [Sch96b] Schmitz, N.: Vorlesungen u ¨ber Wahrscheinlichkeitstheorie. Teubner Studienb¨ ucher Mathematik, Stuttgart: B.G. Teubner, 1996. [Sho94] Shor, P.W.: Polynomial time algorithms for discrete logarithms and factoring on a quantum computer. In: Adleman, L.M. et al. (eds.), Algorithmic number theory, Proceedings. Lect. Notes Comput. Sci. 877, 289, Berlin: Springer, 1994. [Ste01] Steele, J.M.: Stochastic calculus and financial applications. Applications of Mathematics, 45, New York: Springer, 2001. [Stu03] Sturm, T.F.: Stochastische Analysen und Algorithmen zur Soft Decodierung bin¨ arer linearer Blockcodes. Doktorarbeit, Universit¨ at der Bundeswehr M¨ unchen, Fakult¨ at f¨ ur Elektro- und Informationstechnik, 2003. [Wag85] Wagon, S.: The Banach-Tarski paradox. Encyclopedia of Mathematics and Its applications, Vol. 24, Cambridge: Cambridge University Press, 1985. [Weg73] Wegner, H.: On consistency of probability measures. Z. Wahrscheinlichkeitstheor. Verw. Geb., 27:335–338, 1973. [Wer02] Werner, D.: Funktionalanalysis, 4. Aufl. Springer-Lehrbuch, Berlin: Springer, 2002. [Whi96] Whittle, P.: Optimal control: basics and beyond. Wiley-Interscience Series in Systems and Optimization, Chichester: John Wiley & Sons, 1996. [Wil91] Williams, D.: Probability with martingales. Cambridge: Cambridge University Press, 1991. [Wil01] Williams, D.: Weighing the odds. A course in probability and statistics. Cambridge: Cambridge University Press, 2001. [Wit85] Witting, H.: Mathematische Statistik I: Parametrische Verfahren bei festem Stichprobenumfang. Stuttgart: B.G. Teubner, 1985. [WMF95] Witting, H. und U. M¨ uller-Funk: Mathematische Statistik II, Asymptotische Statistik: Parametrische Modelle und nichtparametrische Funktionale. Stuttgart: B.G. Teubner, 1995.
Symbolverzeichnis
595
Symbolverzeichnis
Wir stellen hier die wichtigsten Bezeichnungen zusammen. Dabei gibt die Zahl am Ende einer Zeile an, auf welcher Seite die Notation erstmals verwendet wird. Allgemeine Bezeichnungen: := ♦ a ∨ b = max(a, b) a ∧ b = min(a, b)
definierende Gleichung, 4 Ende eines Beweises, 8 Ende eines Beispiels, 9 Maximum von a und b, 20 Minimum von a und b, 29
Mengen: ∅ N = {1, 2, 3, . . .} N0 = {0, 1, 2, 3, . . .} Z, Q, R
leere Menge, 4 Menge der nat¨ urlichen Zahlen, 4 Menge der nat¨ urlichen Zahlen mit 0, 57 Menge der ganzen bzw. rationalen bzw. reellen Zahlen, 6, 7, 4 R+ := {x ∈ R : x ≥ 0} Menge der nicht-negativen reellen Zahlen, 42 R>0 := {x ∈ R : x > 0} Menge der positiven reellen Zahlen, 292 ¯ = R ∪ {±∞} R Zweipunktkompaktifizierung von R, 14 ¯ ∩ R+ ¯+ = R Menge der nicht-negativen reellen Zahlen R einschließlich +∞, 50 Menge der n × n-Matrizen mit Eintr¨agen aus R, 4 Rn,n A ∪ B Vereinigung der Mengen A und B, 5 Ai Vereinigung der Mengen Ai , i ∈ I, 6 i∈I
A A∩ B Ai i∈I
Durchschnitt der Mengen A und B, 4 Durchschnitt der Mengen Ai , i ∈ I, 10
596
Symbolverzeichnis
A⊂B Ac A∆B P(X) = {A : A ⊂ X} [a, b] = {x ∈ R : a ≤ x ≤ b} ]a, b[ = {x ∈ R : a < x < b} ]a, b], [a, b[ |A| An ↑ A An ↓ A A × B, ◦
A (nicht notw. echte) Teilmenge von B, 4 Komplement der Menge A, 10 symmetrische Differenz von A und B, 148 Potenzmenge von X, 4 abgeschlossenes Intervall, 11 offenes Intervall, 11 halboffene Intervalle, 11 M¨ achtigkeit der Menge A, 21 ∞ A1 ⊂ A2 ⊂ . . . und Ai = A, 15 A1 ⊃ A2 ⊃ . . . und
i=1 ∞ A
Ai = A, 22
i=1
Ai
kartesisches Produkt von Mengen, 11
i∈I
¯ A A, ◦ ∂A = A¯ \ A
Abschluss bzw. Inneres der Menge A, 179 Rand der Menge A, 179
Abbildungen: Abbildung von Ω1 nach Ω2 , 16 f : Ω1 → Ω2 f (A) = {f (ω) : ω ∈ A} Bild von A, 16 f −1 (B) = {ω ∈ Ω1 : f (ω) ∈ B} Urbild von B, 16 Positiv- bzw. Negativteil von f , 20 f + = f ∨ 0, f − = (−f ) ∨ 0 f |A f eingeschr¨ ankt auf A, 37 f1 ≤ f2 ≤ . . . und fn → f pktw., 29 fn ↑ f f1 ≥ f2 ≥ . . . und fn → f pktw., 220 fn ↓ f Indikatorfunktion der Menge A, 17 IA
Maßtheorie: E, G, F σ(E) B(Ω) Bn , B, B¯ (Ω, F, µ) µf f dµ · p Lp = Lp (µ) Lp = Lp (µ) ·, · Fi F ⊗I = F |A
Mengensysteme, 9 von E erzeugte σ-Algebra, 10 Borelsche σ-Algebra u ¨ber Ω, 11 ¯ 11, 14 Borelsche σ-Algebra auf Rn , R bzw. R, Maßraum, 20 Bildmaß, 25 Lebesgue-Integral von f bez¨ uglich µ, 28 p-Norm, 45 Raum der Funktionen mit endlicher p-Norm, 46 Banach-Raum der Funktionen mit endlicher p-Norm, 47 Skalarprodukt, 47 Produkt-σ-Algebra, 12
i∈I
Spur-σ-Algebra, 16
Symbolverzeichnis
597
δω µZ λn λF M, M +
Dirac- oder Einpunktmaß, 21 Z¨ ahlmaß, 21 n-dimensionales Lebesgue-Maß, 24 Lebesgue-Stieltjes-Maß, 24 Menge der messbaren numerischen (nicht-negativen) Funktionen, 27 Menge der (nicht-neg.) Treppenfunktionen, 28 T, T + µ⊗ν Produktmaß, 42 uglich µ), 97 fn → f (µ)-fast sicher fast sichere Konvergenz (bez¨ f µ Maß mit Dichte f bez¨ uglich µ, 50 νµ absolute Stetigkeit von ν bez¨ uglich µ, 51 außeres Maß, 543 µ∗ ¨ Wahrscheinlichkeitstheorie: (Ω, F, P) X, Y : Ω → R PL B(1, p) B(n, p) Poi(λ) Exp(n, p) N(m, C) φ, Φ X∼F lim inf An , lim sup An PX B, C det(C) P(A|B) d
X=Y E(X) V(X) Cov(X, Y ) Cb (R) ϕX , ϕµ P
Xn → X w µn −→ µ d
Xn −→ X E(X|G) P(A|G)
Wahrscheinlichkeitsraum, 59 Zufallsvariablen, 90 Laplace-Verteilung, 64 Bernoulli-Verteilung, 65 Binomialverteilung, 66 Poisson-Verteilung, 67 Exponentialverteilung, 76 Normalverteilung mit Erwartungswertvektor m und Kovarianzmatrix C, 73 Dichte bzw. Verteilungsfunktion der Standardnormalverteilung, 73, 75 X ist nach F verteilt, 90 Limes Inferior bzw. Superior der Mengen (An ), 62 Bildmaß bzw. Verteilung von X, 89 Matrizen, 110 Determinante der Matrix C, 110 bedingte Wahrscheinlichkeit von A unter B, 119 X und Y sind identisch verteilt: PX = PY , 144 Erwartungswert von X, 92 Varianz von X, 93 Kovarianz von X und Y , 128 Menge der stetigen und beschr¨ankten Funktionen auf R, 173 charakteristische Funktion von X bzw. µ, 181 stochastische Konvergenz bez¨ uglich P, 97 schwache Konvergenz, 174 Konvergenz in Verteilung, 174 bedingte Erwartung von X bzgl. G, 216 bedingte Wahrscheinlichkeit von A bzgl. G, 217
598
Symbolverzeichnis
Stochastische Prozesse: stochastische Matrix, 228 Wahrscheinlichkeitsmaß unter der Startverteilung α bzw. δi , 230 ¨ pm m-Schritt-Ubergangswahrscheinlichk., 233 ij τ Stoppzeit, 238 i→j Zustand j von i aus erreichbar, 241 i↔j Zust¨ ande i und j kommunizieren, 241 Wahrscheinlichkeit f¨ ur R¨ uckkehr zum ρii = Pi (Ti < ∞) Zustand i in endlicher Zeit, 243 stochastischer Prozess, 268 X = (Xt )t∈I X.(ω) Pfad von ω, 269 Supremumprozess, 387 (Xt∗ )t≥0 , X ∗ HPP(λ) homogener Poisson-Prozess mit Rate λ, 276 NHPP(λ) nichthomogener Poisson-Prozess mit lokaler Rate λ, 292 Filtration, 301 F = (Ft )t∈I nat¨ urliche Filtration des Prozesses X, 302 FX ˆ F augmentierte Filtration, 390 rechtsstetige Filtration, 390 F+ von (Ft )t≥0 erzeugte σ-Algebra, 376 F∞ = σ(Ft : t ≥ 0) σ-Algebra der τ -Vergangenheit, 315 Fτ gestoppter Prozess, 316 Xτ Brownsche Bewegung, 342 B = (Bt )t≥0 Brownsche Br¨ ucke, 350 (Bt0 )t≥0 Π = {0 = t0 , t1 , . . . , tn = t} Zerlegung des Intervalls [0, t], 351 lineare Variation der Funktion f Vt (f ) auf dem Intervall [0, t], 408 quadratische Variation der Funktion f Qt (f ) auf dem Intervall [0, t], 352 (n) Haar-Funktionen, 562 Hk (n) ∆ Schauder-Funktionen, 562 k gdF F -Integral, 407 E, bE Menge der elementaren (beschr¨ankten) stochastischen Prozesse, 413 Menge der progressiv messbaren Prozesse P2 mit endlicher ·L2 (P⊗dt) -Norm, 413 M2 , M2c Menge der (stetigen) Martingale mit beschr¨ ankter 2-Norm, 417 t Itˆ o-Integral, 414 X.B, (X.B)t = Xs dBs p Pα , Pi
0
[[0, τ ]]
stochastisches Intervall, 429
Symbolverzeichnis
599
Mathematische Statistik: Θ W (Ψ, G, PX,W ) Eθ , Vθ P∗ (A|T ) E∗ (X|T ) lYn ,x1 ,...,xn LYn ,x1 ,...,xn I : Θ → R, I(θ) fχ2 diag(a1 , . . . , an )
Parameterraum, 455 Familie von Wahrscheinlichkeitsmaßen, 455 statistischer Raum, 456 Erwartungswert, Varianz bzgl. PX,Wθ , 459 von θ unabh¨ angige Versionen der bedingten Wahrscheinlichkeit, 461 von θ unabh¨ angige Versionen der bedingten Erwartung, 461 Likelihood-Funktion, 467 Loglikelihood-Funktion, 467 Fisher-Information, 472 Dichte der χ2 -Verteilung, 519 Diagonalmatrix mit den Eintr¨agen a1 , . . . , an auf der Hauptdiagonalen, 520
Index
Abbildung messbare 17 Additivit¨ at 21 aquivalentes Martingalmaß 396, 399 ¨ ¨ Aquivalenztest 508 Aktie 392 Algebra 556 Algorithmus Deutsch- 84 Deutsch-Jozsa- 86 Alphabet 165 Alternativtestproblem 483 aperiodisch 255 Approximation numerische 370, 371 approximative Eins 419, 575, 576 Arbitrage 114, 392 Arbitragem¨ oglichkeit 399 Arzneimittelpr¨ ufung 504 Asymptotische Gleichverteilungseigenschaft(AEP) 168 Ausgangsgr¨ oße (Rec.-Boiler) 531 Ausl¨ oschungswahrscheinlichkeit 263 Auswahlaxiom 6, 8 AWGN-Kanal 480 Backtesting 118 Banach-Raum 570 Banach-Steinhaus-Theorem 412, 575 Banach-Tarski-Paradoxon 6 Basis abz¨ ahlbare 13 Bayes-Risiko 476, 477
Bayes-Sch¨ atzfunktion 478 bedingte Erwartung 216 Eigenschaften 583 Bedingung Kolmogorov- 157 Lindeberg- 204 Lyapunov- 206 Bedingung A 367 Beratungsb¨ uro 496 Bewegungsinvarianz 4, 551 Bewertungsformel f¨ ur absicherbare Claims 400 im Bond-Markt 402 Bild 16 Bildmaß 25 Bit 78 Multi-q- 80 q- 78 Bitfehleroptimalit¨ at 139, 480 Black Liquor 530 Black-Scholes-Modell 397 Branch-and-Bound Verfahren 481 Brownsche Bewegung 342 bzgl. Filtration 344 Existenz 342, 562 Gesetz der großen Zahlen 347, 348 H¨ older-Stetigkeit der Pfade 355, 357 Markov-Eigenschaft 347 Martingaleigenschaft 377 Nichtdifferenzierbarkeit der Pfade 358 Skalierungseigenschaft 346, 347 starke Markov-Eigenschaft 359, 362
602
Index
Unabh¨ angigkeit der Zuw¨ achse 343 Verteilung des Maximums 366 zeitinvertiert 349 Brownsche Br¨ ucke 350 Cauchy-Folge 570 Chapman-Kolmogorov-Gleichung 234 charakteristische Funktion 181 Eindeutigkeit 187 eines Wahrscheinlichkeitsmaßes 181 χ2 -Verteilung 519 χ2 -Test 523 Cholesky-Zerlegung 372 Claim 400 absicherbarer 400 Code 135, 166, 480 Block- 135, 167 eindeutig decodierbarer 166 Hamming- 136 linearer 136 pr¨ afixfreier 166 systematischer 136 Wiederholungs- 136, 142 Coderate 136 Codewortl¨ ange 168 mittlere 168 Cramer-Lundberg-Ungleichung 297 Darstellungssatz von Riesz-Fr´echet 574 Decodierer 134 Decodierung Hard-Decision 134 Soft-Decision 135 Delta-Gamma-Ansatz 116 Demodulator 134 Designmatrix 510 Deutsch-Algorithmus 84 Deutsch-Jozsa-Algorithmus 86 Dichte 50 der n-dimensionalen Normalverteilung 110 der Lognormalverteilung 104 stetige 72 Z¨ ahl- 63 Dichtequotient, monotoner 492 Differenz symmetrische 148 Dirac-Maß 20
diskontierter Prozess 395 Distribution 448 Ableitung einer 448 Diracsche Delta- 448 Doppelblindstudie 505, 507 Doppler-Effekt 209 Drei-Reihen-Theorem 162 Dreiecksschema 204 durchschnittsstabil 9 dynamisches System 334 Eingangsgr¨ oße (Rec.-Boiler) 531 Einperiodenmodell 392 Eintrittszeit 239, 315 endlich-dimensionale Verteilungen 271 endliche Permutation 148 Entanglement 81 Entropie 167 Ereignis symmetrisch 148 terminales 144 Ereignisraum 59 Ergebnisraum 59 erreichbar 241 Erwartungswert 92 -funktion 345 -vektor 130 bedingter 215 Erwartungswertprinzip 298 Erzeuger 10 Erzeugung 10 Eulerverfahren semi-implizites 369–371 EURIBOR 404 Existenzsatz von Kolmogorov 558 Explosion 274 explosionsfrei 274, 279 Exponentialfamilie 492 F -Integral 407 F -Verteilung 529 Fading fast 210 slow 209 Faktorisierungslemma fast sicher 59 fast u ¨berall 37 Fehler 1. Art 485 Fehler 2. Art 485
218
Index Filtertheorie 334 Filtration 301, 375 u ¨blichen Bedingungen 390 augmentierte 390 nat¨ urliche 302 rechtsstetige 390 Standard- 390 Fisher-Information 472 Folge stochastische 63 Formel von Bayes 120 von Bienaym´e 129 von der totalen Wahrscheinlichkeit 120 Fortsetzungssatz 549 Frequenzdispersion 209 Funktion ausgeglichene 84, 86 messbare numerische 19 numerische 19 terminale 144 Test- 448 Ziel- 367 Galton-Watson-Modell 263 Gamma-Verteilung 275 Gate 82 f - 83, 86 Hadamard- 82 NOT- 82 Gauß-Prozess 344 Ged¨ achtnislosigkeit 121 Gegenhypothese 483 Gesetz der großen Zahlen der Brownschen Bewegung 347, 348 schwaches 151 starkes 151, 156 f¨ ur identisch verteilte Zufallsvariablen 158, 583 gleichgradige Integrierbarkeit 308 und bedingte Erwartungen 309 und L1 -Konvergenz 312 Haar-Funktion 562, 574 Halbring 545 Hamming-Abstand 136 Handelsstrategie 397 selbstfinanzierend 398
603
Hedging-Strategie 400 Hermite-Polynome 386, 445 Hessematrix 370 Hilbert-Raum 572 H¨ older-stetig in einem Punkt 357 H¨ older-stetig 355 lokal 355 Hookesches Gesetz 510, 515 Hypothese einseitige 491 Gegen- 483 Null- 483 zweiseitige 497 identisch verteilt 143 Indikatorfunktion 17 Informationsungleichung 472 Inhaltsproblem 5 integrierbar 33 Integrierbarkeit gleichgradige 308 irreduzibel 242 Irrfahrt 231, 247, 304 mit absorbierenden Schranken 232 Itˆ o-Formel 436, 437, 439 Berechnung von Integralen 441 in Raum und Zeit 442, 443 Itˆ o-Isometrie f¨ ur X ∈ P 2 422 f¨ ur elementare Prozesse 418 Jensensche Ungleichung
106
Kanal physikalischer 134 AWGN- 138, 480 Kanalcodierer 133 Kanalcodierung 135 Kanaldecodierer 134, 139 Kanalmodelle 137 Kolmogorov-Bedingung 157 kommunizierend 241 Konfindenzintervalle 458 Kongruenz 4 Konsensbildung 262 konsistente Familie 555 Konsistenz 467
604
Index
von Maximum-Likelihood-Sch¨ atzern 468 Konvergenz fast u ¨berall 48 Implikationen zwischen -arten 175 in Lp 47 schwache 174 stochastische 97 Verteilungs- 174 Konvergenzs¨ atze 582 bedingte Version 220 f¨ ur Itˆ o-Integrale 434 Kopplung 257 -spaar 257 -szeit 257 unabh¨ angige 257, 259 Korrelationskoeffizient 129 Korrespondenzsatz 70 Kovarianz 128 -funktion 345 -matrix 130 Kryptocodierer 133 Kryptodecodierer 135 Lp -Raum 46, 570 L-Wert 140 Laden¨ offnungszeiten 294 λ-System 15 Lebesgue-Integral 33 Linearit¨ at des 33 Monotonie des 33 Lemma Ces` aros 153 Faktorisierungs- 218 Neymann-Pearson 486 von Borel-Cantelli 62, 147, 582 von Fatou 32, 98, 582 von Kronecker 154 LIBOR 404 Limes Inferior 61 Superior 61 Lindeberg-Bedingung 204 Lindeberg-Theorem 204 lineares Modell 510 lokalisierende Folge 430, 432 M¨ unzwurf 59, 65, 207 Markov-Eigenschaft
f¨ ur die Brownsche Bewegung 347 f¨ ur Markov-Ketten 229, 236 f¨ ur Poisson-Prozesse 282 starke der Brownschen Bewegung 359, 362 f¨ ur Markov-Ketten 240 Markov-Kette 229 Existenz 553 irreduzible 242 Klassifikation 261 mit Periode 2 255 Wetter- 230, 233, 234, 254, 259 Markov-Ungleichung 105 Martingal -kriterium 444 -transformierte 306 Exponentielles 384 Konvergenz in L1 323, 388 Konvergenz in Lp 329, 389 lokales 432 Eigenschaften 433 zeistetiges 376 zeitdiskretes 303 Martingalmaß aquivalentes 396, 399 ¨ Maß 20 σ-endliches 20 Bild- 25 endliches 23 Z¨ ahl- 21 außeres 543 ¨ Dirac- 20 Lebesgue- 24, 551 Bewegungsinvarianz 551 Lebesgue-Stieltjes- 24, 406, 551 mit Dichte 50 Produkt- 43 vollst¨ andiges 24 Maßeindeutigkeitssatz 23, 581 maßerzeugende Funktion 547 Maßraum 20 Matrix stochastische 228 unit¨ are 79 Maximal-Ungleichung in diskreter Zeit 327 in stetiger Zeit 387
Index Maximalungleichung von Kolmogorov 154 Maximum-Likelihood-Sch¨ atzer 465 Maßproblem 7 Mehrwegeausbreitung 209 Menge abgeschlossene (in Markov-Kette) 242 messbare 18 stetige 179 typische 169 messbare Abbildung 17 Menge 18 numerische Funktion 19 Messgr¨ oße (Rec.-Boiler) 534 Messraum 16 Metrik 569 Halb- 569 Minimaldistanz 136 Minimierung globale 368 Mittelwertfunktion 292 Modell lineares 510 lineares Gauß- 518 normalverteiltes lineares 518 Modulator 134 Momente 99 -Problem 189 der Exponentialverteilung 102 der Lognormalverteilung 104 der Normalverteilung 103 der Poisson-Verteilung 102 momenterzeugende Funktion 100, 131 Monotonie 21 µ∗ -messbar 543 Multi-q-Bit 80 n-fache Erweiterung 166 Nachrichtentechnik 132 Nettorisikoprinzip 298 Neyman-Pearson-Lemma 486 Neymann-Kriterium 493 NFLVR 400 Nicht-Unterscheidbarkeit 269 no free lunch with vanishing risk Norm 569 Halb- 569
400
Operator- 575 Supremums- 570 0-1-Gesetz von Borel 146 von Hewitt-Savage 149 von Kolmogorov 145 Nullhypothese 483 Nullmenge 23 Num´eraire 396 operationstreu 16 Optimierung globale 367 Option 392 Optional Sampling Theorem in diskreter Zeit 331 in stetiger Zeit 378 Optional Stopping Theorem in diskreter Zeit 317 in stetiger Zeit 380 Ordnungsstatistik 289, 499 der Gleichverteilung 290 Orthonormalbasis 563, 573 Orthonormalsystem 573 vollst¨ andiges 573 Parameterraum 455 Passierzeit 360 Periode 255 Pfad 269 (rechts-)stetiger 269 linksstetiger 269 Pfadverlust 209 π-λ-Lemma 15 π-System 9 Plazebo 507 Poisson-Prozess homogener 276 Markov-Eigenschaft 282 Martingaleigenschaft 377 nichthomogener 292 Mittelwertfunktion 292 Polynom trigonometrisches 185 Population 263 Portfolio 114 replizierendes 394, 400 Pr¨ amaß 546 Pr¨ amie 296
605
606
Index
Pr¨ amienprinzip 297 Erwartungswert- 298 Nettorisiko- 298 Standardabweichungs- 298 Preisformel 392 Preisprozess diskontierter 398 previsibel 306 Produktmaß Existenz 560 Produktsatz 127 Prognose 223 progressiv messbar 360, 413 Projektionseigenschaft 221, 583 Prozess ¨ Uberlagerungs283 adaptierter 302 Compound- 287 diskontierter 395 elementarer 413 beschr¨ ankter 413 Existenz 559 Gauß- 344 gestoppter 316 integrierbarer 375 lokal beschr¨ ankter 433 Poisson- 276 Preis- 398 previsibler 306 progressiv messbarer 360, 413 Sprung- 274 Sprungzeit- 274 Supremum- 326, 387 Wartezeit- 274 Wert- 398 zeitdiskreter 268 zeitstetiger 268 zentrierter 345 Prozess, stochastischer 268 Pseudozufallsvektoren 368, 370 Punktprozess 278 einfacher explosionsfreier 279 q-Bit 78 Multi- 80 Quantenalgorithmus 78, 84, 86 quasi-integrierbar 33 Quelle 133 Quellencodierer 133
Quellencodierung 165 Quellendecodierer 135 R¨ uckkehrzeit 238 Rand 179 Random Walk 231 Randomisierung 489, 505 Randverteilung 109, 112 Rangstatistik 499 Rate 276, 279 lokale 292 Ratten 503 Raum Standard- 556 statistischer 456 Rauschen thermisches 448, 451 Realisierung 456 Reflektionsprinzip 363, 364, 366, 384 Regressionsmodell, lineares 510 Regressoren 510 Regularit¨ at 557 rekurrent 243 -e Klasse 245 null- 243 positiv 243 Relevanztest 508 replizierende Strategie 394 Riemann-Integral 37 Risiko 114, 297 -Controlling 114 risiko-neutrale Bewertung 395 Roulette 208 Ruinproblem 318 f¨ ur die Brownsche Bewegung 381 Ruinwahrscheinlichkeit 296–299 Satz Darstellungs- von Riesz-Fr´echet 574 Existenz- von Kolmogorov 558 Fortsetzungs- 549 Korrespondenz- 70 Maßeindeutigkeits- 23, 581 Produkt- 127 Stetigkeits- 184 von der dominierten Konvergenz 35, 99, 583 von der monotonen Konvergenz 31, 98, 582
Index von Fubini 44 von Radon-Nikodym 51, 217 zentraler Grenzwert- 205, 583 Schadensprozess 296 Sch¨ atzer 459 Bereichs- 458, 474 erwartungstreuer 459 gleichm¨ aßig effizienter 462 Maximum-Likelihood 465 Sch¨ atzfunktion 459 Bayes- 478 Kleinste-Quadrate- 513 Schaltkreis 448 Schauder-Funktionen 562 Schwund langsamer 209 schneller 210 selbstfinanzierend 398 semi-implizites Eulerverfahren 370, 371 Siebformel 61 σ-Algebra 9 Borelsche 11 der τ -Vergangenheit in diskreter Zeit 239, 315, 330 in stetiger Zeit 360, 377 erzeugte 10 Produkt- 12, 143 Spur- 16 terminale 144 σ-endlich 20, 549 Signal-Rausch-Verh¨ altnis 138 Signald¨ ampfung 209 Signifikanztest 508 Sinke 135 Skalarprodukt 572 Skalierungseigenschaft 347 Skorokhod-Darstellung 176 Sph¨ are 78, 80 Spielsystem 306 Standardabweichung 93 Standardabweichungsprinzip 298 standardisierte Summe 202, 203 Standardisierung 131 Standardprozedur 35, 581 Standardraum 556 Startverteilung 230 station¨ are Verteilung 250 Statistik 461
607
suffiziente 461 statistischer Raum 456 regul¨ arer 472 Stellsgr¨ oße (Rec.-Boiler) 531 Stetigkeit absolute 51 von oben 22, 61 von unten 22, 61 Stetigkeitssatz von L´evy 184 Stichprobenraum 456 Stieltjes-Integral 406 stochastische Differentialgleichung 447 stochastische Integralgleichung 446 stochastischer Prozess verallgemeinerter 449 stochastisches Integral Approximation durch RiemannSummen 435, 436 Definition 422, 425, 431, 434 Eigenschaften des 423 f¨ ur elementare Prozesse 415 f¨ ur Prozesse mit endlicher Variation 411 gestopptes 428, 429 Konvergenzsatz 434 zeitdiskretes 306 stochastisches Intervall 429 Stoppzeit in diskreter Zeit 238 bzgl. einer Filtration 314 in stetiger Zeit 359 Sub-(Super-)Martingal zeitdiskretes 303 zeitstetiges 376 Sub-σ-Additivit¨ at 21, 543 Subtraktivit¨ at 21 Suffizienz 460, 461 Superposition 79 Swap 401, 402 swap rate 403 System dynamisches 334 t-Test f¨ ur unabh¨ angige Stichproben 507 t-Test 526 t-Verteilung 520 Tensorprodukt 79
506,
608
Index
Test 483 ¨ Aquivalenz508 χ2 - 523 gleichm¨ aßig bester 485, 494 G¨ utefunktion eines 484 nichtparametrischer 499 Operationscharakteristik eines Relevanz- 508 Signifikanz- 508 t- 526 unverf¨ alschter 497 Testfunktion 448 Testtheorie 458 Theorem von Tychonov 558 Banach-Steinhaus 412, 575 Drei-Reihen- 162 Gauß-Markov 514 Lehmann-Scheff´e 463 Lindeberg 204 Neymann-Kriterium 493 Optional Sampling 331, 378 Optional Stopping 317, 380 Rao-Blackwell 462 Topologie Produkt- 12 Tr¨ ager 34, 36 transient 243 -e Klasse 245 Trend 397 Treppenfunktion 28 Tschebyschev-Ungleichung 105 ¨ Ubergangsgraph 231 ¨ Ubergangswahrscheinlichkeit 229 m-Schritt- 233 station¨ are 229 ¨ Uberquerungen 320 Absch¨ atzung der 322 Unabh¨ angigkeit 123 Ungleichung Cauchy-Schwarzsche 572 Cramer-Lundberg- 297 Markov- 105, 582 Tschebyschev- 105, 582 von H¨ older 45, 571 von Jensen 106, 582 bedingte Version 220, 583 von Minkowski 46, 570
unkorreliert Urbild 16
484
128
Validierung 536 Value at Risk 114 Varianz 93 varianzanalytisches Modell, lineares 511 Variation 351 endliche 408 lineare 352, 354, 408 quadratische 352, 427 unbeschr¨ ankte 411 Verschr¨ ankung 81 Versicherung 296 Version 270 Versuchsserie 466 Verteilung Bernoulli- 65, 93 Binomial- 65, 94 χ2 - 519 diskrete 64 diskrete Gleich- 64 eindimensionale Normal- 73, 95, 103, 195 einer Zufallsvariablen 90 endlich dimensionale 271 Exponential- 76, 96, 102, 121, 194, 275 F - 529 Gamma- 275 Laplace- 64 Lognormal- 104, 116, 192 Multinomial- 110 n-dimensionale Normal- 110, 197, 201 Poisson- 67, 94, 102, 193 Rayleigh- 213 Standardnormal- 75 station¨ are 250 stetige 72 stetige Gleich- 72, 95, 194 t- 520 Verteilungsfunktion 69 eines Wahrscheinlichkeitsmaßes 69 n-dimensionale 107 stetige 71 Verum 507 Vervollst¨ andigung 24
Index Volatilit¨ at 397 Vollst¨ andigkeit 463 Vollst¨ andigkeit (normierter R¨ aume) 570 W¨ armeleitungsgleichung 445 Wahrscheinlichkeit bedingte (allgemein) 217 bedingte (elementar) 119 Wahrscheinlichkeitsmaß 59 Wahrscheinlichkeitsraum 59 diskreter 63 Waldsche Gleichheit 287 weißes Rauschen 450 Wertprozess diskontierter 398 Wilcoxon-Rangstatistiktest 501 Wort 165 Wortfehleroptimalit¨ at 139, 480
Z¨ ahlmaß 21 Z¨ ahldichte 63 zentraler Grenzwertsatz 205, 583 zentriert 345 Zielfunktion 367, 369 Zufallsgenerator 370 Zufallsvariable 90 Existenz unabh¨ angiger 560 Zufallsvektoren 370 Zustand absorbierender 232 quantenmechanischer 78 Zustandsraum 268 Zuw¨ achse 268 station¨ are 268 unabh¨ angige 268, 343 Zylindermengen 12
609