Stochastische Prozesse in der statistischen Modellierung Gerhard Winkler
1
GSF - Forschungszentrum f¨ ur Umwelt und Gesundheit GmbH Postfach 1129, D-85758 Oberschleißheim
IBB - Institut f¨ ur Biomathematik und Biometrie
Oktober 2000
1
[email protected],
http://www.gsf.de/ibb/
2
Ein Vorwort Stochastische Prozesse gewannen in letzter Zeit wachsende Bedeutung in statistischer Modellierung und Inferenz. Ideen aus Wahrscheinlichkeitstheorie und stochastischer Analysis, aber auch aus den Ingenieurwissenschaften wurden in die Statistik u ¨bernommen; weitere tiefliegende Theorien wurden so f¨ ur die Statistik erschlossen. Zudem erwiesen sich Sampling und Optimierungsmethoden wie Markov-Chain-Monte-Carlo Methoden als außerordentlich n¨ utzlich f¨ ur die Behandlung statistischer Modelle; auch sie beruhen auf der Theorie stochastischer Prozesse und Felder. Die zugeh¨orige statistische Inferenz ist noch nicht abschließend untersucht und stellt ein neues anspruchsvolles Forschungsgebiet dar. Stochastische Prozesse sind Modelle f¨ ur zuf¨allige zeitliche Abl¨aufe, insbesondere dann, wenn zeitliche Abh¨angigkeiten vorliegen, wie bei fast jeder praktischen Anwendung. Bei Verallgemeinerung auf zuf¨allige Felder k¨onnen auch raum-zeitliche Abh¨angigkeiten modelliert werden. Die zugeh¨orige Inferenz erweist sich als bedeutend schwieriger als im Falle von unabh¨angigen Variablen. Neben parametrischen Verfahren spielen auch nichtparametrische Methoden eine wachsende Rolle. In diesem Text ist nichts neu. Es werden vielmehr einige wichtige repr¨asentative Beispiele auf elementarem Niveau vorgestellt. Es geht dabei in erster Linie um eine verst¨andliche und zugleich saubere Einf¨ uhrung der Begriffe. F¨ ur die weitergehende Theorie wird auf die Fachliteratur verwiesen. Als Schwerpunkte wurden Markov-Chain-Monte-Carlo Methoden, konditionale und dynamische Modelle sowie Ereignis- und Survivalanalyse ausgew¨ahlt. Erster Anstoß f¨ ur diesen Report waren Notizen zur Vorlesung ‘Angewandte stochastische Prozesse II’, die ich als Vertreter des Lehrstuhles Weichselberger am Institut f¨ ur Statistik der Ludwig-Maximilians Universit¨at M¨ unchen im Wintersemester 1998/99 gehalten habe. Sie bot die Chance, die genannten wichtigen Konzepte noch einmal f¨ ur sich selber zu u ¨berdenken. Der Be3
4 richt wurde am Institut f¨ ur Biomathemathik und Biometrie am Forschungszentrum f¨ ur Umwelt und Gesundheit erstellt. Die Arbeit stand im Zusammenhang mit einer Kooperation mit dem Institut f¨ ur Statistik der LudwigMaximilians Universit¨at im Rahmen des Sonderforschungsbereiches 386: ‘Statistische Analyse diskreter Strukturen’. In diesem Zusammenhang m¨ochte ich mich bei Prof. Ludwig Fahrmeir f¨ ur die Zusammenarbeit bedanken. Besonderer Dank geb¨ uhrt Andreas Martin vom IBB, der den Text sorgf¨altig durchgesehen hat.
Gerhard Winkler im Oktober 2000
5
6
Inhaltsverzeichnis Ein Vorwort
3
1 MCMC-Methoden 1.1 Endliche Markovketten . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Vorbereitungen . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Der Kontraktionskoeffizient . . . . . . . . . . . . . . . 1.1.3 Homogene Markovketten . . . . . . . . . . . . . . . . . 1.1.4 Inhomogene Markovketten . . . . . . . . . . . . . . . . 1.2 Sampling und Annealing . . . . . . . . . . . . . . . . . . . . . 1.2.1 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . 1.2.2 Gibbs und Metropolis Sampler . . . . . . . . . . . . . . 1.2.3 Annealing . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Anwendungen von MCMC Methoden . . . . . . . . . . . . . . 1.3.1 Der Metropolis Algorithmus in der kombinatorischen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Simulation von (bin¨aren) Mustern . . . . . . . . . . . . 1.3.3 Bayessche Bildanalyse am Beispiel der glatten Regression mit Spr¨ ungen . . . . . . . . . . . . . . . . . . . . 1.4 Hepatitis B: Eine Fallstudie . . . . . . . . . . . . . . . . . . . 1.4.1 Die Problemstellung . . . . . . . . . . . . . . . . . . . 1.4.2 Die Modell- und Verteilungsannahmen . . . . . . . . . 1.4.3 Strukturelle Modellierung durch ein graphisches Modell 1.4.4 Wahrscheinlichkeitstheoretische Modellierung . . . . . 1.4.5 Die bedingten Verteilungen . . . . . . . . . . . . . . . 1.4.6 Darstellung (Monitoring) und Kontrolle der Ergebnisse
11 11 12 19 23 27 30 31 32 38 42 42 44 46 51 51 52 54 56 57 58
2 Konditionale Modelle 63 2.1 Die Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . 63 7
8
INHALTSVERZEICHNIS
2.2
2.1.1 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . 2.1.2 Das verallgemeinerte lineare Modell (GLM) . . . . . . 2.1.3 Zeitreihen und Longitudinaldaten . . . . . . . . . . . . 2.1.4 Konditionale Modelle . . . . . . . . . . . . . . . . . . . Statistische Inferenz . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Inferenz im GLM . . . . . . . . . . . . . . . . . . . . . 2.2.2 Inferenz in konditionalen Modellen . . . . . . . . . . . 2.2.3 Polio Inzidenz in den USA . . . . . . . . . . . . . . . . 2.2.4 Die indonesische Kindergesundheitsuntersuchung (ICHS)
3 Dynamische Modelle, Kalman-Filter 3.1 Zustandsraummodelle . . . . . . . . . . . . . . . . . . . 3.1.1 Einfache Trendmodelle . . . . . . . . . . . . . . 3.1.2 Statistische Inferenz im Zustandsraummodell . . 3.2 Optimalit¨atskriterien und Bayessche Inferenz . . . . . . 3.2.1 Kleinste-Quadrate Sch¨atzer . . . . . . . . . . . 3.2.2 Lineare Kleinste-Quadrate Sch¨atzer . . . . . . . 3.3 Kalmanfilter und -gl¨atter . . . . . . . . . . . . . . . . . 3.3.1 Der Kalmanfilter . . . . . . . . . . . . . . . . . 3.3.2 Pr¨adiktion und Gl¨attung . . . . . . . . . . . . . 3.4 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Das Orthogonalit¨atsprinzip . . . . . . . . . . . 3.4.2 Beste M M S-Sch¨atzer und bedingte Erwartung 4 Verweildauer- und Ereignisanalyse 4.1 Herk¨ommlicher Zugang . . . . . . . . . . . . . . . . . . 4.1.1 Survivalfunktion und Hazardrate . . . . . . . . 4.1.2 Die Sterbetafel-Methode . . . . . . . . . . . . . 4.2 Submartingale . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Filtrationen und Stoppzeiten . . . . . . . . . . . 4.2.2 Bedingte Erwartungen und (Sub-) Martingale . 4.2.3 Vorhersehbarkeit und Doob-Meyer Zerlegung . . 4.3 Modellierung durch Z¨ahl- und Punktprozesse . . . . . . 4.3.1 Punkt- und Z¨ahlprozesse . . . . . . . . . . . . . 4.3.2 Der Intensit¨atsprozeß . . . . . . . . . . . . . . . 4.4 (Non-) parametrische Modelle . . . . . . . . . . . . . . 4.4.1 Das multiplikative Intensit¨atsmodell . . . . . . . 4.4.2 Multiplikatives und Coxsches Regressionsmodell
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
63 68 73 74 76 76 82 84 85 91 92 93 94 95 96 97 104 104 107 107 107 109
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
111 . 113 . 113 . 115 . 117 . 118 . 120 . 125 . 129 . 129 . 131 . 133 . 133 . 137
INHALTSVERZEICHNIS 4.5
Statistische Inferenz . . . . . . . . . . . . . . . . . . . 4.5.1 Nelson-Aalen- und Kaplan-Meier-Sch¨atzer . . . 4.5.2 Sch¨atzung im multiplikativen Regressionsmodell 4.5.3 Sch¨atzung der Baseline-Hazard-Rate. . . . . . .
9 . . . .
. . . .
. . . .
. . . .
137 138 140 143
Literaturverzeichnis
151
Abbildungsverzeichnis
153
Tabellenverzeichnis
155
Index
157
10
INHALTSVERZEICHNIS
Kapitel 1 Markov-Chain-Monte-Carlo Methoden Diese MCMC-Methoden haben bereits einen festen Platz in praktisch allen statistischen Anwendungen. Sie dienen der Simulation komplexer zuf¨alliger Gr¨oßen sowie der suboptimalen Berechnung von Sch¨atzern in hochdimensionalen Parameterr¨aumen. Eine besonders wichtige Rolle spielen sie bei der Untersuchung Bayesscher Modelle. Sie beruhen im wesentlichen auf der Konvergenz der Marginalverteilungen von (leicht simulierbaren) Markovketten, unter welchen die interessierende Verteilung station¨ar ist. Wir schicken eine elementare Einf¨ uhrung in endliche Markovketten voraus, die gleichzeitig als Grundlage f¨ ur sp¨atere Kapitel dient.
1.1
Endliche Markovketten
Viele zeitliche Abl¨aufe (Prozesse), die in der Statistik betrachtet werden, weisen Abh¨angigkeiten von ihrer Vergangenheit auf. Etwa die Verkaufszahlen eines Ladens in einer Woche werden von der Zufriedenheit der Kunden mit den Eink¨aufen der Vorwoche abh¨angen, die heutige Luftverschmutzung von der gestrigen, die morgigen B¨orsenkurse von den heutigen, die L¨ange einer Warteschlange um drei Uhr von der L¨ange um zwei Uhr usw. Die Modellierung voller Abh¨angigkeiten mag ein realistisches Abbild der Wirklichkeit liefern, sie wird aber zu großen Schwierigkeiten bei der wahrscheinlichkeitstheoretischen Behandlung und der statistischen Inferenz f¨ uhren. Man sucht also nach Modellen, die gen¨ ugend Abh¨angigkeit erlauben und 11
12
KAPITEL 1. MCMC-METHODEN
gleichzeitig statistisch behandelbar sind. Eine reichhaltige und geeignete Klasse sind die Markovprozesse . Bei ihnen wird nur die Abh¨angigkeit vom letzten Zeitpunkt modelliert; das ist ein akzeptabler Kompromiß zwischen der Abh¨angigkeit von der gesamten Vergangenheit und v¨olliger Unabh¨angigkeit. Sie liegen vielen der nachfolgenden Beispielen und Anwendungen zugrunde oder sind methodische oder didaktische Voraussetzung f¨ ur allgemeinere Modelle. Weil sie so wichtig f¨ ur diese Vorlesung sind, wiederholen wir die Grundlagen und geben einige Ableitungen. Zus¨atzlich werden wir illustrieren, wie Markovprozesse in Form stochastischer Algorithmen als wirksame Hilfsmittel f¨ ur Computersimulationen sowie f¨ ur die Optimierung komplizierter Funktionen eingesetzt werden k¨onnen.
1.1.1
Vorbereitungen
Ein (zeitdiskreter) stochastischer Prozeß ist eine Folge ξ0 , ξ1 , ξ2 , . . . von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Dabei bezeichnet Ω die Menge der Elementarereignisse, F die σ-Algebra der in betracht zu ziehenden Ereignisse und P ein Wahrscheinlichkeitsmaß auf F. 1 Im folgenden betrachten wir Prozesse, bei denen die Zufallsvariablen ξt nur Werte in einem endlichen Raum E annehmen k¨onnen; o.E. k¨onnen wir E = {1, . . . , N } 1
Elementarereignisse sind die ‘kleinsten’ Ereignisse ω, die wir formulieren k¨onnen, zum Beispiel ω =‘es f¨ allt die 0 beim M¨ unzwurf’, ω =‘es f¨allt die 3 beim W¨ urfel’, ‘ω =‘ich messe 2,72 Volt mit dem Voltmeter’ oder ω =‘der Weg, den ein ganz bestimmtes Molek¨ ul im Lauf der Zeit nimmt’ oder ω =‘der genaue Weg, wie der Skifahrer mit der Nummer 3 den Slalom nimmt’. Ereignisse A sind Mengen von Elementarereignissen, die von Interesse sind, z.B. A0 =‘der W¨ urfel f¨ allt auf eine gerade Zahl’, A1 =‘die Messung liegt zwischen 2,5 und 2,9 Volt’, A2 =‘der Slalomfahrer nimmt das erste Tor regelgem¨aß’. Die Menge der Ereignisse F folgt elementaren logischen Regeln. So ist Ω ∈ F, d.h. Ω ist ein Ereignis; das Ereignis Ω bedeutet, daß irgendeines der m¨oglichen Elementarereignisse eintritt. Ist A ein Ereignis, so ist auch Ω\A (‘A tritt nicht ein’) ein Ereignis. Damit folgt daß ∅ = Ω\Ω ∈ F; das Ereignis ∅ bedeutet, daß nichts passiert. Sind A und B Ereignisse, so auch A ∪ B. Z.B. w¨are beim Slalom A1 =‘der Slalomfahrer nimmt das erste Tor’ und A2 =‘der Slalomfahrer nimmt das zweite Tor’, so ist A1 ∪ A2 =‘er nimmt das erste oder das zweite Tor’ ein Ereignis. Aus technischen Gr¨ unden fordert man, daß die ‘oder’-Beziehung nicht nur f¨ ur endlich viele, sondern sogar f¨ u r abz¨ a hlbar viele Ereignisse gilt, d.h. sind A ∈ F, i = 1, 2, . . ., so ist auch i S∞ eine nichtnegative Funktion auf F i=1 Ai ∈ F ein Ereignis. Das Wahrscheinlichkeitsmaß,S P∞ ∞ (P ≥ 0) spiegelt diese logische Struktur wider; es gilt P( i=1 Ai ) = i=1 P(Ai ) falls die Ai paarweise disjunkt sind; damit gilt z.B. P(∅) = P(Ω) − P(Ω) = 0, was unter der Pr¨amisse, daß wir ein Zufallsexperiment durchf¨ uhren wollen und somit irgendetwas herauskommen muß vern¨ unftig ist. Desweiteren w¨ahlt man die (willk¨ urliche aber praktische) Normierung P(Ω) = 1. Daraus folgt 0 ≤ P(A) ≤ 1 f¨ ur alle A ∈ F.
1.1. ENDLICHE MARKOVKETTEN
13
w¨ahlen. Damit erfassen wir z.B. bin¨are Zust¨ande wie schwarz - weiß bei Bildern, krank - gesund usw., ordinale Merkmale und (endlich viele) numerische Gr¨oßen. Die Indizes t ∈ {0, 1, 2, . . .} = N0 2 interpretieren wir meist als (diskrete) Zeitpunkte, die Werte x ∈ E nennen wir Zust¨ande . Wir wollen konditionale Modelle betrachten, d.h. solche bei denen der (zuf¨allige) gegenw¨artige Zustand ξt von den vergangenen ξ0 , . . . , ξt−1 abh¨angt. Der einfachste Fall ist, daß ξt nur vom letzten Zustand ξt−1 abh¨angt. Solche Prozesse lassen sich mathematisch noch recht gut handhaben. Das allgemeinere Modell l¨aßt sich sogar formal auf diesen Fall zur¨ uckf¨ uhren, allerdings hat man dann zu jedem Zeitpunkt t einen anderen Raum Et . Bemerkung 1.1.1 Bei physikalischen Anwendungen hat man im allgemeinen nur die Abh¨angigkeit vom letzten Zeitpunkt. Ob ein Luftmolek¨ ul zur Zeit t im Volumen V ist, h¨angt nur von seinem Ort zur Zeit t − 1 ab und nicht von seinem vorherigem Schicksal. Ebenso h¨angt beim Roulette mein Kapital jeweils nur von der vorherigen Runde ab. Bei der Spracherkennung muß man nat¨ urlich mehrere Buchstaben in Folge kennen, um den n¨achsten vorherzusagen: bei ‘h’ ist der n¨achste Buchstabe nur schwer vorherzusagen, bei ‘heut’ wird es eher ‘e’ sein. Auch ‘i’ oder ‘z’ w¨aren denkbar f¨ ur ‘heutig’ oder ‘heutzutage’. In solchen Situationen werden also Abh¨angigkeiten von mehreren vergangenen Zeitpunkten eine Rolle spielen. Schaltet man einen spannenden Krimi erst am Ende ein, so wird man die Story kaum mehr verstehen k¨onnen. Man braucht die Kenntnis von Anfang an, um sp¨ateres vorhersagen zu k¨onnen. Wir wollen nun eine Markovsche (zuf¨allige) zeitliche Abfolge von Zust¨anden modellieren. Zun¨achst soll der Startzustand zuf¨allig sein. Dies dr¨ ucken wir durch eine Startverteilung ν auf E aus, gem¨aß derer der Startzustand x0 zuf¨allig gew¨ahlt wird3 . Um die Abh¨angigkeit darzustellen, brauchen wir ¨ Ubergangswahrscheinlichkeiten Pt (i, j) = ptij ; sie geben an, mit welcher Wahrscheinlichkeit zur Zeit t der Zustand j eintritt, wenn zur Zeit t−1 der Zustand i vorlag. F¨ ur jedes i ist also der Vektor (Pt (i, 1), . . . , Pt (i, N )) ein Wahrscheinlichkeitsvektor, d.h. es gilt Pt (i, j) ≥ 0, i, j ∈ E,
N X
Pt (i, j) = 1, i ∈ E.
j=1
2 3
N0 ist die Menge der nat¨ urlichen Zahlen P inklusive der Null d.h. durch Zahlen ν(i) ≥ 0, i ∈ E mit i∈E ν(i) = 1.
14
KAPITEL 1. MCMC-METHODEN
Man kann diese Vektoren in einer nannt anordnen: pt11 pt 21 Pt = .. . ptN 1
¨ Ubergangsmatrix , auch Markovkern ge pt12 · · · pt1N pt22 · · · pt2N .. .. .. . . . . t t pN 2 · · · pN N
Pt ist eine stochastische Matrix , d.h. alle Eintr¨age sind nichtnegativ und die Zeilensummen sind eins. Wir zeigen nun, daß es stochastische Prozesse mit dieser Abh¨angigkeitsstruktur u ¨berhaupt gibt. Genauer: wir konstruieren einen Wahrscheinlichkeitsraum (Ω, F, P) und eine Folge (ξt )t∈T von Zufallsvariablen darauf, so daß gilt: P(ξ0 = x) = ν(x), P(ξt = x|ξt−1 = y) = Pt (x, y), (1.1) d.h. ν ist die Startverteilung und die Verteilung zur Zeit t bedingt durch den ¨ vorherigen Zeitpunkt ist durch die Ubergangswahrscheinlichkeit Pt gegeben. Eine Folge (xt )t≥0 = (x0 , x1 , . . .) von Zust¨anden heißt Pfad . Er repr¨asentiert eine zeitliche Abfolge von (zuf¨alligen) Zust¨anden, d.h. eine Realisierung des Prozesses. Die Menge aller Pfade ist der unendliche Produktraum E T , wobei T = N0 . Wir definieren nun eine Verteilung P auf Ω = E T . Als σAlgebra w¨ahlen wir die Produkt-σ-Algebra F; die einzelnen Komponenten E t = E von E T sind mit der Potenzmenge als σ-Algebra versehen. Dann ist die Projektion ξt der Pfade auf den Zustand zur Zeit t, also ξt : Ω −→ E, (xs )s∈T 7−→ xt ,
(1.2)
Pt (ξ0 = x0 , . . . , ξt = xt ) = ν(x0 )P1 (x0 , x1 ) · · · Pt (xt−1 , xt ),
(1.3)
meßbar. Wir setzen
wobei t und (x0 , . . . , xt ) beliebig sind. Dies ist eine Z¨ahldichte auf der Menge E {0,...,t} aller Pfade der L¨ange t und somit ist eine Wahrscheinlichkeit Pt auf E t definiert. Die Folge (Pt )t≥0 von Wahrscheinlichkeiten ist konsistent und somit existiert ein Wahrscheinlichkeitsmaß P auf (Ω, F), so daß stets P(ξ0 = x0 , . . . , ξt = xt ) = Pt (ξ0 = x0 , . . . , ξt = xt )
(1.4)
gilt4 . Damit haben wir aus ν und den Pt einen stochastischen Prozeß konstruiert. 4
Dies garantiert der Konsistenzsatz von Kolmogorov, vgl. [3], Satz 35.3.
1.1. ENDLICHE MARKOVKETTEN
15
Definition 1.1.2 Der in (1.2), (1.3) und (1.4) konstruierte Koordinaten¨ prozeß heißt kanonischer Prozeß mit Startverteilung ν und Ubergangswahrscheinlichkeiten Pt . Wir m¨ ussen nur noch nachweisen, daß (1.1) gilt. Auf dem Weg dorthin rechnen wir einige wichtige Verteilungen aus. Bei unseren Rechnungen nehmen wir stets an, daß die Nenner der vorkommenden Br¨ uche strikt positiv sind. Sonst werden, wie u ¨blich, alle bedingten Wahrscheinlichkeiten gleich null gesetzt. Wir berechnen zuerst die eindimensionalen Marginalverteilungen νt , d.h. die Verteilungen νt = P ◦ ξt−1 der einzelnen Variablen ξt . Es ergibt sich νt (x) = P(ξt = x) =
X
(x0 ,...,xn−1
=
X
P((x0 , . . . , xn−1 , x))
(1.5)
)∈E n−1
ν(x0 )P1 (x0 , x1 ) · . . . · Pt (xt−1 , x) = νP1 · · · Pt (x),
(x0 ,...,xt−1 )∈E n−1
wobei P1 · · · Pt als Matrizenprodukt interpretiert und ν aus Dimensionsgr¨ unden als Zeilenvektor aufgefaßt wird. Sei nun s < t. Die zweidimensionale Marginalverteilung νst = P◦(ξs , ξt )−1 berechnet sich zu νst (x, y) = P(ξs = x, ξt = y) X X = P((x0 , · · · , xs−1 , x, xs+1 , · · · , xt−1 , y)) x0 ,...,xs−1 xs+1 ,...,xt−1
= νP1 . . . Ps (x)Ps+1 . . . Pt (x, y). ¨ Ahnlich wie oben lassen sich auch die mehrdimensionalen Marginalverteiucke der lungen P ◦ (ξt1 , . . . , ξtk )−1 berechnen; sie sind gegeben durch Ausdr¨ Gestalt P(ξt1 = x1 , . . . , ξtk = xk ). Damit ist unsere urspr¨ ungliche Frage, ob wir den richtigen Prozeß konstruiert haben, leicht zu beantworten: Theorem 1.1.3 Der kanonische Prozeß (ξt ) aus (1.2), (1.3) und (1.4) erf¨ ullt (1.1).
16
KAPITEL 1. MCMC-METHODEN
Beweis. Wir rechnen einfach nach, indem wir (1.5)und (1.6) benutzen: νt−1,t (x, y) P(ξt−1 = x, ξt = y) = P(ξt−1 = x) νt−1 (x) νP1 . . . Pt−1 (x)Pt (x, y) = = Pt (x, y). νP1 . . . Pt−1 (x)
P(ξt = y|ξt−1 = x) =
Wir haben den Prozeß absichtlich so konstruiert, daß er nur Abh¨angigkeiten vom letzten Zeitpunkt widerspiegelt. In der Tat ist f¨ ur den gegenw¨artigen Zustand nur der letzte relevant und nicht die gesamte Vorgeschichte. Formal bedeutet das: Theorem 1.1.4 F¨ ur den kanonischen Prozeß zu ν und (Pt ) gilt P(ξt = y|ξ0 = x0 , . . . , ξt−1 = x) = Pt (x, y) = P(ξt = y|ξt−1 = x).
(1.6)
Beweis. Dies ist wieder eine elementare Rechnung P(ξt = y|ξ0 = x0 , . . . , ξt−1 = x) =
P(ξ0 = x0 , . . . , ξt−1 = x, ξt = y) P(ξ0 = x0 , . . . , ξt−1 = x)
=
ν(x0 )P1 (x0 , x1 ) . . . Pt−1 (xt−2 , x)Pt (x, y) ν(x0 )P1 (x0 , x1 ) . . . Pt−1 (xt−2 , x)
= Pt (x, y) = P(ξt = y|ξt−1 = x). Weil dieser Begriff unsere obigen Forderungen zusammenfaßt, erh¨alt er einen Namen, n¨amlich den des Erfinders: Definition 1.1.5 Ein stochastischer Prozeß (ξt ) (auf irgendeinem Wahrscheinlichkeitsraum (Ω, F, P)) mit der Eigenschaft P(ξt = y|ξ0 = x0 , . . . , ξt−1 = x) = Pt (x, y) = P(ξt = y|ξt−1 = x)
(1.7)
¨ heißt Markovkette oder Markovprozeß mit Ubergangswahrscheinlichkeiten Pt . Die Identit¨at (1.7) definiert die Markoveigenschaft.
1.1. ENDLICHE MARKOVKETTEN
17
Wir k¨onnen den letzten Satz nun umformulieren: Theorem 1.1.6 Der kanonische stochastische Prozeß zu ν und (Pt ) ist ein Markovprozeß. Geht es nur um die Verteilung eines Prozesses, so k¨onnen wir stets mit dem kanonischen Prozeß arbeiten. Wir geben eine zweite Konstruktion an, die zweierlei Vorteile hat. Einerseits ben¨otigen wir keine starke Version des Konsistenzsatzes von Kolmogorov - sondern nur die Existenz einer Folge von i.i.d. Variablen5 , bzw.des Produktmaßes P = λT auf (0, 1]T , wobei λ das Lebesgue-Maß auf (0, 1] bezeichnet6 . Zum zweiten ergibt sich daraus unmittelbar ein Programm zur ComputerSimulation des Prozesses. Wir simulieren zuerst eine einzelne Zufallsvariable mit endlich vielen Zust¨anden. Im Prinzip werden alle simulierbaren Zufallsvariablen mit Hilfe von auf dem Einheitsintervall (0, 1] gleichverteilten Zufallsvariablen U erzeugt. Diese stehen in jedem Computerprogramm als Prozedur zur Verf¨ ugung. Simulation 1.1.7 Wir wollen eine Zufallsvariable η simulieren, welche Werte in der Menge {1, . . . , N } mit jeweils den Wahrscheinlichkeiten p1 , . . . , pN annimmt. Dazu generieren wir eine Zufallsvariable U , welche im Einheitsintervall (0, 1] gleichverteilt ist. Dann partitionieren wir (0, 1] in N sukzessive Intervalle Ik = (ak−1 , ak ], k = 1, . . . , N der L¨angen pk = ak −ak−1 . Wir setzen also a0 = 0, a1 = p1 , so daß λ(a a1 ] = p1 , a2 = p1 + p2 , so daß λ(a1 , a2 ] = p2 , P0 , −1 usw. und schließlich aN −1 = N i=1 pk , aN = 1, so daß λ((aN −1 , 1]) = pN ist. Definieren wir nun η : (0, 1] 7→ {1, . . . , N } durch η(u) = k ⇐⇒ U (u) ∈ Ik , so gilt P(η = k) = λ(Ik ) = pk und η hat die gew¨ unschte Verteilung. Formal hat η die Gestalt η=
N X k=1
5
k · χ(Pk−1 ai ,Pk i=0
i=0
ai ] (U ).
(1.8)
Die Abk¨ urzung i.i.d. bedeutet ‘independent, identically distributed’, also unabh¨angig, identisch verteilt. 6 gegeben durch λ((a, b]) = b − a, das nat¨ urliche euklidische Maß
18
KAPITEL 1. MCMC-METHODEN
Ein Pseudocode f¨ ur ein Programm h¨atte z.B. die Gestalt Procedure Uniform; {Liefert eine in (0, 1] gleichverteilte Zufallsvariable U; bei wiederholtem Aufruf sind die Werte unabh¨ angig. } Procedure DZV (Input: p[1],. . .,p[N]; Output: η); {liefert eine diskrete Zufallsvariable DZV mit der Z¨ ahldichte p[k] } BEGIN U:=Uniform; i:=1; CDF:=p[1]; WHILE (CDF
f (i, u, t) =
N X k=0
k · χ(Pk−1 pt i=0
ik ,
Pk
i=0
ptik ] (u),
1.1. ENDLICHE MARKOVKETTEN
19
so daß f (i, u, t) = k genau dann wenn u∈
k−1 X
ptik ,
i=0
k X
#
ptik .
i=0
Dann setzt man f¨ ur t = 0, 1, . . . rekursiv ηt = f (ηt−1 , Ut , t), wobei (Ut )t eine i.i.d.-Folge von im Einheitsintervall gleichverteilten Zufallsvariablen ist. Dieser Prozeß hat die richtige Verteilung und die Formeln entsprechen obiger Prozedur. Die i.i.d. Variablen Ut erzeugt man durch wiederholtes Aufrufen des Zufallsgenerators, wobei man nur zu beachten hat, daß man nicht immer dieselbe Saat (seed) benutzt.
1.1.2
Der Kontraktionskoeffizient
Der Kontraktionskoeffizient ist ein wichtiges Hilfsmittel zur Untersuchung des asymptotischen Verhaltens von Markovketten. In diesem Abschnitt be¨ zeichnen E eine endliche Menge, P eine Ubergangswahrscheinlichkeit oder einen Markovkern auf E und µ, ν, % usw. Verteilungen (Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsvektoren) auf E. Um die Konvergenz zu messen, ben¨otigen wir eine Metrik. P bezeichne die Menge aller Wahrscheinlichkeitsmaße auf E. F¨ ur µ, ν ∈ P sei X kµ − νk = |µ(x) − ν(x)| x∈E
die (Norm der) totale(n) Variation. Dies ist einfach der l1 -Abstand. Lemma 1.1.9 Es gilt kµ − νk = 2
X
(µ(x) − ν(x))+
x
= 2 1−
X
!
min{µ(x), ν(x)}
x
( ) X = max h(x)(µ(x) − ν(x)) : |h| ≤ 1 . x
20
KAPITEL 1. MCMC-METHODEN
Beweis. Elementare Rechnung liefert: X X kµ − νk = (µ(x) − ν(x))+ + (µ(x) − ν(x))− x
x
X
=
(µ(x) − ν(x)) +
x:µ(x)≥ν(x)
X
(ν(x) − µ(x)).
x:µ(x)<ν(x)
Die Differenz der beiden Summen verschwindet und deshalb sind sie gleich. Damit gilt ! X kµ − νk = 2 · (µ(x) − ν(x))+ x
und somit die erste Identit¨at. Die zweite folgt aus: kµ − νk X
=
x:µ(x)≥ν(x)
=
X
µ(x) +
x
= 2 1−
X
µ(x) −
x:µ(x)≥ν(x)
X x
X
ν(x) −
ν(x) − 2
X
µ(x) +
µ(x) +
X
x:µ(x)<ν(x)
X
x:µ(x)<ν(x)
X
ν(x)
x:µ(x)<ν(x)
x:µ(x)≥ν(x)
ν(x)
!
µ(x) ∧ ν(x) .
x
Die Ungleichung kµ − νk =
X
|µ(x) − ν(x)|
x
) ( X ≥ max h(x)(µ(x) − ν(x)) : |h| ≤ 1 x
ist klar. Um die Gleichheit zu zeigen, setzt man
h(x) = sgn(µ(x) − ν(x)) ein.
Die Mischungseigenschaft eines Markovkernes l¨aßt sich durch den (Dobrushinschen) Kontraktionskoeffizienten c(P ) messen: c(P ) =
1 max kP (x, ·) − P (y, ·)k. 2 x,y
1.1. ENDLICHE MARKOVKETTEN
21
Bemerkung 1.1.10 Es gilt offensichtlich 0 ≤ kµ − νk ≤ 2, wobei kµ(x) − ν(x)k = 2, genau dann, wenn µ und ν orthogonal sind, d.h. disjunkte Tr¨ager haben. Somit gilt 0 ≤ c(P ) ≤ 1, wobei c(P ) = 0 genau dann, wenn alle P (x; ·), x ∈ E, gleich sind, und c(P ) = 1, wenn wenigstens zwei der P (x, ·) orthogonal sind. Die beiden Ungleichungen im folgenden Lemma sind fundamental. Lemma 1.1.11 Auf P gelten stets kµP − νP k ≤ c(P )kµ − νk c(P Q) ≤ c(P )c(Q). Insbesondere gelten kµP − νP k ≤ kµ − νk, kµP − νP k ≤ 2c(P ). Beweis. Wir beweisen die erste Ungleichung. Sei f eine reelle Funktion auf E und d = (max f (x) + min f (x))/2. x
x
Dann gilt max |f (x) − d| = (1/2) max |f (x) − f (y)|. x x,y P Wir schreiben kurz µ(f ) f¨ ur x f (x)µ(x) und folgern |µ(f ) − ν(f )| = |µ(f − d) − ν(f − d)| ≤ max |f (x) − d| · kµ − νk x
= (1/2) max |f (x) − f (y)| · kµ − νk. x,y
F¨ ur eine Funktion h auf E ist P h definiert durch X P h(x) = h(y)P (x, y). y
(1.9)
22
KAPITEL 1. MCMC-METHODEN
Einsetzen von P h f¨ ur f ergibt kµP − νP k = max{|(µP )h − (νP )h| : |h| ≤ 1} = max{|µ(P h) − ν(P h)| : |h| ≤ 1} ≤ max (1/2) max |P h(x) − P h(y)| : |h| ≤ 1 kµ − νk x,y
= (1/2) max max{|P h(x) − P h(y)| : |h| ≤ 1}kµ − νk x,y
= c(P )kµ − νk. Damit ist die erste Ungleichung bewiesen. Die zweite Ungleichung folgt aus c(P Q) = (1/2) max kP Q(x.·) − P Q(y, ·)k x,y
= (1/2) max kP (x, ·)Q − P (y, ·)Qk x,y
≤ c(P )c(Q). Die u ¨brigen Ungleichungen folgen aus den bewiesenen weil c(P ) ≤ 1 und kµ − νk ≤ 2 ist. Damit ist der Beweis vollst¨andig. Schließlich ben¨otigen wir noch eine einfache Absch¨atzung. Lemma 1.1.12 F¨ ur jeden Markovkern auf einem endlichen Raum E gilt c(Q) ≤ 1 − |E| min{Q(x, y) : x, y ∈ E} ≤ 1 − min{Q(x, y) : x, y ∈ E} . Insbesondere gilt f¨ ur strikt positives Q, daß c(Q) < 1. Beweis. Mit Lemma 1.1.9 folgt kµ − νk/2 = 1 −
X
min{µ(x), ν(x)}
x
f¨ ur Verteilungen µ und ν. Also gilt ( ) X c(Q) = 1 − min Q(x, z) ∧ Q(y, z) : x, y ∈ E z
woraus die erste Ungleichung folgt. Der Rest ist klar.
1.1. ENDLICHE MARKOVKETTEN
1.1.3
23
Homogene Markovketten
Eine homogene Markovkette ist gegeben durch eine Startverteilung ν und einen Markovkern P ; d.h. daß in obiger Notation Pt = P f¨ ur alle t = 1, 2, . . .. Die n-te Marginalverteilung ist νn = νP n , insbesondere gilt also ν0 = ν . Wir interessieren uns f¨ ur die Konvergenz der νn . Gute Kandidaten f¨ ur Grenzverteilungen ν∞ = lim νn n→∞
sind invariante Verteilungen µ mit µP = µ, denn die Ketten konvergieren zumindest f¨ ur das Startmaß ν0 = µ: µP n = (µP )P n−1 = µ −→ µ, n → ∞. Damit diese Konvergenz auch f¨ ur den Start in anderen Verteilungen stattfindet, muß P den Raum E ‘durchmischen‘. Dies ist der Fall bei strikt positiven P : man kommt in einem Schritt von jedem x zu jedem y mit positiver Wahrscheinlichkeit. Etwas allgemeiner sind primitive Markovkerne f¨ ur die es ein τ τ ∈ N gibt, so daß P strikt positiv ist. Lemma 1.1.13 F¨ ur jeden strikt positiven Markovkern Q ist c(Q) < 1. Beweis. Dies folgt unmittelbar aus Lemma 1.1.12.
Daraus folgt schon der Konvergenzsatz. Theorem 1.1.14 Sei P primitiv mit invarianter Verteilung µ. Dann gilt νP n −→ µ, n −→ ∞, gleichm¨aßig in allen ν ∈ P. Beweis. Es gilt f¨ ur große n, daß kνP n − µk = kνP n − µP n k ≤ kν − µkc(P n ) ≤ 2c(P k·τ )c(P n−k·τ ) ≤ 2(c(P )τ )k −→ 0, wodurch der Satz bewiesen ist.
24
KAPITEL 1. MCMC-METHODEN
Theorem 1.1.15 Jeder primitive Markovkern besitzt genau eine invariante Verteilung. Diese ist strikt positiv. Beweis. Da die Zeilensummen von Markovkernen gleich 1 sind, hat P den Eigenwert 1 mit Rechtseigenvektoren (a, . . . , a)∗ . Da 1 auch Eigenwert der Transponierten P ∗ ist, gibt es ν ∗ ∈ RE \{0} (Das Symbol R bezeichnet die Menge der reellen Zahlen) mit P ∗ ν ∗ = ν ∗ und somit νP = ν. Sei nun P > 0. H¨atte ν eine strikt positivePund eine strikt negative Komponente, dann w¨ urden Invarianz, P > 0 und y P (x, y) = 1 implizieren, daß XX X X X X |ν(y)| = ν(x)P (x, y) < |ν(x)|P (x, y) = |ν(x)|. y
y
x
x
y
x
Dies ist ein Widerspruch und wir d¨ urfen ν(x) ≥ 0 f¨ ur jedes x annehmen. Da ν 6= 0, gilt X ν(y) = ν(x)P (x, y) > 0 f¨ ur jedes y. x
Schließlich liefert Normalisierung von ν eine invariante strikt positive Verteilung µ. Die Eindeutigkeit folgt schon aus Satz 1.1.14. Sei P schließlich primitiv mit P τ > 0. Wieder hat P den Eigenwert 1 und es gibt ν ∈ RE \{0}, so daß νP = ν und somit auch νP τ = ν. Da nun P τ > 0, hat P τ eine eindeutig bestimmte invariante Verteilung. Wegen der Eindeutigkeit gilt µ = ν. Somit ist µ auch die eindeutig bestimmte invariante Verteilung von P und sie ist u ¨berdies strikt positiv. Ist ν˜ eine weitere invariante Verteilung von P , so ist ν˜ auch P τ -invariant und deshalb gleich ν. Die Approximation von Erwartungswerten beruht auf einem Gesetz der großen Zahlen. F¨ ur eine Startverteilung ν und einen Markovkern P sei (ξi )i≥0 die zum induzierten Markovprozeß geh¨orige Folge der zuf¨ Palligen Zust¨ande zu den Zeitpunkten i = 0, 1, . . .. Der Erwartungswert x f (x)µ(x) einer Funktion f auf E bez¨ uglich einer Verteilung µ sei mit Eµ (f ) bezeichnet. Theorem 1.1.16 (Schwaches Gesetz der großen Zahlen) Sei Eeine endliche Menge und sei P ein Markovkern auf E mit invarianter Verteilung µ und c(P ) < 1. Dann gilt f¨ ur jede Startverteilung ν und jede Funktion f auf E, daß n 1X f (ξi ) −→ Eµ (f ) n i=1
1.1. ENDLICHE MARKOVKETTEN
25
in L2 (Pν ). Dar¨ uber hinaus gilt f¨ ur jedes ε > 0, daß ! n 1 X 13kf k22 f (ξi ) − Eµ (f ) > ε ≤ Pν n (1 − c(P ))nε2 i=1 wobei kf k22 =
P
x
|f (x)|2 .
F¨ ur i.i.d. Zufallsvariablen ξi h¨angen die Gr¨oßen P (x, y) nicht von x ab; somit sind alle Zeilen der zu P geh¨origen Matrix gleich und es ist c(P ) = 0. In diesem Fall erh¨alt man das u ¨bliche schwache Gesetz der großen Zahlen. P Beweis. F¨ ur jedes x ∈ E sei gx = (1/n) ni=1 χ{ξi =x} − µ(x). Dann gilt !2 !2 n X X 1 f (ξi ) − Eµ (f ) = Eν Eν f (x)gx n i=1 x 2 s s X X X 2 ≤ Eν f (x) gx2 = kf k22 Eν (gx2 ). (1.10) x
Man berechnet X
Eν gx2
x
=
X x
x
x
!2 n X 1 Eν 1{ξ =x} − µ(x) n i=1 i
n X 1 X Eν ((χ{ξi =x} − µ(x))(χ{ξj =x} − µ(x))) = n2 i,j=1 x n 1 XX = (νij (x, x) − µ(x)2 ) 2 n i,j=1 x
−(µ(x)νj (x) − µ(x)2 ) − (µ(x)νi (x) − µ(x)2 ) . Drei Mittel sind zu sch¨atzen. Schwierig ist nur das erste. Da µP = µ, gelten f¨ ur i, k > 0 die folgenden Absch¨atzungen: X |νP i (x)εx P k (x) − µ(x)2 | x
26
KAPITEL 1. MCMC-METHODEN ≤
X
|νP i (x)εx P k (x) − µP i (x)εx P k (x)| + |µ(x)εx P k (x) − µ(x)µP k (x)|
≤
X
|νP i (x) − µP i (x)| + |εx P k (x) − µP k (x)|
x
x
≤ k(ν − µ)P i k + k(εx − µ)P k k ≤ 2 · (c(P )i + c(P )k ). Daraus folgt n−1 n n−1 n 1 X X X 2 X X 2 |νij (x, x) − µ(x) | ≤ c(P )i + c(P )j−i 2 2 n i=1 j=i+1 x n i=1 j=i+1 ∞
≤
4X 4 c(P )i = . n i=0 n(1 − c(P ))
Die gleiche Absch¨atzung gilt f¨ ur das Mittel u ¨ber Paare (i, j) von Indizes j < i. Wir setzen νii (x, x) = νP i (x) und νii (x, y) = 0 wenn x 6= y. Die Summe u ¨ber die entsprechenden Terme ist durch n beschr¨ankt und deshalb gilt n 1 XX 9 |νij (x, x) − µ(x)2 | ≤ . 2 n i,j=1 x n(1 − c(P ))
Mit Hilfe von (1.10) k¨onnen das zweite und dritte Mittel abgesch¨atzt werden: n
n
µ(x) X X X |νj (x) − µ(x)| n2 i=1 j=1 x n
≤
1X kνP j − µP j k n j=1
≤
2X 2 c(P )j ≤ . n i=0 n(1 − c(P ))
∞
Also gilt X x
E(gx2 ) ≤
13 . n(1 − c(P ))
Zusammen mit (1.10) ist damit der erste Teil der Behauptung bewiesen. Der zweite Teil folgt daraus mit der Markovschen Ungleichung.
1.1. ENDLICHE MARKOVKETTEN
1.1.4
27
Inhomogene Markovketten
In Verallgemeinerung der homogenen Markovketten ist eine inhomogene Markovkette gegeben durch eine Startverteilung ν und eine Folge von Markovkernen Pi , i ≥ 1. Die n-te Marginalverteilung ist νP1 P2 · · · Pn . Wir beweisen wieder einen Konvergenzsatz f¨ ur die Marginalverteilungen. Lemma 1.1.17 Seien µn , n ≥ 1, Verteilungen auf E, so daß X kµn+1 − µn k < ∞ n
. Dann gibt es eine Verteilung µ∞ , so daß µn → µ∞ in k · k, wenn n → ∞. Da E endlich ist, fallen punktweise und L1 -Normkonvergenz bzgl. k · k zusammen. Beweis. F¨ ur m < n gilt kµn − µm k ≤
X
kµk+1 − µk k.
k≥m
Der letztere Ausdruck konvergiert mit m → ∞ gegen 0. PDeshalb ist (µn ) eine Cauchyfolge im kompakten Raum {µ ∈ RE : µ ≥ 0, x µ(x) = 1} und hat somit einen Grenzwert µ∞ darin. Theorem 1.1.18 Seien Pn , n ≥ 1, Markovkerne und jedes Pn besitze eine invariante Verteilung µn . Ferner seien die folgenden Bedingungen erf¨ ullt: X kµn − µn+1 k < ∞, (1.11) n
lim c(Pi . . . Pn ) = 0 f¨ ur jedes i ≥ 1.
n→∞
Dann existiert eine Verteilung µ∞ , f¨ ur die νP1 . . . Pn −→ µ∞
f¨ ur n → ∞.
gleichm¨aßig in allen Startverteilungen ν gilt.
(1.12)
28
KAPITEL 1. MCMC-METHODEN
Beweis. Die Existenz des Grenzwertes µ∞ wurde im Lemma nachgewiesen. Seien nun i ≥ 1 und k ≥ 1. Die Invarianz liefert µi Pi . . . Pi+k = µi Pi+1 . . . Pi+k . Außerdem gilt k X
(µi−1+j − µi+j )Pi+j . . . Pi+k = µi Pi+1 . . . Pi+k − µi+k .
j=1
Zum Beweis: der erste Term in der Summe ist µi Pi+1 . . . Pi+k , der letzte ist gleich −µi+k Pi+k = µi+k und die Kombination von Paaren aufeinanderfolgender Terme liefert −µi+j Pi+j . . . Pi+k + µi+j Pi+j+1 . . . Pi+k = −µi+j Pi+j+1 . . . Pi+k + µi+j Pi+j+1 . . . Pi+k = 0. Damit gilt µ∞ Pi . . . Pi+k − µ∞ = (µ∞ − µi )Pi . . . Pi+k + µi Pi+1 . . . Pi+k − µ∞ k X = (µ∞ − µi )Pi . . . Pi+k + (µi−1+j − µi+j )Pi+j . . . Pi+k j=1
+ µi+k − µ∞ . Daraus folgt kµ∞ Pi . . . Pi+k − µ∞ k ≤ 2 · sup kµ∞ − µn k + n≥i
X
kµn − µn+1 k.
(1.13)
n≥i
Verwendet wurden dabei Lemma 1.1.11 und die Beschr¨anktheit des Kontraktionskoeffizienten durch 1. Mit Bedingung (1.11) und weil µ∞ existiert, wird
1.1. ENDLICHE MARKOVKETTEN
29
f¨ ur großes i der Ausdruck auf der rechten Seite klein. F¨ ur 2 ≤ i ≤ n fahren wir fort mit kνPi . . . Pn − µ∞ k = k(νPi . . . Pn − µ∞ Pi . . . Pn ) + µ∞ Pi . . . Pn − µ∞ k ≤ 2 · c(Pi . . . Pn ) + kµ∞ Pi . . . Pn − µ∞ k.
(1.14)
F¨ ur große n wird der erste Term wegen (1.12) klein. Damit ist der Beweis vollst¨andig. Der Satz heißt auch Satz von Dobrushin (Dobrushin (1956)). Einige einfache Kriterien f¨ ur die G¨ ultigkeit der Voraussetzungen sind: Lemma 1.1.19 F¨ ur Verteilungen µn , n ≥ 1 auf einem endlichen Raum E gilt Bedingung (1.11) falls jede der Folgen (µn (x))n≥1 schließlich f¨allt oder w¨achst.. Beweis. Nach Lemma 1.1.10 gilt XX X (µn+1 (x) − µn (x))+ . kµn+1 − µn k = 2 0≤ x
n
n
Wegen der Monotonie gibt P es n0 so daß entweder (µn+1 (x) − µn (x))+ = 0 f¨ ur alle n ≥ n0 und somit n≥n0 (µn+1 (x) − µn (x))+ = 0 oder (µn+1 (x) − µn (x))+ = µn+1 (x) − µn (x) und somit N X
(µn+1 (x) − µn (x))+ = µN +1 (x) − µn0 (x) ≤ 1
n=n0
f¨ ur alle großen N . Deshalb ist die Doppelsumme endlich und Bedingung (1.11) ist erf¨ ullt. Damit ist der Beweis vollst¨andig. Lemma 1.1.20 Bedingung (1.12) ist erf¨ ullt, falls Y c(Pk ) = 0 f¨ ur jedes i ≥ 1.
(1.15)
k≥i
oder falls c(Pn ) > 0 f¨ ur jedes n und
Y
c(Pk ) = 0.
(1.16)
k≥1
Beweis. Bedingung (1.15) impliziert (1.12) wegen der zweiten Regel in Lemma 1.1.11, und (1.16) impliziert offensichtlich (1.15).
30
KAPITEL 1. MCMC-METHODEN
1.2
Sampling und Annealing
Im Kapitel Sampling und Annealing7 befassen wir uns mit der Simulation und der Sch¨atzung von Parametern aus Verteilungen Π, die einer direkten Behandlung nicht zug¨anglich sind. Wir beschr¨anken uns auf strikt positive Verteilungen Π > 0. Diese k¨onnen stets in der Gibbsschen Form X 1 Π(x) = exp(−H(x)), Z = exp(−H(z)), Z z∈E geschrieben werden. Π heißt dann Gibbsverteilung zur Energiefunktion H; die Normierung Z heißt Zustandssumme . Man kann z.B. immer setzen H(x) = − ln Π(x) − ln Z, wobei Z irgendeine positive Zahl ist. Dann gilt n¨amlich exp(−H(x)) = Π(x) · Z. Wir stellen uns folgende Aufgaben: 1. Simuliere gem¨aß Π, d.h. ziehe Stichproben, die gem¨aß Π verteilt sind; 2. Sch¨atze Parameter in Π; 3. Finde eine Maximalstelle x∗ von x 7→ Π(x). Die erste Aufgabe werden wir mit Hilfe des Konvergenzsatzes f¨ ur homogene Markovketten l¨osen und die zweite mit dem schwachen Gesetz der großen Zahlen f¨ ur homogene Markovketten. Die daraus abgeleiteten Algorithmen heißen Sampler . F¨ ur die dritte Aufgabe m¨ ussen wir entsprechende Aufgaben f¨ ur inhomogene Markovketten l¨osen; sie hat mit der Bestimmung von Maximumlikelihood-Sch¨atzern zu tun. Dies behandeln wir sp¨ater. Zun¨achst formulieren wir noch einige Bemerkungen, die die Notwendigkeit solcher Verfahren begr¨ unden sollen. In der Analyse von Signalen, Bildern oder ¨ortlichen Verteilungen in der Epidemiologie hat man es mit sehr großen Grundr¨aumen zu tun. Diese sind 7
F¨ ur Kapitel 2 und 3 verweisen wir auf G. Winkler: Image Analysis, Random Fields and Dynamic Monte Carlo Methods. A Mathematical Introduction. Springer Verlag (1995), [17].
1.2. SAMPLING UND ANNEALING
31
Q oft von Produktgestalt E = s∈S Es . Bei Bildern z.B. w¨are S ein Pixelraster und Es die Menge der m¨oglichen Grauwerte in s. In der Epidemiologie w¨are S vielleicht die Menge von Landkreisen und Es eine Fallzahl im Landkreis s usw. Aufgrund der hohen Zahl der Komponenten von x ∈ E stehen analytische Hilfsmittel zur Bestimmung von x∗ im kontinuierlichen Fall nur in Spezialf¨allen zur Verf¨ ugung. Sind die Komponenten von E diskret, so ist die M¨achtigkeit von E leicht in der Gr¨oßenordnung 256256×256 ; f¨ ur allgemeine H sind keine diskreten Optimierungsmethoden bekannt. Die Erwartungswerte f¨ ur (2) k¨onnen ebenfalls nicht direkt berechnet werden, da die Zustandssumme Z u ¨ber |E| Terme gebildet wird. Einen m¨oglichen Ausweg bilden stochastische Verfahren, die auf bedingten Verteilungen beruhen. Diese sind n¨amlich f¨ ur eine große Klasse praktisch relevanter Energiefunktionen handhabbar.
1.2.1
Bedingte Verteilungen
Wir berechnen bedingte Verteilungen f¨ ur eine praktisch wichtige Klasse von Gibbsmaßen. Beispiel 1.2.1 (Potentiale) Sei E = Πx∈S Es und H von der Gestalt X VC (x), H(x) = C∈C
wobei VC nur von der Restriktion xC von x auf C abh¨angt und C aus kleinen Teilmengen C von S besteht. Dann gilt f¨ ur die bedingte Verteilung Π(xs |xS\s ) von Π ∝ exp(−H(x)), daß Z −1 exp(−H(xs xS\s )) P Z −1 zs exp(H(zs xS\s )) P P exp(− C∈C,C3s VC (xs xS\s )) exp(− C∈C,C63s VC (xC )) P P = P zs exp(− C∈C,C3s VC (zs xS\s )) exp(− C∈C,C63s VC (xC )) P exp(− C∈C,C3s VC (xs xS\s ) P = P . zs exp(− C∈C,C3s VC (zs xS\s ))
Π(xs |xS\s ) =
Nun sind nur noch die - f¨ ur kleine C harmlosen Werte - VC (x) mit C 3 s zu berechnen.
32
KAPITEL 1. MCMC-METHODEN
Beispiel 1.2.2 (Ising Modelll) Im Ising Modell X H(x) = − xs xt , xs = ±1, s∼t
hat man Vst (x) = −xs xt f¨ ur s ∼ t (und VC ≡ 0 sonst) und somit P exp(− s∼t xs xt ) P P Π(xs |xS\s ) = , exp(− s∼t xt ) + exp( s∼t xt ) d.h. 1 P , 1 + exp(2 · s∼t xt ) 1 P . Π(xs = −1|xS\s ) = 1 + exp(−2 · s∼t xt ) Π(xs = 1|xS\s ) =
Die Idee ist nun, aus diesen bedingten Verteilungen Markov-Prozesse zu konstruieren, deren Marginalverteilungen gegen Π konvergieren, bzw. gegen andere n¨ utzliche Verteilungen. So verschiebt man die Raumkomplexit¨at in die Zeit.
1.2.2
Gibbs und Metropolis Sampler
Unser Ziel war, Stichproben gem¨aß einem Gibbsmaß Π zu ziehen (sampling). Im Hinblick auf die Grenzwerts¨atze f¨ ur Markovketten ist also eine homogene Markovkette mit invarianter Verteilung Π zu konstruieren, die rechentechnisch handhabbar ist. Eine M¨oglichkeit der Konstruktion basiert auf den bedingten Verteilungen zu Π; der entsprechende Algorithmus heißt Gibbs Sampler . Er wird sp¨ater in Konkurenz zu leichter simulierbaren Ketten – wie dem Metropolis Sampler – stehen. Die Theorie des Gibbs Samplers ist jedoch besonders elegant und durchsichtig. Im folgenden sei E ein Produkt endlicher R¨aume Es , s ∈ S, mit endlicher Indexmenge S. F¨ ur jedes I ⊂ S ist ein Markovkern auf E durch folgende Vorschrift definiert: −1 ZI exp(−H(yI xS\I )) falls yS\I = xS\I ΠI (x, y) = (1.17) 0 sonst X exp(−H(zI xS\I )). ZI = zI
1.2. SAMPLING UND ANNEALING
33
Diese Markovkerne nennt man lokale Charakteristiken von Π. Sampeln aus ΠI (x, ·) ¨andert x h¨ochstens auf I. In diesem Text enth¨alt I meist nur ein Pixel, d.h. I ist von der Gestalt I = {s} mit s ∈ S. Die Gibbs Verteilung Π ist invariant f¨ ur ΠI . Dies folgt aus einer st¨arkeren, aber leichter nachzuweisenden Eigenschaft. Lemma 1.2.3 Die Gibbs Verteilung Π und ihre lokalen Charakteristiken ΠI erf¨ ullen die detailed balance Gleichung, d.h. f¨ ur alle x, y ∈ E und I ⊂ S gilt Π(x)ΠI (x, y) = Π(y)ΠI (y, x). Allgemeiner erf¨ ullen die Verteilung µ und der Markovkern P die detailed balance Gleichung, wenn µ(x)P (x, y) = µ(y)P (y, x) f¨ ur alle x und y. Dies bedeutet, daß die zu µ und P geh¨orige homogene Markovkette in der Zeit umkehrbar, also reversibel ist. Beweis. (von Lemma 1.2.3) Entweder beide Seiten der Identit¨at verschwinden oder es gilt yS\I = xS\I . Da x = xI yS\I und y = yI xS\I , gilt weiter exp(−H(xI yS\I )) exp(−H(yI xS\I )) exp(−H(x)) P = exp(−H(y)) P . zI exp(−H(zI xS\I )) zI exp(−H(zI yS\I )) Daraus folgt die detailed balance Gleichung.
Stationarit¨at folgt daraus leicht. Theorem 1.2.4 Falls µ und P die detailed balance Gleichung erf¨ ullen, so ist µ invariant f¨ ur P . Insbesondere sind Gibbs Verteilungen invariant bez¨ uglich ihrer lokalen Charakteristiken. Beweis. Summiere beide Seiten der detailed balance Gleichung u ¨ber x.
Eine Abz¨ahlung S = {s1 , . . . , sσ }, σ = |S|, von S heißt Besuchsschema. Zur Vereinfachung schreiben wir S = {1, . . . , σ}. Ein Markovkern ist definiert durch P (x, y) = Π{1} . . . Π{σ} (x, y). (1.18) Man beachte, daß die Verkn¨ upfungen in (1.18) Matrixmultiplikationen sind. Die homogene Markovkette zum Kern P entspricht dem folgenden Algorithmus:
34
KAPITEL 1. MCMC-METHODEN • Ziehe Startkonfiguration x gem¨aß Startverteilung ν (z.B. ν = δx ). • Update x in Pixel Nummer eins durch die Intensit¨at y1 , welche zuf¨allig gem¨aß Π{1} (y, x) gezogen wird Dies ergibt eine neue Konfiguration y = y1 xS\{1} , die dann in der zweiten Komponente upgedated wird usw. Nach dem Schritt Nummer σ ist ein Sweep beendet. • F¨ uhre nun (viele) weitere Sweeps durch.
Dieser Algorithmus wird durch folgende Aussage gerechtfertigt: Theorem 1.2.5 F¨ ur jedes x ∈ E gilt lim νP n (x) = Π(x)
n→∞
gleichm¨aßig in allen Startverteilungen ν. Beweis. Die Gibbsverteilung µ = Π ist invariant bzgl. ihrer lokalen Charakteristiken nach Satz 1.2.4 und deshalb auch bzgl. deren Komposition P . Außerdem ist P (x, y) strikt positiv, da in jedem s ∈ S die Wahrscheinlichkeit, ein ys zu sampeln strikt positiv ist. Deshalb ist der Satz ein Spezialfall von Satz 1.1.14. Man kann die Pixel auch in zuf¨alliger Reihenfolge besuchen: Sei G eine Verteilung auf S. Man ersetze die lokalen Charakteristiken (1.17) in (1.18) durch Kerne G(s)Π{s} (x, y) wenn yS\{s} = xS\{s} f¨ ur ein s ∈ S ˜ Π(x, y) = (1.19) 0 sonst ˜ σ . G ist eine Vorschlags- oder Explorationsverteilung, meist und setze P˜ = Π die Gleichverteilung auf S. Theorem 1.2.6 Sei G eine strikt positive Verteilung auf S. Dann gilt lim ν P˜ n (x) = Π(x)
n→∞
f¨ ur alle x ∈ E.
1.2. SAMPLING UND ANNEALING
35
Beweis. Π und P˜ erf¨ ullen die detailed balance Gleichung und somit ist Π ˜ invariant f¨ ur P . Weiter folgt aus der strikten Positivit¨at von G, daß P˜ strikt positiv ist und die Konvergenz ergibt sich nach Satz 1.1.14. F¨ ur die M M S Sch¨atzung ben¨otigen wir ein Gesetz der großen Zahlen. Die Zahl δs = max{|H(x) − H(y)| : xS\{s} = yS\{s} } ist die Oszillation von H in s und ∆ = max{δs : s ∈ S} ist die maximale lokale Oszillation von H. Schließlich bezeichne (ξi ) eine Folge von Zufallsvariablen, deren Verteilung durch den Markovprozeß zur Startverteilung ν und zum Markovkern P gegeben ist. Die durch den Prozeß auf E N0 induzierte Verteilung sei mit P bezeichnet. Theorem 1.2.7 Sei (ξi ) durch (1.18) oder (1.19) induziert. Dann gilt f¨ ur jede Funktion f auf E, daß n−1
1X f (ξi ) −→ EΠ (f ) n i=0 in L2 (P) und in Wahrscheinlichkeit. F¨ ur jedes ε > 0 gilt n−1 ! X c P f (ξi ) − EΠ (f ) ≥ ε ≤ 2 eσ∆ nε i=0
wobei c = 13kf k2 f¨ ur (1.18) und c = 13kf k2 minS G(s)−σ f¨ ur (1.19). Beweis. Der Markovkern P in (1.18) ist strikt positiv und wenn dessen Kontraktionskoeffizient echt kleiner eins ist, folgt die Behauptung aus Satz 1.1.16. F¨ ur x ∈ E sei zs eine Minimalstelle in s, d.h. H(zs xS\{s} ) = ms = min{H(vs xS\{s} ) : vs ∈ Es }. Dann gilt exp − H(ys xS\{s} ) − H(zs xS\{s} ) ≥ |Es |−1 e−δs Π{s} (x, ys xS\{s} ) = P vs ∈Xs exp − H(vs xS\{s} ) − ms
36
KAPITEL 1. MCMC-METHODEN
und somit min P (x, y) ≥ x,y
σ Y s=1
|Es |−1 e−σs = |E|−1 e−∆σ .
Die Absch¨atzung in Lemma 1.1.12 liefert c(P ) ≤ 1 − |E| · min P (x, y) ≤ 1 − e−∆σ . x,y
(1.20)
Damit folgt das Gesetz der großen Zahlen im Fall (1.18). Der Beweis f¨ ur (1.19) unterscheidet sich nur in offensichtlichen Details. Das Gesetz der großen Zahlen impliziert, daß der Algorithmus nicht terminiert (mit positiver Wahrscheinlichkeit). Sei f¨ ur jedes x ∈ E n−1
Ax,n
1X = χ{x} (ξi ) n i=0
die relative H¨aufigkeit der Besuche in x w¨ahrend der ersten n − 1 Schritte. Da EΠ (χ{x} ) = Π(x) folgt aus dem Satz: Proposition 1.2.8 Unter den Voraussetzungen von Satz 1.2.7 gilt Ax,n −→ Π(x) in Wahrscheinlichkeit. Insbesondere besucht der Gibbs Sampler jeden Zustand unendlich oft. Die Konvergenzs¨atze f¨ ur den Gibbs Sampler lassen sich in besonders eleganter Weise herleiten. Deshalb wurde er f¨ ur den theoretischen Teil benutzt. In der Praxis erweisen sich oft andere Verfahren als vorteilhaft oder leichter zu programmieren. Wir skizzieren nun die vielleicht bekannteste Alternative, den Metropolis Sampler (Metropolis, Rosenbluth, Teller und Teller (1953)). Sei H eine Energiefunktion (m¨oglicherweise ersetzt durch die parametrisierte Version βH) und sei x die Konfiguration, die gerade aktualisiert werden soll. Das Updating erfolgt in zwei Schritten: 1. Der Vorschlag. Eine neue Konfiguration y wird erzeugt durch Sampeln aus einer Verteilung G(x, ·) auf E. 2. Der Annahmeschritt.
1.2. SAMPLING UND ANNEALING
37
(a) Falls H(y) ≤ H(x) so wird y als neue Konfiguration akzeptiert. (b) Falls H(y) > H(x) so wird y akzeptiert mit Wahrscheinlichkeit exp(H(x) − H(y)). (c) Wird y nicht akzeptiert, so wird x beibehalten. Die Matrix (der Markovkern) G heißt Vorschlags- oder Explorationsmatrix . Eine neue Konfiguration y, die weniger vorteilhaft als x ist, wird also nicht automatisch zur¨ uckgewiesen, sondern mit einer Wahrscheinlichkeit akzeptiert, die mit dem Energiezuwachs H(y) − H(x) f¨allt. Beispiel 1.2.9 Bei Bildern ist ein nat¨ urlicher Vorschlag, ein Pixel rein zuf¨allig zu w¨ahlen und dort einen zuf¨alligen Grauwert einzusetzen. Genauer heißt das G(x, y) =
1 σ(N −1)
0
wenn xs 6= ys f¨ ur genau ein s ∈ S sonst
(1.21)
wobei σ die Zahl der Pixel und N die Zahl der Grauwerte ist (wir nehmen |Es | = N f¨ ur alle s an). Solche Algorithmen heißen auch Single Flip Algorithmen. Er hat explizit die Gestalt π(x, y) =
G(x,P y) exp(−(H(y) − H(x))+ ) wenn x 6= y 1 − z∈E\{x} π(x, z) wenn x = y
(1.22)
Definition 1.2.10 Eine stochastische Matrix (G(x, y)x,y∈X heißt irreduzibel , wenn es zu jedem x und y in E eine Folge x = x0 , x1 , . . . , xn(x,y)−1 , xn(x,y) = y gibt mit G(xi−1 , xi ) > 0 f¨ ur alle 1 ≤ i ≤ n(x, y). Bemerkung 1.2.11 Primitive stochastische Matrizen sind irreduzibel. Irreduzibilit¨at erzwingt nicht die Existenz eines n, das f¨ ur alle Paare gemeinsam obige Kettenbedingung erf¨ ullt (wie bei primitiven Matrizen). Existiert ein solcher Index, so ist die Matrix irreduzibel und aperiodisch. Der entsprechende Konvergenzsatz lautet
38
KAPITEL 1. MCMC-METHODEN
Theorem 1.2.12 Sei E eine endliche Menge, H eine nichtkonstante Funktion auf E und Π die Gibbs Verteilung zu H. Die Vorschlagsmatrix G sei symmetrisch und irreduzibel. Dann gilt: (a) F¨ ur jedes x ∈ E und jede Startverteilung ν auf E gilt νπ n (x) 7−→ Π(x) f¨ ur n → ∞. (b) F¨ ur jede Startverteilung ν und jede Funktion f auf X gilt n
1X f (ξi ) −→ EΠ (f ) f¨ ur n → ∞ n i=1 in L2 (P) und in Wahrscheinlichkeit.
1.2.3
Annealing
Die Berechnung der MAP Sch¨atzer f¨ ur Gibbs Verteilungen ist ¨aquivalent zur Minimierung von Energiefunktionen. Eine einfache Modifikation des Gibbs Samplers findet die Minima – wenigstens in der Theorie. Sei H eine Funktion auf E. Die Funktion βH hat f¨ ur große β dieselben Minima wie H, jedoch sind diese tiefer. F¨ ur eine Funktion H und eine reelle positive Zahl β ist die Gibbs Verteilung zur inversen Temperatur β gegeben durch X Π β (x) = (Z β )− exp(−βH(x)), Z β = exp(−βH(z)). z
Sei M die Menge der globalen Minimalstellen von H. Proposition 1.2.13 Sei Π eine Gibbs Verteilung mit Energiefunktion H. Dann gilt 1 falls x ∈ M β |M | . lim Π (x) = β→∞ 0 sonst F¨ ur x ∈ M w¨achst die Funktion β → Π β (x) und f¨ ur x 6∈ M f¨allt sie schließlich. Gelingt es also f¨ ur hohes β aus Π β zu Sampeln, so hat man (approximativ) Minimalstellen von H.
1.2. SAMPLING UND ANNEALING
39
Beweis. Sei m der minimale Wert von H. Dann gilt exp(−βH(x)) Π β (x) = P z exp(−βH(z)) exp(−β(H(x) − m)) P P = z:H(z)=m exp(−β(H(z) − m)) + z:H(z)>m exp(−β(H(z) − m)) Ist x oder z Minimum, so verschwindet der entsprechende Exponent und der Summenterm ist eins. Die anderen Exponenten sind strikt negativ und die entsprechenden Terme konvergieren f¨ ur β → ∞gegen 0. Deshalb w¨achst der −1 Ausdruck monoton gegen |M | falls x Minimalstelle ist und er konvergiert gegen 0 sonst. Sei nun x 6∈ M und a(y) = H(y) − H(x). Wir schreiben Π β (x) in der Form 1 P P . |{y : H(y) = H(x)}| + a(y)<0 exp(−βa(y)) + a(y)>0 exp(−βa(y)) Wir zeigen, daß der Nenner schließlich w¨achst. Differentiation nach β liefert X X (−a(y)) exp(−βa(y)) + (−a(y)) exp(−βa(y)). y:a(y)<0
y:a(y)>0
Der zweite Term geht gegen 0 und der erste gegen Unendlich, wenn β → ∞. Deshalb wird die Ableitung schließlich positiv und β 7→ Π β (x) f¨allt schließlich. Damit ist der Beweis vollst¨andig. Bemerkung 1.2.14 Mit β → 0 konvergiert die Gibbs Verteilung Π β gegen die Gleichverteilung auf E, denn in exp(−βH(x)) Π β (x) = P y exp(−βH(y)) strebt jeder Exponent gegen eins. Wir w¨ahlen ein Besuchsschema und bezeichnen es mit S = {1, . . . , σ}. Ein Abk¨ uhlschema ist eine wachsende Folge β(n) positiver Zahlen. F¨ ur jedes n ≥ 1 ist ein Markovkern definiert durch β(n)
β(n)
Pn (x, y) = Π{} . . . Π{σ} (x, y), β(n)
wobei Π{k} die lokale Charakteristik von Π β(n) in k ist. Zusammen mit einer Startverteilung definieren diese Kerne eine inhomogene Markovkette.
40
KAPITEL 1. MCMC-METHODEN
Theorem 1.2.15 Sei (β(n))n≥1 ein Abk¨ uhlschema, welches gegen Unendlich w¨achst, so daß schließlich β(n) ≤
1 ln n. σ∆
Dann gilt lim νP1 . . . Pn (x) =
n→∞
|M |−1 0
wenn x ∈ M sonst
gleichm¨aßig in allen Startverteilungen ν. Der Satz stammt von S. und D. Geman (1984), [11]. Deren Beweis ist nicht leicht nachzuvollziehen. Die Methode der Kontraktionskoeffizienten hingegen erlaubt eine ¨außerst transparente Beweisf¨ uhrung. Wir schicken dem Beweis ein Lemma voraus. Lemma 1.2.16PF¨ ur die reellen Folgen (an ) und (bn ) gelte 0 ≤ an ≤ bn ≤ 1. Q Dann folgt aus n an = ∞, daß n (1 − bn ) = 0. Beweis. Aus der bekannten Ungleichung ln x ≤ x − 1,
0 < x,
folgt ln(1 − bn ) ≤ ln(1 − an ) ≤ −an . Da die Summen divergieren, gilt X ln(1 − bn ) = −∞, n
was zu Y (1 − bn ) = 0 n
¨aquivalent ist.
Beweis. des Satzes. Wir m¨ ussen β(n) so w¨ahlen, daß die Voraussetzungen von Satz 1.1.18 mit obigen Pn und µn = Π β(n) erf¨ ullt sind. Daraus und mit Satz 1.2.13 folgt dann die Behauptung. Das Gibbsfeld µn ist invariant bez¨ uglich der Kerne Pn nach Satz 1.2.4. Da (β(n)) w¨achst, sind die Folgen (µn (x)), x ∈ E schließlich monoton wegen
1.2. SAMPLING UND ANNEALING
41
Proposition 1.2.13 und deshalb gilt (1.11) wegen Lemma 1.1.19. Wie in (1.20) gilt c(Pn ) ≤ 1 − e−β(n)∆σ . Q Wir leiten nun die hinreichende Bedingung (1.15) d.h. k≥i c(Pk ) = 0 f¨ ur alle i her. Nach Lemma 1.2.16 gilt dies, falls exp(−β(n)∆σ) ≥ an f¨ ur an ∈ [0, 1] mit divergenter unendlicher Reihe. Eine nat¨ urliche Wahl ist an = n−1 und damit ist 1 β(n) ≤ ln n σ∆ f¨ ur schließlich alle n hinreichend. Damit ist der Beweis vollst¨andig. Das logarithmische Abk¨ uhlschema ist willk¨ urlich gew¨ahlt, da die Bedingung X exp(−β(n)∆σ) = ∞. n
entscheidend ist. Oft benutzt man st¨ uckweise konstante Schemata. Der Satz gilt auch f¨ ur zuf¨allige Besuchsschemata in (1.19). Dann setzt man σ β(n) ˜ . Pn = Π Es ist c(Pn ) ≤ 1 − γe−β(n)∆σ mit γ = mins G(s)σ . Wenn G strikt positiv ist, dann ist γ > 0 und es gilt γ exp(−β(n)∆σ) ≥ γn−1 . Da(γn−1 ) eine divergente unendliche Reihe induziert, ist die Behauptung damit bewiesen. Eine einfache Version des entsprechenden Konvergenzsatzes f¨ ur Annealing auf der Grundlage des Metropolis Samplers sei ohne Beweis zitiert. N¨aheres findet man in G. Winkler (1995), [17], Kapitel 8.2. Theorem 1.2.17 Seien E eine endliche Menge, H eine nichtkonstante Funktion auf E und G eine symmetrische irreduzible Vorschlagsmatrix. Sei ferner β(n) ein Abk¨ uhlschema, welches gegen Unendlich w¨achst und die Bedingung β(n) ≈
1 ln n σ∆
42
KAPITEL 1. MCMC-METHODEN
schließlich erf¨ ullt. Dann konvergieren f¨ ur jede Startverteilung ν auf E die eindimensionalen Randverteilungen νπ β(1) . . . π β(n) gegen die Gleichverteilung auf den Minimalstellen von H. Die Minimalstellen von H sind nat¨ urlich wieder die Moden der assoziierten Gibbsverteilung.
1.3
Anwendungen von MCMC Methoden
Sampling, Annealing und verwandte Methoden wurden im englischen Sprachraum unter dem Stichwort zusammengefaßt. Wie u ¨blich, wurde dieser Terminus alsbald ins Deutsche u bernommen. ¨ In diesem Abschnitt illustrieren wir in unsystematischer Weise (d.h. wir folgen didaktischen und nicht systematischen Gesichtspunkten) die Anwendbarkeit dieser Methoden. Ihr genereller Vorteil ist, daß sie ungeheuer flexibel und leicht zu implementieren sind; die Programme sind somit problemlos an neue Bed¨ urfnisse anzupassen. Als Nachteile sollten teilweise lange Laufzeiten (z.B. in der Bildanalyse) und ein zu schwaches theoretisches Fundament genannt werden. Somit sind sie vor allem bei heuristischen Untersuchungen sowie in der explorativen Datenanalyse n¨ utzlich. Details werden im jeweiligen Beispiel besprochen.
1.3.1
Der Metropolis Algorithmus in der kombinatorischen Optimierung
Annealing als Methode in der kombinatorischen Optimierung wurde in Kirkpatrick, Gellatt and Vecchi (1982), Bonomi and Lutton (1984) and ˘ Cerny (1985) vorgeschlagen. In der kombinatorischen Optimierung ist der Zustandsraum typischerweise nicht von Produktgestalt wie in der Bildanalyse. Das klassische Beispiel, vielleicht weil es so einfach zu beschreiben ist, ist das ‘Travelling Salesman Problem’. Es ist eines der am besten untersuchten NP-schweren Probleme. Es kann als gutes Beispiel dienen, wie dynamische Monte Carlo Methoden in der kombinatorischen Optimierung eingesetzt werden k¨onnen.
1.3. ANWENDUNGEN VON MCMC METHODEN
43
Beispiel 1.3.1 (Travelling Salesman Problem) Ein Handlungsreisender soll N St¨adte genau einmal besuchen und anschließend heimkehren. Gegeben sind die Abst¨ande zwischen je zwei St¨adten (die nicht unbedingt symmetrisch sein m¨ ussen). Gesucht ist eine k¨ urzeste Route. Dieses Problem hat viele, praktisch wichtige ¨aquivalente Formulierungen. Beispiel 1.3.2 Ein winziger L¨otkolben soll automatisch eine Reihe von L¨otstellen auf einem Chip setzen. Die Ausfallrate der Chips w¨achst mit der Wegl¨ange, die der L¨otkolben durchl¨auft. Deshalb sollte die totale Wegl¨ange minimiert werden. Wir bleiben der Formulierung das Travelling Salesman Problems. Sei N die Anzahl der St¨adte und somit o.E. C = {1, . . . , N } die Menge der St¨adte . Der Abstand zwischen Stadt i und j sei d(i, j) ≥ 0 (er muß nicht unbedingt symmetrisch sein). Eine ‘Tour’ ist eine Abbildung ϕ : C 7→ C, so daß ϕk (i) 6= i f¨ ur alle k = 1, . . . , N − 1 und ϕN (i) = i f¨ ur alle i, d.h eine zyklische Permutation von C. Die Menge E aller Touren hat (N − 1)! Elemente. Die Kosten einer Tour entsprechen der totalen L¨ange H(ϕ) =
X
d(i, ϕ(i)).
i∈C
Der Einfachkeit halber nehmen wir d(i, j) = d(j, i) an, d.h. wir betrachten das symmetrische Travelling Salesman Problem. Das generelle Vorgehen beim Annealing mit dem Metropolis Algorithmus ist klar. Es ist nur noch der Vorschlagsschritt zu definieren. Bei der einfachsten Variante werden lediglich zwei St¨adte ausgetauscht, welche gleichverteilt gezogen werden.Eine Tour ψ ist Nachbar von Tour ϕ, wenn sie auf folgende Weise aus ϕ hervorgeht: Man repr¨asentiere ϕ als gerichteten Graphen mit den St¨adten als Knoten und Pfeilen entsprechend der Tour. Man entfernt zwei nicht aufeinanderfolgende Pfeil mit Anfangspunkten p und ϕ−1 (q), und ersetzt sie durch die Pfeile von p nachϕ−1 (q) und von ϕ(p) nach q und dreht schließlich die Pfeile zwischen ϕ(p) und ϕ−1 (q) um. Dies liefert eine neue Tour. Diese Generierung heißt Zweiertausch (Abbildung 1.1). Im symmetrischen Travelling Salesman Problem l¨aßt sich die Energiedifferenz H(ψ) − H(ϕ) leicht ausrechnen, da nur zwei Terme der Summe durch neue ersetzt werden.
44
KAPITEL 1. MCMC-METHODEN
Abbildung 1.1: Zweiertausch beim Travelling Salesman Problem
1.3.2
Simulation von (bin¨ aren) Mustern
Hier wird im wesentlichen Gibbs oder Metropolis Sampling aus gewissen Gibbsmaßen eingesetzt. Wir definieren zun¨achst das Modell und geben dann einfache Beispiele. Wir erkl¨aren zun¨achst die Situation: Gegeben ist ein Pixelraster S wie in Abb. 1.2. Zu jedem Pixel s ∈ S gibt es einen endlichen Q Vorrat Es von Intensit¨aten. Ein Muster ist eine Konfiguration (xs )s∈S ∈ Es =: E. Auf E ist ein Gibbsmaß Π gegeben, das mehr oder weniger typische, d.h. wahrscheinliche Muster charakterisiert. Simulation typischer Muster und ihrer Charakteri-
s, t s∼t xs ys
t
t s∼ t
: Pixel : Nachbarn : Idealwert in s : Beobachtung in s
Abbildung 1.2: Pixelraster und einfache Nachbarschaftsbeziehung stika erfolgt dann u ¨ber Sampling. Wir geben einfache Modellklassen an. Beispiel 1.3.3 Das Ising Modell ist gegeben durch X H(x) = −β xs xt , β > 0, xs = ±1. s∼t
1.3. ANWENDUNGEN VON MCMC METHODEN
45
Das Modell stammt aus der Physik, wo es die Gestalt 1 H(x) = − kT
J
X
xs xt − mB
s∼t
X
xs
!
s
hat. J ist eine Materialkonstante, T die absolute Temperatur, k die Boltzmannkonstante, m h¨angt wieder vom Material ab und B quantifiziert ein a¨ußeres magnetische Feld. J > 0 treibt die xs in dieselbe, J < 0 in entgegengesetzte Richtung. Interpretiert man die xs als Richtung von Spins - oder Elementarmagneten - in einem Kristallgitter S, so entspricht J > 0 einem Ferromagneten und J < 0 einem Antiferromagneten. Das Modell ist nach (dem Deutschen) E. Ising benannt, der es in seiner Doktorarbeit 1925 bei W. Lenz untersucht hat (und teilweise falsche Schl¨ usse von Dimension eins auf h¨ohere Dimensionen zog; dadurch wurde die statistische Physik um Jahre zur¨ uckgeworfen). In der Musteranalyse dient es der Modellierung (st¨ uckweise) glatter Muster. Beispiel 1.3.4 (Das Potts Modell) Bei endlichem Grauwertevorrat G ist eine weitere nat¨ urliche Verallgemeinerung des homogenen Ising Modells das Potts Modell X X H(x) = −β χ{xs =xt } = β ϕ(xs − xt ) = −β|s ∼ t : xs = xt | s∼t
s∼t
mit ϕ(u) =
−1 falls u = 0 0 sonst.
Beispiel 1.3.5 (Allgemeine Bin¨ armodelle ) ’Glattheit’ kann man jetzt verallgemeinern: Im Ising Modell bedeutet es die N¨ahe zu den zwei konstanten Mustern x ≡ 1 oder x ≡ −1. Diese k¨onnen wir durch beliebige Muster (und ihre Inverse) ersetzen, indem wir die Vorzeichen der Terme xs xt geeignet w¨ahlen: X H(x) = vst xs xt , vst = ±1. s∼t
¨ Noch allgemeiner kann man die St¨arke der Ahnlichkeit lokal steuern durch X H(x) = ast xs xt , ast ∈ R. s∼t
46
KAPITEL 1. MCMC-METHODEN
oder noch allgemeiner H(x) =
X
ast xs xt +
s∼t
X
as x s .
s
Durch solche Modelle lassen sich beliebige bin¨are Muster charakterisieren.
1.3.3
Bayessche Bildanalyse am Beispiel der glatten Regression mit Spru ¨ ngen
Wir betrachten nun ein Beispiel aus der Bildanalyse (das im Fall einer Dimension auch endliche Zeitreihen umfaßt). In unserem Beispiel geht es um die Rekonstruktion eines i.a. unbekannten Idealbildes x aus einem Datensatz y. Dabei stellt man sich vor, daß die Daten eine gest¨orte Version von x darstellen. Die Zuordnung eines x zu y stellt ein inverses Problem dar, das i.a. nicht eindeutig l¨osbar ist. Um die L¨osungsmenge einzuschr¨anken, stellt man Zusatzbedingungen, die ein gewisses Vorwissen u ¨ber oder Erwartungen an die Rekonstruktion widerspiegeln. Eine M¨oglichkeit dies zu tun, ist die Angabe einer G¨ utefunktion f¨ ur x. Offensichtlich h¨angt die Rekonstruktion nun von der (z.B. subjektiv) gew¨ahlten G¨ utefunktion ab. Der Wahl dieser Funktion entspricht im klassischen Fall die (ebenfalls subjektive) Auswahl von Filtern. Der nat¨ urliche Rahmen, um verschiedene Datenquellen, Vorinformationen und Regularit¨atsbedingungen zu verkn¨ upfen ist das Bayessche Paradigma 8 . In seinem Rahmen k¨onnen weitere sinnvolle Sch¨atzer f¨ ur x formuliert und begr¨ undet werden. Die a priori Verteilung wird so aufgebaut, daß Bilder x mit unerw¨ unschten Eigenschaften niedrige und solche mit erw¨ unschten Eigenschaften hohe Wahrscheinlichkeit haben. Seien X und Y Meßr¨aume, Π ein Wahrscheinlichkeitsmaß auf X und ¨ P (x, y) eine Ubergangswahrscheinlichkeit von X nach Y. Wir nehmen zun¨achst an, daß beide R¨aume endlich sind und Π strikt positiv ist. Dann wird durch Π(x, y) = Π(x)P (x, y), x ∈ X, y ∈ Y, eine gemeinsame Verteilung auf X × Y definiert mit Π(y|x) = P (x, y) und Π(x|y) = 8
Π(x, y) . Π(E × {y})
Paradigma: Beispielhafte Vorgehensweise
1.3. ANWENDUNGEN VON MCMC METHODEN
47
F¨ ur Verteilungen mit Dichten ist der Zugang analog. Der am meisten verwendete Sch¨atzer f¨ ur den wahren Parameter x∗ ist der maximum a posteriori Sch¨atzer, also der Modus der a posteriori Verteilung. Er wird im allgemeinen durch Simulated Annealing berechnet. Eine einfache a priori Gibbsverteilung f¨ ur st¨ uckweise glatte Bin¨arbilder ist durch das Ising Modell gegeben. Beispiel 1.3.6 (Das Ising Modell) Das Ising Modell ohne ¨außeres Feld hat die Energiefunktion X H(x) = −β xs xt , β > 0, xs = ±1. s∼t
Offensichtlich hat H zwei Minima x∗s ≡ 1 und x∗s ≡ −1 mit dem Funktionswert: H(x∗ ) = −β|{(s, t) ∈ S × S : s ∼ t}|. Jedes Nachbarpaar s ∼ t mit xs 6= xt verschlechtert die Bilanz um 2β. Somit ist (H(x) − H(x∗ ))/2β die Zahl der ungleichen Nachbarn, also die Konturl¨ange . Konfigurationen mit niedrigem H(x) haben also kurze Konturen , ¨ahnlich wie im Modell von Blake & Zisserman. Wir hatten erw¨ahnt, daß dies eine gewisse Regularit¨at der Konturen erzwingt. Der Parameter β steuert den Grad der Regularit¨at. An diesem Beispiel sieht man ein typisches Ph¨anomen dieser Modelle: Neben den Minima gibt es eine Vielzahl lokaler Minima, die sich im Wert nur wenig von den Minima unterscheiden - in diesem diskreten Fall nennen wir x ein ¨ lokales Minimum, wenn die Anderung in einem beliebigen Pixel - d.h. einer Koordinate von X = {−1, 1}S - den Wert von H nicht verschlechtert. So haben in einem n × n Gitter S alle Bilder x, welche durch eine senkrechte oder waagerechte Gerade in zwei gleichfarbige Teile getrennt sind, denselben Wert a = H(x∗ ) + 2βn. Flippt man das ¨außerste Pixel auf der Trennlinie, so verschlechtert sich der Wert um 2β. Fr¨ast man die Linie sukzessive ab, so bleibt H gleich, um dann beim letzten Pixel wieder um 2β auf a herunterzuspringen. Qualitativ betrachtet hat die Energiefl¨ache große Plateaus mit vielen flachen lokalen Minima und zwei flachen (globalen) Minima. Die Beziehung zu X ˜ H(x) =γ (xs − xt )2 s∼t
48
KAPITEL 1. MCMC-METHODEN
˜ durch geeigist klar. Das Quadrat liefert nur die Werte 0 und 4. Also wird H nete Wahl von γ und Addition einer Konstante in H u uhrt (Addition ¨bergef¨ einer Konstante ¨andert Π nicht). Ebenso ist ¨aquivalent: X 0 falls u = 0 ˜ H(x) = γ ϕ(xs − xt ), ϕ(u) = 1 sonst. s∼t
Typisches (multiplikatives) Rauschen auf Bin¨arbildern ist Beispiel 1.3.7 (Kanalrauschen) Wir betrachten Bin¨arbilder x mit xs = ±1. In den Pixeln werden die Zust¨ande unabh¨angig geflippt: −1 mit Wahrscheinlichkeit p , ηs i.i.d., y s = x s · ηs ; ηs = 1 mit Wahrscheinlichkeit 1 − p Dann gilt
P (x, y) = p|{s:ys =−xs }| (1 − p)|{s:ys =xs }| und − ln P (x, y) = −|{s : ys = −xs }| ln p − |{s : ys = xs }| ln(1 − p). Wegen χ{xs =ys } =
xs ys 1 + 2 2
ergibt sich 1 − ln P (x, y) = ln 2
p 1−p
X s
|s| xs ys + ln 2
1 p(1 − p)
.
Glatte Bilder mit vielen Grauwerten werden durch folgende a priori Verteilung charakterisiert: Beispiel 1.3.8 Sei die a priori Verteilung gegeben durch ! ! X X X (xs − xt ) , Z = exp − (zs − zt ) . Π(x) = exp − Z s∼t z s∼t Das Rauschen sei additiv, weiß und gaußisch, also P (x, dy) = √
1 2πσ 2|S|
1 X exp − 2 (ys − xs )2 2σ s
!
dy.
1.3. ANWENDUNGEN VON MCMC METHODEN
49
Dann gilt f¨ ur die a posteriori Verteilung )! ( X X Π(dx|y) ∝ exp − γ (xs − xt ) + (ys − xs ) dx. s∼t
s
Allgemein ist die Gibbssche Form der a posteriori Verteilung gegeben durch: Proposition 1.3.9 Ist P (x, dy) eine beliebige strikt positive (Z¨ahl-) Dichte fx (y) dy und Π(x) ∝ exp(−H(x)) ein Gibbsmaß, so gilt Π(x|y) ∝ exp(−{H(x) − ln(fx (y))}) Beweis. Man multipliziere aus.
¨ Die a priori Verteilung aus Beispiel 1.3.8 f¨ uhrt zu Ubergl¨ attung; Kanten werden verschmiert. Deshalb bauen wir ein Modell f¨ ur st¨ uckweise, d.h. kantenerhaltende Gl¨attung. Dazu f¨ uhrt man Schaltervariablen bst ein, welche die Gl¨attung aus- und den Bruchterm einschalten: F¨ ur benachbarte Pixel s, t gem¨aß der Skizze1.2 definieren wir die Mikrokante s ∼ t als das Element des dualen Gitters zwischen s und t. F¨ ur die Mikrokanten definieren wir die Schaltervariablen 0 keine Kante zwischen s und t bst = f¨ ur s ∼ t. 1 Kante zwischen s und t Die a priori Verteilung ist dann ! X (λ (xs − xt ) ( − bst ) + αbst ) , Π(x) = exp − Z s∼t wobei Z wie u ¨blich die Summe von Π(z) u ¨ber den Zustandsraum ist und die a posteriori Verteilung ist ( )! X Π(dx|y) ∝ exp − H post (x, b) + (ys − xs ) dx s
mit H post (x, b) =
X s∼t
λ2 (xs − xt )2 (1 − bst ) + αbst . |{z} | {z } | {z } Gl¨attung ein/aus Penalty | {z } hλα
50
KAPITEL 1. MCMC-METHODEN
Wir diskutieren: Ist d = λ2 (xs − xt )2 > α, so lohnt es sich, die Strafe α f¨ ur bst zu bezahlen, d.h. der Gl¨attungsterm wird ausgeschaltet. Ob dieser Fall sich lohnt, h¨angt wiederum vom Datenterm (ys − xs )2 ab. Wird umgekehrt von diesem Term ein kleines d favorisiert, so lohnt sich der Bruch nicht und d wirkt wie im letzten Beispiel. Wir werden an dieser Stelle noch nicht auf die Minimierung von H eingehen. Der erste Schritt dorthin ist jedoch von eigenst¨andigem Interesse. F¨ ur eine Minimumstelle (x∗ , b∗ ) von H gilt D(x∗ , b∗ ) +
X
hλα (x∗s − x∗t , b∗st )
s∼t
= = = =
min D(x) + x,b
X
!
hλα (xs − xt , bst )
s∼t
min D(x) + x
X s∼t
min D(x) + x
X
!
min hλ,α (xs − xt , bst )
bst =0,1
!
min{λ2 (xs − xt )2 , α}
s∼t
min D(x) + x
X
!
ϕ(xs − xt ) ;
s∼t
die Funktion ϕ ist dabei gegeben durch ϕ(∆) = min{λ2 ∆2 , α}.
(1.23)
-
δ ϕ
Um x∗ zu berechnen gen¨ ugt es also, eine Minimierung nur in der Komponente x durchzuf¨ uhren. Die zweite Komponente b∗ der Minimalstelle (x∗ , b∗ ) ist dann eindeutig rekonstruierbar: b∗st = 1 ⇐⇒ |xs − xt | > δ(=
√
α/λ).
1.4. HEPATITIS B: EINE FALLSTUDIE
51
Wir landen insgesamt bei einer a priori Verteilung mit Energie X H(x) = ϕ(xs − xt ) s∼t
und einer a posteriori Verteilung mit Energie X H post (x) = ϕ(xs − xt ) + D(x). s∼t
1.4
Hepatitis B: Eine Fallstudie mit MCMC Methoden
Dieser Abschnitt ist eine verk¨ urzte Nacherz¨ahlung eines Artikels von D.J. Spiegelhalter, N.G. Best, W.R. Gilks und H. Inskip (1996), [15]. Das Beispiel soll illustrieren, wie MCMC Methoden bei Problemen der statistischen Inferenz praktisch eingesetzt werden k¨onnen.
1.4.1
Die Problemstellung
Hepatitis B (HB) kommt in vielen Teilen der Welt vor; in Teilen Westafrikas ist praktisch jeder infiziert. Etwa 20 der Infizierten verlieren die Infektion nie und sind ansteckend. Sie tragen ein erh¨ohtes Risiko f¨ ur Lebererkrankungen; Leberkrebs ist eine der Haupttodesursachen. Die Gambian Hepatitis Intervention Study (GHIS) ist ein Impfprogramm gegen HB. Ihre Wirkung beruht auf der Dauer der Immunit¨at nach der Impfung. Deshalb wurde eine Kohortenstudie durchgef¨ uhrt. Blutproben wurden in periodischen Zeitabst¨anden jedem Kind entnommen und die Menge der Antik¨orper darin bestimmt. Diese Messung heißt Anti-HB-Titer9 . Die Einheit heißt mIU10 . Eine ¨ahnliche Studie im benachbarten Senegal legte nahe, daß f¨ ur alle Kinder gilt: 1 anti-HB Titer ∝ , t 9
Titer: u.a. Menge eines Antik¨ orpers (meist bezogen auf die Verd¨ unnungsstufe der zu untersuchenden L¨ osung). Smoothers for discontinuous signals G. Winkler, V. Liebscher and V. Aurich 10 milli-International-Units
52
KAPITEL 1. MCMC-METHODEN
wobei t die Zeit nach dem Abschluß des Impfverfahrens bezeichnet. Dies ist ¨aquivalent zu einem linearen Zusammenhang von log-Titer und log-Zeit: y = αi − 1 · log t, wobei y den log anti-HB Titer f¨ ur Kind i bezeichnet und αi nach der letzten Impfung f¨ ur jedes Kind konstant ist. Es soll gepr¨ uft werden, ob das Modell korrekt ist, insbesondere ob der Wert minus eins der Ableitung stimmt. Damit h¨atte man eine einfache Methode um den individuellen Impfschutz vorherzusagen.
1.4.2
Die Modell- und Verteilungsannahmen
Das Bild zeigt die Daten f¨ ur 106 Kinder aus der Studie. Jedes Kind hat eine Basismessung nach der letzten Impfung und mindestens zwei Folgemessungen. Das Kind (∗) ist ein ‘Ausreißer’.
Abbildung 1.3: Rohdaten; Einzelmessungen durch Geradenst¨ ucke verbunden. Aus [12] mit freundlicher Erlaubnis von W.R. Gilks et al. Zun¨achst wurde f¨ ur jedes Kind eine Gerade gefittet (nach der Methode der kleinsten Quadrate): E(yij ) = αi + βi (log tij − log 730).
1.4. HEPATITIS B: EINE FALLSTUDIE
53
Dabei ist i der Index f¨ ur das Kind und j der Index f¨ ur die j-te Messung, so daß ij f¨ ur die j-te Messung an Kind i steht. Wegen der Zentrierung auf log 730 ist der Interzept oder Achsenabschnitt αi der Regressionsgerade der gesch¨atzte log-Titer nach zwei Jahren. Das Bild 1.4 zeigt die Verteilung der 106 unabh¨angig f¨ ur jedes Kind gem¨aß u ¨blicher linearer Regression gesch¨atzˆ ten Parameter α ˆ i und βi ; ferner sind α ˆ i und βˆi gegeneinander aufgetragen. Die Verteilung der α ˆ i sieht halbwegs gaußisch aus, ausgenommen der verein-
Abbildung 1.4: Verteilungen der unabh¨angig f¨ ur jedes Kind gesch¨atzten Paˆ ˆ rameter α ˆ i und βi , Plot von α ˆ i gegen βi und von Basistiter yi0 gegen α ˆ i . Aus [12] mit freundlicher Erlaubnis von W.R. Gilks et al. zelte stark negative Wert f¨ ur das Kind (∗). F¨ ur die Verteilung der gesch¨atzten Ableitungen βˆi gilt dasselbe, ausgenommen einige sehr hohe Sch¨atzer, insbesondere f¨ ur Kind (∗). Der Plot der gesch¨atzten Interzepts gegen die gesch¨atzten Gradienten legt - wieder den offensichtlichen Ausreißer (∗) ausgenommen - Unabh¨angigkeit von αi und βi nahe. Der letzte Plot stellt den Basistiter yi0 dem Interzept αi gegen¨ uber; hoher Basistiter scheint h¨ohere Werte bei nachfolgenden Messungen zu f¨ordern. Bei der Studie geht es nicht um die 106 untersuchten Kinder selbst sondern um die Gesamtbev¨olkerung. Unabh¨angige lineare Regression f¨ ur jedes einzelne Kind liefert keine Basis f¨ ur statistische Inferenz u ¨ber die Bev¨olkerung. Deshalb sollen Annahmen u ¨ber die zugrundeliegende Population in das Modell eingebaut werden. Dies geschieht u uglich ¨ber a priori Annahmen bez¨
54
KAPITEL 1. MCMC-METHODEN
der Verteilungen der αi und βi . Wir haben drei verschiedene Komponenten bei der Konstruktion eines vollen (Bayesschen) wahrscheinlichkeitstheoretischen Modelles, die auf die speziellen Daten der Studie angewandt werden sollen: • Die Variablen des Modells m¨ ussen spezifiziert werden; ihre qualitative Abh¨angigkeitsstruktur muß festgelegt werden. Daf¨ ur sind sogenannte graphische Modelle besonders geeignet. • Die parametrische Form der Abh¨angigkeiten muß spezifiziert werden; dies gibt uns die Likelihoodterme des Modelles. Die a priori Verteilungen und die bedingten Verteilungen m¨ogen jeweils f¨ ur sich Standardform haben; die Verkn¨ upfung durch die spezifizierte ‘bedingte Abh¨angigkeitsstruktur’ erlaubt dennoch beliebig komplexe Konstruktionen. • Von besonderem Interesse ist nat¨ urlich auch die Wahl der a priori Verteilungen.
1.4.3
Strukturelle Modellierung durch ein graphisches Modell
Wir machen folgende (Un)-Abh¨angigkeitsannahmen, die wir anschließend durch eine graphische Darstellung veranschaulichen. Die yij sind unabh¨angig konditional auf ihren Mittelwert µij und einen Parameter σ der den Fehler in der Stichprobe wiedergibt. Jeder Mittelwert µij ist eine deterministische Funktion der Zeit tij und des Interzepts αi sowie der Ableitung βi . Die αi werden unabh¨angig aus einer Verteilung mit Erwartung α0 und Varianz σα gezogen, w¨ahrend die βi unabh¨angig aus einer Verteilung mit entsprechenden Parametern β0 und σβ gezogen werden. Diese - zun¨achst verteilungsfreie Abh¨angigkeitsstruktur kann man anschaulich mit Hilfe eines Graphen darstellen: Es ergibt sich ein gerichteter azyklischer Graph11 . Die durchgezogenen Pfeile symbolisieren stochastische, die gestrichelten deterministische Abh¨angigkeit; z.B. ergibt sich die bedingte Verteilung von µij gegeben αi , βi , tij einfach als Bildmaß des Produktmaßes der Verteilungen der Einflußgr¨oßen. 11
‘gerichtet’, weil jede Verbindung von Knoten ein Pfeil ist (der eine Abh¨angigkeit symbolisiert); ‘azyklisch’, weil man - der Pfeilrichtung folgend - von keinem Knoten entlang der Pfeile wieder zu diesem Knoten zur¨ uck kommt.
1.4. HEPATITIS B: EINE FALLSTUDIE
55
Abbildung 1.5: Graphisches Modell f¨ ur die Hepatitis B Daten. Aus [12] mit freundlicher Erlaubnis von W.R. Gilks et al. Was uns eigentlich interessiert ist die volle Verteilung Π auf dem Raum aller Parameter α0 , σα , β0 , σβ , αi , βi , µij , tij , yij , σ. Aus dem Graphen 1.5, kann man ablesen, daß sich die gemeinsame Verteilung aller Variablen als Produkt bedingter Verteilungen der Knoten gegeben die Eltern schreiben lassen, wobei die ‘Eltern’ eines Knotens v diejenigen Knoten sind, von denen ein durchgezogener Pfeil zum Knoten v geht. Gestrichelte Pfeile werden dabei weggelassen. Die deterministische Abh¨angigkeit schl¨agt sich einfach in einer deterministischen Transformation der (bedingten) Dichten nieder. Lemma 1.4.1 Im Graphen (1.5) gilt: F¨ ur eine Parameterkonstellation V ∈ R2 × R3+ (d.h. einen globalen Zustand auf dem Graphen) gilt Y P(V ) = P(v|Eltern von v). (1.24) v Einzelparameter
56
KAPITEL 1. MCMC-METHODEN
Statt eines formalen Beweises argumentieren wir anschaulich: Beispiel 1.4.2 Die gemeinsame Verteilung von β0 , σβ und βi ist P(β0 ∈ A, σβ ∈ B, βi ∈ C) = P(βi ∈ C|β0 ∈ A, σβ ∈ B) · P(β0 ∈ A, σβ ∈ B) = P(βi ∈ C|β0 ∈ A, σβ ∈ B)P(β0 ∈ A)P(σβ ∈ B) ¨ f¨ ur β0 unabh¨angig von σβ . Ahnlich gilt mit der Unabh¨angigkeitsannahme von σ0 und σβ daß P(α0 ∈ A, σα ∈ B, αi ∈ C) = P(αi ∈ C|σ0 ∈ A, σα ∈ B)P(σ0 ∈ A)P(σα ∈ B). Dies ergibt die Produktform dieser dreidimensionalen Marginalverteilungen, d.h. die Behauptung f¨ ur die Teilgraphen mit den Knoten β0 , σβ und βi bzw. α0 , σα , αi . Indem man den Graphen weiter durchforstet, ergibt sich zwangsweise die Behauptung. Wir sehen, daß diese einfache Argumentation daran liegt, daß der Graph keine Schleifen hat.
1.4.4
Wahrscheinlichkeitstheoretische Modellierung
Wir ben¨otigen Likelihood- und a priori Modellannahmen. Zun¨achst die LikelihoodAnnahmen: yij µij αi βi
∼ = ∼ ∼
N (µij , σ 2 ) αi + βi (log tij − log 730) N (α0 , σα2 ) N (β0 , σβ2 ).
(1.25) (1.26) (1.27) (1.28)
Damit sind die bedingten Verteilungen spezifiziert. Das Modell enth¨alt nun noch unabh¨angige Parameter σ, σα , σβ , α0 und β0 . Auf den Raum dieser Parameter wird nun die a-priori Verteilung aufgesetzt. Es wurden benutzt: α0 , β0 ∼ N (0, 10 000) σ, σα , σβ ∼ Γ (0, 01; 0, 01),
1.4. HEPATITIS B: EINE FALLSTUDIE
57
wobei Γ (a, b) eine Gamma-Verteilung mit Erwartungswert a/b und Varianz a/b2 ist12 . Somit ist die Varianz gleich 10−2 /10−4 = 100. (Die Verteilungen sind also relativ flach, so daß sie das Ergebnis nicht allzu sehr beeinflussen.
1.4.5
Die bedingten Verteilungen
Wir erinnern uns: Wir leben auf einem Parameterraum, der wie beim Gibbs Sampler von Produktgestalt ist: (α0 ; σα ; β0 ; σβ ; σ; αi : i = 1, . . . , 106; βi : i = 1, . . . , 106; µij , i = 1, . . . , 106; j = 1, . . . , ni ; yij , i = 1, . . . , 106; j = 1, . . . , ni ) ∈ R × R+ × R × R+ × R × R106 × R106 × R106×max ni × R106×max ni N Y =: Xi i=1
Der Gibbs Sampler zieht nun sukzessive Stichproben aus den bedingten Verteilungen der einzelnen Variablen (‘Koordinaten’, Zust¨ande der Knoten im Graphen), gegeben die restlichen Variablen. Aus der Produktform der Gesamtverteilung ergibt sich f¨ ur einen Knoten v, daß P(v|Rest) ∝ P(v, Rest) (1.29) ∝ Terme in P(V ) die v enthalten Y P(w|Eltern(w). ∝ P(v|Eltern(v)) × w∈Kinder(v) Damit k¨onnen die f¨ ur das Sampling ben¨otigten bedingten Verteilungen bestimmt werden. F¨ ur die Interzepts αi z.B. ergibt sich Y ni (αi − α0 )2 (yij − αi − βi (log tij − log 730))2 P(αi ) ∝ exp − × exp 2σα2 2σ 2 j=1 12
Die Dichte der Gammaverteilung mit Parametern a, b ist fa,b (u) =
1 b b−1 a u exp(−au), u > 0. Γ (b)
2 Erwartungswert und Varianz sind a/b und . Die χ2k -Verteilung hat die Dichte f1/2,k/2 . P a/b α Allgemeiner sind endliche Summen |ξi | mit standardnormalverteilten ξi gammaverteilt.
58
KAPITEL 1. MCMC-METHODEN
L¨ost man das Quadrat auf, so sieht man, daß eine Normalverteilung vorliegt mit Erwartungswert P i α0 yij − βi (log tij − log 730) + σ12 nj=1 σ2 α
1 2 σα
und Varianz 1 2 σα
+
ni σ2
1 +
ni σ2
.
Analog behandelt man βi , α0 und β0 ; auch sie sind normalverteilt. ¨ Ahnlich verh¨alt es sich mit dem Pr¨azisionsparameter τα = σα−2 . Die allgemeine Vorschrift (1.29) besagt, daß die volle bedingte Verteilung von τα proportional zum Produkt der a priori Verteilung f¨ ur τα und den Likelihoodtermen, gegeben durch 1.27 ist. Dies sind die Likelihoodterme f¨ ur τα weil die Parameter αi die einzigen Kinder von τα sind. Somit ergibt sich P(τα | · ) ∝ τ
0.01−1 −0.01τα
e
106 Y i=1
τα1/2
1 exp − τα (αi − α0 )2 2 106
1X = τ 0.01+106/2−1 exp −τα 0.01 + (αi − α0 )2 2 i=1 ! 106 X 106 1 , 0.01 + (αi − α0 )2 . ∝ Γ 0.01 + 2 2 i=1
!!
Somit ist die volle bedingte Verteilung von τα wieder eine Gammaverteilung. Entsprechend sind auch die vollen bedingten Verteilungen von σβ−2 und σ −2 wieder Gammaverteilungen. Sowohl aus Normal- wie auch Gammaverteilungen l¨aßt es sich bequem Sampeln; daf¨ ur stehen Standardalgorithmen zur Verf¨ ugung.
1.4.6
Darstellung (Monitoring) und Kontrolle der Ergebnisse
Die Werte f¨ ur die unbekannten Gr¨oßen, die mit Hilfe des Gibbs Samplers generiert wurden, m¨ ussen graphisch und statistisch zusammengefaßt werden um z.B. gute Konvergenz zu garantieren. Von besonderem Interesse ist die Frage, ob die ‘burn in time’ schon erreicht wurde. D.h. man muß pr¨ ufen, ob
1.4. HEPATITIS B: EINE FALLSTUDIE
59
zwei Realisierungen des Gibbs Samplers mit verschiedenen Startzust¨anden ‘zusammengelaufen’ sind. Dies pr¨ uft man f¨ ur jeden Skalar einzeln mit verschiedenen Startwerten. Dazu l¨aßt man den Gibbs Sampler f¨ ur jede interessierende Gr¨oße ψ m mal mit verschiedenen Startwerten laufen: Seien ψij , j = . . . , n, i = 1, . . . , m die Werte, die beim Sampling in m L¨aufen der L¨ange n generiert wurden. ¨ Ahnlich wie bei der Varianzanalyse werden ‘inter’-Varianzen B und ‘intra’Varianzen W berechnet: m
n
m
n X ¯ 1X 1 X¯ B = (ψi· − ψ¯·· )2 , ψ¯i· = ψij , ψ¯·· = ψi m − 1 i=1 n j=1 m i=1 m
n
1 X 2 2 1 X W = si , si = (ψij − ψ¯i· )2 . m i=1 n − 1 j=1 Die Intervarianz B enth¨alt einen Faktor n, weil es auf den inneren Mitteln ψ¯i· basiert welche selbst Mittel von n Werten ψij sind. Aus diesen Varianzkomponenten werden zwei Sch¨atzer der Varianz von Π gebildet. Zun¨achst wird n−1 1 var(ψ) ˆ = W+ B n n betrachtet. Dies ist unter Annahme der Stationarit¨at, d.h. daß alle 1-dim Marginalverteilungen der Markovkette gleich Π sind, ein erwartungstreuer Sch¨atzer der Varianz von Π. Da aber am Anfang der Simulation die einzelnen Ketten noch nicht station¨ar sind, u ˆ die Varianz, wenn ¨bersch¨atzt var(ψ) die Startpunkte sehr verstreut gew¨ahlt werden. Auf der anderen Seite untersch¨atzt W die Varianz, weil in den einzelnen L¨aufen der Bereich von Π nur teilweise durchforstet wurde. Im Lauf der Ann¨aherung strebt var(ψ) ˆ von oben und W von unten gegen die wahre Varianz. Man bildete nun p p ˆ = var(ψ)/W R ˆ , die Gelman-Rubin-Statistik, welche gegen eins strebt. Diese Zahl berechnet man nun f¨ ur mehrere interessierende Kenngr¨oßen von Π und nimmt die N¨ahe zu eins als G¨ utemaß f¨ ur die Simulation. Im Beispiel wurden folgende Startwerte gew¨ahlt: Der erste Startwert ist nach den Daten plausibel, der zweite repr¨asentiert kleine Meßfehler und hohe Intergruppenvarianz und der dritte ¨ahnliche Individuen und hohe Meßfehler. Es wurden mit diesen Startwerten 3 Runs mit 5000 Iterationen durchgef¨ uhrt
60
KAPITEL 1. MCMC-METHODEN Parameter Run 1 α0 β0 σα σβ σ
Run 2
Run 3
20.0 -5.0 20.0 5.0 0.1
-10.00 5.00 0.20 0.05 10.00
5.0 -1.0 2.0 0.5 1.0
Tabelle 1.1: Startwerte f¨ ur verschiedene Runs des Gibbs Samplers und f¨ ur verschiedene Variablen die Mediane und 97,5 Perzentile der GelmanRubin Statistik geplottet; sie sollten bei eins liegen. Die Statistiken selbst hatten folgende Werte: Die Ergebnisse waren konsistent mit fr¨ uheren UnParameter Sch¨atzung 97,5 Perzentil β0 σβ σ
1.03 1.01 1.00
1.11 1.02 1.00
Tabelle 1.2: Gelman-Rubin Statistik f¨ ur 3 Parameter tersuchungen; z.B. ergab sich f¨ ur den mittleren Gradienten eine Verteilung, die um minus eins zentriert war (also das vermutete Ergebnis). Anschließend wurde das Modell verfeinert, indem z.B. robustere a priori Verteilungen benutzt wurden, um die offensichtlichen Ausreißer besser zu modellieren, und Kovariablen eingebaut wurden.
1.4. HEPATITIS B: EINE FALLSTUDIE
61
Abbildung 1.6: Gelman-Rubin Statistik f¨ ur 4 Parameter und 3 Runs. Es wurden die Mediane (Linie) und 97,5 Perzentile (gestrichelte Linie) geplottet. Aus [12] mit freundlicher Erlaubnis von W.R. Gilks et al.
62
KAPITEL 1. MCMC-METHODEN
Kapitel 2 Konditionale Modelle Wir befassen uns nun mit konditionalen Modellen; sie werden mit Hilfe von ¨ Markovketten dargestellt. Die Abh¨angigkeiten finden sich in den Ubergangskernen wieder. F¨ ur diese brauchen wir eine flexible Klasse von Verteilungen, die wir zun¨achst einf¨ uhren. Als Literatur f¨ ur Exponentialfamilien und das verallgemeinerte lineare Modell verwenden wir [13], f¨ ur konditionale Modelle und einige Beispiele [10].
2.1
Die Modellierung
Wir f¨ uhren Exponentialfamilien, das verallgemeinerte lineare Modell und konditionale Modelle ein.
2.1.1
Exponentialfamilien
Wir werden uns im folgenden mit Verallgemeinerungen des klassischen linearen (Regressions-)Modelles der Statistik befassen. Bei letzterem beruht die (einfache und elegante) Theorie wesentlich auf der Normalverteilungsannahme. F¨ ur die Verallgemeinerung ben¨otigen wir eine flexiblere Klasse von Verteilungen. Sie muß insbesondere stetige, diskrete und sogar kategerielle bzw. nominale Skalen zulassen. Seien b(ϑ), c(ϑ), a(y), t(y) reelle meßbare Funktionen. Eine Verteilung geh¨ort zur Exponentialfamilie zu c(ϑ) und t(y), wenn sie eine Dichte der folgenden Gestalt hat: f (y, ϑ) = exp (c(ϑ)t(y) + a(y) − b(ϑ)) 63
64
KAPITEL 2. KONDITIONALE MODELLE
(im Fall diskreter Verteilungen ist f als Z¨ahldichte aufzufassen). Falls t(y) = y, so liegt die kanonische Form vor. c(ϑ) ist der nat¨ urliche Parameter der Verteilung. Beispiel 2.1.1 (Die Gaußverteilung) hat die wohlbekannte Dichte 2 ! 1 1 y−µ f˜(y; µ, σ 2 ) = (2πσ 2 )− 2 exp − . 2 σ Setze ϑ = σµ2 . Wird σ als bekannt vorausgesetzt, so liegt eine einparametrische Familie vor und wir k¨onnen rechnen 2 2 √ y2 ϑσ 2 2 f y, (ϑσ , σ ) = exp |{z} ϑ · y − 2− + ln 2πσ 2 |{z} 2σ 2 |{z} c(ϑ) | {z } t(y) a(y)
= √
1
2πσ 2
exp
2
b(ϑ)
2
y µ µy − − σ2 2σ 2 2σ 2
= f˜(y, µ, σ 2 ).
Konstanten im Exponenten k¨onnen wir nat¨ urlich nach belieben in a oder b aufnehmen. Beispiel 2.1.2 (Die Gammaverteilung) hat schon fast die Exponentialgestalt: 1 β β−1 −αy f˜ y, (α, β) = α y e , y > 0. Γ(β) Setzt man ϑ = −α und nimmt bekanntes β an, so ergibt sich f (y, ϑ) = exp ϑy + (β − 1) ln y + ln(−ϑ)β /Γ(β) 1 β β−1 −αy = α y e = f˜(y, (α, β)). Γ(β) Beispiel 2.1.3 (Die Binomialverteilung) hat die Z¨ahldichte n y f˜ (y, (n, p)) = p (1 − p)n−y . y Wir setzen n als bekannt voraus und p ϑ = ln = logit p. 1−p
2.1. DIE MODELLIERUNG
65
n ϑ − n ln(1 + e ) f (y, ϑ) = exp ϑy + ln | {z } y | {z } b(ϑ) a(y)
=
y p n 1 n y = p (1 − p)n−y . ϑ n 1−p y (1 + e ) y | {z } 1−p p 1 + 1−p = 1−p 1−p
Im Bernoullifall n = 1 reduziert sich die Formel auf ϑ
f (y, ϑ) = exp ϑy − ln(1 + e ) =
eϑy ; 1 + eϑ
insbesondere gelten f (1, ϑ) =
eϑ 1 = ; ϑ 1+e 1 + e−ϑ
f (0, ϑ) =
1 , 1 + eϑ
was uns an das Ising Modell erinnert. Beispiel 2.1.4 (Die Poissonverteilung) Hier hat man y −λ λ ˜ f (y, λ) = e · = exp(y · |{z} ln λ − ln y! −λ) = exp(yϑ − ln y! − eϑ ). |{z} y! ϑ
a(y)
N¨ utzlich und erleuchtend ist der folgende Satz 2.1.6. Wir schicken eine Definition und ein Lemma voraus. Als nat¨ urlichen Parameterraum Θ einer Exponentialfamilie definiert man die Menge der ϑ mit Z exp(c(ϑ)t(y) + a(y)) dy < ∞. Er ist f¨ ur die Wahl eines c(ϑ) aus den obigen Beispielen ein Intervall mit nichtleerem Innerem. Die Funktion f ist eine Dichte, hat deshalb Integral eins und auf Θ gilt somit Z exp(c(ϑ)t(y) + a(y)) dy = exp(b(ϑ). (2.1)
66
KAPITEL 2. KONDITIONALE MODELLE
Lemma 2.1.5 Die Zufallsvariable Y habe die Dichte f (y, ϑ) = exp ϑ · t(y) + a(y) − b(ϑ) und Φ erf¨ ulle Eϑ (|Φ(Y )|) < ∞ auf Θ. Dann ist die Funktion ϑ 7→ Eϑ (|Φ(Y )|) auf Θo beliebig oft differenzierbar. Insbesondere ist b auf Θo unendlich oft differenzierbar. Beweis. Die erste Aussage findet sich in jeder Analysisvorlesung unter dem Stichwort ‘Vertauschung von Differentiation und Integration’, die Exponentialfunktion ist unendlich oft differenzierbar in ϑ und der letzte Teil gilt wegen (2.1). Der Satz liefert Erwartungswert und Varianz von Y (bzw. t(Y )). Theorem 2.1.6 Seien die Voraussetzungen des Lemmas erf¨ ullt. Dann gelten o f¨ ur ϑ ∈ Θ die Identit¨aten d2 b(ϑ) db(ϑ) Eϑ t(y) = , Vϑ t(y) = . dϑ dϑ2 Beweis. Es ist Z Eϑ t(y) = exp ( − b(ϑ)) t(y) exp ϑt(y) + a(y) dy Z d = exp − b(ϑ) exp ϑt(y) + a(y) dy dε Z d = exp − b(ϑ) exp ϑt(y) + a(y) dy dε d exp b(ϑ) = b0 (ϑ). = exp − b(ϑ) dϑ Genauso gilt Z 2 −b(ϑ) Eϑ t(y) = e t(y)2 exp ϑt(y) + a(y) dy Z d2 −b(ϑ) exp ϑt(y) + ay dy = e ∂ϑ2 d2 = e−b(ϑ) 2 exp(eb(ϑ) ) = b00 (ϑ) + b0 (ϑ)2 dϑ
2.1. DIE MODELLIERUNG
67
Die Behauptung folgt nun aus der Verschiebungsformel und der ersten Identit¨at. In mehreren Dimensionen gilt die selbe Formel, wobei die Multiplikation als Skalarmultiplikation zu lesen ist; jetzt muß nat¨ urlich auf Dimensionsvertr¨aglichkeit geachtet werden. ϑ ∈ Rd ,
y ∈ Rn ,
t(y) ∈ Rd ,
b(ϑ) ∈ R,
a(y) ∈ R,
also f (y, ϑ) = exp (ϑ0 t(y) + a(y) − b(ϑ)) . Auch hier gilt Z exp b(ϑ) = exp ϑ0 t(y) + a(y) dy.
F¨ ur die Momente gilt entsprechend zu Satz 2.1.6: d Eϑ t(Y ) = b(ϑ) = ∇b(ϑ), dϑ d2 Vϑ (t(Y )) = b(ϑ) (= Hessematrix von b), dϑ2 wobei wir die Varianz einer Zufallsvariablen ξ mit V(ξ) bezeichnen1 . Beispiel 2.1.7 F¨ ur die Gaußverteilung errechnet man (σ 2 bekannt): T µ 1 ϑ= ,− 2 , t(y) = (y, y 2 )T , a = 0, 2 σ 2σ √ µ2 b(ϑ) = 2 + ln 2πσ 2 ; 2σ der Ausdruck a ist in das t und ϑ gerutscht, weil σ 2 als Parameter aufgefaßt wird. Beispiel 2.1.8 (Multinomialverteilung) Seien p = (p1 , . . . , pm )T, y = (y1 , . . . , ym )T,
pi > 0,
m X
pi < 1,
i=1 m X
y i ∈ N0 ,
yi ≤ n
i=1
1
Analog bezeichnet V(ξ) die Kovarianzmatrix eines Zufallsvektors ξ = (ξ1 , . . . , ξ − d)
68
KAPITEL 2. KONDITIONALE MODELLE
und
n! P . y1 ! · · · ym !(n − m j=1 yj )!
c(y) =
Die Multinomialverteilung Mm (n, p) ist dann gegeben durch f ((y1 , . . . ym ); (n, p)) m m Y X Pm yi = c(y) pi · (1 − pi )n− i=1 yi i=1
= exp
X m i=1
i=1
ln
1−
p Pim
j=1
pj
!
yi + ln c(y) − ( − n ln(1 −
n X
pi )) .
i=1
Wir wollen wieder ein einfaches (Skalar-)Produkt im nat¨ urlichen Parameter erreichen und setzen daher ϑi = ln
1−
p Pin
j=1
pj
,
so daß gilt
0
Mm (n, p)(y) = exp ϑ y + ln c(y) − n ln(1 +
m X
e ) . ϑi
i=1
2.1.2
Das verallgemeinerte lineare Modell (GLM)
Das klassische lineare Modell f¨ ur ungruppierte normale Zielvariablen und deterministische Kovariablen hat die Gestalt yi = zi0 β + ηi ,
i = 1, . . . , n,
(2.2)
wobei der Designvektor zi eine Funktion der Kovariablen xi und β der Vektor der unbekannten Parameter ist. Die Kriteriumsvariable yi setzt sich also linear aus einer Erwartungswertfunktion zi0 β und einer Fehlervariable ηi zusammen; wesentlich sind (1) die Fehlervariable ηi ist normalverteilt, (2) die Erwartungswertfunktion zi0 β ist linear in den unbekannten Modellparametern β.
2.1. DIE MODELLIERUNG
69
In vielen wichtigen F¨allen sind aber (1) und/oder (2) verletzt, z.B. (1)
– Die Kriteriumsvariable ist nominal oder ordinal skaliert. – Die Kriteriumsvariable ist zwar intervall-skaliert, aber nicht in eine normalverteilte transformierbar.
(2) Bei vielen biologischen Problemen ist die Erwartungswertfunktion exponentiell oder logistisch in den Modellparametern, oder - wie bei Kontingenztafelanalysen - logarithmisch. Deshalb wird das Modell erweitert: (1) Die Annahme von Normalverteilungen wird zu Exponentialfamilie abgeschw¨acht. (2) Der Erwartungswert ist (erst) nach einer monotonen Transformation durch eine Linkfunktion linear in den Modellparametern. Was ist der Preis f¨ ur diese Verallgemeinerung? – Es gibt keine direkten Verfahren zur Parametersch¨atzung (hier kommen den MCMC-Methoden ¨ahnliche Verfahren ins Spiel). – Es gibt i.a. keine exakten, sondern nur noch asymptotische Testverfahren. – Die Analyseverfahren sind (noch?) nicht so gut ausgebaut wie im linearen Modell. Wir definieren nun das verallgemeinerte lineare Modell. Dazu ben¨otigen wir zwei wesentliche Zutaten: (1) Verteilungsannahmen Gegeben die Kovariablen xi , sind die yi unabh¨angig; sie geh¨oren zu einer Exponentialfamilie mit (bedingter) Erwartung E(yi |xi ) = µi . M¨oglicherweise kommt noch ein St¨orparameter τ 2 ins Spiel, der nicht von i abh¨angt: 1 f (z, ϑi ) = exp (zϑi + a(z, τ ) − b(ϑi )) . (2.3) τ2 Wir setzen b00 > 0 auf Θ voraus.
70
KAPITEL 2. KONDITIONALE MODELLE
(2) Strukturelle Annahme Die Erwartung µi steht zum linearen Pr¨adiktor zi0 β in der Beziehung g(µ1 ) (2.4) g(µi ) = zi0 β bzw. ... = zβ. g(µn ) Die Funktionen bedeuten: – g ist die sogenannte Linkfunktion; sie muß invertierbar sein mit g −1 = h; d.h. µi = h(zi0 β). – h heißt Responsefunktion . Bemerkung 2.1.9 (a) Setzen wir in einem GLM mit unabh¨angigen Zufallsvariablen Yi , deren Erwartungswerte die µi sind, in formaler Analogie zum linearen Modell Y = µ + ε, (2.5) mit dem Vektor von Zufallsvariablen ε0 = (ε1 , . . . εn ), so haben die εi den Erwartungswert 0. Ihre Dichte ist 1 fεi (z) = f z + µi , ϑi = exp (zϑi + a(z + ϑi , τ ) − (b(ϑi ) − µi ϑi )) . τ2 Die εi bleiben zwar unabh¨angig, sie sind aber nicht identisch verteilt. Wir sollten also nicht mit (2.5) arbeiten, sondern direkt mit (2.3) und (2.4). (b) Es gelten µi = E(Yi ) = b0 (ϑi ) σi2 = V(Yi ) = τ 2 b00 (ϑi ). Formal gilt f¨ ur die Linkfunktion g(µi ) = g(b0 (ϑi )), d.h. g muß auf b0 (Θ) definiert sein.
2.1. DIE MODELLIERUNG
71
Wir stellen nun den Zusammenhang zwischen µ und ϑ her. Es galt g(µi ) = zi0 β,
h(zi0 β) = µi .
Nun ist aber µi = b0 (ϑi ). Wir nehmen an, daß b0 invertierbar ist mit Inverser ψ = b0−1 . Dann kann man die Gleichung nach ϑi aufl¨osen und erh¨alt ϑi = ψ(µi ) = ψ h(zi0 β) . Die Linkfunktion g heißt nat¨ urlich, wenn g=ψ d.h., wenn gilt ϑi = ψ(h(zi0 β)) = zi0 β. Merkregel: Nat¨ urliche Link- bzw. Responsefunktionen sind gerade diejenigen, welche zu ϑi = zi0 β (2.6) f¨ uhren. Durch die Verkn¨ upfung von ϑ und β wird auch σ 2 eine Funktion von zi0 β n¨amlich σi2 = τ 2 b00 (ϑi ) = τ 2 b00 (ψ(h(zi0 β))) . Auch andere wichtige Funktionen, wie die Likelihood k¨onnen ¨ahnlich ausgedr¨ uckt werden. Beispiel 2.1.10 (Das lineare Modell als GLM) Wir brauchen Yi = zi0 β + εi ,
(2.7)
wobei εi i.i.d. N (0, σ 2 ). Wir haben die Normalverteilung schon als Mitglied ϑ2 einer Exponentialfamilie entlarvt mit b(ϑi ) = 2i + ci . Es ist µi = b0 (ϑi ) = ϑ2
( 2i +ci )0 = ϑi , d.h. ψ = Id. Also gilt im nat¨ urlichen Fall g = h = Id und µi = 0 ϑi = zi β. Wir erhalten das Modell (2.7) also mit nat¨ urlicher Linkfunktion.
72
KAPITEL 2. KONDITIONALE MODELLE
Beispiel 2.1.11 (Dichotome kategorielle Regression) Seien Y1 , . . . , Yn Zufallsvariablen mit Werten 0, 1 und P(Yi = 1) = πi = Eπi (Yi ). Die πi seien unbekannt. Die Daten seien x0i = (x0i , . . . , xpi ). Mit einer beliebigen Linkfunktion g gilt: g(πi ) = x0i β. F¨ ur B(1, πi ) haben wir die Z¨ahldichte πi + ln(1 − πi ) f (y, πi ) = exp y ln 1 − πi mit nat¨ urlichen Parametern ϑi = ln
πi = logit πi . 1 − πi
Entscheiden wir uns f¨ ur die nat¨ urliche Linkfunktion, so ist πi g(πi ) = ψ(πi ) = ψ(µi ) = ϑi = ln = g(πi ). 1 − πi Als Umkehrfunktion von ψ gilt dann f¨ ur h = b0 , daß b0 (ϑi ) = h(ϑi ) =
eϑi . 1 + eϑi
F¨ ur b ergibt sich
b(ϑi ) = ln 1 +
eϑi
+ c.
Rechnung ergibt c = 0. Damit haben wir alle Funktionen und Parameter im nat¨ urlichen Fall bestimmt. Das Modell heißt bin¨ares (dichotomes) logistisches Regressionsmodell . Wegen g(πi ) = g(µi ) = x0i β hat man πi x0i β = g(πi ) = ln ; 1 − πi 1 πi = h(x0i β) = (2.8) 0 . 1 + e−xi β Wir haben also in Entsprechung zur Erwartungswertformel Eβ (Yi ) = x0i β die einfache Formel logit πi = xi0 β0 + · · · xip βp .
2.1. DIE MODELLIERUNG
73
Beispiel 2.1.12 (Probitanalyse) Hier w¨ahlt man h = φ, g = φ−1 , wobei φ die Verteilungsfunktion der Standardnormalverteilung ist. Man beachte, daß sowohl die Responsefunktion h aus dem logistischen Regressionsmodell (vgl. (2.8) als auch h = φ aus dem Probitmodell ¨ahnliche sigmoide Funktionen sind (vgl. Abb. 2.1.).
Abbildung 2.1: Graph der Verteilungsfunktion von N (0, 1) und von S(x) = 1/(1 + exp(−x)) (im Ursprung flacher).
2.1.3
Zeitreihen und Longitudinaldaten
Zeitreihen sind wiederholte Beobachtungen einer Responsevariablen Y , die von eigentlichem Interesse ist und m¨oglicherweise einem Vektor x von Kovariablen zu Zeitpunkten t = 1, . . . , T . Man erh¨alt also eine Zeitreihe (y1 , x1 ), . . . , (yT , xT ). Bei longitudinalen oder Paneldaten an Einheiten i = 1, . . . , n sind die yt Vektoren (yit ). Man kann sie als (Zeit-)Schnitt durch mehrere eindimensionale Zeitreihen auffassen. Modelle f¨ ur (nichtgaußische) Daten sind relativ neu (≥ 1970); solche sind z.B. bin¨are und multikategorielle Daten wie es regnet ja / nein es regnet nicht / wenig/ stark Polioindex Fallzahl im Monat.
74
KAPITEL 2. KONDITIONALE MODELLE
2.1.4
Konditionale Modelle
Bedingte Verteilungen, gegeben die Vergangenheit zusammen mit Kovariablen ersetzen die unabh¨angigen Variablen. Wir behandeln zun¨achst verallgemeinerte autoregressive Modelle. Bezeichne Ht = {yt−1 , . . . , y1 , xt , xt−1 , . . . , x1 } die t-Vergangenheit 2 . Diese Modelle sind charakterisiert durch: (1) die bedingten Dichten f (yt |Ht ), t = 1, 2, . . . , T geh¨oren zu einer Exponentialfamilie. (2) die bedingten Erwartungen µt = E(yt |Ht ) sind von der Gestalt µt = h(zt0 β), wobei zt nur von Ht abh¨angt. F¨ ur die bedingte Varianz ergibt sich (vgl. (2.1.6)): σt2 = τ 2 b00 (ϑ), wobei τ 2 und b00 zum Modell geh¨oren. H¨aufig bedingt man nicht durch alle yt−1 , . . . , y1 sondern nur durch yt−1 , . . . , yt−l . Dann erh¨alt man ein verallgemeinertes lineares Modell der Ordnung l . Im Fall l = 1 reduziert sich dies auf eine gew¨ohnliche Markovkette. Beispiel 2.1.13 (Bin¨ are Zeitreihen) Sei (yt ), yt ∈ {0, 1}. Dann ist die bedingte Verteilung von yt gegeben Ht bestimmt durch πt = P(yt = 1|Ht ) = E(yt |Ht ). Ohne Kovariablen ist das reine autoregressive Modell der Ordnung l gegeben durch πt = h(β0 + β1 yt−1 + . . . + βl yt−l ) = h(zt0 β), 2
eigentlich die σ-Algebra, die von den vergangenen Variablen und Kovariablen erzeugt wird, sowie der gegenw¨ artigen Kovariablen; solange wir mit endlichem Zustandsraum arbeiten, k¨ onnen wir jedoch alles elementar niederschreiben.
2.1. DIE MODELLIERUNG
75
wobei β = (β0 , . . . , βl )0 , zt0 = (1, yt−1 , . . . , yt−l ). Die bedingte Varianz ist σt2 = πt (1 − πt ); Bei nat¨ urlicher Linkfunktion g = ψ ist h = b0 und somit τ 2 = 1. Man kann Kovariable aufnehmen, etwa πt = h(β0 + β1 yt−1 + βl yt−l + x0t γ) = h(z 0 β), t > l, mit zt0 = (1, yt , . . . , yt−l , x0t ), β 0 = (β0 , β1 , . . . , βl , γ). Wegen des Einflusses der Kovariablen wird die Markovkette der Ordnung l inhomogen. Im logistischen oder Logit-Modell w¨are z.B. h(µ) =
eµ 1 + eµ
(bei Parameter µ = b0 (ϑ)). Ein Fall, den wir genau anschauen werden, ist πt (b, a) = P(yt = a|yt−1 = b, xt ),
a, b ∈ {0, 1}.
Wieder induziert die Kovariable xt eine zeitliche Inhomogenit¨at. Bei Longitudinaldaten h¨atte man πi,t (b, a) = P(yit = a|yi,t−1 = b, xit ), wobei i der Index f¨ ur die Individuen ist. Im Falle der logistischen Regression hat man yit = B(1, πit ) logitπit = β0 + β1 yt−1 + γxt . Es k¨onnen auch Interaktionen zwischen vergangenen Beobachtungen und den Kovariablen eingebaut werden, wie z.B. in logit πt = β0 + β1 yt−1 + β2 xt + β3 yt−1 xt .
76
KAPITEL 2. KONDITIONALE MODELLE
¨ Dies ist ¨aquivalent zur folgenden parametrischen Form der Ubergangswahrscheinlichkeit eines (homogenen) Markovprozesses πt (i, 1) = P (yt = 1|yt−1 = i, xt ) = h(α0i + α1i xt ). Dies dr¨ uckt explizit die Abh¨angigkeit von vergangenem Zustand aus. Die ¨ Aquivalenz ergibt sich mit α00 = β0 , α0,1 = β0 + β1 , α10 = β2 , α11 = β2 + β3 . Zur Probe setzen wir ein; f¨ ur yt−1 = 0 ergibt sich α00 + α10 xt = β0 + β2 xt = β0 + β1 · 0 + β2 xt + β3 · 0 · xt · xt ); f¨ ur yt−1 = 1 erhalten wir α01 + α11 xt = β0 + β1 · 1 + β2 xt + β3 · 1 · xt , ¨ also die obige Identit¨at. Ahnliches kann auch f¨ ur Abh¨angigkeiten h¨oherer Ordnung durchgef¨ uhrt werden. Bevor wir uns der statistischen Inferenz konditionaler Modelle zuwenden, betrachten wir das GLM. Einiges davon l¨aßt sich u ¨bertragen.
2.2
Statistische Inferenz
¨ Die statistische Inferenz f¨ ur konditionale Modelle ist oft eine Ubertragung der Methoden aus dem gew¨ohnlichen GLM auf den konditionalen Fall, wobei dort die (Marginal-) Verteilungen der i.i.d. Variablen durch bedingte Verteilungen ersetzt werden. Da der Index jetzt nicht mehr die Nummer von austauschbaren i.i.d. Variablen, sondern die Zeit bedeutet schreiben wir jetzt t statt i.
2.2.1
Inferenz im GLM
Zun¨achst schauen wir uns die Loglikelihoodfunktion an. F¨ ur unabh¨angige Beobachtungen Y1 , . . . , YT nehmen wir eine Verteilung aus einer Exponentialfamilie an, also eine Dichte 1 (2.9) f (yt , ϑt ) = exp 2 (yt ϑt + a(yt , τ ) − b(ϑt )) . τ
2.2. STATISTISCHE INFERENZ
77
Theorem 2.2.1 Gegeben sei die Beobachtung y = (y1 , . . . , yT )0 . In Abh¨angigkeit von β ist die Loglikelihoodfunktion gegeben durch T X 1 l(β) = y ψ(h(η )) + a(y , τ ) − b(ψ(h(η ))) t t t t τ2 t=1
wobei ηt = x0t β als Funktion von β aufgefaßt wird. Beweis. Produktbildung in (2.9) und Logarithmieren ergibt T X 1 y ϑ + a(y , τ ) − b(ϑ ) . t t t t 2 τ t=1
Es waren g die Linkfunktion und h = g −1 die Responsefunktion, ferner ψ = b0−1 . Wir hatten ϑt = ψ(µt ) = ψ(h(ηt )), wobei ηt = x0t β. Dies wird einfach eingesetzt und die Formel ist verifiziert. M L-Sch¨atzer maximieren die Loglikelihoodfunktion. Der erste Ansatz dazu ist, U (β) = ∇β l(β) = 0 zu setzen. Der Gradient U (β) heißt Scorefunktion. Dann w¨are zu pr¨ ufen, ob die L¨osung wirklich ein Maximum liefert und nicht ein lokales Minimum oder einen Sattelpunkt. Wir schreiben l(t) (ϑt ) = Yt ϑt + a(Yt , τ ) − b(ϑt ), ϑt = ψ(µt (ηt ))(β). Mit der Kettenregel hat man ∂l(t) ∂l(t) ∂ϑt ∂µt ∂ηt = · · · . ∂βj ∂ϑt ∂µt ∂ηt ∂βj F¨ ur die einzelnen partiellen Ableitungen bekommt man ∂l(t) = Yt − b0 (ϑt ) = Yt − µt ∂ϑt ∂µt 1 = b00 (ϑt ) = 2 σt2 . Umkehrfunktion ! ∂ϑt τ ∂ηt = xtj . ∂βj
(2.10)
78
KAPITEL 2. KONDITIONALE MODELLE
Es fehlt noch −1 dµt dg(µ) dh(η) = = dηt dη η=ηt =x0 β dµ µ=µt =h(x0 β) t
t
Wir setzen in (2.10) ein und erhalten
∂l(t) τ 2 dµt = (Yt − µt ) · 2 · · xtj ∂βj σt dηt und somit Uj (β) =
T X
xtj (Yt − µt (β))
t=1
dµt dηt
·
1 σt2 (β).
Wichtig ist auch die Matrix I(β) = (Ijk (β)),
Ijk = Eβ
Uj (β)Uk (β) ,
die p × p Fisher-Informationsmatrix . Weil die Yt unabh¨angig sind, gilt 0 i 6= j Eβ (Yt − µt )(Ys − µs ) = σ2 i = j und deshalb Ijk (β) = = = =
Eβ Uj (β)Uk (β) X dµ 1 X dµ 1 t t xtk Yt − µt (β) E xtj Yt − µt (β) 2 dηt σt (β) t dηt σt2 (β) t 2 1 X dµt xtj xtk Eβ (Yt − µt )2 4 dηt σt (β) t X dµt 1 xtj · xtk . dηt σt2 t
Um das in Matrixschreibweise zu u ¨bersetzen definieren wir dµ dµt X = (x1 , . . . , xT ), = Diag dη dηt V (β) = Diag σt2 (β) = τ 2 b00 (ψ(µt )) und fassen zusammen:
2.2. STATISTISCHE INFERENZ
79
Proposition 2.2.2 Im GLM (mit i.i.d. Zufallsvariablen Y1 , . . . , YT ) gelten: n X dµt 1 Uj (β) = xtj (Yt − µt (β)) · 2 dηt σt (β) t=1 2 n X 1 dµt Ijk (β) = xtj · xtk , dηt σt2 t=1 bzw. 0
−1
0
−1
U (β) = X V I(β) = X V
(β)
dµ dη
(β)
µt dηt
2
Y − µ(β) ,
X.
Neben dem Vektor U (β) der ersten Ableitungen der Loglikelihoodfunktion ist auch die p × p-Matrix d2 l(β) dβdβ 0 der zweiten Ableitungen von Interesse. Dazu f¨ uhren wir - mit der Schreibweise 2 2 σt = σ (ηt ) und mit u = ψ ◦ h - die Abk¨ urzung 1 dh(η) 1 d2 d vt (β) = · = 2 2 u(η) , (ηt = x0t β) 2 dη σ (η) dη τ dη η=ηt η=ηt W (β) = (Wjk ((β)) =
ein, sowie die n × n-Matrix
R(β) = Diag v(β) . Proposition 2.2.3 F¨ ur ein GLM gilt W (β) = X 0 R(β)Diag Y − µ(β) X − I(β), Beweis. Unter Benutzung der Formel f¨ ur Uj gilt mit vi ≡ vi (β) f¨ ur das Element Wj,k : ∂ Uj (β) ∂βk 2 X ∂ηt X dµt ∂ηt 1 − xtj · = xtj (Yt − µt )vt · ∂βk dηt ∂βk σt2 t t 2 X X dµt 1 = xtj xtk (Yt − µt )vt − xtj xtk · 2, dηt σt t t Wjk (β) =
80
KAPITEL 2. KONDITIONALE MODELLE
woraus mit der Formel f¨ ur Ijk die Behauptung folgt.
F¨ ur die nat¨ urliche Linkfunktion g = ψ = (b0 )−1 sieht alles etwas freundlicher aus. Man erinnere sich: es gilt 0 ϑt = ψ h (xt β) = ηt . | {z } ηt
Bei nat¨ urlichen Linkfunktionen fallen die Parameter ϑt und ηt zusammen, und wir haben f¨ ur den Parameter ϑ der Exponentialfamilie ein lineares’ Modell vorliegen: g(µt ) = ϑt = ηt = x0t β, F¨ ur die berechneten Gr¨oßen erhalten wir im Fall nat¨ urlicher Linkfunktion vereinfachte Ausdr¨ ucke: Theorem 2.2.4 F¨ ur ein GLM mit nat¨ urlicher Linkfunktion gilt n X 1 l(β) = (Yt ηt + a(Yt , τ ) − b(ηt )), ηt = x0t β 2 τ t=1 n X 1 1 0 Uj (β) = xtj Yt − µt (β) , U (β) = 2 X Y − µ(β) τ2 τ t=1 n X 1 Itj (β) = x x σ 2 (β), 4 tj tk t τ t=1
Wtk (β) = −Itk (β),
I(β) =
1 0 X V (β)X τ4
W (β) = −I(β)
Beweis. Setze ϑt = ψ h(ηt ) = ηt in die allgemeine Form ein. Wegen dµt 1 = b00 (ϑt ) = 2 σt2 dηt τ ist
dµ dη
=
1 V (β) τ2
einzusetzen, und wegen u = ψ ◦ h = Id gilt R = 0.
2.2. STATISTISCHE INFERENZ
81
Beispiel 2.2.5 Bei der bin¨aren Regression hatten wir g(µt ) = g(πt ) = logit(πt ) = ln
πt (= ϑt ) = ηt = zt0 β. 1 − πt
Also gilt l(β) =
n X
Yt ηt − ln(1 + e ) ηt
t=1
1 U (β) = X 0 (Y − π); πt = −ηt 1 + e I(β) = X 0 Diag πt (1 − πt ) X W (β) = −I(β). Setzt man voraus, daß X vollen Rang hat und 0 < πt < 1, so ist die L¨osung von U (β) = 0 (falls existent) eindeutig. Zur Berechnung der L¨osung gibt es mehrere Algorithmen, z.B. das Newton-Verfahren (vgl. Abschnitt 2.2.2). Beispiel 2.2.6 (Z¨ ahldaten) Wir betrachten zun¨achst die Exponentialform der Poissonverteilung y
λ f˜(y, λt ) = e−λt t = exp (y ln λt − ln y! − λt ) . y! Der nat¨ urliche Parameter ist ϑt = ln λt , d.h. wir bekommen die Exponentialform f (y, ϑt ) = exp yϑt − ln y! − eϑt .
Also ist b(ϑ) = eϑ ; b0 (ϑ) = eϑ ; ψ(µ) = ln(µ) und deshalb f¨ ur die nat¨ urliche Link- und Responsefunktion ηt = zt0 β = g(µt ) = ln(µt );
0
µt = h(zt0 β) = ezt β .
Wegen µt = λt bekommen wir mit den Designvariablen (1, yt−1 , . . . , yt−l , x0t ) und den Modellparametern β = (β0 , β1 , . . . , βl , γ 0 ) das log-lineare PoissonModell λt = E(yt |Ht ) = h(zt0 β) = exp(β0 + β1 yt−1 + . . . + βl yt−l + x0t γ), bzw. ln λt = β0 + β1 yl−1 + . . . + βl yt−l + x0t γ.
82
KAPITEL 2. KONDITIONALE MODELLE
F¨ ur γ = 0 ist das ein reines autoregressives Modell. Es ist X 0 lt (β) = yt zt0 β − ezt β , l(β) = lt (β) t
Uj (β) =
zt0 β
X
yt ztj − ztj e
X
ztj (yt − |{z} ezt β ).
t
=
t
0
µt =λt
¨ (in Ubereinstimmung mit dem allgemeinen Ausdruck).
2.2.2
Inferenz in konditionalen Modellen
Die gemeinsame Dichte von Y1 , . . . , YT bei β l¨aßt sich bei deterministischen Kovariablen faktorisieren3 : fβ (y1 , . . . , yT ) =
T Y
fβ (yt |yt−1 , . . . , y1 ).
t=1
Sind die Kovariablen stochastisch, so hat man fβ (y1 , . . . , yT ; x1 , . . . , xT ) =
T Y t=1
fβ (yt |Ht )
T Y
fβ (xt |Ct ),
t=1
wobei Ht = (yt−1 , . . . , y1 ; xt , . . . , x1 );
Ct = (yt−1 , . . . , y1 ; xt−1 , . . . , x1 ).
Unter der Annahme, daß der x-Term nicht von β abh¨angt, kann man sich bei der Parametersch¨atzung auf den ersten Term beschr¨anken. In jedem Fall hat man T X lt (β), lt (β) = ln fβ (yt |Ht ), l(β) = t=1
3
Dies entspricht der elementaren Formel f¨ ur Ereignisse A1 , . . . , AT mit P(A1 ∩ . . . ∩ AT ) > 0, n¨ amlich: P (A1 ∩ . . . ∩ AT ) = P (A1 )P (A2 |A1 ) · · · P (AT |A1 ∩ . . . ∩ AT −1 ).
2.2. STATISTISCHE INFERENZ
83
wobei die bedingten Dichten durch das autoregressive Modell gegeben sind. F¨ ur Scorefunktion etc. gelten die Formeln wie bei den GLM, jedoch mit bedingten Gr¨oßen; so gilt z.B. U (β) =
T X t=1
Xt0 Vt−1
dµ ∂η
(yt − µt (β)),
wobei µt (β) = h(Xt0 (β)) der bedingte Erwartungswert ist, Vt = cov(yt |Ht ) und dµ ausgewertet in Xt β sind. F¨ ur univariaten Response ist Xt = x0t und dη Vt (β) = Diag(σt2 ) die bedingte Varianz. Merkregel. Die f¨ ur die konditionale Maximum-Likelihood-Sch¨atzung relevanten Gr¨oßen sind formal identisch mit denen f¨ ur i.i.d. Variablen, wenn die Zielvariablen y1 , . . . , yt−1 als zus¨atzliche Kovariablen aufgefaßt werden. Somit k¨onnen u ur M L-Sch¨atzung bei geeigneter Wahl ¨bliche Prozeduren f¨ der Parameter auch im konditionalen Modell eingesetzt werden. Dies besagt noch lange nichts u ¨ber die theoretische Fundierung der M LMethode. F¨ ur das GLM im i.i.d. Fall existieren zumindest asymptotische Ausn→∞ ˜ sagen u ber die Konvergenz der Sch¨atzer von der Art βˆ ∼ N (β, G−1 )(β). ¨ (mit wachsender Stichprobe) gegen normalverteilte Zufallsvariablen (siehe Pruscha (1996) VII. 3, [13]). Darauf k¨onnen theoretisch untermauerte Tests und Konfidenzintervalle aufgebaut werden. Solche Resultate sind f¨ ur das konditionale Modell nur in Einzelf¨allen verf¨ ugbar; vgl. Pruscha, Diskussion Paper und Fahrmeir-Tutz (1994), S. 195, [10]. Wir sind hier im Bereich der aktuellen Forschung. Annahmen unter denen asymptotische Normalit¨at gilt, sind nat¨ urlich solche, die das Modell nahe am i.i.d. Fall halten, wie (asymptotische) Stationarit¨at und Ergodizit¨at, die uns ja auch im 1. Kapital Grenzwerts¨atze erlaubt haben. Zur Berechnung der Sch¨atzer kann z.B. das Newton-Verfahren verwendet werden: Sei G ⊂ RP offen und die Zielfunktion l : RP −→ R, (β1 , . . . , βP ) −→ l(β) mindestens zweimal stetig differenzierbar. Mit W (β) bezeichnen wir die Hessematrix der gemischten zweiten partiellen Ableitungen von l im Punkte β. Wir fordern, daß W nichtsingul¨ar im Punkte β ist. Das Iterationsverfahren ist gegeben durch die Vorschrift:
84
KAPITEL 2. KONDITIONALE MODELLE
Sei β (0) der Startwert; ist β (n) gegeben, so approximieren wir l durch eine quadratische Funktion 1 l(n) (β) = l(β (n) ) + ∇l(β (n) )(β − β (n) ) + (β − β (n) )0 W (β (n) )(β − β (n) ). 2 und bestimmen β (n+1) als Wurzel der Gleichung ∇l(n) (β) = 0. Ist W (β (n) ) nichtsingul¨ar, so ist β (n+1) eindeutig bestimmt. Das sieht man so: ∂ (n) l (β) ∂βi ∂ 1 ∂ ∂ (n) (n) l (β ) +∇l(n) (β (n) ) (β − β (n) ) + W (β (n) ) = ∂βi ∂βi 2 ∂βi | {z } =0
∂ X (βi − β (n) )2 ∇l(n) (β (n) ) + W (β (n) )(β n+1 − β (n) ) = 0 = ∂βi j=1
d.h. β (n+1) = β (n) − W (β (n) )−1 ∇l(β (n) ).
(2.11)
Die Rekursionsformel (2.11) nennt man das Newton-Verfahren. Um β (n+1) zu berechnen, ist es nicht notwendig, die Matrix W zu invertieren(Inversion ist ein instabiles Verfahren). Es gen¨ ugt, das Gleichungssystem W (β (n) )β = W (β (n) )β (n) − ∇l(n) (β (n) ) zu l¨osen.
2.2.3
Polio Inzidenz in den USA
Gemessen wurde die monatliche Polio Inzidenz der USA von 1970-19834 . Dies ergibt eine Zeitreihe von Z¨ahldaten. Traditionelle Methoden erscheinen anhand der Daten wenig geeignet. Die Daten suggerieren saisonale Einfl¨ usse 4
Inzidenz ist die Anzahl des (Neu-)Auftretens einer Krankheit in einem Einheitszeitraum, z.B. pro Tag, Woche, Monat, Jahr.
2.2. STATISTISCHE INFERENZ
85
und ein eventuelles Abnehmen bei der Polioinzidenz. Es bietet sich ein loglineares Poisson-Modell mit Trend und saisonalen Komponenten als Kovariablen an. Außerdem h¨angen die Beobachtungen sicher voneinander ab, d.h. konditionale Modelle k¨onnten eingesetzt werden. In [10], Beispiel 6.1, S. 199, wird folgende Vorgehensweise beschrieben. Es wird eine Regression von yt auf einen linearen Trend, sowie auf Cosinusund Sinuspaare f¨ ur die j¨ahrlichen und halbj¨ahrlichen saisonalen Komponenten angesetzt. Ferner werden vergangene Z¨ahlungen durch Konditionierung ber¨ ucksichtigt. Also wird von einem bedingten log-linearen Poissonmodell ausgegangen: λt = E(yt |yt−1 , . . . , yt−l ) =
h(zt0 β)
−3
= exp(α + βt · 10
+
zt0 δ
+
l X
γj yt−j )
j=1
wobei der Term zt Komponenten der Form cos(2πt/12), sin(2πt/12), cos(2πt/6), sin(2πt/6) enth¨alt und den saisonalen Teil des Modelles repr¨asentiert. F¨ ur das autoregressive Modell der Ordnung l = 5 wurden u ¨ber die M LMethode die Parameter α, β, δ1 , . . . , δ4 , γ1 , . . . , γ5 gesch¨atzt (siehe Tab. 2.1). Ein abnehmender Trend wird durch das negative Vorzeichen von βˆ nahegelegt.
2.2.4
Die indonesische Kindergesundheitsuntersuchung (ICHS)
In Westjava wurden 3000 Kinder viertelj¨ahrlich untersucht, um den Einfluß und Ursachen von Vitamin-A-Mangel zu studieren. Bestimmt wurden das Vorliegen von respiratorischen Darminfektionen (RD) und Xerophtalmie, einer Folge am Auge des Vitaminmangels. Die Infektionen sind eine der Hauptursachen f¨ ur Kindermortalit¨at in der dritten Welt. Einen Zusammenhang nachzuweisen ist wichtig, weil der Vitamin-A-Mangel (X) mit wenigen Pfennigen pro Kind und Jahr gebessert werden kann (unsere Quelle ist Diggle, Liang, Zeger: Analysis of Longitudinal Data (1994), [7]). ¨ Die gesamten vorkommenden empirischen Ubergangsh¨ aufigkeiten von RD ¨ (alle Uberg¨ange) sind in der Tabelle 2.2 zusammengefaßt. ¨ Insbesondere hat der Ubergang 1 → 1 mit 13,5 % fast die doppelte H¨aufigkeit
86
KAPITEL 2. KONDITIONALE MODELLE Term 1 t · 10−3 cos(2πt/12) sin(2πt/12) cos(2πt/6) sin(2πt/6) yt−1 yt−2 yt−3 yt−4 yt−5
MLE p-Wert 0.160 0.523 -3.332 0.095 -0.217 0.116 -0.462 0.002 0.128 0.354 -0.372 0.008 0.085 0.022 0.040 0.445 -0.040 0.501 0.029 0.532 0.081 0.059
Tabelle 2.1: Parametersch¨atzung f¨ ur das Polio Inzidenz Model aus Abschnitt 2.2.3 (nach [10], S. 199)
0 721
Yit 1 60
781
0 0.923 0.077
1.0
Yit−1 64
10
74
1 0.865 0.135
1.0
¨ Tabelle 2.2: Empirische Ubergangsh¨ aufigkeiten f¨ ur RD ¨ wie der Ubergang 0 → 1 mit 7,7 %. Von Interesse ist der Einfluß von (X) auf (RD). F¨ ur die Untersuchungen Nr. 2-7 ergibt sich die Tabelle 2.3. (RD) kommt bei Kindern mit (X) 0, 119/0, 08 = 1, 49 mal so h¨aufig vor als bei solchen ohne (X). Wir beziehen nun die Abh¨angigkeit von einer vorhergehenden Infektion mit ein, indem wir nach Yit−1 = 0 und Yit−1 = 1 trennen (vgl. Tab. 2.4):
2.2. STATISTISCHE INFERENZ
87
0 7.48
Yit 1 65
813
0.942
0.08
1.0
37
5
42
0 Xit 1 0.881 0.119 (1.0) 855 Tabelle 2.3: Einfluß von (X) auf (RD)
0 688
Yit 1 56
0 60
744
0
Yit 1 9
69
0 0.925 0.075
1.0
0.87 0.13 1.0
Xit
Xit 33
4
37
4
1 Yit−1
1
5
0.2
1.0 74
1 0.892 0.108 1.0 =0 781
Yit−1
0.8 =0
Tabelle 2.4: Einfluß der Vergangenheit Unter den vorher nicht infizierten Kindern ist die H¨aufigkeit einer jetzigen Infektion bei (X) 1, 44 = 0/0, 075 h¨oher als ohne (X). Bei den vorher infizierten ergibt sich 1, 54 = 0, 2/0, 13 also ein ¨ahnliches Verh¨altnis. ¨ Solche Uberlegungen legen ein Modell logit πit = x0it β + αyit−1 nahe. Im einfachsten Fall geht nur (X) ein: logit πit = β0 + Xit β1 , |{z} =0,1
wobei xit univariat ist.
88
KAPITEL 2. KONDITIONALE MODELLE
Das Modell sollte Tab. 2.3 reproduzieren. Die H¨aufigkeit von (RD) unter (X) = 0 ist 0,8 %. Im Modell w¨are das eβ0 /(1 + eβ0 ) = e−2,44 /(1 + e−2,44 ) = 8% womit der Eintrag in 2.3 u ¨bereinstimmt.
Model
Variable
1
2
3
4
5
Intercept
-2.44 -2.51 -2.51
-2.85
-2.81
Current Xerophthalmia (1=yes;0=no)
0.44
0.79
0.78
-0.024
-0.023
1.23
1.11
0.82
0.62
0.40
0.42
Age-36 (months) Season (1=2nd qtr; 0=other) Yij−1
0.61
Yij−1 by Xerophthalmia
0.11
Yij−1 by Age Yij−1 by Season
0.62
-0.11 0.00063 -1.24
Tabelle 2.5: Modelle und ihre Parameter. Aus [7]
2.2. STATISTISCHE INFERENZ
89
Eine weitere Gr¨oße ist die Logoddsratio 5 . In der Studie sei p1 = P (Y = 1|X = 1), p2 = (Y = 1|X = 0). Dann ist R = logit πit (x = 1) − logit πit (X = 0) = β1 Die Maximumlikelihoodsch¨atzung ergibt β1 = 0, 44 (vgl. Tab. 2.5, Modell 1, 2. Zeile). In weiteren Modellen werden Kovariablen wie Alter, Yt−1 − (X)Interaktion usw. hinzugef¨ ugt. Weiteres findet man in [7], S. 197ff.
5
Seien Y und Y2 zwei binomialverteilte Zufallsvariablen mit Erfolgswahrscheinlichkeiten P1 und p2 . Dann ist die Logoddsratio definiert als ! p1 p1 p2 (1−p1 ) R = ln = ln − ln . = logitp1 − logitp2 . p2 (1 − p ) (1 − p2 ) 2 (1−p2 )
90
KAPITEL 2. KONDITIONALE MODELLE
Kapitel 3 Dynamische Modelle und der Kalman-Filter Konditionale und dynamische Modelle sind entgegengesetzte Ans¨atze um Abh¨angigkeiten der Beobachtungen einer Zeitreihe y1 , . . . , yT oder von Longitudinaldaten yi1 , . . . , yiT zu modellieren. Bei konditionalen Modellen modelliert man den Erwartungswert von Yt gegeben die Vergangenheit direkt als Funktion von Yt−1 , . . . , Y1 . Ohne Kovariablen l¨aßt sich ein konditionales Modell 1. Ordnung graphisch wie folgt darstellen: Yt−2 −→ Yt−1 −→ Yt −→ Yt+1 . Im Gegensatz dazu wird bei dynamischen Modellen angenommen, daß die Yt bedingt unabh¨angig sind, gegeben latente, unbeobachtete Zust¨ande xt . Diese entwickeln sich nach eigener Dynamik: Xt−2 −→ Xt−1 −→ Xt −→ Xt+1 ↓ ↓ ↓ ↓ Yt−2 −→ Yt−1 −→ Yt −→ Yt+1 Hier liegt also ein einfaches hierarchisches Modell vor, mit der Hierarchieebene I der beobachteten Yt und der Ebene II der latenten Xt . Diese werden als die wirklichen Zust¨ande eines Systems aufgefaßt, deren Beobachtungen Yt verf¨alscht sind. Deshalb heißen dynamische Modelle auch Zustandsraummodelle (State-Space Models), oder auch Hidden-Markov-Modelle. Generell haben dynamische Modelle folgende Eigenschaften: 1. Sie sind schwieriger zu sch¨atzen als konditionale Modelle, deren Likelihood sich faktorisieren l¨aßt. 91
92
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER 2. Sie sind als Modellklasse flexibler. - Sie erm¨oglichen die Modellierung langer zeitlicher Abh¨angigkeiten. ¨ - Sie k¨onnen oft durch substanzwissenschaftliche Uberlegungen motiviert werden.
¨ Uberdies gibt es eine Verbindung zu nonparametrischen Gl¨attungsverfahren; sie sind ‘nonparametrisch’, weil die Anzahl der unbekannten Modellparameter x1 , . . . , xT mit T w¨achst. Bei konditionalen Modellen ist sie hingegen fest. Historisch hat sich folgende Einteilung herausgebildet: xt normal normal diskret
3.1
yt normal diskret stetig/diskret
Bezeichnung Zustandsraummodell dynamisches Modell Hidden-Markov-Modell
Zustandsraummodelle
Wir betrachten zun¨achst den ’klassischen’ Fall. Gegeben sei eine Zeitreihe y1 , . . . , yT (von Vektoren). Die Zust¨ande oder unbeobachteten Parameter x1 , . . . , xT seien ebenfalls Vektoren. Letztere entwickeln sich nach einer Dynamik, die durch die Systemgleichung xt = At−1 xt−1 + wt , wt ∼ N (0, Wt ), x0 ∼ N (µ0 , S) gegeben ist, wobei At eine quadratische Matrix ist. Es liegt also eine durch Rauschen gest¨orte lineare Dynamik vor. Die Beobachtungen folgen linearen Modellen yt = Ct xt + vt , vt ∼ N (0, Vt ). Alle Gr¨oßen At , Wt , Ct , Vt und S werden (zun¨achst) als bekannt vorausgesetzt; vt und wt , t = 1, . . . , T sind alle voneinander unabh¨angig. Bemerkung 3.1.1 Oft sind At usw. nicht zeitabh¨angig, ebenso wie die Kovarianzmatrizen (Dispersion) Vt und Wt . In Anwendungen sind µ0 , S und Wt h¨aufig unbekannt und m¨ ussen mitgesch¨atzt werden. Dies ist nicht einfach.
3.1. ZUSTANDSRAUMMODELLE
3.1.1
93
Einfache Trendmodelle
Wir geben einige einfache Beispiele an. Beispiel 3.1.2 Die einfachste Form, einen zeitlichen Trend zu modellieren ist das Steady State Modell xt = xt−1 + wt yt = xt + vt , t = 1, . . . , T. Die Systemgleichung beschreibt also eine Irrfahrt erster Ordnung, d.h. die ersten Differenzen sind unabh¨angig. Beispiel 3.1.3 Eine Verallgemeinerung ist das lokal-lineare Trendmodell 2 τt τt−1 1 1 στ 0 xt = = + vt , V = . 0 1 0 σλ2 λt λt−1 | {z } A
yt = (1, 0)xt + wt .
Wir schreiben das aus: τt = τt−1 + λt−1 + vt1 , λt = λt−1 + vt2 . Die zweite Komponente repr¨asentiert einen latenten Steigungsparameter, der einer Irrfahrt folgt. F¨ ur die Beobachtung gilt yt = τt + wt Mit (λt ) ≡ 0 ergibt sich das Steady-State Modell. Beispiel 3.1.4 Ferner lassen sich Markovketten h¨oherer Ordnung unter das Modell subsummieren. Wir betrachten als Beispiel die Irrfahrt 2. Ordnung τt = 2τt−1 − τt−2 + v˜t . Wir k¨onnen sie schreiben als τt τt−1 v˜t 2 −1 = + 1 0 τ 0 τt−1 t−2 τt yt = (1, 0) . τt−1 Man nennt das auch ’Markovisierung’.
94
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Bemerkung 3.1.5 Die Modellierung kommt aus den Ingenieurwissenschaften. Dort betrachtet man die allgemeineren Gleichungen αt+1 = At αt + Bt ut + wt+1 , γt = Ct αt + Dt ut + vt ; wobei γ beobachtet wird und α der innere Zustand des Systems ist. Dieser entwickelt sich gem¨aß einer linearen Dynamik, wobei ut ein bekannter deterministischer Input ist (bzw. eine Kontrollgr¨oße). Solche Systeme k¨onnen in ein rein deterministisches und ein rein stochastisches lineares System zerlegt werden: zt+1 = At zt + Bt ut , xt+1 = At xt + wt+1 . st = Ct zt + Dt ut , yt = Ct xt + vt mit γt = st + yt , αt = zt + xt . Die L¨osung f¨ ur zt ist wohlbekannt in der Theorie linearer Systeme und optimaler Kontrolle. Somit kann man sich auf die optimale Sch¨atzung von xt im stochastischen System beschr¨anken.
3.1.2
Statistische Inferenz im Zustandsraummodell
Im Modell haben wir es mit der Verteilung der xt zu tun, implizit gegeben durch die Systemgleichung und von yt |xt , in der Beobachtungsgleichung. Es liegt also ein Bayessches Sch¨atzproblem f¨ ur xt |y1 , . . . , yt vor. Die optimale L¨osung ist xt|t = E(xt |y1 , . . . , yt ), m¨oglicherweise noch mit Kovariablen. Da alle Gr¨oßen gaußisch sind, ist auch die a posteriori Verteilung gaußisch und es ist der negative Exponent zu minimieren. Die zugeh¨orige Pr¨azisionsmatrix ist nicht von vornherein bekannt und muß zus¨atzlich berechnet werden. Dies ist schon wegen der Dimension der Probleme schwierig. Zudem m¨ochte man Echtzeitsch¨atzungen haben, muß also einen sehr schnellen Algorithmus haben. Die L¨osung wird durch den Kalmanfilter gegeben, den wir im Anschluß herleiten werden. Beispiel 3.1.6 F¨ ur das einfache Steady-State Modell k¨onnen wir die Gr¨oßen noch berechnen. Es war xt = xt−1 + wt (∈ R)
¨ 3.2. OPTIMALITATSKRITERIEN UND BAYESSCHE INFERENZ
95
yt = xt + vt (∈ R) F¨ ur die a posteriori Verteilung bei festem y gilt: f (x|y) ∝ f (x) · f (y|x) =
T Y t=2
f (xt |xt−1 ) ·
T Y
f (yt |xt )
t=1
! ! T T X 1 1 1 1 X (xt − xt−1 )2 · exp − · (yt − xt )2 = exp − · 2 W t=2 2 V t=1 1 1 0 1 0 = exp − x Kx + (y − x) (y − x) 2 W V mit (Probe!)
1 −1 −1 2 −1 0 −1 2 −1 K= ... ... ... 0 −1 2 −1 −1 1
Wir wissen, daß dies eine gaußische Dichte ist, d.h. der Exponent l¨aßt sich als vollst¨andiges Quadrat (x − c(y))0 D−1 (x − c(y)) schreiben (wie das genau geht, behandeln wir sp¨ater). Jedenfalls liegt ein Optimierungsproblem in T Dimensionen inklusive Inversion von T ×T -Matrizen vor. Inversion ist instabil und der Aufwand steigt mit T 3 . Der nun zu entwickelnde Kalman-Filter arbeitet mit o(T ). Nur die letzte Beobachtung wird in diesem rekursiven Verfahren jeweils verarbeitet.
3.2
Optimalit¨ atskriterien und Bayessche Inferenz
Bei dynamischen Modellen haben wir ein zuf¨alliges Design xt+1 = At xt + wt+1 yt = Ct xt + vt ,
96
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
d.h. in das lineare Regressionsmodell gehen die zuf¨alligen Gr¨oßen xt ein, deren Verteilung durch die Systemgleichung bestimmt ist. Wir machen keine Voraussetzung u ¨ber die Verteilung. Gesch¨atzt werden sollen die xt aus Beobachtungen der yt . Um Sch¨atzer zu bestimmen, gibt es verschiedene Kriterien, darunter die Methode der kleinsten Quadrate und diverse Bayessch¨atzer. Wir wollen deren Zusammenhang durchleuchten und so besser verstehen, was hinter den sp¨ater eingef¨ uhrten Algorithmen steckt. Die Argumentation folgt [4].
3.2.1
Kleinste-Quadrate Sch¨ atzer
Bezeichne x(y) eine Funktion von y und x∗ (y) stehe f¨ ur die Sch¨atzer. Ein kleinstes Quadrate-Kriterium ist: x∗ (y) minimiere Ex,y (||x − x(y)||2 ) = Ex,y ((x − x(y))0 (x − x(y)), wobei der Erwartungswert bez¨ uglich der gemeinsamen Verteilung von x und y gebildet wird. Eine Minimalstelle x∗ (·) heißt kleinster Quadrate-Sch¨atzer (M M S-Sch¨atzer). Nat¨ urlich wird dies impliziert, falls Ex (||x − x∗ (y)||2 |y) = min E(||x − z||2 |y) f¨ ur jedes y. z
Proposition 3.2.1 Der M M S-Sch¨atzer ist der bedingte Erwartungswert x∗ (y) = E(x|y). Beweis. Sei z gegeben. Dann ist Ex (||x − z||2 |y) = E(||x||2 |y) − 2z 0 E(x|y) + ||z||2 ,
(3.1)
Die Funktion z −→ ||z||2 − 2z 0 a =: f (z) ist quadratisch mit Minimum in ∂f (z) = 2zi − 2ai = 0 ∂zi d.h. die L¨osung von (3.1) ist z ∗ = E(x|y).
¨ 3.2. OPTIMALITATSKRITERIEN UND BAYESSCHE INFERENZ
3.2.2
97
Lineare Kleinste-Quadrate Sch¨ atzer
Die Funktion y −→ E(x|y) kann sehr kompliziert sein. Wir schr¨anken deshalb die Klasse der Sch¨atzer auf die einfachsten ein, n¨amlich lineare Sch¨atzer der Form x(y) = Ay + b, ˆ ˆb, welche d.h. wir suchen A, h : (A, b) −→ Ex,y (||x − (Ay + b)||2 ) minimieren (¨ uber alle dimensionsvertr¨aglichen Matrizen A und Vektoren b). Beispiel 3.2.2 (Der gaußsche Fall) Eine durchsichtige Diskussion ist im gaußischen Fall m¨oglich. Sei x z= y ein Gaußischer Vektor mit E(z) =
und Kovarianzmatrix Σ=
E(x) µx = =µ E(y) µy
Σxx Σxy Σyx Σyy
.
(3.2)
F¨ ur die Dichte gilt
1 0 −1 f (z) ∝ exp − (z − µ) Σ (z − µ) . 2 Die Verteilung von y hat Dichte 1 0 −1 f (y) ∝ exp − (y − µy ) Σyy (y − µy ) , 2 so daß gilt
o 1n 0 −1 0 −1 f (x|y) ∝ exp − (z − µ) Σ (z − µ) − (y − µy ) Σyy (y − µy ) . (3.3) 2 Wir wissen, daß dies eine gaußische Dichte ist. Diese k¨onnen wir mit einer quadratischen Form im Exponenten schreiben mit einem linearen Sch¨atzer
98
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
als Erwartungswert und D als Kovarianzmatrix der (gaußischen) a posteriori Verteilung, d.h. · · · = (x − (Ay + b))0 D−1 (x − (Ay + b)),
(3.4)
Wir brauchen ein Lemma aus der linearen Algebra. Lemma 3.2.3 Sei M=
A B C D
.
Dann gilt M mit
−1
=
−QBD−1 −D−1 CQ D−1 + D−1 CQBD−1 Q
.
(3.5)
Q = (A − BD−1 C)−1 , falls D und A − BD−1 C invertierbar sind.
Beweis. Verifiziere M M −1 = I durch Nachrechnen.
Damit kann man die Gr¨oßen in (3.4) bestimmen. Proposition 3.2.4 . F¨ ur die a posteriori Verteilung von x|y gilt (3.4) mit −1 −1 A = Σxy Σ−1 yy , b = µx − Σxy Σyy µy , D = Σxx − Σxy Σyy Σyx .
(3.6)
Beweis. Man setzt die Gr¨oßen in (3.4) ein und formt (3.3) und (3.4) um, wobei man f¨ ur Σ−1 die Formel (3.5) benutzt. Damit haben wir gezeigt: Theorem 3.2.5 Im gaußschen Fall gilt f¨ ur den a posteriori Erwartungwert E(x|y) = µx + Σxy Σ−1 yy (y − µy ).
(3.7)
Insbesondere ist dies der a posteriori Erwartungswert, Modus, Median und Maximumlikelihoodsch¨atzer. Beweis. Dies ist Ay + b mit A, b aus (3.6).
Wir folgern Korollar 3.2.6 Sind x und y gemeinsam gaußisch, so ist der M M S-Sch¨atzer E(x|y) sogar ein linearer M M S-Sch¨atzer.
¨ 3.2. OPTIMALITATSKRITERIEN UND BAYESSCHE INFERENZ
99
Beweis. Wir haben den M M S-Sch¨atzer als E(x|y) entlarvt und dies im gaußischen Fall explizit berechnet. Wir charakterisieren nun im allgemeinen Fall den linearen M M S-Sch¨atzer. Wir benutzen die eingef¨ uhrten Bezeichnungen sinngem¨aß. Proposition 3.2.7 Seien x und y nicht notwendig gaußische Zufallsvariablen. Die n¨otigen ersten und zweiten Momente (der gemeinsamen Verteilung) P m¨ogen existieren; die Kovarianzmatrix yy sei invertierbar. Dann ist der lineare M M S-Sch¨atzer durch xˆ(y) = µx + Σxy Σ−1 yy (y − µy )
(3.8)
gegeben. Die Fehlerkovarianzmatrix ist 0 Ex,y (x − xˆ(y)) (x − xˆ(y)) = Σxx − Σxy Σ−1 yy Σyx . Bevor wir dies beweisen, stellen wir fest: Im gaußischen Fall ist der M M SSch¨atzer der a posteriori Sch¨atzer f¨ ur alle wichtigen Skalenparameter von x und die Fehlerkovarianzmatrix ist gerade die Kovarianzmatrix der a posteriori Verteilung von x|y. Beweis. Der lineare M M S-Sch¨atzer ist gegeben durch ˆ + ˆb, xˆ(y) = Ay wobei Aˆ und ˆb die Funktion h : (A, b) −→ Ex,y (||x − Ay − b||2 ) u ¨ber A und b minimieren. Wie u ¨blich setzen wir die Ableitung nach A und b gleich 0, d.h. ∂h ˆ ˆ ˆ − x)0 ) (A, b) = 2Ex,y (y(ˆb + Ay ∂A ∂h ˆ ˆ ˆ − x). 0 = (A, b) = 2Ex,y (ˆb + Ay ∂b 0 =
Die zweite Gleichung liefert zusammen mit Einsetzen in die erste ˆb = µx − Aµ ˆ y ˆ − µy ) − (x − µx ))0 ) = 0. Exy (y(A(y
100
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Trivialerweise gilt: ˆ − µy ) − (x − µx ))0 ) = −µy Exy ((A(y ˆ − µy ) − (x − µx ))0 ) = 0. Exy (−µy (A(y Wir addieren die letzten beiden Gleichungen und erhalten ˆ − µy ) − (x − µx ))0 ) = 0, Exy ((y − µy )(A(y was sich schreiben l¨aßt als Σyy Aˆ0 − Σyx = 0, woraus folgt −1 Aˆ = Σ0yx Σ−1 yy = Σxy Σyy .
Damit erhalten wir die behauptete Form des Sch¨atzers, n¨amlich ˆ + ˆb = µx + Σxy Σ−1 xˆ(y) = Ay yy (y − µy ). Die Fehlerkovarianzmatrix bekommt man durch Einsetzen und Ausrechnen. Der M M S-Sch¨atzer ist erwartungstreu: Korollar 3.2.8 Es gilt µx = Ex (x) = Ey (ˆ x(y)). Beweis. Man bilde in (3.8) den Erwartungswert bez¨ uglich y.
Korollar 3.2.9 Der Sch¨atzfehler x − xˆ(y) ist unkorreliert mit y und xˆ(y): Exy (y(x − xˆ(y))0 ) = 0, Exy (ˆ x(y)(x − xˆ(y))0 ) = 0. Beweis. Man setze xˆ = µx + Σxy Σ−1 yy (y − µy ) ein, bilde die Erwartungswerte und beachte Korollar 3.2.8. Dies ist das orthogonale Projektionsprinzip.
¨ 3.2. OPTIMALITATSKRITERIEN UND BAYESSCHE INFERENZ
101
Bemerkung 3.2.10 Unkorreliertheit von y und x − xˆ(y) bedeutet Exy ((y − µy )(x − xˆ(y) − Exy (x − xˆ(y)))0 ) = 0. Nun verschwindet der innere Erwartungswert wegen der Erwartungstreue und aus demselben Grund ist Exy (µy (x − xˆ(y))0 ) = µy E((x − xˆ(y))0 ) = 0. Deshalb ist Unkorreliertheit a¨quivalent zur Gleichung im Lemma. F¨ ur die zweite Gleichung rechnet man genau so. Bemerkung 3.2.11 Die erste Beziehung bedeutet1 y ⊥ x − xˆ(y) ∈ L2 . Dies bedeutet nach Definition, daß xˆ(·) die orthogonale Projektion von x auf den von den Zufallsvariablen 1, y1 , . . . , ys aufgespannten linearen Teilraum H von L2 ist. Nach dem Orthogonalit¨atsprinzip ist das ¨aquivalent mit ||x − xˆ(·)||2 = min ||x − z||2 . z∈H
Nun l¨aßt sich jedes z ∈ H als Linearkombination von 1, y1 , . . . , ys schreiben. Wir wenden das einzeln auf jede Komponente von xˆ(·) an und erhalten die Form ˆ + b. xˆ(y) = A(y) Der beste lineare M M S-Sch¨atzer von x ist also die orthogonale Projektion von x auf den von 1, y1 , . . . , ys erzeugten Teilraum von L2 . Wir wollen nun nicht x selbst, sondern eine lineare Funktion von x sch¨atzen: Korollar 3.2.12 Sei C eine geeignet dimensionierte Matrix und z = Cx. Der lineare M M S-Sch¨atzer zˆ(y) f¨ ur z ist zˆ = C xˆ(y) mit Fehlerkovarianz Ezy ((z − zˆ(y))(z − zˆ(y))0 ) = CExy ((x − xˆ(y))(x − xˆ(y))0 )C 0 . 1
L2 ist der lineare Raum der quadratintegrierbaren Funktionen, d.h. R derjenigen meßbaren Funktionen f auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit f 2 (ω) dP(ω) < ∞.
102
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Beweis. Dies ist eine einfache Rechnung. Nat¨ urlich gelten: Ez (z) Σzz Σzy Σyz
= = = =
Cµx CΣxx C 0 , Exy ((z − µz )(y − µy )0 ) = CΣxy Σ0zy = Σyx C 0 .
Nach Proposition 3.2.7 ist zˆ(y) = µz + Σzy Σ−1 yy (y − µy ) = Cµx + CΣxy Σ−1 ˆ(y). yy (y − µy ) = C x
Genauso gilt Exy ((z − zˆ(y))(z − zˆ(y))0 ) = Σzz − Σzy Σ−1 yy Σyz 0 = C(Σxx − Σxy Σ−1 yy Σyx )C = CE((x − xˆ(y))(x − xˆ(y))0 )C 0 .
Korollar 3.2.13 Sei die Zufallsvariable z unkorreliert zu y. Dann ist die lineare M M S-Sch¨atzung xˆ(y, z) (gegeben (y, z)) von der Gestalt xˆ(y, z) = xˆ(y) + xˆ(z) − µx , wobei xˆ(y) und xˆ(z) die linearen M M S-Sch¨atzer von x gegeben y bzw. z sind. Die Fehlerkovarianzmatix ist −1 V(x − xˆ(y, z)) = Σxx − Σxy Σ−1 yy Σyx − Σxz Σzz Σzx
Beweis. Seien
y w= , z
µw =
µy . µz
Nach Proposition 3.2.7 gilt xˆ(w) = µx + Σxw Σ−1 ww (w − µw ).
¨ 3.2. OPTIMALITATSKRITERIEN UND BAYESSCHE INFERENZ Nun ist
103
Σxw = Σxy , Σxz
und weil y und z unkorreliert sind, ergibt sich Σyy Σyz Σyy 0 . Σww = = 0 Σzz Σzy Σzz Wir setzen ein und erhalten −1 xˆ(y, z) = µx + Σxy Σ−1 yy (y − µy ) + Σxz Σzz (z − µz ) = xˆ(y) + xˆ(z) − µx .
Analog berechnet man die Fehlerkovarianzmatrix.
Korollar 3.2.14 Es seien nun im vorigen Korollar 3.2.13 y und z nicht notwendig unkorreliert. Dann gelten die Formeln xˆ(y, z) = xˆ(y) + xˆ(z − zˆ(y)) − µx und Exyz ((x − xˆ(y, z))(x − xˆ(y, z))0 ) = Exy ((x − xˆ(y))(x − xˆ(y))0 ) − Exyz ((x − µx )(z − zˆ(y))0 ) · (Eyz ((z − zˆ(y))(z − zˆ(y))0 ))−1 Exyz ((z − zˆ(y))(x − µx )0 ). Beweis. Nach Korollar 3.2.9 sind y und (z − zˆ(y) unkorreliert. Aus Lemma 3.2.13 bekommt man deshalb xˆ(y, z − zˆ(y)) zusammen mit der Fehlerkovarianz. Schließlich u ¨berzeugt man sich von xˆ(y, z) = xˆ(y, z − zˆ(y)). Dies sieht man am einfachsten so: Es ist xˆ(y, z) die orthogonale Projektion von x auf H = span{1, y, z}. Ferner ist zˆ(y) die orthogonale Projektion von z auf span{1, y}, also z = zˆ(y) + (z − zˆ(y)). Offensichtlich erzeugen aber 1, y und z − zˆ(y) denselben Raum wie 1, y und z.
104
3.3
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Kalmanfilter und -gl¨ atter
Wir wenden uns wieder dem urspr¨ unglichen Ziel zu, die aktuellen Systemzust¨ande aus den vergangenen Systemzust¨anden und Beobachtungen, sowie der aktuellen Beobachtung optimal zu sch¨atzen. Wieder lehnen wir uns an D.P. Bertsekas (1976), [4] an. Eine ausf¨ uhrliche - wenn auch sehr technische - Diskussion enth¨alt C.K. Chui und G. Chen (1987), [6].
3.3.1
Der Kalmanfilter
Es seien xt+1 = At xt + wt ,
t = 0, 1, . . . , T − 1,
die Systemgleichung, xt ∈ Rn der nicht beobachtbare Systemzustand, wt ∈ Rn ein Systemrauschen, At deterministisch und bekannt, und zt = Ct xt + vt ,
t = 0, 1, . . . , T,
die Beobachtungsgleichung mit den Beobachtungen zt ∈ Rs und der St¨orung v t ∈ Rs . Annahmen 3.3.1 Die Zufallsgr¨oßen x0 , w0 , w1 , . . . , wT −1 , v0 , . . . , vT seien unabh¨angig mit vorgegebenen Verteilungen und zentriert. Wir verwenden die Bezeichnungen S = E(x0 x00 ), Mt = E(wt wt0 ), Nt = E(vt vt0 ) und setzen voraus, daß alle Nt positiv definit sind. Ferner schreiben wir Zt = (z0 , . . . , zt ). F¨ ur die Sch¨atzer und deren Fehlerkovarianzmatrizen schreiben wir xˆt|t−1 = xˆt (Zt−1 ), Σt|t−1 = V(xt − xˆt (Zt−1 )) xˆt|t = xˆt (Zt ), Σt|t = V(xt − xˆt (Zt )).
(3.9) (3.10)
¨ 3.3. KALMANFILTER UND -GLATTER
105
Die Sch¨atzer sollen rekursiv berechnet werden; deshalb nehmen wir an, daß die Gr¨oßen (3.9) schon berechnet sind. Wir wollen die Gr¨oßen in (3.10) berechnen, wobei nur die Informationen (3.9) und zt benutzt werden sollen; f¨ ur den n¨achsten Schritt m¨ ussen wir dann noch die Gr¨oßen (3.9) mit inkrementierter Zeit berechnen. Nach Korollar 3.2.14 gilt xˆt (Zt ) = xˆt (Zt−1 ) + xˆt (zt − zˆt (Zt−1 )) − E(xt ). Wegen der Anfangsbedingung E(x0 ) = 0 und der Systemgleichung ist E(xt ) = 0. Als n¨achstes berechnen wir xˆt (zt − zˆt (Zt−1 )) = µxt + Σxt ,zt −ˆzt (Zt−1 ) Σ−1 ˆt (Zt−1 )). zt −ˆ zt (Zt−1 ),zt −ˆ zt (Zt−1 ) (zt − z (3.11) Wegen der Linearit¨at der Sch¨atzer ist zˆt (Zt−1 ) = (Cˆt xt )(Zt−1 ) + vˆt (Zt−1 ) = Ct xˆt (Zt−1 ), denn vˆt (Zt−1 ) = 0, weil es die orthogonale Projektion von vt auf span{Zt−1 } ist, worauf vt wegen der Unkorreliertheit senkrecht steht. Der Rest folgt aus Korollar 3.2.12. Ebenfalls aus der Unkorreliertheit folgt V(zt − zˆt (Zt−1 )) = V(Ct (xt − xˆt (Zt−1 )) + vt ) = Ct Σt|t−1 Ct0 + Nt . ¨ Ahnlich berechnen wir V(xt , zt − zˆt (Zt−1 )) = E(xt · (zt − zˆt (Zt−1 ))0 ) = E(xt (xt − xˆt (Zt−1 ))0 Ct0 ) + E(xt vt ) = E((xt − xˆt (Zt−1 ))(xt − xˆt (Zt−1 ))0 )Ct0 + E(ˆ xt (Zt−1 )(xt − xˆt (Zt−1 ))0 Ct0 ). Weil der Sch¨atzer unkorreliert zum Sch¨atzfehler ist, verschwindet der letzte Term. Damit haben wir gezeigt: V(xt , zt − zˆt (Zt−1 )) = Σt|t−1 Ct0 . Wir setzen die Ergebnisse in (3.11) ein und erhalten xˆt (zt − zˆt (Zt−1 )) = Σt|t−1 Ct0 Ct Σt|t−1 Ct0 + Nt
−1
(zt − Ct xˆt (Zt−1 )).
106
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Zusammenfassend ergibt sich xˆt|t = xˆt|t−1 + Σt|t−1 Ct0 Ct Σt|t−1 Ct0 + Nt
−1
(zt − C xˆt (Zt−1 ));
weiter folgt aus der Systemgleichung xˆt+1|t = At xˆt|t . ¨ Ahnlich berechnet man Σt+1|t = At Σt|t A0t + Mt . ¨ Ahnlich wie xt|t berechnet man Σt|t = Σt|t−1 − Σt|t−1 Ct0 Ct Σt|t−1 Ct0 + Nt
−1
Ct Σt|t−1 .
Zusammen mit dem Anfangsschritt xˆ0 = 0, Σ0|−1 = S ergibt das den Kalmanfilter. Wir k¨onnen den Algorithmus so aufschreiben: Sei Kt = Σt|t−1 Ct0 (Ct Σt|t−1 Ct0 + Nt )−1 der Kalman Gain. Dann berechnen wir: x0|0 = x0 , Σ0|0 = S F¨ ur k = 1, . . . , N : xt|t−1 = At−1 xt−1|t−1 Σt|t−1 = At−1 Σt−1|t−1 A0t−1 + Mt−1 xt|t = xt|t−1 + Kt (zt − Ct xt|t−1 ) Σt|t = Σt|t−1 − Kt Ct Σt|t−1 .
(3.12) (3.13) (3.14) (3.15) (3.16)
In der ersten Zeile wird der Algorithmus initialisiert. In der zweiten wird aus der vorherigen Sch¨atzung eine Vorhersage des jetzigen Zustandes gemacht, indem die Systemgleichung angewendet wird. Letztlich wird die aktuelle Beobachtung zt benutzt, um diese Vorhersage durch den Einschrittvorhersagefehler optimal gewichtet durch den Kalman Gain zu korrigieren. Nun hat man die neue Zustandssch¨atzung.
3.4. ANHANG
3.3.2
107
Pr¨ adiktion und Gl¨ attung
Allgemeiner interessiert man sich f¨ ur die optimale Sch¨atzung von xt , gegeben gewisse der Beobachtungen z1 , . . . , zT . Dies nennt man • Filtern f¨ ur t = T • Pr¨adiktion f¨ ur t > T • Gl¨attung f¨ ur t < T Das Filtern wurde besprochen, ebenso wie die Pr¨adiktion (im Spezialfall t = T + 1). Bei der Gl¨attung berechnet man xt|T = xˆt (ZT ) f¨ ur t ≤ T . Der Gl¨attungsalgorithmus hat die Gestalt: xt−1|T = xt−1|t−1 + Bt (xt|T − xt|t−1 ) Σt−1|T = Σt−1|t−1 + Bt (Σt|T − Σt|t−1 )Bt0 Bt = Σt−1|t−1 A0t−1 Σ−1 t|t−1 . In jedem Schritt erh¨alt man die Gl¨attungssch¨atzung aus der Filtersch¨atzung durch Addition der gewichteten Differenz zwischen der letzten Gl¨attungssch¨atzung und der Pr¨adiktion. F¨ ur Details verweisen wir auf die Literatur, z.B. [10].
3.4
Anhang
Als Referenz fassen wir die ben¨otigten Fakten u ¨ber orthogonale Projektionen und bedingte Erwartungen zusammen.
3.4.1
Das Orthogonalit¨ atsprinzip
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P). Es sei Z 2 2 L (P) = X : X dP < ∞ der Raum der Zufallsvariablen mit existierendem zweiten Moment, wobei X und Y in L2 (P) identifiziert werden, falls P{X 6= Y } = 0. Mit den u ¨blichen 2 Operationen ist L (P) ein reeller linearer Raum. Durch Z hX, Y i = XY dP, kXk2 = hX, Xi, sind ein Skalarprodukt und eine Norm definiert. Damit ist L2 (P) vollst¨andig.
108
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Bemerkung 3.4.1 (a) Jedes X mit zweitem Moment hat auch ein erstes Moment, denn f¨ ur geeignetes c ist |X| ≤ X 2 + c. (b) Es gibt V(X, Y ) = hX −E(X), Y −E(Y )i; f¨ ur zentrierte Zufallsvariablen ist also das Skalarprodukt gerade die Kovarianz. Das macht die Bedeutung des L2 (P) in der Theorie insbesondere station¨arer Prozesse und bei Zeitreihen aus. Man sagt, X sei orthogonal zu Y , wenn X ⊥ Y :⇐⇒ hX, Y i = 0 und Teilmengen M und N sind orthogonal wenn X ⊥ Y f¨ ur alle X ∈ M, Y ∈ N . Sei nun H ein abgeschlossener linearer Teilraum von L2 (P). Dann gibt es zu jedem X ∈ L2 (P) eine eindeutige Zerlegung X = p + (X − p), p ∈ H, X − p ⊥ H und p = PH X heißt orthogonale Projektion von X auf H. Die Abbildung X 7→ PH X ist eine stetige lineare Abbildung, der Projektionsoperator. Bemerkung 3.4.2 Es ist p = PH X genau dann, wenn hX, Y i = hp, Y i f¨ ur jedes Y ∈ H.
(3.17)
F¨ ur uns entscheidend ist Theorem 3.4.3 (Das Orthogonalit¨ atsprinzip) Seien H ein abgeschlos2 sener linearer Teilraum von L (P) und X ∈ L2 (P). Dann gilt p = PH X ⇐⇒ kX − pk2 = min kX − Y k2 . Y ∈H
Beweis. Seien p = PH X und Y = p + Z ∈ H. Dann gilt kX−Y k2 = k(X−p)−Zk2 = kX−pk2 −2 hX − p, Zi +kZk2 = kX−pk2 +kZk2 . | {z } =0
Dies ist minimal genau dann, wenn Z = 0, d.h. Y = p.
3.4. ANHANG
3.4.2
109
Beste M M S-Sch¨ atzer und bedingte Erwartung
Sei F eine Unter-σ-Algebra von A. Es sei ferner H = {Y ∈ L2 (P) : Y F − meßbar}. Sei ferner X ∈ L2 (P). Dann heißt E(X|F) = PH X die bedingte Erwartung von X geben F. Wegen (3.17) sind ¨aquivalent: ⇐⇒ ⇐⇒ ⇐⇒
E(X|F) bedingte Erwartung hY, Xi = hY, E(X|F)i f¨ ur alle Y ∈ H Z Z Y X dP = Y E(X|F) dP f¨ ur alle Y ∈ H Z Z X dP = E(X|F) dP f¨ ur alle F ∈ F. F
F
¨ Eine Richtung der letzten Aquivalenz ist trivial, die andere folgt aus Monotonies¨atzen. Bemerkung 3.4.4 In der Wahrscheinlichkeitstheorie definiert man die bedingte Erwartung u ¨blicherweise auf dem Raum aller Zufallsvariablen mit existierendem ersten Moment durch die letzte Gleichung. Aus unserer Definition erh¨alt man das ebenso, da man jede Zufallsvariable mit erstem Moment durch solche mit zweitem Moment approximieren kann. Sei nun Y eine Familie von Zufallsvariablen mit zweitem Moment. Dann definiert man die bedingte Erwartung durch E(X|Y) := E(X|F), wobei F die von Y erzeugte σ-Algebra ist. Sie hat die Darstellung F = σ{{Y ≤ a} : a ∈ R, Y ∈ Y}. F enth¨alt also die Ereignisse, f¨ ur die man aufgrund der Beobachtung von Y entscheiden kann, ob sie eingetreten sind oder nicht. Die bedingte Erwartung ist meßbar bez¨ uglich dieses F, beinhaltet also nicht mehr Information als die
110
KAPITEL 3. DYNAMISCHE MODELLE, KALMAN-FILTER
Beobachtung. Es kann als eine Version von X gedeutet werden, die sich bei Mittelung von X (also Vergr¨oberung) u ¨ber Ereignisse aus F genauso verh¨alt wie X selbst. Man sieht leicht H = {ϕ(Ya ) : Ya ⊂ Y abz¨ahlbar, ϕ : RN −→ N mit ϕ(Ya ) ∈ L2 (P)}. Nach Definition ist E(X|Y) ∈ H. Somit kann die bedingte Erwartung allerdings eine sehr komplizierte Funktion der Beobachtungen sein. In Proposition 3.2.1 wurde gezeigt, daß die bedingten Verteilung der optimale M M S–Sch¨atzer ist. Jetzt haben wir ihn in anschaulicher Weise als Projektion auf den Raum der Zufallsvariablen mit zweitem Moment entlarvt, die sich als Funktion der Beobachtungen schreiben lassen. Der beste lineare M M S-Sch¨atzer ist eine lineare Funktion von Y1 , . . . , Yn und der konstanten Funktion 1, hat also die Gestalt2 ˆ ) = a0 Y + b. X(Y ˆ ) ∈ span{1, Y1 , . . . Yn } mit minimalem Abstand zu X. Also suchen wir X(Y Dieses ist aber nach dem Orthogonalit¨atsprinzip die orthogonale Projektion von X auf span{Y1 , . . . Yn }.
2
um Irritationen vorzubeugen, bemerken wir, daß wir uns gegenw¨artig in der univariaten Situation befinden. F¨ ur die Vektoren im Text gilt das hier Gesagte komponentenweise.
Kapitel 4 Verweildauer- und Ereignisanalyse Verweildauer- (Survival-) und Ereignisanalyse bilden einen Grundpfeiler der Statistik. Sie finden Anwendung in Versicherungsmathematik, Demographie, Epidemiologie, Medizin, Zuverl¨assigkeitsanalyse, Mikrosoziologie und vielen anderen Gebieten. In dieser Theorie werden individuelle Lebensabl¨aufe als Pfade eines stochastischen Prozesses aufgefaßt, der sich zwischen Zust¨anden eines diskreten Raumes bewegt. Die Zust¨ande dieses Prozesses repr¨asentieren verschiedene Zust¨ande der Individuen, einer Unfallversicherung, einer tech¨ nischen Komponente usw., w¨ahrend die Uberg¨ ange zwischen den Zust¨anden Ereignisse von Interesse repr¨asentieren, wie Tod des Versicherungsnehmers, Defekt einer technischen Komponente usw. Die H¨aufigkeit, mit der solche interessierenden Ereignisse auftreten, werden durch Raten oder Intensit¨aten repr¨asentiert. Somit enthalten statistische Modelle der Ereignisanalyse typischerweise Beschreibungen, wie diese Intensit¨aten von der Zeit oder von individuellen Eigenschaften und ¨außeren beobachteten Ereignissen abh¨angen. In der einfachsten Situation werden nur zwei Zust¨ande - tot und lebendig, funktioniert und funktioniert nicht, usw. - modelliert. Die Theorie dazu wird oft Sterbetafelanalyse (im Englischen life-table analysis) genannt. In diesem Fall ist die Intensit¨at des Ereignisses ‘Tod’ einfach die Hazardrate ¨ der Uberlebenszeitfunktion. Die kumulierte Hazardrate zu einer gewissen Zeit ist das bis dahin aufgesammelt Risiko - eine theoretische Gr¨oße. Empirisch spiegelt sich dies in der Zahl der bisher beobachteten Ereignisse wider, die durch einen Z¨ahlprozeß beschrieben wird. Inferenz u ¨ber die theoretische Gr¨oße ‘kumuliertes 111
112
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Risiko’ fordert also ein Modell, welches die empirischen Z¨ahldaten als Summe des kumulierten Risikos und eines St¨orterms darstellt. Solche Zerlegungen sind Gegenstand der Doob-Meyer Zerlegung aus der stochastischen Analysis. Vor allem deshalb baut die moderne Ereignisanalyse auf stochastischer Analysis auf und erreicht so eine sehr hohe Stufe der Theorie, im Gegensatz zur herk¨ommlichen Sterbetafelmethode, die in elementarer Weise mit empirischen H¨aufigkeiten arbeitet. Wichtig dabei ist, daß wichtige Prozesse dabei Z¨ahlprozesse sind und somit prinzipiell unstetig, w¨ahrend viele B¨ ucher u ¨ber stochastische Analysis stetige Prozesse - wie Diffusionsprozesse in den Mittelpunkt stellen. Dieser Aspekt wird in [16] besonders ber¨ ucksichtigt. Ein weiterer spezieller Aspekt dieses Gebietes ist, daß man selten die vollst¨andige Lebensgeschichte erfassen kann. Dieses Ph¨anomen erfaßt man durch ‘Zensierung’. Es kann z.B. sein, daß Individuen vor Ende der Studie ausscheiden, obwohl das interessierende Ereignis (z.B. ‘Tod’) noch nicht eingetreten ist. Formal l¨auft dies auf das ‘Stoppen’ des zugrundeliegenden Prozesses hinaus - er wird zum Zeitpunkt der Zensur eingefroren. Dies ist eine Standardtechnik in der Theorie der stochastischen Prozesse. Zusammenfassend stellen wir fest, daß die moderne Ereignisanalyse untrennbar mit modernsten mathematischen Gebieten wie der Theorie stochastischer Prozesse und stochastischer Analysis verkn¨ upft ist. Um die Problemstellung anzudeuten, skizzieren wir ein Beispiel aus (dem f¨ ur dieses Gebiet grundlegenden) Buch P.K. Andersen, Ø. Borgan, R.D. Gill und N. Keiding (1993), 767 Seiten: Statistical Models Based on Counting Processes, [2], Example I.3.1. ¨ Beispiel 4.0.5 (Uberleben mit malignem Melanom) Unter Beobachtung standen Patienten mit malignem Melanom (Hautkrebs charakterisiert durch dunkle Hautstellen) nach einer Radikaloperation. Der Tumor wurde zusammen mit der Haut im Umkreis von 2,5 cm vollst¨andig entfernt. Die Patienten wurden an der Universit¨atsklinik von Odense, D¨anemark, zwischen 1962 und 1977 beobachtet. Dies war eine historisch prospektive klinische Studie mit dem Ziel, den Einfluß von Risikofaktoren auf das ¨ Uberleben zu studieren. Die Zeitskala war nicht die Kalenderzeit, sondern die Zeit ab der Operation. Es wurden Risikofaktoren wie Geschlecht und Alter sowie klinische Merkmale wie Tumordurchmesser und -ort oder histologische Befunde wie Tumordicke, Wachstum, Typ und Krebsartigkeit aufgenommen. ¨ Die Uberlebenszeit ist nur f¨ ur die Patienten bekannt, die vor Ende 1977 starben. Der Rest ist ‘zensiert’. Manche Patienten starben zwar im Beobach-
¨ 4.1. HERKOMMLICHER ZUGANG
113
tungszeitraum, jedoch nicht am Melanom. In diesem Beispiel gibt es zwei Anl¨asse f¨ ur zensierte Beobachtungen: Patienten konnten aus anderen Ursachen (und nicht am Melanom) sterben oder das Ende der Studie u ¨berleben. ¨ Wichtige Quellen f¨ ur dieses Kapitel sind der Ubersichtsartikel ‘Counting Process Models for Life History Data: A Review’ von P. Kragh und Ø. Borgan, 1985, [1], das schon erw¨ahnte Standardwerk [2] und ein unver¨offentlichtes Vorlesungsskript von H. Pruscha, [14]. Als Referenz f¨ ur die Grundlagen von Punkt- und Z¨ahlprozessen wird P. ´maud: Point Processes and Queues. Martingale Dynamics (1981), [5], Bre empfohlen, die grundlegende Theorie der stochastischen Analysis, insbesondere f¨ ur nicht stetige Prozesse, wie hier ben¨otigt, findet man in H.v. Weizs¨ acker und G. Winkler: Stochastic Integrals, [16]. Dort wird auch auf die hinderlichen ‘¨ ublichen Bedingungen’ vieler anderer B¨ ucher u ¨ber stochastische Analysis verzichtet.
4.1
Herk¨ ommlicher Zugang
¨ Bevor wir zur Theorie kommen, stellen wir einige heuristische Uberlegungen zu den Grundbegriffen herk¨ommlicher Art an. Außerdem skizzieren wir die (wohl jahrhunderte alte) Sterbetafelmethode.
4.1.1
Survivalfunktion und Hazardrate
Wir f¨ uhren einige wichtige statistische Kenngr¨oßen der Verweildauer im EinEpisodenfall ein. Es wird von einer homogenen Population ausgegangen. Die Verweildauer, d.h. die Dauer der Episode, wird durch eine Zufallsvariable mit Werten in [0, ∞] repr¨asentiert. Ihre Verteilungsfunktion sei F ; diese sei absolutstetig mit Dichte f . Die Survivalfunktion S(t) = P(T ≥ t) = 1 − F(t) gibt die Wahrscheinlichkeit an, daß ein Individuum bis zum Zeitpunkt t noch lebt; die allgemeine Interpretation ist, daß bis zur Zeit t noch kein interessierendes Ereignis aufgetreten ist. Die Hazardrate wird herk¨ommlich definiert durch 1 (4.1) λ(t) = lim P(t ≤ T ≤ t + h|T ≥ t), h→0 h
114
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
falls dieser Grenzwert existiert. Sie gibt (idealisiert) die Wahrscheinlichkeit an, daß das interessierende Ereignis im Zeitintervall [s, t] eintritt, falls dieses u ¨berhaupt erreicht wird, wobei ‘Rate’ meint, daß diese Gr¨oße auf die L¨ange t − s dieses Intervalles bezogen wird und die L¨ange des Intervalles infinitesimal klein ist! Sie ist nat¨ urlich keine bedingte Wahrscheinlichkeit mehr, sie kann gr¨oßer als eins sein. (Am ehesten kann man diese Raten noch mit z.B. Geschwindigkeiten als ‘Fortbewegungsraten’ interpretieren). Andere Bezeichnungen sind Intensit¨ats- oder ¨ Risikofunktion, Ubergangsrate oder Mortalit¨atsrate. Die Hazardrate informiert u ¨ber den weiteren Verlauf, falls ein Individuum den Zeitpunkt t u ¨berlebt. Das Integral Z t Λ(t) = λ(s) ds 0
ist die kumulierte Hazardrate, die das bis t angeh¨aufte Risiko einsammelt. Sie steht zu λ in derselben Beziehung wie F zu f . Aus der Definition folgt heuristisch 1 1 (t ≤ T ≤ t + h) · P(t ≤ T ≤ t + h|T ≥ t) = lim P h→0 h h→0 h P(T ≥ t) 1 1 f (t) lim P(t ≤ T ≤ t + h) = , = P(T ≥ t) h→0 h S(t)
λ(t) = lim
kurz λ(t) =
f (t) f (t) = . S(t) 1 − F(t)
Umgekehrt rechnet man: Z 0
t
t
−f (s) ds = − ln(1 − F(s))|t0 0 1 − F(s) = − ln(1 − F(t)) = − ln S(t).
λ(s)ds = −
Z
Daraus folgt S(t) = e−
Rt 0
λ(s) ds
,
d.h. die Survivalfunktion f¨allt exponentiell mit der kumulierten Hazardrate. Aus diesen Beziehungen ergibt sich, daß jede der drei Gr¨oßen f (t), λ(t) und S(t) die beiden anderen bestimmt.
¨ 4.1. HERKOMMLICHER ZUGANG
115
Beispiel 4.1.1 (Die Exponentialverteilung) Sei die Hazardrate λ(t) = λ, λ > 0 konstant. Dann bekommen wir S(t) = e−λt , F(t) = 1 − e−λt , f (t) = λe−λt , also die Exponentialverteilung. Die erwartete Verweildauer ist E(T ) = λ−1 , sie sinkt mit h¨oherem ‘Risiko’ λ. Die Varianz V(T ) = λ−2 w¨achst mit zunehmender erwarteter Verweildauer.
4.1.2
Die Sterbetafel-Methode
Sie ist eine der einfachsten Methoden zur Analyse von Verweildauern. Methodisch paßt sie eigentlich nicht in unsere (martingalbasierte) Theorie. Aufgrund ihrer praktischen Bedeutung sei sie dennoch skizziert. Wir folgen [9], Kapitel 7.2.1. Die Methode wurde fr¨ uher vor allem von Demographen und Versicherungsmathematikern angewendet (Beitr¨age, Gesundheitssystem). Die Kohor¨ ten-Sterbetafel (Generations-, Populations-Sterbetafel) enth¨alt Uberlebenszeiten in einer Kohorte, d.h. von Personen, die in einem festen Zeitraum geboren wurden. Solche L¨angsschnittanalysen k¨onnen erst abgeschlossen werden, wenn alle Kohortenmitglieder gestorben sind. Dies mindert nat¨ urlich ihren praktischen Wert, z.B. wegen der mangelnden Aktualit¨at (was k¨ urzlich in Deutschland politisch relevant war). Deshalb werden meist Perioden- oder Querschnitts-Sterbetafeln erstellt. Hier werden Personen aus der momentan lebenden Bev¨olkerung u ¨ber wenige Jahre beobachtet. Neben wirklichen Sterbef¨allen sind Dauer von Krankenhausaufenthalten, von Arbeitslosigkeit etc. interessierende Zielgr¨oßen. Kovariablen werden nicht eingebracht. Ihr Einfluß kann erst nachtr¨aglich durch Gruppenvergleiche studiert werden. Man arbeitet in diskreter Zeit. Seien also Ik = [ak−1 , ak ), a0 = 0, aq+1 = ∞, k = 1, . . . , q aufeinanderfolgende Zeitintervalle. Die diskreten Hazardraten sind λk = P(T ∈ [ak−1 , ak )|T ≥ ak−1 ). Mit pk = P(T ≥ ak |T ≥ ak−1 ), Pk = P(T ≥ ak )
116
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
ist λk = 1 − pk . Weiter gilt Pk = pk · Pk−1 und somit Pk = pk · . . . · p1 . Folgende Daten werden erhoben: N : die Gesamtzahl der Beobachtungen zu Beginn der Studie, dk : Anzahl der Sterbef¨alle w¨ahrend Ik wk : Anzahl der Zensierungen in Ik , also der F¨alle, f¨ ur die ‘Tod’ in Ik nicht festgestellt werden konnte und das Erreichen von Ik+1 unbekannt war. Die Gr¨oße nk der Risikogruppe in Ik ist n1 = N, nk = nk−1 − dk−1 − wk−1 . Ohne Zensierung in Ik ist
ˆ k = dk /nk λ
ein Sch¨atzer f¨ ur die Hazardrate. Bei Zensierung erfolgt u ¨blicherweise die Korrektur dk ˆC = , λ k nk − wk /2 was, falls nicht detailliert begr¨ undet, eine gewisse Willk¨ ur beinhaltet. Mit ˆ k folgt pˆk = 1 − λ Pˆk = pˆ1 · . . . · pˆk . ¨ als Sch¨atzung f¨ ur die Uberlebenszeitwahrscheinlichkeiten zu den Zeiten ak . ˆ ¨ Pk als Sch¨atzung der Survivalfunktion S(ak ) heißt kumulative Uberlebensrate. ¨ F¨ ur Uberlebenszeiten f¨ ur die Intervallmitten mk = (ak +ak−1 )/2 sch¨atzt man Pˆk + Pˆk−1 Pˆk−1 (1 + pˆk ) Pˆ (T ≥ mk ) = = . 2 2 Außerdem sch¨atzt man Pˆ (ak−1 ≤ T < ak ) = Pˆk−1 − Pˆk , und die Dichte ˆk Pˆk−1 − Pˆk Pˆk−1 λ = , lk = ak − ak−1 . fˆk = lk lk und die ‘mittlere Hazardrate’ ˆ k) = λ(m
fˆk Pˆ (T ≥ mk )
=
ˆk 2λ . 1 + pˆk
4.2. SUBMARTINGALE
117
Beispiel 4.1.2 (Sterbetafel ‘Dauer von Arbeitslosigkeit’) Aus den ersten sechs Wellen des Sozio¨okonomischen Panels wurden f¨ ur den Zeitraum 1983 bis 1988 N = 1669 Arbeitslosigkeitsdauern ermittelt. Die Dauern sind in Monaten gemessen. Die ‘Sterbetafel’-Sch¨atzungen sind in Tabelle 4.1 wiedergegeben.
k 1 2 3 4 5 6 7 8 9 10 .. . 33 34 35 36 37
[ak−1 , ak ] in Monaten [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [32,33) [33,34) [34,35) [35,36) [36,∞)
nk
wk
nk − wk /2
dk
ˆk λ
Pˆk
fˆk
ˆ k) λ(m
1669 1669 1341 1156 985 893 798 711 654 591
0 131 7 12 3 9 6 4 5 7
1669.0 1603.5 1337.5 1150.0 983.5 888.5 795.0 709.0 651.5 587.5
0 197 178 159 89 86 81 53 58 45
0 .1229 .1331 .1383 .0905 .0968 .1019 .0748 .0890 .0766
1.0000 .8771 .7604 .6553 .5960 .5383 .4834 .4473 .4075 .3763
0 .1229 .1167 .1051 .0593 .0577 .0548 .0361 .0398 .0312
0 .1309 .1426 .1485 .0948 .1017 .1074 .0777 .0932 .0796
43 42 38 35 35
0 2 0 0 0
43.0 41.0 38.0 35.0 35.0
1 2 3 0 35
.0233 .0488 .0789 0 1.0000
.0470 .0447 .0412 .0412 0
.0011 .0023 .0035 0
.0235 .0500 .0822 0
Tabelle 4.1: ‘Sterbetafel’ zur Dauer von Arbeitslosigkeit der ersten sechs Wellen des Sozio¨okonomischen Panels. Auszug aus [9], Tab. 2.1, Seite 320
4.2
Submartingale
In diesem Abschnitt wird die ben¨otigte Theorie stochastischer Prozesse angerissen. Von besonderer Bedeutung sind die Submartingale, deren wichtiger Spezialfall die Z¨ahlprozesse darstellen. Im Zentrum des Interesses steht die Zerlegung von Submartingalen in wachsende Prozesse - die gewisse Trends repr¨asentiernen - und Martingale als Modelle f¨ ur zuf¨allige Schwankungen.
118
4.2.1
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Filtrationen und Stoppzeiten
Sei wie u ¨blich ein Wahrscheinlichkeitsraum (Ω, F, P) gegeben. Sei I ⊂ R+ eine Menge von Zeitpunkten. Eine Filtration ist eine aufsteigende Familie von Unter-σ-Algebren Ft , t ∈ I, von F, d.h. Fs ⊂ Ft ,
s ≤ t.
Fast immer wird I ein Intervall [0, a] oder [0, ∞] sein. Beispiel 4.2.1 (a) Ist (Xt )t∈I ein stochastischer Prozeß, so ist durch FtX = σ(Xs : s ≤ t) die nat¨ urliche Filtration gegeben. (b) Ist (Yt )t∈I ein weiterer stochastischer Prozeß, so definiert Ft = σ(Xs , Ys : s ≤ t) eine Filtration, die im allgemeinen weder f¨ ur (Xt ) noch (Yt ) die nat¨ urliche ist. Es gelten nur: FtX ⊂ Ft , FtY ⊂ Ft . Wir werden im folgenden einer Reihe von Filtrationen begegnen, die nicht unbedingt von Prozessen erzeugt sind. Jedenfalls repr¨asentiert die Filtration den mit der Zeit wachsenden Wissensstand; bei nat¨ urlichen Filtrationen beruht er auf der laufenden Beobachtung eines Prozesses. Allgemeiner heißt (Xt ) bzgl. (Ft ) adaptiert, wenn f¨ ur jedes t ∈ I die Variable Xt bez¨ uglich Ft meßbar ist. Der gesamte Wissensstand der Filtration wird in [ F∞ = σ( Ft ) t∈I
zusammengefaßt. Insbesondere ist (Ft )t∈I∪{∞} eine Filtration. Weitere Filtrationen sind von Interesse z.B. \ Ft+ = Fs ; s>t
4.2. SUBMARTINGALE
119
die σ-Algebra Ft+ erlaubt einen infinitesimalen Blick in die Zukunft. Die σ-Algebra ! [ Ft− = σ Fs (4.2) s
beinhaltet die Ereignisse bis unmittelbar vor t. Deterministische Zeitpunkte t ∈ I reichen nicht aus, um wichtige Aussagen u ¨ber die Prozesse zu formulieren. Zum Beispiel ist der Zeitpunkt des Ruins eines Spielers, der Todeszeitpunkt oder allgemeiner des Eintretens gewisser Ereignisse von den Individuen in der Population und somit vom Zufall abh¨angig. Also m¨ ussen wir zuf¨allige Zeitpunkte T (ω) betrachten. Von besonderem Interesse sind solche, von denen wir in jedem Zeitpunkt t ∈ I entscheiden k¨onnen, ob sie eingetreten sind oder nicht. Dies schl¨agt sich in der Forderung. T : Ω −→ [0, ∞], {T ≤ t} ∈ Ft , t ∈ I, nieder. Zuf¨allige Zeiten mit dieser Eigenschaft heißen Stoppzeiten. Beispiel 4.2.2 Sei (Xt ) ein Prozeß mit stetigen Pfaden auf I = R+ . Dann ist f¨ ur jede abgeschlossene Menge G die Eintrittszeit T G (ω) = inf{t ≥ 0 : Xt (ω) ∈ G} eine Stoppzeit (Beweis z.B. in [16], Abschnitt 2.3). Somit sind die zuf¨alligen ¨ Zeiten des Uberoder Unterschreitens gewisser Schranken Stoppzeiten. Bei fast allen Z¨ahlprozessen sind die Auftrittszeiten der Ereignisse Stoppzeiten. Umgekehrt k¨onnen Prozesse aus Stoppzeiten konstruiert werden. Beispiel 4.2.3 (Der Ein-Sprung oder Ein-Episoden-Z¨ ahlprozeß) Sei T : Ω −→ [0, ∞] eine zuf¨allige Zeit. Dann ist der Indikatorprozeß Nt (ω) = 1{T (ω)≤t} (ω), t ≥ 0, ein stochastischer Prozeß 1 . Es ist 0 falls t < T (ω) Nt (ω) = 1 falls t ≥ T (ω) 1
mit rechtsstetigen Pfaden, die u ¨berdies linksseitige Limiten besitzen. Diese Eigenschaft wird oft cadlag genannt (continu´e ` a droite, limites `a gauche).
120
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
(Nt ) ist (Ft )-adaptiert genau dann, wenn T eine Stoppzeit ist, denn es ist {T ≤ t} = {ω : T (ω) ≤ t} = {ω : Nt (ω) = 1}. Diese Menge ist Ft -meßbar genau dann, wenn (Nt ) adaptiert ist. Dies ist das einfachste Beispiel eines Z¨ahlprozesses. Bemerkung 4.2.4 Stoppzeiten m¨ ussen als Funktionen T : Ω −→ [0, ∞] nicht notwendig F-meßbar sein. Zu jeder Stoppzeit T geh¨ort die σ-Algebra FT = {F ∈ F : F ∩ {T ≤ t} ∈ Ft , t ∈ I} der T-Vergangenheit. Das sind die Ereignisse, auf denen wir zu jeder Zeit t entscheiden k¨onnen, ob das zu {T ≤ t} geh¨orige Ereignis zur Zeit t eingetreten ist oder nicht.
4.2.2
Bedingte Erwartungen und (Sub-) Martingale
Eine wichtige Klasse von Prozessen sind Martingale, welche z.B. faire Spielabl¨aufe beschreiben. Bevor sie eingef¨ uhrt werden, muß noch etwas u ¨ber bedingte Erwartungen gesagt werden. Im Abschnitt 3.4 wurde f¨ ur Zufallsvariablen X mit zweitem Moment, d.h. in L2 (P), die bedingte Erwartung E(X|G) bez¨ uglich einer Unter-σ-Algebra G von F als orthogonale Projektion auf den Raum H = {Z ∈ L2 (P) : Z ist bzgl. G meßbar} eingef¨ uhrt. Anschließend wurde die Gl¨attungseigenschaft Z Z X dP = E(X|F) dP, G ∈ G, G
(4.3)
G
nachgewiesen. Bedingte Erwartungen f¨ ur Zufallsvariablen aus dem Raum L1 (P) = {X ist Zufallsvariable mit E(|X|) < ∞} der Zufallsvariablen mit endlichem ersten Moment sind durch die Identit¨at (4.3) definiert.
4.2. SUBMARTINGALE
121
Bemerkung 4.2.5 Der Existenzbeweis ist (zumindest von der Idee her) einfach: Zun¨achst gilt L2 (P) ⊂ L1 (P), was in Bemerkung 3.4.1 gezeigt wurde. Ferner kann man jede Zufallsvariable X mit existierendem ersten Moment durch solche mit existierendem zweiten Moment in L1 (P) approximieren, z.B. durch X (n) = max{min{X, n}, −n}, und so die bedingte Erwartung auf von L2 (P) auf L1 (P) ausdehnen. Folgende Eigenschaften der bedingten Erwartung sind n¨ utzlich. Die meisten lassen sich aus den Eigenschaften orthogonaler Projektionen in L2 (P) ablesen und anschließend auf L1 (P) u ¨bertragen. Eigenschaften 4.2.6
(a) Ist X = Y f.s., so E(X|G) = E(Y |G) f.s.
(b) Die Abbildung X 7→ E(X|G) ist linear. (c) Ist X bez¨ uglich G meßbar, so ist E(X|G) = X f.s. (d) Ist X von G unabh¨angig, so E(X|G) = E(X). (g) Ist G1 ⊂ G2 , so E(E(X|G2 )|G1 ) = E(X|G1 ). Eine grundlegende Klasse von Prozessen f¨ ur die modernen ‘Life-HistoryAnalysis’ sind Martingale: Ein adaptierter stochastischer Prozeß (Mt )t∈I mit Mt ∈ L1 (P) heißt Martingal , wenn f¨ ur s ≤ t E(Mt |Fs ) = Ms P − f.s. Falls Mt ∈ L2 (P), t ∈ I, so heißt Mt ein L2 -Martingal .
122
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Bemerkung 4.2.7 Jedenfalls f¨ ur L2 -Martingale haben wir bereits eine sehr M intuitive Interpretation. Sei (Ft )t∈I die nat¨ urliche σ-Algebra f¨ ur einen Prozeß (Mt )t∈I . Dann ist E(Mt |Fs ) = E(Mt |Mu : u ≤ s). Nach Proposition 3.2.1 ist dies aber der (beste) M M S-Sch¨atzer f¨ ur Mt gegeben die gesamte Geschichte vor (dem gegenw¨artigen) Zeitpunkt s. Ist (Mt ) ein Martingal, so ist also die beste M M S-Sch¨atzung f¨ ur den zuk¨ unftigen Zustand Mt gegeben unser gesamtes Wissen bis zum Zeitpunkt s ≤ t der gegenw¨artige Zustand Ms . Repr¨asentiert (Mt ) beispielsweise unser Kapital bei einem Spiel, so w¨are dieses ‘fair’ zu nennen, da wir unseren Zugewinn aufgrund des beobachteten Verlaufes weder ins Positive noch ins Negative bewegen k¨onnen. In L1 (P) ist die Interpretation nicht ganz so einleuchtend; es bleibt uns aber immer noch die Gl¨attungsinterpretation, aus der definierenden Identit¨at (4.3). In der Survivalanalyse werden Martingale als zuf¨alliges Rauschen interpretiert, da sie ohne deterministischen Trend sind. Beispiel 4.2.8 (Der Brownsche Prozeß) Eine der Definitionen des Brownschen Prozesses 2 (Bt )t≥0 ist: (i) f¨ ur 0 ≤ t0 ≤ · · · ≤ tn sind die Zuw¨achse Bt1 − Bt0 , . . . , Btn − Btn−1 unabh¨angig. (ii) B0 = 0 und V(Bt − Bs ) = t − s (iii) Bt − Bs ∼ N (0, t − s). 2
Die unregelm¨ aßige Bewegung von Pollen in Wasser (deren Ursache sp¨ater durch die Molekularbewegung erkl¨ art wurde) wurde 1828 vom Botaniker Robert Brown im Mikroskop beobachtet. Der theoretische Durchbruch erfolgte 1905 durch Albert Einstein in seiner Arbeit u arung der Bewegung kleiner Partikel in Fl¨ ussigkeiten aus der Mole¨ber die Erkl¨ kularen Theorie der W¨ arme [8] (f¨ ur Arbeiten aus diesem Gebiet bekam er den Nobelpreis und nicht f¨ ur die Relativit¨ atstheorie). Die mathematische Fundierung erfolgte durch Norbert Wiener. Wesentliche Aspekte der Brownschen Bewegung wurden aber schon 1900 vom franz¨ osischen Mathematiker Louis Bachelier in seiner Dissertation mit dem Titel ‘Th´eorie de la sp´eculation’ herausgearbeitet.
4.2. SUBMARTINGALE
123
(iv) Die Pfade t 7→ Bt (ω) sind fast sicher stetig. Jedenfalls gilt: Bt − Bs ist unabh¨angig von allen Bu = Bu − B0 , u ≤ s, also ist auch Bt − Bs unabh¨angig von FsB . Prozesse mit dieser Eigenschaft nennt man Prozesse mit unabh¨angigen Zuw¨achsen. Man kann diese Definition leicht erweitern, indem man fordert: f¨ ur alle s < t < u ist Bu − Bt unabh¨angig von Fs . Dieses Beispiel kann wesentlich ausgeweitet werden: Beispiel 4.2.9 (Prozesse mit unabh¨ angigen Zuw¨ achsen) Sie liefern eine Vielfalt von Martingalen: Ein stochastischer Prozeß (Xt )t∈I hat unabh¨angige Zuw¨achse bzgl. der Filtration (Ft )t∈I , wenn gilt Xt − Xs ist unabh¨angig von Fs , s ≤ t. Das letzte Beispiel zeigt, daß die Brownsche Bewegung unabh¨angige Zuw¨achse hat. Theorem 4.2.10 Jeder Prozeß in L1 (P) mit unabh¨angigen mittelwertfreien Zuw¨achsen ist ein Martingal. Beweis. F¨ ur s < t gilt E(Xt |Fs ) = E(Xs |Fs ) + E(Xt − Xs |Fs ). Wegen der Unabh¨angigkeit der Zuw¨achse und Eigenschaft 4.2.6(d) ist der letzter Term gleich E(Xt − Xs ) = 0 f.s. Wegen 4.2.6(c) ist E(Xs |Fs ) = Xs f.s. d.h. E(Xt |Fs ) = Xs f.s. Damit ist der Satz bewiesen. Beispiel 4.2.11 Da die Brownsche Bewegung orthogonale Zuw¨achse hat, ist sie ein Martingal.
124
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
In Verallgemeinerung der Martingale definiert man Prozesse mit monotonem Trend. Ein (Ft )-adaptierter Prozeß (Xt ) in L1 (P) heißt Submartingal , wenn Ms ≤ E(Mt |Fs ) f.s., s ≤ t und Supermartingal , wenn Ms ≥ E(Mt |Fs ) f.s., s ≤ t. Beispiel 4.2.12 Der Poisson Prozeß (Nt )t≥0 teilt die beiden ersten Eigenschaften mit der Brownschen Bewegung; man kann ihn so definieren: (i) (Nt ) hat unabh¨angige Zuw¨achse. (ii) N0 ≡ 0 und Nt − Ns hat Varianz t − s f¨ ur s ≤ t. (iii) Die Zuw¨achse Nt − Ns sind poissonverteilt mit Mittel t − s. Da die Erwartungswerte E(Nt ) = t wachsen, ist der Poisson Prozeß offensichtlich kein Martingal bzgl. seiner nat¨ urlichen Filtration (FtN )t≥0 . Wir machen ihn mittelwertfrei durch Mt = Nt − t. (Mt ) ist (FtN )-adaptiert, hat unabh¨angige Zuw¨achse und es ist E(Mt ) = 0 f¨ ur jedes t. Also ist (Mt ) ein Martingal, das sogenannte Poissonmartingal . Es ist f¨ ur s ≤ t E(Nt |Fs ) = E(Nt − t|Fs ) + t = (Ns − s) + t = Ns + (t − s), d.h. (Nt ) ist ein Submartingal. Wichtig ist, daß sich (Nt ) (eindeutig wie gleich gezeigt wird) zerlegen l¨aßt gem¨aß: Nt = Mt + t,
(4.4)
wobei (Mt ) ein Martingal und t ein v¨ollig deterministischer ‘Prozeß’ ist. Solche ‘Doob-Meyer’-Zerlegungen sind der Schl¨ ussel zum Studium von Z¨ahlprozessen.
4.2. SUBMARTINGALE
4.2.3
125
Vorhersehbarkeit und Doob-Meyer Zerlegung
Zerlegungen eines Z¨ahlprozesses - wie speziell des Poissonprozesses in (4.4) in einen deterministischen, ‘vorhersehbaren’ Trend und ein als Rauschen zu deutendes Martingal ist zentral in der Theorie der Z¨ahlprozesse. Wir machen uns das am Beispiel diskreter Zeit klar. Beispiel 4.2.13 (Vorhersehbarkeit in diskreter Zeit) F¨ ur diskrete Zeit sei I = {0, 1, 2, . . .}; ferner sei (Fn )n≥0 eine Filtration. Ein stochastischer Prozeß (Xn ) ist nat¨ urlich ‘(Fn )-vorhersehbar’ , wenn die Information, die Xn+1 liefert, schon zur Zeit n bekannt ist, d.h. jedes Xn+1 bez¨ uglich Fn meßbar ist. Sei nun (Xn ) ein (Fn )-Submartingal, d.h. Xn ≤ E(Xn+1 |Fn ) f.s. f¨ ur jedes n ≥ 0. Intuitiv gesprochen, hat (Xn ) einen Trend nach oben (jedenfalls im Mittel), denn es gilt E(Xn ) ≤ E(Xn+1 ), n ≥ 0. Wir wollen nun (Xn ) zerlegen in einen ‘Rauschanteil’, d.h. hier ein Martingal (Mn ), und einen wachsenden Trend (An ), welcher vorhersehbar sein soll. Wir setzen M0 = X0 und A0 = 0 und sodann rekursiv An = An−1 + (E(Xn |Fn−1 ) − Xn−1 ), Mn = Xn − An . Jedes An ist Fn−1 -meßbar; deshalb ist (An ) vorhersehbar. Weil (Xn ) ein Submartingal ist, ist die Differenz in der Klammer nichtnegativ und somit (An ) wachsend. Schließlich gilt f.s.: E(Mn − Mn−1 |Fn−1 ) = E(Xn − Xn−1 − (An − An−1 )|Fn−1 ) = E(Xn |Fn−1 ) − Xn−1 − (An − An−1 ) = 0 nach Definition von (An ). Dies bedeutet E(Mn |Fn−1 ) = Mn−1 , n ≥ 1, f.s., d.h. (Mn ) ist ein Martingal. Dieses Programm m¨ ussen wir nun auf kontinuierliche Zeit u ¨bertragen. Da wir das Hauptresultat nur zitieren werden, m¨ ussen wir uns u ¨ber den Begriff ‘Vorhersehbarkeit’ klar werden. Eine gewisse Anschauung liefert folgender Satz (v. Weizs¨ acker, Winkler (1990), [16], Prop. 6.12.)
126
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Theorem 4.2.14 F¨ ur eine σ-Algebra P auf (0, ∞) × Ω sind ¨aquivalent: P wird erzeugt durch jede der folgenden Klassen von Mengen oder Prozessen: (a) den stochastischen Intervallen (0, T ] = {(t, ω) : 0 < t ≤ T (ω)}, T Stoppzeit, (b) den vorhersehbaren Rechtecken (s, t] × F, s < t, F ∈ Fs , (c) den Abbildungen (t, ω) 7−→ Xt (ω) f¨ ur alle stetige adaptierte Prozesse (Xt )t>0 , (d) den Abbildungen (t, ω) 7−→ Xt (ω) f¨ ur alle linksstetigen adaptierte Prozesse. Dabei ist ‘(links-)stetig’ pfadweise zu verstehen. Zur Interpretation betrachten wir eines der stochastischen Intervalle (0, T ] aus (a). Im Gegensatz zu 4.2.3 ist der Indikatorprozeß Xt (ω) = 1{T
T (ω). Jeder Wert Xt (ω) ist bekannt, wenn man Xs (ω) in einem beliebig kleinen Intervall (t − ε, t) (rechts offen!) kennt. Daraus kann man Xt (ω) vorhersagen. ¨ Ahnliches gilt f¨ ur allgemeinere (links-)stetige Prozesse. Ein stochastischer Prozeß (Xt )t≥0 heißt vorhersehbar , wenn X0 bez¨ uglich F0 und die Abbildung (t, ω) −→ Xt (ω) auf (0, ∞) × Ω bez¨ uglich P meßbar ist. Bemerkung 4.2.15 Folgende Beobachtung veranschaulicht das Konzept: Ist (Xt ) vorhersehbar und adaptiert, so ist jedes Xt bez¨ uglich [ Ft− = σ( Fs ). s
meßbar, d.h. (Xt ) ist (Ft− )-adaptiert. F¨ ur linksstetige adaptierte Prozesse ist das klar, da \ [ \ {Xt ≤ a} = {Xq ≤ a + r} ∈ Ft− . r>0,r∈Q p>0,p∈Q t−p
4.2. SUBMARTINGALE
127
Damit gilt die Aussage insbesondere f¨ ur Indikatorprozesse zu vorhersehbaren Rechtecken, d.h. Xr (ω) = 1(u,v]×F (r, ω), u < v, F ∈ Fu . Da sich jeder vorhersehbare Prozeß durch Linearkombinationen solcher Prozesse approximieren l¨aßt, gilt die Aussage allgemein. Wir schreiben den entscheidenden Satz jetzt auf. Unbekannte termini technici erl¨autern wir sp¨ater. Theorem 4.2.16 Sei (Xt ) ein rechtsstetiger adaptierter Prozeß. Betrachte die Aussagen (a) (Xt ) ist ein (gleichgradig integrierbares) Submartingal. (b) (Xt ) besitzt eine Zerlegung Xt = Mt + At mit einem Martingal (Mt ) und einem wachsenden vorhersehbaren rechtsstetigen Prozeß (At ). Dann wird (b) von (a) impliziert. Erg¨anzt man in (b): (Mt ) ist gleichgradig integrierbar und (At ) ist lokal L2 -beschr¨ankt, so sind (a) und (b) ¨aquivalent und die Zerlegung ist f.s. eindeutig. Der Prozeß (At ) heißt Kompensator von (Xt ). F¨ ur Beweise siehe [16], Theorem 6.6.1. Die technischen Einzelheiten lassen wir beiseite. Wichtig ist, daß diese Zerlegung auf Z¨ahlprozesse anwendbar ist, da sie in Verallgemeinerung von Beispiel 4.2.12 Submartingale sind: Lemma 4.2.17 Jeder adaptierte Prozeß in L1 (P) mit wachsenden Pfaden ist ein Submartingal. Beweis. F¨ ur s < t gilt E(Xt |Fs ) ≥ E(Xs |Fs ) = Xs f.s. Dies ist die Submartingaleigenschaft.
In vielen F¨allen der Praxis ist die Integrierbarkeitsbedingung in Satz 4.2.16 trivialerweise erf¨ ullt. F¨ ur den Ein-Episodenprozeß (Xt ) = (Nt ) z.B. ¨ ist ja stets 0 ≤ Nt ≤ 1. Ahnliches gilt f¨ ur Z¨ahlprozesse f¨ ur Studien u ¨ber n Individuen, wo 0 ≤ Nt ≤ n ist. In vielen anderen F¨allen kann man die Bedingung durch den Trick der Lokalisierung erzwingen.
128
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Definition 4.2.18 Eine Folge (Tn ) von Stoppzeiten heißt lokalisierend, wenn P(Tn % ∞) = 1. Ein Prozeß (Xt ) heißt lokal beschr¨ankt, wenn f¨ ur eine lokalisierende Folge (Tn ) gilt (Xt )|(0, Tn ] ≤ cn mit einer Konstanten cn (genauer heißt das Xt (ω) ≤ cn auf der Menge {(t, ω) : 0 < t ≤ Tn (ω)}). ¨ Ahnlich definiert man ‘lokal integrierbar’, ‘lokal quadrat-integrierbar’ usw. Dies kann man etwas anschaulicher formulieren: Sei (Xt ) ein adaptierter Prozeß und T eine Stoppzeit. Dann definiert man den gestoppten Prozeß (Xt∧T ) durch Xt (ω) falls t ≤ T (ω) Xt∧T (ω) = . XT (ω) (ω) falls t > T (ω) Nach T (ω) beh¨alt ein Pfad seinen Wert XT (ω) (ω) zur Zeit T (ω) konstant bei; vorher verh¨alt er sich wie Xt (ω). Die Eigenschaft der lokalen Beschr¨anktheit ist also ¨aquivalent damit, daß jeder Prozeß (Xt∧Tn ) (gleichm¨aßig) beschr¨ankt ist. Beispiel 4.2.19 Sei τn die zuf¨allige Zeit des n-ten Sprunges des Poissonprozesses. Dann ist τn eine lokalisierende Folge. Ferner gilt Nτn = n. und da der Poissonprozeß w¨achst, gilt sogar Nt∧τn ≤ n Also ist der Poissonprozeß lokal beschr¨ankt. Insbesondere kann man die Doob-Meyer Zerlegung auf jeden Prozeß (Nt∧τn ) getrennt anwenden. Nimmt man sie wieder zusammen, so ergibt sich die eindeutige Zerlegung des Poissonprozesses in ein lokales Martingal und einen wachsenden vorhersehbaren Prozeß. Damit ist die Zerlegung (4.4) eindeutig. Daß man sich durch das Stoppen eines Prozesses keine neuen Schwierigkeiten einhandelt, verhindert folgender Satz: Theorem 4.2.20 Ist (Xt ) adaptiert, so auch (Xt∧ T ) f¨ ur eine Stoppzeit T .
¨ 4.3. MODELLIERUNG DURCH ZAHLUND PUNKTPROZESSE
4.3
129
Modellierung durch Z¨ ahl- und Punktprozesse
Wir f¨ uhren nun in die Modellierung im Rahmen der Z¨ahlprozesse ein.
4.3.1
Punkt- und Z¨ ahlprozesse
Im gegenw¨artigen Zusammenhang sind Punkt- und Z¨ahlprozesse zwei Seiten derselben Medaille. Wir f¨ uhren beide ein und stellen den Zusammenhang her. Die Prozesse sollen die Zeitpunkte des Auftretens gewisser disjunkter diskreter Ereignisses registrieren. Zugrunde liegen ein Wahrscheinlichkeitsraum (Ω, F, P) und eine Filtration (Ft )t∈I , wobei I ein Intervall [0, b) oder [0, b], meist mit b = ∞ ist. Wir betrachten gleich den multivariaten Fall; dazu sei E die abz¨ahlbare Menge von Ereignistypen 3 . Ein markierter Punktprozeß ist gegeben durch eine Doppelfolge (τn , ξn )n≥1 von Variablen τn : Ω −→ [0, ∞], ξn : Ω −→ E, wobei gilt: (i) τn ist (Ft )- Stoppzeit, (ii) ξn ist Fτn -meßbar, (iii) Es ist 0 < τn < τn+1 τn = τn+1 = · · ·
auf auf
{τn < ∞}, {τn = ∞}.
Man setzt noch τ0 = 0, und σn = τn+1 − τn , falls τn < ∞. Die Stoppzeit τn ist die Auftrittszeit (occurence time) des n-ten Ereignisses, unabh¨angig von seinem Typ, und ξn gibt den Typ des n-ten Ereignisses an (Mark, mark). Die Zeit σn ist die n-te Zwischenauftrittszeit (Wartezeit, inter-occurence-time). Sei schließlich τ∞ (ω) = lim τn (ω). n→∞
3
Wir verwenden das Wort Ereignis also in einer zweiten Bedeutung.
130
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Der Prozeß heißt explodierend f¨ ur ω, wenn τ∞ (ω) < ∞ und ausl¨oschend f¨ ur ω, wenn τn (ω) = ∞ f¨ ur ein n ≥ 1. Aus dem markierten Punktprozeß l¨aßt sich leicht der zugeordnete Z¨ahlprozeß konstruieren. F¨ ur jedes i ∈ E und t ∈ I sei X 1{τn ≤t} 1{ξn =i} Nit = n≥1
die Anzahl der bis einschließlich der Zeit t eingetretenen Ereignisse vom Typ i. Es gilt (a) Nit ∈ {0, 1, 2, . . .} ∪ {∞}, (b) (Nit )t∈I ist (Ft )-adaptiert. Falls |E| = 1, so bekommt man einen univariaten Z¨ahlprozeß . Beweis. Teil (a) ist klar. F¨ ur Teil (b) gen¨ ugt es, zu zeigen daß {τn ≤ t} ∩ {ξn = i} ∈ Ft , t ∈ I. Nun ist {ξn = i} ∈ Fτn und somit der fragliche Durchschnitt in Ft nach der Definition der τn -Vergangenheit. Der Gesamtzahl der Ereignisse bis t ist X X Nt = Nit = 1{τn ≤t} , i∈E
n≥0
ein ebenfalls adaptierter Prozeß. Man erg¨anzt durch Ni∞ (ω) = lim Nit (ω), N∞ (ω) = lim Nt (ω). t↑∞
t↑∞
Es ist N∞ (ω) < ∞ ⇐⇒ Ausl¨oschung auf ω. Annahmen 4.3.1 Der Prozeß (Nt ) explodiere fast sicher nicht, d.h. P(ω : τn (ω) % ∞) = 1. Unter dieser Voraussetzung ist (Nt ) lokal beschr¨ankt; es gilt sogar P(0 ≤ Nt∧ τn ≤ n) = 1 (mit τn % ∞ f.s.). Deshalb folgt aus der Doob-Meyer Zerlegung 4.2.16 der grundlegende Satz:
¨ 4.3. MODELLIERUNG DURCH ZAHLUND PUNKTPROZESSE
131
Theorem 4.3.2 Zu jedem multivariaten Z¨ahlprozeß (Nit ) gibt es einen Kompensator Prozeß (Λit ) mit den Eigenschaften (i) Es ist Λi = , die Pfade t − 7 → Λit (ω) sind wachsend, rechtsstetig und adaptiert, der Prozeß (Λit ) ist vorhersehbar (ii) Der Prozeß Mit = Nit − Λit ist ein (lokales) Martingal. Die Prozesse sind f.s. eindeutig bestimmt. Bemerkung 4.3.3 Gilt E(Nit ) < ∞ f¨ ur jedes t ∈ I, so ist jeder Prozeß (Mit ) ein Martingal und es gilt somit stets E(Λit ) = E(Nit ). Es gilt sogar f¨ ur jede Stoppzeit T , daß E(ΛiT ) = E(NiT ). Die Interpretation von (Λt ) als systematischer Anteil oder ‘Trend’ wird weiter gest¨ utzt durch ein starkes Gesetz der großen Zahlen. Theorem 4.3.4 Es gilt n o Nit −→ 1, t → ∞ auf lim Λit = ∞ . t↑∞ Λit
4.3.2
Der Intensit¨ atsprozeß
Sei (Nit , Ft , P) ein multivariater Z¨ahlprozeß mit Kompensator (Λit ). Um den Zusammenhang mit dem klassischen Zugang aus der Einleitung herzustellen, nehmen wir im Folgenden stets an: Annahmen 4.3.5 Es gibt einen nichtnegativen vorhersehbaren Prozeß (λit ) mit Z t Λit =
λis ds.
132
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Der Prozeß (λit ) heißt Intensit¨atsprozeß von (Nit ). Wir stellen nun die Beziehung zu den Intensit¨atsprozessen aus der ‘Vormartingalzeit’ her. Zun¨achst definieren wir 1 γ(t) = lim E(Nt+h − Nt |Ft ) h↓0 h 1 γ ∗ (t) = lim P(Nt+h − Nt = 1|Ft ), h↓0 h wo auch immer diese Limiten existieren. Bevor wir die entscheidende Aussage formulieren f¨ uhren wir noch einen neuen Begriff ein: Eine Filtration heißt rechtsstetig, wenn \ Ft = Ft+ = Fs . s>t
Theorem 4.3.6 Sei (Nt ) ein beliebiger Z¨ahlprozeß, welcher zur rechtsstetigen Filtration (Ft ) adaptiert ist. Ferner besitze (Nt ) einen Intensit¨atsprozeß (λt ) mit folgenden Eigenschaften (i) (λt ) hat linksstetige Pfade mit rechtsseitigen Limiten. (ii) Es gibt eine positive Zufallsvariable g mit E(g) < ∞ und λt ≤ g. Dann existieren die Limiten γ(t) und γ ∗ (t) und es gilt: λt+ = γ(t) = γ ∗ (t). Beweis. Es ist E(Nt ) = E(Λt ) < ∞ und deshalb ist Z t M t = Nt − λs ds 0
ein (Ft )-Martingal. So ist E(Mt+h − Mt |Ft ) = 0 und 1 1 E(Nt+h − Nt |Ft ) = E h h Weil 1 h
Z t
Z t
t+h
λs ds Ft .
t+h
λs ds ≤ g, E(g) < ∞,
4.4. (NON-) PARAMETRISCHE MODELLE
133
ist der Satz von der majorisierten Konvergenz anwendbar und liefert Z 1 t+h γ(t) = E lim λs ds Fs = E(λt+ |Ft ) = λt+ , h→0 h t da die Filtration rechtsstetig ist.
4.4
(Non-) parametrische Modelle
Wir stellen nun non- und semiparametrische Modelle vor.
4.4.1
Das multiplikative Intensit¨ atsmodell
Sei ein multivariater Z¨ahlprozeß (Nit )i∈E, t≥0 zur Filtration (Ft ) gegeben. Er besitze einen Intensit¨atsprozeß (λit ). Definition 4.4.1 Der Prozeß (Nit ) heißt multiplikatives Intensit¨atsmodell , falls λit = Yit · αi (t), i ∈ E, wobei αit eine nichtnegative linksstetige Funktion mit Z
t
αi (s) ds < ∞, t ≥ 0,
0
ist und (Yit ) ein nichtnegativer (Ft )-adaptierter Prozeß mit f.s. linksstetigen Pfaden. Wir setzen stets E(Nit ) < ∞ voraus (was τ∞ = ∞ f.s. impliziert). Die Linksstetigkeit der Pfade von (Yit ) kann zur Vorhersehbarkeit abgeschw¨acht werden. Die Prozesse (Nit ) und (Yit ) werden als beobachtbar interpretiert. Zus¨atzlich kommen nun Kovariablen oder Regressoren ins Spiel. Sei also Xit = (Xi1 t , . . . , Xip t ), i ∈ E, p > 0, ein adaptierter Prozeß mit linksstetigen Pfaden, der Prozeß der p-dimensionalen Kovariablen. Diese sollen nun parametrisch in obige αi eingehen. Ziel ist die Sch¨atzung der Parameter.
134
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Beispiel 4.4.2 (Der Ein-Episoden-Fall) Wir betrachten wieder eine Stoppzeit T > 0 mit Dichte f und Verteilungsfunktion F und den zugeh¨origen Z¨ahlprozeß Nt = 1{T ≤t} , t ≥ 0. Nach Satz 4.3.6 gilt λt+ = γt∗ = lim h↓0
1 P(Nt+h − Nt = 1|Ft ). h
Wir zeigen unten P(Nt+h − Nt = 1|Ft ) = 1{t t) F(t + h) − F(t) . = 1{t
(4.5)
Daraus folgt dann f¨ ur Ft = FtN das klassische Resultat λt+ = 1{t
f (t+) . S(t)
Wir sehen auch, daß ein multiplikatives Regressionsmodell vorliegt; setzen wir n¨amlich voraus, daß f stetig ist, so ergibt sich λt = 1{t≤T }
f (t) =: Yt · η(t) S(t)
mit η(t) = f (t)/S(t). Es bleibt die Indentit¨at (4.5) nachzuweisen. Die linke Seite ist E(1{Nt+h −Nt =1} |Ft ). Bezeichnen wir die rechte Seite mit g, so w¨are Z Z 1{Nt+h −Nt =1} dP = g dP = R, F ∈ Ft , F
(4.6)
F
nachzuweisen, d.h. P(t < T ≤ t + h, t < T ) P(t < T ) = P(F ∩ {Nt+h − Nt = 1}) =: L.
R = P(F ∩ {t < T })
(4.7) (4.8)
4.4. (NON-) PARAMETRISCHE MODELLE
135
Es gen¨ ugt, den Nachweis f¨ ur einen Erzeuger von Ft zu f¨ uhren, d.h. Mengen vom Typ {Ns ≤ a} bzw. {Ns > a}, s ≤ t. Da die Ns nur die Werte 0 und 1 annehmen gen¨ ugt z.B. n 1o F = Ns < = {s < T }. 2 Nun gilt: P({s < T } ∩ {t < T }) = P(t < T ) P({s < T } ∩ {Nt+h − Nt } = 1) = P({s < T } ∩ {t < T } ∩ {t + h ≥ T }) = P({t < T } ∩ {t + h ≥ T }) = P(t < T ≤ t + h). Also ist L = P(t < T ≤ t + h), R =
P(t < T ≤ t + h) P(T > t) P(T > t)
und die Behauptung ist bewiesen. Abschließend betrachten wir noch den wachsenden Prozeß Z t∧T Z t Z t f (s) f (s) ds = ds. Λt = λ(s) ds = 1{s≤T } S(s) S(s) Im Falle der Exponentialverteilung w¨are das z.B. Z t∧T −λs λe ds = λ · t ∧ T. Λt = e−λs Wir kommen nun zu zensierten Daten. Hier wird der Fall erfaßt, daß die Individuen nur bis zu einer (zuf¨alligen) Zeit unter Beobachtung stehen, die nichts mit den interessierenden Zeiten zu tun hat. Sie k¨onnen zum Beispiel vor dem Tod die Studie verlassen oder ¨ahnliches. Wir erl¨autern das am EinEpisoden-Fall. Sei dazu eine zuf¨allige Zeit T gegeben. Beispiel 4.4.3 Sei U > 0 eine zweite zuf¨allige Zeit, die unabh¨angig von T ist (z.B. das Ausscheiden aus der Studie). Zu U geh¨ort (¨aquivalent) eine Indikatorvariable. 1 falls T ≤ U (keine Zensur) D= = 1{T ≤U } 0 falls T > U (Zensur)
136
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Aus der Interpretation heraus ist es sinnvoll, nur D bzw. T ∧ U als beobachtbar anzunehmen. Es gilt: {T ∧ U ≤ t, D = 1} = {T ≤ t, D = 1} = {T ≤ (t ∧ U )} =: Z
(4.9)
Man definiert den zugeh¨origen zensierten Z¨ahlprozeß als Ntc = 1Z = 1{T ≤t, D=1} . Bemerkung 4.4.4 Zur zuf¨alligen Zeit T geh¨orte im Beispiel 4.4.2 der Indikatoroder Z¨ahlprozeß 0 falls t < T (ω) Nt (ω) = = 1{T ≤t} (ω) 1 falls t ≥ T (ω) (der rechtsstetig war). Analog geh¨ort zur Zensierung U der Zensierungsprozeß 1 falls t ≤ U (ω) Ct (ω) = = 1{t≤U } (ω). 0 falls t > U (ω) Dieser Prozeß ist linksstetig und somit vorhersehbar, sofern er adaptiert ist. In dieser Schreibweise ist Z t c Nt = Cs dNs , 0
wobei (Nt ) der unzensierte Prozeß aus Beispiel 4.4.2 ist. Diese Definition h¨alt Verallgemeinerungen stand. Weiter ist D = CT der gestoppte Zensierungsprozeß. urliche Filtration von (Nt ), so muß nat¨ urlich (Ct ) Ist nun (FtN ) die nat¨ nicht dazu adaptiert sein; der Z¨ahlprozeß (Ntc ) muß ebenso wenig (FtN )adaptiert sein. Will man also die allgemeinen Resultate wie die Doob-Meyer Zerlegung und die Folgerungen daraus anwenden, so muß man (Ntc ), also auch (Ct ) adaptiert machen und zur Filtration (Ft ) = σ(FtN , FtC ) u undet erneut, weshalb wir die Theorie auf den allgemei¨bergehen. Das begr¨ nen Begriff der Filtration aufbauen mußten. Das Ziel ist nun, den Intensit¨atsprozeß λc zu berechnen. Nach Beispiel 4.4.2 ist die Intensit¨at des urspr¨ unglichen, jetzt nicht mehr beobachtbaren Z¨ahlprozesses N gegeben durch λ(t) = 1{t≤T }
f (t) =: 1{t≤T } · α(t), S(t)
4.5. STATISTISCHE INFERENZ
137
wobei α(t) die Hazardrate ist. Wegen (4.9) ist Ntc = Nt∧U und hat deshalb die Intensit¨at λc (t) = 1{t≤T ∧U } · α(t). Insbesondere liegt ein multiplikatives Intensit¨atsmodell λc (t) = Ytc · α(t) vor, wobei Ytc die Anzahl der zur Zeit t unter Risiko stehenden Individuen angibt (hier lediglich 0 oder 1).
4.4.2
Multiplikatives und Coxsches Regressionsmodell
Eine erste Spezialisierung ist das multiplikative Regressionsmodell . Es hat die Gestalt λit (β) = Yit · γ(t) · η(β 0 Xit ), (4.10) wobei β der p-dimensionale Vektor der Kovariablen ist. Neben (Nit ) und (Yit ) sei auch (Xit ) beobachtbar. Typischerweise ist (Yit ) ein Indikator, der angibt, ob das Objekt i kurz vor der Zeit t beobachtbar ist oder nicht. Die Funktion ηR soll bekannt sein. Sie wird als positiv vorausgesetzt. Von γ nimmt man t γ(s) ds < ∞ an. Zu sch¨atzen sind 0 (i) die Modellparameter β, (ii) die baseline hazard intensity γ. Es liegt also ein semiparametrisches Regressionsmodell vor. Eine wichtige weitere Spezialisierung enth¨alt die folgende Definition. Definition 4.4.5 Falls η(·) = exp(·), so heißt (4.10) Coxsches Regressionsmodell.
4.5
Statistische Inferenz
Die Modellierung des Coxschen Regressionsmodelles beinhaltet parametrische und nonparametrische Elemente. Letztere sind dem multiplikativen Intensit¨atsmodell immanent, erstere werden durch das Coxsche Modell ins Spiel gebracht. Wir beginnen mit dem nonparamtrischen Teil.
138
4.5.1
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Nelson-Aalen- und Kaplan-Meier-Sch¨ atzer
Wir gehen wieder von einem multiplikativen Regressionsmodell λi (t) = Yi (t) · αi (t) aus. Wir erinnern: αi ist eine nichtnegative deterministische Funktion und (Yi (t)) ist R t vorhersehbar. Jetzt geht es um die Sch¨atzung von αi bzw. von Ai (t) = 0 αi (s) ds. Wir nehmen an, daß Z t Ai (t) = αi (s) ds < ∞, i ∈ E, t ∈ I. 0
Normalerweise sch¨atzt man zun¨achst letzteres Integral und verwendet dann Gl¨attungsverfahren, um Sch¨atzer f¨ ur α selbst zu erhalten. Wir gehen dabei heuristisch vor. Die Doob-Meyer Zerlegung hat die Gestalt Z t Ni (t) = Mi (t) + Yi (s)αi (s) ds 0
oder Z Ni (t + h) − Ni (t) = Mi (t + h) − Mi (t) +
t+h
Yi (s)αi (s) ds.
t
Dies legt die intuitiv einleuchtende Schreibweise dNi (t) = dMi (t) + Yi (t)αi (t) dt nahe (welche sich mit Hilfe der stochastischen Analysis rechtfertigen l¨aßt, vgl. [16]). Der Martingalanteil wurde als Rauschen interpretiert. Wie (Mit ) kann auch (Mit /Yit ) als Rauschen angesehen werden: Weil (Yit ) vorhersehbar und nach Bemerkung 4.2.15 bez¨ uglich Ft− adaptiert ist, gilt: E(dM (t)/Yt |Ft− ) = E(dM (t)|Ft− )/Yt = 0, d.h. (Mit /Yit ) ist ein Martingal. Somit haben wir die Zerlegung dMi (t) dNi (t) = +αi (t) dt Yi (t) Yi (t) | {z } Rauschen
4.5. STATISTISCHE INFERENZ
139
Rt und ein nat¨ urlicher Sch¨atzer f¨ ur Ai (t) = 0 αi (s) ds ist gegeben durch Z t Yi−1 (s) dNi (s). 0
Schließlich wird der Fall Yi (s) = 0 durch die Definitionen Z t Ji (s) ˆ Ji (t) = 1{Yi (t)>0} , Ai (t) = dNi (s) 0 Yi (s) korrekt ber¨ ucksichtigt, wobei die Konvention 0/0 := 0 getroffen wird. Da jeder Pfad eine simple Sprungfunktion mit Spr¨ ungen zu den Stoppzeiten τi1 < τi2 < · · · ist, kann man das Integral durch eine Summe ausdr¨ ucken und erh¨alt den Sch¨atzer X Aˆi (t) = Ji (τij )Yi (τij )−1 . {j:τij ≤t}
Die Pfade t 7→ Aˆi (t) sind wachsende, rechtsstetige Treppenfunktionen mit dem Zuwachs Yi (τij )−1 im Sprung von (Nit ) zur Zeit τij . Aˆi (t) wird NelsonAalen Sch¨atzer genannt. Aus dem Nelson-Aalen-Sch¨atzer f¨ ur α im multiplikativen Intensit¨atsmodell l¨aßt sich u ¨ber die Beziehung λ(t) =
f (t) , S(t) = 1 − F(t), S(t)
ein Sch¨atzer f¨ ur die Verteilungsfunktion F bzw. f¨ ur die Survivalfunktion S der zuf¨alligen Zeit T ableiten, der Kaplan-Meier Sch¨atzer . F¨ ur stetige Dichte f ist n¨amlich ln(S(t))0 = −λ(t), d.h.
Z
t
λ(s) ds = − ln(S(t)),
0
und deshalb
Z t S(t) = exp − λ(s)ds = exp(−Λt ). 0
Da der Nelson-Aalen Sch¨atzer die kumulative Hazardrate sch¨atzt, ist S ∗ (t) = exp(−Aˆt )
140
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
ein Sch¨atzer f¨ ur S, beziehungsweise 1 − S ∗ ein Sch¨atzer f¨ ur F. Der Kaplanˆ Meier-Sch¨atzer S ergibt sich durch die Approximation e−u ∼ 1 − u, f¨ ur kleine u, d.h. exp(−Aˆt ) =
Y J(τk ) exp − J(τk )/Y (τk ) ∼ 1− . Y (τ k) ≤t k:τ ≤t
Y
k:τk
k
Zusammenfassend definiert man den Kaplan-Meier-Sch¨atzer als Y Y ∆Ns J(τk ) ¯ ˆ = , St = 1− 1− Y (τ Y k) s s≤t k=τ ≤t k
Q wobei ¯
eine akzeptiert symbolische Schreibweise ist mit ∆Nt = Nt −Nt− . Mehr u ¨ber die Theorie erf¨ahrt man in [2].
4.5.2
s≤t
Sch¨ atzung im multiplikativen Regressionsmodell
Das multiplikative Regressionsmodell hat die Gestalt λit (β) = Yit γ(t)α(β 0 Xit ). Zu sch¨atzen sind also die Funktion γ und der Parametervektor β. Gegeben sei nun eine Realisation Nis , Yis , Xis , s ≤ t, der beobachtbaren Prozesse. Wir motivieren heuristisch die Gestalt einer ‘partial Likelihoodfunktion’ zur (parametrischen) Sch¨atzung von β. Auf den nichtparametrischen Teil gehen wir sp¨ater ein. Zun¨achst betrachten wir die bedingte Verteilung des Typs zum n-ten Sprung: Pn,t (i) = P(ξn = i|τ1 , ξ1 , . . . , τn−1 , ξn−1 , τn = t). Nach Br´emaud, S. 33 gilt Pn,t (i) =
X λit , λt = λit . λt i∈E
¨ Die Idee des Beweises wird an folgender heuristischen Uberlegung klar: Bezeichne Bn−1 die Bedingung τ1 , ξ1 , . . . , τn−1 , ξn−1 . Dann ist Pn,t (i) = P(ξn = i|Bn−1 , τn = t) P(dNit = 1|Bn−1 ) λti = = P(dNt = 1|Bn−1 ) λt
4.5. STATISTISCHE INFERENZ
141
nach Theorem 4.3.6. Ein rigoroser Beweis findet sich in [5], I.4.T12. Seien Nt = n, τn+1 = t, und τ1 , . . . , τn gegeben. Dann ist Pn,t vom Typ Pn+1 = P(ξn+1 |ξ1 , . . . , ξn ) und man hat die Faktorisierung P(ξ1 = i1 , . . . , ξNt = iNt ) = P(ξ1 = i1 )P(ξ2 = i2 |ξ1 = i1 ) · . . . · P(ξNt = iNt |ξ1 = i1 , . . . , ξNt −1 = iNt −1 ) Nt Y = Pk,τk (ik ). k=1
Als Funktion von β w¨are dies die Likelihoodfunktion Lt ; wir setzen Lt =
Nt Y
Pk,τk (ξk ) =
k=1
Nt Y λξ
k=1
k ,τk
λτk
.
F¨ ur das multiplikative Regressionsmodell λit (β) = Yit γ(t)α(β 0 Xit ) ergibt sich Lt (β) = =
Nt Y
k=1 Nt Y
α(β 0 Xξk ,τk ) 0 j Yj,τk α(β Xjτk )
Yξk ,τk · P Yξk ,τk ·
k=1
α(β 0 Xξk ,τk ) , Sτk (β)
wobei St (β) =
X
Yit α(β 0 Xit ).
i∈E
F¨ ur die log-Likelihood lt (β) = ln Lt (β) bekommt man dann lt (β) =
Nt X
ln α(β 0 Xξk ,τk ) − ln Sτk (β) + R(Y )
k=1
Z t XZ t 0 = ( ln α(β Xis ) dNis ) − ln Ss (β) dNs + R(Y ), i∈E
0
0
142
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
wobei R weder von β noch von γ abh¨angt. Speziell f¨ ur das Coxsche Regressionsmodell ergibt sich (bei Weglassen irrelevanter Terme) Z t XZ t 0 Xi,s dNis − ln Ss (β) dNs lt (β) = β = β
0
i N t X
0
0
Xξk ,τk −
k=1
Nt X
log Sτk (β),
k=1
wobei St (β) =
X
Yit exp(β 0 Xit ).
i∈E
Wie u ¨blich bildet man den Scorevektor Ut (β) = dlt (β)/dβ und l¨ost Ut (β) = 0. Ferner ist die Hessematrix der gemischten zweiten partiellen Ableitungen von lt von Interesse. Wir betrachten zun¨achst X 0 St (β) = Yit eβ Xit i
und berechnen
X ∂ 0 (j) St (β) = Yit eβ Xit Xit ; ∂βj i
(j)
wobei Xit die j-te Komponente von Xit bezeichnet. Weiter gilt X ∂2 0 (j) (k) St (β) = Yit eβ Xit Xit Xit . ∂βk ∂βj i Damit ergibt sich ∂ ln St (β) = ∂βj ∂ ln St (β) = ∂βk ∂βj =
∂ S (β) ∂βj t
St (β)
P (j) 0 i Yit exp(β Xit )Xit = P 0 i Yit exp(β Xit )
∂2 S (β) ∂βk ∂βj t
St ∂2 S (β) ∂βk ∂βj t
St (β)
∂ S (β) ∂β∂ k St (β) ∂βj t (β)2
· St (β) −
−
∂ S (β) ∂β∂ k St (β) ∂βj t . St (β)2
4.5. STATISTISCHE INFERENZ
143
F¨ uhrt man formal auf E die diskrete Verteilung p = (p1 , . . . , pn ) mit , X 0 Yit exp(β 0 Xit ) pq = Yqt exp(β Xqt ) i
ein und Erwartungswert Ep sowie Varianz Vp , so bekommt der Scorevektor U die Gestalt Ut (β) =
XZ
t
XZ
t
i
=
i
Xis dNit − Xis dNis −
Z
0
0
t
Z
P
i
0
Yit exp(β 0 Xis )Xis dNs Ss (β)
t
Ep (Xs ) dNs .
0
F¨ ur die Hessematrix ergibt sich Z t ∂ ln Ss (β) dNs Wt (β) = − ∂βk ∂βj kj 0 Z tn o 0 0 = − Ep (Xs Xs ) − Ep (Xs )Ep (Xs ) dNs 0 Z t =: Vp (Xs ) dNs . 0
Formal ist dies das Negative einer Kovarianz. Somit ist Wt negativ semidefinit und l konkav. Die Gr¨oßen Ep (Xs ) und Vp (Xs ) sind Erwartungswert und Kovarianz der Kovariablen, wenn die Individuen i mit Wahrscheinlichkeiten pi ∝ Yi exp(β 0 Xi ), gew¨ahlt werden, also proportional zu ihrer Intensit¨at.
4.5.3
Sch¨ atzung der Baseline-Hazard-Rate.
Rt Wir sch¨atzen zun¨achst die kumulative Baseline-Rate Γ (t) = γ(s) ds. Genau wie den Nelson-Aalen Sch¨atzer im allgemeinen multiplikativen Intensit¨atsmodell leitet man einen Nelson-Aalen Sch¨atzer f¨ ur Γ (bei gegebenem β) her; es ergibt sich Z t Js (s) dNs , Γˆt (β) = 0 Ss (β) X wobei J(s) = 1{Ys >0} , Ys = Yis . i
144
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
ˆ d.h. eine L¨osung von U (β) = 0 Setzen wir den Maximumlikelihoodsch¨atzer β, ein, so erhalten wir den Breslow Sch¨atzer . Z t J(s) ˆ Γˆ (β) = dNs ˆ 0 Ss (β) f¨ ur die kumulierte Baseline Intensit¨at Γ . Eigentlich ist man an γ, also der ‘Ableitung’ von Γ interessiert. F¨ ur stetiges γ hat man 1 γ(t) = lim (Γ (t + h/2) − Γ (t − h/2)) h→0 h ∼ (Γ (t + h/2) − Γ (t − h/2))/h Z 1 = 1(t−h/2, t+h/2) (u) dΓ (u) h Definiert man die Kernfunktion K = 1[−1/2, 1/2] so ergibt sich t−s 1 K dΓ (s). γ(t) ∼ h h Der entsprechende Sch¨atzer wird zu Z 1 t−s ˆ ˆ γˆ (t) = K d Γs (β). h h Z
Da Γˆ Sprungfunktion ist, γ im allgemeinen aber glatt, folgt man einer Idee aus der Kerndichtesch¨atzung und w¨ahlt glatte Kerne, z.B. symmetrische glockenf¨ormige Dichten, die außerhalb [−1, 1] verschwinden. Zusammenfassend bekommt man Z X t − τk 1 1 t−s 1 ˆ = K dΓˆs (β) K . γˆ (t) = ˆ h h h k h Sτk (β) Dabei erstreckt sich die Summation nur u ¨ber Zeitpunkte in [t − h, t + h], da wir kompakten Tr¨ager f¨ ur K angenommen haben. Neben dem uniformen KernK = 1[−1,1] /2 sind der Epanechnikov Kern 3 KE (u) = (1 − u2 ), −1 ≤ u ≤ 1, 4
4.5. STATISTISCHE INFERENZ
145
oder der Biweigth Kern KB (u) =
15 (1 − u2 )2 , −1 ≤ u ≤ 1 16
standard. F¨ ur die statistischen Eigenschaften all dieser Sch¨atzer verweisen wir nochmals und nachdr¨ ucklich auf [2], z.B. Kapitel 4. Bemerkung 4.5.1 Diese Art der Gl¨attung ist z.B. aus der Analysis wohlbekannt, wo man z.B. die Faltung mit sehr glatten Kernen benutzt, um nicht differenzierbare Funktionen differenzierbar zu machen. Es sei hier einem naheliegenden Trugschluß vorgebeugt: Faßt man K als Dichte auf, so w¨achst die F¨ahigkeit zu gl¨atten nicht mit der Varianz von K. So sind die Varianzen des uniformen, Epanechnikov und Biweight Kernes gleich 1/3, 1/5 und 1/7. Abb. IV 2.1 in [2] zeigt jedoch, daß der Grad der Gl¨attung w¨achst. Beispiel 4.5.2 Seien T1 , . . . , Tn unabh¨angige positive Zufallsvariablen mit c´adl`ag-Dichten fi . Seien Nit = 1{Ti ≤t} die zugeh¨origen (Ein-Episoden) Z¨ahlprozesse, zusammengefaßt im multivariaten Z¨ahlprozeß (Nit ). Nach Beispiel 4.4.2 ist λit = 1{t≤Ti } αi (t) mit αi (t) = fi (t)/Si (t). Dies paßt sich in das Coxsche Regressionsmodell ein, indem man definiert Yit = 1{t≤Ti } (= 1 − Nit− ) und αi (t) = γ(t) exp(β 0 Xit ). Den Zusammenhang mit der urspr¨ unglichen Definition eines multivariaten Z¨ahlprozesses stellt man so her: Seien τ1 , . . . , τn = T(1) , . . . , T(n) die zu T1 , . . . , Tn geh¨origen geordneten Gr¨oßen, welche Stoppzeiten sind falls alle Tn Stoppzeiten waren. Die Marken sind dann gegeben durch ξk = i auf {τk = Ti }.
146
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Zu der neuen Zeitskala mit Marken geh¨oren die Regressoren X(k) = Xξk τk , explizit gegeben durch X(k) (ω) = XiTi (ω) falls τk (ω) = Ti (ω). Dann ist Sτk (β) =
X
1{τk ≤Ti } exp(β 0 Xiτk ) =
i
X
exp(β 0 Xiτk ),
i∈R(k)
wobei R(k) = {i : Ti ≥ T(k) } Die partial Likelihood ist dann gegeben durch Lt (β) =
Nt Y
k=1
exp(β 0 X(k) ) 0 i∈R(k) exp(β Xτk )
P
bzw. die partial Loglikelihood durch lt (β) = β 0
Nt X
X(k) −
k=1
Nt X
ln Sτk (β).
k=1
Der Nelson-Aalen Sch¨atzer f¨ ur die kumulative baseline Hazardfunktion ist ˆ = Γˆt (β)
Nt X k=1
ˆ −1 = Sτk (β)
Nt X X k=1
exp(βˆ0 XiT(k) ) .
i∈R(k)
¨ Die Ausdehnung auf zensierte Daten erfolgt analog zum Ubergang von Beispiel 4.4.2 zu Beispiel 4.4.3. Beispiel 4.5.3 Man startet mit dem in Beispiel 4.4.2 festgelegten Rahmen. Hinzu kommen die zuf¨alligen Zeiten U1 , . . . , Un der Zensur und daraus abgeleitet die Indikatorvariablen Di = 1{Ti ≤Ui } ;
4.5. STATISTISCHE INFERENZ
147
beobachtbar sind also nur die Zeiten Ti ∧ Ui und die Di . Der zugeordnete beobachtbare multivariate Z¨ahlprozeß ist gegeben durch Nit = 1{Ti ≤t,Di =1} = 1{Ti ≤t∧Ui } . Aus Beispiel 4.4.2 lesen wir den Intensit¨atsprozeß als λit = 1{t≤Ti ∧Ui } αi (t) =: Yit αi (t) ¨ ab. Uber die Coxsche Parametrisierung geht dies in αit = η(t) exp(β 0 Xi,τk ) u ¨ber. An die Stelle der Ordnungsstatistiken T(1) ≤ · · · ≤ T(n) der T1 , . . . , TN tritt nun die Ordnungsstatistik T(l1 ) < . . . < T(lm ) , m ≤ n, der Tj mit Dj = 1, der beobachteten geordneten Zeiten. Seien R(k) = {i : Ti ∧ Ui ≥ T(lk ) } die Risikomenge zur Zeit T(lk ) und Sτk (β) =
X
1{τk ≤Ti ∧Ui } exp(β 0 Xiτk ) =
i
X
exp(β 0 XiT(lk ) ),
i∈R(k)
τk = T(lk ) . Damit bekommt man analog wie vorher Lt (β) =
Nt Y i=1
exp(β 0 X(lk ) ) , 0 i∈R(k) exp(β XiT(lk ) )
P
wobei X(lk ) = XjTj falls τk = T(lk ) = Tj , d.h. X(lk ) = Xξk τk . Die log-Likelihood schreibt sich Nt Nt X X lt (β) = β 0 X(lk ) − ln Sτk (β). k=1
k=1
148
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
4.5. STATISTISCHE INFERENZ
149
150
KAPITEL 4. VERWEILDAUER- UND EREIGNISANALYSE
Literaturverzeichnis [1] P.K. Andersen and Ø. Borgan. Counting process models for life history data: A review. Scand. J. Statist., 12:97–158, 1985. with discussion. [2] P.K. Andersen, Ø. Borgan, R.D. Gill, and N. Keiding. Statistical Models Based on Counting Processes. Springer Series in Statistics. SpringerVerlag, New York, Berlin, Heidelberg ..., 1993. [3] H. Bauer. Wahrscheinlichkeitstheorie, 4. Auflage. Walter de Gruyter, Berlin, New York, 1991. [4] D.P. Bertsekas. Dynamic Programming and Stochastic Control, volume 125 of Mathematics in Science and Engineering. Academic Press, New York, San Francisco, London, 1976. [5] Br´emaud. Point Processes and Queues. Martingale Dynamics. Springer Series in Statistics. Springer-Verlag, New York, Heidelberg, Berlin, 1981. [6] C.K. Chui and G. Chen. Kalman Filtering with Real-Time Applications, volume 17 of Springer Series in Information Sciences. Springer-Verlag, Berlin, Heidelberg, New York etc., 1987. [7] P.J. Diggle, K.-Y. Liang, and S.L. Zeger. Analysis of Longitundinal Data, volume 13 of Oxford Statistical Science Series. Clarendon Press, Oxford, 1994. ¨ [8] A. Einstein. Uber die von der molekularkinetischen Theorie der W¨arme geforderte Bewegung von in ruhenden Fl¨ ussigkeiten suspendierten Teilchen. Ann. Physik, 17:549–560, 1905. [9] L. Fahrmeir, A. Hamerle, and G.Tutz, editors. Multivariate statistische Verfahren. Walter de Gruyter, Berlin, New York, 1996. 2., u ¨berarbeitete Auflage. 151
152
LITERATURVERZEICHNIS
[10] L. Fahrmeir and G. Tutz. Multivariate Statistical Modelling Based on Generalized Linear Models. Springer Series in Statistics. SpringerVerlag, New York, Berlin, 1994. [11] S. Geman and D. Geman. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEE Trans. PAMI, 6:721–741, 1984. [12] W.R. Gilks, S. Richardson, and D.J. Spiegelhalter (eds.). Markov Chain Monte Carlo in Practice. Interdisciplinary Statistics. Chapman & Hall, London, Weinheim, New York, Tokyo, Melbourne, Madras, 1996. [13] H. Pruscha. Angewandte Methoden der Mathematischen Statistik. Teubner Skripten zur mathematischen Statistik. B.G. Teubner, Stuttgart, second edition, 1996. [14] H. Pruscha. Punkt- und Z¨ahlprozesse. Unver¨offentlichtes Vorlesungsskript, 1998. [15] D.J. Spiegelhalter, N.G. Best, W.R. Gilks, and H. Inskip. Hepatitis b: a case study in MCMC methods. In W.R. Gilks, S. Richardson, and D.J. Spiegelhalter, editors, Markov Chain Monte Carlo in Practice, pages 21– 43. Chapman & Hall, London, Weinheim, New York, Tokyo, Melbourne, Madras, 1996. [16] H. von Weizs¨acker and G. Winkler. Stochastic Integration. Vieweg Advanced Lectures in Mathematics. Friedrich Vieweg & Sohn, Braunschweig, Wiesbaden, 1990. [17] G. Winkler. Image Analysis, Random Fields and Dynamic Monte Carlo Methods, volume 27 of Applications of Mathematics. Springer Verlag, Berlin, Heidelberg, New York, 1995.
Abbildungsverzeichnis 1.1 Zweiertausch bei Travelling Salesman . . . . . . . . . . . . . 1.2 Pixel und Nachbarn . . . . . . . . . . . . . . . . . . . . . . . 1.3 Rohdaten aus [12] m. f. E. von W.R. Gilks et al. . . . . . . 1.4 Verteilungen von α ˆ i und βˆi , m. f. E. von W.R. Gilks et al. 1.5 Graphisches Modell f¨ ur Hepatitis B, m. f. E. von W.R. Gilks et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Gelman-Rubin Statistik, m. f. E. von W.R. Gilks et al. . . 2.1
. . . .
44 44 52 53
. 55 . 61
Verteilungsfunktion von N (0, 1) versus 1/(1 + exp(−x)) . . . . 73
153
154
ABBILDUNGSVERZEICHNIS
Tabellenverzeichnis 1.1 1.2
Startwerte f¨ ur Gibbs Sampler . . . . . . . . . . . . . . . . . . 60 Gelman-Rubin Statistik . . . . . . . . . . . . . . . . . . . . . 60
2.1 2.2 2.3 2.4 2.5
Parametersch¨atzung f¨ ur Polio Inzidenz, ¨ Ubergangsh¨aufigkeiten f¨ ur RD . . . . . Einfluß von (X) auf (RD) . . . . . . . . Einfluß der Vergangenheit . . . . . . . Modelle und ihre Parameter. Aus [7] .
4.1
Sterbetafel, [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
155
nach . . . . . . . . . . . .
[10] . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
86 86 87 87 88
156
TABELLENVERZEICHNIS
Index Biweigth Kern, 145 Brown, Robert, 122 Brownscher Prozesses, 122 burn in time, 58
E, 24 F, 12 F∞ , 118 Ft+ , 119 Ft− , 119 FT , 120 L1 , 120 L2 , 101 L2 -Martingal, 121 N0 , 13 P, 12 R, 24 V, 67 ω, 12 Ω, 12
c(P), 20 cadlag, 119 Daten Longitudinal-, 73 multikategorielle, 73 Panel-, 73 Designvariable, 68 detailed balance Gleichung, 33 dichotome Regression, 72 Doob-Meyer Zerlegung, 125 Doob-Meyer-Zerlegung, 124
Abk¨ uhlschema, 39 adaptiert, 118 Annealing, 30, 38 Auftrittszeit, 129 ausl¨oschend, 130
Ein-Episoden-Fall, 134 Einstein, Albert, 122 Elementarereignisse, 12 Energiefunktion, 30 Ereignisse, 12 Ereignistypen, 129 Erwartungswert, 24 explodierend, 130 Explorationsmatrix, 37 Explorationsverteilung, 34 Exponentialfamilie, 63
Bachelier, Louis, 122 baseline hazard intensity, 137 Bayessche Paradigma, 46 bedingte Erwartung, 109, 120 Beobachtungsgleichung, 104 Besuchsschema, 33 bin¨are Zeitreihen, 74 Bin¨armodelle, 45 Binomialverteilung, 64
Fehlervariable, 68 Filtern, 107 157
158 Filtration, 118 nat¨ urliche, 118 Fisher-Informationsmatrix, 78 Gammaverteilung, 64 Gaußverteilung, 64 Gelman-Rubin-Statistik, 59 Gesetz der großen Zahlen schwaches, 24 Gibbs Sampler, 32 Gibbssche Form, 30 Gibbsverteilung, 30 Gl¨attung, 107 GLM, 68 Hazardfunktion kumulative baseline, 146 Hazardrate, 111, 113 kumulierte, 114 Hidden-Markov-Modelle, 91 hierarchisches Modell, 91
INDEX Kaplan-Meier Sch¨atzer, 139 Kern Biweigth, 145 Epanechnikov, 144 uniformer, 144 Kohorten-Sterbetafel, 115 Kolmogorov Konsistenzsatz, 14 Kompensator, 127 Konsistenzsatz von Kolmogorov, 14 Kontraktionskoeffizienten, 20 Kontrollgr¨oße, 94 Konturen, 47 Konturl¨ange, 47 Kovariable, 68 Kovariablen, 133 Kovarianzmatrix, 67 Kriteriumsvariable, 68
Indikatorprozeß, 126 Indikatorvariable, 135 Intensit¨atsfunktion, 114 Intensit¨atsmodell multiplikativ, 133 Intensit¨atsprozeß, 132 inter-occurence-time, 129 invariante Verteilung, 23 inverse Temperatur, 38 Inzidenz, 84 irreduzibel, 37 Irrfahrt, 93 Ising Modell, 32, 44
life-table analysis, 111 Likelihoodfunktion partiale, 140 lineares Modell, 68 Linkfunktion, 70 nat¨ urliche, 71 log-lineares Poisson-Modell, 81 logit, 64 Loglikelihoodfunktion, 77 Logoddsratio, 89 lokal beschr¨ankt, 128, 130 lokale Charakteristiken, 33 lokalisierend, 128 Longitudinaldaten, 73
Kalman Gain, 106 Kalmanfilter, 104 Kanalrauschen, 48
Marginalverteilung n-te, 23, 27 eindimensional, 15
INDEX mehrdimensional, 15 zweidimensional, 15 markierter Punktprozeß, 129 MarkovChainMonteCarlo Methoden, 42 Markoveigenschaft, 16 Markovisierung, 93 Markovkern, 14 aperiodischer, 37 irreduzibler, 37 primitiver, 23 Markovkette, 16 aperiodische, 37 homogene, 23 inhomogene, 27 irreduzible, 37 reversible, 33 Markovprozeß, 12, 16 Martingal, 121 Poisson-, 124 Sub-, 124 Super-, 124 MCMC Methoden, 42 MCMC-Methoden, 11 Metropolis Annealing, 41 Metropolis Sampler, 36, 38 Mikrokante, 49 Modell Bin¨ar-, 45 Coxsches Regressions-, 137 Hidden-Markov-, 91 hierarchisches, 91 Intensit¨ats-, multiplikatives, 133 Ising, 32 lineares, 68 lokal-lineares Trend-, 93 multiplikatives Regressions-, 137 Poisson-, 85
159 Potts-, 45 semiparametrisches Regressions, 137 State-Space-, 91 verallgemeinertes autoregressives, 74 verallgemeinertes lineares, 68 Zustandsraum-, 91 Modell der Ordnung l rein autoregressives, 74 verallgemeinertes lineares, 74 Mortalit¨atsrate, 114 mulikategorielle Daten, 73 Multinomialverteilung, 67 nat¨ urliche Parameter, 64 nat¨ urlichen Parameterraum, 65 Nelson-Aalen Sch¨atzer, 139, 143 Normalverteilung, 64 Occurence Time, 129 orthogonale Projektion, 108 orthogonale Projektionsprinzip, 100 Orthogonalit¨atsprinzip, 108 Oszillation, 35 maximale lokale, 35 Paneldaten, 73 Pfad, 14 Poisson Prozeß, 124 Poissonmartingal, 124 Poissonverteilung, 65 Potential, 31 Potts Modell, 45 Pr¨adiktion, 107 Pr¨adiktor, 70 primitive Markovkerne, 23 Probitanalyse, 73 Procedure DZV, 18
160 Procedure MarkovChain, 18 Procedure Uniform, 18 Projektion, 14 Prozeß Brownscher, 122 Ein-Sprung-, 119 gestoppter, 128 Intensit¨ats-, 132 kanonisch, 15 markierter Punkt-, 129 mit unabh¨angigen Zuw¨achsen, 123 Poisson-, 124 univariater Z¨ahl-, 130 Z¨ahl-, 130 Regression bin¨are dichotome logistische, 72 dichotome kategorielle, 72 Regressionsmodell Coxsches, 137 multiplikative, 137 multiplikatives, 140 semiparametrisches, 137 Responsefunktion, 70 reversibel, 33 Risikofunktion, 114 Risikomenge, 147 Sampler, 30 Sampling, 30 Satz von Dobrushin, 29 Sch¨atzer M M S, 96 Breslow, 144 kleinster Quadrate, 96 linearer, 97 schwaches Gesetz der großen Zahlen, 24
INDEX Scorefunktion, 77 Scorevektor, 142 Single Flip Algorithm, 37 Startverteilung, 13 State-Space Models, 91 Steady State Modell, 93 Sterbetafel Kohorten, 115 Perioden-, 115 Populations-, 115 Querschnitts-, 115 Sterbetafel-Methode, 115 Sterbetafelanalyse, 111 stochastische Matrix, 14 stochastischer Prozeß diskreter, 12 Stoppzeiten, 119 Submartingal, 124 Supermartingal, 124 Survivalfunktion, 113 Sweep, 34 Symmetric Travelling Salesman Problem, 43 Systemgleichung, 92, 104 T-Vergangenheit, 120 totale Variation, 19 Travelling Salesman Problem, 43 Trendmodell lokal-lineares, 93 Trendmodelle, 93 ¨ Ubergangsmatrix, 14 ¨ Ubergangsrate, 114 ¨ Ubergangswahrscheinlichkeit, 13 ¨ Uberlebensrate kumulative, 116 ¨ Uberlebenszeitfunktion, 111
INDEX unabh¨angige Zuw¨achse, 123 univariater Z¨ahlprozeß, 130 Varianz, 67 Vergangenheit, 74 σ-Algebra der, 120 Verteilung Exponential-, 115 vorhersehbar, 126 diskrete Zeit, 125 vorhersehbares Rechteck, 126 Vorschlagsmatrix, 37 Wahrscheinlichkeitsmaß, 12 Wahrscheinlichkeitsvektor, 13 Wartezeit, 129
161 Z¨ahlprozeß, 130 univariater, 130 zensiert, 136 Zeitreihen, 73 bin¨are, 74 zensierte Daten, 135 Zensierungsprozeß, 136 Zielvariable, 68 Zustand, 13 Zustandsraummodelle, 91 Zustandssumme, 30 Zweiertausch, 43 Zwischenauftrittszeit, 129