Empirische Prozesse Lutz D¨ umbgen Med. Universit¨at zu L¨ ubeck
2 Dieses Skriptum erstellte ich f¨ ur eine gleichnami...
296 downloads
1083 Views
775KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Empirische Prozesse Lutz D¨ umbgen Med. Universit¨at zu L¨ ubeck
2 Dieses Skriptum erstellte ich f¨ ur eine gleichnamige Kursusvorlesung, die ich im Sommer 1997 in Heidelberg anbot. Es ging hervor aus meiner Ausarbeitung einer Spezialvorlesung “Empirische Prozesse” von D.W. M¨ uller im Sommersemester 88, welche sich an Pollard (1984) anlehnte. Seitdem hatte ich es aktualisiert und um Teile erg¨anzt, die meines Erachtens f¨ ur Studenten der Mathematischen Statistik wissenswert sind. Insbesondere wird die allgemeine Theorie der Konvergenz in Verteilung komplett behandelt, wobei ich aber bewusst auf die Einf¨ uhrung von “messbaren Einh¨ ullenden” verzichtete, da dies meines Erachtens die Theorie unn¨otig kompliziert macht. Bei Ulrich Erlenmaier, Sandra Freitag, Markus Fuchs, Martin Kania, Wiebke Schreiber und Uwe Wehrspohn bedanke ich mich herzlich f¨ ur gute Fragen, zahlreiche Korrekturen und Verbesserungsvorschl¨age. Vielen Dank auch an Robert B. Johns f¨ ur seine Hilfe mit den Abbildungen. F¨ ur weitere Fehlermeldungen und Kommentare bin ich jederzeit dankbar. L¨ ubeck, im M¨arz 2000,
Lutz D¨ umbgen
Inhalt 1 Einfu ¨ hrung
7
1.1
Empirische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2
Partialsummenprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3
Abstrakter Rahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2 Der klassische empirische Prozess, I: Die Quantiltransformation
11
3 Uniforme Konsistenz via Bracketing
17
4 Symmetrisierungen
19
4.1
Die erste Symmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2
Die zweite Symmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3
Entsymmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Der klassische empirische Prozess, II: Eine Exponentialungleichung
25
6 Exponentialungleichungen
29
7 Mengenindizierte empirische Prozesse
35
7.1
Glivenko-Cantelli-Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2
ˇ Vapnik-Cervonenkis-Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8 Abstrakte Gesetze der großen Zahlen 3
45
4
INHALT 8.1
¨ Uberdeckungszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8.2
Ein allgemeines Resultat u ¨ber uniforme Konsistenz . . . . . . . . . . . . . . 46
8.3
Funktionenklassen und zuf¨allige signierte Maße . . . . . . . . . . . . . . . . 49
8.4
Verfeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8.5
Anwendung auf Dichtesch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . 58
9 Verteilungskonvergenz
61
9.1
¨ Außere Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
9.2
Definition und Eigenschaften der Verteilungskonvergenz . . . . . . . . . . . 63
9.3
Gleichm¨aßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.4
Schwache Konvergenz (in Wahrscheinlichkeit) . . . . . . . . . . . . . . . . . 73
9.5
Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
10 Funktionale Grenzwerts¨ atze
85
11 Der klassische empirische Prozess, III: Brownsche Bewegung und Bru ¨ cke
91
11.1 Stochastische Gleichstetigkeit auf [0, 1] . . . . . . . . . . . . . . . . . . . . . 91 11.2 Donskers Invarianzprinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . 93 11.3 Anwendung auf getrimmte Mittelwerte . . . . . . . . . . . . . . . . . . . . . 96 11.4 Verteilungen von Funktionalen von Gaußprozessen . . . . . . . . . . . . . . 100 11.4.1 Maximum und Supremumsnorm der Brownschen Br¨ ucke . . . . . . . 100 11.4.2 Lineare und quadratische Funktionale von Gaußprozessen . . . . . . 105 11.5 Der uniforme Quantilprozess 12 Chaining
. . . . . . . . . . . . . . . . . . . . . . . . . . 108 111
12.1 Maximalungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 12.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 12.2.1 Prozesse mit Lipschitz-stetigen Pfaden . . . . . . . . . . . . . . . . . 116 12.2.2 Eine Maximalungleichung f¨ ur empirische Prozesse . . . . . . . . . . 118
INHALT
5
12.2.3 Ein Funktionaler Zentraler Grenzwertsatz . . . . . . . . . . . . . . . 119 12.2.4 Empirische Prozesse und P -Br¨ ucken . . . . . . . . . . . . . . . . . . 122 12.2.5 Partialsummenprozesse und P -Bewegungen . . . . . . . . . . . . . . 123 12.2.6 Vorzeichentests f¨ ur lineare Regression . . . . . . . . . . . . . . . . . 124 13 Kombinatorische Prozesse
131
14 Zensierte Daten
141
Literatur
147
Notation
149
6
INHALT
Kapitel 1
Einfu ¨ hrung 1.1
Empirische Prozesse
Seien X1 , X2 , . . . , Xn unabh¨angige, identisch verteilte Zufallsvariablen mit Werten in einem meßbaren Raum X und Verteilung P . Ein Sch¨atzer f¨ ur P ist die empirische Verteilung Pbn :=
n 1X δX ; n i=1 i
dabei bezeichnet δx das Dirac-Maß im Punkt x. F¨ ur eine Menge D ⊂ X beziehungsweise eine Funktion f : X → R ist also Pbn D = Pbn (D)
=
Pbn f = Pbn (f ) :=
n 1X 1{Xi ∈ D}, n i=1
Z
f (x) Pbn (dx) =
n 1X f (Xi ). n i=1
Die Frage ist nun, wie pr¨azise dieser Sch¨atzer Pbn ist.
Konsistenz: Bekanntlich gilt f¨ ur jede feste Funktion f aus L1 (P ), der Menge aller bez¨ uglich P integrierbaren Funktionen: Pbn f → P f = P (f ) :=
Z
f (x) P (dx)
in Wahrscheinlichkeit (bzw. fast sicher) nach dem schwachen (bzw. starken) Gesetz der großen Zahlen. (Sofern nichts anderes gesagt wird, beziehen sich asymptotische Aussagen immer auf den Fall, daß n → ∞.) Aber viele statistische Verfahren basieren auf Pbn f f¨ ur unendlich viele Funktionen f , und die punktweise Konvergenz ist nicht ausreichend. Sei 7
¨ KAPITEL 1. EINFUHRUNG
8
daher F eine Familie von Funktionen f ∈ L1 (P ). Eine der zentralen Fragen, mit denen wir uns besch¨aftigen ist: Unter welchen Voraussetzungen an P und F gilt: kPbn − P kF := sup |Pbn f − P f | →p 0 ? f ∈F
Asymptotische Normalit¨ at: F¨ ur jede Funktion f ∈ L2 (P ), dem Raum aller bez¨ uglich P quadratintegrierbaren Funktionen, folgt aus dem Zentralen Grenzwertsatz, daß √
L
n(Pbn f − P f )
→w N 0, P (f 2 ) − (P f )2 .
Dabei steht ‘→w ’ f¨ ur schwache Konvergenz (siehe auch Kapitel 9), und N (µ, σ 2 ) ist die Normalverteilung mit Mittelwert µ und Varianz σ 2 . Eine naheliegende Frage ist nun, unter welchen Voraussetzungen an P und eine Familie F ⊂ L2 (P ) ein Wahrscheinlichkeitsmaß L existiert, so daß √ b nkPn − P kF →L L ? Wenn ja, wie kann man L charakterisieren? Gilt eine analoge Aussage f¨ ur andere Funk√ b tionale von n(Pn − P ) wie beispielsweise Z
n(Pbn f − P f )2 M (df )
mit einem Maß M auf F ? √ Stochastische Prozesse (zuf¨allige Funktionen) wie (Pbn f )f ∈F oder n(Pbn f − P f ) f ∈F nennt man empirische Prozesse indiziert durch die Funktionenklasse F. Ein wichtiger Spezialfall sind mengenindizierte empirische Prozesse (Pbn D)D∈D , wobei D eine Familie von meßbaren Teilmengen von X ist.
1.2
Partialsummenprozesse
Eine zweite wichtige Klasse von stochastischen Prozessen sind Partialsummenprozesse. Dabei betrachtet man feste Punkte xn1 , xn2 , . . . , xnn ∈ X und unabh¨angige, identisch verteilte (reellwertige) Zufallsvariablen Y1 , Y2 , Y3, . . . mit ur eine Erwartungswert Null. F¨ b b Familie F von Funktionen auf X sei dann Sn = Sn (f ) definiert durch f ∈F
Sbn (f ) := cn mit einer Normierungskonstanten cn > 0.
n X i=1
Yi f (xni )
1.3. ABSTRAKTER RAHMEN
9
Jedes xni kann zum Beispiel ein Zeitpunkt sein, zu dem ein Messwert µni +Yi ermittelt wird, wobei die µni feste Zahlen sind. Angenommen man berechnet zu verschiedenen Zeitpunkten t die Summe (oder den Mittelwert) der bisherigen Messwerte. In diesem Falle bietet es sich an, obigen Prozess Sbn indiziert durch die Menge D aller Intervalle ] − ∞, t] zu untersuchen. In anderen Anwendungen (z.B. Bildverarbeitung) ist xni ein Punkt im Rd .
1.3
Abstrakter Rahmen
Man kann sowohl empirische Prozesse als auch Partialsummenprozesse in einen abstrakten Rahmen einbetten. Seien n¨amlich φn1 , φn2 , . . . , φnn unabh¨angige stochastische Prozesse auf einer beliebigen Indexmenge T . Dann betrachten wir den stochastischen Prozess Zn :=
n X
φni
i=1
auf T . Die in Abschnitt 1.1 gestellten Fragen lauten nun: Uniforme Konsistenz? Unter welchen Voraussetzungen konvergiert kZn −IE Zn k in Wahrscheinlichkeit gegen Null? Grenzverteilungen? Unter welchen Voraussetzungen konvergiert die Verteilung eines gegebenen Funktionals f (Zn ) schwach gegen ein Wahrscheinlichkeitsmaß L? Wie kann man letzteres charakterisieren?
der punktweise Erwartungswert von Zn , und f¨ ur eine Dabei ist IE Zn = IE Zn (t) t∈T Funktion x : T → R setzen wir kxk = kxkT := supt∈T |x(t)|. In den Abschnitten 1.1 beziehungsweise 1.2 ist T = F und φni (f ) :=
1 f (Xi ) n
1 oder φni (f ) := √ (f (Xi ) − P f ) n
beziehungsweise φni (f ) :=
1 Yni f (xni ). n
10
¨ KAPITEL 1. EINFUHRUNG
Kapitel 2
Der klassische empirische Prozess, I: Die Quantiltransformation In Abschnitt 1.1 sei X = R. Die Wahrscheinlichkeitsverteilung P wird durch ihre Verteilungsfunktion R 3 r 7→ F (r) := P (] − ∞, r]) eindeutig bestimmt. Weitere Eigenschaften von F sind: F ist monoton wachsend und rechtsseitig stetig; F (r −) := lims↑r,s6=r F (s) = P (] − ∞, r[), also F (r) − F (r −) = P {r}; limr→−∞ F (r) = 0 und limr→∞ F (r) = 1. Ein naheliegender Sch¨atzer f¨ ur F ist die empirische Verteilungsfunktion n 1X Fbn (r) := Pbn (] − ∞, r]) = 1{Xi ≤ r}. n i=1
Angenommen, die wahre Verteilungsfunktion F ist unbekannt, und man m¨ochte testen, ob F gleich einer hypothetischen Verteilungsfunktion Fo ist. Eine m¨ogliche Testgr¨oße hierf¨ ur ist die Kolmogorov-Smirnov-Teststatistik kFbn − Fo kR . Dies f¨ uhrt direkt zu der Frage, ob Fbn ein konsistenter Sch¨atzer f¨ ur F und wie die Gr¨oße b kFn − F kR verteilt ist. 11
12KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION Bevor wir diesen Fragen nachgehen, betrachten wir Simulationen von Fbn f¨ ur den Fall einer Standardnormalverteilung P = N (0, 1). Abbildung 2.1 zeigt die Prozesse Fbn und √ b n(Fn − F ) f¨ ur n = 10, 50, 200, 500. Diese Beispiele lassen vermuten, daß kFbn − F k in Wahrscheinlichkeit gegen Null konvergiert. Man gewinnt sogar den Eindruck, daß die √ Verteilung des Prozesses n(Fbn − F ) einen Grenzwert besitzt, wobei dieses Konzept noch definiert werden muss. ¨ Diese Uberlegungen beziehen sich auf den Stichprobenumfang n. Was die Abh¨angigkeit von F betrifft, kann man den Prozess Fbn und davon abgeleitete Objekte sehr elegant standardisieren. Das Hilfsmittel hierf¨ ur ist die Quantiltransformation oder Quantilfunktion F −1 (u) := min {r ∈ R : F (r) ≥ u}
(u ∈ ]0, 1[)
von P bzw. F . Man kann leicht zeigen, daß F −1 monoton wachsend und linksseitig stetig ist, wobei F −1 (u +) := lim F −1 (v) = max {r ∈ R : F (r −) ≤ u}. v↓u,v6=u
Ferner gilt f¨ ur u ∈ ]0, 1[ und r ∈ R: F (F −1 (u)) ≥ u, F (F −1 (u)) = u (2.1)
F −1 (u) ≤ r
falls P {F −1 (u)} = 0,
genau dann, wenn u ≤ F (r),
Die letztgenannte Eigenschaft nutzen wir wie folgt aus: Seien U1 , U2 , . . . , Un unabh¨angige, nach U[0, 1] verteilte Zufallsvariablen. Dabei ist U[a, b] die uniforme Verteilung auf [a, b]; das heißt, U[a, b](A) := Leb(A ∩ [a, b])/(b − a) mit dem Lebesguemaß Leb(·) auf R. Aus Eigenschaft (2.1) folgt, daß Xi := F −1 (Ui ) ∼ F, denn IP{F −1 (Ui ) ≤ r} = IP{Ui ≤ F (r)} = F (r). Mithilfe dieser speziellen Konstruktion der Variablen Xi und der empirischen Verteilungsfunktion b n (t) := G
n 1X 1{Ui ≤ t} n i=1
der Variablen U1 , U2 , . . . , Un ist dann b n (F (r)). Fbn (r) = G
Insbesondere ist b n − id k b kFbn − F kR = kG F (R) ≤ kGn − id k[0,1] , b n − id k kFbn − F kR = kG [0,1]
falls F stetig ist.
13 Dabei ist id(r) := r. Aufgrund dieser Darstellung von empirischen Veteilungsfunktionen gen¨ ugt es im wesentb n zu untersuchen. lichen, den uniformen empirischen Prozess G
Aufgaben Aufgabe 2.1 Warum wird P durch seine Verteilungsfunktion eindeutig charakterisiert? Aufgabe 2.2 Man beweise die Stetigkeitseigenschaften von F und F −1 . Aufgabe 2.3 Sei |x| F (dx) < ∞. F¨ ur 0 < u < 1 sei hu (r) := ur+ + (1 − u)r− . Zeigen Sie, daß die Menge der Minimalstellen der Funktion R
r 7→
Z
hu (x − r) F (dx)
gleich [F −1 (u), F −1 (u +)] ist. Hinweis: Die genannte Funktion ist konvex. Berechnen Sie ihre links- und rechtsseitigen Ableitungen. Aufgabe 2.4 Man zeige, daß im Falle einer stetigen Verteilungsfunktion F gilt: Z
R
Z
R
h(Fbn (t), F (t)) F (dt) =L
h(Fbn (t), F (t)) Fbn (dt) =L
Z
[0,1]
Z
[0,1]
b n (u), u) du, h(G b n (u), u) G b n (du) h(G
f¨ ur messbare Funktionen h : [0, 1]2 → R (vorausgesetzt, die Integrale sind wohldefiniert). Aufgabe 2.5 Seien U(1,n) < U(2,n) < · · · < U(n,n) die Ordnungsstatistiken der Variablen U1 , U2 , . . . , Un ; das heißt, {U(1,n) , U(2,n) , . . . , U(n,n) } = {U1 , U2 , . . . , Un }. [a] Zeigen Sie, daß die Verteilung des Vektors U(·,n) := (U(i,n) )1≤i≤n die Dichte n
f (u) := n! 1 0 < u1 < u2 < · · · < un < 1
o
bez¨ uglich des Lebesguemaßes auf Rn hat. [b] Zeigen Sie, daß mit U(0,n) := 0 und U(n+1,n) := 1 gilt:
U(k,n) − U(k−1,n)
1≤k≤n+1
=L
!
Yk Pn+1 i=1
Yi
1≤k≤n+1
14KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION
1 1
0.8 0.5 0.6 0 0.4 -0.5 0.2
-1 0 -3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
1 1
0.8 0.5 0.6 0 0.4 -0.5 0.2
-1 0 -3
-2
-1
0
1
2
3
1 1
0.8 0.5 0.6 0 0.4 -0.5 0.2
-1 0 -3
-2
-1
0
1
2
3
1 1
0.8 0.5 0.6 0 0.4 -0.5 0.2
-1 0 -3
-2
-1
0
1
2
3
√ Abbildung 2.1: Realisationen von Fbn und n(Fbn − F ) f¨ ur n = 10, 50, 200, 500, wobei P = N (0, 1)
15 mit unabh¨angigen, exponentialverteilten Zufallsvariablen Y1 , Y2 , . . . , Yn+1 ; das bedeutet, IP{Yi > t} = e−t f¨ ur t ≥ 0. [c] Zeigen Sie, daß max
1≤k≤n+1
U(k,n) − U(k−1,n)
n+1 →p 1. log(n + 1)
Aufgabe 2.6 Sei F eine stetige Verteilungsfunktion. [a] Berechnen Sie den Erwartungswert von n
Z
(Fbn − F )2 dF.
[b] Berechnen Sie den Erwartungswert von n X i=1
2
Fen (Xi ) − F (Xi ) ,
wobei Fen := n(n + 1)−1 Fbn . Hinweis: Seien U(1,n) < U(2,n) < · · · < U(n,n) uniforme Ordnungsstatistiken wie in Aufgabe 2.5. Dann ist die Variable U(j,n) Beta-verteilt mit Parametern j und n + 1 − j (Beweis ?)1 . Berechnen Sie nun ihren Erwartungswert und ihre Varianz.
1
Die Beta-Verteilung mit Parametern a, b > 0 hat Lebesgue-Dichte 1{0 < u < 1}ua−1 (1 − u)b−1 .
16KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION
Kapitel 3
Uniforme Konsistenz via Bracketing Der folgende Satz liefert ein einfaches, aber oft erfolgreiches Kriterium, um uniforme Konsistenz von Pbn nachzuweisen. Letzteres bedeutet, daß kPbn − P kF in Wahrscheinlichkeit gegen Null konvergiert. Dabei wird die Klasse F durch endliche Teilmengen approximiert. Satz 3.1 Angenommen, zu jedem > 0 existieren m ∈ N und Funktionen g1 , h1 , g2 , h2 , . . . , gm , hm in L1 (P ), so daß gilt: F¨ ur alle j ≤ m ist gj ≤ hj und P (hj − gj ) ≤ ; zu jedem f ∈ F existiert ein j ≤ m mit gj ≤ f ≤ hj . Dann konvergiert IE kPbn − P kF gegen Null1 . Beweis: F¨ ur g1 , h1 , g2 , h2 , . . . , gm , hm mit den genannten Eigenschaften gilt: Ist f ∈ F mit gj ≤ f ≤ hj , so ist (Pbn − P )f
(Pbn − P )f
≤ Pbn hj − P gj
= (Pbn − P )hj − P (hj − gj )
≤ (Pbn − P )hj + , ≥ Pbn gj − P hj
≥ (Pbn − P )gj − .
1 Wir ignorieren hier die Frage der Messbarkeit von kPbn −P kF . Der Beweis wird zeigen, daß kPbn −P kF ≤ Yn mit Zufallsvariablen Yn , so daß IE Yn → 0.
17
18
KAPITEL 3. UNIFORME KONSISTENZ VIA BRACKETING
Folglich ist IE kPbn − P kF ≤
m X
j=1
IE (Pbn − P )gj +
m X
j=1
IE (Pbn − P )hj + → ,
denn nach dem schwachen Gesetz der großen Zahlen konvergiert IE |(Pbn − P )a| gegen Null f¨ ur jedes feste a ∈ L1 (P ). 2 Mithilfe dieses Kriteriums kann man im Spezialfall X = R zeigen, daß IE kFbn − F kR → 0. o
Denn kFbn − F kR = kPbn − P kF mit F = {1]−∞,r] : r ∈ R . Ohne Einschr¨ankung sei F stetig; siehe Kapitel 2. F¨ ur > 0 sei dann m := d1/e und hj := 1]−∞,F −1 (j/m)] ,
gj := hj−1
mit hm := 1, h0 := 0. Diese Funktionen g1 , h1 , g2 , h2 , . . . , gm , hm erf¨ ullen die Voraussetzungen von Satz 3.1.
Aufgaben Aufgabe 3.1 Wie k¨onnte man die Funktionen gj , hj in Satz 3.1 w¨ahlen, wenn man nachweisen will, daß IE kFbn − F kR → 0, ohne Stetigkeit von F vorauszusetzen? Aufgabe 3.2 Sei P = U([0, 1]2 ), die Gleichverteilung auf dem Einheitsquadrat, und F = n o 2 1C : C ⊂ R abgeschlossen und konvex . Zeigen Sie, daß IE kPbn − P kF → 0.
Zusatz: Beweisen Sie die gleiche Aussage f¨ ur Verteilungen P , welche absolutstetig bez¨ uglich des Lebesgue-Maßes sind.
Kapitel 4
Symmetrisierungen In diesem Kapitel geht es darum, f¨ ur stochastische Prozesse Z auf einer Menge T die Supremumsnorm kZk = kZkT nach oben abzusch¨atzen, indem man Z mit geeigneten Prozessen Ze vergleicht, deren Verteilung man mitunter besser handhaben kann.
Um sicherzustellen, daß Zufallselemente wie kZkT messbar sind, nehmen wir stets an, daß T abz¨ahlbar ist. In der Regel kann man sich mithilfe eines einfachen Approximationsargumentes auf diesen Fall zur¨ uckziehen.
4.1
Die erste Symmetrisierung
Oftmals ist kZ −Z 0 k einfacher zu behandeln als kZk, wenn Z 0 eine unabh¨angige Kopie von Z ist. Falls eine solche Kopie nicht existiert, kann man den urspr¨ unglichen WahrscheinT lichkeitsraum (Ω, A, IP) mit Z : Ω → R in den Produktraum (Ω × Ω, A ⊗ A, IP ⊗ IP) einbetten verm¨oge Z(t)(ω1 , ω2 ) := Z(t)(ω1 ),
Z 0 (t)(ω1 , ω2 ) := Z(t)(ω2 ).
Das n¨achste Lemma beschreibt zwei von vielen M¨oglichkeiten, wie man von kZ − Z 0 k auf kZk schließen kann, wobei Z 0 nicht unbedingt die gleiche Verteilung wie Z haben muss. Lemma 4.1 Seien Z, Z 0 unabh¨angige stochastische Prozesse auf T . [a] Angenommen, es existieren Konstanten δ, β > 0, so daß n
IP |Z 0 (t)| ≤ δ
o
≥ β
f¨ ur beliebige t ∈ T . Dann ist n
IP kZk > η
o
n
≤ β −1 IP kZ − Z 0 k > η − δ 19
o
f¨ ur alle η ≥ 0.
20
KAPITEL 4. SYMMETRISIERUNGEN
[b] Angenommen, IE Z 0 ≡ 0. Dann ist IE Ψ(kZk) ≤ IE Ψ(kZ − Z 0 k) f¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞) → [0, ∞]. Beweis von Lemma 4.1: F¨ ur Teil [a] sei ohne Einschr¨ankung T ⊂ N, und sei τ = τ (Z) :=
(
n
min t ∈ T : |Z(t)| > η min(T )
o
falls kZk > η, sonst.
Dann ist τ eine T -Zufallsvariable, so daß kZk > η genau dann, wenn |Z(τ )| > η. Nun ist n
IP kZ − Z 0 k > η − δ
o
n
≥ IP |Z(τ ) − Z 0 (τ )| > η − δ
o
n
≥ IP |Z(τ )| > η und |Z 0 (τ )| ≤ δ
o
= IE IP |Z(τ )| > η und |Z 0 (τ )| ≤ δ Z
= IE 1{|Z(τ )| > η} IP |Z 0 (τ )| ≤ δ Z ≥ IE 1{|Z(τ )| > η}β n
o
= β IP kZk > η . F¨ ur den Beweis von Teil [b] ben¨otigt man die Jensensche Ungleichung: F¨ ur ein WahrscheinR lichkeitmaß RQ auf Rmit R |x| Q(dx) < ∞ und eine konvexe Funktion h : R → ] − ∞, ∞] ist stets h x Q(dx) ≤ h(x) Q(dx). Verm¨oge Ψ(−r) := Ψ(r) f¨ ur r > 0 wird Ψ eine gerade, konvexe Funktion auf R. Nun ist
IE Ψ kZk
= IE sup Ψ Z(t) t∈T
= IE sup Ψ IE Z(t) − Z 0 (t) Z t∈T
≤ IE sup IE Ψ Z(t) − Z 0 (t) Z t∈T
≤ IE IE sup Ψ Z(t) − Z 0 (t) Z t∈T
= IE Ψ(kZ − Z 0 k)
4.2
2
Die zweite Symmetrisierung
Nun betrachten wir den speziellen Prozess Zn = φn1 , φn2 , . . . , φnn ,
Pn
i=1 φni
φ0n1 , φ0n2 , . . . , φ0nn ,
aus Abschnitt 1.3. Seien ξ1 , ξ2 , . . . , ξn
4.2. DIE ZWEITE SYMMETRISIERUNG
21
stochastisch unabh¨angig, wobei L(φ0ni ) = L(φni )
und L(ξi ) = U{−1, 1}.
Die Zufallsfolge (ξ1 , ξ2 , . . . , ξn ) ist eine sogenannte Rademacher-Folge. Die erste Symmetrisierung, angewandt auf Z = Zn (oder Z = Zn − IE Zn ) und Z 0 = Zn0 (oder Z 0 = Zn0 − IE Zn0 = Zn0 − IE Zn ), f¨ uhrt zu dem Prozess n X
Zn − Zn0 =
(φni − φ0ni ).
i=1
Da f¨ ur alle i ≤ n die Prozesse φni und φ0ni identisch verteilt sind, ist mit (φ00ni , φ000 ni )
:=
(
(φni , φ0ni ) falls ξi = 1, (φ0ni , φni ) falls ξi = −1,
000 0 0 das Tupel (φ00n1 , . . . , φ00nn , φ000 n1 , . . . , φnn ) genauso verteilt wie (φn1 , . . . , φnn , φn1 , . . . , φnn ). Deshalb ist
Zn − Zn0 =L
n X
(φ00ni − φ000 ni ) =
n X i=1
i=1
Zn − Zn0 =L
ξi (φni − φ0ni ) = Zno − Zeno ,
n X
(φ00ni − φ000 ni )
n X
ξi (φni − φ0ni )
i=1
=
i=1 Zno −
= wobei Zno :=
n X
ξi φni
i=1
Zeno ,
und Zeno :=
n X
ξi φ0ni .
i=1
Diese Prozesse Zno und Zeno sind zwar nicht unabh¨angig, aber identisch verteilt. Hieraus ergeben sich folgende Ungleichungen. Lemma 4.2 [a] F¨ ur beliebige η ≥ 0 ist n
IP kZn − Zn0 k > η
o
n
o
≤ 2 IP kZno k > η/2 .
[b] F¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞[ → [0, ∞] ist
IE Ψ kZn − Zn0 k
≤ IE Ψ 2kZno k .
22
KAPITEL 4. SYMMETRISIERUNGEN
Beweis: Da kZn − Zn0 k =L kZno − Zeno k ≤ kZno k + kZeno k, ist n
IP kZn − Zn0 k ≥ η
o
n
o
n
o
≤ IP kZno k ≥ η/2 + IP kZeno k ≥ η/2 n
o
= 2 IP kZno k ≥ η/2 , und
IE Ψ kZn − Zn0 k
1
≤ IE Ψ
2kZno k + 2kZeno k
2 1 1 IE Ψ(2kZno k) + IE Ψ(2kZeno k) ≤ 2 2 = IE Ψ(2kZno k). 2
Nach der zweiten Symmetrisierung kann man mit der bedingten Verteilung von Zno gegeben φn1 , φn2 , . . . , φnn arbeiten. Das heißt, die φni werden als feste Funktionen auf T betrachtet, und nur noch die ξi sind zuf¨allig.
4.3
Entsymmetrisierung
Eine naheliegende Frage ist, ob die Absch¨atzungen bei den zwei Symmetrisierungen sehr konservativ sind. Mit anderen Worten, haben kZn k (oder kZn − IE Zn k) und kZno k ¨ahnliche Eigenschaften? Zumindest im Falle identisch verteilter Prozesse φni kann man folgende Aussage machen. Lemma 4.3 Angenommen, die Prozesse φn1 , φn2 , . . . , φnn sind identisch verteilt, und IE φn1 = IE Zn /n ist wohldefiniert in RT . Dann gilt f¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞[ → [0, ∞] und 0 < λ < 1: 1
IE Ψ
2
kZn − IE Zn k 2
≤ λ IE Ψ
λ
≤ IE Ψ kZno k
kZn − IE Zn k + (1 − λ) IE Ψ
1 1−λ
Pn
i=1 ξi
n
k IE Zn k .
Speziell f¨ ur Ψ := id ergibt sich Korollar 4.4 n X
IE kZn − IE Zn k/2 ≤ IE kZno k ≤ 2 IE kZn − IE Zn k + IE
i=1
ξi /n k IE Zn k
1 ≤ 2 IE kZn − IE Zn k + √ k IE Zn k. n
4.3. ENTSYMMETRISIERUNG
23
√ Falls also k IE Zn k = o( n), dann ist IE kZn − IE Zn k = o(1) genau dann, wenn IE kZno k = o(1). Beweis von Lemma 4.3: Die erste Ungleichung folgt aus den Symmetrisierungslemmata 4.1 und 4.2. F¨ ur die zweite Ungleichung seien I := {i ≤ n : ξi = 1} und J := {j ≤ n : ξj = −1} = {1, . . . , n} \ I. Dann ist Zno =
n X
ξi (φni − IE φn1 ) +
X
(φni − IE φn1 ) −
i=1
=
n X
ξi IE φn1
i=1
i∈I
X
(φnj − IE φn1 ) + Yn IE Zn
j∈J
= Z(I) − Z(J) + Yn IE Zn , wobei Yn := ni=1 ξi /n und Z(M ) := i∈M (φni − IE φn1 ). Doch Zn − IE Zn = Z(I) + Z(J) , und Z(I) , Z(J) sind stochastisch unabh¨angig und zentriert, gegeben I. Man kann also das Symmetrisierungslemma 4.1 auf die bedingte Verteilung von (Z, Z 0 ) = (Z(I) , −Z(J) ) beziehungsweise (Z, Z 0 ) = (Z(J) , −Z(I) ) gegeben I anwenden und erh¨alt P
P
2 λ 2 |Y | λ n IE Ψ kZ(I) k + IE Ψ kZ(J) k + (1 − λ) IE Ψ k IE Zn k 2 λ 2 λ 1−λ 2 λ 2 λ ≤ IE Ψ kZ(I) + Z(J) k + IE Ψ kZ(J) + Z(I) k 2 λ 2 λ |Y | n + (1 − λ) IE Ψ k IE Zn k 1−λ 2 |Y | n = λ IE Ψ kZn − IE Zn k + (1 − λ) IE Ψ k IE Zn k . 2 λ 1−λ
IE Ψ(kZno k) ≤
24
KAPITEL 4. SYMMETRISIERUNGEN
Kapitel 5
Der klassische empirische Prozess, II: Eine Exponentialungleichung Seien X1 , X2 , . . . , X2n unabh¨angige Zufallsvariablen mit Verteilungsfunktion F , und seiPn P2n b0 en Fbn (t) := i=1 1{Xi ≤ t}/n und Fn (t) := i=n+1 1{Xi ≤ t}/n die empirischen Verteilungsfunktionen der ersten beziehungsweise letzten n Variablen. Mithilfe der ersten Symmetrisierung beweisen wir nun folgende Ungleichung, welche zeigt, daß sogar kFbn − F kR = Op (n−1/2 ). Satz 5.1 F¨ ur beliebige n ∈ N und η ≥ 0 ist o n√ IP nkFbn − F kR ≥ η ≤ 4 exp −(η − 1)2 . Im Hinblick auf die erste Symmetrisierung betrachten wir nun kFbn − Fbn0 kR . Diese Statistik kann man auch als Teststatistik f¨ ur das Zwei-Stichproben-Problem auffassen. Dabei testet man die Hypothese, daß X1 , X2 , . . . , X2n identisch verteilt sind, gegen die Alternative, daß L(Xi ) =
(
P f¨ ur i ≤ n, P 0 f¨ ur i > n,
wobei P 0 6= P . Die exakte Verteilung von kFbn − F kR und kFbn − Fbn0 kR wurde von Kolmogorov beziehungsweise Smirnov bereits in den 30er Jahren studiert. Der kombinatorische Beweis des nachfolgenden Satzes geht auf Gnedenko und Koroljuk (1961) zur¨ uck. Satz 5.2 (Smirnov, Gnedenko-Koroljuk). F¨ ur beliebige n ∈ N und ganze Zahlen 0 ≤ m ≤ n ist n 2n . 2n mo IP sup(Fbn − Fbn0 )(r) ≥ ≤ . n+m n n r∈R 25
26KAPITEL 5. DER KLASSISCHE EMPIRISCHE PROZESS, II:EINE EXPONENTIALUNGLEICHUNG Gleichheit gilt, wenn F stetig ist. Korollar 5.3 F¨ ur beliebige n ∈ N und γ ≥ 0 ist n
IP kFbn − Fbn0 kR > γ
o
≤ exp(1 − nγ 2 ).
Beweis von Satz 5.1: F¨ ur alle r ∈ R ist IE Fbn (r) = F (r) und Var[Fbn (r)] =
F (r)(1 − F (r)) 1 ≤ . n 4n
Aus Tshebyshevs Ungleichung folgt somit, daß n 1 o 3 IP |(Fbn0 − F )(r)| ≤ √ ≥ . n 4
Dann liefert das Symmetrisierungslemma 4.1 [a] die Ungleichung n η o 4 n η − 1o IP kFbn − F kR > √ ≤ IP kFbn − Fbn0 kR > √ n 3 n
(5.1)
f¨ ur beliebige η ≥ 0. (Da die Funktionen Fbn , Fbn0 , F rechtsseitig stetig sind, kann man R durch die Menge der rationalen Zahlen ersetzen.) F¨ ur η ≥ 1 ist die rechte Seite von (5.1) nicht gr¨oßer als 4 exp 1 − (η − 1)2 < 4 exp(−(η − 1)2 ). 3 F¨ ur 0 ≤ η < 1 ist letztere Schranke ohnehin gr¨oßer als Eins. 2 Beweis von Korollar 5.3: Zum einen ist n
IP kFbn − Fbn0 kR > γ n
o
≤ IP sup(Fbn − Fbn0 ) > γ R
n
o
n
+ IP sup(Fbn0 − Fbn ) > γ R
o
o = 2 IP sup(Fbn − Fbn0 ) > γ . R
Außerdem nimmt die Variable supR (Fbn − Fbn0 ) nur Werte in {0, 1/n, 2/n, . . . , 1} an. Deshalb gen¨ aß Satz 5.2 ist dann nugt es, γ = m/n mit o m ∈ {1, 2, . . . , n} zu betrachten. Doch gem¨ 0 b b IP supR (Fn − Fn ) ≥ γ nicht gr¨oßer als
2n . 2n = n+m n =
m−1 Y
n−i n+1+i
i=0 m−1 Y i=0
n − i . (1 + γ) n+i
27 m−1 X
= exp
log
i=1 m−1 X
≤ exp −2
1 − i/n
1 + i/n
− log(1 + γ)
i/n − log(1 + γ)
i=1
= exp −m(m − 1)/n − log(1 + γ)
= exp −nγ 2 + γ − log(1 + γ) ≤ exp(1 − nγ 2 )/2.
Dabei benutzen wir die Tatsachen, daß log (1 − r)/(1 + r) ≤ −2r und r − log(1 + r) ≤ 1 − log(2) f¨ ur 0 ≤ r ≤ 1. 2 Beweis von Satz 5.2: Mithilfe der Quantiltransformation in Kapitel 2 kann man zeigen, daß es gen¨ ugt, stetige Verteilungsfunktionen F zu betrachten. Insbesondere sind dann die Variablen X1 , X2 , . . . , X2n fast sicher paarweise verschieden. Nun seien X(1) < X(2) < . . . < X(2n) die entsprechenden Ordnungsstatistiken1 . Ferner sei Ei :=
(
1 falls X(i) = Xj f¨ ur ein j ≤ n, −1 falls X(i) = Xj f¨ ur ein j > n.
Nun kann man zeigen, daß der Vektor E auf der Menge aller e ∈ {−1, 1}2n mit 2n i=1 ei = 0 gleichverteilt ist. Hierf¨ ur muss man sich nur klarmachen, was mit E passiert, wenn man die urspr¨ unglichen Variablen Xi durch Xπ(i) ersetzt, wobei π eine beliebige feste Permutation von {1, 2, . . . , 2n} ist. F¨ ur t < X(1) oder t ≥ X(2n) ist (Fbn − Fbn0 )(t) = 0. F¨ ur X(k) ≤ t < X(k+1) , 1 ≤ k < 2n, ist P
n(Fbn − Fbn0 )(t)
=
n(Fbn − Fbn0 )(X(k) )
=
2n X
1{Xi ≤ X(k) } 1{i ≤ n} − 1{i > n}
=
2n X
1{X(j) ≤ X(k) }Ej
k X
Ej
i=1
j=1
=
j=1
=: Sk . Mit S0 := 0 ist folglich n
1
IP sup n(Fbn − Fbn0 ) ≥ m R
Also {X(i) : 1 ≤ i ≤ 2n} = {Xi : 1 ≤ i ≤ 2n}.
o
n
= IP
o
max Sk ≥ m .
0≤k≤2n
28KAPITEL 5. DER KLASSISCHE EMPIRISCHE PROZESS, II:EINE EXPONENTIALUNGLEICHUNG Um letztere Wahrscheinlichkeit zu berechnen, wenden wir das Spiegelungsprinzip an. Der Partialsummenvektor S := (Sk )0≤k≤2n ist gleichverteilt auf der Menge W0 , wobei allgemein n
W :=
o
s = (sk )0≤k≤2n : s0 = 0, |sk − sk−1 | = 1 f¨ ur 1 ≤ k ≤ 2n ,
Wm := {s ∈ W : s2n = 2m}. Ein Vektor s in W geh¨ort zu Wm genau dann, wenn f¨ ur die Zahl x der positiven Zuw¨achse sk − sk−1 gilt: x − (2n − x) = 2m, also x = n + m. Folglich ist #Wm =
2n . n+m
Dabei bezeichnet #M die Kardinalit¨at einer Menge M . Nun definieren wir
τ (s) := min {k : sk = m} ∪ {2n + 1} , sek :=
(
sk falls k ≤ τ (s), sτ (s) − (sk − sτ (s) ) falls k ≥ τ (s),
se := (se0 , se1 , . . . , se2n ).
n
Mit anderen Worten, die Punkte (k, sk ) ∈ R2 werden f¨ ur k ≥ τ (s) an der Geraden (x, y) ∈ o
R2 : y = m gespiegelt. Diese Abbildung W 3 s 7→ se ∈ W ist bijektiv, und n
o
se : s ∈ W0 , max sk ≥ m
Daher ist IP
n
max Sk ≥ m
0≤k≤2n
1≤k≤2n
o
= #Wm /#W0 =
= Wm .
2n . 2n . n+m n
2
Aufgaben Aufgabe n√ 5.1 Berechnen Sie im Falle einer stetigen Verteilungsfunktion F den Grenzwert ur feste η ≥ 0. von IP n supR (Fbn − Fbn0 ) ≥ η} f¨ Aufgabe 5.2 Sei W gleichverteilt auf der Menge n
o
w = (wk )0≤k≤n : w0 = 0, |wk − wk−1 | = 1 f¨ ur 1 ≤ k ≤ n .
[a] Berechnen Sie mithilfe des Spiegelungsprinzips die Wahrscheinlichkeit, daß max Wk ≥ m.
0≤k≤n
Wie verh¨alt sich diese Wahrscheinlichkeit asymptotisch, wenn m = mn und n → ∞? [b] Berechnen Sie f¨ ur ganze Zahlen a < b die Wahrscheinlichkeit, daß WI = b und WJ = a f¨ ur geeignete Indizes 0 ≤ I < J ≤ n.
Kapitel 6
Exponentialungleichungen Zun¨achst sei an Tshebyshevs Ungleichung erinnert, wonach IP{Y ≥ η} ≤ IE Y + /η f¨ ur reelle Zufallsvariablen Y und Konstanten η > 0. Diese Schranke ist oft sehr konservativ. Ersetzt man jedoch Y und η durch erY und erη , wobei r > 0, dann ist die resultierende Schranke oftmals erstaunlich pr¨azise. Dies demonstrieren wir zun¨achst f¨ ur eine standardnormalverteilte Zufallsvariable Y . Bekanntlich ist IP{Y ≥ η} =
exp(−η 2 /2) √ (1 + o(1)) = exp(−η 2 /2 + o(η 2 )) 2πη
(η → ∞)
Andererseits ist IP{Y ≥ η} ≤ inf IE exp(rY )/ exp(rη) = inf exp(r2 /2 − rη) = exp(−η 2 /2) r>0
r>0
f¨ ur beliebige η ≥ 0. Andere Beispiele werden in Aufgabe 6.2 behandelt. Die Theorie der großen Abweichungen (large deviations) erkl¨art genauer, weshalb diese Methode zu recht pr¨azisen Absch¨atzungen f¨ uhrt. Satz 6.1 (Hoeffding 1963). Seien Y1 , Y2 , . . . , Yn unabh¨angige, reelle Zufallsvariablen, so daß f¨ ur 1 ≤ i ≤ n gilt: IE Yi = 0 und ai ≤ Yi ≤ bi mit Konstanten ai < 0 < bi . Dann ist n nX
IP
Yi ≥ η
o
≤ exp −2η
2
i=1
n .X i=1
29
(bi − ai )2
∀ η > 0.
30
KAPITEL 6. EXPONENTIALUNGLEICHUNGEN
Korollar 6.2 F¨ ur beliebige reelle Zahlen c1 , c2 , . . . , cn und η ≥ 0 ist n n X
IP
i=1
ξi ci ≥ η
o
η2 ≤ 2 exp − Pn 2 . 2 i=1 ci
21
Das Korollar folgt aus Hoeffdings Ungleichung, angewandt auf Yi := ±ξi ci ,
bi = −ai := |ci |.
Man beachte, daß ni=1 c2i gleich der Varianz von ni=1 ξi ci ist. Eine allgemeine Exponentialungleichung, welche explizit Varianzen ber¨ ucksichtigt, ist P
P
Satz 6.3 (Bennett 1962). Seien Y1 , Y2 , . . . , Yn unabh¨angige, reelle Zufallsvariablen, so daß IE Yi = 0 und Yi ≤ M < ∞ Ferner sei
Pn
i=1 Var(Yi ) n nX
IP
f¨ ur 1 ≤ i ≤ n.
≤ V < ∞. Dann ist
Yi ≥ η
o
≤ exp −
i=1
wobei B(x) :=
η2 B(M η/V ) 2V
f¨ ur beliebige η > 0,
(1 + x) log(1 + x) − x . x2 /2
Korollar 6.4 Seien Y1 , Y2 , . . . , Yn unabh¨angige, identisch verteilte Zufallsvariablen mit IE Yi = 0,
Yi ≤ M < ∞
und
Var(Yi ) ≤ σ 2
f¨ ur alle i = 1, 2, . . . , n.
Dann ist n o η 2 ηM n 1 X Yi ≥ η ≤ exp − 2 B √ 2 IP √ n i=1 2σ nσ
f¨ ur beliebige η > 0.
Anmerkung 6.5 Die Funktion B hat folgende Eigenschaften: B(x) ist stetig und monoton fallend in x > 0; xB(x) ist monoton wachsend in x > 0; limx↓0 B(x) = 1; B(x) = (2 + o(1)) log(x)/x f¨ ur x → ∞.
31 Anmerkung 6.6 F¨ ur beliebige x > 0 ist 1 . 1 + x/3
B(x) ≥
Setzt man dies in Korollar 6.4 ein, erh¨alt man die Bernstein-Ungleichung. Beweis der Hoeffding-Ungleichung: Nach Tshebyshevs Ungleichung ist n nX
IP
Yi ≥ η
o
≤ IE exp −tη + t
i=1
n X
Yi
= exp(−tη)
i=1
n Y
IE exp(tYi )
i=1
f¨ ur beliebige t > 0. Nun ist Yi − ai tbi bi − ai bi − ai bi − Yi Yi − ai exp(tai ) + exp(tbi ), bi − ai bi − ai
exp(tYi ) = exp ≤
b − Y i i
tai +
und wegen IE Yi = 0 ist bi −ai exp(tai ) + exp(tbi ) = e−uλ (1 − λ) + λeu , bi − ai bi − ai
IE exp(tYi ) ≤
wobei λ := −ai /(bi − ai ) ∈ ur den Logarithmus der rechten (0, 1) und u := t(bi − ai ) > 0. F¨ Seite, L(u) := −uλ + log (1 − λ) + λeu , gilt: λ , (1 − λ)e−u + λ λ λ 1 − ≤ 1/4 (1 − λ)e−u + λ (1 − λ)e−u + λ
L0 (u) = −λ + L00 (u) =
wegen der bekannten Ungleichung x(1 − x) ≤ 1/4 f¨ ur beliebige x ∈ R. Folglich ist L(u) = L(0) + uL0 (0) + u2 L00 (u∗ )/2 = u2 L00 (u∗ )/2 ≤ u2 /8 f¨ ur eine geeignete Zwischenstelle u∗ ∈ (0, u). Setzt man diese obere Schranke exp(u2 /8) f¨ ur IE exp(tYi ) in die erste Ungleichung des Beweises ein, dann zeigt sich, daß n nX
IP
Yi ≥ η
o
≤ exp −tη + t2
i=1
und f¨ ur t = 4η
.P
n i=1 (bi
n X
(bi − ai )2 /8 ,
i=1
− ai )2 folgt die gew¨ unschte Absch¨atzung.
2
Beweis der Bennett-Ungleichung: Mithilfe eines Reskalierungsargumentes sieht man, daß es gen¨ ugt, den Fall M = 1 zu betrachten. Wie wir sp¨ater zeigen werden, ist (6.1)
n X
IE exp t
i=1
Yi
≤ exp V (et − 1 − t)
f¨ ur alle t > 0.
32
KAPITEL 6. EXPONENTIALUNGLEICHUNGEN
Nun folgt aus Tshebyshevs Ungleichung, daß n nX
IP
Yi ≥ η
o
≤ inf exp V (et − 1 − t) − tη t>0
i=1
= exp V (eto − 1 − to ) − to η
= exp −
η 2 η B , 2V V
wobei to = log(1 + η/V ). Beweis von (6.1): Zu zeigen ist im wesentlichen, daß f¨ ur festes t > 0 und eine beliebige Zufallsvariable Y mit IE Y = 0, Y ≤ 1 und endlicher Varianz σ 2 gilt:
IE exp(tY ) ≤ 1 + σ 2 (et − 1 − t)
≤ exp σ 2 (et − 1 − t)
.
Falls |Y | ≤ 1, folgt dies einfach aus IE exp(tY ) = 1 +
∞ X
tk IE Y k /k!
k=2
≤ 1+σ
2
∞ X
tk /k!
k=2
= 1 + σ 2 (et − 1 − t). Im allgemeinen ist die Sache etwas komplizierter. F¨ ur ein beliebiges Polynom p zweiten Grades h¨angt IE p(Y ) nur von σ ab. Nun konstruieren wir ein solches Polynom p derart, daß ety ≤ p(y) f¨ ur beliebige y ≤ M . Dann ist n¨amlich IE exp(tY ) ≤ IE p(Y ), und letzterer Erwartungswert h¨angt nur von p, t und σ 2 ab. F¨ ur µ > 0 sei q(x) := 1 + x + µ−2 (eµ − 1 − µ)x2 . Dann ist q(x)
(
> ex f¨ ur x ∈ ] − ∞, µ[\{0}, = ex f¨ ur x ∈ {0, µ}.
Denn einerseits ist x
q(x) − e
2
= (x /2)
∞ X
(µk−2 − xk−2 )/k! > 0
k=2
f¨ ur 0 < x < µ. Andererseits ist q(x) = 1 + x + (1 + )x2 /2 f¨ ur ein > 0, weshalb ∂ (q(x) − ex ) = 1 + (1 + )x − ex ≤ x < 0 ∂x
33 f¨ ur x < 0. F¨ ur yo < 1 sei nun µ := t(1 − yo ) und
p(y) := etyo q t(y − yo ) . Dann ist p(y)
(
> ety f¨ ur y ∈ ] − ∞, 1[\{yo }, = ety f¨ ur y ∈ {yo , 1}.
Folglich ist IE exp(tY ) ≤ IE p(Y ), und Gleichheit gilt genau dann, falls L(Y ) auf {yo , 1} konzentriert ist. Doch die ersten zwei Momente von Y implizieren dann, daß notwendig yo = −σ 2 und IP{Y = yo } = 1/(1 + σ 2 ), IP{Y = 1} = σ 2 /(1 + σ 2 ). Somit haben wir gezeigt, daß allgemein 2
IE exp(tY ) ≤ wobei
e−tσ + σ 2 et = 1 + σ 2 (et − 1 − t) − ∆(t), 1 + σ2 2
e−tσ + σ 2 et ∆(t) := 1 + σ (e − 1 − t) − . 1 + σ2 2
t
Doch ∆(0) = 0 und 2
∂ σ 2 e−tσ − σ 2 et ∆(t) = σ 2 (et − 1) + ∂t 1 + σ2 2 σ (1 − tσ 2 ) − σ 2 et ≥ σ 2 (et − 1) + 1 + σ2 4 t σ (e − 1 − t) = 1 + σ2 ≥ 0, weshalb ∆(t) ≥ 0 f¨ ur t ≥ 0.
2
Aufgaben Aufgabe 6.1 Sei Y standardnormalverteilt. Zeigen Sie, daß IP{Y ≥ η} ≤ exp(−η 2 /2)/(2 + η) f¨ ur beliebige η ≥ 0. Aufgabe 6.2 Berechnen Sie Exponentialungleichungen f¨ ur IP{Y ≥ IE Y + η}
und
IP{Y ≤ IE Y − η}
im Falle einer Gamma-, Poisson- und binomialverteilten Zufallsvariable Y .
34
KAPITEL 6. EXPONENTIALUNGLEICHUNGEN
Kapitel 7
Mengenindizierte empirische Prozesse Hier betrachten wir (Pbn D)D∈D mit einer Familie D von meßbaren Teilmengen von X. Wir setzen generell voraus, daß D punktweise separabel ist. Das bedeutet, es gibt eine abz¨ahlbare Teilmenge Do von D, so daß f¨ ur alle D ∈ D eine Folge (Dk )k in Do existiert mit lim 1Dk (x) = 1D (x)
k→∞
f¨ ur alle x ∈ X.
Unter dieser Bedingung ist kνkD = kνkDo f¨ ur jedes endliche signierte Maß ν auf X. Schreibt + − man n¨amlich ν = ν − ν mit endlichen Maßen ν + , ν − , dann folgt aus dem Satz von der majorisierten Konvergenz, daß
|ν(D) − ν(Dk )| ≤ (ν + + ν − ) |1D − 1Dk |
→ 0
(k → ∞).
Daher kann man die Resultate aus Kapitel 4, welche eine abz¨ahlbare Indexmenge voraussetzen, anwenden.
7.1
Glivenko-Cantelli-Klassen
Das erste Ziel ist, notwendige und hinreichende Bedingungen zu finden, unter welchen kPbn − P kD →p 0. In letzterem Falle nennt man D eine Glivenko-Cantelli-Klasse f¨ ur P . Zuerst zwei wichtige Bezeichnungen: Sei E eine endliche Teilmenge von X. Dann sei ∆(E) = ∆(E, D) := #(D ∩ E) ≤ 2#E , wobei D ∩ E := {D ∩ E : D ∈ D}. Die Familie D zerlegt E vollst¨andig, falls D ∩ E = {A : 35
36
KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE
A ⊂ E}, was ¨aquivalent ist zu ∆(E) = 2#E . Ferner sei n
V (E) = V (E, D) := max #A : A ⊂ E, A wird von D vollst¨andig zerlegt =
n
o
o
max #A : A ⊂ E, ∆(A) = 2#A . n
o
Beispiel 7.1 Sei X = R und D = ] − ∞, t] : t ∈ R . F¨ ur nichtleere endliche Mengen Hier ist ∆(E) = #E + 1
und V (E) = 1. o
n
Beispiel 7.2 Sei X = R2 und D = Halbr¨aume D ⊂ R2 . Dabei ist ein Halbraum eine Menge der Form {x ∈ R2 : x>u ≤ r} oder {x ∈ R2 : x>u < r}. Hier kann man leicht nachweisen, daß V (E) ≤ 3. Was kann man u ¨ber ∆(E) sagen? n
o
Beispiel 7.3 Sei X = Rd und D = konvexe Mengen D ⊂ Rd . Ist speziell E eine Teilmenge der Euklidischen Einheitssph¨are {x ∈ Rd : x>x = 1}, dann ist ∆(E) = 2#E
und somit
V (E) = #E.
Denn f¨ ur A ⊂ E ist A = conv(A) ∩ E, wobei conv(A) die konvexe H¨ ulle von A bezeichnet. Der nachfolgende Satz und sein Korollar zeigen, daß die Funktionen ∆(·) und V (·) in engem Zusammenhang stehen. Satz 7.4 F¨ ur jede endliche Teilmenge E von X ist ∆(E) ≤
V (E)
X i=0
#E . i
Korollar 7.5 F¨ ur endliche Mengen E ⊂ X ist stets log(2)
#E V (E) log ∆(E) V (E) ≤ ≤ log e . #E #E #E V (E)
Nun kommen wir zur uniformen Konsistenz von Pbn .
7.1. GLIVENKO-CANTELLI-KLASSEN
37
b n := {X1 , X2 , . . . , Xn }. Folgende f¨ ˇ Satz 7.6 (Vapnik-Cervonenkis, Steele). Sei X unf Aussagen sind ¨aquivalent:
kPbn − P kD →p 0;
(7.1)
IE kPbn − P kD
(7.2)
IE kPbno kD
(7.3)
→
0;
→
0;
b n )/n →p 0; log ∆(X
(7.4)
b n )/n →p 0. V (X
(7.5)
P Dabei ist Pbno := n−1 ni=1 ξi δXi mit einer von (Xi )i unabh¨angigen Rademacherfolge (ξi )i . b n) In den obigen Beispielen 7.1 und 7.2 ist Bedingung (7.5) offensichtlich erf¨ ullt, da V (X stets kleiner als eine feste Konstante ist. Folglich sind diese Klassen D eine GlivenkoCantelli-Klasse f¨ ur beliebige P . In einem sp¨ateren Abschnitt wird diese Aussage durch eine Exponentialungleichung ersetzt werden.
¨ Beweis von Satz 7.6: Die Aquivalenz von (7.2) und (7.1) folgt aus der Tatsache, daß b kPn − P kD ≤ 1. Ebenso ist auch (7.3) ¨aquivalent zu kPbno kD →p 0.
(7.6)
¨ Die Aquivalenz von (7.2) und (7.3) ist eine direkte Konsequenz der Symmetrisierungsungleichungen in Korollar 4.4 und der Tatsache, daß k IE Pbn kD = kP kD ≤ 1.
¨ Die Aquivalenz von (7.4) und (7.5) folgt direkt aus Korollar 7.5.
Nun zeigen wir, daß aus (7.4) Aussage (7.6), also auch (7.3) folgt. Wegen n
o
IP kPbno kD ≥ gen¨ ugt es zu zeigen, daß
= IE IP kPbno kD ≥ X1 , . . . , Xn
IP kPbno kD ≥ X1 , . . . , Xn
→p 0
f¨ ur beliebige feste > 0. Nun ist
n 1 X o b kPn kD = max ξi ai n bn a∈A i=1 o
n
mit Abn := (1D (Xi ))1≤i≤n : D ∈ D ⊂ {0, 1}n , und b n ), #Abn = ∆(X n 1 X
IP
n
i=1
ξi ai ≥ X1 , . . . , Xn
n2
≤ 2 exp −
2
f¨ ur a ∈ {0, 1}n ;
38
KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE
siehe Korollar 6.2. Daher ist
IP kPbno kD ≥ X1 , . . . , Xn
IP n−1
X
≤
bn a∈A
n X i=1
ξi ai ≥ X1 , . . . , Xn
n2
b n ) exp − ≤ 2∆(X
2 b n ) log ∆(X = 2 exp −n − 2 n = op (1). 2
b n) ⊂ Schließlich zeigen wir noch, daß (7.3) Aussage (7.5) impliziert. Dazu sei Ibn = Ibn (X {1, . . . , n} mit
b n) #Ibn = #{Xi : i ∈ Ibn } = V (X
und ∆ {Xi : i ∈ Ibn }
= 2V (Xn ) . b
Ferner sei Z := Z0
1 X ξi δXi , n i∈Ibn
1 := − n
Nach Konstruktion der Menge Ibn ist 1 X
kZk = max M ⊂Ibn
n i∈M
ξi =
X
ξi δXi .
i∈{1,...,n}\Ibn n 1 X
n
ξi+ ∨
i=1
n 1 X
n
ξi−
≥
i=1
b n) V (X . 2n
Ferner sind Z und Z 0 stochastisch unabh¨angig und zentriert, gegeben X1 , . . . , Xn . Zusammen mit Symmetrisierungslemma 4.1 [b] folgt also, daß IE
b n) V (X 2n
≤ IE kZkD
= IE IE kZkD X1 , . . . , Xn
≤ IE IE kZ − Z 0 kD X1 , . . . , Xn = IE kPbno k.
2
Beweis von Satz 7.4: Ohne Einschr¨ankung der Allgemeinheit sei X = E = {1, 2, . . . , n}, also ∆(E, D) = #D. Sei C eine beliebige Familie von Teilmengen von E, so daß gilt: (7.7)
F¨ ur beliebige C ∈ C und j ∈ E ist auch C \ {j} ∈ C.
7.1. GLIVENKO-CANTELLI-KLASSEN
39
In diesem Falle andig zerlegt. Somit ist C enthalten in n wird jede Menge C ∈ o C von C vollst¨ der Menge A ⊂ E : #A ≤ V (E, C) und #C ≤
V (E,C)
X
k=0
n . k
Nun zeigen wir, daß man D endlich oft durch neue Familien ersetzen kann, so daß #D unver¨andert bleibt, w¨ahrend V (E, D) nicht zunimmt, und am Ende Bedingung (7.7) erf¨ ullt ist. Angenommen, D erf¨ ullt Bedingung (7.7) nicht. Dann existiert ein j ∈ E mit n
D \ {j} : D ∈ D
Nun definieren wir
(
T (D) :=
o
6⊂ D.
D \ {j} falls D \ {j} 6∈ D, D sonst.
Man kann leicht zeigen, daß diese Abbildung injektiv ist. Ferner ist V (E, T (D)) ≤ V (E, D), wobei T (D) := {T (D) : D ∈ D}. Dazu gen¨ ugt es zu zeigen, daß A ⊂ E von D vollst¨andig zerlegt wird, falls es von T (D) vollst¨andig zerlegt wird. Ist j 6∈ A, dann folgt dies aus der Tatsache, daß A ∩ T (D) = A ∩ D f¨ ur beliebige D ∈ D. Ist j ∈ A, so existiert nach Voraussetzung zu jedem B ⊂ A ein D ∈ D mit B ∪ {j} = A ∩ T (D). Doch dann ist notwendig j ∈ T (D) = D und D \ {j} ∈ D. Folglich ist B =
(
A∩D falls j ∈ B, A ∩ (D \ {j}) falls j 6∈ B,
also B ∈ A ∩ D. Diese Prozedur wiederholen wir solange, bis Bedingung (7.7) erf¨ ullt ist. Daß dieser Fall nach endlich vielen Schritten eintrifft, folgt aus der Tatsache, daß X
#T (D) <
D∈D
X
#D.
2
D∈D
Beweis von Korollar 7.5: Offensichtlich ist ∆(E) ≥ 2V (E) , woraus die erste behauptete Ungleichung folgt. Ferner gilt f¨ ur n := #E und k := V (E): log ∆(E) n
≤
X n 1 log i n i≤k
[nach Satz 7.4]
40
KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE ≤
X n 1 log eλ(k−i) i n i≤n
[f¨ ur beliebige λ ≥ 0]
1 log eλk (1 + e−λ )n n k = λ + log(1 + e−λ ) n k n i 1 h = H ∧ falls λ = log −1 ∨0 , n 2 k
=
wobei H(x) := −x log x − (1 − x) log(1 − x) mit 0 log(0) := 0. Doch f¨ ur 0 ≤ x < 1 ist −(1 − x) log(1 − x) = (1 − x)
∞ X xk
k=1
k
≤ (1 − x)
∞ X
xk = x,
k=1
e e monoton weshalb H(x) ≤ H(x) := x log(e/x). Ferner kann man leicht nachweisen, daß H e e wachsend ist. Folglich ist H(x ∧ (1/2)) ≤ H(x ∧ (1/2)) ≤ H(x) = x log(e/x) f¨ ur alle x ∈ [0, 1]. 2
ˇ 7.2. VAPNIK-CERVONENKIS-KLASSEN
7.2
41
ˇ Vapnik-Cervonenkis-Klassen
ˇ Die Familie D heißt Vapnik-Cervonenkis-Klasse (VC-Klasse), falls es eine ganze Zahl V ≥ 0 gibt, so daß D keine (V + 1)-elementige Teilmenge von X zerlegt. In Formeln: n
o
V (D) := sup #A : A ⊂ X endlich, ∆(A, D) = 2#A . ˇ Diese Zahl V (D) nennt man mitunter den Vapnik-Cervonenkis-Index oder die Vapnikˇ Cervonenkis-Dimension von D. Offensichtlich ist V (E, D) ≤ V (D) f¨ ur beliebige endliche Mengen E ⊂ X. Hier ist eine andere Charakterisierung der VC-Eigenschaft. ˇ Lemma 7.7 Eine Mengenfamilie D ist genau dann eine Vapnik-Cervonenkis-Klasse, wenn es ein reelles Polynom p gibt, so daß ∆(E, D) ≤ p(#E) f¨ ur beliebige endliche Teilmengen E von X. (Aus diesem Grunde spricht man auch von Mengenfamilien mit polynomialer Diskrimination.) Beweis: Ist V := V (D) < ∞, dann folgt aus Satz 7.4, daß ∆(E) ≤ p(#E) mit dem Polynom ! V X n . p(n) := i i=0 Andererseits gibt es zu einem beliebigen Polynom p eine ganze Zahl V ≥ 0 mit 2n > p(n) f¨ ur alle n > V . Falls also ∆(E, D) ≤ p(#E) f¨ ur beliebige endliche Mengen E ⊂ X, so ist V (D) ≤ V . 2 Das folgende Lemma ist oft n¨ utzlich, wenn man nachweisen will, daß ein bestimmtes Mengensystem eine VC-Klasse ist, indem man es durch endlich viele Boolesche Operationen aus einfacheren Mengenfamilien aufbaut. Den Beweis u ¨berlassen wir dem Leser als ¨ Ubungsaufgabe. Lemma 7.8 Seien C, D Familien von Teilmengen von X. Dann ist
∆ E, {X \ D : D ∈ D}
= ∆(E, D),
∆ E, {C ? D : C ∈ C, D ∈ D}
≤ ∆(E, C)∆(E, D)
42
KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE
f¨ ur beliebige endliche Teilmengen E von X. Dabei bezeichnet ? eine der Verkn¨ upfungen ∩, ∪ oder \. 2 Hier ist ein anderes Kriterium f¨ ur die VC-Eigenschaft. Satz 7.9 Sei G ein endlichdimensionaler Vektorraum von reellen Funktionen auf X. Dann ist nn o o D := x ∈ X : g(x) ≥ 0 : g ∈ G eine VC-Klasse mit VC-Index V (D) ≤ dim(G). Beweis: Sei E ⊂ X mit #E > dim(G). Die Menge n
o
(g(x))x∈E : g ∈ G
E E ist ein Untervektorraum von R mit Dimension d ≤ dim(G) < dim(R ) = #E. Daher existiert ein γ = γ(x) in RE , so daß x∈E
X
f¨ ur alle g ∈ G
γ(x)g(x) = 0
x∈E
und γ(x) 6= 0 f¨ ur mindestens ein x ∈ E. Multipliziert man γ mit −1, falls n¨otig, dann ist E 0 :=
n
o
x ∈ E : γ(x) ≥ 0
6= E.
Doch E 0 6= {g ≥ 0} ∩ E f¨ ur beliebige g ∈ G. Denn anderenfalls w¨are X
X
γ(x)g(x) ≥
γ(x)g(x) > 0.
x∈E\E 0
x∈E
Also wird E von D nicht vollst¨andig zerlegt.
2
Beispiel 7.10 Sei G die Menge aller affin linearen Funktionen x 7→ g(x) = λ0 +
d X
λi xi
(λ0 , . . . , λd ∈ R)
i=1
n
o
auf Rd . Dann ist {g ≥ 0} : g ∈ G die Menge aller abgeschlossenen Halbr¨aume (inklusive Rd und ∅) und stellt eine VC-Klasse mit Index V (D) ≤ d + 1. Betrachtet man stattdessen die Menge G aller Funktionen x 7→ g(x) = λ0 +
d X i=1
λi xi +
d X
i,j=1
λij xi xj
ˇ 7.2. VAPNIK-CERVONENKIS-KLASSEN
43 n
o
mit reellen Koeffizienten λi , λij = λji , dann ist {g ≥ 0} : g ∈ G die Menge aller abgeschlossenen Kegelschnitte (Ellipsen, Hyperboloide, Halbr¨aume, Paraboloide) und zerlegt keine Teilmenge von Rd mit mehr als (d + 1)(d + 2)/2 Elementen. Hier ist noch eine Anmerkung zur punktweisen Separabilit¨at von D: Lemma 7.11 Seien G und D wie in Satz 7.9. Ferner enthalte G eine strikt positive Funktion. Dann ist D punktweise separabel. Beweis: Sei G = span(v0 , v1 , v2 , . . . , vd ) mit v0 > 0. Die Menge Go aller Linearkombinationen von ahlbar und liefert eine Menge n v0 , v1 , v2 , . . . , vdomit rationalen Koeffizienten ist abz¨ Do := {g ≥ 0} : g ∈ Go mit den gew¨ unschten Eigenschaften. Seien n¨amlich λ0 , λ1 , . . . , λd beliebige reelle Zahlen. Dann w¨ahle man Folgen (λik )k von rationalen Zahlen, so daß lim k|λik − λi | = 0
k→∞
f¨ ur 0 ≤ i ≤ d. Mit d X
g(x) :=
λi vi (x)
und gk (x) :=
i=0
d v0 (x) X + λik vi (x) k i=0
konvergiert dann (gk )k punktweise gegen g, und f¨ ur jedes x ∈ X gibt es eine Zahl ko (x), so daß gk (x) > g(x) falls k ≥ ko (x). Dies impliziert, daß n
o
lim 1 gk (x) ≥ 0
k→∞
n
o
= 1 g(x) ≥ 0
f¨ ur alle x ∈ X.
2
Aufgaben Aufgabe 7.1 Sei X = N und D die Menge aller Teilmengen von N. Beweisen Sie die uniforme Konsistenz von Pbn auf D mithilfe [a] elementarer Methoden oder Scheff´es Theorems (s.u.). [b] des Satzes 7.6. Aufgabe 7.2 Beweisen Sie Lemma 7.8. Scheff´es Theorem: Seien fn , f messbare Funktionen auf (Ω, A, µ), so daß gilt: lim sup n→∞
Z
|fn | dµ ≤
Z
lim µ{|fn − f | > } = 0
n→∞
|f | dµ < ∞, f¨ ur beliebige > 0.
44
KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE
Dann ist lim
n→∞
Z
|fn − f | dµ = 0.
Kapitel 8
Abstrakte Gesetze der großen Zahlen In diesem Kapitel werden die Resultate f¨ ur mengenindizierte empirische Prozesse auf den abstrakten Rahmen von Abschnitt 1.3 u ¨bertragen. Hierbei spielt die “Approximation” der Indexmenge T durch endliche Teilmengen eine zentrale Rolle.
8.1
¨ Uberdeckungszahlen
Sei (T , ρ) ein pseudometrischer Raum. Das heißt, ρ ist eine Funktion auf T × T , so daß f¨ ur beliebige s, t, u ∈ T gilt: ρ(s, t) = ρ(t, s) ≥ 0
mit Gleichheit, falls s = t,
ρ(s, t) ≤ ρ(s, u) + ρ(u, t). ¨ F¨ ur > 0 definieren wir nun die Uberdeckungszahl n
o
N (, T , ρ) := min #To : To ⊂ T und ρ(t, To ) ≤ f¨ ur alle t ∈ T ; dabei ist ρ(t, To ) := inf ρ(t, s). s∈To
Mit anderen Worten, N (, T , ρ) ist die kleinste Anzahl von abgeschlossenen Kugeln mit Radius bez¨ uglich ρ, welche die Menge T u ¨berdecken. Mitunter betrachtet man auch die Kapazit¨at n
o
D(, T , ρ) := max #To : To ⊂ T und ρ(s, t) > f¨ ur verschiedene s, t ∈ To . 45
46
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
Wie man leicht nachweist, besteht zwischen beiden Zahlen folgender Zusammenhang: N (, T , ρ) ≤ D(, T , ρ) ≤ N (/2, T , ρ).
(8.1)
Eine hiervon abgeleitete Gr¨oße ist die metrische Entropie log N (, T , ρ)
oder log D(, T , ρ) .
¨ Hier ist ein wichtiges Beispiel f¨ ur die Absch¨atzung von Uberdeckungszahlen. Lemma 8.1 Sei (V, | · |) ein endlichdimensionaler normierter Vektorraum, versehen mit ρ(s, t) := |s − t|, und sei B := {t ∈ T : |t| ≤ 1} die entsprechende abgeschlossene Einheitskugel. Dann ist 2 dim(V) D(, B, ρ) ≤ 1 + f¨ ur beliebige > 0. Anmerkung 8.2 Hier kann man sogar zeigen, daß (8.2)
lim ↓0
log N (, B, ρ) = d; log(1/)
siehe Aufgabe 8.2. Beweis von Lemma 8.1: Ohne Einschr¨ankung sei V = Rd . Sei Bo ⊂ B derart, daß ρ(s, t) > f¨ ur verschiedene s, t ∈ Bo . Dann sind die Kugeln t + (/2)B, t ∈ Bo , paarweise disjunkt und in der Menge (1 + /2)B enthalten. Folglich ist (1 + /2)d Leb(B) = Leb((1 + /2)B) ≥
X
Leb(t + (/2)B) = #Bo (/2)d Leb(B),
t∈Bo
also #Bo ≤ (1 + 2/)d .
8.2
2
Ein allgemeines Resultat u ¨ ber uniforme Konsistenz
Nun geben wir Bedingungen an, unter welchen IE kZn − IE Zn k gegen Null konvergiert. Mithilfe der zwei Symmetrisierungen wird dies zur¨ uckgef¨ uhrt auf die Behauptung, daß Pn o o IE kZn k → 0, wobei Zn := i=1 ξi φni wie in Kapitel 4.2. Die Zufallsvariable kZno k wird
¨ 8.2. EIN ALLGEMEINES RESULTAT UBER UNIFORME KONSISTENZ
47
durch kZno kTb approximiert, wobei Tbn eine zuf¨allige, in der Regel endliche Teilmenge von n T ist. F¨ ur den Approximationsfehler gilt:
kZno k ≤ sup inf
t∈T s∈Tbn kZno kTb + n
≤
kZno kTb n
≤
|Zno (s)| + |Zno (t) − Zno (s)|
sup inf |Zno (t) − Zno (s)| t∈T
s∈Tbn
+ sup ρbn (t, Tbn ) t∈T
mit der zuf¨alligen Pseudometrik
n X
ρbn (s, t) = ρbn (s, t | φn1 , . . . , φnn ) :=
|φni (s) − φni (t)|
i=1
auf T . Der Term kZno kTb wird dann mithilfe von Hoeffdings Ungleichung abgesch¨atzt. n
Satz 8.3 Der Erwartungswert von kZn − IE Zn k konvergiert gegen Null, falls f¨ ur eine Nullfolge (δn )n folgende zwei Bedingungen erf¨ ullt sind: (8.3)
IE
n X
kφni k = O(1) und
IE
n n X
o
1 kφni k > δn kφni k = o(1);
i=1
i=1
log N (u, T , ρbn ) = op (δn−1 ).
(8.4)
Dieser Satz beinhaltet zwei Spezialf¨alle: Zum einen konvergiert IE kZn − IE Zn k gegen Null, falls gilt: 8.30
lim
n∧K→∞
8.40
IE
n n X
1 kφni k >
i=1
Ko kφni k = 0, n
log N (u, T , ρbn ) = op
1
n
.
Zum anderen ist IE kZn −IE Zn k = o(1), falls f¨ ur beliebige u > 0 folgende zwei Bedingungen erf¨ ullt sind: 8.300
IE
n X
kφni k = O(1)
und
i=1
8.400
IE
n n X
o
1 kφni k > u kφni k = o(1) f¨ ur beliebige u > 0,
i=1
log N (u, T , ρbn ) = Op (1)
f¨ ur beliebige u > 0.
Beweis von Satz 8.3: Seien n
o
φeni := 1 kφni k ≤ δn φni
und Zen :=
n X i=1
φeni .
48
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
Dann ist
IE (Zn − IE Zn ) − (Zen − IE Zen ) ≤ 2 IE kZn − Zen k n n
X
= 2 IE ≤ 2
n X
o
1 kφni k > δn φni
i=1
n
o
IE 1 kφni k > δn kφni k
i=1
= o(1). Außerdem ist ρbn (s, t | φen1 , . . . , φenn ) ≤ ρbn (s, t | φn1 , . . . , φnn ) f¨ ur alle s, t ∈ T . Deshalb kann man ohne Einschr¨ankung der Allgemeinheit annehmen, daß stets kφni k ≤ δn . f¨ ur eine Konstante K > 0. Nach Symmetrisierungslemma 4.1 [b] ist IE kZn − IE Zn k ≤ 2 IE kZno k. Ferner ist n X
IE kZno k2 ≤ IE
kφni kφnj k
i,j=1
=
n X
IE kφni k2 +
n X
1{i 6= j} IE kφni k IE kφnj k
i,j=1
i=1
≤ δn IE
n X
kφni k + IE
n X
kφni k
2
i=1
i=1
= O(1). F¨ ur beliebige > 0 ist somit IE kZno k ≤ + IE 1{kZno k > }kZno k ≤ +
q
= +O
IP{kZno k > } IE kZno k2
q
IP{kZno k > } ,
und es gen¨ ugt es zu zeigen, daß IP{kZno k > } gegen Null konvergiert. Dazu sei Tbn = Tbn (φn1 , . . . , φnn ) eine zuf¨allige Teilmenge von T , so daß #Tbn = N
2
, T , ρbn
und
sup ρbn (t, Tbn ) ≤ t∈T
. 2
¨ 8.3. FUNKTIONENKLASSEN UND ZUFALLIGE SIGNIERTE MASE
49
Dann ist kZno k ≤ /2 + kZno kTb , wie schon am Anfang dieses Abschnitts gezeigt wurde. n Aus Korollar 6.2 folgt also, daß
IP kZno k ≥ φn1 , . . . , φnn
≤ ≤ ≤ ≤ ≤ = →p
da nach Voraussetzung
8.3
Pn
i=1 kφni k
φn1 , . . . , φnn n 2 X o IP |Zn (t)| ≥ φn1 , . . . , φnn 2 t∈T N , T , ρbn sup IP |Zno (t)| ≥ φn1 , . . . , φnn 2 2 t∈T 2 2N , T , ρbn sup exp − Pn 2 8 i=1 φni (t)2 t∈T 2 Pn 2N , T , ρbn exp − 2 8δn i=1 kφni k 2 1 Pn 2 exp − − δn log N (/2, T , ρbn ) δn 8 i=1 kφni k 0,
IP kZno kTb ≥
= Op (1).
2
Funktionenklassen und zuf¨ allige signierte Maße
¨ Sei F eine Familie von meßbaren Funktionen auf X. Ahnlich wie im vorigen Kapitel nehmen wir an, daß F punktweise separabel ist. Das bedeutet, es gibt eine abz¨ahlbare Teilmenge Fo von F, so daß f¨ ur alle f ∈ F eine Folge (fk )k in Fo existiert mit lim fk (x) = f (x)
k→∞
f¨ ur alle x ∈ X.
Unter dieser Bedingung ist die Einh¨ ullende F (x) := sup |f (x)| = sup |f (x)| f ∈F
f ∈Fo
von F meßbar, und f¨ ur jedes signierte Maß ν auf X mit |ν|F < ∞ ist kνkF = kνkFo ≤ |ν|(F ). Hier ist |ν| := ν + + ν − die Totalvariation von ν, wobei ν + und ν − den Positiv- beziehungsweise Negativteil von ψ = ψ + − ψ − bezeichnen. Nun sei Zn = ni=1 φni mit unabh¨angigen stochastischen Prozessen φni auf F. AngenomR men, φni ist ein zuf¨alliges signiertes Maß auf X und φni (f ) = f dφni , so daß auch |ψni |F P
50
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
meßbar und fast sicher endlich ist. Der empirische Prozess Pbn und der Partialsummenprozess Sbn sind von dieser Form, n¨amlich φni = |φni | =
1 δX n i
und |φni |(F ) =
F (Xi ) , n
beziehungsweise |φni | = cn |Yi |δxni
φni = cn Yi δxni ,
und |φni |(F ) = cn |Yi |F (xni ).
Nun betrachten wir nochmals das Gesetz der großen Zahlen im vorigen Abschnitt. Da kφni kF ≤ |φni |(F ), ist Bedingung (8.3) dieses Satzes sicher erf¨ ullt, falls gilt: (8.5)
IE
n X
|φni |(F ) = O(1)
und
IE
i=1
n n X
o
1 |φni |(F ) > δn |φni |(F ) = o(1).
i=1
Diese Bedingung ist in der Regel leicht nachzuweisen: Im Falle der empirischen Prozesse ist n IE
X n
o
1 |φni |(F ) ≥ u |φni |(F ) = P 1{F > nu}F
i=1
f¨ ur beliebige u ≥ 0. Also ist (8.5) erf¨ ullt, falls P F < ∞ und nδn → ∞. Im Falle der Partialsummenprozesse mit cn = n−1 ist IE
n n X
o
1 |φni |(F ) ≥ u |φni |(F ) ≤
i=1
n n o 1X F (xni ) IE 1 |Y1 | > K |Y1 | n i=1
+
n n o KX 1 F (xni ) > nu/K F (xni ), n i=1
und (8.5) ist erf¨ ullt, falls nδn → ∞ und n n o 1X 1 F (xni ) > K F (xni ) = 0. K∧n→∞ n i=1
lim
Was Bedingung (8.4) anbelangt, so kann man ρbn wie folgt absch¨atzen: ρbn (f, g) =
n X cn |f − g| φni (f − g) ≤ M i=1
mit dem zuf¨alligen Maß cn := M
n X
|φni |.
i=1
Definiert man also ρM (f, g) := M |f − g|
¨ 8.3. FUNKTIONENKLASSEN UND ZUFALLIGE SIGNIERTE MASE
51
f¨ ur beliebige Maße M auf X, so ist N (u, F, ρbn ) ≤ N (u, F, ρM b ) ≤ N n
¨ mit den uniformen Uberdeckungszahlen
u cn F M
,F
n
o
N (, F) := max N ( M F, F, ρM ) : M Maß auf X . Daher folgt Bedingung (8.4) aus (8.5) und N (, F) < ∞
(8.6)
f¨ ur beliebige > 0.
¨ Nun beschreiben wir ein Resultat, mit dem man die Uberdeckungszahlen N (u, F) nach oben absch¨atzen kann. Dazu definieren wir den Subgraphen einer Funktion f als die Menge sgr(f ) := n
n
o
(x, r) ∈ X × R : r ≤ f (x) .
o
Ferner sei sgr(F) := sgr(f ) : f ∈ F . Satz 8.4 Angenommen die Menge sgr(F) ist eine VC-Klasse. Dann ist log N (u, F) ≤ V (sgr(F)) A(u) log
e
u
f¨ ur alle u ∈ ]0, 1]
mit universellen Konstanten
A(u) ≤ 5 ∧ 1 +
log log(e/u) + 2 . log(1/u)
Anmerkung 8.5 Eine Mengenfamilie D, also eine Familie von Indikatorfunktionen, ist VC-Klasse genau dann, wenn sgr(D) eine VC-Klasse ist, und zwar ist V (D) = V (sgr(D)). Anmerkung 8.6 Satz 8.4 impliziert, daß lim sup u↓0
log N (u, F) ≤ V (sgr(F)). log(1/u)
Vergleicht man mit der Anmerkung zu Lemma 8.1, dann wird verst¨andlich, warum man auch von der VC-Dimension V (sgr(F)) spricht. Beweis von Satz 8.4: Sei V := V (sgr(F)) ≥ 1, denn anderenfalls besteht F ohnehin nur aus einer Funktion. Sei M ein beliebiges Maß auf X. Ist M F ∈ {0, ∞}, dann ist N (u M F, F, ρM ) = 1. Deshalb nehmen wir an, daß 0 < M F < ∞. Nun sch¨atzen wir
52
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
die Kapazit¨at D(u M F, F, ρM ) ≥ N (u M F, F, ρM ) nach oben ab. Sei Fo eine beliebige Teilmenge von F mit m := #Fo < ∞ und ρM (f, g) ≥ u M F
falls f, g ∈ Fo und f 6= g.
Nun konstruieren wir zuf¨allige endliche Teilmengen E1 , E2 , E3 , . . . von X × R: Seien (X1 , R1 ), (X2 , R2 ), (X3 , R3 ), . . . ∈ X × R unabh¨angig und identisch verteilt, wobei 1 MF
IP{X1 ∈ B} =
Z
h
i
und L(R1 | X1 ) = U −F (X1 ), F (X1 ) .
F dM
B
n
o
Dann definiere En := (Xi , Ri ) : 1 ≤ i ≤ n , also #En ≤ n. Nun zeigen wir, daß ∆(En , sgr(F)) = m mit positiver Wahrscheinlichkeit, falls n hinreichend groß ist. F¨ ur beliebige f, g ∈ Fo mit f 6= g gilt: n
IP sgr(f ) ∩ En = sgr(g) ∩ En
o
n
= IP sgr(f ) ∩ {(X1 , R1 )} = sgr(g) ∩ {(X1 , R1 )}
on
on
=
1 − IP (X1 , R1 ) ∈ sgr(f )4 sgr(g)
n
=
1 − IE IP R1 ∈ [−∞, f (X1 )]4[−∞, g(X1 )] X1
|f (X1 ) − g(X1 )| n 2F (X1 ) ρM (f, g) n = 1− 2MF nu ≤ exp − . 2 =
n
1 − IE
Folglich ist n
o
IP ∆(En , sgr(Fo )) < m
≤
m
2
nu
exp −
2
< exp 2 log m −
nu ≤ 1, 2
falls n ≥ 4 log(m)/u. In diesem Falle existiert also eine h¨ochstens n-elementige Teilmenge E von X × R, so daß ∆ E, sgr(Fo ) = m. Nach Satz 7.4 ist daher log m ≤ V log(en/V ), sofern n ≥ 4 log(m)/u, also d4 log(m)/ue 4 log(m)/u + 1 log m ≤ log e ≤ log e . V V V
Angenommen log m = aV log(e/u) f¨ ur ein festes a = a(m) ≥ 1. Dann ist 4 log(m)/u gr¨oßer als 4, so daß a log
e
u
4 log(m)/u + 1
≤ log e
V
¨ 8.3. FUNKTIONENKLASSEN UND ZUFALLIGE SIGNIERTE MASE
53
4 log(m) 5 ≤ log e + log − log V 4 e u + log log m + log(5) − log V = log u e ≤ log + log log m + 2 − log V u e e + log a + log log + 2, = log u u
also (8.7)
ax ≤ x + log a + log x + 2
mit x := log(e/u) ≥ 1. Im Falle a ≥ 2 impliziert dies, daß a − log a ≤ x − a(x − 1) + log x + 2 = log x − (a − 1)(x − 1) + 3 ≤ 3. Insbesondere ist a ≤ 5, denn a − log a ist isoton in a ≥ 1 und 5 − log 5 > 3. Andererseits folgt aus (8.7), daß a−1 ≤
log x + 2 log log(e/u) + 2 log x + log a − (a − 1) + 2 ≤ = . x−1 x−1 log(1/u)
2
Beispiel 8.7 Sei H : [0, ∞[ → R monoton wachsend (oder fallend). Mit X := Rd und F :=
n
H(b| · −θ|2 ) : b > 0, θ ∈ Rd
o
ist sgr(F) eine VC-Klasse mit Index V (sgr(F)) ≤ d + 3. Dies kann man besonders leicht einsehen, wenn man H zu einer isotonen Bijektion von ganz R fortsetzen kann. Dann ist n¨amlich
sgr H(b| · −θ|2 )
=
n
o
(x, r) ∈ Rd × R : b|θ|2 − 2bθ>x + bx>x − H −1 (r) ≥ 0
= {g ≥ 0}
mit einer Funktion g in dem (d + 3)-dimensionalen Vektorraum G, welcher von den Funktionen v0 (x, r) := 1, vi (x, r) := xi
f¨ ur 1 ≤ i ≤ d,
vd+1 (x, r) := x>x, vd+2 (x, r) := H −1 (r) aufgespannt wird. Nun folgt die Behauptung aus Satz 7.9. Im allgemeinen Fall muss man einen geeigneten Ersatz f¨ ur die Funktion H −1 finden. Sei E eine endliche Teilmenge von Rd × R, welche von sgr(F) vollst¨andig zerlegt wird. Zu A ⊂ E existieren also bA > 0 und θA ∈ Rd mit
A = E ∩ sgr H(bA | · −θA |2 ) .
54
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN n
o
Nun definieren wir die endliche Menge T := bA |x − θA |2 : (x, r) ∈ E, A ⊂ E . Dann ist
E ∩ sgr H(bA | · −θA |2 )
=
n
=
n
=
n
o
(x, r) ∈ E : r ≤ H(bA |x − θA |2 )
> > (x, r) ∈ E : bA θA θA − 2bA θA x + bA x>x − H(r) ≥ 0
(x, r) ∈ E : g(x, r) ≥ 0
o
o
mit einer Funktion g ∈ G := span{v0 , v1 , v2 , . . . , vd+2 }, wobei nun n
o
vd+2 (x, r) := H(r) := min t ∈ T : H(t) ≥ r . Aus Satz 7.9 folgt, daß #E ≤ d + 3.
¨ Das folgende Lemma beinhaltet n¨ utzliche Ungleichungen f¨ ur Uberdeckungszahlen von ¨ Funktionenklassen. Den Beweis u ¨berlassen wir dem Leser als Ubungsaufgabe. Lemma 8.8 Seien F und G Familien messbarer Funktionen auf X mit messbaren Einh¨ ullenden F beziehungsweise G, und sei M ein Maß auf X. F¨ ur beliebige u > 0 gilt: N (u, F ? G, ρM ) ≤ N (u/2, F, ρM )N (u/2, G, ρM ), n
wobei F ? G := f ? g : f ∈ F, g ∈ G bezeichnet. Ferner ist
o
und ? eine der Verkn¨ upfungen ∨, ∧, + oder −
N (u, FG, ρM ) ≤ N (u/2, F, ρG·M )N (u/2, G, ρF ·M ) mit der Familie FG := 1 ≤ q < ∞ ist
n
o
f g : f ∈ F, g ∈ G . Dabei ist H · M (B) :=
R
B
H dM . F¨ ur
N (u, F, ρM,q ) ≤ N uq , F, ρ(2F )q−1 ·M , wobei ρM,q (f, g) :=
R
|f − g|q dM
1/q
.
2
Anmerkung 8.9 (konvexe H¨ ullen) Mitunter kann man sich komplizierte Absch¨atzungen ¨ von Uberdeckungszahlen sparen, indem man eine Funktionenklasse darstellt als konvexe H¨ ulle einer einfacheren Funktionenklasse. Genauer gesagt, sei G die Menge aller punktweisen Limites von Funktionenfolgen in nX
f ∈F
λf f (x) : λ ∈ RF ,
X
f ∈F
o
|λf | ≤ 1 ,
8.4. VERFEINERUNGEN
55
und sei ν ein signiertes Maß auf X, so daß |ν|F < ∞. Dann ist kνkG = kνkF . Zum Beispiel erh¨alt man die Menge G aller Funktionen von R nach [−1, 1] mit Totalvariation kleiner oder gleich Eins als ulle von n o Folgenabschluss der symmetrischen konvexen H¨ F := 1{· ≥ r} : r ∈ [−∞, ∞] .
8.4
Verfeinerungen
Das Gesetz der Großen Zahlen, Satz 8.3, kann man noch verfeinern, sofern Bedingung (8.4) durch eine st¨arkere Bedingung ersetzt wird. Im Beweis von Satz 8.3 tauchte in einer entscheidenden Ungleichung die Gr¨oße
exp − P n i=1
δ 2
φni (s) − φni (t)
auf, und die Summe wurde durch 4 maxi kφni k i kφni k nach oben abgesch¨atzt. Der entscheidende Schritt ist nun, diese grobe Absch¨atzung zu verbessern. P
Lemma 8.10 Angenommen kφni k ≤ δn f¨ ur alle i. Ferner sei Vn := sup IE t∈T
n X
φni (t)2 .
i=1
Dann ist n
IP sup
n X
t∈T i=1
φni (t)2 ≥ 8τ
o
≤
τ τ 2 IE exp log N , T , ρbn − 2 ∧ 1 1 − Vn /τ 16δn 8δn
f¨ ur beliebige τ > Vn . Satz 8.11 Unter den Voraussetzungen von Lemma 8.10 ist n
IP kZn − IE Zn k ≥ 3η
o
≤ 16 IE exp log N
τ
+ 8 IE exp log N f¨ ur beliebige η ≥
√
2Vn und τ ≥ 2Vn .
16δn
η
2
, T , ρbn −
, T , ρbn −
τ ∧1 2 8δn
η2 ∧1 64τ
56
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
Korollar 8.12 Die Voraussetzungen von Lemma 8.10 seien erf¨ ullt mit δn := 1/n, und f¨ ur beliebige n sei N (, T , ρbn ) ≤ A−B
f¨ ur beliebige ∈ ]0, 1]
fast sicher
mit Konstanten A, B > 0. F¨ ur hinreichend großes κ > 0 ist dann ∞ X
n
IP kZn − IE Zn k ≥ κ
q
log(n)Vn ∨
n=1
log n o < ∞. n
Beweis von Lemma 8.10: Die Grundidee des Beweises ist LeCams “square root trick”. Seien I := J SK
n
o
i ∈ {1, 2, . . . , n} : ξi = 1 ,
:= {1, 2, . . . , n} \ I, :=
X
φ2ni
f¨ ur K ⊂ {1, 2, . . . , n},
i∈K
S := S{1,2,...,n} = SI + SJ . Dann sind SI , SJ identisch verteilt, weshalb n
IP kSk ≥ 8τ
o
n
≤ 2 IP kSI k ≥ 4τ
o
n p √ o = 2 IP k SI k ≥ 2 τ .
Doch f¨ ur beliebige t ∈ T ist q
IP √
√
IE S (t) ξ1 , . . . , ξn I √ IE S(t) Vn SI (t) ≥ τ ξ1 , . . . , ξn ≤ ≤ ≤ ,
τ
τ
τ
und SI , SJ sind stochastisch unabh¨angig, gegeben ξ1 , . . . , ξn . Wendet man Symmetrisierungslemma 4.1 [a] auf diese bedingte Verteilung an, so folgt, daß n p √ o IP k SI k ≥ 2 τ ≤
n p p √ o 1 IP k SI − SJ k ≥ τ . 1 − V /τ
F¨ ur beliebige s, t ∈ T ist q q q q SI (s) − SJ (s) − SI (t) − SJ (t) q q q q ≤ SI (s) − SI (t) + SJ (s) − SJ (t) X 1/2 X
(φni (s) − φni (t))2
≤
i∈I
≤
n X
≤
q
2
(φni (s) − φni (t))2
+
i∈J
(φni (s) − φni (t))2
i=1
4δn ρbn (s, t).
1/2
1/2
8.4. VERFEINERUNGEN
57
Ist also Tbn = Tbn (φn1 , . . . , φnn ) eine Teilmenge von T mit τ τ #Tbn = N , T , ρbn und sup ρbn (t, Tbn ) ≤ , 16δn 16δ n t∈T so ist
√ τ φn1 , . . . , φnn √ p p τ ≤ IP k SI − SJ kTb ≥ φn1 , . . . , φnn n 2 √ q X q τ ≤ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn 2 t∈Tbn p p √ X ( SI (t) + SJ (t)) τ ≤ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn 2
p
IP k SI −
≤ =
t∈Tbn
X
t∈Tbn
X
t∈Tbn
SJ k ≥
p S(t)τ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn
2
p n X S(t)τ 2 IP ξi φni (t) ≥ φn1 , . . . , φnn
X
≤ 2
p
t∈Tbn
2
i=1
S(t)τ exp − Pn 8 i=1 φni (t)4
≤ 2 #Tbn exp −
τ . 8δn2
2
Beweis von Satz 8.11: Da Var[Zn (t)] ≤ Vn f¨ ur beliebige t ∈ T , folgt aus Symmetrisierungslemma 4.1 [a], daß n o n o 1 0 IP kZ − Z k ≥ 2η IP kZn − IE Zn k ≥ 3η ≤ n n 1 − Vn /η 2 n o 2 o ≤ (8.8) IP kZ k ≥ η . n 1 − Vn /η 2 Doch mit Xn := supt∈T
Pn
2 i=1 φni (t)
kann man wie im Beweis von Satz 8.3 zeigen, daß
IP kZno k ≥ η φn1 , . . . , φnn
≤ 2N
η
2 Zusammen mit Lemma 8.10 ergibt dies die Ungleichungen n
IP kZno k ≥ η
o
n
≤ IP Xn ≥ 8τ
, T , ρbn exp −
η2 . 8Xn
o
+ 2 IE exp log N
η
, T , ρbn −
η2 ∧1 64τ
2 τ 4 τ ≤ IE exp log N , T , ρbn − 2 ∧ 1 1 − Vn /τ 16δn 8δn 2 η η + 2 IE exp log N , T , ρbn − ∧1 . 2 64τ
58
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
Setzt man dies in (8.8) ein und setzt voraus, daß η 2 ∧ τ ≥ 2Vn , dann folgt die Behauptung. 2 Beweis von Korollar 8.12: Die Behauptung folgt aus Satz 8.11 verm¨oge
τ = τn := γτ Vn ∨ η = ηn :=
log n , n2
q
γη log(n)τn =
√
γτ γη
q
log(n)Vn ∨
log n n
mit hinreichend großen Konstanten γτ , γη > 0. Denn f¨ ur hinreichend großes n ist ηn2 ∧ τn ≥ 2Vn , und log N
nτ
log N
8.5
n
16
η
n
2
, T , ρbn −
, T , ρbn −
n 2 τn 8
≤ const. − B log
log n
−
γτ log n 8
n γτ ≤ const. + B − log n, 8 log n γ log n η ≤ const. − B log − n 64 γη ≤ const. + B − log n. 2 64
ηn2 64τn
Anwendung auf Dichtesch¨ atzung
Sei P ein Wahrscheinlichkeitmaß auf Rd mit Dichte p bez¨ uglich des Lebesgue-Maßes. Ein Kernsch¨atzer f¨ ur p(x) ist pbn (x) :=
n 1X kn (x − Xi ) = n i=1
Z
kn (x − y)Pbn (dy), R
wobei kn eine willk¨ urlich gew¨ahlte Funktion ist, so daß kn (x) dx = 1. Mit anderen Worten, pbn ist die Dichte der Faltung von Pbn mit dem signierten Maß kn (x) dx. Mit pn (x) := IE pbn (x) ist
Speziell sei
pbn − p = (pn − p) + (pbn − pn ) =: “Bias” + “Fluktuation”. kn (x) :=
1 x k hdn hn
mit einer Bandbreite hn > 0. Je kleiner die Bandbreite hn , desto kleiner wird im allgemeinen der Bias sein, aber desto gr¨oßer ist die Fluktuation.
¨ 8.5. ANWENDUNG AUF DICHTESCHATZUNG
59
Absch¨ atzung des Bias: Angenommen, p ist Lipschitz-stetig, also |p(x) − p(y)| ≤ L|x − y| f¨ ur beliebige x, y ∈ Rd
(8.9)
mit einer Konstanten L < ∞. Ferner sei (8.10)
Z
kkk ≤ 1,
k(z) dz = 1
und
Z
|z||k(z)| dz < ∞,
wobei k · k die Supremumsnorm u ¨ber T := Rd bezeichnet. Dann ist pn (x) − p(x) =
1 hdn
Z
k
x − y
hn
p(y) − p(x) dy =
so daß kpn − pk ≤ L
Z
Z
k(z) p(x − hn z) − p(x) dy,
|x||k(x)| dx hn = O(hn ).
Absch¨ atzung der Fluktuation: Angenommen, n
o
sgr(k(· − t)) : t ∈ Rd ist eine VC-Klasse;
(8.11)
siehe Beispiel 8.7. Nun definieren wir φni (x) := Dann ist pbn = h−d n Zn , kφni k ≤ 1/n, und IE
n X
φni (x)2 =
i=1
1 x − Xi k . n hn
x − X 2 1 1 IE k n hn x − y 2
=
1 n
Z
≤
Z
|k(z)| dz kpk
k
hn
p(y) dy hdn n
hd
n . n Man beachte, daß aus (8.9) die Endlichkeit von kpk folgt. Gem¨aß Satz 8.4 sind die Bedingungen von Korollar 8.12 erf¨ ullt, und zwar ist
= O
s
1 log n log n kpbn − pn k = d O hdn ∨ hn n n
fast sicher.
Dabei verwendeten wir das Borel-Cantelli-Lemma. Nun versuchen wir Bias und Fluktuation zu balancieren. Die Gleichung hn
impliziert, daß hn = log(n)/n
1/(d+2)
1 = d hn
s
hdn
log n n
, und es ergibt sich folgendes Resultat:
60
KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN
Korollar 8.13 Unter den Bedingungen (8.9), (8.10) und (8.11) ist kpbn − pk = O
falls
hn
log n 1/(d+2)
fast sicher,
n
. log n 1/(d+2)
n
→ c ∈ ]0, ∞[.
2
Aufgaben Aufgabe 8.1 Beweisen Sie die Ungleichungen (8.1). Aufgabe 8.2 Zeigen Sie, daß in Lemma 8.1 gilt: D(, B, ρ) ≥ c−d
f¨ ur 0 < ≤ 1
mit einer Konstanten c, welche von der Norm | · | abh¨angt. Aufgabe 8.3 Beweisen Sie Lemma 8.8 Aufgabe 8.4 Sei F die Menge aller Funktionen f auf [0, 1], so daß |f | ≤ 1 und |f (x) − f (y)| ≤ |x − y| f¨ ur beliebige x, y ∈ [0, 1], und sei ρ(f, g) := kf − gk[0,1] . Zeigen Sie, daß log N (, F, ρ) ≤ A−1
f¨ ur 0 < ≤ 1
mit einer Konstanten A > 0. Zusatz: F¨ ur β > 0 sei F(β) die Menge aller k-mal stetig differenzierbaren Funktionen f auf [0, 1], wobei k = k(β) := dβe − 1, so daß gilt: |f (`) | ≤ 1
f¨ ur 0 ≤ ` ≤ k,
|f (k) (x) − f (k) (y)| ≤ |x − y|β−k
f¨ ur beliebige x, y ∈ [0, 1].
Dabei ist f (`) die `-te Ableitung von f mit f (0) := f . Zeigen Sie, daß log N (, F(β) , ρ) ≤ A−1/β
f¨ ur 0 < ≤ 1
mit einer Konstanten A > 0. Aufgabe 8.5 Angenommen, der Kern k in Abschnitt 8.5 erf¨ ullt folgende Bedingungen: kkk ≤ 1,
Z
k(z) dz = 1,
Z
zk(z) dz = 0
und
Z
|z|2 |k(z)| dz < ∞.
Welche Konvergenzrate kann man f¨ ur kpbn − pk erzielen, wenn man voraussetzt, daß p differenzierbar ist mit Lipschitz-stetiger Ableitung ∇p : Rd → Rd ?
Kapitel 9
Verteilungskonvergenz In diesem Kapitel behandeln wir die allgemeine Theorie der Verteilungskonvergenz beziehungsweise der schwachen Konvergenz. Im Hinblick auf empirische Prozesse betrachten wir von Anfang an auch nicht-messbare Funktionen auf Wahrscheinlichkeitsr¨aumen. Dieser Zugang geht auf Hoffmann-Jørgensen zur¨ uck und wurde unter anderem von R. Dudley weiterentwickelt.
9.1
¨ Außere Erwartungswerte
Sei (Ω, A, IP) ein Wahrscheinlichkeitsraum, und im folgenden seien X, Y, Z generische beschr¨ankte Funktionen von Ω nach R. Der ¨außere Erwartungswert von Y ist definiert als n
o
IE∗ Y := inf IE X : X meßbar, X ≥ Y . Dies ist eine Verallgemeinerung der ¨außeren Wahrscheinlichkeit IP∗ B := inf{IP A : A ∈ A, A ⊃ B} einer Menge B ⊂ Ω, da IP∗ B = IE∗ 1B . Denn offensichtlich ist IE∗ 1B ≤ IP∗ B, und die umgekehrte Ungleichung folgt aus der Tatsache, daß f¨ ur messbare Funktionen X mit X ≥ 1B stets X ≥ 1{X ≥ 1}, und B ⊂ {X ≥ 1} ∈ A. Analog definiert man den inneren Erwartungswert von Y als n
IE∗ Y := sup IE X : X meßbar, X ≤ Y
o
= − IE∗ (−Y ),
(
1 − IP∗ (Ω \ B), IE∗ 1B .
und die innere Wahrscheinlichkeit von B ist gleich n
IP∗ B := sup IP A : A ∈ A, A ⊂ B 61
o
=
62
KAPITEL 9. VERTEILUNGSKONVERGENZ
Die folgenden Eigenschaften der ¨außeren Erwartung kann man leicht nachweisen. Lemma 9.1 Das Funktional Y 7→ IE∗ Y ist sublinear, das heißt, IE∗ (rY ) = r IE∗ Y
f¨ ur beliebige r ≥ 0,
IE∗ (Y + Z) ≤ IE∗ Y + IE∗ Z. Insbesondere ist IE∗ Y + IE∗ (−Y ) ≥ 0 mit Gleichheit, falls Y messbar ist. Ferner ist IE∗ Y ≤ IE∗ Z
falls Y ≤ Z,
IE∗ (r + Y ) = r + IE∗ Y
f¨ ur beliebige r ∈ R.
2
Lemma 9.2 Im Falle Y ≥ 0 ist ∗
IE Y =
Z
∞
0
∗
IP {Y ≥ r} dr =
Z
0
∞
IP∗ {Y > r} dr.
Beweis: Sei X : Ω → R meßbar mit X ≥ Y . F¨ ur jede Zahl k ∈ N ist ≤
∞ n 1X io 1 Y > , k i=0 k
X ≥
∞ n 1X io 1 X≥ . k i=1 k
Y
Folglich ist IE∗ Y
≤
∞ n io 1X IP∗ Y > k i=0 k
≤
∞ n 1X io 1 IP∗ Y > + k i=1 k k
≤
Z
IE X ≥
∞
1 IP∗ {Y > r} dr + , k 0 ∞ n io 1X IP X ≥ k i=1 k
≥
∞ n io 1X IP∗ Y ≥ k i=1 k
≥
Z
0
∞
1 IP∗ {Y ≥ r} dr − . k
F¨ ur k → ∞ und IE X ↓ IE∗ Y folgt die Behauptung.
2
9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 63
9.2
Definition und Eigenschaften der Verteilungskonvergenz
Sei M eine Menge, versehen mit einer Metrik d und der entsprechenden Borel-σ-Algebra B(M). Zun¨achst f¨ uhren wir einige Bezeichnungen ein. Es seien C(M) :=
n
CLip (M) :=
n
C (M, [0, 1]) :=
n
o
stetige Funktionen auf M , o
Lipschitz-stetige Funktionen auf M , o
f ∈ C (M) : 0 ≤ f ≤ 1 ,
wobei C stellvertetend f¨ ur C oder CLip steht. Streng genommen h¨angen all diese Funktionenklassen von der Metrik d oder zumindest von der hiervon induzierten Topologie ab, doch wird diese Abh¨angigkeit nicht hervorgehoben. Desweiteren sei f¨ ur x ∈ M, ≥ 0 und S ⊂ M: d(x, S) :=
inf d(x, y)
y∈S
f¨ ur x ∈ M, S ⊂ M,
U (S, ) :=
n
o
B(S, ) :=
n
o
y ∈ M : d(y, S) < ,
y ∈ M : d(y, S) ≤ .
Bekanntlich ist d(·, S) Lipschitzstetig mit Konstante Eins. Daher sind die Mengen U (S, ) und B(S, ) offen beziehungsweise abgeschlossen. Speziell ist U (x, ) := U ({x}, ) und B(x, ) := B({x}, ) die offene beziehungsweise abgeschlossene Kugel um x mit Radius . Ein M-Zufallselement ist eine Abbildung von einem Wahrscheinlichkeitsraum nach M. Eine meßbare Abbildung von einem Wahrscheinlichkeitsraum nach M heißt M-Zufallsvariable. Im folgenden sei stets (Zn )n eine Folge von M-Zufallselementen, und Z sei eine M-Zufallsvariable. Definition 9.3 Die Folge (Zn )n konvergiert in Verteilung gegen Z, falls lim IE∗ f (Zn ) = IE f (Z)
n→∞
f¨ ur beliebige f ∈ Cb (M).
In Symbolen: Zn →L Z. Die Limesvariable Z ist in Verteilung eindeutig, das heißt: Ist Ze eine weitere M-Zufallse dann ist L(Z) e = L(Z). Aquivalent ¨ zu Zn →L Z ist, daß variable, so daß Zn →L Z, IE∗ f (Zn ) → IE f (Z) f¨ ur alle f ∈ Cb (M), denn IE(−f )(Z) ist gleich − IE f (Z). Insbesondere hat (Zn )n dann folgende Eigenschaft:
64
KAPITEL 9. VERTEILUNGSKONVERGENZ
Definition 9.4 Die Folge (Zn )n heißt asymptotisch meßbar, falls lim
n→∞
IE∗ f (Zn ) − IE∗ f (Zn )
= 0
f¨ ur beliebige f ∈ Cb (M).
Man kann die Verteilungskonvergenz noch auf andere Arten charakterisieren, indem man nur Teilklassen von Cb (M), bestimmte Borelmengen oder halbstetige Funktionen betrachtet. Eine Funktion f : M → R heißt halbstetig von unten, falls f¨ ur beliebige r ∈ R die Menge {f > r} offen ist. Sie heißt halbstetig von oben, wenn −f halbstetig von unten ist. Satz 9.5 (Portmanteau-Theorem). Folgende Bedingungen sind ¨aquivalent: (9.1) (9.2)
Zn →L Z; lim IE∗ f (Zn ) = IE f (Z) f¨ ur alle f ∈ CLip (M, [0, 1]);
n→∞
(9.3)
lim inf IP∗ {Zn ∈ U } ≥ IP{Z ∈ U } f¨ ur alle offenen U ⊂ M;
(9.4)
lim sup IP∗ {Zn ∈ A} ≤ IP{Z ∈ A}
n→∞
n→∞
(9.5)
f¨ ur alle abgeschlossenen A ⊂ M;
lim inf IE∗ f (Zn ) ≥ IE f (Z) n→∞
f¨ ur alle von unten halbstetigen, beschr¨ankten f : M → R; (9.6)
lim sup IE∗ f (Zn ) ≤ IE f (Z) n→∞
f¨ ur alle von oben halbstetigen, beschr¨ankten f : M → R; (9.7)
IP∗ {Zn ∈ B} → IP{Z ∈ B} f¨ ur alle B ∈ B(M) mit IP{Z ∈ ∂B} = 0.
¨ Beweis des Portmanteau-Theorems: Offensichtlich folgt (9.2) aus (9.1). Die Aquivalenz von (9.3) und (9.4) beziehungsweise von (9.5) und (9.6) ist leicht nachzuweisen. Ebenfalls trivial ist die Tatsache, daß (9.1) aus (9.5-9.6) folgt. Angenommen es gilt (9.2). F¨ ur eine beliebige offene Menge U ⊂ X und R > 0 sei fR (x) := R d(x, M \ U ) ∧ 1. Dann ist 1U ≥ fR ∈ CLip (M, [0, 1]), und lim inf IP∗ {Zn ∈ U } ≥ lim IE∗ fR (Zn ) = IE fR (Z). n→∞
n→∞
Doch f¨ ur R ↑ ∞ konvergiert die rechte Seite gegen IP{Z ∈ U }, und somit folgt (9.3). Angenommen es gilt (9.3). Ist f : M → [0, 1] von unten halbstetig, dann folgt aus Lemma 9.2, daß lim inf IE∗ f (Zn ) ≥ sup lim inf n→∞
k∈N
≥ sup
k∈N
n→∞
k n n 1X i oo IP∗ Zn ∈ f > k i=1 k
k n n 1X i oo lim inf IP∗ Zn ∈ f > k i=1 n→∞ k
9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 65
≥ sup
k∈N
k n n i oo 1X IP Z ∈ f > k i=1 k
= IE f (Z). Zusammen mit Lemma 9.1 folgt hieraus Aussage (9.5). ¨ Zu zeigen bleibt die Aquivalenz von (9.3-9.4) und (9.7). Mit dem Abschluss B und dem Inneren B o von B ∈ B(M) folgt aus den Aussagen (9.3-9.4), daß lim sup IP∗ {Zn ∈ B} ≤ lim sup IP∗ {Zn ∈ B} ≤ n→∞
lim inf IP∗ {Zn ∈ B} n→∞
n→∞
IP{Z ∈ B}
≥ lim inf IP∗ {Zn ∈ B o } ≥ IP{Z ∈ B o }
= IP{Z ∈ B},
n→∞
sofern IP{Z ∈ ∂B} = 0. Umgekehrt gelte Aussage (9.7). oF¨ ur beliebige abgeschlossene n Mengen A ⊂ M sind die Mengen ∂B(A, ) ⊂ d(·, A) = , > 0, paarweise disjunkt. n
o
Folglich ist IP Z ∈ ∂B(A, ) = 0 f¨ ur alle bis auf abz¨ahlbar viele > 0. F¨ ur solche > 0 ist n o n o lim sup IP∗ {Zn ∈ A} ≤ lim sup IP∗ Zn ∈ B(A, ) = IP Z ∈ B(A, ) , n→∞
n→∞
und f¨ ur ↓ 0 ergibt sich Aussagen (9.3).
2
Als Korollar zum Portmanteau-Theorem ergibt sich ein Resultat, das in vielen statistischen Anwendungen von Nutzen ist: Korollar 9.6 F¨ ur n ∈ N sei Zen ein M-Zufallselement, das auf dem gleichen Wahrscheinlichkeitsraum wie Zn definiert ist. Angenommen (Zn )no konvergiert in Verteilung gegen n ∗ ur beliebige > 0. Dann Z, und d(Zn , Zen ) →p 0; das heißt, IP d(Zn , Zen ) > → 0 f¨ konvergiert auch Zen in Verteilung gegen Z.
Beweis: F¨ ur beliebige f ∈ CLip (M, [0, 1]) mit Lipschitzkonstante c und > 0 ist ∗ en ) IE f (Zn ) − IE∗ f (Z ≤ IE∗ f (Zn ) − f (Zen ) n n o o ≤ IE∗ 1 d(Zn , Zen ) ≤ f (Zn ) − f (Zen ) + IP∗ d(Zn , Zen ) >
≤ c + o(1).
2
Satz 9.7 (von der stetigen Abbildung). Angenommen Zn →L Z. Ferner sei H eine Abe so daß f¨ f d), bildung von M in einen weiteren metrischen Raum (M, ur eine Borelmenge Mo ⊂ M gilt: Z ∈ Mo , und H ist in jedem Punkt von Mo stetig. Dann konvergiert H(Zn ) in Verteilung gegen H(Z).
66
KAPITEL 9. VERTEILUNGSKONVERGENZ
Anmerkung 9.8 Die Menge aller Unstetigkeitsstellen von H ist stets eine Borelmenge in M. Denn man kann sie schreiben als [
\
U (y, m−1 ) ∩ U (z, m−1 ).
[
`∈N m∈N y,z∈M:de(H(y),H(z))>`−1
Satz 9.7 ist ein Spezialfall eines allgemeineren Resultates. Satz 9.9 (Rubin). Angenommen Zn →L Z. Ferner seien Hn , n ∈ N, Abbildungen von e so daß f¨ f d), M in einen weiteren metrischen Raum (M, ur eine Borelmenge Mo ⊂ M gilt: Z ∈ Mo , und H(x) :=
lim
y→x,n→∞
Hn (y)
f stetig, und Hn (Zn ) konvergiert in existiert f¨ ur alle x ∈ Mo . Dann ist H : Mo → M Verteilung gegen H(Z). e vollst¨ f d) Anmerkung 9.10 Ist (M, andig, so ist auch die Menge Mo aller x ∈ M, so daß
H(x) :=
lim
y→x,n→∞
Hn (y)
existiert, eine Borelmenge in (M, d). Denn ein Punkt x geh¨ort zu M \ Mo genau dann, wenn lim sup
sup
m→0,n→∞ y,z∈U (x,m−1 )
Folglich kann man M\Mo darstellen als
S
e n (y), Hn (z)) > 0. d(H
`∈N
T
m∈N
n∈N U`,m,n
mit den offenen Mengen
U (y, m−1 ) ∩ U (z, m−1 ).
[
U`,m,n :=
T
k≥n; y,z∈M : de(Hk (y),Hk (z))>`−1
Beweis von Satz 9.9: F¨ ur beliebiges festes > 0 ist Mo ⊂
[
V,m ,
m∈N
wobei V,m :=
n
x ∈ Mo :
sup y∈B(x,m−1 ),n≥m
o
e d(H(x), Hn (y)) ≤ .
e Insbesondere ist d(H(x), H(y)) ≤ , falls x ∈ V,m und y ∈ Mo ∩B(x, m−1 ). Dies impliziert f und die Stetigkeit von H. Ferner ergibt sich f¨ ur beliebige abgeschlossene Mengen Ae ⊂ M
9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 67 m ∈ N, daß n
o
lim sup IP∗ Hn (Zn ) ∈ Ae n→∞
n
o
≤ lim sup IP∗ Zn 6∈ U (V,m , m−1 ) n→∞
n
o
+ lim sup IP∗ Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ) n→∞
n
o
n
o
n
o
n
o
≤ IP Z 6∈ V,m + lim sup IP∗ Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ) n→∞
n
e )), m−1 ≤ IP Z 6∈ V,m + lim sup IP∗ Zn ∈ B H −1 (B(A, n→∞
n
e )), m−1 ≤ IP Z 6∈ V,m + IP Z ∈ B H −1 (B(A,
o
o
.
Die zweite und vierte Ungleichung folgen aus dem Portmanteau-Theorem. Die dritte Ungleichung kann man wie folgt nachweisen: Ist Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ), dann e existiert ein x ∈ Vm mit Zn ∈ U (x, m−1 ). Insbesondere ist d(H(x), Hn (Zn )) ≤ , also −1 −1 e ) und Zn ∈ U H (B(A, e )), m H(x) ∈ B(A, . Doch wegen der Stetigkeit von H ist e )) = A ∩ Mo f¨ H −1 (B(A, ur eine abgeschlossene Menge A ⊂ M. Folglich ist n
o
n
e )), m−1 IP Z 6∈ V,m + IP Z ∈ B H −1 (B(A,
≤
n
o
n
o
o
IP Z 6∈ V,m + IP Z ∈ B(A , m−1 ) n
→ IP Z ∈ A
o
(m → ∞)
n
o
=
IP Z ∈ A ∩ Mo
=
e ) IP H(Z) ∈ B(A,
n
o
n
o
→ IP H(Z) ∈ Ae
( ↓ 0).
2
Eine typische Anwendungssituation von Satz 9.9 sind kompakt differenzierbare Funktionale. Seien M und Mo ⊂ M abgeschlossene lineare Teilr¨aume von `∞ (T ), versehen mit der Supremumsnorm k · k = k · kT . F¨ ur ein festes F ∈ `∞ (T ) sei T ein Funktional auf dem b affinen Raum F + M. Ferner sei (Fn )n eine Folge von (F + M)-Zufallselementen, so daß gilt: √ Zn := n(Fbn − F ) →L Z mit einer Mo -Zufallsvariablen Z. Oftmals existiert der Grenzwert H(x) :=
lim
λ→∞,y→x
λ T F+
y − T (F ) λ
f¨ ur beliebige x ∈ Mo , wobei λ eine positive reelle Zahl und y eine Funktion aus M bezeichnen. Ist H linear auf Mo , dann nennt man T kompakt differenzierbar im Punkt F
68
KAPITEL 9. VERTEILUNGSKONVERGENZ
tangential zu Mo . Mit Hn (y) :=
√ √ n T (F + y/ n) − T (F ) folgt dann aus Satz 9.9, daß
√ b n T (Fn ) − T (F ) = Hn (Zn ) →L H(Z).
Beispiel 9.11 Sei M = `∞ (T ) und T (G) := supt∈T G(t). Ferner sei ρ eine Metrik auf T . Angenommen, F erf¨ ullt folgende zwei Bedingungen: n
o
t ∈ T : F (t) = T (F )
K := sup
ist nichtleer und kompakt bez¨ uglich ρ;
F (t) < T (F ) f¨ ur beliebige δ > 0.
t∈T :ρ(t,K)≥δ
Dann ist lim
λ→∞,y→x
y − T (F ) = max x(t) t∈K λ
λ T F+
f¨ ur beliebige Funktionen x ∈ `∞ (T ), welche in jedem Punkt t ∈ K stetig sind. Beweis: F¨ ur beliebige δ > 0 gilt: λ
sup t∈T :ρ(t,K)≥δ
F+
y (t) − T (F ) λ
≤
λ
t∈T :ρ(t,K)≥δ
→ −∞ λ
sup t∈T :ρ(t,K)<δ
y F+ (t) − T (F ) λ
≤
f¨ ur λ → ∞ und y → x,
sup t∈K
t∈T
y (t) − T (F ) λ
y(t)
t∈T :ρ(t,K)<δ
→ max x(t) λ sup F +
F (t) − T (F ) + kyk
sup
f¨ ur y → x und δ ↓ 0,
≥
λ sup F +
=
sup y(t)
t∈K
y (t) − T (F ) λ
t∈K
→ max x(t) t∈K
f¨ ur y → x.
2
Beispiel 9.12 Sei T = R, sei M die Menge aller x ∈ `∞ (R), so daß x(r) → 0 f¨ ur |r| → ∞, und sei F eine feste Verteilungsfunktion. F¨ ur 0 < p < 1 und G ∈ F + M sei n
o
T (G) := inf r ∈ R : G(r) ≥ p , das “p-Quantil” von G. Angenommen, F (r) = p + c(r − T (F )) + o(|r − T (F )|)
f¨ ur r → T (F )
mit c > 0. Dann ist lim
λ→∞,y→x
λ T F+
y x(T (F )) − T (F ) = − λ c
¨ 9.3. GLEICHMASIGE KONVERGENZ
69
f¨ ur beliebige Funktionen x ∈ M, welche in T (F ) stetig sind. Beweis: F¨ ur beliebige δ > kxk/c gilt: λ
sup
F+
r≤T (F )−δ/λ
y (r) − T (F ) λ
≤
λ F T (F ) −
δ − p + kyk λ
→ −cδ + kxk (λ → ∞, y → x)
λ
inf
r≥T (F )+δ/λ
F+
y
λ
(r) − T (F )
<
0,
≥
λ F T (F ) +
→ cδ − kxk >
δ − p − kyk λ (λ → ∞, y → x)
0,
und
y s T (F ) + − T (F ) → cs + x(T (F )) λ λ gleichm¨aßig in s ∈ [−δ, δ].
λ
F+
(λ → ∞, y → x) 2
Beispiel 9.13 (Die L¨ange des “Shorth”, Gr¨ ubel 1988) Seien T = R, F und M wie in Beispiel 9.12. F¨ ur G ∈ F + M sei nun n
T (G) := inf u − t : −∞ < t < u < ∞, G(u) − G(t) ≥
1o , 2
ein robustes “Skalenfunktional”. Ein Intervall [t, u] mit G(t)−G(u) ≥ 1/2 und u−t = T (G) ist ein “shorth” (shortest interval with probability at least one half) von G. Angenommen, F hat eine stetige Dichte f , welche auf ] − ∞, m(F )] strikt isoton, auf [m(F ), ∞[ strikt antiton ist. Dann hat f¨ ur jedes feste δ > 0 die Funktion r 7→ F (r + δ) − F (r − δ) ein eindeutiges Maximum an der Stelle rδ , so daß f (rδ + δ) = f (rδ − δ). Insbesondere ist T (F ) = 2δo , wobei ro = rδo und δo > 0 eindeutig charakterisiert werden durch f (ro + δo ) = f (ro − δo )
und F (ro + δo ) − F (ro − δo ) =
1 . 2
Hier kann man zeigen, daß (9.8)
lim
λ→∞,y→x
λ T F+
x(ro − δo ) − x(ro + δo ) y − T (F ) = λ f (ro + δo )
f¨ ur beliebige x ∈ M, welche in ro ± δo stetig sind (Aufgabe 9.1).
9.3
Gleichm¨ aßige Konvergenz
Sei F eine Familie von messbaren, beschr¨ankten Funktionen f auf M. Der Satz von der stetigen Abbildung impliziert, daß IE∗ f (Zn ) → IE f (Z), falls Zn →L Z und f L(Z)-fast
70
KAPITEL 9. VERTEILUNGSKONVERGENZ
u ¨berall stetig ist. Das kann man auch wie folgt formulieren: lim IP δ↓0
n
o
(f (x) − f (y)) >
sup
x,y∈U (Z,δ)
= 0
f¨ ur beliebige > 0.
(Als Funktion von z ist supx,y∈U (z,δ) (f (x) − f (y)) von unten halbstetig.) Nun geht es um die Frage, unter welchen Voraussetzungen IE∗ f (Zn ) − IE f (Z) gleichm¨aßig in f ∈ F gegen Null konvergiert. Satz 9.14 (Billingsley, Topsøe 1967). Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Folgende zwei Bedingungen an F und L(Z) sind ¨aquivalent:
f ∈F
(9.10)
sup IE∗ f (Zn ) − IE f (Z) → 0
(9.9)
sup sup (f (x) − f (y)) < ∞
wann immer Zn →L Z.
und
f ∈F x,y∈M
lim sup IP δ↓0 f ∈F
n
o
(f (x) − f (y)) >
sup
x,y∈U (Z,δ)
= 0 f¨ ur beliebige > 0.
Dieser Satz verallgemeinert folgendes Resultat: Korollar 9.15 (Rao 1962) Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Sei supf ∈F supx,y∈M (f (x) − f (y)) < ∞, und F sei in jedem Punkt x ∈ Mo gleichgradig stetig. Das heißt, lim
sup
δ↓0 f ∈F ,y∈U (x,δ)
f (y) − f (x) = 0
f¨ ur beliebige x ∈ Mo .
Dann folgt aus Zn →L Z, daß
sup IE∗ f (Zn ) − IE f (Z) → 0.
f ∈F
Ein spezielles Beispiel f¨ ur F in Korollar 9.15 ist die Klasse aller Funktionen f auf M mit |f (x)| ≤ 1 und |f (x) − f (y)| ≤ d(x, y) f¨ ur alle x, y ∈ M. Korollar 9.16 Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Dann folgt aus Zn →L Z, daß
sup IP∗ {Zn ∈ A} − IP{Z ∈ U (A, )}
A⊂M
+
→ 0 f¨ ur beliebige > 0.
¨ 9.3. GLEICHMASIGE KONVERGENZ
71
Korollar 9.17 Angenommen, M = Rd und IP{Z ∈ ∂H} = 0 f¨ ur beliebige Halbr¨aume H ⊂ Rd . Dann folgt aus Zn →L Z, daß sup Halbr¨ aume H⊂Rd
∗ IP {Zn ∈ H} − IP{Z ∈ H} → 0.
Beweis von Satz 9.14: Zun¨achst weisen wir die Notwendigkeit von (9.10) f¨ ur (9.9) nach. Angenommen die erste Teilbedingung von (9.10) ist nicht erf¨ ullt. Dann existieren Folgen (fn )n in F und (x1n )n , (x2n )n in M mit 1 ≤ rn := fn (x1n ) − fn (x2n ) → ∞. (1)
(2)
Nun seien (Zn )n und (Zn )n Folgen von Zufallsvariablen mit L(Zn(j) ) :=
1 1 L(Z) + √ δxjn . 1− √ rn rn
Beide Folgen konvergieren in Verteilung gegen Z, aber IE fn (Zn(1) ) − IE fn (Zn(2) ) =
√
rn → ∞.
Folglich kann dann auch (9.9) nicht erf¨ ullt sein. Angenommen, die zweite Teilbedingung von (9.10) ist nicht erf¨ ullt. Dann existiert ein o > 0 und eine Folge (fn )n in F mit n
IP
sup
(fn (x) − fn (y)) > o
x,y∈U (Z,1/n)
(1)
o
≥ o
f¨ ur alle n.
(2)
Nun seien Xn , Xn : M → M Abbildungen mit Xn(j) (z) ∈ U (z, n−1 )
und fn (Xn(1) (z)) − fn (Xn(2) (z)) ≥ (j)
1 sup (fn (x) − fn (y)) 2 x,y∈U (z,1/n)
(j)
(j)
f¨ ur beliebige z ∈ M. Dann sind Zn := Xn (Z) M-Zufallselemente mit d(Zn , Z) < n−1 , (j) also Zn →L Z nach Korollar 9.6. Aber Aussage (9.9) kann nicht erf¨ ullt sein, da
IE∗ fn (Zn(1) ) − IE∗ fn (Zn(2) ) ≥ IE∗ fn (Zn(1) ) − IE∗ fn (Zn(2) ) o o n ≥ IP sup (fn (x) − fn (y)) > o 2 x,y∈U (Z,1/n) ≥
2o . 2
Somit ist Bedingung (9.10) notwendig f¨ ur (9.9).
72
KAPITEL 9. VERTEILUNGSKONVERGENZ (j)
Eine Frage, der wir hier nicht nachgehen, ist: Kann man erreichen, daß die Xn messbar (j) sind? Dann w¨aren die Zn sogar Zufallsvariablen. Angenommen es gilt (9.10). Die Wahrheit von Aussage (9.9) bleibt unver¨andert, wenn man jede Funktion f ∈ F mit einer Konstanten c > 0 multipliziert und eine Konstante af addiert. Daher nehmen wir ohne Einschr¨ankung an, daß 0 ≤ f ≤ 1 f¨ ur alle f ∈ F. F¨ ur δ > 0 gibt es paarweise disjunkte Borelmengen Bδ,1 , Bδ,2 , Bδ,3 , . . . mit folgenden Eigenschaften: sup
δ , 2
d(x, y) <
x,y∈Bδ,k
IP{Z ∈ ∂Bδ,k } = 0 und Mo ⊂
[
Bδ,` .
`∈N
Sei n¨amlich {xk : k ∈ N} eine dichte Teilmenge von Mo . F¨ ur jedes k existiert ein δk ∈ [δ/8, δ/4[ mit IP{Z ∈ ∂B(xk , δk )} = 0. Dann haben die Mengen Bδ,1 := B(x1 , δ1 ) S unschten Eigenschaften. Nun gilt f¨ ur und Bδ,k+1 := B(xk+1 , δk+1 ) \ `≤k B(x` , δ` ) die gew¨ beliebige N ∈ N, > 0 und f ∈ F: n
IE∗ f (Zn ) ≤ IP∗ Zn 6∈
o
[
Bδ,k +
k≤N
n
≤ IP∗ Zn 6∈
[
+
IP∗ {Zn ∈ Bδ,k } sup f (x), x∈Bδ,k
k≤N
Bδ,k
k≤N
X
X
o
X + IP∗ {Zn ∈ Bδ,k } − IP{Z ∈ Bδ,k } k≤N
IP{Z ∈ Bδ,k } sup f (x). x∈Bδ,k
k≤N
Ferner ist IE f (Z) ≥
X
IP{Z ∈ Bδ,k } inf f (x)
X
IP{Z ∈ Bδ,k } sup f (x) −
x∈Bδ,k
k≤N
=
x∈Bδ,k
k≤N
≥
IP{Z ∈ Bδ,k } sup (f (x) − f (y)) x,y∈Bδ,k
k≤N
n
X
IP{Z ∈ Bδ,k } sup f (x) − − IP
X
IP{Z ∈ Bδ,k } sup f (x) − − sup IP
x∈Bδ,k
k≤N
≥
X
x,y∈U (Z,δ)
x∈Bδ,k
k≤N
o
(f (x) − f (y)) >
sup
g∈F
n
sup
o
(g(x) − g(y)) > .
x,y∈U (Z,δ)
Denn f¨ ur beliebige z ∈ Bδ,k ist Bδ,k ⊂ U (z, δ), so daß aus supx,y∈Bδ,k (f (x) − f (y)) > folgt, daß auch supx,y∈U (z,δ) (f (x) − f (y)) > . Falls also Zn →L Z, so folgt aus dem Portmanteau-Theorem, daß
sup IE∗ f (Zn ) − IE f (Z)
f ∈F
≤
n
IP∗ Zn 6∈
o
[
Bδ,k +
k≤N
g∈F
k≤N
n
+ + sup IP
X IP∗ {Zn ∈ Bδ,k } − IP{Z ∈ Bδ,k }
sup
x,y∈U (Z,δ)
o
(g(x) − g(y)) >
9.4. SCHWACHE KONVERGENZ (IN WAHRSCHEINLICHKEIT) n
→ IP Z 6∈
[
o
Bδ,k + + sup IP f ∈F
k≤N
→ 0
n
sup
73 o
(f (x) − f (y)) >
x,y∈U (Z,δ)
(N → ∞; dann δ ↓ 0; dann ↓ 0).
Ersetzt man f ∈ F durch 1 − f , dann folgt analog, daß
lim sup sup IE f (Z)−IE∗ f (Zn ) n→∞
f ∈F
= lim sup sup IE∗ (1−f )(Zn )−IE(1−f )(Z) n→∞
f ∈F
≤ 0. 2
Beweis von Korollar 9.15: Aus der gleichgradigen Stetigkeit von F in jedem Punkt von Mo folgt, daß Mo ⊂
[n
z∈M:
sup f ∈F ,x,y∈U (z,δ)
δ>0
o
(f (x) − f (y)) ≤
f¨ ur beliebige > 0, und dies impliziert den zweiten Teil von Bedingung (9.10) f¨ ur beliebige Mo -Zufallsvariablen Z. 2 Beweis von Korollar 9.16: F¨ ur beliebiges festes > 0 und A ⊂ M ist
1A ≤ fA := 1 −
d(·, A) + ≤ 1U (A,) ,
und fA ist Lipschitz-stetig mit Konstante 1/. Folglich ist IP∗ {Zn ∈ A}−IP{Z ∈ U (A, )} ≤ IE∗ fA (Zn ) − IE fA (Z), und die Behauptung folgt aus Korollar 9.15, angewandt auf F := {fA : A ⊂ M}. 2 Beweis von Korollar 9.17: Nach Korollar 9.16 gen¨ ugt es zu zeigen, daß sup Halbr¨ aume H⊂Rd
n
IP Z ∈ U (H, ) \ H
o
→ 0
f¨ ur ↓ 0.
Diese Aussage ist Bestandteil von Aufgabe 9.2.
9.4
2
Schwache Konvergenz (in Wahrscheinlichkeit)
Seien P und Pn , n ∈ N, Wahrscheinlichkeitsmaße auf M. Dann konvergiert die Folge (Pn )n schwach gegen P , falls lim
n→∞
Z
f dPn =
Z
f dP
f¨ ur beliebige f ∈ Cb (M).
In Symbolen: Pn →w P . Mit Zufallsvariablen Z ∼ P und Zn ∼ Pn ist dies ¨aquivalent zu Zn →L Z. Folglich kann man alle bisherigen Resultate u ¨ber Verteilungskonvergenz umformulieren in Resultate u ¨ber schwache Konvergenz.
74
KAPITEL 9. VERTEILUNGSKONVERGENZ
Angenommen, man ersetzt die Pn durch zuf¨allige Wahrscheinlichkeitsmaße Pen . Das bedeutet, jedes Pen ist eine Abbildung von einem Wahrscheinlichkeitsraum in die Menge der Wahrscheinlichkeitsmaße auf B(M). Eine naheliegende Verallgemeinerung der schwachen Konvergenz ist die schwache Konvergenz in Wahrscheinlichkeit: Die Folge (Pen )n konvergiert schwach gegen P in Wahrscheinlichkeit, wenn Z
f dPen →p
Z
f dP
f¨ ur beliebige f ∈ Cb (M).
In Symbolen: Pen →w,p P . Man kann alle bisherigen Resultate auf zuf¨allige Folgen (Pen )n u ¨bertragen. Zum Beispiel besagt hier das Portmanteau-Theorem unter anderem, daß Pen →w,p P genau dann, wenn
+
Pen A − P A
→p 0
f¨ ur beliebige abgeschlossene Mengen A ⊂ M.
Ferner folgt aus der schwachen Konvergenz von (Pen )n gegen P in Wahrscheinlichkeit, daß Z Z e sup f dPn − f dP →p 0,
f ∈F
vorausgesetzt, P ist auf einer separablen Borel-Menge Mo ⊂ M konzentriert, und die Funktionenfamilie F erf¨ ullt Bedingung (9.10) mit Z ∼ P . Im Falle X = M konvergiert (Pbn )n schwach gegen P in Wahrscheinlichkeit. Denn f¨ ur 2 beliebige Funktionen f ∈ L (P ) ist IE Pbn f = P f
und
Var(Pbn f ) =
P (f 2 ) − (P f )2
.
2 = O(1/n).
Insofern bietet Satz 9.14 eine andere M¨oglichkeit, um uniforme Konsistenz von Pbn nachzuweisen.
9.5
Straffheit
Im folgenden sei Mo eine feste Borelmenge in M. Definition 9.18 Die Zufallsvariable Z heißt straff auf Mo , wenn zu jedem > 0 ein Kompaktum K ⊂ Mo existiert, so daß IP{Z 6∈ K} ≤ . Mit anderen Worten, es gibt eine σ-kompakte Teilmenge von Mo , die Z mit Wahrscheinlichkeit Eins enth¨alt.
9.5. STRAFFHEIT
75
Definition 9.19 Die Folge (Zn )n heißt asymptotisch straff auf Mo , wenn zu jedem > 0 ein Kompaktum K ⊂ Mo existiert, so daß lim sup IP∗ {Zn 6∈ U } ≤ f¨ ur alle offenen U ⊃ K. n→∞
Im Falle von Mo = M spricht man einfach von “Straffheit” anstelle von “Straffheit auf Mo ”. Satz 9.20 (Prohorov, LeCam). Angenommen die Folge (Zn )n ist asymptotisch meßbar und asymptotisch straff auf Mo . Dann gibt es zu jeder Teilfolge von (Zn )n eine Teilteilfolge, welche in Verteilung gegen eine auf Mo straffe Zufallsvariable konvergiert. Eine naheliegende Frage ist, ob Straffheit beziehungsweise asymptotische Straffheit sehr spezielle Eigenschaften sind. Aus dem Portmanteau-Theorem folgt direkt, daß die Folge (Zn )n asymptotisch straff ist auf Mo , sofern sie in Verteilung gegen eine auf Mo straffe Zufallsvariable konvergiert. Unter gewissen Voraussetzungen an den Teilraum Mo ist jede Mo -Zufallsvariable notwendig straff, und es gibt auch ein einfacheres Kriterium f¨ ur asymptotische Straffheit. Satz 9.21 (Prohorov, LeCam). Sei Mo separabel und vollst¨andig bez¨ uglich der Metrik d. (I) Angenommen zu jeder Teilfolge von (Zn )n existiert eine Teilteilfolge, welche in Verteilung gegen eine Mo -Zufallsvariable konvergiert. Dann ist (Zn )n asymptotisch straff auf Mo . Sind dar¨ uber hinaus alle Zn Mo -Zufallsvariablen, dann gibt es sogar zu jedem > 0 ein Kompaktum K ⊂ Mo mit sup IP{Zn 6∈ K} ≤ .
n∈N
(II) Angenommen zu jedem > 0 existiert ein Kompaktum K ⊂ Mo mit n
o
lim sup IP∗ Zn 6∈ U (K, ) n→∞
≤ .
Dann ist die Folge (Zn )n asymptotisch straff auf Mo . Beweis von Satz 9.20: F¨ ur ` ∈ N sei K` ⊂ Mo kompakt, so daß lim sup IP∗ {Zn 6∈ U } ≤ `−1 n→∞
f¨ ur alle offenen U ⊃ K` .
76
KAPITEL 9. VERTEILUNGSKONVERGENZ
Erster Schritt: Zu jeder Teilfolge von (Zn )n existiert eine Teilteilfolge (Znk )k , so daß f¨ ur beliebige f ∈ Cb (M) der Grenzwert L(f ) := lim IE∗ f (Znk ) k→∞
existiert.
Beweis: Bekanntlich ist Cb (M), k · kK` separabel; siehe auch Lemma 10.2. Folglich kann man eine abz¨ahlbare Teilmenge G von Cb (M) konstruieren, so daß gilt: F¨ ur beliebige f ∈ Cb (M), ` ∈ N und > 0 existiert ein g ∈ G mit kf − gkK` ≤ und kgkM ≤ kf kM Nach dem zweiten Cantorschen Diagonalverfahren existiert zu jeder Teilfolge von (Zn )n ∗ eine Teilteilfolge (Znk )k , so daß die Folge IE g(Znk ) f¨ ur beliebige g ∈ G konvergiert.
k
Doch dann konvergiert sogar IE∗ f (Znk ) f¨ ur beliebige f ∈ Cb (M). Denn zu beliebigem k ` ∈ N und > 0 sei g ∈ G wie oben. Dann ist ∗ IE f (Zn ) − IE∗ g(Zn ) ≤ kf − gkU (K` ,δ) + 2kf kM /` + o(1)
f¨ ur beliebige δ > 0. Wegen der Kompaktheit von K` konvergiert kf − gkU (K` ,δ) gegen kf − gkK` f¨ ur δ ↓ 0. Folglich ist
lim sup IE∗ f (Znj ) − IE∗ f (Znk ) ≤ 2 + 4kf kM /`. j,k→∞
F¨ ur ` → ∞ und ↓ 0 folgt, daß IE∗ f (Znk )
k
eine Cauchyfolge ist, also konvergiert.
Zweiter Schritt: Das Funktional Cb (M) 3 f 7→ L(f ) aus dem ersten Schritt ist eine Linearform, so daß gilt: L(f ) ≥ 0, falls f ≥ 0, L(1) = 1, und (9.11)
L(f ) ≤ kf kK` + kf kM /` f¨ ur alle ` ∈ N und f ∈ Cb (M).
Beweis: Aus Lemma 9.1 folgt, daß L sublinear ist, das heißt, L(rf ) = rL(f ) und L(f +g) ≤ L(f ) + L(g) f¨ ur r ≥ 0 und f, g ∈ Cb (M). Denn alle Funktionale IE∗ f (Zn ) haben diese Eigenschaft. Außerdem ist offensichtlich L(f ) ≥ 0, falls f ≥ 0, und L(1) = 1. Doch die asymptotische Meßbarkeit von (Zn )n impliziert, daß stets L(f ) = −L(−f ). Zusammen mit der Sublinearit¨at folgt daraus die Linearit¨at von L. Aus der Konstruktion der Mengen ur alle ` ∈ N; siehe auch den Beweis des K` folgt, daß stets L(f ) ≤ kf kK` + kf kM /` f¨ ersten Schrittes. Dritter und letzter Schritt: Es existiert ein Wahrscheinlichkeitsmaß Q auf B(M), so daß L(f ) =
Z
f dQ f¨ ur alle f ∈ Cb (M),
9.5. STRAFFHEIT
77
und Q(M \ K` ) ≤ `−1 f¨ ur alle ` ∈ N. Insbesondere konvergiert (Znk )k in Verteilung gegen eine M-Zufallsvariable Z mit L(Z) = Q, welche auf Mo straff ist. Beweis: Aus (9.11) und dem Satz von Dini folgt, daß L(f ) =
lim L(fm )
m→∞
f¨ ur (punktweise) isotone Folgen (fm )m in Cb (M) mit Grenzwert f ∈ Cb (M). Denn f¨ ur beliebige ` ∈ N ist
lim sup L(f ) − L(fm ) m→∞
≤
lim sup kf − fm kK` + kf − f1 kM /` (nach (9.11))
=
kf − f1 kM /` (Satz von Dini)
m→∞
→ 0
f¨ ur ` → ∞.
Nach dem Satz von Daniell-Port-Stone aus der Maßtheorie existiert ein WahrscheinlichR keitsmaß Q auf B(M) mit L(f ) = ur alle f ∈ Cb (M). Insbesondere ist Q(M \ K` ) f dQ f¨ gleich dem Grenzwert limk→∞ L (kd(·, K` )) ∧ 1 ≤ `−1 . Zur Konstruktion von Q: F¨ ur offene Mengen U ⊂ M sei n
o
Q(U ) := sup L(f ) : f ∈ C(M), 0 ≤ f ≤ 1U . F¨ ur beliebige Mengen S ⊂ M definiert n
Q(S) := inf Q(U ) : U ⊃ S, U offen
o
ein ¨außeres Maß auf M, so daß alle Mengen in B(M) Q-messbar sind. Daß tats¨achlich R ¨ L(f ) = f dQ f¨ ur alle f ∈ C(M, [0, 1]) folgt mithilfe von Lemma 9.2 aus folgender Uberlegung: F¨ ur beliebige k ∈ N ist L(f ) =
k 1X i i − 1 + L k f∧ − k i=1 k k
Z ∞ k n 1X i − 1 o 1 Q f> ≤ Q({f > r}) dr + , ≤ k k k 0 i=1 Z ∞ k n o X 1 i 1 Q f> ≥ Q({f < r}) dr − . ≥ k k k 0
2
i=1
Beweis von Satz 9.21: Sei {xi : i ∈ N} eine dichte Teilmenge von Mo . Sowohl unter den Voraussetzungen von Teil (I) als auch unter denen von Teil (II) gibt es zu jedem δ > 0 ein N ∈ N mit n
lim sup IP∗ Zn 6∈ n→∞
N [
i=1
o
B(xi , δ)
≤ δ.
78
KAPITEL 9. VERTEILUNGSKONVERGENZ
Im Falle von Teil (II) ist dies leicht zu zeigen. Angenommen es gelten die Voraussetzungen von Teil (I), aber es existieren ein δo > 0 und eine Auswahlfolge (nk )k , so daß n
IP∗ Znk 6∈
k [
o
B(xi , δo )
> δo
f¨ ur alle k ∈ N.
i=1
Nach Voraussetzung k¨onnen wir außerdem annehmen, daß (Znk )k in Verteilung gegen eine S Mo -Zufallsvariable Zo konvergiert. Da Mo ⊂ ∞ i=1 U (xi , δo ), ist n
lim sup IP∗ Znk 6∈ k→∞
k [
o
B(xi , δo )
n
≤ IP Zo 6∈
i=1
N [
o
B(xi , δo )
< δo
i=1
f¨ ur ein hinreichend großes N ∈ N, im Widerspruch zu der Annahme an δo und (nk )k . F¨ ur ein beliebiges festes > 0 und f¨ ur k ∈ N sei also Nk ∈ N, so daß lim sup IP∗ {Zn 6∈ Bk } ≤ 2−k , n→∞
wobei Bk :=
SNk
i=1 B(xi , 1/k).
Die Menge K :=
∞ \
Bk
k=1
ist abgeschlossen und nichtleer, denn alle Bk sind abgeschlossen, und x1 ∈ K. Außerdem T ist K ⊂ k∈N B(Mo , 1/k) = Mo , da Mo abgeschlossen ist. Die folgende Behauptung impliziert, daß K kompakt ist: (9.12)
Zu jeder Folge (ym )m von Punkten ym ∈
Tm
k=1 Bk
existiert
eine Teilfolge, die gegen einen Punkt in K konvergiert. Beweis von (9.12): Aufgrund der Abgeschlossenheit aller Bk liegt jeder H¨aufungspunkt von (ym )m in K. Man muß also nur nachweisen, daß es eine konvergente Teilfolge gibt. Seien No := N, m0 := 0. F¨ ur k = 1, 2, 3, . . . w¨ahlen wir nun induktiv ik ∈ {1, 2, . . . , Nk }, so daß die Menge Nk :=
n
o
m ∈ Nk−1 : ym ∈ B(xik , 1/k) \ {mk−1 }
unendlich ist, und definieren mk := min(Nk ). Dies liefert eine Teilfolge (ymk )k , so daß gilt: ymj ∈ B(xik , 1/k)
f¨ ur j ≥ k.
ur alle k. Wegen Insbesondere ist diese Folge eine Cauchy-Folge mit d(ymk , Mo ) ≤ 1/k f¨ der Vollst¨ andigkeit von Mo konvergiert sie gegen einen Punkt y ∈ Mo .
9.5. STRAFFHEIT
79
Nun sei U eine beliebige offene Umgebung von K. Dann kann man aus (9.12) ableiten, T daß L ur ein hinreichend großes L ∈ N. Folglich ist k=1 Bk ⊂ U f¨ lim sup IP∗ {Zn 6∈ U } ≤ n→∞
L X
k=1
lim sup IP∗ {Zn 6∈ Bk } ≤ . n→∞
In dem Spezialfall, daß in (I) alle Zn Mo -Zufallsvariablen sind, kann man die Nk so w¨ahlen, daß IP{Zn 6∈ Bk } ≤ 2−k f¨ ur alle n, k ∈ N, und folglich ist IP{Zn 6∈ K} ≤ f¨ ur beliebige n ∈ N.
2
Schließlich sei noch ein erw¨ahnt, daß man im Falle von Straffheit mithilfe des Satzes von Stone-Weierstrass die asymptotische Messbarkeit und Verteilungskonvergenz oft einfacher nachweisen kann. Auch die Gleichheit in Verteilung von M-Zufallsvariablen wird dadurch vereinfacht. Satz 9.22 Sei F eine Teilfamilie von Cb (M) mit folgenden Eigenschaften: mit f, g ∈ F ist auch f g ∈ F; f¨ ur beliebige verschiedene x, y ∈ Mo existiert ein f ∈ F mit f (x) 6= f (y). [a] Seien Z, Ze auf Mo straffe Zufallsvariablen mit e IE f (Z) = IE f (Z) f¨ ur alle f ∈ F.
(9.13) e Dann ist L(Z) = L(Z).
[b] Angenommen, die Folge (Zn )n∈N ist asymptotisch straff auf Mo . Ferner sei lim
n→∞
IE∗ f (Zn ) − IE∗ f (Zn )
= 0 f¨ ur alle f ∈ F.
Dann ist die Folge (Zn )n asymptotisch messbar. Zus¨atzlich existiere L(f ) := lim IE∗ f (Zn ) n→∞
f¨ ur alle f ∈ F. Dann konvergiert (Zn )n in Verteilung gegen eine auf Mo straffe Zufalldvariable Z.
80
KAPITEL 9. VERTEILUNGSKONVERGENZ
Beweis: Sei G der von F ∪ {1} aufgespannte Vektorraum. Dann u ¨bertr¨agt sich Eigenschaft (9.13) von F auf G. Aus Lemma 9.1 kann man ableiten, daß sich auch Eigenschaft (9.22) von F auf G u ¨bertr¨agt. Zu beliebigem > 0 w¨ahlen wir nun ein Kompaktum K ⊂ Mo , so daß IP{Z 6∈ K} ∨ IP{Ze 6∈ K} ≤ in Teil [a], beziehungsweise n
o
lim sup IP∗ Zn 6∈ U (K, δ) n→∞
≤ f¨ ur beliebige δ > 0
in Teil [b]. Aus dem Beweis des Satzes von Stone-Weierstrass folgt, daß zu jeder Funktion f ∈ Cb (M) ein g ∈ G existiert, so daß kf − gkK ≤ und kgkM ≤ kf kM . Somit ist e 6∈ K} ≤ 2(1 + kf kM ), e ≤ 2kf − gkK + kf k IP{Z 6∈ K} + kf k IP{Z IE f (Z) − IE f (Z)
und f¨ ur δ > 0 gilt:
lim sup IE∗ f (Zn ) − IE∗ f (Zn ) n→∞
n
o
≤
2kf − gkU (K,δ) + 2kf kM lim sup IP∗ Zn 6∈ U (K, δ)
≤
2kf − gkU (K,δ) + 2kf kM
n→∞
→ 2(1 + kf kM ) (δ ↓ 0). Dies beweist Teil [a] und die asymptotische Messbarkeit von (Zn )n in Teil [b]. Angenommen, in Teil [b] existiert der Grenzwert L(f ) := limn→∞ IE∗ f (Zn ) f¨ ur alle f ∈ F. Aus Prohorovs Theorem und Teil [a] folgt die Existenz einer Zufallsvariablen Z ∈ M, so daß zu jeder Teilfolge von (Zn )n eine Teilteilfolge existiert, welche in Verteilung gegen Z konvergiert. Mit einem einfachen Widerspruchsbeweis zeigt man nun, daß dann auch die Folge (Zn )n selbst in Verteilung gegen Z konvergiert. 2 Dieser Satz vereinheitlicht eine ganze Reihe von Techniken, um schwache Konvergenz nachzuweisen. In manchen F¨allen hat man noch das Gl¨ uck, daß die Konvergenz von IE∗ f (Zn ) und IE∗ f (Zn ) f¨ ur beliebige f ∈ F bereits die asymptotische Straffheit von (Zn )n impliziert. Beispiel 9.23 Sei M = Rd und F die Menge aller Funktionen f (x) = α sin(u>x) + β cos(u>x)
9.5. STRAFFHEIT
81
mit α, β ∈ R und u ∈ Rd . Diese Klasse F erf¨ ullt die Voraussetzungen von Satz 9.22. Angenommen, alle Zn sind messbar. F¨ ur beliebige u ∈ Rd existiere der Grenzwert `(u) := limn→∞ IE cos(u>Zn ), wobei ` im Nullpunkt stetig ist. Dann ist (Zn )n asymptotisch straff. Denn f¨ ur beliebige δ > 0 und Einheitsvektoren v ∈ Rd ist 1 lim n→∞ δ
Z
0
δ
sin(δv >Zn ) 1 IE cos(rv Zn ) dr = lim IE = C(δ, v) := > n→∞ δv x δ >
Z
δ
`(rv) dr,
0
wobei sin(0)/0 := 1. Doch sin(x)/x ≤ 1{|x| < 2} + 1{|x| ≥ 2}/2 = 1 − 1{|x| ≥ 2}/2, weshalb n 2o lim sup IP |v >Zn | ≥ ≤ 2 1 − C(δ, v) . δ n→∞ Mit einer Orthonormalbasis v1 , v2 , . . . , vd des Rd ergibt sich also, daß n
lim sup IP |Zn | ≥ n→∞
d X 2o ≤ 2 1 − C(δ, vi ) → 0 (δ ↓ 0), δ i=1
da nach Voraussetzung limu→0 `(u) = `(0) = 1. Zusammenfassend erhalten wir folgenden Stetigkeitssatz f¨ ur die Fourier-Transformierte1 Korollar 9.24 (L´evy-Cram´er) Eine Folge (Zn )n von Rd -wertigen Zufallsvariablen konvergiert in Verteilung genau dann, wenn f¨ ur beliebige u ∈ Rd der Grenzwert √ ~`(u) := lim IE exp −1 u>Zn ∈ C n→∞
existiert, und wenn ~` im Nullpunkt stetig ist. Beispiel 9.25 Sei M = [0, ∞[ und F die Menge aller Funktionen f (x) = exp(−λx) mit λ > 0. Diese Familie erf¨ ullt die Voraussetzungen von Satz 9.22. Falls der Grenzwert `(λ) := limn→∞ IE∗ exp(−λZn ) f¨ ur alle λ ≥ 0 existiert, und falls ` im Nullpunkt stetig ist, dann ist (Zn )n asymptotisch straff. Denn n
IE∗ exp(−λZn ) ≥ 1 − (1 − exp(−1)) IP∗ Zn ≥
1o . λ
Dies liefert einen Stetigkeitssatz f¨ ur die Laplace-Transformierte2 von nichtnegativen Zufallsvariablen. 1
d Die Fourier-Transformierte oder √ charakteristische Funktion einer Zufallsvariablen Z ∈ R ist die Funkd > tion R 3 u 7→ IE exp −1 u Z ∈ C.
2 Die Laplace-Transformierte einer Zufallsvariablen Z ≥ 0 ist die Funktion [0, ∞[ 3 λ 7→ IE exp(−λZ) ∈ ]0, 1].
82
KAPITEL 9. VERTEILUNGSKONVERGENZ
Korollar 9.26 Eine Folge (Zn )n von [0, ∞[-wertigen Zufallselementen konvergiert in Verteilung genau dann, wenn f¨ ur beliebige λ ≥ 0 gilt: `(λ) := lim IE∗ exp(−λZn ) = lim IE∗ exp(−λZn ), n→∞
n→∞
und ` ist im Nullpunkt stetig. Beispiel 9.27 Sei M = `∞ (T ), versehen mit der Supremumsnorm k · kT . Dann erf¨ ullt die Menge F aller Funktionen
f (x) := g (x(t))t∈To
mit endlichen Mengen To ⊂ T und beschr¨ankten stetigen Funktionen g : To → R die Voraussetzungen von Satz 9.22. Hier ist asymptotische Straffheit schwieriger nachzuweisen; siehe Kapitel 10.
Aufgaben Aufgabe 9.1 Beweisen Sie die kompakte Differenzierbarkeit des Funktionals T in Beispiel 9.13, i.e. Aussage (9.8). n
Aufgabe 9.2 Sei P ein Wahrscheinlichkeitsmaß auf Rd mit der Eigenschaft, daß P x ∈ o
Rd : u>x = r = 0 f¨ ur beliebige u ∈ Rd und r ∈ R. Zeigen Sie, daß lim
sup
↓0 u∈Rd ,r∈R
n
o
P x ∈ Rd : r ≤ u>x ≤ r +
= 0.
Aufgabe 9.3 Man eigne sich aus einem Lehrbuch u ¨ber mengentheoretische Topologie oder Analysis den Satz von Stone-Weierstrass an. Der Beweis dieses Satzes liefert folgende Aussage: Sei K eine kompakte Teilmenge eines topologischen Raumes M, und sei F eine Algebra3 von beschr¨ankten stetigen Funktionen auf M, welche die konstante Funktion 1 enth¨alt und Punkte von K trennt. Das heißt, f¨ ur zwei verschiedene Punkte x, y ∈ K existiert ein f ∈ F mit f (x) 6= f (y). Dann existiert zu jedem g ∈ Cb (M) und > 0 ein f ∈ F mit kf kM ≤ kgkM und kf − gkK ≤ . Aufgabe 9.4 Sei M = M1 × M2 mit metrischen R¨aumen (M1 , d1 ) und (M2 , d2 ), und sei d((x1 , x2 ), (y1 , y2 )) := d1 (x1 , x2 ) ∨ d2 (x2 , y2 ). 3
das heißt, F ist ein Vektorraum und abgeschlossen unter Produktbildung
9.5. STRAFFHEIT
83
[a] Angenommen, Z ist straff. Zeigen Sie, daß (Zn )n genau dann in Verteilung gegen Z konvergiert, wenn limn→∞ IE f ∗ (Zn ) = IE f (Z) f¨ ur alle stetigen Funktionen f der Form f ((x1 , x2 )) = f1 (x1 )f2 (x2 ) mit fi ∈ C(Mi , [0, 1]). [b] Zeigen Sie, daß (Zn )n genau dann asymptotisch straff und asymptotisch messbar ist, wenn mit Zn = (Zn1 , Zn2 ) beide Folgen (Zn1 )n und (Zn2 )n asymptotisch straff und asymptotisch messbar sind. Aufgabe 9.5 Zeigen Sie, daß Nd (µn , Σn ) →w Nd (µ, Σ) genau dann, wenn µn → µ und Σn → Σ.
84
KAPITEL 9. VERTEILUNGSKONVERGENZ
Kapitel 10
Funktionale Grenzwerts¨ atze Hier betrachten wir die Menge `∞ (T ) aller beschr¨ankten Funktionen x : T → R versehen mit der Supremumsnorm k · k = k · kT . Das erste Resultat charakterisiert die separablen Teilmengen von `∞ (T ).
Lemma 10.1 Sei Mo eine separable Teilmenge von `∞ (T ). Dann existiert eine Pseudometrik ρ auf T , so daß gilt: (T , ρ) ist pr¨akompakt, und alle Funktionen in Mo sind gleichm¨aßig stetig bez¨ uglich ρ. Die Menge aller bez¨ uglich ρ gleichm¨aßig stetigen Funktionen aus `∞ (T ) ist ebenfalls separabel.
Ein pseudometrischer Raum (T , ρ) heißt pr¨akompakt, wenn man f¨ ur beliebige δ > 0 die Menge T mit endlich vielen Kugeln mit Radius δ bez¨ uglich ρ u ¨berdecken kann. Mit ¨ anderen Worten, f¨ ur beliebige δ > 0 ist die Uberdeckungszahl N (δ, T , ρ) endlich; siehe Abschnitt 8.1. Beweis von Lemma 10.1: Sei {xk : k ∈ N} eine dichte Teilmenge von Mo . Dann definieren wir ρ(s, t) =
X
|xk (s) − xk (t)| ∧ 2−k .
k∈N
Man kann zeigen, daß ρ eine Pseudometrik auf T ist. Ferner sind alle Funktionen xk gleichm¨aßig stetig bez¨ uglich ρ, denn aus ρ(s, t) ≤ δ ≤ 2−k folgt notwendig, daß |xk (s) − xk (t)| ≤ δ. Dann sind aber auch alle Funktionen in Mo gleichm¨aßig stetig bez¨ uglich ρ, denn die Menge aller bez¨ uglich ρ gleichm¨aßig stetigen Funktionen ist abgeschlossen in `∞ (T ). 85
¨ KAPITEL 10. FUNKTIONALE GRENZWERTSATZE
86
Zu zeigen ist nun, daß (T , ρ) pr¨akompakt ist. F¨ ur > 0 w¨ahlen wir N ∈ N mit 2−N < /2. P Dann ist ρ(s, t) < k≤N |xk (s) − x(t)| + /2. Die Menge n
xk (t)
:t∈T
k≤N
o
ist eine beschr¨ankte Teilmenge des RN , da alle Funktionen xk beschr¨ankt sind. Folglich existiert eine endliche Teilmenge To von T , so daß min
s∈To
X
|xk (s) − xk (t)| ≤ /2
f¨ ur alle t ∈ T .
k≤N
Somit ist ρ(t, To ) < f¨ ur beliebige t ∈ T . Die Separabilit¨at der Menge aller bez¨ uglich ρ gleichm¨aßig stetigen Funktionen wird in Lemma 10.2 gezeigt. 2 Im folgenden sei ρ eine feste Pseudometrik auf T , so daß (T , ρ) pr¨akompakt ist, und T∗ sei eine dichte Teilmenge von T bez¨ uglich ρ. Ferner sei Cu (T ) die Menge aller bez¨ uglich ρ gleichm¨aßig stetigen Funktionen auf T . Mit dem Stetigkeitsmodul ω(x, δ) = ω(x, δ | ρ) :=
|x(s) − x(t)|
sup s,t∈T :ρ(s,t)<δ
einer Funktion x ∈ `∞ (T ) kann man schreiben: Cu (T ) =
n
o
x ∈ `∞ (T ) : lim ω(x, δ) = 0 . δ↓0
Lemma 10.2 Der Raum Cu (T ) ist vollst¨andig und separabel bez¨ uglich k · k. Beweis: Wir konstruieren zun¨achst eine spezielle Folge von Abbildungen, die wir mehrfach verwenden werden: F¨ ur k ∈ N sei Tk eine endliche Teilmenge von T∗ mit supt∈T ρ(t, Tk ) < 1/k, und es seien T1 ⊂ T2 ⊂ T3 ⊂ · · ·. Nun definieren wir
λk (t, u) := P
+
1 − kρ(t, u)
v∈Tk
+
1 − kρ(t, v)
f¨ ur t ∈ T und u ∈ Tk . Man beachte, daß der Nenner von Null weg beschr¨ankt ist. Es gilt: 0 ≤ λk (·, u) ∈ Cu (T ) X
(Aufgabe 10.1);
λk (·, u) ≡ 1;
u∈Tk
λk (t, u) = 0
falls ρ(t, u) ≥ 1/k.
87 F¨ ur x ∈ `∞ (T ) oder x ∈ `∞ (Tk ) = RTk sei nun Πk x :=
X
x(u)λk (·, u) ∈ Cu (T ).
u∈Tk
Dann ist Πk eine lineare Abbildung von `∞ (T ) beziehungsweise `∞ (Tk ) nach Cu (T ), so daß gilt: kΠk xk ≤ kxkTk f¨ ur alle x ∈ `∞ (T ) ∪ `∞ (Tk ), (10.1) kx − Πk xk ≤ ω(x, 1/k) f¨ ur alle x ∈ `∞ (T ). Letztere Ungleichung folgt aus X
|x(t) − Πk x(t)| = ≤
u∈Tk
(x(t) − x(u))λk (t, u)
X
|x(t) − x(u)|λk (t, u)
X
ω(x, 1/k)λk (t, u)
u∈Tk
≤
u∈Tk
= ω(x, 1/k). Nun zum eigentlichen Beweis von Lemma 10.2: Die Vollst¨andigkeit von Cu (T ) folgt aus Standardargumenten f¨ ur gleichm¨aßige Konvergenz von Funktionenfolgen. Aus (10.1) folgt, daß n o [
Πk y : y ∈ QTk
k∈N
eine abz¨ahlbare, dichte Teilmenge von Cu (T ) ist, denn f¨ ur beliebige x ∈ Cu (T ) und k ∈ N ist inf
y∈QTk
kx − Πk yk ≤ ω(x, 1/k) + inf
y∈QTk
kx − ykTk = ω(x, 1/k) → 0
(k → ∞).
2
Lemma 10.3 Ein Cu (T )-Zufallselement Z ist genau dann meßbar, wenn Z(t) f¨ ur beliebige t ∈ T∗ meßbar ist. Die Verteilung einer Cu (T )-Zufallsvariablen Z wird eindeutig bestimmt durch die endlichdimensionalen Randverteilungen
L (Z(t))t∈To , wobei To alle endlichen Teilmengen von T∗ durchl¨auft. Beweis: Sei D die Menge aller Durchschnitte von endlich vielen abgeschlossenen Kugeln in Cu (T ). Dann ist D ein erzeugendes System der Borelmengen von Cu (T ). Denn aufgrund der Separabilit¨at von Cu (T ) kann man jede offene Teilmenge hiervon als abz¨ahlbare
¨ KAPITEL 10. FUNKTIONALE GRENZWERTSATZE
88
Vereinigung abgeschlossener Kugeln darstellen. Doch eine Menge D ∈ D hat die Form D = =
mn \
y ∈ Cu (T ) : ky − xi k ≤ ηi
o
(mit m ∈ N, xi ∈ Cu (T ), ηi ≥ 0)
i=1 mn \
y ∈ Cu (T ) : ky − xi kTk ≤ ηi f¨ ur alle k ∈ N
o
i=1
=
\
Dk
k∈N
o
n
mit Dk := i≤m y ∈ Cu (T ) : ky − xi kTk ≤ ηi und den Mengen Tk ⊂ T∗ aus dem Beweis von Lemma 10.2. Die Indikatorfunktion 1{Z ∈ Dk } ist eine messbare Funktion von (Z(t))t∈Tk . Daher ist Z genau dann messbar, wenn Z(t) f¨ ur alle t ∈ T∗ messbar ist. In diesem Falle ist IP{Z ∈ D} = limk→∞ IP{Z ∈ ur alle k. Also Dk }, da Dk ⊃ Dk+1 f¨ wird IP{Z ∈ D} durch die Randverteilungen L (Z(t))t∈Tk , k ∈ N, bestimmt. Da D durchschnittstabil ist, bestimmen diese Verteilungen sogar L(Z). 2 T
Im Hinblick auf Abschnitt 9.5 ist eine naheliegende Frage, wie pr¨akompakte Teilmengen von Cu (T ) aussehen. Dies wird durch den Satz von Arzel`a-Ascoli aus der Funktionalanalysis beantwortet. Es sei nur darauf hingewiesen, daß folgende Eigenschaft von (Zn )n in engem Zusammenhang mit asymptotischer Straffheit steht. Definition 10.4 Eine Folge von Folge (Zn )n∈N von `∞ (T )-Zufallselementen heißt stochastisch gleichstetig (bez¨ uglich ρ), wenn n
o
lim lim sup IP∗ ω(Zn , δ) > δ↓0
n→∞
= 0
f¨ ur beliebige > 0.
Nun kommen wir zum Hauptsatz dieses Abschnitts. Satz 10.5 Sei (Zn )n eine Folge von `∞ (T )-Zufallselementen. Dann sind folgende Aussagen ¨aquivalent: (a) (Z ur beliebige endliche Mengen To ⊂ T∗ konvern )n ist stochastisch gleichstetig, und f¨ giert Zn |To in Verteilung gegen eine `∞ (To )-Zufallsvariable Y(To ) . n
(b) (Zn )n konvergiert in Verteilung gegen eine Cu (T )-Zufallsvariable Z.
Unter diesen Bedingungen ist L (Z(t))t∈To = L(Y(To ) ) f¨ ur alle endlichen Teilmengen To von T∗ . Beweis: Daß Bedingung (b) Bedingung (a) impliziert, folgt aus dem Satz von der stetigen Abbildung und dem Portmanteau-Theorem, denn x 7→ (x(t))t∈To und x 7→ ω(x, δ) sind
89 stetige Abbildungen auf `∞ (T ), wobei n
o
lim IP ω(Z, δ) ≥ δ↓0
= 0
f¨ ur beliebige > 0.
Umgekehrt sei Bedingung (a) erf¨ ullt. Zu beliebigem > 0 existiert ein k ∈ N mit n
o
lim sup IP∗ ω(Zn , 1/k) ≥ n→∞
≤ /2.
Mit Tk und Πk aus dem Beweis von Lemma 10.2 ist also n
o
lim sup IP∗ kZn − Πk Zn k ≥ n→∞
≤ /2;
siehe (10.1). Doch Zn |Tk konvergiert in Verteilung gegen eine `∞ (Tk )-Zufallsvariable n Yk . Insbesondere existiert eine reelle Zahl R > 0 mit n
IP kYk kTk ≥ R n
Doch dann ist K := Πk y : kykTk ≤ R Stetigkeit von Πk , und n
o
IP∗ Zn 6∈ U (K, )
o
o
≤ /2.
eine kompakte Menge in Cu (T ) aufgrund der
n
o
n
n
o
n
≤ IP∗ kZn − Πk Zn k ≥ + IP∗ Πk Zn 6∈ K
o
≤ IP∗ kZn − Πk Zn k ≥ + IP∗ kZn kTk ≥ R
o
≤ + o(1), gem¨aß dem Portmanteau-Theorem. Nach Lemma 10.2 und Teil (II) von Satz 9.21 ist also (Zn )n asymptotisch straff auf Cu (T ). Doch nun folgt Aussage (b) aus Satz 9.22, angewandt auf die Menge F aller Funktionen der Form
f (x) = g (x(t))t∈To
mit endlichen Teilmengen To von T∗ und beschr¨ankten stetigen Funktionen g auf RTo . 2 Skizze eines anderen Beweises von “(a) =⇒ (b)”: Man kanndie Resultate aus ullen Abschnitt 9.5 wie folgt umgehen. Die Limites Yk ∈ `∞ (Tk ) von Zn |Tk , k ∈ N, erf¨ n folgende Bedingung:
L(Yk ) = L Y` |Tk
f¨ ur 1 ≤ k < `.
Nach dem Existenzsatz von Kolmogorov existiert ein stochastischer Prozess Z auf T∗∗ := ur alle k ∈ N. Mit den Stetigkeitsmoduli ωk (·, ·) und ω∗∗ (·, ·) k Tk mit L Z|Tk = L(Yk ) f¨
S
¨ KAPITEL 10. FUNKTIONALE GRENZWERTSATZE
90
von Funktionen auf Tk beziehungsweise Tk gilt: ωk (·, ·) ↑ ω∗∗ (·, ·) f¨ ur k → ∞, weshalb n
o
IP ω∗∗ (Z, δ) >
= ≤ ≤
n
o
lim IP ωk (Z, δ) >
k→∞
n
o
lim lim sup IP∗ ωk (Zn , δ) ≥
k→∞
n→∞
n
o
lim sup IP∗ ω(Zn , δ) ≥ n→∞
→ 0
(δ ↓ 0).
Also hat Z fast sicher gleichm¨aßig stetige Pfade auf T∗∗ bez¨ uglich ρ. Zusammen mit Lemma fidis kann man also folgern, daß eine Cu (T )-Zufallsvariable Z existiert, so daß L Z|Tk = L(Yk ) f¨ ur alle k. F¨ ur f ∈ CLip (`∞ (T ), [0, 1]) mit Lipschitzkonstante L gilt demnach: ∗ IE f (Zn ) − IE f (Z)
≤ IE∗ |f (Zn ) − f (Πk Zn )| + IE |f (Z) − f (Πk Z)|
+ IE∗ f (Πk Zn ) − f (Πk Z)
= IE∗ |f (Zn ) − f (Πk Zn )| + IE |f (Z) − f (Πk Z)| + o(1) n
o
n
o
≤ 2L + IP∗ ω(Zn , 1/k) ≥ + IP ω(Z, 1/k) ≥ + o(1), und der limes superior der rechten Seite wird beliebig klein, f¨ ur geeignete k ∈ N und > 0. 2
Aufgaben Aufgabe 10.1 Seien λk (·, u), u ∈ Tk , die im Beweis von Lemma 10.2 definierten Gewichtsfunktionen. Zeigen Sie, daß sie Lipschitz-stetig sind. Versuchen Sie, eine m¨oglichst gute Schranke f¨ ur die Lipschitz-Konstante zu finden. Aufgabe 10.2 Sei Sbn der Partialsummenprozess aus Abschnitt 1.2, und supf ∈F |f (xni )| sei f¨ ur alle i ≤ n endlich. Zeigen Sie, daß Sbn eine `∞ (F)-Zufallsvariable ist. Aufgabe 10.3 Zeigen Sie, daß die Abbildung R 3 y 7→ 1{y ≤ ·} ∈ `∞ (R) nicht Borel-messbar ist. Hinweis: Zeigen Sie, daß f¨ ur beliebige Mengen B ⊂ R die Menge der Indikatorfunktionen 1{y ≤ ·}, y ∈ B, abgeschlossen ist in `∞ (R). Verallgemeinerung: F¨ ur n ∈ N ist die Abbildung Rn 3 y 7→ messbar.
Pn
i=1 1{yi
≤ ·} nicht Borel-
Kapitel 11
Der klassische empirische Prozess, III: Brownsche Bewegung und Bru ¨ cke In diesem Kapitel betrachten wir die Funktionenr¨aume `∞ ([0, 1]) und `∞ (R), wobei R mit der u ¨blichen Metrik ρ(s, t) := |t − s| versehen wird.
11.1
Stochastische Gleichstetigkeit auf [0, 1]
Lemma 11.1 Sei Z ein `∞ ([0, 1])-Zufallselement. F¨ ur beliebige 0 < δ ≤ 1 und η > 0 ist n
IP∗ ω(Z, δ/2) > 2η
o
≤
n o 2 sup IP∗ sup |Z(u) − Z(t)| > η . δ t∈[0,1[ u∈[t,t+δ]∩[0,1]
Beweis: F¨ ur 0 ≤ j ≤ j(δ) sei Ij := [jδ/2, (j + 1)δ/2] ∩ [0, 1], wobei j(δ) die gr¨oßte ganze Zahl in [1, 2/δ[ ist. Zu u, v ∈ [0, 1] mit |u − v| < δ existiert stets ein j < j(δ) mit u, v ∈ Ij ∪ Ij+1 . Folglich ist j(δ)−1
n
IP∗ ω(Z, δ/2) > 2η
o
≤
X
IP∗
n
sup
u,v∈Ij ∪Ij+1
j=0
|Z(u) − Z(v)| > 2η
o
j(δ)−1
≤
X
j=0
≤
IP∗
n
sup
u∈Ij ∪Ij+1
|Z(u) − Z(jδ/2)| > η
o
n o 2 sup IP∗ sup |Z(u) − Z(t)| > η . δ t∈[0,1[ u∈[t,t+δ]∩[0,1]
2
Die Frage ist nun, wie man die rechte Seite der Ungleichung in Lemma 11.1 absch¨atzen kann. 91
¨ 92KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Lemma 11.2 (L´evy). Sei Z ein stochastischer Prozess auf [a, b] mit rechtsseitig stetigen Pfaden und unabh¨angigen Zuw¨achsen; das heißt, f¨ ur a ≤ t < u ≤ b sind (Z(s))s∈[a,t] und Z(u) − Z(t) stochastisch unabh¨angig. F¨ ur beliebige η > 0 ist n
IP kZk[a,b] > η
o
n
o
n
o
≤ IP |Z(b)| > η/2 + sup IP |Z(b) − Z(t)| > η/2 . t∈[a,b]
Falls zus¨atzlich L(Z(b) − Z(t)) symmetrisch ist um Null f¨ ur alle t ∈ [a, b], dann ist sogar n
IP kZk[a,b] > η
o
n
o
≤ 2 IP |Z(b)| > η .
Beweis: Wegen der rechtsseitigen Stetigkeit der Pfade von Z gen¨ ugt es, die Behauptung mit kZkT anstelle von kZk[a,b] zu beweisen, wobei T ⊃ {a, b} eine beliebige endliche Teilmenge von [a, b] ist. Sei n
o
t ∈ T : |Z(t)| > η ∪ {∞} .
τ := min Dann ist
{kZkT > η} = {τ ∈ T } ⊂ n
n
o
n
o
τ ∈ T, |Z(b)| ≤ η/2 ∪ |Z(b)| > η/2 ,
o
und τ ∈ T, |Z(b)| ≤ η/2 ist gleich [n
τ = t, |Z(b)| ≤ η/2
o
⊂
t∈T
[
n
o
{τ = t} ∩ |Z(b) − Z(t)| > η/2 ,
t∈T
denn |Z(t)| > η auf {τ = t}. Folglich ist n
o
n
n
o
X
n
o
o
IP{kZkT > η} ≤ IP |Z(b)| > η/2 + IP τ ∈ T, |Z(b)| ≤ η/2 ≤ IP |Z(b)| > η/2 +
n
IP{τ = t} IP |Z(b) − Z(t)| > η/2
o
t∈T
n
o
≤ IP |Z(b)| > η/2 + sup IP |Z(b) − Z(t)| > η/2 . t∈[a,b]
n
o
Im Falle symmetrisch verteilter Zuw¨achse Z(b) − Z(t) ist IP Z(b) − Z(t) ≥ 0 ≥ 1/2 und n
o
IP Z(b) − Z(t) ≤ 0 ≥ 1/2, weshalb IP{τ = t} n
o
n
= IP τ = t, Z(t) > η + IP τ = t, Z(t) < −η n
o
o n
≤ 2 IP τ = t, Z(t) > η, Z(b) − Z(t) ≥ 0 + 2 IP τ = t, Z(t) < −η, Z(b) − Z(t) ≤ 0 n
o
n
≤ 2 IP τ = t, Z(b) > η + 2 IP τ = t, Z(b) < −η n
o
o
o
= 2 IP τ = t, |Z(b)| > η , und die gew¨ unschte Ungleichung folgt durch Aufsummieren u ¨ber alle t ∈ T .
2
11.2. DONSKERS INVARIANZPRINZIPIEN
11.2
93
Donskers Invarianzprinzipien
Definition 11.3 Ein Gaußprozess auf einer beliebigen Indexmenge T ist ein stochastischer Prozess Z auf T , so daß f¨ ur beliebige m ∈ N und t1 , t2 , . . . , tm ∈ T der Vektor m (Z(tj ))1≤j≤m ∈ R Gauß-verteilt ist. Ist IE Z ≡ 0, so nennt man den Prozess Z zentriert. Definition 11.4 Eine Brownsche Bewegung auf T = [0, b] oder T = [0, ∞[ ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und Kovarianzen IE W (t)W (u) = t ∧ u. Eine ¨aquivalente Definition: Eine Brownsche Bewegung auf T ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und unabh¨angigen Zuw¨achsen, wobei W (0) = 0 fast sicher, und W (u) − W (t) ∼ N (0, u − t) f¨ ur 0 ≤ t < u ∈ T . Definition 11.5 Eine Brownsche Br¨ ucke ist ein zentrierter Gaußprozess B auf [0, 1] mit fast sicher stetigen Pfaden und Kovarianzen IE B(t)B(u) = (t ∧ u) − tu. Anmerkung 11.6 Die Existenz einer Brownschen Bewegung oder -Br¨ ucke ist nicht offensichtlich sondern folgt implizit aus den S¨atzen 11.7 und 11.8. Wir weisen bereits auf folgende Eigenschaften und Zusammenh¨ange hin: Sei B eine Brownsche Br¨ ucke, und sei Y standardnormalverteilt und unabh¨angig von B. Dann definiert W (t) := B(t) + tY
eine Brownsche Bewegung auf [0, 1], t W (t) := (1 + t)B eine Brownsche Bewegung auf [0, ∞[. 1+t
Sei W eine Brownsche Bewegung auf [0, 1]. Dann definiert B(t) := W (t) − tW (1) eine Brownsche Br¨ ucke, weshalb man die Brownsche Br¨ ucke auch als tied-down Brownian motion bezeichnet. Sei W eine Brownsche Bewegung auf [0, ∞[, und seien σ > 0, v > u ≥ 0. Dann definiert f (t) := σ −1 W (σ 2 t), W f (t) := W
(
tW (1/t) falls t > 0, 0 falls t = 0,
f (t) := W (v + t) − W (v) W
¨ 94KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK jeweils eine Brownsche Bewegung auf [0, ∞[. Ferner definiert B(t) :=
W ((1 − t)u + tv) − (1 − t)W (u) − tW (v) √ v−u
eine Brownsche Br¨ ucke. Nun kommen wir zu den S¨atzen von Donsker. Im ersten Fall betrachten wir Partialsummenprozesse n 1 X [0, 1] 3 t 7→ Wn (t) := √ 1{i ≤ nt}Yni . n i=1 Satz 11.7 (Donsker). Angenommen, f¨ ur jedes n sind Yn1 , Yn2 , . . . , Ynn unabh¨angig und identisch verteilt mit IE Yn1 = 0 und Var(Yn1 ) = 1. Ferner sei 2 2 ≥ n}Yn1 = 0 f¨ ur beliebige > 0. lim IE 1{Yn1
n→∞
Dann konvergiert (Wn )n in Verteilung gegen eine Brownsche Bewegung auf [0, 1]. b n aus Kapitel 2, Im zweiten Fall betrachten wir den uniformen empirischen Prozess G genauer gesagt, die Standardisierung
[0, 1] 3 t 7→ Bn (t) :=
√
b n (t) − t) = √1 n(G
n
n X
1{Ui ≤ t} − t .
i=1
Satz 11.8 (Donsker). Die Folge (Bn )n konvergiert in Verteilung gegen eine Brownsche Br¨ ucke. Beweis von Satz 11.7: Aus dem Lindebergschen Zentralen Grenzwertsatz kann man folgern, daß f¨ ur beliebige f ∈ Cb (R) gilt: (11.1)
lim
sup
n→∞ 0≤t
√ u − t Y = 0, IE f Wn (u) − Wn (t) − IE f
wobei Y standardnormalverteilt ist. Ferner hat der Prozess Wn unabh¨angige Zuw¨achse, weshalb
L
Wn (ti ) − Wn (ti−1 )
1≤i≤m
→w Nm 0, diag (ti − ti−1 )1≤i≤m
f¨ ur beliebige m ∈ N und 0 ≤ t0 < t1 < t2 < · · · < tm ≤ 1. Zusammen mit Wn (0) ≡ 0 folgt hieraus die schwache Konvergenz der endlichdimensionalen Randverteilungen von Wn .
11.2. DONSKERS INVARIANZPRINZIPIEN
95
Zu zeigen bleibt die stochastische Gleichstetigkeit von (Wn )n . Nach Lemma 11.1 und 11.2 gen¨ ugt hierzu der Nachweis, daß lim lim sup
δ→0
n→∞
sup 0
o 1 n IP |Wn (u) − Wn (t)| > = 0 δ
f¨ ur alle > 0.
Doch aus (11.1) folgt, daß f¨ ur 0 < δ ≤ 1 gilt: lim
sup
n→∞ 0
o 1 n IP |Wn (u) − Wn (t)| > δ
o 1 n√ IP u − t |Y | > 0 / δ δ 2 1 ≤ exp − δ 2δ → 0 f¨ ur δ ↓ 0. 2
=
sup
Beweis von Satz 11.8: F¨ ur beliebiges festes n ist der Erwartungswert von Bn gleich Null, und IE Bn (t)Bn (u) = (t ∧ u) − tu. Aus dem multivariaten Zentralen Grenzwertsatz folgt, daß L (Bn (ti ))1≤i≤m →w Nm 0, (ti ∧ tj ) − ti tj 1≤i,j≤m
f¨ ur beliebige m ∈ N und t1 , t2 , . . . , tm ∈ [0, 1]. Zu zeigen bleibt also die stochastische Gleichstetigkeit von (Bn )n . Diese folgt direkt aus Lemma 11.9. 2 Lemma 11.9 F¨ ur 0 < δ ≤ 1 und η ≥ n
IP ω Bn ,
√
δ ist stets
o η2 3 δ 32 > 5η ≤ exp − + exp − nδ . 2 δ 4δ 8 p
W¨ahlt man in Lemma 11.9 η = κδ log(e/δ) mit hinreichend großem κ, dann konvergiert die obere Schranke gegen Null f¨ ur δ → 0 und nδ/ log n → ∞. Bis auf die große Konstante κ beschreibt dies das exakte Verhalten von ω(Bn , ·), denn W. Stute (1982) zeigte, daß hier p ω(Bn , δ) = 2δ log(1/δ)(1 + op (1)). Beweis von Lemma 11.9: Wir betrachten zun¨achst Bn als stochastischen Prozess auf der Menge1 T aller Paare (s, t) ∈ [0, 1]2 mit 0 < t − s < δ/2 verm¨oge Bn (s, t) := Bn (t) − Bn (s). Dannn ist n¨amlich ω(B ur alle (s, t) ∈ T gilt: Var[Bn (s, t)] ≤ o n , δ) = kBn kT , und f¨ δ/2, also IP |Bn (s, t)| ≤ η ≥ 1/2. Mit einer unabh¨angigen Kopie Bn0 von Bn und dem P symmetrisierten Prozess Bno (t) := n−1/2 ni=1 ξi 1{Ui ≤ t} gilt also: n
IP ω Bn , 1
o n o δ δ > 5η ≤ 2 IP ω Bn − Bn0 , > 4η (Symmetrisierungslemma 4.1 [a]) 2 2
genauer gesagt, einer abz¨ ahlbaren dichten Teilmenge
¨ 96KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK n
≤ 4 IP ω Bno , ≤ = = ≤ ≤ ≤ ≤
o δ > 2η (Symmetrisierungslemma 4.2 [a]) 2
n o 8 sup IP sup |Bno (u) − Bno (t)| > η (Lemma 11.1) δ t∈[0,1] u∈[t,t+δ]∩[0,1] o 8 n IP sup |Bno (u)| > η δ u∈[0,δ] 8 IE IP sup |Bno (u)| > η U1 , . . . , Un δ u∈[0,δ] 16 IE IP |Bno (δ)| > η U1 , . . . , Un (Lemma 11.2) δ 32 η2 IE exp − (Hoeffdings Ungleichung) b n (δ) δ 2G η2 32 b n (δ) > 2δ} exp − + IP{G δ 4δ η2 B(1) 32 exp − + exp − nδ δ 4δ 2
(Bennetts Ungleichung),
und B(1) ≤ 3/4 nach Anmerkung 6.6.
11.3
2
Anwendung auf getrimmte Mittelwerte
Seien P und Pn Wahrscheinlichkeitsverteilungen auf R mit Verteilungsfunktionen F beziehungsweise Fn . Ferner sei Pbn die empirische Verteilung von unabh¨angigen Zufallsvariablen Xn1 , Xn2 , . . . , Xnn mit Verteilung Pn . Die Verteilungsfunktion von Pbn sei Fbn . Eine Standardmethode, um den empirischen Mittelwert zu “robustifizieren”, besteht darin, die Variablen Xni der Gr¨oße nach zu ordnen und die k(n) gr¨oßten sowie die k(n) kleinsten Zahlen aus der Stichprobe zu entfernen, wobei k(n) := bnαc mit 0 < α < 1/2. Der Mittelwert dieser reduzierten Stichprobe ist ein getrimmter Mittelwert. Im Falle von paarweise verschiedenen Beobachtungen Xni ist dieser getrimmte Mittelwert bis auf einen Faktor 1 + O(1/n) gleich T (Pbn ), wobei allgemein T (P ) := (1 − 2α)−1
Z
1{α < F (x) ≤ β} x P (dx)
mit β := 1 − α. Es ist T (P ) = µ, falls P stetig und um µ symmetrisch ist. Satz 11.10 Angenommen (Pn )n konvergiert schwach gegen P , wobei F stetig und auf dem Intervall {0 < F < 1} streng isoton ist. Ferner sei
ω(Fn , 0+) = max P {x} x∈R
1 = o √ . n
11.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE
97
Dann ist T (Pbn ) − T (Pn ) = (1 − 2α)−1
Z
1 H d(Pbn − Pn ) + op √ , n
wobei H(x) := 1{F (x) ≤ α}F −1 (α) + 1{α < F (x) ≤ β} x + 1{β < F (x)}F −1 (β). Die Funktion H ist stetig und beschr¨ ankt. Aus dem Lindebergschen Zentralen Grenzwertsatz folgt daher, daß √
Ln (Pn ) := L
n[T (Pbn ) − T (Pn )]
→w N 0, (1 − 2α)−2 VarX∼P [H(X)] .
Andererseits folgt aus den Voraussetzungen des Satzes, daß auch kFbn − F kR = op (1)
1 und ω(Fbn , 0+) = op √ n
(Aufgabe 11.2).
Folglich konvergiert auch Ln (Pbn ) schwach gegen N 0, (1−2α)−2 VarX∼P [H(X)] in Wahr-
scheinlichkeit, ist also ein konsistenter Sch¨atzer f¨ ur Ln (Pn ). Die Verteilung Ln (Pbn ) ist ein Bootstrap-Sch¨atzer f¨ ur Ln (Pn ) und kann auch wie folgt beschrieben werden: Sei Pbn∗ die ∗ , X ∗ , . . . , X ∗ mit empirische Verteilung von Zufallsvariablen Xn1 nn n2
∗ ∗ ∗ , Xn2 , . . . , Xnn L Xn1 Xn1 , Xn2 , . . . , Xnn
Dann ist
√
Ln (Pbn ) = L
= Pbn ⊗ Pbn ⊗ · · · ⊗ Pbn .
n[T (Pbn∗ ) − T (Pbn )] Xn1 , Xn2 , . . . , Xnn .
Der Beweis von Satz 11.10 beruht im wesentlichen auf folgender Ungleichung: Lemma 11.11 Sei Q ein weiteres Wahrscheinlichkeitsmaß auf R mit Verteilungsfunktion G. Sei Z t(P ) :=
1{α < F (x) ≤ β} x P (dx).
Falls kG − F k < α, so ist t(Q) − t(P ) =
Z
h d(Q − P ) + R,
wobei h(x) := 1{F (x) ≤ α}F −1 (α+) + 1{α < F (x) ≤ β} x + 1{β < F (x)}F −1 (β+).
¨ 98KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK und |R|
≤
∆ := δ :=
10(∆ + δ) ω(G − F, δ+) + ω(F, 0+) + 4δkG − F k,
max F −1 (u+) ,
u∈{α,β}
max
u∈{α,β}
F −1 (u + kG − F k)+ − F −1 (u − kG − F k)+
.
Beweis von Satz 11.10: Aus den Voraussetzungen an F und Fn folgt, daß kFn − F kR = o(1) und −1 δn := sup Fn ((u + r)+) − F −1 (u) = o(1). u∈{α,β},|r|≤n1/3
b n − id) ist ferner Fbn − Fn b n und Bn := √n(G Mit dem uniformen empirischen Prozess G verteilt wie n−1/2 Bn ◦ Fn , also
kFbn − Fn kR
=
Op (n−1/2 ),
ω(Fbn − Fn , δn ) =L n−1/2 ω(Bn ◦ Fn , δn )
≤
n−1/2 ω Bn , ω(Fn , δn )+
=
op (n−1/2 ).
Aus Lemma 11.11 folgt dann, daß T (Pbn ) − T (Pn ) = (1 − 2α)−1
Z
Hn d(Pbn − Pn ) + op (n−1/2 ),
wobei Hn (x) := 1{Fn (x) ≤ α}Fn−1 (α+) + 1{α < Fn (x) ≤ β}x + 1{β < Fn (x)}Fn−1 (β+). Doch aus kFn − F kR = o(1) kann man leicht ableiten, daß kHn − HkR = o(1), weshalb R R Hn d(Pbn − Pn ) = H d(Pbn − Pn ) + op (n−1/2 ). 2
Beweis von Lemma 11.11: Wir teleskopieren t(Q) − t(P ) =
Z
+
1{α < G(x) ≤ β} − 1{α < F (x) ≤ β} x Q(dx)
Z
1{α < F (x) ≤ β} x (Q − P )(dx)
und analysieren nun das erste Integral auf der rechten Seite. Es ist 1{α < G ≤ β} − 1{α < F ≤ β} = 1{α < G} − 1{β < G} − 1{α < F } + 1{β < F } = 1J1 (α) − 1J2 (α) − 1J1 (β) + 1J2 (β) ,
11.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE
99
wobei J1 (u) := {F ≤ u < G}
und J2 (u) := {G ≤ u < F }
f¨ ur u ∈ {α, β}. Zum einen ist o n o J2 (u) ⊂ {F − kG − F k ≤ u < F } = F ∈ ]u, u + kG − F k] n o
J1 (u) ⊂ {F ≤ u < F + kG − F k} =
⊂
⊂
n
F ∈ ]u − kG − F k, u]
F ∈ ]u − kG − F k, u + kG − F k]
h
i
F −1 (u − kG − F k)+ , F −1 (u + kG − F k)+ .
Mit xu := F −1 (u+) gilt demnach f¨ ur beliebige δo > δ: Leb(Jk (u)) < δo
sup x − xu < δo
und
x∈Jk (u)
f¨ ur k = 1, 2. Insbesondere ist Q(Jk (u)) − P (Jk (u)) ≤ ωo := ω(G − F, δo ).
Ferner ist P (Jk (u)) ≤ kG − F k + 2ω(F, 0+) aufgrund der Tatsache, daß
(11.2) P {F ∈ K} − Leb(K) ≤ 2ω(F, 0+)
f¨ ur beliebige Intervalle K ⊂ [0, 1].
Alles in allem ist Z
Jk (u)
≤
x Q(dx) − xu P (Jk (u))
Z
Jk (u)
|x − xu | Q(dx) + ∆ Q(Jk (u)) − P (Jk (u))
≤ δo Q(Jk (u)) + ∆ Q(Jk (u)) − P (Jk (u))
≤ (∆ + δo )ωo + δo kG − F k + 2δo ω(F, 0+), und somit Z
1{α < G(x) ≤ β} − 1{α < F (x) ≤ β} x Q(dx)
= xα P (J1 (α)) − P (J2 (α)) − xβ P (J1 (β)) − P (J2 (β)) + R0 , wobei |R0 | ≤ 4(∆ + δo )ωo + 4δo kG − F k + 8δo ω(F, 0+).
¨ 100KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Nun betrachten wir die Differenz P (J1 (u)) − P (J2 (u)). Es ist J1 (u) =
n
⊂
n
=
n
J1 (u) =
n
⊃
n
=
n
=
n
o
x ∈ J1 (u) : F (x) ≤ u < F (x) + (G − F )(x) F ≤ u < F + (G − F )(xu ) + ωo
o
o
F ∈ ]u − (G − F )(xu ) − ωo , u] , o
x : u − kG − F k < F (x) ≤ u < F (x) + (G − F )(x)
x : u − kG − F k ≤ F (x) ≤ u < F (x) + (G − F )(xu ) − ωo x : F (x) ≤ u < F (x) + (G − F )(xu ) − ωo
o
o
o
F ∈ ]u − (G − F )(xu ) + ωo , u] .
Analog zeigt man, daß n
o
F ∈ ]u, u − (G − F )(xu ) − ωo ]
⊂ J2 (u) ⊂
n
o
F ∈ ]u, u − (G − F )(xu ) + ωo ] .
Zusammen mit (11.2) folgt also, daß P (J1 (u)) − P (J2 (u)) − (G − F )(xu ) ≤ 2ωo + 4ω(F, 0+).
Ferner ist Z (G − F )(xu ) − 1{F ≤ u} d(Q − P ) ≤ max |Q{x} − P {x}| ≤ ωo , x∈R
und
R
R
1{F ≤ u} d(Q − P ) = − 1{u < F } d(Q − P ). Folglich ist
xα P (J1 (α)) − P (J2 (α)) − xβ P (J1 (β)) − P (J2 (β)) =
Z
1{F < α}xα + 1{β < F }xβ d(Q − P ) + R00 ,
wobei |R00 | ≤ 6∆ωo + 8∆ω(F, 0+). R
Insgesamt erhalten wir die Entwicklung t(Q) − t(P ) = h d(Q − P ) + R mit |R| ≤ 10(∆ + δo )(ωo + ω(F, 0+)) + 4δo kG − F k. F¨ ur δo ↓ δ ergibt sich die Behauptung. 2
11.4
Verteilungen von Funktionalen von Gaußprozessen
11.4.1
Maximum und Supremumsnorm der Brownschen Bru ¨ cke
Hier ermitteln wir die Verteilungen von maxt∈[0,1] B(t) und kBk[0,1] f¨ ur eine Brownsche Br¨ ucke B.
11.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSPROZESSEN
101
Satz 11.12 (starke Markov-Eigenschaft). Sei M ein stochastischer Prozess auf [0, ∞[ mit folgenden Eigenschaften: M (0) ≡ 0, und M hat rechtsseitig stetige Pfade; M hat unabh¨angige Zuw¨achse, wobei L(M (t + δ) − M (t)) = L(M (δ)) f¨ ur t, δ ≥ 0. Sei τ = τ (M ) eine Markovzeit. Das heißt, τ ist eine Zufallsvariable mit Werten in [0, ∞], so daß n o τ ≤ t ∈ σ M (s) : s ≤ t f¨ ur 0 ≤ t < ∞. Ferner sei M 0 eine unabh¨angige Kopie2 von M . Dann definiert 0
(
+
f(t) := M (t ∧ τ ) + M ((t − τ ) ) = M
M (t) f¨ ur t ≤ τ, M (τ ) + M 0 (t − τ ) f¨ ur t ≥ τ,
f mit den gleichen Eigenschaften wie M . einen stochastischen Prozess M
Beispiele f¨ ur solche Prozesse M sind der Standard-Poissonprozess und die Brownsche Bewegung auf [0, ∞[. Im letzteren Falle ist M symmetrisch, und man kann folgendes Resultat anwenden. Korollar 11.13 (Spiegelungsprinzip). Sei M ein stochastischer Prozess wie in Satz 11.12, so daß L(−M ) = L(M ). Sei τ = τ (M ) eine Markovzeit. Dann definiert
Mo (t) := M (t ∧ τ ) − M (t) − M (t ∧ τ )
=
(
M (t) f¨ ur t ≤ τ, 2M (τ ) − M (t) f¨ ur t ≥ τ,
einen stochastischen Prozess Mo mit den gleichen Eigenschaften wie M . Man sagt, der Prozess Mo geht aus M durch “Spiegelung an der Markovzeit τ ” hervor. fo wie M f mit −M 0 anstelle von M 0 Korollar 11.13 folgt aus Satz 11.12, indem man dort M f), und es ist definiert. Denn man kann leicht nachweisen, daß τ (M ) = τ (M
fo (t) = M f(t ∧ τ (M f)) − M f(t) − M f(t ∧ τ (M f)) . M
Beweis von Satz 11.12: Man sieht leicht, daß sich die Pfadeigenschaften von M und fu f ein stochastischer Prozess mit der gleichen M 0 auf M ¨bertragen. Zu zeigen bleibt, daß M Verteilung wie M ist. Zu diesem Zweck betrachten wir f¨ ur n ∈ N die Variablen τnn := −n n −n n 2 d2 τ e und τen := 2 b2 τ c. Auch τn ist eine Markovzeit, denn {τn ≤ t} = τ ≤ 2
gleiche Verteilung und gleiche Pfadeigenschaften wie M
¨ 102KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK o
2−n b2n tc . Ferner konvergiert (τn )n antiton und (τen )n isoton gegen τ mit τn − τen ≤ 2−n , falls τ < ∞. Wegen der rechtsseitigen Stetigkeit von M und M 0 ist M (t ∧ τ ) = lim M (t ∧ τn ) und M 0 ((t − τ )+ ) = lim M ((t − τen )+ ), n→∞
n→∞
f(t) messbar. Ferner ist also ist auch M n
o
IP M 0 ((t − τn )+ ) − M 0 ((t − τen )+ ) > ≤ =
∞ X
n
IP τn = 2−n k,
k=1 ∞ X
n
t∈[2−n (k−1),2−n k]
o
n
IP τn = 2−n k IP
k=1
≤
n
IP
→ 0
sup
t∈[0,2−n ]
o
|M 0 (t) − M 0 (2−n k)| >
sup sup
t∈[2−n (k−1),2−n k]
o
|M 0 (t) − M 0 (2−n k)| >
o
|M 0 (t) − M 0 (2−n )| >
(n → ∞)
fn wie M f mit τn anstelle von τ , dann konvergiert f¨ ur beliebige > 0. Definiert man also M fn (t))n stochastisch gegen M f(t), und es gen¨ fn genauso verteilt ist (M ugt zu zeigen, daß M wie M . Zu diesem Zwecke benutzen wir die Tatsache, daß f¨ ur beliebige k < ∞ gilt:
L (M (2−n k + t))t≥0 M (s) : s ≤ 2−n k
= L (M (2−n k) + M 0 (t))t≥0 M (s) : s ≤ 2−n k .
(11.3)
F¨ ur m ∈ N und 0 ≤ t1 < t2 < · · · < tm sowie Borelmengen B1 , B2 , . . . , Bm ⊂ R ist folglich n
o
fn (ti ) ∈ Bi f¨ IP M ur 1 ≤ i ≤ m
=
o
fn (ti ) ∈ Bi f¨ IP τn = 2−n k, M ur 1 ≤ i ≤ m
X
IP τn = 2−n k, M (ti ) ∈ Bi falls ti ≤ 2−n k,
0≤k≤∞
=
n
X
n
0≤k≤∞
M (2−n k) + M 0 (ti − 2−n k) ∈ Bi falls ti > 2−n k =
X
o
IE IP τn = 2−n k, M (ti ) ∈ Bi falls ti ≤ 2−n k,
0≤k≤∞
=
X
0≤k≤∞
IE IP τn = 2−n k, M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m M (s) : s ≤ 2−n k (wegen (11.3))
=
X
n
o
IP τn = 2−n k, M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m
0≤k≤∞
n
M (2−n k) + M 0 (ti − 2−n k) ∈ Bi falls ti > 2−n k M (s) : s ≤ 2−n k
o
= IP M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m .
2
11.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSPROZESSEN
103
Satz 11.14 Sei B eine Brownsche Br¨ ucke. F¨ ur beliebige η > 0 ist n
IP max B(t) ≥ η
(11.4)
t∈[0,1]
n
IP kBk[0,1] ≥ η
(11.5)
o
= 2
o
= exp(−2η 2 ),
∞ X
(−1)k−1 exp(−2k 2 η 2 ).
k=1
Anmerkung 11.15 Man kann zeigen, daß eine Brownsche Br¨ ucke B fast sicher eine eindeutige Maximalstelle U = arg mint∈[0,1] B(t) besitzt, wobei U und maxt∈[0,1] B(t) stochastisch unabh¨angig sind mit U ∼ U[0, 1]; siehe Aufgabe 11.4. Beweis von Satz 11.14: Sei W eine Brownsche Bewegung auf [0, ∞[ und B(t) = W (t) − tW (1) f¨ ur t ∈ [0, 1]. Dann sind B und W (1) stochastisch unabh¨angig, weshalb
L (W (t))t∈[0,1] |W (1)| ≤
→w L(B)
f¨ ur ↓ 0.
Nach dem Portmanteau-Theorem ist also
n
lim IP φ(W ) ≥ η |W (1)| ≤
(11.6)
↓0
o
= IP φ(B) ≥ η ,
falls φ(B) 6= η fast sicher. Hierbei ist φ(x) = max[0,1] x oder φ(x) = kxk[0,1] . Angenommen, wir weisen nach, daß der Grenzwert in ur alle η > 0 existiert und in η stetig ist. n o (11.6) f¨ Aus der Monotonie von IP φ(B) ≥ η in η folgt dann die G¨ ultigkeit von (11.6) f¨ ur alle η > 0. Im Falle φ(x) = max[0,1] x sei n
o
τ = τ (W ) := inf r ≥ 0 : W (t) ≥ η . Spiegeln von W an der Stoppzeit τ liefert die Brownsche Bewegung Wo (t) := W (t ∧ τ ) − W (t) − W (t ∧ τ ) , und f¨ ur 0 < ≤ η gilt: n
o
IP max W ≥ η, |W (1)| ≤ [0,1]
n
o
= IP τ ≤ 1, |W (1)| ≤ n
o
= IP τ ≤ 1, |Wo (1) − 2η| ≤ n
o
= IP |Wo (1) − 2η| ≤ , denn aus |Wo (1) − 2η| ≤ ≤ η folgt bereits, daß τ (W ) = τ (Wo ) ≤ 1. Daher ist IP max W ≥ η |W (1)| ≤
[0,1]
=
n
o
IP |Wo (1) − 2η| ≤ n
o
IP |Wo (1)| ≤
N (0, 1)[2η − , 2η + ] N (0, 1)[−, ] → exp(−2η 2 ). =
¨ 104KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Dies beweist Behauptung (11.4). Im Falle φ(x) = kxk[0,1] definieren wir Ak :=
n
Bk :=
n
o
x ∈ C([0, ∞[) : es ex. 0 ≤ t1 < t2 < · · · < tk ≤ 1 mit x(ti ) = (−1)i−1 η , o
x ∈ C([0, ∞[) : es ex. 0 ≤ t1 < t2 < · · · < tk ≤ 1 mit x(ti ) = (−1)i η .
Dann kann man leicht zeigen, daß kxk[0,1] ≥ η genau dann, wenn x ∈ A1 ∪ B1 . Genauer gesagt, existiert dann ein k(x) ∈ N mit x
∈ Ak ∩ Bk
f¨ ur 1 ≤ k < k(x), ∈ Ak 4Bk f¨ ur k = k(x), ∈ 6 Ak ∪ Bk f¨ ur k > k(x).
Insbesondere kann man nun zeigen, daß n
1 kxk[0,1] ≥ η
o
=
∞ X
(−1)k−1 1{x ∈ Ak } + 1{x ∈ Bk }
k=1
und 0 ≤
N X
(−1)k−1 1{x ∈ Ak } + 1{x ∈ Bk }
≤ 2
f¨ ur alle N ∈ N.
k=1
Aus dem Satz von der majorisierten Konvergenz folgt also, daß n
o
IP kW k[0,1] ≥ η, |W (1)| ≤ =
∞ X
n
o
n
o
(−1)k−1 IP W ∈ Ak , |W (1)| ≤ + IP W ∈ Bk , |W (1)| ≤
k=1 ∞ X
= 2
n
o
(−1)k−1 IP W ∈ Ak , |W (1)| ≤ .
k=1
Nun sei n
o
τk := inf t ≥ 0 : W (t) = (2k − 1)η . Dann gilt f¨ ur 0 < ≤ η: n
o
IP W ∈ Ak , |W (1)| ≤ n
o
= IP es ex. 0 ≤ t1 < · · · < tk ≤ 1 mit W (ti ) = (−1)i−1 η, |W (1)| ≤ n
o
= IP es ex. 0 ≤ t1 < · · · < tk ≤ 1 mit W (ti ) = (2 + (−1)i−2 )η, |W (1) − 2η| ≤ (Spiegeln an τ1 ; man beachte, daß τ1 ≤ t1 .) n
o
n
o
= IP es ex. 0 ≤ t2 < · · · < tk ≤ 1 mit W (ti ) = (2 + (−1)i−2 )η, |W (1) − 2η| ≤ = IP es ex. 0 ≤ t2 < · · · < tk ≤ 1 mit W (ti ) = (4 + (−1)i−3 )η, |W (1) − 4η| ≤
11.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSPROZESSEN
105
(Spiegeln an τ2 ≤ t2 ) n
o
= IP es ex. 0 ≤ t3 < · · · < tk ≤ 1 mit W (ti ) = (4 + (−1)i−3 )η, |W (1) − 4η| ≤ .. .
(induktiv) n
o
= IP es ex. 0 ≤ tk ≤ 1 mit W (ti ) = (2k − 1)η, |W (1) − 2(k − 1)η| ≤ n
o
= IP es ex. 0 ≤ tk ≤ 1 mit W (ti ) = (2k − 1)η, |W (1) − 2kη| ≤ (Spiegeln an τk ≤ tk ) n
o
= IP |W (1) − 2kη| ≤ . Folglich ist
IP kW k[0,1] ≥ η |W (1)| ≤
=
2
→ 2
∞ X
k=1 ∞ X
(−1)k−1
N (0, 1)[2kη − , 2kη + ] N (0, 1)[−, ]
(−1)k−1 exp(−2k 2 η 2 )
f¨ ur ↓ 0.
k=1
Dabei ist zu beachten, daß stets N (0, 1)[2kη − , 2kη + ] ≤ exp −(2kη − )2 /2 ≤ exp −2k(k − 1)η 2 . N (0, 1)[−, ]
Man kann also den Grenz¨ ubergang summandenweise durchf¨ uhren. Dies liefert Behauptung (11.5). 2
11.4.2
Lineare und quadratische Funktionale von Gaußprozessen
Sei (T , ρ) ein pr¨akompakter pseudometrischer Raum und X ein Gaußprozess auf T mit stetigen Pfaden. Dies impliziert, daß auch µ := IE X und K := Cov(X) gleichm¨aßig stetige Funktionen auf T beziehungsweise T ×T sind3 , was im wesentlichen aus Aufgabe 9.5 folgt. Ferner sei Q ein Wahrscheinlichkeitsmaß auf den Borelmengen in T . Lemma 11.16 Sei Y ein stochastischer Prozess auf T mit stetigen Pfaden, definiert auf dem Wahrscheinlichkeitsraum (Ω, A, IP). Dann ist die Abbildung T ×Ω 3 (t, w) 7→ Y (t)(w) Borel(T ) ⊗ A-messbar. Insbesondere ist n
o
IE Q t ∈ T : Y (t) = f (t)
=
Z
IP{Y (t) = f (t)} Q(dt)
3 µ(t) := IE X(t) und K(s, t) := Cov[X(s), X(t)]; T × T wird metrisiert verm¨ oge ρe((s, t), (s0 , t0 )) := ρ(s, s0 ) + ρ(t, t0 )
¨ 106KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK f¨ ur beliebige messbare Funktionen f auf T , und IE falls Y ≥ 0 oder
R
Z
Z
Y (t) Q(dt) =
IE Y (t) Q(dt),
IE |Y (t)| Q(dt) < ∞.
Beweis: F¨ ur n ∈ N sei (Bn1 , Bn2 , . . . , Bnk(n) ) eine Partition von T in Borelmengen Bni mit diam(Bni ) < n−1 . F¨ ur feste Punkte tni ∈ Bni ist k(n)
X
Yn (t) :=
1{t ∈ Bni }Y (tni )
i=1
ein stochastischer Prozess auf T mit |Yn (t)(w) − Y (t)(w)| ≤ ω(Y, n−1 ) → 0 f¨ ur beliebige (t, w) ∈ T × Ω. Außerdem ist Yn messbar als Funktion auf T × Ω, da k(n)
n
(t, w) ∈ T × Ω : Yn (t)(w) ≤ r
o
=
[
n
o
Bni × w ∈ Ω : Y (tni )(w) ≤ r .
i=1
Somit ist auch Y eine messbare Funktion auf T × Ω. Die weiteren Aussagen folgen nun aus dem Satz von Fubini. 2 Satz 11.17 F¨ ur beliebige g ∈ L1 (Q) ist Xg dQ normalverteilt mit Mittelwert µg dQ R und Varianz Kg ⊗ g dQ⊗2 . Dabei ist (a ⊗ b)(s, t) := a(s)b(t) f¨ ur Funktionen a, b auf T . R
R
Korollar 11.18 F¨ ur beliebige d ∈ N und g1 , g2 , . . . , gd ∈ L1 (Q) ist Z
Xgi dQ
1≤i≤d
∼ N
Z
µgi dQ
1≤i≤d
,
Z
Kgi ⊗ gj dQ⊗2
1≤i,j≤d
.
2
Eine m¨ogliche Charakterisierung von Normalverteilungen auf Rd lautet wie folgt: Ein Zufallsvektor Y ∈ Rd ist normalverteilt genau dann, wenn `>Y ∈ R normalverteilt ist f¨ ur d beliebige ` ∈ R . Die Verallgemeinerung auf Banachr¨aume lautet dann: Sei Y eine Zufallsvariable mit Werten in einem Banachraum (B, k·k). Man nennt Y normalverteilt, wenn LY normalverteilt ist f¨ ur beliebige stetige Linearformen L auf B. Speziell f¨ ur Cu (T ), k · kT besagt der Rieszsche Darstellungssatz, daß jede stetige Linearform L auf Cu (T ) von der R Form Lx = x dν mit einem endlichen signierten Maß ν auf T ist. Aus Satz 11.17 und Lemma 10.3 folgt somit: Korollar 11.19 Die Menge der normalverteilten Cu (T )-Zufallsvariablen ist identisch mit der Menge aller Gaußprozesse mit gleichm¨aßig stetigen Pfaden.
11.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSPROZESSEN
107
Satz 11.20 Sei X zentriert. Es existiert ein vollst¨andiges Orthonormalsystem (φk )k von L2 (Q) und eine monoton fallende Folge (λk )k in [0, ∞[ mit Z
Ferner ist
P
k
λk =
R
Kφj ⊗ φk dQ⊗2 = 1{j = k}λk
f¨ ur alle j, k.
K(t, t) Q(dt) und Z
X 2 dQ =L
X
λk Zk2
k
mit unabh¨angigen, standardnormalverteilten Zufallsvariablen Z1 , Z2 , Z3 , . . .. Im Falle einer Brownschen Br¨ ucke B und der Gleichverteilung auf [0, 1] definiert √ φk (t) := 2 sin(kπt) ein vollst¨andiges Orthonormalsystem von L2 [0, 1] mit Z
0
1Z 1 0
1{j = k} , π2 k2
φj (t)φk (u)K(t, u) dt du =
wobei hier K(t, u) = t ∧ u − tu. Wie im Beweis von Satz 11.20 zeigt man, daß 1
Z
0
2
B(t) dt =L
∞ 1 X Zk2 . π 2 k=1 k 2
Pk(n)
Beweis von Satz 11.17: Sei Xn (t) := i=1 1{t ∈ Bni }X(tni ) mit Bni und tni ∈ Bni wie R R im Beweis von Lemma 11.16. Dann konvergiert Xn g dQ in Verteilung gegen Xg dQ. Doch Z
Xn g dQ =
X
X(tni )
X
µ(tni )
g dQ
Bni
i
∼ N
Z
Z
g dQ,
Bni
i
X
K(tni , tnj )
i,j
Z
Bni ×Bnj
g ⊗ g dQ⊗2 ,
und aus der gleichm¨aßigen Stetigkeit von µ und K folgt, daß Mittelwert und Varianz dieser R R Normalverteilung gegen µg dQ beziehungsweise Kg ⊗ g dQ⊗2 konvergieren. 2 Beweis von Satz 11.20: Aus der Funktionalanalysis ist bekannt, daß Z
Sg(t) :=
(g ∈ L2 (Q))
K(t, u)g(u) Q(du)
einen kompakten linearen Operator von L2 (Q) nach L2 (Q) definiert. Da K(s, t) = K(t, s) f¨ ur alle s, t ∈ T , ist dieser Operator S symmetrisch und positiv semidefinit, denn Z
(Sg)h dQ =
Z
⊗2
Kg ⊗ h dQ
= Cov
Z
Xg dQ,
Z
Xh dQ
(
R
= (Sh)g dQ, ≥ 0 falls g = h.
¨ 108KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Aus dem Spektralsatz f¨ ur kompakte, normale Operatoren auf Hilbertr¨aumen folgt die Existenz eines vollst¨andigen Orthonormalsystems (φk )k von L2 (Q) mit Sφk = λk φk , wobei R λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ 0. Nach Korollar 11.18 sind die Variablen Xφk dQ, k ≥ 0, stochastisch unabh¨angig und normalverteilt mit Mittelwert Null und Varianz λk . Nach der Parsevalschen Gleichung ist somit Z
X 2 dQ =
X Z
Xφk dQ
2
=L
k
X
λk Zk2 .
k
Insbesondere ist X
λk = IE
Z
X 2 dQ =
Z
K(t, t) Q(dt)
k
nach Lemma 11.16.
11.5
2
Der uniforme Quantilprozess
Mithilfe von Satz 11.8 kann man auch einen funktionalen Grenzwertsatz f¨ ur den uniformen −1 b Quantilprozess Gn beweisen. F¨ ur u ∈ [0, 1] sei id(u) := u. √ b −1 −id) konvergiert im Raum `∞ ([0, 1]) Satz 11.21 (Bahadur-Kiefer). Die Folge n(G n n in Verteilung gegen eine Brownsche Br¨ ucke. Ferner ist
√
√ b
b −1 − id) + n(G
n(G n − id) = op (1). n
F¨ ur den Beweis dieses Satzes ben¨otigen wir folgendes Resultat: Lemma 11.22 (Vervaat). Sei T eine Abbildung von `∞ ([0, 1]) nach `∞ ([0, 1]) mit T1 f ≤ T f ≤ T2 f , wobei n
T1 f (u) := inf t ∈ [0, 1] : f (t) ≥ u n
o
T2 f (u) := sup t ∈ [0, 1] : f (t) ≤ u
o
(mit inf(∅) := 1), (mit sup(∅) := 0).
F¨ ur beliebige x ∈ `∞ ([0, 1]) ist dann
T (id +x) − id ≤ kxk
und T (id +x) − id +x ≤ ω x, kxk+ .
b −1 = T1 G b n und G b n = T2 G b −1 . Daher folgt Satz 11.21 aus Satz 11.8 Man beachte, daß G n n b n − id. und Lemma 11.22, angewandt auf x = G
11.5. DER UNIFORME QUANTILPROZESS
109
Beweis von Lemma 11.22: F¨ ur beliebiges festes u ∈ [0, 1] und t ∈ [−u, 1 − u] ist (id +x)(u + t) = u + t + x(u + t)
(
> u falls t > kxk, < u falls t < −kxk.
Folglich ist T2 (id +x)(u) ≤ u + kxk und T1 (id +x)(u) ≥ u − kxk, also insbesondere kT (id +x) − id k ≤ kxk. Mit ωo := ω(x, kxk+) ist ferner
u + t + x(u + t) = u + t + x(u) + x(u + t) − x(u) (
> u falls |t| ≤ kxk und t > −x(u) + ωo , < u falls |t| ≤ kxk und t < −x(u) − ωo .
Dies zeigt, daß T2 (id +x)(u) ≤ −x(u) + ωo und T1 (id +x)(u) ≥ −x(u) − ωo , also insbesondere kT (id +x) − id +xk ≤ ωo . 2 Anmerkung 11.23 Mithilfe von Satz 11.8 und Lemma 11.9 ergibt sich sogar, daß
√
(log n)1/2 √ b −1
b n − id) + n(G − id) .
n(G
= Op n 1/4
n
Anmerkung 11.24 Mithilfe des Invarianzprinzips f¨ urPartialsummenprozesse, Satz 11.7, √ −1 b kann man auch direkt nachweisen, daß n(Gn − id) in Verteilung gegen eine Brownn P
sche Br¨ ucke konvergiert. Sei n¨amlich Wn (t) := n−1/2 i≤nt Yi mit unabh¨angigen, expo√ nentialverteilten Zufallsvariablen Y1 , Y2 , Y3 , . . .. Mit Rn := Yn+1 / n = op (1) ist dann P W (t) + √n t n i≤nt Yi −1 b √ Gn =L P = ; t∈[0,1] Y W (1) + n + Rn t∈[0,1] i n i≤n+1
siehe Aufgabe 2.5. Also konvergiert √ √ b n n(Gn −id) =L √ Wn (t)−tWn (t)−tRn = Wn −Wn (1) id +op (1) t∈[0,1] n + Wn (1) + Rn in Verteilung gegen W − W (1) id, eine Brownsche Br¨ ucke. Aus Lemma 11.5, angewandt −1 b − id und T = T2 , kann man nun Satz 11.21 sowie Satz 11.8 ableiten. auf x = G n
Aufgaben Aufgabe 11.1 Beweisen Sie die unter Anmerkung 11.6 aufgef¨ uhrten Eigenschaften der Brownschen Bewegung und -Br¨ ucke. (Vorsicht bei t 7→ tW (1/t)!) b Aufgabe √ 11.2 Seien F, Fn , Fn wie in Abschnitt √ 11.3. Zeigen Sie, daß aus ω(Fn , 0+) = b o 1/ n folgt, daß auch ω(Fn , 0+) = op 1/ n .
¨ 110KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Aufgabe 11.3 Formulieren und beweisen Sie einen zentralen Grenzwertsatz analog zu Satz 11.10 f¨ ur folgendes Funktional: T (P ) :=
Z
.Z
xw(F (x)) P (dx)
w(F (x)) P (dx),
wobei w : [0, 1] → [0, ∞[ stetig differenzierbar ist mit {w > 0} = ]α, 1 − α[ f¨ ur eine Konstante 0 < α < 1/2. Aufgabe 11.4 Sei B eine Brownsche Br¨ ucke. (a) Zeigen Sie, daß n
o
IP B(t) ≥ (a(1 − t) + bt)η f¨ ur ein t ∈ [0, 1]
= exp(−2abη 2 )
f¨ ur beliebige η, a, b ≥ 0. f (t) := Hinweis: Verwenden Sie die Tatsachen, daß W (t) := (1 + t)B(t/(1 + t)) und W σ −1 W (σ 2 t) Brownsche Bewegungen auf [0, ∞[ definieren.
(b) Zeigen Sie, daß maxt∈[0,1] B(t) und T := arg maxt∈[0,1] B(t) stochastisch unabh¨angig sind, wobei T ∼ U[0, 1]. Hinweis: F¨ ur r ∈ [0, 1] betrachte man die bedingte Verteilung von B gegeben B(r). Bis auf affine Transformationen sind dann (B(t))t∈[0,r] und (B(t))t∈[r,1] unabh¨angige Brownsche Br¨ ucken.
Kapitel 12
Chaining 12.1
Maximalungleichungen
Sei Z ein stochastischer Prozess auf einem pr¨akompakten pseudometrischen Raum (T , ρ). Wir nehmen stets an, daß entweder T abz¨ahlbar ist oder Z stetige Pfade bez¨ uglich ρ hat. Das Chaining ist eine Technik, mit der man kZk oder ω(Z, δ) nach oben absch¨atzen kann. Ein entscheidender Schritt ist dabei, das Maximum endlich vieler Zufallsvariablen P Y1 , Y2 , . . . , Ym abzusch¨atzen. Eine naive Schranke ist IE maxi≤m |Yi | ≤ i≤m IE |Yi |. Folgendes Lemma liefert eine Verfeinerung hiervon: Lemma 12.1 (Pisier). Sei ψ : R → [0, ∞[ eine gerade, konvexe Funktion mit ψ(0) = 0 und ψ 6≡ 0. F¨ ur beliebige m ∈ N und Zufallsvariablen Y1 , Y2 , . . . , Ym ist IE max |Yi | ≤ ψ −1 i≤m
n
m X
IE ψ(Yi ) ,
i=1
o
wobei ψ −1 (t) := sup r ≥ 0 : ψ(r) ≤ t f¨ ur t ≥ 0. Mithilfe dieses Lemmas kann man folgenden Satz beweisen: Satz 12.2 (Chaining, I). Sei ψ : R → [0, ∞[ wie in Lemma 12.1. F¨ ur beliebige s, t ∈ T sei Z(s) − Z(t)
≤ 1, falls ρ(s, t) > 0, ρ(s, t) Z(s) = Z(t) fast sicher, falls ρ(s, t) = 0. IE ψ
111
112
KAPITEL 12. CHAINING
(a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist IE kZk ≤ IE |Z(to )| + 8
Z
δ(to )
0
Ψ−1 N (u, T , ρ) du.
(b) F¨ ur beliebige δ > 0 ist
IE ω Z, δ
≤ 16
Z
0
δ
Ψ−1 N (u, T , ρ)2 du.
Beweis von Lemma 12.1: Da ψ(r) eine isotone Funktion von |r| ist, folgt:
IE max |Yi | = IE ψ −1 max ψ(Yi ) i≤m
≤ ψ
−1
≤ ψ −1
i≤m
IE max ψ(Yi ) i≤m
m X
IE ψ(Yi ) ,
i=1
wobei die vorletzte Ungleichung eine Konsequenz der Jensenschen Ungleichung ist.
2
Beweis von Satz 12.2, Teil (a): Sei T = {to , t1 , t2 , . . .}, oder sei {to , t1 , t2 , . . .} eine dichte Teilmenge von T , und Z habe stetige Pfade. Nach dem Satz von der monotonen Konvergenz ist in beiden F¨allen IE kZk = limk→∞ IE kZk{to ,t1 ,...,tk } . Deshalb kann man ohne Einschr¨ankung annehmen, daß T endlich ist. Außerdem kann man annehmen, daß ρ(s, t) > 0 f¨ ur verschiedene s, t ∈ T . Nun sei T0 := {to }, und f¨ ur k ∈ No sei δk := 2−k δ(to ). F¨ ur k = 0, 1, 2, . . . w¨ahlen wir induktiv eine maximale Teilmenge Tk+1 von T , so daß gilt: Tk ⊂ Tk+1
und ρ(s, t) > δk+1
f¨ ur verschiedene s, t ∈ Tk+1 .
Die Maximalit¨at von Tk f¨ ur k ≥ 1 und die Definition von δ(to ) = δ0 implizieren, daß ρ(t, Tk ) ≤ δk
f¨ ur alle t ∈ T und k ∈ No .
Insbesondere ist T0 ⊂ T1 ⊂ T2 ⊂ · · · ⊂ T` = T f¨ ur ein ` ∈ N. Eine andere wichtige Tatsache ist, daß #Tk ≤ D(δk , T , ρ) ≤ N (δk+1 , T , ρ)
f¨ ur alle k ∈ No .
F¨ ur jedes k ∈ No und t ∈ T w¨ahlen wir einen Punkt πk t ∈ Tk , so daß ρ(t, πk t) ≤ δk . Dann ist kZkTk+1 (12.1)
≤
max |Z(πk t)| + |Z(t) − Z(πk t)|
t∈Tk+1
≤ kZkTk + max |Z(t) − Z(πk t)|, t∈Tk+1
12.1. MAXIMALUNGLEICHUNGEN
113
und nach Lemma 12.1 ist IE max |Z(t) − Z(πk t)| = δk IE max t∈Tk+1
t∈Tk+1
|Z(t) − Z(πk t)| δk
≤ δk Ψ−1 (#Tk+1 )
≤ δk Ψ−1 N (δk+2 , T , ρ)
= 8(δk+2 − δk+3 )Ψ−1 N (δk+2 , T , ρ) ≤ 8
Z
δk+2
Ψ−1 N (u, T , ρ) du.
δk+3
Letztere Ungleichung folgt aus der Antitonie von ψ −1 (N (u, T , ρ)) in u > 0. Kombiniert man diese Ungleichungen f¨ ur k = 0, 1, 2, . . . , ` − 1, dann folgt, daß IE kZkT
≤ IE kZkT0 + 8
∞ Z X
δk+2
k=0 δk+3 Z δ(to )
≤ IE |Z(to )| + 8
0
Ψ−1 N (u, T , ρ) du
Ψ−1 N (u, T , ρ) du.
2
Beweis von Satz 12.2, Teil (b): Dieses Resultat folgt aus Teil (a), indem man das e teo ) ersetzt, wobei Tupel (T , ρ, Z, to ) durch (Te , ρe, Z, Te
ρe (s, t), (s0 , t0 )
:=
n
:=
o
(s, t) ∈ T × T : ρ(s, t) < δ ,
ρ(s, s0 ) + ρ(t, t0 ) ∧ ρ(s, t) + ρ(s0 , t0 ) ,
e t) := Z(s) − Z(t), Z(s,
teo := (to , to )
e teo ) ≡ 0. e und Z( f¨ ur ein beliebiges to ∈ T . Dann ist n¨amlich ω(Z, δ) = kZk Te
Man kann leicht zeigen, daß ρe eine Pseudometrik auf Te ist, und daß N (u, Te , ρe) ≤ N (u, T × T , ρe) ≤ N (u/2, T , ρ)2
f¨ ur alle u > 0.
In der Tat gilt letztere Ungleichung f¨ ur die “Manhattan-Metrik” dM [(s, t), (s0 , t0 )] := ρ(s, s0 ) + ρ(t, t0 ) anstelle von ρe. Ferner ist
ρe (s, t), (s0 , t0 )
= dM [(s, t), (s0 , t0 )] ∧ dM [(s, t), ∆] + dM [(s0 , t0 ), ∆]
mit der “Diagonalen” ∆ := {(t, t) : t ∈ T } von T . Eine m¨ogliche anschauliche Deutung: Der Abstand dM misst Fußwege in Manhattan. Man kann zu Fuß von (s, t) nach (s0 , t0 )
114
KAPITEL 12. CHAINING
gelangen und legt dabei den Weg dM [(s, t), (s0 , t0 )] zur¨ uck. Oder man l¨auft von (s, t) aus auf dem schnellsten Wege zur Diagonalen ∆, zum Beipiel nach (s, s) oder (t, t), f¨ahrt ein St¨ uck mit der U-Bahn entlang ∆ bis zum Punkt (s0 , s0 ) oder (t0 , t0 ), und l¨auft von dort aus nach (s0 , t0 ). Also beschreibt ρe den k¨ urzesten Fußweg bei m¨oglicher U-Bahnbenutzung. Schließlich kann man mithilfe der Konvexit¨at von Ψ zeigen, daß Z( e se) − Z( e t) e
IE Ψ
e ρe(se, t)
≤ 1
f¨ ur beliebige se, te ∈ Te ,
e teo ) ≤ δ, folgt aus Teil (a), wobei ψ(0/0) := 0 und ψ(a/0) := ∞ f¨ ur a > 0. Da supet∈Te ρe(t, daß e IE kZk ≤ 8 Te
Z
0
δ
Ψ−1 N (u/2, T , ρ)2 du = 16
Z
δ/2
0
Ψ−1 N (u, T , ρ)2 du.
2
Die Maximalungleichung von Lemma 12.1 kann man unter einer zus¨atzlichen Annahme an die Funktion ψ noch verfeinern. Dazu definieren wir f¨ ur eine Zufallsvariable Y die Orlicz-Norm n
o
kY kψ := inf r > 0 : IE ψ(Y /r) ≤ 1
(mit inf(∅) := ∞).
Dies ist eine Seminorm auf dem Vektorraum Lψ (IP) aller Zufallsvariablen Y auf (Ω, A, IP), so daß IE ψ(Y /r) < ∞ f¨ ur ein r > 0 (Aufgabe 12.1). F¨ ur den Spezialfall ψ(x) := |x|p erh¨alt man den u ¨blichen Raum Lp (IP) und die Seminorm kY kp = (IE |Y |p )1/p . Lemma 12.3 Sei ψ : R → [0, ∞[ wie in Lemma 12.1, und es sei lim sup x,y→∞
ψ(x)ψ(y) < ∞. ψ(xy)
Dann existiert eine universelle Konstante C(ψ), so daß f¨ ur beliebige m ∈ N und Zufallsvariablen Y1 , Y2 , . . . , Ym gilt:
max |Yi | i≤m
ψ
≤ C(ψ)ψ −1 (m) max kYi kψ . i≤m
Dieses Lemma ergibt eine verbesserte Version von Satz 12.2: Satz 12.4 (Chaining, II). Sei ψ : R → [0, ∞[ wie in Lemma 12.3. F¨ ur beliebige s, t ∈ T sei kZ(s) − Z(t)kψ ≤ ρ(s, t). Dann gilt f¨ ur eine universelle Konstante C(ψ):
12.1. MAXIMALUNGLEICHUNGEN
115
(a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist
kZk
Z
≤ kZ(to )kψ + C(ψ)
ψ
δ(to )
0
Ψ−1 N (u, T , ρ) du.
(b) F¨ ur beliebige δ > 0 ist
ω Z, δ
≤ C(ψ)
ψ
Z
δ
0
Ψ−1 N (u, T , ρ)2 du.
Ein wichtiger Spezialfall f¨ ur ψ ist die Funktion ψo (x) := exp(x2 ) − 1. Hier kann man zeigen, daß IP{|Y | ≥ η} ≤ 2 exp(−Lη 2 ) f¨ ur alle η ≥ 0,
(12.2)
falls kY kψo ≤
q
1/L,
q
3/L falls IP{|Y | > η} ≤ 2 exp(−Lη 2 ) f¨ ur alle η ≥ 0 √ √ √ (Aufgabe 12.2). Es ist ψo−1 (r) = 1 + log r ≤ log r/ 1 + log 2, falls r ≥ 2. Aus Satz 12.4 kann man folgendes Resultat ableiten: kY kψo ≤
(12.3)
Korollar 12.5 Angenommen, Z hatnsubgaußsche Zuw¨achse obez¨ uglich ρ. Das bedeutet, f¨ ur beliebige s, t ∈ T und η ≥ 0 ist IP |Z(s) − Z(t)| > ρ(s, t)η ≤ 2 exp(−η 2 /2). F¨ ur eine universelle Konstante C gilt dann: (a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist
kZk
ψo
≤ kZ(to )kψo + C
Z
0
δ(to ) q
log N (u, T , ρ) du.
(b) F¨ ur beliebige δ > 0 ist
ω Z, δ
ψo
≤ C
Z
0
δ
q
log N (u, T , ρ) du.
2
Beweis von Lemma 12.3: Ohne Einschr¨ankung sei kYi kψ ≤ 1 f¨ ur alle i ≤ m. Nach Voraussetzung existieren Konstanten ro ≥ 0 und so ≥ 1, so daß ψ(x)ψ(y) ≤ so ψ(xy) f¨ ur alle x, y ≥ ro . Dann ist
.
IE ψ max |Yi | (ψ −1 (m) ∨ ro ) i≤m
.
≤ ψ(ro ) + so IE ψ max |Yi | ≤ ψ(ro ) + so .
i≤m
ψ(ψ −1 (m) ∨ ro )
116
KAPITEL 12. CHAINING
Wegen ψ(0) = 0 und der Konvexit¨at von ψ ist ψ(·/`) ≤ ψ/` f¨ ur beliebige ` ≥ 1. Folglich ist
max |Yi |
ψ
i≤m
≤ (ψ(ro ) + so )(ψ −1 (m) ∨ ro ) ≤ (ψ(ro ) + so ) (ro /ψ −1 (1)) ∨ 1 ψ −1 (m). 2
Beweis von Satz 12.4: Mit den gleichen Bezeichnungen wie im Beweis von Satz 12.2 folgt aus (12.1) und Lemma 12.3, daß
kZkTk+1
ψ
≤ kZkTk + δk ψ −1 N (δk+2 , T , ρ) ψ
Z
≤ kZkTk + 8 ψ
δk+2
δk+3
Ψ−1 N (u, T , ρ) du.
Nun argumentiert man wie im Beweis von Satz 12.2.
12.2
2
Anwendungen
Sei Zn = ni=1 φni mit unabh¨angigen stochastischen Prozessen φni auf einer abz¨ahlbaren Menge T . Anstelle von ρbn betrachten wir die zuf¨allige Pseudometrik P
v u n uX ρbn,2 (s, t) = ρbn,2 (s, t | φn1 , . . . , φnn ) := t (φni (s) − φni (t))2 i=1
Pn
auf T . Sei n¨amlich Zno der symmetrisierte Prozess i=1 ξi φni . Gegeben φn1 , . . . , φnn , hat der Prozess Zno stetige Pfade und subgaußsche Zuw¨achse bez¨ uglich ρbn,2 . Diese Tatsache folgt aus Hoeffdings Ungleichung, Korollar 6.2, und wird nun in verschiedenen Situationen angewandt.
12.2.1
Prozesse mit Lipschitz-stetigen Pfaden
Angenommen, die Prozesse φni haben Lipschitz-stetige Pfade, und IE φni existiere in RT . F¨ ur x : T → R definieren wir |x(s) − x(t)| kxkLip := sup . ρ(s, t) s,t∈T :s6=t Dann gilt: Lemma 12.6 Es existiert eine universelle Konstante C < ∞, so daß v u n Z uX IE ω(Zn − IE Zn , δ) ≤ C t IE kφni k2(1−γ) kφni k2γ Lip i=1
f¨ ur beliebige δ > 0 und γ ∈ (0, 1].
0
δγ
r
log N (u1/γ , T , ρ) du
12.2. ANWENDUNGEN
117
Beweis: Nach Symmetrisierungslemma 4.1 [b] und 4.2 [b] ist IE ω(Zn − IE Zn , δ) nicht gr¨oßer als 2 IE ω(Zno , δ). Wie schon erw¨ahnt hat der symmetrisierte Prozess Zno subgaußsche Zuw¨achse bez¨ uglich ρbn,2 , gegeben φn1 , . . . , φnn . Außerdem ist (φni (s) − φni (t))2 = |φni (s) − φni (t)|2(1−γ) |φni (s) − φni (t)|2γ 2γ ≤ 41−γ kφni k2(1−γ) kφni k2γ Lip ρ(s, t) ,
weshalb ρbn,2 (s, t) ≤ ρˇn (s, t) := Dn ρ(s, t)γ
mit Dn
v u n X u := t41−γ kφi k2(1−γ) kφi k2γ Lip . i=1
Ferner ist ω(Zno , δ | ρ) ≤ ω(Zno , Dn δ γ | ρˇn ) und N (u, T , ρˇn ) ≤ N (u/Dn )1/γ , T , ρ . Daher folgt aus Korollar 12.5, daß
IE
ω(Zno , δ) φn1 , . . . , φnn
≤ C ≤ C
Z
Dn δ γ
Z
Dn δ γ
0
0
= CDn
Z
δγ
0
q
log N (u, T , ρˇn ) du
r
log N (u/Dn )1/γ , T , ρ du
q
log N (u1/γ , T , ρ) du,
und die Behauptung folgt durch Integration beider Seiten bez¨ uglich der Verteilung von (φn1 , . . . , φnn ). 2 Beispiel 12.7 Ein spezielles Anwendungsbeispiel sind empirische charakteristische Funktionen. Sei T eine beschr¨ankte Teilmenge des Rd , und sei ρ(s, t) := |s−t|. F¨ ur unabh¨angige, d identisch verteilte Zufallsvariablen X1 , X2 , X3 , . . . ∈ R sei Zn (t, 1) := n−1/2
n X
cos(t>Xi ),
Zn (t, 2) := n−1/2
n X
sin(t>Xi ).
i=1
i=1
Falls IE |X1 | < ∞
f¨ ur ein > 0,
dann konvergiert (Zn −IE Zn )n im Raum `∞ (T ×{1, 2}) in Verteilung gegen einen zentrierten Gaußprozess Z mit gleichm¨aßig stetigen Pfaden bez¨ uglich der Metrik ρe((s, j), (t, k)) := |s − t| + |j − k|. Denn aus dem multivariaten Zentralen Grenzwertsatz folgt, daß die endlichdimensionalen Randverteilungen von Zn schwach gegen zentrierte Normalverteilungen
118
KAPITEL 12. CHAINING
mit der gleichen Kovarianzfunktion wie Z1 konvergieren. Nach Satz 10.5 in Kapitel 10 gen¨ ugt es zu zeigen, daß die Folgen (Zn (·, 1))n und (Zn (·, 2))n stochastisch gleichstetig bez¨ uglich ρ sind. Dies folgt aber aus Lemma 12.6 angewandt auf φni (t) := n−1/2 cos(t>Xi ) beziehungsweise φni (t) := n−1/2 sin(t>Xi ). Denn kφni kT ≤ n−1/2 ,
kφi kLip ≤ n−1/2 |Xi | und N (u, T , ρ) ≤
1+
2diam(T ) d . u
−1 2γ Letztere Ungleichung folgt aus Lemma 8.1. Folglich ist kφni k2(1−γ) kφni k2γ Lip ≤ n |Xi | und s Z γs q d δ 2diam(T ) IE ω(Zn (·, j), δ) ≤ C IE |X1 |2γ log 1 + du. γ 0 u
12.2.2
Eine Maximalungleichung fu ¨ r empirische Prozesse
Sei F eine punktweise separable Familie von messbaren Funktionen f : X → [0, 1] mit 0 ∈ F. Ferner sei Z q 1
log N (u2 , F) du < ∞
J(F) :=
0
¨ mit den uniformen Uberdeckungszahlen N (·, F) aus Kapitel 8.3. Dann ist stets
√
nkPbn − P kF
ψo
≤ CJ(F)
mit einer universellen Konstanten C. Denn f¨ ur r > 0 folgt aus den beiden Symmetrisierungen, daß
√
≤ 2 kZno kF .
nkPbn − P kF ψo
Hier ist Zno (f ) := n
−1/2 Pn
i=1 ξi f (Xi )
ρbn,2 (f, g) =
ψo
und
q
Pbn (|f − g|2 ) ≤
q
Pbn |f − g|.
Folglich ist N (u, F, ρbn,2 ) ≤ N (u2 , F, ρPb ) ≤ N (u2 , F), und Korollar 12.5 ergibt n
IE ψo
kZ o k n F
CJ(F)
= IE IE ψo
kZ o k n F X1 , . . . , Xn ≤ 1.
CJ(F)
Es sei noch angemerkt, daß J(F) ≤ C 0 V [sgr(F)] mit der VC-Dimension V [sgr(F)] von sgr(F) und einer universellen Konstanten C 0 . Diese Ungleichung folgt direkt aus Satz 8.4.
12.2. ANWENDUNGEN
12.2.3
119
Ein Funktionaler Zentraler Grenzwertsatz
Neben ρbn,2 betrachten wir nun auch die Metrik ρn,2 (s, t) :=
q
IE ρbn,2 (s, t)2 .
Mit den Prozessen φeni (s, t) := φni (s)φni (t)
und
Zen :=
n X i=1
φeni
auf T × T kann man auch schreiben: ρbn,2 (s, t)2 = Zen (s, s) + Zen (t, t) − 2Zen (s, t).
Insbesondere ist kρb2n,2 − ρ2n,2 kT ×T ≤ 4kZen − IE Zen kT ×T .
Wir nehmen im folgenden an, daß die Prozesse φni und Zn “separabel” sind in folgendem Sinne: Es existiere eine abz¨ahlbare Teilmenge To von T , so daß kφni k, kZn − IE Zn k, ω(Zn − IE Zn , δ | ρn,2 ) unver¨andert bleiben, wenn man T durch To ersetzt. Lemma 12.8 Angenommen, die folgenden zwei Bedingungen sind erf¨ ullt: IE
n X
IE
n n X
kφni k2 = O(1) und
i=1
(12.4)
o
1 kφni k2 > u kφni k2 = o(1)
f¨ ur beliebige u > 0;
i=1
Z
(12.5)
δ
0
q
log N (u, T , ρbn,2 ) du →p 0
Daraus folgt, daß (12.6) (12.7) (12.8)
f¨ ur n → ∞, δ ↓ 0.
IE kZen − IE Zen kT ×T = o(1) und N (u, T , ρn,2 ) = O(1) f¨ ur alle u > 0;
ω Zn − IE Zn , δ ρn,2
→p 0
f¨ ur n → ∞, δ ↓ 0;
kZn − IE Zn k = Op (1).
Anmerkung 12.9 Seien die φni signierte Maße auf X und F eine punktweise separable Klasse von messbaren Funktionen auf X mit Einh¨ ullender F := supf ∈F |f |; siehe Abschnitt 8.3. Dann ist Voraussetzung (12.4) erf¨ ullt, falls IE
n X i=1
|φni |(F )2 = O(1)
und
IE
n X i=1
1{|φni |(F )2 > u} |φni |(F )2 = o(1) f¨ ur alle u > 0.
120
KAPITEL 12. CHAINING
Setzt man zus¨atzlich noch voraus, daß J(F) :=
Z
0
1q
log N (u2 , F) du < ∞,
c dann ist auch Bedingung (12.5) erf¨ ullt. Denn ρbn,2 (f, g)2 ≤ ρM b (f, g) mit dem Maß Mn :=
2
0
δ
q
q
log N (u, F, ρbn,2 ) du ≤
cn (F ) M
q
cn (F ) = M
Z
p
δ/
bn (F ) q M
0
q
≤ f¨ ur 0 < u, δ ≤
cn (F ), F und weshalb N (u, F, ρbn,2 ) ≤ N u2 /M
i=1 |φni |(F ) |φni |,
Z
n
Pn
cn (F ) ∨ 1 M
δ
Z
0
log N (u2 , F) du
q
log N (u2 , F) du
1/2 n 2 |φ |(F ) . i=1 ni
P
Beweis von Lemma 12.8: Der erste Teil von Behauptung (12.6) folgt aus Satz 8.3, e T ×T = kφni k2 , was angewandt auf die Prozesse φeni anstelle von φni . Zum einen ist kφk Bedingung (8.3”) impliziert. Zum anderen folgt aus (12.5), daß N (u, T , ρbn,2 ) = Op (1)
(12.9)
f¨ ur alle u > 0,
denn f¨ ur 0 < δ ≤ u ist stets q
log N (u, T , ρbn,2 ) ≤ δ −1
Z
δ
0
q
log N (x, T , ρbn,2 ) dx.
Ferner ist
ρbn (s, t), (s0 , t0 ) φen1 , . . . , φenn ≤
n X
|φni (t)||φni (s) − φni (s0 )| + |φni (s0 )||φni (t) − φni (t0 )|
i=1
v u n uX ≤ t kφni k2 ρbn,2 (s, s0 ) + ρbn,2 (t, t0 ) , i=1
woraus man ableiten kann, daß
N u, T × T , ρbn (·, · | φen1 , . . . , φenn )
≤ N
u 2
pPn
i=1 kφni k
, T , ρbn,2 2
= Op (1).
Also ist auch Bedingung (8.4”) erf¨ ullt. Folglich ist IE kρb2n,2 − ρ2n,2 kT ×T ≤ 4 IE kZen − IE Zen kT ×T = o(1). Zusammen mit (12.9) folgt hieraus der zweite Teil von (12.6).
12.2. ANWENDUNGEN
121
Zur Behauptung (12.7): Da Var[Zn (s) − Zn (t)] ≤ ρn,2 (s, t)2 , kann man aus Symmetrisie√ rungslemma 4.1 [a] und 4.2 [a] ableiten, daß f¨ ur η ≥ 2δ > 0 gilt: n
IP ω(Zn − IE Zn , δ | ρn,2 ) ≥ 3η n
≤ 4 IP ω(Zno , δ | ρn,2 ) ≥ η
o
o
n
o
n
≤ 4 IP kρb2n,2 − ρ2n,2 kT ×T ≥ δ 2 + 4 IP ω(Zno , 2δ | ρbn,2 ) ≥ η n
o
o
≤ o(1) + 4 IP ω(Zno , 2δ | ρbn,2 ) ≥ η ,
gem¨aß (12.6). Doch gegeben φn1 , . . . , φnn hat Zno oder subgaußsche Zuw¨achse bez¨ uglich ρbn,2 , und nach Korollar 12.5 ist
IE ω(Zno , 2δ | ρbn,2 ) φn1 , . . . , φnn ≤ C
Z
2δ
0
q
log N (u, T , ρbn,2 ) du →p 0
f¨ ur n → ∞, δ ↓ 0.
Dies ergibt Behauptung (12.7). Zu beweisen bleibt (12.8). Gem¨aß (12.6) und (12.7) gibt es zu beliebigem > 0 eine Folge von Mengen Tn ⊂ T mit #Tn = O(1)
und
n
lim sup IP kZn − IE Zn k ≥ kZn − IE Zn kTn + 1 n→∞
o
≤ .
Doch nach (12.4) ist IE kZn − IE Zn kTn
≤
X
t∈Tn
IE Zn (t) − IE Zn (t) r
≤ #Tn sup Var[Zn (t)] t∈T
v u n u X t ≤ #Tn IE kφni k2 i=1
= O(1).
2
Satz 12.10 Angenommen, die Voraussetzungen von Lemma 12.8 sind erf¨ ullt. Desweiteren gebe es Funktionen H und K auf T × T , so daß (12.10)
k IE Zen − HkT ×T → 0
und k Cov(Zn ) − KkT ×T → 0.
Dann ist T pr¨akompakt bez¨ uglich der Pseudometrik ρ(s, t) :=
q
H(s, s) + H(t, t) − 2H(s, t),
122
KAPITEL 12. CHAINING
und (Zn − IE Zn )n konvergiert im Raum `∞ (T ) in Verteilung gegen einen zentrierten Gaußprozess W auf T mit Kovarianzfunktion K und gleichm¨aßig stetigen Pfaden bez¨ uglich ρ. Anmerkung 12.11 Im Falle von zentrierten Prozessen, IE φni ≡ 0 f¨ ur alle i, ist IE Zen ≡ Cov(Zn ). Tats¨achlich bleibt Bedingung (12.4) g¨ ultig, wenn man die Prozesse φni jeweils durch φni − IE φni ersetzt (Aufgabe 12.3). Dagegen u ¨bertr¨agt sich Bedingung (12.5) nicht automatisch auf die zentrierten Prozesse. Beweis von Satz 12.10: Aus (12.4) und (12.10) folgt zusammen mit dem Lindebergschen Zentralen Grenzwertsatz, daß die endlichdimensionalen Randverteilungen von Zn − IE Zn schwach gegen die entsprechenden Randverteilungen eines zentrierten Gaußprozesses mit Kovarianzfunktion K konvergieren. Aus (12.10) folgt, daß kρ2n,2 − ρ2 kT ×T = o(1). Zusammen mit (12.6) ergibt sich die Pr¨akompaktheit von (T , ρ), und (12.7) impliziert die stochastische Gleichstetigkeit von (Zn − IE Zn )n bez¨ uglich ρ. Die Verteilungskonvergenz von (Zn − IE Zn )n ist also eine direkte Folge von Satz 10.5. 2
12.2.4
Empirische Prozesse und P -Bru ¨ cken
Wie in Kapitel 8.3 sei F eine punktweise separable Familie von meßbaren Funktionen auf X mit Einh¨ ullender F := supf ∈F |f |. Falls PF2 < ∞
und J(F) :=
Z
0
1q
log N (u2 , F) du < ∞,
√ dann konvergiert der empirische Prozess n(Pbn − P )(f ) im Raum `∞ (F) in Verteif ∈F lung gegen einen zentrierten Gaußprozess BP mit Kovarianzen
IE BP (f )BP (g) = P (f g) − P (f )P (g) und gleichm¨aßig stetigen Pfaden bez¨ uglich der Metrik ρ(f, g) :=
q
P ((f − g)2 ).
Dies folgt im wesentlichen aus Satz 12.10; siehe auch Anmerkung 12.9. Den Grenzprozess BP nennt man auch eine P -Br¨ ucke. √ Bei festem P h¨angen sowohl ρn,2 als auch Cov[ n(Pbn −P )] nicht von n ab. Lemma 12.8 und Satz 12.10 beinhalten aber auch folgendes Resultat: Sei Pbn die empirische Verteilung von
12.2. ANWENDUNGEN
123
unabh¨angigen Zufallsvariablen Xn1 , Xn2 , . . . , Xnn mit Verteilung Pn auf X. Sei J(F) < ∞, und es gelte: Pn (F 2 ) = O(1)
und Pn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0. sup f,g∈F ∪{1}
√
Pn (f g) − P (f g) = o(1).
Dann konvergiert n(Pbn − Pn )(f ) Br¨ ucke. Desweiteren gilt: IE Pbn (F 2 ) = O(1)
und sup
f ∈F
im Raum `∞ (F) in Verteilung gegen eine P -
IE Pbn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0;
f,g∈F ∪{1}
b Pn (f g) − P (f g) = op (1).
Dabei folgt letztere √ Tatsache aus (12.6). Man kann also die Verteilung von Statistiken, b die stetig von n(Pn − Pn )(f ) abh¨angen, konsistent sch¨atzen, indem man die unf ∈F
bekannte Verteilung Pn durch Pbn ersetzt.
12.2.5
Partialsummenprozesse und P -Bewegungen
Sei F wie in Abschnitt 12.2.4, und sei Sbn (f ) := n−1/2
n X
Yi f (xni )
i=1
ein Partialsummenprozess wie in Abschnitt 1.2. Angenommen, folgende vier Bedingungen P sind erf¨ ullt mit Pn := n−1 ni=1 δxni : IE Y1 = 0 Pn (F 2 ) = O(1)
und
IE Y12 = 1;
und Pn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0. J(F) < ∞; sup Pn (f g) − P (f g) = o(1)
f,g∈F
f¨ ur ein Wahrscheinlichkeitsmaß P auf X. Dann konvergiert Sbn im Raum `∞ (F) in Verteilung gegen einen zentrierten Gaußprozess WP mit Kovarianzen IE WP (f )WP (g) = P (f g) und gleichm¨aßig stetigen Pfaden bez¨ uglich der Metrik ρ(f, g) :=
q
P ((f − g)2 ) = Var[WP (f ) − WP (g)].
Diesen Grenzprozess WP nennt man auch eine P -Bewegung. Ist 1 ∈ F, was man ohne Einschr¨ankung annehmen kann, dann definiert BP (f ) := W (f )−P (f )W (1) eine P -Br¨ ucke, und BP , WP (1) sind stochastisch unabh¨angig.
124
12.2.6
KAPITEL 12. CHAINING
Vorzeichentests fu ¨ r lineare Regression
Seien Yn1 , Yn2 , . . . , Ynn unabh¨angige Zufallsvariablen mit stetigen Verteilungsfunktionen Fni (r) := IP{Yni ≤ r}. Eine nichtparametrische Variante des linearen Modells ist die Annahme, daß f¨ ur gegebene d feste Vektoren xn1 , xn2 , . . . , xnn ∈ R und einen unbekannten Parameter θn ∈ Rd gilt: Fni (θn>xni ) =
(12.11) Mit
~ n (γ) := Z
n X
1 2
f¨ ur 1 ≤ i ≤ n
1{Yni ≤ γ >xni } −
i=1
ist allgemein ~ n (γ) = IE Z
n X
1 xni ∈ Rd 2
Fni (γ >xni ) −
i=1
1 xni . 2
~ n (γ) = 0 genau dann, wenn Fni (γ >xni ) = 1/2 Unter der Modellannahme (12.11) ist IE Z f¨ ur alle i ≤ n, und ~ n (θn ) =L 2Z
n X
ξi xni
i=1
mit einer Rademacher-Folge (ξ1 , ξ2 , . . . , ξn ). Ist also Bn (α) ⊂ Rd eine Menge mit n nX
IP
o
ξi xni ∈ Bn (α)
≥ 1 − α,
i=1
n
o
~ n (γ) ∈ Bn (α) einen Test der Hypothese “θn = γ” zum Niveau 1 − α, dann definiert 1 2Z n o ~ n (γ) ∈ Bn (α) ist ein Konfidenzbereich f¨ und Cn (α) := γ ∈ Rd : 2Z ur θn mit Konfidenzniveau 1 − α. ~ n : Rd → Nun betrachten wir das asymptotische Verhalten des vektorwertigen Prozesses Z Rd . Wir setzen voraus, daß (12.12)
n X
xni x> ni = I;
i=1
(12.13)
max |xni | = o(1). i≤n
√
Dabei sei |v| die Euklidische Norm v >v. Durch lineare Transformation der Vektoren xni und Dimensionsreduktion, falls n¨otig, kann man stets erreichen, daß Bedingung (12.12) erf¨ ullt ist. Insbesondere ist dann n X i=1
|xni |2 = d.
12.2. ANWENDUNGEN
125
Unter Bedingung (12.12) ist |xni |2 die “Hebelkraft” (leverage) des Design-Punktes xni . Bedingung (12.13) verbietet also die Existenz von “Hebelarmpunkten”. Lemma 12.12 Unter der Voraussetzung (12.12) ist
~ ~ n kR d
kZn − IE Z
ψo
≤ Cd
f¨ ur eine universelle Konstante C. Setzt man zus¨atzlich (12.13) voraus, dann gilt:
wobei
~ n − IE Z ~ n , δ ρn ω Z ρn (γ, γe ) :=
n X i=1
→p 0
f¨ ur n → ∞, δ ↓ 0,
|xni |2 Fni (γ >xni ) − Fni (γe >xni ) .
Unter den Annahmen (12.11), (12.12) und (12.13) folgt aus dem Lindebergschen Zentralen Grenzwertsatz, daß ~ n (θn ) →w Nd (0, I). L 2Z Daher ist Cn,r :=
n
~ n (γ)| ≤ r γ ∈ Rd : |Z
o
ein spezieller Konfidenzbereich f¨ ur θn mit asymptotischem Konfidenzniveau n
lim IP θn ∈ Cn,r
n→∞
o
= χ2d ([0, 4r2 ]).
Die Berechnung von Cn,r ist alles andere als trivial, obwohl wir gleich sehen werden, daß es sich unter gewissen Annahmen approximativ um eine Kugel mit Mittelpunkt θbn handelt. Dieser Punkt ist ein Sch¨atzer θbn ∈ arg min Hn (γ)
mit Hn (γ) :=
γ∈Rd
n X
|Yni − γ >xni |.
i=1
Die Funktion Hn ist konvex, und man kann leicht zeigen, daß Hn (γ) → ∞ f¨ ur |γ| d ∞, da die Vektoren xni unter Bedingung (12.12) den Raum R aufspannen. Also arg min(Hn ) eine nichtleere, kompakte und konvexe Teilmenge des Rd . Ein Punkt geh¨ort zu arg min(Hn ) genau dann, wenn DHn (θbn , δ) := lim t↓0
Hn (θbn + tδ) − Hn (θbn ) ≥ 0 t
f¨ ur alle δ ∈ Rd .
Doch man kann leicht nachweisen, daß DHn (θbn , δ) =
n X i=1
sign(θbn>xni − Yni )δ >xni +
~ n (θbn ) + = 2δ >Z
n X i=1
n X i=1
1{Yni = θbn>xni }|δ >xni |
1{Yni = θbn>xni }(δ >xni )− .
→ ist θbn
126
KAPITEL 12. CHAINING
Aus DHn (θbn , δ) ∧ DHn (θbn , −δ) ≥ 0 folgt also, daß ~ n (θbn )| ≤ |Z
(12.14)
n X i=1
1{Yni = θbn>xni }|xni | ≤ d max |xni | i≤n
fast sicher;
siehe Aufgabe 12.4. Folglich ist θbn ∈ Cn,r , sofern d maxi≤n |xni | ≤ r. Lemma 12.13 Angenommen, es gelten (12.11), (12.12) und (12.13). Ferner sei Fni (θn>xni + ·) = F (·) mit einer Verteilungsfunktion F , so daß lim
y→0
Dann gilt: (12.15)
inf
v∈Rd :|v|≥b
(12.16)
sup v∈Rd :|v|≤b
Insbesondere ist (12.17)
F (y) − 1/2 = c > 0. y
~ Zn (θn + v) →p ∞
f¨ ur n → ∞, b → ∞;
~ ~ n (θn ) − cv = op (1) Zn (θn + v) − Z
f¨ ur beliebige b > 0.
~ n (θn ) + op (1), θbn = θn − c−1 Z
n
o
o := v ∈ Rd : |v − θ bn | ≤ c−1 r gilt: und f¨ ur Cn,r
n
o o IP Cn,r− ⊂ Cn,r ⊂ Cn,r+
o
→ 1 f¨ ur beliebige > 0.
Beweis von Lemma 12.12: Als Hilfsmittel betrachten wir reellwertige Prozesse φni (γ, λ) := 1{Yni ≤ γ >xni }λ>xni und Zn = ni=1 φni auf T := Rd × Sd−1 , wobei Sd−1 := {v ∈ Rd : |v| = 1}. Dann ist ~ n − IE Z ~ n )(γ) = (Zn − IE Zn )(γ, λ), also λ>(Z P
~ n − IE Z ~ n kRd = kZn − IE Zn kT . kZ
Nach den zwei Symmetrisierungen ist kZn − IE Zn k nicht gr¨oßer als 2 kZno k . Ferner ψo ψo ist 2
e ρbn,2 (γ, λ), (γe , λ)
=
n X i=1 n X
≤ 2
i=1
2
e >xni ) 1{Yni ≤ γ >xni } − 1{Yni ≤ γe >xni } λ>xni + 1{Yni ≤ γe >xni }(λ>xni − λ
|xni |2 1{Yni ≤ γ >xni } − 1{Yni ≤ γe >xni } + 4
e c cn 1 = M − 1 H(γ) H(e γ ) + 2Mn (1)ρ(λ, λ),
n X i=1
e |xni |2 |λ − λ|
12.2. ANWENDUNGEN
127
wobei cn := 2 M
n X
|xni |2 δ(x> ,Yni )>, ni
i=1
H(γ) :=
n
o
v ∈ Rd+1 : (−γ >, 1)v ≤ 0 ,
e := |λ−λ|. e ρ(λ, λ)
cn (1) = 2d. Die Menge H(γ) geh¨ Man beachte, daß stets M ort zu der Familie der abd geschlossenen Halbr¨aume in R . Letztere ist eine VC-Klasse mit VC-Index d + 1; siehe Beispiel 7.10. Aus Lemma 8.1 sowie Satz 8.4 folgt, daß
cn (1)ρ N u, Sd−1 , 2M
Folglich ist
N u, {1H(γ) : γ ∈ Rd }, ρM b
log N (u, T , ρbn,2 ) ≤ log N
3u2
5
n
≤
9d d
≤
6d 5(d+1)
u
f¨ ur 0 < u ≤ d,
cn (1)ρ + log N , Sd−1 , 2M
≤ (6d + 5) log
15d
u2
f¨ ur 0 < u ≤ d.
u
f¨ ur 0 < u ≤
√
2u2
5
d.
, {1H(γ) : γ ∈ Rd }, ρM b
n
Ferner ist φni (γn , ·) ≡ 0 f¨ ur alle i ≤ n und ein geeignetes γn = γn (Yn1 , . . . , Ynn ) ∈ Rd , P und ρbn,2 [(γn , ·), (·, ·)]2 ≤ ni=1 kφni k2 ≤ d. Aus Korollar 12.5, angewandt auf die bedingte Verteilung von Zno gegeben φn1 , . . . , φnn , folgt also, daß √
o
kZn k
ψo
≤ C 6d + 5
√
Z
d
s
log
0
15d
u2
du ≤ 4Cd
Z
1
r
log
0
15
u2
du.
¨ Mit obigen Uberlegungen folgt aus (12.12) und (12.13), daß die Voraussetzungen von Lemma 12.8 erf¨ ullt sind. Also gilt:
ω Zn − IE Zn , δ ρn,2
→p 0
f¨ ur n → ∞, δ ↓ 0.
Doch
so daß
2
e ρn,2 (γ, λ), (γe , λ)
~ n − IE Z ~ n , δ ρn ω Z
=
e ≤ 2ρn (γ, γe ) + 4d|λ − λ|,
sup γ,e γ ∈Rd ,λ∈Sd−1 :ρn (γ,e γ )<δ
e , λ) (Zn − IE Zn )(γ, λ) − (Zn − IE Zn )(γ
√ ≤ ω Zn − IE Zn , 2δ ρn,2 .
2
Beweis von Lemma 12.13: Sei ~ n (v) := IE Z ~ n (θn + v) = ∆
n X i=1
F (v >xni ) −
1 xni , 2
128
KAPITEL 12. CHAINING
~ n − IE Z ~ n )(θn + v) + ∆ ~ n (v) . Dann ist ~ n (θn + v) = (Z also Z ~ n (v)| − kZ ~ n − IE Z ~ n kRd = inf |∆ ~ n (v)| + Op (1). ~ n (θn + v)| ≥ inf |∆ inf |Z
|v|≥b
|v|≥b
|v|≥b
F¨ ur beliebige feste b > 0 folgt aus den Voraussetzungen an die Verteilungsfunktionen Fni und F , daß
n X
~ sup ∆ n (v) − cv =
|v|≤b
sup
|v|≤b i=1
F (v >xni ) −
= o(1),
~ inf ∆ n (v)
|v|≥b
≥
inf
~ n (rλ) λ>∆
inf
n X
r≥b,λ∈Sd−1
=
r≥b,λ∈Sd−1
=
inf
λ∈Sd−1
1 − cv >xni xni 2
F (rλ>xni ) −
i=1
n X
F (bλ>xni ) −
i=1
1 > λ xni 2
1 > λ xni 2
= cb + o(1). Hieraus folgt (12.15). Doch δn (b) := sup ρn (θn + v, θn ) = sup |v|≤b
|v|≤b
n X
1 |xni |2 F (v >xni ) − = o(1), 2 i=1
weshalb
~ ~ sup Z n (θn + v) − Zn (θn ) − cv
|v|≤b
≤
~ ~ sup ∆ n (v) − cv + ω Zn − IE Zn , δn (b) ρn
|v|≤b
= op (1).
~ n (θ + v) und der Ungleichung (12.14) folgt Aus diesen Entwicklungen f¨ ur den Prozess Z die Entwicklung (12.17) f¨ ur θbn . Ferner kann man leicht schließen, daß die Menge Cn,r approximativ gleich der Kugel n
1 ~ n (θn ) + cv| ≤ r Cn,r := θn + v ∈ Rd : |Z
o
~ n (θn ) = θbn + op (1). Also kann ist. Diese Kugel hat Radius c−1 r und Mittelpunkt θn − c−1 Z 1 wiederum durch C o approximieren. man Cn,r 2 n,r
Aufgaben Aufgabe 12.1 Sei m ein Maß auf einer σ-Algebra A auf Ω und ψ : R → [0, ∞] eine gerade, konvexe Funktion, so daß limx→0 ψ(x) = 0 und lim|x|→∞ ψ(x) = ∞. Es bezeichne
12.2. ANWENDUNGEN
129
Lψ (m) die Menge aller messbaren Funktionen f auf (Ω, A), so daß ψ(f /r) f¨ ur ein r > 0 ψ integrierbar ist bez¨ uglich m. Man zeige, daß L (m) ein Vektorraum und n
kf kψ := inf r > 0 :
Z
ψ(f /r) dm ≤ 1
o
eine Seminorm auf Lψ (m) ist. (Zusatz: Man zeige, daß Lψ (m) bez¨ uglich k · kψ vollst¨andig ist.) Aufgabe 12.2 Beweisen Sie die Ungleichungen (12.2-12.3). Aufgabe 12.3 Zeigen Sie, daß d nX
1
i=1
yi > u
d oX
yi ≤ d
i=1
d n X
1 yi >
i=1
uo yi d
f¨ ur y ∈ Rd
und 1{µ ≥ u}µ ≤ 2 IE 1{Y ≥ u/2}Y
f¨ ur Zufallsvariablen Y mit Erwartungswert µ.
Leiten Sie hieraus die Behauptung von Anmerkung 12.11 ab. Aufgabe 12.4 Zeigen Sie, daß aus der Stetigkeit der Verteilungsfunktionen Fni in AbP schnitt 12.2.6 folgt, daß maxγ∈Rd ni=1 1{Yni = γ >xni } ≤ d fast sicher. Hinweis: F¨ ur beliebige S ⊂ {1, 2, . . . , n} kann man zeigen, daß n
# γ ∈ Rd : γ >xni = Yni f¨ ur alle i ∈ S (
o
= 1, falls die xni , i ∈ S, linear unabh¨angig sind, = 0fast sicher, falls die xni , i ∈ S, linear abh¨angig sind.
Aufgabe 12.5 Angenommen, in Abschnitt 12.2.6 ist Fni (θn>xni + ·) = F (·/σni ) mit Skalenfaktoren σni > 0 und einer Verteilungsfunktion F wie in Lemma 12.13. Formulieren und beweisen Sie eine Verallgemeinerung von Lemma 12.13.
130
KAPITEL 12. CHAINING
Kapitel 13
Kombinatorische Prozesse Bisher wurden nur Prozesse Zn = ni=1 φni mit unabh¨angigen Summanden betrachtet. In diesem Abschnitt behandeln wir eine allgemeinere Klasse von Prozessen mit m¨oglicherweise abh¨angigen Summanden, welche im Zusammenhang mit Permutationstests auftauchen. Sei Φn = (φnij )1≤i,j≤n eine Matrix bestehend aus unabh¨angigen stochastischen Prozessen φnij auf einer Menge T . Ferner sei Π = Πn eine von Φn unabh¨angige, uniform verteilte Permutation von {1, 2, . . . , n}. Nun betrachten wir den Prozess P
Sn :=
n X
φn i Π(i) .
i=1
Aus technischen Gr¨ unden verlangen wir, daß entweder T abz¨ahlbar ist oder die φnij feste Funktionen sind. Die bisher betrachteten Prozesse Zn passen in diesen Rahmen. Sei n¨amlich L(φnij ) = L(φni ) f¨ ur alle i, j. Dann ist L(Sn ) = L(Zn ). Auch im allgemeinen Fall ist nat¨ urlich L(Sn | Π) vom gleichen Typ wie L(Zn ), aber wir interessieren uns f¨ ur die unbedingte Verteilung von Sn . Beispiel 13.1 Sei ~a = (ai )1≤i≤n ein fester Vektor in Rn mit (13.1)
n X
ai = 0 und
i=1
n X
a2i = 1.
i=1
F¨ ur t ∈ [0, 1] definieren wir Bn (t) = Bn (t | ~a) :=
X
aΠ(i) .
i≤nt
Dieser Prozess Bn ist in Verteilung gleich Sn , wenn φnij (t) = 1{i ≤ nt}aj . 131
132
KAPITEL 13. KOMBINATORISCHE PROZESSE
Man kann leicht nachrechnen, daß IE Bn (t) = 0
und
IE Bn (s)Bn (t) =
n bnsc bntc bnsc bntc ∧ − n−1 n n n n
f¨ ur s, t ∈ [0, 1]; siehe auch Lemma 13.3. Also hat Bn approximativ die gleiche Kovarianzfunktion wie die Brownsche Br¨ ucke. Man beachte, daß die Kovarianzfunktion von Bn (· | ~a) nicht von a abh¨angt, (13.1) vorausgesetzt. Realisationen dieses Prozesses werden in Abbildung 13.1 gezeigt. Hier gilt folgender Grenzwertsatz: Satz 13.2 (Billingsley 1968). F¨ ur n ≥ 2 sei ~a = ~an = (an1 , an2 , . . . , ann )> ein Vektor aus Rn , welcher Bedingung (13.1) erf¨ ullt, so daß max |ani | = o(1).
(13.2)
i≤n
Dann konvergiert Bn (· | ~an ) in Verteilung gegen eine Brownsche Br¨ ucke.
2
Im folgenden werden wir eine Verallgemeinerung dieses Satzes beweisen. Zun¨achst berechnen wir die ersten und zweiten Momente von Sn . Falls existent seien Mn (t) :=
µnij (t)
Γn (t, u) :=
γnij (t, u)
mit
1≤i,j≤n
µnij (t) := IE φnij (t),
mit γnij (t, u) := Cov[φnij (t), φnij (u)].
1≤i,j≤n
F¨ ur A = (aij )i,j und B = (bij )i,j aus Rn×n sei hA, Bi := trace(A>B) =
X
aij bij
und |A| :=
q
hA, Ai.
i,j
Ferner sei 1 := (1)i,j ∈ Rn×n . Lemma 13.3 Angenommen, Mn : T → Rn×n existiert. Dann ist IE Sn =
1 hMn , 1i. n
Zus¨atzlich existiere Γn : T × T → Rn×n . Dann ist Cov[Sn (t), Sn (u)] =
E E 1D 1 D Γn (t, u), 1 + GMn (t), GMn (u) n n−1
wobei GA :=
aij −
ai+ a+j a++ − + . n n n 1≤i,j≤n
133 ¨ Den Beweis dieses Lemmas u Man beachte, ¨berlassen wir dem Leser als Ubungsaufgabe. n×n daß G die orthogonale Projektion von R auf den Teilraum n
(αi + βj )1≤i,j≤n : α, β ∈ Rn
o⊥
ist. Eine wesentliche Frage ist, ob und wie man den Prozess Sn symmetrisieren kann. Unser Ziel ist, den Erwartungswert von kSn − IE Sn k durch den Erwartungswert von kSno k nach oben abzusch¨atzen, wobei Sno :=
n X
ξi φn i Π(i)
i=1
mit einer von (Φn , Π) unabh¨angigen Rademacherfolge (ξi )i≥1 . Naive Anwendung der ersten Symmetrisierung f¨ uhrt zu dem Prozess n X
(φn i Π(i) − φn i Π0 (i) )
i=1
mit einer unabh¨angigen Kopie Π0 von Π. Aber es ist nicht klar, wie man nun die Rademachervariablen ξi ins Spiel bringen soll. Die tats¨achliche Methode ist etwas komplizierter und f¨ uhrt zu folgendem Resultat: Lemma 13.4 (Symmetrisierung von Sn ). Angenommen, Mn : T → Rn×n existiert. F¨ ur eine beliebige gerade, konvexe Funktion ψ : R → [0, ∞[ ist
IE ψ kSn − IE Sn k
≤ IE ψ 9kSno k .
Beweis: Erster Schritt: Sei n ≥ 2 und m := bn/2c. (Der Fall n = 1 ist uninteressant und P wird durch Lemma 4.1 abgedeckt.) F¨ ur L ⊂ {1, 2, . . . , n} sei SL := i∈L φn i Π(i) . Dann kann man schreiben: Sn =
n X
φn i Π(i)
i=1
n − 1 −1
m−1
X
L:#L=m
1{i ∈ L} =
−1 X n n SL . m m L:#L=m
Folglich ist IE kSn − IE Sn k ≤
−1 X n n IE kSL − IE SL k ≤ 3 max IE kSL − IE SL k, L:#L=m m m L:#L=m
da n/m ≤ 3. Durch Umordnen der Zeilen von Φn kann man erreichen, daß (13.3)
IE kSn − IE Sn k ≤ 3 IE kSJ − IE SJ k,
134
KAPITEL 13. KOMBINATORISCHE PROZESSE
wobei J := {1, . . . , m}. Zweiter Schritt: Wir definieren SJ∗ :=
X
φn i Π(m+i) .
i∈J
Die Prozesse SJ und SJ∗ sind identisch verteilt und (i.a.) abh¨angig. Gegeben Π(J) sind sie (i.a.) unterschiedlich verteilt aber unabh¨angig. Es ist SJ − SJ∗ =
X
(φn i Π(i) − φn i Π(m+i) ) =L
i∈J
X
ξi (φn i Π(i) − φn i Π(m+i) ),
i∈J
was man durch Bedingen auf die zweipunktigen Mengen {Π(i), Π(m + i)}, 1 ≤ i ≤ m, nachweisen kann. Mit IEo := IE(· | Φn , Π) gilt also f¨ ur beliebige c > 0:
IE ψ ckSJ − SJ∗ k
X
≤ IE ψ 2c
i∈J
ξi φn i Π(i)
X
= IE IEo ψ 2c
ξi φn i Π(i) + IEo
i6∈J
i∈J
n
X
≤ IE IEo ψ 2c ξi φn i Π(i)
X
ξi φn i Π(i)
(nach Lemma 4.1 [b])
i=1
= IE ψ 2ckSno k .
(13.4)
Dritter und letzter Schritt: Nun vergleichen wir kSJ − IE SJ k und kSJ − SJ∗ k. Mit IEo := IE(· | Π(J)) gilt: IEo SJ
=
1 X X µnij , m i∈J j∈Π(J)
IEo SJ∗
=
1 X X µnij , n − m i∈J j6∈Π(J)
IE SJ
=
n 1 XX m n−m µnij = IEo SJ + IEo SJ∗ . n i∈J j=1 n n
Mit Z := SJ − IE SJ und Z ∗ := SJ∗ − IE SJ folgt hieraus, daß IEo Z ∗ = −γ IEo Z
mit γ :=
m ∈ ]0, 1]. n−m
Gegeben Π(J) sind die Prozesse Z und Z ∗ stochastisch unabh¨angig. Folglich ist
IEo ψ 3kSJ − IE SJ k
= IEo ψ 3kZk
135
= IEo ψ 3 Z − IEo Z ∗ − γ IEo Z
≤ IEo ψ 3 Z − Z ∗ − γ IEo Z
(Lemma 4.1 [b])
≤ IEo ψ 3kZ − Z ∗ k + 3γk IEo Zk
3γ k IEo (Z − Z ∗ )k 1+γ 3 IEo ψ 3kZ − Z ∗ k + IEo kZ − Z ∗ k 2 9 1 9 2 IEo ψ kZ − Z ∗ k + ψ IEo kZ − Z ∗ k 3 2 3 2 9 ∗ IEo ψ kZ − Z k (nach Jensens Ungleichung) 2 9 IEo ψ kSJ − SJ∗ k . 2
= IEo ψ 3kZ − Z ∗ k + ≤ ≤ ≤ =
Integration beider Seiten bez¨ uglich der Verteilung von Π(J) liefert
IE ψ 3kSJ − IE SJ k
(13.5)
≤ IE ψ
9
2
kSJ − SJ∗ k .
Kombiniert man nun (13.3), (13.4) mit c = 9/2 und (13.5), dann folgt die behauptete Ungleichung. 2 Nun kann man die Argumente des Beweises von Satz 8.3 auf die Prozesse Sn u ¨bertragen: Satz 13.5 Der Erwartungswert von kSn − IE Sn k konvergiert gegen Null, falls f¨ ur eine Nullfolge (δn )n folgende zwei Bedingungen erf¨ ullt sind: (13.6) (13.7)
IE
n 1 X kφnij k = O(1) und n i,j=1
IE
n n o 1 X 1 kφnij k > δn kφnij k = o(1); n i,j=1
log N (u, T , ρbn ) = op (δn−1 ) f¨ ur beliebige u > 0,
wobei ρbn (s, t) := ρbn s, t (φn i Π(i) )1≤i≤n .
Auch der allgemeine funktionale Zentrale Grenzwertsatz, Lemma 12.8 und Satz 12.10, k¨onnen auf Sn − IE Sn u ¨bertragen werden. Allerdings kann man die endlichdimensionalen Randverteilungen von Sn −IE Sn nicht mehr mit dem Lindebergschen Zentralen Grenzwertsatz behandeln. Der Einfachkeit halber formulieren und beweisen wir nur einen einfachen Spezialfall. Allgemeinere Resultate findet man in D¨ umbgen (1994). Satz 13.6 Sei F eine Familie von Funktionen auf einem messbaren Raum X mit messbarer Einh¨ ullender F := supf ∈F |f |. Ferner sei φnij (f ) = cn f (xnij ) mit festen Punkten
136
KAPITEL 13. KOMBINATORISCHE PROZESSE
xnij ∈ X und einer Konstanten cn > 0. Angenommen, folgende drei Bedingungen sind erf¨ ullt:
(13.8)
n 1 X c2 F (xnij )2 = O(1) und n i,j=1 n
n n o 1 X 1 c2n F (xnij )2 > u c2n F (xnij )2 = o(1) f¨ ur beliebige u > 0; n i,j=1
Z
(13.9)
0
(13.10)
1q
log N (u2 , F) du < ∞;
k Cov(Sn ) − KkF ×F = 0 f¨ ur eine feste Funktion K auf F × F.
Dann ist F pr¨akompakt bez¨ uglich der Pseudometrik ρ(f, g) :=
q
K(f, f ) + K(g, g) − 2K(f, g),
und Sn − IE Sn konvergiert in Verteilung im Raum `∞ (F) gegen einen zentrierten Gaußprozess W mit Kovarianzfunktion K und gleichm¨aßig stetigen Pfaden bez¨ uglich ρ. Satz 13.2 ist ein Spezialfall von Satz 13.6. Allgemein sei D eine VC-Klasse von messbaren Teilmengen eines messbaren Raumes T, seien zn1 , zn2 , . . . , znn feste Punkte in T, und sei (~an )n eine Folge von Vektoren wie in Satz 13.2. F¨ ur die empirische Verteilung Pn := Pn −1 n i=1 δzni und ein Wahrscheinlichkeitsmaß P auf T gelte: sup |Pn (D ∩ E) − P (D ∩ E)| → 0.
D,E∈D
Definiert man φnij (D) := 1{zni ∈ D}anj = fD (xnij ) mit xnij := (zni , anj ) und fD (z, a) := 1{z ∈ D}a, dann konvergiert Sn −IE Sn in Verteilung im Raum `∞ (D) gegen eine P -Br¨ ucke auf D. Beweis von Satz 13.6: Daß die endlichdimensionalen Randverteilungen von Sn − IE Sn gegen die entsprechenden Randverteilungen eines zentrierten Gaußprozesses mit Kovarianzfunktion K konvergieren folgt aus (13.8), (13.10) und Satz 13.7 unten. Die stochastische Gleichstetigkeit von (Sn − IE Sn )n bez¨ uglich ρ kann man wie folgt nachweisen: Zun¨achst weisen wir darauf hin, daß n X i=1
(GΦn )n i Π(i) = Sn −
E 1D Φn , 1 = Sn − IEn . n
(Letztere Gleichung ist nur richtig im Falle von festen Funktionen φnij !) Daher ersetzen wir von nun an φnij (f ) = f (xnij ) durch φnij (f ) := (GΦn (f ))ij =
Z
hnij f dmnij
137 mit dem Maß
mnij := cn δxnij +
n n n 1X 1X 1 X δxni` + δxnkj + 2 δxnk` n `=1 n k=1 n k,`=1
und einer Funktion hnij : X → [−1, 1]. Es ist kφenij k2 ≤ mnij (F )2 , und man kann zeigen, daß Bedingung 13.8 erf¨ ullt bleibt, wenn man F (xnij ) durch mnij (F ) ersetzt; siehe Aufgabe 12.3. Der Vorteil dieser Substitution liegt ur die Pseudometriken q darin, daß f¨ 2 ρbn,2 (f, g) := ρbn,2 (f, g | (φn i Π(i) )i ) und ρn,2 (f, g) := IE ρbn,2 (f, g) gilt: ρn,2 (f, g) = und nach (13.10) ist (13.11)
q
Var[Sn (f ) − Sn (g)],
kρ2n,2 − ρ2 kF ×F = o(1).
Nach dem Symmetrisierungslemma 13.4 ist IE ω(Sn − IE Sn , δ) ≤
9 IE ω(Sno , δ)
r
n
o
≤ 9 + 18 IE kSno k2 IP ω(Sno , δ) >
f¨ ur beliebige > 0. Folglich gen¨ ugt es zu zeigen, daß IE kSno k2 = O(1)
und ω(Sno , δ) →p 0 f¨ ur n → ∞, δ ↓ 0.
Gegeben Π hat der Prozess Son subgaußsche Zuw¨achse bez¨ uglich ρbn,2 , und mit cn := 2 M
n X
mn i Π(i) (F ) mn i Π(i)
i=1
ist ρbn,2 (f, g)2 ≤ ρM b (f, g), also n
Z
0
δq
q
log N (u, F, ρbn,2 ) du ≤
cn (F ) ∨ 1 M
Z
δ
0
q
log N (u2 , F) du
q
cn (F ); siehe auch Anmerkung 12.9. Wir nehmen ohne Einschr¨ f¨ ur 0 < δ ≤ M ankung an, 2 2 daß 0 ∈ F. Wegen y ≤ exp(y ) − 1 = ψo (y) folgt dann aus Korollar 12.5, daß
IE kSno k2 Π
IE ω(Sno , δ | ρbn,2 )2 Π
Z
cn (F ) ≤ C 2M
≤ C
2
0
1q
2
log N (u2 , F) du ,
Z c Mn (F ) ∨ 1
0
δ
q
2
log N (u2 , F) du .
cn (F )) = O(1), und IE ω(S o , δ | ρbn,2 )2 → 0 f¨ Also ist IE kSno k2 = O(IE M ur n → ∞ und δ ↓ 0. n Doch ¨ahnlich wie im Beweis von Lemma 12.8 kann man aus Satz 13.5 ableiten, daß
IE kρb2n,2 − ρ2n,2 kF ×F ≤ 4 IE kSen − IE Sen kF ×F → 0,
138
KAPITEL 13. KOMBINATORISCHE PROZESSE
2 wobei φenij (f, g) := φnij (f )φnij (g) und Sen := ni=1 φen i Π(i) . Denn kφenij kF ×F = kφnij k ≤ mnij (F )2 , und die zuf¨allige Pseudometrik ρbn (f, g), (fe, ge) (φen i Π(i) )i ist nicht gr¨oßer als
P
e ρM b (f, f ) + ρM b (g, ge) /2, also n
n
N u, F × F, ρbn (·, · | (φen i Π(i) )i )
≤ N
u cn (F ) M
,F
2
= Op (1).
2
Satz 13.7 (Hoeffding 1951) F¨ ur n ≥ 2 sei An = (anij )i,j ∈ Rn×n , so daß gilt: 1 |An |2 = O(1) und n
n 1 X 1{a2nij > u}a2nij = o(1) f¨ ur beliebige u > 0; n i,j=1
1 |GAn |2 → σ 2 . n P
Dann konvergiert L
n i=1 an i Π(i)
schwach gegen N (0, σ 2 ).
2
Aufgaben Aufgabe 13.1 Sei (~an )n eine Folge wie in Satz 13.2, und f¨ ur t ∈ [0, 1] sei φnij (t) := p n/kn 1{i ≤ kn t}anj mit eine Folge von Zahlen kn > 0, so daß kn → ∞ aber kn /n → 0. Zeigen Sie, daß (Sn − IE Sn )n in Verteilung konvergiert.
139
ai =
1{i ≤ n/2} − 1{i > n/2} √ n
ai =
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1{i ≤ n/10} − 1{i > n/10}/9 p n/9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 13.1: Realisationen von Bn (· | a) f¨ ur n = 50 (erste Zeile), n = 200 (zweite Zeile), n = 500 (dritte Zeile)
140
KAPITEL 13. KOMBINATORISCHE PROZESSE
Kapitel 14
Zensierte Daten In vielen Anwendungsbereichen wie Medizin oder Qualit¨atskontrolle muss man “zensier¨ te” Daten analysieren. Man interessiert sich f¨ ur die Verteilung von “Uberlebenszeiten”. Genauer gesagt, seien Xn1 , Xn2 , . . . , Xnn unabh¨angige Zufallsvariablen mit unbekannter Verteilung Fn auf [0, ∞]. Mit Fn bezeichnen wir auch die Verteilungsfunktion Fn (t) := IP{Xn1 ≥ t}; aus dem Zusammenhang wird klar, welche Interpretation von Fn gemeint ist. (In der ¨ Uberlebenszeitanalyse ist es u ¨blich, “≥” oder “>” anstelle von “≤” zu verwenden.) Nun betrachten wir feste Zahlen cn1 , cn2 , . . . , cnn aus [0, ∞], sogenannte Zensierungszeitpunkte. Anstelle von Xni beobachtet man nur Yni := Xni ∧ cni
und ∆ni := 1{Xni ≤ cni }.
¨ Beispiel 14.1 In medizinischen Anwendungen beschreibt Xni oftmals die Uberlebenszeit des i-ten Patienten nach einer bestimmten Operation, oder es ist die Zeit bis zum Auftreten von Abstoßungsreaktionen nach einer bestimmten Transplantation. F¨ ur Zensierung gibt es unterschiedliche Gr¨ unde. Beispielsweise k¨onnte es sein, daß der i-te Patient nach einer Zeit cni t¨odlich verungl¨ uckt, oder daß er in eine andere Stadt umzieht und vor Ort nicht weiter untersucht wird. Wenn das Ereignis, welches durch Xni beschrieben wird bis dahin noch nicht eintrat, dann weiß man eben nur, daß Xni > cni . Beispiel 14.2 In der Qualit¨atskontrolle beschreibe Xni die Lebensdauer eines bestimmten Ger¨ates. Im einfachsten Falle ist cni die Zeit, vor welcher das i-te Ger¨at in Betrieb genommen wurde, und somit bekannt. Falls aber das Ger¨at schon fr¨ uher aus dem Betrieb 141
142
KAPITEL 14. ZENSIERTE DATEN
genommen wurde, obwohl es noch funktionierte, muß man mit einer anderen Zensierungszeit arbeiten. Sobald unvorhersehbare Zensierungsmechanismen auftreten k¨onnen, muss man die cni als im allgemeinen unbekannt behandeln! Anmerkung 14.3 In vielen Arbeiten werden die Zensierungszeiten cni als Zufallsvariablen modelliert, wobei (Xni )i≤n und (cni )i≤n stochastisch unabh¨angig sind. Durch Bedingen auf (cni )i≤n kann man aber dieses Modell auf den hier betrachteten Fall fester Zensierungszeiten zur¨ uckf¨ uhren. Die Frage ist nun, inwieweit man Fn sch¨atzen kann. Dazu betrachten wir die empirischen Verteilung(sfunktion)en b n := H b∆ H n
:=
Cn :=
n 1X δY n i=1 ni
b n (t) := und H
n 1X 1{Yni ≥ t}, n i=1
n 1X ∆ni δYni , n i=1 n 1X δc n i=1 ni
und Cn (t) :=
n 1X 1{cni ≥ t}. n i=1
Die beiden ersteren sind tats¨achlich Funktionen der vorhandenen Daten, wohingegen Cn b n und H ∆ := IE H b ∆ ist im allgemeinen unbekannt ist. Mit Hn := IE H n n (14.1)
Hn (t) = Hn∆ (B) =
n 1X 1{cni ≥ t} IP{Xni ≥ t} = Cn (t)Fn (t), n i=1 n 1X IP{Xni ≤ cni , Xni ∈ B} = n i=1
Z
Cn (x) Fn (dx).
B
Betrachtet man diese Formeln genauer, dann erkennt man, daß Z
B
1 H ∆ (dx) = Hn (x) n
Z
B
1 Fn (dx) Fn (x)
n
o
falls B ⊂ x ∈ [0, ∞] : Cn (x) > 0 .
Tats¨achlich handelt es sich bei dem Maß Λn mit Λn (dx) := Fn (x)−1 Fn (dx) um das sogenannte Hazard-Maß der Verteilung Fn . Noch gel¨aufiger ist der Ausdruck “kumulative Hazard-Funktion” f¨ ur die entsprechende Verteilungsfunktion Λn (t) :=
Z
1{x ≤ t} Fn (dx). Fn (x)
Jede Verteilung auf [0, ∞] wird durch ihre kumulative Hazardfunktion eindeutig festgelegt. Wir demonstrieren dies nur im Falle einer stetigen Verteilung Fn . Dann ist n¨amlich Λn (t) =
Z
1
Fn (t)
1 du = − log Fn (t). u
143 Hat Fn eine Lebesgue-Dichte fn , so nennt man die Lebesgue-Dichte λn := fn /Fn von Λn die Hazard-Rate oder Hazard-Funktion von Fn . Im Falle einer stetigen Dichte fn ist
λn (t) = lim −1 IP Xni ≤ t + Xni ≥ t . ↓0
Ein naheliegender Sch¨atzer f¨ ur Λn (t) ist der Nelson-Sch¨atzer b n (t) := Λ
n 1{x ≤ t} b ∆ 1X ∆ni 1{Yni ≤ t} Hn (dx) = . b b n (Yni ) n i=1 Hn (x) H
Z
Der folgende Satz gibt Aufschluss u ¨ber seine asymptotischen Eigenschaften. Satz 14.4 (Bresley und Crowley 1974). Angenommen, (Fn )n und (Cn )n konvergieren schwach gegen Verteilung(sfunktion)en F beziehungsweise C. Ferner sei F stetig, und f¨ ur eine √feste Zahl T >0 sei F (T ) := F [T, ∞] > 0, C(T +) := C]T, ∞[ > 0. Dann konverb n − Λn )(t) giert n(Λ in Verteilung im Raum `∞ [0, T ] gegen einen Prozess W ◦ Γ. t∈[0,T ]
Dabei ist W eine Brownsche Bewegung auf [0, ∞[, und Γ(t) :=
Z
1{x ≤ t} F (dx). C(x)F (x)2
Beweis von Satz 14.4: Der Beweis ist ¨ahnlich zu dem von Breslow und Crowley (1974). Ein anderer Zugang u ¨ber Punktprozesse und Martingale wird von Andersen et al. (1993) dargestellt. Zun¨achst schreiben wir b n (t) = Λ
=
Z
1{x ≤ t} b ∆ Hn (dx) − Hn (x)
Z
Z
1{x ≤ t} b ∆ Hn (dx) − Hn (x)
Z
wobei Rn1 (t) :=
Z
b n − Hn )(x) 1{x ≤ t}(H b ∆ (dx) H n b n (x)Hn (x) H
b n − Hn )(x) 1{x ≤ t}(H b ∆ (dx) + Rn1 (t), H n Hn (x)2
b n − Hn )(x)2 1{x ≤ t}(H b ∆ (dx). H n b n (x)Hn (x)2 H
√ b 1. Schritt: Nun untersuchen wir den Prozess Zn := n(H ankung n − Hn ). Ohne Einschr¨ der Allgemeinheit nehmen wir an, daß cn1 ≥ cn2 ≥ · · · ≥ cnn . Dann ist Zn (t) = =
n 1 X √ 1{cni ≥ t}1{Xni ≥ t} − Cn (t)Fn (t) n i=1 n 1 X √ 1{cni ≥ t} 1{Xni ≥ t} − Fn (t) n i=1
144
KAPITEL 14. ZENSIERTE DATEN =
X 1 √ 1{Xni ≥ t} − Fn (t) n i≤nC (t) n
= Zen (t, Cn (t)) mit dem Kiefer-M¨ uller-Prozess 1 X Zen (t, v) := √ 1{Xni ≥ t} − Fn (t) , n i≤nv
(t, v) ∈ [0, ∞] × [0, 1].
Mithilfe von Satz 12.10 kann man zeigen, daß der Prozess Zen in Verteilung im Raum `∞ ([0, ∞] × [0, 1]) gegen einen zentrierten Gaußprozess Ze mit stetigen Pfaden konvergiert. Folglich ist kZn k[0,∞] = Op (1). Hieraus folgt, zusammen mit lim inf n→∞ Hn (T ) > 0, daß kRn1 k[0,T ] ≤
kZn k2[0,∞] /n
1 = Op . √ n Hn (T )2 Hn (T ) − kZn k[0,∞] / n
2. Schritt: Nun werden wir zeigen, daß b n − Hn )(x) b n − Hn )(x) 1{x ≤ t}(H 1{x ≤ t}(H b ∆ (dx) = H Hn∆ (dx) + Rn2 (t) n 2 Hn (x) Hn (x)2 √ mit kRn2 k[0,T ] = op (1/ n). Zun¨achst kann man mithilfe von Satz 8.3 leicht nachweisen, daß Z 1{x ≤ t}g (x) n b ∆ − H ∆ )(dx) = op (1) ( H sup n n Hn (x)2 t∈[0,T ] Z
Z
f¨ ur beliebige messbare Funktionen gn auf [0, ∞], falls kgn k[0,∞] = O(1). Dies wollen wir eigentlich auf Zn anwenden, aber diese Funktion ist zuf¨allig. Doch wegen der Separabilit¨at von (C(T ), k·kT ), wobei T := [0, ∞]×[0, 1], gibt es zu jedem > 0 eine endliche Teilmenge G() von C(T ), so daß gilt: n
o
IP min kZe − gkT ≥ g∈G()
≤ .
Mit n
Gn () :=
o
[t 7→ g(t, Cn (t))] : g ∈ G()
ist dann #Gn () ≤ #G(), und aus dem Portmanteau-Theorem folgt, daß lim sup IP n→∞
n
o
min kZn − gk[0,∞] ≥
g∈Gn ()
≤ .
145 Also k¨onnen wir schreiben: Z 1{x ≤ t}Z (x) n b ∆ − H ∆ )(dx) ( H sup n n 2
Hn (x)
t∈[0,T ]
≤ = ≤
2 ming∈Gn () kZn − gk[0,∞] + sup Hn (T )2 t∈[0,T ],g∈Gn ()
1{x ≤ t}g(x) b ∆ ∆ ( H − H )(dx) n n Hn (x)2
Z
2 ming∈Gn () kZn − gk[0,∞] + op (1) Hn (T )2 2 + op (1) Hn (T )2
mit asymptotischer Wahrscheinlichkeit mindestens 1 − . Da > 0 beliebig klein sein kann, folgt hieraus die Behauptung des zweiten Schrittes. Letzter Schritt: Wir wissen nun, daß b n − Λn )(t) (Λ
=
Z
1{x ≤ t} b ∆ Hn (dx) − Hn (x)
Z
b n − Hn )(x) 1{x ≤ t}(H Hn∆ (dx) − Λn (t) + Rn3 (t) Hn (x)2
=
Z
1{x ≤ t} b ∆ Hn (dx) − Hn (x)
Z
b n (x) 1{x ≤ t}H Hn∆ (dx) + Rn3 (t) Hn (x)2
=
n 1X ∆ni 1{Yni ≤ t} − n i=1 Hn (Yni )
Z
1{x ≤ t}1{x ≤ Yni } ∆ H (dx) + Rn3 (t), n Hn (x)2
√ wobei kRn3 k[0,T ] = op (1/ n). Mit anderen Worten, √
b n − Λn )(t) = n(Λ
n X
φni [0, t] +
√
nRn3 (t)
i=1
mit den zuf¨alligen signierten Maßen 1 ∆ni φni (B) := √ 1{Yni ∈ B} − n Hn (Yni )
Z
B
1{x ≤ Yni } ∆ H (dx) n Hn (x)2
auf [0, T ]. Eine l¨angere, aber elementare Rechnung zeigt, daß IE φni (B) = 0, Z 1 X 1{x ≤ cni }Fn ({x})2 1{x ≤ cni } e = 1 IE φni (B)φni (B) F (dx) − . n n B∩Be Hn (x)2 n Hn (x)2 Fn (x) Zusammen mit (14.1) folgt hieraus, daß Cov
n X i=1
φni [0, s],
n X i=1
φni [0, t]
=
n X i=1
e x∈B∩B
IE φni [0, s]φni [0, t]
146
KAPITEL 14. ZENSIERTE DATEN =
Z
[0,s∧t]
X 1 Fn ({x})2 Fn (dx) − Hn (x)Fn (x) Hn (x)Fn (x)2 x∈]0,s∧t]
→ Γ(s, t) :=
Z
[0,s∧t]
1 F (dx) C(x)F (x)2
gleichm¨aßig in s, t ∈ [0, T ]. Ferner gilt f¨ ur das Totalvariationsmaß |φni | von φni : max |φni |([0, T ])2 ≤ i≤n
Aus Satz 12.10 folgt somit, daß
P
1 4 = O . nHn (T )4 n
n i=1 φni [0, t]
t∈[0,T ]
in Verteilung im Raum `∞ [0, T ]
f mit Kovarianzfunktion Γ und gleichm¨ gegen einen zentrierten Gaußprozess W aßig stetigen p Pfaden bez¨ uglich ρ(s, t) := Γ(s, s) + Γ(t, t) − 2Γ(s, t) konvergiert. 2
Aufgaben Aufgabe 14.1 Man nehme an, daß alle Ze nsierungszeiten cni bekannt sind. Ein naheliegender Sch¨atzer f¨ ur Fn (t) ist dann b n (t) H Fˇn (t) := Cn (t)
h
i
f¨ ur t ∈ Tn := 0, max cni . i≤n
Berechnen Sie die Kovarianzfunktion dieses Sch¨atzers. Formulieren und beweisen Sie einen Zentralen Grenzwertsatz f¨ ur (Fˇn (t))t∈[0,T ] unter geeigneten Annahmen an die Folgen (Cn )n und (Fn )n . Aufgabe 14.2 Unter der Annahme, √ daß Fn stetig ist, beschreibe man einen Bootstrapb n − Λn )(t) Sch¨atzer f¨ ur die Verteilung von n Λ . t∈[0,T ]
Hinweis: Man muss sich u ¨eberlegen, wie man Fn und Cn konsistent (auf [0, T ]) sch¨atzen kann.
147
Literatur Hier werden nur Originalarbeiten genannt, die nicht schon in den angegebenen Lehrb¨ uchern behandelt werden. Andersen, P.K., O. Borgan, R.D. Gill and N. Keiding (1993). Statistical Models Based on Counting Processes. Springer, New York Billingsley, P. (1968). Convergence of Probability Measures. Wiley Billingsley, P. and F. Topsøe (1967). Uniformity in weak convergence. Z. Wahrschein. verw. Geb. 7, 1-16. Breiman, L. (1968). Probability. Addison-Wesley Breslow, N. and J. Crowley (1974). A large sample study and of the life table and product limits estimates under random censorship. Ann. Statist. 2, 437-453. D¨ umbgen, L. (1994). Combinatorial stochastic processes. Stochastic Process. Appl. 52, 75-92 Gr¨ ubel, R. (1988). The length of the shorth. Ann. Statist. 16, 619-628 Hoeffding, W. (1951). A combinatorial Central Limit Theorem. Ann. Math. Statist. 22, 558-566 Pollard, D. (1984). Convergence of Stochastic Processes. Springer Pollard, D. (1990). Empirical Processes: Theory and Applications. NSF-CBMS Regionial Conference Series in Probability and Statistics 2, Institute of Mathematical Statistics Rao, R.R. (1962). Relations between weak and uniform convergence of measures with applications. . Ann. Math. Statist. 33, 659-680 Shorack, G.R. & Wellner, J.A. (1986). Empirical Processes with Applications to Statistics. Wiley van der Vaart, A.W. and J.A. Wellner (1996). Weak Convergence and Empirical Processes. With Applications to Statistics. Springer
148
KAPITEL 14. ZENSIERTE DATEN
Notation Kapitel 1: Pbn = n−1
Pn
i=1 δXi
mit unabh¨angigen Zufallsvariablen Xi ∈ X mit Verteilung P
Sbn (f ) := cn ni=1 f (xni )Yi mit festen Punkten xni ∈ X und unabh¨angigen, identisch verteilten Zufallsvariablen Yi P
Zn :=
Pn
i=1 φni
mit unabh¨angigen Prozessen φni auf T
kxk = kxkT := supt∈T |x(t)| Kapitel 2: Pn
Fbn (t) := n−1
≤ t}
i=1 1{Xi
Pn
b n (v) := n−1 G blen Ui
i=1 1{Ui
≤ v} f¨ ur unabh¨angige, uniform auf [0, 1] verteilte Zufallsvaria-
Kapitel 4.2: Zno :=
Pn
i=1 ξi φni
mit einer von (φni )i unabh¨angigen Rademacherfolge (ξi )i .
Kapitel 8: n
N (, T , ρ) := min #To : To ⊂ T und ρ(t, To ) ≤ f¨ ur alle t ∈ T ρbn (s, t) :=
Pn
ρM (f, g) :=
i=1 |φni (s)
R
o
− φni (t)|
|f − g| dM n
o
N (, F) := max N ( M F, F, ρM ) : M Maß auf X mit F := supf ∈F |f | Kapitel 10: ω(x, δ) = ω(x, δ | ρ) := sups,t∈T :ρ(s,t)<δ |x(s) − x(t)| 149
150
KAPITEL 14. ZENSIERTE DATEN n
o
Cu (T ) = Cu (T | ρ) := x ∈ RT : limδ↓0 ω(x, δ) = 0 . Kapitel 12.2: ρbn,2 (s, t) :=
P
n i=1 |φni (s)
ρn,2 (s, t) := IE ρbn,2 (s, t)2
− φni (t)|2
1/2
1/2