¨ DARMSTADT TECHNISCHE UNIVERSITAT Empirische Wirtschaftsforschung und Makro¨okonometrie Prof. Dr. Uwe Hassler
Winterse...
11 downloads
496 Views
266KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
¨ DARMSTADT TECHNISCHE UNIVERSITAT Empirische Wirtschaftsforschung und Makro¨okonometrie Prof. Dr. Uwe Hassler
Wintersemester 2002/03
Stochastische Prozesse in ¨ Finanzierung und Okonometrie
Stochastische Prozesse haben in den letzten Jahren große Bedeutung in der Wirtschaftswissenschaft erlangt. Zum einen spielen sie eine u ¨berragende Rolle bei der Modellierung von Finanzm¨arkten (L¨osen stochastischer Differentialgleichungen), zum anderen basiert fast die gesamte statistische Inferenz der modernen Zeitreihen¨okonometrie auf ihnen (Einheitswurzelasymptotik). Nach einer Einleitung mit einigen Beispielen werden wir Modelle stochastischer Prozesse definieren und klassifizieren. Insbesondere wenden wir uns der Diskussion der grundlegenden Wiener-Prozesse (Brownschen Bewegungen) zu. Sie bilden den Grundbaustein des Ito-Integrals. Das sogenannte Lemma von Ito erlaubt, einige einfachere stochastische Differentialgleichungen analytisch zu l¨osen. Stochastische Integrale tauchen aber typischerweise auch als Grenzverteilungen bei instation¨aren (integrierten) Zeitreihen auf. Entsprechende Konvergenzs¨atze werden wir dann abschließend auf (ko)integrierte Zeitreihenmodelle anwenden.
Literaturauswahl Banerjee, A., J.J. Dolado, J.W. Galbraith, und D.F. Hendry (1993), Co-Integration, Error Correction, and the Econometric Analysis of Non-Stationary Data; Oxford University Press. Baxter, M., und A. Rennie (1996, 2001), Financial Calculus: An Introduction to Derivative Pricing; Cambridge University Press. Billingsley, P. (1968, 1999), Convergence of Probability Measures; Wiley. Chung, K.L., und R.J. Williams (1990), An Introduction to Stochastic Integration; Birkhauser. Davidson, J. (1994), Stochastic Limit Theory: An Introduction for Econometricians; Oxford University Press. Kannan, D. (1979), An Introduction to Stochastic Processes; North-Holland. Mikosch, Th. (1998), Elementary Stochastic Calculus with Finance in View; World Scientific Publishing. Neftci, S.N. (1996, 2000), An Introduction to the Mathematics of Financial Derivatives; Academic Press. Øksendal, B. (1985, 1998), Stochastic Differential Equations: An Introduction with Applications; Springer. Protter, P. (1990), Stochastic Integration and Differential Equations: A New Approach; Springer. Ross, S.M. (1983, 1996), Stochastic Processes; Wiley. uhrung in die Stochastik der Finanzm¨arkte; Springer. Sandmann, K. (1999), Einf¨ Soong, T.T. (1973), Random Differential Equations in Science and Engineering; Academic Press. Tanaka, K. (1996), Time Series Analysis: Nonstationary and Noninvertible Distribution Theory; Wiley.
Inhaltsverzeichnis
1 Einleitung
1
1.1
Finanzierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
¨ Okonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Stochastische Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2 Stochastische Prozesse
6
2.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2.1
Zeitdiskrete Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2.2
Zeitstetige Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
Wiener-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4
Funktionen von Wiener-Prozessen . . . . . . . . . . . . . . . . . . . . . . . 13
2.5
Integrierte Wiener-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Stochastische Integration
16
3.1
Riemann- und Stieltjes-Integrale . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2
¨ Normalit¨at und Aquivalenzen . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3
Itˆo-Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
i
3.4
Itˆos Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5
Ornstein-Uhlenbeck-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Lineare stochastische Differentialgleichungen
29
4.1
Lineare Differentialgleichungen mit variablen Koeffizienten . . . . . . . . . 29
4.2
Spezialf¨alle
4.3
Allgemeine L¨osung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4
Ewartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.6
Quadratwurzelprozess von Cox/Ingersoll/Ross . . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5 Konvergenz gegen stochastische Integrale
39
5.1
Schwache Konvergenz von Funktionen . . . . . . . . . . . . . . . . . . . . . 39
5.2
Funktionale Grenzwerttheorie . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3
Trendregression und Integrationstests . . . . . . . . . . . . . . . . . . . . . 46
5.4
Konvergenz gegen Ito-Integrale . . . . . . . . . . . . . . . . . . . . . . . . 48
5.5
Regressinonen integrierter Zeitreihen . . . . . . . . . . . . . . . . . . . . . 49
ii
Kapitel 1 Einleitung Stochastische Prozesse brauchen wir in dieser Veranstaltung vor allem, um stochastische Differentialgleichungen zu l¨osen und stochastische Integrale auszudr¨ ucken. Insofern handelt es sich um eine anwendungsorientierte Einf¨ uhrung in die stochastische Analysis. Dieses relativ junge Gebiet der Mathematik hat in kurzer Zeit weite Verbreitung in der ¨ theoretischen Okonometrie und Finanzierung gefunden. Wir wollen einige motivierende Fragen voranstellen, die im Verlauf der Veranstaltung beantwortet werden, und dabei ¨ einen Uberblick u ¨ber diese geben.
1.1
Finanzierung
Aktienkurs Es bezeichne S(t), t ≥ 0, den stetigen Kursverlauf einer Aktie mit der Rendite R(t) = S 0 (t)/S(t). Wir unterstellen konstante Renditen, R(t) = c
S 0 (t) = c S(t) .
⇐⇒
Diese Differentialgleichung f¨ ur den Aktienkurs wird u ¨blicherweise auch wie folgt geschrieben: dS(t) = c S(t) dt .
(1.1)
Die L¨osung hiervon lautet bekanntlich S(t) = S(0) ec t , 1
(1.2)
d.h. f¨ ur c > 0 ist der exponentielle Verlauf explosiv. Die Annahme eines deterministischen Kursverlaufes ist nat¨ urlich unrealistisch. Deshalb unterstellt man h¨aufig seit Black & Scholes (1973) eine (1.1) entsprechende stochastische Differentialgleichung, dS(t) = c S(t) dt + σ S(t) dW (t) ,
(1.3)
wobei dW (t) die Zuw¨achse eines sogenannten Wiener-Prozesses W (t) sind (oft spricht man auch von einer Brownschen Bewegung). Dies ist ein stochastischer (Zufalls-) Prozess. F¨ ur einen festen Zeitpunkt t ist damit S(t) eine Zufallsvariable. Wie verh¨alt sie sich im Mittel? Wie groß ist ihre Varianz? Wie h¨angen Erwartungswert und Varianz im Zeitverlauf von den Parametern c und σ ab? Zins Als n¨achstes bezeichne r(t) einen Zinssatz f¨ ur t ≥ 0. Nehmen wir an, er sei durch die Differentialgleichung dr(t) = c (r(t) − µ) dt
(1.4)
bzw. durch r0 (t) = c (r(t) − µ) gegeben. Die L¨osung hiervon lautet r(t) = µ + ec t (r(0) − µ) .
(1.5)
F¨ ur c < 0 gilt also, dass der Zins im Zeitverlauf gegen µ strebt. Allerdings ist wiederum ein deterministischer Verlauf nicht realistisch. Daher setzt Vasicek (1977) eine (1.4) entsprechende stochastische Differentialgleichung an: dr(t) = c (r(t) − µ) dt + σ dW (t) .
(1.6)
Wieder bezeichnet hier dW (t) die Zuw¨achse eines Wiener-Prozesses. Wie h¨angt nun der Zinsverlauf (im Mittel) von dem Parameter c ab? Und allgemeiner, was f¨ ur ein stochastischer Prozess wird durch (1.6) beschrieben? Die Antwort auf diese und ¨ahnliche Fragen werden wir erhalten, wenn wir lernen, stochastische Differentialgleichungen zu l¨osen.
2
1.2
¨ Okonometrie
Irrfahrten In der Zeitreihen¨okonometrie haben wir es oft mit Zeitreihen zu tun, die nicht mit konstanter Varianz um einen festen Wert schwanken. Ein weit verbreitetes Modell, um dieser Instationarit¨at gerecht zu werden, sind sogenannte integrierte Prozesse. Betrachten wir als Prototyp den Spezialfall einer Irrfahrt (oder auch: Random Walk), xt =
t X
εj ,
t = 0, . . . , T ,
(1.7)
j=1
wobei εt ein reiner Zufallsprozess ist, d.h. unabh¨angig mit Erwartungswert Null und konstanter Varianz σ 2 . Definitionsgem¨aß gilt f¨ ur die Irrfahrt xt = xt−1 + εt ,
t = 1, . . . , T ,
mit Var(xt ) = σ 2 t .
(1.8)
Die Zuw¨achse schreiben wir auch mit dem Differenzenoperator, ∆xt = xt − xt−1 = εt .
Dickey-Fuller-Verteilung Will man nun bei einer gegebenen Zeitreihe testen, ob sie tats¨achlich einer Irrfahrt folgt, so sch¨atzt man wegen (1.8) die Regression yt = φb yt−1 + εbt ,
t = 1, . . . , T .
Daraus ergibt sich der Kleinst-Quadrate(KQ)-Sch¨atzer f¨ ur φ = 1 als PT PT yt−1 εt t=1 yt yt−1 b = 1 + Pt=1 . φ = PT 2 T 2 t=1 yt−1 t=1 yt−1 Er ist der Grundbaustein f¨ ur den Test von Dickey & Fuller (1979). Unter der Nullhypothese eines Random Walks (φ = 1) gilt asymptotisch (T → ∞) d T (φb − 1) → DF ,
3
(1.9)
d
wobei → f¨ ur Konvergenz in Verteilung steht und DF die sogenannte Dickey-FullerVerteilung bezeichnet. Seit Phillips (1987) ist eine elegante Darstellung der Dickey-FullerVeteilung in termini stochastischer Integrale bekannt (wieder ist W (t) ein Wiener-Prozess): R1 W (t) dW (t) DF = 0R 1 . (1.10) W 2 (t) dt 0 P Man beachte (und genieße!) die formale Entsprechung der Quadratsumme Tt=1 x2t−1 im Nenner von φb mit dem Nenner-Integral u ¨ber den quadrierten Wiener-Prozess in (1.10), R1 2 P P W (t) dt. Genauso entsprechen sich die Summe Tt=1 xt−1 εt = Tt=1 yt−1 ∆yt und das 0 R1 Integral 0 W (t) dW (t). Aber, wie sind diese Integrale definiert, was verbirgt sich dahinter? Wie gelangt man zu dieser Verteilung (und ¨ahnlichen)? Und wieso existiert eine weitere, ¨aquivalente Darstellung, DF =
W 2 (1) − 1 , R1 2 0 W 2 (t) dt
(1.11)
der Dickey-Fuller-Verteilung? Dies sind Fragen, die wir im Kapitel u ¨ber Einheitswurzelasymptotik beantworten werden. Die Grundlagen dazu werden aber in den Ausf¨ uhrungen u ¨ber Konvergenz gegen stochastische Prozesse bereit gestellt.
1.3
Stochastische Analysis
Die hier zur Anwendung kommende stochastische Analysis ist ein relativ junges Gebiet der Mathematik und wurde von Ito (in den meisten B¨ uchern als Itˆo geschrieben) in einer Reihe von Arbeiten ab den Vierziger Jahren des letzten Jahrhunderts begr¨ undet. Wir f¨ uhren allgemein in stochastische Integration ein und behandeln speziell das Ito-Integral. Dessen Besonderheit besteht darin, dass es durch einen Wiener-Prozess definiert wird. Itos Lemma Besondere Bedeutung beim Rechnen mit stochastischen (Ito-)Integralen kommt dem sogenannten Ito-Lemma zu, von dem hier kurz eine Idee gegeben werden soll. Unterstellen wir f¨ ur den Moment eine (deterministische) differenzierbare Funktion f (t). Nach der Kettenregel gilt df 2 (t) = 2 f (t) f 0 (t) dt 4
bzw. df 2 (t) = f (t) f 0 (t) dt = f (t) df (t) . 2
(1.12)
Daher ergibt sich f¨ ur das gew¨ohnliche Integral ¯t Z t Z t ¢ 1 2 ¯¯ 1 ¡ 2 0 f (s) df (s) = f (s) f (s) ds = f (s)¯ = f (s) − f 2 (0) . 2 2 0 0 0 Wir werden aber unter anderem lernen, dass der Wiener-Prozess keine differenzierbare Funktion der Zeit ist. Es gilt die u ur das entsprechende ¨bliche Kettenregel nicht, und f¨ Ito-Integral erh¨alt man ¯ Z t ¢¯t ¢ 1 ¡ 2 1 ¡ 2 W (s) dW (s) = W (s) − s ¯¯ = W (t) − W 2 (0) − t . 2 2 0 0
(1.13)
Dieses Ergebnis resultiert aus dem ber¨ uhmten und grundlegenden Lemma von Ito, das im einfachsten Fall eine Art “stochastifizierte Kettenregel” f¨ ur Wiener-Prozesse ist. Statt (1.12) gilt n¨amlich dW 2 (t) 1 = W (t) dW (t) + dt . 2 2
(1.14)
Ausgangspunkt f¨ ur alle hier skizzierten Betrachtungen ist also der oft auch Brownsche Bewegung genannte Wiener-Prozess. Bevor wir uns ihm und seinen Eigenschaften zuwenden, sollen aber zuerst allgemein stochastische Prozesse definiert und klassifiziert werden.
5
Kapitel 2 Stochastische Prozesse Dieses Kapitel beginnt mit einer Definition allgemeiner stochastischer Prozesse, wobei diese eher anschaulich als streng mathematisch ist. Im zweiten Abschnitt werden dann stochastische Prozesse klassifiziert und durch Beispiele veranschaulicht. Dann werden speziell die sogenannten Wiener-Prozesse (Brownschen Bewegungen) eingef¨ uhrt und einige ihrer Eigenschaften diskutiert. Der vierte Abschnitt stellt einige aus Wiener-Prozessen konstruierte stochastische Prozesse vor, wobei wir sehen werden, wie man mit WienerProzessen rechnen kann. Der abschließende Abschnitt leitet zum n¨achsten Kapitel u ¨ber.
2.1
Definition
Zufallsvariablen Stochastische Prozesse wollen wir als Zufallsvariablen definieren. Wir wiederholen nur kurz und unvollst¨andig die Begriffe, welche die Definition einer Zufallsvariablen erm¨oglichen1 . Insbesondere sprechen wir von einer Ergebnismenge Ω eines Zufallsexperiments, deren Teilmengen A ⊆ Ω als Ereignisse aufgefasst werden. Den Ereignissen ordnet man Wahrscheinlichkeiten zu, A 7→ P(A) ∈ [0, 1] , 1
A ⊆ Ω.
Eine pr¨azise Definition kommt an dem hier u ¨bersprungenen Begriff der σ-Algebra nicht vorbei.
6
Eine reellwertige, eindimensionale Zufallsvariable X hingegen bildet von der Ergebnismenge in die reellen Zahlen ab: X:
Ω
→
R
ω
7→
X(ω) .
Eine Teilmenge B ⊆ R definiert ein Ereignis u ¨ber Ω wie folgt: X −1 (B) := {ω ∈ Ω | X(ω) ∈ B} . Dieses sogenannte Urbild X −1 (B) ⊆ Ω von B enth¨alt also genau jene Elemente aus Ω, welche X nach B abbildet. Hat man eine Wahrscheinlichkeitsfunktion P auf einem Teilmengensystem von Ω, so u ¨bertragen sich diese Wahrscheinlichkeiten auf Teilmengen von R; d.h. die Wahrscheinlichkeitsfunktion Px , mit der X Werte annimmt, wird wie folgt induziert:
¡ ¢ Px (X ∈ B) = P X −1 (B) ,
B ⊆ R.
Stochastischer Prozess Ein stochastischer Prozess (SP) ist nun eine Familie von Zufallsvariablen, {X(t; ω)}t∈T , f¨ ur eine vorgegebene Indexmenge T: X:
T×Ω
→
R
(t , ω)
7→
X(t; ω) .
Es soll der Index t ∈ T immer als “Zeit” interpretiert werden. Zu einem festen Zeitpunkt t0 ist also der stochastische Prozess einfach eine Zufallsvariable, X:
Ω
→
R
ω
7→
X(t0 ; ω) .
F¨ ur festes ω0 hingegen spricht man von einem Pfad, einer Trajektorie oder einer Realisation des Prozesses, X:
T
→
R
t
7→
X(t; ω0 ) .
Je nach Beschaffenheit der Indexmenge T unterscheiden wir zeitdiskrete und zeitstetige Prozesse. 7
2.2 2.2.1
Beispiele Zeitdiskrete Prozesse
Von zeitdiskreten Prozessen ist die Rede, wenn die Indexmenge T ist abz¨ahlbar ist, genauer T ⊆ N oder T ⊆ Z. Bei zeitdiskreten Prozessen vereinbaren wir als Kurzschreibweise die Verwendung von Kleinbuchstaben, xt , t ∈ T f¨ ur {X(t; ω)}t∈T .
Reine Zufallsprozesse und Irrfahrten Im folgenden steht εt = {ε(t; ω)}t∈Z immer f¨ ur einen reinen Zufallsprozess (oder weißes Rauschen), d.h. eine Folge identisch verteilter, stochastisch unabh¨angiger Zufallsvariablen mit Varianz σ 2 und Erwartungswert Null, εt ∼ iid(0, σ 2 ) . Die Kumulation von weißem Rauschen wird dann als Irrfahrt oder auch als Random Walk bezeichnet, xt =
t X
εj ,
t ∈ {1, 2, . . . , T } .
j=1
Bsp. 1: Diskretwertige Irrfahrt Es enthalte die Ergebnismenge nur zwei Ergebnisse, Ω = {ω0 , ω1 } , mit den Wahrscheinlichkeiten P ({ω1 }) =
1 2
= P ({ω0 }). Es sei εt in reiner Zufallsprozess,
der den Ergebnissen die Zahlwerte 1 und −1 zuordnet, ε(t; ω1 ) = 1 ,
ε(t; ω0 ) = −1 ,
t = 1, 2, . . . , T .
Dies induziert zu jedem Zeitpunkt die Wahrscheinlichkeiten Pε (εt = 1) = P ({ω1 }) = Pε (εt = −1) = P ({ω0 }) = 8
1 . 2
Die entsprechende Irrfahrt xt =
Pt
j=1 εj
kann dann f¨ ur t = 1, . . . , T nur die abz¨ahlbar
vielen Werte {−T, −T + 1, . . . , T − 1, T } annehmen und heißt daher auch diskretwertig. Sie modelliert in gewisser Weise den Nachhauseweg eines komplett Betrunkenen, der zu jedem Zeitpunkt rein zuf¨allig und unabh¨angig vom vorigen Weg einen Schritt (der L¨ange Eins) nach rechts oder nach links macht.
Bsp. 2: Stetigwertige Irrfahrt Sei nun εt normalverteiltes weißes Rauschen, εt ∼ N (0, σ 2 ) . Offenbar ist dann der darauf aufbauende Random Walk ebenfalls normalverteilt, wobei die Varianz linear mit der Zeit w¨achst: xt =
t X
εj ∼ N (0, σ 2 t) .
j=1
Hier ist also xt annahmegem¨aß eine stetige Zufallsvariable, und daher nennt man diese Irrfahrt auch stetigwertig.
2.2.2
Zeitstetige Prozesse
Die Indexmenge T ist hier ein reelles Intervall, T ⊆ R, meist T = [0, T ]. Bei zeitstetigen Prozessen unterdr¨ ucken wir notationell die Abh¨angigkeit von ω und schreiben kurz X(t) , t ∈ T f¨ ur {X(t; ω)}t∈T .
Bsp. 3: Stochastische Treppenfunktion W¨ahlen wir nun speziell T = [0, 1] mit der a¨quidistanten Partitionierung ¶ T · [ i−1 i [0, 1) = , . T T i=1 Mit einem positiven ∆ verallgemeinern wir damit die Irrfahrt zu einer Treppenfunktion, · ¶ i−1 X i−1 i XT (t) = ∆ εj f¨ ur t ∈ , , i = 1, . . . , T , T T j=1 9
und XT (1) = ∆
T X
εj .
j=1
Offenbar handelt es sich um eine auf jeweils einem Intervall der L¨ange 1/T konstante Treppenfunktion; w¨ urde man XT (t) nur an den Sprungstellen beobachten, so h¨atte man eine zeitdiskrete Irrfahrt. Da der Prozess XT (t) von der Wahl von T abh¨angt, wird er entsprechend indiziert. Wir unterstellen weiterhin im Beispiel, dass εt aus Bsp. 1 sei, d.h. jede einzelne Stufe der Treppenfunktion dem Betrage nach die H¨ohe ∆ habe. Dann nimmt XT (t) nur Werte aus {−T ∆ , (−T + 1) ∆, . . . , (T − 1) ∆ , T ∆} an. Es handelt sich also um einen zeitstetigen aber diskretwertigen Prozess.
Bsp. 4: Wiener-Prozess Der Prozess XT (t) aus Bsp. 3 h¨angt wie gesagt von T , n¨amlich der Feinheit der Partitionierung des Einheitsintervalls ab. Gleichzeitig w¨ahlen wir nun die Sprungh¨ohe der Treppenstufen zeitabh¨angig, und zwar 1 ∆ = T −0.5 = √ . T Man beachte, dass damit der Wertebereich, √ √ √ 1 1 √ {− T , − T + √ , . . . , T − √ , T } T T immer feiner bzw. gr¨oßer wird, wenn T w¨achst. Mit steigendem T wird nun also XT (t) “stetiger” in dem Sinne, dass die Sprungh¨ohen ∆ = T −0.5 geringer ausfallen, gleichzeitig r¨ ucken die Sprungstellen n¨aher zusammen (die Treppenstufen werden schmaler), so dass XT (t) immer mehr m¨ogliche Werte annehmen kann. Im Grenz¨ ubergang erh¨alt man einen nach Norbert Wiener benannten Prozess, den wir im folgenden immer mit W notieren: XT (t) ⇒ W (t) f¨ ur T → ∞ , wobei sich hinter ⇒ ein noch zu spezifizierender Konvergenzbegriff verbirgt. Der WienerProzess W (t) ist stetigwertig mit dem Wertebereich R = (−∞, ∞), u ¨berdies zeitstetig mit t ∈ [0, 1], und man sogar zeigen, dass er auch stetig im klassischen Sinne der Analysis ist (d.h. seine Trajektorien stellen stetige Funktionen in t dar). 10
2.3
Wiener-Prozesse
Erste Eigenschaften Wir definieren als Wiener-Prozess (WP) W (t) f¨ ur t ≥ 0 die standardisierte Brownsche Bewegung mit (W1) Startwert Null, P(W (0) = 0) = 1, (W2) unabh¨angigen Zuw¨achsen W (t1 ) − W (t0 ), . . ., W (tn ) − W (tn−1 ) f¨ ur beliebiges n mit 0 ≤ t0 ≤ t1 ≤ . . . ≤ tn , (W3) normalverteilten Zuw¨achsen, W (t) − W (s) ∼ N (0, t − s) mit 0 ≤ s < t. Offensichtlich implizieren die erste und dritte Eigenschaft2 W (t) ∼ N (0, t) , d.h. der Wiener-Prozess ist anschaulich eine stochastische Funktion, die zu jedem Zeitpunkt normalverteilt mit wachsender Varianz t ist. Er u ¨bernimmt die Rolle der Standardnormalverteilung, und durch Multiplikation mit einer Konstanten erh¨alt man die allgemeine Brownsche Bewegung als B(t) = σ W (t) , σ > 0 . Aus den definierenden Eigenschaften erh¨alt man folgende Kovarianzstruktur: Cov(W (t), W (s)) = min(s, t) . Mit Wahrscheinlichkeit Eins gilt, dass die Brownsche Bewegung u ¨berall stetig (im Sinne der Analysis), aber nirgendwo differenzierbar ist. Dies sind pfadweise Eigenschaften, d.h. f¨ ur vorgegebenes ω0 ist W (t) = W (t; ω0 ) eine in t stetige, aber nicht differenzierbare Funktion. Heuristisch kann dies zumindest plausibel gemacht werden. Betrachten wir W (t + h) − W (t) ∼ N (0, h) , 2
h > 0.
Ganz korrekt muss es heißen: W (t) − W (0) ∼ N (0, t). Da aber W (0) mit Wahrscheinlichkeit Eins
Null ist, setzen wir hier und im folgenden W (0) gleich Null; die entsprechenden Aussagen gelten dann nur mit Wahrscheinlichkeit Eins.
11
F¨ ur h → 0 degeneriert die angegebene Normalverteilung zur Null, was Stetigkeit suggeriert. Analog erh¨alt man einen Differenzenquotienten, dessen Varianz u ¨ber alle Grenzen strebt, W (t + h) − W (t) ∼ N h
µ ¶ 1 0, , h
was nahe legt, dass eine gew¨ohnliche Ableitung nicht existiert. Der Wiener-Prozess ist also eine zu jedem Zeitpunkt t normalverteilte Funktion mit Erwartungswert 0 und Varianz t. Wenn man nun aber die Zeitskala um den Faktor σ aufbl¨aht, so gilt, W (σ t) ∼ N (0, σ t) . Die gleiche Verteilung erh¨alt man auch f¨ ur das √
√
σ-Fache des Wiener-Prozesses, σ > 0,
σ W (t) ∼ N (0, σ t) .
Deshalb nennt man den Wiener-Prozess skaleninvariant (oder selbst¨ahnlich). Also stim√ ur wir auch schreiben: men W (σ t) und σ W (t) in Verteilung u ¨berein, wof¨ √
σ W (t) ∼ W (σ t) .
Eine solche Gleichheit in Verteilung ist mit Vorsicht zu genießen und keinesfalls mit gew¨ohnlicher Gleichheit zu verwechseln; selbstverst¨andlich gilt √
σ W (t) 6= W (σ t) .
¨ Uberschreitungszeiten und Arcus-Gesetz Es bezeichne Tb den Zeitpunkt, zu dem ein WP das erste Mal einen vorgegebenen Wert b>0u ¨berschreitet. Durch Variablentransformation zeigt man, dass die Zufallsvariable Tb die Verteilungsfunktion 2 Fb (t) := P(Tb ≤ t) = 2 P(W (t) ≥ b) = √ 2π
Z
∞ √ b/ t
e−y
2 /2
dy
hat. Damit beweist man Aussage a) des nachfolgenden Satzes. Die Aussage b) erh¨alt man mit Hilfe der entsprechenden Dichtefunktion.
12
¨ ¨ Satz 2.1 (Uberschreitungswahrscheinlichkeit) F¨ ur die Uberschreitungswahrscheinlichkeit gilt a) P (Tb > t) = P(max0≤s≤t W (s) ≤ b) → 0 f¨ ur t → ∞; b) E(Tb ) ist nicht endlich definiert.
Lax formuliert bedeutet Satz 2.1 paradoxerweise, dass der WP fr¨ uher oder sp¨ater jeden Wert u ¨berschreitet, dass er aber im Mittel unendlich lang dazu braucht. Es sei nun als n¨achstes p(t1 , t2 ) mit 0 < t1 < t2 die Wahrscheinlichkeit, dass ein WP zwischen diesen beiden Zeitpunkten die Nulllinie kreuzt. Sie l¨asst sich wie folgt berechnen.
Satz 2.2 (Arcus-Gesetz) 2 p(t1 , t2 ) = arccos π
r
t1 2 = arctan t2 π
r
t2 − t1 . t1
Der Beweis basiert auf einer R¨ uckf¨ uhrung auf die Dichtefunktion von Tb . F¨ ur t2 → ∞ strebt die Wahrscheinlichkeit, die Nulllinie zu kreuzen also gegen Eins, f¨ ur t2 → t1 hingegen strebt sie selbstverst¨andlich gegen Null.
2.4
Funktionen von Wiener-Prozessen
Brownsche Br¨ ucke X(t) = B(t) − t B(1) Dieser Prozess basiert auf einer Brownschen Bewegung, B(t) = σ W (t), und ist f¨ ur t ∈ [0, 1] definiert. Elementar weist man nach Var(X(t)) = t (1 − t) σ 2 . F¨ ur t ∈ (0, 1] gilt also Var(X(t)) < Var(B(t)). Dies ist intuitiv klar: Da die Brownsche Br¨ ucke zur¨ uck zur Null gezwungen wird, muss sie weniger Variabilit¨at als die Brownsche Bewegung aufweisen. 13
Reflektierter Wiener-Prozess X(t) = |W (t)| F¨ ur die Verteilungsfunktion erh¨alt man elementar µ 2¶ Z x −y 2 exp P(X(t) ≤ x) = √ dy − 1 . 2t 2πt −∞ Aus der zugeh¨origen Dichtefunktion lassen sich Erwartungswert und Varianz des reflektierten Wiener-Prozesses bestimmen. Sie lauten r ¶ µ 2 2t E(X(t) = . , Var(X(t)) = t 1 − π π Da der reflektierte Wiener-Prozess nicht negativ werden kann, hat er einen positiven, mit t wachsenden Erwartungswert. Aus dem gleichen Grund ist seine Varianz kleiner als die des unrestringierten Wiener-Prozesses. Geometrische Brownsche Bewegung X(t) = eW (t) Unter Zuhilfenahme der momentenerzeugenden Funktion der Normalverteilung erh¨alt man E(X(t)) = et/2
und Var(X(t)) = et (et − 1) .
W¨ahrend log(X(t)) also normalverteilt mit Erwartungswert Null ist, weist X(t) eine exponentiell wachsende Erwartungswertfunktion auf. Wiener-Prozess mit Drift X(t) = µ t + W (t) Hier gilt offensichtlich X(t) ∼ N (µt, t) . Geometrische Brownsche Bewegung mit Drift X(t) = eµ t+σ W (t) Durch Ausnutzung der Selbst¨ahnlichkeit des Wiener-Prozesses bestimmt man die Momente sehr einfach als E(X(t)) = e(µ+σ
2 /2) t
und Var(X(t)) = e(2µ+σ
2) t
(eσ
2
t
− 1) .
Speziell f¨ ur µ = 0 und σ = 1 werden nat¨ urlich obige Ergebnisse reproduziert.
14
2.5
Integrierte Wiener-Prozesse
Da die Brownsche Bewegung eine in der Zeit stetige Funktion ist, l¨asst sich das RiemannIntegral pfadweise dar¨ uber definieren. Damit ergibt sich z.B. folgende Zufallsvariable: Z 1 Z 1 B(t) dt = σ W (t) dt . 0
0
Hinter dieser Zufallsvariablen verbirgt sich eine Normalverteilung. Letzteres beweist man elementar u ¨ber die Definition des Riemann-Integrals oder als einfache Folgerung des sp¨ateren Satzes 3.1.
Satz 2.3 (Integrierter Wiener-Prozeß) Z 1 W (t) dt ∼ N (0, 1/3) . 0
Prinzipiell kann man u ¨ber das Integral eines WP auch einen neuen stochastischen Prozess definieren, indem etwa die obere Integrationsgrenze zeitabh¨angig gemacht wird: Z t X(t) = W (s) ds . 0
Diese Idee stellt den Ausgangspunkt f¨ ur das n¨achste Kapitel dar.
15
Kapitel 3 Stochastische Integration Im ersten Abschnitt wiederholen wir einiges, was wir u ¨ber Riemann- und Stieltjes-Integrale aus der reellen Analysis wissen. Im zweiten Abschnitt werden diese Integrale pfadweise f¨ ur stochastische Prozesse u ¨bertragen. Wir lernen eine Reihe von Verteilungs¨aquivalenzen kennen und werden sehen, dass sich hinter stochastischen Integralen speziell von WienerProzessen normalverteilte Zufallsvariablen verbergen. Technisch wesentlich komplizierter, aber von grundlegender Bedeutung f¨ ur die stochastische Analysis sind sogenannte ItoIntegrale (von vielen Autoren als stochastische Integrale im engeren Sinne bezeichnet). ¨ Es werden im dritten Abschnitt einige Uberlegungen zu ihrer Definition angestellt und einige ihrer Eigenschaften eingef¨ uhrt. Ito-Integrale bilden den Baustein f¨ ur Ito-Prozesse. Auf ihnen basiert Itos Lemma oder Theorem. Dieser Satz enth¨alt im wesentlichen die Regeln, nach denen man Ito-integriert. Wir diskutieren Itos Lemma in Abschnitt 4. Als Anwendung einiger der bis dahin besprochenen S¨atze lernen wir abschließend den als stochastisches Integral definierten Ornstein-Uhlenbeck-Prozess und wesentliche seiner Eigenschaften kennen.
16
3.1
Riemann- und Stieltjes-Integrale
Wir wollen Integrale u ¨ber reelle Intervalle [a, b] berechnen. Dazu betrachtet man die disjunkte Partitionierung s0 < · · · < sn mit [a, b) =
n [
[si−1 , si ) ,
a = s0 , b = sn .
i=1
Mit wachsendem n soll die Partitionierung immer feiner werden, d.h. lim max (si − si−1 ) = 0 .
n→∞ i=1,...,n
F¨ ur eine Funktion f : [a, b] → R, definieren wir die Summe n X
f (s∗i ) (si − si−1 )
f¨ ur s∗i ∈ [si−1 , si ) .
i=1
Wenn diese Summe einen f¨ ur n → ∞ von der konkreten Partitionierung und der konkreten Wahl von s∗i unabh¨angigen Grenzwert besitzt, so definiert man diesen bekanntlich als Riemann-Integral. Wir unterstellen im folgenden, dass f eine stetige Funktion ist, was Riemann-Integrierbarkeit garantiert: Z
b
f (x) dx = lim
n→∞
a
n X
f (s∗i ) (si − si−1 ) .
i=1
Lassen wir nun weiter zu, dass die Funktion f nach einer weiteren Funktion g integriert werden soll. F¨ ur eine gegebene Partitionierung lautet die entsprechende Summe n X
f (s∗i ) (g(si ) − g(si−1 ))
f¨ ur s∗i ∈ [si−1 , si ) .
i=1
Wenn f¨ ur u ¨ber alle Grenzen wachsendes n wieder ein eindeutiger Grenzwert existiert, so definieren wir diesen als Stieltjes-Integral. Hinreichende Anforderungen an f und g f¨ ur Stieltjes-Integrierbarkeit sind z.B. folgende: Die Funktion f sei differenzierbar mit beschr¨ankter erster Ableitung, und es existiere ein q > 0, dass g von beschr¨ankter q-Variation ist, lim
n→∞
n X
|g(si ) − g(si−1 )|q < ∞ .
i=1
17
Dann ist f nach g Stieltjes-integrierbar, und wir schreiben , Z b n X f (x) dg(x) = lim f (s∗i ) (g(si ) − g(si−1 )) . n→∞
a
i=1
Falls g sogar eine differenzierbare Funktion ist, so geht das Stieltjes-Integral in das gew¨ohnliche Riemann-Integral u ¨ber, Z b Z b f (x) dg(x) = f (x) g 0 (x) dx . a
a
F¨ ur sowohl Riemann- als auch Stieltjes-Integral gelten die u ¨bliche Additivit¨at und Linearit¨at,
Z
Z
b
Z
c
=
b
f¨ ur a ≤ c ≤ b , Z Z Z (f1 + f2 ) = f1 + f2 , Z Z c f = c f f¨ ur c ∈ R .
a
3.2
+
a
c
¨ Normalit¨ at und Aquivalenzen
Es sei X(t) f¨ ur das folgende immer ein pfadweise stetiger Prozess, d.h. ein Prozess mit stetigen Trajektorien. Dann gilt f¨ ur ein Doppelintegral u ¨ber X(t), dass die Integrationsreihenfolge keine Rolle spielt. Daher ist der Erwartungswert des Integrals u ¨ber den Prozess gleich dem Integral u ¨ber den Erwartungswert. Satz 3.0 (Fubini) F¨ ur stetiges X(t) gilt ¶ Z t µZ t |X(s)| ds = E(|X(s)|) ds . E 0
0
Falls diese Gr¨oße endlich ist, so folgt µZ t ¶ Z t E X(s) ds = E(X(s)) ds . 0
0
Ist u ¨berdies die deterministische Funktion f stetig, so existiert das Riemann-Integral u ¨ber das Produkt f (t) X(t). Wir u ¨bernehmen folgendes Ergebnis z.B. aus Soong (1973) oder Tanaka (1996).
18
Satz 3.1 (Normalit¨ at von Riemann-Integralen) Ist X(t) ein normalverteilter Prozeß, so gilt f¨ ur das Riemann-Integral Z t f (s)X(s)ds ∼ N (µR , σR2 ) 0
mit
Z
t
µR = σR2
Z tZ
t
= 0
f (s)E(X(s)) ds , 0
0
f (r) f (u) E(X(r)X(u)) drdu − µ2R .
Da der WP ein Normalprozess ist, folgt aus Satz 3.1 elementar Satz 2.3 sowie das nachstehende Korollar.
ur den Wiener-Prozess W und c ∈ R Korollar 3.1 (Normalverteilungs¨ aquivalenz) F¨ gilt
Z
1 0
(s − c) W (s) ds ∼ N (0, σR2 ) ,
σR2 =
8 − 25c + 20c2 . 60
Man u ¨berlege sich, warum der Varianzausdruck aus Korollar 3.1 nicht negativ werden kann. Unterstellen wir nun weiterhin, dass f eine differenzierbare Funktion mit beschr¨ankter Ableitung sei und der stochastische Prozess X der Art, dass f nach X Stieltjes-integrierbar ist. Dann l¨asst sich das Stieltjes-Integral wieder pfadweise definieren, und wir u ¨bernehmen folgendes Ergebnis z.B. aus Soong (1973) oder Tanaka (1996).
Satz 3.2 (Partielle Integration) Z t Z t t f (s) dX(s) = [f (s) X(s)]0 − X(s) df (s) 0 0 Z t t = [f (s) X(s)]0 − X(s) f 0 (s) ds . 0
19
Eine unmittelbare Anwendung ist mit f (t) = 1: Z t dX(s) = X(t) − X(0) . 0
Speziell f¨ ur den Wiener-Prozess gilt wegen der definierenden Eigenschaft (W1) Z t dW (s) = W (t) , 0
wobei diese Gleichheit eben nur mit Wahrscheinlichkeit Eins gilt. Die bisherigen Resultate liefern elementar folgende Zusammenh¨ange.
Korollar 3.2 (Normalverteilungs¨ aquivalenzen) F¨ ur einen Wiener-Prozess W (t) gilt: Z 1 Z 1 a) (1 − s) dW (s) = W (s) ds ∼ N (0, 1/3) , 0 0 Z 1 Z 1 b) s dW (s) = W (1) − W (s) ds ∼ N (0, 1/3) , 0 0 Z 1 1 s dW (s) − W (1) ∼ N (0, 1/12) . c) 2 0
Nochmals sei auf den Unterschied zwischen Gleichheit in Verteilung und gew¨ohnlicher Gleichheit hingewiesen. Offenbar gilt Z 1 Z W (s) ds 6= W (1) − 0
1
W (s) ds , 0
obwohl wegen a) und b) diese beiden Zufallsvariablen normalverteilt mit denselben Parametern sind. Kombiniert man Satz 3.1 mit Satz 3.2, so l¨asst sich mit etwas Rechenaufwand auch die Normalit¨at eines Stieltjes-Integrale nach einem Wiener-Prozess nachweisen.
Satz 3.3 (Normalit¨ at von Stieltjes-Integralen) F¨ ur einen Wiener-Prozess W (t) gilt: Z t Z t f (s) dW (s) = f (t) W (t) − f 0 (s) W (s) ds 0 0 µ Z t ¶ 2 ∼ N 0, f (s) ds . 0
20
Auch das Gleichheitszeichen aus Satz 3.3 ist mit einer minimalen Einschr¨ankung zu lesen ist: Es gilt nur mit Wahrscheinlichkeit Eins, weil der Wiener-Prozess f¨ ur t = 0 mit Wahrscheinlichkeit Eins Null ist. Im Grunde liefert Satz 3.2 n¨amlich Z t Z t f (s) dW (s) = f (t) W (t) − f (0) W (0) − f 0 (s) W (s) ds . 0
3.3
0
Itˆ o-Integrale
Betrachten wir f¨ ur die Partitionierung [0, t) =
n [
[si−1 , si )
i=1
die Summe In =
n X
W (si−1 ) (W (si ) − W (si−1 )) .
i=1
F¨ ur n → ∞ w¨ urden wir den Grenzwert gern als
Rt 0
W (s) dW (s) bezeichnen, was formal
wie ein Stieltjes-Integral u ¨ber einen WP und nach diesem WP aussieht. Wenn es sich hierbei in der Tat um ein wohldefiniertes Stieltjes-Integral handelte, so lieferte Satz 3.2 die (leider falsche und daher in Anf¨ uhrungszeichen gesetzte) Formel Z t 1 “ W (s) dW (s) = W 2 (t) “ . 2 0 Dass die Formel falsch sein muss, sieht man schon den Erwartungswerten an: µ 2 ¶ W (t) t E(In ) = 0 6= =E . 2 2 Also muss der Versuch, den Limes von In pfadweise als Stieltjes-Integral zu definieren, scheitern. Dies ist auch nicht u ¨berraschend: Der WP ist zwar von beschr¨ankter q-Variation und gen¨ ugt daher der Forderung, die wir an die Funktion g, nach der integriert wird, gestellt hatten; aber: W (t) ist nicht differenzierbar und erf¨ ullt daher nicht die Annahme (¨ uber f ), welche als hinreichend f¨ ur die Existenz von Stieltjes-Integralen eingef¨ uhrt wurde. Zur Defintion von Ito-Integralen betrachten wir allgemeiner als die Summe In f¨ ur einen SP X:
n X
X(si−1 ) (W (si ) − W (si−1 )) .
i=1
21
Drei Forderungen werden an den Prozess gestellt: X(t) sei erstens ein stetiger Prozess, der zweitens nur von der Vergangenheit des WP, W (s) mit s ≤ t, aber nicht von dessen Rt Zukunft abh¨angt, und f¨ ur den drittens mit Wahrscheinlichkeit Eins 0 X 2 (s)ds < ∞ gilt. Unter diesen Annahmen konvergiert obige Summe eindeutig unabh¨angig von der Partitionierung. Der Grenzwert heißt Ito-Integral und wird wie folgt notiert: n X
qM X(si−1 ) (W (si ) − W (si−1 )) −→
Z
t
X(s) dW (s) , 0
i=1
wobei die Konvergenz f¨ ur n → ∞ im quadratischen Mittel ist. Man beachte, dass die Wahl der St¨ utzstellen, s∗i = si−1 , bei der Definition des Ito-Integrales bindend ist! Es konvergiert n¨amlich z.B. n X i=1
µ X
si−1 + si 2
¶ (W (si ) − W (si−1 ))
gegen das sogenannte Stratonovich-Integral, das nicht gleich dem Ito-Integral ist und andere stochastische Eigenschaften hat! Bevor wir uns dem allgemeinen Ito-Integral widmen, wollen wir zu dem instruktiven einf¨ uhrenden Speziallfall eines Ito-Integrals u uck kehren. Wie durch obige Be¨ber W zur¨ trachtung des Erwartungswertes motiviert wird, erh¨alt man f¨ ur das Itˆo-Integral u ¨ber W nach W folgende Integrationsregel.
Satz 3.4 (Itˆ o-Integral u ¨ ber W nach W ) Z t 1 1 W (s) dW (s) = W 2 (t) − t . 2 2 0
Dieser Satz reproduziert gerade die “stochastifizierte Kettenregel” f¨ ur Wiener-Prozesse ¨ aus (1.14). Speziell f¨ ur t = 1 schafft Satz 3.4 den Ubergang der Dickey-Fuller-Verteilung von (1.10) zu (1.11). H¨aufig wird die Gleichung aus Satz 3.4 auch in Differentialschreibweise notiert: W (t) dW (t) =
¢ 1 ¡ dW 2 (t) − dt , 2
oder dW 2 (t) = 2 W (t) dW (t) + dt . 22
Lax gesprochen ergibt sich also dW 2 (t) als ¨außere Ableitung mal innerer Ableitung plus dt. Wo r¨ uhrt dieser zus¨atzliche Ausdruck her? Obwohl Satz 3.4 einfach aus Itos Lemma folgt, siehe unten, ist es lehrreich, einen elementaren Beweis zu betrachten. Als erstes kann man elementar f¨ ur In =
n X
W (si−1 ) (W (si ) − W (si−1 ))
i=1
folgende Gleichheit (mit Wahrscheinlichkeit Eins) zeigen: In =
¢ 1 ¡ 2 W (t) − Qn (t) . 2
Hierbei ist Qn (t) als quadratische Variation definiert, Qn (t) =
n X
(W (si ) − W (si−1 ))2 .
i=1
F¨ ur diese kann man in einem zweiten Schritt E(Qn (t)) = t und Var(Qn (t)) → 0 , n → ∞ , beweisen. Also gilt
£ ¤ E (Qn (t) − t)2 → 0 ,
oder mit anderen Worten: Qn (t) strebt im quadratischen Mittel gegen t. Indem wir den Rt Limes von In mit 0 W (s) dW (s) bezeichnen, haben wir also den Satz bewiesen. F¨ ur Ito-Integrale gelten allgemein wieder die u ¨bliche Additivit¨at und Linearit¨at von Integralen. Außerdem erh¨alt man f¨ ur Erwartungswert und Varianz die analogen Formeln wie bei Stieltjes-Integralen, vgl. Satz 3.3, (vorausgesetzt, dass diese Momente existieren, was nicht unbedingt gew¨ahrleistet ist!).
Satz 3.5 (Momente des Itˆ o-Integrals) Es sei µZ
t
E 0
¶ X(s) dW (s) = 0 ,
µZ
t
Var 0
23
Rt 0
E (X 2 (s)) ds < ∞. Dann gilt
¶ Z t ¡ ¢ X(s) dW (s) = E X 2 (s) ds . 0
Allerdings ist das Ito-Integral i.a. nicht mehr normalverteilt. Aber speziell das Integral u ¨ber einen WP nach einem davon stochastisch unabh¨angigen WP ist doch gerade normalverteilt. Indem man zeigt, dass die bedingte Verteilung der linken Seite aus nachstehendem Satz gegeben V (t) gerade einer N (0, 1)-Verteilung folgt und also gar nicht von dieser Bedingung abh¨angt, beweist man das behauptete Resultat aus Satz 3.6.
Satz 3.6 (Itˆ o-Integral u angigem WP) Es seien W (t) und V (t) ¨ ber WP nach unabh¨ stochastisch unabh¨angige Wiener-Prozesse. Dann gilt µZ
1
¶−0.5 Z V (s) ds
0
3.4
1
2
V (s) dW (s) ∼ N (0, 1) . 0
Itˆ os Lemma
Bevor wir uns an Itos Lemma machen, nehmen wir einen Spezialfall vorweg. Die “stochastifizierte Kettenregel” aus Satz 3.4 gilt n¨amlich nicht nur f¨ ur Quadrate von WienerProzessen.
Korollar 3.3 Es sei g: R → R zweimal stetig differenzierbar. Dann gilt d (g(W (t)) = g 0 (W (t)) dW (t) +
1 00 g (W (t)) dt . 2
In Integralform ist dieses Korollar aus Itos Lemma wie folgt zu lesen: Z t Z 1 t 00 0 g (W (t)) = g (W (0)) + g (W (s)) dW (s) + g (W (s)) ds . 2 0 0 F¨ ur g(x) =
1 2
x2 beweist dieser Spezialfall von Itos Lemma also gerade Satz 3.4. Und
allgemein erh¨alt man f¨ ur m ≥ 2 aus Korollar 3.3: µ m ¶ W (t) m − 1 m−2 d W (t) dt , = W m−1 (t) dW (t) + m 2
24
bzw. in Integralform Z
1
m
W (t) = m
W
m−1
0
m(m − 1) (s) dW (s) + 2
Z
t
W m−2 (s) ds .
0
Auch Korollar 3.3 l¨asst sich lax wie folgt formulieren: die Ableitung von g(W (t)) ergibt sich als ¨außere Ableitung mal innerer Ableitung plus einem Ito-spezifischen Extraterm, der aus der zweiten Ableitung von g mal dt besteht. Woher dieser Term r¨ uhrt, kann man sich klar machen, wenn man zum Beweis von Korollar 3.3 eine Taylor-Approximation 2. Ordnung von g(W (t)) vornimmt und (dW (t))2 = dt setzt, vgl ... . Itos Lemma aber ist viel allgemeiner. Es erlaubt uns nicht nur die Bestimmung von Differentialen einfacher Funktionen eines Wiener-Prozesses. Daher definieren wir nun basierend auf Ito-Integralen sogenannte Ito-Prozesse (mit dem Startwert I(0)), die sich aus einem Riemann-Integral und einem Ito-Integral zusammen setzen, Z t Z t I(t) = I(0) + µ(s) ds + σ(s) dW (s) . 0
0
Im allgemeinen sind µ(t) und σ(t) selbst stochastisch; sie d¨ urfen von I(t) selbst abh¨angen, oder noch allgemeiner von der Vergangenheit des Wiener-Prozesses, nach dem integriert wird (aber nicht von dessen Zukunft): µ(t) = µ (t, I(t)) ,
σ(t) = σ (t, I(t)) ,
oder µ(t) = µ (t, W (s)) ,
σ(t) = σ (t, W (s)) ,
s ≤ t.
Damit die Existenz von I(t) garantiert ist, fordern wir, dass µ(t) bzw. σ(t) absolut bzw. quadratisch (Riemann-)integrierbar sind und nicht von W (s) mit s > t abh¨angen. Oft schreiben wir den Ito-Prozess auch durch die Angabe des entsprechenden stochastischen Differentials, dI(t) = µ(t) dt + σ(t) dW (t) . Itos Lemma gibt nun an, wie man allgemein die Gestalt einer Funktion eines Ito-Prozesses bestimmen kann. Wir behandeln drei Varianten von Itˆos Lemma. Die erste ist wieder eine Art stochastifizierter Kettenregel, und die Beweisidee basiert wiederum auf einer TaylorApproximation zweiter Ordnung.
25
Itˆ os Lemma 1 Es sei g: R → R zweimal stetig differenzierbar und I(t) ein Ito-Prozess mit dI(t) = µ(t) dt + σ(t) dW (t) . Dann gilt dg (I(t)) = g 0 (I(t)) dI(t) +
1 00 g (I(t)) σ 2 (t) dt . 2
Ist I(t) = W (t) ein Wiener-Prozess, d.h. µ(t) = 0 und σ(t) = 1, so erh¨alt man als Spezialfall Korollar 3.3. Eine Verallgemeinerung hingegen stellt folgende Variante dar, bei der die Funktion g von zwei Ito-Prozessen abh¨angt, die beide durch ein und denselben Wiener-Prozess determiniert werden. Dabei bezeichnet gi die partielle Ableitung nach dem i-ten Argument, und gij steht f¨ ur die entsprechende zweite Ableitung.
Itˆ os Lemma 2 Es sei g: R × R → R zweimal stetig differenzierbar nach beiden Argumenten, und Ii (t) seien Ito-Prozesse mit di Ii (t) = µi (t) dt + σi (t) dW (t) ,
i = 1, 2 .
Dann gilt dg (I1 (t), I2 (t)) = g1 (I1 (t), I2 (t)) dI1 (t) + g2 (I1 (t), I2 (t)) dI2 (t) 1 1 + g11 (I1 (t), I2 (t)) σ12 (t) dt + g22 (I1 (t), I2 (t)) σ22 (t) dt 2 2 + g12 (I1 (t), I2 (t)) σ1 (t) σ2 (t) dt .
Dieser Satz beschert uns nun sofort eine Art “stochastifizierter Produktregel” f¨ ur I1 (t) I2 (t) mit g(x1 , x2 ) = x1 x2 : d(I1 (t) I2 (t)) = I1 (t) dI2 (t) + I2 (t) dI1 (t) + σ1 (t) σ2 (t) dt .
(3.1)
H¨aufig ist es von Interesse, wiederum einen Spezialfall von Itos Lemma zu betrachten. F¨ ur µ1 (t) = 1 und σ1 (t) = 0 erhalten wir mit I1 (t) = t folgenden Satz.
26
Itˆ os Lemma 3 Es sei g : [0, T ] × R → R zweimal stetig differenzierbar nach beiden Argumenten und I(t) ein Ito-Prozess mit dI(t) = µ(t) dt + σ(t) dW (t) . Dann gilt dg (t, I(t)) = g1 (t, I(t)) dt + g2 (t, I(t)) dI(t) +
1 g22 (t, I(t)) σ 2 (t) dt . 2
F¨ ur g(t, x) = t x folgt damit beispielsweise Korollar 3.2 b).
3.5
Ornstein-Uhlenbeck-Prozesse
Wir definieren hier den Ornstein-Uhlenbeck-Prozess (OUP) mit Startwert Xc (0) = 0 f¨ ur beliebiges reelles c als stochastisches Integral, Z t ct Xc (t) := e e−cs dW (s) . 0
F¨ ur c = 0 erh¨alt man den Wiener-Prozess, X0 (t) = W (t). Genauer gesagt handelt es sich um den Standard-OUP; eine Verallgemeinerung wird uns im n¨achsten Kapitel als Modell f¨ ur Zinsdynamik begegnen. Der OUP . . . uckt werden, a) . . . kann auch durch ein Riemann-Integral ausgedr¨ b) . . . ist ein normalverteilter Prozess, dessen Varianz f¨ ur c < 0 gegen einen festen Wert strebt, c) . . . l¨ost eine stochastische Differentialgleichung, aufgrund welcher er als stetiges Pendant zum zeitdiskreten autoregressiven Prozess gesehen werden kann, d) . . . l¨asst eine Verallgemeinerung von Satz 3.4 zu, e) . . . weist f¨ ur c < 0 eine Autokovarianzfunktion zwischen zwei Zeitpunkten r und u auf, r ≤ u, die n¨aherungsweise nur von der Differenz u − r und nicht von den Zeitpunkten r und u selbst abh¨angt. 27
Satz 3.7 (Ornstein-Uhlenbeck-Prozess) F¨ ur obigen Ornstein-Uhlenbeck-Prozess gilt: Z t ct a) Xc (t) = W (t) + c e e−cs W (s) ds , 0 2ct
b) Xc (t) ∼ N (0, (e
− 1)/2c) ,
c) dXc (t) = c Xc (t) dt + dW (t) , Z t Z t ¢ 1 ¡ 2 d) Xc (s) dW (s) = Xc (t) − t − c Xc2 (s) ds , 2 0 0 ¢ ec(r+u) ¡ 1 − e−2c min(r,u) . e) E(Xc (r) Xc (u)) = 2c
Der Beweis von Satz 3.7 kann genutzt werden, um die Highlights dieses Kapitels Revue passieren zu lassen. Die Aussagen aus a) und b) beweisen wir mit Hilfe von Satz 3.2 bzw. 3.3; speziell a) kann auch mit Itos Lemma 3 f¨ ur g(t, W (t)) = e−ct W (t) gezeigt werden. Rt Auch die Aussage c) folgt aus Itˆos Lemma 3 f¨ ur I(t) = 0 e−cs dW (s) und g(t, I(t)) = ect I(t). Itos Lemma 1 mit g(Xc (t)) = 21 Xc2 (t) beweist d). M¨ uhsam dagegen ist der Beweis von e), der sich mit Satz 3.7 a) und aufw¨andigen Nebenrechnungen bewerkstelligen l¨asst. Man beachte, dass auch b) und e) f¨ ur c → 0 die bekannten Ergebnisse bei WienerProzessen (c = 0) reproduzieren.
28
Kapitel 4 Lineare stochastische Differentialgleichungen Im ersten Abschnitt wird eine stochastische Erweiterung einer linearen Differentialgleichung erster Ordnung mit variablen Koeffizienten definiert. Der dadurch gegebene Prozess f¨allt in die Klasse sogenannter Diffusionen. Dann werden Spezialf¨alle davon mit Hilfe von Itos Lemma gel¨ost, insbesondere der Fall einer homogenen Gleichung. Auf dieser homogenen L¨osung basiert die allgemeine L¨osung, die wir im dritten Abschnitt wiederum aus Itos Lemma erhalten. Danach wenden wir uns den Erwartungswert- und Varianzfunktionen dieser L¨osungen zu. Mit dem gewonnenen Instrumentarium werden im f¨ unften Abschnitt die Aktienkurs- und Zinsmodelle aus der Einleitung bearbeitet. Dann h¨angen wir noch einen Abschnitt u ur die Zinsmodellierung dran und geben ¨ber eine nicht-lineare SDG f¨ an, unter welchen Bedingungen die Existenz einer L¨osung und ihrer Momente u ¨berhaupt garantiert ist.
4.1
Lineare Differentialgleichungen mit variablen Koeffizienten
Diffusionsprozesse
29
Als Ito-Prozess hatten wir die L¨osung von dI(t) = µ(t) dt + σ(t) dW (t) definiert, wobei µ(t) und σ(t) von W (s), s ≤ t, abh¨angen d¨ urfen. Wir schr¨anken diese Allgemeinheit nun etwas ein: µ und σ d¨ urfen nur von t und dem Niveau des Prozesses selbst abh¨angen: dX(t) = µ(t, X(t)) dt + σ(t, X(t)) dW (t) . Die L¨osungen solcher Differentialgleichungen, Z t Z t X(t) = X(0) + µ(s, X(s)) ds + σ(s, X(s)) dW (s) , 0
0
nennt man auch Diffusionsprozesse. Um analytische L¨osungen angeben zu k¨onnen, schr¨anken wir die Allgemeinheit noch weiter ein und betrachten nur lineare Differentialgleichungen: dX(t) = (c1 (t) X(t) + c2 (t)) dt + (σ1 (t) X(t) + σ2 (t)) dW (t) ,
t ≥ 0,
(4.1)
wobei ci (t) und σi (t), i = 1, 2, stetige deterministische Funktionen der Zeit sind. Unter dieser Annahme ist die Existenz einer eindeutigen L¨osung von (4.1) garantiert. Deterministische Differentialgleichungen Indem wir in (4.1) σ1 (t) = σ2 (t) = 0 setzen, erhalten wir eine deterministische lineare Differentialgleichung erster Ordnung, dx(t) = (c1 (t) x(t) + c2 (t)) dt ,
t ≥ 0,
(4.2)
oder auch x(t) ˙ = c1 (t) x(t) + c2 (t) . Bekanntlich lautet die L¨osung ·
Z
t
x(t) = z(t) x(0) + 0
mit
½Z
¸ c2 (s) ds , z(s) ¾
t
z(t) = exp
c1 (s) ds
.
0
F¨ ur c2 (t) = 0 erh¨alt man aus (4.2) die zugeh¨orige homogene Differentialgleichung, dx(t) = c1 (t) x(t) dt , 30
(4.3)
welche offenbar gerade z(t) als L¨osung hat: ½Z
t
x(t) = x(0) z(t) = x(0) exp
¾ c1 (s) ds .
(4.4)
0
Im folgenden werden wir sehen, dass die L¨osung der deterministischen Gleichung in die der stochastischen f¨ ur σ1 (t) = σ2 (t) = 0 eingebettet ist
4.2
Spezialf¨ alle
Homogene SDG F¨ ur c2 (t) = σ2 (t) = 0 erh¨alt man aus (4.1) die zugeh¨orige homogene lineare Gleichung, dX(t) = c1 (t) X(t) dt + σ1 (t)X(t) dW (t) .
(4.5)
Wir unterstellen einen von Null verschiedenen Startwert, X(0) 6= 0. Dann kann o.B.d.A. auf X(0) = 1 normiert werden. Da wir wegen (4.4) einen exponentiellen Verlauf erwarten, gehen wir u ¨berdies von X(t) > 0 aus. Nun wird Itos Lemma 1 auf g(X(t)) = ln(X(t)) angewandt. So erhalten wir als L¨osung von (4.5) ¶ ¾ ½Z t µ Z t 1 2 σ1 (s) dW (s) , X(t) = exp c1 (s) − σ1 (s) ds + 2 0 0
(4.6)
mit X(0) = 1, bzw. ½Z t µ X(t) = X(0) exp 0
¶ ¾ Z t 1 2 σ1 (s) dW (s) . c1 (s) − σ1 (s) ds + 2 0
F¨ ur σ1 (t) = 0 wird also gerade die deterministische L¨osung aus (4.4) reproduziert. Man beachte, dass ln(X(t)) aus (4.6) wegen Satz 3.3 normalverteilt ist. Inhomogene SDG mit additivem Rauschen F¨ ur c2 (t) 6= 0 ist die SDG inhomogen. Gleichzeitig sollen aber die Zuw¨achse des WienerProzesses (”Rauschen”) nur additiv in (4.1) eingehen, d.h. σ1 (t) = 0 : dX(t) = (c1 (t) X(t) + c2 (t)) dt + σ2 (t) dW (t) . Um die L¨osung zu bestimmen, ziehen wir Itos Lemma 3 heran mit g(z(t), X(t)) = 31
X(t) , z(t)
(4.7)
wobei z(t), genau wie im deterministischen Fall, definiert ist als ½Z t ¾ z(t) = exp c1 (s) ds . 0
Damit ergibt sich die L¨osung als · Z X(t) = z(t) X(0) +
t 0
c2 (s) ds + z(s)
Z
t 0
¸ σ2 (s) dW (s) . z(s)
(4.8)
Man beachte, dass X(t) selbst wegen Satz 3.3 ein normalverteilter Prozess ist! Seinen Momenten wenden wir uns sp¨ater zu. Inhomogen mit 2 unabh¨ angigen Rausch-Prozessen Es seien nun W1 (t) und W2 (t) zwei stochastisch unabh¨angige Wiener-Prozesse. Dann ist W (t) :=
σ1 W1 (t) + σ2 W2 (t) √ , σ2
σ 2 := σ12 + σ22 ,
ein weiterer Wiener-Prozess. Es wird nun σ W (t) in (4.7) substituiert: dX(t) = (c1 (t) X(t) + c2 (t)) dt + σ dW (t) = (c1 (t) X(t) + c2 (t)) dt + σ1 dW1 (t) + σ2 dW2 (t) . Wegen (4.8) ergibt sich als L¨osung von (4.9) · ¸ Z t Z t Z t c2 (s) σ1 σ2 X(t) = z(t) X(0) + ds + dW1 (s) + dW2 (s) , 0 z(s) 0 z(s) 0 z(s)
(4.9)
(4.10)
wobei z(t) wie in (4.8) definiert ist. Hier wird also X(t) von zwei unabh¨angigen WienerProzessen getrieben (Zwei-Faktoren-Modell). Die Verallgemeinerung f¨ ur mehr als zwei Prozesse ist offensichtlich.
4.3
Allgemeine L¨ osung
F¨ ur die L¨osung der allgemeinen linearen Gleichung (4.1) erwarten wir eine ¨ahnliche Struktur wie in (4.3), d.h. es ist mit der homogenen L¨osung als multiplikativem Faktor zu rechnen. Definieren wir also Z(t) als homogene L¨osung (mit Startwert 1). Sie lautet, wie wir aus (4.6) wissen: ½Z t µ Z(t) := exp 0
¶ ¾ Z t 1 2 c1 (s) − σ1 (s) ds + σ1 (s) dW (s) , 2 0 32
d.h. sie ist gegeben durch das Differential dZ(t) = c1 (t) Z(t) dt + σ1 (t)Z(t) dW (t) . Dar¨ uber hinaus betrachten wir die beiden Hilfsgr¨oßen X1 (t) := Z −1 (t) ,
X2 (t) := X(t) ,
wobei X(t) eben der durch (4.1) definierte Prozess ist. Als ersten Schritt benutzen wir Itos Lemma 1, um das Differential f¨ ur X1 (t) mit g(z) = z −1 zu bestimmen: ¡ ¢ dX1 (t) = X1 (t) σ12 (t) − c1 (t) dt − σ1 (t) X1 (t) dW (t) . In einem zweiten Schritt l¨asst sich nun die ”stochastifizierte Produktregel“ (siehe Itos Lemma 2) auf die Hilfsgr¨oßen anwenden: X1 (t) X2 (t) =
X(t) . Z(t)
Daraus folgt µ d
X(t) Z(t)
¶ = (c2 (t) − σ1 (t) σ2 (t)) Z −1 (t) dt + σ2 (t) Z −1 (t) dW (t) .
Daher lautet die L¨osung von (4.1) ¸ · Z t Z t σ2 (s) c2 (s) − σ1 (s)σ2 (s) ds + dW (s) X(t) = Z(t) X(0) + Z(s) 0 0 Z(s)
(4.11)
mit der homogenen L¨osung ½Z t µ ¶ ¾ Z t 1 2 Z(t) = exp c1 (s) − σ1 (s) ds + σ1 (s) dW (s) . 2 0 0 F¨ ur σ1 (t) = σ2 (t) = 0 erhalten wir wieder das bekannte Ergebnis einer deterministischen Differentialgleichung, vgl. (4.3).
4.4
Ewartungswert und Varianz
Allgemein 33
Der durch (4.1) definierte Prozess lautet in Integralschreibweise Z t Z t X(t) = X(0) + (c1 (s) X(s) + c2 (s)) ds + (σ1 (s) X(s) + σ2 (s)) dW (s) . 0
0
Definieren wir die Erwartungswertfunktion als µ1 (t) := E(X(t)) , so gilt wegen Satz 3.0 (Fubini), 3.3 bzw. 3.5: Z t µ1 (t) = µ1 (0) + (c1 (s) µ1 (s) + c2 (s)) ds . 0
Dies entspricht genau der deterministischen Gleichung (4.2)! Also ist die L¨osung aus (4.3) bekannt: ·
Z
t
µ1 (t) = z(t) µ1 (0) + 0
¸ c2 (s) ds , z(s)
½Z
t
z(t) = exp
¾ c1 (s)ds .
(4.12)
0
Die Varianz basiert auf dem 2. Moment, µ2 (t) := E(X 2 (t)) . Zur Bestimmung wenden wir Itos Lemma 1 auf X 2 (t) an: Z t £ ¤ 2 2 X (t) = X (0) + 2 X(s) (c1 (s) X(s) + c2 (s)) + (σ1 (s) X(s) + σ2 (s))2 ds 0 Z t + 2 X(s) (σ1 (s) X(s) + σ2 (s)) dW (s) . 0
Die bekannten S¨atze aus Kapitel 3 f¨ uhren damit auf Z t £¡ ¢ ¤ 2 c1 (s) + σ12 (s) µ2 (s) + 2 (c2 (s) + σ1 (s) σ2 (s)) µ1 (s) + σ22 (s) ds µ2 (t) = 0
+ µ2 (0) .
(4.13)
Spezialf¨ alle F¨ ur die homogene SDG (c2 (t) = σ2 (t) = 0) ergeben (4.12) und (4.13): ½Z t ¾ µ1 (t) = exp c1 (s) ds µ1 (0) , 0
Z
t
µ2 (t) = µ2 (0) + 0
¡
¢ 2 c1 (s) + σ12 (s) µ2 (s) ds . 34
(4.14)
Das zweite Moment ist hier also durch eine deterministische homogene Differentialgleichung gegeben. Die L¨osung lautet wegen (4.4): ¾ ½Z t ¡ ¢ 2 2 c1 (s) + σ1 (s) ds . µ2 (t) = µ2 (0) exp
(4.15)
0
Der zweite Spezialfall ist die inhomogene Gleichung mit additivem Rauschen (σ1 (t) = 0). Hier haben wir f¨ ur die L¨osung erhalten · Z X(t) = z(t) X(0) +
t 0
c2 (s) ds + z(s)
Z
t 0
¸ σ2 (s) dW (s) , z(s)
wobei z(t) deterministisch ist. F¨ ur einen festen Startwert X(0) liefert daher Satz 3.3 neben der Normalit¨at die Momente · Z µ1 (t) = z(t) X(0) +
t 0
¸ c2 (s) ds , z(s) 2
Z tµ
Var(X(t)) = z (t) 0
4.5
½Z
t
z(t) = exp
¾ c1 (s) ds ,
(4.16)
0
σ2 (s) z(s)
¶2 ds .
(4.17)
Beispiele
Wir greifen nun als Beispiele das Aktienkurs- und Zinsmodell aus der Einf¨ uhrng auf. Aktienkurs Der Aktienkurs X(t) entwickle sich gem¨aß einer homogenen SDG mit konstanten Koeffizienten und Startwert Eins: dX(t) = c1 X(t) dt + σ1 X(t) dW (t) . Als L¨osung ergibt sich eine geometrische Brownsche Bewegung mit Drift, ½µ ¶ ¾ 1 2 X(t) = exp c1 − σ1 t + σ1 W (t) . 2 Diesen Prozess hatten wir schon in Abschnitt 2.4 diskutiert. Mit den nun allgemein abgeleiteten Formeln k¨onnen wir die Moment-Funktionen aus Abschnitt 2.4 jetzt nachpr¨ ufen. Es liefern (4.14) und (4.15) µ1 (t) = exp (c1 t) , 35
µ2 (t) = exp und damit
©¡
¢ ª 2 c1 + σ12 t ,
¡ ¡ ¢ ¢ Var(X(t)) = exp (2 c1 t) exp σ12 − 1 .
Zins Die Zinsdynamik wird bei Vasicek (1977) wie folgt modelliert, dX(t) = c1 (X(t) − µ) dt + σ2 dW (t) ,
d.h. c2 = −c1 µ .
Die L¨osung dieser SDG mit additivem Rauschen wird als Ornstein-Uhlenbeck-Prozess bezeichnet:
· c1 t
X(t) = e
¡
−c1 t
X(0) + µ e
¢ −1 +
Z
t
−c1 s
σ2 e
¸ dW (s) ;
0
speziell f¨ ur µ = 0 und σ2 = 1 erhalten wir den aus Abschnitt 3.5 bekannten StandardOUP. Aus (4.16) und (4.17) lesen wir f¨ ur einen festen Startwert X(0) ab: ¡ ¢ µ1 (t) = ec1 t X(0) + µ 1 − ec1 t , Var(X(t)) =
¢ σ22 ¡ 1 − e 2 c1 t . −2 c1
F¨ ur c1 < 0 streben die Momente gegen einen festen Wert und der Prozess kann als asymptotisch station¨ar aufgefasst werden: µ1 (t) → µ f¨ ur c1 < 0 , Var(X(t)) →
σ22 f¨ ur c1 < 0 , −2 c1
wobei die Asymptotik f¨ ur t → ∞ gilt. Prozesse mit dieser Eigenschaft heißen auch “meanreverting”. Dennoch ist der OUP nur bedingt tauglich f¨ ur die Zinsmodellierung: Bedenken Sie, dass diese Prozesse mit positiver Wahrscheinlichkeit negative Werte annimmt!
4.6
Quadratwurzelprozess von Cox/Ingersoll/Ross
Eine nicht-lineare SDG
36
Die Driftkomponente der von Cox, Ingersoll und Ross (1985) verwandten Zinsdynamik stimmt mit dem OUP u ¨berein, dX(t) = c1 (X(t) − µ) dt + σ
p
X(t) dW (t) ,
µ > 0 , c1 < 0 ,
(4.18)
doch die Volatilit¨at wird als Quadratwurzelprozess modelliert. Es handelt sich also um eine nicht-lineare SDG. Man kann formal zeigen, was auch anschaulich klar ist: Nimmt X(t) (ausgehend von einem positiven Startwert X(0) > 0) den Wert Null an, so wird auch die Varianz Null, aber die Ver¨anderung dX(t) erh¨alt einen positiven Impuls, so dass der Prozess f¨ ur µ > 0 an der Nulllinie gerade reflektiert wird. Insofern u ¨berwindet der Quadratwurzelprozess also die Schw¨ache des OUP als Zinsmodell. Allerdings ist keine analytische Darstellung mehr der L¨osung von (4.18) bekannt. Unterstellen wir f¨ ur das folgende aus Gr¨ unden der Einfachheit einen festen Startwert, der mit µ u ¨bereinstimmt: X(0) = µ. Dann erhalten wir, genau wie bei OUP, im Mittel ¡ ¢ µ1 (t) = E(X(t)) = ec1 t X(0) + µ 1 − ec1 t = µ . F¨ ur das zweite Moment ergibt sich unter unserer Startwertannahme µ2 (t) = µ2 −
σ2 µ (1 − e2 c1 t ) , 2 c1
woraus f¨ ur die Varianz sofort folgt Var(X(t)) =
σ2 µ σ2 µ (1 − e2 c1 t ) → . −2 c1 −2 c1
Die asymptotische Varianz f¨ ur t → ∞ stimmt also mit der des OUPes u ¨berein, wenn µ = 1 ist; f¨ ur µ < 1 f¨allt sie kleiner aus (weil der Prozess an der Nulllinie reflektiert wird und daher in einem schmalen Band variiert), w¨ahrend sie f¨ ur µ > 1 offensichtlich gr¨oßer ist. Auch der Grenzfall µ = 0 macht Sinn: Hier ist die asymptotische Varianz Null, weil der Prozess fr¨ uher oder sp¨ater von der Nulllinie absorbiert wird. Existenzbedingungen Bislang haben wir munter drauf los gerechnet, ohne uns darum zu k¨ ummern, ob L¨osungen der SDGen u ¨berhaupt existieren, und wenn ja, ob sie endliche Momente haben. Deshalb nun ein kleiner Nachtrag. 37
Betrachten wir den allgemeinen Fall einer Diffusionsgleichung: dX(t) = µ(t, X(t)) dt + σ(t, X(t)) dW (t) ,
t ∈ [0, T ] .
(4.19)
Die erste Annahme fordert, dass µ und σ in dem Argument x (d.h. X(t)) einer LipschitzBedingung gen¨ ugen. Wir kaschieren sie etwas, indem wir die daf¨ ur hinreichende stetige Differenzierbarkeit fordern. (E1) Die partiellen Ableitungen von µ und σ nach x existieren und sind stetig. Zweitens fordern wir eine lineare Beschr¨ankung des Wachstums: (E2) Es existiert eine Konstante K mit |µ(t, x)| + |σ(t, x)| ≤ K (1 + |x|) . Und schließlich ben¨otigen wir einen wohldefinierten Startwert. Dieser darf stochastisch sein: (E3) X(0) ist unabh¨angig von W (t) mit E(X 2 (0)) < ∞. Unter den Annahmen (E1) bis (E3) gilt: (4.19) hat eine eindeutige L¨osung1 mit stetigen Pfaden und E(X 2 (t)) < ∞. Die Annahme (E3) k¨onnen wir immer erschlagen, indem wir von einem festen Startwert ausgehen. Konzentrieren wir uns kurz auf den Fall linearer SDGen. Dann sind die partiellen Ableitungen aus (E1) konstant (in x) und mithin stetig. Man beachte, dass (4.19) nur f¨ ur ein endliches Intervall definiert ist. Sind also µ und σ stetig in t, so ist, wieder im linearen Fall, die Wachstumsbeschr¨ankung aus (E2) erf¨ ullt. Schon f¨ ur den einfachen Quadratwurzelprozess aus (4.18) mit σ(t, x) = σ
√
x ist (E1)
nicht mehr erf¨ ullt, weil die Ableitung an der Stelle 0 nicht stetig ist. Zum Gl¨ uck gibt es schw¨achere Bedingungen, die die Existenz einer L¨osung von (4.18) garantieren - allerdings nicht mehr die Endlichkeit der ersten beiden Momente gew¨ahrleisten, so dass an dieser ¨ Stelle zus¨atzliche Uberlegungen erforderlich sind. Abschließend sei darauf hingewiesen, dass sich L¨osungen von SDGen im allgemeinen einfach simulieren und also veranschlaulichen lassen, auch keine analytische Darstellung m¨oglich ist. 1
In der Literatur unterscheidet man zwischen “starken” und “schwachen” L¨osungen; wir reden hier
von einer starken L¨osung, bei der X(t) explizit als Funktion von t und W (t) existiert.
38
Kapitel 5 Konvergenz gegen stochastische Integrale Ziel dieses Kapitels ist es, einige der asymptotischen Verteilungen der modernen Zeitreihen¨okonometrie zu verstehen. Wir beginnen relativ abstrakt und versuchen darzustellen, welche mathematischen H¨ urden man nehmen muss, um zu einer funktionalen Grenzwerttheorie zu gelangen. Im zweiten Abschnitt setzen wir dann die mathematischen Probleme als gel¨ost voraus und lernen die Grundbausteine funktionaler Grenzwerttheorie kennen. Diese werden dann im dritten Abschnitt auf einige ausgew¨ahlte Sch¨atz- und Testprobleme bei univariaten Zeitreihenmodellen angewandt. Ein eigener Abschnitt ist der Konvergenz gegen Ito-Integrale gewidmet. Damit gewappnet wenden wir uns abschließend der Asymptotik von Regressionen integrierter Zeitreihen aufeinander (z.B. Kointegration) zu.
5.1
Schwache Konvergenz von Funktionen
Metrische Funktionenr¨ aume Erinnern wir uns an die stochastische Treppenfunktion aus Abschnitt 2: √1 Pi−1 ε , t ∈ £ i−1 , i ¢ , i = 1, 2, . . . , T j=1 j T T σ T XT (t) = P T √1 j=1 εj , t = 1 , σ T
39
die auch k¨ urzer geschrieben werden kann als [t T ] T −0.5 X XT (t) = εj , σ j=1
t ∈ [0, 1] .
eT als die Funktion, die mit XT (t) an den Intervalluntergrenzen Außerdem definieren wir X u ¨bereinstimmt, aber auf den Intervallen nicht konstant ist, sondern linear variiert: ¶ µ i−1 T −0.5 X i−1 ε e √i . XT (t) = εj + T t − σ j=1 T σ T eT eine auf [0, 1] stetige Funktion, wof¨ Konstruktionsgem¨aß ist X ur wir auch schreiben eT ∈ C [0, 1] . X Dagegen ist XT nur rechtsstetig und weist (hebbare) Unstetigkeitsstellen der ersten Art (d.h. Sprungstellen) auf. Diese Menge sogenanter cadlag-Funktionen wird mit D [0, 1] bezeichnet: XT ∈ D [0, 1] . eT gegen einen Wiener-Prozess konvergieren. Wir wollen nun, dass sowohl XT als auch X Dazu brauchen wir ein Abtandsmaß, eine Metrik. Metrischer Raum: Es sei M eine beliebige Menge und d eine Metrik, d : M × M → R+ 0 , die zwei Elementen aus M eine nicht-negative Zahl zuordnet. Dann heißt M versehen mit d, (M, d), metrischer Raum. Speziell C [0, 1] oder D [0, 1] versehen wir gern mit der Supremumsmetrik (auch: uniforme Metrik): ds (f, g) := sup |f (t) − g(t)| ,
f, g ∈ D [0, 1] .
0≤t≤1
Da aber XT und W stochastische Funktionen sind, kann eine Konvergenz von XT gegen W nicht einfach auf ds (XT , W ) basieren. Stetige Funktionale Die Abbildung h ordne f ∈ D [0, 1] eine reelle Zahl zu, h : D [0, 1] → R . 40
Da das Argument von h eine Funktion ist, spricht man h¨aufig auch von Funktionalen. ¨ Folgende Funktionale begegnen uns in der Okonometrie oft: Z 1 h1 (f ) = f (t) dt , 0 Z 1 h2 (f ) = f 2 (t) dt , 0
h3 (f ) = R 1 0
1 f 2 (t) dt
.
Es sei (M, d) ein metrischer Raum. Dann heißt die Abbildung h, h: M → R, stetig bez¨ uglich d, falls f¨ ur alle x, y ∈ M gilt |h(x) − h(y)| → 0 f¨ ur d(x, y) → 0 ; oder: falls zu jedem ε > 0 ein δ > 0 eixistiert mit |h(x) − h(y)| < ε f¨ ur d(x, y) < δ . Obige Funktionale h1 , h2 und h3 sind stetig auf D [0, 1] bez¨ uglich der Supremumsmetrik. Schwache Konvergenz Es sei M eine Menge stochastischer Elemente und d eine Metrik. Man sagt: xn ∈ M , n ∈ N, konvergiert schwach gegen x ∈ M f¨ ur n → ∞, xn ⇒ x , falls lim E(h(xn )) = E(h(x))
n→∞
gilt f¨ ur alle reellwertigen Abbildungen h, die beschr¨ankt und stetig bez¨ uglich d sind. Um schwache Konvergenz in termini von Wahrscheinlichkeiten interpretieren zu k¨onnen, betrachten wir die Indikatorfunktion Ia f¨ ur beliebiges reelles a: 1, x ≤ a Ia (x) := I(−∞,a] (x) = . 0, x > a 41
Die Indikatorfunktion kann durch Linearisierung auf [a, a + ε] f¨ ur beliebig kleines ε > 0 stetig approximiert werden durch 1, Iea (x) := 1− 0,
x≤a x−a ε
, a≤x≤a+ε . x≥a+ε
Mit Iea approximieren wir Ia beliebig genau. W¨ahlen wir zuerst M = C [0, 1] . Dann gilt f¨ ur stetige Prozesse Xn (t) und X(t) : h i e P(Xn (t) ≤ a) = E [Ia (Xn (t))] ≈ E Ia (Xn (t)) , h i P(X(t) ≤ a) = E [Ia (X(t))] ≈ E Iea (X(t)) . F¨ ur das stetige beschr¨ankte Funktional h = Iea gilt also f¨ ur beliebiges a ∈ R bei schwacher Konvergenz von Xn (t) gegen X(t) : P(Xn (t) ≤ a) ≈ P(X(t) ≤ a) . Bezeichnet M die Menge reeller Zufallsvariablen und gilt Xn ⇒ X, so zeigt dasselbe Argument f¨ ur die Verteilungsfunktionen: Fn (a) := P(Xn ≤ a) ≈ P(X ≤ a) ≈ F (a) , d
d.h. schwache Konvergenz von Zufallsvariablen impliziert Konvergenz in Verteilung, Xn → X. Die Umkehrung gilt auch! Bei Zufallsvariablen ist schwache Konvergenz gleichbedeutend mit Konvergenz in Verteilung. Um die nachfolgende Grenzwerttheorie zu begr¨ unden, kann man zwei Wege einschlagen: eT (t) ∈ C[0, 1] mit der einfachen Supremumsnorm; f¨ 1) Behandlung von X ur uns Anwender eT (t) − XT (t). hat dies den Nachteil des unpraktischen “Stetigkeitszipfels” X 2) Behandlung der f¨ ur die Anwendung handlicheren cadlag-Funktion XT (t); dies erfordert jedoch eine kompliziertere Metrik und Zusatz¨ uberlegungen, was uns hier aber nicht k¨ ummern muss.
42
5.2
Funktionale Grenzwerttheorie
Interessiert sind wir an der stochastischen Treppenfunktion (Partialsummenprozess) [s T ] T −0.5 X XT (s) = ej , ω j=1
s ∈ [0, 1] ,
(5.1)
wobei ω gleich definiert wird und et nicht unbedingt ein reiner Zufallsprozess sein muss. Lineare Prozesse (integriert der Ordnung Null) Wir definieren den zeitdiskreten Prozess et als linear in Verz¨ogerungen weißen Rauschens, et =
∞ X
cj εt−j ,
c0 = 1 , t = 1, . . . , T ,
(5.2)
j=0
mit
∞ X
j |cj | < ∞ und εt ∼ iid(0, σ 2 ) ,
j=0
und1
à ∞ !2 X ω 2 := cj σ2 > 0 .
(5.3)
j=0 2
Der Parameter ω heißt auch Langfristvarianz (und ist gleich der Spektraldichte an der Frequenz Null); dass der Wert endlich ist, folgt aus der Summierbarkeitbedingung. (Die zus¨atzliche Forderung ω 2 > 0 bedeutet gerade, dass et integriert der Ordnung Null ist.) Er kann durch die Autokovarianzen, γe (h) := E(et , et+h ) ,
E(et ) = 0 ,
des station¨aren Prozesses et ausgedr¨ uckt werden: ω 2 = γe (0) + 2
∞ X
γe (h) .
h=1
Die zentralen Ergebnisse Der erste Baustein besteht aus dem funktionalen zentralen Grenzwertsatz (FZGS). 1
Alle station¨aren und invertierbaren ARMA-Prozesse erf¨ ullen diese Annahmen.
43
Satz 5.1 (FZGS) F¨ ur XT (s) aus (5.1) mit et aus (5.2) gilt f¨ ur T → ∞ [s T ] T −0.5 X XT (s) = ej ⇒ W (s) , ω j=1
s ∈ [0, 1] ,
wobei ω > 0 aus (5.3) ist.
Speziell f¨ ur et = εt erh¨alt man Donskers Theorem (Donsker, 1951, Memoirs of the American Mathematical Society). Den zweite Baustein stellt der Satz u ¨ber stetige Abbildungen dar (eigentlich: u ¨ber Abbildungen, die nur auf “verschwindenden Mengen” unstetig sind).
Satz 5.2 (Stetige Abbildungen) Unter den Annahmen von Satz 5.1 gilt h(XT (s)) ⇒ h(W (s)) , wenn das Funktional h, h: D [0, 1] → R, mit Wahrscheinlichkeit Eins stetig ist.
Anmerkung: Das Funktional h muss messbar sein und darf Unstetigkeitsstellen auf Mengen mit Maß Null haben. Erste Folgerungen Folgender Satz versammelt einige Folgerungen, die von unmittelbarer Anwendungsrelevanz sind. Es soll auf jeden Fall der Beweis gerechnet werden, um zu verstehen, warum welche Potenzen von T bei der Normalisierung der Summen auftauchen.
Satz 5.3 (Einige Funktionale) Es sei xt = xt−1 + et mit x0 = 0, t = 1, . . . , T, d.h. xt =
t X j=1
44
ej ,
wobei et aus (5.2) integriert der Ordnung Null sei. Dann gilt f¨ ur T → ∞ : 3
a) T − 2
PT
t=1 xt−1 3 PT b) T − 2 t=1 tet 5 P c) T − 2 Tt=1 t xt−1 P T] d) T −0.5 [s t=1 (et − e) P e) T −2 Tt=1 x2t−1 P f ) T −1 Tt=1 xt−1 et
d
R1
d
R1
d
R1
→ ω → ω → ω
0
W (s) ds ,
0
s dW (s) ,
0
s W (s) ds ,
⇒ ω (W (s) − s W (1)) , e = R1 d → ω 2 0 W 2 (s) ds , ³ ´ 2 d → ω2 W 2 (1) − γeω(0) , 2
1 T
PT
t=1 et
,
mit γe (0) = V ar(et ) und ω aus (5.3).
Anm. 1: Ist et weißes Rauschen, so erhalten wir mit Satz 3.4 in f): T
−1
T X
Z d
xt−1 et → ω
1
2
W (s) dW (s) . 0
t=1
Anm. 2: Aus a) ergibt sich sofort T
−0.5
x=T
− 32
T X
Z
1
d
xt → ω
W (s) ds . 0
t=1
Also gilt f¨ ur xt nach Mittelwertbereinigung folgender FZGS: Z 1 x[s T ] − x √ ⇒ W (s) − W (r) dr , ω T 0 wobei
Z
1
W (s) := W (s) −
W (r) dr 0
auch mittelwertbereinigter Wiener-Prozess heißt. Anm. 3: Der Grenzprozess in d) ist eine Brownsche Br¨ ucke mit W (1) − 1 W (1) = 0 f¨ ur s = 1, was gerade T X
(et − e) = 0
t=1
entspricht.
45
5.3
Trendregression und Integrationstests
Wir betrachten vier Anwendungen von Satz 5.3. Trendbereinigung einer I(0)-Reihe Modell: yt = β t + et ,
t = 1, . . . , T ,
mit Kleinst-Quadrate(KQ)-Sch¨atzer PT t et b β − β = Pt=1 , T 2 t t=1 Dann folgt T
1.5
T X
t2 =
t=1
(βb − β) d → 3 ω b
T (T + 1) (2T + 1) . 6
Z
1
s dW (s) , 0
wobei ω b ein konsistenter Sch¨atzer f¨ ur ω ist, der auf den KQ-Residuen ebt = yt − βb t basiert: T −h 1X γ be (h) = ebt ebt+h . T t=1
Aus Korollar 3.2 wissen wir Z
µ
1
s dW (s) ∼ N 0
1 0, 3
¶ .
Trendbereinigung einer I(1)-Reihe Modell: y t = β t + xt , mit
t = 1, . . . , T ,
PT t xt b . β − β = Pt=1 T 2 t=1 t
Dann folgt T
b − β)
0.5 (β
ω b
Z
1
d
→ 3
s W (s) ds , 0
wobei ω b konsistent f¨ ur ω ist und den Differenzen der KQ-Residuen konstruiert wird. Aus Korollar 3.1 wissen wir
Z
µ
1
s W (s) ds ∼ N 0
46
2 0, 15
¶ .
KPSS-Test auf Stationarit¨ at Modell: yt = xt + et ,
t = 1, . . . , T ,
mit den Hypothesen H0 : xt = c = konstant H1 : xt ist ein Random Walk. (Eigentlich handelt es sich um einen Test auf Parameterkonstanz.) Regressiere unter H0 : yt = b c+u bt ,
b c = y,
u bt = yt − y = et − e . Bilde Partialsumme St :=
t X
u bj .
j=1
F¨ ur die Teststatistik, T T −2 X 2 KPSS = 2 S ω b t=1 t
gilt unter H0 :
Z
1
d
KPSS →
(W (s) − s W (1))2 ds ,
0 2
wobei ω konsistent aus u bt gesch¨atzt wurde. Kritische Werte der Grenzverteilung (Cram´ervan-Mises-Verteilung) sind tabelliert. Dickey-Fuller-Test auf Integriertheit Modell xt = φ xt−1 + εt ,
t = 1, . . . , T ,
mit der Nullhypothese H0 : φ = 1 ,
xt ist ein Random Walk.
F¨ ur den KQ-Sch¨atzer φb ergibt sich unter H0 W 2 (1) − 1 T (φb − 1) → R 1 = 2 0 W 2 (s) ds d
47
R1
W (s) dW (s) =: DF . R1 2 (s) ds W 0
0
Im Fall einer Regression mit Konstante, xt = α b + φbc xt−1 + εbt ,
t = 1, . . . , T ,
ergibt sich die Grenzverteilung in termini eines mittelwertbereinigten Wiener-Prozesses: R1 R1 W (s) dW (s) − W (1) W (s) ds d 0 T (φbc − 1) → 0 R =: DF . ³R ´2 1 1 2 (s) ds − W W (s) ds 0 0
5.4
Konvergenz gegen Ito-Integrale
Es seien εt und ηt reine Zufallsprozesse, εt ∼ iid(0, σε2 ) ,
ηt ∼ iid (0, ση2 ) ,
die korreliert sein d¨ urfen, γε,η (h) = E(εt ηt+h ) ,
h ∈ Z,
ρε,η (h) =
γε,η (h) . σε ση
Zus¨atzlich definieren wir ρε,η :=
∞ X
ρε,η (h) ,
γε,η := σε ση ρε,η .
(5.4)
h=0
Mit den Prozessen konstruieren wir wieder Partialsummenprozesse, die gegen WienerProzesse streben, s ∈ [0, 1] , [s T ] T −0.5 X XT (s) = εj ⇒ Wε (s) , σε j=1 [s T ] T −0.5 X YT (s) = ηj ⇒ Wη (s) . ση j=1
Darauf basiert als dritter Baustein einer Einheitswurzelasymptotik folgender Satz.
Satz 5.4 (Konvergenz gegen Ito-Integrale) Unter obigen Annahmen u ¨ber εt und ηt gilt mit xt = xt−1 + εt , x0 = 0, t = 1, . . . , T , f¨ ur T → ∞: Z 1 T T −1 X d xt ηt → Wε (s) dWη (s) + ρε,η , σε ση t=1 0 wobei ρε,η aus (5.4) ist. 48
Anm. 1: F¨ ur ηt = εt wird f) aus Satz 5.3 reproduziert. Anm. 2: Sind εt und ηs unkorreliert f¨ ur alle s und t, so sind Wε und Wη unabh¨angig, und es gilt wegen Satz 3.6:
R1
Wε (s) dWη (s) 0 q ∼ N (0, 1) . R1 2 (s) ds W ε 0
5.5
Regressinonen integrierter Zeitreihen
Wir betrachten das bivariate Regressionsmodell yt = β xt + zt , t = 1, . . . , T , mit
Annahmen: xt =
Pt
j=1 εj
PT xt z t b β − β = Pt=1 . T 2 t=1 xt ist wie aus Satz 5.4, und zt h¨angt von ηt aus Satz 5.4 ab.
Wegen Satz 5.3 gilt sofort T
−2
T X
Z x2t
d
→
σε2
t=1
1 0
Wε2 (s) ds .
Scheinregression (Nonsens-Regression) Annahme: Der St¨ormterm ist ebenfalls integriert, zt =
t X
ηj .
j=1
Dann gilt2 d
βb − β →
ση
R1
Wε (s) Wη (s) ds . R1 σε 0 Wε2 (s) ds 0
Insbesondere also wenn β = 0 ist und yt = zt und xt stochastisch unabh¨angig sind, strebt βb nicht gegen den wahren Wert 0! 2
Unser Argument ist hier nicht ganz sauber, kann aber m¨ uhelos repariert werden. Im Grunde br¨auchten
wir einen bivariaten FGWS (Satz 5.1) f¨ ur Vektoren und eine multivariate Variante des Satzes u ¨ber stetige Abbildungen, Satz 5.2.
49
Und wie verhalten sich die anderen KQ-Gr¨oßen wie Bestimmtheitsmaß, t−Statistik und Durbin-Watson-Statistik? Kointegration Annahme: Der St¨orterm ist I(0), zt = ηt , und β 6= 0. Also ist yt = β xt + ηt ebenso wie xt integriert der Ordnung Eins, aber es existiert eine station¨are Linearkombination, µ ¶ yt (1, −β) = ηt . xt Dann gilt wegen Satz 5.4 T
−1
T X
·Z xt η t → σ ε σ η
Wε (s) dWη (s) + ρε,η , 0
t=1
und daher d T (βb − β) →
¸
1
d
ση
hR
1 0
i
Wε (s) dWη (s) + ρε,η . R1 σε 0 Wε2 (s) ds
Der KQ- Sch¨atzer ist also (super-)konsistent, selbst wenn Regressor xt und St¨orterm zt = ηt korrelieren (ρε,η 6= 0)! Und wie verhalten sich die anderen KQ-Gr¨oßen? F¨ ur die t-Statistik beispielsweise ergibt sich
v u T R1 X Wε (s) dWη (s) + ρε,η (βb − β) u d t x2t → 0 qR . tβ = 1 s 2 (s) ds t=1 W ε 0
Dies ist im allgemeinen keine Normalverteilung. Speziell aber wenn Wε und Wη stochastisch unabh¨angig sind, (ρε,η = 0), dann gilt d
tβ → N (0, 1) , siehe Anm. 2. nach Satz 5.4 bzw. Satz 3.6.
50