Reihenherausgeber: Prof. Dr. Holger Dette · Prof. Dr. Wolfgang Karl Härdle
Statistik und ihre Anwendungen
Weitere Bände dieser Reihe finden Sie unter http://www.springer.com/series/5100
Claudia Czado · Thorsten Schmidt
Mathematische Statistik
123
Prof. Claudia Czado, Ph.D. Technische Universität München Lehrstuhl für Mathematische Statistik Boltzmannstraße 3 85748 Garching Deutschland
[email protected]
Prof. Dr. Thorsten Schmidt Technische Universität Chemnitz Fakultät für Mathematik Reichenhainer Straße 41 09126 Chemnitz Deutschland
[email protected]
ISBN 978-3-642-17260-1 e-ISBN 978-3-642-17261-8 DOI 10.1007/978-3-642-17261-8 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c Springer-Verlag Berlin Heidelberg 2011
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort
Mit den wachsenden M¨ oglichkeiten Daten zu erheben steht deren ad¨aquate Auswertung und Bewertung im Mittelpunkt der Statistik. Dabei treten viele unterschiedliche Datenstrukturen auf, die eine komplexe Modellierung erforderlich machen. In weiteren Schritten sind statistische Verfahren zum Anpassen der Modelle oder zum Untersuchen von interessanten Fragestellungen notwendig. Dieses Buch stellt die daf¨ ur notwendigen mathematischen Grundlagen und Konzepte der Statistik zur Verf¨ ugung. Dabei wird Wert auf die Herleitung von statistischen Fragestellungen und deren probabilistische Behandlung gelegt. Um die Verst¨ andlichkeit zu erh¨ohen, werden viele Beispiele ausgearbeitet und elementare Beweise ohne maßtheoretische Hilfsmittel gezeigt. Genaue Literaturhinweise erm¨oglichen die weitergehende Vertiefung. Durch die kurze und pr¨ azise Darstellung wird dar¨ uber hinaus ein schneller Einstieg in das Fachgebiet erm¨oglicht. Dabei folgen wir dem Ansatz von Bickel und Doksum (1977, 2001) und Casella und Berger (2002). Bei der Auswahl der Themen orientieren wir uns an der Praxisrelevanz der Verfahren. Anhand einer umfangreichen Aufgabensammlung am Ende jedes Kapitels kann das Verst¨ andnis u uft und vertieft werden. ¨berpr¨ Dieses Buch richtet sich an Studierende der Mathematik und Statistik im zweiten oder dritten Jahr des Bachelor-Studiums oder ersten Jahr des Master-Studiums. F¨ ur andere Fachrichtungen ist ein starker mathematischer Schwerpunkt notwendig. Das Buch setzt Grundlagen der Wahrscheinlichkeitstheorie voraus wie sie zum Beispiel in Dehling und Haupt (2004) oder Georgii (2004) zu finden sind. Das mathematische Niveau des Buches liegt zwischen Fahrmeir et. al (2004) und den englischen Standardwerken von Lehmann und Casella (1998), Lehmann und Romano (2006) und Shao (2008). Das Buch ist aus einer vierst¨ undigen Vorlesung Mathematische Statistik“, ” die wir an der Technischen Universit¨ at M¨ unchen f¨ ur Studierende in Mathematik mit Schwerpunkt Finanz- und Wirtschaftsmathematik gehalten haben, entstanden. Der Inhalt des Buches gliedert sich wie folgt: Im ersten Kapitel werden die sp¨ ater ben¨ otigten Konzepte der Wahrscheinlichkeitstheorie kurz vorgestellt. v
vi
Vorwort
Der zentrale Begriff eines statistischen Modells und insbesondere die Klasse der exponentiellen Familien werden im zweiten Kapitel eingef¨ uhrt. Neben dem klassischen statistischen Modellansatz wird auch der Bayesianische Modellansatz diskutiert, welcher mit der Entwicklung von Markov Chain Monte Carlo Verfahren in j¨ ungster Zeit sehr an Bedeutung gewonnen hat. Im dritten Kapitel wenden wir uns den Sch¨atzverfahren zu, wobei wir die Momentenmethode, Kleinste-Quadrate-Verfahren und Maximum-LikelihoodSch¨ atzer (MLS) in ein- und mehrdimensionalen Modellen beschreiben. Es schließen sich das numerische Fisher-Scoring-Verfahren und Bayesianische aposterori-Modussch¨ atzer an. Im vierten Kapitel werden Vergleichskriterien von Sch¨atzverfahren entwickelt. Dabei folgen wir im ersten Teil der klassischen Theorie nach LehmannScheff´e und studieren den zentralen Begriff eines gleichf¨ormig besten Sch¨atzers (Uniformly Minimal Variance Unbiased Estimator - kurz UMVUE). Die Bestimmung solcher Sch¨ atzer wird anhand zahlreicher Beispiele gezeigt. Im zweiten Teil widmen wir uns der asymptotischen Theorie der Sch¨atzfolgen und analysieren Konsistenz, asymptotische Normalit¨at und asymptotische Effizienz. Im Weiteren wird die Fisher Information eingef¨ uhrt und ihr Zusammenhang mit der Informationsungleichung aufgezeigt. Zur Bestimmung der Pr¨ azision eines Sch¨atzverfahrens wird im f¨ unften Kapitel der Begriff eines Intervallsch¨ atzers eingef¨ uhrt. Dieser entspricht im klassischen Ansatz dem Konfidenzintervall, und im Bayesianischen Ansatz dem Credible Interval“. Anschließend entwickeln wir das Konzept des statisti” schen Hypothesentestes und schließen mit der Dualit¨at zwischen Hypothesentests und Konfidenzintervallen. In Kapitel 6 wird die Optimalit¨ atstheorie nach Neyman und Pearson behandelt. Es zeigt sich, dass die Anwendbarkeit dieser Konstruktion von optimalen Tests auf eine kleine Klasse von Testproblemen beschr¨ankt ist, weswegen im zweiten Teil der verallgemeinerte Likelihood-Quotienten-Test eingef¨ uhrt und an mehreren Beispielen illustriert wird. Konfidenzintervalle k¨ onnen nun mit Hilfe der oben angesprochenen Dualit¨at bestimmt werden. Das abschließende Kapitel stellt lineare Modelle vor und wir zeigen, dass die klassisch auftretenden Kleinste-Quadrate Sch¨atzer als UMVUE-Sch¨atzer identifiziert werden k¨ onnen. Die Optimalit¨ at dieser Sch¨atzer wird mit Hilfe des Theorems von Gauß und Markov bewiesen. Hiernach leiten wir verallgemeinerte Likelihood-Quotienten-Tests her und illustrieren in der Anwendung wichtige Modellklassen wie multiple lineare Regression und Varianzanalyse (ANOVA) an Datenbeispielen. Zu guter Letzt m¨ ochten wir uns bei den Studierenden f¨ ur die zahlreiuckmeldungen bez¨ uglich der ersten Skriptversionen bedanken. Insbechen R¨ sondere danken wir Stephan Haug, Aleksey Min, Jan Mai, Eike Christian Brechmann und Jakob St¨ ober f¨ ur ihre Korrekturhilfen und Damir Filipovi´c f¨ ur seinen wichtigen Hinweis. Ein ganz besonderer Dank gilt Susanne Vet-
Vorwort
vii
ter f¨ ur ihre fabelhafte und unerm¨ udliche Hilfe mit welcher sie das Skriptum um viele Quantenspr¨ unge verbessert hat. Die Zusammenarbeit mit Clemens Heine vom Springer Verlag war sehr professionell und stets hilfreich.
M¨ unchen & Leipzig, 22. Januar 2011
Claudia Czado und Thorsten Schmidt
Inhaltsverzeichnis
1. Grundlagen der Wahrscheinlichkeitstheorie und 1.1 Grundbegriffe der Wahrscheinlichkeitstheorie . . 1.2 Klassische Verteilungen der Statistik . . . . . . . 1.2.1 Die Multivariate Normalverteilung . . . . 1.3 Bedingte Verteilungen . . . . . . . . . . . . . . . 1.4 Grenzwerts¨ atze . . . . . . . . . . . . . . . . . . . 1.4.1 Referenzen . . . . . . . . . . . . . . . . . 1.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . .
Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
1 1 9 18 20 24 28 29
2. Statistische Modelle 2.1 Formulierung von statistischen Modellen 2.2 Suffizienz . . . . . . . . . . . . . . . . . 2.3 Exponentielle Familien . . . . . . . . . . 2.4 Bayesianische Modelle . . . . . . . . . . 2.4.1 Referenzen . . . . . . . . . . . . 2.5 Aufgaben . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
37 39 43 49 57 63 63
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
3. Sch¨ atzmethoden 3.1 Substitutionsprinzip . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 H¨ aufigkeitssubstitution . . . . . . . . . . . . . . . . . . 3.1.2 Momentenmethode . . . . . . . . . . . . . . . . . . . . 3.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . 3.2.1 Allgemeine und lineare Regressionsmodelle . . . . . . 3.2.2 Methode der kleinsten Quadrate . . . . . . . . . . . . 3.2.3 Gewichtete Kleinste-Quadrate-Sch¨atzer . . . . . . . . 3.3 Maximum-Likelihood-Sch¨ atzung . . . . . . . . . . . . . . . . 3.3.1 Maximum-Likelihood in eindimensionalen Modellen . 3.3.2 Maximum-Likelihood in mehrdimensionalen Modellen 3.3.3 Numerische Bestimmung des Maximum-LikelihoodSch¨ atzers . . . . . . . . . . . . . . . . . . . . . . . . .
71 72 73 75 77 78 80 83 83 86 92 93
ix
x
Inhaltsverzeichnis
3.4 3.5 3.6
Vergleich der Maximum-Likelihood-Methode mit anderen Sch¨ atzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95 96 96
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie 4.1 Sch¨ atzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 UMVUE-Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Die Informationsungleichung . . . . . . . . . . . . . . . . . . 4.3.1 Anwendung der Informationsungleichung . . . . . . . 4.4 Asymptotische Theorie . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Asymptotische Normalit¨ at und verwandte Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Asymptotische Effizienz und Optimalit¨at . . . . . . . 4.4.4 Asymptotische Verteilung von Maximum-LikelihoodSch¨ atzern . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
103 103 108 115 118 119 120
5. Konfidenzintervalle und Hypothesentests 5.1 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . 5.1.1 Der eindimensionale Fall . . . . . . . . . . . . 5.1.2 Der mehrdimensionale Fall . . . . . . . . . . 5.1.3 Bayesianischer Intervallsch¨atzer . . . . . . . . 5.2 Das Testen von Hypothesen . . . . . . . . . . . . . . 5.2.1 Fehlerwahrscheinlichkeiten und G¨ ute . . . . . 5.2.2 Der p-Wert: Die Teststatistik als Evidenz . . 5.2.3 G¨ ute und Stichprobengr¨ oße: Indifferenzzonen 5.3 Dualit¨ at zwischen Konfidenzintervallen und Tests . . 5.3.1 Aus Konfidenzintervallen konstruierte Tests . 5.3.2 Aus Tests konstruierte Konfidenzintervalle . . 5.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .
122 126 128 130
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
139 139 140 145 146 147 149 154 155 157 158 158 159
6. Optimale Tests und Konfidenzintervalle, LikelihoodQuotienten-Tests und verwandte Methoden 6.1 Das Neyman-Pearson-Lemma . . . . . . . . . . . . . . 6.2 Uniformly Most Powerful Tests . . . . . . . . . . . . . 6.2.1 Exponentielle Familien . . . . . . . . . . . . . . 6.3 Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . 6.3.1 Konfidenzintervalle . . . . . . . . . . . . . . . . 6.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
163 163 171 172 177 179 185
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA) 191 uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.1 Einf¨ 7.1.1 Das allgemeine lineare Modell . . . . . . . . . . . . . . 193 7.1.2 Die Matrixformulierung des linearen Modells . . . . . 195
Inhaltsverzeichnis
7.2
7.3
7.4
7.5
xi
Sch¨ atzung in linearen Modellen . . . . . . . . . . . 7.2.1 Die kanonische Form . . . . . . . . . . . . . 7.2.2 UMVUE-Sch¨ atzer . . . . . . . . . . . . . . 7.2.3 Projektionen im linearen Modell . . . . . . 7.2.4 Der Satz von Gauß-Markov . . . . . . . . . 7.2.5 Sch¨ atzung der Fehlervarianz . . . . . . . . . 7.2.6 Verteilungstheorie und Konfidenzintervalle . Hypothesentests . . . . . . . . . . . . . . . . . . . 7.3.1 Likelihood-Quotienten-Test . . . . . . . . . 7.3.2 Beispiele: Anwendungen . . . . . . . . . . . Varianzanalyse . . . . . . . . . . . . . . . . . . . . 7.4.1 ANOVA im Einfaktorenmodell . . . . . . . 7.4.2 ANOVA im Mehrfaktormodell . . . . . . . 7.4.3 Referenzen . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
197 198 200 201 209 210 211 213 214 220 223 224 227 231 232
A Resultate u 235 ¨ ber benutzte Verteilungsfamilien A1 Liste der verwendeten Verteilungen . . . . . . . . . . . . . . . 235 B Tabellen 237 Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . 237 C Verzeichnisse Tabellenverzeichnis . . Abbildungsverzeichnis Liste der Beispiele . . Liste der Aufgaben . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
239 239 240 241 244
Literaturverzeichnis
249
Sachverzeichnis
251
Kapitel 1.
Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Statistik ist die Wissenschaft, die Regeln und Verfahren f¨ ur die Erhebung, Beschreibung, Analyse und Interpretation von numerischen Daten entwickelt. Der Schwerpunkt dieses Buches liegt auf der Entwicklung und Darstellung von statistischen Analyseverfahren. Dazu werden stochastische Modelle vorgestellt, die von unbekannten Parametern abh¨angen. Um diese Parameter mit Hilfe von erhobenen Daten bestimmen zu k¨onnen, werden Verfahren zur Sch¨ atzung von Parametern konstruiert und verglichen. Unter gewissen Annahmen u ¨ber die zugrundeliegenden stochastischen Modelle werden hieran anschließend Verfahren zum Testen von Hypothesen entwickelt. Die in den sp¨ ateren Kapiteln behandelten Sch¨atz- und Testverfahren ben¨ otigen einen wahrscheinlichkeitstheoretischen Rahmen. Dieses Kapitel gibt eine kurze Einf¨ uhrung in die daf¨ ur notwendigen Hilfsmittel aus der Wahrscheinlichkeitstheorie. Hierbei werden viele verschiedene Verteilungen vorgestellt und in den Beispielen vertieft, was f¨ ur die erfolgreiche Anpassung an verschiedene Datens¨ atze wichtig ist. F¨ ur eine ausgiebige Darstellung sei auf Georgii (2004), Resnick (2003) und Chung (2001) verwiesen.
1.1 Grundbegriffe der Wahrscheinlichkeitstheorie Dieser Abschnitt beschreibt kurz den Kolmogorovschen Zugang zur Wahrscheinlichkeitstheorie. Jedem zuf¨ alligen Ereignis wird hierbei eine Wahrscheinlichkeit zugeordnet. Ein Ereignis ist beschrieben durch eine Menge. Das gleichzeitige Eintreten zweier Ereignisse ist der Schnitt zweier Mengen, welches wieder ein Ereignis sein sollte. Dies erfordert eine Axiomatik, welche im Folgenden vorgestellt wird. Grundlage bildet ein Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω den Grundraum, A die zugeh¨orige σ-Algebra und P ein Wahrscheinlichkeitsmaß bezeichnet. Die Elemente von A beschreiben die Ereignisse, welche in einem Zufallsexperiment auftreten k¨onnen. Mit zwei C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 1, c Springer-Verlag Berlin Heidelberg 2011
1
2
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Ereignissen A und B aus A m¨ ochte man auch das Ereignis ”A und B ” betrachten k¨ onnen, weswegen man von A gewisse Eigenschaften fordert. Eine Menge A, dessen Elemente Teilmengen von Ω sind, heißt σ-Algebra, falls: (i) Ω ∈ A. (ii) F¨ ur jedes A ∈ A gilt A¯ := Ω\A ∈ A. (iii) F¨ ur Elemente A1 , A2 , . . . von A gilt
∞
An ∈ A.
n=1
Weiterhin wird verlangt, dass das Wahrscheinlichkeitsmaß P die klassischen Kolmogorovschen Axiome erf¨ ullt. Demnach ist die Abbildung P : A → [0, 1] ein Wahrscheinlichkeitsmaß, falls die folgenden drei Eigenschaften erf¨ ullt sind: (i) P(Ω) = 1. (ii) 0 ≤ P(A) ≤ 1 f¨ ur alle A ∈ A. (iii) F¨ ur Elemente A1 , A2 , . . . von A mit Ai ∩ Aj = ∅ f¨ ur jedes i = j gilt: ∞ ∞ P Ai = P(Ai ). i=1
i=1
Hat der Grundraum Ω die Form Ω = {ω1 , ω2 , . . .}, so nennen wir den zugeh¨ origen Wahrscheinlichkeitsraum diskret. In diesem Fall zerf¨allt der Grundraum in h¨ ochstens abz¨ ahlbar viele disjunkte Ereignisse, und jedes Ereignis {ωi } heißt Elementarereignis.
Bedingte Wahrscheinlichkeiten und Unabh¨ angigkeit. Beobachtet man ein Ereignis, so hat dies m¨ oglicherweise einen Einfluß auf die Einsch¨atzung von anderen Ereignissen. Dies wird durch die Verwendung von bedingten Wahrscheinlichkeiten formalisiert. Seien A, B ∈ A zwei Ereignisse mit P(B) > 0. Die bedingte Wahrscheinlichkeit von A gegeben B ist definiert durch P(A|B) :=
P(A ∩ B) . P(B)
Dar¨ uber hinaus definiert P(·|B) : A → [0, 1] das bedingte Wahrscheinlichkeitsmaß gegeben B. Dieses Maß ist in der Tat ein Wahrscheinlichkeitsmaß, was in Aufgabe 1.18 bewiesen werden soll. n Ist Ω = i=1 Bi und sind die Bi paarweise disjunkt, so schreiben wir n Ω = i=1 Bi . In manchen Situationen sind die bedingten Wahrscheinlichochte P(Bi |A) bestimmen. Als Beispiel keiten P(A|Bi ) bekannt und man m¨ betrachten wir einen medizinischen Diagnosetest. Die Wahrscheinlichkeiten, dass ein getesteter Patient ein positives (bzw. negatives) Testergebnis erh¨alt,
1.1 Grundbegriffe der Wahrscheinlichkeitstheorie
3
wenn er tats¨ achlich die Krankheit hat, seien bekannt. Als Patient mit positivem Testergebnis ist man an der Wahrscheinlichkeit, ob die Krankheit wirklich vorliegt, interessiert. Diese kann man mit dem Satz von Bayes bestimmen.
Satz 1.1 (Satz von Bayes). Sei Ω =
n
Bi mit P(Bi ) > 0 f¨ ur i = 1, . . . , n.
i=1
Dann gilt f¨ ur A ∈ A mit P(A) > 0, dass P(A|Bi )P(Bi ) P(Bi |A) = . n P(A|Bj )P(Bj ) j=1
Diese Formel wird oft als Bayes-Formel bezeichnet. Die Erweiterung auf Zufallsvariablen mit einer Dichte ist Gegenstand von Aufgabe 1.27. Zwei Ereignisse A und B heißen unabh¨ angig, falls P(A ∩ B) = P(A) P(B). Dann gilt auch P(A|B) = P(A). F¨ ur n Ereignisse muss man die (schw¨achere) paarweise Unabh¨ angigkeit von der folgenden Eigenschaft unterscheiden: Die Ereignisse A1 , . . . , An heißen unabh¨ angig, falls P(Ai1 ∩ . . . ∩ Aik ) =
k
P(Aij )
∀ {i1 , . . . , ik } ⊂ {1, . . . , n}.
j=1
Zufallsvariablen. Ein Zufallsexperiment wird durch eine Zufallsvariable modelliert. Eine (k-dimensionale) Zufallsvariable X ist intuitiv gesprochen eine Abbildung, welche die Grundereignisse ω ∈ Ω auf Vektoren im Rk abbildet. Um die Wahrscheinlichkeit etwa f¨ ur das Ereignis A := {X ≤ 0} berechnen zu k¨ onnen, ist A ∈ A zu fordern. Das f¨ uhrt zu folgendem Begriff der Meßbarkeit: Sei B k die Borel-σ-Algebra1 . Eine k-dimensionale Zufallsvaur jedes B ∈ B k riable ist eine A − B k meßbare Abbildung X : Ω → Rk , d.h. f¨ ist X −1 (B) := {ω ∈ Ω : X(ω) ∈ B} ∈ A. Wir setzen in diesem Buch die Meßbarkeit der verwendeten Funktionen stets voraus und geben nur an wenigen Stellen Hinweise auf die zugrundeliegenden maßtheoretischen Fragen. Eine Zufallsvariable X heißt diskret, falls sie h¨ochstens abz¨ahlbar viele Werte x1 , x2 , . . . annimmt. Dann heißt die Funktion pX : {x1 , x2 , . . . } → 1
Die Borel-σ-Algebra ist die kleinste σ-Algebra, die alle offenen Rechtecke, in diesem Fall (a1 , b1 ) × · · · × (ak , bk ), enth¨ alt.
4
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
[0, 1] gegeben durch pX (xi ) = P(X = xi ),
i = 1, 2, . . .
die Wahrscheinlichkeitsfunktion von X. Durch sie ist X vollst¨andig beschrieben, denn f¨ ur jede Wertemenge B ⊂ {x1 , x2 , . . . } ist P(X ∈ B) = pX (xi ). Um im Folgenden eine einheitliche Schreibweise mit steti-
xi ∈B
ur gen Zufallsvariablen nutzen zu k¨ onnen, setzen wir stets pX (x) := 0 f¨ x ∈ {x1 , x2 , . . . }. Ist eine Zufallsvariable nicht diskret, so kann man sie oft durch ihre Dichte beschreiben. Eine Dichte ist eine nichtnegative Funktion p auf Rk , die Lebesgue-integrierbar ist mit p(x) dx = 1. Rk
Gilt f¨ ur eine Zufallsvariable X, dass f¨ ur alle B ∈ Bk P(X ∈ B) = p(x)dx B
und ist p eine Dichte, so heißt p die Dichte von X. In diesem Fall heißt X stetige Zufallsvariable. Unabh¨ angig davon, ob eine Zufallsvariable diskret ist oder etwa eine Dichte besitzt, l¨ asst sie sich stets durch ihre Verteilungsfunktion beschreiben. Die Verteilungsfunktion einer Zufallsvariable X ist definiert durch FX (x) = FX (x1 , . . . , xk ) := P(X1 ≤ x1 , . . . , Xk ≤ xk ). Die Verteilungsfunktion hat, wie man leicht sieht, folgende Eigenschaften. Zur Einfachheit betrachten wir nur den eindimensionalen Fall. Dann gilt: 0 ≤ F ≤ 1, F ist monoton wachsend, rechtsseitig stetig, lim F (x) = 1 und x→∞
lim F (x) = 0. Neben der Verteilungsfunktion spricht man allgemeiner von
x→−∞
der Verteilung einer Zufallsvariable. Die Verteilung einer Zufallsvariable X ist ein Wahrscheinlichkeitsmaß PX , gegeben durch PX (B) := P ({ω ∈ Ω : X(ω) ∈ B}) = P(X ∈ B),
B ∈ Bk .
Die Verteilung einer Zufallsvariable ist je nach Typ der Zufallsvariable unterschiedlich darstellbar. Ist X eine diskrete Zufallsvariable mit Werten x1 , x2 , . . . und mit Wahrscheinlichkeitsfunktion p, so ist p(xi ), B ∈ B k . P(X ∈ B) = xi ∈B
1.1 Grundbegriffe der Wahrscheinlichkeitstheorie
Hat X hingegen die Dichte p, so ist P(X ∈ B) = p(x)dx,
5
B ∈ Bk .
B
Transformationssatz. Eine Transformation einer k-dimensionalen Zufallsvariable X ist eine meßbare Abbildung h : Rk → Rm , d.h. h−1 (B) ∈ B k f¨ ur alle Mengen B aus der Borel-σ-Algebra B m . Die Verteilung der transformierten Zufallsvariable h(X) ist bestimmt durch P(h(X) ∈ B) = P(X ∈ h−1 (B)) f¨ ur alle B ∈ Bm . Als Anwendung betrachten wir folgendes Beispiel. B 1.1 Mittelwert und Stichprobenvarianz : Betrachtet man eine Stichprobe gegeben durch k reellwertige Zufallsvariablen X = (X1 , . . . , Xk ) mit k ≥ 2, so ist der Vektor gegeben durch den arithmetischen Mittelwert und die Stichprobenvarianz eine Transformation von X: In diesem Fall ist h(X) = (h1 (X), h2 (X)); der arithmetische Mittelwert ist h1 (X) und die Stichprobenvarianz ist h2 (X) mit h1 (X) :=
k 1 ¯ Xi =: X, k i=1
1 ¯ 2 =: s2 (X). h2 (X) := Xi − X k − 1 i=1 k
Die besondere Normierung mit (k − 1) sorgt daf¨ ur, dass die Stichprobenvarianz erwartungstreu ist, eine Eigenschaft welche man verliert, wenn man stattdessen mit k normiert. Dies werden wir in Aufgabe 1.3 diskutieren. F¨ ur stetige, reellwertige Zufallsvariablen hat man folgenden wichtigen Satz: Satz 1.2 (Transformationssatz). Sei X eine reellwertige, stetige Zufallsvariable mit Dichte pX . Die Transformation h : R → R sei bijektiv auf einer offenen Menge B mit P(X ∈ B) = 1. Ferner sei h differenzierbar und h (x) = 0 ∀ x ∈ B. Dann ist Y := h(X) eine stetige Zufallsvariable und die Dichte von Y ist gegeben durch ph(X) (y) =
pX (h−1 (y)) 1 −1 , |h (h−1 (y))| {h (y)∈B}
y ∈ R.
Diese Behauptung l¨ asst sich leicht durch Differenzieren der Verteilungsfunktion von Y und Anwenden der Kettenregel zeigen.
6
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Im mehrdimensionalen Fall gilt ein analoges Resultat: Sei h : Rk → Rk , h = (h1 , . . . , hk ), hi : Rk → R und die Jacobi-Determinante gegeben durch ∂ ∂x h1 (x) . . . 1 .. Jh (x) := . ∂ h1 (x) . . . ∂xk
∂ ∂x1 hk (x)
.. . . ∂ h (x) k ∂xk
Satz 1.3 (Transformationssatz f¨ ur Zufallsvektoren). Sei h : Rk → Rk und k B ⊂ R eine offene Menge, so dass gilt: (i) h hat stetige erste partielle Ableitungen auf B, (ii) h ist bijektiv auf B, (iii) Jh (x) = 0, ∀ x ∈ B und sei X eine stetige Zufallsvariable mit P(X ∈ B) = 1. Dann ist die Dichte von Y := h(X) gegeben durch pY (y) = pX (h−1 (y)) · |Jh−1 (y)| 1{h−1 (y)∈B} ,
y ∈ Rk .
Unabh¨ angigkeit. Die Unabh¨ angigkeit von Zufallsvariablen geht maßgeblich auf die Unabh¨ angigkeit von Ereignissen zur¨ uck. Zwei Zufallsvariablen angig, falls die Ereignisse {X1 ∈ A} X1 ∈ Rk und X2 ∈ Rm heißen unabh¨ angig f¨ ur alle A ∈ B k und B ∈ B m sind. und {X2 ∈ B} unabh¨ Unabh¨ angigkeit kann man dadurch charakterisieren, dass die Dichte, die Wahrscheinlichkeitsfunktion oder die Verteilungsfunktion in Produktgestalt zerf¨ allt: Satz 1.4. Ist die Zufallsvariable X = (X1 , . . . , Xk ) stetig mit Dichte pX oder diskret mit Wahrscheinlichkeitsfunktion pX , so sind die folgenden drei Aussagen ¨ aquivalent: (i) X1 , . . . , Xk sind unabh¨ angig. ur alle x1 , . . . , xk ∈ R. (ii) FX (x1 , . . . , xk ) = FX1 (x1 ) · · · FXk (xk ) f¨ ur alle x1 , . . . , xk ∈ R. (iii) pX (x1 , . . . , xk ) = pX1 (x1 ) · · · pXk (xk ) f¨ Wir bezeichnen Zufallsvariablen X1 , . . . , Xk oder auch etwa eine ganangig, falls f¨ ur jede beliebige Kombination ze Folge X1 , X2 , . . . als unabh¨ (i1 , . . . , ik1 ) und (j1 , . . . , jk2 ), welche sich nicht u ¨berschneiden, die Vektoren (Xi1 , . . . , Xik1 ) und (Xj1 , . . . , Xjk2 ) unabh¨angig sind. Im Allgemeinen ist dies st¨ arker als die Annahme der paarweisen Unabh¨angigkeit, unter welcher angig sind. jedes Xi und Xj mit i = j unabh¨
1.1 Grundbegriffe der Wahrscheinlichkeitstheorie
7
Zufallsvariablen, welche unabh¨ angig und identisch verteilt sind, bezeichnen wir kurz als i.i.d. (independent and identically distributed). Dies ist eine in der Statistik h¨ aufig gemachte Annahme. Momente. Wichtige Charakteristika von Zufallsvariablen k¨onnen oftmals durch einfachere Funktionale als die Verteilungsfunktion beschrieben werden. Die Normalverteilung beispielsweise ist vollst¨andig durch ihr erstes und zweites Moment beschrieben. Dieser Abschnitt f¨ uhrt zentrale Gr¨oßen wie Erwartungswert und Varianz und dar¨ uber hinausgehend die Momente einer alt man durch |x| := |x1 | + · · · + |xd | eine Zufallsvariable ein. F¨ ur x ∈ Rk erh¨ Norm auf dem Vektorraum Rk . Der Erwartungswert einer Zufallsvariable X ist wie folgt definiert: Ist X diskret mit Werten {x1 , x2 , . . .}, so ist der Erwartungswert definiert durch E(X) :=
∞
xi P(X = xi ),
i=1
falls die Summe absolut konvergiert, wof¨ ur wir E(|X|) < ∞ schreiben. Ist X eine stetige Zufallsvariable mit Dichte pX , so ist E(X) := xpX (x)dx, Rk
falls Rk |x| pX (x)dx < ∞. Gilt E(|X|) < ∞, so nennen wir X integrierbar. Der Erwartungswert einer Zufallsvariable gibt den Wert an, welchen die Zufallsvariable im Mittel annimmt. Man verifiziert leicht, dass der Erwartungswert ein linearer Operator ist, d.h. f¨ ur a1 , . . . , an ∈ R ist n n ai Xi = ai E(Xi ). E i=1
i=1
Dar¨ uber hinaus ist der Ewartungswert monoton, d.h. aus P(X ≥ Y ) = 1 folgt Hierbei ist f¨ ur zwei Vektoren der komponentenweise Vergleich gemeint: ur alle 1 ≤ i ≤ d. a ≥ b ⇔ ai ≥ bi f¨ E(X) ≥ E(Y ).
(1.1)
Folgende Ungleichung wird sich als n¨ utzlicher Begleiter erweisen. Eine Funktion g : R → R heißt konvex, falls g(λx + (1 − λ)y) ≤ λg(x) + (1 − λ)g(y) f¨ ur alle λ ∈ (0, 1) und alle x, y ∈ R. Satz 1.5 (Jensensche Ungleichung). Sei g : R → R konvex und X eine reellwertige Zufallsvariable mit E(|X|) < ∞. Dann gilt
E g(X) ≥ g E(X) . (1.2) Gleichheit in (1.2) gilt genau dann, wenn f¨ ur jede Gerade a+bx tangential zu g an x = E(X) gilt, dass P(g(X) = a + bX) = 1.
8
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Ein typisches Beispiel ist g(x) = x2 : F¨ ur eine Zufallsvariable X mit verschwindenden Erwartungswert folgt bereits aus x2 ≥ 0, dass E(X 2 ) ≥ (E(X))2 = 0. Das k-te Moment von X ist E(X k ) und das k-te zentrierte (zentrale) Moment von X ist definiert durch
k . μk := E X − E(X) Das zweite zentrierte Moment spielt eine besondere Rolle: Die Varianz von X ist definiert durch
2
2 σ 2 := Var(X) = E X − E(X) = E(X 2 ) − E(X) . Die letzte Gleichheit l¨ asst sich durch Ausmultiplizieren und Verwendung der Linearit¨ at des Erwartungswertes leicht zeigen. Gilt E(X 2 ) < ∞, so nennen wir X quadrat-integrierbar. Die Varianz ist ein Maß f¨ ur die Streuung einer Zufallsvariable. Um die Abweichung einer Zufallsvariable von einer Normalverteilung zu messen, nutzt man typischerweise noch ein geeignetes drittes und viertes Moment, die Schiefe (skewness): γ1 = σμ33 und die Kurtosis: γ2 := σμ44 − 3. Betrachtet man zwei reellwertige Zufallsvariablen X1 und X2 , so kann man deren lineare Abh¨ angigkeit durch die Kovarianz erfassen. Dieses Maß zeigt allerdings außerhalb der Normalverteilungsfamilien prek¨are Eigenheiten und sollte dort nur mit Vorsicht angewendet werden, siehe Aufgabe 1.2 und Schmidt (2007). F¨ ur zwei quadrat-integrierbare Zufallsvariablen X1 und X2 definiert man die Kovarianz von X1 und X2 durch
Cov(X1 , X2 ) := E X1 − E(X1 ) · X2 − E(X2 ) = E(X1 X2 )−E(X1 )E(X2 ). Die Kovarianz ist dabei abh¨ angig von den Varianzen der einzelnen Zufallsvariablen. Ein skalenunabh¨ angiges Maß f¨ ur die lineare Abh¨angigkeit ist die Korrelation zwischen X1 und X2 . Sie ist definiert durch Corr(X1 , X2 ) :=
Cov(X1 , X2 )
1/2 ; Var(X1 ) Var(X2 )
es gilt Corr(X1 , X2 ) ∈ [−1, 1]. Zwei Zufallsvariablen X1 , X2 mit Cov(X1 , X2 ) = 0 nennt man unkorreliert. Sind die quadrat-integrierbaren Zufallsvariablen X1 und X2 unabh¨ angig, so folgt aus E(X1 X2 ) = E(X1 )E(X2 ), dass Cov(X1 , X2 ) = Corr(X1 , X2 ) = 0. Die Umkehrung trifft typischerweise nicht zu, siehe Aufgabe 1.2. Weiterhin gilt die so genannte Cauchy-Schwarz Ungleichung (Cov(X, Y ))2 ≤ Var(X) · Var(Y ). F¨ ur quadrat-integrierbare Zufallsvariablen X1 , . . . , Xn gilt
(1.3)
1.2 Klassische Verteilungen der Statistik
Var(X1 + · · · + Xn ) =
n
9
Var(Xi ) + 2
i=1
n
Cov(Xi , Xj ).
i,j=1,i<j
Sind X1 , . . . , Xn dar¨ uber hinaus paarweise unkorreliert (dies folgt aus deren Unabh¨ angigkeit), so gilt die wichtige Regel von Bienaym´e Var(X1 + · · · + Xn ) =
n
Var(Xi ).
(1.4)
i=1
Momentenerzeugende Funktion. Mitunter ist es g¨ unstig, zur Beschreibung der Verteilung einer Zufallsvariable ein weiteres Hilfsmittel zur Verf¨ ugung zu haben. Ein solches ist die so genannte momentenerzeugende Funktion ΨX . Ist X eine reellwertige Zufallsvariable, so ist ΨX : R → [0, ∞] definiert durch ΨX (s) := E(esX ). Offensichtlich ist ΨX (0) = 1. Ist ΨX endlich in einer Umgebung der Null, so uber hinaus gilt dann bestimmt ΨX (s) eindeutig die Verteilung von X. Dar¨ auch, dass dk Ψ (s) = E(X k ). X dsk s=0 ΨX wird sich f¨ ur die Beschreibung der Verteilung von Summen unabh¨angiger Zufallsvariablen als extrem n¨ utzlich erweisen. Denn, sind X1 , . . . , Xn unabh¨ angig, so folgt n ΨXi (s). ΨX1 +···+Xn (s) = i=1
In Satz 2.12 wird die momentenerzeugende Funktion f¨ ur exponentielle Familien bestimmt. Weitergehende Informationen u ¨ber die momentenerzeugende Funktion finden sich etwa in: Gut (2005), Kapitel 4.8 auf Seite 189 – 191. Anders als die momentenerzeugende Funktion existiert die charakteristiur alle s ∈ R. Auch sie charaktesche Funktion ϕX (s) := E(exp(isX)) stets f¨ risiert die Verteilung eindeutig (siehe Shao (2008), Seite 35) und die Inversion ist ein klassisches Resultat (siehe dazu Gut (2005), Kapitel 4.1, Seite 157 – 165 oder Billingsley (1986), Seite 395).
1.2 Klassische Verteilungen der Statistik In diesem Abschnitt werden die klassischen Verteilungen kurz vorgestellt. Sie bilden eine wesentliche Grundlage f¨ ur die sp¨ateren Aussagen. Oft ist es in der Statistik notwendig, sich auf eine bestimmte Verteilung oder eine Verteilungsklasse festzulegen, weswegen den angef¨ uhrten Beispielen eine wichtige Funktion zukommt. Diese bieten jedoch nur einen kleinen Ausschnitt der be-
10
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
kannten Verteilungen, wie ein Blick in die Standardwerke: Johnson, Kotz und Balakrishnan (1994a), Johnson, Kotz und Balakrishnan (1994b), Johnson, Kotz und Kemp (1992) zeigt. Diskrete Verteilungen. Wir betrachten eine diskrete Zufallsvariable X mit Wahrscheinlichkeitsfunktion p. •
•
•
Binomialverteilung: Wir schreiben X ∼ Bin(n, p), falls p ∈ (0, 1) und f¨ ur jedes k ∈ {0, . . . , n}
n k P(X = k) = p (1 − p)n−k . k Als Spezialfall erh¨ alt man die Bernoulli-Verteilung Bin(1, p). Dies ist eine Zufallsvariable, welche nur die Werte 0 oder 1 annimmt. Jede binomialverteilte Zufallsvariable l¨ asst sich als Summe von BernoulliZufallsvariablen schreiben (siehe Beispiel 1.3 und Aufgabe 1.4). Poisson-Verteilung: Wir schreiben X ∼ Poiss(λ), falls λ > 0 und f¨ ur k ∈ {0, 1, 2, . . . } e−λ λk . (1.5) P(X = k) = k! Multinomialverteilung: Wir schreiben X ∼ M (n, p1 , . . . , pk ), falls k n ∈ N, p1 , . . . , pk ∈ (0, 1) mit i=1 pi = 1, X ∈ Nk und f¨ ur beliebige k Zahlen i1 , . . . , ik ∈ {0, . . . , n} mit j=1 ij = n gilt, dass P X = (i1 , . . . , ik ) =
n! pi1 · · · pikk . i1 ! · · · ik ! 1
Diese Verteilung entsteht durch die Klassifizierung von n Objekten in k Klassen und ij repr¨ asentiert die Anzahl der Objekte in Klasse j. Laplacesche Modelle. Betrachtet man einen endlichen Grundraum Ω = {ω1 , . . . , ωn }, so erh¨ alt man die wichtige Klasse der Laplaceschen Modelle, ur alle 1 ≤ i ≤ n. Alle Elementarereignisse haben demfalls P({ωi }) = n−1 f¨ zufolge die gleiche Wahrscheinlichkeit. Notiert man die Anzahl der Elemente in A durch |A|, so ergibt sich f¨ ur A ⊂ Ω P(A) =
wi ∈A
P({wi }) =
wi ∈A
|A| 1 = , |Ω| |Ω|
wonach die Wahrscheinlichkeit eines Ereignisses durch die Formel G¨ unstige ” durch M¨ ogliche“ berechnet werden kann. Dies gilt allerdings nur unter der Annahme, dass alle Elementarereignisse die gleiche Wahrscheinlichkeit haben. Das folgende Beispiel werden wir in Kapitel 2 auf der Seite 37 wieder aufgreifen.
1.2 Klassische Verteilungen der Statistik p(x)
11 p(x)
0.45
0.45
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
1
2
3
4
5
6
7
8
9
10
0 x
1
2
3
4
5
6
7
8
9
10
x
Abb. 1.1 Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung aus Beispiel 1.2 mit N = 100, n = 10 und θ = 0.1 (links) bzw. θ = 0.4 (rechts).
B 1.2 Hypergeometrische Verteilung: Man betrachtet eine Menge mit N Elementen, wobei jedes Element den Wert 0 oder 1 annehmen kann. Der Anteil der Elemente mit Wert 0 sei θ ∈ (0, 1), so dass N θ Elemente den Wert 0 haben. Es werde eine Teilmenge mit n Elementen ausgew¨ahlt und die Zufallsvariable X bezeichne die Anzahl der Elemente in der Teilmenge, welche den Wert 0 haben. Jede Kombination habe die gleiche Wahrscheinlichkeit, es handelt sich folglich um ein Laplacesches Modell. Dann erh¨alt man die hypergeometrische Verteilung
P(X = k) =
Nθ k
N −N θ
Nn−k
,
0≤k≤n
n
oder kurz X ∼ Hypergeo(N, n, θ) durch Abz¨ahlen der m¨oglichen Kombinaoglichkeiten aus N Teilen eine Stichprobe des tionen: Insgesamt gibt es N n M¨ Umfangs n zu ziehen. Sollen davon k ∈ {0, . . . , n} Teile den Wert 0 haben, so
oglichkeiten, k Teile mit dem Wert 0 aus den N θ gibt es zum einen Nkθ M¨ −N θ
M¨oglichkeiTeilen mit dem Wert 0 zu ziehen. Zum anderen gibt es Nn−k ten n − k Teile mit dem Wert 1 aus insgesamt N − N θ Teilen mit dem Wert 1 auszuw¨ ahlen. Die zugeh¨ orige Wahrscheinlichkeitsfunktion ist in Abbildung 1.1 dargestellt. Stetige Verteilungen. Wenn die beobachteten Daten keiner diskreten Wertemenge unterliegen, arbeitet man mit stetigen Verteilungen. Zu Beginn seien einige wichtige Beispiele von reellwertigen Zufallsvariablen mit Dichte p vorgestellt. •
Exponentialverteilung: Wir schreiben X ∼ Exp(λ), falls λ > 0 und p(x) = 1{x>0} λe−λx .
•
Gleichverteilung: Wir schreiben X ∼ U (a, b), falls a < b und p(x) = 1{x∈[a,b]}
1 . b−a
12
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
p(x) μ=0, σ=1 μ=0, σ=0.7 μ=0, σ=2 μ=1, σ=1
0.5
0.4
0.3
0.2
0.1
0 −4
−3
−2
−1
0
1
2
3
4
x
Abb. 1.2 Dichte der Normalverteilung f¨ ur verschiedene Parameterkonstellationen.
•
Normalverteilung: Wir schreiben X ∼ N (μ, σ 2 ), falls μ ∈ R, σ > 0 und (x−μ)2 1 p(x) = √ e− 2σ2 . (1.6) 2πσ 2 Dann gilt, dass E(X) = μ und Var(X) = σ 2 . Die Dichte ist in Abbildung 1.2 dargestellt. Ist μ = 0 und σ = 1, so spricht man von einer Standardnormalverteilung.
Oft verwendet man die Bezeichnung x2 1 φ(x) := √ e− 2 2π
f¨ ur die Dichte der Standardnormalverteilung und x Φ(x) := φ(y)dy −∞
f¨ ur die Verteilungsfunktion der Standardnormalverteilung. Die Normalverteilung ist mit Abstand die wichtigste Verteilung in der Statistik, da sie durch den zentralen Grenzwertsatz (Satz 1.31) zur Approximation der Verteilung von einer hinreichend großen Zahl unabh¨ angiger und identisch verteilter Zufallsvariablen mit existierendem zweiten Moment benutzt werden kann. Die Normalverteilung ist stabil unter Summenbildung und Skalierung (siehe Aufgabe 1.31).
1.2 Klassische Verteilungen der Statistik
13
Die Exponentialverteilung ist ein Spezialfall der Gamma-Verteilung w¨ ahrenddessen die Gleichverteilung ein Spezialfall der Beta-Verteilung ist, welche ab Seite 16 eingef¨ uhrt werden. Rund um die Normalverteilung und die Sch¨atzung von μ und σ 2 gibt es eine Familie von unerl¨ asslichen Verteilungen, welche nun kurz vorgestellt werden. Die χ2 , F und t-Verteilung. Die χ2 -Verteilung entsteht als Summe von quadrierten, normalverteilten Zufallsvariablen. Lemma 1.6. (und Definition) Sind X1 , . . . , Xn unabh¨ angig und standardnormalverteilt, heißt n Xi2 V := i=1 2
χ -verteilt mit n Freiheitsgraden, kurz χ2n -verteilt. Die Dichte von V ist gegeben durch pχ2n (x) = 1{x>0}
n x 1 x 2 −1 e− 2 . 2n/2 Γ ( n2 )
(1.7)
Hierbei verwenden wir die Gamma-Funktion, definiert durch ∞ Γ (a) := ta−1 e−t dt, a > 0. 0
√ Dann ist Γ (n) = (n − 1)!, n ∈ N und Γ ( 12 ) = π. Weiterhin gilt E(V ) = n und Var(V ) = 2n. Die Herleitung der Dichte ist Gegenstand von Aufgabe 1.32. Bemerkung 1.7. Die Darstellung der Dichte in (1.7) zeigt, dass die χ2n verteilte Zufallsvariable V f¨ ur n = 2 exponentialverteilt ist mit Parameter 12 . Aus dem zentralen Grenzwertsatz (Satz 1.31) folgt, dass χ2n − n L √ −−−→N (0, 1). 2n M¨ ochte man ein Konfidenzintervall f¨ ur den Mittelwert einer Normalverteilung mit unbekannter Varianz bilden, so muss man diese sch¨atzen. Dabei taucht die Wurzel einer Summe von Normalverteilungsquadraten (mit Faktor 1 uber gelangt man zur t-Verteilung, welche oft auch n ) im Nenner auf. Hier¨ als Student-Verteilung oder Studentsche t-Verteilung bezeichnet wird.
14
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Definition 1.8. Ist X standardnormalverteilt und V χ2n -verteilt und unabh¨ angig von X, so heißt die Verteilung von X T :=
(1.8)
1 nV
die t-Verteilung mit n Freiheitsgraden, kurz tn -Verteilung.
Lemma 1.9. Die Dichte der tn -Verteilung ist gegeben durch ptn (x) =
n+1 Γ ( n+1 x2 − 2 2 ) √ 1+ n Γ (n/2)Γ (1/2) n
f¨ ur alle x ∈ R. F¨ ur Vergleiche von Varianzen werden wir Quotienten der Sch¨atzer betrachten und gelangen so zur F -Verteilung. Definition 1.10. Sind V und W unabh¨angig und χ2n bzw. χ2m -verteilt, so heißt die Verteilung von V /n F := W /m die F -Verteilung mit (n, m) Freiheitsgraden, kurz Fn,m -Verteilung. F¨ ur die Dichte sei an die Formel f¨ ur die Beta-Funktion B(a, b) erinnert: F¨ ur a, b > 0 ist 1 B(a, b) = ta−1 (1 − t)b−1 dt. (1.9) 0
Dann ist B(a, b) =
Γ (a)Γ (b) Γ (a+b) .
Damit erhalten wir folgende Darstellung.
Lemma 1.11. Die Dichte der Fn,m -Verteilung ist x 2 −1 nn/2 mm/2 pFn,m (x) = 1{x>0} n m . B( /2, /2) (m + nx)(n+m)/2 n
Beweis. F¨ ur die Verteilungsfunktion an der Stelle t > 0 erhalten wir aufgrund der Unabh¨ angigkeit von V und W
1.2 Klassische Verteilungen der Statistik
P
V /n W/m
≤t
=
R+ R+ ∞
= 0
15
1{ xy
m n ≤t}
pχ2m (y)
0
pχ2n (x) pχ2m (y) dxdy
tyn/m
pχ2n (x) dx dy.
Da wir die Dichte bestimmen wollen, transformieren wir das zweite Integral mittels w = mx/(ny) und erhalten, dass t ∞ V /n ny dw dy ≤t = pχ2m (y) pχ2n (w · ny/m) P W /m m 0 0 t ∞ ny dy dw. = pχ2m (y)pχ2n (w · ny/m) m 0 0 Der Ausdruck in der Klammer gibt die Dichte an. Unter Verwendung von (1.7) ergibt sich die Behauptung. Bemerkung 1.12. Eine Rayleigh-verteilte Zufallsvariable X ist nicht negativ und hat zu dem Parameter σ > 0 die Dichte p(x) = 1{x>0}
x x2 exp − 2 . 2 σ 2σ
Die Rayleigh-Verteilung entsteht als Norm einer zweidimensionalen, zentrierten Normalverteilung: Die Zufallsvariablen Y und Z seien unabh¨angig und √ jeweils N (0, σ 2 )-verteilt. Dann ist Y 2 + Z 2 Rayleigh-verteilt (siehe Aufgabe 1.36). Aufgrund dessen ist X 2 gerade χ22 -verteilt falls σ = 1. Nichtzentrale t-, F - und χ2 -Verteilung. In diesem Abschnitt stellen wir nichtzentrale Verteilungen vor, die im Zusammenhang mit Hypothesentests in linearen Modellen im Abschnitt 7.3 ben¨ otigt werden. Im Unterschied zu den zentrierten Verteilungen k¨ onnen hier die zugrundeliegenden normalverteilten Zufallsvariablen einen nicht verschwindenden Erwartungswert haben. Definition 1.13. Seien X ∼ N (θ, 1), V ∼ χ2n und X und V unabh¨angig. Dann heißt X T := 1 nV nichtzentral t-verteilt mit n Freiheitsgraden lit¨ atsparameter θ, kurz tn (θ)-verteilt.
und
Analog definiert man die nichtzentrale χ2 -Verteilung:
Nichtzentra-
16
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Definition 1.14. Seien Xi ∼ N (μi , 1), i = 1, . . . , n und unabh¨angig. Dann heißt k V := Xi2 i=1
nichtzentral χ2 -verteilt mit Nichtzentralit¨atsparameter θ := kurz χ2k (θ)-verteilt.
k i=1
μ2i , oder
In Aufgabe 1.33 wird gezeigt, dass die nichtzentrale χ2 -Verteilung wohldefiniert ist und die Verteilung in der Tat nicht von den einzelnen μ1 , . . . , μn , sondern nur von θ abh¨ angt. Weitere Informationen findet man in Johnson, Kotz und Balakrishnan (1994b). Definition 1.15. Sei V ∼ χ2k (θ) und W ∼ χ2m sowie V und W unabh¨ angig. Dann heißt die Zufallsvariable Z :=
V /k W/m
nichtzentral F -verteilt mit Nichtzentralit¨atsparameter θ, kurz Fk,m (θ)verteilt. Es gibt noch zahlreiche andere Erweiterungen von Verteilungen auf ihre nichtzentralen Analoga (siehe dazu die nichtzentrale Exponentialverteilung im Beispiel 3.12). Die Beta- und die Gamma-Verteilung. In diesem Abschnitt f¨ uhren wir die Beta- und Gamma-Verteilungen ein. Diese beiden Verteilungsklassen beschreiben relativ allgemeine Verteilungen, welche einige bereits bekannte Verteilungen als Spezialf¨ alle enthalten. Die Gamma-Verteilung tritt als eine Verallgemeinerung der Exponentialverteilung auf und beschreibt deswegen stets postive Zufallsvariablen. Die Beta-Verteilung ist eine Verallgemeinerung der Gleichverteilung auf dem Einheitsintervall und beschreibt demzufolge nur Zufallsvariablen mit Werten in [0, 1]. Definition 1.16. Eine Zufallsvariable X heißt Gamma-verteilt zu den Parametern a, λ > 0, falls sie folgende Dichte besitzt: pa,λ (x) = 1{x>0}
λa a−1 −λx x e . Γ (a)
(1.10)
1.2 Klassische Verteilungen der Statistik
17
p(x) 1.8 a=λ=1 a=2, λ=1 a=2, λ=2 a=0.5, λ=2
1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
Abb. 1.3 Dichte der Gamma(a, λ)-Verteilung f¨ ur verschiedene Parameterkonstellationen. F¨ ur a = 1 erh¨ alt man eine Exponentialverteilung.
Ist X Gamma-verteilt, so schreiben wir kurz X ∼ Gamma(a, λ). Weiterhin gilt: cX ∼ Gamma(a, λ/c) (siehe Aufgabe 1.9 (iii)). Aus diesem Grund nennt ahrend a ein Parameter ist, welcher die man λ−1 einen Skalenparameter, w¨ Form der Verteilung bestimmt (vgl. Abbildung 1.3). Ist a eine nat¨ urliche Zahl, so ist Γ (a) = (a − 1)!. In diesem Fall wird die Verteilung auch eine Erlang-Verteilung genannt. Die momentenerzeugende Funktion einer Gamma-Verteilung wird in Aufgabe 1.12 bestimmt. Daraus erh¨ alt man die Momente: Ist X ∼ Gamma(a, λ), so gilt a a E(X) = , Var(X) = 2 . λ λ Die Summe von unabh¨ angigen Gamma(·, λ)-verteilten Variablen ist wieder Gamma-verteilt: Seien X1 , . . . , Xn unabh¨angig mit Xi ∼ Gamma(ai , λ), so ist n n Xi ∼ Gamma ai , λ . (1.11) i=1
i=1
Der Beweis kann u ¨ber die momentenerzeugende Funktion erfolgen (siehe
Aufgabe 1.9). Weiterhin ist eine χ2n -verteilte Zufallsvariable Gamma n2 , 12 verteilt. Als weiteren Spezialfall erh¨ alt man die Exponentialverteilung zum Parameter λ f¨ ur a = 1.
18
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
5 a=b=0,5 a=5, b=1 a=1, b=3 a=2, b=2 a=2, b=5
4.5 4 p(x)
3.5 3 2.5 2 1.5 1 0.5 x 0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abb. 1.4 Dichte der Beta-Verteilung f¨ ur verschiedene Parameterkonstellationen.
Definition 1.17. Eine Zufallsvariable heißt Beta-verteilt zu den Parametern a, b > 0, falls sie die Dichte pa,b (x) =
1 xa−1 (1 − x)b−1 1{x∈[0,1]} B(a, b)
hat. Hierbei ist B(a, b) die Beta-Funktion (siehe Gleichung 1.9). F¨ ur a = b = 1 erh¨ alt man die Gleichverteilung auf [0, 1] als Spezialfall. Der Erwartungswert einer Beta(a, b)-Verteilung ist a/(a+b) und die Varianz betr¨agt ab . (1 + a + b)(a + b)2 Bemerkung 1.18. Sind X, Y unabh¨ angig und Gamma(a, b) bzw. Gamma (a, c)-verteilt, so ist X/(X +Y ) gerade Beta(b, c)-verteilt (siehe Aufgabe 1.9).
1.2.1 Die Multivariate Normalverteilung Dieser Abschnitt widmet sich der mehrdimensionalen Normalverteilung. F¨ ur weitergehende Ausf¨ uhrungen sei auf Georgii (2004), Abschnitt 9.1 verwiesen.
1.2 Klassische Verteilungen der Statistik
19
Definition 1.19. Ein k-dimensionaler Zufallsvektor X heißt k-variat normalverteilt, falls ein μ ∈ Rk und ein L ∈ Rk×m existiert mit Rang(L) = m, so dass X = LZ + μ, wobei Z = (Z1 , . . . , Zm )
und Zi i.i.d. sind mit Z1 ∼ N (0, 1).
In diesem Fall schreiben wir X ∼ Nk (μ, Σ) mit Σ = LL . Ist k = m, so sagt man, dass Y eine nicht singul¨ are Normalverteilung besitzt, andernfalls (k > m) hat X eine singul¨ are Normalverteilung. F¨ ur eine quadratintegrierbare, k-dimensionalen Zufallsvariable X wird die Variabilit¨ at durch die Varianz-Kovarianz Matrix Var(X) gemessen. Sie ist gegeben durch die Matrix D := Var(X) ∈ Rk×k mit den Eintr¨agen dij = Cov(Xi , Xj ),
1 ≤ i, j ≤ k.
Es gilt, dass f¨ ur A ∈ Rk×m Var(AX) = A Var(X)A .
(1.12)
Weiterhin ist Var(X − c) = Var(X) f¨ ur jedes c ∈ Rk . Lemma 1.20. Ist X ∼ Nk (μ, Σ), so gilt E(X) = μ Var(X) = Σ.
Beweis. Nach Definition ist E(X) = E(LZ + μ) = LE(Z) + μ = μ. F¨ ur die Varianz-Kovarianz Matrix nutzen wir Gleichung (1.12). Damit folgt, dass Σ = Var(X) = Var(μ + LZ) = Var(LZ) = LL , da die Varianz-Kovarianz Matrix von Z gerade die Einheitsmatrix ist.
Mit |Σ| sei die Determinante von Σ bezeichnet. Ist Rang(Σ) = k und X ∼ Nk (μ, Σ), so hat X die Dichte
1 1 exp − (x − μ) Σ −1 (x − μ) . p(x) = 2 (2π)k |Σ|
20
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Der Beweis wird in Aufgabe 1.37 gef¨ uhrt. Wie man sieht, ist die Abh¨angigkeit von multivariat normalverteilten Zufallsvariablen durch ihre Varianz-Kovarianz Matrix festgelegt. Insbesondere folgt in einer multivariaten Normalverteilung aus einer verschwindenden Kovarianz bereits die Unabh¨angigkeit, genauer: ist X ∼ Nk (μ, Σ) und gilt Cov(Xi , Xj ) = 0, so sind Xi und Xj unabh¨ angig. Dieser Sachverhalt soll in Aufgabe 1.39 bewiesen werden. Bemerkung 1.21. Weiterhin gelten folgende Resultate (vgl. Georgii (2004), Abschnitt 9.1). (i) Σ = LL ist symmetrisch und nicht negativ definit, denn 2 uT Σu = u LL u = L u ≥ 0 ∀ u ∈ Rk . (ii) Rang(Σ) = Rang(LL ) = Rang(L). Damit ist f¨ ur k = m die Matrix Σ nicht singul¨ ar, andernfalls singul¨ ar. (iii) Die Normalverteilung ist stabil unter linearen Transformationen: Falls
X ∼ Nk μ, Σ und C ∈ Rn×k , so gilt
CX ∼ Nn Cμ, CΣC . (iv) Die einzelnen Komponenten einer multivariaten Normalverteilung sind normalverteilt: Falls X ∼ Nk (μ, Σ), so ist Xi ∼ N (μi , Σii ) f¨ ur i = 1, . . . , k. Weiterhin folgt aus Σ = Ik , dass X1 , . . . , Xk unabh¨angige Zufallsvariablen sind (vgl. Aufgabe 1.39).
1.3 Bedingte Verteilungen Die Einf¨ uhrung in die notwendigen Hilfsmittel wird in diesem Kapitel mit bedingten Verteilungen und dem bedeutsamen bedingten Erwartungswert fortgesetzt. Bedingte Verteilungen. Bedingte Verteilungen verallgemeinern den Begriff der bedingten Wahrscheinlichkeit wesentlich und bilden ein wichtiges Hilfsmittel, zum Beispiel in der Sch¨ atztheorie. Im diskreten Fall geht man eigentlich analog zu dem schon eingef¨ uhrten Begriff der bedingten Wahrscheinlichkeit vor. Seien X, Y diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x, y). Y habe die Wahrscheinlichkeitsfunktion pY (·). Die bedingte Verteilung von X gegeben Y = y mit P(Y = y) > 0 ist definiert durch die Wahrscheinlichkeitsfunktion p(x|y) := P(X = x|Y = y) =
p(x, y) P(X = x, Y = y) = . P(Y = y) pY (y)
(1.13)
F¨ ur stetige Zufallsvariablen X, Y hat man analog folgende Situation: Ist die gemeinsame Dichte p(x, y) und die Dichte von Y gerade pY (·), so definiert
1.3 Bedingte Verteilungen
21
man f¨ ur diejenigen y mit pY (y) > 0 p(x|y) :=
p(x, y) . pY (y)
(1.14)
B 1.3 Bernoulli-Verteilung: Die Summe von unabh¨angigen Bernoulli-Zufallsvariablen ist binomialverteilt: Eine Zufallsvariable X heißt Bernoulli-verteilt, falls X ∈ {0, 1} und P(X = 0) = 0. SeienX1 , . . . , Xn i.i.d. und Bernoulli-verteilt n mit P(X1 = 1) = p, dann ist Y := i=1 Xi gerade Bin(n, p)-verteilt (siehe Aufgabe 1.4). B 1.4 Fortsetzung: Setze X = (X1 , . . . , Xn ) . Dann ist die Verteilung n von X gegeben Y gerade eine Gleichverteilung: F¨ ur x ∈ {0, 1}n mit i=1 xi = y gilt py (1 − p)n−y P(X = x, Y = y) = n y P(X = x|Y = y) = = n−y P(Y = y) y p (1 − p) So hat X|Y = y eine Gleichverteilung auf {x ∈ {0, 1}n :
n
−1 n . y
xi = y}.
i=1
Definition 1.22. Seien X und Y diskrete Zufallsvariablen, X nehme die Werte x1 , x2 , . . . an und es gelte E(|X|) < ∞. Der bedingte Erwartungswert von X gegeben Y = y ist f¨ ur jedes y mit P(Y = y) > 0 definiert durch xi p(xi |y). E(X|Y = y) := i≥1
Sind X, Y stetige Zufallsvariablen mit E(|X|) < ∞, so ist der bedingte Erwartungswert von X gegeben Y = y mit pY (y) > 0 definiert durch E(X|Y = y) := x p(x|y) dx. R
Sei g(y) := E(X|Y = y), dann heißt die Zufallsvariable E(X|Y ) := g(Y ) bedingter Erwartungswert von X gegeben Y . Der bedingte Erwartungswert von X gegeben Y bildet im quadratischen Mittel die beste Vorhersage von X, falls man Y beobachtet (siehe Aufgabe 1.20). B 1.5 Suffiziente Statistik in der Bernoulli-Verteilung: Wir setzen Beispiel 1.3 fort n ur und betrachten X1 , . . . , Xn i.i.d. Bin(1, p) sowie Y := i=1 Xi . Dann gilt f¨ y ∈ {0, . . . , n}
22
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
E(X1 |Y = y) = P(X1 = 1|Y = y)
y−1 p n−1 (1 − p)(n−1)−(y−1) p−1 p n
= y n−y y p (1 − p)
= =
−1 n−1 n · y−1 y
y . n
Damit ergibt sich E(X1 |Y ) = Y n−1 . Man beachte, dass dies eine Zufallsvariable ist. Der Erwartungwert von X1 gegeben der Statistik Y h¨angt nicht mehr vom Parameter p ab. Dies steht im Zusammenhang mit dem in Definition 2.5 eingef¨ uhrten Begriff von Suffizienz. Bemerkung 1.23. Sind X und Y unabh¨ angig, so gibt Y keine neue Information u ¨ber X und der bedingte Erwartungswert ist gleich dem unbedingten Erwartungswert: Unter pY (y) > 0 gilt, dass p(x|y) =
pX (x)pY (y) p(x, y) = = pX (x) pY (y) pY (y)
und somit E(X|Y = y) = E(X) und auch E(X|Y ) = E(X). Bedingte Erwartungswerte lassen sich analog auf mehrdimensionale Zufallsvariablen verallgemeinern. Betrachtet man die zwei Zufallsvariablen X = (X1 , . . . , Xn ) und Y = (Y1 , . . . , Ym ) und beide sind entweder diskret mit gemeinsamer Wahrscheinlichkeitsfunktion P(X = x, Y = y) = p(x, y) oder stetig mit gemeinsamer Dichte p(x, y), so definiert man analog zu (1.13) und (1.14) die bedingte Wahrscheinlichkeitsfunktion bzw. Dichte von X gegeben Y = y f¨ ur alle y mit pY (y) > 0 durch p(x|y) :=
p(x, y) . pY (y)
Ist E(|X|) < ∞, so ist der bedingte Erwartungswert von X gegeben Y = y definiert durch
E(X | Y = y) = (E(X1 |Y = y), . . . , E(Xn |Y = y)) . Mit g(y) := E(X|Y = y) definieren wir den bedingten Erwartungswert von X gegeben Y durch E(X | Y ) := g(Y ).
1.3 Bedingte Verteilungen
23
Satz 1.24 (Substitutionssatz). Sei g : Rn × Rm → R eine messbare Abbildung. Gilt f¨ ur y ∈ Rm , dass pY (y) > 0 und E(|g(X, y)|) < ∞, so ist
E g(X, Y ) | Y = y = E g(X, y) | Y = y . Ein typischer Spezialfall ist g(X, y) = r(X)h(y) mit einer beschr¨ankten Funktion h. Hat r(X) eine endliche Erwartung, so ist E(r(X)h(Y ) | Y = y) = E(r(X)h(y) | Y = y) = h(y) E(r(X) | Y = y). Daraus folgt E(r(X)h(Y )|Y ) = h(Y )E(r(X)|Y ). Oft hat man die zus¨atzliche Annahme, dass X und Y unabh¨ angig sind. Dann folgt unter den obigen Annahmen sogar, dass
E g(X, Y ) | Y = y = E g(X, y) . (1.15) Der Erwartungswert der bedingten Erwartung ist gleich dem Erwartungswert selbst. Dies ist Inhalt des Satzes vom iterierten Erwartungswert. Satz 1.25. Gilt E(|X|) < ∞, so ist
E(X) = E E(X | Y ) .
Beweis. Wir beweisen den eindimensionalen Fall, der mehrdimensionale Fall folgt analog. Zun¨ achst seien X und Y diskrete Zufallsvariablen, mit Werten ur i = 1, 2, . . . . Dann gilt {x1 , x2 , . . . } bzw. {y1 , y2 , . . . }. mit pY (yi ) > 0 f¨ E(E(X|Y )) = pY (yi ) xj p(xj |yi ) i≥1
j≥1
xj p(xj , yi ) pY (yi ) = xj p(xj , yi ) = pY (yi ) i,j≥1 i,j≥1 xj pX (xj ) = E(X). = j≥1
F¨ ur den Beweis des stetigen Falles sei auf Aufgabe 1.19 verwiesen.
Ordnet man eine Stichprobe X1 , . . . , Xn der Gr¨oße nach und bezeichnet man mit X(1) , . . . , X(n) die geordneten Gr¨oßen, so nennt man X(1) , . . . , X(n) Ordnungsgr¨ oßen oder Ordnungsstatistiken der Stichprobe. Die kleinste Ordnungsgr¨ oße X(1) ist das Minimum der Daten und die gr¨oßte Ordnungsgr¨oße
24
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
X(n) das Maximum. Wie im folgenden Beispiel kann man die Verteilung dieser Gr¨ oßen berechnen, wenn die Daten unabh¨angig sind. B 1.6 Minima und Maxima von gleichverteilten Zufallsvariablen: Seien X1 , X2 unabh¨ angig und jeweils U (0, 1)-verteilt. Setze Y := min(X1 , X2 ) und Z := max(X1 , X2 ). Im Folgenden seien x, y, z stets in (0, 1). Die gemeinsame Verteilungsfunktion von Y und Z ist F (y, z) = P(Y ≤ y, Z ≤ z) = 2 P(X1 < X2 , X1 ≤ y, X2 ≤ z) 2 z min(x 2 ,y) z , z
0
Die gemeinsame Dichte erh¨ alt man durch Ableiten der Verteilungsfunktion: ∂ 2 F (y, z) 0, z < y p(y, z) = =2 = 2 1{z≥y} . 1, z ≥ y ∂y∂z Die Dichte von Y ist 1 pY (y) =
1 2dz = 2(1 − y).
p(y, z)dz = 0
y
Damit zeigt sich, dass das Maximum Z gegeben Y auf (y, 1) gleichverteilt ist: p(z|Y = y) =
1 p(y, z) = 1{z≥y} . pY (y) (1 − y)
1.4 Grenzwerts¨ atze In diesem Abschnitt stellen wir die fundamentalen Grenzwerts¨atze f¨ ur arithmetische Mittel vor. Der erste, das Gesetz der großen Zahl, zeigt die Konvergenz des arithmetischen Mittels gegen den Erwartungswert. Das zweite Gesetz, der zentrale Grenzwertsatz, bestimmt die Grenzverteilung des mit √ n skalierten arithmetischen Mittels: Die Normalverteilung. Beide Gesetze sind f¨ ur asymptotische Aussagen (Konsistenz) und zur Verteilungsapproximation bei hinreichend großer Stichprobenzahl in der Statistik von unerl¨aßlicher Bedeutung. F¨ ur Beweise der Aussagen verweisen wir auf Georgii (2004), Kapitel 5. Das Gesetz der großen Zahl stellen wir in seiner schwachen und starken Form vor. In der schwachen Form konvergiert das arithmetische Mittel stochastisch, in der starken Form sogar mit Wahrscheinlichkeit 1.
1.4 Grenzwerts¨ atze
25
Wir betrachten stets einen festen Wahrscheinlichkeitsraum (Ω, A, P). Definition 1.26. Seien X, X1 , X2 , . . . Zufallsvariablen. Die Folge ur jedes > 0 gilt, dass (Xn )n≥1 konvergiert stochastisch gegen X, falls f¨ P |Xn − X| > ) −−−−→ 0. n→∞
Die Folge (Xn )n≥1 konvergiert fast sicher gegen X, falls
P lim Xn = X = 1. n→∞
F¨ ur die beiden Konvergenzarten verwenden wir folgende kompakte Notation: Konvergiert die Folge (Xn ) stochastisch gegen X, so schreiben wir P
Xn −−−−→ X. n→∞
Konvergiert sie hingegen fast sicher, so schreiben wir f.s.
Xn −−−−→ X. n→∞
Aus der fast sicheren Konvergenz folgt stochastische Konvergenz. Die Umkehrung gilt jedoch nicht. F¨ ur die Konvergenz von Zufallsvariablen unter Transformationen hat man folgendes Continuous Mapping Theorem: Satz 1.27. Konvergiert die Folge (Xn )n≥1 stochastisch gegen X und ist die Abbildung g stetig, so gilt P
g(Xn ) −−−−→ g(X). n→∞
Sei M die Menge der Stetigkeitspunkte der Abbildung g, dann gilt der Satz auch, falls nur P(X ∈ M ) = 1, wenn g somit FX -fast sicher stetig ist. Dar¨ uber hinaus gilt der Satz auch, wenn man an Stelle von stochastischer Konvergenz fast sichere oder Konvergenz in Verteilung (wie im folgenden zentralen Grenzwertsatz, Satz 1.31) schreibt. Der dazugeh¨orige Beweis findet sich bei Serfling (1980), Abschnitt 1.7 auf S. 24. Das schwache Gesetz der großen Zahl beweist man mit der TschebyscheffUngleichung, welche sich unmittelbar aus der folgenden Markov-Ungleichung ergibt. Wir setzen R+ := {x ∈ R : x ≥ 0}.
26
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Satz 1.28 (Markov-Ungleichung). Sei f : R+ → R+ eine monoton wachsende Funktion und f (x) > 0 f¨ ur x > 0. Dann gilt f¨ ur alle > 0, dass P(|X| ≥ ) ≤
E (f (|X|)) . f ()
Als Spezialfall erh¨ alt man mit f (x) = x2 die Tschebyscheff-Ungleichung: P(|X − E(X)| ≥ ) ≤
Var(X) . 2
(1.16)
Satz 1.29 (Schwaches Gesetz der großen Zahl). Seien X1 , X2 , . . . paarur alle weise unkorreliert mit E(Xi ) = E(X1 ) und Var(Xi ) < M < ∞ f¨ i ≥ 1 und ein M ∈ R. Dann gilt, dass 1 P Xi −−−−→ E(X1 ). n→∞ n i=1 n
¯ := 1 n Xi , so ist Beweis. Betrachtet man das arithmetische Mittel X i=1 n ¯ = E(X1 ). Mit der Regel von Bienaym´e, (1.4), erh¨alt man E(X) n ¯ = i=1 Var(Xi ) ≤ M . Var(X) n2 n Damit folgt f¨ ur jedes > 0 aus der Tschebyscheff-Ungleichung (1.16), dass ¯ − E(X1 )| ≥ ) ≤ P(|X und somit die Behauptung.
M −−−−→ 0 n2 n→∞
Die Aussage des schwachen Gesetzes der großen Zahl kann man wesentlich versch¨ arfen. Wir geben eine Version mit den geringsten Integrabilit¨ atsbedingungen an, und setzen lediglich die Existenz der Erwartungswerte ussen wir verlangen, dass die Xi i.i.d. sind. der Xi voraus. Im Gegenzug m¨ Die Aussage des folgenden Satzes gilt aber auch unter den Voraussetzungen aus Satz 1.29, allerdings dann mit der Annahme existierender Varianzen.
1.4 Grenzwerts¨ atze
27
Satz 1.30 (Starkes Gesetz der großen Zahl). Seien X1 , X2 , . . . i.i.d. mit E(|X1 |) < ∞. Dann gilt 1 f.s. Xi −−−−→ E(X1 ). n→∞ n i=1 n
F¨ ur den Beweis sei auf Gut (2005), Kapitel 6.6 (Seite 294 – 298) verwiesen. Schließlich geben wir den zentralen Grenzwertsatz an. Sei Φ die Verteilungsfunktion der Standardnormalverteilung, d.h. z x2 1 √ exp − Φ(z) = dx. 2 2π 0 Satz 1.31 (Zentraler Grenzwertsatz). Seien X1 , X2 , . . . i.i.d. mit E(X1 ) := μ und Var(X1 ) := σ 2 < ∞. Dann gilt n 1 Xi − μ ≤ z −−−−→ Φ(z) P √ n→∞ σ n i=1 f¨ ur alle z ∈ R. Die in dem Satz auftretende Konvergenz nennt man auch Verteilungskonvergenz, hier gegen die Standardnormalverteilung N (0, 1). Mit C(FX ) := {x ∈ R : FX (x) ist stetig an x} bezeichnen wir die Menge der Stetigkeitspunkte der Verteilungsfunktion von X, FX . Definition 1.32. Die Folge von Zufallsvariablen (Xn )n≥1 konvergiert in Verteilung gegen X, falls f¨ ur alle x ∈ C(FX ) gilt, dass FXn (x) → FX (x),
n → ∞.
Konvergiert eine Folge (Xn )n≥1 in Verteilung gegen die Standardnormalverteilung, so schreiben wir kurz L
Xn −−−−→ N (0, 1). n→∞
Das mehrdimensionale Analogon von Satz 1.31 nennt man den multivariaten zentralen Grenzwertsatz. Hier gibt es eine Vielzahl von Varianten und
28
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
wir zitieren die Version f¨ ur eine Folge von unabh¨angigen, identisch verteilten Zufallsvektoren aus Bauer (1990) (Satz 30.3, Seite 265). Mit Φk (z; 0, Σ) ist die Verteilungsfunktion einer k-dimensionalen, normalverteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmatrix Σ bezeichnet, siehe auch Abschnitt 1.2.1. Satz 1.33. Seien die k-dimensionalen Zufallsvariablen X1 , X2 , . . . i.i.d. 2 ) < ∞ f¨ ur alle 1 ≤ i ≤ k und j ≥ 1. Setze μ := E(X1 ) und und E(Xij Σ := Var(X1 ). Dann gilt f¨ ur alle z ∈ Rk , dass n 1 (Xi − μ) ≤ z −−−−→ Φk (z; 0, Σ). P √ n→∞ n i=1
F¨ ur die aus dem Satz resultierende (multivariate) Verteilungskonvergenz schreibt man auch 1 L √ (Xi − μ) −−−−→ Nk (0, Σ). n→∞ n i=1 n
Der folgende Satz erlaubt es die Bildung eines Grenzwertes mit dem Erwartungswert unter einer Zusatzbedingung, der Monotonie der zu betrachtenden Folge, zu vertauschen. Eine Alternative zu dieser Zusatzbedingung liefert der Satz der dominierten Konvergenz. F¨ ur einen Beweis beider Aussagen siehe Irle (2005), Satz 8.15 auf Seite 114. Satz 1.34 (Monotone Konvergenz). Sei X1 , X2 , . . . eine Folge von Zufallsvariablen. Gilt 0 ≤ X1 ≤ X2 ≤ . . . , so folgt E lim Xn = lim E(Xn ). n→∞
n→∞
1.4.1 Referenzen Grenzwerts¨ atze sind ein wichtiges Hilfsmittel in der Statistik und werden in diesem Kapitel nur knapp behandelt. F¨ ur eine Vertiefung sei auf die vielf¨altige Literatur verwiesen: Chung (2001), Kapitel 4 in G¨anssler und Stute (1977), Kapitel 9 in Resnick (2003), Billingsley (1986) und Kapitel 15 in Klenke (2008).
1.5 Aufgaben
29
1.5 Aufgaben A 1.1 Die Potenzmenge ist eine σ-Algebra: Sei Ω eine Menge (etwa eine endliche Menge). Die Potenzmenge P(Ω) := {A : A ⊂ Ω} ist eine σ-Algebra. A 1.2 Unkorreliertheit impliziert nicht Unabh¨ angigkeit: Sei X ∼ N (0, 1) eine standardnormalverteilte Zufallsvariable und Y = X 2 . Dann ist Cov(X, Y 2 ) = 0, aber X und Y sind nicht unabh¨ angig. A 1.3 Erwartungstreue der Stichprobenvarianz : Seien X1 , . . . , Xn i.i.d. mit Varianz σ 2 . Die Stichprobenvarianz ist definiert durch 1 ¯ 2. (Xi − X) n − 1 i=1 n
s2 (X) :=
Dann gilt E(s2 (X)) = σ 2 , d.h. die Stichprobenvarianz ist erwartungstreu. A 1.4 Darstellung der Binomialverteilung als Summe von unabh¨ angigen Bernoulli– Zufallsvariablen: Seien X1 , . . . , Xn i.i.d. mit Xi ∈ {0, 1} und P(Xi = 1) = p ∈ (0, 1), 1 ≤ i ≤ n. Dann ist n
Xi ∼ Bin(n, p).
i=1
A 1.5 Erwartungswert und Varianz der Poisson-Verteilung: Zeigen Sie, dass f¨ ur eine zum Parameter λ Poisson-verteilte Zufallsvariable X gilt, dass E(X) = Var(X) = λ. A 1.6 Ged¨ achtnislosigkeit der Exponentialverteilung: Sei X exponentialverteilt mit Intensit¨ at λ. Dann gilt f¨ ur x, h > 0 P(X > x + h | X > x) = P(X > h). A 1.7 Gamma-Verteilung: Unabh¨ angigkeit von bestimmten Quotienten: Seien X ∼ Gamma(a, λ) und Y ∼ Gamma(b, λ) zwei unabh¨angige Zufallsvariablen. ZeiX gen Sie, dass X+Y und X + Y unabh¨ angig sind. A 1.8 Quotienten von Gamma-verteilten Zufallsvariablen: Seien X und Y unabh¨ angig mit X ∼ Exp(β) und Y ∼ Gamma(a, λ) und a > 1. Zeigen Sie, dass
X λ . = E Y β(a − 1)
30
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
A 1.9 Transformationen von Gamma-verteilten Zufallsvariablen: Seien die Zufallsvariablen X ∼ Gamma(a, λ) und Y ∼ Gamma(b, λ) unabh¨angig und c > 0. Dann gilt (i)
X + Y ∼ Gamma(a + b, λ),
(ii)
X ∼ Beta(a, b), X +Y
(iii)
cX
λ ∼ Gamma(a, ). c
Momente und momentenerzeugende Funktion A 1.10 Erwartungswert des Betrages einer Normalverteilung: Sei X ∼ N (μ, σ 2 ) mit einem μ ∈ R und einem σ > 0. Berechnen Sie den Erwartungswert von |X|. A 1.11 Momente der Normalverteilung: Zeigen Sie, dass f¨ ur eine standardnormalverteilte Zufallsvariable X und n ∈ N gilt, dass E(X 2 n ) =
(2 n)! . 2n · n!
A 1.12 Momentenerzeugende Funktion einer Gamma-Verteilung: Es gelte, dass X ∼ Gamma(a, λ). Zeigen Sie, dass f¨ ur s < λ ΨX (s) = E(esX ) =
λa (λ − s)a
gilt. Bestimmen Sie damit den Erwartungswert und die Varianz von X. A 1.13 Momente der Beta-Verteilung: Bestimmen Sie den Erwartungswert und die Varianz einer Beta(a, b)-Verteilung. A 1.14 Zweiseitige Exponentialverteilung: Man nehme an, dass die Zufallsvariablen angig und exponentialverteilt sind mit Xi ∼ Exp(λ), i = X1 und X2 unabh¨ 1, 2. (i) Zeigen Sie, dass Y := X1 − X2 die Dichte p(y) =
1 −λ|y| λe 2
besitzt. Y nennt man dann zweiseitig exponentialverteilt (allerdings mit gleichem Parameter f¨ ur die linke und rechte Halbachse). (ii) Berechnen Sie die momenterzeugende Funktion von Y . A 1.15 Existenz von Momenten niedrigerer Ordnung: Sei X eine (stetige) reellwertige Zufallsvariable. Die so genannte Lp -Norm von X ist definiert durch 1/p X p := (E(|X|p )) . Zeigen Sie, dass f¨ ur n ∈ N
1.5 Aufgaben
31
( X n )n ≤ 1 + ( X n+1 )n+1 . A 1.16 L´evy-Verteilung: Sei X1 , . . . , Xn i.i.d. und X1 sei L´evy verteilt zu den Parametern γ, δ > 0, d.h. X1 hat die Dichte γ 1 γ p(x) = e− 2(x−δ) 1{x>δ} . 3/2 2π (x − δ) Der Parameter δ sei bekannt. Bestimmen Sie die Momenterzeugende Funktion von n 1 T (X) := Xi − δ i=1 und geben Sie explizit deren Definitionsbereich an. Berechnen Sie E(T (X)) und Var(T (X)). A 1.17 Momentenerzeugende Funktion und Momente der Poisson-Verteilung: Sei X ∼ Poiss(λ) mit λ > 0. (i) Zeigen Sie, dass die momentenerzeugende Funktion von X gegeben ist durch s ∈ R. ΨX (s) = exp (λ(es − 1)) , (ii) Verwenden Sie (i) um zu zeigen, dass
E (X − λ)4 = λ + 3λ2 .
Regeln f¨ ur bedingten Verteilungen A 1.18 Die bedingte Verteilung ist ein Wahrscheinlichkeitsmaß : Sei B ∈ A ein Ereignis mit P(B) > 0. Dann ist durch μ(A) := P(A|B) : A → [0, 1] ein Wahrscheinlichkeitsmaß definiert. A 1.19 Erwartungswert der bedingten Erwartung: Sei X eine Zufallsvariable mit ur jede Zufallsvariable Y , dass Dichte pX und E(|X|) < ∞. Dann gilt f¨ E(X) = E(E(X|Y )). A 1.20 Der bedingte Erwartungswert als beste Vorhersage: Im quadratischen Mittel ist der bedingte Erwartungswert die beste Vorhersage der Zufallsvariablen X, wenn man Y beobachtet. Hierzu seien X und Y Zufallsvariablen mit endlicher Varianz. Zeigen Sie, dass f¨ ur alle meßbaren Funktionen g : R → R gilt:
E (X − g(Y ))2 ≥ E (X − E(X|Y ))2 .
32
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
A 1.21 Perfekte Vorhersagen: Seien X, Y reellwertige Zufallsvariablen mit endlicher Varianz. Finden Sie ein nichttriviales Beispiel f¨ ur folgenden Sachverhalt: Bei Kenntnis der Realisation von Y kann die Realisation von X perfekt vorhergesagt werden in dem Sinn, dass E(X|Y ) = X und Var(X|Y ) = 0. Andererseits bringt die Kenntnis der Realisation von X keine Information u ¨ber die Realisation von Y , in dem Sinne, dass Var(Y |X) = Var(Y ). Ein triviales Beispiel ist wie folgt: X ist konstant und Y eine beliebige, reelle Zufallsvariable mit endlicher Varianz. A 1.22 Bedingte Dichte: Beispiele: Sei (X, Y ) ein Zufallsvektor mit der Dichte f (x, y) =
3 y (x + y) 1{0<x<2, 0
Bestimmen Sie die bedingte Dichte fY |X=x (y), y ∈ R, x ∈ (0, 2) und zeigen Sie damit, dass P(Y ≤ 12 | X = 1) = 15 . Zeigen Sie weiterhin, dass Cov(X + 73 . Y, X − Y ) = 100 A 1.23 Poisson-Binomial Mischung: X sei Poisson(λ)-verteilt. Bedingt auf {X = k} sei Y binomialverteilt mit Parameter (k, p):
k l P(Y = l | X = k) = p (1 − p)k−l , 0 ≤ l ≤ k; l mit p ∈ (0, 1). Zeigen Sie mit Hilfe der momentenerzeugenden Funktion, dass Y Poisson-verteilt zum Parameter λp ist. A 1.24 Exponential-Exponential Mischung: Die Zufallsvariable Y sei exponentialverteilt zum Parameter λ. Die Dichte der Zufallsvariablen X gegeben {Y = y} sei die Dichte einer Exponentialverteilung mit Parameter y, also f (x | y) = y e−yx 1{x>0} . Bestimmen Sie die bedingte Dichte von Y gegeben X. A 1.25 Linearit¨ at des bedingten Erwartungswertes: Seien X1 , X2 und Y reelle Zuur i = 1, 2. Dann gilt f¨ ur alle a, b ∈ R, fallsvariablen und E(|Xi |) < ∞ f¨ dass E(aX1 + bX2 |Y ) = aE(X1 |Y ) + bE(X2 |Y ). A 1.26 Bedingte Varianz : Seien X, Y reelle Zufallsvariablen mit E(X 2 ) < ∞. Die bedingte Varianz einer Zufallsvariablen X gegeben Y ist definiert durch
Var(X|Y ) := E (X − E(X|Y ))2 |Y .
1.5 Aufgaben
33
Zeigen Sie, dass Var(X) = Var (E(X|Y )) + E (Var(X|Y )) . A 1.27 Satz von Bayes: Seien X und Y Zufallsvariablen mit endlichem Erwartungswert. Bezeichne q(y|x) die bedingte Dichte von Y gegeben X und p(x|y) die bedingte Dichte von X gegeben Y . Weiterhin sei pX die Dichte von X. Dann gilt pX (x)q(y|x) p(x|y) = . p (z)q(y|z)dz R X Ebenso gilt ein analoges Resultat f¨ ur k-dimensionale Zufallsvariablen. A 1.28 Exponentialverteilung: Diskretisierung: Z sei exponentialverteilt mit Erwartungswert 1 und X := [Z] die gr¨ oßte nat¨ urliche Zahl kleiner gleich Z. Bestimmen Sie die Verteilung von X und berechnen Sie damit E(Z|X). A 1.29 Erwartungswert einer zuf¨ alligen Summe: Seien Y1 , Y2 , . . . i.i.d. mit Yi ≥ 0 und E(Y1 ) < ∞. Weiterhin sei N eine Zufallsvariable mit Werten in 0, 1, 2, . . . , unabh¨ angig von allen Yi . Dann ist N Yi = E(N )E(Y1 ). (1.17) E i=0
Ist N Poisson-verteilt, so gilt (1.17) = λE(Y1 ).
Summen von Zufallsvariablen Um die Verteilung von Summen unabh¨ angiger Zufallsvariablen zu bestimmen, kann man zum einen mit der momentenerzeugenden Funktion oder der charakteristischen Funktion arbeiten, zum anderen auch mit der so genannten Faltungsformel. A 1.30 Faltungsformel : Haben X und Y die Dichten pX und pY und beide sind unabh¨ angig, so ist die Dichte von Z := X + Y gegeben durch pZ (z) = pX (x) pY (z − x) dx. R
A 1.31 Die Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt: Sind die Zufallsvariablen X1 , . . . , Xn unabh¨angig und normalverteilt mit Xi ∼ N (μi , σi2 ), so ist die Summe wieder normalverteilt: n i=1
Xi ∼ N
n i=1
μi ,
n i=1
σi2 .
34
1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik
Allgemeiner erh¨ alt man: Ist eine Zufallsvariable multivariat normalverteilt, X ∼ Nn (μ, Σ), so gilt a X ∼ N (a μ, a Σa). A 1.32 Dichte der χ2 -Verteilung: Seien X1 , . . . , Xn unabh¨ n angige und standardnormalverteilte Zufallsvariablen. Dann folgt Y := i=1 Xi2 einer χ2 -Verteilung mit n Freiheitsgraden. Zeigen Sie, dass die Dichte von Y f¨ ur x > 0 durch p(x) =
n−2 x 1 e− 2 x 2 n 2 2 Γ ( n2 )
gegeben ist. Verwenden Sie hierf¨ ur die Faltungsformel und die Beta-Funktion aus Gleichung (1.9). Zeigen Sie, dass die VerA 1.33 Wohldefiniertheit der nichtzentralen χ2 -Verteilung: k 2 μ angt. Hierf¨ ur kann teilung der χ2k (θ)-Verteilung nur von θ = i=1 i abh¨ man die charakteristische oder die momentenerzeugende Funktion von Z 2 mit Z ∼ N (μ, 1) verwenden. A 1.34 Verteilung der Stichprobenvarianz : Seien X1 , . . . , Xn i.i.d., normalverteilt ur das zentrierte empirische zweite Moment σ 2 (X) := und Var(X1 ) = σ 2 . F¨ n −1 2 ¯ n i=1 (Xi − X) gilt, dass ¯ 2 n σ 2 (X) Xi − X = ∼ χ2n−1 . σ2 σ i=1 n
A 1.35 Mittelwertvergleich bei Gamma-Verteilungen: Seien X1 , . . . , Xn i.i.d. und Gamma(a, λ1 )-verteilt, d.h. X1 hat die Dichte p1 (x) =
λa1 a−1 −λ1 x x e 1{x>0} . Γ (a)
Außerdem seien Y1 , . . . , Yn i.i.d. und Gamma(a, λ2 )-verteilt. Man nehme an, dass die Vektoren (X1 , . . . , Xn ) und (Y1 , . . . , Yn ) unabh¨angig sind. Das arith¯ bzw. Y¯ bezeichnet. Bestimmen Sie die metische Mittel wird wie u ¨blich mit X ¯ X Verteilung der Statistik Y¯ . A 1.36 Rayleigh-Verteilung: Momente und Zusammenhang mit der Normalverteilung: Seien X und Y unabh¨ angig und N (0, σ 2 )-verteilt. Dann ist Z := X 2 + Y 2 −2 2 x Rayleigh-verteilt, d.h. Z hat die Dichte xσ exp(− /2σ ). Es gilt E(Z) = 2 2 π σ π/2, E(Z ) = 2σ und Var(Z) = σ 2 − /2. 2
1.5 Aufgaben
35
Multivariate Normalverteilung A 1.37 Dichte der multivariaten Normalverteilung: Zeigen Sie, dass X ∼ Np (μ, Σ) folgende Dichte hat, falls Rang(Σ) = p:
1 1 −1 (x − μ) · exp − Σ (x − μ) . p(x) = 2 det(Σ)1/2 (2π)p/2
A 1.38 Lineare Transformationen der Normalverteilung: Sei X ∼ Np μ, Σ und C ∈ Rn×p . Dann gilt
CX ∼ Nn Cμ, CΣC . A 1.39 Normalverteilung: Cov(X, Y ) = 0 impliziert Unabh¨ angigkeit: Sei Z = (X, Y ) ∈ R2 und Z ∼ N2 (μ, Σ). Gilt Cov(X, Y ) = 0, so sind X und Y unabh¨ angig. A 1.40 Bedingte Verteilungen der multivariaten Normalverteilung: Seien Xi , i = 1, 2 zwei ki -dimensionale Zufallsvariablen, so dass
X1 μ1 Σ11 Σ12 ∼ Nk , ; Σ12 Σ22 X2 μ2 hier ist k = k1 + k2 , μi ∈ Rki , Σ11 ∈ Rk1 ×k1 , Σ12 ∈ Rk2 ×k1 und Σ22 ∈ Rk2 ×k2 . Dann ist die bedingte Verteilung von X1 gegeben X2 wieder eine Normalverteilung: P(X1 ≤ x1 | X2 = x2 ) = Φk1 (x1 ; μ(x2 ), Σ(x2 )) mit −1 μ(x2 ) = μ1 + Σ11 Σ22 (x2 − μ2 ) −1 Σ(x2 ) = Σ11 − Σ12 Σ22 Σ12 .
Φk1 (x; μ, Σ) bezeichnet die Verteilungsfunktion der k1 -dimensionalen Normalverteilung mit Erwartungswert μ und Kovarianzmatrix Σ an der Stelle x.
Kapitel 2.
Statistische Modelle
Die Formulierung von statistischen Modellen bildet die Grundlage der Statistik. Hierbei werden Modelle ausgew¨ ahlt, welche der Realit¨at zum einen m¨ oglichst gut entsprechen sollen, zum anderen die f¨ ur die statistische Analyse notwendige Handhabbarkeit besitzen. Das statistische Modell beschreibt stets das Ergebnis eines Zufallsexperiments, etwa die Werte einer erhaltenen Stichprobe oder gesammelte Messergebnisse eines Experiments. Somit ist die Verteilung der Zufallsvariable das Schl¨ usselelement. Das statistische Modell ist dann eine geeignete Familie von solchen Verteilungen. Anhand von zwei Beispielen wird im Folgenden die Formulierung von statistischen Modellen illustriert. B 2.1 Qualit¨ atssicherung: Eine Ladung von N Teilen soll auf ihre Qualit¨at untersucht werden. Die Ladung enth¨ alt defekte und nicht defekte Teile. Mit θ sei der Anteil der defekten Teile bezeichnet, von insgesamt N Teilen sind N θ defekt. Aus Kostengr¨ unden wird nur eine Stichprobe von n ≤ N Teilen untersucht. Zur Modellierung verwenden wir keinen festen Wahrscheinlichkeitsraum, sondern lediglich einen Zustandsraum Ω und eine zugeh¨orige σ-Algebra A. In unserem Fall sei Ω = {0, 1, . . . , n} und A die Potenzmenge1 von Ω. Die Zufallsvariable X bezeichne die Anzahl der defekten Teile in der Stichprobe. Erfolgt die Auswahl der Stichprobe zuf¨allig, so kann man ein Laplacesches Modell (vergleiche Seite 10) rechtfertigen und erh¨alt eine hypergeometrische Verteilung f¨ ur X, siehe Beispiel 1.2: N θ N −N θ
P(X = k) =
k
Nn−k
(2.1)
n
f¨ ur max{0, n−N (1−θ)} ≤ k ≤ min{N θ, n} oder kurz X ∼ Hypergeo(N, n, θ). Insgesamt kann man dieses Modell wie folgt zusammenfassen:
{ Ω, A, Hypergeo(N, Ω, θ) : θ unbekannt}. 1
Dies ist in der Tat eine σ-Algebra, wie in Aufgabe 1.1 nachgewiesen wird.
C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 2, c Springer-Verlag Berlin Heidelberg 2011
37
38
2. Statistische Modelle
Dabei bezeichnet (Ω, A, Hypergeo(N, Ω, θ)) den Wahrscheinlichkeitsraum mit dem Wahrscheinlichkeitsmaß, welches einer Hypergeo(N, Ω, θ)-Verteilung entspricht. Dies ist der erste Prototyp eines statistischen Modells bestehend aus einer Familie von Wahrscheinlichkeitsr¨ aumen. Der wesentliche Unterschied zu einem einfachen Wahrscheinlichkeitsraum besteht darin, dass das Wahrscheinlichkeitsmaß nur bis auf den Parameter θ bekannt ist. In dem folgenden Beispiel sollen Messfehler modelliert werden. Eine typische Annahme hierbei ist, dass der Messfehler symmetrisch um 0 verteilt ist.
Definition 2.1. Eine Zufallsvariable X heißt symmetrisch um c verteilt, falls X − c und −(X − c) die gleiche Verteilung besitzen. Daf¨ ur schreiben wir L
X − c = −(X − c).
(2.2)
Hat X die Verteilungsfunktion F und Dichte f , so ist (2.2) ¨aquivalent zu F (c + t) = 1 − F (c − t) f¨ ur alle t > 0. Hieraus folgt, dass f¨ ur die Dichte f (c + t) = f (c − t) f¨ ur alle t ≥ 0 gilt. Ist X hingegen diskret mit der Wahrscheinlichkeitsfunktion p, so ist die Symmetrie von X um c sogar ¨aquivalent zu p(c + t) = p(c − t) f¨ ur alle t ≥ 0. Insbesondere gilt, dass eine Normalverteilung N (μ, σ 2 ) symmetrisch um ihren Erwartungswert μ und eine Binomialverteilung Bin(n, 12 ) symmetrisch um ihren Erwartungswert n2 verteilt ist. Das zweite Beispiel beschreibt typische Ergebnisse einer Messreihe, in welcher wiederholt eine Messung vorgenommen wird und die Messwerte um den gesuchten Parameter schwanken. B 2.2 Meßmodell : Es werden n Messungen einer physikalischen Konstante μ vorgenommen. Die Messergebnisse seien mit X1 , . . . , Xn bezeichnet. Man nimmt an, dass die Messungen einem Messfehler mit stetiger Verteilung unterworfen sind, der additiv um μ variiert: Xi = μ + i ,
i = 1, . . . , n.
Hierbei bezeichnet i den Messfehler der i-ten Messung. Wir unterscheiden typische Annahmen, welche geringe, oft erf¨ ullte Annahmen an physikalische Messungen beschreiben und weitere Annahmen, welche dar¨ uber hinaus die Berechnungen erleichtern. Bevor man allerdings die weiteren Annahmen verwendet, sollte man ihre Anwendbarkeit im konkreten Fall unbedingt einer ¨ kritischen Uberpr¨ ufung unterziehen. Typische Annahmen: (i) Die Verteilung von = (1 , . . . , n ) ist unabh¨angig von μ (kein systematischer Fehler).
2.1 Formulierung von statistischen Modellen
39
(ii) Der Messfehler der i-ten Messung beeinflusst den Messfehler der j-ten Messung nicht, d.h. 1 , . . . , n sind unabh¨angig. (iii) Die Verteilung der einzelnen Messfehler ist gleich, d.h. 1 , . . . , n sind identisch verteilt. (iv) Die Verteilung von i ist stetig und symmetrisch um 0. Aus diesen Annahmen folgt, dass Xi = μ + i gilt, wobei i nach F und symmetrisch um 0 verteilt ist. Dar¨ uber hinaus besitzt Xi eine Dichte und F ist von μ unabh¨ angig. Weitere Annahmen: (v) i ∼ N (0, σ 2 ). (vi) σ 2 ist bekannt. Aus der Annahme (v) folgt, dass Xi ∼ N (μ, σ 2 ) und X1 , . . . , Xn i.i.d. sind. Unter Annahme (vi) ist μ der einzige unbekannte Parameter, was die Handhabung des Modells wesentlich erleichtert. Bei einem konkreten Messdatensatz ist immer zu diskutieren, welche Annahmen realistisch f¨ ur das Experiment sind.
2.1 Formulierung von statistischen Modellen Das Ergebnis eines Zufallsexperiments ist eine so genannte Stichprobe. Darunter verstehen wir einen Zufallsvektor X = (X1 , . . . , Xn ) . Falls man konkrete Daten x = (x1 , . . . , xn ) beobachtet, so ist dies gleichbedeutend mit dem Ereignis {X = x}. Wir verwenden stets die Bezeichnung X f¨ ur die Zufallsvariable und x f¨ ur konkrete, nicht zuf¨allige Daten. Im Folgenden ist der Grundraum Ω wie auch die zugeh¨ orige σ-Algebra A fest.
Definition 2.2. Unter einem statistischen Modell verstehen wir ganz allgemein eine Familie P von Verteilungen. F¨ ur ein statistisches Modell P verwenden wir stets die Darstellung P = {Pθ : θ ∈ Θ}, wobei Pθ f¨ ur alle θ ∈ Θ ein Wahrscheinlichkeitsmaß ist. Θ heißt Parameterraum. In dem Beispiel 2.1 (Qualit¨ atssicherung) ist das statistische Modell gerade P = {Hypergeo(N, n, θ) : θ ∈ [0, 1]}.
40
2. Statistische Modelle
In dem Beispiel 2.2 (Messfehler) f¨ uhren die unterschiedlichen Annahmen zu jeweils unterschiedlichen statistischen Modellen: Unter den Annahmen (i)(iv) erh¨ alt man {X1 , . . . , Xn i.i.d. ∼ F : F ist symmetrisch um μ}. Hierbei induziert jede um μ symmetrische Verteilung F ein Wahrscheinlichkeitsmaß PF (A) als Produktmaß der einzelnen Verteilungen F durch die i.i.d.Annahme. Die f¨ uhrt unmittelbar zu einer Darstellung wie in Definition 2.2 gefordert. Nimmt man die Normalverteilungssannahme hinzu, erh¨alt man unter (i)-(v) {X1 , . . . , Xn i.i.d. ∼ N (μ, σ 2 ) : μ ∈ R, σ 2 > 0}. Hierbei sind sowohl μ als auch σ unbekannt. Im Gegensatz zu dem interessierenden Parameter μ ist σ nicht prim¨ ar von Interesse, muss aber ebenso gesch¨ atzt werden. Man nennt einen solchen Parameter St¨ orparameter (Nuisance Parameter). Unter den Annahmen (i)-(vi) ist σ dar¨ uber hinaus bekannt und man erh¨alt als Modell {X1 , . . . , Xn i.i.d. ∼ N (μ, σ 2 ) : μ ∈ R}. Es gibt zahlreiche M¨ oglichkeiten ein Modell zu parametrisieren. Jede bijektive Funktion g(θ) eignet sich zur Parametrisierung. Es sollten jedoch Parametrisierungen gew¨ ahlt werden, die eine Interpretation zulassen. Manchmal verlieren solche Parametrisierungen ihre Eindeutigkeit, in diesem Fall spricht man von der Nichtidentifizierbarkeit von Parametern. Definition 2.3. Ein statistisches Modell P heißt identifizierbar, falls f¨ ur alle θ1 , θ2 ∈ Θ gilt, dass θ1 = θ2 ⇒ Pθ1 = Pθ2 .
B 2.3 Ein nicht identifizierbares Modell : Es werden zwei Messungen erhoben, die von gewissen Faktoren abh¨ angen. Es gibt einen Gesamteffekt (overall effect) uhrt zu folgender Modellierung: Seien X1 ∼ μ und einen Faktoreffekt αi . Das f¨ angig. Setzen wir θ = (μ, α1 , α2 ) , N (μ+α1 , 1) und X2 ∼ N (μ+α2 , 1) unabh¨ so erhalten wir ein statistisches Modell durch2 Pθ = {N (μ + α1 , 1) ⊗ N (μ + α2 , 1) : μ ∈ R, αi ∈ R}. Betrachtet man 2
Mit ⊗ bezeichnen wir die gemeinsame Verteilung von X1 und X2 , die aufgrund der Unabh¨ angigkeit durch das Produkt der Dichten bestimmt ist.
2.1 Formulierung von statistischen Modellen
41
θ1 = (2, 0, 0) ⇒ X1 ∼ N (2, 1), X2 ∼ N (2, 1), θ2 = (1, 1, 1) ⇒ X1 ∼ N (2, 1), X2 ∼ N (2, 1), so folgt, dass Pθ1 = Pθ2 ; der Faktoreffekt vermischt sich mit dem Gesamteffekt. Allerdings ist θ1 = θ2 , d.h. dieses statistische Modell ist nicht identifizierbar. Eine weitere Einschr¨ ankung wie α1 + α2 = 0 kann zur Identifizierbarkeit genutzt werden. Ist Θ ⊂ Rk , so spricht man von einem parametrischen Modell , ansonsten von einem nichtparametrischen Modell. Die Zustandsr¨aume Θ1 = {F : F ist Verteilungsfunktion symmetrisch um μ} und Θ2 = {(μ, p) : μ ∈ R, p ist Dichte und symmetrisch um 0} implizieren zum Beispiel nichtparametrische Modelle. In diesem Buch beschr¨ anken wir uns im Wesentlichen auf parametrische Modelle. Kann die parametrische Annahme verifiziert werden, so ist man in der Lage, sch¨ arfere Aussagen zu treffen. Ist dies nicht der Fall, so m¨ ussen nichtparametrische Methoden angewendet werden. Hierf¨ ur sei auf Gibbons und Chakraborti (2003) sowie Sprent und Smeeton (2000) verwiesen. Definition 2.4. Ein statistisches Modell P heißt regul¨ ar, falls eine der folgenden Bedingungen erf¨ ullt ist: (i) Alle Pθ , θ ∈ Θ, sind stetig mit Dichte pθ (x). (ii) Alle Pθ , θ ∈ Θ, sind diskret mit Wahrscheinlichkeitsfunktion pθ (x). Im Folgenden schreiben wir f¨ ur ein regul¨ares Modell oft P = {p(·, θ) : θ ∈ Θ}, wobei durch p(x, θ) := pθ (x) die entsprechende Dichte oder Wahrscheinlichkeitsfunktion gegeben ist. B 2.4 Meßmodell : Regul¨ are Modelle erh¨ alt man etwa durch das Meßmodell aus Beispiel 2.2. Unter den Annahmen (i)-(iv) und der zus¨atzlichen Annahme, dass das Modell eine Dichte hat, ist die gemeinsame Dichte durch p(x, θ) =
n
fθ (xi − μ)
i=1
angige und um 0 symmetrische Dichte gegeben, wobei fθ eine von μ unabh¨ ist. Gilt dar¨ uber hinaus die Normalverteilungsannahme (v), so erh¨alt man mit θ = (μ, σ) , dass
42
2. Statistische Modelle
p(x, θ) =
wobei φ(x) =
√1 2π
e−
x2 2
n 1 φ σ i=1
xi − μ σ
,
die Dichte der Standardnormalverteilung ist.
Das Ziel einer statistischen Analyse ist es aus den vorliegenden Daten zu uckt: schließen, welche Verteilung Pθ wirklich vorliegt, oder anders ausgedr¨ Welcher Parameter θ den beobachteten Daten zugrunde liegt. Im Gegensatz hierzu geht man in der Wahrscheinlichkeitstheorie von einer festen Verteilung Pθ aus und berechnet interessierende Wahrscheinlichkeiten eines bestimmten Ereignisses. Um die vorhandenen Daten bestm¨oglich auszunutzen, muss die statistische Untersuchung f¨ ur das Problem speziell angepasst sein, weswegen eine statistische Fragestellung h¨ aufig von dem Problem selbst abh¨angt: In dem Kontext der Qualit¨ atssicherung (Beispiel 2.1) m¨ochte man wissen, ob die Lieferung zu viele defekte Teile enth¨alt, d.h. gibt es einen kritischen Wert θ0 , so dass man die Lieferung akzeptiert, falls θ ≤ θ0 und sie ablehnt, falls θ > θ0 . Unter welchen Gesichtspunkten kann man ein solches θ0 bestimmen? Dies f¨ uhrt zu statistischen Hypothesentests, welche im Kapitel 5 vorgestellt werden. In dem Messmodel aus Beispiel 2.2 soll der unbekannte Parameter μ gesch¨ atzt werden. Ein m¨ oglicher Punktsch¨ atzer ist durch den arithmetischen Mittelwert gegeben: n ¯ := 1 X Xi . (2.3) n i=1 Wie man einen solchen Sch¨ atzer bestimmen kann und welche Optimalit¨ atseigenschaften bestimmte Sch¨ atzer haben wird in den Kapiteln 3 und 4 untersucht. Folgende Problemstellungen sind in der Statistik zu untersuchen: • • •
Wie erhebt man die Daten? Welche Fragestellungen m¨ ochte man untersuchen? Welches statistische Modell nimmt man an?
Diese Fragestellungen sollten als Einheit betrachtet werden und folglich nicht getrennt voneinander untersucht werden. Wie schon beschrieben liegt der Schwerpunkt dieses Buches auf statistischen Analyseverfahren, welche von einem gew¨ ahlten statistischen Modell ausgehen. Die Wahl eines geeigneten Modells h¨ angt von den erhobenen Daten und den interessierenden Fragestellungen ab. Dabei ist die Einbeziehung von Sachwissen aus dem Datenzusammenhang von entscheidender Bedeutung, um eine realistische statistische Modellierung zu erlangen.
2.2 Suffizienz
43
2.2 Suffizienz Nach der Wahl des statistischen Modells m¨ochte man irrelevante Informationen aus der Vielzahl der erhobenen Daten herausfiltern, welches zu einer Datenreduktion f¨ uhrt, etwa wie in Gleichung (2.3) durch den Mittelwert der Daten. Formal gesehen, sind die erhobenen Daten durch den Zufallsvektor X = (X1 , . . . , Xn ) charakterisiert. Dies bedeutet, dass die erhobenen Datenwerte als Realisationen von X angesehen werden. Unter einer Statistik versteht man eine Funktion von der Daten, etwa dargestellt durch T := T (X). T wird als eine Zufallsvariable auf dem Ereignisraum Ω betrachtet. Man verwendet die erhobenen Daten, um einen Sch¨atzwert f¨ ur den gesuchten Parameter zu berechnen, was man einen Punktsch¨ atzwert nennt. Der zugeh¨orige Punktsch¨ atzer ist somit eine Zufallsvariable, die von X abh¨angt. Aus diesem Grund ist ein Punktsch¨ atzer auch eine Statistik. ur alle Realisierungen x1 , x2 mit gleichen CharakGilt T (x1 ) = T (x2 ) f¨ teristika des Experiments, so reicht es aus nur den Wert der Statistik T (x) und nicht den ganzen Datenvektor x zu kennen. Das heißt, im Vergleich zur Kenntnis von X geht f¨ ur die Statistik T keine Information verloren. Dies wird in folgendem Beispiel illustriert. B 2.5 Qualit¨ atssicherung, siehe Beispiel 2.1 : Wir betrachten eine Stichprobe von n Objekten einer Population. Wir definieren die Bernoulli-Zufallsvariablen X1 , . . . , Xn durch Xi = 1, falls das i-te Teil der Stichprobe defekt ist, und andernfalls Xi = 0 und setzen X = (X1 , . . . , Xn ) . Wir interessieren uns f¨ ur die Anzahl der defekten Teile der Stichprobe und betrachten daher die Statistik n T (X) = Xi . i=1
Ist n = 2 und gibt es zwei defekte Teile in der Stichprobe, so ist dies beschrieben durch die drei m¨ oglichen Realisierungen x1 = (1, 0, 1),
x2 = (0, 1, 1),
x3 = (1, 1, 0).
Es gilt T (x1 ) = T (x2 ) = T (x3 ). Ist man an der Anzahl der defekten Teile interessiert, so ist diese Information vollst¨andig in der Statistik T (X) enthalten. Ein Sch¨ atzer T (X) reduziert die in X enthaltene Information auf eine einzelne Gr¨ oße. M¨ ochte man einen Parameter sch¨atzen, so ist es wesentlich zu wissen, ob durch diese Reduktion wichtige Information verloren geht oder nicht. Ist eine Statistik suffizient f¨ ur den Parameter θ, so ist das nicht der Fall. Betrachtet wird das statistische Modell P = {Pθ : θ ∈ Θ}.
44
2. Statistische Modelle
Definition 2.5. Eine Statistik T (X) heißt suffizient f¨ ur θ, falls die bedingte Verteilung von X gegeben T (X) = t nicht von θ abh¨angt. Die Interpretation dieser Definition ist wie folgt: Falls man den Wert der suffizienten Statistik T kennt, dann enth¨ alt X = (X1 , . . . , Xn ) keine weiteren Informationen u ur die Zufallsvariable X ¨ber θ. Kurz schreiben wir f¨ bedingt auf T (X) = t X | T (X) = t. B 2.6 Qualit¨ atssicherung, siehe Beispiel 2.1 : Betrachtet wird die Zufallsvariable X gegeben durch X = (X1 , . . . , Xn ) , wobei Xi ∈ {0, 1} ist. Xi hat den Wert 1, falls das i-te Teil defekt ist und sonst 0. Wir nehmen an, dass die angig sind und Pθ (Xi = 0) = θ, wobei θ der unbekannte Parameter Xi unabh¨ ist. Sei x = (x1 , . . . , xn ) ∈ {0, 1}n der Vektor der beobachteten Werte und n S(x) := i=1 xi . Das zugrundeliegende statistische Modell ist {Pθ : θ ∈ [0, 1]} mit Pθ (X1 = x1 , . . . , Xn = xn ) = θS(x) (1 − θ)n−S(x) . n F¨ ur die bedingte Verteilung von X gegeben S(X) = i=1 Xi erh¨alt man nach Beispiel 1.3 von Seite 21: P(X = x S(X) = t) =
−1 n . t
Dieser Ausdruck ist unabh¨ angig von θ, also ist S(X) eine suffiziente Statistik f¨ ur den Parameter θ. Damit ist auch der arithmetische Mittelwert ¯ = n−1 S(X) eine suffiziente Statistik f¨ ur θ. X Bemerkung 2.6. Falls T (X) suffizient f¨ ur θ ist, dann kann man Daten x mit der gleichen Verteilung wie X folgendermaßen erzeugen, ohne θ zu kennen: Ist t = T (x) f¨ ur eine Realisierung x von X, so erzeuge x nach der Verteilung X|T (X) = t (h¨ angt aufgrund der Suffizienz nicht von θ ab). Wir beweisen die Aussage f¨ ur diskrete Zufallsvariablen. Sei X die Zufallsvariable mit Realisierung x . F¨ ur jedes t mit P(T (X) = t ) > 0 gilt, dass P(X = x , T (X) = t ) = P(X = x |T (X) = t ) · P(T (X) = t )
(Def. von X )
= P(X = x |T (X) = t ) · P(T (X) = t ) = P(X = x , T (X) = t ),
und somit hat X die gleiche Verteilung wie X. B 2.7 Warteschlange: Die Ankunft von Kunden an einem Schalter folgt einem Poisson-Prozess mit Intensit¨ at θ, falls folgende Annahmen erf¨ ullt sind: allige Anzahl der Kunden, welche zum Zeitpunkt t ≥ 0 Bezeichne Nt die zuf¨
2.2 Suffizienz
45
angekommen sind. Die Poisson-Verteilung wurde in Gleichung (1.5) auf Seite 10 definiert. (i) N0 = 0, angig von Ns f¨ ur alle 0 ≤ s ≤ t und alle h > 0, (ii) Nt+h − Nt ist unabh¨ ur alle t ≥ 0 und h > 0. (iii) Nt+h − Nt ∼ Poiss(θh) f¨ Insbesondere folgt aus (iii), dass Nt ∼ Poiss(θt). Eine Illustration des PoissonProzesses (Nt )t≥0 findet sich in Abbildung 2.1.
4 3 2 1 0
0X 1 1
2X 3 2
4
5
6
7
Abb. 2.1 Realisation eines Poisson-Prozesses. Die Sprungzeitpunkte stellen Ank¨ unfte von neuen Kunden an einer Warteschlange dar. Xi ist die verstrichene Zeit zwischen der Ankunft des i-ten und des i − 1-ten Kunden.
Mit Xi sei die verstrichene Zeit zwischen der Ankunft des i-ten und des i − 1-ten Kunden bezeichnet, X1 sei die Zeit bis zur Ankunft des ersten Kunden. Dann folgt aus (iii), dass P(X1 > t) = P(N (t) = 0) = exp(−θt), demzufolge ist X1 exponentialverteilt mit dem Parameter θ. Aus Aufgabe 2.1 erh¨ alt man, dass Xi ∼ Exp(θ) und die Unabh¨angigkeit von X1 , X2 , . . . . Wir betrachten zun¨ achst nur X1 und X2 , der allgemeine Fall wird in Beispiel 2.8 betrachtet. Setze T (X) := X1 + X2 . Dann ist T (X) suffizient f¨ ur θ: Wir berechnen die bedingte Dichte durch die Gleichung (1.14). Die gemeinsame Dichte ist3 pX (x1 , x2 , θ) = 1{x1 ,x2 >0} θe−θx1 · θe−θx2 . 3
Wir definieren 1{x1 ,x2 >0} :=
1 0
x1 , x2 > 0, und analog 1A (x) = sonst.
1 0
x ∈ A, sonst.
46
2. Statistische Modelle
Ziel ist es den Transformationssatz (Satz 1.3) in geschickter Weise anzuwenden. Wir w¨ ahlen folgende Transformation g : R+ × R+ → R+ × [0, 1] mit
y := g(x) = x1 + x2 ,
x1 x1 + x2
.
Damit ist g −1 (y) = (y1 y2 , y1 − y1 y2 ) und ∂x1 ∂x2 y 1 − y2 Jg−1 (y1 , y2 ) = | ∂y1 ∂y1 | = | 2 | = | − y1 | = y1 . y1 −y1 ∂x1 ∂x2 ∂y2 ∂y2 Die Anwendung des Transformationssatzes liefert die Dichte von Y := g(X), pY (y) = 1{y1 >0,y2 ∈[0,1]} θ2 y1 · e−θ(y1 y2 +y1 −y1 y2 ) θ2 y1 e−y1 θ · 1{y2 ∈[0,1]} Γ (2) = pY1 (y1 ) · pY2 |Y1 (y2 |y1 ).
= 1{y1 >0}
(2.4)
Der Gleichung (2.4) entnimmt man, dass die Dichte von Y das Produkt von Dichten einer Gamma(2, θ) und einer U (0, 1)-Verteilung ist (vergleiche (1.10)). Weiterhin ist pY2 |Y1 (y2 |y1 ) unabh¨ angig von y1 . Damit folgt, dass Y2 unabh¨ angig von Y1 = X1 + X2 = T und dar¨ uber hinaus U (0, 1)-verteilt ist. Man erh¨ alt nach einer Regel f¨ ur bedingte Erwartungswerte aus Gleichung (1.15), dass
x P X1 ≤ x | T = t = P T Y2 ≤ x | T = t = P(tY2 ≤ x) = , t f¨ ur x ∈ [0, t] ist. Demnach ist X1 bedingt auf T = t gleichverteilt auf [0, t]. alt man, dass der Vektor X bedingt auf T = t verteilt Durch X2 = T −X1 erh¨ ist wie (Z, t − Z), wobei Z ∼ U (0, t). Es folgt, dass X bedingt auf T = t unabh¨angig von θ ist und somit T suffiziente Statistik f¨ ur θ ist. Diesem Beispiel liegt die Aussage zugrunde, dass bedingt auf Nt = n die Zwischenankunftszeiten von N verteilt sind wie Ordnungsstatistiken von gleichverteilten Zufallsvariablen (siehe dazu: Rolski, Schmidli, Schmidt und Teugels (1999), Seite 502). Das oben genannte Beispiel zeigt auf, wie schwierig es ist, Suffizienz im Einzelnen nachzuweisen. Mit dem folgenden Satz von Fisher, Neyman, Halmos und Savage kann man Suffizienz oft leichter zeigen. F¨ ur diesen Satz nehmen wir an, dass die Werte der Statistik T in Θ liegen.
2.2 Suffizienz
47
Satz 2.7 (Faktorisierungssatz). Sei P = {p(·, θ) : θ ∈ Θ} ein regul¨ ares Modell. Dann sind ¨aquivalent: (i) T (X) ist suffizient f¨ ur θ. (ii) Es existiert g : Θ × Θ → R und h : Rn → R, so dass f¨ ur alle x ∈ Rn und θ ∈ Θ p(x, θ) = g(T (x), θ) · h(x).
Beweis. Wir f¨ uhren den Nachweis nur f¨ ur den diskreten Fall. X nehme die Werte x1 , x2 , . . . an. Setze ti := T (xi ). Dann ist T = T (X) eine diskrete Zufallsvariable mit Werten t1 , t2 , . . . . Wir zeigen zun¨achst, dass (ii) ⇒ (i). Aus (ii) folgt, dass p(x, θ) = g(ti , θ) · h(x). (2.5) Pθ (T = ti ) = {x:T (x)=ti }
{x:T (x)=ti }
F¨ ur θ ∈ Θ mit Pθ (T = ti ) > 0 gilt Pθ (X = xj |T = ti ) =
Pθ (X = xj , T = ti ) . Pθ (T = ti )
Dieser Ausdruck ist 0 und damit unabh¨angig von θ, falls T (xj ) = ti . Gilt hingegen T (xj ) = ti , so ist Pθ (X = xj |T = ti ) =
g(ti , θ) h(xj ) Pθ (T = ti )
(2.5)
=
g(t , θ)h(xj ) i = g(ti , θ) · h(x)
{x:T (x)=ti }
h(x ) j
h(x)
.
{x:T (x)=ti }
Da auch dieser Ausdruck unabh¨ angig von θ ist, ist T (X) suffizient f¨ ur θ. Es bleibt zu zeigen, dass (i) ⇒ (ii). Sei also T eine suffiziente Statistik f¨ ur θ und setze g(ti , θ) := Pθ (T (X) = ti ) , h(x) := Pθ (X = x|T (X) = T (x)). Dabei ist h unabh¨ angig von θ, da T (x) suffizient ist. Es folgt, dass p(x, θ) = Pθ (X = x, T (X) = T (x)) = Pθ (X = x|T (X) = T (x)) · Pθ (T (X) = T (x)) = h(x) · g(T (x), θ)
48
2. Statistische Modelle
und somit die behauptete Faktorisierung in (ii).
B 2.8 Warteschlange, Fortsetzung von Beispiel 2.7: Seien X = (X1 , . . . , Xn ) die ersten n Zwischenankunftszeiten eines Poisson-Prozesses. Dann sind angig und Xi ∼ Exp(θ). Die Dichte von X ist demnach X1 , . . . , Xn unabh¨ −θ
n
xi
p(x, θ) = 1{x1 ,...,xn ≥0} θ e i=1 . n Die Statistik T (X) := i=1 Xi ist suffizient f¨ ur θ: In der Tat, w¨ahle g(t, θ) = θn exp{−θt} und h(x) = 1{x1 ,...,xn ≥0} . Dann ist die Bedingung (ii) von Satz 2.7 erf¨ ullt und somit T suffizient f¨ ur θ. Ebenso ist das arithmetische Mittel eine suffiziente Statistik f¨ ur θ. n
B 2.9 Geordnete Population: Sch¨ atzen des Maximums: Betrachtet werde eine Population mit θ Mitgliedern. Dabei seien die Mitglieder geordnet und mit 1, 2, . . . , θ nummeriert. Man ziehe n-mal zuf¨allig mit Zur¨ ucklegen von der uhrt zu einem LaplaPopulation. Xi sei das Ergebnis des i-ten Zuges. Dies f¨ ur alle k ∈ {1, . . . , θ}. Dar¨ uber hinaus ceschen Modell: P(Xi = k) = θ−1 f¨ angig. Damit ist die gemeinsame Verteilung sind die Xi unabh¨ p(x, θ) =
n
p(xi , θ) = θ−n 1{xi ∈{1,...,θ},1≤i≤n} .
i=1
Die Statistik T (X) := max Xi i=1,...,n
ist suffizient f¨ ur θ: Durch die Wahl von g(t, θ) := θ−n · 1{t≤θ} und h(x) := alt man dies aus dem Faktorisierungssatz, Satz 2.7. 1{xi ∈{1,...,θ},1≤i≤n} erh¨ B 2.10 Suffiziente Statistiken f¨ ur die Normalverteilung: Betrachtet man eine Stichprobe von normalverteilten Daten, so bilden das arithmetische Mittel und die Stichprobenvarianz zusammen einen suffizienten Sch¨atzer: Seien die Zufallsvariablen X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ 2 ). Gesucht ist der Parametervektor θ = (μ, σ 2 ) , d.h. der Erwartungswert μ und die Varianz σ 2 sind ¯ und die Stichprobenvarianz s2 (X) unbekannt. Das arithmetische Mittel X wurden in Beispiel 1.1 definiert. Die Dichte von X = (X1 , . . . , Xn ) ist n
2 1 1 xi − μ exp − 2 . p(x, θ) = 2σ i=1 (2πσ 2 )n/2 Zun¨ achst betrachten wir T1 (X) := und
n i=1
Xi ,
n i=1
Xi2
. Mit h(x) := 1
n n 2 1 1 − nμ 2 e 2σ2 exp − 2 xi − 2μ xi g(T1 (x), θ) := 2σ (2πσ 2 )n/2 i=1 i=1
2.3 Exponentielle Familien
49
ist p(x, θ) = g(T1 (x), θ)h(x). Folglich ist T1 (X) f¨ ur θ suffizient. Der zuf¨allige Vektor T2 , definiert durch
¯ X T2 (X) := 2 s (X) ¯ = 1 n Xi und s2 (X) = 1 n (X 2 − ist ebenfalls suffizient, denn X i i=1 i=1 n n−1 ¯ 2 ) nach Aufgabe 2.2. (X)
2.3 Exponentielle Familien Wir bezeichnen mit 1{x∈A} die Indikatorfunktion mit Wert Eins falls x ∈ A ist und Null sonst. Die folgende Definition f¨ uhrt exponentielle Familien f¨ ur zun¨ achst einen Parameter ein. K-parametrige exponentielle Familien werden in Definition 2.14 vorgestellt. Definition 2.8. Eine Familie von Verteilungen {Pθ : θ ∈ Θ} mit Θ ⊂ R heißt eine einparametrige exponentielle Familie, falls Funktionen c, d : Θ → R und T, S : Rn → R und eine Menge A ⊂ Rn existieren, so dass die Dichte oder Wahrscheinlichkeitsfunktion p(x, θ), x ∈ Rn von Pθ durch p(x, θ) = 1{x∈A} · exp c(θ) · T (x) + d(θ) + S(x) (2.6) dargestellt werden kann. Es ist wesentlich, dass A hierbei unabh¨angig von θ ist. Die Funktion d(θ) kann als Normierung aufgefasst werden. An dieser Stelle soll betont werden, dass die Verteilung einer mehrdimensionalen Zufallsvariable durchaus zu einer einparametrigen exponentiellen Familie geh¨oren kann. Diese wird allerdings nur von einem eindimensionalen Parameter aufgespannt. Die N¨ utzlichkeit dieser Darstellung von Verteilungsklassen erschließt sich durch folgende Beobachtung: T (X) ist stets suffiziente Statistik f¨ ur θ; dies folgt aus dem Faktorisierungssatz 2.7 mit
g(t, θ) = exp c(θ)t + d(θ) und h(x) = 1{x∈A} · exp(S(x)). T heißt nat¨ urliche suffiziente Statistik oder kanonische Statistik. Eine Vielzahl von Verteilungen lassen sich als exponentielle Familien schreiben. Wir stellen die Normalverteilung in verschiedenen Varianten vor, und es folgen die Binomialverteilung, die Poisson-Verteilung, die Gamma- und die BetaVerteilung. Die Verteilung einer Stichprobe, welche aus i.i.d. Zufallsvariablen einer exponentiellen Familie entsteht, bildet erneut eine exponentielle Fa-
50
2. Statistische Modelle
milie, wie in Bemerkung 2.10 gezeigt wird. Die beiden folgenden Beispiele zeigen die Normalverteilung als einparametrige exponentielle Familie. Da die Normalverteilung durch zwei Parameter beschrieben wird, muss jeweils einer festgehalten werden, um eine einparametrige Familie zu erhalten. Die Normalverteilung als zweiparametrige exponentielle Familie wird in Beispiel 2.17 vorgestellt. Ist c(θ) = θ in Darstellung (2.6), so spricht man von einer nat¨ urlichen exponentiellen Familie. Jede exponentielle Familie hat eine Darstellung als nat¨ urliche exponentielle Familie, was man stets durch eine Reparametrisierung erreichen kann: Mit η := c(θ) erh¨ alt man die Darstellung (2.7) p0 (x, η) = 1{x∈A} exp η · T (x) + d0 (η) + S(x) . Ist p0 eine Dichte, so ist die zugeh¨ orige Normierungskonstante gegeben durch
exp ηT (x) + S(x) dx , (2.8) d0 (η) := − ln A
was a ¨quivalent ist zu p0 (x, η)dx = 1. Ist p0 hingegen eine Wahrscheinlichkeitsfunktion und nimmt X die Werte x1 , x2 , . . . an, so gilt
exp ηT (xi ) + S(xi ) . d0 (η) := − ln (2.9) xi ∈A
Bemerkung 2.9. Ist c : Θ → R eine injektive Funktion, so ist die Normierungskonstante einfacher zu bestimmen, denn in diesem Fall folgt ur ein θ ∈ Θ, so folgt d0 (η) = d(c−1 (η)). Gilt weiterhin, dass η = c(θ) f¨ d0 (η) = d(θ) < ∞, da p(·, θ) eine Dichte bzw. eine Wahrscheinlichkeitsfunktion ist. B 2.11 Normalverteilung mit bekanntem σ: Ausgehend von dem Meßmodell aus Beispiel 2.2 und den dortigen Annahmen (i)-(vi) betrachten wir ein festes σ02 und das statistische Modell P = Pμ = N (μ, σ02 ) : μ ∈ R . Dann ist P eine einparametrige exponentielle Familie, denn die zu Pμ zugeh¨ orige Dichte l¨ asst sich schreiben als
2 1 1 x − μ exp − p(x, μ) = 2σ02 2πσ02
2
x μ −μ2 2 ·x+ − + ln 2πσ0 = exp . (2.10) σ02 2σ02 2σ02
2.3 Exponentielle Familien
51
2 2 x 2 Mit c(μ) := σμ2 , T (x) := x, d(μ) := −μ und S(x) := − + ln 2πσ 2 2 0 2σ0 2σ0 0 sowie A := R erh¨ alt man die Gestalt (2.6). B 2.12 Normalverteilung mit bekanntem μ: Anders als in dem vorausgegangenen Beispiel nehmen wir nun an, dass der Erwartungswert der Normalverteilung uhrt zu dem statistischen Modell bekannt ist, etwa μ0 . Dies f¨ P = Pσ2 = N (μ0 , σ 2 ) : σ > 0 . Die zugeh¨ orige Dichte hat, analog zu Gleichung (2.10), die Gestalt
√ 1 2 2 2 p(x, σ ) = exp − 2 (x − μ0 ) − ln 2πσ . 2σ
√ Mit der Wahl von c(σ 2 ) := − 2σ1 2 , T (x) := (x − μ0 )2 , d(σ 2 ) := − ln 2πσ 2 und S(x) := 0, sowie A := R erh¨ alt man eine Darstellung in der Form (2.6) und somit ist P ebenfalls eine exponentielle Familie. B 2.13 Binomialverteilung: Nicht nur stetige Verteilungen lassen sich als exponentielle Familien beschreiben, sondern auch diskrete Verteilungen. Die Binomialverteilung ist zum Beispiel eine exponentielle Familie: Die Wahrscheinlichkeitsfunktion einer Bin(n, θ)-Verteilung ist f¨ ur k ∈ {0, . . . , n}
θ n n k + n · ln(1 − θ) + ln . p(k, θ) = θ (1 − θ)n−k = exp k · ln k 1−θ k θ
, T (k) = k, d(θ) = n ln(1 − θ), und S(k) = Mit der Wahl von c(θ) = ln 1−θ n
ln k , sowie A = {0, 1, . . . , n} ergibt sich die Darstellung (2.6). Die Familie der Binomialverteilungen, gegeben durch ihre Wahrscheinlichkeitsfunktionen {p(·, θ) : θ ∈ (0, 1)}, ist demzufolge eine exponentielle Familie. B 2.14 Die U (0, θ)-Verteilung ist keine exponentielle Familie: Als wichtiges Gegenbeispiel f¨ ur Verteilungen, welche nicht als exponentielle Familie darstellbar sind, betrachte man eine Gleichverteilung auf dem Intervall (0, θ). Die zugeh¨ orige Dichte ist 1 1{x∈(0,θ)} θ und somit handelt es sich nicht um eine exponentielle Familie, da die Menge A in der Darstellung (2.6) von θ abh¨ angen m¨ usste. Das diskrete Analogon hierzu ist Beispiel 2.9. Es sei daran erinnert, dass unabh¨ angige und identisch verteilte Zufallsvariablen als i.i.d. bezeichnet werden. Bemerkung 2.10. Die i.i.d. Kombination einer exponentiellen Familie ist eine exponentielle Familie. Insbesondere trifft dies auf die oben genannten Beispiele 2.11-2.13 zu. Die Famile von Dichten oder Wahrscheinlichkeitsfunktionen {p(·, θ) : θ ∈ Θ} f¨ ur n-dimensionale Zufallvektoren sei eine ein-
52
2. Statistische Modelle
parametrige exponentielle Familie. Die m Zufallsvektoren X1 , . . . , Xm seien i.i.d., jeweils mit der Dichte oder Wahrscheinlichkeitsfunktion p(·, θ) welche die Form (2.6) habe. Setze X := (X1 , . . . , Xm ) ∈ Rn·m . Die Dichte bzw. Wahrscheinlichkeitsfunktion von X ist f¨ ur x = (x 1 , . . . , xm )
pX (x, θ) =
m i=1
p(xi , θ) =
m
exp c(θ)T (xi ) + d(θ) + S(xi ) · 1A (xi )
i=1
m m T (xi ) + m · d(θ) + S(xi ) = 1Am (x1 , . . . , xm ) exp c(θ) i=1
i=1
mit Am := {(x1 , . . . , xm ) : xi∈ A ∀ 1 ≤ i ≤ m}. Durch die Wahl der m suffizienten Statistik T (x) := i=1 T (xi ), sowie c (θ) := c(θ), d (θ) := m · m m alt man eine Darstellung als d(θ), A := A und S (x) = i=1 S(xi ) erh¨ exponentielle Familie gem¨ aß (2.6). Somit geh¨ ort die Verteilung von X wieder einer einparametrigen exponenm tiellen Familie mit suffizienter Statistik T (x) := i=1 T (xi ) an. B 2.15 i.i.d. Normalverteilung mit bekanntem σ: Als Beispiel zu obiger Bemerkung 2.10 betrachten wir X = (X1 , . . . , Xn ) , wobei X1 , . . . , Xn i.i.d. seien N (μ, σ02 ) und bekanntem σ0 (vergleiche Beispiel 2.11). Dann ist mit Xi ∼ n ¯ T (X) := i=1 Xi und somit auch das arithmetische Mittel X suffiziente Statistik f¨ ur μ und die Verteilung von X bildet wieder eine einparametrige exponentielle Familie. Wir fassen diese und weitere Beispiele f¨ ur einparametrige exponentielle Familien in der Tabelle 2.1 zusammen. Das folgende Resultat beschreibt die Verteilung der nat¨ urlichen suffizienten Statistik einer einparametrigen exponentiellen Familie. Satz 2.11. Sei {Pθ : θ ∈ Θ} eine einparametrige exponentielle Familie mit Darstellung (2.6) und sei T stetig. Hat X die Verteilung Pθ , so hat T (X) die Verteilung Qθ , wobei Qθ wieder eine einparametrige exponentielle Familie ist mit der Dichte bzw. Wahrscheinlichkeitsfunktion q(t, θ) = 1{t∈A∗ } exp c(θ) · t + d(θ) + S ∗ (t) ; hierbei ist A∗ := {T (x) : x ∈ A}. Handelt es sich um eine diskrete Verteilung, so ist ∗ S (t) = ln exp(S(x)) . x∈A : T (x)=t
2.3 Exponentielle Familien
53
Verteilungsfamilie
c(θ)
T (x)
A
Poiss(θ)
ln(θ)
x
{0, 1, 2, . . . }
Gamma(a, λ), a bekannt
−λ
x
R+
Gamma(a, λ), λ bekannt
a−1
ln x
R+
Invers Gamma, a bekannt
−λ
x−1
R+
Invers Gamma, λ bekannt
−a − 1
ln x
R+
Beta(r, s), r bekannt
s−1
ln(1 − x)
[0, 1]
Beta(r, s), s bekannt
r−1
ln(x)
[0, 1]
N (θ, σ ), σ bekannt
θ/σ 2
x
R
N (μ, θ2 ), μ bekannt
−1/2θ 2
(x − μ)2
R
Invers Gauß, λ bekannt
λ − 2μ 2
x
R+
Invers Gauß, μ bekannt
−λ 2
x μ2
Bin(n, θ), n bekannt
ln θ/1−θ
x
{0, 1, . . . , n}
Rayleigh(θ)
−1/2θ 2
x2
R+
χ2θ
θ 2
ln x
R+
Exp(θ)
−θ
x
R+
2
X1 , . . . , Xm i.i.d. exp. Familie
−1
+
m
c(θ)
i=1
1 x
R+
T (xi ) Am
Tabelle 2.1 Einparametrige exponentielle Familien. c, T und A aus Darstellung (2.6) sind in der Tabelle angegeben, d ergibt sich durch Normierung. Die tθ -, Fθ1 ,θ2 und die Gleichverteilung U (0, θ) sowie die Hypergeometrische Verteilung lassen sich nicht als exponentielle Familien darstellen.
Beweis. Wir beweisen den diskreten Fall, der stetige Fall ist Teil von Aufgabe 2.7. Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktion p(x, θ), so ist T (X) ebenfalls eine diskrete Zufallsvariable und besitzt die Wahrscheinlichkeitsfunktion p(x, θ) q(t, θ) := Pθ (T (X) = t) = x∈A : T (x)=t
=
exp c(θ) · T (x) + d(θ) + S(x)
x∈A : T (x)=t
= 1A∗ (t) · exp c(θ)t + d(θ)
S(x)
e
.
x∈A : T (x)=t
Damit ist die Verteilung von T eine exponentielle Familie nach Darstellung (2.6).
54
2. Statistische Modelle
Satz 2.12. Betrachtet man eine nat¨ urliche einparametrige exponentielle Familie mit den Dichten oder Wahrscheinlichkeitsfunktionen p0 (x, η) : η ∈ Θ in Darstellung (2.7) und ist X ∼ p0 , so gilt
Ψ (s) = E es·T (X) = exp d0 (η) − d0 (η + s) < ∞ f¨ ur alle η, η + s ∈ H mit H := {η ∈ Θ : d0 (η) < ∞}. Beweis. Wir f¨ uhren den Beweis f¨ ur den Fall, dass p0 eine Dichte ist. Der diskrete Fall folgt analog. Mit Darstellung (2.7) erhalten wir
Ψ (s) = E exp(s · T (X)) = exp (η + s)T (x) + d0 (η) + S(x) dx A exp (η + s)T (x) + d0 (η + s) + S(x) dx = exp d0 (η) − d0 (η + s) A p0 (x, η + s) dx. = exp d0 (η) − d0 (η + s) A
Nach Voraussetzung ist η + s ∈ H, und somit ist p0 (·, η + s) eine Dichte und das Integral in der letzten Zeile gleich 1. Weiterhin folgt aus η, η + s ∈ H, dass d0 (η) − d0 (η + s) endlich ist und somit Ψ (s) < ∞. Bemerkung 2.13. Erwartungswert und Varianz der suffizienten Statistik in exponentiellen Familien. Aus der momentenerzeugenden Funktion Ψ kann man folgendermaßen die Momente von T (X) bestimmen. Es sei daran erinnert, dass jede exponentielle Familie eine nat¨ urliche Darstellung der Form (2.7) hat. Unter dieser Darstellung ist = −d0 (η), E(T (X)) = Ψ (0) = Ψ (0) − d0 (η + s) s=0
da Ψ (0) = 1. Weiterhin ist E(T (X)2 ) = (d0 (η))2 − d0 (η) und damit Var(T (X)) = −d0 (η). Die Funktion d0 kann durch (2.8) bzw. (2.9) oder mit Hilfe von Bemerkung 2.9 bestimmt werden. Zusammenfassend erhalten wir: E(T (X)) = −d0 (η), Var(T (X)) = −d0 (η).
2.3 Exponentielle Familien
55
B 2.16 Momente der Rayleigh-Verteilung: Seien X1 , . . . , Xn i.i.d. und Rayleighverteilt, d.h. Xi hat die Dichte 1{x>0}
x − x22 e 2θ θ2
mit unbekanntem θ > 0, siehe Bemerkung 1.12. Die Rayleigh-Verteilung ist eine exponentielle Familie, denn X = (X1 , . . . , Xn ) hat die Dichte4
p(x, θ) = 1{x>0} exp
−
= 1{x>0} exp
n n x2i xi · 2 2 2θ θ i=1 i=1
n n 1 2 2 − 2 x − n ln(θ ) + ln xi , 2θ i=1 i i=1
und durch die Wahl von c(θ) := − 2θ12 , d(θ) := −n ln(θ2 ), A := (R+ )n , n n nat¨ urlicher suffizienter Statstik T (X) = Xi2 und S(x) := i=1 ln xi i=1
erh¨ alt man die Darstellung (2.6). Die Transformation auf eine nat¨ urliche Familie erfolgt mit η := c(θ) < 0. Das bedeutet
1 −1 und d0 (η) = d c−1 (η) = n ln(−2η). c (η) = − 2η Nach Satz 2.12 hat T (X) die momentenerzeugende Funktion Ψ (s) = exp(d0 (η)− d0 (η+s)). Aus Bemerkung 2.13 bestimmt sich nun leicht der Erwartungswert: n n E(T (X)) = E Xi2 = −d0 (η) = − = 2nθ2 , η i=1
was mit dem Ergebnis f¨ ur Z 2 unter n = 1 aus Aufgabe 1.36 u ¨bereinstimmt. Die Berechnung der Varianz erfolgt in Aufgabe 2.20. Definition 2.14. Eine Familie von Verteilungen {Pθ : θ ∈ Θ} mit Θ ⊂ RK heißt K-parametrige exponentielle Familie, falls Funktionen ci , d : Θ → R, Ti : Rn → R und S : Rn → R, i = 1, . . . , K sowie eine Menge A ⊂ Rn existieren, so dass die Dichte oder Wahrscheinlichkeitsur alle x ∈ Rn als funktion p(x, θ) von Pθ f¨ p(x, θ) = 1{x∈A} exp
K
ci (θ)Ti (x) + d(θ) + S(x)
i=1
dargestellt werden kann. 4
Hierbei verwenden wir die Notation 1{x>0} := 1{x1 >0,...,xn >0} .
(2.11)
56
2. Statistische Modelle
In Analogie zu den einparametrigen Familien ist die Statistik
T (X) := T1 (X), . . . , TK (X) suffizient, sie wird als nat¨ urliche suffiziente Statistik bezeichnet. Einige Beispiele werden in Tabelle 2.2 zusammengefasst. Verteilungsfamilie
c(θ)
T (x) θ1/θ 2
A
N (θ1 , θ22 )
c1 (θ) = 2 c2 (θ) = −1/2θ22
T1 (x) = x R T2 (x) = x2
M (n, θ1 , . . . , θd )
ci (θ) = ln θi
Ti (x) = xi
x : xi ∈ {0, . . . , n} n und i=1 xi = n .
Tabelle 2.2 Mehrparametrige exponentielle Familien. c, T und A aus Darstellung (2.11) sind in der Tabelle angegeben, d ergibt sich durch Normierung.
B 2.17 Die Normalverteilung ist eine zweiparametrige exponentielle Familie: Die Familie der (eindimensionalen) Normalverteilungen gegeben durch Pθ = N (μ, σ 2 ) mit θ = (μ, σ 2 ) und Θ = {(μ, σ 2 ) : μ ∈ R, σ > 0} ist eine zweiparametrige exponentielle Familie, denn ihre Dichten haben die Gestalt
μ x2 1 μ2 2 p(x, θ) = exp x − − + ln(2πσ ) . σ2 2σ 2 2 σ2 Durch die Wahl von n = 1, c1 (θ) := μ/σ2 , T1 (x) := x, c2 (θ) := −1/2σ2 , T2 (x) := x2 , S(x) := 0, A = R und der entsprechenden Normierung d(θ) := alt man die Darstellung (2.11). −1/2(μ2 σ −2 + ln(2πσ 2 )) erh¨ B 2.18 i.i.d. Normalverteilung als exponentielle Familie: Seien X1 , . . . , Xn i.i.d. und weiterhin Xi ∼ N (μ, σ 2 ). Dann ist die Verteilung von X = (X1 , . . . , Xn ) darstellbar als zweiparametrige exponentielle Familie: Mit den Resultaten aus Bemerkung 2.10 f¨ uhrt die Darstellung der Normalverteilung aus Beispiel 2.17 unmittelbar zu einer exponentiellen Familie. Damit ist T (X) =
n i=1
T1 (Xi ),
n i=1
n n 2 T2 (Xi ) = Xi , Xi i=1
i=1
suffizient f¨ ur θ = (μ, σ 2 ) . Dies wurde in Beispiel 2.10 bereits auf elementarem Weg gezeigt. B 2.19 Lineare Regression: Bei der linearen Regression beobachtet man Paare von Daten welche wir mit (x1 , Y1 ), . . . , (xn , Yn ) bezeichnen. Man vermutet einen linearen Einfluss der Gr¨ oßen xi auf Yi und m¨ochte diesen bestimmen. Die Beobachtungen x1 , . . . , xn werden als konstant angesehen. Diese Methodik
2.4 Bayesianische Modelle
57
wird in Kapitel 7 wesentlich vertieft und an Beispielen erprobt. Wir gehen von folgendem Modell aus: Yi = β1 + β2 xi + i , f¨ ur i = 1, . . . , n. Hierbei sind β1 , β2 ∈ R unbekannte Konstanten und 1 , . . . , n i.i.d. mit 1 ∼ N (0, σ 2 ) (vergleiche mit dem Meßmodell, Beispiel 2.2). Setze Y := (Y1 , . . . , Yn ) und θ := (β1 , β2 , σ 2 ) . Die Dichte von Y ist
n 1 (yi − β1 − β2 xi )2 p(y, θ) = exp − 2σ 2 (2πσ 2 )n/2 i=1
n n 1 2 nβ12 β22 2 = exp − 2 yi − − x 2σ i=1 2σ 2 2σ 2 i=1 i +
= exp
n n n β1 β2 β1 β2 n 2 ln(2πσ y + x y − x − ) i i i i σ 2 i=1 σ 2 i=1 σ 2 i=1 2
n n n 1 2 β1 β2 − 2 y + 2 yi + 2 xi yi 2σ i=1 i σ i=1 σ i=1
n n nβ12 β22 2 β1 β2 n 2 − − 2 x − 2 xi − ln(2πσ ) . 2σ 2 2σ i=1 i σ i=1 2 Dies ist eine exponentielle Familie. ndreiparametrige nIn der Tat, setzt man n 2 T1 (y) := i=1 yi , T2 (y) := i=1 yi , T3 (y) := i=1 xi yi sowie c1 (θ) := β1/σ 2 , c (θ) := −(2σ 2 )−1 , c (θ) := β2/σ 2 , so erh¨ a lt man, mit entsprechender 2 3 Wahl von d und S ≡ 0, A := R × R × R+ eine Darstellung der Form (2.11). Damit ist die Statistik n n n 2 T (Y ) := Yi , Yi , xi Yi i=1
i=1
i=1
suffizient f¨ ur θ = (β1 , β2 , σ 2 ) .
2.4 Bayesianische Modelle Bis jetzt haben wir angenommen, dass keine weiteren Informationen bez¨ uglich der Parameter außer den Daten vorliegen. In den Anwendungen gibt es Situationen, in denen sich weitere Informationen beziehungsweise Annahmen gewinnbringend verwenden lassen. Wir stellen zwei Beispiele vor. B 2.20 Qualit¨ atssicherung unter Vorinformation: Wir betrachten die Situation von Beispiel 2.1. Allerdings nehmen wir an, dass bereits in der Vergangenheit Ladungen untersucht wurden, was eine Vorinformation darstellt, die genutzt
58
2. Statistische Modelle
werden sollte. Es handele sich um K Lieferungen mit jeweils (der Einfachheit halber) N Teilen. Mit hi sei die Anzahl der Lieferungen mit i defekten Teilen bezeichnet. Definieren wir die empirischen H¨aufigkeiten πi :=
hi , K
so induzieren π1 , . . . , πN ein Wahrscheinlichkeitsmaß, welches die Vorinformation zusammenfasst. Daher kann der Anteil θ der defekten Teile pro Ladung als zuf¨ allig betrachtet werden und die Vorinformation liefert P(θ = Ni ) = πi . Dies bezeichnet man als die a priori-Verteilung von θ . Es kommt eine neue Lieferung vom Umfang N an, welche untersucht werden soll. θ bezeichne den (zuf¨ alligen) Anteil der defekten Teile in der Lieferung. Wir nehmen nun an, dass θ nach π verteilt ist, das heisst P(θ = Ni ) = πi . Untersucht werde eine Stichprobe vom Umfang n und X bezeichne den zuf¨alligen Anteil defekter Teile der Stichprobe. Wie in Beispiel 2.1 ist die bedingte Verteilung von X gegeben θ eine hypergeometrische Verteilung, d.h. nach Gleichung (2.1) ist i N −i
i = k Nn−k P X=k θ=
, N n ur die gemeinsame Verteiwelches eine Hypergeo(N, n, Ni )-Verteilung ist. F¨ lung von (X, θ) erhalten wir i N −i
i i i P X = k, θ = =P θ= · P X = kθ = = πi k Nn−k
. N N N n Schließlich ergibt sich f¨ ur die Wahrscheinlichkeit, dass k Teile der Stichprobe defekt sind, unter Nutzung der Vorinformation, dass i N −i
N
P X=k = πi k Nn−k
. i=1
n
Dies ist eine gewichtete Form der bedingten Verteilungen von X. Wenn etwa i0 gilt, dass πi0 = 1 und sonst 0, so erh¨alt man wieder die f¨ ur ein festes θ0 = N ungewichtete Darstellung (2.1). Eine solche Vorgehensweise nennt man einen Bayesianischen Ansatz: Man nimmt an, dass der Wert des unbekannten Parameters eine Realisierung einer Zufallsvariable mit gegebener a priori-Verteilung (prior) ist. Die a prioriVerteilung summiert die Annahmen u ¨ber den wahren Wert des Parameters bevor die Daten erhoben worden sind, etwa wenn Vorinformationen oder subjektive Einsch¨ atzungen (zum Beispiel von Experten, welche aufgrund ihrer
2.4 Bayesianische Modelle
59
Erfahrung eine Einsch¨ atzung u ¨ber zu erzielende Werte treffen) vorliegen. Man spricht von subjektiver Inferenz. Definition 2.15. Ein Bayesianisches Modell f¨ ur die Daten X und den Parameter θ ist spezifiziert durch (i) eine a priori-Verteilung π, so dass θ ∼ π, (ii) eine regul¨ are Verteilung Pθ , so dass X|θ ∼ Pθ . Der zentrale Punkt der Bayesianischen Statistik ist, dass man das Vorwissen (gegeben durch die a priori-Verteilung) nach Erhebung der Daten x an das neu gewonnene Wissen u ¨ber θ anpasst. Dies erfolgt durch Bestimmung der bedingten Verteilung von θ gegeben die Daten x. Diese Verteilung wird als a posteriori-Verteilung bezeichnet. Sie ist durch die Dichte oder Wahrscheinlichkeitsfunktion p(θ | x) := p(θ | X = x) gegeben und kann mit Hilfe des Satzes von Bayes (siehe Aufgabe 1.27) bestimmt werden: p(θ | x) =
π(θ) · p(x | θ) , m(x)
wobei m(x) die unbedingte Verteilung oder marginale Verteilung von X bezeichnet. Ist θ diskret mit Werten θ1 , . . . , θT , so ist die marginale Wahrscheinlichkeitsfunktion m(x) =
T
π(θi ) · p(x | θi ).
i=1
Ist θ hingegen eine stetige Zufallsvariable, so ist die marginale Dichte m(x) =
π(θ) · p(x | θ) dθ.
Wie man sieht, ist m bereits durch π und p bestimmt. Oft beschreibt man deswegen p(θ|x) nur bis auf Proportionalit¨at. Die Normierung, in diesem Fall m, bestimmt sich durch die Bedingung, dass p(θ|x) sich zu eins summiert bzw. integriert (siehe etwa Aufgabe 2.30(iii)). Wir schreiben kurz p(θ | x) ∝ π(θ) · p(x | θ). B 2.21 Konjugierte Familie der Bernoulli-Verteilung: Dieses Beispiel betrachtet Bernoulli-Zufallsvariablen mit zuf¨ alligem Parameter θ ∈ (0, 1). Als a prioriVerteilung von θ nehmen wir eine Beta-Verteilung an. Dies f¨ uhrt zu einer Beta-Verteilung als a posteriori-Verteilung: Seien X1 , . . . , Xn i.i.d. Bernoulli, d.h. nXi ∈ {0, 1} mit P(Xi = 1 | θ) = θ. Weiterhin sei θ ∼ π und setze s := i=1 xi . Dann ist die a posteriori-Verteilung gegeben durch
60
2. Statistische Modelle
π(θ) θs (1 − θ)n−s . p(θ | x) = 1 s (1 − t)n−s dt π(t) t 0 Die a posteriori-Verteilung h¨ angt nur von dem beobachteten Wert s der suffizienten Statistik S ab. W¨ ahlen wir f¨ ur die a priori-Verteilung eine Beta(a,b)Verteilung, vorgestellt in Definition 1.17, so ist π(θ) =
1 θa−1 (1 − θ)b−1 . B(a, b)
Betrachten wir die Beobachtung {S = s}, so ist die a posteriori-Verteilung gerade p(θ | x) ∝ θa+s−1 (1 − θ)n−s+b−1 . Wir erhalten demnach die Dichte einer Beta(a + s, b + n − s)-Verteilung. Damit ist die a priori-Verteilung aus der gleichen Klasse wie die a posterioriVerteilung. Falls die a posteriori-Verteilung zur selben Klasse von Verteilungen wie die a priori-Verteilung geh¨ ort, dann spricht man von einer konjugierten Familie. F¨ ur exponentielle Familien k¨ onnen wir leicht konjugierte Familien angeben. Lemma 2.16. Sei x = (x1 , . . . , xn ) bedingt auf θ eine i.i.d.-Stichprobe einer K-parametrigen exponentiellen Familie mit Dichte oder Wahrscheinlichkeitsfunktion K n n cj (θ) · Tj (xi ) + S(xi ) + nd(θ) . p(x | θ) = 1{x∈An } exp j=1
i=1
i=1
(2.12) Durch die (K + 1)-parametrige exponentielle a priori-Verteilung π(θ; t1 , . . . , tK+1 ) ∝ exp
K
cj (θ)tj + tK+1 d(θ)
j=1
ist eine konjugierte Familie gegeben. F¨ ur die a posteriori-Verteilung gilt
p(θ | x) ∝ π θ ; t1 +
n i=1
T1 (xi ), . . . , tK +
n i=1
Beweis. Mit der gew¨ ahlten a priori-Verteilung gilt
TK (xi ), tK+1 + n .
2.4 Bayesianische Modelle
61
p(θ|x) ∝ p(x, θ) · π(θ ; t1 , . . . , tK+1 ) ∝ exp
K
n
cj (θ) Tj (xi ) + tj + tK+1 + n d(θ)
j=1
∝ π θ ; t1 +
i=1 n
T1 (xi ), . . . , tK +
i=1
n
TK (xi ), tK+1 + n
i=1
und das ist die Behauptung.
B 2.22 Konjugierte Familie der Normalverteilung bei bekannter Varianz : Seien X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ02 ). Die Varianz σ02 sei bekannt und der Erwartungswert μ =: θ unbekannt. F¨ ur die Dichte einer Normalverteilung gilt
θx θ2 − 2 . p(x | θ) ∝ exp σ02 2σ0 Folglich erhalten wir mit dem Beispiel 2.11 eine einparametrige exponenti2 elle Familie mit T1 (x) = x, c1 (θ) = θ/σ02 und d(θ) = −θ /2σ02 wie in Gleichung (2.12). Die konjugierte zweiparametrige exponentielle Familie erh¨alt man nach Lemma 2.16 durch die folgende a priori-Verteilung π(·; t1 , t2 ) mit Parameter (t1 , t2 ) :
θ θ2 π(θ; t1 , t2 ) ∝ exp t1 − 2 t2 . σ02 2σ0 Diese Dichte von θ kann man als eine Normalverteilungsdichte identifizieren:
t2 2σ02 θt1 t1 2 2 + π(θ; t1 , t2 ) ∝ exp − 2 θ − 2σ0 t2 σ02 t2
= exp
−
t 1 2 t2 θ − ; 2σ02 t2
2
(2.13)
f¨ ur t2 > 0 ist dies eine N (t1/t2 , σ0/t2 )-Verteilung. Damit ist die Frage nach der konjugierten Familie zun¨ achst gel¨ ost. Ein nat¨ urlichere Darstellung geht allerdings direkt von einer normalverteilten a priori-Verteilung aus, welche nun noch bestimmt werden soll. Dazu sei die a priori-Verteilung π eine N (η, τ 2 )Verteilung mit τ 2 > 0, η ∈ R. Dies ergibt folgende Reparametrisierung: 2 σ2 t2 = τ 02 und t1 = η στ 2 . Nach Lemma 2.16 ist die a posteriori-Verteilung gegeben durch n T1 (xi ), t2 + n . p(θ | x) ∝ π θ ; t1 + i=1
62
2. Statistische Modelle
Unter Verwendung der suffizienten nStatistik l¨asst sich dies wie folgt ausdr¨ ucken: Wir setzten s = s(x) := i=1 xi . Da T1 (x) = x, ist nach (2.13) t +s σ02 1 , , p(θ | x) ∝ φ θ ; t2 + n t2 + n wobei φ(θ; a, b2 ) die Dichte einer N (a, b2 )-Verteilung ist. Setzen wir die Reσ2 parametrisierung ein, so ergibt sich f¨ ur w := n ( τ 02 + n)−1 t1 + s = w¯ x + (1 − w)η t2 + n
und
σ02 = t2 + n
σ02
σ02 τ2
.
+n
Der linke Ausdruck ist die a posteriori-Erwartung, der rechte die a posterioriVarianz. Damit stellt sich die a posteriori- Erwartung als gewichtetes Mittel des Stichprobenmittels x ¯ und der a priori-Erwartung η dar. Dar¨ uber hinaus gilt, dass w → 1 f¨ ur n → ∞; der Einfluss der a priori-Verteilung wird f¨ ur zunehmende Stichprobengr¨ oßen immer geringer. Bemerkung 2.17. Nicht-informative a priori-Verteilung. Falls man keine Vorinformation u ¨ber den Parameter θ hat, dann kann man eine so genannte nicht-informative a priori-Verteilung verwenden. Hierbei haben alle m¨ oglichen Parameter die gleiche Wahrscheinlichkeit (oder Dichte): π(θ) ∝ 1.
(2.14)
Ist der Parameterraum Θ = Rn und damit unbeschr¨ankt, so gibt es keine nicht-informative a priori-Verteilung, denn die Dichte in Gleichung (2.14) integriert sich zu Rn dθ = ∞. Trotzdem kann man die Gleichung (2.14) in derartigen F¨ allen verwenden, falls die resultierende a posteriori-Verteilung eine wohldefinierte Dichte bleibt. Man spricht von einem improper non informative prior, eine nicht wohldefinierte, nicht-informative a priori-Verteilung. Unter (2.14) gilt zun¨ achst p(θ | x) =
p(x|θ) · π(θ) ∝ p(x | θ). p(x|θ) · π(θ)dθ
Die Funktion p(x|θ) betrachtet als Funktion von θ ist die so genannte Likelihood-Funktion L(θ; x1 , . . . , xn ). Sie gibt an, welche Wahrscheinlichkeit (Likelihood) jeder Parameter θ unter der Beobachtung {X = x} hat. Die Likelihood-Funktion bildet die Grundlage der Maximum-LikelihoodSch¨ atzung, welche in Kapitel 3.3 ausf¨ uhrlich behandelt wird. Vorgreifend f¨ uhrt obige Beobachtung bereits zu einer Reihe von interessanten Konsequenzen: (i) Die a posteriori-Verteilung ist proportional zur Likelihood-Funktion, falls man eine nicht-informative a priori-Verteilung w¨ahlt.
2.5 Aufgaben
63
(ii) Der Modus der a posteriori-Verteilung ist der Maximum-LikelihoodSch¨ atzer (im Gegensatz zum Erwartungswert), falls man (2.14) f¨ ur π w¨ ahlt (siehe dazu Kapitel 3.3 zu Maximum-Likelihood-Sch¨atzern). (iii) Im nicht-informativen Fall ist die Likelihood-Funktion L : Rn → H eine Statistik h mit Werten im Funktionenraum H := {h : Θ → R} von ur Funktionen (x1 , . . . , xn ) → h(x1 , . . . , xn ). Weiterhin ist L suffizient f¨ θ und eine Funktion jeder anderen suffizienten Statistik. Kennt man L nicht, so verliert man folglich Information u ¨ber θ.
2.4.1 Referenzen Klassische Einf¨ uhrungen in die Bayesianische Statistik sind Berger (1985) und Lee (2004). Die Bayesianische Statistik hat in den letzten Jahren eine enorme Aufmerksamkeit erlangt. Dies liegt an der Entwicklung so genannter MarkovChain-Monte Carlo Verfahren, welche es erlauben auch in komplexen statistischen Modellen approximativ Stichproben von der a posteriori-Verteilung zu ziehen (siehe Robert und Casella (2008)). Insbesondere ist dies h¨aufig in solchen Modellen m¨ oglich, wo die Bestimmung von Maximum-LikelihoodSch¨ atzern numerisch zu aufwendig ist. Die B¨ ucher von Gamerman und Lopes (2006) sowie Marin und Robert (2007) geben eine gute Einf¨ uhrung in dieses Gebiet.
2.5 Aufgaben A 2.1 Zwischenankunftszeiten eines Poisson-Prozesses: Sei (Nt )t≥0 ein PoissonProzess mit Intensit¨ at λ und Sprungzeitpunkten τ1 , τ2 , . . . . Definiere die Zwischenankunftszeiten Xi := τi − τi−1 mit τ0 := 0. Dann sind X1 , X2 , . . . unabh¨ angig und Xi ∼ Exp(λ). A 2.2 Stichprobenvarianz: Darstellung: Zeigen Sie, dass n n
2 1 1 2 2 xi − x ¯ = x − x ¯ . n i=1 n i=1 i
A 2.3 Parametrisierung und Identifizierbarkeit: Ein Insekt legt Eier und die Anzahl der gelegten Eier seien Poisson-verteilt mit unbekanntem Parameter λ. Aus jedem Ei schl¨ upft mit Wahrscheinlichkeit p ∈ (0, 1) ein neues Insekt. Das Ausschl¨ upfen aus einem Ei sei unabh¨angig vom Ausschl¨ upfen der anderen Eier. Eine Biologin beobachtet N Insekten und notiert sowohl die Anzahl der gelegten Eier, als auch die der geschl¨ upften Eier. Finden Sie eine Parametrisierung, d.h. bestimmen Sie die parameterabh¨angige Verteilung der Daten und den Parameterraum Θ. Nun betrachtet man nur die Anzahl der
64
2. Statistische Modelle
geschl¨ upften Eier. Zeigen Sie, dass die obige Parametrisierung in diesem Fall nicht identifizierbar ist. A 2.4 Identifizierbarkeit im linearen Modell : Man nehme an, dass folgendes Modell gegeben sei: p xij βj + i , i = 1, . . . , n. Yi = j=1
Hierbei seien x11 , . . . , xnp bekannte Konstanten und 1 , . . . , n i.i.d. mit 1 ∼ N (0, 1). (i) Zeigen Sie, dass (β1 , . . . , βp ) genau dann identifizierbar ist, falls x1 , . . . , xp linear unabh¨ angig sind, wobei xj := (x1j , . . . , xnj ) . (ii) Begr¨ unden Sie, warum (β1 , . . . , βp ) nicht identifizierbar sind, falls n < p. ¯ Man betrachte die folgende A 2.5 Verschobene Gleichverteilung: Ineffizienz von X: Familie von verschobenen Gleichverteilungen mit Mittelwert θ: 1 1 P := U (θ − , θ + ) : θ ∈ R . 2 2 n Als m¨ ogliche Sch¨ atzer f¨ ur θ betrachten wir T1 (X) = n1 i=1 Xi sowie X(1) +X(n) ; hierbei bezeichne X(1) = min{X1 , . . . , Xn } und X(n) = T2 (X) = 2 oßte Ordnungsstatistik der Daten. max{X1 , . . . , Xn } die kleinste und die gr¨ Bestimmen Sie die Verteilungsfunktionen von X(1) und X(n) und die gemeinsame Dichte von (X(1) , X(n) ). Zeigen Sie, dass sowohl T1 als auch T2 1 erwartungstreu sind. Zeigen Sie, dass Var(T1 (X)) = n·12 und Var(T2 (X)) = 1 , d.h. f¨ u r gen¨ u gend große n hat der Sch¨ a tzer T2 eine geringere 2(n+1)(n+2) Varianz als das arithmetische Mittel T1 . A 2.6 Mehrdimensionale Verteilungen: Zeigen Sie, dass f¨ ur einen beliebigen Zufallsvektor X ∈ R2 mit P(Xi ≥ 0) = 1, i = 1, 2 und E(|X1 X2 |) < ∞ gilt, dass ∞ ∞ P(X1 > x1 , X2 > x2 ) dx1 dx2 . (2.15) E(X1 X2 ) = 0
0
Nehmen Sie an, dass die Verteilungsfunktion von X gegeben ist durch F (x1 , x2 ) = max{x1 , x2 }1−α min{x1 , x2 }, Zeigen Sie mit Hilfe von (2.15), dass Corr(X1 , X2 ) =
x1 , x2 ∈ [0, 1]. 12α 4(4−α) .
Exponentielle Familien A 2.7 Exponentielle Familie: Verteilung von T : Betrachten Sie eine reellwertige Zufallsvariable X mit Dichte und nehmen Sie an, dass die Dichte einer ex-
2.5 Aufgaben
65
ponentielle Familie {Pθ : θ ∈ Θ} angeh¨ ort. Bestimmen Sie die Verteilung der nat¨ urlichen suffizienten Statistik T (X); siehe Satz 2.11. A 2.8 Exponentielle Familie erzeugt durch suffiziente Statistik : Sei {pθ : θ ∈ Θ} eine ur alle x ∈ R und alle θ ∈ Θ. Außerdem Familie von Dichten mit pθ (x) > 0 f¨ ur alle θ ∈ Θ. Seien nun X1 und X2 unabh¨angige sei x → pθ (x) stetig in x f¨ f¨ ur θ Zufallsvariablen mit der Dichte pθ . Falls X1 +X2 eine suffiziente Statistik ist, so ist {Pθ | θ ∈ Θ} eine exponentielle Familie, wobei Pθ (B) = B pθ (x) dx f¨ ur alle Mengen B aus der Borel-σ-Algebra gilt. ur ein Hinweis: Betrachten Sie die Funktion r(x, θ) := ln(pθ (x)) − ln(pθ0 (x)) f¨ festes θ0 , und zeigen Sie, dass man r zu r(x, θ) = x c(θ) + d(θ) faktorisieren kann. A 2.9 Exponentielle Familie: Gegenbeispiel: F¨ ur jedes θ ∈ R ist pθ (x) =
1 exp(−|x − θ|), x ∈ R, 2
eine Dichte (Laplace-Verteilung, Spezialfall der zweiseitigen Exponentialverteilung). Sei Pθ das zur Dichte pθ geh¨ orige Wahrscheinlichkeitsmaß. Dann ist {Pθ : θ ∈ Θ} keine exponentielle Familie. A 2.10 Mitglieder der exponentiellen Familie: Welche der folgenden Verteilungsfamilien geh¨ oren zu den exponentiellen Familien? Begr¨ unden Sie Ihre Antwort. (i) (ii) (iii) (iv) (v)
ur θ > 0. pθ (x) = exp (−2 ln(θ) + ln(2θ)) 1(0,θ) (x) f¨ ur x ∈ {0.1 + θ, . . . , 0.9 + θ} f¨ ur θ ∈ R. pθ (x) = 19 , f¨ Die Normalverteilungsfamilie gegeben durch N (θ, θ2 ) mit θ > 0. pθ (x) = 2(x+θ) 1+2θ mit x ∈ (0, 1) und θ > 0. aufigkeitsfunktion einer Bin(n, θ)-verteilten Zupθ (x) ist die bedingte H¨ fallsvariable X, gegeben dass X > 0.
A 2.11 Inverse Gamma-Verteilung als Exponentielle Familie: Man betrachte die Dichte einer invers Gamma-verteilten Zufallsvariablen X pa (x) =
λa −(a+1) − λ x e x 1{x>0} , Γ (a)
wobei λ bekannt und fest sei. Zeigen Sie, dass es sich um eine exponentielle Familie handelt (ebenso f¨ ur a fest und λ unbekannt). A 2.12 Folge von Bernoulli-Experimenten: Es sei X die Anzahl der Misserfolge vor dem ersten Erfolg in einer Folge von Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit θ. Bestimmen Sie die Verteilung von X und entscheiden Sie, ob eine exponentielle Familie vorliegt. Begr¨ unden Sie Ihre Antwort.
66
2. Statistische Modelle
A 2.13 Dirichlet-Verteilung: Der r-dimensionale, stetige Zufallsvektor X sei Dirichletur j = 1, . . . , r verteilt mit Parametern α := (α1 , . . . , αr ) wobei αj > 0 f¨ gelte. Dann ist seine Dichte gegeben durch r r Γ j=1 αj αj −1 pα (x) = r xj 1{x∈(0,1)r , rj=1 xj =1} . j=1 Γ (αj ) j=1 Zeigen Sie, dass eine r-parametrische exponentielle Familie vorliegt. A 2.14 Inverse Gauß-Verteilung: Die Dichte der inversen Gauß-Verteilung mit Parametern μ > 0, λ > 0, ist gegeben durch
p(x) =
λ 2π
1/2
−3/2
x
exp
−λ(x − μ)2 2μ2 x
1{x>0} .
¨ Uberpr¨ ufen Sie, ob eine exponentielle Familie vorliegt. Suffizienz A 2.15 Suffizienz: Beispiele: Seien X1 , . . . , Xn i.i.d. mit jeweils folgender Dichte. Finden Sie in allen drei F¨ allen eine reellwertige suffiziente Statistik f¨ ur θ: −|x−μ|
1 (i) pθ (x) = 2θ e θ , wobei θ > 0 und μ bekannt sei. 1 , wobei θ > 0. (ii) pθ (x) = 1{x∈(−θ,θ)} 2θ
(iii) pθ (x) = 1{x>0}
βα −(α+1) Γ (α) x
exp − βx , wobei θ := (α, β) und α, β > 0.
A 2.16 Suffizienz: Beta-Verteilung: Seien X1 , . . . , Xn i.i.d. Beta(θ, 1)-verteilt mit θ > 0. Finden Sie eine suffiziente Statistik. A 2.17 Suffizienz: Weibull- und Pareto-Verteilung: Seien X1 , . . . , Xn i.i.d. mit jeweils folgender Dichte: (i) Weibull -Verteilung: θ > 0 und pθ (x) = θaxa−1 e−θx 1{x>0} . θ (ii) Pareto-Verteilung: θ > 0 und pθ (x) = xθa θ+1 1{x>a} . a
Finden Sie eine reellwertige suffiziente Statistik f¨ ur θ bei bekanntem a. A 2.18 Suffizienz: Nichtzentrale Exponentialverteilung: Seien X1 , . . . , Xn i.i.d., pθ (x) =
1 − x−μ e σ 1{x≥μ} σ
die Dichte von X1 sowie θ := (μ, σ) und Θ = R × R+ . ur μ ist, falls (i) Zeigen Sie, dass min(X1 , . . . , Xn ) eine suffiziente Statistik f¨ σ bekannt ist. (ii) Finden Sie eine eindimensionale, suffiziente Statistik f¨ ur σ, falls μ bekannt ist. (iii) Geben Sie eine zweidimensionale, suffiziente Statistik f¨ ur θ an.
2.5 Aufgaben
67
A 2.19 Suffizienz: Poisson-Verteilung: Seien X1 , . . . , Xn i.i.d. und X1 sei Poissonverteilt mit Parameter θ > 0, d.h. X1 ∼Poiss(θ). Zeigen Sie ohne Verwenn ur θ ist. dung des Faktorisierungstheorems, dass i=1 Xi suffizient f¨ A 2.20 Suffizienz: Rayleigh-Verteilung: Seien X1 , . . . , Xn i.i.d. und Rayleigh-verteilt, 2 xσ −2 exp(−x /2σ2 ). Die nat¨ urliche suffiziente Statisd.h. Xi besitzt die nDichte tik ist T (X) = i=1 Xi2 . Zeigen Sie, dass E(T (X)) = 2nσ 2 und Var(T (X)) = 4nσ 4 . A 2.21 Beispiel: Qualit¨ atskontrolle: Es sei eine LKW-Ladung mit N Fernsehger¨aten gegeben, wovon N θ defekt sind. Es werden n Fernseher (ohne Zur¨ ucklegen) u uft. Man definiere ¨berpr¨ 1, i-ter u ufter Fernseher ist defekt, ¨berpr¨ Xi := 0, sonst. n (i) Zeigen Sie ohne Verwendung des Faktorisierungstheorems, dass i=1 Xi suffizient f¨ ur θ ist. n (ii) Zeigen Sie mit Hilfe des Faktorisierungstheorems, dass i=1 Xi suffizient f¨ ur θ ist. A 2.22 Suffizienz: Beispiel : Sei θ = (θ1 , θ2 ) ∈ R2 mit θ1 ≤ θ2 und h eine integrierbare reelle Funktion, so dass
−1
θ2
a(θ) :=
h(x)dx θ1
stets existiert. Weiterhin seien X1 , . . . Xn i.i.d. mit der Dichte pθ (x) := a(θ)h(x) 1{θ1 ≤x≤θ2 } . Finden Sie eine zweidimensionale suffiziente Statistik f¨ ur θ. A 2.23 Suffizienz: Inverse Gamma-Verteilung: Eine i.i.d.-Stichprobe X1 , . . . , Xn sei invers Gamma-verteilt mit der Dichte
β α −(α+1) β x pα,β (x) := exp − 1{x>0} , Γ (α) x wobei α, β > 0. Finden Sie eine zweidimensionale suffiziente Statistik f¨ ur α und β. A 2.24 Minimal suffiziente Statistik : Die Statistik T sei suffizient f¨ ur θ im Mour θ, falls f¨ ur jede andell P = {Pθ , θ ∈ Θ}. T heißt minimal suffizient f¨ dere suffiziente Statistik S eine Abbildung r(·) gefunden werden kann, mit T (X) = r(S(X)). Sei P = {Pθ , θ ∈ Θ}, wobei Pθ eine diskrete Verteilung mit Grundraum X = {x1 , x2 , . . . } ist, und p(x, θ) = Pθ (X = x). Zeigen Sie, dass
68
2. Statistische Modelle
Λx (·) :=
p(x, ·) , p(x, θ0 )
f¨ ur festes θ0 ∈ Θ,
minimal suffizient f¨ ur θ ist.
Bayesianische Statistik A 2.25 Bayesianisches Modell: Gamma-Exponential: Die a priori-Verteilung des Parameters θ sei eine Gamma-Verteilung mit festen Parametern a > 0, λ > 0, d.h. π(θ) := Gamma(θ; a, λ). Die Zufallsvariablen X1 , . . . , Xn seien bedingt auf θ i.i.d. und exponentialverteilt zum Parameter θ. Bestimmen Sie die a posteriori-Verteilung π(θ|X = x) f¨ ur θ. A 2.26 Bayesianisches Modell: Normalverteiltes Experiment: Der Ausgang eines Experiments sei normalverteilt mit bekanntem Erwartungswert μ und unbekannter Varianz θ. Man f¨ uhrt vorab m Versuche unabh¨angig voneinander aus und erh¨ alt so die empirische Varianz s2 . Diese Parameter werden benutzt, um vor neuen Versuchen die a priori-Verteilung von θ als skalierte Inverse-χ2 Verteilung zu konstruieren: Die Dichte der so gewonnenen a priori-Verteilung ist gegeben durch 2 m m/2
s 2 ms2 m θ−(m/2+1) exp − p(θ) = 1{θ>0} 2θ Γ 2 mit Parametern m > 0 und s2 > 0. Es werden weitere n unabh¨angige uhrt. Ermitteln Sie die Versuche mit den Ergebnissen (y1 , . . . , yn ) durchgef¨ a posteriori-Verteilung von θ. A 2.27 Konjugierte Familien: Beispiel: Seien X1 , . . . , Xn i.i.d. mit der Dichte p(x|θ) = θ exp (x1 − (ex1 − 1)θ) 1{x>0} und unbekanntem Parameter θ > 0. (i) Welche der folgenden beiden Verteilungs-Familien ist eine konjugierte Familie f¨ ur θ? a. Die Familie der Weibull-Verteilungen mit Parametern λ, β > 0 und Dichte pW (y) = λβ y β−1 exp(−λy β )1{y>0} . b. Die Familie der Gamma-Verteilungen mit Parametern a, λ > 0 und Dichte λa y a−1 exp(−λy)1{y>0} . pG (y) = Γ (a) (ii) Nehmen Sie als a priori-Dichte f¨ ur θ eine Dichte aus der konjugierten Familie f¨ ur θ aus Aufgabenteil (i). W¨ahlen Sie die Parameterwerte der
2.5 Aufgaben
69
a priori-Dichte geeignet, um mit Hilfe der a priori- und a posterioriVerteilung den Erwartungswert von 1 exp(X i) i=1
Z := n
bestimmen zu k¨ onnen. Berechnen Sie anschließend E(Z). A 2.28 Konjugierte Familie der Bernoulli-Verteilung: Zeigen Sie, dass die Familie der Beta-Verteilungen eine konjugierte Familie f¨ ur die Erfolgswahrscheinlichkeit θ der Bernoulli-Verteilung ist. A 2.29 Konjugierte Familie der Normalverteilung: Die Pr¨ azision einer univariaten Verteilung ist der Kehrwert der Varianz. Zeigen Sie, dass die Familie der Normal-Gamma-Verteilungen eine konjugierte Familie f¨ ur den Erwartungswert μ und der Pr¨ azision λ = 1/σ2 der Normalverteilung ist. Die Dichte der zweidimensionalen Normal-Gamma-Verteilung mit Parametern θ := (ν, ω, α, β), ν ∈ R, ω > 0, α > 0, β > 0 ist gegeben durch pθ (x, y) =
ω (1/2) β α 2 ω y α−1 e−βy e− 2 (x−ν) , x ∈ R, y > 0. 2π Γ (α)
A 2.30 Konjugierte Familie der Gamma-Verteilung: Seien X1 , . . . , Xn i.i.d. und X1 ∼ Gamma(2, θ) mit Dichte pθ (x1 ) = θ2 x1 e−θx1 1[0,∞) (x1 ),
θ > 0.
(i) Finden Sie eine suffiziente Statistik T (X1 , . . . , Xn ) f¨ ur θ. (ii) Es sei nun zus¨ atzlich angenommen, dass θ eine Realisation einer Zufallsvariablen Y ist, d.h. die bedingte Dichte von X1 gegeben Y = θ lautet: p(x1 |θ) = θ2 x1 e−θx1 1[0,∞) (x1 ). Finden Sie eine konjugierte Familie f¨ ur θ. (iii) Bestimmen Sie die Normierungskonstante der a posteriori-Verteilung. A 2.31 Bayesianischer Ansatz: Gleichverteilung: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ U (0, θ). Von dem Parameter θ nehmen wir zus¨atzlich an, dass er die a prioriVerteilung U (0, 1) besitze. Berechnen und skizzieren Sie die a posterioriDichte von θ gegeben die Beobachtung X = x. A 2.32 Bayesianisches Wartezeitenmodell : Die Ankunft von Fahrzeugen an einer Mautstelle werde durch einen Poisson-Prozess mit unbekanntem Parameter θ > 0 modelliert. Dann sind die Zwischenankunftszeiten Y1 , Y2 , . . . unabh¨ angig und exponentialverteilt zum Parameter θ. Weiterhin sei θ ∼ Gamma(a, λ). Eine Datenerhebung ergibt die Messung {Y = y}. Berechnen Sie E(θ|Y = y).
70
2. Statistische Modelle
A 2.33 A posteriori-Verteilung f¨ ur die Exponentialverteilung: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ Exp(θ). Der Parameter θ habe die a priori-Verteilung Exp(1). Berechnen Sie die a posteriori-Verteilung von θ gegeben die Beobachtung X1 = x1 , . . . , Xn = xn . A 2.34 Approximation der a posteriori-Verteilung: Sei X eine reelle, stetige Zufallsvariable mit endlichem Erwartungswert und Y := (Y1 , . . . , Yn ) ein Zufallsvektor, wobei Y1 , . . . , Yn i.i.d. seien. Die Verteilungen von X und Y h¨angen von einem Parameter θ ∈ Θ ab. Die a priori-Verteilung π(θ) sei bekannt und die Beobachtung {Y = y} liege vor. Die Dichte p(yi |θ), i = 1, . . . , n, sei ebenfalls bekannt. An Stelle der a posteriori-Verteilung π(θ|y) sei allerdings lediglich die Approximation g(θ|y) bekannt, f¨ ur welche gilt: π(θ|y) > 0 ⇒ g(θ|y) > 0 f¨ ur alle θ ∈ Θ. H(y) sei definiert durch H(y) :=
E(X|Y = y, θ = t)π(t|y)dt.
Finden Sie eine exakte Darstellung von H(y) als Quotient zweier Integrale, wobei die Integranden lediglich E(X|Y = y, θ = t), π(θ), p(y|θ) und g(θ|y) enthalten. Seien X, Y zwei stetige reelle Zufallsvektoren mit endlicher Varianz, deren Verteilungen von einem stetigen Parametervektor θ abh¨angen. Folgende Verteilungen seien als bekannt vorausgesetzt: θ ∼ π(θ), Y|θ ∼ p(y|θ). Statt der a posteriori-Verteilung von θ bedingt auf Y sei lediglich die Approximation g(θ|y) bekannt. Finden Sie eine Formel f¨ ur die Berechnung von E(X|Y ), die nur von den bekannten Verteilungen abh¨angt.
Kapitel 3.
Sch¨ atzmethoden
F¨ ur eine Sch¨ atzung gehen wir von einem statistisches Modell P nach Defini¨ tion 2.2 aus, eine kurze Diskussion u ufung dieser ¨ber die statistische Uberpr¨ Annahme findet sich in Abschnitt 3.5. Dies ist eine Familie von Verteilunur eine gen P = {Pθ : θ ∈ Θ}, welche man als m¨ogliche Verteilungen f¨ Beobachtung {X = x} betrachtet. Hierbei bezeichnet x den Vektor der Messergebnisse oder Beobachtungen und X die zugeh¨orige Zufallsvariable. Der Parameter θ ist unbekannt und typischerweise m¨ochte man θ selbst sch¨atzen. Es kommt allerdings vor, dass man nicht direkt den Parameter θ sch¨atzen m¨ ochte, sondern eine Transformation q(θ) f¨ ur eine fest vorgegebene Funktion q : Θ → R. Dies wird mit den folgenden beiden Beispielen illustriert. B 3.1 Qualit¨ atssicherung aus Beispiel 2.1 : Eine Ladung von N Teilen soll auf ihre Qualit¨ at untersucht werden. Die Ladung enth¨alt defekte und nicht defekte Teile. Mit θ sei der Anteil der defekten Teile bezeichnet. Man interessiert sich f¨ ur die Anzahl der defekten Teile und m¨ochte aufgrund dessen q(θ) = N · θ sch¨ atzen. B 3.2 Meßmodell aus Beispiel 2.2 : Es werden n Messungen einer physikalischen Konstante μ vorgenommen und die Messergebnisse x1 , . . . , xn erhoben. Man ur i = nimmt an, dass f¨ ur die zugeh¨ origen Zufallsvariablen Xi = μ + i f¨ 1, . . . , n gilt. Hierbei bezeichnet i den Messfehler. In Beispiel 2.2 wurde eine Reihe von m¨ oglichen Annahmen an die Messfehler vorgestellt. (i) Unter den Annahmen (i)-(v) aus Beispiel 2.2 sind die Xi i.i.d. N (μ, σ 2 )verteilt und θ = (μ, σ 2 ) . Gesucht ist die physikalische Konstante μ, weswegen man q(θ) = μ sch¨ atzen m¨ochte. (ii) Macht man lediglich die Annahmen (i)-(iv) aus Beispiel 2.2, so sind die i symmetrisch um Null verteilt und besitzen die unbekannte Dichte p, d.h. θ = (μ, p) und man ist an der Sch¨atzung von q(θ) = μ interessiert.
C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 3, c Springer-Verlag Berlin Heidelberg 2011
71
72
3. Sch¨ atzmethoden
Das prinzipielle Vorgehen l¨ asst sich folgendermaßen zusammenfassen: Um q(θ) zu sch¨ atzen, w¨ ahlt man eine Statistik T und wertet sie an den beobachteten Datenpunkten x = (x1 , . . . , xn ) aus. Falls der wahre, unatzt man die unbekannte Gr¨oße q(θ0 ) bekannte Wert f¨ ur θ = θ0 ist, sch¨ durch die bekannte Gr¨ oße T (x), den Sch¨ atzwert. Oft verwenden wir auch die Notation T (X) f¨ ur den zuf¨ alligen Sch¨ atzer ohne uns auf die beobachteten Daten x festzulegen. Anhand des wichtigen Beispiels des Meßmodells illustrieren wir die Vorgehensweise: B 3.3 Meßmodell aus Beispiel 3.2 : In dem Meßmodell aus Beispiel 3.2 werde {X = x} beobachtet. Dann ist ein Sch¨ atzer f¨ ur den unbekannten Parameter μ durch das arithmetische Mittel der Daten 1 Xi n i=1 n
T (X) :=
gegeben, wobei T (X) eine Zufallsvariable ist. Der dazugeh¨orige Sch¨atzwert unter der Beobachtung {X = x} ist T (x). Dar¨ uber hinaus ist T als arithmetisches Mittel der Daten oft eine suffiziente Statistik, wie im vorigen Kapitel gezeigt wurde. In diesem Kapitel stellen wir vier Methoden f¨ ur die Auswahl vern¨ unftiger Sch¨ atzer f¨ ur q(θ) vor: • • • •
Substitutionsprinzip Momentenmethode Kleinste Quadrate Maximum Likelihood
Im Folgenden werden Sch¨ atzungen immer mit einem bezeichnet: Insbe sondere nutzen wir θ sowohl f¨ ur die Zufallsvariable θ(X) als auch f¨ ur θ(x), den Wert der Zufallsvariable falls das Ereignis {X = x} beobachtet wird. Wir sprechen auch vom Sch¨ atzer θ(X) mit Sch¨ atzwert θ(x).
3.1 Substitutionsprinzip Die Idee des Substitutionsprinzips ist es die unbekannten Parameter in Beziehung zu Gr¨ oßen zu setzen, welche sich leicht sch¨atzen lassen. Dieses allgemeine Prinzip erl¨ autern wir in zwei wichtigen F¨allen: Die Sch¨atzung von H¨ aufigkeiten durch relative H¨ aufigkeiten, welche zur H¨aufigkeitssubstitution
3.1 Substitutionsprinzip
73
f¨ uhrt, sowie die Sch¨ atzung von Momenten durch empirische Momente, welche zur Momentenmethode f¨ uhrt.
3.1.1 H¨ aufigkeitssubstitution In diskreten Modellen lassen sich die Wahrscheinlichkeiten der Elementarereignisse unter geringen Voraussetzungen durch relative H¨aufigkeiten sch¨atzen. B 3.4 Relative H¨ aufigkeiten: Die Zufallsvariablen X1 , . . . , Xn seien i.i.d. und jeweils multinomialverteilt mit Klassen ν1 , . . . , νK (siehe (1.11) in Abschnitt ur k ∈ 1.2). Demnach ist Xi ∈ {ν1 , . . . , νK } und es gelte pk := P(X1 = νk ) f¨ ucksichtigung {1, . . . , K}. Wir m¨ ochten einen Sch¨ atzer f¨ ur p1 , . . . , pK unter Ber¨ K ur alle k ∈ {1, . . . , K} bestimder Eigenschaften k=1 pk = 1 und pk ∈ [0, 1] f¨ aufigkeit pk der Klasse k. men. Ein intuitiver Sch¨ atzer f¨ ur pk ist die relative H¨ Sie ist gegeben durch die zuf¨ allige Anzahl der Beobachtungen Nk in Klasse k geteilt durch die Gesamtzahl der Beobachtungen: 1 Nk . 1{Xi =νk } = n i=1 n n
pk = pk (X) :=
Ein Datenbeispiel illustriert die Bestimmung der Sch¨atzwerte pk (x): Man klassifiziere Arbeitnehmer eines Betriebes in Stellenkategorien 1-5 und beobachtet, dass {Nk = nk } Arbeitnehmer in Stellenkategorie k besch¨aftigt werden: k
1
2
3
4
5
nk
23
84
289 217 95
pk (x) 0.03 0.12 0.41 0.31 0.13 Die relativen H¨ aufigkeiten erh¨ alt man durch pk (x) := nk/n mit insgesamt 5 n = k=1 nk = 708 Beobachtungen. Man beachte, dass stets pk ∈ [0, 1] gilt K atzt man die Funktion q(p1 , . . . , pk ) und k=1 pk = 1 ist. Allgemeiner sch¨ durch q( p1 , . . . , pk ), d.h. man substituiert die Wahrscheinlichkeiten p1 , . . . , pK durch ihre Sch¨ atzer p1 , . . . , pK . Sind beispielsweise in Kategorie 4 und 5 Facharbeiter besch¨ aftigt und in Kategorie 2 und 3 Angestellte so wird die Anteilsdifferenz q(p1 , . . . , p5 ) := (p4 + p5 ) − (p2 + p3 ) zwischen Facharbeitern und Angestellten durch q( p1 , . . . , p5 ) = ( p4 + p5 ) − ( p2 + p3 ) = (0.31 + 0.13) − (0.12 + 0.41) = −0.09 gesch¨ atzt. Das im Beispiel verwendete Prinzip kann man auch allgemeiner formulieren: Die empirische Verteilungsfunktion ist definiert durch
74
3. Sch¨ atzmethoden
1 1{Xi ≤x} , n i=1 n
Fn (x) := M¨ ochte man ein Funktional
x ∈ R.
f (x)dF (x)
q := R
sch¨ atzen, so ersetzt man F durch den (nichtparametrischen) Sch¨atzer Fn und erh¨ alt als m¨ oglichen Sch¨ atzer q := Im Beispiel 3.4 ist pk =
R
R
1 f (Xi ). n i=1 n
f (x)dFn (x) =
1{x=νk } dF (x) und somit pˆk = n−1
n i=1
1{Xi =νk } .
Leider ist es m¨ oglich durch die Parametrisierung Probleme mit der Eindeutigkeit der Sch¨ atzer zu erhalten. Dies soll im Folgenden illustriert werden. ahlbar, sondern stetige Funktionen eines r-dimenFalls p1 , . . . , pk nicht frei w¨ sionalen Parameters θ = (θ1 , . . . , θr ) sind, und falls q(θ) = h(p1 (θ), . . . , pk (θ)) mit stetiger Funktion h, definiert auf Ik :=
k (p1 , . . . , pk ) : pi ≥ 0 ∀ i, pi = 1 , i=1
gilt, so sch¨ atzt man q durch q = h( p1 , . . . , pk ). Das folgende Beispiel illustriert dies. B 3.5 Genotypen: Als Anwendungsbeispiel von Beispiel 3.4 betrachten wir ein Gen mit den beiden Auspr¨ agungen A und B. Gesucht ist die Wahrscheinlichkeit θ := P(Gen hat die Auspr¨ agung A). In dem so genannten Hardy-Weinberg Gleichgewicht gibt es drei Genotypen mit den folgenden Wahrscheinlichkeiten, wobei M die Auspr¨ agung bei der Mutter und V die Auspr¨agung bei dem Vater bezeichnet:
Wahrscheinlichkeiten
Typ 1
Typ 2
Typ 3
p1 = θ 2 M =A V =A
p2 = 2θ(1 − θ) M = A, V = B M = B, V = A
p3 = (1 − θ)2 M =B V =B
Wesentlich hierbei ist, dass der Zusammenhang von p1 , p2 und p3 nun durch zwei Gleichungen bestimmt ist: (i) Durch p1 + p2 + p3 = 1 und
3.1 Substitutionsprinzip
75
(ii) durch die gemeinsame Abh¨ angigkeit von θ, wie oben erl¨autert. Dies wird in der Sch¨ atzung wie folgt ber¨ ucksichtigt: Es werde eine Stichprobe vom Umfang n beobachtet und Ni sei die Anzahl der Personen mit Genotyp i in der Stichprobe. Dann ist (N1 , N2 , N3 ) multinomialverteilt, (N1 , N2 , N3 ) ∼ M (n, p1 , p2 , p3 ) mit n = N1 +N2 +N3 . Dass die H¨aufigkeitssubstitution nicht eindeutig ist wird deutlich, wenn man die folgenden beiden Substitutionen √ uhrt zu dem Sch¨ atzer betrachtet: θ = p1 f¨ θ = wohingegen θ = 1 −
√
p1 =
N1 , n
p3 den Sch¨ atzer ˜ θ =1−
N3 n
ergibt, und man erh¨ alt zwei unterschiedliche Sch¨atzer.
3.1.2 Momentenmethode Als einen Spezialfall des im vorigen Abschnittes formulierten Substitutionsprinzips erh¨ alt man die Momentenmethode. Betrachtet sei eine Stichprobe von i.i.d. Zufallsvariablen X1 , . . . , Xn mit Verteilung Pθ . Mit Eθ sei der Erwartungswert bez¨ uglich Pθ bezeichnet und weiterhin seien mit mk (θ) := Eθ (X k ),
k = 1, . . . , r
die ersten r Momente der generischen1 Zufallsvariable X := X1 bezeichnet. Nach dem Substitutionsprinzip sch¨ atzt man die unbekannten Momente durch das k-te Stichprobenmoment m k :=
R
1 k X . n i=1 i n
xk Fn (dx) =
Um eine Transformation q(θ) zu sch¨ atzen, muss man folgendermaßen einen Bezug zwischen θ und den Momenten herstellen:
1
Da X1 , . . . , Xn identisch verteilt sind, ist somit auch Eθ (Xik ) = mk (θ) f¨ ur i = 1, . . . , n.
76
3. Sch¨ atzmethoden
L¨ asst sich q(θ) als q(θ) = g(m1 (θ), . . . , mr (θ))
(3.1)
mit einer stetigen Funktion g darstellen, so sch¨atzt man in der Momentenmethode q(θ) durch T (X) = g(m 1, . . . , m r ).
Wir illustrieren die Momentenmethode anhand einer Reihe von Beispielen. B 3.6 Normalverteilung: Seien X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ 2 ) wie in den = Beispielen 2.2 und 2.18, dann ist das erste Moment m1 = μ und somit μ ¯ Weiterhin gilt σ 2 = m2 − (m1 )2 . Man sch¨atzt die Varianz mittels m 1 = X. atzer von σ 2 ergibt sich g(m1 , m2 ) = m2 − (m1 )2 und als Sch¨ 1 2 σ := X − n i=1 i n
2
1 Xi n i=1 n
2
1 ¯ 2. Xi − X n i=1 n
=
Man beachte, dass der Sch¨ atzer konsistent aber nicht erwartungstreu ist2 . Im Gegensatz dazu ist die Stichprobenvarianz s2 (X) aus Beispiel 1.1 erwartungstreu (siehe Aufgabe 1.3). Die Momentenmethode f¨ uhrt nicht zwingend zu einem eindeutigen Sch¨atzer, denn typischerweise gibt es viele Darstellungen der Form (3.1), wie folgende Beispiele zeigen. B 3.7 Bernoulli-Verteilung: Seien X1 , . . . , Xn i.i.d. Bernoulli(θ)-verteilt (siehe Beispiel 1.3), d.h. Xi ∈ {0, 1} und P(Xi = 1) = θ. In diesem Fall ist ¯ Momentensch¨atzer f¨ ur θ. m1 (θ) = P(Xi = 1) = θ und somit ist θ = X 2 = m 1 , da Xi ∈ {0, 1}. F¨ ur Allerdings ist auch m2 (θ) = θ und demnach m ¯ ¯ Momentensch¨atzer X) die Varianz gilt Var(X1 ) = θ(1−θ) und somit ist X(1− f¨ ur Var(Xi ). Dies muss allerdings nicht immer so sein: B 3.8 Poisson-Verteilung: F¨ ur eine zum Parameter λ Poisson-verteilte Zufallsvariable X gilt nach Aufgabe 1.5, dass E(X) = Var(X) = λ. Damit erh¨alt man aus der Momentenmethode zwei Sch¨ atzer: 1 := X ¯ =m 1 λ und
2
Ein Sch¨ atzer ist konsistent, wenn er f¨ ur n → ∞ gegen den wahren Parameter konvergiert, siehe Abschnitt 4.4.1; er heißt erwartungstreu oder unverzerrt, wenn sein Erwartungswert der wahre Parameter ist, siehe Definition 4.1.
3.2 Methode der kleinsten Quadrate
77
1 2 2 := m ¯ 2. 2 − (m 1 )2 = X − (X) λ n i=1 i n
2 . 1 = λ Allerdings gilt typischerweise λ Dass die Momentenmethode nicht immer zu sinnvollen Ergebnissen f¨ uhrt, zeigt folgendes Beispiel, welches eine diskrete Gleichverteilung verwendet. Analog kann diese Argumentation auf eine stetige Gleichverteilung u ¨bertragen werden. B 3.9 Diskrete Gleichverteilung und Momentensch¨ atzer : Man betrachtet eine Population mit θ Mitgliedern. Diese werden nummeriert mit den Nummern 1, . . . , θ. Von dieser Population werde n-mal mit Wiederholung gezogen. Mit Xi werde die gezogene Nummer des i-ten Zuges bezeichnet. Dann gilt ur r = 1, . . . , θ und i = 1, . . . , n. Ferner folgt P(Xi = r) = θ1 f¨ m1 (θ) = Eθ (Xi ) =
θ r=1
θ+1 1 1 θ(θ + 1) = . r= · θ r=1 θ 2 2 θ
r · Pθ (Xi = r) =
Sch¨ atzt man θ durch die Momentenmethode, so erh¨alt man mit θ = 2m1 (θ)− 1 einen Momentensch¨ atzer von θ: ¯ − 1. θ = 2X Wird {X = x} beobachtet, so erh¨ alt man mitunter nicht sinnvolle Sch¨atzer: so widerspricht dies der Gilt zum Beispiel max{x1 , . . . , xn } > 2¯ x − 1 = θ, nat¨ urlichen Bedingung θ ≥ max{x1 , . . . , xn }. Bemerkung 3.1. Die wesentlichen Merkmale der Momentenmethode sollen noch einmal zusammengefasst werden: • • •
Der Momentensch¨ atzer muss nicht eindeutig sein. Substitutionsprinzipien ergeben im Allgemeinen einfach zu berechnende Sch¨ atzer. Aufgrund dessen werden sie h¨aufig als erste bzw. vorl¨ aufige Sch¨ atzung verwendet. Falls der Stichprobenumfang groß ist (n → ∞), dann sind die Sch¨ atzungen nahe dem wahren Parameterwert. Diese Konsistenz wird im Abschnitt 4.4.1 genauer vorgestellt und diskutiert.
3.2 Methode der kleinsten Quadrate Die lineare Regression und in diesem Zusammenhang die Methode der kleinsten Quadrate ist eine Methode, die bereits Gauß f¨ ur astronomische Messungen verwendete, siehe dazu Gauß (1809). Das zur Anpassung der Regressionsgeraden an die Daten verwendete Prinzip der Minimierung eines quadra-
78
3. Sch¨ atzmethoden
tischen Abstandes findet in vielen unterschiedlichen Bereichen Anwendung. Die erhaltenen Formeln werden in der Numerik oft auch als verallgemeinerte Inverse verwendet.
3.2.1 Allgemeine und lineare Regressionsmodelle Regressionsprobleme untersuchen die Abh¨ angigkeit der Zielvariablen (Response, endogene Variable) von anderen Variablen (Kovariablen, unabh¨agige Variablen, exogene Variablen). Der Begriff Regression geht hierbei auf Experimente zur Sch¨ atzung der K¨ opergr¨ oße von S¨ohnen basierend auf der K¨ orpergr¨ oße ihrer V¨ ater zur¨ uck. Definition 3.2. Eine allgemeine Regression ist gegeben durch einen zu bestimmenden r-dimensionalen Parametervektor θ ∈ Θ und bekannte, parametrische Funktionen g1 , . . . , gn : Θ → R. Das zugeh¨orige Modell ist Yi = gi (θ) + i
i = 1, . . . , n.
Dar¨ uber hinaus gelten in unserer Formulierung stets die folgenden (WN)Bedingungen. Fehler, welche die Annahme (WN) erf¨ ullen, werden als weißes Rauschen (white noise) bezeichnet. (WN) (i) (ii) (iii)
F¨ ur die Zufallsvariablen 1 , . . . , n gilt: E(i ) = 0 f¨ ur alle i = 1, . . . , n. ur alle i = 1, . . . , n. σ 2 ist unbekannt. Var(i ) = σ 2 > 0 f¨ ur alle 1 ≤ i = j ≤ n. Cov(i , j ) = 0 f¨
Die Zufallsvariablen 1 , . . . , n stellen wie in Beispiel 2.2 Abweichungen von der systematischen Beziehung Yi = gi (θ) dar. Die Bedingung (i) veranschaulicht, dass die Regression keinen systematischen Fehler macht. Die Bedingung (ii) verlangt eine homogene Fehlervarianz, was man als homoskedastisch bezeichnet. Die Bedingungen (i)-(iii) gelten, falls 1 , . . . , n i.i.d. sind mit Erwartungswert 0 und Var(i ) > 0. Ein wichtiger Spezialfall ist durch die zus¨atzliche Normalverteilungsannahme i ∼ N (0, σ 2 ) gegeben. An dieser Stelle sei noch einmal auf die Analogie zu den Annahmen des Meßmodells aus Beispiel 2.2 verwiesen.
3.2 Methode der kleinsten Quadrate
79
B 3.10 Meßmodell aus Beispiel 2.2 : Es werden n Messungen einer physikalischen Konstante θ vorgenommen. Variiert der Messfehler additiv um θ, so erh¨alt man Yi = θ + i ,
i = 1, . . . , n.
In diesem Fall ist r = 1 und gi (θ) = θ. Die Messergebnisse werden stets mit y1 , . . . , yn bezeichnet. B 3.11 Einfache lineare Regression: Die einfache lineare Regression wurde bereits in Beispiel 2.19 im Kontext von exponentiellen Familien betrachtet, welches wir an dieser Stelle wieder aufgreifen. Man beobachtet Paare von Daten (x1 , y1 ), . . . , (xn , yn ). Die Gr¨ oßen x1 , . . . , xn werden als deterministisch und bekannt betrachtet und es wird folgendes statistisches Modell angenommen: Yi = θ1 + θ2 xi + i . Yi heißt Zielvariable mit Beobachtung yi und xi heißt Kovariable. Wir verwenden gi (θ1 , θ2 ) = θ1 + θ2 xi als parametrische Funktion. In Abbildung 3.1 werden die Beobachtungen zusammen mit der gesch¨atzten Regressionsgeraden x → θ1 + θ2 x bei einer einfachen linearen Regression gezeigt. y
g(x)
x Abb. 3.1 Eine einfache lineare Regression wie in Beispiel 3.11. Beobachtet werden Paare (xi , yi ), i = 1, . . . , n, welche in der Abbildung durch Kreuze gekennzeichnet sind. Die den Daten angepasste Regressionsgerade g : x → θˆ1 + θˆ2 x mit gesch¨ atzten Parametern θ1 und θ2 ist ebenfalls dargestellt.
80
3. Sch¨ atzmethoden
3.2.2 Methode der kleinsten Quadrate Bei dieser Methode sch¨ atzt man den unbekannten Parameter θ durch den Sch¨ atzwert θ = θ(y), welcher den Abstand von Eθ (Y ) und den beobachteten Daten y = (y1 , . . . , yn ) unter allen θ ∈ Θ minimiert. Der Abstand wird hierbei durch einen quadratischen Abstand Q gemessen. Das allgemeine Regressionsmodell wurde bereits in Definition 3.2 definiert. Definition 3.3. Der quadratische Abstand Q : Θ × Rn → R+ sei definiert durch n
2 Q(θ, y) := yi − gi (θ) , y ∈ Rn . (3.2) i=1
Gilt f¨ ur eine meßbare Funktion θ : Rn → Θ, dass ˜ y) Q(θ(y), y) ≤ Q(θ,
f¨ ur alle θ˜ ∈ Θ und y ∈ Rn ,
) Kleinste-Quadrate-Sch¨ so heißt θ(Y atzer (KQS) von g(θ). Ein KQS wird auch als Least Squares Estimator (LSE) bezeichnet. Sind die Funktionen gi differenzierbar, und ist das Bild von (g1 , . . . , gn ) abgeschlossen, so ist dies eine hinreichende Bedingung daf¨ ur, dass θ wohldefiniert ist. r Ist dar¨ uber hinaus Θ ⊂ R offen, so muss θ notwendigerweise die Normalengleichungen ∂ Q(θ, y)θ=θ(y) = 0, j = 1, . . . , r ∂θj erf¨ ullen. Mit der Definition von Q aus (3.2) sind die Normalengleichungen aquivalent zu folgender Gleichung: ¨ n i=1
∂ yi − gi (θ) · gi (θ) = 0, ∂θj θ=θ(y)
j = 1, . . . , r.
(3.3)
Bemerkung 3.4. In der linearen Regression sind die Funktionen gi (θ1 , . . . , θr ) alt man ein lineares Gleichungssystem, linear in θ1 , . . . , θr . In diesem Fall erh¨ welches man explizit l¨ osen kann. Die Kleinste-Quadrate-Methode soll nun an den obigen Beispielen illustriert werden. B 3.12 Meßmodell : Gegeben sei wie in Beispiel 3.10 ein lineares Modell Yi = θ + i ,
i = 1, . . . , n.
3.2 Methode der kleinsten Quadrate
Dann ist gi (θ) = θ und somit lengleichungen (3.3) ergeben
81
∂ ∂θ gi (θ)
n
= 1 f¨ ur alle i = 1, . . . , n. Die Norma-
(yi − θ(y)) = 0.
i=1
n Hieraus folgt unmittelbar, dass θ(y) = y¯ = n1 i=1 yi ist, das arithmetische Mittel der Beobachtungen. Der durch die Momentenmethode in Beispiel 3.6 erhaltene Sch¨ atzer ist gleich dem Sch¨atzer, welcher aus der KleinsteQuadrate-Methode errechnet wird. Nach Beispiel 2.18 ist Y¯ dar¨ uber hinaus eine suffiziente Statistik f¨ ur θ. B 3.13 Einfache lineare Regression: In Fortsetzung von Beispiel 3.11 betrachten wir ein lineares Modell gegeben durch Yi = θ1 + θ2 xi + i ,
i = 1, . . . , n.
∂gi ∂gi In diesem Fall ist gi (θ) = θ1 +θ2 xi und ∂θ (θ) = 1, ∂θ (θ) = xi . Schreiben wir 1 2 kurz θi = θi (y), i = 1, 2 so erhalten die Normalengleichungen (3.3) folgende Gestalt: n i=1 n
yi − θ1 − θ2 xi · 1 = 0
(3.4)
yi − θ1 − θ2 xi · xi = 0.
(3.5)
i=1
Aus Gleichung (3.4) erh¨ alt man mit y¯ :=
1 n
n i=1
yi und x ¯ :=
1 n
n i=1
xi , dass
¯. θ1 = y¯ − θ2 x Setzt man dies in (3.5) ein, so ergibt sich n
n n xi yi − y¯ − θ2 x ¯ xi − θ2 x2i = 0
i=1
i=1
i=1
1 1 xi yi − y¯ x ¯ = θ2 x2i − x ¯2 . n i=1 n i=1 n
⇔
n
n n n 2 Da x)2 = ¯)2 und xy¯ = i=1 xi − n(¯ i=1 (xi − x i=1 xi yi − n¯ n weiterhin (x − x ¯ )(y − y ¯ ) gilt, erh¨ a lt man folgende Aussage. i i i=1
82
3. Sch¨ atzmethoden
In der einfachen linearen Regression ist
n x − x ¯ y − y ¯ i i i=1 θ2 (y) =
2 n ¯ i=1 xi − x ¯. θ1 (y) = y¯ − θ2 x Die Gerade x → θ1 (y) + θ2 (y)x heißt Regressionsgerade. Sie minimiert die Summe der quadratischen Abst¨ ande zwischen (xi , yi ) und (xi , θ1 + θ2 xi ). Der Erwartungswert von Yi , gegeben durch E(Yi ) = θ1 + θ2 xi wird durch yi := θ1 (y) + θ2 (y) xi ,
i = 1, . . . , n
gesch¨ atzt. Die Regressionsgerade zusammen mit yi und yi werden in Abbildung 3.2 illustriert.
y
g(x) yi
yi
xi
x
Abb. 3.2 Illustration der Regressionsgeraden g : x → θ1 (y) + θ2 (y)x und der Erwartung eines Datenpunktes yi = θ1 (y) + θ2 (y)xi (siehe Abbildung 3.1).
3.3 Maximum-Likelihood-Sch¨ atzung
83
3.2.3 Gewichtete Kleinste-Quadrate-Sch¨ atzer In praktischen Anwendungen kann es n¨ utzlich sein, in allgemeinen Regressionsmodellen die Annahme (ii) aus Definition 3.2, Var(i ) = σ 2 , abzuschw¨ achen. Dies hatten wir als homoskedastisch bezeichnet. Ist die Varianz der Fehler abh¨ angig von i, so heißt das Modell heteroskedastisch. Eine allgemeine Regression heißt heteroskedastisch, falls Var(i ) = σ 2 · wi mit unterschiedlichen wi > 0, i = 1, . . . , n. Man nennt die wi auch Gewichte und nimmt an, dass sie bekannt sind. Unter dieser Annahme kann man durch eine Reparametrisierung eine homoskedastische, allgemeine Regression erhalten: Setze Yi Zi := √ wi −1/2
f¨ ur i = 1, . . . , n. Mit gi∗ (θ) := gi (θ)wi
−1/2
und ∗i := i wi
erh¨alt man
Zi = gi∗ (θ) + ∗i . Dies ist eine homoskedastische allgemeine Regression, denn E(∗i ) = 0, Cov(∗i , ∗j ) = 0 und Var(∗i ) =
1 1 · Var(i ) = wi σ 2 = σ 2 . wi wi
Den Sch¨ atzer in dem heteroskedastischen Modell erh¨alt man aus dem gewichteten Kleinste-Quadrate-Sch¨ atzerwert θw . Dieser minimiert n i=1
n
2
2 1 zi − gi∗ (θ) = yi − gi (θ) , wi i=1
wobei wir zi := yi (wi )−1/2 gesetzt haben. Im Kontext der einfachen linearen Regression wird θw in der Aufgabe 3.20 bestimmt.
3.3 Maximum-Likelihood-Sch¨ atzung Die wichtigste und flexibelste Methode zur Bestimmung von Sch¨atzern ist die Maximum-Likelihood-Methode. Es werde ein regul¨ares statistisches Modell P gegeben durch eine Familie von Dichten oder Wahrscheinlichkeitsfunktionen p(·, θ) : θ ∈ Θ mit Θ ⊂ Rk betrachtet.
84
3. Sch¨ atzmethoden
Die Funktion L : Θ × Rn → R+ , gegeben durch L(θ, x) := p(x, θ) mit θ ∈ Θ, x ∈ Rn heißt Likelihood-Funktion des Parameters θ f¨ ur die Beobachtung x. Falls X eine diskrete Zufallsvariable ist, dann gibt L(θ, x) die Wahrscheinlichkeit an, die Beobachtung {X = x} unter dem Parameter θ zu erhalten. Aus diesem Grund kann man L(θ, x) als Maß daf¨ ur interpretieren, wie wahrscheinlich (likely) der Parameter θ ist, falls x beobachtet wird. Im stetigen Fall kann diese Interpretation ebenfalls erlangt werden, indem man das Ereignis {X liegt in einer -Umgebung von x} betrachtet und gegen Null gehen l¨ asst. Die Maximum-Likelihood-Methode besteht darin, den Sch¨atzwert θ = θ(x) zu finden, unter dem die beobachteten Daten die h¨ochste Wahrscheinlichkeit erlangen. Definition 3.5. Gibt es in dem regul¨ aren statistischen Modell P eine meßbare Funktion θ : Rn → Θ, so dass L(θ(x), x) = max L(θ, x) : θ ∈ Θ f¨ ur alle x ∈ Rn , so heißt θ(X) Maximum-Likelihood-Sch¨ atzer (MLS) von θ. Falls der MLS θ(X) existiert, dann sch¨ atzen wir q(θ) durch q(θ(X)). In diesem Fall heißt q(θ(X)) der Maximum-Likelihood-Sch¨ atzer von q(θ). Dieser wird auch als MLE oder Maximum-Likelihood-Estimate von q(θ) bezeichnet. Ist die Likelihood-Funktion differenzierbar in θ, so sind m¨ ogliche Kandidaten f¨ ur den Maximum-Likelihood-Sch¨ atzwert durch die Bedingung ∂ L(θ, x) = 0, ∂θi
i = 1, . . . , k
gegeben. Dar¨ uber hinaus ist die zweite Ableitung zu u ufen, um fest¨berpr¨ zustellen, ob es sich tats¨ achlich um ein Maximum handelt. Weitere Maxima k¨ onnten auch auf dem Rand des Parameterraums angenommen werden. F¨ ur die praktische Anwendung ist es ¨ außerst n¨ utzlich den Logarithmus der Likelihood-Funktion zu betrachten. Da der Logarithmus eine streng monoton wachsende Funktion ist, bleibt die Maximalit¨at unter dieser Transformation erhalten.
3.3 Maximum-Likelihood-Sch¨ atzung
85
Die Log-Likelihood-Funktion l : Θ × Rn → R ist definiert durch l(θ, x) := ln L(θ, x). Falls Θ offen, l differenzierbar in θ f¨ ur festes x und θ(x) existiert, so muß der Maximum-Likelihood-Sch¨ atzerwert θ(x) die Log-Likelihood-Gleichung erf¨ ullen: ∂ l(θ, x) = 0. (3.6) ∂θ θ=θ(x) Des Weiteren sind hinreichende Bedingungen, etwa an die zweite Ableitung, zu u ufen um zu verifizieren, dass θ(x) auch tats¨achlich eine Maximal¨berpr¨ stelle ist. Bemerkung 3.6. Konkavit¨ at der Likelihood-Funktion. Nicht immer muss man die zweite Ableitung bem¨ uhen, um Maximalit¨at zu zeigen: Falls L kon∂ L(θ, x) = 0 f¨ ur θ ∈ R stets Maximumkav ist, so ist eine L¨ osung von ∂θ Likelihood-Sch¨ atzwert f¨ ur θ. Gleiches gilt ebenso f¨ ur l. In Abbildung 3.3 wird dies an einer konkaven Funktion illustriert. Hierbei ist eine Funktion
Abb. 3.3 Ist die Funktion L konkav, so ist das Verschwinden der ersten Ableitung auch hinreichend f¨ ur ein Maximum von L.
f : R → R konkav, falls f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y) f¨ ur alle λ ∈ (0, 1). Angewendet etwa auf die Log-Likelihood-Funktion l heißt das: Ist l zweimal differenzierbar in θ, so ist l konkav in θ genau dann, wenn ∂2 ∂θ 2 l(θ, x) ≤ 0. B 3.14 Log-Likelihood-Funktion unter Unabh¨ angigkeit: Sind die X1 , . . . , Xn unabh¨ angig und hat Xi die Dichte oder Wahrscheinlichkeitsfunktion pi (·, θ), so ist die Log-Likelihood-Funktion gegeben durch
86
3. Sch¨ atzmethoden
l(θ, x) = ln
n
pi (xi , θ)
i=1
=
n
ln pi (xi , θ).
i=1
Bemerkung 3.7. Maximum-Likelihood-Sch¨atzer m¨ ussen nicht notwendigerweise existieren und sind auch nicht immer eindeutig. Des Weiteren sind MLS invariant unter montonen Transformationen: Falls θ ein MLS f¨ ur q(θ) ist und ein MLS f¨ h eine streng monotone Funktion, so ist h(θ) ur h(q(θ)).
3.3.1 Maximum-Likelihood in eindimensionalen Modellen In diesem Abschnitt nehmen wir an, dass θ ∈ R ein eindimensionaler Parameter ist. Wir beginnen mit zwei Beispielen. B 3.15 Normalverteilungsfall, σ bekannt: (Siehe Beispiel 2.11). Sei X normalverteilt, X ∼ N (θ, σ 2 ) und die Varianz σ 2 sei bekannt. Mit der Dichte der Normalverteilung, gegeben in (1.6), erh¨ alt man die Likelihood-Funktion
2 1 1 exp − 2 θ − x . L(θ, x) = √ 2σ 2πσ 2 Diese ist in der Abbildung 3.4 dargestellt. Nach Beispiel 3.14 kann man dies leicht auf die i.i.d.-Situation u ¨bertragen: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ ur die Likelihood-Funktion3 N (θ, σ 2 ). Die Varianz σ 2 sei bekannt. Dann gilt f¨ n (xi − θ)2 . L(θ, x) ∝ exp − 2σ 2 i=1
Daraus erh¨ alt man die Log-Likelihood-Funktion mit einer geeigneten Konstanten c ∈ R n (xi − θ)2 l(θ, x) = c − . 2σ 2 i=1 Die Log-Likelihood-Gleichung (3.6) ergibt direkt, dass ˆ θ(x) =x ¯. Die zweite Ableitung von l nach θ ist negativ und somit ist das gefundene θ Maximalstelle. Die verschiedenen Sch¨ atzmethoden f¨ ur den Normalverteilungsfall, etwa die Momentenmethode in Beispiel 3.6 oder die Kleinste-Quadrate-Methode 3 In dieser Gleichung ist L nur bis auf multiplikative Konstanten angegeben. L(θ) ∝ f (θ) bedeutet, es existiert eine von θ unabh¨ angige Konstante c, so dass L(θ) = c·f (θ).
3.3 Maximum-Likelihood-Sch¨ atzung
87
Abb. 3.4 Die Likelihood-Funktion L als Funktion von θ aus Beispiel 3.15. Der Maximum-Likelihood-Sch¨ atzwert θ(x) maximiert die Likelihood-Funktion L(θ, x) f¨ ur ein festes x.
in Beispiel 3.13, ergeben folglich den gleichen Sch¨atzer wie die MaximumLikelihood-Methode. B 3.16 Gleichverteilung: (Fortsetzung von Beispiel 3.9) Es werde eine Population mit θ Mitgliedern betrachtet. Die Mitglieder seien nummeriert mit 1, . . . , θ. Von dieser Population werde n-mal mit Wiederholung gezogen. Mit Xi werde die gezogene Nummer des i-ten Zuges bezeichnet und das Maximum der Beobachtungen durch x(n) := max{x1 , . . . , xn }. Es gilt, dass P(Xi = r) = θ−1 1{r∈{1,...,θ}} . Nach Beispiel 3.14 ist die Likelihood-Funktion gegeben durch L(θ; x) =
n
θ−1 1{xi ∈{1,...,θ}} = θ−n 1{x(n) ≤θ,x1 ,...,xn ∈N}
(3.7)
i=1
⎧ ⎪ ⎨0 = max{x1 , . . . , xn }−n ⎪ ⎩ −n θ
f¨ ur θ ∈ {1, . . . , x(n) − 1} f¨ ur θ = x(n) f¨ ur θ > x(n) .
Damit ergibt sich θ = X(n) als Maximum-Likelihood-Sch¨atzer. Die LikelihoodFunktion ist in Abbildung 3.5 dargestellt. B 3.17 Genotypen: Wie in Beispiel 3.5 werde eine Population mit drei Genotypen, bezeichnet durch 1, 2, 3, betrachtet. Sei mit p(i, θ) die Wahrscheinlichkeit f¨ ur Genotyp i f¨ ur gegebenes θ ∈ (0, 1). Wir hatten gezeigt, dass in dem so genannten Hardy-Weinberg-Gleichgewicht p(1, θ) = θ2 ,
p(2, θ) = 2θ(1 − θ),
p(3, θ) = (1 − θ)2
88
3. Sch¨ atzmethoden
Abb. 3.5 Die Likelihood-Funktion als Funktion von θ f¨ ur eine Population mit θ Mitgliedern, wie in Gleichung (3.7) berechnet. Die Darstellung ist f¨ ur x(n) = 4.
f¨ ur ein θ ∈ (0, 1) gilt. In einer Untersuchung werden drei nicht verwandte Personen typisiert. Xi bezeichne den Typ der i-ten Person. Die Untersuchung ergebe die Beobachtung x0 = (1, 2, 1) . Dann ist die Likelihood-Funktion gegeben durch L(θ, x0 ) = p(1, θ) · p(2, θ) · p(1, θ) = 2θ5 (1 − θ) und somit ist die Log-Likelihood-Funktion l(θ, x0 ) = 5 ln(θ) + ln(1 − θ) + ln(2). Aus der notwendigen Bedingung f¨ ur eine Maximalstelle, (3.6), folgt ∂l(θ, x0 ) 5 1 = − =0 ∂θ θ 1−θ 0 ) = 5 . Um Maximalit¨ und somit θ(x at nachzuweisen, u ufen wir die ¨berpr¨ 6 zweite Ableitung. Da ∂ 2 l(θ, x0 ) 5 1 =− 2 − <0 ∂θ2 θ (1 − θ)2 0 ) = 5 Maximalstelle von L(θ, x) und somit f¨ ur alle θ ∈ (0, 1), ist θ(x 6 ein Maximum-Likelihood-Sch¨ atzwert f¨ ur θ unter der Beobachtung x0 = (1, 2, 1) . Die Situation mit n Beobachtungen wird in Beispiel 3.20 untersucht.
3.3 Maximum-Likelihood-Sch¨ atzung
89
B 3.18 Warteschlange: (Siehe Beispiel 2.7) Sei X die Anzahl der Kunden, welche an einem Schalter in n Stunden ankommen. Wir nehmen an, dass die Anzahl der ankommenden Kunden einem Poisson-Prozess folgt und bezeichnen die Intensit¨ at (beziehungsweise die erwartete Anzahl von Kunden pro Stunde) mit λ. Dann gilt X ∼ Poiss(nλ). Mit der Wahrscheinlichkeitsfunktion einer Poisson-Verteilung, gegeben in Gleichung (1.5), erh¨alt man die LikelihoodFunktion L(λ, x) =
e−λn (λn)x x!
f¨ ur x = 0, 1, . . . . Damit ist die Log-Likelihood-Funktion l(x, λ) = −λn + x ln(λn) − ln x! und die Log-Likelihood-Gleichung (3.6) egibt ∂l(λ, x) x·n 0= = 0. = −n + ·n ∂λ λ λ=λ = λ(x) Somit ist λ = x/n. Die zweite Ableitung ist −x/λ2 , welche f¨ ur x > 0 negativ ist. Somit erh¨ alt man f¨ ur x > 0 das arithmetische Mittel x λ(x) = n als den Maximum-Likelihood-Sch¨ atzwert f¨ ur λ. Gilt allerdings x = 0, so existiert kein MLS f¨ ur λ. In dem regul¨ aren statistischen Modell P = {p(·, θ) : θ ∈ Θ} sei Eθ (T (X)) der Erwartungswert von T (X) bez¨ uglich der Dichte oder Wahrscheinlichkeitsfunktion p(·, θ). Weiterhin sei das Bild von c durch c(Θ) := {c(θ) : θ ∈ Θ} bezeichnet. Satz 3.8 (MLS f¨ ur eindimensionale exponentielle Familien). Betrachtet werde das regul¨ are statistische Modell P = {p(·, θ) : θ ∈ Θ} mit Θ ⊂ R und p(x, θ) = 1{x∈A} exp c(θ)T (x) + d(θ) + S(x) , x ∈ Rn . Sei C das Innere von c(Θ), c injektiv und x ∈ Rn . Falls Eθ (T (X)) = T (x) eine L¨ osung θ(x) besitzt mit c(θ(x)) ∈ C, dann ist θ(x) der eindeutige Maximum-Likelihood-Sch¨ atzwert von θ.
90
3. Sch¨ atzmethoden
Beweis. Betrachte zun¨ achst die zugeh¨ orige nat¨ urliche exponentielle Familie in Darstellung (2.7). Sie ist gegeben durch {p0 (·, η) : η ∈ H} wobei H := {η ∈ R : d0 (η) < ∞} und p(x, η) = 1{x∈A} exp η · T (x) + d0 (η) + S(x) . Somit ist f¨ ur einen inneren Punkt η ∈ H ∂ l(η, x) = T (x) + d0 (η) und ∂η
∂2 l(η, x) = d0 (η). ∂η 2
Dann gilt nach Bemerkung 2.13 auch, dass Eη (T (X)) = −d0 (η), Varη (T (X)) = −d0 (η) > 0 und d0 (η) < 0. Daraus folgt, dass die Log-Likelihood-Funktion l strikt konkav ist und somit ist die Log-Likelihood-Gleichung (3.6) ¨aquivalent zu osung x f¨ ur Eη (T (X)) = T (x), so muß Eη (T (X)) = T (x). Existiert eine L¨ diese L¨ osung der MLS sein. Eindeutigkeit folgt aus der strikten Konkavit¨at von l. ur die Den allgemeinen Fall behandeln wir wie folgt. Sei x ∈ Rn beliebig. F¨ m¨ oglichen Werte der Log-Likelihood-Funktion gilt, dass l(θ, x) = c(θ)T (x)+d(θ)+S(x) : θ ∈ Θ ⊂ η·T (x)+d0 (η)+S(x) : η ∈ H , (3.8) denn f¨ ur θ ∈ Θ folgt aus der Injektivit¨ at von c, dass d0 (c−1 (θ)) < ∞ nach Bemerkung 2.9. Falls θ(x) L¨ osung von Eθ (T (X)) = T (x) ist, dann maximiert ur alle η ∈ H und weiterhin ist c(θ(x)) die Gleichung η · T (x) + d0 (η) + S(x) f¨ η(x) = c(θ(x)). Dies folgt aus der Eindeutigkeit von η(x) und der Injektivit¨at von c : Θ → R. Vergleichen wir mit (3.8), so erh¨alt man das Maximum der x). Hierbei ist θ(x) ∈Θ Menge {η · T (x) + d0 (η) + S(x) : η ∈ H} mit l(θ(x), und somit maximiert θ(x) die Log-Likelihood-Funktion l(·, x). B 3.19 Normalverteilungsfall, σ bekannt: (Siehe Beispiel 3.15) Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (θ, σ 2 ) und die Varianz σ 2 sei bekannt. Nach Beispiel 2.18 ist die urlicher Verteilung von X = (X1 , . . . , X nn) eine exponentielle Familie mit nat¨ suffizienter Statistik T (X) = i=1 Xi . Da Eθ (T (X)) = nθ, ist die Bedingung Eθ (T (X)) = T (x) ¨ aquivalent zu 1 xi . n i=1 n
θ=
3.3 Maximum-Likelihood-Sch¨ atzung
91
Da c(θ) = θ/σ2 nach Beispiel 2.11 gilt, ist c injektiv und das Bild von c ist ¯ im Inneren des Bildes von c. Mit Satz 3.8 folgt R. Damit liegt θ(X) := X ¯ somit, dass θ(X) = X ein eindeutiger MLS ist. B 3.20 Genotypen: Wir setzen Beispiel 3.17 fort. Dort wurde eine Population mit Genotypen 1, 2, 3 betrachtet. F¨ ur den unbekannten Parameter θ ∈ (0, 1) folgte, dass (3.9) p(1, θ) = θ2 , p(2, θ) = 2θ(1 − θ), p(3, θ) = (1 − θ)2 . Es werde eine Stichprobe X1 , . . . , Xn untersucht, wobei X1 , . . . , Xn i.i.d. mit X1 ∈ {1, 2, 3} seien und X1 habe die Wahrscheinlichkeitsfunktion p(·, θ) aus der Gleichung (3.9). Mit Ni , i = 1, 2, 3 werde die zuf¨allige Anzahl der Beobachtungen mit Wert i bezeichnet. Dann ist E(N1 ) = n · P(X1 = 1) = n · p(1, θ) = nθ2 und E(N2 ) = n · p(2, θ) = 2nθ(1 − θ). Weiterhin ist E(N1 + N2 + N3 ) = n. Betrachtet man eine Beobachtung x, f¨ ur welche sich n1 , n2 , n3 Elemente in den Gruppen 1, 2, 3 ergeben, so ist die Likelihood-Funktion gegeben durch
n2
n2 +2n3 L(θ, x) = θ2n1 2θ(1 − θ) (1 − θ)2n3 = 2n2 θ2n1 +n2 1 − θ θ 2n1 +n2
2n 1−θ . = 2n2 1−θ Damit liegt eine eindimensionale exponentielle Familie mit T (X) = 2N1 +N2 vor und c(θ) = ln
θ 1−θ
. Weiterhin ist
Eθ (T (X)) = Eθ (2N1 + N2 ) = 2nθ2 + 2nθ(1 − θ) = 2nθ. Damit ist Eθ (T (X)) = T (x) ¨ aquivalent zu 2nθ = 2n1 + n2 und somit ist 2N1 + N2 θ(X) = 2n nach Satz 3.8 der eindeutige MLS f¨ ur θ, denn c ist injektiv und dar¨ uber im Inneren des Bildes von c. hinaus liegt c(θ) Bemerkung 3.9. Der MLS in einer exponentiellen Familie ist auch Momentensch¨ atzer. Da nach Satz 3.8 Eθ (T (X)) = T (x) f¨ ur den eindeutigen MLS in einer eindimensionalen exponentiellen Familie gilt, ist dieser auch ein Momentensch¨ atzer.
92
3. Sch¨ atzmethoden
3.3.2 Maximum-Likelihood in mehrdimensionalen Modellen In diesem Abschnitt wird die Verallgemeinerung der Maximum-LikelihoodMethode vorgestellt, in welcher der Parameterraum Θ k-dimensional ist. Hierzu betrachten wir das regul¨ are statistische Modell P gegeben durch eine Familie von Dichten oder Wahrscheinlichkeitsfunktionen p(·, θ) : θ ∈ Θ mit orige Wahrscheinlichkeitsmaß sei mit Pθ bezeichΘ ⊂ Rk . Das zu p(·, θ) geh¨ net. Wir nehmen an, dass Θ offen ist. Falls die partiellen Ableitungen der Log-Likelihood-Funktion existieren und der MLS θ existiert, so l¨ost θ(x) die Log-Likelihood-Gleichung (3.6), ∂ l(θ, x) = 0. ∂θ θ=θ(x) Wieder bezeichnen wir mit Eθ (T (X)) den Erwartungswert von T (X) bez¨ uglich der Verteilung Pθ und das Bild von c mit c(Θ) := {c(θ) : θ ∈ Θ}. Der folgende Satz gibt Kriterien f¨ ur einen eindeutigen Maximum-LikelihoodSch¨ atzer in K-parametrigen exponentiellen Familien. Satz 3.10. Betrachtet werde das regul¨ are statistische Modell P = {p(·, θ) : θ ∈ Θ} aus einer K-parametrigen exponentiellen Familie, so dass f¨ ur alle x ∈ Rn und θ ∈ Θ p(x, θ) = 1{x∈A} exp
K
ci (θ)Ti (x) + d(θ) + S(x) ,
θ ∈ Θ. (3.10)
i=1
Sei C das Innere von c(Θ) und c1 , . . . , cK injektiv. Falls Eθ (Ti (X)) = Ti (x),
i = 1, . . . , K
eine L¨ osung θ(x) besitzt mit (c1 (θ(x)), . . . , cK (θ(x))) ∈ C, dann ist θ(x) der eindeutige Maximum-Likelihood-Sch¨ atzwert von θ.
Der Beweis des Satzes ist dem eindimensionalen Fall ¨ahnlich und Gegenstand von Aufgabe 3.23. In Verallgemeinerung von Beispiel 3.15 betrachten wir nun die Situation der MLS von normalverteilten Beobachtungen. B 3.21 MLS f¨ ur Normalverteilung, μ und σ unbekannt: Seien X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ 2 ) und sowohl μ als auch σ 2 unbekannt. Setze θ := (μ, σ 2 ) und uhrt die Darstellung der Normalverteilung Θ := R × R+ . Nach Beispiel 2.17 f¨ als exponentielle Familie gem¨ aß Gleichung (3.10) zu c1 (θ) = μ/σ2 und c2 (θ) = −1/2σ 2 . Damit ist C = R × R− mit R− := {x ∈ R : x < 0}. Weiterhin sind
3.3 Maximum-Likelihood-Sch¨ atzung
T1 (x) =
n
93
xi ,
T2 (x) =
i=1
n
x2i .
i=1
Daraus ergeben sich die folgenden Gleichungen. Zun¨achst ist Eθ T1 (X) = aquivalent zu nμ. Damit ist Eθ (T1 (X)) = T1 (x) ¨ nμ =
n
xi ,
i=1
¯ folgt. Weiterhin ist woraus μ = θ1 (X) = X n
Eθ T2 (X) = Eθ (Xi2 ) = n σ 2 + μ2 . i=1
n 2 Damit ist Eθ (T2 (X)) = T2 (x) ¨ aquivalent zu n σ 2 + μ2 = i=1 xi . Wir erhalten n n
1 2 ¯2 = 1 ¯ 2, σ 2 = θ2 (X) = Xi − X Xi − X n i=1 n i=1 falls n ≥ 2. Damit erhalten wir den MLS f¨ ur die Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz: Mit Satz 3.10 folgt, dass f¨ ur X1 , . . . , Xn i.i.d. und X1 ∼ N (μ, σ 2 ) n
¯ 1 ¯ 2 Xi − X θ = X, n i=1
der eindeutige Maximum-Likelihood-Sch¨atzer f¨ ur θ = (μ, σ 2 ) ist.
3.3.3 Numerische Bestimmung des Maximum-Likelihood-Sch¨ atzers Der Maximum-Likelihood-Sch¨ atzer l¨ asst sich nicht immer direkt ausrechnen, mitunter sind numerische Methoden notwendig, um ihn zu bestimmen, wie folgende Beispiele zeigen. ¨ B 3.22 Diskret beobachtete Uberlebenszeiten: Man untersucht gewisse Bauteile auf ihre Lebensdauer. Nimmt man an, dass die Bauteile erm¨ udungsfrei arbeiten, so bietet sich eine Exponentialverteilung zur Modellierung der Lebensdauer an (vergleiche dazu Aufgabe 1.6). Seien X1 , . . . , Xn i.i.d. und X1 ∼ Exp(θ) ¨ die Uberlebenszeiten von n beobachteten Bauteilen. Allerdings werden die Bauteile nicht permanent untersucht, sondern nur zu den Zeitpunkten a1 <
94
3. Sch¨ atzmethoden
a2 < · · · < ak . Setze a0 := 0 und ak+1 := ak + 1 (das Bauteil u ¨berdauert alle Inspektionen). Man beobachtet al falls al−1 < Xi ≤ al , l = 1, . . . , k Yi := ak+1 falls Xi > ak f¨ ur i = 1, . . . , n. Sei Nj die Anzahl der Y1 , . . . , Yn , welche den Wert aj annehmen, j = 1, . . . , k + 1. Dann ist der Vektor (N1 , . . . , Nk+1 ) multinomialverteilt. Dar¨ uber hinaus ist er suffizient f¨ ur θ. Zur Berechnung der LikelihoodFunktion L setzen wir pj (θ) := P(Y = aj ) = P(aj−1 < X ≤ aj ) = e−θaj−1 − e−θaj f¨ ur j = 1, . . . , k und pk+1 (θ) := P(Y = ak+1 ) = P(X > ak ) = e−θak . Dann ist die Likelihood-Funktion gegeben durch L(θ, n1 , . . . , nk+1 ) =
k+1 n! pj (θ)nj , n1 ! · · · nk+1 ! j=1
f¨ ur n1 , . . . , nk+1 ∈ N mit n1 + · · · + nk+1 = n. Man erh¨alt die Log-LikelihoodFunktion k+1 l(θ, n1 , . . . , nk+1 ) = nj ln(pj (θ)) + c, j=1
mit von θ unabh¨ angigem c = c(n1 , . . . , nk+1 ). Die Log-Likelihood-Gleichung (3.6) ergibt 0=
k+1 j=1
nj
∂ ∂θ pj (θ)
pj (θ)
=
k j=1
nj
aj e−aj θ − aj−1 e−aj−1 θ −ak e−ak θ + n . k+1 e−aj−1 θ − e−aj θ e−ak θ (3.11)
ur alle j = 1, . . . , k kann (3.11) nicht mehr explizit gel¨ost Falls aj = bj + d f¨ werden und die Bestimmung des MLS θ muss numerisch erfolgen. Zur numerischen Bestimmung des MLS stellen wir kurz die NewtonMethode und deren Variante, die Fisher-Scoring-Methode vor. Hierbei m¨ochte man die Log-Likelihood-Gleichung (3.6) l¨ osen. Zun¨achst l¨asst sich diese als nichtlineares Gleichungssystem der Form
3.4 Vergleich der Maximum-Likelihood-Methode mit anderen Sch¨ atzverfahren
⎛ ⎜ h(θ) = ⎝
95
⎞
h1 (θ1 , . . . , θk ) ⎟ .. ⎠=0 .
(3.12)
hk (θ1 , . . . , θk ) Dann gilt mit der schreiben. Sei θ die L¨ osung von (3.12) und θ0 nahe bei θ. Taylorentwicklung 1. Ordnung um θ0
≈ h(θ0 ) + Dh(θ0 ) θ − θ0 0 = h(θ) mit
⎞ ⎛ ∂h ∂h1 1 · · · ∂θ ∂θk θ=θ0 ⎟ ⎜ 1 θ=θ0 ⎟ ⎜. . . .. ⎟. Dh(θ0 ) = ⎜ ⎟ ⎜. ⎠ ⎝ ∂hk ∂hk · · · ∂θ1 ∂θk θ=θ0
θ=θ0
Wir nehmen an, dass Dh(θ) f¨ ur alle θ ∈ Θ invertierbar ist. Dann wird die
Gleichung h(θ0 ) + Dh(θ0 ) θ − θ0 = 0 gel¨ost von
−1 h(θ0 ). θ = θ0 − Dh(θ0 ) Dies wird nun in einem iterativen Verfahren eingesetzt: Sei θ0 ein Startwert und
−1 h(θi ). θi+1 := θi − Dh(θi ) Man iteriert diesen Algorithmus so lange bis ||θi+1 − θi || unter eine vorgegebene Schranke f¨ allt und setzt dann θ := θi+1 . Allgemeine Konvergenzaussagen sind vorhanden (siehe z.B. Lange (2004)). In der Statistik wird im Allgemeinen Dh(θ) von den Daten X abh¨angen, d.h. man erh¨ alt eine zuf¨
allige Matrix. In der Fisher-Scoring-Methode wird deswegen Eθ Dh(θi , X) an Stelle von Dh(θi , X) verwendet. Die FisherScoring-Methode wurde bereits in Sektion 5g von Rao (1973) angewendet.
3.4 Vergleich der Maximum-Likelihood-Methode mit anderen Sch¨ atzverfahren In diesem Abschnitt halten wir einige Beobachtungen fest, die den MLS in andere Sch¨ atzmethoden einordnen. (i) Das Maximum-Likelihood-Verfahren f¨ ur diskrete Zufallsvariablen entspricht dem Substitutionsprinzip. (ii) Der Kleinste-Quadrate-Sch¨ atzer einer allgemeinen Regression unter Normalverteilungsannahme aus Abschnitt 3.2 kann als Maximum-LikelihoodSch¨ atzer betrachtet werden: F¨ ur θ = (θ1 , . . . , θk ) und
96
3. Sch¨ atzmethoden
Yi = gi (θ) + i ,
i = 1, . . . , n
mit i.i.d. 1 , . . . , n und i ∼ N (0, σ 2 ) ist die Likelihood-Funktion gegeben durch
n 1 1 2 (xi − gi (θ)) . L(θ, x) = (3.13)
n/2 exp − 2σ 2 2πσ 2 i=1 F¨ ur alle σ 2 > 0 ist (3.13) genau dann maximal, wenn n
2 xi − gi (θ1 , . . . , θr )
i=1
minimal ist. Damit entspricht der Kleinste-Quadrate-Sch¨atzer in diesem Fall dem Maximum-Likelihood-Sch¨ atzer. (iii) In einem Bayesianischen Modell mit endlichem Parameterraum Θ und der Gleichverteilung als a priori-Verteilung f¨ ur θ, ist der MaximumLikelihood-Sch¨ atzer θ derjenige Wert von θ, der die h¨ochste a posterioriWahrscheinlichkeit besitzt. Gilt Θ = [a, b] und θ ∼ U (a, b), dann ist der Maximum-Likelihood-Sch¨ atzer θ der Modus der a posteriori-Dichte.
3.5 Anpassungstests In diesem Buch gehen wir stets von einem parametrischen Modell von der Form P = {Pθ : θ ∈ Θ} aus. Wie wir in diesem Abschnitt gesehen haben, kann man unter dieser Annahme verschiedene Sch¨atzern herleiten und in den folgenden Kapiteln werden wir deren Optimalit¨atseigenschaften analysieren. In der praktischen Anwendung muss man die Annahme, dass die Daten dem Modell P = {Pθ : θ ∈ Θ} entstammen mit einem geeigneten Test u ufen. Dies f¨ uhrt auf nat¨ urliche Weise zu so genannten nichtparametri¨berpr¨ schen Tests, wie z.B. den χ2 -Anpassungstest oder eine der vielen Varianten des Kolmogorov-Smirnov-Anpassungstests. F¨ ur eine praktische Darstellung von Anpassungstests verweisen wir auf Abschnitt 5.1 von Duller (2008). Einige theoretische Aspekte der χ2 -Tests werden bereits in Abschnitt 11.2 und 11.3 von Georgii (2004) erw¨ ahnt und eine tiefere Analyse und weitere Literaturhinweise finden sich ab Gleichung (1.61) in Lehmann (2007).
3.6 Aufgaben A 3.1 Absolute und quadratische Abweichung: Zeigen Sie, dass der Erwartungswert E(X) die Gleichung x → E((X − x)2 ) minimiert. Der Median von X ist eine
3.6 Aufgaben
97
Zahl m, f¨ ur welche P(X ≥ m) = 1/2 = P(X ≤ m) gilt. Nehmen Sie nun an, dass X eine Dichte hat, und zeigen Sie, dass dann der Median von X die Funktion x → E(|X − x|) minimiert.
H¨ aufigkeitssubstitution A 3.2 Qualit¨ atskontrolle: H¨ aufigkeitssubstitution: Es werde eine Ladung Bananen untersucht, wobei die untersuchten Bananen jeweils als in Ordnung (1), leicht besch¨ adigt (2) oder stark besch¨ adigt (3) klassifiziert werden. Diese Kategorien kommen jeweils mit den folgenden Wahrscheinlichkeiten vor, wobei θ ∈ (0, 1) unbekannt und α ∈ (0, 1) bekannt sei: in Ordnung leicht besch¨ adigt stark besch¨adigt α(1 − θ)
θ
(1 − α)(1 − θ)
Weiterhin bezeichne Ni die Anzahl der Bananen aus Kategorie i ∈ {1, 2, 3} in einer Stichprobe der L¨ ange n. (i) Zeigen Sie, dass T = 1 − Nn2 − Nn3 ein H¨aufigkeitssubstitutionssch¨atzer f¨ ur θ ist. (ii) Finden Sie einen H¨ aufigkeitssubstitutionssch¨atzer f¨ ur den Quotienten θ . 1−θ Momentensch¨ atzer A 3.3 Momentensch¨ atzer: Beispiele: Bestimmen Sie mittels der Momentenmethode einen Momentensch¨ atzer f¨ ur θ bei den folgenden Verteilungen: (i) Die Gleichverteilung mit Dichte pθ (x) = 1{x∈(−θ,θ)} n Sch¨ atzer ist θ = n3 i=1 Xi2 .
1 2θ,
θ > 0; der
(ii) Die geometrische Verteilung gegeben durch Pθ (X = k) = θ (1 − θ)k−1 ¯ −1 . mit θ ∈ (0, 1) und k = 1, 2, . . . ; der Sch¨atzer ist θ = (X) θ2
1 (iii) Die Gamma-Verteilung mit der Dichte pθ (x) = 1{x>0} Γ (θ xθ2 −1 e−θ1 x 2) f¨ ur θ = (θ1 , θ2 ) ∈ R+ × R+ ; der Sch¨atzer ist θ = (θ1 , θ2 ) mit
θ
θ1 =
1 n
¯ X 2 ¯ 2, i=1 Xi − (X)
n
θ2 =
1 n
¯ 2 (X) 2 ¯ 2. i=1 Xi − (X)
n
(iv) Die Binomialverteilung {Bin(θ1 , θ2 ) | θ1 ∈ N, θ2 ∈ [0, 1]}; der Sch¨atzer ist θ = (θ1 , θ2 )mit
98
3. Sch¨ atzmethoden
θ1 =
¯ X ¯− 1+X
1 ¯ nX
n i=1
, 2
Xi
n ¯− 1 θ2 = 1 + X Xi2 . ¯ nX i=1
(v) Die Beta-Verteilung Beta(θ + 1, 1) gegeben durch die Dichte pθ (x) = atzer ist 1{x∈(0,1)} (θ + 1)xθ ; der Sch¨ ¯ 1 − 2X . θ = ¯ X −1 A 3.4 Momentensch¨ atzer: Beta-Verteilung: Die Zufallsvariablen X1 , . . . , Xn seien i.i.d. Beta-verteilt, d.h. X1 ∼ Beta(a, b). Bestimmen Sie einen Momentensch¨ atzer f¨ ur θ = (a, b) . A 3.5 Momentensch¨ atzer: Laplace-Verteilung: Die Stichprobe X1 , . . . , Xn sei i.i.d. und X1 sei Laplace-verteilt mit der Dichte pθ (x) =
1 −θ|x| θe . 2
Bestimmen Sie einen Momentensch¨ atzer f¨ ur die Wahrscheinlichkeit P(X1 > c) f¨ ur eine feste Konstante c ∈ R. A 3.6 Momentensch¨ atzer: Weibull-Verteilung: Seien X1 , . . . , Xn i.i.d. mit Dichte 2θ3 2 − θ x2 x e 2 1{x>0} , p(x) = π wobei der Parameter θ > 0 unbekannt ist. Berechnen Sie den Momentensch¨ atzer f¨ ur θ basierend auf dem zweiten Moment. A 3.7 Momentensch¨ atzer: AR(1): Die Zufallsvariablen Z1 , . . . , Zn seien i.i.d. mit Z1 ∼ N (0, σ 2 ). Die Zeitreihe (Xi )1≤i≤n heißt autoregressiv der Ordnung 1 ur 1 ≤ i ≤ n oder AR(1), falls mit X0 := μ und f¨ Xi = μ + β(Xi−1 − μ) + Zi . (i) Verwenden Sie E(Xi ), um einen Momentensch¨atzer f¨ ur μ zu finden. (ii) Nun seien μ = μ0 und β = β0 fix und bekannt und weiterhin Xi − μ0 Ui := . i−1 2j β j=0 0 Verwenden Sie E(Ui2 ), um einen Momentensch¨atzer f¨ ur σ 2 zu finden. A 3.8 Momentensch¨ atzung hat keinen Zusammenhang zur Suffizienz : Betrachten Sie dazu die Verteilungsfamilie von zweiseitigen Exponentialverteilungen gegeben durch die Dichte
3.6 Aufgaben
99
pθ (x) =
1 −|x−θ| e , θ ∈ R. 2
¯ ein Momentensch¨atzer f¨ Zeigen Sie mit dem ersten Moment, dass X ur θ ist. Weisen Sie nach, dass dieser nicht suffizient f¨ ur θ ist. A 3.9 Sch¨ atzung der Kovarianz : Seien (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. mit der gleichen Verteilung wieder Zufallsvektor (X, Y ). Ferner seien die arithmetischen ¯ = 1 n Xi und Y¯ = 1 n Yi bezeichnet. Zeigen Sie, dass Mittel mit X i=1 i=1 n n 1 ¯ i − Y¯ ) (Xi − X)(Y n − 1 i=1 n
T (X, Y ) :=
ein unverzerrter Sch¨ atzer f¨ ur Cov(X, Y ) ist (vergleiche dazu Aufgabe 4.29).
Maximum-Likelihood-Sch¨ atzer A 3.10 Maximum-Likelihood-Sch¨ atzer einer gemischten Verteilung: Seien p1 und p2 zwei Dichten. F¨ ur jedes θ ∈ [0, 1] ist dann die Mischung der beiden Verteilungen durch die Dichte pθ (x) = θ p1 (x) + (1 − θ) p2 (x) gegeben. Betrachten Sie das parametrische Modell {pθ : θ ∈ [0, 1]} und bestimmen Sie eine notwendige und hinreichende Bedingung daf¨ ur, dass die Likelihood-Gleichung eine L¨ osung besitzt. Weisen Sie nach, dass diese L¨ osung, falls sie existiert, der eindeutige Maximum-Likelihood-Sch¨atzer f¨ ur θ ist. Was ist der Maximum-Likelihood-Sch¨atzer, wenn die LikelihoodGleichung keine L¨ osung besitzt? A 3.11 Mischung von Gleichverteilungen: Seien X1 , . . . , Xn i.i.d. mit Dichte pθ und θ ∈ [0, 1]. Zeigen Sie, dass der Maximum-Likelihood-Sch¨atzer f¨ ur pθ (x) = θ 1{(−1,0)} (x) + (1 − θ) 1{(0,1)} (x) gerade θ =
1 n
n i=1
1{Xi ∈(−1,0)} ist.
A 3.12 Maximum-Likelihood-Sch¨ atzer: Beispiele: Bestimmen Sie bei den folgenden Verteilungsfamilien jeweils einen Maximum-Likelihood-Sch¨atzer f¨ ur θ. Betrachten Sie dazu X1 , . . . , Xn i.i.d. mit der jeweiligen Verteilung und X := X1 . (i) Die diskrete Gleichverteilung gegeben durch Pθ (X = m) = θ−1 f¨ ur m = 1, . . . , θ und mit θ ∈ N; der MLS ist θ = max{X1 , . . . , Xn }. (ii) Die Gleichverteilung U (0, θ), hierbei hat X die Dichte 1{x∈(0,θ)}
1 θ
100
3. Sch¨ atzmethoden
und θ = max{X1 , . . . , Xn }. (iii) Die geometrische Verteilung gegeben durch Pθ (X = m) = θ (1 − θ)m−1 ¯ −1 . f¨ ur m ∈ N und mit θ ∈ (0, 1); der MLS ist θ = (X) (iv) Die nichtzentrale Exponentialverteilung mit Dichte 2 1 − x−θ e θ1 1{x≥θ2 } θ1
mit θ = (θ1 , θ2 ) ∈ R+ × R. F¨ ur n ≥ 2 ist der MLS θ = (θ1 , θ2 ) gegeben ¯ durch θ1 = X − X(1) und θ2 = X(1) . (v) Sei X Beta(θ+1, 1)-verteilt, d.h. X hat die Dichte pθ (x) = 1{x∈(0,1)} (θ+ ur g(θ) := 1)xθ . Bestimmen Sie einen Maximum-Likelihood-Sch¨atzer f¨ Eθ (X 2 ). (vi) Ist X1 ∼ N (μ, σ 2 ) und μ bekannt, so ist der Maximum-LikelihoodSch¨ atzer von σ gerade 1 (Xi − μ)2 . n i=1 n
σ 2 (X) =
A 3.13 Exponentialverteilung: MLS und Momentensch¨ atzer : Seien X1 , . . . , Xn Expo¯ −1 der Maximumnentialverteilt zum Parameter θ. Zeigen Sie, dass θ = (X) Likelihood-Sch¨ atzer als auch ein Momentensch¨atzer ist. A 3.14 Maximum-Likelihood-Sch¨ atzer: Zweidimensionale Exponentialverteilung: Betrachtet werden i.i.d. Zufallsvariablen (Y1 , Z1 ), . . . , (Yn , Zn ). Weiterhin seien angig und exponentialverteilt mit Parametern λ > 0 bzw. Y1 und Z1 unabh¨ μ > 0. Bestimmen Sie den Maximum-Likelihood-Sch¨atzer f¨ ur (λ, μ). A 3.15 Verschobene Gleichverteilung: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ U (θ, θ + 1). = min{X1 , . . . , Xn } die kleinste Der Parameter θ sei unbekannt und X(1) ¯ := n−1 n Xi . Betrachten Sie die beiden Ordnungsgr¨ oße der Daten und X i=1 Sch¨ atzer ¯− T1 (X) = X
1 2
und
T2 (X) = X(1) −
1 . n+1
Zeigen Sie, dass beide Sch¨ atzer erwartungstreu sind. Berechnen Sie die Varianz der beiden Sch¨ atzer. A 3.16 Maximum-Likelihood-Sch¨ atzer: Weibull-Verteilung: Seien X1 , . . . , Xn i.i.d. mit der Dichte 2θ3 2 − θ x2 x e 2 1{x>0} , p(x) = π wobei der Parameter θ > 0 unbekannt ist. Finden Sie den MaximumLikelihood-Sch¨ atzer f¨ ur θ und kl¨ aren Sie, ob dieser eindeutig ist. A 3.17 Zensierte Daten: In der Medizin kommt es oft vor, dass Lebensdauern in einer Studie nicht beobachtet werden k¨ onnen, etwa weil einige Patienten aus der
3.6 Aufgaben
101
Studie aus privaten Gr¨ unden ausscheiden. In einem solchen Fall spricht man von zensierten Daten (siehe Klein und Moeschberger (2003)). Ein m¨ogliches Modell hierf¨ ur erh¨ alt man in der Notation von Aufgabe 3.14 wie folgt: Angeur i = 1, . . . , n nommen es werde nur Xi = min{Yi , Zi } mit Δi = 1{Xi =Yi } f¨ beobachtet. Δ ist der so genannten Zensierungs-Indikator. Ist Δi = 1, so = 0, so ist das beobachtet man die originalen Daten (Yi ). Ist hingegen Δi n Datum zensiert und Yi wird nicht beobachtet. Setze D := i=1 Δi . Dann sind die MLS f¨ ur (λ, μ) gegeben durch = λ
n i=1
Xi
D
n
−1 ,
μ =
Xi n−D
−1
i=1
.
A 3.18 Lebensdaueranalyse: Rayleigh-Verteilung: Eine Stichprobe gebe die Restlebensdauer von n Patienten wieder, die unter derselben Krankheit leiden. Dabei seien X1 , . . . , Xn i.i.d. und Rayleigh-verteilt mit Dichte pθ (x) = 1{x>0}
2 x − x2 e θ , θ
wobei der Parameter θ > 0 unbekannt sei. Gesch¨ atzt werden soll die Wahrscheinlichkeit, dass ein Patient eine Restlebensdauer von mindestens t Jahren besitzt. Der MLS von θ ist T (X) := n ¨ ur die Uberlebenswahrscheinlichkeit S(t, θ) = n−1 i=1 Xi2 und der MLS f¨ ur jedes feste t > 0. Der MLS f¨ ur die Hazard Pθ (X1 > t) ist exp(−t2 /T (X)) f¨ ur jedes feste t > 0. Rate λ(t, θ) = S(t,θ) pθ (t) ist T (X)/(2t), f¨ A 3.19 Die Maximum-Likelihood-Methode zur Gewinnung von Sch¨ atzern hat einen Zusammenhang zur Suffizienz : Sei dazu {pθ : θ ∈ Θ} ein regul¨ares statistisches Modell und T (X) eine suffiziente Statistik f¨ ur θ. Weisen Sie nach, dass ein Maximum-Likelihood-Sch¨ atzer f¨ ur θ eine Funktion von T (X) ist.
Lineare Regression und Kleinste-Quadrate-Sch¨ atzer A 3.20 Gewichtete einfache lineare Regression: Finden Sie eine Formel f¨ ur den Kleinste-Quadrate-Sch¨ atzer θw im Modell Yi = θ1 + θ2 xi + i , wobei 1 , . . . , n unabh¨ angig seien mit i ∼ N (0, σ 2 wi ). A 3.21 Lineare Regression: Quadratische Faktoren: Seien 1 , . . . , n i.i.d. und 1 ∼ N (0, σ 2 ) mit bekanntem σ 2 . Betrachtet werde folgendes lineare Modell Yi =
θ 2 X + i , 2 i
1 ≤ i ≤ n.
102
3. Sch¨ atzmethoden
Bestimmen Sie den Kleinste-Quadrate-Sch¨ atzer θ von θ (das Konfidenzintervall wird in Aufgabe 5.4 bestimmt). A 3.22 Gewichteter Kleinste-Quadrate-Sch¨ atzer: Normalverteilung: Man beobachtet eine Realisation ((x1 , y1 ), . . . , (xn , yn )) von ((X1 , Y1 ), . . . , (Xn , Yn )). Es werde angenommen, dass Y1 , . . . , Yn unabh¨angig und normalverteilt sind, ur i = 1, . . . , n. Yi ∼ N θ0 + θ1 eXi , wi σ 2 mit bekannten Gewichten wi > 0 f¨ Finden Sie den gewichteten Kleinste-Quadrate-Sch¨atzer von (θ0 , θ1 ). Welche Zielfunktion minimiert dieser Sch¨ atzer? A 3.23 Beweis von Satz 3.10: Beweisen Sie die Aussage von Satz 3.10. A 3.24 Normalverteilung: Sch¨ atzung der Varianz : Seien X1 , X2 , . . . i.i.d. mit X1 ∼ ur ein σ > 0. Seien (f¨ ur gerade Stichprobenanzahl 2 n, mit n ∈ N) N (0, σ 2 ) f¨ ) * 2n 2n * 1 1 T1 (X) = |Xi |, T2 (X) = + X 2. 2 n i=1 2 n i=1 i Bestimmen Sie zwei Zahlenfolgen an und bn so, dass an T1 (X) und bn T2 (X) erwartungstreue Sch¨ atzer f¨ ur σ sind. (Hinweis: Nutzen Sie die Momente der Normalverteilung aus Aufgabe 1.11) Berechnen Sie die Varianzen der so bestimmten Sch¨ atzer an T1 (X) und bn T2 (X). A 3.25 Ausreißer : Es bezeichne φμ,σ2 (x) die Dichte einer normalverteilten Zufallsvariable mit Mittelwert μ und Varianz σ 2 . Seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit der Dichte p (x) = (1 − ) φ0,σ2 (x) + φz, σ2 (x), f¨ ur vorgegebene z > 1, σ > 0 und ein unbekanntes ∈ (0, 1). Wir fassen X1 , . . . , Xn als Messfehler auf. Dabei seien manche Messungen ungenau und haben daher einen anderen Mittelwert, wir kennen den Anteil der verzerrtent Messungen jedoch nicht. Als Maß f¨ ur die durchschnittliche Fehlerlastigkeit der Messungen betrachten wir die beiden Statistiken 1 |Xi |, n i=1 n
T1 (X) =
1 2 X . n i=1 i n
und T2 (X) =
Berechnen Sie die Erwartungswerte von T1 (X) und T2 (X) und geben Sie (abh¨ angig von den bekannten Parametern σ und z) an, f¨ ur welche Werte von ur welche Werte von die Statistik T2 (X) st¨arker die Statistik T1 (X) und f¨ auf die Ausreißer reagiert.
Kapitel 4.
Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Dieses Kapitel besch¨ aftigt sich mit der Optimalit¨at von Sch¨atzern. Hierf¨ ur wird der klassische Zugang der Effizienz, welche am mittlerem quadratischen Abstand von dem zu sch¨ atzenden Parameter gemessen wird, betrachtet. Es stellt sich heraus, das zus¨ atzlich zu einem Abstandskriterium eine zweite Bedingung, die Unverzerrtheit, gefordert werden muss, um hinreichend allgemeine Aussagen treffen zu k¨ onnen. Wir erhalten das wichtige Resultat, dass unverzerrte Sch¨ atzer mit minimaler Varianz nur in exponentiellen Familien existieren in Satz 4.16. Abschließend betrachten wir asymptotische Aussagen.
4.1 Sch¨ atzkriterien In diesem Abschnitt betrachten wir stets das statistische Modell P = {Pθ : θ ∈ Θ}. Ziel ist es, die Qualit¨ at eines Sch¨atzers T = T (X) f¨ ur den Parameter q(θ) zu messen. In einem ersten Ansatz k¨ onnte man den Sch¨atzfehler E := |T (X) − q(θ)|, d.h. den Abstand des Sch¨ atzers zum gesuchten Parameter, betrachten. Dieser Ansatz weißt jedoch folgende Schwierigkeiten auf: 1. Der Sch¨ atzfehler E h¨ angt vom unbekannten Parameter θ ab. 2. E ist zuf¨ allig und kann erst nach der Datenerhebung zur Beurteilung herangezogen werden. Das Ziel dieses Abschnitts wird sein, ein Kriterium zu finden, welches bereits vor der Datenerhebung zur Beurteilung eines Sch¨atzers genutzt werden kann. Hierzu mißt man die Qualit¨ at des Sch¨atzers T (X) anhand der Streuung des Sch¨ atzers um das gesuchte q(θ). Daf¨ ur kommen unter anderen die C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 4, c Springer-Verlag Berlin Heidelberg 2011
103
104
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
im Folgenden vorgestellten Maße mittlerer quadratischer Fehler und mittlerer betraglicher Fehler in Frage. Wir formulieren die Maße f¨ ur reellwertige Sch¨atzer. In mehrdimensionalen Sch¨ atzproblemen mit q(θ) ∈ Rd betrachtet man den Fehler jeweils kompouglich nentenweise. Mit Eθ bezeichnen wir wie bisher den Erwartungswert bez¨ des Wahrscheinlichkeitsmaßes Pθ .
Definition 4.1. Sei T = T (X) ∈ R ein Sch¨atzer f¨ ur q(θ) ∈ R. Dann ist der mittlere quadratische Fehler (MQF) von T definiert durch
R(θ, T ) := Eθ (T (X) − q(θ))2 . Weiterhin heißt b(θ, T ) := Eθ (T (X)) − q(θ) Verzerrung von T . Gilt b(θ, T ) = 0 f¨ ur alle θ ∈ Θ, so heißt T unverzerrt. Einen unverzerrten Sch¨ atzer nennt man erwartungstreu. Im Englischen wird der MQF als mean squared error“(kurz: MSE) und die Verzerrung als bi” ” as“ bezeichnet. Als Alternative zu dem MQF kann man auch den mittleren betraglichen Fehler Eθ (|T (X) − q(θ)|) betrachten, was wir an dieser Stelle nicht vertiefen werden. F¨ ur den mittleren quadratischen Fehler erh¨alt man:
R(θ, T ) = Eθ (T (X) − q(θ))2 ,
-2 = Eθ T (X) − Eθ (T (X)) + Eθ T (X) − q(θ) = Varθ (T (X)) + b2 (θ, T ). Daraus erhalten wir folgende wichtige Zerlegung des mittleren quadratischen Fehlers in Varianz des Sch¨ atzers und Quadrat der Verzerrung:
R(θ, T ) = Varθ (T (X)) + b2 (θ, T ).
(4.1)
Man erkennt, dass der MQF sowohl von θ als auch von der Wahl des Sch¨atzers T abh¨ angt. Allerdings ist er nicht zuf¨ allig und kann bereits vor der Datenerhebung zur Beurteilung herangezogen werden, mit anderen Worten: Das eingangs erw¨ ahnte Problem 2 tritt nicht mehr auf. Die Varianz Varθ (T (X)) ist ein Maß der Pr¨ azision des Sch¨ atzers T (X). B 4.1 MQF f¨ ur die Normalverteilung: Seien X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ 2 ). Wie bereits in Beispiel 3.21 gezeigt, ist der MLS f¨ ur θ = (μ, σ 2 ) gegeben
4.1 Sch¨ atzkriterien
105
¯ und durch μ =μ (X) := X
1 ¯ 2. Xi − X n i=1 n
σ 2 :=
¯ ∼ N (μ, σ2/n). Somit folgt, dass f¨ Ferner ist X ur q(θ) := μ ¯ = Eθ (X) ¯ − q(θ) = μ − μ = 0, b(θ, X) ¯ ist ein unverzerrter Sch¨atzer f¨ d.h. das arithmetische Mittel X ur μ. F¨ ur den mittleren quadratischen Fehler erhalten wir 2 ¯ = Varθ (X) ¯ = σ −−−−→ 0; R(θ, X) n n→∞
er verschwindet mit steigender Stichprobenzahl (n → ∞). Als n¨achsten Schritt betrachten wir den Sch¨ atzer σ 2 = σ 2 (X) der Varianz und setzen 2 hierzu q(θ) := σ . Wir erhalten S :=
n ¯ 2 Xi − X n σ2 = ∼ χ2n−1 2 σ σ i=1
nach Aufgabe 1.34 beziehungsweise Satz 7.14. Damit folgt Eθ (S) = n − 1 und ur Varθ (S) = 2(n − 1) mit Bemerkung 1.7. Da wir q(θ) = σ 2 sch¨atzen, gilt f¨ die Verzerrung, dass
2 n σ σ2 σ 2 · (n − 1) σ2 Eθ − σ2 = − −−−−→ 0, b(θ, σ 2 ) = − σ2 = 2 n σ n n n→∞ also ist σ 2 nicht unverzerrt. Immerhin ist σ 2 asymptotisch unverzerrt. Die Verzerrung behebt man allerdings leicht durch Verwendung der Stichprobenur σ 2 erh¨alt varianz s2 (X), wie bereits in Aufgabe 1.3 besprochen. Als MQF f¨ man
2 2
2 σ n σ σ 4 (2n − 1) n → ∞ σ4 R(θ, σ 2 ) = Varθ −−−−→ 0. + 2 = 2 n σ n n2 Bemerkung 4.2. Oft ist es nicht m¨ oglich, Verzerrung und mittleren quadratischen Fehler eines Sch¨ atzers zu berechnen und man muss sich mit Approximationen behelfen. Dar¨ uber hinaus ist der Vergleich des MQF zweier Sch¨ atzer nicht einfach, da h¨ aufig die Situation entsteht, dass in verschiedenen Teilen des Parameterraums Θ unterschiedliche Sch¨atzer besser sind. Eine solche Situation ist in Abbildung 4.1 und in dem folgenden Beispiel dargestellt. B 4.2 Vergleich von Mittelwertsch¨ atzern anhand des MQF : In diesem Beispiel sollen ¯ und T2 = T2 (X) := aX, ¯ mit einem die beiden Sch¨ atzer T1 = T1 (X) := X
106
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Abb. 4.1 Vergleich des mittleren quadratischen Fehlers zweier Sch¨ atzer. In den Bereichen 1 und 3 hat Sch¨ atzer T1 einen geringeren MQF als Sch¨ atzer T2 , w¨ ahrend die Umkehrung in Bereich 2 der Fall ist.
a ∈ (0, 1) zur Sch¨ atzung des Mittelwertes im Normalverteilungsfall untersucht werden. Seien dazu X1 , . . . , Xn i.i.d. mit Xi ∼ N (μ, σ 2 ). Wie im Beispiel 3.21 betrachten wir θ = (μ, σ 2 ) , d.h. Mittelwert und Varianz sind unbekannt. Wir untersuchen die Sch¨ atzung von q(θ) := μ. Dann ist b(θ, T1 ) = 0 sowie 2 ¯ erhalten wir ur den Sch¨atzer T2 = aX R(θ, T1 ) = σ /n nach Beispiel 4.1. F¨ b(θ, T2 ) = Eθ (T2 (X)) − μ = aμ − μ = (a − 1)μ, und damit ergibt sich der MQF 2 2
¯ + (a − 1)μ 2 = a σ + (a − 1)2 μ2 . R(θ, T2 ) = Varθ (a X) n
Ist |μ| groß genug, so folgt, dass R(θ, T1 ) < R(θ, T2 ), d.h. Sch¨atzer T1 ist besser als Sch¨ atzer T2 . Ist umgekehrt |μ| nah genug bei Null, so folgt, dass R(θ, T1 ) > R(θ, T2 ) und somit ist in diesem Fall T2 besser als T1 . Damit liegt die Situation aus Bemerkung 4.2 vor. Zur Verdeutlichung ist die konkrete Situation in Abbildung 4.2 dargestellt.
Definition 4.3. Ein Sch¨ atzer S heißt unzul¨ assig, falls es einen Sch¨atzer T gibt, so dass (i) R(θ, T ) ≤ R(θ, S) f¨ ur alle θ ∈ Θ und (ii) R(θ, T ) < R(θ, S) f¨ ur mindestens ein θ ∈ Θ.
F¨ ur einen unzul¨ assigen Sch¨ atzer S gibt es einen weiteren Sch¨atzer, der besser im Sinne des mittleren quadratischen Fehlers ist. In diesem Fall zieht man
4.1 Sch¨ atzkriterien
107
Abb. 4.2 Vergleich des mittleren quadratischen Fehlers bez¨ uglich μ f¨ ur die Sch¨ atzer ¯ und T2 = aX ¯ bei normalverteilten Daten. T1 = X
den Sch¨ atzer T mit dem kleineren MQF vor; aus diesem Grund heißt S unzul¨ assig. Man ist nun versucht, zu fragen, ob es einen ,,besten” Sch¨atzer T gibt, f¨ ur welchen R(θ, T ) ≤ R(θ, S) (4.2) f¨ ur alle Parameter θ ∈ Θ und f¨ ur alle Sch¨atzer S gilt. Leider ist dies nicht der Fall, wie man leicht sieht: B 4.3 Der perfekte Sch¨ atzer : Man w¨ ahlt ein beliebiges θ0 ∈ Θ und betrachtet den atzer nutzt die erhobenen Daten nicht, Sch¨ atzer S(X) := q(θ0 ). Dieser Sch¨ trifft aber den wahren Parameter perfekt, falls gerade θ = θ0 . Mit diesem Sch¨ atzer gilt, dass R(θ0 , S) = Varθ0 (S(X)) + (Eθ0 (S(X)) − q(θ0 ))2 = 0. F¨ ur den perfekten Sch¨ atzer T m¨ usste (4.2) erf¨ ullt sein, woraus wegen R(θ0 , T ) = 0 folgt, dass R(θ, T ) = 0 f¨ ur alle θ ∈ Θ ist. Dies bedeutet, dass T (X) den gesuchten q(θ) f¨ ur alle θ ∈ Θ perfekt sch¨ atzen w¨ urde, was in keinem nat¨ urlichen Modell m¨oglich ist. An diesem Beispiel erkennt man, dass es nicht sinnvoll ist alle m¨oglichen Sch¨ atzer zu betrachten. Man muss die Klasse der zu betrachtenden Sch¨atzer geeignet einschr¨ anken. Eine bereits bekannte und w¨ unschenswerte Eigenschaft ist die Unverzerrtheit eines Sch¨ atzers. F¨ ur alle unverzerrten Sch¨atzer gilt nach (4.1), dass der mittlere quadratische Fehler sich darstellen l¨asst als R(θ, T ) = Varθ (T (X)).
108
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Betrachtet man nur die Klasse der unverzerrten Sch¨atzer und beurteilt die Qualit¨ at eines Sch¨ atzers anhand des mittleren quadratischen Fehlers, so wird zun¨ achst der systematische Fehler (Verzerrung) kontrolliert, bevor die Pr¨azision des Sch¨ atzers betrachtet wird. B 4.4 Unverzerrte Sch¨ atzer : Haben X1 , . . . , Xn den Erwartungswert μ, so ist das ¯ ein unverzerrter Sch¨atzer f¨ arithmetische Mittel X ur μ, denn 1 E(Xi ) = μ. n i=1 n
¯ = E(X)
Sind die Xi dar¨ uber hinaus unabh¨ angig mit Var(Xi ) = σ 2 < ∞, so ist die 2 ur σ 2 , wie in Aufgabe Stichprobenvarianz s (X) ein unverzerrter Sch¨atzer f¨ urlich verzerrt, 1.3 gezeigt. Der Sch¨ atzer S(X) = q(θ0 ) aus Beispiel 4.3 ist nat¨ denn b(θ, S) − q(θ) = 0 f¨ ur alle θ ∈ Θ, welche von θ0 verschieden sind.
4.2 UMVUE-Sch¨ atzer Erneut gehen wir von dem statistischen Modell {Pθ : θ ∈ Θ} aus. Betrachtet man nur unverzerrte Sch¨ atzer, so kann man die Varianz des Sch¨atzers als Maß f¨ ur die Qualit¨ at des Sch¨ atzers heranziehen, da unter Unverzerrtheit die Varianz des Sch¨ atzers gleich dem mittleren quadratischen Fehler ist. Ein Sch¨ atzer ist in diesem Sinn besser als alle anderen unverzerrten Sch¨atzer, falls seine Varianz minimal ist, was zu folgender Optimalit¨atseigenschaft f¨ uhrt. Definition 4.4. Ein unverzerrter Sch¨ atzer T (X) von q(θ) heißt UMVUESch¨ atzer f¨ ur q(θ), falls Varθ (T (X)) ≤ Varθ (S(X)) f¨ ur alle unverzerrten Sch¨ atzer S(X) von q(θ) und f¨ ur alle θ ∈ Θ gilt. UMVUE steht f¨ ur Uniformly Minimum Variance Unbiased Estimator. F¨ ur einen unverzerrten Sch¨ atzer gilt nat¨ urlich R(θ, T ) = Varθ (T ), und somit ist der UMVUE-Sch¨ atzer auch derjenige mit dem kleinsten mittleren quadratischen Fehler unter allen unverzerrten Sch¨ atzern. Allerdings k¨onnen eine Reihe von Problemen mit unverzerrten Sch¨ atzern auftreten: • •
Unverzerrte Sch¨ atzer m¨ ussen nicht existieren. Ein UMVUE-Sch¨ atzer muß nicht zul¨assig zu sein.
4.2 UMVUE-Sch¨ atzer
•
109
Unverzerrtheit ist nicht invariant unter Transformation, d.h. θ kann ist typischerweise ein verzerrter unverzerrt f¨ ur θ sein, aber q(θ) Sch¨atzer f¨ ur q(θ).
Diese Aussagen werden in diesem Abschnitt und in den anschließenden Aufgaben vertieft, siehe dazu Bemerkung 4.17. Im Folgenden soll q(θ) basierend auf X = (X1 , . . . , Xn ) ∼ Pθ gesch¨atzt werden. Sei T (X) ein suffizienter Sch¨ atzer f¨ ur θ. Falls S(X) ein weiterer Sch¨ atzer f¨ ur q(θ) ist, kann man einen besseren (oder zumindest nicht schlechteren) Sch¨ atzer mit Hilfe von T (X) wie folgt konstruieren: Da T suffizient ist, h¨ angt die Verteilung bedingt auf T (X) nicht von dem Parameter θ ab und ur ein beliebiges θ0 ∈ Θ. man setzt E(S(X)|T (X)) := Eθ0 (S(X)|T (X)) f¨ Schließlich definiert man
T ∗ (X) := E S(X)T (X) . Im Zusammenhang mit dem folgenden Satz sagt man auch, dass T ∗ aus S mit Hilfe von T durch Rao-Blackwellisierung erzeugt wurde. Satz 4.5 (Rao-Blackwell). Sei T (X) ein suffizienter Sch¨ atzer f¨ ur θ und ur alle θ ∈ Θ. Setze T ∗ (X) := S ein Sch¨ atzer mit Eθ (|S(X)|) < ∞ f¨ E(S(X)|T (X)). Dann gilt f¨ ur alle θ ∈ Θ, dass
2
2 ≤ Eθ S(X) − q(θ) . (4.3) Eθ T ∗ (X) − q(θ) Gilt dar¨ uber hinaus Varθ (S) < ∞, so erh¨ alt man Gleichheit genau dann, ur alle θ ∈ Θ. wenn Pθ (T ∗ (X) = S(X)) = 1 f¨ Beweis. Wir schreiben kurz T f¨ ur T (X) und ebenso f¨ ur T ∗ und S. Aus der Definition von T ∗ folgt Eθ (T ∗ ) = Eθ (E(S|T )) = Eθ (S) und somit b(θ, T ∗ ) = Eθ (T ∗ ) − θ = Eθ (S) − θ = b(θ, S). Also haben T ∗ und S die gleiche Verzerrung. Es folgt (4.3) ⇔ Varθ (T ∗ ) ≤ Varθ (S)
2
≤ Eθ (S − Eθ (S))2 ⇔ Eθ (E(S|T ) − Eθ (S) ⇔ Eθ ((E(S|T ))2 ) ≤ Eθ (S 2 ). Mit der Jensenschen Ungleichung aus Satz 1.5 und der Monotonie des Erwartungswertes, siehe Gleichung (1.1), erh¨alt man Eθ ((E(S|T ))2 ) ≤ Eθ (E(S 2 |T )) = Eθ (S 2 ) .
110
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Gleichheit gilt in der Jensenschen Ungleichung (Eθ (S|T ))2 ≤ Eθ (S 2 |T ) genau dann, wenn S = Eθ (S|T ) Pθ -fast sicher ist. Somit folgt der zweite Teil. Um Optimalit¨ atsaussagen machen zu k¨ onnen, braucht man das Konzept der Vollst¨ andigkeit nach Lehmann und Scheff´e. Optimalit¨at wird im Rahmen des Vollst¨ andigkeitskonzeptes so verifiziert, dass es f¨ ur eine vorgegebene suffiziente Statistik T (X) im Wesentlichen nur einen von T (X) abh¨angenden, erwartungstreuen Sch¨ atzer gibt. Das ist gleichbedeutend mit Eθ (g1 (T (X))) = Eθ (g2 (T (X))) f¨ ur alle θ ∈ Θ ⇒ g1 = g2 . Dies f¨ uhrt zu folgender Definition: Definition 4.6. Eine Statistik T (X) heißt vollst¨ andig, falls f¨ ur alle meßbaren reellwertigen Abbildungen g aus Eθ (g(T (X))) = 0 f¨ ur alle θ ∈ Θ folgt, dass Pθ (g(T (X)) = 0) = 1 f¨ ur alle θ ∈ Θ. Eigentlich ist die Vollst¨ andigkeit eine Eigenschaft der Familie von betrachteten Verteilungen {Pθ : θ ∈ Θ} beziehungsweise des betrachteten statistischen Modells. Sie bedeutet, dass Θ hinreichend groß ist, um die Implikation in Definition 4.6 zu erzwingen. B 4.5 Vollst¨ andigkeit unter Poisson-Verteilung: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ Poiss(θ) und Θ := R+ . Nach Tabelle 2.1 und Bemerkung 2.10 ist T (X) = n ur θ. Mit Satz 2.11 erh¨alt man, dass T (X) ∼ i=1 Xi suffiziente Statistik f¨ ur alle θ > 0 gilt. Poiss(n θ). Sei g eine Funktion, so dass Eθ (g(T (X))) = 0 f¨ Dies ist gleichbedeutend mit −n·θ
e
∞ i=0
g(i)
(n · θ)i =0 i!
f¨ ur alle θ > 0. Eine Potenzreihe, die identisch mit 0 in einer Umgebung von 0 ist, muß alle Koeffizienten gleich 0 haben. Somit folgt g(i) = 0 f¨ ur alle i = 0, 1, 2, . . . , was bedeutet, dass T vollst¨ andig ist. F¨ ur vollst¨ andige suffiziente Statistiken haben wir folgenden wichtigen Satz.
4.2 UMVUE-Sch¨ atzer
111
Satz 4.7 (Lehmann-Scheff´e). Sei T (X) eine vollst¨ andige suffiziente Statistik und S(X) ein unverzerrter Sch¨ atzer von q(θ). Dann ist T ∗ (X) := E(S(X)|T (X)) ein UMVUE-Sch¨ atzer f¨ ur q(θ). Falls weiterhin Varθ (T ∗ (X)) < ∞ f¨ ur alle ∗ atzer von q(θ). θ ∈ Θ gilt, so ist T (X) der eindeutige UMVUE-Sch¨ Beweis. Da b(θ, T ∗ ) = b(θ, S) = 0 folgt, dass T ∗ ein unverzerrter Sch¨atzer f¨ ur q(θ) ist. Nach dem Satz von Rao-Blackwell, Satz 4.5, gilt dann Varθ (T ∗ ) ≤ Varθ (S). Falls Varθ (S) < ∞ gilt strikte Ungleichung, falls T ∗ = S. Als n¨ achstes zeigen wir, dass T ∗ unabh¨angig von der Wahl von S ist: atzer von q(θ). Dann sind Ti∗ := Seien S1 und S2 zwei unverzerrte Sch¨ ur i = 1, 2 zwei unverzerrte Sch¨atzer von q(θ), E(Si |T (X))) = gi (T (X)) f¨ die durch Rao-Blackwellisierung erhalten wurden. Es gilt demnach
Eθ g1 (T (X)) − g2 (T (X)) = Eθ (T1∗ ) − Eθ (T2∗ ) = q(θ) − q(θ) = 0 f¨ ur alle θ ∈ Θ. Da T vollst¨ andig ist, folgt aus Eθ (g1 (T (X)) − g2 (T (X))) = 0 ur alle θ ∈ Θ und f¨ ur alle θ ∈ Θ, dass Pθ (g1 (T (X)) = g2 (T (X))) = 1 f¨ folglich h¨ angt T ∗ nicht von S ab. F¨ ur die Eindeutigkeit sei U (X) ein weiterer UMVUE-Sch¨atzer f¨ ur q(θ) mit Var(U (X)) < ∞. Insbesondere ist U unverzerrt. Da T ∗ (X) unabh¨angig von der Wahl von S(X) ist, gilt
Pθ T ∗ (X) = Eθ (U (X)|T (X)) = 1 (4.4) f¨ ur alle θ ∈ Θ. Da U (X) ein UMVUE-Sch¨atzer ist, folgt f¨ ur alle θ ∈ Θ, dass Varθ (U (X)) ≤ Varθ (T ∗ (X)) und somit Varθ (U (X)) = Varθ (T ∗ (X)) f¨ ur alle θ ∈ Θ. Nach (4.4) gilt damit Gleichheit in (4.3) mit U (X) an der Stelle von S(X) und somit folgt Pθ (T ∗ (X) = U (X)) = 1 f¨ ur alle θ ∈ Θ. Bemerkung 4.8. Man kann den Satz von Lehmann-Scheff´e, Satz 4.7, auf zwei Arten f¨ ur die Bestimmung von UMVUE-Sch¨atzern verwenden: (i) Falls man eine Statistik der Form h(T (X)) f¨ ur eine vollst¨andige suffiziente Statistik T findet mit
Eθ h(T (X) = q(θ), so ist h(T (X)) ein UMVUE-Sch¨ atzer: Da E(h(T (X))|T (X)) = h(T (X)) gilt, kann man den Satz 4.7 mit S(X) = h(T (X)) anwenden.
112
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
(ii) Findet man einen unverzerrten Sch¨ atzer S(X) f¨ ur q(θ), so ist E(S(X)|T (X)) der UMVUE-Sch¨ atzer f¨ ur q(θ), falls T (X) vollst¨andig und suffizient ist. Der Nachweis von Vollst¨ andigkeit ist oft schwierig, aber f¨ ur exponentielle Familien hat man folgenden Satz: Satz 4.9. Sei {Pθ : θ ∈ Θ} eine K-dimensionale exponentielle Familie und c(Θ) enthalte ein offenes Rechteck in Rk . Dann ist T (X) := andig und suffzient f¨ ur q(θ). (T1 (X), . . . , Tk (X)) vollst¨ Beweis. F¨ ur den Beweis im reellen Fall verweisen wir auf Lehmann und Romano (2006), Theorem 4.3.1 auf Seite 142. B 4.6 UMVUE-Sch¨ atzer f¨ ur die Normalverteilung: Seien X := (X1 , . . . , Xn ) i.i.d. 2 mit X1 ∼ N (μ, σ ) und θ := (μ, σ 2 ) unbekannt. In Beispiel 3.21 wurden die Maximum-Likelihood-Sch¨ atzer f¨ ur dieses Modell und die Menge C = c(Θ) = R × R− aus Satz 3.8 bestimmt. Damit enth¨alt C ein offenes Rechteck. In Beispiel 2.17 wurde gezeigt, dass es sich um eine exponentielle Familie mit suffizienter Statistik n n T (X) := Xi , Xi2 i=1
i=1
¯ eine Funktion von T (X) und weiterhandelt. Da das arithmetische Mittel X ¯ eindeutiger UMVUEhin unverzerrt f¨ ur μ = θ1 ist, folgt mit Satz 4.7, dass X Sch¨ atzer f¨ ur μ ist. Ebenso ist die Stichprobenvarianz
1 ¯ 2 Xi − X n − 1 i=1 n
s2 (X) =
ein unverzerrter Sch¨ atzer f¨ ur σ 2 nach Aufgabe 1.3. Weiterhin ist sie suffizient, da sie eine Funktion von T (X) ist. Damit ist die Stichprobenvarianz der eindeutige UMVUE-Sch¨ atzer f¨ ur σ 2 . Allerdings ist s2 (X) nicht UMVUE2 Sch¨ atzer f¨ ur σ , falls der Mittelwert μ bekannt ist, siehe Aufgabe 4.6. Dass der MLS nicht immer ein UMVUE-Sch¨atzer ist, zeigt folgendes Beispiel: B 4.7 UMVUE-Sch¨ atzer in der Exponentialverteilung: In diesem Beispiel betrachten wir die Sch¨ atzung von q(θ) := Pθ (X1 ≤ r) = 1 − e−θr
4.2 UMVUE-Sch¨ atzer
113
f¨ ur einen festen zeitlichen Horizont r. Wir werden zeigen, dass der MLS kein UMVUE-Sch¨ atzer f¨ ur q(θ) ist. Es seien X1 , . . . , Xn i.i.d. mit X1 ∼ Exp(θ) und Θ := R+ (vergleiche hierzu Beispiel 2.8). Man betrachte die Sch¨atzung von q(θ). Eine Exponentialverteilung mit Parameter θ ist gerade Gamma(1, θ)verteilt, siehe Definition 1.16. Aus Tabelle 2.1 entnimmt man, dass die Exponentialverteilung eine eindimensionale exponentielle Familie ist mit kanonin scher Statistik T := T (X) = i=1 Xi und c(θ) = −θ. Damit ist c(Θ) = R− und enth¨ alt ein offenes Rechteck. Nach Satz 4.9 ist T (X) suffizient und vollst¨ andig f¨ ur θ. Betrachte S(X1 ) := 1{X1 ≤r} . Dann ist Eθ (S(X1 )) = Pθ (X1 ≤ r) = q(θ) und somit ist S(X1 ) unverzerrt f¨ ur q(θ). Nach dem Satz von Lehmann-Scheff´e, Satz 4.7, ist T ∗ = E(S(X1 )|T ) ein UMVUE-Sch¨ atzer f¨ ur q(θ). Wir berechnen T ∗ . Es gilt, dass
X1 r ≤ T . E(S(X1 ) | T ) = P(X1 ≤ r | T ) = P T T Nun ist
X1/T
unabh¨ angig von T nach Aufgabe 1.7 und damit ist
X1 X1 r r ≤ T = t = P ≤ T = t . P T T T t
Nach Bemerkung 1.18 ist XT1 ∼ Beta(1, n − 1), da X1 ∼ Gamma(1, θ) und angig von X1 sind mit X2 +· · · +Xn ∼ Gamma(n−1, λ). X2 +· · · +Xn unabh¨ Somit folgt r/t
X1 r ≤ T = t = (n − 1)(1 − u)n−2 du E(S(X1 ) | T = t) = P T t 0
r/t r n−1 = −(1 − u)n−1 = 1 − 1 − t 0 falls r ≤ t. Ist r > t, so ist S(X1 ) = 1. Damit erhalten wir den UMVUESch¨ atzer f¨ ur q(θ) durch
n−1 1 − 1 − Tr falls T ≥ r . T ∗ = E(S|T ) = 1 falls T < r Zum Vergleich: Der Maximum-Likelihood-Sch¨atzer und der Momentensch¨atzer ¯ −1 , siehe Aufgabe 3.13. Damit ist der MLS von q(θ) gegeben f¨ ur θ ist θ = (X) durch = 1 − exp(−θr) = 1 − exp − nr . q(θ) T
114
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
ist der MLS q(θ) kein UMVUE-Sch¨atzer f¨ Da T ∗ = q(θ), ur q(θ). Allerdings ein ist q(θ) eine Funktion von T und damit suffizient. Demnach muss q(θ) verzerrter Sch¨atzer von q(θ) sein. B 4.8 UMVUE-Sch¨ atzer f¨ ur die Gleichverteilung: In diesem Beispiel betrachten wir den Fall einer Gleichverteilung, welche keine exponentielle Familie darstellt. Seien dazu X = (X1 , . . . , Xn ) i.i.d. mit X1 ∼ U (0, θ) und Θ = R+ . Definiere die Ordnungsstatistiken X(1) := min{X1 , . . . , Xn } und X(n) := ur x ∈ Rn die beiden Gr¨oßen x(1) und max{X1 , . . . , Xn } sowie entsprechend f¨ x(n) . Dann ist die Dichte von X gegeben durch θ−n falls 0 ≤ x(1) ≤ x(n) ≤ θ p(x, θ) = 0 sonst. Unter Anwendung des Faktorisierungssatzes, Satz 2.7, sieht man, dass X(n) suffizient f¨ ur θ ist. Wir zeigen nun, dass X(n) auch vollst¨andig ist. Zun¨achst ur 0 ≤ t ≤ θ. Diese folgt aus X1 ∼ U (0, θ), dass Pθ (X1 ≤ t) = tθ−1 1{0≤t≤θ} f¨ Wahrscheinlichkeit betr¨ agt weiterhin 1 f¨ ur t > θ und 0 f¨ ur t < 0. Es gilt
n P(X(n) ≤ t) = P(X1 ≤ t, . . . , Xn ≤ t) = P(X1 ≤ t) und damit erhalten wir folgende Dichte von X(n) : d Pθ (X(n) ≤ t) = nθ−n tn−1 f¨ ur 0 < t < θ. dt F¨ ur die Anwendung von Satz 4.7 betrachten wir Eθ (g(X(n) )) = nθ
−n
θ g(t)tn−1 dt = 0. 0
Damit folgt aus Eθ (g(X(n) )) = 0, dass g(t) = 0 Lebesgue-fast sicher f¨ ur andig und suffizient. Allerdings ist X(n) alle t ≥ 0 ist. Damit ist X(n) vollst¨ verzerrt, da θ n nθ Eθ (X(n) ) = n = θ. tn dt = θ n+1 0
Die Statistik
n+1 X(n) n ist demnach unverzerrt f¨ ur θ. Sie ist weiterhin Funktion der vollst¨andigen und suffizienten Statistik X(n) . Wegen Var(M ) < ∞ ist nach Satz 4.7 M eindeutiger UMVUE-Sch¨ atzer f¨ ur θ. M = M (X) :=
Bemerkung 4.10 (Weitere Ans¨ atze). Es gibt eine Reihe von Alternativen zu UMVUE, um Optimalit¨ atseigenschaften von Sch¨atzern zu messen.
4.3 Die Informationsungleichung
115
(i) Der Bayesianische Ansatz. Hier betrachtet man θ als zuf¨allig mit θ ∼ π und vergleicht das Verhalten von Eθ (R(θ, T )) = R(θ, T )π(θ)dθ Rk
f¨ ur verschieden Sch¨ atzer T . Dieser Ansatz wird beispielsweise in Berger (1985) oder in Lehmann und Casella (1998), in Kapitel 4, behandelt. (ii) Minimax-Sch¨ atzer. Bei diesem Ansatz vergleicht man das Maximum ur verschiedene Sch¨atzer und sucht T so, M (T ) := maxθ∈Θ R(θ, T ) f¨ dass M (T ) minimal ist. Details und Beispiele kann man in Lehmann und Casella (1998), Kapitel 5, und Berger (1985), Kapitel 5, finden.
4.3 Die Informationsungleichung Im vorigen Abschnitt haben wir unverzerrte Sch¨atzer mit minimaler Varianz gesucht. Im folgenden Abschnitt wird eine untere Schranke f¨ ur die Varianz entwickelt. Diese kann auch zur Suche von unverzerrten Sch¨atzern mit minimaler Varianz verwendet werden, jedoch ist dieser Ansatz weniger allgemein. Die untere Informationsschranke tritt weiterhin im Zusammenhang mit Optimalit¨ atsbetrachtungen von Sch¨ atzern und der asymptotischen Verteilung von Maximum-Likelihood-Sch¨ atzern auf. Diese Punkte werden in sp¨ateren Abschnitten diskutiert. Im Folgenden untersuchen wir ein eindimensionales regul¨ ares statistisches Modell P = {p(·, θ) : θ ∈ Θ} und nehmen die folgenden Bedingungen an: an: Cram´er-Rao-Regularit¨ atsbedingungen (CR) (i) Die Menge Θ ⊂ R ist offen. (ii) A := {x ∈ Rn : p(x, θ) > 0} h¨ angt nicht von θ ab. Die Ableitung ∂ ln p(x, θ) existiert und ist endlich ∀ x ∈ A, ∀θ ∈ Θ. ∂θ ur (iii) Hat X eine Dichte hat und ist T eine Statistik mit Eθ (|T |) < ∞ f¨ alle θ ∈ Θ, so gilt ∂ ∂ p(x, θ)T (x)dx. T (x)p(x, θ)dx = ∂θ Rn ∂θ n R In den folgenden Beweisen konzentrieren wir uns auf den Fall, in welchem orige Dichte ist p(·, θ). Analog beweist Dichten existieren, d.h. die zu Pθ geh¨ man den diskreten Fall. Bemerkung 4.11. Falls durch p(x, θ) = 1A (x) exp c(θ)T (x) + d(θ) + S(x)
116
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
∂ eine einparametrige exponentielle Familie gegeben ist mit ∂θ c(θ) = 0 f¨ ur alle θ ∈ Θ mit Θ ⊂ R offen und stetigem c, dann ist (CR) erf¨ ullt. Dies beweist man mit Hilfe des Satzes 1.34 von der monotonen Konvergenz, siehe Aufgabe 4.1.
Im Folgenden m¨ ochten wir die Information, die in Daten enthalten ist, m¨ oglichst effizient ausnutzen. Dazu ben¨ otigen wir ein Konzept f¨ ur Information. Definition 4.12. Die Fisher-Information f¨ ur einen Parameter θ ist gegeben durch
2 ∂ ln p(X, θ) I(θ) := Eθ . (4.5) ∂θ Hat X eine Dichte, so gilt f¨ ur die Fisher-Information 2 ∂ 2 ∂ 1 ln p(x, θ) · p(x, θ)dx = · p(x, θ) dx. I(θ) = ∂θ Rn ∂θ Rn p(x, θ) ∂ Man bezeichnet ∂θ ln p(x, θ) auch als Einfluss- oder Score-Funktion. Ihr Erwartungswert verschwindet unter den obigen Regularit¨atsannahmen (CR), denn es gilt
∂ ∂ ln p(X, θ) = ln p(x, θ) · p(x, θ)dx Eθ ∂θ Rn ∂θ ∂ = p(x, θ)dx Rn ∂θ
∂ = p(x, θ)dx = 0. (4.6) ∂θ Rn
Analoge Resultate erh¨ alt man falls X diskret ist. Die Fisher-Information ist demnach gleich der Varianz der Einflussfunktion,
∂ ln p(X, θ) . I(θ) = Varθ ∂θ Sind X1 , . . . , Xn i.i.d. so erhalten wir mit X = (X1 , . . . , Xn ) , dass die Fisher-Information der Stichprobe gerade n-mal die Fisher-Information einer einzelnen Zufallsvariable ist: n
∂ 2 2 ∂ ln p(Xi , θ) ln p(X1 , θ) I(θ) = Eθ = nEθ . ∂θ ∂θ i=1
4.3 Die Informationsungleichung
117
B 4.9 Fisher-Information unter Normalverteilung: Ist X normalverteilt mit unbeur die kanntem Erwartungswert θ und bekannter Varianz σ 2 so erh¨alt man f¨ Fisher-Information, dass I(θ) =
1 1 Eθ ((X − θ)2 ) = 2 . σ4 σ
(4.7)
Je kleiner die Varianz, umso h¨ oher der Informationsgehalt, der einer einzelnen Beobachtung zuzuschreiben ist. Somit ist die Fisher-Information f¨ ur die i.i.d. Stichprobe des Umfangs n gerade nσ −2 . B 4.10 Fisher-Information f¨ ur die Poisson-Verteilung: Seien X1 , . . . , Xn i.i.d. mit x X1 ∼ Poiss(θ). Das heißt, die Wahrscheinlichkeitsfunktion ist p(x, θ) = e−θ θx! f¨ ur x ∈ {0, 1, 2, . . . }. Da ∂ x ln p(x, θ) = −1 + , ∂θ θ folgt f¨ ur die Fisher-Information einer Stichprobe von Poisson-verteilten Zufallsvariablen ∂ nθ n I(θ) = n Var ln p(X1 , θ) = nθ−2 · Var(X1 ) = 2 = . ∂θ θ θ Satz 4.13. Sei T (X) eine Statistik mit Varθ (T (X)) < ∞ f¨ ur alle θ ∈ Θ ullt und 0 < I(θ) < ∞ f¨ ur und Ψ (θ) := Eθ (T (X)). Weiterhin sei (CR) erf¨ alle θ ∈ Θ. Dann gilt f¨ ur alle θ ∈ Θ, dass Ψ (θ) differenzierbar ist und Varθ (T (X)) ≥
(Ψ (θ))2 . I(θ)
(4.8)
Gleichung (4.8) nennt man die Informationsungleichung. Die Erweiterung auf den mehrdimensionalen Fall ist Gegenstand von Aufgabe 4.26. Beweis. Wir f¨ uhren den Beweis f¨ ur den Fall in welchem X eine Dichte hat. Zun¨ achst ist unter (CR)
∂ ∂ Eθ (T (X)) = T (x)p(x, θ) dx Ψ (θ) = ∂θ Rn ∂θ ∂ = Eθ T (X) ln p(X, θ) , ∂θ analog zu Gleichung (4.6). Damit erhalten wir
118
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
2 ∂ Eθ T (X) ln p(X, θ) ∂θ
2 ∂ (4.6) ln p(x, θ) = Covθ T (X) , ∂θ ∂ ln p(X, θ) = Varθ (T (X)) · I(θ) ≤ Varθ (T (X)) · Varθ ∂θ
2 Ψ (θ) =
mit der Cauchy-Schwarz-Ungleichung aus (1.3). Da der letzte Term gerade die Fisher-Information ist, folgt die Behauptung. Ist T (X) ein unverzerrter Sch¨ atzer von θ, so ist Ψ (θ) = Eθ (T (X))) = θ und somit Ψ (θ) = 1. Damit erhalten wir folgende Aussage. Korollar 4.14. Gelten die Bedingungen des Satzes 4.13 und ist T ein unverzerrter Sch¨ atzer von θ, so erh¨ alt man die so genannte Cram´er-RaoSchranke 1 . (4.9) Varθ (T (X)) ≥ I(θ)
Korollar 4.15. Sei X = (X1 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. und die Bedingungen des Satzes 4.13 seien erf¨ ullt. Dann gilt Varθ (T (X)) ≥
(Ψ (θ))2 . n · I1 (θ)
Hierbei ist I1 (θ) := E[(∂/∂θ ln p(X1 , θ))2 ] die Information pro Beobachtung.
4.3.1 Anwendung der Informationsungleichung Falls (CR) erf¨ ullt ist und T ∗ (X) ein unverzerrter Sch¨atzer f¨ ur Ψ (θ) = Eθ (T (X)) ist, so dass Varθ (T ∗ (X)) =
(Ψ (θ))2 , I(θ)
¨ dann ist T ∗ (X) UMVUE-Sch¨ atzer f¨ ur Ψ (θ). Uberraschenderweise ist die Bedingung, dass die untere Schranke der Informationsungleichung angenommen wird nur in exponentiellen Familien erf¨ ullt, wie folgender Satz zeigt. In anderen Verteilungsklassen gibt es mitunter gr¨oßere untere Schranken, die Schranke ist dann nicht scharf.
4.4 Asymptotische Theorie
119
Satz 4.16. Es gelte (CR) und T ∗ (X) sei ein unverzerrter Sch¨ atzer von Ψ (θ), so dass Varθ (T ∗ (X)) =
(Ψ (θ))2 I(θ)
(4.10)
f¨ ur alle θ ∈ Θ. Dann ist P = {p(·, θ) : θ ∈ Θ} eine eindimensionale exponentielle Familie mit p(x, θ) = 1{x∈A} exp c(θ)T ∗ (x) + d(θ) + S(x) . (4.11) Umgekehrt, ist {Pθ : θ ∈ Θ} eine eindimensionale exponentielle Familie mit Darstellung (4.11) und besitzt c(θ) stetige Ableitungen mit c (θ) = ater von 0 f¨ ur alle θ ∈ Θ, dann gilt (4.10) und T ∗ (X) ist UMVUE-Sch¨ Eθ (T ∗ (X)). Beweis. F¨ ur einen Beweis der ersten Aussage sei auf Bickel und Doksum (2001), Theorem 3.4.2, Seite 182 verwiesen. Die zweite Aussage des Satzes ist Gegenstand von Aufgabe 4.17. Bemerkung 4.17. • •
UMVUE-Sch¨ atzer k¨ onnen auch existieren, wenn (CR) nicht erf¨ ullt wird. Ein Beispiel daf¨ ur ist X1 , . . . , Xn i.i.d. mit Xi ∼ U (0, θ), siehe Beispiel 4.8. Die Informationsschranke braucht nicht angenommen zu werden, auch wenn UMVUE-Sch¨ atzer existieren und (CR) erf¨ ullt ist, siehe dazu Aufgabe 4.21.
4.4 Asymptotische Theorie Die asymptotische Theorie besch¨ aftigt sich mit dem Verhalten von Sch¨atzern, wenn der Stichprobenumfang n immer gr¨oßer wird, also n → ∞. Hierzu betrachten wir im folgenden Abschnitt X1 , X2 , . . . i.i.d. mit Dichten p(x, θ) und es gelte q(θ) mit θ ∈ Θ zu sch¨ atzen.
120
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
4.4.1 Konsistenz Unter einem konsistenten Sch¨ atzer versteht man einen Sch¨atzer, welcher mit zunehmenden Stichprobenumfang gegen den gesuchten Parameter konvergiert. Definition 4.18. Eine Folge von Sch¨ atzern Tn (X1 , . . . , Xn ), n = 1, 2, . . . f¨ ur q(θ) heißt konsistent, falls Pθ Tn (X1 , . . . , Xn ) − q(θ) ≥ −−−−→ 0 n→∞
f¨ ur alle > 0 und alle θ ∈ Θ. F¨ ur einen konsistenten Sch¨ atzer Tn = Tn (X1 , . . . , Xn ) gilt folglich f¨ ur jedes θ ∈ Θ, dass P Tn −−−θ−→ q(θ). n→∞
Bemerkung 4.19 (Starke und schwache Konsistenz). Im Gegensatz zur in der Definition eingef¨ uhrten (schwachen) Konsistenz verlangt die so genannte starke Konsistenz sogar fast sichere Konvergenz. Ist die betrachtete stochastische Konvergenz schnell genug, so erh¨ alt man mit dem Borel-Cantelli Lemma fast sichere Konvergenz und so auch starke Konsistenz (siehe Theorem 1.8 und Lemma 1.5 in Shao (2008)). Umgekehrt folgt aus fast sicherer Konvergenz stets stochastische Konvergenz. Eine n¨ utzliche hinreichende Bedingung f¨ ur Konsistenz findet sich in Aufgabe 4.24. UMVUE-Sch¨ atzer sind immer konsistent, Maximum-Likelihood-Sch¨atzer sind in der Regel auch konsistent; wir verweisen auf Wald (1949) f¨ ur den eindimensionalen i.i.d. Fall und auf die Kapitel 15 und 16 von Ferguson (1996) f¨ ur den multivariaten Fall. Im Folgenden werden einige Beispiele vorgestellt, in welchen die Konsistenz jeweils mit dem schwachen Gesetz der großen Zahlen nachgewiesen wird, ein weiteres Beispiel ist in Aufgabe 4.25 zu finden. Die beiden folgenden Beispiele illustrieren den Sachverhalt. B 4.11 Konsistente Sch¨ atzung der Multinomialverteilung: Sei N = (N1 , . . . , Nk ) multinomialverteilt, N ∼ M (n, p1 , . . . , pk ). Dies l¨asst sich ¨aquivalent darstellen durch i.i.d. diskret verteilte Zufallsvariablen X1 , . . . , Xn mit P(X1 = n i) = pi , 1 ≤ i ≤ k, wenn man Ni = j=1 1{Xj =i} setzt. Dann gilt nach dem schwachen Gesetz der großen Zahlen (Satz 1.29), dass Ni P −−−−→ pi . n→∞ n Insofern ist Ni/n konsistent f¨ ur pi f¨ ur i = 1, . . . , k. Daher ist der Sch¨atzer Tn gegeben durch
4.4 Asymptotische Theorie
121
Tn := h
N1 Nk ,..., n n
konsistent f¨ ur q(θ) := h(p1 , . . . , pk ) mit θ := (p1 , . . . , pk ) , falls h eine reellwertige, stetige Funktion ist: Denn nach dem Continuous Mapping Theorem aus Satz 1.27 folgt P → h(p1 , . . . , pk ). Tn − B 4.12 Konsistenz der Momentensch¨ atzer : Seien X1 , X2 , . . . i.i.d. Wir betrachten den Momentensch¨ atzer n 1 j m j := X n i=1 i f¨ ur das j-te Moment mj (θ) := Eθ (X1j ), j = 1, 2, . . . . Es gelte E(|X1j |) < ∞. Nach dem starken Gesetz der großen Zahl (Satz 1.30) ist m j ein konsistenter Sch¨ a tzer f¨ ur mj . Wie im vorigen Beispiel folgt, falls h stetig ist, dass ur q(θ) := h(m1 (θ), . . . , mr (θ)) aus dem 1, . . . , m r konsistent ist f¨ Tn := h m Continous Mapping Theorem (Satz 1.27). Somit ist der Momentensch¨atzer konsistent f¨ ur beliebige stetige Funktionen der theoretischen Momente. Seien X1 , X2 , . . . i.i.d., die Dichte von X1 sei p(·, θ0 ) und θ0 ∈ Θ ⊂ Rk sei der wahre Parameterwert. F¨ ur die starke Konsistenz von MaximumLikelihood-Sch¨ atzern ben¨ otigt man eine Reihe von Voraussetzungen. Den folgenden Satz findet man in Ferguson (1996), Theorem 17 auf Seite 114. Er steht in enger Verbindung zur asymptotischen Normalit¨at von MaximumLikelihood-Sch¨ atzern, welche Gegenstand von Satz 4.26 ist. Eine Funktion ist oberhalbstetig, falls sie an keinem Punkt nach oben ur springt, d.h. die Funktion f : R → R heißt oberhalbstetig in x0 , falls f¨ ur alle y ∈ R mit jedes > 0 ein δ > 0 existiert, so dass f (y) < f (x0 ) + f¨ |y − x0 | < δ. Die Funktion f heißt oberhalbstetig, falls sie oberhalbstetig in allen x ∈ R ist. Satz 4.20. Gelten (i) Θ ist kompakt. (ii) Die Funktion θ → p(x, θ) ist oberhalbstetig in θ f¨ ur alle x ∈ R. (iii) Es existiert eine Funktion K : R → R, so dass Eθ0 (|K(X1 )|) < ∞, ur alle x ∈ R und θ ∈ Θ. und ln(p(x, θ)) − ln(p(x, θ0 )) ≤ K(x) f¨ (iv) F¨ ur alle θ ∈ Θ und > 0 ist supθ :|θ −θ|< p(x, θ ) meßbar. ur alle x ∈ R, so folgt θ = θ0 . (v) Gilt p(x, θ) = p(x, θ0 ) fast sicher f¨ n ), dass Dann folgt f¨ ur jede Folge von Maximum-Likelihood-Sch¨ atzern θ(X n ) −−−−→ θ0 = 1. P θ(X n→∞
122
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Bemerkung 4.21. Oberhalbstetigkeit der Dichte in Annahme (ii) des Satzes schließt die Gleichverteilung U (0, θ) mit ein, denn die Dichte p(x, θ) = θ−1 1[0,θ] (x) ist oberhalbstetig.
4.4.2 Asymptotische Normalit¨ at und verwandte Eigenschaften F¨ ur Konfidenzintervalle und Hypothesentests muss man die Verteilung des verwendeten Sch¨ atzers kennen. Oft ist dies nicht in expliziter Form m¨oglich, weswegen man sich mit asymptotischen Resultaten hilft. Ist ein Sch¨atzer asymptotisch normal, so kann man seine Verteilung f¨ ur einen gen¨ ugend großen Stichprobenumfang durch die Normalverteilung approximieren. Definition 4.22. Eine Folge von Sch¨ atzern Tn (X1 , . . . , Xn ), n = 1, 2, . . . ur alle heißt asymptotisch normalverteilt, falls Folgen (μn (θ), σn2 (θ))n≥1 f¨ θ ∈ Θ existieren, so dass f¨ ur alle θ ∈ Θ Tn (X1 , . . . , Xn ) − μn (θ) L −−−−−→ N (0, 1). n→∞ σn (θ)
Dies bedeutet, dass der (asymptotisch) zentrierte und standardisierte Sch¨atzer Tn (X1 , . . . , Xn ) − μn (θ) σn (θ) in Verteilung gegen eine Standardnormalverteilung konvergiert; also per Definition Tn (X1 , . . . , Xn ) − μn (θ) lim P ≤ z = Φ(z), ∀z ∈ R, n→∞ σn (θ) wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist (siehe Satz 1.31). Hierbei muß μn (θ) oder σn2 (θ) nicht unbedingt der Erwartungswert bzw. die Varianz von Tn sein, was allerdings h¨aufig der Fall ist. Asymptotische Normalit¨ at wird auch wie folgt verwendet:
z − μn (θ) P(Tn (X) ≤ z) ≈ Φ f¨ ur n groß genug, (4.12) σn (θ) d.h. man kann die Verteilungsfunktion von Tn (X) an der Stelle z durch ur ausreichend großes n approximieren. Φ((z−μn (θ))/σn (θ)) f¨
4.4 Asymptotische Theorie
123
Asymptotische Normalit¨ at allein sagt nichts dar¨ uber aus, wie groß n sein muß, damit (4.12) eine gute Approximation ist. In g¨ unstigen F¨allen hat man (wie beim arithmetischen Mittel) eine Konvergenzgeschwindigkeit von n−1/2 , das heißt f¨ ur die asymptotisch normale Sch¨atzfolge T1 , T2 , . . . mit σn2 (θ) gilt n · σn2 (θ) −−−−−→ σ 2 (θ) > 0 n→∞
f¨ ur alle θ ∈ Θ.
(4.13)
Falls man eine solche Konvergenzrate hat, so ist man dar¨ uber hinaus an der folgenden, st¨ arkeren Bedingung interessiert:
√ n · μn (θ) − q(θ) → 0 f¨ ur n → ∞. (4.14) Gelten (4.13) und (4.14), so kann man μn (θ) durch q(θ) und σn2 (θ) durch ur die Folge von Sch¨atzern Tn (X1 , . . . , Xn ), n = σ 2 (θ)/n approximieren: F¨ 1, 2, . . . gilt mit μn (θ) := Eθ (Tn ) und σn2 (θ) := Varθ (Tn ), dass σn2 (θ) + (μn (θ) − q(θ))2 n(μn (θ) − q(θ))2 R(θ, Tn ) = = 1 + −−−−→ 1, n→∞ σn2 (θ) σn2 (θ) nσn2 (θ) d.h. asymptotisch ist die mittlere quadratische Abweichung gleich der Varianz des Sch¨ atzers. Haben wir einmal einen asymptotisch normalverteilten Sch¨atzer, so interessiert man sich oft f¨ ur die Verteilung einer bestimmten Funktion des Sch¨ atzers. Ist diese Funktion differenzierbar, so erh¨alt man mit der TaylorFormel die folgende Aussage: F¨ ur eine differenzierbare Funktion g : Rd → Rp sei die totale Ableitung definiert durch ⎛ ∂g (x) ⎞ ∂g1 (x) 1 ∂x1 · · · ∂xd ⎜ . .. ⎟ ⎟ Dg(x) := ⎜ . ⎠. ⎝ .. ∂gp (x) ∂gp (x) ∂x1 · · · ∂xd Satz 4.23 (Multivariate Delta-Methode). Sei (Un )n∈N eine Folge von d-dimensionalen Zufallsvektoren und (an )n∈N eine Folge von reellen Konur n → ∞. Weiterhin gebe es eine d-dimensionale stanten mit an → ∞ f¨ Zufallsvariable V und u ∈ Rd , so dass L
ur n → ∞. an (Un − u) −→ V f¨ Sei g : Rd → Rp eine Abbildung mit existierender und stetiger totaler Ableitung im Punkt u. Dann gilt L
an (g(Un ) − g(u)) −→ Dg(u)V
f¨ ur n → ∞.
124
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Beweis. Den Beweis findet man in Bickel und Doksum (2001), Lemma 5.3.3 auf Seite 319. Neben dieser Aussage u ¨ber die Verteilung des Grenzwertes kann man mit der Taylor-Formel ebenso Aussagen u ¨ber die Momente des Grenzwertes treffen, was mitunter auch als Delta-Methode bezeichnet wird, siehe Bickel und Doksum (2001), Abschnitt 5.3.1 auf Seite 306. Der eindimensionale Fall ist Gegenstand von Aufgabe 4.27. BerB 4.13 Bernoulli-Verteilung: Asymptotische Normalit¨ at: Seien X1 , X2 , . . . i.i.d. ¯ n := 1 n Xi noulli-verteilt: X1 ∼ Bin(1, θ). Das arithmetische Mittel X i=1 n ist ein konsistenter Sch¨ atzer f¨ ur θ = E(X1 ) nach dem schwachen Gesetz der großen Zahl (Satz 1.29). Mit dem zentralen Grenzwertsatz (Satz 1.31), gilt weiterhin √
n
¯n − θ X θ · (1 − θ)
L
−−−−−→ N (0, 1). n→∞
¯ n ) ein Aus dem Continuous Mapping Theorem (Satz 1.27) folgt, dass q(X konsistenter Sch¨ atzer f¨ ur q(θ) ist, falls q stetig ist. Ist q stetig differenzierbar, so folgt, dass
L ¯ n ) − q(θ)) − n(q(X → N 0, (q (θ))2 θ · (1 − θ) (4.15) √ aus Satz 4.23 mit an = n und g = q. Nach Gleichung (4.15) gilt f¨ ur ¯ n ), dass Tn (X) asymptotisch normalverteilt ist mit μn (θ) := Tn (X) := q(X q(θ), σ 2 (θ) := (q(θ))2 θ(1 − θ) und σn2 (θ) = σ 2 (θ)/n. Damit sind die Bedingungen (4.13) und (4.14) erf¨ ullt. √
Als unmittelbare Anwendung der Delta-Methode erhalten wir die folgenden beiden Aussagen. B 4.14 Multinomialverteilung: Asymptotische Normalit¨ at: Wir betrachten einen Vektor N = (N1 , . . . , Nk ) , welcher M (n, p1 , . . . , pk )-verteilt ist. Setze p := (p1 , . . . , pk ) und sei h : Rk → R eine Abbildung, so dass ∂h(p) ∂pi existiere und
stetig sei f¨ ur i = 1, . . . , k. F¨ ur Tn := h Nn1 , . . . , Nnk wurde in Beispiel 4.11 gezeigt, dass Tn konsistent h(p) sch¨ atzt. Die Multinomialverteilung l¨ asst sich durch die Summe von n unabh¨angigen Zufallsvariablen darstellen: Seien X1 , . . . , Xn i.i.d. mit Werten in {0, 1}k und ur j = 1, . . . , k, wobei ej der j-te Einheitsvekzwar so, dass P(X1 = ej ) = pj f¨ tor im Rd sei (der Vektor ej besteht aus einer Eins in der j-ten Komponente und sonst Nullen). Dann ist Sn :=
n i=1
Xi
4.4 Asymptotische Theorie
125
gerade M (n, p1 , . . . , pk )-verteilt. Durch Anwendung des multivariaten zentralen Grenzwertsatzes (Satz 1.33) erh¨ alt man nun, dass Sn − np L √ −−−−−→ Nk (0, Σ) n→∞ n mit Σ = Cov(X1 ). Die Kovarianzmatrix Σ ist bestimmt durch σii = pi (1−pi ) ur 1 ≤ i = j ≤ k. Das Continuous Mapping Theorem (Satz und σij = −pi pj f¨ 1.27) gilt auch (wie dort kurz bemerkt) f¨ ur Konvergenz in Verteilung. Da h als stetig vorausgesetzt war, erhalten wir, dass √ L n(Tn − h(p1 , . . . , pk )) −−−−−→ N (0, σh2 ) n→∞
mit σh2
/2 2 . k ∂ ∂ := pi h(p) − pi h(p) . ∂pi ∂pi i=1 i=1 k
B 4.15 Momentensch¨ atzer: Asymptotische Normalit¨ at: Seien Y1 , Y2 , . . . i.i.d. mit E(|Y1 |j ) < ∞. Das j-te Moment mj := E((Y1 )j ), j = 1, 2, . . . wird mit dem empirischen j-ten Moment 1 (Yi )j n i=1 n
m j :=
gesch¨ atzt. Sei g : Rr → R so, dass ∂g(m) ∂m und m := (m1 , . . . , mr ) existieren. 1, . . . , m r ), dass Dann gilt f¨ ur Tn := g(m
√ L n(Tn − g(m)) −−−−→ N (μ, τg2 ). n→∞
Hierbei sind τg2 :=
2r
. bi mi −
/2 ∂ mi g(m) ∂mi i=1
r
i=2
und bi :=
j+k=i:1≤j,k≤r
∂ ∂ g(m) g(m). ∂mj ∂mk
126
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
4.4.3 Asymptotische Effizienz und Optimalit¨ at Da wir die Ergebnisse aus Kapitel 4.3 benutzen m¨ochten, betrachten wir lediglich eindimensionale und regul¨ are statistische Modelle P = {p(·, θ) : θ ∈ Θ} mit Θ ⊂ R. In diesem Abschnitt wird die asymptotische Varianz einer Folge von Sch¨ atzern (Tn )n≥1 gegeben durch Tn = Tn (X1 , . . . , Xn ) untersucht. Die Zufallsvariablen X1 , X2 , . . . seien i.i.d. Des Weiteren sei (Tn )n≥1 asymptotisch normalverteilt mit μn (θ) := Eθ (Tn ) und σn2 (θ) := Varθ (Tn ). Ferner gelte asymptotische Unverzerrtheit und (4.13) sowie (4.14) seien erf¨ ullt. Insur alle θ ∈ Θ ⊂ R. Unter den besondere existiert σ 2 (θ) := limn→∞ nσn2 (θ) f¨ Cram´er-Rao-Regularit¨ atsbedingungen (CR) folgt mit Korollar 4.15, dass σn2 (θ) ≥
(Ψ (θ))2 n · I1 (θ)
f¨ ur alle n ≥ 1 und alle θ ∈ Θ. Deswegen erwartet man, dass
σn2 (θ) lim inf ≥ 1. n→∞ (Ψ (θ))2 · (n · I1 (θ))−1
(4.16)
Insbesondere folgt mit (4.13), dass (4.16) ¨ aquivalent ist zu σ 2 (θ) ≥
(Ψ (θ))2 , I1 (θ)
f¨ ur alle θ ∈ Θ.
Dies motiviert folgende Definition. Definition 4.24. Eine Folge von Sch¨ atzern T = (Tn )n≥1 heißt asymptotisch effizient, falls σ 2 (θ) =
(Ψ (θ))2 , I1 (θ)
f¨ ur alle θ ∈ Θ.
Im Allgemeinen sind Maximum-Likelihood-Sch¨atzer und UMVUE-Sch¨atzer asymptotisch effizient, siehe Shao (2008), Abschnitt 4.5.2 oder Bickel und Doksum (2001), Abschnitt 5.4.3 (dort jedoch nur im eindimensionale Fall). Zum Abschluss sollen nun zwei unterschiedliche Sch¨atzfolgen T 1 = (Tn1 : n ≥ 1) und T 2 = (Tn2 : n ≥ 2) verglichen werden. Wiederum gelte, dass T i asym2 (θ) = Varθ (Tni ), ptotisch normalverteilt seien mit μin (θ) := Eθ (Tni ) und σn,i 2 , i = 1, 2. Demnach ist i = 1, 2. Ferner gelte (4.13) und (4.14) f¨ ur σn,i 2 σi2 (θ) = lim nσn,i (θ) n→∞
4.4 Asymptotische Theorie
127
f¨ ur alle θ ∈ Θ und i = 1, 2. Als Vergleichsmaß f¨ ur die beiden Sch¨atzfolgen kann man die asymptotische Varianz nutzen. Die asymptotische Effizienz ist durch e(θ, T 1 , T 2 ) :=
σ22 (θ) σ12 (θ)
ur alle θ ∈ Θ gilt, so heißt T 1 asymptotisch definiert. Falls e(θ, T 1 , T 2 ) > 1 f¨ 2 effizienter als T . Bemerkung 4.25. Unter den obigen Annahmen gilt, dass 2 σn,2 (θ) R(θ, Tn2 ) = lim = e(θ, T 1 , T 2 ). 2 1 n→∞ R(θ, Tn ) n→∞ σ (θ) n,1
lim
B 4.16 Poisson-Verteilung: Effizienz : Seien X1 , . . . , Xn i.i.d. Poisson-verteilt zum ¯ n und Parameter θ. Die zwei konkurrierenden Sch¨atzer Tn1 := X
1 ¯ 2 Xi − X = n i=1 n
Tn2
:=
σ n2
sollen anhand ihrer Effizienz verglichen werden. Dabei sind beide Sch¨atzer unverzerrte Sch¨ atzer f¨ ur θ. Die Varianzen sind gegeben durch 2 σn1 (θ)
n 1 θ ¯ = Varθ (Xn ) = 2 Varθ (Xi ) = n i=1 n
und nach Aufgabe 1.17 (ii) gilt 2 (θ) = Varθ ( σn2 ) = σn2
1 1 θ · (1 + 2θ) Eθ ((X1 − θ)4 ) − θ2 = (θ + 3θ2 − θ2 ) = . n n n
Die Fisher-Information ist gegeben durch
0
2 X1 12 ∂ X1 1 1 −θ θ ln e −1 I1 (θ) = Eθ = Eθ = 2 Varθ (X1 ) = . ∂θ X1 ! θ θ θ Da der Sch¨ atzer Tn2 unverzerrt ist, gilt wegen q (θ) = 1, dass θ θ(1 + 2θ) q (θ)2 2 = < = σn2 (θ). n · I1 (θ) n n Somit ist die Folge (Tn2 )n≥1 nicht asymptotisch effizient. Dahingegen ist die ¯ n gerade asymptotische Varianz von Tn1 = X
128
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie 2 σn1 (θ) =
q (θ)2 θ = . n nI1 (θ)
¯ n )n≥1 Damit gilt (4.14) f¨ ur σ12 (θ) = θ = (q (θ))2 /I1 (θ); dies zeigt, dass (X 2 ¯ n ist asymptotisch effizient ist. Die Effizienz von Xn u ¨ber σ ¯n, σ n2 ) := e(θ, X
θ(1+θ) n θ n
2 σ2n 2 = σ1n
=
θ(1 + θ) >1 θ
f¨ ur alle n.
¯ n effizienter als σ Folglich ist X n2 f¨ ur die Sch¨atzung von θ f¨ ur alle n ≥ 1.
4.4.4 Asymptotische Verteilung von Maximum-Likelihood-Sch¨ atzern In diesem Abschnitt werden Resultate u ¨ber die asymptotische Verteilung von Maximum-Likelihood-Sch¨ atzern angegeben. Wir folgen dabei der Darstellung von Ferguson (1996), Kapitel 18. Weitere Resultate finden sich in Schervish (1995) in Abschnitt 7.3.5. und in Shao (2008), Seiten 290 – 293. Wir betrachten die Zufallsvariablen X1 , X2 , . . . welche i.i.d. seien, die Dichte von X1 sei p(·, θ0 ) und θ0 ∈ Θ ⊂ Rk sei der wahre Parameterwert. Asympotische Regularit¨ atsbedingungen (AR): (i) Der Parameterraum Θ ist offen. (ii) Die zweiten partiellen Ableitungen der Dichte p(·, θ) bez¨ uglich θ existieren und sind stetig f¨ ur alle x ∈ R. Weiterhin gilt ∂2 ∂2 p(x, θ)dx = p(x, θ)dx. ∂θ∂θ R R ∂θ∂θ 2
∂ (iii) Definiere A(θ, x) := ∂θ∂θ ln p(x, θ). Dann existiert eine Funktion + ur alle K : R → R mit Eθ0 (K(X1 )) < ∞ und ein > 0, so dass f¨ 1 ≤ i, j ≤ k sup |Aij (θ, x)| < K(x). θ−θ0 <
(iv) Die Fisher-Information pro Beobachtung, gegeben durch die Matrix ∂ ∂ ln pθ (X) ln pθ (X) , I1 (θ) := Eθ ∂θ ∂θ ist positiv definit. ur alle x ∈ R gilt, so folgt θ = θ0 . (v) Falls p(x, θ) = p(x, θ0 ) fast sicher f¨
4.4 Asymptotische Theorie
129
Unter diesen Regularit¨ atsbedingungen gilt folgender Satz, welcher auf Cram´er zur¨ uckgeht. F¨ ur den Beweis verweisen wir auf Ferguson (1996), Seite ur den Vektor (X1 , . . . , Xn ) . 121. Wir schreiben Xn f¨ Satz 4.26. Es gelte (AR). Dann existiert eine Folge θn : Rn → Θ von L¨ osungen der Log-Likelihood-Gleichung (3.6), f¨ ur welche P(θn (Xn ) → θ0 ) = 1 gilt, so dass √ L n(θn (Xn ) − θ0 ) −→ Nk (0, I1 (θ0 )−1 )
(4.17)
f¨ ur n → ∞. Die Existenz einer Folge von stark konsistenten Maximum-LikelihoodSch¨ atzern folgt hierbei aus Satz 4.20. Bemerkung 4.27. (i) Falls der Maximum-Likelihood-Sch¨atzer durch die eindeutige L¨ osung der Log-Likelihood-Gleichung charakterisiert ist und die Regularit¨ atsbedingungen (AR) erf¨ ullt sind, dann ist nach Satz 4.26 der Maximum-Likelihood-Sch¨ atzer asymptotisch normalverteilt. Es gibt jedoch Situationen in denen es mehrere L¨osungen zu den LikelihoodGleichungen gibt. In diesen F¨ allen sagt der Satz nur aus, dass es eine L¨ osung gibt, die asymptotisch normalverteilt ist. Diese L¨osung muss jedoch nicht mit dem Maximum-Likelihood-Sch¨atzer u ¨bereinstimmen. Dies wird in Ferguson (1996) auf Seite 123 diskutiert und in Schervish (1995) in Abschnitt 7.3.5. (ii) Falls die Log-Likelihood-Funktion konkav ist und eine L¨osung der ScoreGleichungen existiert, dann ist die L¨osung eindeutig und stimmt mit dem Maximum-Likelihood-Sch¨ atzer u ¨berein. (iii) Die Gleichung (4.17) liefert die asymptotische Effizienz des Sch¨atzers θn (Xn ) aus Satz 4.26, siehe Theorem 4.17 (ii) in Shao (2008), Seite 290. (iv) Die Bedingungen AR (ii) schließt beispielsweise den Fall X1 ∼ U (0, θ) aus, f¨ ur welchen in Aufgabe 3.12 das Maximum als MLS erhalten wurde. Das Maximum konvergiert im Sinne der klassischen Extremwerttheorie gegen eine Weibull-Verteilung, siehe Aufgabe 4.34. (v) Falls der Maximum-Likelihood-Sch¨ atzer θn nach Satz 4.26 asymptotisch normal verteilt ist, dann kann man die Kovarianzmatrix von θn durch 1 I1 (θn )−1 n f¨ ur gen¨ ugend große n approximieren. Diese Approximation wird h¨aufig zur Konstruktion von asymptotischen Hypothesentests und Konfidenzintervallen eingesetzt. Hypothesentests und Konfidenzintervalle werden im n¨ achsten Kapitel besprochen.
130
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
4.5 Aufgaben A 4.1 Die Bedingung (CR) f¨ ur einparametrige exponentielle Familien: F¨ ur eine einparametrige exponentielle Familie mit p(x, θ) = 1A (x) exp c(θ)T (x) + d(θ) + S(x) und differenzierbarem c f¨ ur welches dar¨ uber hinaus gilt sind die Bedingungen (CR) erf¨ ullt.
∂ ∂θ c(θ)
= 0 f¨ ur alle θ ∈ Θ
A 4.2 Minimal suffiziente und vollst¨ andige Statistiken: Sei T eine vollst¨andige und suffiziente Statistik f¨ ur θ ∈ Θ. Man nehme an, es existiert eine minimal suffiziente (siehe Aufgabe 2.24) Statistik S f¨ ur θ. Zeigen Sie, dass T minimal suffizient ist und S vollst¨ andig.
UMVUE-Sch¨ atzer A 4.3 Bernoulli-Verteilung: UMVUE : Seien X1 , . . . , Xn i.i.d. und X1 Bernoulli(θ)¯ ein UMVUE-Sch¨atzer von θ ist. verteilt. Zeigen Sie, dass der MLS X A 4.4 Vollst¨ andigkeit und UMVUE : Seien X1 , . . . , Xn i.i.d., wobei X1 eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion θ |x| pθ (x) = Pθ (X1 = x) = (1 − θ)1−|x| , x ∈ {−1, 0, 1}, 2 und unbekanntem Parameter θ ∈ (0, 1) sei. Untersuchen Sie die beiden Sch¨ atzer T1 (X) = X1 und T2 (X) = |X1 | auf Vollst¨andigkeit. Bestimmen Sie einen UMVUE-Sch¨ atzer f¨ ur θ. A 4.5 Normalverteilung: UMVUE-Sch¨ atzer f¨ ur μ: Seien X1 , . . . , Xn i.i.d. mit Xi ∼ ¯ ein UMVUE-Sch¨atzer f¨ ur μ ist, falls σ bekannt N (μ, σ 2 ). Zeigen Sie, dass X ist. A 4.6 Normalverteilung, μ bekannt: UMVUE f¨ ur σ 2 : Seien X1 , . . . , Xn i.i.d. mit 2 Xi ∼ N (μ0 , σ ) und μ0 ∈ R sei bekannt. Zeigen Sie, dass 1 (Xi − μ0 )2 n i=1 n
σ 2 (X) = UMVUE-Sch¨atzer f¨ ur σ 2 ist.
A 4.7 Normalverteilung, μ unbekannt: UMVUE f¨ ur σ 2 : Seien X1 , . . . , Xn i.i.d. mit 2 Xi ∼ N (μ, σ ) mit μ ∈ R und σ > 0. Dann ist die Stichprobenvarianz 1 ¯ 2 (Xi − X) n − 1 i=1 n
s2 (X) =
4.5 Aufgaben
131
ein UMVUE-Sch¨ atzer f¨ ur σ, falls μ unbekannt ist. Ist μ hingegen bekannt, so atzer von σ. ist s2 (X) kein UMVUE-Sch¨ A 4.8 Normalverteilung, UMVUE f¨ ur P(X > 0): Sei X1 , . . . , Xn eine i.i.d. Stichur probe mit X1 ∼ N (μ, 1). Finden Sie den UMVUE f¨ Pμ (X1 > 0). ¯ Hinweis: Betrachten Sie die gemeinsame Verteilung von (X1 , X). A 4.9 Binomialverteilung: UMVUE : Sei X ∼ Bin(n, θ). Betrachten Sie den ufen Sie, ob es sich um einen UMVUESch¨ atzer T (X) := X(n−X) n(n−1) und pr¨ Sch¨ atzer handelt. A 4.10 Diskrete Gleichverteilung: UMVUE : Ziel ist es, ausgehend von einer Stichprobe mit Umfang n, einen UMVUE-Sch¨atzer f¨ ur die diskrete Gleichverteilung auf der Menge {1, 2, . . . , θ} zu bestimmen. Zeigen Sie zun¨achst, dass der (eindeutige) Maximum Likelihood Sch¨atzer f¨ ur θ, θˆ = X(n) = andig und suffizient, jedoch verzerrt ist. Bestimmen max{X1 , . . . , Xn }, vollst¨ Sie nun mit der Momentensch¨ atzmethode einen Sch¨atzer f¨ ur θ, welcher unverzerrt ist. Konstruieren Sie daraus folgenden UMVUE-Sch¨atzer f¨ ur θ: θˆ =
n+1 X(n) − (X(n) − 1)n+1 n − (X n X(n) (n) − 1)
.
A 4.11 UMVUE: Rayleigh-Verteilung (1): Seien X1 , . . . , Xn i.i.d. Rayleigh-verteilt, x2
d.h. mit Dichte pθ (x) = θx2 e− 2θ2 und θ > 0. Zeigen Sie, dass E(X12 ) = θ−1 und finden Sie einen UMVUE-Sch¨ atzer f¨ ur θ−1 . Kl¨aren Sie, ob er eindeutig ist. Zeigen Sie, dass er die untere Schranke der Informationsungleichung annimmt und berechnen Sie E(X14 ) mit Hilfe der Informationsungleichung. A 4.12 UMVUE: Rayleigh-Verteilung (2): Seien X1 , . . . , Xn i.i.d. Rayleigh-verteilt, x2
d.h. mit Dichte pθ (x) = θx2 e− 2θ2 und θ > 0. Finden Sie mit Hilfe der Informationsungleichung einen UMVUE-Sch¨ atzer f¨ ur θ2 . A 4.13 UMVUE: Trunkierte Erlang-Verteilung: Betrachtet werden X1 , . . . , Xn i.i.d., wobei X1 die Dichte pθ (x) =
α+1 α x 1(0,θ) (x), θα+1
mit bekanntem α und unbekanntem θ besitze. Dies ist ein abgeschnitte Erlang-Verteilung mit Parameter λ = 0, siehe Tabelle A1. Zeigen Sie, dass (α + 1)n + 1 X(n) θˆ = (α + 1)n ein UMVUE-Sch¨ atzer f¨ ur θ ist.
132
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
A 4.14 UMVUE: Trunkierte Binomialverteilung: Die Zufallsvariable X sei trunkiert Binomialverteilt, d.h. f¨ ur θ ∈ (0, 1) ist n k θ (1 − θ)n−k , k ∈ {1, . . . , n}. Pθ (X = k) = k 1 − (1 − θ)n (i) Zeigen Sie, dass X eine vollst¨ andige und suffiziente Statistik ist. (ii) Berechnen Sie den Erwartungswert von X und zeigen Sie, dass n−1 X θ ein UMVUE-Sch¨ atzer f¨ ur q(θ) = 1−(1−θ) n ist. A 4.15 Exponentialverteilung: UMVUE : Sei X ∼ Exp(θ) exponentialverteilt. Finden Sie einen UMVUE-Sch¨ atzer f¨ ur q(θ) = θ12 . Zeigen Sie, dass dieser die untere Schranke der Informationsungleichung nicht annimmt. A 4.16 UMVUE: Gamma-Verteilung: Eine Stichprobe X1 , . . . , Xn sei i.i.d. und Gamma-verteilt mit bekanntem Parameter a > 0 und unbekanntem Parameter λ > 0, d.h. X1 hat die Dichte pλ (x) =
λa a−1 −λx x e 1{x>0} . Γ (a)
Finden Sie mit Hilfe der Informationsungleichung einen UMVUE-Sch¨atzer f¨ ur q(λ) := λ1 . A 4.17 Exponentielle Familien: UMVUE : Beweisen Sie folgende Aussage aus Satz 4.16: Ist {Pθ , θ ∈ Θ} eine eindimensionale exponentielle Familie und besitzt ur alle θ ∈ Θ, dann nimmt T (X) die c(θ) stetige Ableitungen mit c (θ) = 0 f¨ Informationsschranke an und ist daher UMVUE von Eθ (T (X)). Hinweis: F¨ uhren Sie eine Reparametrisierung durch, um eine Darstellung urliche exponentielle Familie zu erhalten. Zeigen Sie dann, von {Pθ } als nat¨ dass die unteren Informationsschranken bei beiden Parametrisierungen gleich sind. A 4.18 Ein nicht effizienter Momentensch¨ atzer : Seien X1 , . . . , Xn i.i.d. mit X1 ∼ Beta(θ, 1) mit θ > 0, d.h. X1 hat die Dichte pθ (x) = θ(θ + 1)xθ−1 (1 − x)1{x∈(0,1)} . ¯
2X atzer f¨ ur θ ist. (i) Zeigen Sie, dass Tn = 1− ¯ ein Momentensch¨ X (ii) Beweisen Sie weiterhin, dass √ n(Tn − μn (θ)) L −−−−−→ N (0, 1), n→∞ σn
und geben Sie μn (θ) und σn (θ) explizit an. (iii) Zeigen Sie, dass Tn nicht effizient ist (Kleiner Hinweis: Verwenden Sie 2 I(θ) = −E( ∂∂2 θ ln pθ (X))).
4.5 Aufgaben
133
Rao-Blackwell und Cram´ er-Rao ur ein unbekanntes A 4.19 Rao-Blackwell : Seien X1 , . . . , Xn i.i.d. mit Dichte pθ f¨ u r alle θ ∈ R. Berechnen Sie θ ∈ R. Es gelte zus¨ atzlich Eθ (|X1 |2 ) < ∞ f¨ n n ur θ und Eθ (X1 | i=1 Xi ). Angenommen die Statistik i=1 Xi ist suffizient f¨ n es gebe reelle Zahlen a1 , . . . , an ∈ R, so dass i=1 ai Xi erwartungstreu n ist. Zeigen Sie, dass es dann eine Zahl c ∈ R gibt, so dass die Statistik c i=1 Xi erwartungstreu ist und geringere (oder schlimmstenfalls) gleiche Varianz wie n a X hat. i=1 i i A 4.20 Die Cram´er-Rao-Schranke und die Gleichverteilung: Seien X1 , . . . , Xn i.i.d. und X1 ∼ U (0, θ) mit unbekanntem θ > 0. Es bezeichne I(θ) die FisherInformation, siehe (4.5). Weisen Sie nach, dass T (X) = n+1 n X(n) ein erwartungstreuer Sch¨ atzer f¨ ur θ ist und Varθ (T (X)) <
1 , I(θ)
f¨ ur alle θ > 0.
Kl¨ aren Sie, wieso dies nicht im Widerspruch zur Ungleichung (4.9) (der Cram´er-Rao-Schranke) steht. A 4.21 Die Cram´er-Rao-Schranke ist nicht scharf : Es ist durchaus m¨oglich, dass ein UMVUE eine gr¨ oßere Varianz als die untere Schranke in (4.9) hat: Betrachtet ur unbekanntes θ > 0. werden dazu X1 , . . . , Xn i.i.d. mit X1 ∼ Poiss(θ) f¨ Zeigen Sie, dass
ni=1 Xi 1 T (X) = 1 − n ein UMVUE-Sch¨ atzer f¨ ur g(θ) = e−θ ist. Zeigen Sie weiterhin, dass die Varianz von T (X) die Schranke in der Informationsungleichung (4.8) f¨ ur kein θ annimmt. A 4.22 UMVUE: Laplace-Verteilung: Die Zufallsvariable X sei Laplace-verteilt mit unbekanntem Parameter θ > 0, d.h. X hat die Dichte pθ (x) = (2θ)−1 e−|x|/θ . ¨ ufen Sie jeweils, ob die Finden Sie die UMVUE-Sch¨ atzer f¨ ur θ und θ2 . Uberpr¨ untere Schranke der Informationsungleichung angenommen wird. A 4.23 Marshall-Olkin-Copula: Gegeben seien i.i.d. Zufallsvariablen X1 , . . . , Xn mit Xi ∈ R2 . Die Verteilungsfunktion von X1 an der Stelle (x, y) sei F (x, y) = max{x, y}1−α min{x, y},
x, y ∈ [0, 1].
Der Parameter α ∈ [0, 1] sei unbekannt. Ziel ist es, α mit Hilfe der Beobachtungen X1 = x1 , . . . , Xn = xn zu sch¨atzen. Ermitteln Sie mit Hilfe der Korrelation der Komponenten des Vektors X1 = (X1,1 , X1,2 ) (siehe Aufgabe 2.6) den Erwartungswert E(X1 ). Bestimmen Sie damit einen Sch¨atzer ur α, welcher f¨ ur n → ∞ fast sicher gegen α konvergiert. T (X1 , . . . , Xn ) f¨
134
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
A 4.24 Hinreichende Bedingungen f¨ ur Konsistenz : Seien X1 , . . . , Xn i.i.d. mit Verur jedes n ∈ N sei Tn := T (X1 , . . . , Xn ) ein teilung Pθ und θ ∈ Θ ⊂ R. F¨ Sch¨ atzer f¨ ur θ mit folgenden Eigenschaften: (i) Eθ (Tn2 ) < ∞ f¨ ur alle θ ∈ Θ und alle n ∈ N. ur alle θ ∈ Θ. (ii) limn→∞ Eθ (Tn ) = θ f¨ ur alle θ ∈ Θ. (iii) limn→∞ Varθ (Tn ) = 0 f¨ P
Dann ist der Sch¨ atzer Tn schwach konsistent, d.h. Tn − → θ f¨ ur n → ∞. A 4.25 Verschobene Gleichverteilung: Konsistenz : (Fortsetzung von Aufgabe 3.15) Die Zufallsvariablen X1 , . . . , Xn seien i.i.d. mit X1 ∼ U (θ, θ+1). Der Parameoße ter θ sei unbekannt und X (1) = min{X1 , . . . , Xn } die kleinste Ordnungsgr¨ ¯ := n−1 n Xi . Betrachten Sie die beiden Sch¨atzer der Daten und X i=1 ¯−1 T1 (X) = X 2
und
T2 (X) = X(1) −
1 . n+1
1 Zeigen Sie, dass Varθ (T1 (X)) = 12·n und Varθ (T2 (X)) = ¨ Uberpr¨ ufen Sie die beiden Sch¨ atzer auf schwache Konsistenz.
n (n+1)2 (n+2) .
A 4.26 Mehrdimensionale Informationsungleichung: Beweisen Sie die Informationsungleichung f¨ ur eine Verteilung mit k-dimensionalem Parameter θ: Sei X1 , . . . , Xn i.i.d. mit der Dichte pθ , θ ∈ Θ ⊂ Rk . Man nehme an, T (X) ∈ R sei eine Statistik mit Eθ (T (X)) = Ψ (θ) und Varθ (T (X)) < ∞, wobei Ψ eine differenzierbare Funktion ist. Wir setzen
∂ ∂ ∂ Ψ (θ) := Ψ (θ), . . . , Ψ (θ) . ∂θ ∂θ1 ∂θk Ferner gelten die Regularit¨ atsbedingungen (CR) analog zum einparametrischen Fall. Dann gilt
Varθ (T (X)) ≥
wobei I(θ) := Eθ
∂ ∂ Ψ (θ) I(θ)−1 Ψ (θ) , ∂θ ∂θ
∂ ln pθ (X) ∂θ
∂ ln pθ (X) ∂θ
positiv definit f¨ ur alle θ ∈ Θ sei. Hinweis: Beweisen Sie zuerst folgende Ungleichung: E(ξ 2 ) ≥ E(ξβ )(E(ββ ))−1 E(ξβ) f¨ ur eine Zufallsvariable ξ mit E(ξ 2 ) < ∞ und einen Zufallsvektor β ∈ Rk , mit E(βj2 ) < ∞, j = 1, . . . , k. Verwenden Sie hierzu 0 ≤ E(ξ − zβ)(ξ − zβ) und w¨ ahlen Sie den Vektor z ∈ R1×k geeignet.
4.5 Aufgaben
135
Delta-Methode A 4.27 Delta-Methode: Beweisen Sie folgende Aussage: Sei Z eine Zufallsvariable, {Xn } eine Folge reeller Zufallsvariablen und {σn } eine Folge reeller Konstanur n → ∞. Außerdem gelte: ten mit σn → ∞ f¨ L
ur eine Konstante μ. (i) σn (Xn − μ) −−−−−→ Z f¨ n→∞
(ii) g : R → R ist differenzierbar an der Stelle μ mit Ableitung g (μ). Dann gilt: L
σn (g(Xn ) − g(μ)) −−−−−→ g (μ)Z. n→∞
P
Hinweis: Aus (i) folgt Xn − μ −→ 0. Zeigen Sie dies zuerst und beweisen Sie P damit (g(Xn ) − g(μ) − g (μ)(Xn − μ))(Xn − μ)−1 −→ 0. Folgern Sie hieraus die Richtigkeit der Behauptung. ¯ Seien X1 , . . . , Xn i.i.d. mit E(X 2 ) < A 4.28 Delta-Methode: Transformation von X: 1 ¯ ∞ und Tn := g(Xn ). Weiterhin sei g differenzierbar an der Stelle E(X1 ). Beweisen Sie, dass √ L n(Tn − g(E(X1 ))) −→ N (0, τg2 ) mit
2 τg2 = (g (E(X1 ))2 E(X12 ) − (E(X1 )g (E(X1 ))2 = g (E(X1 )) Var(X1 ) gilt. A 4.29 Delta-Methode: Sch¨ atzung der Kovarianz : Seien (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. ¯ = 1 n Xi und Y¯ = 1 n Yi . Der Momentensch¨atzer f¨ ur Ferner sei X i=1 i=1 n n Cov(X1 , Y1 ) ist gegeben durch 1 ¯ i − Y¯ ). (Xi − X)(Y n i=1 n
Tn = T (X, Y ) :=
√ Zeigen Sie, dass n (Tn − Cov(X1 , Y1 )) asymptotisch N (0, γ 2 ) normalverteilt ucken Sie die asymptotische ist falls nur E(X14 ) < ∞ und E(Y14 ) < ∞. Dr¨ Varianz γ 2 explizit durch Momente von (X1 , Y1 ) aus. Hinweis: Verwenden Sie die Substitutionen Ui = Xi − E(X1 ), Vi = Yi − ur i = 1, . . . , n, die multivariate Delta-Methode und den multivariaten E(Y1 ) f¨ zentralen Grenzwertsatz, Satz 1.33 (vergleiche Aufgabe 3.9). Das zugeh¨ orige Konfidenzintervall wird in Aufgabe 5.7 bestimmt.
136
4. Vergleich von Sch¨ atzern: Optimalit¨ atstheorie
Asymptotische Aussagen A 4.30 Asymptotik: Log-Normalverteilung: Seien X1 , . . . , Xn i.i.d. und log-normalverteilt, d.h. ln(X1 ) ∼ N (μ, σ 2 ). Wir nehmen an, dass μ = σ 2 =: θ > 0 und der Parameter θ unbekannt ist. Bestimmen Sie den Maximum-LikelihoodSch¨ atzer θ f¨ ur θ und entscheiden Sie, ob dieser eindeutig ist. Berechnen Sie die asymptotische Verteilung von θ. A 4.31 Asymptotische Effizienz: Beispiel : Seien X1 , . . . , Xn i.i.d. mit E(X1 ) = μ = 0, Var(X1 ) = 1 und E(X14 ) < ∞. Der Erwartungswert μ sei unbekannt. Ferner seien T1 = n−1
n
(Xi2 − 1)
und
¯ 2 − n−1 T2 = X
i=1
¯ der arithmetische Mittelwert ist. Zeigen Sie, zwei Sch¨ atzer f¨ ur μ2 , wobei X dass T1 und T2 asymptotisch normalverteilt sind und berechnen Sie deren asymptotische Erwartung und Varianz. Berechnen Sie die asymptotische Effizienz von T1 zu T2 . Zeigen Sie, dass die asymptotische Effizienz von T1 zu oßer ist als 1, falls die Verteilung von X1 − μ um 0 symmetrisch T2 nicht gr¨ ist. A 4.32 Beispiele: Finden Sie den Maximum-Likelihood-Sch¨atzer und seine asymptotische Verteilung, wenn X1 , . . . , Xn i.i.d. sind und (i) X1 die Dichte p(x, θ) = 1{x∈(0,1)} θxθ−1 f¨ ur θ > 0 hat, ur θ ∈ (ii) X1 die Wahrscheinlichkeitsfunktion p(x, θ) = 1{x∈N} (1 − θ)θx f¨ (0, 1) hat. Hier ist N = {1, 2, . . . }. A 4.33 Doppelt-Exponentialverteilung: Asymptotik : Seien X1 , . . . , Xn i.i.d. und die Dichte von X1 sei gegeben durch x e− θ1 , falls x > 0, 1 x p(x, θ1 , θ2 ) = θ1 + θ2 e− θ2 , falls x ≤ 0. (i) Beschreiben Sie dieLikelihood-Funktion mit Hilfe der nsuffizienten Stan tistiken S1 (X) := i=1 Xi 1{Xi >0} und S2 (X) := − i=1 Xi 1{Xi <0} . (ii) Finden Sie die Maximum-Likelihood-Sch¨atzer θ1 und θ2 als L¨osungen der Score-Gleichungen. (iii) Bestimmen Sie die Fisher-Informationsmatrix und damit die gemeinsame asymptotische Verteilung von θ1 und θ2 . A 4.34 Gleichverteilung: Asymptotik des MLS : Seien X1 , X2 , . . . i.i.d. und Mn := max{X1 , . . . , Xn }. Kann man Folgen (cn ) und (dn ) reeller Zahlen finden mit cn > 0, n ∈ N, so dass
Mn − d n ≤ x −−−−→ H(x), (4.18) P n→∞ cn
4.5 Aufgaben
137
f¨ ur alle x ∈ R und einer Verteilungsfunktion H, so sagt man, dass die Verteilung von X1 in der Maximum Domain of Attraction“ von H liegt. Nach dem ” Fisher-Tipett Theorem kommt hierf¨ ur nur die verallgemeinerte Extremwertverteilung (GEV - Generalized Extreme Value Distribution) definiert durch
exp −(1 + ξx)−1/ξ ξ = 0 , Hξ (x) := −x exp (−e ) ξ = 0, mit 1 + ξx > 0 in Frage. Ist ξ = 0, so handelt es sich um eine GumbelVerteilung, f¨ ur ξ > 0 um eine Fr´echet-Verteilung und f¨ ur ξ < 0 um eine Weibull-Verteilung. 1. Zeigen Sie, dass der MLS von θ f¨ ur X1 ∼ U (0, θ) durch Mn gegeben ist (Dies ist kein UMVUE-Sch¨ atzer nach Beispiel 4.8). 2. Zeigen Sie, dass Mn in diesem Fall in der Maximum Domain of Attraction der Weibull-Verteilung liegt, d.h. bestimmen Sie Folgen (cn ) und (dn ), so dass (4.18) mit einem ξ < 0 gilt.
Kapitel 5.
Konfidenzintervalle und Hypothesentests
Dieses Kapitel stellt zun¨ achst Konfidenzintervalle im ein- und mehrdimensionalen Fall vor und behandelt danach Hypothesentests nach dem Ansatz von Neyman und Pearson. Abschließend wird die Dualit¨at zwischen den beiden Begriffen erl¨ autert.
5.1 Konfidenzintervalle Sch¨ atzt man einen Parameter aus Daten, so erh¨alt man als Ergebnis eines Sch¨ atzverfahrens einen Sch¨ atzwert. Es ist allerdings unerl¨aßlich, neben einem Sch¨ atzwert stets eine Angabe u ¨ber seine Qualit¨at oder seine Pr¨azision zu machen. So kann man beispielsweise mit einigen wenigen Beobachtungen einen Sch¨ atzwert ausrechnen und diesen angeben, dieser hat aufgrund seiner großen Varianz eine geringe Aussagekraft. Erst durch eine ausreichend hohe Stichprobenzahl kann eine hinreichende Pr¨azision garantiert werden. Nat¨ urlich h¨ angt die Pr¨ azision immer mit dem gew¨ahlten Modell und der Aufgabenstellung zusammen, so dass allein die Anzahl der Stichproben auch kein zuverl¨assiges Qualit¨ atsmerkmal darstellt. Ein zuverl¨aßliches und allgemeines Merkmal f¨ ur die Qualtit¨ at eines Sch¨atzers ist ein Konfidenzintervall. Dies ist ein zuf¨ alliges Intervall, welches mit festgelegter Wahrscheinlichkeit (das Konfidenzniveau, beispielsweise 95%) den wahren Parameter u ¨berdeckt. Als Ergebnis einer Sch¨ atzung sollte stets Sch¨atzwert und Konfidenzintervall mit zugeh¨ origem Konfidenzniveau angegeben werden. Zun¨ achst werden eindimensionale, danach mehrdimensionale Konfidenzintervalle behandelt und schließlich Bayesianische Intervallsch¨atzer betrachtet.
C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 5, c Springer-Verlag Berlin Heidelberg 2011
139
140
5. Konfidenzintervalle und Hypothesentests
5.1.1 Der eindimensionale Fall Sei T (X) ein Sch¨ atzer von q(θ) ∈ R. F¨ ur eine vern¨ unftige Sch¨atzung ist es essenziell, neben dem Sch¨ atzwert auch ein Maß f¨ ur die Pr¨azision des Sch¨ atzverfahrens anzugeben. Ziel dieses Abschnittes ist, die Pr¨azision oder den Fehler von T zu bestimmen. Dabei gehen wir folgendem Ansatz nach: Wir suchen zuf¨ allige Grenzen T (X) ≤ q(θ) ≤ T (X), so dass die Wahrscheinlichkeit, dass q(θ) von [T (X), T (X)] u ¨berdeckt wird, ausreichend hoch ist. Ein solches zuf¨ alliges Intervall nennen wir Zufallsintervall. Fixiert man ein kleines Toleranzniveau α, so interessiert man sich f¨ ur Statistiken T und T mit der folgenden Eigenschaft. Definition 5.1. Ein durch T (X) ≤ T (X) gegebenes Zufallsintervall ur welches f¨ ur alle θ ∈ Θ gilt, dass [T (X), T (X)] f¨
Pθ q(θ) ∈ [T (X), T (X)] ≥ 1 − α, (5.1) heißt (1 − α)-Konfidenzintervall f¨ ur q(θ) zum Konfidenzniveau 1 − α ∈ [0, 1]. Hierbei verwenden wir folgenden Sprachgebrauch: Ein (1−α)-Konfidenzintervall bedeutet ein (1 − α) · 100 %-Konfidenzintervall; ist etwa α = 0.05, so verwenden wir synonym die Bezeichnung 0.95-Konfidenzintervall und 95%Konfidenzintervall. F¨ ur ein gegebenes Konfidenzintervall ist ein Intervall, welches dieses einschließt wieder ein Konfidenzintervall (auch zum gleichen Konfidenzniveau). Allerdings sind wir typischerweise daran interessiert, f¨ ur ein vorgegebenes Konfidenzniveau das kleinste Intervall zu finden, welches die ¨ Uberdeckungseigenschaft (5.1) erf¨ ullt. Ist dies der Fall, so erwartet man approximativ, dass in n Beobachtungen x1 , . . . , xn von i.i.d. Zufallsvariablen mit der gleichen Verteilung wie X in (1 − α)n F¨allen [T (xi ), T (xi )] den wahren Parameter q(θ) enth¨ alt. Handelt es sich um ein symmetrisches Intervall, so nutzen wir die Schreibweise a ± b := [a − b, a + b]. B 5.1 Normalverteilung, σ bekannt: Konfidenzintervall : Seien X1 , . . . , Xn i.i.d. ∼ atzer f¨ ur θ verwenden wir den UMVUEN (θ, σ 2 ) und σ 2 sei bekannt. Als Sch¨ ¯ vergleiche Aufgabe 4.5. Da die N (θ, σ 2 )-Verteilung symmetrisch Sch¨ atzer X, um θ ist, liegt es nahe als Konfidenzintervall ein symmetrisches Intervall um ¯ zu betrachten. F¨ X ur c > 0 gilt
¯ X − θ σ σ ¯ ¯ Pθ X − c √ ≤ θ ≤ X + c √ = Pθ √ ≤ c . σ/ n n n
5.1 Konfidenzintervalle
141 φ(x)
x Abb. 5.1 Dichte der Standardnormalverteilung mit den α/2 und 1 − α/2-Quantilen.
Da
¯ X−θ √ σ/ n
∼ N (0, 1), folgt
¯ X − θ Pθ √ ≤ c = Φ(c) − Φ(−c) = 2Φ(c) − 1. σ/ n
¨ Da wir das kleinste Konfidenzintervall suchen, welches die Uberdeckungseigenschaft (5.1) erf¨ ullt, suchen wird ein c > 0 so, dass 2Φ(c) − 1 = 1 − α gilt. Mit za := Φ−1 (a) sei das a-Quantil der Standardnormalverteilung bezeichnet. Dann ist das symmetrische Intervall ¯ ± z1−α/2 √σ X n ein (1−α)-Konfidenzintervall f¨ ur θ; siehe Abbildung 5.1. Da z0.975 = 1.96 gilt, ist in einer Stichprobe mit x ¯ = 5, σ = 1, n = 100 das 95%-Konfidenzintervall f¨ ur θ gegeben durch 5 ± 0.196.
Man ist daran interessiert, dass Eθ T (X) − T (X) so klein wie m¨oglich ist. Deshalb betrachtet man den Konfidenzkoeffizient f¨ ur [T (X), T (X)], definiert durch inf Pθ [T (X) ≤ q(θ) ≤ T (X)].
θ
Oft ist Pθ T (X) ≤ q(θ) ≤ T (X) unabh¨angig von θ (siehe dazu Beispiel 5.1). Diese Methodik stellt ein wichtiges Hilfsmittel zur Bestimmung von Konfidenzintervallen dar.
142
5. Konfidenzintervalle und Hypothesentests
Definition 5.2. Eine Zufallsvariable, gegeben als Funktion von X und θ, dessen Verteilung unabh¨ angig von θ ist, heißt Pivot. B 5.2 Pivot (Fortsetzung von Beispiel 5.1): Betrachten wir wie in Beispiel 5.1 X = (X1 , . . . , Xn ) und sind X1 , . . . , Xn i.i.d.∼ N (θ, σ 2 ), so ist die Zufallsvariable √ ¯ n(X − θ) G := g(X, θ) := ∼ N (0, 1). σ Damit ist die Verteilung von G unabh¨ angig von θ und somit ist G = g(X, θ) ein Pivot. Kleinste Konfidenzintervalle. Nat¨ urlich ist man daran interessiert, die kleinstm¨ oglichen Konfidenzintervalle anzugeben. Die Herausforderung besteht im Finden solcher Konfidenzintervalle. Die Situation ist ¨ahnlich wie im vorigen Kapitel u atzer: Im Allgemeinen existieren keine ¨ber optimale Sch¨ kleinsten Konfidenzintervalle. Eine Einschr¨ankung auf unverzerrte Konfidenzintervalle ist hierzu notwendig. Definition 5.3. Ein (1 − α)-Konfidenzintervall [T , T ] f¨ ur q(θ) heißt unverzerrt, falls f¨ ur alle θ, θ ∈ Θ gilt, dass
Pθ T ≤ q(θ) ≤ T ≥ Pθ T ≤ q(θ ) ≤ T .
Ein unverzerrtes Konfidenzintervall u ¨berdeckt demnach den wahren Wert q(θ) zumindest ebenso gut wie jeden anderen Wert q(θ ). B 5.3 Unverzerrtes Konfidenzintervall (Fortsetzung von Beispiel 5.1): Das Konfidenzintervall aus Beispiel 5.1 ist unverzerrt, denn
¯ −θ X θ −θ θ − θ σ ¯ √ − z1−α/2 ≤ √ ≤ √ + z1−α/2 Pθ θ ∈ X ± √ z1−α/2 = Pθ n σ/ n σ/ n σ/ n
θ −θ θ −θ √ + z1−α/2 − Φ √ − z1−α/2 . =Φ σ/ n σ/ n Der letzte Ausdruck ist maximal f¨ ur θ = θ, da die Funktion f (x) := Φ(x + c) − Φ(x − c) an der Stelle x = 0 maximal ist, falls c > 0: In der Tat ist f (0) = φ(c) − φ(−c) = 0, da die Dichte φ der Standardnormalverteilung symmetrisch um 0 ist und weiterhin f (0) = −2cφ(c) < 0 da c > 0. Das Konfidenzintervall ist somit unverzerrt. B 5.4 Normalverteilung, μ und σ unbekannt: Konfidenzintervall : Die Zufallsvariablen X1 , . . . , Xn seien i.i.d. mit X1 ∼ N (μ, σ 2 ). Gesucht ist ein Konfidenzintervall f¨ ur den Mittelwert μ, aber auch σ ist unbekannt. Wie bisher bezeichne
5.1 Konfidenzintervalle
143
p(x)
0
χ2n,α/2
x
χ2n,1−α/2
Abb. 5.2 Dichte der χ2n -Verteilung mit den α/2 und (1 − α/2)-Quantilen.
1 ¯ 2 Xi − X n − 1 i=1 n
s2n = s2n (X) =
die Stichprobenvarianz und weiterhin sei c := tn−1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit n−1 Freiheitsgraden. Man erh¨alt mit θ := (μ, σ 2 ) , dass
¯ X −μ ¯ − cs ¯ + cs √ ≤ c . √n ≤ μ ≤ X √ n = Pθ Pθ X n n sn / n 2
¯ von s2n (X) unabh¨angig ist und (n − 1) sn (X) Nach Satz 7.14 folgt, dass X ∼ σ2 2 χn−1 . Wir erhalten nach Definition 1.8, dass √ Tn−1 (X) :=
¯ − μ) n(X = sn (X)
√
¯ n(X−μ) σ
1 (n−1)s2n (X) n−1 σ2
tn−1 -verteilt ist. Da diese Verteilung unabh¨angig von θ ist, ist Tn−1 ein Pivot. Somit ergibt sich folgendes Konfidenzintervall f¨ ur μ: sn ¯±√ X tn−1,1−α/2 . n B 5.5 Normalverteilung, μ bekannt: Konfidenzintervall f¨ ur σ 2 : Seien X1 , . . . , Xn 2 i.i.d. mit X1 ∼ N (μ, σ ). Der Mittelwert μ sei nun bekannt. In diesem Fall ist n 1 2 σ 22 (X) := (Xi − μ) n i=1 der Maximum-Likelihood- und UMVUE-Sch¨atzer f¨ ur σ 2 (vergleiche Aufgabe 4.5). Ein Pivot ist leicht gefunden, da
144
5. Konfidenzintervalle und Hypothesentests
n2 σ 2 (X) = σ2
n i=1
Xi − μ σ
2
∼ χ2n .
Sei χ2n,a das a-Quantil der χ2n -Verteilung (siehe Abbildung 5.2 zur Illustration von χ2n,α/2 und χ2n,1−α/2 ). Durch die Beobachtung, dass
P
χ2n,α/2
n2 σ 2 (X) ≤ ≤ χ2n,1−α/2 σ2
=1−α
erh¨ alt man ein (1 − α)-Konfidenzintervall f¨ ur σ 2 gegeben durch / . n2 σ 2 (X) n2 σ 2 (X) , . χ2n,1−α/2 χ2n,α/2 Allerdings handelt es sich hier nicht um ein unverzerrtes Konfidenzintervall. Weiterhin ist es nicht symmetrisch um σ ˜ 2 (X). B 5.6 Approximative Konfidenzgrenzen f¨ ur die Erfolgswahrscheinlichkeit in Bernoul¯ li-Experimenten: Seien X1 , . . . , Xn i.i.d. Bernoulli(θ)-verteilt. Dann ist X Maximum-Likelihood-Sch¨ atzer und UMVUE-Sch¨atzer f¨ ur θ (vergleiche Aufgabe 4.3). Mit za := Φ−1 (a) sei wieder das Quantil der Normalverteilung bezeichnet. Nach dem zentralen Grenzwertsatz, Satz 1.31, gilt, dass ¯ −θ √ X L n −−−−→ N (0, 1), n→∞ θ(1 − θ) was f¨ ur ein hinreichend großes n folgende Approximation rechtfertigt: √ n(X ¯ − θ) 1 − α ≈ Pθ ≤ z1−α/2 θ(1 − θ) ¯ − θ)2 ≤ z 2 = Pθ n(X 1−α/2 · θ(1 − θ) 2 2 ¯ 2 − θ(2Xn ¯ + z2 ) + θ (n + z ) ≤ 0 = Pθ nX 1−α/2 1−α/2
¯ θ) ≤ 0 . = Pθ A(X, 2 ¯ θ) := θ2 (n + z 2 ¯ ¯2 ¯ Hierbei ist A(X, 1−α/2 ) − θ(2Xn + z1−α/2 ) + nX . Da A(X, θ) ¯ und θ(X), ¯ so dass quadratisch in θ ist, findet man Grenzen θ(X) ¯ θ) ≤ 0 = θ ∈ [θ(X), ¯ θ(X)] ¯ θ : A(X,
5.1 Konfidenzintervalle
145
gilt. Damit ist das approximative (1 − α)-Konfidenzintervall f¨ ur θ durch ¯ θ(X)] ¯ gegeben. Als Faustregel1 sollte [θ(X), nθ
und
n(1 − θ) ≥ 5
gelten, um diese Approximation sinnvoll zu verwenden. Als Alternative findet man in der Literatur auch folgende Approximation: √ √ n(X n(X ¯ − θ) ¯ − θ) 1 − α ≈ Pθ ≤ z1−α/2 ≤ z1−α/2 ≈ Pθ ¯ − X) ¯ θ(1 − θ) X(1 ¯ ¯ X) ¯ ±z1−α/2 X(1− und somit ist X approximatives (1−α)-Konfidenzintervall n f¨ ur θ. Diese Approximation ist allerdings weniger gut und sollte nur f¨ ur großes n verwendet werden. Bemerkung 5.4 (Faustregel). Die Faustregel geht einher mit einem zu tolerierenden Fehler. Die genaue Fehlerabsch¨atzung findet man bei Georgii (2004), Seite 143; sie wird mit dem Satz von Berry-Esse´en bestimmt. Dort wird auch die Approximation durch eine Poisson-Verteilung diskutiert.
5.1.2 Der mehrdimensionale Fall In diesem Abschnitt betrachten wir den mehrdimensionalen Fall, in welchem ein Konfidenzintervall f¨ ur die vektorwertige Transformation q(θ) = (q1 (θ), . . . , qn (θ)) bestimmt werden soll. Analog zum eindimensionalen Fall definieren wir: Definition 5.5. Das durch Tj (X) ≤ Tj (X), 1 ≤ j ≤ n gegebene Zufallsrechteck I(X) := x ∈ Rn : T j (X) ≤ xj ≤ T j (X), j = 1, . . . , n heißt (1 − α)-Konfidenzbereich f¨ ur q(θ), falls f¨ ur alle θ ∈ Θ
Pθ q(θ) ∈ I(X) ≥ 1 − α.
Man kann die f¨ ur den eindimensionalen Fall erhaltenen Konfidenzintervalle unter gewissen Umst¨ anden auf den n-dimensionalen Fall u ¨bertragen. Allerdings erh¨ alt man dann ein anderes, deutlich schlechteres Konfidenzniveau. 1
Siehe Bemerkung 5.4.
146
5. Konfidenzintervalle und Hypothesentests
,
(i) Falls Ij (X) := T j (X), T j (X) jeweils (1 − αj )-Konfidenzintervall f¨ ur qj (θ) ist und falls (T 1 , T 1 ),. . . , (T n , T n ) unabh¨angig sind, so ist I(X) := I1 (X) × · · · × Ir (X) ein
n
(1 − αj )-Konfidenzbereich f¨ ur q(θ). Mit αj =
√ n 1 − α erh¨alt man
j=1
so einen (1 − α)-Konfidenzbereich. (ii) Falls die Ij nicht unabh¨ angig sind, so kann man die Bonferroni Ungleialt daraus f¨ ur jedes Intervall Ij , welches das chung 2 verwenden, und erh¨ alt Konfidenzniveau αj einh¨ Pθ (q(θ) ∈ I(X)) ≥ 1 −
n
Pθ (qj (θ) ∈ / Ij (X)) ≥ 1 −
j=1
n
αj . (5.2)
j=1
Dann ist I(X) ein (1 − α)-Konfidenzbereich, falls man αj = α/n w¨ahlt. B 5.7 Normalverteilungsfall: Konfidenzbereich f¨ ur (μ, σ 2 ): Wir u ¨bertragen die eindimensionalen Konfidenzintervalle aus dem Beispiel 5.4 wobei wir das Konfidenzintervall f¨ ur σ 2 mit dem Faktor n − 1 statt n multiplizieren um Unverzerrtheit zu erhalten: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ). Dann ist ¯ ± s(X) √ tn−1,1−α/4 I1 (X) := X n ein (1 − α/2)-Konfidenzintervall f¨ ur μ, wenn σ 2 unbekannt ist und .
(n − 1)s2 (X) (n − 1)s2 (X) I2 (X) := , χ2n−1,1−α/4 χ2n−1,α/4
/
ein (1−α/2)-Konfidenzintervall f¨ ur σ 2 , wenn μ unbekannt ist. Nach (5.2) erh¨alt man den gemeinsamen f¨ ur (μ, σ 2 ) durch I1 (X)×I2 (X) mit
αKonfidenzbereich α Konfidenzniveau 1 − 2 + 2 = 1 − α.
5.1.3 Bayesianischer Intervallsch¨ atzer Da in einem Bayesianischen Ansatz θ als zuf¨allig betrachtet wird, basiert die Inferenz f¨ ur θ auf der a posteriori-Verteilung θ|X = x ∼ p(θ|x). Damit kann man ein Intervall [T1 (x), T2 (x)] finden, so dass θ unter der a posterioriVerteilung mit Wahrscheinlichkeit 1 − α in diesem Intervall liegt; ein solches 2
¯ + P(B)) ¯ f¨ Die Bonferroni Ungleichung lautet P(A ∩ B) ≥ 1 − (P(A) ur alle A, B ∈ A.
5.2 Das Testen von Hypothesen
147
p(θ x) α 2
α 2
T1 (x)
T2 (x)
Abb. 5.3 Illustration eines (1 − α)-credible Intervalls gegeben durch [T1 (x), T2 (x)].
Intervall nennt man Credible Interval oder Bayesianischen Intervallsch¨atzer und definiert es wie folgt. Definition 5.6. Ein Bayesianischer Intervallsch¨ atzer f¨ ur θ zum Konfidenzniveau (1 − α) ist ein zuf¨ alliges Intervall [T1 (X), T2 (X)] mit
(5.3) P θ ∈ [T1 (X), T2 (X)] X = x = 1 − α.
Nun ist θ zuf¨ allig und man bestimmt das zuf¨allige Intervall so, dass die a posteriori-Wahrscheinlichkeit, dass θ in diesem Intervall liegt gerade gleich (oder gr¨ oßer) 1 − α ist. Im klassischen Ansatz eines Konfidenzintervalls hingegen macht (5.3) keinen Sinn, denn bedingt auf T (X) = x ist diese Wahrscheinlichkeit entweder Null oder Eins. Eine ausf¨ uhrliche Behandlung von Bayesianischen Intervallsch¨ atzern findet man im Kapitel 9 von Casella und Berger (2002).
5.2 Das Testen von Hypothesen Bisher haben wir Sch¨ atzverfahren betrachtet und entwickelt, welche man beispielsweise nutzen kann, um aus den Daten die Wirksamkeit einer Therapie zu sch¨ atzen. Allerdings ist man oft nicht direkt an dem Sch¨atzwert interessiert, sondern man m¨ ochte entscheiden, ob diese Therapie hilft oder nicht. Hierf¨ ur wird man wegen der Zuf¨ alligkeit des Problems keine absolute Entscheidung treffen k¨ onnen, sondern zu jeder Zeit muss man eine gewisse Wahrscheinlichkeit f¨ ur eine Fehlentscheidung akzeptieren, ¨ahnlich wie bei den Konfidenzintervallen.
148
5. Konfidenzintervalle und Hypothesentests
¨ Im Folgenden f¨ uhren wir das Konzept des statistischen Tests zur Uberpr¨ ufung von Hypothesen auf Basis einer Stichprobe ein. Stets gehen wir von einem statistischen Modell {Pθ : θ ∈ Θ} mit X ∼ Pθ aus. Allerdings zerlegt die betrachtete Fragestellung den Parameterraum disjunkt in die zwei Hypothesen Θ0 und Θ1 mit Θ = Θ0 ⊕ Θ1 , was gleichbedeutend ist mit Θ0 ∩ Θ1 = ∅ ur unund Θ0 ∪ Θ1 = Θ. Die beiden Parameterbereiche Θ0 und Θ1 stehen f¨ terschiedliche Hypothesen. Im obigen Beispiel w¨ urde man Θ0 als den Bereich w¨ ahlen, in welchem die Therapie nicht hilft; in dem Bereich Θ1 hilft hingegen die Therapie. Wir verwenden die folgenden Bezeichnungen: H0 = {θ ∈ Θ0 } heißt Null-Hypothese und H1 = {θ ∈ Θ1 } heißt Alternative. Oft schreiben wir hierf¨ ur H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 . Die Bezeichnung Null-Hypothese stammt vom englischen Begriff to nullify = entkr¨aften, widerlegen. Wie wir sp¨ ater sehen werden, ist die Hypothese, die widerlegt werden soll, stets als Null-Hypothese zu w¨ ahlen. Besteht Θ0 aus einem einzigen Element, Θ0 = {θ0 }, so spricht man von einer einfachen Hypothese, ansonsten handelt es sich um eine zusammengesetzte Hypothese. Ist Θ ⊂ R und die Alternative von der Form Θ1 = {θ : θ = θ0 }, so nennt man sie zweiseitig; ist sie von der Form Θ1 = {θ : θ > θ0 }, so heißt sie einseitig. Um eine Entscheidung zwischen den beiden Hypothesen H0 und H1 treffen zu k¨ onnen, stellt man eine Entscheidungsregel auf, welche wir Test nennen. Definition 5.7. Ein Test δ ist eine messbare Funktion der Daten X mit Werten in [0, 1]. Dabei bedeutet • •
δ(X) = 0: Die Null-Hypothese wird akzeptiert. δ(X) = 1: Die Null-Hypothese wird verworfen.
Der Bereich {x : δ(x) = 1} heißt der kritische Bereich oder Verwerfungsbereich des Tests. Ist T (X) eine Statistik und gilt δ(X) = 1{T (X)≥c} , so heißt c kritischer Wert des Tests. Bemerkung 5.8. Dem aufmerksamen Leser ist sicher nicht entgangen, dass ein Test einen beliebigen Wert in dem Intervall [0, 1] annehmen darf, w¨ahrend wir aber nur f¨ ur die Werte 0 und 1 klare Entscheidungsregeln angeben. Obwohl wir uns auf den Fall δ ∈ {0, 1} konzentrieren, kann es sinnvoll sein δ(X) = p ∈ (0, 1) zuzulassen. Dann trifft man eine Entscheidung wie folgt: Sei Y ∼ Bernoulli(p) unabh¨ angig von X. Man entscheidet sich f¨ ur H0 , falls Y = 0, ansonsten f¨ ur H1 . Dies nennt man einen randomisierten Test, da die
5.2 Das Testen von Hypothesen
149
Entscheidung nicht nur von den Daten, sondern auch von dem zus¨atzlichen Bernoulli-Experiment abh¨ angt. B 5.8 Test f¨ ur Bernoulli-Experiment: Ein neues Medikament soll getestet werden, welches die Gesundungsrate einer Krankheit erh¨ohen soll. Die Null-Hypothese ist, dass das Medikament keine Wirkung hat. Aus Erfahrung weiß man, dass ein Anteil θ0 = 0.2 von Probanden ohne Behandlung gesundet. Es werden n Patienten getestet und deren Gesundungsrate beobachtet. Als statistisches Modell betrachten wir X1 , . . . , Xn i.i.d. mit X1 ∼ Bernoulli(θ). Interessiert sind wir an der Entscheidung, ob H0 : θ = θ0 oder H1 : θ > θ0 vorliegt. Letztere, einseitige Hypothese verdeutlicht, dass wir nachweisen wollen, dass das Medikament nicht sch¨ adlich ist, sondern eine Verbesserung der Gesundungsrate bewirkt. Als Teststatistik verwenden wir den UMVUE-Sch¨atzer ¯ siehe Aufgabe 4.3. Ist X ¯ deutlich gr¨oßer als θ0 , so spricht dies f¨ X, ur H1 und gegen H0 . F¨ ur ein noch zu bestimmendes Niveau wird man sich f¨ ur H1 ¯ u entscheiden, falls X ber diesem Niveau liegt, und sonst f¨ u r H . Die Vertei¨ 0 ¯ Folglich ¯ = n Xi l¨ asst sich leichter handhaben als die von X. lung von nX i=1 verwenden wir die Tests δk mit n 1, i=1 Xi ≥ k (5.4) δk (X) := 0, sonst. Die Wahl eines geeigneten k h¨ angt von einer Fehlerwahrscheinlichkeit ab, die wir im folgenden Abschnitt einf¨ uhren.
5.2.1 Fehlerwahrscheinlichkeiten und Gu ¨te In unseren statistischen Tests betrachten wir stets zwei Hypothesen. Bei der Entscheidung f¨ ur eine jede kann man einen Fehler machen. Diese beiden Fehler k¨ onnen eine unterschiedliche Wahrscheinlichkeit haben und aus diesem Grund m¨ ussen wir stets beide Fehlerquellen im Auge behalten. Man erh¨alt folgende F¨alle: Ist H0 wahr und ergibt der Test ,,H0 wird akzeptiert”, so macht man keinen Fehler; ebenso falls H1 wahr ist und der Test ergibt ,,H0 wird verworfen”. Ist allerdings H0 wahr und der Test ergibt ,,H0 wird verworfen”, so macht man den so genannten Fehler 1. Art. Andererseits, ist H1 wahr, und ergibt der Test ,,H0 wird akzeptiert”, so macht man den Fehler 2. Art. Wir fassen dies in der folgenden Tabelle zusammen. H0 wahr
H1 wahr
H0 wird akzeptiert kein Fehler
Fehler 2.Art
H0 wird verworfen
kein Fehler
Fehler 1. Art
150
5. Konfidenzintervalle und Hypothesentests
Man geht wie folgt vor: Die Hypothese H0 ist so gew¨ahlt, dass man sie ablehnen will. Somit ist der Fehler 1. Art f¨ ur die Fragestellung wichtiger als der Fehler 2. Art. Man gibt sich ein Niveau α vor und w¨ahlt den Test so, dass der Fehler 1. Art h¨ ochstens α ist. Unterschiedliche Tests werden anhand ihres Fehlers 2. Art (G¨ ute) verglichen. Definition 5.9. F¨ ur einen Test δ ist die G¨ utefunktion Gδ : Θ → [0, 1] definiert durch Gδ (θ) = Eθ (δ(X)). Ist δ ∈ {0, 1}, so ist die G¨ ute eines Tests f¨ ur vorgegebenes θ gerade die Wahrscheinlichkeit, sich f¨ ur die Alternative H1 zu entscheiden. Ist θ ∈ Θ0 , so ist das gerade die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art. Damit erh¨alt man folgende Interpretation von Gδ (θ): G¨ ute des Tests gegen die Alternative, θ ∈ Θ1 Wahrscheinlichkeit des Fehlers 1. Art f¨ ur den wahren Wert θ,
θ ∈ Θ0 .
Gilt f¨ ur einen Test δ, dass sup Gδ (θ) ≤ α θ∈Θ0
sagt man, der Test hat das Signifikanzniveau α. Gilt f¨ ur δ sup Gδ (θ) = α, θ∈Θ0
so nennen wir den Test δ einen Level-α-Test. Bei einem Test mit Signifikanzniveau α k¨ onnte man m¨ oglicherweise auch ein kleineres Niveau α w¨ahlen; bei einem Level-α-Test ist das nicht der Fall, siehe Beispiel 5.9. B 5.9 Test mit Signifikanzniveau α und Level-α-Test: Ist X ∼ N (μ, 1), so ist δ(X) = ur H0 : μ = 0 gegen H1 : μ > 0. F¨ ur ein vorgegebenes 1{X>c} ein Test f¨ α ∈ (0, 1) erh¨ alt man f¨ ur jedes c ≥ Φ−1 (1 − α) einen Fehler 1. Art mit einer Wahrscheinlichkeit kleiner als α. Diese Tests sind somit alle Tests mit Signifikanzniveau α. Aber nur f¨ ur c = Φ−1 (1 − α) erh¨alt man einen Level-αTest. B 5.10 Fortf¨ uhrung von Beispiel 5.8 : F¨ ur das Testproblem H0 : θ = θ0 gegen H1 : die Tests δk aus Gleichung (5.4) verwendet werden. Wir setzen θ > θ0 sollen ¯ = n Xi und erinnern daran, dass S nach Aufgabe 1.4 gerade S := nX i=1 Bin(n, θ)-verteilt ist. Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen ist demnach n n j θ (1 − θ0 )n−j . Pθ0 (δk (X) = 1) = Pθ0 (S ≥ k) = j 0 j=k
5.2 Das Testen von Hypothesen
151
Gδ (θ) 1 Fehler 2. Art
Fehler 1. Art θ
0
θ0
H1
1
Abb. 5.4 Illustration der Fehlerwahrscheinlichkeiten und der G¨ utefunktion eines Tests δ f¨ ur das Testproblem H0 : θ = θ0 gegen H1 : θ > θ0 im Parameterraum Θ = {θ : 0 ≤ θ0 ≤ θ ≤ 1}. Hierbei ist der Fehler 2. Art an einem festen θ ∈ H1 dargestellt.
Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen hingegen h¨angt von ur den Fehler 2. Art gilt θ ∈ Θ1 und wir dem unbekannten Wert θ ∈ Θ1 ab. F¨ erhalten folgende Wahrscheinlichkeit f¨ ur einen Fehler 2. Art: Pθ (δk (X) = 0) = Pθ (S < k) =
k−1 j=0
n j θ (1 − θ)n−j . j
Schließlich ergibt sich folgende G¨ utefunktion Gδk (θ) = Pθ (S ≥ k) =
n n j=k
j
θj (1 − θ)n−j ,
θ ∈ Θ.
Die zugeh¨ origen Fehlerwahrscheinlichkeiten und die G¨ utefunktion sind in Abbildung 5.4 illustriert. B 5.11 Tests: Anwendungsbeispiele: Zur Illustration von statistischen Tests stellen wir zwei Beispiele aus der Anwendung vor. 1. Eine Medizinerin m¨ ochte die Wirkung eines neuen Medikaments testen. Dabei erwartet sie, dass das neue Medikament wirksam ist. Aus diesem Grund verwendet sie die Hypothesen H0 : Medikament hat keine Wirkung gegen H1 : Medikament hat Wirkung. Ihr Ziel ist es, H0 abzulehnen; falls H0 aber nicht abgelehnt werden kann, dann wird sie nichts vermelden und an Verbesserungen arbeiten. 2. Ein Verbraucherberater untersucht Kindersitze f¨ ur Autos. Er m¨ochte nachweisen, dass die mittlere Kraft μ, welche ben¨otigt wird bis der Kindersitz zerbricht, bei einer bestimmten Marke niedriger ist als die entur andere Marken. Das heißt, er m¨ochte H0 : μ ≥ μ0 sprechende Kraft μ0 f¨
152
5. Konfidenzintervalle und Hypothesentests
gegen H1 : μ < μ0 testen. Falls H0 nicht abgelehnt werden kann, dann wird er nichts vermelden, da in diesem Fall eine Warnung vor diesem Typ von Kindersitzen nicht berechtigt w¨are. Generell kann man Folgendes formulieren: Falls die Null-Hypothese H0 abgelehnt wird, dann wird ein Fehler (Fehler 1. Art) h¨ochstens mit der Wahrscheinlichkeit α gemacht. Falls H0 jedoch nicht abgelehnt werden kann, dann ist der Fehler (in diesem Fall der Fehler 2. Art) nicht kontrolliert, d.h. die Wahrscheinlichkeit f¨ ur einen Fehler 2. Art kann in bestimmten Situationen beliebig nahe an 1 sein. Daher sagt man, dass H0 nicht verworfen werden ” kann“ oder es gibt nicht gen¨ ugend Evidenz f¨ ur einen signifikanten Effekt“. ” B 5.12 Fortsetzung von Beispiel 5.8 : F¨ ur das Testproblem H0 : θ = θ0 gegen H1 : θ > θ0 sollen die Tests δk aus Gleichung (5.4) verwendet werden. Hierbei ist wieder n S = S(X) = Xi ∼ Bin(n, θ). i=1
Man w¨ ahlt k0 = k(θ0 , α) so, dass die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art kleiner oder gleich α ist, also Pθ0 (S ≥ k0 ) ≤ α
(5.5)
gilt. Ein solches k0 existiert, da Pθ0 (S ≥ k) =
n n j=k
j
θ0j (1 − θ0 )n−j
monoton fallend in k ist. F¨ ur gen¨ ugend großes n mit min(nθ0 , n(1 − θ0 )) ≥ 5 (siehe Bemerkung 5.4) kann man auch folgende Approximation durch die Normalverteilung verwenden: √ ¯ − θ) n(X k − nθ − 0.5 k − nθ − 0.5 ≥ ≈1−Φ . Pθ (S ≥ k) ≈ Pθ θ(1 − θ) nθ(1 − θ) nθ(1 − θ) Hierbei ist der Term 0.5 im Z¨ ahler die so genannte Stetigkeitskorrektur , die die Approximation verbessert. Dann gilt
k − nθ0 − 0.5 ≤ α. Pθ0 (S ≥ k) ≈ 1 − Φ nθ0 (1 − θ0 ) Demnach ist (5.5) (approximativ) gleichbedeutend mit k0 ≥ x0 mit x0 = nθ0 + 0.5 + z1−α nθ0 (1 − θ0 ),
(5.6)
wobei z1−α das (1 − α)-Quantil der Standardnormalverteilung ist (siehe
5.2 Das Testen von Hypothesen
153 p(x)
α
0
z1−α
x
Abb. 5.5 Das (1 − α)-Quantil der Normalverteilung z1−α .
Abbildung 5.5). Somit ist der Test δk0 (X) := 1{S(X)>k0 } = 1{nX>k ¯ 0} ein Test mit (approximativem) Signifikanzniveau α f¨ ur H0 gegen H1 , falls (5.6) (und damit (5.5), ebenfalls approximativ) gilt. B 5.13 Normalverteilung: Einseitiger Gauß-Test f¨ ur μ: In diesem Beispiel wird ein einseitiger Test f¨ ur den Erwartungswert einer Normalverteilung mit bekannter Varianz vorgestellt. Seien dazu X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ) und ur das Testproblem H0 : μ ≤ 0 gegen H1 : μ > 0 verwenden σ 2 sei bekannt. F¨ ¯ (siehe Aufgabe 4.5). Ist X ¯ zu groß, so wir den UMVUE-Sch¨ atzer T (X) := X spricht das f¨ ur H1 und gegen H0 . Somit erhalten wir einen sinnvollen Test . Dieser Test wird auch als einseitiger Gauß-Test durch δc (X) := 1{X≥c} ¯ bezeichnet. Er hat die G¨ utefunktion X ¯ −μ c−μ √ ≥ √ Gc (μ) = Pμ (δc (X) = 1) = Pμ σ/ n σ/ n
c−μ √ =1−Φ . σ/ n
(5.7)
Demnach ist Gc monoton wachsend in μ. Da c √ sup Gc (μ) = 1 − Φ ≤ α σ/ n μ∈Θ0 gelten muss, erh¨ √alt man das kleinste c, welches das Signifikanzniveau α einh¨alt durch cα := σ/ n · z1−α . Der Test δ(X) := 1{X≥ 1−α ¯ σz√ } n
(5.8)
154
5. Konfidenzintervalle und Hypothesentests Gδ (μ) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 α
0.1 0
0 H0
0,1
0.3
0.4
H1
μ
√ Abb. 5.6 G¨ utefunktion des Tests δ(X) = 1{X≥σz ur H0 : μ ≤ 0 gegen ¯ n} f¨ 1−α / ¯ H1 : μ > 0. Hierbei ist X normalverteilt mit bekannter Varianz σ 2 . In der Darstellung wurde σ = 0.5 (gestrichelt) und σ = 0.1 (durchgezogene Linie) gew¨ ahlt.
ist somit der gesuchte Level-α-Test f¨ ur das betrachtete Testproblem. Die entsprechende G¨ utefunktion ist in Abbildung 5.6 illustriert.
5.2.2 Der p-Wert: Die Teststatistik als Evidenz Zur Durchf¨ uhrung eines Tests geh¨ ort immer die Wahl eines Signifikanzniveaus α. Diese Wahl h¨ angt jedoch von der Problemstellung ab. Beim Testen eines Pr¨ azisionsinstrumentes wird man α sehr klein w¨ahlen, w¨ahrend bei statistischen Testproblemen die etwa auf einer Umfrage basieren ein gr¨oßeres α sinnvoll ist. Um diese problemspezifische Wahl dem Anwender zu u ¨berlassen, f¨ uhrt man den p-Wert ein. F¨ ur die feste Beobachtung {X = x} definiert man den p-Wert als kleinstes Signifikanzniveau, an welchem der Test die Null-Hypothese H0 verwirft. Damit kann man H0 stets verwerfen, falls man α gleich dem p-Wert w¨ ahlt. Ein kleiner p-Wert kann als starke Evidenz gegen die Null-Hypothese interpretiert werden. B 5.14 Fortsetzung von Beispiel 5.13: p-Wert: Das kleinste α, an welchem der Test unter der Beobachtung {X = x} verwirft, erh¨alt man wie folgt: Zun¨achst ist δ(x) = 1 nach Gleichung (5.8) ¨ aquivalent zu
5.2 Das Testen von Hypothesen
155
σ σ x ¯ ≥ √ z1−α = √ Φ−1 (1 − α). n n L¨ ost man diese Gleichung nach α auf, so erh¨alt man x ¯ √ . p-Wert(x) = 1 − Φ σ/ n Offensichtlich u ¯ die Rolle des vorherigen c. ¨bernimmt hier x Allgemeiner als in diesem Beispiel gilt falls X eine stetige Zufallsvariable ist: Ist der Test von der Form δc (X) = 1{T (X)≥c} , so ist
γ(c) := sup Pθ T (X) ≥ c θ∈Θ0
die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art. Der gr¨oßte Wert c, f¨ ur welchen man H0 verwerfen kann, wenn {X = x} beobachtet wurde, ist T (x) und somit p-Wert(x) = γ(T (x)). Ist X diskret, so kann man mitunter ein gr¨oßeres c finden, f¨ ur welches H0 verworfen werden kann, siehe Aufgabe 5.9 und Satz 6.6 (ii).
5.2.3 Gu oße: Indifferenzzonen ¨te und Stichprobengr¨ In diesem Abschnitt wird vorgestellt, wie gleichzeitig die Fehler 1. und 2. Art kontrolliert werden k¨ onnen. Es wird sich herausstellen, dass dies f¨ ur bestimmte Bereiche von Parametern nicht m¨oglich ist. Einen solchen Bereich nennt man Indifferenzzone. Die Vorgehensweise soll als Fortsetzung von Beispiel 5.13 illustriert wer√ wurde bereits in den. Die G¨ utefunktion des Tests δ(X) = 1{X≥σz ¯ 1−α / n} Gleichung (5.7) berechnet und hat folgende Gestalt:
√ √ μ n μ n − z1−α . (5.9) Gδ (μ) = 1 − Φ z1−α − =Φ σ σ F¨ ur ein kleines σ 2 kann die Fehlerwahrscheinlichkeit 2. Art, 1 − Gδ (μ), sehr nah an 1−α sein, falls μ > 0 in der N¨ ahe von Null ist (siehe Abbildung 5.6). Ist man daran interessiert H0 zu akzeptieren und H1 zu verwerfen, so muss man auch den Fehler 2. Art kontrollieren. Gibt man sich ein Fehlerniveau β vor, mit welcher Wahrscheinlichkeit ein Fehler 2. Art h¨ochstens auftreten darf, so erh¨ alt man Folgendes: Das kleinste μ = Δ, f¨ ur welches die Wahrscheinlichkeit
156
5. Konfidenzintervalle und Hypothesentests Gδ (μ)
1−β
α
Δ √ Abb. 5.7 G¨ utefunktion des Tests δ(X) = 1{X>z ur H0 : μ ≤ 0 gegen ¯ n} f¨ 1−α σ/ HΔ : μ > Δ.
f¨ ur einen Fehler 2. Art gleich β ist, erf¨ ullt β = Φ z1−α −
Δ √ . σ/ n
Dies ist gleichbedeutend mit σ Δ = √ (z1−α − zβ ). n In dem Intervall (0, Δ) kann man den Fehler 2. Art nicht kontrollieren, d.h. in diesem Bereich muss man eine geringere G¨ ute akzeptieren. Dieser Bereich ist daher eine Indifferenzzone. Man kann aber H0 gegen HΔ : μ > Δ testen und hat hier einen Fehler 2. Art kleiner als β. Ausgedr¨ uckt u ¨ber die minimale alt man die in Abbildung 5.7 dargestellte Situation. G¨ ute G0 (Δ) := 1 − β erh¨ Bestimmung des Stichprobenumfangs. Eine typische Fragestellung ist, wie hoch bei vorgegebenem α und β der Stichprobenumfang n zu w¨ahlen ist, ur alle μ ≥ Δ gilt. Die Antwort darauf erh¨alt man so dass Gδ (μ) ≥ 1 − β f¨ unmittelbar aus der Gestalt der G¨ utefunktion in (5.9). Denn aus
√ μ n β ≥ 1 − Gδ (μ) = Φ z1−α − σ
5.3 Dualit¨ at zwischen Konfidenzintervallen und Tests
157
erh¨ alt man durch μ ≥ Δ, dass n≥
σ 2 (z1−α + z1−β )2 . Δ2
(5.10)
5.3 Dualit¨ at zwischen Konfidenzintervallen und Tests Ein Konfidenzintervall ist ein zuf¨ alliger Bereich, der mit mindestens einer vorgegebenen Wahrscheinlichkeit den wahren Parameter u ¨berdeckt. Bei einem Test hingegen wird u uft ob ein Wert von Interesse unter Einbezug ¨berpr¨ einer gewissen Fehlerwahrscheinlichkeit mit den Daten in Einklang gebracht werden kann. Liegt etwa der Wert von Interesse in einem Konfidenzintervall, so w¨ urde man dies bejahen und man erh¨alt aus einem Konfidenzintervall einen Test. Dies funktioniert auch umgekehrt und f¨ uhrt zu einer n¨ utzlichen Dualit¨ at zwischen Konfidenzintervallen und Tests, welche wir in Kapitel 6.3.1 nutzen werden. Wir beginnen mit einem Beispiel. B 5.15 Normalverteilung: Zweiseitiger Gauß-Test u ¨ber den Erwartungswert: Wir betrachten den Fall, dass eine Wissenschaftlerin eine physikalische Theorie untersucht. Bisher wurde angenommen, dass eine physikalische Konstante den Wert θ0 hat. Die Wissenschaftlerin glaubt, dass diese These falsch ist und m¨ ochte sie widerlegen. Dazu untersucht sie das zweiseitige Testproblem ufende) Annahme, H0 : θ = θ0 gegen H1 : θ = θ0 . Sie macht die (zu u ¨berpr¨ Ein dass X1 , . . . , Xn i.i.d. sind mit X1 ∼ N (θ, σ 2 ). Weiterhin sei σ 2 bekannt. √ ¯ ± z1−α/2 σ/ n. Konfidenzintervall f¨ ur θ wurde in Beispiel 5.1 bestimmt: X Einen Test mit Signifikanzniveau α erh¨ alt man folgendermaßen aus diesem Konfidenzintervall: Die Annahme der Null-Hypothese θ = θ0 sei gleichbedeutend damit, dass θ0 in dem Konfidenzintervall liegt, also 1 0 ¯ + z1−α/2 √σ . ¯ − z1−α/2 √σ , X θ0 ∈ X n n
(5.11)
√
¯ 0 )/σ ist (5.11) gleichbedeutend mit |T (X)| ≥ z Mit T (X) := n(X−θ 1−α/2 , und man erh¨ alt folgenden Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ0 : ¯ δ(X, θ0 ) = 1 |√n(X−θ 0 )| ≥z σ
1−α/2
.
Dies ist in der Tat ein Test mit Signifikanzniveau α f¨ ur jedes θ0 ∈ Θ, denn
σ σ ¯ ¯ Pθ0 (δ(X) = 1) = 1 − Pθ0 X − z1−α/2 √ ≤ θ0 ≤ X + z1−α/2 √ =α n n da (5.11) ein (1 − α)-Konfidenzintervall war. Der durch δ gegebene Test ist ein zweiseitiger Test, weil er sowohl f¨ ur kleine (und negative) als auch f¨ ur große (und positive) Werte von T verwirft.
158
5. Konfidenzintervalle und Hypothesentests
5.3.1 Aus Konfidenzintervallen konstruierte Tests Motiviert durch das Beispiel 5.15 erh¨ alt man folgende allgemeine Vorgehensweise: , Ist θ(X), θ(X) ein (1 − α)- Konfidenzintervall f¨ ur θ, so ist δ(X, θ0 ) := 1{θ0 ∈[ / θ(X), θ(X) ]} ein Test mit Signifikanzniveau α f¨ ur H0 : θ = θ0 gegen H1 : θ = θ0 . Dieser Test h¨ alt das Signifikanzniveau α ein, da wie in Beispiel 5.15 gilt, dass
Pθ0 (δ(X, θ0 ) = 1) = 1 − Pθ0 θ(X) ≤ θ0 ≤ θ(X) ≤ α.
5.3.2 Aus Tests konstruierte Konfidenzintervalle Sei X der Datenraum, d.h. X(Ω) ⊂ X und {δ(X, θ) : θ ∈ Θ} sei eine Familie ur von Tests, so dass δ(X, θ0 ) ein Test mit Signifikanzniveau α f¨ H0 : θ = θ0 gegen H1 : θ = θ0 f¨ ur alle θ0 ∈ Θ ⊂ R ist. F¨ ur die Beobachtung {X = x} definieren wir den Annahmebereich der Testfamilie durch C(x) := θ ∈ Θ : δ(x, θ) = 0 . Gilt weiterhin, dass C(x) = (a(x), b(x)) ∩ Θ
f¨ ur alle x ∈ X ,
dann ist [a(X), b(X)] ein (1 − α)-Konfidenzintervall f¨ ur θ. Das Intervall [a(X), b(X)] ist in der Tat ein (1 − α)-Konfidenzintervall f¨ ur θ, denn es gilt
Pθ a(X) ≤ θ ≤ b(X) = Pθ δ(X, θ) = 0 = 1 − Pθ δ(X, θ) = 1 ≥ 1 − α. In Abbildung 5.8 stellen wir das (1 − α)- Konfidenzintervall C(X) := {θ ∈ Θ : δ(X, θ) = 0} und den zugeh¨ origen Annahmebereich A(θ0 ) = {x ∈ X : ur H0 : θ = θ0 gegen H1 : θ = θ0 im Bereich δ(x, θ0 ) = 0} des Tests f¨ C := {(x, θ) : δ(x, θ) = 0} ⊂ X × Θ dar.
5.4 Aufgaben
159
θ b(x) C(x) θ0 a(x) x
X
A(θ0 ) Abb. 5.8 Illustration der Zusammenh¨ ange zwischen Konfidenzintervallund zweiseitigen Tests. Der schraffierte Bereich entspricht C = (x, θ) : δ(x, θ) = 0 .
5.4 Aufgaben Konfidenzintervalle A 5.1 Konfidenzintervall f¨ ur σ 2 bei Normalverteilung: Seien X1 , . . . , Xn i.i.d. mit 2 X1 ∼ N (μ, σ ), wobei sowohl μ als auch σ unbekannt seien. Zeigen Sie, dass / . n−1 2 n−1 2 s (X), 2 s (X) χ2n−1,1−α/2 χn−1,α/2 ein (1 − α)-Konfidenzintervall f¨ ur σ 2 ist, wobei 1 ¯ 2, (Xi − X) n − 1 i=1 n
s2 (X) :=
¯ := n−1 n Xi die Stichprobenvarianz mit dem arithmetischen Mittel X i=1 und χ2n,a das a-Quantil der χ2n -Verteilung ist. A 5.2 Konfidenzintervall bei diskreter Gleichverteilung U (0, θ): Es seien X1 , . . . , Xn i.i.d. mit X1 ∼ U (0, θ) mit einem unbekannten θ ∈ N. Es bezeichne X(n) = max{X1 , . . . , Xn } das Maximum der Daten. Weisen Sie nach, dass X(n) /θ ein Pivot f¨ ur θ ist und verwenden Sie diese Eigenschaft, um zu zeigen, dass
160
5. Konfidenzintervalle und Hypothesentests
X(n) X(n) , (1 − α/2)1/n (α/2)1/n
ein (1 − α)-Konfidenzintervall f¨ ur θ ist. A 5.3 Exponentialverteilung: Konfidenzintervall : Seien X1 , . . . , Xn i.i.d. mit X1 ∼ Exp(θ) und θ sei der unbekannte zu sch¨ atzende Parameter. Das heißt, Xi hat die Dichte pθ (x) = θe−θx 1{x>0} . Weiterhin sei X(1) := min{X1 , . . . , Xn } das Minimum der Daten. Zeigen Sie, dass − ln(1 − α/2) − ln(α/2) , nX(1) nX(1) ein (1 − α)-Konfidenzintervall f¨ ur θ ist. A 5.4 Lineare Regression: Quadratische Faktoren: Seien 1 , . . . , n i.i.d. und 1 ∼ N (0, σ 2 ) mit bekanntem σ 2 . Betrachtet werde folgendes lineare Modell Yi =
θ 2 X + i , 2 i
1 ≤ i ≤ n.
In Aufgabe 3.21 wurde bereits der Kleinste-Quadrate-Sch¨atzer von θ bestimmt. Berechnen Sie nun ein (1 − α)-Konfidenzintervall f¨ ur θ.
Tests A 5.5 Mittelwertvergleich unter Normalverteilung: Seien X1 , . . . , Xn , Y1 , . . . , Yn un2 ) und Yi ∼ N (μY , σY2 ), abh¨ angig und normalverteilt, mit Xi ∼ N (μX , σX 2 i = 1, . . . , n. Dabei seien die Parameter σX > 0 und σY2 > 0 bekannt und die Mittelwerte unbekannt. (i) Zeigen Sie, dass
2 + σ2 σX Y z1−α/2 n ein (1 − α)-Konfidenzintervall f¨ ur die Differenz der Mittelwerte μX − μY ist. (ii) Konstruieren Sie einen Test zu dem Signifikanzniveau von 95% f¨ ur die Hypothese H0 : μX = μY gegen die Alternative H1 : μX = μY . (iii) Dr¨ ucken Sie die G¨ utefunktion zu dem Test aus Teil (ii) in Abh¨angigkeit utefunktion. von Δ = μX − μY aus und skizzieren Sie die G¨
¯ − Y¯ ± X
A 5.6 Varianzvergleich bei Normalverteilung: Seien X1 , . . . , Xn , Y1 , . . . , Yn un2 ) und Yi ∼ N (0, σY2 ), abh¨ angig und normalverteilt, mit Xi ∼ N (0, σX 2 > 0, σY2 > 0 unbekannt. Zeii = 1, . . . , n. Dabei seiendie Parameter σX n n 2 2 2 gen Sie, dass mit SX := i=1 Xi und SY := i=1 Yi2
5.4 Aufgaben
161
−1 α ( /2) Fn,n
SY2 S2 −1 , Fn,n (1 − α/2) Y2 2 SX SX
2 ist. Fn,n bezeichnet ein (1 − α)-Konfidenzintervall f¨ ur den Quotienten σY2 /σX hierbei die Verteilungsfunktion der Fn,n -Verteilung.
A 5.7 Delta-Methode: Sch¨ atzung der Kovarianz : (Fortsetzung von Aufgabe 4.29) ¯ = 1 n Xi und , Y ), . . . , (X , Y ) i.i.d. Ferner sei X Wir betrachten (X 1 1 n n i=1 n n Y¯ = n1 i=1 Yi . Der Momentensch¨ atzer f¨ ur Cov(X1 , Y1 ) ist gegeben durch 1 ¯ i − Y¯ ). (Xi − X)(Y Tn = T (X, Y ) := n i=1 n
√ In Aufgabe 4.29 wurde gezeigt, dass dass n (Tn − Cov(X1 , Y1 )) asymptotisch N (0, γ 2 ) normalverteilt ist falls nur E(X14 ) < ∞ und E(Y14 ) < ∞ und ein Ausdruck f¨ ur die asymptotische Varianz γ 2 durch Momente von (X1 , Y1 ) gefunden. Konstruieren Sie nun ein approximatives asymptotisches 99% Konfidenzintervall f¨ ur Cov(X1 , Y1 ) mit Hilfe des Momentensch¨atzers γˆ 2 von γ 2 . A 5.8 Exponentialverteilung: Mittelwertvergleich: Seien X1 und X2 unabh¨angige Zufallsvariablen mit Dichten pi (x) := λi e−λi x 1{x>0} , i = 1, 2. Die Parameter λ1 > 0 und λ2 > 0 sind unbekannt. Setze θ := λ1 /λ2 . Zeigen Sie, dass θX1 /X2 ein Pivot f¨ ur θ ist und konstruieren Sie ein (1 − α)-Konfidenzintervall f¨ ur θ. Seien Xi1 , . . . , Xin , i = 1, 2 zwei Stichproben von m¨oglicherweise verschiedenen Exponentialverteilungen. Alle Zufallsvariablen seien unabh¨angig und n ur i = 1, 2. Zeigen Sie, Xi1 ∼ pi , i = 1, 2. Wir schreiben Xi· := j=1 Xij f¨ dass ¯ ¯ 2· X X2· −1 α −1 α ¯ 1· Fn,n ( /2), X ¯ 1· Fn,n (1 − /2) X ein (1 − α)-Konfidenzintervall f¨ ur θ ist und konstruieren Sie damit einen Test mit Signifikanzniveau α f¨ ur H0 : θ = 1 gegen
H1 : θ = 1 .
A 5.9 Poisson-Verteilung: Test: Seien X1 , . . . , Xn i.i.d. Poisson-verteilt mit unbekanntem Parameter λ > 0. (i) Verwenden Sie die nat¨ urliche suffiziente Statistik, um einen Test mit Signifikanzniveau α f¨ ur die Hypothese H0 : λ ≤ λ0 gegen die Alternative ur die H1 : λ > λ0 zu finden. Konstruieren Sie dazu zun¨achst einen Test f¨ utefunktion streng monoton Hypothese λ = λ0 und zeigen Sie, dass die G¨ wachsend in λ ist. Benutzen Sie den zentralen Grenzwertsatz, um eine Approximation f¨ ur den kritischen 200 Wert zu finden. (ii) Seien α = 0, 05, n = 200, i=1 Xi = 2085 und λ0 = 10. Kl¨aren Sie, ob die Hypothese H0 : λ ≤ λ0 verworfen wird und bestimmen Sie den p-Wert.
162
5. Konfidenzintervalle und Hypothesentests
A 5.10 Mittelwertvergleich bei Normalverteilung: G¨ utefunktion: Seien Xi1 , . . . , Xini , i = 1, 2 zwei Stichproben. Alle Zufallsvariablen seien unabh¨angig und Xij ∼ N (μi , σi2 ), i = 1, 2 und j = 1, . . . , ni . Weiterhin seien μ1 , μ2 unbekannt und ur σ12 , σ22 bekannt. Konstruieren Sie einen Test mit Signifikanzniveau α f¨ H0 : μ1 = μ2
gegen
H1 : μ1 = μ2 .
Verwenden Sie dazu ein (1 − α)-Konfidenzintervall f¨ ur μ1 − μ2 . Ist z1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung, so ist die G¨ utefunktion gegeben durch ⎞ ⎛ ⎞ ⎛ Δ ⎠ + 1 − Φ ⎝z1−α/2 + Δ ⎠, 1 − Φ ⎝z1−α/2 − 2 σ1 σ22 σ12 σ22 + + n1 n2 n1 n2 wobei Δ = μ1 − μ2 . G¨ ute von Tests A 5.11 G¨ utefunktionen bei der Gleichverteilung: Seien X1 , X2 i.i.d. mit X1 ∼ U [θ, θ + 1]. Untersucht werden soll die Hypothese H0 : θ = 0 gegen die Alternative H1 : θ > 0 mit Hilfe der beiden Tests T1 (X) := 1{X1 >0.95} T2 (X) := 1{X1 +X2 >c} mit c ∈ R. (i) Bestimmen Sie die Konstante c so, dass beide Tests Level-α-Tests zu dem gleichen Niveau α sind. (ii) Berechnen Sie die G¨ utefunktion der beiden Tests. (iii) Stellen Sie die G¨ utefunktionen graphisch dar und erl¨autern Sie damit, welcher der beiden Tests an welcher Stelle die bessere G¨ ute besitzt.
Bayesianischer Intervallsch¨ atzer A 5.12 Bayesianischer Intervallsch¨ atzer : Eine Population sei normalverteilt mit Mittelwert μ und Varianz 100. Der Parameter μ wird als Realisation der Zufallsvariablen M ∼ N (175, 60) interpretiert. Eine i.i.d.-Stichprobe der L¨ange n = 100 aus der Population habe das arithmetische Mittel x ¯ = 178. Berechnen Sie die 95%-Intervallsch¨ atzer f¨ ur μ: (i) Nur unter Benutzung der Verteilung von M (a priori), (ii) nur unter Benutzung von x ¯ (klassisch), (iii) unter Benutzung von M und x ¯ (a posteriori).
Kapitel 6.
Optimale Tests und Konfidenzintervalle, Likelihood-Quotienten-Tests und verwandte Methoden
In diesem Kapitel studieren wir die Optimalit¨at von Tests. Zu Beginn werden die zentralen Resultate von Neyman und Pearson vorgestellt, welche eine Klasse von optimalen Tests basierend auf Likelihood-Quotienten behandeln. Diese Optimalit¨ at gilt zun¨ achst nur unter ganz einfachen Hypothesen θ = θ0 gegen θ = θ1 . Allerdings lassen sich diese Ergebnisse auch auf einseitige Hypothesen u ur ¨bertragen. Schließlich erh¨alt man optimale Tests f¨ den zweiseitigen Fall unter einer weiteren Einschr¨ankung auf symmetrische oder unverzerrte Tests. Abschließend werden als Erweiterung verallgemeinerte Likelihood-Quotienten-Tests behandelt, welche auch f¨ ur allgemeinere Hypothesen anwendbar sind.
6.1 Das Neyman-Pearson-Lemma F¨ ur einen statistischen Test δ wurde die G¨ utefunktion Gδ in Definition 5.9 definiert. Definition 6.1. Ein Test δ ∗ mit Signifikanzniveau α heißt uniformly most powerful (UMP) f¨ ur das Testproblem H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 , falls f¨ ur jeden weiteren Test δ mit Signifikanzniveau α gilt, dass Gδ (θ) ≤ Gδ∗ (θ)
f¨ ur alle θ ∈ Θ1 .
(6.1)
Ein UMP-Test hat somit eine bessere G¨ ute auf der Alternative H1 als jeder andere Test, welcher das vorgegebene Signifikanzniveau α einh¨alt. Wir werden im Folgenden zeigen, dass die in Kapitel 5.2 vorgestellten Tests UMP-Tests sind. In diesen Beispielen ist die Familie der UMP-Tests zu dem Signifikanzniveau α von einer Statistik T (X) erzeugt, d.h. der Verwerfungsbereich hat
C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 6, c Springer-Verlag Berlin Heidelberg 2011
163
164
6. Optimale Tests und verwandte Methoden
die Form {x ∈ Rn : T (x) ≥ c}. Eine Statistik, die einen UMP-Test erzeugt, heißt optimale Statistik. Zun¨ achst l¨ osen wir den einfachsten Fall: H0 : θ = θ0 gegen H1 : θ = θ1 . Hat X die Dichte oder Wahrscheinlichkeitsfunktion p, so definiert man die Likelihood-Quotienten-Statistik f¨ ur die Beobachtung {X = x} durch L(x, θ0 , θ1 ) :=
p(x, θ1 ) ; p(x, θ0 )
(6.2)
wobei L(x, θ0 , θ1 ) := 0 gesetzt wird, falls p(x, θ0 ) = p(x, θ1 ) = 0. L nimmt Werte in [0, ∞] an. Große Werte von L sprechen hierbei f¨ ur die Alternaur die Null-Hypothese H0 . Das Besondere an der tive H1 , kleine Werte f¨ Likelihood-Quotienten-Statistik ist, dass sie einen UMP-Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 erzeugt: Satz 6.2 (Neyman-Pearson-Lemma). Betrachte das Testproblem H0 : θ = θ0 gegen H1 : θ = θ1 mit θ0 = θ1 und den Test δk (X) := 1{L(X,θ0 ,θ1 )≥k} mit k ∈ R+ ∪ {∞}. Ist δ ein weiterer Test und gilt Gδ (θ0 ) ≤ Gδk (θ0 ), so folgt Gδ (θ1 ) ≤ Gδk (θ1 ).
Beweis. Wir betrachten die n-dimensionale Zufallsvariable X und zeigen allgemeiner folgende Aussage: Sei Ψ : Rn → [0, 1] eine messbare Funktion und gelte
Eθ0 Ψ (X) ≤ Eθ0 δk (X) , (6.3) so folgt
Eθ1 Ψ (X) ≤ Eθ1 δk (X) .
(6.4)
Wir nehmen zun¨ achst an, dass k < ∞. Dann ist δk (X) = 1{p(X,θ1)−kp(X,θ0 )≥0} . Der Schl¨ ussel zu dem Beweis ist folgende Beobachtung: Ψ (x)[p(x, θ1 ) − kp(x, θ0 )] ≤ δk (x)[p(x, θ1 ) − kp(x, θ0 )].
(6.5)
In der Tat, auf A := {p(x, θ1 ) − kp(x, θ0 ) ≥ 0} folgt (6.5) aus Ψ (x) ≤ 1; auf A gilt dies wegen Ψ (x)[p(x, θ1 ) − kp(x, θ0 )] ≤ 0. Hat X eine Dichte, so erh¨alt man die Aussage (6.4) durch Integrieren von (6.5): Aus (6.5) folgt Ψ (x)[p(x, θ1 ) − kp(x, θ0 )]dx ≤ δk (x)[p(x, θ1 ) − kp(x, θ0 )]dx Rn
und damit
Rn
6.1 Das Neyman-Pearson-Lemma
165
Eθ1 (Ψ (X)) − Eθ1 (δk (X)) ≤ k Eθ0 (Ψ (X)) − Eθ0 (δk (X)) . Dies folgt analog auch, falls X diskret ist. Nach Voraussetzung (6.3) ist die rechte Seite kleiner oder gleich Null und somit folgt Behauptung (6.4). Da weiterhin Eθi (δk (X)) = Gδk (θi ) f¨ ur i = 0, 1 gilt, folgt das NeymanPearson-Lemma. Der Fall k = ∞ wird in Aufgabe 6.1 gel¨ost. B 6.1 Likelihood-Quotienten-Tests: In diesem Beispiel klassifizieren wir alle m¨oglichen Likelihood-Quotienten-Tests in einem einfachen Fall. Sei X eine diskrete Zufallsvariable mit Werten in der Menge {0, 1, 2}. Die Verteilung von X ist in der folgenden Tabelle 6.1 spezifiziert. x
p(x, θ)
L(x, 0, 1)
θ=0θ=1 0 1 2
0.9 0 0.1
0 0.9 0.1
0 ∞ 1
Tabelle 6.1 Die Verteilung der Zufallsvariablen X aus Beispiel 6.1: So ist beispielsweise Pθ (X = 0) gerade 0.9 f¨ ur θ = 0 und 0 f¨ ur θ = 1. In der rechten Spalte ist die Likelihood-Quotienten-Statistik aus Gleichung (6.2) dargestellt.
Es soll H0 : θ = 0 gegen H1 : θ = 1 getestet werden. Dann existieren nur zwei Tests zum Signifikanzniveau α < 1: Der erste Test verwirft H0 genau dann, wenn der Likelihood-Quotient ∞ ist, er ist gegeben durch δ1 (X) = 1{L(X,0,1)=∞} = 1{X=1} zu dem Signifikanzniveau α = Pθ=0 (δ1 (X) = 1) = Pθ=0 (L(X, 0, 1) = ∞) = Pθ=0 (X = 1) = 0. Der zweite Test verwirft H0 genau dann, wenn der Likelihood-Quotienten gr¨ oßer oder gleich eins ist. Er ist δ2 (X) = 1{L(X,0,1)≥1} = 1{X∈{1,2}} . Damit ist δ2 ein Test mit Signifikanzniveau α = Pθ=0 (δ2 (X) = 1) = Pθ=0 (L(X, 0, 1) ≥ 1) = Pθ=0 (X ≥ 1) = 0+0.1 = 0.1 . Beide Tests sind UMP-Tests bez¨ uglich ihres Signifikanzniveaus α: F¨ ur δ1 ist die G¨ utefunktion auf H1 gegeben durch
166
6. Optimale Tests und verwandte Methoden
Gδ1 (1) = Pθ=1 (δ1 (X) = 1) = Pθ=1 (L(X, 0, 1) = ∞) = Pθ=1 (X = 1) = 0.9. δ1 ist UMP-Test, denn f¨ ur einen beliebigen Test δ mit Signifikanzniveau 0 ist ur X = 1 m¨oglich und somit Pθ=0 (δ(X) = 1) = 0. Dies ist unter θ = 0 nur f¨ ur ist {δ(X) = 1} = {X = 1} und damit δ = δ1 . Somit ist δ1 UMP-Test f¨ H0 : θ = 0 gegen H1 : θ = 1 zum Signifikanzniveau 0. utefunktion auf H1 gerade F¨ ur δ2 ist die G¨ Gδ2 (1) = Pθ=1 (δ2 (X) = 1) = Pθ=1 (L(X, 0.1) ≥ 1) = Pθ=1 (X = 1) + Pθ=1 (X = 2) = 0.9 + 0.1 = 1 . δ2 ist ein UMP-Test f¨ ur H0 : θ = 0 gegen H1 : θ = 1 zum Signifikanzniveau 0.1. Dies folgt, da der einzige Test mit dem Signifikanzniveau 0.1 gerade {δ(X) = 1} = {X = 2} ist; dieser hat jedoch die G¨ ute Gδ = 0.9. Die erfolgten Betrachtungen zeigen dar¨ uber hinaus, dass der Likelihood-Quotient L eine optimale Statistik ist. B 6.2 Normalverteilungstest f¨ ur H0 : μ = 0 gegen H1 : μ = ν: Um einen Satelliten zu u ufen wird ein starkes Signal von der Erde ausgesandt. Der Satellit ¨berpr¨ antwortet durch die Sendung eines Signals von der Intensit¨at ν > 0 f¨ ur n Sekunden, falls er funktioniert. Falls er nicht funktioniert, wird nichts gesendet. Die auf der Erde empfangenen Signale variieren zuf¨allig durch zus¨atzliche St¨ orungen des Signals. Die Durchschnittsspannung des Signals Xi in der i-ten Sekunde werde f¨ ur die Dauer von n Sekunden gemessen. Es wird angenomufende men, dass X1 , . . . , Xn i.i.d. sind mit X1 ∼ N (μ, σ 2 ) (eine zu u ¨berpr¨ Annahme), dabei sei σ bekannt. Getestet werden soll, ob der Satellit noch funktioniert, d.h. es soll H0 : μ = 0 gegen H1 : μ = ν getestet werden. Die Likelihood-Quotienten-Statistik f¨ ur X = (X1 , . . . , Xn ) erh¨alt man aus der Gleichung (6.2), n (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (Xi − ν)2 L(X, 0, ν) = n (2πσ 2 )−n/2 exp − 2σ1 2 i=1 Xi2 n ν nν 2 = exp Xi − 2 . σ 2 i=1 2σ Nach dem Neyman-Pearson-Lemma 6.2 ist L eine optimale Statistik. Jede strikt monoton wachsende Funktion einer optimalen Statistik ist wieder optimal, da beide Statistiken denselben Verwerfungsbereich erzeugen. Da
¯ √ X σ nν 2 = √ T (X) := n ln L(X, 0, ν) + 2 σ 2σ ν n
6.1 Das Neyman-Pearson-Lemma
167
gilt, ist T (X) eine optimale Statistik. Weiterhin ist unter H0 die Statistik T (X) standardnormalverteilt. Somit folgt, dass der Test δ(X) = 1{T (X)≥z1−α } = 1{X≥ ¯ √σ
n
z1−α }
ein UMP-Test mit Signifikanzniveau α ist, denn die Wahrscheinlichkeit f¨ ur den Fehler 1. Art ist gerade Pμ=0 (T (X) ≥ z1−α ) = 1 − Φ(z1−α ) = α. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art errechnet sich zu
√ ¯
√ √ n(X − ν) nν nν ≤ z1−α − Pμ=ν (T (X) < z1−α ) = Pμ=ν = Φ z1−α − . σ σ σ Nach dem Neyman-Pearson-Lemma ist dies die kleinste Fehlerwahrscheinlichkeit 2. Art. Um die Wahrscheinlichkeit f¨ ur die Fehler 1. und 2. Art gleichzeitig unterhalb des Niveaus α zu erhalten, muss folgende Bedingung erf¨ ullt sein: Pμ=0 (T (X) ≥ z1−α ) ≤ α
und Pμ=ν (T (X) ≤ z1−α ) ≤ α.
Analog zur Gleichung (5.10) erh¨ alt man, dass man hierf¨ ur mindestens einen Stichprobenumfang n von n≥
2
2 4σ 2 z1−α σ2 z + z = 1−α 1−α ν2 ν2
ben¨ otigt. Nach diesen einf¨ uhrenden Beispielen kehren wir zur Analyse des NeymanPearson-Lemmas zur¨ uck. Als Schl¨ usselstelle erweist sich Gleichung (6.5): Ψ (x)[p(x, θ1 ) − kp(x, θ0 )] ≤ δk (x)[p(x, θ1 ) − kp(x, θ0 )]. Wir hatten lediglich genutzt, dass Ψ ∈ [0, 1] und δk = 1 auf {x : L(x, θ0 , θ1 ) ≥ k} = {p(x, θ1 ) − kp(x, θ0 ) ≥ 0} und sonst 0 ist. Allerdings ist dies auf otig. Dort kann δk sogar einen beliebigen Wert {x : L(x, θ0 , θ1 ) = k} nicht n¨ annehmen und bleibt nach wie vor optimal. Dies motiviert folgende Definition und den darauffolgenden Satz: Definition 6.3. Ein Test δk∗ mit k ∈ R+ ∪ {∞} f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 heißt Neyman-Pearson-Test, falls δk∗ (x) = 1{L(x,θ0 ,θ1 )≥k}
(6.6)
f¨ ur alle x in {x ∈ Rn : L(x, θ0 , θ1 ) = k}. Wir nennen einen Neyman-Pearson-Test auch kurz NP-Test. Sei δk der Test aus Satz 6.2. Man beachte, dass (6.6) gerade δk∗ = δk auf der Menge {x :
168
6. Optimale Tests und verwandte Methoden
L(x, θ0 , θ1 ) = k} fordert. Auf der Menge {x : L(x, θ0 , θ1 ) = k} hingegen kann der Neyman-Pearson-Test δk∗ beliebig gew¨ahlt werden. Satz 6.4. Sei 0 ≤ k < ∞ und sei δk∗ ein Neyman-Pearson-Test f¨ ur H0 : ur H0 gegen H1 mit θ = θ0 gegen H1 : θ = θ1 . Dann ist δk∗ UMP-Test f¨ Signifikanzniveau Pθ0 (δk∗ (X) = 1). Beweis. Der Beweis erfolgt wie in Satz 6.2, da f¨ ur {x : L(x, θ0 , θ1 ) = k} die Gleichung (6.5) a quivalent ist zu 0 ≤ 0. ¨ Die f¨ ur einen Neyman-Pearson-Test zus¨atzlich gewonnene Freiheit, den Test auf der Menge {x ∈ Rn : L(x, θ0 , θ1 ) = k} beliebig variieren zu k¨onnen, kann mitunter sehr n¨ utzlich sein, wie folgendes Beispiel belegt. B 6.3 Diskrete Gleichverteilung: NP-Test: Seien X1 , . . . , Xn i.i.d. und diskret gleichverteilt mit Werten in {1, . . . , θ} und 0 < θ ∈ N, d.h die Wahrscheinlichkeitsfunktion von X1 ist 1 p(x, θ) = 1{x∈{1,...,θ}} . θ Wir verwenden die Ordnungsgr¨ oße x(n) := max{x1 , . . . , xn }. Die LikelihoodQuotienten-Statistik f¨ ur den Test H0 : θ = θ0 gegen H1 : θ = θ1 mit ganzzahligem θ1 > θ0 ist θ n n 0 1 ≤ x(n) ≤ θ0 p(xi , θ1 ) θ1 L(x, θ1 , θ0 ) = = . p(xi , θ0 ) ∞ θ0 < x(n) ≤ θ1 i=1 W¨ ahlt man nun δk (X) := 1{L(X,θ0 ,θ1 )≥k} ,
n so erh¨ alt man f¨ ur k = ∞ oder k > θ0/θ1 , dass
(6.7)
Pθ0 (δk (X) = 1) = Pθ0 (θ0 < X(n) ≤ θ1 ) = 0 ur k ≤ und δ kn(X) ist ein Test zum Signifikanzniveau 0. Andererseits gilt f¨ θ0/θ1 , dass Pθ0 (δk (X) = 1) = Pθ0 (1 ≤ X(n) ≤ θ0 ) = 1. Nun verwirft der Test permanent und man macht mit Wahrscheinlichkeit 1 einen Fehler 1. Art. Das Neyman-Pearson-Konzept ist somit in diesem Szenario nicht direkt anwendbar. Ein nat¨ urlicher Test w¨are, anhand des Maximums der Daten direkt f¨ ur H0 oder H1 zu entscheiden. Mit der neu gewonnenen Freiheit durch Satz 6.4 ist gerade dies m¨ oglich. Wir zeigen nun, dass der Test δj∗ (X) := 1{X(n) ≥j} , welcher H0 verwirft, falls das Maximum X(n) der Beobachtungen gr¨oßer oder gleich j ist, ein NP-
6.1 Das Neyman-Pearson-Lemma
Test ist, falls nur j ≤ θ0 . Dazu w¨ ahlen wir k = Gleichung (6.7). Auf der Menge
169
θ0/θ1
n
in dem Test δk aus
Ak := {x ∈ Rn : L(x, θ0 , θ1 ) = k} k¨ onnen wir den Test frei w¨ ahlen und setzen f¨ ur x ∈ Ak δj∗ (x) := 1{j≤x(n) ≤θ0 } und f¨ ur x ∈ Ak gerade δj∗ (x) = δk (x). Nach Satz 6.4 ist δj∗ ein UMP-Test mit dem Signifikanzniveau Pθ0 (δj∗ (X) = 1) = Pθ0 (X(n) ≥ j) = 1 − Pθ0 (X(n) ≤ j − 1) = 1 − Pθ0 (X1 ≤ j − 1, . . . , Xn ≤ j − 1) n
j−1 . =1− θ0 alt man θ0 verschiedene Signifikanzniveaus. Wenn j von 1 bis θ0 variiert, erh¨ Der Neyman-Pearson-Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 ist im folgendem Sinn auf der Menge {x : L(x, θ0 , θ1 ) = k} eindeutig. Satz 6.5. Sei 0 < k < ∞ und δ ein Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 . Die Wahrscheinlichkeiten f¨ ur einen Fehler 1. und 2. Art unter δ seien nicht gr¨ oßer als die von δk (x) = 1{L(x,θ0 ,θ1 )≥k} . Dann ist δ ein NeymanPearson-Test mit δ = δk auf der Menge {x ∈ Rn : L(x, θ0 , θ1 ) = k}. Der Beweis dieses Resultats ist Gegenstand der Aufgabe 6.2. In den beiden vorherigen Beispielen ist die Teststatistik optimal gegen jedes Mitglied einer Klasse von einfachen Alternativen. Normalerweise h¨angen Neyman-PearsonTests stark von der Alternative ab, wie das folgende Beispiel zeigt. B 6.4 Multinomialverteilung: NP-Test: Sei N = (N1 , . . . , Nk ) ∼ M (n, θ) mit k θ = (θ1 , . . . , θk ) ∈ Θ = {θ ∈ Rk+ : i=1 θi = 1}, d.h. N hat die Wahrur θ ∈ Θ scheinlichkeitsfunktion an der Stelle n = (n1 , . . . , nk ) f¨ p(n, θ) =
n! θn1 · · · θknk 1{ni ∈N0 , k ni =n} ; i=1 n1 !, . . . , nk ! 1
hierbei ist N0 = {0, 1, 2, . . . }. Betrachtet werde ein Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 . F¨ ur θj ∈ Θ schreiben wir θj = (θ1,j , . . . , θk,j ), j ∈ {0, 1}. Dann ist die Likelihood-Quotienten-Statistik
170
6. Optimale Tests und verwandte Methoden
p(N , θ1 ) = p(N , θ0 ) i=1 k
L(N , θ0 , θ1 ) =
θi,1 θi,0
Ni ;
k falls N ∈ Nk0 mit i=1 Ni = n und 0 sonst. Die Verteilung von L ist im Allgemeinen f¨ ur großes n nicht mehr berechenbar. Spezialf¨alle sind einfacher: ur alle 1 ≤ j ≤ k. W¨ ahle 0 < < 1 und f¨ ur l ganzzahlig fest mit Sei θj,0 > 0 f¨ 1 ≤ l ≤ k und definiere die Alternative θ1 wie folgt: θl,1 := · θl,0 θj,1 = ρ · θj,0 f¨ ur alle j = l
mit ρ :=
1 − θl,0 . 1 − θl,0
Unter dieser Alternative ist Typ l weniger h¨aufig als unter H0 und die bedingten Wahrscheinlichkeiten der anderen Typen gegeben, dass Typ l nicht ur diese Wahl der Alternative aufgetreten ist, sind unter H0 und H1 gleich. F¨ gilt, dass L(N , θ0 , θ1 ) =
Ni k θi1 i=1
θi0
= ρn−Nl · Nl = ρn
Nl . ρ
Der Neyman-Pearson-Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 verwirft H0 genau dann, wenn
Nl n ≥ k. ρ ρ aquivalent zu Dies ist wegen /ρ < 1 ¨ Nl ≤
ln(k) − ln(ρn ) =: cθ1 . ln() − ln(ρ)
Sei k(α, θ, n) das in Beispiel 5.12 bestimmte (1 − α)-Quantil der Binomialverteilung Bin(n, θ). Da Nl ∼ Bin(n, θl,0 ) unter der Null-Hypothese H0 ist, erh¨ alt man durch den Test δl (N ) = 1{Nl ≤k(α,θl,0 ,n)} ein Neyman-Pearson-Test mit Signifikanzniveau α, da Pθl,0 (Nl ≤ k(α, θl,0 , n)) ≤ α. Da l beliebig gew¨ ahlt wurde, erh¨ alt man unterschiedliche NeymanPearson-Tests.
6.2 Uniformly Most Powerful Tests
171
6.2 Uniformly Most Powerful Tests Im Allgemeinen ist man neben dem einfachen Fall H0 : θ = θ0 gegen ur H0 : θ ≤ θ0 gegen H1 : θ > θ0 in der Lage UMP-Tests H1 : θ = θ1 nur f¨ anzugeben. Man geht hierbei in drei Schritten vor. Zun¨achst betrachtet man ur jede Alternanur H0 : θ = 0. Man kennt dann die Neyman-Pearson-Tests f¨ tive Hν : θ = θν , θν > 0 und kann mit dem Neyman-Pearson-Lemma (Satz 6.2) auf Optimalit¨ at gegen H1 : θ > 0 schließen. Es folgt, dass diese Tests das Signifikanzniveau auch f¨ ur H0 : θ ≤ 0 einhalten. Schließlich erh¨alt man durch Translation den allgemeinen Fall. Wir beginnen mit einem Beispiel, welches diese Schritte illustriert. B 6.5 Normalverteilung: UMP-Test f¨ ur μ ≤ μ0 gegen μ > μ0 : Wie bereits erw¨ahnt, gehen wir in drei Schritten vor. Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ) und μ ≥ 0. Die Varianz σ 2 sei bekannt. Wir betrachten zun¨achst einen Test f¨ ur (6.8) H0 : μ = 0 gegen H1 : μ > 0 √
und zeigen, dass T (X) = nX¯/σ hierf¨ ur die optimale Teststatistik ist. Nach dem Neyman-Pearson-Lemma (Satz 6.2) ist T (X) die optimale Teststatistik f¨ ur H0 : μ = 0 gegen Hν : μ = ν
(6.9)
f¨ ur jedes feste ν > 0. Mit dem Neyman-Pearson-Lemma und Satz 6.5 folgt: Ein Test δ mit Signifikanzniveau α ist UMP-Test f¨ ur das Testproblem (6.8) genau dann, wenn die folgenden beiden Bedingungen gelten:
(i) Pμ=0 δ(X) = 1 = α (ii) δ ist NP-Test f¨ ur H0 : μ = 0 gegen Hν : μ = ν f¨ ur alle ν > 0. Der Test δ ∗ (X) = 1{T (X)≥z1−α } erf¨ ullt die Bedingungen (i) und (ii), denn angig von ν. der kritische Wert z1−α ist unabh¨ F¨ ur den zweiten Schritt betrachten wir H≤ : μ ≤ 0 gegen H> : μ > 0.
(6.10) √
Der Test δ ∗ ist immer noch UMP-Test f¨ ur dieses Problem, da − nμ/σ ≥ 0 f¨ ur alle μ ≤ 0 gilt und damit
√
μ n Pμ (δ ∗ (X) = 1) = Pμ T (X) ≥ z1−α = 1 − Φ z1−α − ≤ α. σ ur das Testproblem (6.10). Also ist δ ∗ auch ein Test mit Signifikanzniveau α f¨ Weiterhin gilt f¨ ur jeden Test δ mit Signifikanzniveau α f¨ ur (6.10), dass ur Gδ (0) ≤ α. Damit muss Gδ (μ) ≤ Gδ∗ (μ) gelten, da δ ∗ ein UMP-Test f¨ H0 : μ = 0 gegen H1 : μ > 0 ist. Schließlich folgt, dass der Test
172
6. Optimale Tests und verwandte Methoden
˜ δ(X) = 1 √n(X−μ ¯ 0) σ
≥z1−α
ein UMP-Test f¨ ur das Testproblem H0 : μ ≤ μ0 gegen H1 : μ > μ0 mit Signifikanzniveau α ist.
6.2.1 Exponentielle Familien F¨ ur einparametrige exponentielle Familien erh¨alt man folgendes Resultat. Satz 6.6. Sei Θ = R und {p(·, θ) : θ ∈ Θ} eine einparametrige exponentielle Familie mit der Dichte oder Wahrscheinlichkeitsfunktion p(x, θ) = 1{x∈A} · exp c(θ) · T (x) + d(θ) + S(x) . c sei streng monoton wachsend und X ∼ p(·, θ). Dann gilt f¨ ur jedes θ0 ∈ Θ: (i) T (X) ist eine optimale Teststatistik f¨ ur H0 : θ ≤ θ0 gegen H1 : θ > θ0 . (ii) Der NP-Test hat die Form 1{T (X)≥c} . Der kritische Wert c ist ge(1 − α), falls Fθ0 (t) := Pθ0 (T (X) ≤ t) stetig ist. geben durch Fθ−1 0 Andernfalls ist c ∈ {t : Pθ0 (T (X) ≥ t) = α}.
(6.11)
Ist die Menge in (6.11) leer, so existiert kein UMP-Test mit Signifikanzniveau α f¨ ur H0 gegen H1 . (iii) Die G¨ utefunktion des UMP-Tests mit Signifikanzniveau α ist monoton wachsend in θ.
Beweis. Wir geben den Beweis nur f¨ ur stetiges Fθ0 . Zun¨achst zeigen wir, dass unter den folgenden beiden Bedingungen die Aussage des Satzes gilt: (a) F¨ ur alle t ∈ R und jedes θ1 > θ0 ist der Test δt∗ (X) := 1{T (x)≥t} ein NP-Test f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 . (b) Die G¨ utefunktion von δt∗ ist monoton wachsend in θ. Nehmen wir an, dass (a) gilt. Sei t so gew¨ ahlt, dass Pθ0 (T (X) ≥ t) = α gilt (wie in (ii) verlangt). Dann gilt nach (b), dass Gδt∗ (θ) ≤ Gδt∗ (θ0 ) = Pθ0 (T (X) ≥ t) = α f¨ ur alle θ ≤ θ0 . Nach dem Neyman-Pearson-Lemma, Satz 6.2, ist δt∗ ein UMPTest mit Signifikanzniveau α f¨ ur H≤ : θ ≤ θ0 gegen H1 : θ = θ1 . Damit ist
6.2 Uniformly Most Powerful Tests
173
δt∗ auch ein Test zu dem Signifikanzniveau α f¨ ur H≤ gegen H∗ : θ = θ∗ ∗ f¨ ur alle θ > θ0 . Wie in Beispiel 6.5 folgt nun, dass δt∗ ein UMP-Test mit Signifikanzniveau α f¨ ur H≤ : θ ≤ θ0 gegen H> : θ > θ0 ist. Da die Bedingung (iii) gleichbedeutend mit (b) ist, erhalten wir, dass die beiden Bedingungen (a) und (b) ¨ aquivalent sind zu den Bedingungen (i)-(iii) des Satzes. Es bleibt folglich noch die G¨ ultigkeit der Bedingungen (a) und (b) zu zeigen. Zun¨ achst betrachten wir (a). Sei x ∈ A und θ0 < θ1 . Dann ist die Likelihood-Quotienten-Statistik in der exponentiellen Familie gegeben durch
p(x, θ1 ) = exp c(θ1 ) − c(θ0 ) · T (x) + d(θ1 ) − d(θ0 ) . L(x, θ0 , θ1 ) := p(x, θ0 ) Nach Voraussetzung ist c monoton wachsend, d.h. c(θ1 ) − c(θ0 ) > 0 und somit ist L streng monoton wachsend bez¨ uglich T (x). Daher erzeugt T (X) die gleiche Familie von Verwerfungsbereichen wie L(X, θ0 , θ1 ). Nach dem Neyman-Pearson-Lemma (Satz 6.2) ist T (X) eine optimale Teststatistik f¨ ur H0 : θ = θ0 gegen H1 : θ = θ1 , falls nur θ1 > θ0 . Damit gilt also (a). Der Beweis von (b) wird in Aufgabe 6.3 gef¨ uhrt. Bemerkung 6.7. Die Folgerungen des Satzes gelten auch f¨ ur die Klasse der monotonen Likelihood-Quotienten-Familien, siehe auch Aufgabe 6.15. B 6.6 Normalverteilung: UMP-Test f¨ ur H0 : μ ≤ μ0 gegen H1 : μ > μ0 : In diesem Beispiel konstruieren wir den UMP-Test aus Beispiel 6.5 direkt aus Satz 6.6. Wir betrachten dazu das Testproblem H0 : μ ≤ μ0 gegen H1 : μ > μ0 . Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ). Die Varianz σ 2 sei bekannt. Dies ist eine exponentielle Familie nach Beispiel 2.11 und Bemerkung 2.10. Wir leiten allerdings eine f¨ ur unsere Zwecke g¨ unstigere Darstellung als diejenige √ in Bemerkung 2.10 her. Sei T (x) := x¯ n/σ. Dann gilt ln p(x, μ) = −
n 1 n (xi − μ)2 − ln(2πσ 2 ) 2σ 2 i=1 2
n 1 2 n¯ xμ nμ2 n =− 2 xi + 2 − 2 − ln(2πσ 2 ) 2σ i=1 σ 2σ 2 √ n n μ2 nμ 1 2 2 = · T (x) − + ln(2πσ ) − x . σ 2 σ2 2σ 2 i=1 i √
Demnach ist dies eine exponentielle Familie mit c(μ) = σnμ . Da c monoton wachsend in μ ist, kann man Satz 6.6 anwenden und es folgt, dass T (X) eine uber hinaus optimale Teststatistik f¨ ur H0 : μ ≤ μ0 gegen H1 : μ > μ0 ist. Dar¨ ist der Test ¯ δ(X) = 1 √n(X−μ 0 ) ≥z σ
1−α
UMP-Test mit Signifikanzniveau α f¨ ur dieses Testproblem.
174
6. Optimale Tests und verwandte Methoden
B 6.7 Bernoulli-Zufallsvariablen: UMP-Test f¨ ur H0 : θ ≤ θ0 gegen H1 : θ > θ0 : Seien X1 , . . . , Xn i.i.d. mit Xi ∼ Bin(1, θ) mit θ ∈ Θ = [0, 1], das heißt Xi ist eine Bernoulli-Zufallsvariable und Pθ (Xi = 1) = θ. Nach Bemerkung n 2.10 und Beispiel 2.13 ist dies eine exponentielle Familie mit T (x) = i=1 xi θ und c(θ) = ln( 1−θ ). c ist monoton wachsend in θ und somit ist Satz 6.6 anwendbar. Demzufolge ist T (X) eine optimale Statistik f¨ ur das Testproblem H0 : θ ≤ θ0 gegen H1 : θ > θ0 . Nach Aufgabe 1.4 ist T (X) binomialverteilt zu den Parametern n und θ. Gilt f¨ ur ein k ∈ N0 , dass α=
n n j=k
j
θj (1 − θ)n−j ,
so ist δ(X) = 1{T (X)≥k} ein UMP-Test mit Signifikanzniveau α f¨ ur dieses Testproblem nach Satz 6.6. B 6.8 Normalverteilung mit bekanntem Erwartungswert: Beziehung zur Gamma– Verteilung: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ). Der Erwartungsur σ 2 suffizienwert μ sei bekannt und die Varianz σ 2 unbekannt. Die f¨ 2 te Teststatistik basiert auf Wi := (Xi − μ) , 1 ≤ i ≤ n (siehe Beispiel 2.17). Da Wi /σ 2 ∼ χ21 -verteilt ist, folgt nach Aufgabe 1.9 (iii), dass ochte man Wi ∼ Gamma 12 , 2σ1 2 . M¨ H0 : σ 2 ≥ σ02
gegen
H1 : σ 2 < σ02
testen, so kann man die Resultate des folgenden Beispiels (Testproblem b) verwenden. B 6.9 Tests f¨ ur den Skalenparameter der Gamma-Verteilung: Seien X1 , . . . , Xn i.i.d.
mit X1 ∼ Gamma p, θ1 . Hierbeit sei p bekannt und θ > 0 unbekannt. Es sollen UMP-Tests f¨ ur die beiden Testprobleme (a) H0 : θ ≤ θ0 gegen H1 : θ > θ0 (b) H0 : θ ≥ θ0 gegen H1 : θ < θ0 konstruiert werden. Wieder n liegt nach Bemerkung 2.10 eine exponentielle Familie vor, mit T (x) = i=1 xi . Aus Tabelle 2.1 liest man c(θ) = − θ1 ab. Durch die hier getroffene Wahl der Parametrisierung der Gamma-Verteilung ist c streng monoton wachsend in θ und somit Satz 6.6 anwendbar. Demnach ist T (X) eine optimale Teststatistik f¨ ur H0 : θ ≤ θ0 gegen H1 : θ > θ0 . Der Test δ(X) = 1{T (X)≥c} mit einem c so, dass Pθ0 (T (X) ≥ c) = α gilt, ist UMP-Test mit Signifikanzniveau α f¨ ur das Testproblem (a). Da nach n Gleichung (1.11) und Aufgabe 1.9 (iii) gilt, dass θ1 i=1 Xi ∼Gamma(np, 1), ahlen, wobei gp,1/θ,1−α das (1 − α)-Quantil der ist c = θ0 · gnp,1,1−α zu w¨
6.2 Uniformly Most Powerful Tests
175
Gamma(p, 1/θ)-Verteilung bezeichnet. Die G¨ utefunktion von δ ist gegeben durch
n n 1 c Xi ≥ c = Pθ Xi ≥ Gδ (θ) = Pθ . θ i=1 θ i=1 n Nun ist θ1 i=1 Xi gerade Gamma(np, 1)-verteilt. Sei Fnp,1 die Verteilungsfunktion der Gamma(np, 1)-Verteilung. Dann ist die G¨ utefunktion gegeben durch
θ0 gnp,1,1−α Gδ (θ) = 1 − Fnp,1 . θ Sie ist monoton wachsend in θ. n F¨ ur das Testproblem (b) betrachten wir T˜(x) := − i=1 xi und setzen η := θ1 . Damit erhalten wir eine geeignete Darstellung als exponentielle Familie mit c(η) = η. In dieser Darstellung ist c monoton wachsend in η. Aus Satz 6.6 erhalten wir den UMP-Test ˜ δ(X) = 1{T˜(X)≥−d} = 1{T (X)≤d} . alt δ˜ das Signifikanzniveau α ein. Die W¨ ahlen wir analog d = θ0 · gnp,1,α , so h¨ ˜ G¨ utefunktion von δ ist gegeben durch Gδ˜(θ) = Pθ
n
Xi ≤ d
i=1
= Fnp,1
θ0 gnp,1,α . θ
Diese ist monoton fallend in θ, aber monoton wachsend in η. ¨ Uberraschenderweise ist der zweiseitige Gauß-Test kein UMP-Test, falls man alle Tests zul¨ asst, wie folgendes Beispiel zeigt. Schr¨ankt man sich hingegen auf symmetrische oder unverzerrte Tests ein, so erh¨alt man einen UMPTest, was auch im folgendem Beispiel gezeigt wird. B 6.10 Normalverteilung: zweiseitiger Gauß-TestTest f¨ ur μ: Seien X1 , . . . , Xn i.i.d. mit X1 ∼ N (μ, σ 2 ). Hierbei sei die Varianz σ 2 bekannt. Wir interessieren uns f¨ ur das Testproblem H0 : μ = μ0 √
¯
gegen
H1 : μ = μ0 .
(6.12)
0) Sei T (X) := n(X−μ und za := Φ−1 (a). Der zweiseitige Gauß-Test σ ur δα (x) = 1{|T (x)|≥z1−α/2 } ist kein UMP-Test zu dem Signifikanzniveau α f¨ das Testproblem (6.12): Da der Test nicht mit dem Neyman-Pearson-Test f¨ ur bereinstimmt, verstieße dies gegen die ur μ1 > μ0 u μ = μ0 gegen μ = μ1 f¨ ¨ Eindeutigkeit des NP-Tests aus Satz 6.2. Man kann den Test jedoch folgendermaßen rechtfertigen: T (X) ist suffizient f¨ ur μ, daher kann√ man sich auf Tests welche auf T (X) basieren be0) gilt, dass T (X) ∼ N (Δ, 1). Somit ist das schr¨ anken. Mit Δ := n(μ−μ σ
176
6. Optimale Tests und verwandte Methoden
Testproblem H0 : μ = μ0 gegen H1 : μ = μ0 ¨aquivalent zu dem Testproblem ˜ 0 : Δ = 0 gegen H ˜ 1 : Δ = 0. Da dies ein symmetrisches Testproblem ist und H die zugeh¨ orige suffiziente Statistik symmetrisch verteilt ist, ist es vern¨ unftig sich auf Tests, die nur von |T | abh¨ angen, zu beschr¨anken. Unter dieser Beschr¨ ankung ist δα ein UMP-Test mit Signifikanzniveau α, was man wie folgt sieht. Wir bestimmen die Dichte p(·, Δ) von |T |. Sie ist gegeben durch
∂ PΔ T (X) ≤ z ∂z
∂ ∂ = PΔ − z ≤ T (X) ≤ z = Φ(z − Δ) − Φ(−z − Δ) ∂z ∂z
p(z, Δ) =
= φ(z − Δ) + φ(−z − Δ) (−z−Δ)2 1 − (z−Δ)2 2 . e + e− 2 =√ 2π Damit ist der Likelihood-Quotient gegeben durch
Δ1 z Δ2 e p(z, Δ1 ) + e−Δ1 z 1 = e− 2 , p(z, 0) 2 dieser ist monoton wachsend in z. Wenn man nur |T (X)| beobachtet, so ist ˜ 0 : Δ = 0 gegen H ˜ 1 : Δ = Δ1 f¨ ur H ur alle Δ1 = 0. δα (X) ein NP-Test f¨ ur H0 : Insbesondere gilt, dass δα ein UMP-Test mit Signifikanzniveau α f¨ μ = μ0 gegen H1 : μ = μ0 ist, falls man nur |T (X)| beobachtet. Diese Argumentation zeigt eine Reduktion durch Symmetrie auf. Dar¨ uber hinaus ur gibt es noch eine weitere Rechtfertigung den Test δα anzuwenden: Denn f¨ seine G¨ utefunktion gilt
Gδα (μ) = 1 − Pμ T (X) ≤ z1−α/2 = 1 − Pμ − z1−α/2 ≤ T (X) ≤ z1−α/2 = 1 − Φ(z1−α/2 − Δ) − Φ(−z1−α/2 − Δ) . Damit ist der Verwerfungsbereich am kleinsten, wenn Δ = 0. Dies bedeutet, dass δα unverzerrt ist. Es folgt, dass δα ein UMP-Test mit Signifikanzniveau α f¨ ur H0 : μ = μ0 gegen H1 : μ = μ0 unter allen unverzerrten Tests ist. B 6.11 Cauchy-Verteilung: Nichtexistenz von UMP-Tests: Seien 1 , . . . , n i.i.d. mit ur 1 ≤ i ≤ n. Wir interessieren uns f¨ ur 1 Cauchy-verteilt und Xi := Δ + i f¨ den Test H0 : Δ = 0 gegen H1 : Δ > 0. Dann gilt, dass die Dichte von Xi gegeben ist durch p(x, Δ) =
n 1 1
π n i=1 1 + (xi − Δ)2
6.3 Likelihood-Quotienten-Tests
177
und man erh¨ alt den Likelihood-Quotienten L(x, 0, Δ) =
n
(1 + x2i ) . (1 + (xi − Δ)2 ) i=1
Verwerfungsbereiche, die von L erzeugt werden, h¨angen von Δ ab, denn f¨ ur n = 1 gilt (1 + x2 ) . L(x, 0, Δ) = (1 + (x − Δ)2 ) W¨ aren Verwerfungsbereiche, welche von L(x, 0, Δ1 ) und L(x, 0, Δ2 ) erzeugt w¨ urden, identisch, so m¨ usste ln L(x, 0, Δ1 ) eine streng monoton wachsende Funktion von ln L(x, 0, Δ2 ) sein. Aber d ln L(x, 0, Δ1 ) d ln L(x, 0, Δ1 )/dx = d ln L(x, 0, Δ2 ) d ln L(x, 0, Δ2 )/dx und d ln L(x, 0, Δ) 2x 2(x − Δ) 2xΔ(Δ − x) = . − = dx 1 + x2 1 + (x − Δ)2 (1 + x2 )(1 + (x − Δ)2 ) Diese Funktion wechselt allerdings das Vorzeichen, wenn x variiert. Die Verwerfungsbereiche h¨ angen folglich von Δ ab, und es kann daher keinen UMPTest f¨ ur das Testproblem H0 : Δ = 0 gegen H1 : Δ > 0 geben, da NP-Tests f¨ ur H0 : Δ = 0 gegen H1 : Δ = Δ1 eindeutig sind. Bemerkung 6.8. Wir fassen die Beobachtung der letzten Beispiele zusammen: • • •
Auch f¨ ur exponentielle Familien gibt es nicht notwendigerweise einen UMP-Test f¨ ur Parametervektoren, siehe Beispiel 6.4. In dem eindimensionalen Fall m¨ ussen wir uns auf den einseitigen Fall beschr¨ anken. Aber auch im einseitigen Fall muss es nicht notwendigerweise einen UMP-Test geben, siehe Beispiel 6.11.
6.3 Likelihood-Quotienten-Tests Wie im vorigen Abschnitt erl¨ autert wurde, existieren UMP-Tests nicht immer. In diesem Abschnitt wird ein Ausweg hieraus behandelt, indem man die ur das Testproblem H0 : θ = θ0 gegen Neyman-Pearson-Statistik L(x, θ0 , θ1 ) f¨
178
6. Optimale Tests und verwandte Methoden
H1 : θ = θ1 auf beliebige Testprobleme erweitert. Wir f¨ uhren hierzu den so genannten verallgemeinerten Likelihood-Quotienten-Test ein. Die Beobachtung werde durch eine n-dimensionale Zufallsvariable X mit Dichte oder Wahrscheinlichkeitsfunktion p(·, θ), θ ∈ Θ beschrieben. Wir nehmen an, dass p stetig in θ ist. Weiterhin sei Θ = Θ0 ∪ Θ1 mit disjunktem Θ0 und Θ1 . Wir untersuchen das Testproblem H0 : θ ∈ Θ0
gegen
H1 : θ ∈ Θ1 .
Definition 6.9. Sei {p(·, θ ∈ Θ} ein regul¨ares Modell und Θ = Θ0 + Θ1 . Die verallgemeinerte Likelihood-Quotienten-Statistik ist L(X) :=
supθ∈Θ1 p(X, θ) supθ∈Θ0 p(X, θ)
und der zugeh¨ orige verallgemeinerten Likelihood-Quotienten-Test δ(X) := 1{L(X)≥c} mit c ∈ R+ ∪ {∞}. Durch die folgenden Schritte kann man einen solchen Test in der Praxis konstruieren: (i) Berechne den Maximum-Likelihood-Sch¨atzer θ von θ unter θ ∈ Θ. (ii) Berechne den Maximum-Likelihood-Sch¨atzer θ0 von θ unter θ ∈ Θ0 . (iii) Bestimme supθ∈Θ p(x, θ) p(x, θ) . (6.13) = λ(x) := sup p(x, θ0 ) θ∈Θ0 p(x, θ) (iv) Finde eine Funktion h, die strikt monoton wachsend auf dem Bild von λ ist, so dass h(λ(x)) eine einfache Form hat und deren Verteilung unter H0 bekannt und berechenbar ist. Der verallgemeinerte LikelihoodQuotienten-Test ist dann gegeben durch δ(X) = 1{h(λ(X))≥h1−α } , wobei h1−α das (1 − α)-Quantil der Verteilung von h(λ(X)) unter H0 ist. Bei diesem Verfahren st¨ utzt man sich auf die Berechnung von λ an Stelle der direkten Berechnung von L, da λ typischerweise leichter zu berechnen ist. Man beachte, dass supθ∈Θ0 p(x, θ) λ(x) = max L(x), = max{L(x), 1} supθ∈Θ0 p(x, θ)
6.3 Likelihood-Quotienten-Tests
179
und folglich monoton wachsend in L(x) ist.
6.3.1 Konfidenzintervalle Konfidenzintervalle oder Konfidenzbereiche basierend auf verallgemeinerten Likelihood-Quotienten kann man mit Hilfe der Dualit¨at zwischen Tests und Konfidenzintervallen bestimmen (siehe Abschnitt 5.3.2). Wir betrachten ein d-dimensionales Problem, Θ ⊂ Rd und das Testproblem H0 : θ = θ0
gegen
H1 : θ = θ0 .
Zur Bestimmung des Konfidenzbereichs geht man wie folgt vor: Definiere c(θ0 ) durch
supθ∈Θ p(X, θ) ≥ c(θ0 ) = Pθ0 (λ(X) ≥ c(θ0 )) α = Pθ0 p(X, θ0 ) mit λ(x) aus der Gleichung 6.13. Der zugeh¨orige Likelihood-Quotienten-Test ist δ(X) = 1{λ(X)≥c(θ0 )} . Mit dem zuvor bestimmten c(θ0 ) h¨alt er das Signifikanzniveau α ein. Der Annahmebereich des Tests ist gegeben durch supθ∈Θ p(x, θ) C(x) := θ ∈ Θ : p(x, θ) > . c(θ0 ) Hat der Annahmebereich f¨ ur alle x im Werteraum die Gestalt , , C(x) = C 1 (x), C 1 (x) × · · · × C d (x), C d (x) , so ist C(X) ein (1 − α)-Konfidenzbereich f¨ ur θ. B 6.12 Matched Pair Experiments: Zweiseitiger t-Test: M¨ochte man den Effekt einer Behandlung bei einer Patientengruppe bestimmen, die sehr inhomogen ist, da sich die Patienten etwa bez¨ uglich des Alters, der Ern¨ahrung oder anderen Faktoren unterscheiden, so kann man die Methode der Matched Pairs heranziehen. Hierbei versucht man Patienten, die ¨ahnliche Faktoren aufweisen zu Paaren zusammenzufassen. Die Zusammenfassung zu Paaren nennt man ,,matching”. Nach dem Matching wird ein Patient jedes Paares zuf¨allig ausgew¨ ahlt (mit Wahrscheinlichkeit 1/2) und behandelt, w¨ahrend der andere Patient als Kontrolle dient und ein Placebo erh¨alt. Das Behandlungsergebnis wird bei beiden Patienten gemessen (beispielsweise der Blutdruck nach der Behandlung) und Differenzen gebildet. Wir nehmen an, dass die Differenangig und identisch verteilt sind mit X1 ∼ N (μ, σ 2 ). zen X1 , . . . , Xn unabh¨ M¨ ochte man testen, ob ein systematischer Unterschied zwischen den Patientenpaaren besteht, betrachtet man folgendes Testproblem mit μ0 = 0:
180
6. Optimale Tests und verwandte Methoden
H0 : μ = μ0
gegen
H1 : μ = μ0 .
(6.14)
In zwei Schritten bestimmen wir den Test und danach die zugeh¨orige G¨ utefunktion: (i) Wir verwenden Θ0 = {(μ, σ 2 ) ∈ R × R+ : μ = μ0 } und Θ = R × R+ . Die zugeh¨ orige Dichte von X ist n 1 1 2 exp − 2 (Xi − μ) . p(x, θ) = 2σ i=1 (2πσ 2 )n/2 Als n¨ achstes berechnen wir λ aus (6.13). Aus Beispiel 3.21 erhalten wir, dass sup p(x, θ) = p(x, θ), θ∈Θ
¯ σ wobei θ der Maximum-Likelihood-Sch¨ atzer von θ ist: θ = (X, 2 ) mit n 1 2 2 2 ¯ . F¨ (X) = n i=1 (Xi − X) ur den Nenner von λ ben¨otigt man σ =σ den Maximum-Likelihood-Sch¨ atzer σ 02 von σ 2 , wenn der Mittelwert bekannt ist und μ = μ0 . Dies ist Gegenstand von Aufgabe 3.12(vi), es gilt n 02 (X) = n1 i=1 (Xi − μ0 )2 . In diesem Beispiel ist es g¨ unstig den σ 02 = σ 2 Logarithmus von λ(x) zu betrachten. Setze θ0 := (μ0 , σ 0 ) . Dann ist − ln p(x, θ0 ) ln λ(x) = ln p(x, θ) n n 1 n 1 n 2 2 σ )+ 2 σ02 ) =− 2 (xi − x ¯) − ln(2π (xi − μ0 )2 + ln(2π 2 σ i=1 2 2 σ0 i=1 2 n n n n − ln(2π σ 2 ) + + ln(2π σ02 ) 2 2 2 2 σ 02 n = ln . 2 σ 2 =−
(6.15)
Da der Logarithmus eine monoton wachsende Funktion ist, ist der verallgemeinerte Likelihood-Quotienten-Test gegeben durch δ(X) = 1 σ 02 (X) σ 2 (X)
>c
f¨ ur ein geeignet gew¨ ahltes c. Zur Bestimmung von c muss man die Verteilung des Quotienten kennen. Wir werden ihn auf bekannte Gr¨oßen 2 + und damit auf eine t-Verteilung zur¨ uckf¨ uhren: Zun¨achst ist σ 02 = σ 2 ¯ (X − μ0 ) und damit ¯ − μ0 )2 σ 02 (X = 1 + . σ 2 σ 2 Mit der Stichprobenvarianz
6.3 Likelihood-Quotienten-Tests
181
1 ¯ 2= n σ 2 (X) (Xi − X) n − 1 i=1 n−1 n
s2 (X) = erh¨ alt man
√
¯ − μ0 )2 (X σ 02 (X) = 1 + . σ 2 (X) s2 (X) n−1 n ¯
X−μ0 ) Mit Tn (X) := n(s(X) ist dies eine monoton wachsende Funktion von |Tn (X)|. Demnach ist der verallgemeinerte Likelihood-Quotienten-Test aquivalent zu ¨ ˜ δ(X) = 1{ |T (X)| >˜c}
mit geeignetem c˜. Nach Bemerkung 7.16 ist Tn unter H0 tn−1 -verteilt. Somit erhalten wir schließlich den Likelihood-Quotienten-Test zum Signifikanzniveau α durch ˜ δ(X) = 1{ |Tn (X)| >tn−1,1−α/2 } , wobei tm,a das a-Quantil einer tm -Verteilung bezeichnet. Dieser Test wird auch als Studentscher t-Test bezeichnet. ˜ (ii) Die G¨ utefunktion des Tests δ(X) ist gegeben durch
Gδ˜(θ) = Pθ |Tn (X)| > tn−1,1−α/2 . Um sie zu berechnen, verwendet man, dass f¨ ur beliebiges θ ∈ Θ √ ¯ n(X − μ0 ) Tn (X) = ∼ tn−1 (Δ(θ)) s(X) nichtzentral tn−1 -verteilt ist (siehe Abschnitt 1.2) mit Nichtzentralit¨ atsparameter √ n(μ − μ0 ) . Δ = Δ(θ) := σ Aus diesem Grund h¨ angt die G¨ utefunktion von θ nur durch Δ ab. Weiterhin ist sie symmetrisch um Δ = 0 und monoton wachsend in |Δ|. (iii) Wir bestimmen einen Konfidenzbereich mit Hilfe der Dualit¨at von Tests und Konfidenzbereichen (siehe Abschnitt 5.3.2). F¨ ur das Testproblem H0 : μ = μ0 gegen H1 : μ = μ0 hatten wir den Likelihood-Quotientenur den Annahmebereich Test δ(X) = 1{|Tn (X)|>tn−1,1−α/2 } erhalten. F¨ erhalten wir
182
6. Optimale Tests und verwandte Methoden
C(x) = μ ∈ R : Tn (X) ≤ tn−1,1−α/2 ¯ − μ) √ (X ≤ tn−1,1−α/2 = μ ∈ R : n s ¯ − μ) √ (X ≤ tn−1,1−α/2 . = μ ∈ R : −tn−1,1−α/2 ≤ n s Schließlich erhalten wir als (1 − α)-Konfidenzintervall f¨ ur μ ¯ ± s(X) √ tn−1,1−α/2 . X n B 6.13 Matched Pair Experiments: Einseitiger Test: In Fortsetzung von Beispiel 6.12 betrachten wir nun das einseitige Testproblem H0 : μ ≤ μ0
gegen
H1 : μ > μ0 .
Der Likelihood-Quotienten-Test f¨ ur dieses Testproblem ist δ(X) = 1{Tn (X) ≥ tn−1,1−α } . Dieser Test h¨ alt das Signifikanzniveau α ein und weiterhin h¨angt Pθ (Tn (X) ≥ uber hinaus monoton wachsend tn−1,1−α ) von θ nur durch Δ ab und ist dar¨ in Δ. B 6.14 Differenz zweier Normalverteilungen mit homogener Varianz : Wir betrachten das folgende Zweistichprobenproblem (siehe auch Beispiel 7.2): Die Zufallsvariablen X1 , . . . , Xn1 , Y1 , . . . , Yn2 seien unabh¨angig und Xi ∼ F := N (μ1 , σ 2 ), i = 1, . . . , n1 und Yi ∼ G := N (μ2 , σ 2 ), i = 1, . . . , n2 . Dies ist ein Zweistichprobenproblem mit homogenen Varianzen. Interessiert sind wir an einem Test f¨ ur F = G, also an dem Testproblem H0 : μ1 = μ2
gegen
H1 : μ1 = μ2 .
(6.16)
Den unbekannten Parameter bezeichnen wir mit θ = (μ1 , μ2, σ 2 ) ∈ Θ := setzen wir Θ0 := θ ∈ Θ : μ1 = R2× R+ . Dem Testproblem entsprechend ur die Dichte des μ2 , Θ1 := θ ∈ Θ : μ1 = μ2 und n := n1 + n2 . F¨ Experiments gilt: ⎛ ⎞ n1 n2 1 n (yj − μ2 )2 ⎠ . ln p(x, y, θ) = − ln(2πσ 2 ) − 2 ⎝ (xi − μ1 )2 + 2 2σ i=1 j=1 Wir schreiben Z := (X , Y ) und entsprechend z ∈ Rn so dass der Maximum-Likelihood-Sch¨ atzer von θ, ¨ ahnlich wie in Beispiel 6.12, gegeben ¯ Y¯ , σ ist durch θ(Z) = (X, 22 ) mit
6.3 Likelihood-Quotienten-Tests
σ 22 (Z) :=
183
n1 n2 1 ¯ 2+ (Xi − X) (Yj − Y )2 . n i=1 j=1
Unter der Null-Hypothese μ1 = μ2 ist der Maximum-Likelihood-Sch¨atzer von μ, μ , σ 202 ) mit θ0 = (μ1 , μ1 , σ 2 ) gerade θ0 (Z) = ( ⎛ ⎞ n1 n2 1 μ =μ (Z) := ⎝ Xi + Yj ⎠ n i=1 j=1 und ⎛ ⎞ n1 n2 1 σ 202 = σ 202 (Z) := ⎝ (Xi − μ )2 + (Yj − μ )2 ⎠ . n i=1 j=1 Analog zu Gleichung (6.15) ist λ(z) =
p(x, y, θ(z)) = p(x, y, θ0 (z))
σ ˆ0 (z) σ ˜ (z)
n/2 .
Wie man leicht u uft, gilt ¨berpr¨ n1
(xi − μ (z))2 =
i=1
n1
(xi − x ¯)2 + n1 (¯ x−μ (z))2 ,
i=1
und ein a ur yi , so dass ¨hnlicher Ausdruck f¨ x−μ ˆ)2 + n2 (¯ y−μ ˆ)2 n1 (¯ 2 n2 λ(z) /n = 1 + n1 . 2 ¯) + i=1 (yi − y¯)2 i=1 (xi − x Folglich ist der Likelihood-Quotienten-Test gegeben durch δ(Z) = 1{ |T (Z)| ≥c} ,
wobei wir T (Z) := und
n1 · n2 n
¯ ¯ Y −X s2 (Z)
⎛ ⎞ n1 n2 n 1 ¯ 2+ ⎝ (Xi − X) σ 22 (Z) = (Yj − Y¯ )2 ⎠ s22 (Z) := n−2 n − 2 i=1 j=1
setzen. Unter H0 : μ1 = μ2 ist T (Z) ∼ tn−2 , da unter H0
184
6. Optimale Tests und verwandte Methoden
¯ ∼N Y¯ − X
0,
σ2 σ2 + n1 n2
uckzuf¨ uhren und der hiervon unabh¨ angige Nenner auf eine χ2 -Verteilung zur¨ ist: (n − 2)s22 (Z) ∼ χ2n1 +n2 −2 ; σ2 ¨ analog zu Bemerkung 7.16. Aus diesen Uberlegungen ergibt sich der verallgemeinerte Likelihood-Quotienten-Test zu dem Testproblem (6.16) und dem Signifikanzniveau α zu: δ(Z) = 1{ |T (Z)| ≥tn−2,1−α/2 } . Schließlich bestimmen wir noch die G¨ utefunktion. Hierzu beachte man, dass T (Z) nicht-zentral t-verteilt ist mit n − 2 Freiheitsgraden und Nichtzentralit¨ atsparameter n1 · n2 μ2 − μ1 Δ = Δ(θ) = . n σ Die G¨ utefunktion ist demnach Gδ (θ) = Pθ (|T (Z)| ≥ tn−2,1−α/2 ). Erneut h¨ angt sie von θ nur u ¨ber Δ ab. Weiterhin ist das (1 − α)-Konfidenzintervall f¨ ur μ2 − μ1 n ¯ ± tn−2,1−α/2 · s2 (Z) Y¯ − X . n1 · n2 B 6.15 Zweistichprobenproblem mit ungleicher Varianz: Behrens-Fischer Problem: Dieses Beispiel behandelt das Zweistichprobenproblem aus Beispiel 6.14, nur mit ungleichen Varianzen. Seien dazu X1 , . . . , Xn1 , Y1 , . . . , Yn2 unabh¨angig ur i = 1, . . . , n1 sowie Yi ∼ N (μ2 , σ22 ) f¨ ur i = 1, . . . , n2 . und Xi ∼ N (μ1 , σ12 ) f¨ Wieder bezeichnen wir Z := (X , Y ) . Die vollst¨andige und suffiziente ¯ Y¯ , s2 , s2 ) mit Statistik f¨ ur θ = (μ1 , μ2 , σ12 , σ22 ) ist (X, 1 2 1 2 1 1 ¯ 2 und s22 = s22 (Z) = (Xi − X) (Yj − Y )2 . n1 − 1 i=1 n2 − 1 j=1
n
s21 = s21 (Z) =
n
Demnach ist der Maximum-Likelihood und UMVUE-Sch¨atzer von Δ := μ2 − ¯ Seine Varianz ist aufgrund der Unabh¨angigkeit := Y¯ − X. μ1 gerade Δ(Z) ¯ ¯ von X und Y 2 = Var(X) ¯ + Var(Y¯ ) = := Var(Δ) σΔ
Weiterhin ist
Δ(Z) ∼ N (0, 1). σΔ
σ12 σ2 + 2. n1 n2
6.4 Aufgaben
185
2 Die unbekannte Varianz σΔ sch¨ atzen wir mit
s2Δ (Z) :=
s21 s2 + 2. n1 n2
σ2
1 Allerdings h¨ angt die Verteilung des normierten Quotienten Δ(Z)−Δ sΔ (Z) von σ22 ab und dieser Quotient ist unbekannt. Aus diesem Grund kann man die Verteilung des Quotienten nur schwer explizit bestimmen. Man kann allerdings mit dem zentralen Grenzwertsatz (Satz 1.31) die Verteilung approximieren: Nach dem zentralen Grenzwertsatz gilt mit n = n1 + n2 , dass
Δ(Z) −Δ L −−−−→ N (0, 1). n→∞ sΔ (Z) Wir erhalten f¨ ur das Testproblem H0 : Δ = 0
gegen
H1 : Δ = 0
folgenden Likelihood-Quotienten-Test, welcher asymptotisch das Signifikanzniveau α einh¨ alt: . δ(Z) = 1 |Δ(Z)| 3 sΔ (Z)
>z1−α/2
Ist in der Anwendung die Stichprobenzahl nicht groß genug, kann man eine Approximation durch die t-Verteilung verwenden, die Welch-Approximation: Δ(Z) −Δ ≈ tk − verteilt, sΔ (Z) 2
2
s2
1 wobei k = n1c−1 / (1−c) ur n2 −1 und c = ns2Δ . Wir verweisen auf Welch (1949) f¨ die Approximation und auf Wang (1971) f¨ ur eine numerische Beurteilung des Approximationsfehlers.
6.4 Aufgaben Das Neyman-Pearson-Lemma A 6.1 Neyman-Pearson-Lemma: k = ∞: Beweisen Sie das Neyman-PearsonLemma, Satz (6.2), f¨ ur den Fall, dass k = ∞. A 6.2 Eindeutigkeit des Neyman-Pearson-Tests: Beweisen Sie den Satz 6.5. A 6.3 Beweis von Satz 6.6, Teil (b): Beweisen Sie, dass unter den Voraussetzungen von Satz 6.6 die Aussage (b) in dessen Beweis folgt.
186
6. Optimale Tests und verwandte Methoden
Optimale Tests A 6.4 Exponentialverteilung: Test u ¨ber Mittelwert: Seien X1 , . . . , Xn i.i.d. und exponentialverteilt zum Parameter θ. Der Mittelwert werde mit μ = θ−1 bezeichnet. Man interessiert sich f¨ ur den Test H0 : μ ≤ μ0 gegen die Alternative H1 : μ > μ0 . (i) Sei c1−α das (1 − α)-Quantil der χ22n -Verteilung. Zeigen Sie, dass ein Test mit Verwerfungsbereich ¯ ≥ μ0 c1−α X 2n ein Test mit Signifikanzniveau α ist. (ii) Bestimmen Sie die G¨ ute des
(i) an der Stelle μ. √Tests 0aus eine Approximation der G¨ ute des (iii) Zeigen Sie, dass Φ μ0μzα + n μ−μ μ Tests aus (i) an der Stelle μ ist, wobei Φ die Verteilungsfunktion und zα das α-Quantil der Standardnormalverteilung bezeichnen. (iv) Gegeben sei folgende Stichprobe: 3, 150, 40, 34, 32, 37, 34, 2, 31, 6, 5, 14, 150, 27, 4, 6, 27, 10, 30, 37. Berechnen Sie den p-Wert zum Test aus (i) und interpretieren Sie diesen f¨ ur gegebenes μ0 = 25. A 6.5 Trunkierte Binomialverteilung: Optimale Teststatistik : Die abgeschnittene Binomialverteilung ist f¨ ur θ ∈ (0, 1) durch folgende Wahrscheinlichkeitsfunktion definiert: n x θ (1 − θ)n−x , x ∈ {1, . . . , n}. pθ (x) = x 1 − (1 − θ)n Seien X1 , . . . , Xn i.i.d. und verteilt nach der abgeschnittenen Binomialverteiur lung. Finden Sie f¨ ur festes θ0 ∈ (0, 1) eine optimale Teststatistik f¨ H0 : θ ≤ θ 0
gegen
H1 : θ > θ 0 ,
θ ∈ (0, 1).
A 6.6 UMP-Test: Binomialverteilung: Seien X und Y unabh¨angige Zufallsvariablen mit X ∼ Bin(n, p1 ), Y ∼ Bin(m, p2 ). Es soll ein UMP-Test f¨ ur die Hypothese H0 : p1 ≤ p2 gegen die Alternative H1 : p1 > p2 bestimmt werden. (i) Zeigen Sie, dass sich die gemeinsame Verteilung von X und Y in folgender Form darstellen l¨ asst: P(X = x, Y = y) = exp θ1 T1 (x, y) + θ2 T2 (x, y) + d(θ1 , θ2 ) k(x, y). ˜ 0 : θ1 ≤ 0. aquivalent zu H Dabeiist H0 ¨
6.4 Aufgaben
187
(ii) Sei θ := (θ1 , θ2 ) . Zeigen Sie, dass die bedingte Verteilung Pθ (T1 = k1 | T2 = k2 ) unabh¨ angig von θ2 ist. Berechnen Sie insbesondere P(0,θ2 ) (T1 = k1 |T2 = k2 ). (iii) Konstruieren Sie mit (i) und (ii) einen UMP-Test f¨ ur H0 : p1 ≤ p2 gegen die Alternative H1 : p1 > p2 zum Signifikanzniveau α = 0.05. (iv) Kl¨ aren Sie, wie der Test entscheiden w¨ urde, falls n = 8, X = 7 und m = 7, Y = 2 beobachtet wird. A 6.7 Rayleigh-Verteilung: UMP-Test: Seien X1 , . . . , Xn i.i.d. und Rayleigh-verteilt zum unbekannten Parameter θ > 0, d.h. X1 hat die Dichte pθ (x) =
x − x22 e 2θ 1{x>0} . θ2
ur (i) Finden Sie eine optimale Teststatistik Tn f¨ H0 : θ ≤ 1 gegen
H1 : θ > 1.
(ii) Konstruieren Sie unter Benutzung von Tn einen UMP-Test mit Signifikanzniveau α, wobei der kritische Wert c approximativ mit Hilfe des zentralen Grenzwertsatzes bestimmt werden soll. A 6.8 Weibull-Verteilung: UMP-Test: Seien X1 , . . . , Xn i.i.d. und Weibull-verteilt. Hierbei sei der Parameter β > 0 bekannt und der Parameter λ > 0 unbekannt, d.h. X1 hat die Dichte pλ (x) = λβxβ−1 e−λx 1{x>0} . β
n (i) Zeigen Sie, dass T (X) := i=1 Xiβ eine optimale Teststatistik ist f¨ ur den Test 1 1 1 1 H0 : ≤ gegen H1 : > . λ λ0 λ λ0 (ii) Sei nun β = 1 gew¨ ahlt. Zeigen Sie, dass der kritische Wert c f¨ ur einen Level-α-Test mit Verwerfungsbereich {T (X) ≥ c} gleich q/2λ0 ist, wobei q das (1 − α)-Quantil der χ22n -Verteilung ist. Zeigen Sie weiter, dass die G¨ utefunktion des UMP α-Level Tests gegeben ist durch 1 − F2n (λq/λ0 ), wobei F2n die Verteilungsfunktion der χ22n -Verteilung bezeichnet. (iii) Sei 1/λ0 = 12. Bestimmen Sie eine Stichprobengr¨oße, so dass der 0.01Level-Test eine G¨ ute von mindestens 0.95 an der Stelle 1/λ1 = 15 besitzt. Approximieren Sie die Verwerfungswahrscheinlichkeit mit Hilfe der Normalverteilung.
188
6. Optimale Tests und verwandte Methoden
A 6.9 Pareto-Verteilung: Optimaler Test: Eine Zufallsvariable heißt Pareto-verteilt zu den Parametern k, a > 0, falls sie die Dichte p(x) = ak a x−a−1 1{x>k} besitzt. X := (X1 , . . . , Xn ) seien ni.i.d. Pareto(k, a)-verteilt. k = 1 sei beur kannt. Zeigen Sie, dass T (X) := i=1 ln(Xi ) eine optimale Teststatistik f¨ H0 :
1 1 ≤ a a0
gegen
H1 :
1 1 > a a0
ist. Likelihood-Quotienten A 6.10 Exponentialverteilung: Zweiseitiger Test: Seien X1 , . . . , Xn i.i.d. und exponentialverteilt zum unbekannten Parameter θ. Man ist an dem Test f¨ ur H0 : θ = 1 gegen H1 : θ = 1 interessiert. (i) Bestimmen Sie den Likelihood-Quotienten und den dazugeh¨origen Test auf Basis einer Stichprobe {X = x}. (ii) Zeigen Sie, dass der Ablehnungsbereich G von H0 auf Basis des Likelihood-Quotienten die Form G = G1 ∪ G2 , mit G1 = {x ∈ Rn+ : x ¯ ≤ c1 }, G2 = {x ∈ Rn+ : x ¯ ≥ c2 } hat. Dabei ist c1 < c2 . A 6.11 Likelihood-Quotienten-Statistiken und Suffizienz : T (X) sei eine suffiziente Statistik f¨ ur θ. λ∗ (T (X)) und λ(X) seien die Likelihood-QuotientenStatistiken basierend auf T (X) und X. Dann gilt λ∗ (T (x)) = λ(x) f¨ ur alle x aus dem Zustandsraum. A 6.12 Likelihood-Quotienten-Test: Exponentialverteilung: Es seien zwei unabh¨angige und jeweils i.i.d.-Stichproben X1 , . . . , Xn und Y1 , . . . , Ym gegeben. Weiterhin sei X1 ∼ Exp(θ) und Y1 ∼ Exp(μ) mit θ, μ > 0. (i) Bestimmen Sie die Likelihood-Quotienten-Statistik f¨ ur H0 : θ = μ gegen
H1 : θ = μ.
(ii) Zeigen Sie, dass die Teststatistik aus (i) ¨aquivalent ist zu dem Test n i=1 X n im ≥ k∗ . X + Y i=1 i i=1 i
6.4 Aufgaben
189
A 6.13 Likelihood-Quotienten-Test: Nichtzentrale Exponentialverteilung: Die Zufallsvariablen X1 , . . . , Xn seien i.i.d. mit der Dichte pa,β (x) = β −1 e−
x−a β
1{x>a} ,
wobei der Parameter β > 0 bekannt und der Parameter a unbekannt sei. Konstruieren Sie einen Likelihood-Quotienten-Test mit Signifikanzniveau α f¨ ur das Testproblem H0 : a ≤ a0 gegen H1 : a > a0 . A 6.14 AR(1): Likelihood-Quotienten-Test: Die Zufallsvariablen Z1 , . . . , Zn seien i.i.d. mit Z1 ∼ N (0, σ 2 ) und die Varianz σ 2 sei bekannt. Gegeben sei eine Stichprobe X1 , . . . , Xn eines autoregressiven Prozesses der Ordnung 1 (siehe Aufgabe 3.7), das heißt Xi = θXi−1 + Zi f¨ ur 1 ≤ i ≤ n, θ ∈ (−1, 1) und X0 = 0. (i) Zeigen Sie, dass die Dichte von X := (X1 , . . . , Xn ) gegeben ist durch
n 2 1 i=1 (xi − θxi−1 ) exp − pθ (x) = , 2σ 2 (2πσ 2 )n mit x ∈ Rn und x0 = 0. (ii) Zeigen Sie nun, dass der Likelihood-Quotienten-Test f¨ ur H0 : aquivalent ist zu: 0 gegen H1 : θ = 0 ¨ n ( i=2 Xi Xi−1 )2 ≥ k∗ . Verwerfe H0 ⇐⇒ n−1 2 X i i=1
θ =
A 6.15 Monotone Likelihood-Quotienten: Eine Familie von Verteilungen {Pθ : θ ∈ Θ} mit Dichte oder Wahrscheinlichkeitsfunktion pθ (x) wird Verteilungsfamilie mit monotonem Likelihood-Quotienten bez¨ uglich T (X) genannt, falls eine Statistik T (X) existiert, so dass f¨ ur alle θ0 < θ1 Pθ0 und Pθ1 verschieden sind und pθ1 (x)/pθ0 (x) eine nicht fallende Funktion von T (x) ist. Beweisen Sie folgende Aussage: Sei X = (X1 , . . . , Xn ) eine i.i.d.-Stichprobe aus einer Verteilungsfamilie mit monotonem Likelihood-Quotienten bez¨ uglich T (X). Dann gilt f¨ ur jedes θ0 , dass T (X) eine optimale Teststatistik f¨ ur H0 : θ ≤ θ0 gegen H1 : θ > θ0 ist (siehe auch Bemerkung 6.7).
Anwendungsbeispiele A 6.16 Likelihood-Quotienten-Test: Beispiel : Auf zwei Maschinen A und B wird Tee abgepackt. Es werde angenommen, dass die F¨ ullgewichte der beiden Maschinen normalverteilt mit gleicher aber unbekannter Varianz σ 2 seien. Eine Stichprobe vom Umfang nA = 10 aus der Produktion der Maschi¯ A = 140 g und einer ne A liefert ein durchschittliches F¨ ullgewicht von X
190
6. Optimale Tests und verwandte Methoden
nA
¯ A )2 = 25 g2 . Eine StichproStichprobenvarianz s2A = nA1−1 i=1 (Xi,A − X be aus der Produktion der Maschine B vom Umfang nB = 8 ergibt ein ¯ B = 132 g und einer Stichprobenvarianz durchschittliches F¨ ullgewicht von X s2B = 20.25 g2 . Testen Sie mit dem Likelihood-Quotienten-Test, ob die Maschine A mit einem gr¨ oßeren durchschnittlichen F¨ ullgewicht arbeitet als die Maschine B. Verwenden Sie hierzu das Signifikanzniveau α = 0.05. A 6.17 Zweistichproben-Modell: Beispiel : Folgende Daten beziehen sich auf ein Experiment bez¨ uglich der Auswirkung einer D¨ ungungsmethode auf das Pflanzenwachstum. Die Kontrollgruppe (A) erhielt keine D¨ ungung, wohingegen die Behandlungsgruppe (B) ged¨ ungt wurde. Das Pflanzenwachstum wurde in pounds per acre (1 lb/acre = 112.1 kg/km2 ) erhoben und ergab folgende Messwerte: Gruppe A: xi = 794 1800 576 411 897 Gruppe B: yi = 2012 2477 3498 2092 1808. Verwenden Sie das Zweistichproben-Modell und nehmen Sie an, dass beide Stichproben normalverteilt mit gleicher Varianz seien; Erwartungswerte als auch Varianz sind unbekannt. (i) Finden Sie ein 95%-Konfidenzintervall f¨ ur μ1 − μ2 . (ii) Es soll zum Signifikanzniveau α = 0.05 getestet werden, ob die D¨ ungungsmethode den Ertrag tats¨ achlich verbessert. Geben Sie den LikelihoodQuotienten-Test und die zugeh¨ orige Entscheidung f¨ ur das Signifikanzniveau α = 0.05 an.
Kapitel 7.
Lineare Modelle - Regression und Varianzanalyse (ANOVA)
7.1 Einfu ¨ hrung Ziel von linearen Modellen ist es, Abh¨ angigkeiten zwischen einer Zielvariablen und beobachteten Einflussgr¨ oßen zu studieren. Die Zielvariable Y wird auch als abh¨ angige oder endogene Variable bezeichnet, im Englischen wird der Begriff Response verwendet. Die bekannten Einflussgr¨oßen x1 , . . . , xk werden als Kovariablen, unabh¨ angige oder exogene Variablen bezeichnet. In den linearen Modellen wird die Zielvariable Y nicht nur einmal, sondern n-mal, etwa an verschiedenen Patienten mit jeweils unterschiedlichen Kovariablen beobachtet. Wir nehmen an, dass die n Zielvariablen Y1 , . . . , Yn unabh¨angig sind ur jede Beobachund bezeichnen ihre beobachteten Werte mit y1 , . . . , yn . F¨ onnen die Kovariablen unterschiedlich sein, und wir ordnen tungseinheit Yi k¨ die Werte xi1 , . . . , xik der Beobachtungseinheit Yi zu. Diese Modellierung wird zun¨ achst durch einige Beispiele illustriert. B 7.1 Einfache lineare Regression: In einem Unternehmen werden verschiedene Produkte hergestellt. Es soll der Einfluss der Ausgaben f¨ ur Werbung auf den Jahresumsatz eines jeden Produktes analysiert werden. Mit Yi sei der Jahresumsatz von Produkt i bezeichnet und durch xi die Ausgaben pro Jahr, i = 1, . . . , n. Den Zusammenhang zwischen Yi und xi modelliert man in einer einfachen linearen Regression wie folgt: Yi = β0 + β1 xi + i , f¨ ur i = 1, . . . , n. Die zuf¨ alligen Fehler 1 , . . . , n seien i.i.d. und 1 ∼ N (0, σ 2 ). 2 Die Fehlervarianz σ > 0 und die Regressionsparameter β0 , β1 ∈ R sind unbekannt und die Aufgabe der statistischen Analyse wird es sein, diese zu sch¨ atzen. B 7.2 Zweistichprobenproblem: Oft hat man verschiedene Gruppen, deren Eigenschaften verglichen werden sollen. In diesem Beispiel zeigen wir, wie dieses Zweistichprobenproblem als einfache lineare Regression dargestellt werden C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8 7, c Springer-Verlag Berlin Heidelberg 2011
191
192
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
kann. Beginnend mit dem Beispiel 7.1 wurde Produkt 1 im Gegensatz zu Produkt 2 nicht beworben und man m¨ ochte die Steigerung des Jahresumsatzes durch die Werbung untersuchen. Hierf¨ ur sollen die Ums¨atze verschiedener H¨ andler herangezogen werden. Beobachtet werden Y11 , . . . , Y1n1 Ums¨atze des atze des Produktes 2. Im ZweistichproProduktes 1 und Y21 , . . . , Y2n2 Ums¨ benproblem nimmt man an, dass die Darstellung Y1i = μ1 + 1i ,
i = 1, . . . , n1
Y2i = μ2 + 2i ,
i = 1, . . . , n2
(7.1)
mit 11 , . . . , 1n1 , 21 , . . . , 2n2 i.i.d. und 11 ∼ N (0, σ 2 ) gilt. Es liegen demnach normalverteilte Fehler mit homogenen Varianzen vor, d.h. die Varianz in der ersten Gruppe ist gleich der Varianz in der zweiten Gruppe (siehe dazu Beispiel 6.15). Man kann das Modell aus (7.1) auch noch anders darstellen: Definiere Y1i , falls i = 1, . . . , n1 Yi := Y2(i−n1 ) , falls i = n1 + 1, . . . , n1 + n2 . Nun f¨ uhren wir eine Indikatorvariable (eine so genannte Dummy-Variable) ur i = 1, . . . , n1 + n2 . Damit als qualitative Kovariable ein: xi := 1{1≤i≤n1 } f¨ kann das Modell (7.1) als einfache lineare Regression dargestellt werden: Yi = β0 + β1 xi + i ,
(7.2)
mit β0 := μ2 und β1 := μ1 − μ2 und den entsprechend nummerierten 1 , . . . , n1 +n2 . B 7.3 Bivariate Regression: M¨ ochte man zwei Einflussfaktoren wie beispielsweise Werbekosten (x1i ) und Preis (x2i ) in die Analyse einschließen, so kann man folgendes lineares Modell verwenden: Yi = β0 + β1 x1i + β2 x2i + i ,
i = 1, . . . , n.
B 7.4 Einstichprobenproblem: Die Beobachtung von i.i.d. und normalverteilten Daten f¨ allt ebenfalls in diese Modellklasse: Durch Yi = μ + i ,
i = 1, . . . , n
mit 1 , . . . , n i.i.d. und 1 ∼ N (0, σ 2 ) erhalten wir eine einfache lineare Regression wie in Gleichung (7.2) mit β0 = μ, β1 = 1 und x1 = · · · = xn = 0.
7.1 Einf¨ uhrung
193
7.1.1 Das allgemeine lineare Modell Motiviert durch die oben dargestellten Beispiele stellen wir nun das allgemeine lineare Modell vor. Der Zusammenhang zwischen der Zielvariablen Y und den Kovariablen xi1 , . . . , xik wird wie folgt modelliert. Definition 7.1. Ein Modell heißt allgemeines lineares Modell, falls: (i) F¨ ur i = 1, . . . , n gilt, dass Yi = β0 + β1 xi1 + · · · + βk xik + i .
(7.3)
(ii) Die Fehler 1 , . . . , n sind i.i.d. mit 1 ∼ N (0, σ 2 ) und σ > 0. Hierbei nennen wir β := (β0 , . . . , βk ) die Regressionsparameter . Der Parameter β0 wird als Interzeptparameter bezeichnet, er legt ein mittleres Niveau fest. Es k¨ onnen aber auch Modelle mit festem β0 = 0 betrachtet werden. β und σ sind die unbekannten und zu sch¨ atzenden Parameter des Modells. Lineare Modelle lassen sich auch ohne die Normalverteilungsannahme in (ii) untersuchen. Die in diesem Kapitel vorgestellten Optimalit¨atsaussagen und die dar¨ uber hinaus gewonnenen Verteilungsaussagen und damit konstruierten Tests gelten allerdings in dieser Form nur unter (ii). Auch die Varianzhomogenit¨ at l¨ asst sich abschw¨ achen (siehe Bemerkung 7.2(ii)). Falls f¨ ur den Fehlervektor := (1 , . . . , n ) die Bedingung (ii) gilt, schreiben wir kurz ∼ Nn (0, σ 2 In ), wobei In ∈ Rn×n die Einheitsmatrix ist. Sind die Kovariablen xi1 , . . . , xik quantitativer Natur, so spricht man von multipler Regression. Sind die Kovariablen alle qualitativer Natur (wie zum Beispiel blau/schwarz), so bezeichnet man das entsprechende lineare Modell als ein Model zugeh¨ orig zur Varianzanalyse (siehe dazu Kapitel 7.4). Daf¨ ur wird auch der Begriff Analysis of Variance oder kurz ANOVA verwendet. Beobachtet man sowohl qualitative als auch quantitative Kovariablen, so spricht man von Kovarianzanalyse. B 7.5 p-Stichprobenproblem: Als Beispiel eines p-Stichprobenproblems sollen p ≥ 2 Behandlungsmethoden verglichen werden. Daf¨ ur erhalten nk Patienten die Behandlung k f¨ ur k = 1, . . . , p. Sei n := n1 + · · · + np der Gesamtstichprobenumfang und bezeichne Ykl das Behandlungsergebnis des l-ten Patienten in der Gruppe mit Behandlungsmethode k. Im p-Stichprobenproblem wird folgendes Modell untersucht: Ykl = βk + kl ,
k = 1, . . . , p, l = 1, . . . , nk .
194
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
Man kann dieses Modell als allgemeines lineares Modell mit qualitativen Kovariablen ohne Interzept aufschreiben: ⎛ ⎞ ⎛ ⎞ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ Y11 11 1 0 0 ⎜ .. ⎟ ⎜ .. ⎟ ⎟ ⎜ .. ⎟ ⎜ .. ⎟ ⎜ .. ⎜. ⎟ ⎜. ⎟ ⎟ ⎜. ⎟ ⎜. ⎟ ⎜. ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ Y1n1 ⎟ ⎜1⎟ ⎟ ⎜0⎟ ⎜0⎟ ⎜ 1n1 ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ Y21 ⎟ ⎜0⎟ ⎟ ⎜1⎟ ⎜0⎟ ⎜ 21 ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ .. ⎟ ⎜ .. ⎟ ⎟ ⎜ .. ⎟ ⎜ .. ⎟ ⎜ .. ⎜. ⎟ ⎜. ⎟ ⎟ ⎜. ⎟ ⎜. ⎟ ⎜. ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ Y2n2 ⎟ ⎜0⎟ ⎟ ⎜1⎟ ⎜0⎟ ⎜ 2n2 ⎟ = ⎜ ⎟ ·β1 + ⎜ ⎟ ·β2 +· · ·+ ⎜ ⎟ ·βp + ⎜ ⎟. Y =⎜ ⎜ Y31 ⎟ ⎜0⎟ ⎟ ⎜0⎟ ⎜0⎟ ⎜ 31 ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ .. ⎟ ⎜. ⎟ ⎟ ⎜. ⎟ ⎜. ⎟ ⎜ .. ⎜. ⎟ ⎜ .. ⎟ ⎟ ⎜ .. ⎟ ⎜ .. ⎟ ⎜. ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ Y(p−1)n ⎟ ⎜0⎟ ⎟ ⎜0⎟ ⎜0⎟ ⎜ (p−1)n p−1 ⎟ p−1 ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ Yp1 ⎟ ⎜0⎟ ⎟ ⎜0⎟ ⎜1⎟ ⎜ p1 ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜. ⎟ ⎜. ⎟ ⎟ ⎜. ⎟ ⎜. ⎟ ⎜. ⎝ .. ⎠ ⎝ .. ⎠ ⎠ ⎝ .. ⎠ ⎝ .. ⎠ ⎝ .. 0 0 1 Ypnp pnp Das p-Stichprobenproblem wird auch als One-Way-Layout bezeichnet. Bemerkung 7.2. Zu der Definition des linearen Modells (Definition 7.1) ist Folgendes zu bemerken: (i) Das Modell (7.3) wird als lineares Modell bezeichnet, da es linear in den Parametern β0 , β1 , . . . , βk ist. Man beachte, dass das Modell Yi = β0 + β1 xi + β2 x2i + i ebenso linear in β0 und β1 ist. Man kann lineare Modelle leicht auf die Form Yi = β0 + β1 g1 (xi1 , . . . , xik ) + · · · + βp gp (xi1 , . . . , xik ) + i erweitern, wobei g1 , . . . , gp bekannte, deterministische Funktionen sind. Im Gegensatz dazu ist Yi = eβ0 +β1 xi + i nicht linear in β0 und β1 . Derartige nicht-lineare Fragestellungen findet man oft in der Anwendung. Wir stellen exemplarisch ein Experiment aus der Chemie in Aufgabe 7.5 vor. Eine detaillierte Behandlung von nichtlinearen Regressionsmodellen findet man in Seber und Wild (2003). (ii) Im Punkt (ii) der Definition 7.1 haben wir f¨ ur die Fehlervariablen i angenommen, dass sie i.i.d. und normalverteilt mit Varianz σ 2 sind. Dies ur die impliziert die Varianzhomogenit¨ at der Fehler, Var(i ) = σ 2 . F¨ ugt allerdings die Annahme von unkorrelierSch¨ atzung von β und σ 2 gen¨ ten Fehlern v¨ ollig, und zwar: E(i ) = 0, Var(i ) = σ 2 und Cov(i , j ) = 0 f¨ ur alle 1 ≤ i = j ≤ n. Diese Annahme ist allerdings unzureichend, wenn
7.1 Einf¨ uhrung
195
man statistische Hypothesentests durchf¨ uhren und Konfidenzaussagen treffen will.
7.1.2 Die Matrixformulierung des linearen Modells In diesem Abschnitt entwickeln wir eine kompakte Schreibweise f¨ ur lineare Modelle. Setze ξi := β0 + β1 xi1 + · · · + βk xik f¨ ur i = 1, . . . , n. Mit der Zielvariable Y = (Y1 , . . . , Yn ) und dem Erwartungswertvektor ξ := (ξ1 , . . . , ξn ) kann man das lineare Modell (7.3) als Y =ξ+
(7.4)
mit ∼ Nn (0, σ 2 In ) schreiben. Bezeichnet weiterhin ⎛ ⎞ 1 x11 · · · x1k ⎜ . . .. ⎟ X := ⎝ ... ... . . ⎠ 1 xn1 · · · xnk die Designmatrix , so ist ξ = Xβ. Die Zeilen von X seien mit xi := (1, xi1 , . . . , xik ) ∈ Rp , p := k + 1 bezeichnet. Dann gilt ξi = x i β f¨ ur i = 1, . . . , n. F¨ ur die Spalten der Designmatrix X verwenden wir die Notation xj = (x1j , . . . , xnj ) ∈ Rn f¨ ur j = 1, . . . , k. Dann ist ξ = β0 1n + β1 x1 + · · · + βk xk mit 1n := (1, . . . , 1) ∈ Rn . Sei r ≤ p der Rang der Matrix X. Der rdimensionale, lineare Unterraum WX := a0 1n + a1 x1 + · · · + ak xk : a1 , . . . , ak ∈ R (7.5) wird von den Spalten der Designmatrix X aufgespannt. Wir nennen Y = Xβ +
(7.6)
die koordinatengebundene Darstellung von (7.3). In der koordinatengebundenen Darstellung gilt ξ = Xβ und ξ ∈ WX und die Parameter (β, σ 2 ) ∈ Θ := Rp × R+ sind zu sch¨atzen. Die fol-
196
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
gende, koordinatenfreie Darstellung erlaubt eine einfachere Formulierung in vielen F¨ allen. Hierbei geht man von Gleichung (7.4) aus, ohne direkten Bezug zu X. Sei W ein beliebiger, linearer, r-dimensionaler Unterraum von Rn . Dann heißt Y =ζ+
(7.7)
mit ζ ∈ W die koordinatenfreie Darstellung des linearen Modells. In dieser Darstellung ist (ζ, σ 2 ) ∈ Θ := W ×R+ zu sch¨atzen. Aus Gleichung (7.6) erh¨ alt man stets eine koordinatenfreie Darstellung durch W := WX , wobei r = Rang(X). Hat X vollen Rang, so gelingt auch der R¨ uckweg (siehe Satz 7.8). In beiden F¨ allen gilt nach Definition 7.1 die Normalverteilung der Fehler, ∼ Nn (0, σ 2 In ). B 7.6 Beispiele f¨ ur die Matrixformulierung des linearen Modells: Wir stellen eine Reihe von Beispielen vor, welche die obige Notation illustrieren. (i) Das Einstichprobenproblem Yi = μ + i wird mit ⎛ ⎞ 1 ⎜ ⎟ X = ⎝ ... ⎠ 1 und p = 1 = r dargestellt, d.h. k = 0 und β0 = μ. (ii) Die einfache lineare Regression aus Beispiel 7.1, Yi = β0 +β1 xi +i , l¨asst sich darstellen durch ⎞ ⎛ 1 x1 ⎟ ⎜ X = ⎝ ... ... ⎠ , (7.8) 1 xn falls nicht alle xi gleich sind, mit p = r = 2. (iii) Das p-Stichprobenproblem Ykl = βk + kl mit k = 1, . . . , p, l = 1, . . . , nk kann durch ⎛ ⎞ 1n1 0 · · · 0 ⎜ .. ⎟ ⎜ 0 1n2 . ⎟ ⎟, X=⎜ ⎜. . . .. ⎟ ⎝ .. . . ⎠ 0 0 0 1np
(7.9)
(7.10)
7.2 Sch¨ atzung in linearen Modellen
197
p
mit n = j=1 nj dargestellt werden. X hat vollen Rang p. Wir stellen noch eine alternative Parametrisierung des p-Stichprobenproblems dar, welche sich besser interpretieren l¨ asst: Definiere den Gesamtmittelwert (auch Overall Mean genannt) durch 1 βj p j=1 p
μ :=
und die Abweichung der j-ten Gruppe von μ durch αj := βj − μ,
f¨ ur j = 1, . . . , p. p Dann gilt βj = αj + μ f¨ ur alle j = 1, . . . , p und j=1 αj = 0. Damit l¨ asst sich (7.9) in Matrixform darstellen als Y = X ∗ β∗ + ⎛
⎞ μ ⎜ α1 ⎟ ⎜ ⎟ β ∗ = ⎜ . ⎟ ∈ Rp+1 ⎝ .. ⎠
mit
αp und ⎛
1n1 ⎜ .. ⎜. X∗ = ⎜ ⎜. ⎝ .. 1np
1n1 0 0 .. . 0
1n2 0
⎞ ··· 0 .. ⎟
. ⎟ ⎟ = 1n X ∈ Rn×(p+1) . . . .. ⎟ . . ⎠ 0 1np
Somit gilt Rang(X ∗ ) = p = Anzahl der Spalten von X ∗ . Man erh¨alt eine Parametrisierung, welche keinen vollen Rang hat, allerdings lassen sich die Parameter besser interpretieren.
7.2 Sch¨ atzung in linearen Modellen In diesem Abschnitt sollen die Parameter in linearen Modellen gesch¨atzt werden, d.h. im linearen Modell mit koordinatengebundener Darstellung (7.6) die Parameter (β, σ 2 ) und im linearen Modell in koordinatenfreier Darstellung (7.7) die Parameter (ζ, σ 2 ). Wie wir im p-Stichprobenmodell in Beispiel 7.6 (iii) gesehen haben, ist es mitunter sinnvoll βi − βj zu sch¨atzen. Demnach m¨ ussen in manchen F¨ allen auch Funktionen von β gesch¨atzt werden. Das
198
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
Ziel ist es, hierf¨ ur UMVUE-Sch¨ atzer zu bestimmen. Wir beginnen mit einer geeigneten Darstellung.
7.2.1 Die kanonische Form Um UMVUE-Sch¨ atzer f¨ ur ζ in dem koordinatenfreien linearen Modell aus (7.7) zu erhalten, beginnen wir mit einer geeigneten Parametrisierung des r-dimensionalen linearen Unterraums W , mit r ≤ n. Dazu nutzen wir eine Transformation welche zu unabh¨ angigen Zufallsvariablen f¨ uhrt. Mit dem Gram-Schmidt-Verfahren (siehe Fischer (1978) auf Seite 193) findet man eine orthonormale Basis von Rn gegeben durch v1 , . . . , vn ∈ Rn , so dass aufspannen. die ersten r Vektoren v1 , . . . , vr den linearen Unterraum W n Mit u, v := i=1 ui vi sei das Skalarprodukt und mit u:= u, u die zugeh¨ orige Norm bezeichnet. Die Orthonormalit¨at der Vektoren v1 , . . . , vn ist gleichbedeutend mit 1 f¨ ur i = j, und vi 2 = 1, (7.11) vi , vj = 0 sonst f¨ ur alle 1 ≤ i, j ≤ n. Da {v1 , . . . , vn } eine Basis des Rn bildet, l¨asst sich jeder Vektor t ∈ Rn darstellen als t=
n
t, vi vi .
(7.12)
i=1
Aufgrund der Orthonormalit¨ at (7.11) erh¨ alt man f¨ ur die Norm t 2 =
n
t2i =
i=1
n
t, vi 2 .
i=1
alt man die Darstellung durch die ersten r Basiselemente: Gilt tW ∈ W , so erh¨ tW =
r
tW , vi vi ,
(7.13)
i=1
da tW , vi = 0 f¨ ur i > r. Die Koordinaten des Vektors vi seien mit v1i , . . . , vni bezeichnet. Definiere Zi := Y , vi
und
ηi := ζ, vi .
(7.14)
Mit der linearen Transformation gegeben durch
A := v1 , . . . , vn ∈ Rn×n
(7.15)
7.2 Sch¨ atzung in linearen Modellen
199
erhalten wir die Darstellung Z = AY
und
η = A ζ.
(7.16)
Aus (7.12) folgt, dass Y =
n
Y , vi vi =
i=1
n
Zi vi
(7.17)
i=1
nach Definition von Zi aus Gleichung (7.14). F¨ ur ein ζ ∈ W gilt nach Gleichung (7.13) die Darstellung ζ=
r
ζ, vi vi =
i=1
r
ηi vi
(7.18)
i=1
und dar¨ uber hinaus ηi = ζ, vi = 0
f¨ ur i > r.
(7.19)
Die Transformation von Y = ζ + auf Z = AY = η + A f¨ uhrt zu unabh¨ angigen Komponenten von Z, wie folgender Satz zeigt. Satz 7.3. Sei in einem allgemeinen linearen Modell Z = (Z1 , . . . , Zn ) := AY . Dann gilt: (i) Die Zufallsvariablen Z1 , . . . , Zn sind unabh¨ angig. ur i = 1, . . . , n. (ii) Zi ∼ N (ηi , σ 2 ) f¨ Beweis. Wir verwenden die obige orthonormale Basis {v1 , . . . , vn } von Rn , deren ersten r Vektoren den linearen Unterraum W aufspannen, und die koordinatenfreie Darstellung aus (7.7). Die Aussage des Satzes gilt unabh¨angig von der Darstellung. Nach (7.7) und Lemma 1.20 ist Y ∼ Nn (ζ, σ 2 In ), wobei In die n-dimensionale Einheitsmatrix ist. Mit Gleichung (7.16) folgt ebenso, dass Z = A Y ∼ N (A ζ, σ 2 A In A ) = N (η, σ 2 AA ). Wegen der Orthonormalit¨ at der vi (siehe Gleichung (7.11)) folgt, dass ⎛ ⎞ ⎛ ⎞ v1 , v1 v1 , v2 · · · · · · v1 ⎜ v2 , v1 v2 , v2 ⎟ ⎜ ⎟ ⎟ ⎜ AA = ⎝ ... ⎠ · (v1 , . . . , vn ) = ⎜ . ⎟ = In . .. .. ⎝ ⎠ . vn vn , vn vn , v1
200
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
Somit erh¨ alt man, dass Z ∼ Nn (η, σ 2 In ) und Zi ∼ N (ηi , σ 2 ) f¨ ur i = 1, . . . , n. Die Kovarianz Cov(Zi , Zj ) = 0 verschwindet und deswegen sind Z1 , . . . , Zn unabh¨ angig nach Aufgabe 1.39. F¨ ur Y = ζ + folgt durch Multiplikation mit A auf beiden Seiten, dass Z = AY = Aζ + A = η + ∗ , wobei wir ∗ := A setzen. Durch diese Darstellung bez¨ uglich der Basis {v1 , . . . , vn } werden wir die geometrischen Eigenschaften des linearen Modells nutzen k¨ onnen. Bemerkung 7.4. Wie in (7.19) gezeigt, verschwinden die Koordinaten ηr+1 , . . . , ηn von η und es folgt η = (η1 , . . . , ηr , 0, . . . , 0) . Demnach sind Z1 , . . . , Zn unabh¨ angig und Zi ∼ N (ηi , σ 2 ) nach Satz 7.3, also 2 Zr+1 , . . . , Zn i.i.d. ∼ N (0, σ ). Definition 7.5. Sei {v1 , . . . , vn } eine orthonormale Basis von Rn so, dass
v1 , . . . , vr den linearen Unterraum W aufspannen und A := v1 , . . . , vn . Dann heißt Z := AY = η + ∗
(7.20)
die kanonische Form des allgemeinen linearen Modells. Gilt die koordinatengebundene Darstellung (7.6), so hat man in der kanonischen Form η = Xβ und es gilt den Parametervektor θ := (η , σ 2 ) zu sch¨ atzen. W¨ ahrend hierbei ζ ∈ W variiert, erhalten wir nach Bemerkung 7.4 orige Parameterraum W × R+ f¨ uhrt ηr+1 , . . . , ηn = 0. Der zu (ζ , σ 2 ) geh¨ 2 origen Parameterraum Rr × R+ . demzufolge zu dem zu (η , σ ) geh¨
7.2.2 UMVUE-Sch¨ atzer Die Dichte von Z im kanonischen Modell mit Parameter θ = (η , σ 2 ) ∈ Θ := Rr × R+ ist nach Satz 7.3 gegeben durch
pZ (z, θ) = exp
= exp
n 1 n 2 2 − 2 (zi − ηi ) − ln(2πσ ) 2σ i=1 2
r n r 1 2 ηi2 1 n 2 − 2 z + 2 zi ηi − − ln(2πσ ) , 2σ i=1 i σ i=1 2σ 2 2 i=1
7.2 Sch¨ atzung in linearen Modellen
201
f¨ ur z ∈ Rn . So ist {pZ (·, θ) : θ ∈ Θ} eine (r + 1)-dimensionale exponentielle
n Familie mit nat¨ urlicher suffizienter Statistik T (Z) := Z1 , . . . , Zr , i=1 Zi2 . Diese ist vollst¨ andig und man kann den Satz von Lehman-Scheff´e (Satz 4.7) verwenden, um UMVUE-Sch¨ atzer zu finden. Dies basiert im Wesentlichen auf der Normalverteilungsannahme von . Im Satz von Gauß und Markov (Satz 7.12) wird gezeigt, dass man die Normalverteilungsannahme f¨ ur die Parametersch¨ atzung unter zus¨ atzlichen Annahmen fallen lassen kann. Satz 7.6. In einem allgemeinen linearen Modell in kanonischer Form Z = η + ∗ ist r ) := Zi vi (7.21) ζ(Y i=1
ein UMVUE-Sch¨ atzer f¨ ur ζ aus der koordinatenfreien Darstellung Y = ζ + . Der wesentliche Grund hierf¨ ur ist die Darstellung aus Gleichung (7.18), ζ = r η v . i i i=1 ur i = 1, . . . , r. Damit ist Zr := Beweis. Nach Satz 7.3 gilt, dass E(Zi ) = ηi f¨ atzer f¨ ur ηr = (η1 , . . . , ηr ) . Nach Satz (Z1 , . . . , Zr ) ein unverzerrter Sch¨ ur ηr . Ferner folgt auch, dass 4.7 ratzer f¨ r und Satz 4.9 ist Zr ein UMVUE-Sch¨ d Z ein UMVUE-Sch¨ a tzer f¨ u r d η ist, wobei d1 , . . . , dr beliebig i i i i i=1 i=1 gew¨ ahlt sein k¨ onnen. Verwendet man dies komponentenweise, so folgt, dass r ζ ein UMVUE-Sch¨ atzer f¨ ur ζ = i=1 ηi vi ∈ W ist. ur ζj In Aufgabe 7.1 wird gezeigt, dass ζj Maximum-Likelihood-Sch¨atzer f¨ ist. Ziel des n¨ achsten Abschnittes ist es, Sch¨atzer auf der Basis der Beobachtungen Y zu bestimmen. Des Weiteren sollen UMVUE-Sch¨atzer f¨ ur β hergeleitet werden.
7.2.3 Projektionen im linearen Modell Im Folgenden gehen wir von der Beobachtung {Y = y} aus. KleinsteQuadrate-Sch¨ atzer minimieren den Abstand zur Zielvariable (siehe Definition 3.3). Im koordinatengebundenen Modell minimieren wir y − Xβ 2 u ahrend im koordinatenfreien Modell ¨ber alle β ∈ Rp , w¨ y − ζ 2
202
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA) y
0
y0
w
W
Abb. 7.1 Projektionen im linearen Modell. y ist der Vektor der beobachteten Daten und W der durch X aufgespannte lineare Unterraum. y0 ist die Projektion von y auf W . Jeder andere Vektor w ∈ W hat einen gr¨ oßeren Abstand zu y.
u ¨ber alle ζ ∈ W minimiert wird. Wie bereits erw¨ahnt, erhalten wir aus einem Modell in koordinatengebundener Darstellung durch W := WX die koordinatenfreie Darstellung, von welcher wir zun¨achst ausgehen. Wir bezeichnen ur welches mit PW y die Projektion von y auf W , d.h. PW y ist das y0 ∈ Rn f¨ y − y0 2 = min y − w 2 w∈W
gilt. Hinreichend und notwendig f¨ ur Minimalit¨at ist die Orthogonalit¨at y − y0
⊥ W,
(7.22)
d. h. y − y0 , w = 0 f¨ ur alle w ∈ W . In der Tat, w¨are y − y0 , w = δ = 0 mit (ohne Beschr¨ ankung der Allgemeinheit) einem w so, dass w = 1, so w¨ are durch y˜ := y0 + δw ein besserer Vektor gefunden: y − y˜ 2 = y − y0 2 +δ 2 − 2y − y0 , δw < y − y0 2 . Dieser Sachverhalt wird in Abbildung 7.1 illustriert.
7.2 Sch¨ atzung in linearen Modellen
203
Definition 7.7. In einem allgemeinen linearen Modell gelte f¨ ur eine meßbare Funktion β : Rn → Rp , dass y − X β(y) 2 = minp y − Xβ 2 β∈R
ˆ ) Kleinste-Quadrate-Sch¨ f¨ ur alle y ∈ Rn . Dann heißt β(Y atzer (KQS) von β im allgemeinen linearen Modell. F¨ ur die Definition eines Kleinste-Quadrate Sch¨atzers ben¨otigt man nur die Forderung (i) aus der Definition 7.1 eines allgemeinen linearen Modells. F¨ ur die Fehler werden typischerweise die (WN)-Bedingungen (siehe Seite 78) gefordert. Sie bedeuten, dass die Fehler 1 , . . . , n zentriert und unkorreliert sind. Sind die Varianzen der Fehler nicht homogen, so verwendet man gewichtete Kleinste-Quadrate-Sch¨ atzer (siehe Abschnitt 3.2.3). F¨ ur die im Folgenden gezeigte Optimalit¨ at des KQS ben¨otigt man hingegen Eigenschaft (ii) aus Definition 7.1. Der folgende Satz illustriert, dass der UMVUE-Sch¨atzer ζ aus Satz 7.6 in ) einem engen Zusammenhang zu dem Kleinste-Quadrate-Sch¨atzer β = β(Y von β steht. Satz 7.8. Sei β ein Kleinste-Quadrate-Sch¨ atzer von β und ζ der UMVUE-Sch¨ atzer aus (7.21) im koordinatenfreien Modell mit W = WX . (i) Dann gilt ζ = PW Y und ζ = X β. (ii) Ist Rang(X) = p, dann ist der Kleinste-Quadrate-Sch¨ atzer von β eindeutig und es gilt
−1 X Y. β = X X
(7.23)
−1 X ζ. Weiterhin ist β = X X ) = r Zi vi ∈ W nach (7.21) mit Z = Beweis. Zun¨ achst ist ζ = ζ(Y i=1 n Z(Y ) := AY . Nach (7.17) gilt Y = i=1 Zi vi . Wir setzen z := Z(y) und erhalten y − ζ(y) =
n
zi vi .
i=r+1
Dieser Vektor ist orthogonal zu W , denn W wird per Definition von {v1 , . . . , vr } (vergleiche (7.22)). Nach Defiaufgespannt. Daraus folgt, dass PW y = ζ(y) ) gilt nition des Kleinste-Quadrate-Sch¨ atzers β = β(Y
204
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
y − X β(y) 2 = minp y − Xβ 2 = min y − ζ 2 = y − ζ(y) 2 β∈R
ζ∈WX
f¨ ur alle y ∈ Rn . Da X β(y) ∈ W , gilt X β(y) = PW y = ζ(y) und Aussage (i) folgt. Zum Beweis von (ii) sei dim(W ) = Rang(X) = p. Dann ist X X invertierbar: W¨ are umgekehrt der Kern von X X verschieden von 0, dann existiert are auch c X Xc = Xc 2 und 0 = c ∈ Rp , so dass X Xc = 0. Damit w¨ somit Xc = 0. Dies ist aber ein Widerspruch zu Rang(X) = p. := Als N¨ achstes definieren wir die Funktion β : Rn → Rp durch β(y) −1 n f¨ ur alle y ∈ R gilt: Sei (X X) X y und zeigen, dass PW y = X β(y) ∈ W . Es reicht also y − X β(y)⊥W zu y ∈ Rn beliebig. Sicher ist X β(y) zeigen. Zun¨ achst ist X (y − X β(y)) = X y − X X(X X)−1 X y = 0.
(7.24)
Nach Definition von W gibt es zu jedem w ∈ W ein b ∈ Rp , so dass w = Xb. Damit ist (y − X β(y)) w = b X (y − X β(y)) =0
) ein Kleinste-Quadrate-Sch¨atzer gegeben. nach (7.24). Damit ist durch β(Y ˜ ˜ Nach (i) muss jeder KQS β(Y ) die Projektionseigenschaft β(y) = PW y f¨ ur ˜ ullen und somit ist β(y) = β(y) und der KQS ist eindeutig. alle y ∈ Rn erf¨ ), und somit auch Schließlich gilt nach (i), dass ζ = X β(Y
X X
−1
). X ζ = β(Y
Hat X vollen Rang (Rang(X) = p), so ist der Sch¨atzwert des Kleinste Quadrate-Sch¨atzers f¨ ur eine Beobachtung Y = y gegeben durch β(y) := −1 atzten Erwartungs(X X) Xy. Wir bezeichnen ζ(y) := X β(y) als gesch¨ wertvektor ; im Englischen ”fitted values” und y − ζ(y) als Residuenvektor (vergleiche Abbildung 7.2). Bemerkung 7.9 (Projektionen). Nach Satz 7.8 ist die Projektion von y auf W , bezeichnet durch PW y, gerade ζ(y) mit der Funktion ζ aus (7.21). Ist Rang(X) = p, so gilt dar¨ uber hinaus ζ(y) = PW y = X β(y) = X(X X)−1 X y.
(7.25)
Insbesondere ist PW = X(X X)−1 X . Da PW eine Projektion ist, gilt PW PW = PW . Eine solche Abbildung heißt idempotent. Aus Y ∼ Nn (ζ, σ 2 In ) folgt ) ∼ Nn (ζ, σ 2 PW ). ζ(Y
7.2 Sch¨ atzung in linearen Modellen
205 y
y − ζ(y)
0 ζ(y)
W
Abb. 7.2 Geometrie des linearen Modells. Hierbei ist y der Vektor der beobachteten Daten und W der durch X aufgespannte lineare Unterraum. Der Sch¨ atzer ζ(y) ist die Projektion von y auf W . Der gestrichelte Pfeil stellt den Residuenvektor y − ζ(y) dar.
Wie zu Beginn des Kapitels motiviert, sind oft lineare Funktionen der Parameter zu sch¨ atzen. Wir erhalten aus dem Satz 7.8 unmittelbar die UMVUESch¨ atzer f¨ ur diesen Fall: Bemerkung 7.10 (UMVUE-Sch¨ atzer f¨ ur lineare Funktionale). Lineare Funk Sei Ψ (ζ) eine lineare tionen von ζ erben Optimalit¨ atseigenschaften von ζ: reellwertige Funktion von ζ, d.h. Ψ (ζ) =
n
wj · ζj ,
j=1
= n wj · ζj ein unverzerrter Sch¨atzer f¨ ur Ψ (ζ). Da ζj = dann ist Ψ (ζ) j=1 r nur von Z1 , . . . , Zr ab. Daher ist Ψ (ζ) UMVUEangt Ψ (ζ) i=1 vji · Zi h¨ Sch¨ atzer von Ψ (ζ) nach dem Satz von Lehmann-Scheff´e (Satz 4.7). B 7.7 Fortsetzung von Beispiel 7.5: UMVUE-Sch¨ atzer im p-Stichprobenproblem: Betrachte das p-Stichprobenproblem mit Y ij = ζi + ij , i = 1, . . . , p, j = p 1, . . . , ni und n := i=1 ni . Wir setzen
206
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
1 ζi =: Ψ1 ζ , p i=1 p
μ :=
1 ζi =: Ψk ζ . p i=1 p
αk := ζk − μ = ζk −
Ist ζ aus Satz 7.6 der UMVUE-Sch¨ atzer von ζ, so sind nach Bemerkung 7.10 die Sch¨ atzer p 1 μ := Ψ1 ζ = ζi , p i=1 p
1 α k := Ψk ζ = ζk − ζi = ζk − μ p i=1
die entsprechenden UMVUE-Sch¨ atzer f¨ ur μ und αk , k = 1, . . . , p. Satz 7.11. Sei β = (β1 , . . . , βp ) der Kleinste-Quadrate-Sch¨ atzer im allgemeinen linearen Modell und Rang(X) = p. Dann gilt: (i) β1 , . . . , βp sind UMVUE-Sch¨ atzer f¨ ur β1 , . . . , βp . p p p (ii) F¨ ur jedes α ∈ R ist j=1 αj βj UMVUE-Sch¨ atzer f¨ ur j=1 αj βj . Beweis. Durch die Wahl von ζ := Xβ erhalten wir eine koordinatenfreie
−1 Darstellung. Dann ist β = X X X ζ und somit die j-te Koordinate von β, βj , eine lineare Funktion von ζ gegeben durch −1
(X X) X ζ j . Nach Bemerkung 7.10 ist = ((X X)−1 X ζ) ˆ = βj βj (Y ) := βj (ζ) j UMVUE-Sch¨atzer von βj . Die Aussage (ii) folgt mit (i) erneut aus Bemerkung 7.10. Wir haben nun zwei Methoden um UMVUE-Sch¨atzer f¨ ur β zu berechnen, welche in den folgenden beiden Beispielen illustriert werden sollen. Zum einen kann man die in Kapitel 3.2 vorgestellten Normalengleichungen (3.3) l¨osen, zum anderen auch die hier vorgestellten Projektionsargumente nutzen. B 7.8 Einfache lineare Regression: UMVUE-Sch¨ atzer (1) : In diesem Beispiel leiten wir die Sch¨ atzer f¨ ur die einfache lineare Regression aus Beispiel 7.1 u ¨ber die Normalengleichungen (3.3) her. In der einfachen linearen Regression ist
7.2 Sch¨ atzung in linearen Modellen
207
Yi = β0 + β1 xi + i f¨ ur i = 1, . . . , n und ∼ Nn (0, σ 2 In ). Nach Aufgabe 7.2 sind n (xi − x ¯ ) yi und β0 (y) := y¯ − β1 (y)¯ x (7.26) β1 (y) := i=1 n (x − x ¯)2 i=1 i die L¨ osungen der Normalengleichungen (3.3) und somit sind dann β1 (Y ) und β2 (Y ) Kleinste-Quadrate-Sch¨ atzer von β1 und β2 . Falls nicht alle xi gleich 31 30 und β sind, gilt Rang(X) = p = r = 2. Nach Satz 7.11 sind dann β UMVUE-Sch¨ atzer von β0 und β1 . Weiterhin ist ζi := β0 + β1 xi UMVUESch¨ atzer f¨ ur ζi = β0 + β1 xi = E(Yi |Xi = xi ). B 7.9 Einfache lineare Regression: UMVUE-Sch¨ atzer (2) : Dieses Beispiel nutzt die Darstellung u ¨ber das kanonische Modell, um die Kleinste-Quadrate-Sch¨atzer zu bestimmen. In der einfachen linearen Regression aus Beispiel 7.1 ist Yi = β0 + β1 xi + i f¨ ur i = 1, . . . , n und ∼ Nn (0, σ 2 In ). Wir suchen eine orthonormale Basis f¨ ur W = WX . Dabei wird W von den beiden Vektoren 1 und x = (x1 , . . . , xn ) aufgespannt und wir nehmen an, dass nicht alle xi gleich sind. Somit bilden {v1 , v2 } mit 1 v1 := √ · 1n n und v2 gegeben durch seine Komponenten ¯ xi − x vi2 := , n 2 (x − x ¯ ) j j=1
j = 1, . . . , n
die gesuchte orthonormale Basis von W , d.h. v1 , v2 = 0 und v1=v2= 1 sowie W = β0 1n + β1 x : β0 , β1 ∈ R = β0 1n + β1 (x − 1n x ¯) : β0 , β1 ∈ R . (7.27) ahlt, dass {v1 , . . . , vn } eine orthonormale Basis f¨ ur Seien v3 , . . . , vn so gew¨ Rn bildet. Nach Definition in Gleichung (7.14) ist 1 Z1 = Y , v1 = √ Yi , n i=1 n
Z2 = Y , v2 = n
i=1 (xi
Damit folgt, dass
n
1 −x ¯)2
i=1
(xi − x ¯) Yi .
208
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
ζ = Z1 v1 + Z2 v2 n n 1 1 1 =√ Yi √ · 1n + n · (xi − x ¯) Yi · v2 n i=1 n ¯)2 i=1 i=1 (xi − x und insbesondere n ¯) Yi ¯) (xk − x i=1 (xi − x ¯ ζk = Y + · n n 2 ¯) ¯)2 i=1 (xi − x i=1 (xi − x f¨ ur k = 1, . . . , n. Die Sch¨ atzer β0 und β1 k¨ onnen nun u ¨ber ζ berechnet werden: Aus ζ1 = β0 + β1 x1 und ζ2 = β0 + β1 x2 folgt unmittelbar, dass
ζ2 − ζ1
, β0 = ζ1 − β1 x1 . β1 = x2 − x1 Nach Bemerkung 7.10 gilt
n ζ2 − ζ1 ¯ − x1 − x ¯ (xi − x ¯)Yi x2 − x i=1
= n
· β1 = ¯)2 x2 − x1 x2 − x1 i=1 (xi − x n (xi − x ¯)Yi = i=1 n ¯)2 i=1 (xi − x und β0 = ζ1 − β1 x1 = Y¯ − β1 x ¯. B 7.10 p-Stichprobenproblem: UMVUE-Sch¨ atzer : Das in Beispiel 7.5 vorgestellte p-Stichprobenproblem hat folgende Darstellung: Ykl = βk + kl mit kl ∼ N (0, σ 2 ), k = 1, . . . , p, l = 1, . . . , nk i.i.d. Die zugeh¨orige Log-LikelihoodFunktion ist bis auf additive Konstanten (unabh¨angig von β) gegeben durch: p nk
2 1 ykl − βk . l(β, y) := − 2 2σ k=1 l=1
Das Maximum erf¨ ullt die folgenden Normalengleichungen: i
∂ yil − βi l β, y = = 0, ∂βi σ2
n
i = 1, . . . , p.
l=1
Man erh¨ alt
ni l=1
Yil = ni · βi (Y ) und somit ni 1 Yil =: Yi• βi (Y ) = ni l=1
f¨ ur alle i = 1, . . . , p. Die zweite Ableitung ist negativ und so ist dies in der p Tat ein Maximum. Definiere n := k=1 nk und
7.2 Sch¨ atzung in linearen Modellen
209 k 1 Ykl . n
p
Y•• :=
n
k=1 l=1
p 1
Dann ist μ := β• = p nach Bemerkung 7.10
k=1
βk ein lineares Funktional von β und somit ist 1 βk (Y ) p p
μ (Y ) :=
k=1
ein UMVUE-Sch¨ atzer von μ. Dabei ist μ (Y ) = Y•• . Weiterhin ist ebenso (Y ) ein UMVUE-Sch¨ atzer f¨ ur αk = βk − μ. α k (Y ) := Yk• − μ
7.2.4 Der Satz von Gauß-Markov Unter einem linearen Sch¨ atzer verstehen wir einen Sch¨atzer T (Y ) ∈ R, welcher linear in Y ist, d.h. es existiert ein b ∈ Rn , so dass T (Y ) = b, Y . Satz 7.12 (Gauß-Markov). Sei W ein linearer Unterraum von Rn mit dim(W ) = r. Es gelte, dass Y = ζ + mit ζ ∈ W und weiterhin Var(i ) = ur alle 1 ≤ i = j ≤ n. F¨ ur beliebiges a ∈ Rn sei σ 2 , Cov(i , j ) = 0 f¨ Ψa (ζ) := a, ζ. unverzerrt und hat gleichm¨ Dann ist Ψa (ζ) assig kleinste Varianz unter allen linearen, unverzerrten Sch¨ atzern von Ψa (ζ). Man nennt einen solchen Sch¨ atzer auch BLUE (best linear unbiased estimate). n ur Beweis. Sei T (Y ) = b, Y = i=1 bi Yi ein beliebiger linearer Sch¨atzer f¨ Ψa (ζ), so gilt E(T (Y )) = b E(Y ) = b, ζ, n Var(T (Y )) = b2i Var(Yi ) + 2
i=1
0≤i<j≤n
bi bj Cov(Yi , Yj ) = σ 2
n
b2i .
i=1
Falls T (Y ) ein unverzerrter Sch¨ atzer von Ψa ζ im Modell Y = ζ + mit E(i ) = 0, Var(i ) = σ 2 und Cov(i , j ) = 0 ∀ i = j sein soll, dann ist T (Y ) auch ein unverzerrter Sch¨ atzer, wenn i ∼ N (0, σ 2 ) i.i.d.; denn Erwartungswert und Varianz sind in beiden Modellen gleich.
210
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
ist ein lineaWir schließen mit folgender Beobachtung: Der Sch¨atzer Ψa (ζ) rer Sch¨ atzer von Ψa (ζ), und hat die kleinste Varianz unter allen unverzerrten, linearen Sch¨ atzern von Ψa (ζ) nach Bemerkung 7.10, wenn ∼ Nn (0, σ 2 In )
gilt. Dann muss Ψa ζ auch die kleinste Varianz unter allen unverzerrten, linearen Sch¨ atzern unter der schw¨ acheren Voraussetzung E(i ) = 0, Var(i ) = σ 2 und Cov(i , j ) = 0 ∀ i = j haben.
7.2.5 Sch¨ atzung der Fehlervarianz In diesem Abschnitt soll die Varianz σ 2 der Fehler gesch¨atzt werden. Hat man eine Darstellung des linearen Modells in der kanonischen Form mit Z wie in Gleichung (7.16), so nutzt man zur Sch¨ atzung der Fehlervarianz folgenden Sch¨ atzer: n 1 Z 2. s2 = s2 (Y ) := n − r i=r+1 i Dieser Sch¨ atzer ist erwartungstreu, da E(Zi2 ) = σ 2 . Zr+1 , . . . , Zn unabh¨angig nach Satz 7.3 sind. Ferner ist n
Zi2 =
i=r+1
n
Zi2 −
i=1
r
Zi2 .
i=1
Aus diesem Grund ist s2 eine Funktion der vollst¨andigen, suffizienten Sta n im kanonischen Modell. Nach dem Satz von tistik Z1 , . . . , Zr , i=1 Zi2 ¨ ur σ 2 . Ublicherweise Lehmann-Scheff´e (Satz 4.7) ist s2 ein UMVUE-Sch¨atzer f¨ 2 uglich Y dar. Da stellt man s bez¨ Y − ζ =
n
Zi vi −
i=1
r i=1
ist, gilt
Zi vi
(7.28)
i=r+1
n
Y − ζ 2 =
n
Zi vi =
Zi2
i=r+1 2
und somit hat s folgende Darstellung s2 =
1 Y − ζ 2 . n−r
Den Ausdruck Y − ζ 2 =
n
Yi − ζi
(7.29)
2
i=1
nennt man Residuenquadratsumme oder Residual sum of squares (RSS).
7.2 Sch¨ atzung in linearen Modellen
211
7.2.6 Verteilungstheorie und Konfidenzintervalle In diesem Abschnitt leiten wir die Verteilungen der verwendeten Sch¨atzer und entsprechende Konfidenzintervalle her. Daf¨ ur werden einige Verteilungen wichtiger Gr¨ oßen bestimmt. Zentral hierf¨ ur ist die Normalverteilungsannah ) gilt folgender me aus Definition 7.1 (ii) an . F¨ ur die Verteilung von β(Y Satz: Satz 7.13. Im allgemeinen linearen Modell gilt ) ∼ Np (β, σ 2 (X X)−1 ). β(Y
(7.30)
Beweis. Nach Definition 7.1(ii) ist ∼ Nn (0, σ 2 In ). Mit Y = Xβ + folgt ) = (X X)−1 X Y und dahieraus Y ∼ Nn (Xβ, σ 2 In ). Weiterhin ist β(Y mit eine lineare Funktion von Y . Setze C := (X X)−1 X . Nach Bemerkung 1.21 (iii) ist ) = CY ∼ Np (μ, Σ) β(Y mit μ = CXβ = (X X)−1 X Xβ = β, Σ = Cσ 2 In C = σ 2 (X X)−1 X X(X X)−1 = σ 2 (X X)−1 ,
und die Behauptung des Satzes folgt. Mit s2 (Y ) aus der Gleichung (7.29) erhalten wir folgende Aussage. ) := X β(Y ) und s2 (Y ) := Satz 7.14. Sei ζ(Y im allgemeinen linearen Modell:
1 n−r
Y − ζ 2 . Dann gilt
(i) ζ und Y − ζ sind unabh¨ angig. s2 (Y ) (ii) (n − r) ∼ χ2n−r und ist unabh¨ angig von ζ. σ2 r Beweis. Zun¨ achst ist nach Definition (7.21) ζ = i=1 Zi vi . Mit (7.28) folgt, dass n Y − ζ = Zi vi . i=r+1
Da Z1 , . . . , Zn nach Satz 7.3 unabh¨ angig sind folgt Behauptung (i). n Die ZufallsvaSomit ist auch (n − r)s2 = i=r+1 Zi2 unabh¨angig von ζ. 2 ur i = r + 1, . . . , n nach riablen Zr+1 , . . . , Zn sind i.i.d. mit Zi ∼ N (0, σ ) f¨ Bemerkung 7.4 und somit gilt, dass
212
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
2 n (n − r)s2 Zi = ∼ χ2n−r . 2 σ σ i=r+1 ) und s2 (Y ) unabh¨ angig. Korollar 7.15. Ist p = r, so sind β(Y
−1 Nach Satz 7.14 sind ζ Beweis. Nach Satz 7.8 (ii) ist β = X X X ζ. 2 angig und die Behauptung folgt. und s unabh¨ Konfidenzintervalle In diesem Abschnitt bestimmen wir ein Konfidenzintervall f¨ ur eine lineare Transformation Ψ (ζ) = b, ζ von ζ. In Bemerkung 7.9 hatten wir gesehen, dass ζ = PW Y und ζ ∼ Nn (ζ, σ 2 PW ). Es folgt, dass
Ψ ζ ∼ N b ζ, σ 2 b PW b und durch Standardisierung − Ψ (ζ) Ψ (ζ) ∼ N (0, 1). σ b PW b 2
angig nach Satz 7.14 und (n−r)s Weiterhin sind ζ und s2 unabh¨ σ2 Damit erhalten wir
Ψ ζ −Ψ ζ
√ Ψ ζ − Ψ ζ σ b PW b ∼ tn−r . = (n−r)s2 (Y ) s(Y ) b PW b /(n−r) σ2
(Y )
∼ χ2n−r .
¨ Aus diesen Uberlegungen ergibt sich folgendes Konfidenzintervall, wobei wir ) und s2 (Y ) := 1 Y − ζ 2 verwenden. tm,a bezeichnet wieder ζ := X β(Y n−r das a-Quantil der tm -Verteilung. Das zuf¨ allige Intervall
Ψ ζ ± tn−r,1−α/2 s(Y ) b PW b
ist ein (1 − α)-Konfidenzintervall f¨ ur Ψ ζ = b, ζ.
(7.31)
Bemerkung 7.16 (t-Statistik). Angewendet auf das Einstichprobenproblem aus Beispiel 7.4 erhalten wir Folgendes: Sind Y1 , . . . , Yn i.i.d. mit ur μ Y1 ∼ N (μ, σ 2 ), so folgt aus Beispiel 7.10, dass Y¯ ein UMVUE-Sch¨atzer f¨ 2 (Y ) f¨ u r die Fehlervaist. Aus Gleichung 7.29 berechnet man den Sch¨ a tzer s n 1 ¯ 2 rianz und erh¨ alt s2 (Y ) = n−1 i=1 (Yi − Y ) , die Stichprobenvarianz (siehe Beispiel 4.1). Mit Korollar 7.15 und Satz 7.14 (ii) erh¨alt man, dass
7.3 Hypothesentests
213
√ ¯ n(Y − μ) ∼ tn−1 . s2 (Y )
7.3 Hypothesentests In diesem Kapitel werden Tests in linearen Modellen behandelt. Zun¨achst werden die theoretischen Konzepte vorgestellt und optimale Tests basierend auf Likelihood-Quotienten abgeleitet. Daran schließt sich der wichtige Spezialfall eines p-Stichprobenmodells an, in welchem die erhaltenen Tests Varianzanalyse oder ANOVA heißen. Die Testverfahren werden jeweils mit verschiedenen Anwendungen und Beispielen illustriert. Wir gehen von einem allgemeinen linearen Modell in koordinatenfreier Darstellung wie in (7.7) aus. Weiterhin betrachten wir eine Null-Hypothese, die als linearer Unterraum W0 von W gegeben ist. Zun¨achst soll ein optimaler Test f¨ ur das Testproblem H0 : ζ ∈ W0
gegen
H1 : ζ ∈ W \W0
(7.32)
gefunden werden. Dabei ist W \W0 = W ∩ W0⊥ , wobei W0⊥ := {w ∈ W : w w0 = 0 ∀ w0 ∈ W0 } das orthogonale Komplement von W0 ist. Wir setzen q := dim(W0 ). Die folgenden Beispiele zeigen, dass sich typische NullHypothesen tats¨ achlich durch einen linearen Unterraum W0 darstellen. B 7.11 Einfache lineare Regression: W0 : Seien wie in Beispiel 7.1 vorgestellt Yi = ur i = 1, . . . , n und ∼ Nn (0, σ 2 In ). Um nachzuweisen, dass β0 + β1 xi + i f¨ die Kovariable x einen linearen Einfluss auf die Zielvariable hat, untersucht man das Testproblem H0 : β1 = 0
gegen
H1 : β1 = 0.
Verwirft man die Null-Hypothese, so hat man den linearen Einfluss zu dem gegebenen Signifikanzniveau nachweisen k¨onnen. F¨ ur diesen Test betrachten wir den unter der Null-Hypothese von X aufgespannten linearen Unterraum W0 := β0 1n : β0 ∈ Rn } = {ζ ∈ Rn : ζ1 = · · · = ζn } von W = {β0 1n + β1 x : β0 , β1 ∈ R} aus Gleichung (7.27). F¨ ur ein ζ ∈ W0 ist ζ1 = · · · = ζn = β0 . M¨ ochte man dagegen den Interzeptparameter betrachten, so untersucht man das Testproblem H0 : β0 = 0 Hierf¨ ur verwendet man
gegen
H1 : β0 = 0.
214
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
˜ 0 = ζ ∈ Rn : ζ1 = β1 x1 , . . . , ζn = β1 xn , β1 ∈ R . W ˜ 0 gilt, dass ein β1 ∈ R existiert, so dass ζi = β1 xi f¨ ur alle F¨ ur ein ζ ∈ W 1 ≤ i ≤ n. B 7.12 p-Stichprobenproblem: W0 : In dem p-Stichprobenproblem aus Beispiel 7.5 ist Ykl = βk + kl mit i.i.d. kl ∼ N (0, σ 2 ), k = 1, . . . , p, l = 1, . . . , nk . M¨ochte man das Testproblem H0 : β1 = · · · = βp gegen H1 : zumindest ein βi ist nicht gleich einem anderen untersuchen, so verwendet man hierf¨ ur den linearen Unterraum W0 := ζ ∈ Rn : ζ1 = · · · = ζn , p von W mit n := k=1 nk .
7.3.1 Likelihood-Quotienten-Test Als ersten Schritt bestimmen wir den verallgemeinerten LikelihoodQuotienten-Test f¨ ur das Testproblem H0 : ζ ∈ W0 gegen H1 : ζ ∈ W \W0 in einem koordinatenfreien linearen Modell. Unter der Normalverteilungsannahme (ii) in der Definition 7.1 ist Y ∼ Nn (ζ, σ 2 In ) und die Dichte von Y ist mit θ = (ζ, σ 2 )
n
2 1 1 yi − ζi p(y, θ) := exp − 2 2σ i=1 (2πσ 2 )n/2 1 1 2 , y ∈ Rn . exp − y − ζ = 2σ 2 (2πσ 2 )n/2 Unter allen ζ ∈ W0 ist das Maximum in der Likelihood-Funktion durch das ζ0 (y) erreicht, welches den geringsten Abstand von y hat. Da W0 ein linearer Unterraum ist, erhalten wir ζ0 (y) durch die Projektion ζ0 (y) = PW0 y und so gilt
1 1 0 (y) 2 max p(y, θ) = max exp − y − ζ max 2σ 2 σ 2 >0 ζ∈W0 σ 2 >0 (2πσ 2 )n/2 f¨ ur alle y ∈ Rn . Wir bestimmen das Maximum dieser Funktion bez¨ uglich ur ist, dass die erste Ableitung verschwindet. Man erh¨alt, σ 2 . Notwendig hierf¨ dass der Maximum-Likelihood-Sch¨ atzer f¨ ur θ = (ζ, σ 2 ) unter H0 : ζ ∈ W0 mit
7.3 Hypothesentests
215
σ 02 (y) := durch
1 y − ζ0 2 n
02 (Y )) θ0 (Y ) := (ζ0 (Y ), σ
) := (ζ(Y ), σ gegeben ist. Analog gilt, dass θ(Y 2 (Y )) mit σ 2 (y) :=
1 y − ζ(y) 2 n
der Maximum-Likelihood-Sch¨ atzer von θ (unter ζ ∈ W ) ist. Folglich ist n=
y − ζ(y) 2 y − ζ0 (y) 2 = . 2 σ 0 (y) σ 2 (y)
Nach Abschnitt 6.3 wird der verallgemeinerte Likelihood-Quotienten-Test bestimmt mit Hilfe von λ(y) aus Gleichung 6.13: p(y, θ) λ(y) = = 30 ) p(y, θ
σ 02 (y) σ 2 (y)
n/2 =
y − ζ0 (y) 2 y − ζ(y) 2
n/2 ,
y ∈ Rn . (7.33)
Der Likelihood-Quotienten-Test verwirft die Null-Hypothese H0 : ζ ∈ W0 , falls λ(y) groß ist. Aus der Darstellung (7.33) liest man ab, dass λ groß ist, falls die Anpassung an die Daten unter H0 , gemessen durch y − ζ0 2 , schlechter ist als die Anpassung an die Daten unter ζ ∈ W (dies ist gerade y − ζ 2 ). Zur Bestimmung der kritischen Werte wird es einfacher sein, an Stelle von λ(y) mit 2 n − r y − ζ0 (y) 2 − y − ζ(y) n − r ζ0 (y) − ζ(y) = , r−q r − q y − ζ(y) y − ζ(y) 2 2 (7.34) wobei die zweite Gleichheit in (7.37) gezeigt wird, zu arbeiten. Da Vn (y) :=
Vn (y) =
2/n n − r λ(y) −1 , r−q
ist Vn (Y ) eine monotone Transformation von λ(Y ). Somit ist der auf Vn (Y ) basierende Test ¨ aquivalent zu dem auf λ(Y ) basierenden Test und folglich δ(Y ) := 1{Vn (Y )>c} der gesuchte Likelihood-Quotienten-Test. F¨ ur die Bestimmung des kritischen Niveaus c verwenden wir folgenden Satz. Wir ben¨ otigen nichtzentrale χ2 - und F -Verteilungen, welche bereits auf Seite 15 vorgestellt wurden und betrachten das Testproblem aus 7.32, worin die Null-Hypothese durch den linearen Unterraum W0 ⊂ W gegeben ist.
216
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
Satz 7.17. Sei ζ0 := PW0 ζ, r := dim(W ) und q := dim(W0 ) mit r > q. Dann ist in einem koordinatenfreien linearen Modell Vn (Y ) aus (7.34) nichtzentral Fr−q,n−r (δ 2 )-verteilt mit 2
δ :=
ζ − ζ 0 2 σ2
.
Insbesondere gilt unter H0 : ζ ∈ W0 , dass Vn ∼ Fr−q,n−r . Die wesentliche Bedeutung dieses Satzes liegt in seiner Anwendung im folgenden Test mit der Teststatistik Vn (Y ) aus (7.34). Mit F1−α,r−q,n−r bezeichnen wir das (1 − α)-Quantil der Fr−q,n−r -Verteilung. Nach Satz 7.17 ist δ(Y ) := 1{Vn (Y )≥F1−α,r−q,n−r }
(7.35)
ein Level-α-Test f¨ ur H0 : ζ ∈ W0 gegen H1 : ζ ∈ W0 . Dieser Test heißt F-Test. Beweis. Sei v1 , . . . , vn eine orthonormale Basis f¨ ur Rn , welche so geordnet ur W0 ist, und {v1 , . . . , vq , vq+1 , ist, dass die Menge {v1 , . . . , vq } eine Basis f¨ ur W . Sei A = (v1 , . . . , vn ). Dann ist A A = In und . . . , vr } eine Basis f¨ wir erhalten durch A die Darstellung als kanonisches Modell u ¨ber Z = AY . ur alle i = r + 1, . . . , n. Ist ζ ∈ W0 , so gilt Ist ζ ∈ W, so gilt ηi = 0 f¨ ur i = q + 1, . . . , r. Aus Satz 7.6 folgt, dass dar¨ uber hinaus, dass ηi = 0 f¨ ζ0 = ζ0 (Y ) :=
q
Zi vi
(7.36)
i=1
ein UMVUE-Sch¨ atzer f¨ ur ζ unter H0 : ζ ∈ W0 ist. Nach (7.17) ist Y = n Z v und wir erhalten i=1 i i n Y − ζ0 (Y )2 = Zi2 . i=q+1
r Mit ζ := i=1 Zi vi erhalten wir die Darstellung 2 2 r (n − r) · i=q+1 Zi2 /σ 2 (n − r) Y − ζ0 − Y − ζ Vn (Y ) = = . n (r − q) Y − ζ2 (r − q) · i=r+1 Zi2 /σ 2
7.3 Hypothesentests
217
r
n
2 2 2 2 2 2 Dabei ist i=q+1 Zi /σ nichtzentral χr−q (δ )-verteilt und i=r+1 Zi /σ analog χ2n−r -verteilt. Ferner sind sie unabh¨angig. F¨ ur den Nichtzentralit¨atsparameter δ gilt, dass
δ2 =
r r ηi2 1 2 E(Z ) = , i σ 2 i=q+1 σ2 i=q+1
und 2 r 2 r q r ηi vi − ηi vi = ηi vi = ηi2 . ζ − ζ0 = 2
i=1
i=1
i=q+1
i=q+1
Somit ist Vn ein Quotient aus unabh¨ angigen χ2 -verteilten Zufallsvariablen und damit F -verteilt mit den entsprechenden Freiheitsgraden. Ist ζ ∈ W0 , so ur i > q und δ 2 = 0, woraus die Verteilungsaussagen folgen. ist ηi = 0 f¨ Aus dem Beweis ergibt sich f¨ ur dieses Modell folgende geometrische Interpretation: Mit ζ0 (Y ) aus (7.36) ist ζ − ζ0 2 = Y − ζ0 2 = Y − ζ 2 =
r i=q+1 n i=q+1 n
Zi2 Zi2 Zi2
i=r+1
und wir erhalten folgende, orthogonale Zerlegung: Y − ζ0 2 = ζ − ζ0 2 + Y − ζ 2 ,
(7.37)
welche in Abbildung 7.3 illustriert wird. Schließlich bestimmen wir noch den Zusammenhang mit dem Sch¨atzer f¨ ur β unter H0 . Da W0 ein linearer Unterraum ist, gilt ζ ∈ W0 ⇔ ζ = X0 β0∗ f¨ ur X0 ∈ Rn×q ; mit Rang(X0 ) = q und β0∗ ∈ Rq . Damit folgt, dass ζ0 = X0 β0∗ , atzer in dem Modell Y = X0 β0∗ + ist, wobei β0∗ der Kleinste-Quadrate-Sch¨ also
−1 β0∗ = X0 X0 X0 Y . B 7.13 Einfache lineare Regression: t- und F-Test: In diesem Beispiel werden die tund F -Tests in der einfachen linearen Regression aus den allgemeinen Beur trachtungen abgeleitet. Seien wie in Beispiel 7.1 Yi = β0 + β1 xi + i f¨ i = 1, . . . , n und ∼ Nn (0, σ 2 In ). Mit obiger Notation ist r = dim(W ) = 2 und W wird von {1n , x} aufgespannt. Es soll das Testproblem
218
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA) y
0 ζ(y)
ζ0 (y)
W0
W
Abb. 7.3 Geometrische Illustration der Gleichung (7.37). Nach dem Satz von Py thagoras gilt y − ζ0 (y) 2 = ζ(y) − ζ0 (y) 2 + y − ζ(y) 2 .
H0 : β1 = 0
H1 : β1 = 0
gegen
(7.38)
untersucht werden. Demnach ist der von H0 generierte lineare Unterraum W0 von 1n erzeugt und hat die Dimension q = 1. Zun¨achst erh¨alt man durch einfaches Ausrechnen, dass ⎛ ⎞ ⎞ ⎛ 1 x1 n n¯ x ⎜ ⎟ n ⎠, X = ⎝ ... ... ⎠ , X X = ⎝ n¯ x x2i i=1 1 xn und ⎛ (X X)−1 = n
1 ⎝n
1 (xi −
x ¯)2
n i=1
x2i
−¯ x
⎞ −¯ x⎠
.
1
i=1
Die gesuchten Sch¨ atzer sind: βˆ0 = Y¯ − βˆ1 x ¯ n n (Yi − Y¯ )(xi − x ¯) Yi (xi − x ¯) i=1 i=1 ˆ β1 = = , n n (xi − x ¯)2 (xi − x ¯)2 i=1
i=1
7.3 Hypothesentests
219
wie in Beispiel 7.8 bereits u ¨ber die Normalengleichungen bestimmt. Das Moaquivalent zu folgendem Einstichprobenproblem: Yi = μ+i , dell unter H0 ist ¨ i = 1, . . . , n. Nach Bemerkung 7.16 ist μ := Y¯ ein UMVUE-Sch¨atzer f¨ ur μ. Wir nutzen (7.34) und erhalten als Teststatistik 2
2 n (n − r) ζ − ζ0 (n − 2) i=1 β0 + β1 xi − μ Vn (Y ) := =
. (r − q) Y − ζ2 (2 − 1) n Yi − β0 − β1 xi 2 i=1
Nach Satz 7.17 ist Vn (Y ) ∼ F1,n−2 . Somit verwirft man H0 : β1 = 0 gegen β1 = 0, falls Vn (Y ) > F1−α,1,n−2 und der F-Test in der einfachen linearen Regression ist gegeben durch δF (Y ) := 1{Vn (Y )>F1−α,1,n−2 }
Der F -Test hat folgenden Zusammenhang mit dem t-Test: Da nach Satz 7.13
β0 β0 2 −1 (X X) ∼ N , σ , β1 β1 folgt
β1 ∼ N β1 , σ 2 (X X)−1 22 .
−1 n −1 ¯)2 erh¨alt man den t-Test f¨ ur das Mit ss−1 xx := (X X)22 = i=1 (xi − x Testproblem (7.38) in der einfachen linearen Regression: δt (Y ) := 1{|Tn (Y )|≥tn−2,1−α/2 } , wobei Tn (Y ) :=
(7.39)
1 β √ s(Y )/ ssxx ,
2 1 1 Y − ζ 2 = Yi − β0 − β1 xi n−2 n − 2 i=1 n
s2 (Y ) =
und tm,a das a-Quantil der t-Verteilung mit m Freiheitsgraden ist. Wir erhalten, dass √ β1 ssxx = Tn (Y ) = s(Y )
n (n − 2)β12 i=1 (xi − x ¯)2 n 2 i=1 (Yi − β0 − β1 xi )
1/2
und mit n
n n
2
2
2 β0 + β1 xi − μ Y¯ − β1 x xi − x = ¯ + β1 xi − Y¯ = β12 ¯ = β1 ssxx
i=1
i=1
ergibt sich schließlich Vn (Y ) = Tn2 (Y ).
i=1
220
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
B 7.14 Multiple lineare Regression: t-Test: F¨ ur die multiple lineare Regression Yi = β1 x1i + · · · βp xpi + i , i = 1, . . . , n und ∼ Nn (0, σ 2 In ) sollen folgende Testprobleme untersucht werden: H0j : βj = 0 gegen H1j : βj = 0, j = 1, . . . , p. Analog zu dem t-Test aus Gleichung (7.39) erh¨alt man f¨ ur j ∈ {1, . . . , p} folgenden t-Test: Verwerfe H0j , falls
|β | j ≥ tn−2,1−α/2 , s(Y ) (X X)−1 jj
−1 da Var βj = σ 2 X X jj .
7.3.2 Beispiele: Anwendungen In diesem Abschnitt werden zwei praktische Anwendungen vorgestellt, welche die Anwendungen der linearen Regression in der Praxis illustrieren. B 7.15 Einfache lineare Regression: Beispiel : Eine Anwendung der linearen Regression ist die Erntevorhersage bei Weinernten (Casella und Berger (2002) - S. 540). Im Juli bilden die Weinreben bereits kleine Traubenkluster und z¨ahlt man diese, so ist eine Vorhersage der Ernte m¨oglich. Ein gemessener Datensatz ist in Tabelle 7.1 zu finden. Hierbei ist Y in Tonnen pro Morgen (Acre) gemessen und X die Anzahl der kleinen Traubenkluster dividiert durch 100.
Jahr Ertrag (y) Traubenkluster/100 (x) 1971 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983
5.6 3.2 4.5 4.2 5.2 2.7 4.8 4.9 4.7 4.1 4.4 5.4
116.37 82.77 110.68 97.50 115.88 80.19 125.24 116.15 117.36 93.31 107.46 122.30
Tabelle 7.1 Der untersuchte Datensatz. F¨ ur verschiedene Jahre werden die Ertr¨ age am Ende des Jahres (y) im Zusammenhang mit der im Juli gez¨ ahlten Traubenkluster/100 gestellt (x).
7.3 Hypothesentests
221
Wir verwenden die einfache lineare Regression (siehe Beispiel 7.8) und erhalten die gesch¨ atzte Gleichung yˆ = 0.05x − 1.02; die Sch¨ atzwerte sind gerade β0 (y) = −1.02 und β1 (y) = 0.05. Insbesondere sind dann die Roh-Residuen ei := yi − yi mit yi = 0.05xi − 1.02 . Mit β =
β0 ∼ N2 (β, σ 2 (X X)−1 ) β1
folgt, dass
−1 1 1 2 β = σ 1 xi (X X) =: σ 2 hii , Var(Yi ) = Var xi xi wobei hii = (1 xi )(X X)−1 (1 xi ) . Da die hii typischerweise unterschiedlich sind, bedeutet dies, dass die Residuen keine homogene Varianz besitzen. Um die Gr¨ oße f¨ ur verschiedene Beobachtungen i zu vergleichen, betrachtet man daher standardisierte Residuen Yi − Yi . ri := √ s 1 − hii Wie in Aufgabe 7.4 gezeigt, ist ri ∼ tn−2 . Somit erh¨alt man punktweise (1 − α)-Konfidenzintervalle f¨ ur ri durch [−t1−α/2,n−2 , t1−α/2,n−2 ]. Die Gr¨ oßen sind in Abbildung 7.4 illustriert. Hiermit ist eine Vorhersage aufgrund der j¨ ahrlichen Anzahl der Traubenkluster m¨oglich. B 7.16 Multiple lineare Regression: Beispiel: Etwas anspruchsvoller ist nat¨ urlich die Bestimmung einer multiplen linearen Regression. Hierzu untersuchen wir einen klinischen Datensatz (aus Rice (1995), Kapitel 4.5). Bei Kindern mit einer bestimmten Herzkrankheit muss ein Katheter ins Herz gelegt werden. Hierzu sticht der Operateur den Katheter eine gewisse L¨ange in die Hauptvene oder Hauptarterie. Untersucht werden soll nun, ob man die notwendige Einstichtiefe anhand von bestimmten Messgr¨oßen, n¨amlich Gr¨oße und Gewicht des Kindes, gut vorhersagen kann. Dazu misst man den Abstand zwischen Einstich und Katheterende. Die erhaltenen Messwerte findet man in Tabelle 7.2. Wendet man die multiple lineare Regression an, so erh¨alt man folgende Sch¨ atzwerte: Abstand = 21 + 0.196 · Gr¨ oße + 0.191 · Gewicht.
222
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
y
yˆ(x) = −1.02 + 0.05x
x r
x
Abb. 7.4 Die einfache lineare Regression zur Sch¨ atzung der Traubenernte. Die obere Grafik zeigt die Daten (xi , yi ) zusammen mit der gesch¨ atzten Regressionsgleichung; die untere Grafik die standardisierten Residuen ri zusammen mit punktweisen 95%Konfidenzgrenzen.
Die Grafiken in Abbildung 7.5 zeigen Histogramme f¨ ur die Variablen auf der Diagonale und xy-Plots f¨ ur alle Variablenpaare. Man sieht, dass der Abstand sowohl mit Gr¨ oße als auch mit Gewicht linear w¨achst. Daneben sind die Kovariablen Gr¨ oße und Gewicht stark korreliert. In einem ersten Ansatz passen wir das Modell oßei + β2 Gewichti + i Abstandi = β0 + β1 Gr¨ an und erhalten die Sch¨ atzwerte β0 = 21, β1 = 0.196 und β2 = 0.191. Der F -Test aus der Gleichung (7.35) des Testproblems H0 : β1 = β2 = 0
gegen
H1 : β1 oder β2 = 0
liefert Vn = 18.62 und damit einen p-Wert von 0.0006. Dies zeigt, dass beide Variablen einen signifikanten Einfluss auf die Zielvariable aus¨ uben. Da die beiden Variablen Gr¨ oße und Gewicht aber stark korreliert sind, untersu-
7.4 Varianzanalyse
223 Gr¨ oße (inch) Gewicht (lb) Abstand 42.8 63.5 37.5 39.5 45.5 38.5 43.0 22.5 37.0 23.5 33.0 58.0
40.0 93.5 35.5 30.0 52.0 17.0 38.5 8.5 33.0 9.5 21.0 79.0
37.0 49.5 34.5 36.0 43.0 28.0 37.0 20.0 33.5 30.5 38.5 47.0
Tabelle 7.2 Der betrachtete klinische Datensatz. Der Abstand (Einstichtiefe - y) soll mit Hilfe der Kovariablen Gr¨ oße und Gewicht (x1 , x2 ) vorhergesagt werden.
chen wir nun die beiden einfachen linearen Regression mit jeweils nur einer Kovariablen und erhalten die Ergebnisse, die in Tabelle 7.3 aufgef¨ uhrt sind. Hierbei ist R2 (y) := 1 −
y − X β(y) 2 2 y − 1n y¯
der Anteil an der totalen Variabilit¨ at y − 1n y¯ 2 , welche durch das gesch¨ atzte Regressionsmodell erkl¨ art wird. Regressionsgleichung
R2
Abstand=21.0 + 0.196 Gr¨ oße + 0.191 Gewicht 0.805 Abstand=12.1 + 0.597 Gr¨ oße Abstand=25.6
0.777 + 0.277 Gewicht 0.799
Tabelle 7.3 Angepasste Regressionsgleichungen mit zugeh¨ origem R2 f¨ ur den klinischen Datensatz.
7.4 Varianzanalyse Als Erweiterung des Zweistichprobenmodells erh¨alt man das der Varianzanalyse zugrundeliegende Modell. Dieses Modell ist ebenso ein Spezialfall des linearen Modells und wird sehr h¨ aufig in Anwendungen benutzt. Die verwendeten Teststatistiken werden wie im vorigen Abschnitt auf den verschiedenen Residuenquadratsummen basieren. Die Varianzanalyse untersucht Mit-
224
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
80 70 60 Größe
50 40 30 20
100 80 Gewicht 60 40 20 0
50 45 40 Abstand 35 30 25 20 20
40 Größe
60
80
0
50
100
Gewicht
20
30
40
50
Abstand
Abb. 7.5 Explorative Datenanalyse des Katheterabstands.
telwertunterschiede in einzelnen Populationen und nutzt daf¨ ur die durch das lineare Modell vorgegebene Zerlegung der Varianz, was wir sp¨ater noch genauer analysieren. Im Allgemeinen ist die Varianzanalyse die Analyse von linearen Modellen, in welchen alle Kovariablen qualitativ sind.
7.4.1 ANOVA im Einfaktorenmodell Dieser Abschnitt behandelt die so genannte einfaktorielle Varianzanalyse. Das k¨ onnte beispielsweise die Analyse des Einflusses von D¨ unger auf den Ertrag sein. Hierzu bringt man verschiedene D¨ ungersorten zur Anwendung und nimmt f¨ ur jede D¨ ungersorte eine gewisse Anzahl Messungen. Die Messungen, die zu einer D¨ ungersorte geh¨ oren, bezeichnen wir im Folgenden als Population. Zugrunde liegt folgendes Modell: Wir betrachten p Populationen, wobei von jeder einzelnen Population k eine Stichprobe der L¨ange nk gezogen wird.
7.4 Varianzanalyse
225
Des Weiteren nehmen wir an, dass alle Messungen unabh¨angig voneinander und normalverteilt mit gleicher Varianz σ 2 sind. Die Mittelwerte der Population sind allerdings unterschiedlich; Population k habe den Mittelwert βk , 1 ≤ k ≤ p. Formal gesehen betrachten wir Population k :
Yk1 , . . . , Yk nk ∼ N (βk , σ 2 ), unabh¨angig 1 ≤ k ≤ p. (7.40)
In der Sprache des linearen Modells ⎞ ⎛ ⎛ 10 Y11 ⎜ .. ⎟ ⎜ .. .. ⎜ . ⎟ ⎜. . ⎟ ⎜ ⎜ ⎜Y1 n1 ⎟ ⎜1 0 ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ Y21 ⎟ ⎜0 1 0 ⎟ ⎜ ⎜ ⎜ .. ⎟ ⎜ .. .. .. ⎜ . ⎟ ⎜. . . ⎟ ⎜ ⎜ ⎜Y2 n ⎟ = ⎜0 1 0 2⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ .. ⎟ ⎜ .. ⎜ . ⎟ ⎜. ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ Yp1 ⎟ ⎜0 ⎟ ⎜ ⎜ ⎜ . ⎟ ⎜. ⎝ .. ⎠ ⎝ .. Yp np
0
erhalten wir: ⎞ ... 0 .. ⎟ .⎟ ⎟ ... 0⎟ ⎟ ⎟ ... 0⎟ ⎟ .. ⎟ .⎟ ⎟ ... 0⎟ ⎟ ⎟ .. ⎟ .. . .⎟ ⎟ ⎟ ... 1⎟ ⎟ .. ⎟ .⎠ ... 1
⎛
β1
⎞
⎜ ⎟ ⎜ ⎟ ⎜ .. ⎟ ⎜ . ⎟ + ⎜ ⎟ ⎝ ⎠ βp
p mit Rang(X) = p und n = k=1 nk . Diese Darstellung zeigt, dass es sich um ein p-Stichprobenproblem nach Beispiel 7.5 handelt. Untersucht werden soll H0 : β1 = · · · = βp gegen H1 : mindestens ein βi = βj . Unter der Null-Hypothese H0 gilt, dass Ykj ∼ N (β1 , σ 2 ) f¨ ur alle k = 1, . . . , p und j = 1, . . . , nk . Wir setzen nk 1 Y¯k• := Ykl nk l=1
1¯ Yl• Y¯•• := p p
und
l=1
f¨ ur k = 1, . . . , p. Wir erhalten unmittelbar, dass βk = Y¯k• Kleinste-QuadrateSch¨ atzer von βk in Modell (7.40) sind. Der Sch¨atzer von β1 im Modell der ur die Berechnung von Vn beachte man, dass Null-Hypothese ist β1 = Y¯•• . F¨ p p nk ζ − ζ0 2 = (Y¯k• − Y¯•• )2 = nk · (Y¯k• − Y¯•• )2 k=1 l=1
und somit nach (7.34)
k=1
226
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
2 p nk · (Y¯k• − Y¯•• )2 (n − r) ζ − ζ0 n−p · pk=1nk Vn = 2 = ¯ 2 (r − q) Y − ζ p−1 k=1 l=1 (Ykl − Yk• ) gilt. Unter H0 ist Vn ∼ Fn−p,p−1 . Nach Gleichung (7.37) gilt folgende Zerlegung: SST = SSW + SSB , wobei SST := Y − ζ0 2 = SSW := Y − ζ 2 = SSB := ζ − ζ0 2 =
p nk
(Y¯kl − Y¯•• )2
k=1 l=1 p nk
(Ykl − Y¯k• )2
k=1 l=1 p
nk · (Y¯k• − Y¯•• )2 .
k=1
at in der Gesamtstichprobe, SSW die Hierbei bezeichnet SST die Variabilit¨ Variabilit¨ at innerhalb der Stichprobe1 auch ”Error Sum of Squares” genannt at zwischen den p Gruppen, die auch als ”(Treatment) und SSB die Variabilit¨ Sum of Squares” bezeichnet wird. Diese Gr¨ oßen werden in einer so genannten ANOVA-Tabelle wie in Tabelle 7.4 zusammengefasst. Man beachte, dass Vn = M SB /M SW (welche in Tabelle 7.4 definiert sind) und δ(Y ) = 1{Vn (Y )>F1−α,n−p,p−1 } der F -Test von H0 : β1 = · · · = βo gegen H1 : mindestens ein βi = βj ist. Fehlerquelle
SS
between samples
SSB p − 1 M SB := SSB /(p − 1) M SB /M SW
within samples
SSW n − p M SW := SSW /(n − p)
total
SST n − 1
df
MSE = SS/df
F
Tabelle 7.4 ANOVA-Tabelle f¨ ur das Einfaktormodell (df =degrees of freedom bzw. Freiheitsgrade).
1
W bezeichnet ,,within groups” und B steht f¨ ur ,,between groups”.
7.4 Varianzanalyse
227
7.4.2 ANOVA im Mehrfaktormodell Im Gegensatz zum Einfaktormodell gibt es im Mehrfaktormodell mehrere Einflussgr¨ oßen. In der vorigen D¨ unger-Ertragsuntersuchung k¨onnte es ebenso von Interesse sein, den Saatzeitpunkt zu ber¨ ucksichtigen, wie auch m¨ogliche Bodeneigenschaften. Der Einfachheit halber wird im Folgenden nur ein zweifaktorielles Modell mit gleich großen Gruppen betrachtet. Die Erweiterung auf n ungleiche Gruppen folgt analog. Das betrachtete lineare Modell ist nun 1 ≤ i ≤ I, 1 ≤ j ≤ J, 1 ≤ k ≤ K,
Yijk = μij + ijk ,
(7.41)
mit ijk i.i.d. N (0, σ 2 ). In Matrixform erhalten wir wieder Y = Xβ + mit entsprechendem X ∈ Rn×p . Hierbei ist n = IJK, p = IJ und β = (μ11 , . . . , μIJ ) ∈ RIJ . Im Vergleich zu dem Einfaktormodell entstehen durch die Produktstruktur neue Hypothesen, welche im Folgenden n¨aher betrachtet werden. Man hat nun nicht nur den Einfluss eines Faktors zu untersuchen, sondern neben der ¨ Uberlagerung der Einfl¨ usse auch m¨ ogliche Wechselwirkungen. Um dies zu verdeutlichen, betrachten wir Tabelle 7.5, welche die Effekte der Faktoren (im Mittel) auflistet.
Faktor A
Faktor B μ11
···
.. . μi1
..
. ···
μIJ μJ•
μ•1
...
μ•J
μ1J μ1•
.. .
.. .
Tabelle 7.5 Tabelle der Mittelwerte im zweifaktoriellen Modell (7.41).
Daf¨ ur setzen wir μ := μ•• = 1/IJ
J I
μij sowie
i=1 j=1
αi := μi• − μ•• =
J 1 μij − μ•• , J j=1
1 = μij − μ•• . I i=1 I
λj := μ•j − μ••
Die Gr¨ oße αi beschreibt den Zeileneffekt, also den Einfluss des Faktors A, wenn er sich im Zustand i befindet. Die Gr¨oße λj beschreibt hingegen den Spalteneffekt, den Einfluss des Faktors B, wenn er sich im Zustand j befindet. Dar¨ uber hinaus k¨ onnen Faktor A und B auch gegenseitige Wechselwirkun-
228
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
¨ gen haben (welche sich von einer simplen additiven Uberlagerung der Effekt unterscheiden), was durch die Gr¨ oße γij := μij − μ•• − αi − λj = μij − μi• − μ•j + μ•• beschrieben wird. In der Tat ist dies die Wechselwirkung, welche u ¨ber die ¨ simple additive Uberlagerung hinaus geht. Insgesamt entsteht der mittlere ¨ Effekt einer Zelle (i, j) aus Uberlagerung der einzelnen Effekte: μij = μ + αi + λi + γij .
(7.42)
Es ist zu beachten, dass bei der Zerlegung (7.42) folgende Bedingungen gelten m¨ ussen: I
αi = 0 =
i=1 I
J
λj
j=1
γij = 0
f¨ ur alle j = 1, . . . , J
γij = 0
f¨ ur alle i = 1, . . . , I.
i=1 J j=1
Durch die Zerlegung (7.42) sind wir nun in der Lage, neue Hypothesen zu formulieren: • • •
Kein Einfluss von Faktor A: Hα : α1 = · · · = αI = 0 im Modell μij = μ + αi + λj . Kein Einfluss von Faktor B: Hλ : λ1 = · · · = λJ = 0 im Modell μij = μ + αi + λj . Keine Wechselwirkung zwischen Faktor A und B: Hγ : γij = 0, 1 ≤ i ≤ I, 1 ≤ j ≤ J im Modell μij = μ + αi + λj + γij .
F¨ ur die Sch¨ atzung von β im Modell (7.41) erhalten wir analog zum Einfaktormodell, dass K 1 μ ij = Yij• = Yijk K k=1
f¨ ur alle 1 ≤ i ≤ I und 1 ≤ j ≤ J gilt. Insbesondere folgt, dass RSS := Y − X β 2 =
I J K
(Yijk − Yij• )2 .
i=1 j=1 k=1
Wir betrachten nun den F -Test zu einer allgemein Hypothese H : ζH = XH βH ∈ WH
7.4 Varianzanalyse
229
im Modell Y = ζ + mit ζ = Xβ ∈ W . Hierbei soll WH ⊂ W gelten. atzer von βH . Wegen Y − X β⊥X β − XH βH l¨asst sich Sei βH der ML-Sch¨ RSSH := Y − X βH 2 wie folgt darstellen: RSSH = Y − X βH 2 = Y − X β 2 + X β − XH βH 2 = RSS+ X β − XH βH 2 . Damit k¨ onnen wir direkt RSSH −RSS ausrechnen. Wir wenden dies zun¨achst auf die Hypothese Hγ an. Hierbei ist βγ := (μ, α1 , . . . , αI , λ1 , . . . , λJ ) und ζγ = Xγ βγ mit Xγ ∈ Rn×d und d := I + J + 1. Ferner gilt, dass Rang(Xγ ) = d − 2, da folgende Identifikationsbedingungen gelten: I
J
αi = 0,
i=1
λj = 0.
(7.43)
j=1
Mit (7.43) kann man das zugeh¨ orige Kleinste-Quadrate-Minimierungsproblem, minimiere
Q(βγ ) =
I J K
(yijk − μ − αi − λj )2
(7.44)
i=1 j=1 k=1
u osen. Insbesondere gilt f¨ ur die Sch¨atzer ¨ber alle βγ ∈ Rd , eindeutig l¨ μ := Y••• ,
α i := Yi•• − Y•••
j := Y•j• − Y••• , und λ
dass die zugeh¨ origen Sch¨ atzwerte die Normalengleichungen zum Problem (7.44) erf¨ ullen. Ferner gelten auch die Identifikationsbedingungen (7.43) f¨ ur j . Damit gilt f¨ die Sch¨ atzer μ , α i und λ ur μ, α 1 , . . . , α I , γ 1 , . . . , γ J ) , βγ = ( dass 2 = X β − Xγ γ
J K I
j )2 (Yij• − μ −α i − λ
i=1 j=1 k=1
=K
J I
(Yij• − Yi•• − Y•j• + Y••• )2 .
i=1 j=1
F¨ ur die Hypothesen Hα und Hλ ist zu beachten, dass wir hierarchisch vorgehen. Zun¨ achst wird Hγ getestet. Falls Hγ angenommen wird, testet man auf ur alle i, j annimmt. Somit Hα bzw. Hλ . Dies bedeutet, dass man γij = 0 f¨ erhalten wir analog die Ergebnisse in Tabelle 7.6.
230
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
Hypothese H
dfH
RSSH − RSS
Hα
I −1
JK
I
Hλ
J −1
IK
J
Hγ
(I − 1)(J − 1)
K
i=1
j=1
I,J
Yi•• − Y•••
Y•i• − Y•••
i=1,j=1
2
2
Yij• − Yi•• − Y•j• + Y•••
2
Tabelle 7.6 Verallgemeinerte Varianzanalyse-Tabelle.
Bezeichne dfH die Freiheitsgrade zugeh¨ orig zur Hypothese H. Dann gilt insbesondere, dass die Hypothese H verworfen wird, falls VH :=
(RSSH − RSS)/dfH > F1−α,dfH ,n−IJ . RSS/(n − IJ)
Im Folgenden diskutieren wir ein weiteres Beispiel (siehe Georgii (2004), Bsp. 12.35). B 7.17 Wechselwirkung von Medikamenten und Alkohol : Eine Untersuchung soll kl¨ aren, inwiefern ein Medikament in Wechselwirkung mit Alkohol die Reaktionsf¨ ahigkeit beeinflusst. Hierzu werden die Reaktionszeiten von 6 Gruppen mit jeweils 4 Personen untersucht (I = 2, J = 3): Gem¨aß der Varianzanalyse
Promille Tablette
0.0
0.5
1.0
ohne
23, 21, 20, 19
22, 25, 24, 25
24, 25, 22, 26
mit
22, 19, 18, 20
23, 21, 24, 28
25, 28, 32, 29
Tabelle 7.7 Gemessene Reaktionszeiten (in Hundertelsekunden) der behandelten Patientengruppen.
erstellt man eine Tabelle mit den einzelnen Gruppen-Mittelwerten und den jeweiligen Zeilen- bzw. Spaltenmittelwerten. Diese Tabelle l¨asst erste Trends erkennen, aber nat¨ urlich noch keinen signifikanten Schluss zu. Die Fragestellungen von Interesse sind: 1. Beeintr¨ achtigt die Tabletteneinnahme die Reaktionsf¨ahigkeit? 2. Inwiefern besteht eine Wechselwirkung mit Alkohol, beziehungsweise ver¨ andert die zus¨ atzliche Einnahme von Alkohol den Medikamenteneffekt? Die Zunahme der beobachteten mittleren Reaktionszeit der Personen ohne Tabletteneinnahme im Vergleich zu den Personen mit Tabletteneinnahme
7.4 Varianzanalyse
231 Promille
Tablette
0.0
0.5
1.0
ohne
20.75
24
24.25
23.0
mit
19.75
24
28.5
24.08
Y•j•
20.25
24
26.38
Y••• = 23.54
Yi••
Tabelle 7.8 Mittelwerte der Tabelle 7.7.
(23.0 – 24.08) scheint darauf hinzudeuten, dass die Tabletteneinnahme die Reaktionszeit verschlechtert. Die schlechteste beobachtete mittlere Reaktionszeit ist in der Gruppe mit dem h¨ ochsten Alkoholgehalt und Tabletteneinnahme zu verzeichnen. Vermutlich ist eine Wechselwirkung vorhanden. Welche der Unterschiede sind nun signifikant? Hierzu stellt man eine verallgemeinerte Varianzanalyse-Tabelle auf. Die Sch¨ atzwerte sind in Tabelle 7.9 aufgelistet. Hier ist der Sch¨atzwert f¨ ur
Hypothese H dfH RSSH − RSS VH =
(RSSH −RSS)/dfH RSS/(n−IJ)
p-Wert
Hα
1
7.04
1.52
0.233
Hλ
2
152.58
16.50
0.000
Hγ
2
31.08
3.36
0.057
Tabelle 7.9 Die Ergebnisse der Zus¨ atzlich errechnet sich RSS=83.25.
verallgemeinerten
Varianzanalyse-Tabelle.
RSS=83.25. Der Tabelle entnehmen wir, dass die Wechselwirkung (knapp) nicht signifikant, der Effekt des Alkohols allerdings h¨ochst signifikant im Modell ohne Wechselwirkung ist.
7.4.3 Referenzen Da lineare Modelle in vielen unterschiedlichen Gebieten angewendet werden, gibt es eine Vielzahl an Literatur f¨ ur einzelne Anwendungsbereiche. Die B¨ ucher von Myers (1990) und Milton und Myers (1998) sind mathematisch aufgebaut und bieten eine gelungene Einf¨ uhrung in die Thematik. Die B¨ ucher von Weisberg (2005) und Chatterjee (2006) enthalten viele Anwendungen. Moderne Einf¨ uhrungen mit einer Behandlung geeigneter Software sind Ryan
232
7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)
(2008) und Fox (2008). Das Buch von Fahrmeir, Kneib und Lang (2009) behandelt neueste Verfahren im Bereich der Regressionsanalyse.
7.5 Aufgaben A 7.1 Der KQS ist auch MLS im Normalverteilungsfall: Zeigen Sie, dass der Kleinste-Quadrate-Sch¨ atzer β auch Maximum-Likelihood-Sch¨atzer im allgemeinen linearen Modell ist, falls ∼ N (0, σ 2 In ). A 7.2 Einfache lineare Regression: Betrachten Sie die einfache lineare Regression aus Beispiel 7.1. Zeigen Sie, dass n (xi − x ¯)yi β1 (y) := i=1 und β0 (y) := y¯ − β1 x ¯ n (x − x ¯)2 i i=1 30 (y) und β 31 (y) Kleinstedie Normalengleichungen (3.3) l¨ osen und somit β Quadrate-Sch¨ atzer von β0 und β1 sind. A 7.3 Einfache lineare Regression: Konfidenzintervalle: Konstruieren Sie (1 − α)Konfidenzintervalle f¨ ur β0 und β1 im einfachen linearen Regressionsmodell Yi = β0 + β1 xi + i f¨ ur i = 1, . . . , n und 1 , . . . , n i.i.d. mit 1 ∼ N (0, σ 2 ). A 7.4 Einfache lineare Regression: Standardisierte Residuen: Betrachtet werde die einfache lineare Regression aus Beispiel 7.1. Zeigen Sie, dass ri , i = 1, . . . , n gegeben durch Yi − Yi ri := √ s 1 − hii mit hii = (1 xi )(X X)−1 (1 xi ) gerade tn−2 -verteilt ist. A 7.5 Nichtlineare Regression: Arrhenius-Gesetz : In der Chemie werden h¨aufig so genannte Reaktionsgeschwindigkeitskonstanten Ki , i = 1, . . . , n, bei unterschiedlichen Messtemperaturen Ti gemessen. Die Messungen unterliegen einem multiplikativen Messfehler. Es kann allerdings angenommen werden, angig sind. Bestimmen Sie mit Hilfe des Arrhenius-Gesetzes dass die Ki unabh¨
E , i = 1, . . . , n, Ki = A · exp − R · Ti ein lineares Regressionsmodell und berechnen Sie damit die Kleinste-Quadrateˆ Die allgemeine Gaskonstante R kann als gegeben vorausSch¨ atzer Aˆ und E. gesetzt werden.
7.5 Aufgaben
233
A 7.6 Einfache lineare Regression: Body-Mass-Index : In einer Studie zur Untersuchung von Herzkreislauferkrankungen wurde bei sechs M¨annern der BodyMass-Index (kurz BMI), welcher den Quotienten aus Gewicht in kg geteilt durch das Quadrat der K¨ orpergr¨ oße in m darstellt, erhoben. Zus¨atzlich wurde ¨ deren systolischer Blutdruck gemessen, da vermutet wurde, dass Ubergewicht Bluthochdruck hervorruft. Bezeichne X den BMI und Y den Blutdruck. F¨ ur eine Stichprobe von sechs M¨ annern erhielt man folgende Werte: xi 26 23 27 28 24 25 yi 179 150 160 175 155 150 (i) Berechnen Sie die Kleinste-Quadrate-Sch¨atzer f¨ ur β0 und β1 der einfachen linearen Regression Yi = β0 + β1 xi + i . (ii) Testen Sie H0 : β1 = 0 zum Signifikanzniveau α = 0.05. Interpretieren Sie Ihr Ergebnis. (iii) Veranschaulichen Sie die Daten und die Regressionsgerade graphisch.
Anhang A
Resultate u ¨ ber benutzte Verteilungsfamilien
A1 Liste der verwendeten Verteilungen
C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre Anwendungen, DOI 10.1007/978-3-642-17261-8, c Springer-Verlag Berlin Heidelberg 2011
235
236
A Resultate u ¨ber benutzte Verteilungsfamilien
Verteilungsfamilie
Dichte (Wahrscheinlichkeitsfunktion)
Bernoulli(p)
P(X = k) = p (1 − p)
Bin(n, p)
P(X = k) =
M (n, p1 , . . . , pd )
P(X = k) =
Geometrische
P(X = k) = p (1 − p)k−1
Hypergeo(N, n, θ)
Poiss(θ)
k
P(X = k) =
n k
1−k
k ∈ {0, 1}
pk (1 − p)n−k
n! k1 !···kd !
1 pk 1
N −N θ n−k N n
Nθ k
( )( ( )
Parameter
k · · · pdq
)
k ∈ {0, . . . , n}
Seite
p ∈ (0, 1)
10
p ∈ (0, 1), n ∈ N
10
k ∈ {0, . . . , n} , pi ∈ (0, 1) d d i=1 ki = n i=1 pi = 1 d
10
k = 1, 2, . . .
p ∈ (0, 1)
97
k ∈ {0, . . . , n}
n ∈ {1, . . . , N },
11
N θ ∈ N, θ ∈ [0, 1]
k
P(X = k) = e−λ λk! −1
k = 0, 1, 2, . . .
λ>0
10
k = 1, . . . , N
N ∈N
77
U (a, b)
(b − a)−1
x ∈ [a, b]
a
12
Exp(λ)
λe−λx
x>0
λ>0
12
x>0
a, λ > 0
16
x>0
a, λ > 0
67
x ∈ [0, 1]
a, b > 0
18
x∈R
μ ∈ R, σ > 0
12
x ∈ Rd
μ ∈ Rd
18
diskrete Gleichvert. P(X = k) = N
Gamma(a, λ)
a
λ Γ (a)
xa−1 e−λx −λ x
Invers Gamma(a, λ)
λa x−a−1 e Γ (a)
Beta(a, b)
1 xa−1 (1 B(a,b)
N (μ, σ 2 ) Nd (μ, Σ)
√ 1 e 2πσ 2
√
− x)
b−1
(x−μ)2 − 2σ 2
1 e 2π|Σ|
− 1 (x−μ) Σ −1 (x−μ) 2
Σ ∈ Rd×d p.d. Rayleigh(θ) χ2n tn
x σ2
exp
1 2n/2 Γ ( n )
− x
x 2σ 2
n −1 2
2
Γ ( n+1 ) 2
√
Γ (n/2)Γ (1/2)
e
−x 2
n
1+
2
x n
− n+1 2
x>0
σ>0
34
x>0
n∈N
13
x∈R
n∈N
14
n
Fn,m
x 2 −1 n /2 m /2 B(n/2,m/2) (m+nx)n+m/2
x>0
n, m ∈ N
14
Weibull(λ, β)
λβxβ−1 e−λx
x>0
β, λ > 0
187
x>a
a, b > 0
66
x ∈ (0, 1)r
αi > 0, r ∈ N
66
μ, λ > 0
66
n
m
β
b −a−1
Pareto(a, b)
ba x
Dirichlet
Γ ( rj=1 αj ) r Γ (αj ) j=1
Invers Gauß
λ 2π
1/2
r
αj −1 j=1 xj
r
j=1
x−3/2 e
−λ(x−μ)2 2μ2 x
x>0
xj = 1
Tabelle A1 Eine Auflistung der verwendeten Verteilungen. N = {1, 2, . . . } und p.d. steht f¨ ur positiv definit, d.h. a Σa > 0 f¨ ur alle a ∈ Rd .
Anhang B
Tabellen
B1 Exponentielle Familien Wir wiederholen die Tabellen 2.1 (Seite 53) und 2.2 (Seite 56).
Verteilungsfamilie
c(θ)
T (x)
A
Poiss(θ)
ln(θ)
x
{0, 1, 2, . . . }
Gamma(a, λ), a bekannt
−λ
x
R+
Gamma(a, λ), λ bekannt
a−1
ln x
R+
−1
R+
Invers Gamma, a bekannt
−λ
x
Invers Gamma, λ bekannt
−a − 1
ln x
R+
Beta(r, s), r bekannt
s−1
ln(1 − x)
[0, 1]
Beta(r, s), s bekannt
[0, 1]
r−1
ln(x)
2
θ/σ 2
x
2
N (μ, θ ), μ bekannt
−1/2θ 2
(x − μ)
Invers Gauß, λ bekannt
λ − 2μ 2
x
Invers Gauß, μ bekannt
−λ 2
x μ2
Bin(n, θ), n bekannt
ln θ/1−θ
x
Rayleigh(θ)
−1/2θ 2
χ2θ
θ 2
Exp(θ)
−θ
N (θ, σ ), σ bekannt
X1 , . . . , Xm i.i.d. exp. Familie
−1
c(θ)
R 2
R R+
+
1 x
R+ {0, 1, . . . , n}
2
R+
ln x
R+
x
R+
x
m
i=1
T (xi ) Am
Tabelle B1 Einparametrige exponentielle Familien. c, T und A aus Darstellung (2.6) sind in der Tabelle angegeben, d ergibt sich durch Normierung. Weitere Verteilungen, welche exponentielle Familien sind: Die Dirichlet-Verteilung (Seite 66) und die Inverse Gauß-Verteilung (Seite 66). Die tθ -, Fθ1 ,θ2 - und die Gleichverteilung U (0, θ) sowie die Hypergeometrische Verteilung lassen sich nicht als exponentielle Familien darstellen.
237
238
B Tabellen
Verteilungsfamilie
c(θ)
T (x)
A
N (θ1 , θ22 )
c1 (θ) = θ1/θ22 c2 (θ) = −1/2θ22
T1 (x) = x R T2 (x) = x2
M (n, θ1 , . . . , θd )
ci (θ) = ln θi
Ti (x) = xi
x : xi ∈ {0, . . . , n} n und i=1 xi = n .
Tabelle B2 Mehrparametrige exponentielle Familien. c, T und A aus Darstellung (2.11) sind in der Tabelle angegeben, d ergibt sich durch Normierung.
Anhang C
Verzeichnisse
Tabellenverzeichnis
2.1 2.2
Einparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . 53 Mehrparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . 56
6.1
Die Verteilung der Zufallsvariablen X aus Beispiel 6.1 . . . . . . . . 165
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9
Einfache lineare Regression: Anwendungsbeispiel . . . . . . . . . . . . . Multiple Lineare Regression: Anwendungsbeispiel . . . . . . . . . . . . Regressionsgleichungen zur multiplen linearen Regression . . . . . ANOVA-Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle der Mittelwerte im zweifaktoriellen Modell (7.41) . . . . . Varianzanalyse-Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wechselwirkung v. Medikamenten und Alkohol . . . . . . . . . . . . . . Mittelwerte der Tabelle 7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianzanalyse-Tabelle: Datenbeispiel . . . . . . . . . . . . . . . . . . . . . .
A1
Die verwendeten Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
B1 B2
Einparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . 237 Mehrparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . 238
220 223 223 226 227 230 230 231 231
239
Abbildungsverzeichnis
1.1 1.2 1.3 1.4
Verteilung der Hypergeometrischen Verteilung . . . . . . . . . . . . . . . Dichte der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dichte der Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dichte der Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 12 17 18
2.1
Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1 3.2 3.3 3.4 3.5
Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konkave Funktionen und Maxima . . . . . . . . . . . . . . . . . . . . . . . . . . Likelihood-Funktion f¨ ur Normalverteilung . . . . . . . . . . . . . . . . . . . Likelihood-Funktion einer diskreten Gleichverteilung . . . . . . . . . .
4.1 4.2
Nichtidentifizierbarkeit eines besten Sch¨atzers . . . . . . . . . . . . . . . 106 Vergleich von Mittelwertsch¨ atzern anhand des MQF . . . . . . . . . . 107
5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8
Dichte der Normalverteilung mit Quantilen . . . . . . . . . . . . . . . . . . Dichte p(x) der χ2n -Verteilung mit Quantilen . . . . . . . . . . . . . . . . Illustration eines (1 − α)-credible Intervalls . . . . . . . . . . . . . . . . . . Fehlerwahrscheinlichkeiten und G¨ utefunktion . . . . . . . . . . . . . . . . Das (1 − α)-Quantil der Normalverteilung, z1−α . . . . . . . . . . . . . √ .............. G¨ utefunktion des Tests δ(X) = 1{X≥σz ¯ 1−α / n} √ .............. G¨ utefunktion des Tests δ(X) = 1{X>z ¯ 1−α σ/ n} Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
141 143 147 151 153 154 156 159
7.1 7.2 7.3 7.4 7.5
Projektion im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erwartungswertvektor und Residuenvektor . . . . . . . . . . . . . . . . . . Geometrische Illustration der Gleichung (7.37) . . . . . . . . . . . . . . . Einfache lineare Regression: Traubenernte . . . . . . . . . . . . . . . . . . . Explorative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
202 205 218 222 224
79 82 85 87 88
240
Liste der Beispiele
1.1 1.2 1.3 1.4 1.5 1.6 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 3.1 3.2 3.3
Mittelwert und Stichprobenvarianz . . . . . . . . . . . . . . . . . Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . Fortsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Suffiziente Statistik in der Bernoulli-Verteilung . . . . . . . . . . Minima und Maxima von gleichverteilten Zufallsvariablen . . . . Qualit¨ atssicherung . . . . . . . . . . . . . . . . . . . . . . . . . . Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein nicht identifizierbares Modell . . . . . . . . . . . . . . . . . . Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Qualit¨ atssicherung, siehe Beispiel 2.1 . . . . . . . . . . . . . . . Qualit¨ atssicherung, siehe Beispiel 2.1 . . . . . . . . . . . . . . . Warteschlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . Warteschlange, Fortsetzung von Beispiel 2.7 . . . . . . . . . . . . Geordnete Population: Sch¨ atzen des Maximums . . . . . . . . . Suffiziente Statistiken f¨ ur die Normalverteilung . . . . . . . . . . Normalverteilung mit bekanntem σ . . . . . . . . . . . . . . . . Normalverteilung mit bekanntem μ . . . . . . . . . . . . . . . . Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . Die U (0, θ)-Verteilung ist keine exponentielle Familie . . . . . . . i.i.d. Normalverteilung mit bekanntem σ . . . . . . . . . . . . . Momente der Rayleigh-Verteilung . . . . . . . . . . . . . . . . . Die Normalverteilung ist eine zweiparametrige exponentielle Familie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i.i.d. Normalverteilung als exponentielle Familie . . . . . . . . . Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . Qualit¨ atssicherung unter Vorinformation . . . . . . . . . . . . . Konjugierte Familie der Bernoulli-Verteilung . . . . . . . . . . . Konjugierte Familie der Normalverteilung bei bekannter Varianz Qualit¨ atssicherung aus Beispiel 2.1 . . . . . . . . . . . . . . . . Meßmodell aus Beispiel 2.2 . . . . . . . . . . . . . . . . . . . . . Meßmodell aus Beispiel 3.2 . . . . . . . . . . . . . . . . . . . . .
5 11 21 21 21 24 37 38 40 41 43 44 44 48 48 48 50 51 51 51 52 55 56 56 56 57 59 61 71 71 72 241
242
3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
Liste der Beispiele
Relative H¨ aufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . Diskrete Gleichverteilung und Momentensch¨atzer . . . . . . . . . Meßmodell aus Beispiel 2.2 . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . Log-Likelihood-Funktion unter Unabh¨angigkeit . . . . . . . . . . Normalverteilungsfall, σ bekannt . . . . . . . . . . . . . . . . . . Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Warteschlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilungsfall, σ bekannt . . . . . . . . . . . . . . . . . . Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MLS f¨ ur Normalverteilung, μ und σ unbekannt . . . . . . . . . . ¨ Diskret beobachtete Uberlebenszeiten . . . . . . . . . . . . . . . MQF f¨ ur die Normalverteilung . . . . . . . . . . . . . . . . . . . Vergleich von Mittelwertsch¨ atzern anhand des MQF . . . . . . . Der perfekte Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . Unverzerrte Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . Vollst¨ andigkeit unter Poisson-Verteilung . . . . . . . . . . . . . . UMVUE-Sch¨ atzer f¨ ur die Normalverteilung . . . . . . . . . . . . UMVUE-Sch¨ atzer in der Exponentialverteilung . . . . . . . . . . UMVUE-Sch¨ atzer f¨ ur die Gleichverteilung . . . . . . . . . . . . . Fisher-Information unter Normalverteilung . . . . . . . . . . . . Fisher-Information f¨ ur die Poisson-Verteilung . . . . . . . . . . . Konsistente Sch¨atzung der Multinomialverteilung . . . . . . . . Konsistenz der Momentensch¨ atzer . . . . . . . . . . . . . . . . . Bernoulli-Verteilung: Asymptotische Normalit¨at . . . . . . . . . Multinomialverteilung: Asymptotische Normalit¨at . . . . . . . . Momentensch¨ atzer: Asymptotische Normalit¨at . . . . . . . . . . Poisson-Verteilung: Effizienz . . . . . . . . . . . . . . . . . . . . Normalverteilung, σ bekannt: Konfidenzintervall . . . . . . . . . Pivot (Fortsetzung von Beispiel 5.1) . . . . . . . . . . . . . . . . Unverzerrtes Konfidenzintervall (Fortsetzung von Beispiel 5.1) . Normalverteilung, μ und σ unbekannt: Konfidenzintervall . . . . Normalverteilung, μ bekannt: Konfidenzintervall f¨ ur σ 2 . . . . . Approximative Konfidenzgrenzen f¨ ur die Erfolgswahrscheinlichkeit in Bernoulli-Experimenten . . . . . . . Normalverteilungsfall: Konfidenzbereich f¨ ur (μ, σ 2 ) . . . . . . . . Test f¨ ur Bernoulli-Experiment . . . . . . . . . . . . . . . . . . . Test mit Signifikanzniveau α und Level-α-Test . . . . . . . . . .
73 74 76 76 76 77 79 79 80 81 85 86 87 87 89 90 91 92 93 104 105 107 108 110 112 112 114 117 117 120 121 124 124 125 127 140 142 142 142 143 144 146 149 150
Liste der Beispiele
243
5.10 5.11 5.12 5.13 5.14 5.15
150 151 152 153 154
6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 7.15 7.16 7.17
Fortf¨ uhrung von Beispiel 5.8 . . . . . . . . . . . . . . . . . . . . Tests: Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . Fortsetzung von Beispiel 5.8 . . . . . . . . . . . . . . . . . . . . Normalverteilung: Einseitiger Gauß-Test f¨ ur μ . . . . . . . . . . Fortsetzung von Beispiel 5.13: p-Wert . . . . . . . . . . . . . . . Normalverteilung: Zweiseitiger Gauß-Test u ¨ber den Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . . . . . . Normalverteilungstest f¨ ur H0 : μ = 0 gegen H1 : μ = ν . . . . . . Diskrete Gleichverteilung: NP-Test . . . . . . . . . . . . . . . . . Multinomialverteilung: NP-Test . . . . . . . . . . . . . . . . . . Normalverteilung: UMP-Test f¨ ur μ ≤ μ0 gegen μ > μ0 . . . . . . Normalverteilung: UMP-Test f¨ ur H0 : μ ≤ μ0 gegen H1 : μ > μ0 Bernoulli-Zufallsvariablen: UMP-Test f¨ ur H0 : θ ≤ θ0 gegen H1 : θ > θ 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung mit bekanntem Erwartungswert: Beziehung zur Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . Tests f¨ ur den Skalenparameter der Gamma-Verteilung . . . . . . Normalverteilung: zweiseitiger Gauß-TestTest f¨ ur μ . . . . . . . Cauchy-Verteilung: Nichtexistenz von UMP-Tests . . . . . . . . Matched Pair Experiments: Zweiseitiger t-Test . . . . . . . . . . Matched Pair Experiments: Einseitiger Test . . . . . . . . . . . . Differenz zweier Normalverteilungen mit homogener Varianz . . Zweistichprobenproblem mit ungleicher Varianz: Behrens-Fischer Problem . . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . Zweistichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . Bivariate Regression . . . . . . . . . . . . . . . . . . . . . . . . . Einstichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . p-Stichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . . Beispiele f¨ ur die Matrixformulierung des linearen Modells . . . . Fortsetzung von Beispiel 7.5: UMVUE-Sch¨atzer im p-Stichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression: UMVUE-Sch¨atzer (1) . . . . . . . . Einfache lineare Regression: UMVUE-Sch¨atzer (2) . . . . . . . . p-Stichprobenproblem: UMVUE-Sch¨atzer . . . . . . . . . . . . . Einfache lineare Regression: W0 . . . . . . . . . . . . . . . . . . p-Stichprobenproblem: W0 . . . . . . . . . . . . . . . . . . . . . Einfache lineare Regression: t- und F-Test . . . . . . . . . . . . . Multiple lineare Regression: t-Test . . . . . . . . . . . . . . . . . Einfache lineare Regression: Beispiel . . . . . . . . . . . . . . . . Multiple lineare Regression: Beispiel . . . . . . . . . . . . . . . . Wechselwirkung von Medikamenten und Alkohol . . . . . . . . .
157 165 166 168 169 171 173 174 174 174 175 176 179 182 182 184 191 191 192 192 193 196 205 206 207 208 213 214 217 220 220 221 230
Liste der Aufgaben
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30
Die Potenzmenge ist eine σ-Algebra . . . . . . . . . . . . . . . . Unkorreliertheit impliziert nicht Unabh¨angigkeit . . . . . . . . . Erwartungstreue der Stichprobenvarianz . . . . . . . . . . . . . . Darstellung der Binomialverteilung als Summe von unabh¨ angigen Bernoulli-Zufallsvariablen . . . . . . . . . . . . . . Erwartungswert und Varianz der Poisson-Verteilung . . . . . . . Ged¨ achtnislosigkeit der Exponentialverteilung . . . . . . . . . . Gamma-Verteilung: Unabh¨ angigkeit von bestimmten Quotienten Quotienten von Gamma-verteilten Zufallsvariablen . . . . . . . . Transformationen von Gamma-verteilten Zufallsvariablen . . . . Erwartungswert des Betrages einer Normalverteilung . . . . . . Momente der Normalverteilung . . . . . . . . . . . . . . . . . . . Momentenerzeugende Funktion einer Gamma-Verteilung . . . . Momente der Beta-Verteilung . . . . . . . . . . . . . . . . . . . . Zweiseitige Exponentialverteilung . . . . . . . . . . . . . . . . . Existenz von Momenten niedrigerer Ordnung . . . . . . . . . . . L´evy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . Momentenerzeugende Funktion und Momente der Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . Die bedingte Verteilung ist ein Wahrscheinlichkeitsmaß . . . . . Erwartungswert der bedingten Erwartung . . . . . . . . . . . . . Der bedingte Erwartungswert als beste Vorhersage . . . . . . . . Perfekte Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . Bedingte Dichte: Beispiele . . . . . . . . . . . . . . . . . . . . . . Poisson-Binomial Mischung . . . . . . . . . . . . . . . . . . . . . Exponential-Exponential Mischung . . . . . . . . . . . . . . . . . Linearit¨at des bedingten Erwartungswertes . . . . . . . . . . . . Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exponentialverteilung: Diskretisierung . . . . . . . . . . . . . . . Erwartungswert einer zuf¨ alligen Summe . . . . . . . . . . . . . . Faltungsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 31 31 31 31 31 32 32 32 32 32 32 33 33 33 33 244
Liste der Aufgaben
1.31 Die Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.32 Dichte der χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . 1.33 Wohldefiniertheit der nichtzentralen χ2 -Verteilung . . . . . . . . 1.34 Verteilung der Stichprobenvarianz . . . . . . . . . . . . . . . . . 1.35 Mittelwertvergleich bei Gamma-Verteilungen . . . . . . . . . . . 1.36 Rayleigh-Verteilung: Momente und Zusammenhang mit der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.37 Dichte der multivariaten Normalverteilung . . . . . . . . . . . . 1.38 Lineare Transformationen der Normalverteilung . . . . . . . . . 1.39 Normalverteilung: Cov(X, Y ) = 0 impliziert Unabh¨angigkeit . . 1.40 Bedingte Verteilungen der multivariaten Normalverteilung . . . 2.1 Zwischenankunftszeiten eines Poisson-Prozesses . . . . . . . . . . 2.2 Stichprobenvarianz: Darstellung . . . . . . . . . . . . . . . . . . 2.3 Parametrisierung und Identifizierbarkeit . . . . . . . . . . . . . . 2.4 Identifizierbarkeit im linearen Modell . . . . . . . . . . . . . . . ¯ . . . . . . . . . 2.5 Verschobene Gleichverteilung: Ineffizienz von X 2.6 Mehrdimensionale Verteilungen . . . . . . . . . . . . . . . . . . . 2.7 Exponentielle Familie: Verteilung von T . . . . . . . . . . . . . . 2.8 Exponentielle Familie erzeugt durch suffiziente Statistik . . . . . 2.9 Exponentielle Familie: Gegenbeispiel . . . . . . . . . . . . . . . . 2.10 Mitglieder der exponentiellen Familie . . . . . . . . . . . . . . . 2.11 Inverse Gamma-Verteilung als Exponentielle Familie . . . . . . . 2.12 Folge von Bernoulli-Experimenten . . . . . . . . . . . . . . . . . 2.13 Dirichlet-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 2.14 Inverse Gauß-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 2.15 Suffizienz: Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 2.16 Suffizienz: Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . 2.17 Suffizienz: Weibull- und Pareto-Verteilung . . . . . . . . . . . . . 2.18 Suffizienz: Nichtzentrale Exponentialverteilung . . . . . . . . . . 2.19 Suffizienz: Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . 2.20 Suffizienz: Rayleigh-Verteilung . . . . . . . . . . . . . . . . . . . 2.21 Beispiel: Qualit¨ atskontrolle . . . . . . . . . . . . . . . . . . . . . 2.22 Suffizienz: Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . 2.23 Suffizienz: Inverse Gamma-Verteilung . . . . . . . . . . . . . . . 2.24 Minimal suffiziente Statistik . . . . . . . . . . . . . . . . . . . . 2.25 Bayesianisches Modell: Gamma-Exponential . . . . . . . . . . . 2.26 Bayesianisches Modell: Normalverteiltes Experiment . . . . . . . 2.27 Konjugierte Familien: Beispiel . . . . . . . . . . . . . . . . . . . 2.28 Konjugierte Familie der Bernoulli-Verteilung . . . . . . . . . . . 2.29 Konjugierte Familie der Normalverteilung . . . . . . . . . . . . . 2.30 Konjugierte Familie der Gamma-Verteilung . . . . . . . . . . . . 2.31 Bayesianischer Ansatz: Gleichverteilung . . . . . . . . . . . . . . 2.32 Bayesianisches Wartezeitenmodell . . . . . . . . . . . . . . . . . 2.33 A posteriori-Verteilung f¨ ur die Exponentialverteilung . . . . . .
245
33 34 34 34 34 34 35 35 35 35 63 63 63 64 64 64 64 65 65 65 65 65 66 66 66 66 66 66 67 67 67 67 67 67 68 68 68 69 69 69 69 69 70
246
2.34 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17
Liste der Aufgaben
Approximation der a posteriori-Verteilung . . . . . . . . . . . . . Absolute und quadratische Abweichung . . . . . . . . . . . . . . Qualit¨ atskontrolle: H¨ aufigkeitssubstitution . . . . . . . . . . . . Momentensch¨ atzer: Beispiele . . . . . . . . . . . . . . . . . . . . Momentensch¨ atzer: Beta-Verteilung . . . . . . . . . . . . . . . . Momentensch¨ atzer: Laplace-Verteilung . . . . . . . . . . . . . . . Momentensch¨ atzer: Weibull-Verteilung . . . . . . . . . . . . . . . Momentensch¨ atzer: AR(1) . . . . . . . . . . . . . . . . . . . . . Momentensch¨ atzung hat keinen Zusammenhang zur Suffizienz . Sch¨ atzung der Kovarianz . . . . . . . . . . . . . . . . . . . . . . Maximum-Likelihood-Sch¨ atzer einer gemischten Verteilung . . . Mischung von Gleichverteilungen . . . . . . . . . . . . . . . . . . Maximum-Likelihood-Sch¨ atzer: Beispiele . . . . . . . . . . . . . Exponentialverteilung: MLS und Momentensch¨atzer . . . . . . . Maximum-Likelihood-Sch¨ atzer: Zweidimensionale Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . Verschobene Gleichverteilung . . . . . . . . . . . . . . . . . . . . Maximum-Likelihood-Sch¨ atzer: Weibull-Verteilung . . . . . . . . Zensierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . Lebensdaueranalyse: Rayleigh-Verteilung . . . . . . . . . . . . . Die Maximum-Likelihood-Methode zur Gewinnung von Sch¨ atzern hat einen Zusammenhang zur Suffizienz . . . . . . . . Gewichtete einfache lineare Regression . . . . . . . . . . . . . . . Lineare Regression: Quadratische Faktoren . . . . . . . . . . . . Gewichteter Kleinste-Quadrate-Sch¨ atzer: Normalverteilung . . . Beweis von Satz 3.10 . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung: Sch¨ atzung der Varianz . . . . . . . . . . . . . Ausreißer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Bedingung (CR) f¨ ur einparametrige exponentielle Familien . Minimal suffiziente und vollst¨ andige Statistiken . . . . . . . . . . Bernoulli-Verteilung: UMVUE . . . . . . . . . . . . . . . . . . . Vollst¨andigkeit und UMVUE . . . . . . . . . . . . . . . . . . . . Normalverteilung: UMVUE-Sch¨ atzer f¨ ur μ . . . . . . . . . . . . Normalverteilung, μ bekannt: UMVUE f¨ ur σ 2 . . . . . . . . . . . Normalverteilung, μ unbekannt: UMVUE f¨ ur σ 2 . . . . . . . . . Normalverteilung, UMVUE f¨ ur P(X > 0) . . . . . . . . . . . . . Binomialverteilung: UMVUE . . . . . . . . . . . . . . . . . . . . Diskrete Gleichverteilung: UMVUE . . . . . . . . . . . . . . . . UMVUE: Rayleigh-Verteilung (1) . . . . . . . . . . . . . . . . . UMVUE: Rayleigh-Verteilung (2) . . . . . . . . . . . . . . . . . UMVUE: Trunkierte Erlang-Verteilung . . . . . . . . . . . . . . UMVUE: Trunkierte Binomialverteilung . . . . . . . . . . . . . . Exponentialverteilung: UMVUE . . . . . . . . . . . . . . . . . . UMVUE: Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . Exponentielle Familien: UMVUE . . . . . . . . . . . . . . . . . .
70 96 97 97 98 98 98 98 98 99 99 99 99 100 100 100 100 100 101 101 101 101 102 102 102 102 130 130 130 130 130 130 130 131 131 131 131 131 131 132 132 132 132
Liste der Aufgaben
247
4.18 4.19 4.20 4.21 4.22 4.23 4.24 4.25 4.26 4.27 4.28 4.29 4.30 4.31 4.32 4.33 4.34 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16
132 133 133 133 133 133 134 134 134 135 135 135 136 136 136 136 136 159 159 160 160 160 160 161 161 161 162 162 162 185 185 185 186 186 186 187 187 188 188 188 188 189 189 189 189
Ein nicht effizienter Momentensch¨ atzer . . . . . . . . . . . . . . Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Cram´er-Rao-Schranke und die Gleichverteilung . . . . . . . Die Cram´er-Rao-Schranke ist nicht scharf . . . . . . . . . . . . . UMVUE: Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . Marshall-Olkin-Copula . . . . . . . . . . . . . . . . . . . . . . . Hinreichende Bedingungen f¨ ur Konsistenz . . . . . . . . . . . . . Verschobene Gleichverteilung: Konsistenz . . . . . . . . . . . . . Mehrdimensionale Informationsungleichung . . . . . . . . . . . . Delta-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¯ . . . . . . . . . . . . . . Delta-Methode: Transformation von X Delta-Methode: Sch¨ atzung der Kovarianz . . . . . . . . . . . . . Asymptotik: Log-Normalverteilung . . . . . . . . . . . . . . . . . Asymptotische Effizienz: Beispiel . . . . . . . . . . . . . . . . . . Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Doppelt-Exponentialverteilung: Asymptotik . . . . . . . . . . . . Gleichverteilung: Asymptotik des MLS . . . . . . . . . . . . . . Konfidenzintervall f¨ ur σ 2 bei Normalverteilung . . . . . . . . . . Konfidenzintervall bei diskreter Gleichverteilung U (0, θ) . . . . . Exponentialverteilung: Konfidenzintervall . . . . . . . . . . . . . Lineare Regression: Quadratische Faktoren . . . . . . . . . . . . Mittelwertvergleich unter Normalverteilung . . . . . . . . . . . . Varianzvergleich bei Normalverteilung . . . . . . . . . . . . . . . Delta-Methode: Sch¨ atzung der Kovarianz . . . . . . . . . . . . . Exponentialverteilung: Mittelwertvergleich . . . . . . . . . . . . Poisson-Verteilung: Test . . . . . . . . . . . . . . . . . . . . . . . Mittelwertvergleich bei Normalverteilung: G¨ utefunktion . . . . . G¨ utefunktionen bei der Gleichverteilung . . . . . . . . . . . . . . Bayesianischer Intervallsch¨ atzer . . . . . . . . . . . . . . . . . . Neyman-Pearson-Lemma: k = ∞ . . . . . . . . . . . . . . . . . . Eindeutigkeit des Neyman-Pearson-Tests . . . . . . . . . . . . . Beweis von Satz 6.6, Teil (b) . . . . . . . . . . . . . . . . . . . . Exponentialverteilung: Test u ¨ber Mittelwert . . . . . . . . . . . Trunkierte Binomialverteilung: Optimale Teststatistik . . . . . . UMP-Test: Binomialverteilung . . . . . . . . . . . . . . . . . . . Rayleigh-Verteilung: UMP-Test . . . . . . . . . . . . . . . . . . . Weibull-Verteilung: UMP-Test . . . . . . . . . . . . . . . . . . . Pareto-Verteilung: Optimaler Test . . . . . . . . . . . . . . . . . Exponentialverteilung: Zweiseitiger Test . . . . . . . . . . . . . . Likelihood-Quotienten-Statistiken und Suffizienz . . . . . . . . . Likelihood-Quotienten-Test: Exponentialverteilung . . . . . . . . Likelihood-Quotienten-Test: Nichtzentrale Exponentialverteilung AR(1): Likelihood-Quotienten-Test . . . . . . . . . . . . . . . . . Monotone Likelihood-Quotienten . . . . . . . . . . . . . . . . . . Likelihood-Quotienten-Test: Beispiel . . . . . . . . . . . . . . . .
248
6.17 7.1 7.2 7.3 7.4 7.5 7.6
Liste der Aufgaben
Zweistichproben-Modell: Beispiel . . . . . . . . . . . . Der KQS ist auch MLS im Normalverteilungsfall . . . Einfache lineare Regression . . . . . . . . . . . . . . . Einfache lineare Regression: Konfidenzintervalle . . . Einfache lineare Regression: Standardisierte Residuen Nichtlineare Regression: Arrhenius-Gesetz . . . . . . . Einfache lineare Regression: Body-Mass-Index . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
190 232 232 232 232 232 233
Literaturverzeichnis
Bauer, H. (1990). Wahrscheinlichkeitstheorie. Walter de Gruyter, Berlin. Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis (2nd ed.). Springer Verlag. Berlin Heidelberg New York. Bickel, P. J. und K. A. Doksum (2001). Mathematical Statistics: Basic Ideas and Selected Topics Vol. I (2nd ed.). Prentice Hall. Billingsley, P. (1986). Probability and Measure (2nd ed.). John Wiley & Sons. New York. Casella, G. und R. L. Berger (2002). Statistical Inference (2nd ed.). Duxbury. Pacific Grove. Chatterjee, S. (2006). Regression Analysis by Example (4th ed.). John Wiley & Sons. New York. Chung, K. L. (2001). A Course in Probability Theory. Academic Press. Duller, C. (2008). Einf¨ uhrung in die nichtparametrische Statistik mit SAS und R. Physica-Verlag Heidelberg. Fahrmeir, L., T. Kneib und S. Lang (2009). Regression: Modelle, Methoden und Anwendungen (2nd ed.). Springer Verlag. Berlin Heidelberg New York. Ferguson, T. S. (1996). A Course in Large Sample Theory. Chapman and Hall. Fischer, G. (1978). Lineare Algebra. Vieweg Mathematik, Hamburg. Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models (2nd ed.). Sage, London. Gamerman, D. und H. F. Lopes (2006). Stochastic Simulation for Bayesian Inference (2nd ed.). Chapman & Hall/ CRC, London. G¨ anssler, P. und W. Stute (1977). Wahrscheinlichkeitstheorie. Springer Verlag. Berlin Heidelberg New York. Gauß, C. F. (1809). Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Volume 2. Georgii, H.-O. (2004). Stochastik (2nd ed.). Walter de Gruyter. Berlin. Gibbons, J. D. und S. Chakraborti (2003). Nonparametric Statistical Inference (4th ed.). Dekker. Gut, A. (2005). Probability: A Graduate Course. Springer Verlag. Berlin Heidelberg New York. Irle, A. (2005). Wahrscheinlichkeitstheorie und Statistik. B. G. Teubner Verlag. Johnson, N. L., S. Kotz und N. Balakrishnan (1994a). Continuous Univariate Distributions (2nd ed.), Volume 1. John Wiley & Sons. New York. Johnson, N. L., S. Kotz und N. Balakrishnan (1994b). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley & Sons. New York. Johnson, N. L., S. Kotz und A. W. Kemp (1992). Univariate Discrete Distributions (2nd ed.). John Wiley & Sons. New York. 249
250
Literaturverzeichnis
Klein, J. P. und M. L. Moeschberger (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer Verlag. Berlin Heidelberg New York. Klenke, A. (2008). Wahrscheinlichkeitstheorie (2nd ed.). Springer Verlag. Berlin Heidelberg New York. Lange, K. (2004). Optimization. Springer Verlag. Berlin Heidelberg New York. Lee, P. M. (2004). Bayesian Statistics: An Introduction (3rd ed.). Arnold, London. Lehmann, E. L. (2007). Nonparametrics: Statistical Methods Based on Ranks. Springer Verlag. Berlin Heidelberg New York. Lehmann, E. L. und G. Casella (1998). Theory of Point Estimation (2nd ed.). Springer Verlag. Berlin Heidelberg New York. Lehmann, E. L. und J. P. Romano (2006). Testing Statistical Hypotheses (corr. 2nd printing ed.). Springer, New York. Marin, J.-M. und C. P. Robert (2007). Bayesian Core: A Practical Approach to Computational Bayesian Statistics. Springer Verlag. Berlin Heidelberg New York. Milton, J. S. und R. H. Myers (1998). Linear Statistical Models (2nd ed.). Mc Graw Hill. New York. Myers, R. H. (1990). Classical and Modern Regression with Applications (2nd ed.). Duxbury/Thomson Learning, Boston. Rao, C. R. (1973). Linear Statistical Inference and its Applications (2nd ed.). John Wiley & Sons. New York. Resnick, S. (2003). A Probability Path (3rd ed.). Kluwer Academic Publ. Rice, J. A. (1995). Mathematical Statistics and Data Analysis (2nd ed.). Duxbury Press. Robert, C. P. und G. Casella (2008). A history of Markov chain Monte Carlo – subjective recollections form incomplete data. Technical Report, University of Florida. Rolski, T., H. Schmidli, V. Schmidt und J. Teugels (1999). Stochastic Processes for Insurance and Finance. John Wiley & Sons. New York. Ryan, T. P. (2008). Modern Regression Methods (2nd ed.). John Wiley & Sons. New York. Schervish, M. (1995). Theory of Statistics. Springer Verlag. Berlin Heidelberg New York. Schmidt, T. (2007). Coping with copulas. In J. Rank (Ed.), Copulas: from theory to applications in finance, pp. 1 – 31. Risk Books. Seber, G. A. F. und C. J. Wild (2003). Nonlinear Regression. John Wiley & Sons. New York. Serfling, R. J. (1980). Approximation Theorems of Mathematical Statistics. John Wiley & Sons. New York. Shao, J. (2008). Mathematical Statistics. Springer Verlag. Berlin Heidelberg New York. Sprent, P. und N. C. Smeeton (2000). Applied Nonparametric Statistical Methods. Chapman & Hall/CRC, London. Wald, A. (1949). Note on the consistency of the maximum likelihood estimate. Annals of Mathematical Statistics 29, 595 – 601. Wang, Y. Y. (1971). Probabilities of type I errors of the Welch tests for the BehrensFisher problem. Journal of the American Statistical Association 66, 605 – 608. Weisberg, S. (2005). Applied Linear Regression (3rd ed.). John Wiley & Sons. New York. Welch, B. (1949). Further note on Mrs Aspin’s tables and on certain approximations to the tabled function. Biometrika 36, 293 – 296.
Sachverzeichnis
Symbols Am 52 B(a, b) 14 Fn 73 Fk,m (θ) 16 In 193, 199 M (n, p1 , . . . , pk ) 10 Q(θ) 80 R(θ, T ) 104 R2 223 W0⊥ 213 X(i) 23 Bin(n, p) 10 E(X | Y ) 21 E(X) 7 E(X | Y ) 22 E(| X |) < ∞ 7 Γ (a) 13 1 49 N 236 N0 170 Φ(x) 12 Poiss(λ) 10 ΨX (s) 9 R+ 26 R− 92 Var(X) 19 ¯ 2 A ¯ 5, 42 X 1n 195 Nk (μ, Σ) 19 χ2 -Anpassungstest 96 χ2 -Verteilung 13 nichtzentrale 15 Quantil 144 χ2k (θ) 16
χ2n 13 χ2n,a 144 u, v 198 |·| 7 u 198 φ(x) 12 ∝ 86 σ-Algebra 2 Hypergeo(N, n, θ) Gamma(a, λ) 17 2 (X) 34 σ pk 73 θ(x) 72 P
−−−−→
25
−−−−→
27
−−−−→
25
n→∞ L n→∞ f.s. n→∞
11
a ± b 140 b(θ, T ) 104 c(Θ) 89 p(·, θ) 41 p(x | y) 20 pθ 41 s2 (X) 5, 29 t-Verteilung nichtzentrale 15 tn 14 tn (θ) 15 tn,α 143 za 141 1A 45 (AR) 128 (CR) 115 (WN) weißes Rauschen
78 251
252 A a posteriori-Verteilung 59 Exponentialverteilung 70 a priori-Verteilung 59 nicht wohldefiniert 62 nicht-informativ 62 abh¨ angige Variable 191 absolute Abweichung 96 Abweichung absolute 96 quadratische 96 allgemeines lineares Modell 193 Alternative 148 ein-, zweiseitig 148 Analysis of Variance 193, 224 Annahmebereich 158 ANOVA 193, 224 Tabelle 226 Anpassungstest χ2 - 96 Kolmogorov-Smirnov 96 Approximation Welch- 185 AR(1) Likelihood-Quotiententest 189 Momentensch¨ atzer 98 arithmetischer Mittelwert 5 Arrhenius-Gesetz 232 asymptotisch effizient 126 asymptotisch normalverteilt 122 asymptotisch unverzerrt 105 asymptotische Effizienz 127 asymptotische Normalit¨ at 122 Asymptotische Verteilung MLS 128 Ausreißer 102 autoregressiv 98 B Bayes-Formel 3 Bayesianische Sch¨ atzer 115 Bayesianischer Intervallsch¨ atzer 146 Bayesianisches Modell 59 bedingte Dichte von Zufallsvektoren 22 bedingte Varianz 32 bedingte Verteilung 21 bedingte Wahrscheinlichkeit 2 bedingter Erwartungswert 21 Regeln 31 Bernoulli-Verteilung 10, 21, 124 suffiziente Statistik 21
Sachverzeichnis UMVUE 130 Beta-Funktion 14, 34 Beta-Verteilung 18 MLS 99 Momentensch¨ atzer 97, 98 Suffizienz 66 bias (Verzerrung) 104 Bienaym´ e 9 Bild einer Statistik 46 Binomialverteilung 10 Beispiel 51 Momentensch¨ atzer 97 trunkierte 186 UMVUE 131 BLUE 209 Bonferroni-Ungleichung 146 C Cauchy-Schwarz Ungleichung 8 charakteristische Funktion 9 Continuous Mapping Theorem 25 Cram´ er-Rao Regularit¨ atsbedingungen (CR) 115 Cram´ er-Rao-Schranke 118 Credible Interval 146 D Darstellung koordinatenfreie 196 koordinatengebundene 195 Delta-Methode 123 Designmatrix 195 Dichte 4 Dirichlet-Verteilung 66 diskrete Zufallsvariable 3 diskreter Wahrscheinlichkeitsraum Dummy Variable 192
2
E effizient asymptotisch 126 Effizienz 128 asymptotische 126, 127 einfache lineare Regression 191 Beispiel 81 Einfluss-Funktion 116 einparametrige exponentielle Familie 49 einseitige Alternative 148 Elementarereignis 2 empirische Verteilungsfunktion 73
Sachverzeichnis empirisches Moment 125 endogene Variable 78, 191 Erlang-Verteilung 17 erwartungstreu 104 Erwartungswert 7 bedingter 21 Regeln f¨ ur den bedingten 31 Satz vom iterierten 23 Erwartungswertvektor 204 exogene Variable 78, 191 explorative Datenanalyse 224 Exponentialverteilung 11, 48 a posteriori-Verteilung 70 Ged¨ achtnislosigkeit 29 Konfidenzintervall 160 Mittelwertvergleich 161 MLS 99, 100 Momentensch¨ atzer 98, 100 nichtzentrale 100 Test 186 UMVUE-Sch¨ atzer 112 zweidimensionale 100 zweiseitige 30, 65, 98 zweiseitiger Test 188 exponentielle Familie 49, 55, 116, 172 K-parametrige 55 einparametrige 49 Gegenbeispiel 51 i.i.d. Kombination 51 nat¨ urliche 50 NP-Test 172 optimale Teststatistik 172 tabellarische Auflistung 237 UMP-Test 172 exponentielle Familien MLS 89, 92 Vollst¨ andigkeit 112 Extremwertverteilung 136 F F-Test 216, 219 F-Verteilung 14 nichtzentral 16 Faktorisierungssatz 46 Faltungsformel 33 Familie exponentielle 49, 55, 116 konjugierte 60 fast sichere Konvergenz 25 Fehler 1. und 2. Art 149 Fischer-Scoring-Methode 94 Fisher-Information 116, 127 Form
253 kanonische 200 Fr´ echet-Verteilung 137 Funktion Einfluss- 116 Indikator- 45, 49 Likelihood- 84 Score- 116 G G¨ utefunktion 150, 162 Bernoulli 151 Gamma-Funktion 13 Gamma-Verteilung 16 inverse 67 Momentensch¨ atzer 97 Test f¨ ur den Skalenparameter λ 174 UMVUE 132 Gauß inverse Gauß-Verteilung 66 Gauß-Test einseitiger 153 zweiseitiger 157, 175 Ged¨ achtnislosigkeit 29 geometrische Verteilung 97 MLS 99 atzer 97 Momentensch¨ Gesamtmittelwert 197 gesch¨ atzter Erwartungswertvektor 204 Gesetz der großen Zahl 26, 27 GEV Generalized Extreme Value Distribution 136 gewichtete Kleinste-Quadrate-Sch¨ atzer 83 Gleichungen Normalen 80 Gleichverteilung 11, 64, 77 Asymptotik des MLS 136 Beispiel 51 diskrete 77, 99 Konfidenzintervall 159 MLS 99 Momentensch¨ atzer 97 UMVUE 131 UMVUE-Sch¨ atzer 114 verschobene 64 Grenzwertsatz Zentraler 27 Grundraum 1 Gumbel-Verteilung 137 H H¨ aufigkeit
254
Sachverzeichnis
relativ 73 Hardy-Weinberg Gleichgewicht 74 Hazard-Rate 101 heteroskedastisch 83 homogene Varianzen 182 homoskedastisch 78 hypergeometrische Verteilung 11, 37 Hypothese einfache 148 zusammengesetzte 148 I i.i.d. 7, 51 idempotent 204 Identifizierbarkeit 40 improper non informative prior Indifferenzzone 155, 156 Indikatorfunktion 45, 49 Information Fisher- 116 Informationsungleichung 117 inhomogene Varianzen 184 integrierbar 7 quadrat- 8 Intervallsch¨ atzer Bayesianischer 146 Interzeptparameter 193 inverse Gamma-Verteilung 67 inverse Gauß-Verteilung 66 iterierter Erwartungswert 23
62
J Jensensche Ungleichung
7
K kanonische Form 200 kanonische Statistik 49 Kleinste-Quadrate-Methode 80 Kleinste-Quadrate-Sch¨ atzer 80, 203 gewichtete 83 lineares Modell 203 Kolmogorov-Smirnov-Anpassungstest 96 Konfidenzbereich 145 Konfidenzintervall 140 Konfidenzkoeffizient 141 Konfidenzniveau 140 konjugierte Familie 60 konsistent 120, 121 MLS 121 Konvergenz
fast sichere 25 in Verteilung 27 Monotone 28 stochastische 25 koordinatenfreie Darstellung 196 koordinatengebundene Darstellung 195 Korrelation 8, 29 Kovariable 78, 79, 191 qualitative 192, 224 Kovarianz 8 Kovarianzanalyse 193 KQS (Kleinste-Quadrate-Sch¨ atzer) 203 kritischer Bereich 148 kritischer Wert 148 Kurtosis 8
80,
L L´ evy-Verteilung 31 Laplace-Verteilung 65 Momentensch¨ atzer 98 Laplacesche Modelle 10 Least Squares Estimator 80 Lebensdaueranalyse 100, 101 Lehmann-Scheff´e 110 Lemma Neyman-Pearson 164 Level-α-Test 150 Likelihood-Funktion 84 Likelihood-Quotienten montone 189 Likelihood-Quotienten-Statistik 164 verallgemeinerte 178 Likelihood-Quotiententest AR(1) 189 Likelihood-Ratio-Statistik 164 Likelihoodfunktion 62 lineare Abh¨ angigkeit 8 lineare Modelle Einf¨ uhrung 191 lineare Regression 56 einfache 191 multiple 220 lineares Modell 193 koordinatenfreie Darstellung 196 allgemeines 193 Log-Likelihood-Funktion 85 Log-Likelihood-Gleichung 85 Log-Normalverteilung 136 LSE 80
Sachverzeichnis M marginale Verteilung 59 Markov-Ungleichung 26 Matched Pair Experiments 179 Matrix Design- 195 nicht negativ definit 20 Maxima von i.i.d. Stichproben 136 Maximum 24 Maximum Likelihood Methode 84 Maximum-Likelihood-Sch¨ atzer 84, 99 N (μ, σ 2 ), μ, σ unbekannt 93 Asymptotik 128 Beta-Verteilung 99 Exponentialverteilung 99 f. K-dim. exponentielle Familien 92 f. exponentielle Familien 89 geometrische Verteilung 99 Gleichverteilung 99, 136 Invarianz unter Transformation 86 Konsistenz 121 Normalverteilung 99 Numerische Bestimmung 93 meßbar 3 Meßbarkeit 3 Meßmodell 38, 41, 50, 71, 72, 78 Mean Squared Error 104 Median 96 Methode der kleinsten Quadrate 80 Maximum-Likelihood- 84 minimal suffizient 67 Minimax-Sch¨ atzer 115 Minimum 24 Mischung 99 Mittelwert 5, 112 Gesamt- 197 mittlerer betraglicher Fehler 104 mittlerer quadratischer Fehler 104 MLE (Maximum-Likelihood-Estimate) 84 MLS (Maximum-Likelihood-Sch¨ atzer) 84 Modell Bayesianisches 59 Identifizierbarkeit 40 nichtparametrisches 41 parametrisches 41 regul¨ ares 41 statistisches 1, 39 Moment 7, 8, 75, 125 empirisches 125
255 Stichproben- 75 momentenerzeugende Funktion 9, 30, 54 Momentenmethode 75, 76 Momentensch¨ atzer 97, 121 AR(1) 98 Konsistenz 121 Monotone Konvergenz Satz von der 28 monotone Likelihood-Quotienten 189 MQF (mittlerer quadratischer Fehler) 104 MSE 104 Multinomialverteilung 10, 94, 169 Asymptotische Normalit¨ at 124 Konsistenz 120 multiple lineare Regression 220 multiple Regresion 193 multivariate Normalverteilung 18 N nat¨ urliche suffiziente Statistik 49, 56 Newton-Methode 94 Neyman-Pearson-Lemma 164 Neyman-Pearson-Test 167 nicht negativ definit 20 Nichtidentifizierbarkeit 40 nichtlineare Regression 232 nichtparametrische Statistik 96 nichtzentale F -Verteilung 16 nichtzentrale χ2 -Verteilung 15 nichtzentrale t-Verteilung 15 Nichtzentralit¨ atsparameter 16 Normal-Gamma-Verteilung 69 Normalengleichungen 80, 207, 208, 232 Normalit¨ at asymptotische 122 normalverteilt asymptotisch 122 Normalverteilung 12 E(| X |) 30 k-variat 19 Beispiel 50–52, 56 Fisher-Information 116 Konfidenzintervall 142, 159 Mittelwertvergleich 159, 162 MLS 99 MLS, μ, σ unbekannt 93 Momente 30 MQF 104 multivariate 18 multivariate Dichte 19 singul¨ are 19
256
Sachverzeichnis
suffiziente Statistik 48 UMVUE-Sch¨ atzer 112, 130 Varianzvergleich 160 zweiparametrige exponentielle Familie 56 Normierungskonstante 50 NP-Test 167 Nuisance Parameter 40 Null-Hypothese 148, 149 Numerische Bestimmung des MLS 93 O oberhalbstetig 121 One-Way-Layout 194 optimale Statistik 164, 166 Ordnungsgr¨ oßen 23 Ordnungsstatistiken 23, 64 Overall Mean 197 P p-Stichprobenproblem 193, 214 alternative Parametrisierung 197 p-Wert 154 p.d. 236 Parameterraum 39 parametrische Statistik 96 Pareto-Verteilung 187 Suffizienz 66 Pivot 141 Poisson-Prozess 44, 48 Poisson-Verteilung 10, 76 Effizienz 127 Fisher-Information 117 Momente 31 Momentenerzeugende Funktion 31 Vollst¨ andigkeit 110 Pr¨ azision 69 Projektion 204 Q quadrat-integrierbar 8 quadratische Abweichung 96 Qualit¨ atssicherung 37, 39, 43, 44, 57 Bayesianisch 57 qualitative Kovariablen 224 Quantil 141 χ2 -Verteilung 144 R randomisierter Test
148
Rao-Blackwell Satz von 109 Rayleigh-Verteilung 15, 55 Momente 34 UMVUE 131 Regression 78 einfache, lineare 191 allgemeine 78 lineare 56 multiple 193 multiple lineare 220 nichtlineare 232 Regressionsgerade 82 Regressionsparamter 193 regul¨ ares Modell 41 relative H¨ aufigkeit 73 Residuen standardisierte 221 Residuenquadratsumme 210 Residuenvektor 204 Response 78, 191 RSS 210 S Satz Rao-Blackwell 109 von Bayes 3 Faktorisierungs- 46 Gauß-Markov 209 Gesetz der großen Zahl 26, 27 Lehmann-Scheff´e 110 Monotone Konvergenz 28 Neyman-Pearson-Lemma 164 Stetigkeits- 25 Substitutions- 23 vom iterierten Erwartungswert 23 Sch¨ atzer 72 asymptotisch effizient 126 Bayesianische 115 erwartungstreu 104 konsistenter 120 Maximum-Likelihood 84 UMVUE 108, 120 unverzerrt 104, 107, 112, 118 unzul¨ assig 106 Sch¨ atzwert 72 Schiefe 8 Schranke Cram´ er-Rao 118 schwaches Gesetz der großen Zahl 26, 27 Score-Funktion 116 Signifikanzniveau 150
Sachverzeichnis Smirnov-Anpassungstest 96 St¨ orparameter 40 standardisierte Residuen 221 Standardnormalverteilung 12 Statistik Definition 43 kanonische 49 nat¨ urliche suffiziente 49, 56 nichtparametrische 96 optimale 164 suffiziente: Beispiele 48 vollst¨ andige 110 statistisches Modell 39 stetige Zufallsvariable 4 Stetigkeitskorrektur 152 Stetigkkeitssatz 25 Stichprobe 37, 39 Stichprobenmoment 75 Stichprobenproblem p- 193 Stichprobenvarianz 5, 29, 34, 63, 105, 108, 112, 142 stochastische Konvergenz 25 Studentscher t-Test 181 Substitutionssatz 23 suffizient 44 suffiziente Statistik nat¨ urliche 49, 56 Suffizienz Beispiele 66 Beta-Verteilung 66 minimal suffizient 67 Pareto-Verteilung 66 Weibull-Verteilung 66 symmetrisch verteilt 38 T t-Test 181, 219 zweiseitiger 179 t-Verteilung 14 Test 148 Exponentialverteilung 186, 188 F- 216 Gauß 153, 157, 175 Level-α- 150 randomisiert 148 t- 179, 181, 219 UMP- 163 unverzerrter 176 verallgemeinerter LikelihoodQuotienten- 178 zweiseitig 157 totale Ableitung 123
257 Transformationssatz 5 trunkierte Binomialverteilung 186 Tschebyscheff-Ungleichung 26 U UMP-Test 163 UMVUE Binomialverteilung 131 Gleichverteilung 131 Rayleigh-Verteilung 131 UMVUE-Sch¨ atzer 108 ist nicht MLS: Exponentialverteilung 112 unabh¨ angig 6 unabh¨ angige Variable 78, 191 Unabh¨ angigkeit 3 von Zufallsvariablen 6 Ungleichung Bonferroni- 146 Cauchy-Schwarz 8 Informations- 117 Jensen 7 Markov- 26 Tschebyscheff- 26 uniformly most powerful 163 unkorreliert 8 unverzerrt 109, 142 asymptotisch 105 unverzerrter Sch¨ atzer 104 unverzerrter Test 176 unzul¨ assiger Sch¨ atzer 106 V Variable endogene 78, 191 exogene 78, 191 Ko- 78, 191 unabh¨ angige 78, 191 Variablen qualtitative Ko- 224 Varianz 8 bedingte 32 homogene 192 Varianz-Kovarianz Matrix 19 Varianzanalyse 193, 224 Varianzanalyse-Tabelle 230 Varianzen homogene 182 inhomogene 184 verallgemeinerte Likelihood-QuotientenStatistik 178
258 verallgemeinerter LikelihoodQuotienten-Test 178 Verteilung 4 χ2 13 k-variate Normal- 19 a posteriori- 59 a priori- 58, 59 bedingte 21 Bernoulli 10, 21, 124 Beta- 18 Binomial- 10 Dirichlet- 66 Erlang- 17 Exponential- 11 Extremwert- 137 F- 14 Fr´ echet 137 Gamma- 16 geometrische 97 GEV 137 Gleich- 11 Gumbel 137 hypergeometrische 11, 37 inverse Gauß- 66 Konvergenz in 27 L´ evy- 31 Laplace 65 Log-Normal- 136 marginale 59 Mischung 99 Multinomial- 10 nichtzentrale χ2 - 15 nichtzentrale F - 16 nichtzentrale t- 15 Normal- 12 Normal-Gamma- 69 Pareto- 66, 187 Poisson- 10 Rayleigh- 15, 34, 55 t- 14 Weibull 137 Weibull- 66 Verteilungsfunktion 4 empirische 73 Verteilungskonvergenz 27 Verwerfungsbereich 148 verzerrt 109
Sachverzeichnis Verzerrung 104 vollst¨ andig 110 Vollst¨ andigkeit exponentielle Familien
112
W Wahrscheinlichkeit bedingte 2 Wahrscheinlichkeitsfunktion 4 Wahrscheinlichkeitsmaß 2 Wahrscheinlichkeitsraum 1 Wahrseinlichkeitsraum diskret 2 Waldsche Identit¨ at: Gleichung (1.17) 33 Warteschlange 44, 48 weißes Rauschen 78 Weibull-Verteilung 137 MLS 100 Momentensch¨ atzer 98 Suffizienz 66 Welch-Approximation 185 white noise 78 Z zensierte Daten 100 Zentraler Grenzwertsatz 27 zentriertes Moment 8 Zielvariable 78, 79, 191 Zufallsvariable 3 diskret 3 integrierbar 7 quadrat-integrierbar 8 stetig 4 Zufallsvariablen unabh¨ angig 6 unkorreliert 8 zweiseitige Alternative 148 zweiseitige Exponentialverteilung 65 zweiseitiger t-Test 179 zweiseitiger Test Exponentialverteilung 188 Zweistichprobenproblem 182, 190–192 homogene Varianzen 182 ungleiche Varianzen 184