Statistique La théorie et ses applications
Deuxième édition avec exercices corrigés
Springer Paris Berlin Heidelberg New York Hong Kong Londres Milan Tokyo
Michel Lejeune
Statistique La théorie et ses applications
Deuxième édition avec exercices corrigés
Michel Lejeune Professeur émérite Université de Grenoble 2 IUT 2 département statistique BP 47 38040 Grenoble cedex 9
ISBN : 978-2-8178-0156-8 Springer Paris Berlin Heidelberg New York
© Springer-Verlag France, Paris, 2010 Imprimé en France Springer-Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentation, la traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conservation des banques de données. La loi française sur le copyright du 9 septembre 1965 dans la version en vigueur n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennant le paiement de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright. L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la protection des marques et qu’ils puissent être utilisés par chacun. La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la littérature existante.
Maquette de couverture : Jean-François Montmarché c détail du tableau " Chrysler impressions " de Philippe Lejeune (1990)
Collection Statistique et probabilités appliquées dirigée par Yadolah Dodge Professeur Honoraire Université de Neuchâtel Suisse
[email protected]
Comité éditorial : Christian Genest Département de Mathématiques et de statistique Université Laval Québec GIK 7P4 Canada
Stephan Morgenthaler École Polytechnique Fédérale de Lausanne Département des Mathématiques 1015 Lausanne Suisse
Marc Hallin Université libre de Bruxelles Campus de la Plaine CP 210 1050 Bruxelles Belgique
Gilbert Saporta Conservatoire national des arts et métiers 292, rue Saint-Martin 75141 Paris Cedex 3 France
Ludovic Lebart Télécom-ParisTech 46, rue Barrault 75634 Paris Cedex 13 France
Aurore Delaigle Departement of Mathematics and statistics Richard Berry Building The university of Melbourne VIC, 3010 Australia
Christian Mazza Département de mathématiques Université de Fribourg Chemin du Musée 23 CH-1700 Fribourg Suisse
Louis-Paul Rivest Département de mathématiques et de statistique Université Laval 1045, rue de la Médecine Québec G1V OA6 Canada
Dans la même collection : – Statistique. La théorie et ses applications Michel Lejeune, avril 2004 – Optimisation appliquée Yadolah Dodge, octobre 2004 – Le choix bayésien. Principes et pratique Christian P. Robert, novembre 2005 – Maîtriser l’aléatoire. Exercices résolus de probabilités et statistique Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006
– Régression. Théorie et applications Pierre-André Cornillon, Éric Matzner-Løber, janvier 2007 – Le raisonnement bayésien. Modélisation et inférence Éric Parent, Jacques Bernier, juillet 2007 – Premiers pas en simulation Yadolah Dodge, Giuseppe Melfi, juin 2008 – Génétique statistique Stephan Morgenthaler, juillet 2008 – Pratique du calcul bayésien Jean-Jacques Boreux, Éric Parent, 2009 – Maîtriser l'aléatoire Eva Cantoni, Philippe Huber, Elvezio Ronchetti, septembre 2009
À paraître : – Le logiciel R Pierre Lafaye de Micheaux, Rémi Drouilhet, Benoit Liquet, 2010
AVANT-PROPOS L’objectif de cet ouvrage est de rendre accessibles les fondements th´eoriques de la statistique a` un public de niveau math´ematique moyen : ´etudiants du premier cycle des fili`eres scientifiques, ´el`eves ing´enieurs, chercheurs dans les domaines appliqu´es (´economie, gestion, biologie, m´edecine, g´eographie, sciences de la vie, psychologie. . . ) et, plus g´en´eralement, tous les chercheurs d´esireux d’approfondir leur compr´ehension des r´esultats utilis´es dans la pratique. Pour ces derniers un minimum de connaissance de l’arri`ere-plan th´eorique apportera une vision plus claire et plus critique des m´ethodes qu’ils emploient et permettra d’´eviter bien des ´ecueils. Les pr´erequis principaux sont la maˆıtrise de la d´erivation, de l’int´egration et de bases minimales du calcul des probabilit´es. Sur le plan purement math´ematique, nous pensons que l’essentiel de l’expos´e est accessible `a quiconque aurait parfaitement assimil´e le programme d’un bac scientifique. Il reste cependant quelques notions qui ne sont abord´ees qu’en premier cycle sup´erieur, notamment les approximations par d´eveloppement de Taylor, les d´eveloppements en s´erie enti`ere, les fonctions de plusieurs variables (d´erivation et int´egration) et, tr`es marginalement, le calcul matriciel. Mais ces notions n’interviennent le plus souvent que dans les aspects techniques de d´emonstration, ce qui ne devrait pas nuire a` la compr´ehension des concepts. Pour satisfaire la curiosit´e de math´ematiciens qui voudraient, par la lecture de cet ouvrage, s’initier sans peine `a la science statistique, mention sera faite ici ou l` a de r´esultats ou d´emonstrations exigeant des connaissances plus approfondies d’analyse. Ces ´el´ements seront consign´es en petits caract`eres, g´en´eralement dans des «notes» d´etach´ees que l’on pourra ignorer totalement. Quelques exercices plus difficiles, rep´er´es par un ast´erisque, leur sont ´egalement propos´es. Notons que les premiers chapitres concernent la th´eorie des probabilit´es qui, toutefois, est abord´ee non comme une fin en soi mais de fa¸con simplifi´ee dans la perspective de ce qui est n´ecessaire pour la th´eorie statistique de l’estimation et des tests. Pour atteindre l’objectif fix´e nous avons pris le parti de toujours privil´egier la facilit´e de compr´ehension au d´etriment ´eventuel de la puret´e formelle (si tant est qu’elle existe). Nous sommes d’avis que trop de formalisme nuit a` l’assimilation des concepts et qu’il faut s’efforcer sans cesse de s’en tenir `a un niveau compatible avec celui des connaissances du public vis´e. Ceci a ´et´e un souci constant dans la r´edaction. Cela ne signifie pas que nous ayons renonc´e `a la rigueur du propos, c’est-` a-dire a` la coh´erence des ´el´ements apport´es tout au long de l’ouvrage. Par ailleurs, nous faisons partie de ceux qui pensent que la statistique ne rel`eve pas uniquement de la math´ematique qui n’est qu’un instrument. Sa
viii
Statistique - La th´eorie et ses applications
raison d’ˆetre consiste `a appr´ehender le monde r´eel `a partir des observations que l’on en fait. C’est pourquoi la discipline est rang´ee dans le domaine des math´ematiques appliqu´ees, ce terme ne devant pas, `a notre sens, rester un vain mot. Fid`ele `a cette vision nous avons tent´e de commenter le plus largement possible les concepts et r´esultats de fa¸con concr`ete pour montrer leur utilit´e dans l’approche du r´eel. Dans les chapitres d´ebouchant imm´ediatement sur des m´ethodes usuelles nous avons ´egalement introduit des exercices «appliqu´es» pour illustrer l’int´erˆet et la mise en oeuvre des principes th´eoriques. L’ouvrage n’est donc pas uniquement un trait´e math´ematique. Cela a motiv´e le choix de son sous-titre « La th´eorie et ses applications» pour marquer la distinction, mˆeme si son objectif premier reste l’expos´e de la th´eorie. L’essentiel de l’apport de cette nouvelle ´edition est constitu´e des corrig´es d´etaill´es des exercices propos´es. Cette demande m’a ´et´e faite de fa¸con r´ecurrente et il est vrai que ces corrig´es doivent permettre d’am´eliorer nettement l’assimilation de la mati`ere. Je remercie mes coll`egues Alain Latour et Pierre Lafaye de Micheaux pour leur aide technique pr´ecieuse ainsi qu’Alain Catalano, Yves-Alain Gerber, J´erˆ ome Hennet, Alexandre Junod, Julien Junod, Vincent Voirol et Mathieu Vuilleumier pour leurs appr´eciations. J’adresse des remerciements particuliers `a Yadolah Dodge, directeur de cette collection « Statistique et probabilit´es appliqu´ees », sans les encouragements duquel cet ouvrage n’aurait sans doute pas abouti.
Michel Lejeune
Grenoble, juin 2010
Table des mati` eres 1 Variables al´ eatoires 1.1 Notion de variable al´eatoire . . . . . 1.2 Fonction de r´epartition . . . . . . . 1.3 Cas des variables al´eatoires discr`etes 1.4 Cas des variables al´eatoires continues 1.5 Notion essentielle de quantile . . . . 1.6 Fonction d’une variable al´eatoire . . 1.7 Exercices . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
1 1 4 6 6 9 11 12
2 Esp´ erance math´ ematique et moments 2.1 Introduction et d´efinition . . . . . . . . . . . . . . . . . . . . . 2.2 Esp´erance d’une fonction d’une variable al´eatoire . . . . . . . . 2.3 Lin´earit´e de l’op´erateur E(.), moments, variance . . . . . . . . 2.4 Tirage al´eatoire dans une population finie : distribution empirique et distribution probabiliste . . . . . . . . . . . . . . . . . 2.5 Fonction g´en´eratrice des moments . . . . . . . . . . . . . . . . 2.6 Formules d’approximation de l’esp´erance et de la variance d’une fonction d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15 15 16 18
3 Couples et n-uplets de variables al´ eatoires 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . 3.2 Couples de v.a. . . . . . . . . . . . . . . . . . . . . 3.3 Ind´ependance de deux variables al´eatoires . . . . . 3.4 Esp´erance math´ematique, covariance, corr´elation . 3.5 Somme de deux v.a. . . . . . . . . . . . . . . . . . 3.6 Les n-uplets de v.a. ; somme de n v.a. . . . . . . . 3.7 Sondage al´eatoire dans une population et v.a. i.i.d. 3.8 Notation matricielle des vecteurs al´eatoires . . . . 3.9 Loi de Gauss multivari´ee . . . . . . . . . . . . . . 3.10 Exercices . . . . . . . . . . . . . . . . . . . . . . .
27 27 28 31 32 36 37 38 39 40 43
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
21 21 24 25
x
Statistique - La th´eorie et ses applications
4 Les lois de probabilit´ es usuelles 4.1 Les lois discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 La loi uniforme discr`ete . . . . . . . . . . . . . . . . . . 4.1.2 Loi de Bernoulli B(p) . . . . . . . . . . . . . . . . . . . 4.1.3 Le processus de Bernoulli et la loi binomiale B(n, p) . . 4.1.4 Les lois g´eom´etrique G(p) et binomiale n´egative BN (r, p) 4.1.5 La loi hyperg´eom´etrique H(N, M, n) . . . . . . . . . . . 4.1.6 La loi multinomiale . . . . . . . . . . . . . . . . . . . . 4.1.7 Le processus et la loi de Poisson P(λ) . . . . . . . . . . 4.2 Les lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 La loi continue uniforme U[a, b] . . . . . . . . . . . . . 4.2.2 La loi exponentielle E(λ) . . . . . . . . . . . . . . . . . 4.2.3 La loi gamma Γ(r, λ) . . . . . . . . . . . . . . . . . . . 4.2.4 La loi de Gauss ou loi normale N (μ, σ2 ) . . . . . . . . 4.2.5 La loi lognormale LN (μ, σ 2 ) . . . . . . . . . . . . . . . 4.2.6 La loi de Pareto . . . . . . . . . . . . . . . . . . . . . . 4.2.7 La loi de Weibull W (λ, α) . . . . . . . . . . . . . . . . 4.2.8 La loi de Gumbel . . . . . . . . . . . . . . . . . . . . . 4.2.9 La loi bˆeta Beta(α, β) . . . . . . . . . . . . . . . . . . . 4.3 G´en´eration de nombres issus d’une loi donn´ee . . . . . . . . . . 4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45 45 45 46 47 49 50 51 51 54 54 55 56 57 60 61 61 62 63 63 64
5 Lois fondamentales de l’´ echantillonnage 5.1 Ph´enom`enes et ´echantillons al´eatoires . . . . . . 5.2 Moyenne, variance, moments empiriques . . . . . 5.3 Loi du Khi-deux . . . . . . . . . . . . . . . . . . 5.4 Loi de Student . . . . . . . . . . . . . . . . . . . 5.5 Loi de Fisher-Snedecor . . . . . . . . . . . . . . 5.6 Statistiques d’ordre . . . . . . . . . . . . . . . . 5.7 Fonction de r´epartition empirique . . . . . . . . 5.8 Convergence, approximations gaussiennes, grands 5.8.1 Les modes de convergence al´eatoires . . . 5.8.2 Lois des grands nombres . . . . . . . . . 5.8.3 Le th´eor`eme central limite . . . . . . . . 5.9 Exercices . . . . . . . . . . . . . . . . . . . . . .
67 67 69 72 74 76 77 78 79 79 81 82 86
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´echantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
6 Th´ eorie de l’estimation param´ etrique ponctuelle 91 6.1 Cadre g´en´eral de l’estimation . . . . . . . . . . . . . . . . . . . 91 6.2 Cadre de l’estimation param´etrique . . . . . . . . . . . . . . . . 92 6.3 La classe exponentielle de lois . . . . . . . . . . . . . . . . . . 94 6.4 Une approche intuitive de l’estimation : la m´ethode des moments 96 6.5 Qualit´es des estimateurs . . . . . . . . . . . . . . . . . . . . . . 98 6.5.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . 99 6.5.2 Variance et erreur quadratique moyenne d’un estimateur 100 6.5.3 Convergence d’un estimateur . . . . . . . . . . . . . . . 103
Table des mati`eres
6.6
6.7
6.8 6.9
6.5.4 Exhaustivit´e d’un estimateur . . . . . . . . . . . . . Recherche des meilleurs estimateurs sans biais . . . . . . . 6.6.1 Estimateurs UMVUE . . . . . . . . . . . . . . . . . 6.6.2 Estimation d’une fonction de θ et reparam´etrisation 6.6.3 Borne de Cramer-Rao et estimateurs efficaces . . . 6.6.4 Extension a` un param`etre de dimension k > 1 . . . L’estimation par la m´ethode du maximum de vraisemblance 6.7.1 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . 6.7.2 Exemples et propri´et´es . . . . . . . . . . . . . . . . . 6.7.3 Reparam´etrisation et fonctions du param`etre . . . . 6.7.4 Comportement asymptotique de l’EMV . . . . . . . Les estimateurs bay´esiens . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
xi . . . . . . . . . . . . .
105 110 110 114 114 118 121 122 123 126 127 128 131
7 Estimation param´ etrique par intervalle de confiance 135 7.1 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2 M´ethode de la fonction pivot . . . . . . . . . . . . . . . . . . . 138 7.3 M´ethode asymptotique . . . . . . . . . . . . . . . . . . . . . . 140 7.4 Construction des IC classiques . . . . . . . . . . . . . . . . . . 144 7.4.1 IC pour la moyenne d’une loi N (μ, σ 2 ) . . . . . . . . . . 144 7.4.2 IC pour la variance σ 2 d’une loi de Gauss . . . . . . . . 146 7.4.3 IC sur la diff´erence des moyennes de deux lois de Gauss 147 7.4.4 IC sur le rapport des variances de deux lois de Gauss . 149 7.4.5 IC sur le param`etre p d’une loi de Bernoulli . . . . . . 150 7.4.6 IC sur la diff´erence des param`etres de deux lois de Bernoulli152 7.5 IC par la m´ethode des quantiles . . . . . . . . . . . . . . . . . 153 7.6 Approche bay´esienne . . . . . . . . . . . . . . . . . . . . . . . . 157 7.7 Notions d’optimalit´e des IC . . . . . . . . . . . . . . . . . . . . 158 7.8 R´egion de confiance pour un param`etre de dimension k > 1 . . 159 7.9 Intervalles de confiance et tests . . . . . . . . . . . . . . . . . . 163 7.10 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 8 Estimation non param´ etrique et estimation fonctionnelle 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Estimation de la moyenne et de la variance de la loi . . . . 8.2.1 Estimation de la moyenne μ . . . . . . . . . . . . . . 8.2.2 Estimation de la variance σ 2 . . . . . . . . . . . . . 8.3 Estimation d’un quantile . . . . . . . . . . . . . . . . . . . 8.4 Les m´ethodes de r´e´echantillonnage . . . . . . . . . . . . . . 8.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . 8.4.2 La m´ethode du jackknife . . . . . . . . . . . . . . . 8.4.3 La m´ethode du bootstrap . . . . . . . . . . . . . . . 8.5 Estimation fonctionnelle . . . . . . . . . . . . . . . . . . . . 8.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . 8.5.2 L’estimation de la densit´e . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
167 167 168 168 169 170 172 172 173 177 181 181 182
xii
Statistique - La th´eorie et ses applications
8.6
8.5.3 L’estimation de la fonction de r´epartition . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
192 198
9 Tests d’hypoth` eses param´ etriques 201 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 9.2 Test d’une hypoth`ese simple avec alternative simple . . . . . . 202 9.3 Test du rapport de vraisemblance simple . . . . . . . . . . . . 208 9.3.1 Propri´et´e d’optimalit´e . . . . . . . . . . . . . . . . . . . 208 9.3.2 Cas d’un param`etre de dimension 1 . . . . . . . . . . . 212 9.4 Tests d’hypoth`eses multiples . . . . . . . . . . . . . . . . . . . 213 9.4.1 Risques, puissance et optimalit´e . . . . . . . . . . . . . 213 9.4.2 Tests d’hypoth`eses multiples unilat´erales . . . . . . . . 214 9.4.3 Tests d’hypoth`eses bilat´erales . . . . . . . . . . . . . . 219 9.5 Test du rapport de vraisemblance g´en´eralis´e . . . . . . . . . . 220 9.6 Remarques diverses . . . . . . . . . . . . . . . . . . . . . . . . . 226 9.7 Les tests param´etriques usuels . . . . . . . . . . . . . . . . . . . 228 9.7.1 Tests sur la moyenne d’une loi N (μ, σ2 ) . . . . . . . . . 229 9.7.2 Test sur la variance σ 2 d’une loi N (μ, σ 2 ) . . . . . . . . 231 9.7.3 Tests de comparaison des moyennes de deux lois de Gauss 232 9.7.4 Tests de comparaison des variances de deux lois de Gauss 235 9.7.5 Tests sur le param`etre p d’une loi de Bernoulli (ou test sur une proportion) . . . . . . . . . . . . . . . . . . . . 235 9.7.6 Tests de comparaison des param`etres de deux lois de Bernoulli (comparaison de deux proportions) . . . . . . 237 9.7.7 Test sur la corr´elation dans un couple gaussien . . . . . 240 9.8 Dualit´e entre tests et intervalles de confiance . . . . . . . . . . 242 9.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 10 Tests pour variables cat´ egorielles et tests non param´ etriques 10.1 Test sur les param`etres d’une loi multinomiale . . . . . . . . . 10.1.1 Test du rapport de vraisemblance g´en´eralis´e . . . . . . 10.1.2 Test du khi-deux de Pearson . . . . . . . . . . . . . . . ´ 10.1.3 Equivalence asymptotique des deux tests . . . . . . . . 10.1.4 Cas particulier de la loi binomiale . . . . . . . . . . . . 10.2 Test de comparaison de plusieurs lois multinomiales . . . . . . 10.3 Test d’ind´ependance de deux variables cat´egorielles . . . . . . . 10.3.1 Test du RVG et test du khi-deux . . . . . . . . . . . . 10.3.2 Test exact de Fisher (tableau 2 × 2) . . . . . . . . . . . 10.4 Tests d’ajustement `a un mod`ele de loi . . . . . . . . . . . . . . 10.4.1 Ajustement a` une loi parfaitement sp´ecifi´ee . . . . . . . 10.4.2 Ajustement dans une famille param´etrique donn´ee . . . 10.5 Tests non param´etriques sur des caract´eristiques de lois . . . . 10.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 10.5.2 Les statistiques de rang . . . . . . . . . . . . . . . . . . 10.5.3 Tests sur moyenne, m´ediane et quantiles . . . . . . . . .
251 252 252 254 255 256 257 259 259 262 264 265 267 272 272 272 273
Table des mati`eres
xiii
10.5.4 Tests de localisation de deux lois . . . . . . . . . . . . . 10.5.5 Test pour la corr´elation de Spearman . . . . . . . . . . 10.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 R´ egressions lin´ eaire, logistique et non param´ etrique 11.1 Introduction a` la r´egression . . . . . . . . . . . . . . . 11.2 La r´egression lin´eaire . . . . . . . . . . . . . . . . . . 11.2.1 Le mod`ele . . . . . . . . . . . . . . . . . . . . . 11.2.2 Les estimateurs du maximum de vraisemblance 11.2.3 Intervalles de confiance . . . . . . . . . . . . . 11.2.4 Test H0 : β1 = 0 . . . . . . . . . . . . . . . . . 11.2.5 Cas non gaussien . . . . . . . . . . . . . . . . . 11.2.6 R´egression et corr´elation lin´eaires . . . . . . . 11.2.7 Extension a` la r´egression multiple . . . . . . . 11.3 La r´egression logistique . . . . . . . . . . . . . . . . . 11.3.1 Le mod`ele . . . . . . . . . . . . . . . . . . . . . 11.3.2 Estimation de la fonction p(x) . . . . . . . . . . . . . . 11.3.3 Matrice des variances-covariances de β 11.3.4 Test H0 : β1 = 0 . . . . . . . . . . . . . . . . . 11.3.5 Intervalles de confiance . . . . . . . . . . . . . 11.3.6 Remarques diverses . . . . . . . . . . . . . . . 11.4 La r´egression non param´etrique . . . . . . . . . . . . 11.4.1 Introduction . . . . . . . . . . . . . . . . . . . 11.4.2 D´efinition des estimateurs a` noyaux . . . . . . 11.4.3 Biais et variance . . . . . . . . . . . . . . . . . 11.4.4 La r´egression polynomiale locale . . . . . . . . 11.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
274 281 283 289 289 292 292 293 296 297 299 300 303 305 305 306 308 309 310 312 314 314 314 315 318 320
Corrig´ es des exercices
323
Tables Bibliographie Index
415 421 425
Chapitre 1
Variables al´ eatoires 1.1
Notion de variable al´ eatoire
La th´eorie des probabilit´es a pour objet l’´etude des ph´enom`enes al´eatoires ou du moins consid´er´es comme tels par l’observateur. Pour cela on introduit le concept d’exp´erience1 al´eatoire dont l’ensemble des r´esultats possibles constitue l’ensemble fondamental, not´e habituellement Ω. On parle de variable al´eatoire (abr´eviation : v.a.) lorsque les r´esultats sont num´eriques, c’est-`a-dire que Ω est identique a` tout ou partie de l’ensemble des nombres r´eels R. On distingue habituellement : - les variables al´eatoires discr`etes pour lesquelles l’ensemble Ω des r´esultats possibles est un ensemble discret de valeurs num´eriques x1 , x2 , . . . , xn , . . . fini ou infini (typiquement : l’ensemble des entiers naturels) ; - les variables al´eatoires continues pour lesquelles l’ensemble Ω est tout R (ou un intervalle de R ou, plus rarement, une union d’intervalles). On peut concevoir des variables mixtes, mais nous ne traiterons pas, sauf exception, ces cas particuliers. Dans toute exp´erience al´eatoire on est amen´e `a s’int´eresser `a des ensembles de r´esultats, donc des parties de Ω, que l’on appelle ´ev´enements, les r´esultats formant eux-mˆemes des ´ev´enements ´el´ementaires. Dans le cas d’une v.a. les ´ev´enements sont des parties de R, le plus souvent des intervalles. Par exemple on s’int´eressera au fait qu’un assur´e occasionne un sinistre de coˆ ut sup´erieur a` 1000 euros au cours d’une ann´ee. D`es lors il reste `a construire un mod`ele probabiliste pour l’ensemble fondamental consid´er´e. Ceci ne pose pas de probl`eme pour le cas d’une v.a. discr`ete. En effet il suffit de d´efinir les probabilit´es de chaque r´esultat x1 , x2 , . . . , xn , . . . , 1 Le terme est trop restrictif pour prendre en compte la vari´ et´ e des ph´enom` enes ´etudi´ es. On trouvera une br` eve discussion ` a ce propos au d´ebut du chapitre 5.
2
Statistique − La th´eorie et ses applications
a` partir de quoi on peut, par les r`egles ´el´ementaires des probabilit´es, calculer la probabilit´e de tout ´ev´enement (en sommant celles des r´esultats appartenant a` l’´ev´enement). De plus toute partie de Ω est un ´ev´enement. C’est la pr´esentation que l’on trouve g´en´eralement dans les trait´es ´el´ementaires. Pour une v.a.continue les choses sont plus d´elicates. En effet un point de R est un intervalle de longueur nulle et la probabilit´e associ´ee `a tout point est ellemˆeme nulle. On ne peut donc «probabiliser » R a` partir de probabilit´es associ´ees `a chacun de ses ´el´ements. En fait les probabilit´es doivent ˆetre attribu´ees aux ´ev´enements. De plus, contrairement au cas discret, l’ensemble des parties de R est trop vaste pour constituer un ensemble d’´ev´enements tous probabilisables et l’on doit se restreindre a` certaines parties (voir plus loin la note 1.2). Ceci n’a toutefois aucune incidence sur le plan pratique tant il est vrai que les parties de R qui sont exclues ne sont que des curiosit´es math´ematiques. Par souci d’homog´en´eit´e, dans le cas discret on consid`ere la probabilisation de Ω `a partir de l’ensemble E des ´ev´enements, comme dans le cas continu. Soit, donc, l’ensemble E des ´ev´enements construit `a partir de Ω, on appelle mesure de probabilit´e une fonction P qui a` tout ´ev´enement E fait correspondre un nombre P (E) entre 0 et 1 que l’on appellera la probabilit´e de l’´ev´enement E (cette fonction doit en outre v´erifier certains axiomes, voir ci-apr`es). Pour une variable al´eatoire on parlera plutˆ ot de la loi de la variable al´eatoire ou encore, de sa distribution, par emprunt a` la statistique descriptive. Par commodit´e on d´esigne une variable al´eatoire par une lettre majuscule symbolique et on ´ecrit simplement un ´ev´enement sous la forme usuelle des notations math´ematiques. Ainsi, si X d´esigne la variable al´eatoire «dur´ee de vie en ann´ees d’un aspirateur donn´e», (X < 3) d´enotera l’´ev´enement «l’aspirateur a une dur´ee de vie inf´erieure `a 3 ans». La probabilit´e associ´ee `a cet ´ev´enement pourra s’´ecrire P (X < 3). Cette commodit´e pourra parfois prˆeter `a confusion et il sera toujours utile de garder a` l’esprit son caract`ere conventionnel. Ainsi dans notre exemple P (X < 3) n’est rien d’autre que la mesure de probabilit´e associ´ee `a l’intervalle ]−∞, 3[, soit P ( ]−∞, 3[) . Dans sa forme la plus g´en´erale un ´ev´enement pourra s’´ecrire (X ∈ A) o` u A est une partie de R. Rappelons succinctement les principales propri´et´es d’une mesure de probabilit´e. 1. P (E) ∈ [0, 1] pour tout ´ev´enement E et P () = 1 2. P (E) = 1 − P (E), E ´etant le compl´ementaire de E 3. P (E1 ∪ E2 ) = P (E1 ) + P (E2 ), pour tous ´ev´enements E1 et E2 incompatibles (i.e. parties disjointes de Ω : E1 ∩ E2 = ∅ ) 4. P (E1 ∪ E2 ) = P (E1 ) + P (E2 ) − P (E1 ∩ E2 ) dans le cas g´en´eral 5. E1 ⊆ E2 (E1 inclus dans E2 ) =⇒ P (E1 ) ≤ P (E2 )
Chapitre 1. Variables al´eatoires
3
6. La probabilit´e conditionnelle de E1 sachant E2 (pour autant que l’on ait P (E2 ) = 0) est : P (E1 |E2 ) =
P (E1 ∩ E2 ) P (E2 )
7. Les ´ev´enements E1 et E2 de probabilit´es non nulles sont ind´ependants si et seulement si : P (E1 ∩ E2 ) = P (E1 )P (E2 ) ou, de fa¸con ´equivalente quand P (E2 ) = 0, P (E1 |E2 ) = P (E1 ). La propri´et´e 1 et la propri´et´e 3 g´en´eralis´ee `a une suite E1 , E2 , . . . , En , . . . d’´ev´enements deux `a deux incompatibles constituent les axiomes de la th´ eorie des probabilit´ es. La propri´et´e 7 s’´etend a` une suite d’´ev´enements de la fa¸con suivante : on dit que les ´ev´enements E1 , E2 , . . . , En , . . . sont (mutuellement) ind´ependants si, pour tout sous-ensemble de ces ´ev´enements, la probabilit´e de leur intersection est ´egale au produit de leurs probabilit´es (donc la relation doit ˆetre v´erifi´ee pour les ´ev´enements pris deux `a deux, trois `a trois, etc.). Note 1.1 Plus formellement et pour ˆetre plus g´en´eral, on d´efinit une v.a. en partant d’une exp´erience al´eatoire dont l’ensemble fondamental peut ˆetre de nature quelconque. C’est pour cet ensemble fondamental qu’est d´efinie la mesure de probabilit´e pour former un espace probabilis´e. Une v.a. devient alors une fonction de Ω dans R, qui affecte donc `a chaque r´esultat possible une valeur num´erique. Par exemple, si l’exp´erience al´eatoire consiste `a tirer au hasard un individu dans une population, l’ensemble des r´esultats possibles Ω est l’ensemble des individus de la population. A partir de l` a on peut observer l’ˆ age de l’individu. D´efinissant ainsi la v.a. X «ˆ age d’un individu tir´e au hasard dans la population» on obtient la probabilit´e, disons, de l’´ev´enement (18 ≤ X ≤ 20) en calculant sur Ω la probabilit´e de tirer un individu dont l’ˆage est compris dans cet intervalle. Plus g´en´eralement `a tout ´ev´enement E ⊆ R sur X on attribue la probabilit´e de l’´ev´enement X −1 (E) = {ω ∈ Ω | X(ω) ∈ E} de l’espace probabilis´e initial (cet ´ev´enement correspond `a l’ensemble des r´esultats possibles ω dans Ω qui conduisent par la fonction X `a une valeur appartenant a` E). Pour des fonctions X extrˆemement singuli`eres il se pourrait que X −1 (E) ne soit pas un ´ev´enement probabilisable. On ne consid`erera donc que des fonctions mesurables, c’est-`a-dire telles qu’une probabilit´e puisse ˆetre affect´ee `a tout E. En pratique toutes les fonctions utilis´ees sont mesurables et nous ignorerons ce probl`eme dans cet ouvrage. Ce formalisme n’a d’int´erˆet que s’il pr´e-existe, en amont du ph´enom`ene num´erique observ´e, des ´ev´enements de probabilit´es connues ou facilement calculables. C’est ainsi dans notre exemple : tous les individus ont la mˆeme probabilit´e d’ˆetre tir´es, ´egale `a 1/N o` u N est le nombre total d’individus. Alors la
4
Statistique − La th´eorie et ses applications
probabilit´e d’un ´ev´enement E pour X est 1/N fois le nombre d’individus dont l’ˆ age est dans E, donc la proportion d’individus dont l’ˆ age est dans E . Illustrons encore cela par un autre exemple fond´e sur le jeu de cartes du bridge. Un joueur donn´e re¸coit 13 cartesparmi les 52 cartes au total. Les cartes combinaisons de 13 cartes sont a ´etant distribu´ees au hasard toutes les 52 13 priori ´equiprobables. Pour ´evaluer son «jeu» un joueur utilise le syst`eme de points classique suivant : un as vaut 4 points, un roi 3, une dame 2 et un valet 1. Ainsi on d´efinit une v.a. X «nombre de points dans son jeu». Pour calculer P (X = 1), par exemple, il suffit (moyennant une bonne maˆıtrise de l’analyse combinatoire !) de d´enombrer les combinaisons de 13 cartes ayant un seul valet ). La probabilit´e est alors et ni as ni roi ni dame (il y en a un nombre 41 36 12 ´egale au nombre de ces jeux divis´e par le nombre total de combinaisons. On voit comment, dans un tel cas, pour trouver la loi de X il est n´ecessaire de remonter `a l’exp´erience initiale du tirage au hasard de 13 cartes a` laquelle s’applique de fa¸con r´ealiste le mod`ele d’´equiprobabilit´e.
1.2
Fonction de r´ epartition
La fonction de r´epartition est l’instrument de r´ef´erence pour d´efinir de fa¸con unifi´ee la loi de probabilit´e d’une variable al´eatoire qu’elle soit discr`ete ou continue. Si cette fonction est connue, il est possible de calculer la probabilit´e de tout intervalle et donc, en pratique, de tout ´ev´enement. C’est pourquoi c’est elle qui est donn´ee dans les tables des lois de probabilit´e.
D´ efinition 1.1 Soit X une variable al´eatoire, on appelle fonction de r´ epartition de X, que l’on note FX , la fonction d´efinie sur R par : FX (x) = P (X ≤ x). La valeur prise par la fonction de r´epartition au point x est donc la probabilit´e de l’´ev´enement ] − ∞, x]. En anglais on l’appelle «cumulative distribution function» par analogie avec la notion de fr´equence cumul´ee en statistique descriptive. Note 1.2 La fonction de r´epartition est d´efinie pour tout x ∈ R. La question se pose de savoir si la connaissance de FX , donc des probabilit´es de tous les ´ev´enements de la forme ] − ∞, x], suffit pour d´eterminer la probabilit´e d’un ´ev´enement quelconque. Pour une v.a. discr`ete, il est clair que par soustraction on peut d´eterminer la probabilit´e de chaque valeur possible et, a` partir de l` a, de toutes les parties de Ω par simple sommation. Toutefois dans les trait´es ´el´ementaires o` u ne sont abord´ees que les v.a. discr`etes, l’utilisation de la fonction de r´epartition n’est pas n´ecessaire, puisque l’on peut se contenter des probabilit´es individuelles.
Chapitre 1. Variables al´eatoires
5
Pour les v.a. continues, comme il a ´et´e bri`evement indiqu´e plus haut, on ne peut d´efinir une mesure de probabilit´e sur toutes les parties de R qui satisfasse aux axiomes de la th´eorie. On est conduit `a se restreindre aux ´ev´enements appartenant a` la tribu bor´elienne de R. Cette tribu est l’ensemble des parties de R engendr´ees par les unions, intersections et compl´ements d’´ev´enements (´eventuellement en suite infinie) de la forme (X ≤ x). On comprend ainsi que FX permette, en principe, de calculer la probabilit´e de tout ´ev´enement. La restriction `a la tribu bor´elienne de R n’est pas contraignante car elle contient en fait toutes parties concevables de R (points isol´es, intervalles ouverts ou ferm´es, unions de tels intervalles, etc.). A vrai dire il faut faire preuve de beaucoup d’ing´eniosit´e pour mettre en ´evidence une partie de R n’appartenant pas `a la tribu bor´elienne et nous n’aurons pas a` nous pr´eoccuper en pratique de cette restriction (tout comme il a ´et´e dit dans la note 1.1 qu’on ne se pr´eoccuperait pas de v´erifier si une fonction est mesurable). Propri´ et´ es ecroissante puisque, pour h > 0, (X ≤ x) ⊂ (X ≤ x+h) et 1. FX est non d´ donc P (X ≤ x) ≤ P (X ≤ x + h). 2. FX (x) varie de 0 `a 1 quand x varie de −∞ `a +∞, sachant que FX (x) est une probabilit´ e cumul´ee `a partir de −∞. On ´ecrira, en bref, FX (−∞) = 0 et FX (+∞) = 1 . 3. FX est continue ` a droite en tout x et FX (x) − FX (x− ) = P (X = x), − o` u FX (x ) d´enote la limite `a gauche au point x. Montrons succinctement cette derni`ere propri´et´e qui, comme nous allons le voir, r´esulte du fait que l’´ev´enement (X ≤ x) intervenant dans la d´efinition de FX (x) inclut la valeur x elle-mˆeme (pour des ´el´ements de d´emonstration plus rigoureux des propri´et´es ´enonc´ees ici, voir les exercices propos´es en fin de chapitre). Par d´efinition, on a : FX (x− ) =
lim
ε→0,ε>0
FX (x − ε) =
lim
ε→0,ε>0
P (X ≤ x − ε) .
Comme tout ´ev´enement (X ≤ x − ε) ne contient pas x on admettra qu’au passage `a la limite on obtient FX (x− ) = P (X < x). On a ´egalement : FX (x+ ) =
lim
ε→0,ε>0
FX (x + ε) =
lim
ε→0,ε>0
P (X ≤ x + ε) ,
mais ici (X ≤ x + ε) contient toujours x et, donc, au passage a` la limite on obtient FX (x+ ) = P (X ≤ x) = FX (x). Comme les ´ev´enements (X < x) et (X = x) sont incompatibles, on en d´eduit : FX (x) = FX (x− ) + P (X = x).
Statistique − La th´eorie et ses applications
6
En r´esum´e, si la valeur x consid´er´ee re¸coit une probabilit´e non nulle (cas discret), alors il y a un saut de discontinuit´e `a gauche d’amplitude ´egale `a cette probabilit´e, sinon FX est ´egalement continue `a gauche et donc continue en x. Nous revenons sur ces notions dans les cas particuliers des variables al´eatoires discr`etes et des variables al´eatoires continues.
1.3
Cas des variables al´ eatoires discr` etes
Pour une variable al´eatoire discr`ete X, l’ensemble des valeurs possibles est un ensemble discret, fini ou infini, de points que nous noterons en ordre croissant : x1 < x2 < · · · < xi < · · · , sans pr´eciser si l’on est dans le cas fini ou dans le cas infini. En vertu de ce qui vient d’ˆetre vu, la fonction de r´epartition reste constante entre deux valeurs possibles et pr´esente un saut de discontinuit´e d`es qu’on arrive sur une valeur xi . En xi le saut est ´egal `a la probabilit´e associ´ee `a ce point. Imm´ediatement ` a gauche de xi la fonction est ´egale `a FX (xi−1 ), en xi et `a droite elle est ´egale `a FX (xi ) (continuit´e `a droite). Cette fonction en escalier s’av`ere peu maniable et il est plus simple, pour d´efinir la loi de X, de recourir a` sa fonction de probabilit´e pX (appel´ee aussi fonction de masse de probabilit´e) qui pour tout xi (i = 1, 2, . . .) donne directement sa probabilit´e pX (xi ) . Prenons l’exemple du nombre d’appels X arrivant a` un standard t´el´ephonique au cours d’une minute, pour lequel un mod`ele de loi de Poisson de moyenne 10 serait appropri´e (voir cette loi en section 4.1.7). La variable al´eatoire X est d´efinie par : valeurs possibles probabilit´es associ´ees
0
1
e−10
10e−10
2 102 e−10 2
··· ···
k 10k e−10 k!
··· ···
ce qui donne le diagramme en bˆ atonnets et la fonction de r´epartition de la figure 1.1. Le passage de la fonction de r´epartition `a la fonction de probabilit´e et inversement est : pX (xi ) = FX (xi ) − FX (x− i ) = FX (xi ) − FX (xi−1 ) FX (x) = pX (xi ) i | xi ≤x
1.4
Cas des variables al´ eatoires continues
Formellement on dira qu’une variable al´eatoire X est continue s’il existe une fonction fX non n´egative telle que, pour tout x ∈ R, la fonction de r´epartition
Chapitre 1. Variables al´eatoires
0, 14
7
p(x)
0, 12 0, 1 0, 08 0, 06 0, 04 0, 02 x
0 0
1 0, 9 0, 8 0, 7 0, 6 0, 5 0, 4 0, 3 0, 2 0, 1 0
5
10
15
20
25
F( x)
x 0
5
10
15
20
25
Figure 1.1 - Fonction de probabilit´e et fonction de r´epartition de la loi de Poisson de moyenne 10.
8
Statistique − La th´eorie et ses applications
puisse s’´ecrire
FX (x) =
x −∞
fX (u)du .
La fonction fX est alors appel´ee fonction de densit´e de probabilit´e de X ou simplement densit´e de X. Le fait que FX s’exprime comme une int´egrale implique qu’elle est continue partout et, par cons´equent, pour tout x on a P (X = x) = FX (x) − FX (x− ) = 0. Plus concr`etement, chaque point de la droite r´eelle est immat´eriel en tant qu’intervalle de longueur nulle et a une probabilit´e nulle en tant qu’´ev´enement, mais peut ˆetre caract´eris´e par une densit´e de probabilit´e en ce point. Les ´ev´enements d’int´erˆet seront g´en´eralement des intervalles et pour ceux-ci il sera indiff´ erent d’y inclure ou non les bornes. La fonction de r´epartition devient alors particuli`erement appropri´ee pour calculer la probabilit´e de tout intervalle [a, b]. En effet, comme on a : (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) , les deux ´ev´enements `a droite ´etant incompatibles et les signes < pouvant ˆetre remplac´es par ≤, il s’ensuit que : P (X ≤ b) = P (X ≤ a) + P (a ≤ X ≤ b) P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) d’o` u, par la d´efinition mˆeme de FX , les formules fondamentales : P (a ≤ X ≤ b) = FX (b) − FX (a) b fX (u)du . = a
On remarquera au passage que, dans le cas discret, les formules se compliquent car selon qu’on inclut ou non les bornes de l’intervalle il faut introduire FX (b− ) et FX (a− ). On admettra que, plus g´en´eralement, pour tout ´ev´enement (X ∈ A) on a : fX (x)dx. P (X ∈ A) = A
En g´en´eral FX sera d´erivable partout sauf peut-ˆetre en quelques points qui seront des points de discontinuit´e pour fX (d’un point de vue purement math´ematique FX existerait mˆeme si fX ´etait discontinue sur un ensemble d´enombrable de points). En un point x o` u elle est d´erivable prenons un intervalle de longueur h centr´e sur x. La probabilit´e associ´ee `a cet intervalle est u: alors P (x − h2 < X < x + h2 ) = FX (x + h2 ) − FX (x − h2 ), d’o`
Chapitre 1. Variables al´eatoires
lim
h→0
P (x −
h 2
9
< X < x + h2 ) = FX (x) = fX (x) , h
ce qui justifie l’appellation de densit´e de probabilit´e. Bien que d’un point de vue pratique, pour les mod`eles de lois continues, ce soit FX qui soit utile - et c’est bien elle qui est donn´ee dans les tables la repr´esentation graphique de fX est plus parlante car elle met en ´evidence les zones `a plus forte probabilit´e. Chacun sait interpr´eter intuitivement, par exemple, la fameuse courbe en cloche du mod`ele de la loi de Gauss. A titre illustratif, consid´erons le jeu de loterie o` u l’on fait tourner une fl`eche sur un cadran avec une zone gagnante, et soit la variable X correspondant a` l’angle de la fl`eche, par rapport a` une origine d´etermin´ee, apr`es exp´erience. S’il n’y a pas de direction privil´egi´ee la densit´e de probabilit´e est la mˆeme partout, c’est-`a-dire sur l’intervalle [0 , 360], et X suit une loi continue uniforme (voir section 4.2.1) sur celui-ci. Les graphes de la densit´e et de la fonction de r´epartition sont donn´es en figure 1.2. La probabilit´e d’un intervalle [a, b], correspondant `a la surface sous la densit´e, y est mise en ´evidence. Notons que FX est d´erivable partout sauf aux bornes du support de fX (on appelle support u elle n’est pas nulle). de fX l’ensemble des valeurs o` Outre qu’elle est une fonction non n´egative, la densit´e a les propri´et´es suivantes : +∞ fX (x)dx = 1 , −∞
lim fX (x) = 0 ,
x→±∞
la premi`ere in´egalit´e d´ecoulant du fait que l’int´egrale vaut FX (+∞) − FX (−∞) (voir la propri´et´e n◦ 2 en section 1.2), la deuxi`eme ´etant n´ecessaire (mais non suffisante) pour que l’int´egrale converge aux deux bornes.
Note 1.3 Lorsqu’on aborde la th´eorie des probabilit´es par la th´eorie de la mesure, il n’y a pas lieu de faire de distinction entre variables discr`etes et variables continues, ` la et donc entre pX et fX . Dans les deux cas il s’agit d’une densit´e par rapport a mesure g´en´er´ee par FX .
1.5
Notion essentielle de quantile
D´ efinition 1.2 On appelle quantile d’ordre q de la variable X, o` u q ∈ [0, 1], la valeur xq telle que P (X ≤ xq ) = q ou, de mˆeme, FX (xq ) = q.
Statistique − La th´eorie et ses applications
10
f(x) 0,004
P(a<X
0,003
0,002
0,001 x
0 -100
0
a
100
200
b
300
400
100
200
b
300
x 400
F(x) 1
P(a<X
0 -100
0
a
Figure 1.2 - Fonction de densit´e et fonction de r´epartition de la loi continue uniforme sur [0, 1].
Chapitre 1. Variables al´eatoires
11
La notion de quantile (appel´ee aussi fractile, ou percentile si exprim´ee en pour cent) est directement li´ee `a celle de fonction de r´epartition. Toute valeur de R peut ˆetre vue comme un quantile d’un certain ordre. Cette notion de quantile est essentielle du fait que l’ordre d’un quantile permet de positionner la valeur correspondante sur la distribution consid´er´ee. Ainsi le quantile d’ordre 0,5 , alias la m´ediane, est une sorte de centre ou milieu de la distribution. En statistique apparaˆıtra la n´ecessit´e de fixer des limites de plausibilit´e pour les valeurs d’une loi donn´ee et l’usage est de prendre pour cela les quantiles x0,025 et x0,975 , soit des valeurs a` l’int´erieur desquelles la v.a. a une probabilit´e 0,95 de se trouver. Dans le cas continu, a` tout ordre q ∈ [0, 1] correspond une valeur xq du fait de la continuit´e de FX . G´en´eralement FX est strictement croissante sur l’ensemble des valeurs de x o` u 0 < FX (x) < 1 et xq est donc unique pour q ∈]0, 1[. Dans le cas discret, nous avons vu que FX est une fonction en escalier et il peut donc y avoir tout un intervalle de valeurs possibles si q correspond au niveau d’une marche de FX , ou aucune valeur si q est entre deux marches. En pratique on convient de prendre la valeur la plus faible dans le premier cas et d’interpoler lin´eairement entre les deux valeurs possibles xi et xi+1 telles que FX (xi ) < q et FX (xi+1 ) > q dans le deuxi`eme cas.
1.6
Fonction d’une variable al´ eatoire
Le probl`eme du passage de la loi d’une v.a. X `a la loi d’une fonction Z = g(X) de celle-ci est fr´equent. Consid´erons, par exemple, la v.a. X exprimant la consommation d’une automobile en litres aux 100 kilom`etres. A une consommation de x litres/100 km correspond aux Etats-Unis une consommation z = 235/x «miles per gallon» (nombre de miles parcourus avec un gallon d’essence). Ainsi la v.a. X devient une v.a. Z = 235/X. Dans le cas continu la d´etermination de la loi de la nouvelle v.a. Z passe par sa fonction de r´epartition FZ (z) = P (Z ≤ z) naturellement d´efinie pour tout z ∈ R par la probabilit´e, pour X, associ´ee `a l’ensemble des valeurs x telles que g(x) ∈ ] − ∞, z]. En utilisant la symbolique des ´ev´enements il suffit de r´esoudre l’´ev´enement (Z ≤ z) en terme d’´ev´enement pour X. Note 1.4 Rigoureusement, pour que les probabilit´es des ´ev´enements sur Z soient calculables il faut que la fonction g soit mesurable (voir note 1.1), c’est-` a-dire que pour tout ´ev´enement E pour Z (donc bor´elien de R, voir note 1.2) g −1 (E) soit un ´ev´enement pour X (donc un bor´elien de R). Les fonctions non mesurables ne se rencontrent pas en pratique. Exemple 1.1 Montrons une fonction strictement croissante, une fonction non monotone et une fonction strictement d´ecroissante.
Statistique − La th´eorie et ses applications
12
a) Soit Z = 2X + 3 : FZ (z) = P (Z ≤ z) = P (2X + 3 ≤ z) = P
z−3 X≤ 2
= FX
z−3 2
.
b) Soit T = X 2 : FT (t) = P (X 2 ≤ t) √ √ √ √ P (− t ≤ X ≤ t) = FX ( t) − FX (− t) si t > 0 = . 0 si t ≤ 0 c) Soit U = c/X o` u c > 0 et X est `a valeurs dans ]0, +∞[ . Pour u > 0 on a : FU (u) = P (U ≤ u) = P
c
c c ≤u =P X≥ = 1 − FX X u u
et FU (u) = 0 pour u ≤ 0.
Si g est strictement croissante comme dans le cas a) ci-dessus, le passage de FX `a FZ est simple puisque FZ (z) = FX (g −1 (z)). Si g est strictement d´ecroissante comme dans le cas c) on a FZ (z) = 1 − FX (g −1 (z)). La densit´e de Z s’obtient simplement par d´erivation de FZ . Pour les v.a. discr`etes, la fonction de r´epartition, nous l’avons vu, est peu commode et l’on passera par la d´efinition de la fonction de probabilit´e. Dans les notations du type de celles introduites en d´ebut de section 3, l’ensemble des valeurs possibles zk pour k = 1, 2, . . . est l’ensemble des valeurs engendr´ees par g(xi ) pour i = 1, 2, . . . . La probabilit´e pZ (zk ) est obtenue en sommant les probabilit´es pX (xi ) des valeurs xi telles que g(xi ) = zk .
1.7
Exercices
Les exercices 1.1 ` a 1.4 sont d’un niveau avanc´e et sont uniquement donn´es pour indiquer les ´el´ements de d´emonstration des propri´et´es ´enonc´ees en section 1.2. Exercice 1.1 * Soit une suite croissante d’´ev´enements {An }, c’est-`a-dire telle ∞
que A1 ⊆ A2 ⊆ · · · ⊆ An ⊆ · · · . Montrer que P ( ∪ An ) = lim P (An ). On n=1
n→∞
rappelle que l’additivit´e des probabilit´es pour des ´ev´enements incompatibles vaut pour une suite infinie d’´ev´enements. Aide : consid´erer la suite d’´ev´enements {An ∩ An−1 }.
Chapitre 1. Variables al´eatoires
13
Exercice 1.2 * Soit une suite d´ecroissante d’´ev´enements {Bn }, c’est-`a-dire ∞
telle que B1 ⊇ B2 ⊇ · · · ⊇ Bn ⊇ · · · . Montrer que P ( ∩ Bn ) = lim P (Bn ). n=1
n→∞
∞
Aide : consid´erer la suite {B n } et admettre que le compl´ementaire de ∩ Bn n=1
∞
est ∪ B n . n=1
Exercice 1.3 * Montrer que l’on peut ´ecrire FX (+∞) = 1 (i.e. lim FX (x) = x→+∞
1) et de mˆeme FX (−∞) = 0. Aide : on utilisera le r´esultat de l’exercice 1.1 en consid´erant des ´ev´enements du type ] − ∞, n] et ] − n, +∞[. Exercice 1.4 * Montrer que P (X = x) = FX (x) − FX (x− ). Aide : envisager l’´ev´enement {x} comme intersection des termes d’une suite d´ecroissante et utiliser le r´esultat de l’exercice 1.2. Exercice 1.5 Soit l’exp´erience al´eatoire consistant a` jeter un d´e jusqu’` a ce qu’un six apparaisse pour la premi`ere fois et soit X la v.a. «nombre de jets n´ecessaires». D´eterminer la fonction de probabilit´e de X. V´erifier que la somme des probabilit´es sur l’ensemble des valeurs possibles est bien ´egale `a 1. Calculer P (1 < X ≤ 3). Ecrire et dessiner la fonction de r´epartition de X. Aide : calculer d’abord P (X > k). Exercice 1.6 Soit la fonction f (x) = cx(1 − x) pour x ∈ [0, 1] et 0 sinon. Pour quelle valeur de c est-ce une densit´e de probabilit´e ? D´eterminer alors la fonction de r´epartition de cette loi et sa m´ediane. Exercice 1.7 Justifier que la fonction F (x) = 1 − e− 2 pour x > 0 et 0 sinon, est une fonction de r´epartition. D´eterminer les quantiles d’ordres 0,25 et 0,75 (appel´es premier et troisi`eme quartiles). Soit X une v.a. suivant cette loi, calculer P (1 < X ≤ 2). x
Exercice 1.8 Soit X de densit´e fX (x) = 2x pour x ∈ [0, 1] et 0 sinon. D´eterminer la fonction de r´epartition et la densit´e de 1/X . Mˆeme question pour ln(1/X). Exercice 1.9 Soit X de loi continue uniforme sur [0, 1] et Y = −θ ln(1 − X) avec θ > 0. D´eterminer la fonction de r´epartition et la densit´e de Y.
Chapitre 2
Esp´ erance math´ ematique et moments 2.1
Introduction et d´ efinition
Dans cette section nous consid´erons toujours une v.a. X, soit de fonction de probabilit´e pX dans le cas discret, soit de densit´e fX dans le cas continu. La notion d’esp´erance math´ematique d’une variable al´eatoire correspond a` la notion descriptive de moyenne pour une distribution empirique de valeurs. Nous ferons plus loin (section 2.4) une analogie entre une distribution «th´eorique» (une loi de probabilit´e) et une distribution empirique (une s´erie d’observations num´eriques). Prenons pour exemple le temps de fabrication d’un produit qui connaˆıt des variations al´eatoires selon une loi suppos´ee connue. L’esp´erance math´ematique va indiquer quel est «en moyenne» le temps de fabrication du produit. Pour cela on effectue la somme des valeurs possibles en les affectant de poids ´egaux `a leurs probabilit´es dans le cas discret, l’analogue dans le cas continu s’exprimant par une int´egrale avec pond´eration par la densit´e de probabilit´e. D´ efinition 2.1 On appelle esp´ erance math´ ematique de X, si elle existe, la valeur not´ee E(X) telle que : E(X) =
···
xi pX (xi ) i=1 +∞
E(X) = −∞
dans le cas discret,
x fX (x)dx
dans le cas continu.
Du point de vue du graphe de fX (respectivement pX ) cette valeur correspond au centre de gravit´e de la surface sous la courbe (respectivement des bˆ atonnets repr´esentant les probabilit´es des points). En particulier, s’il existe
Statistique − La th´eorie et ses applications
16
un axe de sym´etrie, elle se situe au niveau de cet axe (par exemple l’esp´erance math´ematique de la loi uniforme sur [0, 360] est 180). En bref, E(X) sera aussi appel´ee la moyenne de X. L’existence de E(X) n’est pas garantie si fX (respectivement pX ) converge trop lentement vers z´ero `a l’infini, comme dans l’exemple suivant. Exemple 2.1 La loi de Cauchy est d´efinie par fX (x) = L’esp´erance math´ematique se calcule par
+∞
−∞
1 π(x2 +1)
pour x ∈ R.
x dx , π(x2 + 1)
mais cette int´egrale ne converge pas quand x → +∞ ni quand x → −∞ car la fonction a` int´egrer s’y comporte comme 1/x . Plus pr´ecis´ement : a
b
b
1 x 1 dx = ln(1 + x2 ) a = ln(1 + b2 ) − ln(1 + a2 ) + 1) 2π 2π
π(x2
qui tend vers +∞ quand b → +∞ et vers −∞ quand a → −∞. La loi de Cauchy n’admet donc pas de moyenne (et ceci bien qu’elle soit sym´etrique par rapport a` x = 0 ).
2.2
Esp´ erance d’une fonction d’une variable al´ eatoire
Soit Z = g(X) une v.a. fonction de la v.a. X. Pour calculer E(Z) on peut d’abord d´eterminer sa loi (donc fZ ou pZ ) `a partir de celle de X, comme nous l’avons fait en section 1.6 . Toutefois il est possible de montrer que l’on peut directement calculer E(Z) sur la loi de X, ` a savoir `a partir de fX ou pX (voir les exercices pour la d´emonstration dans le cas continu avec une fonction d´erivable monotone). Proposition 2.1 Soit g(X) une fonction de la v.a. X. Alors :
+∞
E(g(X)) = E(g(X)) =
−∞ ···
g(x) fX (x)dx
g(xi ) pX (xi )
dans le cas continu (si l’int´egrale existe),
dans le cas discret (si la somme existe).
i=1
On voit donc que pour le calcul de E(g(X)) il suffit de remplacer la valeur de x par sa valeur g(x) (ou xi par g(xi )).
Chapitre 2. Esp´erance math´ematique et moments
17
Exemple 2.2 Consid´erons X de loi uniforme sur l’intervalle [0, 1]. Sa fonction de r´epartition est FX (x) = x et sa densit´e fX (x) = 1 pour x ∈ [0, 1]. Soit la fonction Z = X 2 . Calculons d’abord E(X) en ´etablissant la loi de Z. Celle-ci est donn´ee par : √ √ √ FZ (z) = P (Z ≤ z) = P (X 2 ≤ z) = P (− z ≤ X ≤ z) = P (X ≤ z) √ √ puisque P (X ≤ 0) = 0. Donc FZ (z) = FX ( z) = z pour z ∈ [0, 1]. Ainsi 1 fZ (z) = Fz (z) = 2√ pour z ∈ [0, 1] et 0 sinon, d’o` u: z
1
z
E(Z) = 0
1 √ dz = 2 z
1 0
√
z 3/2 1 1 z dz = [ ] = . 2 3 0 3
Calculons maintenant directement : 3 1 1 x 1 2 2 x .1.dx = = . E(Z) = E(X ) = 3 3 0 0 Note 2.1 En ´etendant l’int´egrale de Riemann classique `a l’int´egrale de RiemannStieltjes, on peut traiter de la mˆeme fa¸con cas discret et cas continu. Exposons succinctement cela dans le cas o` u l’ensemble des valeurs possibles est born´e par l’intervalle [a, b]. Dans la mesure o`u une fonction g est continue sur [a, b] sauf pour un ensemble
b
d´enombrable de points, on peut d´efinir l’int´egrale de Riemann a g(x)dx de fa¸con simple en subdivisant [a, b] en n intervalles r´eguliers d´elimit´es par :
a = x0 < x1 < x2 < · · · < xn−1 < xn = b. Cette int´egrale est alors la limite, quand n → ∞, des sommes n
g(xk ) (xk − xk−1 ).
k=1
Dans le contexte qui nous int´eresse, l’int´egrale de Riemann-Stieltjes relative a ` FX est la limite des sommes n
g(xk ) [FX (xk ) − FX (xk−1 )] ,
k=1
b
not´ee a g(x) dFX (x). Ainsi, dans le cas discret ne subsistent dans la somme que les sous-intervalles o` u FX varie, c’est-`a-dire contenant au moins une valeur possible xi et, au passage `a la limite, ne subsistent que ces valeurs. La limite vaut alors ··· i=1
···
g(xi ) FX (xi ) − FX (x− ) = g(xi ) pX (xi ). i i=1
Statistique − La th´eorie et ses applications
18
Dans le cas continu, par le th´eor`eme de la valeur moyenne on peut ´ecrire
FX (xk ) − FX (xk−1 ) = fX (ξk ) (xk − xk−1 ) o`u ξk ∈ ]xk−1 , xk [, et la limite donne b l’int´egrale de Riemann usuelle a g(x) fX (x) dx. d Notons qu’en prenant g(x) = 1 sur [a, b], l’int´egrale c dFX (x), o` u [c, d] est a FX (d) − FX (c), la probabilit´e associ´ee ` a l’intervalle inclus dans [a, b], est ´egale ` ]c, d], que ce soit dans le cas discret ou dans le cas continu.
2.3
Lin´ earit´ e de l’op´ erateur E(.), moments, variance
Pout toute combinaison lin´eaire ag(X) + bh(X) de fonctions g et h de X on a : E(ag(X) + bh(X)) = aE(g(X)) + bE(h(X)) . Ceci d´ecoule imm´ediatement de la lin´earit´e de la sommation ou de l’int´egration. Voyons cela sur le cas particulier aX + b pour le cas continu : +∞ (ax + b)fX (x)dx E(aX + b) = −∞ +∞
=a −∞
xfX (x)dx + b
+∞ −∞
fX (x)dx = aE(X) + b .
Remarquons au passage que l’on peut voir b comme une variable al´eatoire certaine (discr`ete), c’est-`a-dire prenant cette seule valeur avec probabilit´e 1 et, en coh´erence avec la d´efinition de l’esp´erance math´ematique, ´ecrire par convention E(b) = b. On notera bien que dans le cas g´en´eral E(g(X)) n’est pas ´egal `a g(E(X)), par exemple E(X 2 ) = (E(X))2 . Nous en venons maintenant a` la notion de moments, lesquels sont des esp´erances math´ematiques des puissances de X. Leur int´erˆet vient du fait qu’ils permettent de caract´eriser les distributions. Ainsi nous avons d´ej`a vu que la moyenne (puissance 1) fournit une valeur centrale. Les puissances sup´erieures fournissent diverses caract´eristiques de la forme de la distribution. D´ efinition 2.2 On appelle moment simple d’ordre r de la v.a. X, o` u r est un entier positif, la valeur (si elle existe) μr = E(X r ). Ainsi μ1 est la moyenne de X que l’on note plus simplement μ (ou μX s’il y a plusieurs v.a. a` distinguer). En fait les caract´eristiques de forme reposent plutˆ ot sur les moments centr´es, c’est-`a-dire sur les esp´erances math´ematiques des puissances de X − E(X), ou X − μ, transformation de X appel´ee centrage de X.
Chapitre 2. Esp´erance math´ematique et moments
19
D´ efinition 2.3 On appelle moment centr´ e d’ordre r de la v.a. X, o` u r est un entier positif, la valeur (si elle existe) μr = E((X − μ)r ). Pour r = 1 on a E(X − μ) = E(X) − μ = μ − μ = 0 ce qui caract´erise le centrage de X. Pour r = 2 on a la variance de X, qui est une caract´eristique de dispersion de la distribution comme en statistique descriptive et, a` ce titre, m´erite une attention particuli`ere. D´ efinition 2.4 On appelle variance de X, la valeur (si elle existe) not´ee V (X), d´efinie par : V (X) = E((X − μ)2 ). 2 ). La On la note ´egalement plus simplement par σ 2 (´eventuellement σX racine carr´ee de V (X), not´ee naturellement σ (´eventuellement σX ), est appel´ee ´ecart-type de X.
Les moments d’ordres sup´erieurs sont moins utiles et nous les mentionnons pour m´emoire. Le moment centr´e d’ordre 3, moyennant une standardisation pour ´eliminer l’effet d’´echelle, fournit le coefficient d’asym´etrie : E((X − μ)3 ) σ3 dont on voit qu’il est nul en cas de sym´etrie (n´ecessairement par rapport `a μ ). Du moment centr´e d’ordre 4 on d´eduit le coefficient d’aplatissement ou curtose : E((X − μ)4 ) −3 σ4 qui indique, en comparaison avec la loi de Gauss, le degr´e de concentration autour de la moyenne (pour la loi de Gauss μ4 est ´egal a` 3σ 4 et ce coefficient est donc nul). En d´eveloppant (X − μ)r et en utilisant la lin´earit´e de l’op´erateur E(.), on voit que μr s’exprime en fonction de μ1 , μ2 , · · · , μr . En particulier, on trouve : μ2 = E((X − μ)2 ) = E(X 2 − 2μX + μ2 ) = E(X 2 ) − 2μE(X) + μ2 = E(X 2 ) − 2μ2 + μ2 = E(X 2 ) − μ2 . Ceci constitue une formule tr`es utile pour le calcul de la variance que nous conviendrons d’appeler formule de d´ecentrage de la variance : V (X) = E(X 2 ) − μ2 .
20
Statistique − La th´eorie et ses applications
Cette formule s’apparente `a celle de la statistique descriptive pour le calcul de la variance d’une s´erie num´erique (on verra dans la section suivante une analogie directe entre variance probabiliste et variance descriptive). Comme en statistique descriptive la variance ne peut ˆetre n´egative. De mˆeme, on a : V (aX + b) = a2 V (X). Pour le voir il suffit d’appliquer la d´efinition de la variance a` la v.a. aX + b : V (aX + b) = E([aX + b − E(aX + b)]2 ) = E([a(X − E(X))]2 )
puisque E(b) = b et E(aX) = aE(X)
= E(a [X − E(X)] ) 2
2
et, encore par lin´earit´e,
V (aX + b) = a E([X − E(X)] ) = a V (X). 2
2
2
Notons au passage que si X a une variance nulle c’est n´ecessairement une variable al´eatoire certaine. En effet, pour le cas continu :
+∞
V (X) = −∞
(x − μ)2 fX (x)dx
ne peut s’annuler puisque fX est non n´egative et ne peut ˆetre nulle partout. Pour le cas discret : V (X) =
···
(xi − μ)2 pX (xi )
i=1
ne peut s’annuler d`es lors qu’il y a deux valeurs possibles. Inversement, si X est certaine sa variance est ´evidemment nulle, de sorte qu’une variable al´ eatoire est certaine si et seulement si sa variance est nulle.
Existence des moments Si μr existe alors les moments d’ordres inf´erieurs μr−1 , μr−2 , · · · , μ1 existent, et donc μr existe. En effet la fonction xr−1´etant domin´ee par la fonction xr au voisinage de +∞ ou de −∞, la convergence de l’int´egrale (ou de la somme) contenant xr entraˆıne celle de l’int´egrale contenant xr−1 . Notons, pour m´emoire, que la variance existe si et seulement si μ2existe. Par ailleurs, +∞ pour l’existence du moment d’ordre r, la convergence de −∞ |xr | fX (x)dx = ··· r E(|X r |) est une condition suffisante (ou la convergence de |xi | pX (xi ) dans le cas discret).
i=1
Chapitre 2. Esp´erance math´ematique et moments
2.4
21
Tirage al´ eatoire dans une population finie : distribution empirique et distribution probabiliste
La relation entre distribution empirique et distribution probabiliste suite a` un tirage al´eatoire permet, en particulier, de mieux appr´ehender les notions de moyenne et de variance d’une v.a. en les reliant aux notions correspondantes de la statistique descriptive. Consid´erons une population de N individus sur lesquels s’observe un certain caract`ere quantitatif X (par exemple l’ˆ age arrondi en ann´ees). Supposons qu’il y ait, dans cette population, r valeurs distinctes (avec 2 ≤ r ≤ N ) not´ees x1 , x2 , · · · , xr et s’observant avec des fr´equences relatives (fr´equences1 divis´ees par N ) p1 , p2 , · · · , pr . La moyenne observ´ee r dans la population est donc xi pi . i=1
Consid´erons maintenant la v.a. X «valeur d’un individu tir´e au hasard dans cette population». Par tirage au hasard, on entend que chaque individu a la mˆeme probabilit´e 1/N d’ˆetre s´electionn´e. De cette ´equiprobabilit´e il d´ecoule que la probabilit´e d’observer la valeur xi est la fr´equence relative pi de cette valeur dans la population (voir note 1.1, deuxi`eme paragraphe). Il y a donc identit´e entre la distribution empirique de X dans cette population et la distribution (plus exactement la loi) de la v.a.discr`ete X. En particulier E(X) et V (X) sont identiques `a la moyenne et `a la variance du caract`ere X dans la population (en prenant bien le diviseur naturel N pour le calcul de la variance de cette derni`ere). Pour la moyenne, la formule indiqu´ee ci-dessus est la mˆeme que celle d’une v.a. discr`ete vue en section 2.1 et il en serait naturellement de mˆeme pour la variance.
2.5
Fonction g´ en´ eratrice des moments
La fonction g´en´eratrice des moments nous int´eresse dans la mesure o` u elle peut faciliter le calcul des moments d’une loi. Cependant son existence - et donc son usage - sera limit´ee aux lois dont la densit´e (´eventuellement la fonction de probabilit´e) d´ecroˆıt plus vite qu’une exponentielle a` l’infini (voir plus loin en note 2.4 la fonction caract´eristique des moments qui, elle, est toujours d´efinie). Nous supposons ci-apr`es qu’elle existe au moins au voisinage de 0 et que la loi admet des moments de tous ordres. D´ efinition 2.5 On appelle fonction g´ en´ eratrice des moments de la v.a. X, si elle existe, la fonction : ΨX (t) = E(etX ). 1 Nous suivons l’usage anglo-saxon commode selon lequel une fr´ equence est un effectif et une fr´ equence relative est une proportion.
Statistique − La th´eorie et ses applications
22
C’est une fonction de t par la variable t introduite dans la fonction al´eatoire etX . Proposition 2.2 Le moment d’ordre r de la v.a. X est donn´e par : (r)
μr = ΨX (0) (r)
o` u ΨX est la d´eriv´ee d’ordre r de ΨX . En particulier l’esp´erance math´ematique (μ1 ) de X est la valeur de la d´eriv´ee premi`ere ΨX pour t = 0. Note 2.2 En supposant remplies les conditions requises pour les ´ecritures suivantes on a :
tX
E(e
+∞
)= −∞
∞ (tx)k k=0
k!
fX (x)dx =
∞ k t k=0
k!
+∞ −∞
xk fX (x)dx =
∞
μk
k=0
tk k!
et, par identification avec le d´eveloppement de ΨX (t) en s´erie de Taylor-Mac-Laurin, on a bien la propri´et´e ci-dessus.
Exemple 2.3 loi exponentielle. Cette loi continue, qui d´epend d’un param`etre λ > 0, a pour densit´e (voir section 4.2.2) : λe−λx si x ≥ 0 f (x) = 0 si x < 0 . Calculons la fonction g´en´eratrice des moments d’une v.a. X qui suit cette loi : +∞ +∞ tX tx −λx e λe dx = λ e(t−λ)x dx , ΨX (t) = E(e ) = 0
0
puis en posant u = (t − λ)x et en supposant t < λ pour la convergence 0 λ λ . ΨX (t) = − eu du = t − λ −∞ λ−t Les deux premi`eres d´eriv´ees sont :
ΨX (t) =
donc μ1 = ΨX (0) =
1 λ
λ (λ − t)2
,
et μ2 = ΨX (0) =
ΨX (t) =
2λ (λ − t)3
,
2 . λ2
On obtient ainsi rapidement E(X) = 1/λ et, par la formule de d´ecentrage, V (X) = E(X 2 ) − (E(X))2 = λ22 − λ12 = λ12 . On pourrait obtenir aussi ais´ement les moments d’ordres sup´erieurs.
Chapitre 2. Esp´erance math´ematique et moments
23
∞ Note 2.3 Si l’on sait d´evelopper ΨX (t)en s´erie enti`ere, ΨX (t) = k=0 ak tk , on acc`ede directement aux moments. Le moment d’ordre k est en effet le coefficient du terme en tk , multipli´e par k! (voir note 2.2 ci-dessus). Par exemple pour la loi exponentielle on a :
ΨX (t) =
t2 t 1 tk + = 1 + + · · · + + ··· λ λ2 λk (1 − λt )
et μk est donc ´egal ` a k!/λk , comme on l’a vu pour k = 1 et k = 2.
Exemple 2.4 loi g´eom´etrique. Cette loi discr`ete, qui d´epend d’un param`etre p ∈ [0, 1], a pour fonction de probabilit´e (voir section 4.1.4) : pX (x) = p(1 − p)x On a alors : ΨX (t) =
∞
pour x = 0, 1, 2, · · · .
∞
x (1 − p)et e p(1 − p) = p tx
x
x=0
x=0
1 qui est d´efinie pour (1 − p)et < 1 ou t < log( 1−p ) . Ainsi :
ΨX (t) =
p 1 − (1 − p)et p(1 − p)et
ΨX (t) = p(1 − p)et
ΨX (t) = = =
2
−2
2
p(1 − p)et [−(1 − p)et ]
[1 − (1 − p)et ] [1 − (1 − p)et ] p(1 − p)et [1 − (1 − p)et + 2(1 − p)et ]
3
3
[1 − (1 − p)et ] t p(1 − p)e [1 + (1 − p)et ] 3
[1 − (1 − p)et ]
d’o` u: μ1 = μ2 = et
[1 − (1 − p)et ]
p(1 − p) 1−p = p2 p
p(1 − p)(2 − p) (1 − p)(2 − p) = 3 p p2
(1 − p)(2 − p) − V (X) = p2
1−p p
2 =
1−p . p2
24
Statistique − La th´eorie et ses applications
Note 2.4 Fonction caract´eristique des moments ΦX Elle est d´efinie via une extension ` a des variables al´eatoires ` a valeurs dans l’ensemble des nombres complexes C par :
ΦX (t) = E(eitX ) = E(cos(tX)) + iE(sin(tX)). Puisque fX est int´egrable sur tout R et que eitx ≤ 1 pour tout x, ΦX (t) est d´efinie pour tout t, quelle que soit la loi (le mˆeme type d’argument valant pour une loi discr`ete avec pX ). En fait, la fonction caract´eristique des moments permet de d´efinir parfaitement une loi de probabilit´e, et ceci de fa¸con duale avec la fonction de r´epartition. Moyennant les conditions n´ecessaires de d´erivabilit´e on a (k) μk = i−k ΦX (0). On recourra ´eventuellement `a la fonction caract´eristique lorsque la fonction g´en´eratrice n’existera pas au voisinage de 0. Quand cette derni`ere existe on en d´eduit imm´ediatement ΦX (t) = ΨX (it).
2.6
Formules d’approximation de l’esp´ erance et de la variance d’une fonction d’une v.a.
Ces formules sont utiles car on se heurte souvent `a un probl`eme d’int´egration (ou de sommation) pour le calcul de E(g(X)) ou de V (g(X)). Nous adoptons les mˆemes notations qu’en section 2.2 et supposons que g est d´erivable deux fois au voisinage de μ = E(X). En d´eveloppant g(x) en s´erie de Taylor au voisinage de μ : g(x) = g(μ) + (x − μ)g (μ) +
(x − μ)2 g (μ) + o((x − μ)2 ) 2
et en n´egligeant le terme2 o((x − μ)2 ) on obtient : E(g(X)) g(μ) + g (μ)E(X − μ) + g (μ)
E((X − μ)2 ) 2
1 g(μ) + g (μ) V (X) , 2 puis : 1 g(x) − E(g(X)) (x − μ) g (μ) + [(x − μ)2 − V (X)]g (μ) 2 [g(x) − E(g(X))]2 (x − μ)2 [g (μ)]2 , d’o` u :
V (g(X)) V (X)[g (μ)]2 .
Le mˆeme type d’approximation peut ˆetre obtenu pour les fonctions de plusieurs variables d´efinies au chapitre suivant. o(u)
2 La notation o(u) est utilis´ ee pour d´esigner une fonction telle que u → 0 quand u → 0, c’est-` a-dire qu’elle devient n´egligeable par rapport a ` u quand u est petit.
Chapitre 2. Esp´erance math´ematique et moments
2.7
25
Exercices
Exercice 2.1 Soit la v.a. discr`ete X prenant pour valeurs 0, 1, 2 avec les probabilit´es respectives 0,7 ; 0,2 ; 0,1. Soit Y = X 2 − 1. Calculer E(Y ). Exercice 2.2 Soit la v.a. X continue, de fonction de r´epartition FX et de densit´e fX , et soit la fonction Z = g(X) o` u g est une fonction strictement croissante (continˆ ument) d´erivable. En appliquant la m´ethode d´ecrite en section 1.6, d´eterminer la fonction de r´epartition de Z et en d´eduire que sa densit´e est fZ (z) = fX (g −1 (z)) |(g −1 (z)) |. On montrera que ceci reste vrai pour une fonction strictement d´ecroissante. +∞ ´ Etablir la propri´et´e ´enonc´ee dans la proposition 2.1, i.e. −∞ g(x) fX (x)dx = E(Z) (aide : utiliser le changement de variable x = g −1 (z) dans l’int´egrale ). Exercice 2.3 Soit la loi (dite exponentielle double ou loi de Laplace) de densit´e : 1 f (x) = e−|x| , x ∈ R . 2 Montrer que sa fonction g´en´eratrice des moments est Ψ(t) = (1 − t2 )−1 . En d´eduire sa variance et son moment d’ordre 4. Calculer son coefficient d’aplatissement (d´efini en section 2.3). Exercice 2.4 Soit la loi de Pareto (voir section 4.2.6) de param`etres strictement positifs a et θ, dont la fonction de densit´e est : ⎧
θ+1 ⎨ θ a si x ≥ a a x . f (x) = ⎩ 0 si x < a 1. Calculer la moyenne et la variance de cette loi. Quand ces moments existentils ? G´en´eraliser `a l’existence d’un moment d’ordre quelconque. 2. Montrer que sa fonction g´en´eratrice des moments n’existe pas. Exercice 2.5 Soit la v.a. X de densit´e f (x) = 3x2 si x ∈ [0, 1] et 0 sinon. 1. Calculer E(1/X). 2. D´eterminer la fonction de r´epartition de Y = 1/X et en d´eduire sa densit´e. Calculer E(Y ) et v´erifier ainsi le r´esultat obtenu au point pr´ec´edent. Les notions de ce chapitre seront largement illustr´ees au cours du chapitre 4 sur les lois usuelles.
Chapitre 3
Couples et n-uplets de variables al´ eatoires 3.1
Introduction
Dans ce chapitre nous ne d´evelopperons l’´etude simultan´ee de plusieurs v.a. que de fa¸con restreinte en ne pr´esentant que ce qui est n´ecessaire pour pr´eparer l’approche statistique ult´erieure. Dans un premier volet (sections 3.2 `a 3.5) nous ´etudierons les couples de v.a. en mettant en ´evidence la fa¸con de formaliser la relation entre deux quantit´es al´eatoires. Nous introduirons notamment les notions de covariance et de corr´elation qui r´epondent, dans un cadre probabiliste, aux notions du mˆeme nom de la statistique descriptive. L’´etude des relations deux `a deux entre plusieurs variables al´eatoires nous conduira, en section 3.8, a` introduire la notation matricielle, en particulier avec la matrice des variances-covariances sur laquelle repose essentiellement la statistique «multivari´ee». En ce sens l’´etude des couples de variables al´eatoires est un point de d´epart suffisant pour aborder la th´eorie multivari´ee. Dans un deuxi`eme temps (sections 3.6 et 3.7) nous porterons notre attention sur une suite de n v.a., non pas pour ´etudier le jeu de leurs relations, mais comme pr´elude aux propri´et´es des ´echantillons al´eatoires qui sont les objets principaux de la statistique math´ematique. En effet nous verrons qu’un ´echantillon al´eatoire de taille n se d´efinit comme une suite de n v.a. ind´ependantes et de mˆeme loi, ce qui correspond a` l’observation r´ep´et´ee du mˆeme ph´enom`ene quantitatif. La relation entre ces observations n’est pas pertinente vu leur caract`ere d’ind´ependance.
28
3.2
Statistique − La th´eorie et ses applications
Couples de v.a.
Nous nous int´eressons donc `a l’´etude de deux entit´es num´eriques a priori al´eatoires, par exemple le poids et la taille d’un individu (cas continu), le nombre d’enfants et le nombre de pi`eces du logement d’un m´enage (cas discret). Nous nous contenterons, comme nous l’avons fait pour une seule v.a., d’une d´efinition informelle. Un couple de v.a. peut ˆetre vu comme un ensemble Ω de valeurs de R2 auquel on associe une mesure de probabilit´e. Comme pour le cas d’une v.a. simple (voir section 1.1) la mesure de probabilit´e est une fonction portant sur l’ensemble des ´ev´enements, lesquels sont des parties de R2 . La fonction de r´epartition conjointe sera l’instrument fondamental pour donner la probabilit´e d’une r´egion quelconque du plan (quoique dans le cas discret on pr´ef´erera, en pratique, recourir a` la fonction de probabilit´e conjointe). Dans ce qui suit nous d´esignerons de fa¸con g´en´erale par (X, Y ) le couple de variables al´eatoires. Par simplicit´e, nous ne consid´erons que des couples o` u les deux variables sont de mˆeme nature, discr`etes ou continues, et exclurons le cas mixte. D´ efinition 3.1 Soit (X, Y ) un couple de v.a., on appelle fonction de r´ epartition conjointe de (X, Y ), que l’on note FX,Y , la fonction d´efinie sur R2 par : FX,Y (x, y) = P (X ≤ x, Y ≤ y). Dans ces notations, pr´ecisons que l’´ev´enement (X ≤ x, Y ≤ y) peut se lire (X ≤ x) ∩ (Y ≤ y), c’est-`a-dire qu’` a la fois X soit inf´erieur ou ´egal `a x et Y soit inf´erieur ou ´egal `a y. Note 3.1 En principe la fonction de r´epartition conjointe suffit `a calculer la probabilit´e de tout ´ev´enement car les seules parties de R2 probabilis´ees sont celles g´en´er´ees par les unions, intersections et compl´ements de parties du type (X ≤ x, Y ≤ y), formant la tribu bor´elienne de R2 (voir l’analogie avec une v.a. simple dans la note 1.2). D´ efinition 3.2 (cas discret) Soit (X, Y ) un couple de v.a. discr`etes pouvant prendre les couples de valeurs {(xi , yj ); i = 1, 2, . . . ; j = 1, 2, . . .} . On appelle fonction de probabilit´ e conjointe la fonction, not´ee pX,Y , qui donne les probabilit´es associ´ees a ` ces couples de valeurs, soit, pour tout i et tout j : pX,Y (xi , yj ) = P (X = xi , Y = yj ) . D´ efinition 3.3 Soit (X, Y ) un couple de v.a. continues, on appelle fonction de densit´ e de probabilit´ e conjointe la fonction non n´egative sur R2 not´ee
Chapitre 3. Couples et n-uplets de v.a.
29
fX,Y telle que : FX,Y (x, y) =
y
−∞
x
−∞
fX,Y (u, v)dudv .
Par convention, lorsque l’on parlera d’un couple de v.a. continues, on supposera l’existence de cette fonction. Si l’on s’int´eresse `a un ´ev´enement sur X quelle que soit la valeur prise par Y, on retombe sur la loi de la v.a. X qui, dans le contexte du couple, est appel´ee loi marginale de X. On peut faire le lien avec la fonction de r´epartition conjointe en ´ecrivant : FX (x) = P (X ≤ x) = P (X ≤ x, Y ∈ R) = lim P (X ≤ x, Y ≤ y) y→+∞
= FX,Y (x, +∞) De mˆeme FY (y) = FX,Y (+∞, y). Dans le cas discret il est clair que la fonction de probabilit´e marginale de X, par exemple, peut s’obtenir en sommant la fonction de probabilit´e conjointe sur toutes les valeurs possibles de Y, i.e. : pX (xi ) =
...
pX,Y (xi , yj ) .
j=1
Pour le cas continu on admettra la relation du mˆeme type portant sur les densit´es : +∞ fX (x) = fX,Y (x, y)dy. −∞
On peut d´efinir encore des lois conditionnelles pour l’une des variables, l’autre ´etant fix´ee `a telle ou telle valeur. Nous illustrons ceci d’abord dans le cas discret qui est plus simple. Ainsi, reprenant l’exemple introductif o` u X est le nombre de pi`eces du logement d’un m´enage pris au hasard et Y est le nombre d’enfants de ce m´enage, nous pouvons consid´erer par exemple la loi de X sachant (Y=2). Dans l’analogie entre probabilit´es et fr´equences relatives (voir section 2.4), cela ´equivaut a` d´efinir la distribution du nombre de pi`eces parmi les m´enages ayant deux enfants. Plus g´en´eralement, on d´efinira la fonction de probabilit´e conditionnelle de X sachant (Y = yj ) en appliquant la r`egle des probabilit´es conditionnelles P (A|B) = P (A ∩ B)/P (B), soit, avec des notations parlant d’elles-mˆemes : pX|Y =yj (xi ) =
pX,Y (xi , yj ) pY (yj )
,
i = 1, 2, . . . .
On peut ´evidemment d´efinir de fa¸con similaire pY |X=xi (yj ).
30
Statistique − La th´eorie et ses applications
Pour le cas continu, les choses sont plus compliqu´ees car, comme nous l’avons vu, la probabilit´e que Y , par exemple, prenne une valeur donn´ee est nulle. Il n’empˆeche, mˆeme si cela peut paraˆıtre paradoxal au premier abord, que l’on peut d´efinir une loi de X sachant (Y = y), d`es lors toutefois qu’en y on ait fY (y) > 0. On voit l’int´erˆet de ceci dans le cas de l’exemple introductif o` u X serait le poids d’un individu et Y sa taille (en cm). La loi de X sachant (Y = 170) serait en quelque sorte, par analogie avec les fr´equences relatives, la distribution des poids parmi les personnes mesurant 170 cm. On peut ´etablir la fonction de r´epartition conditionnelle par un raisonnement limite. La probabilit´e de (X ≤ x) sachant que (y − h2 ≤ Y ≤ y + h2 ) se calcule par : P (X ≤ x , y − P (y − = =
h 2
h 2
≤ Y ≤ y + h2 )
≤ Y ≤ y + h2 )
P (X ≤ x , Y ≤ y + h2 ) − P (X ≤ x , Y ≤ y − h2 ) P (y − h2 ≤ Y ≤ y + h2 ) FX,Y (x , y + h2 ) − FX,Y (x , y − h2 ) FY (y + h2 ) − FY (y − h2 )
.
Pour le num´erateur, on a utilis´e le fait que : h h h h ) = (X ≤ x, y − ≤ Y ≤ y + ) ∪ (X ≤ x, Y ≤ y − ) 2 2 2 2 et que ces deux derniers ´ev´enements sont incompatibles. En faisant tendre h vers 0, on obtient la fonction de r´epartition conditionnelle de X sachant (Y = y), soit, moyennant une division du num´erateur comme du d´enominateur par h :
FX,Y (x , y + h2 ) − FX,Y (x , y − h2 ) /h
FX|Y =y (x) = lim h→0 FY (y + h2 ) − FY (y − h2 ) /h (X ≤ x, Y ≤ y +
o` u le d´enominateur tend vers la densit´e marginale de Y en y (voir section 1.4) 1 de FX,Y par rapport a` y, au et le num´erateur tend vers la d´eriv´ee partielle x point (x, y). Cette derni`ere ´etant ´egale `a −∞ fX,Y (u, y)du, on a finalement : x fX,Y (u, y)du . FX|Y =y (x) = −∞ fY (y) Par d´erivation par rapport a` x, on obtient la densit´e conditionnelle : fX|Y =y (x) =
fX,Y (x, y) fY (y)
dont l’expression rappelle celle de la fonction de probabilit´e conditionnelle du cas discret. 1 Tout comme en section 1.4 il a ´ et´ e dit que FX est d´ erivable partout sauf peut-ˆetre sur erivable par rapport ` a x et ` a y partout sauf un ensemble d´enombrable de points, FX,Y sera d´ ´ eventuellement sur une partie de R2 de probabilit´e nulle.
Chapitre 3. Couples et n-uplets de v.a.
3.3
31
Ind´ ependance de deux variables al´ eatoires
L’ind´ependance d’une v.a. X d’une part et d’une v.a. Y d’autre part se rapporte aux occurrences simultan´ees d’´ev´enements sur X et d’´ev´enements sur Y. Nous devons donc partir du couple (X, Y ). D´ efinition 3.4 Deux v.a. X et Y sont dites ind´ ependantes si, ´etant donn´e deux ´ev´enements quelconques (X ∈ A) et (Y ∈ B), on a : P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B). Proposition 3.1 X et Y sont ind´ependantes si et seulement si : pour tout (x, y) ∈ R2 ,
FX,Y (x, y) = FX (x) FY (y).
Le fait que l’ind´ependance entraˆıne que la fonction de r´epartition conjointe soit le produit des deux fonctions de r´epartition marginales est ´evident en consid´erant les ´ev´enements particuliers de la forme (X ≤ x) et (Y ≤ y). Le fait que cette condition soit ´egalement suffisante pour assurer l’ind´ependance tient au caract`ere g´en´erateur des ´ev´enements du type (X ≤ x, Y ≤ y) pour l’ensemble des ´ev´enements envisag´es dans R2 . Les deux propositions suivantes, distinguant cas discret et cas continu, seront particuli`erement utiles (on conserve les mˆemes notations que pr´ec´edemment). Proposition 3.2 Deux v.a. discr`etes X et Y sont ind´ependantes si et seulement si , pour tout i = 1, 2, . . . et tout j = 1, 2, . . . , pX,Y (xi , yj ) = pX (xi ) pY (yj ) . Proposition 3.3 Deux v.a. continues X et Y sont ind´ependantes si et seulement si, pour tout (x, y) ∈ R2 , fX,Y (x, y) = fX (x) fY (y) .
Proposition 3.4 Si X et Y sont ind´ependantes, alors pour toutes fonctions g et h, les v.a. g(X) et h(Y ) sont ´egalement ind´ependantes. Ce r´esultat est imm´ediat dans la mesure o` u tout ´ev´enement sur g(X) peut s’exprimer comme un ´ev´enement sur X et de mˆeme pour h(Y ) sur Y. Note 3.2 Il va de soi que ces fonctions doivent ˆetre mesurables (voir note 1.1).
Statistique − La th´eorie et ses applications
32
3.4
Esp´ erance math´ ematique, covariance, corr´ elation
Pour le couple de v.a. (X, Y ) nous connaissons d´ej`a E(X) et E(Y ), moyennes respectives des lois marginales de X et de Y. De fa¸con semblable `a ce qui a ´et´e fait en section 2.2, nous pouvons aussi d´efinir la notion d’esp´erance math´ematique d’une fonction g(X, Y ) du couple. En particulier, dans l’approche statistique on utilisera abondamment la fonction somme X + Y , que nous ´etudierons plus sp´ecialement dans la section suivante comme une application de la section pr´esente. ´ Etant donn´e g(X, Y ) une v.a. a` valeurs dans R, selon le mˆeme principe qu’en section 2.2, nous pouvons directement d´eterminer son esp´erance math´ematique en consid´erant les images par g de toutes les valeurs possibles du couple (X, Y ) et en les pond´erant par les probabilit´es (ou densit´es de probabilit´e pour le cas continu) correspondantes. D’o` u, moyennant l’existence des doubles sommes ou des int´egrales doubles : E(g(X, Y )) =
··· ···
g(xi , yj )pX,Y (xi , yj ) dans le cas discret,
i=1 j=1
+∞
+∞
E(g(X, Y )) = −∞
−∞
g(x, y)fX,Y (x, y)dxdy
dans le cas continu.
On pourrait ´egalement ´etablir la loi de cette nouvelle v.a. Z = g(X, Y ) et calculer sa moyenne E(Z). Mais nous ne traiterons pas ici la fa¸con d’obtenir la loi d’une fonction de deux variables al´eatoires. Proposition 3.5 (lin´ earit´ e de l’esp´ erance math´ ematique) Pour la fonction aX + bY on a : E(aX + bY ) = aE(X) + bE(Y ). Ceci est une extension du r´esultat donn´e en d´ebut de section 2.3 et d´ecoule ´egalement de la lin´earit´e des sommations et int´egrations doubles. Cette propri´et´e reste ´evidemment valable si l’on substitue a` X une v.a. g(X) et `a Y une v.a. h(Y ), par exemple : E(2X 2 + 3Y 2 ) = 2E(X 2 ) + 3E(Y 2 ). Les notions de moments simples ou centr´es vues en section 2.3 s’´etendent au cas du couple. En bref, on d´efinit le moment simple crois´e d’ordres (p, q) par E(X p Y q ) et le moment centr´e correspondant par E([X − E(X)]p [Y − E(Y )]q ). Seul le cas p = 1 et q = 1 m´erite notre int´erˆet, conduisant notamment aux notions cl´es de covariance et corr´elation entre deux variables al´eatoires.
Chapitre 3. Couples et n-uplets de v.a.
33
D´ efinition 3.5 On appelle covariance de X et de Y, que l’on note cov(X, Y ), le nombre (s’il existe) : cov(X, Y ) = E([X − E(X)][Y − E(Y )]). On remarquera d’embl´ee que c’est une notion sym´etrique en X et Y, i.e. cov(X, Y ) = cov(Y, X). Proposition 3.6 (formule de d´ ecentrage de la covariance) cov(X, Y ) = E(XY ) − E(X)E(Y ). En effet : cov(X, Y ) = E([X − E(X)][Y − E(Y )]) = E(XY − E(X) Y − X E(Y ) + E(X)E(Y )) = E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y ) = E(XY ) − E(X)E(Y ) . Cette formule est `a rapprocher de la formule de d´ecentrage de la variance vue en section 2.3. D’ailleurs, on notera que cov(X, X) = E([X − E(X)]2 ) = V (X). Proposition 3.7 Si X et Y sont ind´ependantes alors cov(X, Y ) = 0. En effet il suffit de v´erifier qu’en cas d’ind´ependance E(XY ) = E(X)E(Y ). Faisons-le dans le cas continu, par exemple, en rappelant que l’ind´ependance implique fX,Y (x, y) = fX (x)fY (y).
+∞
+∞
E(XY ) = −∞ +∞
= −∞
−∞
xyfX (x)fY (y)dxdy
yfY (y)
+∞ −∞
xfX (x)dx dy
+∞
= E(X) −∞
yfY (y)dy
= E(X)E(Y ). Notons bien que deux v.a. peuvent avoir une covariance nulle sans pour autant ˆ etre ind´ ependantes. Montrons-le sur un exemple artificiel. Exemple 3.1 Soient X et Y deux variables al´eatoires discr`etes, chacune pouvant prendre les valeurs 0 ,1 ou 2. Les probabilit´es conjointes sont donn´ees `a l’int´erieur du tableau crois´e ci-dessous, les marges repr´esentant les probabilit´es marginales.
Statistique − La th´eorie et ses applications
34
HH Y 0 HH X H 0 0 1 2/9 2 0 2/9
1
2
4/9 0 1/9 5/9
0 2/9 0 2/9
4/9 4/9 1/9 1
On a : 2 5 2 4 2 + = , E(Y ) = + 2 × = 1, 9 9 3 9 9 2 1 2 E(XY ) = 1 × 2 × + 2 × 1 × = 9 9 3 E(X) =
d’o` u cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0. Or X et Y ne sont pas ind´ependantes puisque, par exemple, P (X = 0, Y = 0) est nul alors que P (X = 0)P (Y = 0) = 29 × 49 = 0. Propri´ et´ es de la covariance 1.
cov(aX + b, cY + d) = ac cov(X, Y )
2.
cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
Pour montrer le point 1, appliquons la d´efinition de la covariance aux v.a. aX + b et cY + d : cov(aX + b, cY + d) = E([aX + b − E(aX + b)][cY + d − E(cY + d]) = E([aX + b − aE(X) − b][cY + d − cE(Y ) − d]) = E(a[X − E(X)] c[Y − E(Y )]) = ac cov(X, Y ). On voit que les constantes disparaissent en raison des centrages effectu´es par la covariance. Le point 2 se d´emontre en d´eveloppant de fa¸con analogue. D´ efinition 3.6 On appelle (coefficient de) corr´ elation lin´ eaire de X et de Y , que l’on note corr(X, Y ), le nombre (s’il existe) : corr(X, Y ) =
cov(X, Y ) σX σY
o` u σX est l’´ecart-type de X et σY celui de Y. Cette formule s’apparente `a celle de la statistique descriptive pour le calcul de la corr´elation lin´eaire sur une s´erie d’observations coupl´ees. Dans le cas particulier du tirage al´eatoire d’un individu dans une population vu en section 2.5, la corr´elation descriptive devient la corr´elation probabiliste. Supposons que l’on ´etudie la population des m´enages r´esidant dans une ville donn´ee, les variables consid´er´ees ´etant X le nombre de pi`eces du logement et Y le nombre
Chapitre 3. Couples et n-uplets de v.a.
35
d’enfants. Soit fij la fr´equence relative, dans la population, du couple de valeurs (xi , yj ). Le coefficient de corr´elation lin´eaire descriptif (ou empirique) du lien entre nombre de pi`eces et nombre d’enfants dans cette population est : ··· ···
i=1 j=1 ···
(xi −
(xi − x)(yj − y)fij x)2 f
i=1
i
···
j=1
(yj − y)2 fj
··· o` u x = i=1 xi fi est le nombre moyen de pi`eces pour l’ensemble des m´enages avec fi ´egal `a la fr´equence du nombre de pi`eces xi et, de la mˆeme fa¸con avec fj , y est le nombre moyen d’enfants. En tirant un m´enage au hasard, on induit un couple de v.a. (X, Y ) pour lequel la probabilit´e associ´ee au couple de valeurs (xi , yj ) devient fij . Le num´erateur de la formule ci-dessus est alors cov(X, Y ) et le d´enominateur σX σY . Nous ´enon¸cons ci-apr`es quelques propri´et´es de la corr´elation lin´eaire, identiques a` celles de la statistique descriptive. Propri´ et´ es de la corr´ elation lin´ eaire 1.
corr(X, Y ) = corr(Y, X)
2.
corr(aX + b, cY + d) = corr(X, Y )
La propri´et´e 1 est ´evidente. La propri´et´e 2 r´esulte du fait que σaX+b = a σX puisque V (aX +b) = a2 V (X) (voir section 2.3) et σcY +d = c σY . Le produit ac obtenu dans la covariance disparaˆıt donc en divisant par le produit des ´ecartstypes. Cette propri´et´e indique que la corr´elation lin´eaire entre deux v.a. est invariante dans un changement d’´echelle (et mˆeme un changement d’origine comme pour le passage d’une temp´erature en Celsius `a une temp´erature en Fahrenheit), ce qui semble raisonnable pour une mesure de lien entre deux entit´es num´eriques. Proposition 3.8 Quelle que soit la loi conjointe du couple (X, Y ) on a : −1 ≤ corr(X, Y ) ≤ 1 . D´emonstration : consid´erons la v.a. X +λY o` u λ est un nombre r´eel quelconque. Par d´efinition de la variance : V (X + λY ) = E([X + λY − E(X + λY )]2 ) = E([X − E(X) + λ(Y − E(Y ))]2 ) = E([X − E(X)]2 + 2λ[X − E(X)][Y − E(Y )] + λ2 [Y − E(Y )]2 ) = E([X − E(X)]2 ) + 2λE([X − E(X)][Y − E(Y )]) + λ2 E([Y − E(Y )]2 ) = V (X) + 2λcov(X, Y ) + λ2 V (Y ) .
Statistique − La th´eorie et ses applications
36
Or V (X + λY ) ≥ 0 quel que soit λ. Cela implique, pour le polynˆ ome du deuxi`eme degr´e en λ ci-dessus, que le d´eterminant [cov(X, Y )]2 − V (X)V (Y )] est n´egatif ou nul, et donc : [cov(X, Y )]2 ≤ V (X)V (Y ) [cov(X, Y )]2 [corr(X, Y )]2 = ≤1. V (X)V (Y )
et
Notons que si [corr(X, Y )]2 = 1 alors le d´eterminant est nul et, pour la racine double λ0 du polynˆ ome, on a V (X + λ0 Y ) = 0, c’est-`a-dire (voir section 2.3) que X + λ0 Y est une v.a. certaine. En d’autres termes, il existe une d´ependance lin´eaire parfaite entre X et Y. Ceci est `a rapprocher du fait qu’en statistique descriptive une corr´elation ´egale `a ±1 ´equivaut a` un alignement parfait des points repr´esentant les couples de valeurs. Ce r´esultat justifie aussi l’appellation de corr´elation lin´eaire. La corr´elation s’annule si et seulement si la covariance s’annule et, donc, une corr´ elation nulle n’implique pas l’ind´ ependance.
3.5
Somme de deux v.a.
Etudions la fonction particuli`ere X + Y issue du couple (X, Y ) en vue d’une g´en´eralisation dans la section suivante `a une somme de n v.a. qui, comme il a ´et´e dit plus haut, sera un objet essentiel de la statistique. Nous savons d´ej`a que, par la lin´earit´e, E(X + Y ) = E(X) + E(Y ) . Proposition 3.9 On a : V (X + Y ) = V (X) + V (Y ) + 2cov(X, Y ) . Si X et Y sont ind´ependantes, alors : V (X + Y ) = V (X) + V (Y ). La premi`ere ´equation est le cas particulier λ = 1 du d´eveloppement de V (X + λY ) dans la d´emonstration de la proposition 3.8. La deuxi`eme est ´evidente puisque l’ind´ependance implique une covariance nulle. Proposition 3.10 (fonctions g´ en´ eratrices des moments) Si X et Y sont ind´ependantes, alors : ΨX+Y (t) = ΨX (t)ΨY (t).
Chapitre 3. Couples et n-uplets de v.a.
37
En effet ΨX+Y (t) = E(e(X+Y )t ) = E(eXt eY t ) = E(eXt )E(eY t ) puisque si X et Y sont ind´ependantes, alors les fonctions eXt et eY t sont ´egalement ind´ependantes (voir proposition 3.4). Note 3.3 Il en va ´evidemment de mˆeme pour la fonction caract´eristique des moments.
3.6
Les n-uplets de v.a. ; somme de n v.a.
Nous consid´erons maintenant la g´en´eralisation du couple (ou 2-uplet) a` un n-uplet, c’est-`a-dire a` un vecteur al´ eatoire, prenant ses valeurs dans Rn et que nous noterons (X1 , X2 , · · · , Xn ). Comme il a ´et´e dit en introduction notre int´erˆet va se porter essentiellement sur le cas particulier d’un ´echantillon al´eatoire et c’est pourquoi nous ne nous attardons pas sur la loi conjointe du n-uplet. Disons bri`evement que la notion de fonction de r´epartition conjointe se g´en´eralise naturellement selon : FX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) . Les notions de lois marginales et lois conditionnelles se g´en´eralisent de la mˆeme fa¸con. On peut ainsi d´efinir des lois marginales pour tout sous-ensemble de composantes du vecteur al´eatoire (X1 , X2 , · · · , Xn ). On peut d´efinir des lois conditionnelles d’un sous-ensemble sachant les valeurs d’un autre sousensemble. La notion de covariance (respectivement corr´elation) se g´en´eralise en matrice des variances-covariances (respectivement des corr´elations) des composantes prises deux ` a deux (voir section 3.8). La notion d’ind´ependance dans un couple se g´en´eralise `a la notion d’ind´ependance mutuelle des n composantes selon laquelle les ´ev´enements portant sur tous sous-ensembles sont ind´ependants. Par simplification nous omettrons l’adjectif «mutuelle» qui sera implicite. Nous limitons d´esormais notre ´etude des n-uplets au cas o` u les n composantes ont la mˆ eme loi de probabilit´ e marginale et sont ind´ ependantes. On peut consid´erer alors le n-uplet comme n observations successives d’un mˆeme ph´enom`ene al´eatoire, ces observations ´etant ind´ependantes les unes des autres (au sens o` u le fait que, par exemple, la premi`ere observation donne telle valeur n’influe en rien sur le r´esultat de la deuxi`eme observation). On voit poindre ici de fa¸con ´evidente l’approche statistique, de tels n-uplets constituant pr´ecis´ement ce que nous appellerons plus loin des ´ echantillons al´ eatoires. Pour l’heure nous donnons des r´esultats sur les fonctions somme et moyenne des n composantes (conduisant plus loin a` l’´etude du comportement de la somme ou de la moyenne d’un ´echantillon al´eatoire). Proposition 3.11 (proposition fondamentale) Soit X1 , X2 , · · · , Xn une suite de v.a. ind´ependantes et suivant une mˆeme loi de probabilit´e de moyenne μ et de variance σ 2 . On a, pour la somme Sn = X1 + X2 + · · · + Xn :
Statistique − La th´eorie et ses applications
38
E(Sn ) = nμ
V (Sn ) = nσ2
et pour la moyenne X n = Sn /n : E(X n ) = μ
V (X n ) =
σ2 . n
Pour Sn ces r´esultats sont la g´en´eralisation de proche en proche, d’une part de la propri´et´e de lin´earit´e de l’esp´erance math´ematique, `a savoir E(Sn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ), d’autre part de l’additivit´e des variances pour des variables ind´ependantes, `a savoir V (Sn ) = V (X1 ) + V (X2 ) + · · · + V (Xn ). Pour la moyenne on a :
Sn E(X n ) = E = n Sn V (X n ) = V = n
nμ 1 E(Sn ) = =μ n n nσ 2 σ2 1 V (S ) = = . n n2 n2 n
σ Notons, pour m´emoire, que l’´ecart-type de X n est √ . n Des v.a. ind´ependantes et de mˆeme loi sont couramment not´ees en bref variables al´ eatoires i.i.d., abr´eviation de «ind´ependantes et identiquement distribu´ees». Nous adopterons dor´enavant cette notation. Proposition 3.12 (fonction g´ en´ eratrice d’une somme de v.a. i.i.d.) Soit Ψ(t) la fonction g´en´eratrice des moments de la loi commune aux n v.a. i.i.d., alors ΨSn (t) = [Ψ(t)]n . Ceci est une extension ´evidente de proche en proche de la proposition 3.10 sur la somme de deux v.a. .
3.7
Sondage al´ eatoire dans une population et v.a. i.i.d.
Ayant franchi un pas vers l’id´ee d’observations r´ep´et´ees, on peut se poser la question de savoir comment se traduit en termes probabilistes l’exp´erience consistant `a effectuer non plus un seul tirage al´eatoire comme vu en section 2.4, mais n tirages successifs d’individus dans une population. S’agissant d’une population bien r´eelle de N individus, ce contexte exp´erimental est celui du sondage.
Chapitre 3. Couples et n-uplets de v.a.
39
Un sondage al´eatoire simple (par distinction vis-` a-vis de plans de sondage plus complexes) consiste `a s´electionner un premier individu avec ´equiprobabilit´e de tous les N individus, puis un deuxi`eme individu avec ´equiprobabilit´e des N − 1 individus restants et ainsi de suite pour les N − 2 individus restants, etc. jusqu’`a s´electionner n individus. Pour une variable quantitative d’int´erˆet sur les individus, notons X1 l’observation al´eatoire du premier tirage, X2 celle du deuxi`eme tirage, ..., Xn celle du n-i`eme tirage. Constatons que, dans ce sch´ema, il n’y a pas ind´ependance des v.a. X1 , X2 , · · · , Xn . Par exemple, au deuxi`eme tirage, les valeurs possibles (recevant la probabilit´e N1−1 ) sont sujettes au r´esultat du premier tirage. Le sondage n’est donc pas une situation de v.a. i.i.d., ce qui complique tant soit peu les choses et explique que la th´eorie des sondages occupe une place `a part dans la statistique math´ematique. Une fa¸con de contourner le probl`eme de la d´ependance consisterait `a effectuer un sondage avec remise ( par opposition au sondage usuel pr´ec´edent que l’on qualifie de sans remise), c’est-`a-dire a` r´eint´egrer dans la population, a` chaque tirage, l’individu tir´e. Mais ceci n’est jamais appliqu´e en pratique car il y a perte d’efficacit´e due a` la possibilit´e de tirer le mˆeme individu plusieurs fois. A supposer que les tirages avec remise se fassent bien ind´ependamment les uns des autres il est clair que, dans ce cas, les v.a. X1 , X2 , · · · , Xn sont i.i.d.. Remarquons intuitivement que, si le taux de sondage n/N est faible (par exemple un ´echantillon de taille 1000 dans la population fran¸caise des individus ˆag´es de 15 ans et plus), le sondage sans remise rejoint le sondage avec remise. Ceci justifie qu’en pratique on utilise les r´esultats de la th´eorie statistique classique d´evelopp´es dans les chapitres `a venir, dans les situations de sondage. Disons que si n/N reste inf´erieur a` 0,1 on a des approximations correctes, d’autant plus que d’autres approximations du mˆeme ordre de grandeur sont souvent in´evitables dans la th´eorie des sondages elle-mˆeme. Note 3.4 Nous avons consid´er´e des tirages sans remises successifs. Il est ´equivalent, en pratique, de tirer simultan´ ement n individus parmi les N individus de la po ´ e chantillons possibles de taille n devant avoir la mˆeme pulation, chacun des N n N probabilit´e 1/ n d’ˆetre s´electionn´e.
3.8
Notation matricielle des vecteurs al´ eatoires
Pour ´etablir les propri´et´es d’un p-uplet (X1 , X2 , · · · , Xp ) de v.a. il est commode d’adopter la notation matricielle. Ainsi, on note : ⎛ ⎞ X1 ⎜ X2 ⎟ ⎜ ⎟ X=⎜ . ⎟ ⎝ .. ⎠ Xp
Statistique − La th´eorie et ses applications
40
le vecteur al´eatoire de dimension p, a` valeurs dans Rp . On d´efinit alors l’esp´erance math´ematique de X, not´ee E(X), par le vecteur des esp´erances math´ematiques (si elles existent) : ⎞ ⎛ E(X1 ) ⎜ E(X2 ) ⎟ ⎟ ⎜ E(X) = ⎜ ⎟. .. ⎠ ⎝ . E(Xp ) Si les covariances des composantes prises 2 `a 2 existent, la matrice d’´el´ement (i, j) ´egal `a cov(Xi , Xj ) est appel´ee matrice des variances-covariances de X et nous la noterons V(X). Notons que cette matrice est sym´etrique et que ses ´el´ements diagonaux sont les variances des composantes. Soient maintenant A une matrice (q × p) et c un vecteur (q × 1). Alors la relation Y = AX + c d´efinit un vecteur al´eatoire Y `a valeurs dans Rq . Proposition 3.13 Soit X un vecteur al´eatoire d’esp´erance E(X) et de matrice de variance-covariance V(X) et soit le vecteur al´eatoire Y tel que Y = AX + c. On a alors : E(Y) = A E(X) + c , V(Y) = A V(X) At . Le symbole At d´esigne la matrice transpos´ee de A. Nous omettrons la d´emonstration qui ne pr´esente pas de difficult´e et offre peu d’int´erˆet. Indiquons le cas particulier o` u A est le vecteur ligne (1 × p), A = (1
1
···
1) ,
pour lequel Y est la somme des composantes de X. On obtient alors la g´en´eralisation de la proposition 3.9 a` p v.a. quelconques : p p Xi = V (Xi ) + 2 cov(Xi , Xj ) , V i=1
o` u
3.9
i<j
i=1
i<j
est une sommation sur tous les couples (Xi , Xj ) avec i < j.
Loi de Gauss multivari´ ee
La loi de Gauss, ou loi normale, pour une v.a. a` valeurs dans R est la c´el`ebre courbe en cloche (graphe de sa densit´e). Elle est d´ecrite en d´etail en section 4.2.4. Indiquons simplement ici qu’il s’agit en fait d’une famille de lois d´ependant de deux param`etres qui sont la moyenne μ et la variance σ 2 de chaque loi, d’o` u la notation N (μ, σ2 ). Toute fonction lin´eaire aX + b d’une
Chapitre 3. Couples et n-uplets de v.a.
41
v.a. gaussienne X est une v.a. gaussienne dont la moyenne et la variance se calculent par les r`egles g´en´erales vues en section 2.3 : E(aX + b) = aE(X) + b et V (aX + b) = a2 V (X). Par une transformation lin´eaire ad hoc on peut se ramener a` la loi2 N (0 ; 1) appel´ee loi de Gauss centr´ee-r´eduite (celle fournie dans les tables). Nous montrons des propri´et´es analogues pour un vecteur al´eatoire gaussien. Un vecteur al´eatoire gaussien X de dimension p est parfaitement d´efini par son vecteur des esp´erances not´e μ et sa matrice des variances-covariances not´ee μ, Σ). La densit´e conjointe de ses composantes au point Σ. Sa loi est not´ee Np (μ (x1 , x2 , · · · , xp ) ∈ Rp est : ! 1 1 t −1 exp − Σ (x − μ ) (x − μ ) fX (x1 , x2 , · · · , xp ) = 2 (2π)p/2 (det Σ)1/2 o` u det Σ d´enote le d´eterminant de la matrice Σ et x d´enote le vecteur colonne de composantes x1 , x2 , · · · , xp . Notons que la matrice Σ doit ˆetre inversible. Sinon le vecteur al´eatoire ne serait pas r´eellement de dimension p au sens o` u il y aurait au moins une liaison lin´eaire exacte entre ses composantes et, par cons´equent, ce vecteur prendrait ses valeurs dans un sous-espace de dimension inf´erieure `a p. Un cas particulier important est celui de la loi dont le vecteur des esp´erances math´ematiques est le vecteur nul 0 et la matrice des variances-covariances est la matrice identit´e Ip , soit la loi Np (0, Ip ) que nous appellerons loi de Gauss p-vari´ee centr´ee-r´eduite par analogie avec la loi usuelle centr´ee-r´eduite N (0 ; 1) dans le cas o` u p = 1. Pour cette loi, l’expression de la densit´e devient : " # ! p n $ 1 2 1 1 2 1 √ exp − x exp − x = i 2 2 i (2π)p/2 2π i=1
i=1
qui se s´epare en un produit de densit´es respectives `a chacune des composantes, qui sont les densit´es marginales de celles-ci. En se reportant `a la section 4.2.4 on peut voir que toutes les composantes ont une loi marginale N (0; 1). Ainsi ces composantes sont ind´ependantes. Il est clair que ceci est ´egalement vrai si la matrice Σ est diagonale, a` ceci pr`es que chaque composante a une loi marginale gaussienne dont la moyenne est la composante correspondante du vecteur μ et la variance est la valeur sur la position correspondante de la diagonale de Σ. On a donc la proposition suivante. Proposition 3.14 Un vecteur al´eatoire gaussien a ses composantes ind´ependantes si et seulement si la matrice des variances-covariances est diagonale, i.e. si et seulement si les covariances des composantes prises deux a ` deux sont toutes nulles. 2 Bien que la notation g´ en´erique soit N (μ, σ 2 ), nous aurons l’habitude de remplacer la virgule par un point-virgule lorsque l’on aura des nombres explicites afin d’´eviter la confusion avec la virgule d´ecimale.
42
Statistique − La th´eorie et ses applications
Alors que nous avions vu en section 3.4 qu’une covariance nulle n’impliquait pas l’ind´ependance pour un couple de v.a. de fa¸con g´en´erale, dans le cas gaussien il y a ´ equivalence entre ind´ ependance et covariance (ou corr´ elation) nulle. Nous admettrons le th´eor`eme suivant tr`es utile pour caract´eriser les vecteurs gaussiens. Th´ eor` eme 3.1 (th´ eor` eme de caract´ erisation) Un vecteur al´eatoire est gaussien si et seulement si toute combinaison lin´eaire de ses composantes est une variable al´eatoire gaussienne. On d´eduit imm´ediatement de cette caract´erisation essentielle que si X est de μ, Σ) alors Y = AX est ´egalement un vecteur al´eatoire gaussien puisque loi Np (μ toute combinaison lin´eaire des composantes de Y est une combinaison lin´eaire des composantes de X et est donc gaussienne. De plus, le fait d’ajouter un vecteur de constantes c ` a un vecteur gaussien ne fait que d´eplacer la moyenne, la densit´e restant gaussienne avec μ + c se substituant a` μ dans l’expression g´en´erale donn´ee plus haut. En reprenant les r´esultats de la proposition 3.13, on en d´eduit la proposition suivante. μ, Σ) et soit le vecteur Proposition 3.15 Soit X un vecteur al´eatoire de loi Np (μ al´eatoire Y = AX + c o` u A est une matrice (q × p) de rang q et c un vecteur μ + c, A Σ At ). (q × 1). Alors Y est de loi Nq (Aμ La condition que la matrice A soit de rang maximal (avec q n´ecessairement inf´erieur ou ´egal `a p) s’impose pour que la matrice des variances-covariances A Σ At de Y soit inversible, i.e. que Y soit r´eellement de dimension q et non pas `a valeurs dans un sous-espace de dimension inf´erieure. On montre que l’on peut toujours par un choix judicieux de la matrice A et du vecteur c se ramener `a un vecteur Y de loi p-vari´ee centr´ee-r´eduite. En effet on peut d’abord ramener la moyenne a` un vecteur nul en passant au vecteur al´eatoire X − μ. Puis, du fait que la matrice Σ est inversible et sym´etrique, il existe C, une matrice (p × p) de rang p, telle que CCt = Σ. Consid´erons alors le vecteur Y = C−1 (X − μ). Sa moyenne est ´evidemment nulle puisque E(Y) = C−1 E(X − μ)= C−1 0 = 0, et sa variance est : V(Y) = C−1 V(X) (C−1 )t = C−1 Σ (C−1 )t = C−1 CCt (C−1 )t = Ip . Remarques 1. En plus d’ˆetre sym´etrique et de rang maximal, la matrice Σ doit ˆetre d´efinie strictement positive. C’est-`a-dire que pour tout vecteur v ∈ Rp non nul on a vt Σ v >0. En effet une combinaison lin´eaire des composantes de X est de la forme vt X, sa variance est vt Σ v, laquelle doit rester positive.
Chapitre 3. Couples et n-uplets de v.a.
43
2. Pour qu’un couple de v.a. forme un couple gaussien, il ne suffit pas que chaque v.a. soit gaussienne. En d’autres termes les lois marginales peuvent ˆetre gaussiennes sans que la loi conjointe soit gaussienne sur R2 . En revanche, toutes les lois marginales des composantes d’un vecteur gaussien sont des gaussiennes en tant que combinaison lin´eaire particuli`ere donnant un coefficient 1 a` cette composante et 0 a` toutes les autres. Par ailleurs si les composantes sont ind´ependantes et gaussiennes alors la loi conjointe est gaussienne multivari´ee.
3.10
Exercices
Exercice 3.1 Le tableau suivant repr´esente la loi du couple (X, Y ) : X nombre d’enfants dans un m´enage, Y nombre de t´el´eviseurs du m´enage (pour un m´enage pris au hasard dans une population de m´enages ayant 1 a` 3 enfants et 1 `a 3 t´el´eviseurs). HH Y 1 2 3 HH X H 1 0,22 0,11 0,02 2 0,20 0,15 0,10 3 0,06 0,07 0,07 Calculer le coefficient de corr´elation entre X et Y . Exercice 3.2 Montrer que la covariance entre la somme et la diff´erence de deux v.a. ind´ependantes et de mˆeme loi est toujours nulle. Exercice 3.3 Soient X et Y deux v.a. ind´ependantes suivant une mˆeme loi de Bernoulli de param`etre p (voir section 4.1.2). Donner la loi de X + Y. Calculer P (X +Y = 0), P (X −Y = 0) et P (X +Y = 0, X −Y = 0). Les deux v.a. X +Y et X − Y sont-elles ind´ependantes ? Que vaut leur covariance en application de l’exercice 3.2 ? Quelle conclusion g´en´erale en tirez-vous ? Exercice 3.4 Soient X et Y deux v.a. ind´ependantes et soit Z = X + Y. Calculer P (Z ≤ z|X = x) et en d´eduire que fZ|X=x (z) = fY (z − x). D´eterminer la densit´e conjointe de Z et de X, et en d´eduire que fZ (z) = +∞ f (z − x)fX (x)dx. −∞ Y Donner la loi de T = X − Y. Exercice 3.5 D´eterminer la loi de la somme de deux v.a. ind´ependantes, continues uniformes sur [0, 1]. Aide : on d´eterminera la zone du plan en coordonn´ees (x, y) d´efinie par {(x, y) | x + y < z, 0 < x < 1, 0 < y < 1} et, `a partir de la loi conjointe, on calculera g´eom´etriquement, selon les diff´erents cas pour z, P (X + Y < z).
44
Statistique − La th´eorie et ses applications
Exercice 3.6 On mesure la longueur et la largeur d’un terrain rectangulaire. 2 . La mesure de la longueur est une v.a. X de moyenne μX et de variance σX La mesure de la largeur est une v.a. Y de moyenne μY et de variance σY2 . On suppose que ces deux mesures sont ind´ependantes. Quelle est l’esp´erance math´ematique et la variance pour la mesure de la surface du terrain ? Exercice 3.7 (marche al´eatoire) On se situe sur un axe en une position initiale. On se d´eplace alors par ´etapes successives et ind´ependantes les unes des autres de la fa¸con suivante. A chaque ´etape on fait un pas d’un m`etre `a droite (+1) avec probabilit´e p ou a` gauche (-1) avec probabilit´e 1−p. Soit X le d´eplacement `a une ´etape quelconque. Calculer E(X) et V (X). Soit Y l’´eloignement de la position initiale apr`es n ´etapes. Calculer E(Y ) et V (Y ). Exercice 3.8 Soit un couple (X, Y ) gaussien bivari´e. On suppose que X et Y 2 la variance de X, σY2 la variance de Y et ρ sont de moyenne nulle et on note σX ´ le coefficient de corr´elation lin´eaire du couple. Etablir que la densit´e conjointe du couple est : ! 2 x 1 1 xy y2 % fX,Y (x, y) = exp − − 2ρ + 2 2(1 − ρ2 ) σX σX σY σY2 2πσX σY 1 − ρ2 (on notera que les courbes de niveau du graphe de fX,Y sont des ellipses de centre (0,0) ).
Chapitre 4
Les lois de probabilit´ es usuelles Nous abordons ici une sorte de catalogue des lois les plus utilis´ees dans la mod´elisation statistique. Nous nous efforcerons de justifier l’utilit´e de ces lois en pr´ecisant le type de situations o` u elles sont appropri´ees. De fa¸con g´en´erique et sauf mention expresse on notera X une v.a. qui suit la loi d´ecrite. Chaque loi fera l’objet d’un symbole sp´ecifique. Par exemple, la loi binomiale de param`etres n et p sera not´ee B(n, p) et on ´ecrira X ; B(n, p) pour signifier que X suit cette loi.
4.1 4.1.1
Les lois discr` etes La loi uniforme discr` ete
L’ensemble des valeurs possibles est {1, 2, 3, · · · , r}, r ´etant un param`etre de la loi. Uniforme signifie que chaque valeur re¸coit la mˆeme probabilit´e 1/r. En fait cette loi est peu utilis´ee en tant que mod`ele statistique, mais m´erite d’ˆetre pr´esent´ee en raison de sa simplicit´e. On la rencontre dans les jeux de hasard, par exemple dans le lancement d’un d´e : X est le nombre de points obtenus et r est ´egal `a 6. Si le d´e est parfaitement sym´etrique chaque face, et donc chaque nombre de points, a la probabilit´e 1/6 d’apparaˆıtre. Pour une v.a. X qui suit cette loi, on a : r+1 E(X) = 2 1 2 V (X) = (r − 1) . 12 En effet : 1 r(r + 1) r+1 1 = E(X) = (1 + 2 + · · · + r) = r r 2 2
Statistique − La th´eorie et ses applications
46
et, sachant que 12 +22 +· · ·+r 2 = 16 r(r +1)(2r +1), on peut calculer la variance par la formule de d´ecentrage : V (X) = E(X 2 ) − (E(X))2
2 1 2 r+1 2 2 = (1 + 2 + · · · + r ) − r 2 2 1 1 2 r+1 = (r + 1)(2r + 1) − = (r − 1) . 6 2 12
est
Ainsi, pour le jet d’un d´e, l’esp´erance math´ematique du nombre de points 7 et sa variance 35 . 2 12
4.1.2
Loi de Bernoulli B(p)
C’est la loi la plus simple que l’on puisse envisager puisqu’il n’y a que deux valeurs possibles, cod´ees 1 et 0. On note p la probabilit´e associ´ee `a la valeur 1, p ´etant le param`etre de la loi (la probabilit´e 1 − p associ´ee `a la valeur 0 est souvent not´ee q dans les ouvrages, mais nous jugeons cela superflu). On ´ecrit X ; B(p) et donc : valeurs possibles 1 0 X ; B(p) ⇐⇒ X probabilit´es p 1−p . On peut ´ecrire la fonction de probabilit´e de la fa¸con suivante : P (X = x) = px (1 − p)1−x
,
x ∈ {0, 1}.
On a E(X) = p et V (X) = p(1 − p) puisque : E(X) = 0 × (1 − p) + 1 × p = p V (X) = E(X 2 ) − (E(X))2 = 02 × (1 − p) + 12 × p − p2 = p(1 − p) .
La fonction g´en´eratrice des moments est : ΨX (t) = E(etX ) = et.1 p + et.0 (1 − p) = pet + (1 − p) .
En pratique la v.a. X sera utilis´ee comme fonction indicatrice d’un ´ ev´ enement donn´e au cours d’une exp´erience al´eatoire (par exemple avoir un
Chapitre 4. Les lois de probabilit´es usuelles
47
appareil tombant en panne avant l’expiration de la garantie, ˆetre infect´e au cours d’une ´epid´emie, ˆetre b´en´eficiaire pour une entreprise). X prend la valeur 1 si l’´ev´enement se produit et 0 s’il ne se produit pas a` l’issue de l’exp´erience. Dans ce contexte, p repr´ esente la probabilit´ e de l’´ ev´ enement consid´ er´ e. La v.a. X sera une variable de comptage lors de r´ep´etitions de l’exp´erience constituant le processus de Bernoulli d´ecrit ci-apr`es et conduisant notamment `a la loi binomiale. Par convention la r´ealisation de l’´ev´enement sera appel´ee «succ`es» et sera cod´ee 1, sa non-r´ealisation sera appel´ee «´echec» et sera cod´ee 0.
4.1.3
Le processus de Bernoulli et la loi binomiale B(n, p)
Le processus consiste en une suite de r´ep´etitions de l’exp´erience al´eatoire de Bernoulli, toutes ces r´ep´etitions successives ´etant ind´ependantes les unes des autres. La probabilit´e de succ`es `a chaque r´ep´etition est p. Un processus de Bernoulli est donc mod´elis´e par une suite X1 , X2 , X3, . . . de v.a. i.i.d., chacune de loi B(p). Dans ce processus on peut s’int´eresser `a diff´erents types de comptages, menant `a diff´erentes lois. Nous verrons les plus courants : comptage des succ`es en s’arrˆetant `a un nombre de r´ep´etitions fix´e `a l’avance (loi binomiale), comptage des ´echecs avant d’atteindre le premier succ`es (loi g´eom´etrique) ou le r-i`eme succ`es (loi binomiale n´egative). La loi binomiale est la loi de la v.a. X correspondant au nombre de succ` es au cours de n r´ ep´ etitions du processus. Elle est omnipr´esente en statistique. L’application la plus fr´equente se situe dans le domaine des sondages. Ayant s´electionn´e au hasard n individus dans une grande population (voir le sondage al´eatoire simple en section 3.7) on peut «estimer» la proportion p d’indivie (succ`es). Si le taux de sondage est faible, dus ayant un caract` ere 1 donn´ on a vu que l’on pouvait admettre que le tirage sans remise est tr`es proche du tirage avec remise. Pour ce dernier la probabilit´e de succ`es `a chaque tirage est p et il y a ind´ependance des tirages. La v.a. X correspond au nombre d’individus ayant le caract`ere d’int´erˆet parmi n individus s´electionn´es. La loi binomiale a deux param`etres n et p, et l’ensemble des valeurs possibles est {0, 1, 2, · · · , n} . Calculons directement la probabilit´e p(x) d’obtenir x succ`es parmi n r´ep´etitions. Toute suite contenant x succ`es et n−x ´echecs a une probabilit´e px (1−p)n−x en raison de l’ind´ependance des r´ep´etitions successives, et ceci quel que soit l’ordre d’apparition des succ`es et des ´echecs. Imaginons que nous ´ecrivions la succession des r´esultats avec une s´equence de lettres S et E (succ`es, ´echec). Combien y-a-t-il d’´ecritures possibles ? Une suite particuli`ere ´etant parfaitement d´efinie par les positions occup´ees par les x lettres S, il suffit de d´enombrer 1 Le mot «caract` ere» est ` a prendre dans un sens ´elargi. Ce peut ˆetre, par exemple, l’acquiescement ` a une opinion propos´ee dans un questionnaire.
48
Statistique − La th´eorie et ses applications
combien il y a de choix de x positions parmi n positions. C’est le nombre de combinaisons `a x ´el´ements que l’on peut former a` partir de n ´el´ements : n! n . = p!(n − p)! x D’o` u p(x) = patibles.
n x
px (1 − p)n−x , toutes ces suites ´etant distinctes et donc incom-
D´ efinition 4.1 On dit que la v.a. discr`ete X suit une loi binomiale B(n, p) si sa fonction de probabilit´e est : n x p (1 − p)n−x , x = 0, 1, 2, · · · , n . p(x) = x
Proposition 4.1 Soit X1 , X2 , · · · , Xn une suite de v.a. i.i.d. de loi B(p), alors Sn = ni=1 Xi suit une loi B(n, p). Ceci est la traduction du nombre de comptage des succ`es `a travers la variable indicatrice de Bernoulli. De cette proposition on d´eduit que la somme de deux v.a. ind´ependantes de lois respectives B(n1 , p) et B(n2 , p) est une v.a. de loi B(n1 +n2 , p). En effet cette somme peut ˆetre consid´er´ee comme celle de n1 + n2 r´ep´etitions ind´ependantes du processus de Bernoulli avec probabilit´e p de succ`es. Proposition 4.2 Soit X ; B(n, p), alors : E(X) = np V (X) = np(1 − p)
n ΨX (t) = pet + (1 − p) . D´emonstration : comme X peut ˆetre vue comme la somme de n v.a. ind´ependantes X1 , X2 , · · · , Xn de mˆeme loi B(p), il suffit d’appliquer la proposition fondamentale 3.11 sur la somme de n v.a. i.i.d., avec μ = p et σ 2 = p(1 − p) qui sont respectivement la moyenne et la variance de la loi B(p), pour obtenir la moyenne et la variance de X . En appliquant le r´esultat de la proposition 3.12 on obtient sa fonction g´en´eratrice des moments. On peut v´erifier, a` titre d’exercice, que ΨX (0) = np (voir section 2.5).
Chapitre 4. Les lois de probabilit´es usuelles
4.1.4
49
Les lois g´ eom´ etrique G(p) et binomiale n´ egative BN (r, p)
Soit un processus de Bernoulli de param`etre p. La loi g´eom´etrique G(p), ou loi de Pascal, est la loi de la v.a. X «nombre d’´echecs avant de parvenir au premier succ`es». L’ensemble des valeurs possibles est N et la fonction de probabilit´e est : p(x) = p(1 − p)x , x ∈ N , car il n’y a qu’une s´equence possible : x ´echecs suivis d’un succ`es. On a alors : 1−p p 1−p V (X) = p2 E(X) =
E(etX ) =
p . 1 − (1 − p)et
D´emonstration : la fonction g´en´eratrice s’´ecrit :
E(etX ) =
∞ k=0
etk p(1 − p)k = p
∞
[(1 − p)et ]k =
k=0
p . 1 − (1 − p)et
Elle est d´efinie si (1 − p)et < 1 ou t < − ln(1 − p), donc au voisinage de 0. La d´eriv´ee premi`ere de cette expression est : p(1 − p)et [1 − (1 − p)et ]2 et sa valeur pour t = 0 est (1 − p)/p qui correspond `a la moyenne. En prenant la d´eriv´ee seconde au point 0, on obtient E(X 2 ) = (1 − p)(2 − p)/p2 , puis V (X) par la formule de d´ecentrage. La loi binomiale n´egative est une g´en´eralisation de la loi g´eom´etrique o` u l’on consid`ere X «nombre d’´echecs avant de parvenir au r-i`eme succ`es». Sa fonction de probabilit´e est : r+x−1 r p (1 − p)x , x ∈ N. p(x) = x En effet pour toute s´equence de x ´echecs et r succ`es la probabilit´e est pr (1−p)x . Sachant que le dernier r´esultat de la s´equence doit ˆetre un succ`es, il reste `a d´enombrer les s´equences avec x ´echecs et r−1 succ`es ce qui revient `a d´enombrer . les possibilit´es de choix de x positions parmi x + r − 1 positions, soit r+x−1 x
Statistique − La th´eorie et ses applications
50
On a alors : r(1 − p) p r(1 − p) V (X) = p2 p ΨX (t) = [ ]r (au voisinage de 0) . 1 − (1 − p)et E(X) =
Ceci peut ˆetre ´etabli grˆ ace aux propositions 3.11 et 3.12, en remarquant qu’une v.a. BN (r, p) peut ˆetre consid´er´ee comme une somme de r v.a. ind´ependantes de loi G(p). En effet toute s´equence `a r succ`es, dont un succ`es final, peut ˆetre vue comme une suite de r s´equences du type de celles de la loi g´eom´etrique. Certains auteurs pr´ef`erent `a X la v.a. Y «nombre total de r´ep´etitions pour atteindre le r-i`eme succ`es». On a donc Y = X + r, avec : x−1 r pY (x) = p (1 − p)x−r , x = r, r + 1, ... x−r et :
4.1.5
E(Y ) =
r(1 − p) r . , V (Y ) = p p2
La loi hyperg´ eom´ etrique H(N, M, n)
Soit un ensemble de N individus dont M poss`edent un certain caract`ere, que nous appellerons «succ`es» par analogie avec la loi binomiale, et N − M ne la poss`edent pas. On effectue un tirage al´ eatoire sans de n individus remise ´ e chantillons de taille dans cet ensemble. On entend par l`a que chacun des N n n possibles a la mˆeme probabilit´e 1/ N d’ˆ e tre s´ e lectionn´ e (voir note 3.4). On n consid`ere la v.a. X «nombre de succ`es observ´es parmi les n individus». On a alors la fonction de probabilit´e : M N −M p(x) =
x
, x = 0, 1, ..., n. Nn−x n
Le num´erateur correspond au nombre de choix de x individus parmi M et n−x parmi N − M . Avec comme valeurs possibles {0, 1, ..., n} nous supposons que M et N −M sont sup´erieurs a` n. Toutefois si n > M alors la plus grande valeur possible est M et si n > N − M la plus petite valeur possible est n − (N − M ). Nous pouvons garder la formule g´en´erale ci-dessus en convenant que ab = 0 si a < b. On d´emontre (le r´esultat ´etant intuitif pour la moyenne) que : M N M N −n M ) . V (X) = n (1 − N N N −1 E(X) = n
Chapitre 4. Les lois de probabilit´es usuelles
51
On peut faire le rapprochement avec le processus de Bernoulli et la loi binomiale qui correspondent au tirage al´eatoire avec remise. Le nombre de succ`es suit une loi B(n, p) avec p = M/N . Dans les deux situations la moyenne est identique alors que, pour la loi hyperg´eom´etrique, la variance re¸coit un «facteur correctif de sans remise» ´egal `a (N − n)/(N − 1). Clairement les deux situations se rapprochent si le «taux de sondage» n/N diminue. Plus formellement on montrer que, pour tout x, p(x) tend vers l’expression correspondante npeut x (1 − p)n−x de la loi binomiale quand N → ∞ et (M/N ) → p. p x
4.1.6
La loi multinomiale
Il s’agit d’une extension de la situation binaire (succ`es, ´echec) de la loi binomiale, `a une situation «multinaire» ` a c cat´egories, de probabilit´es respectives c p1 , p2 , ..., pc avec k=1 pk = 1. On s’int´eresse aux fr´equences observ´ees N1 , N2 , ..., Nc des diff´erentes cat´egories au cours de n observations r´ep´et´ees ind´ependantes. La fonction de probabilit´e conjointe des v.a. N1 , N2 , ..., Nc est : P (N1 = n1 , N2 = n2 , ..., Nc = nc ) =
n! pn1 pn2 ...pnc c n1 !n2 !...nc ! 1 2
si tous les nk (k de 1 `a c) appartiennent a` {0, 1, 2, ..., n} et v´erifient la contrainte c e ´etant nulle sinon. Ceci s’´etablit par le mˆeme type k=1 nk = n, la probabilit´ de raisonnement que pour la loi binomiale. Le terme pn1 1 pn2 2 · · · pnc c correspond `a la probabilit´e de toute s´erie de n r´ep´etitions avec n1 d’entre elles donnant la cat´egorie 1, n2 donnant la cat´egorie 2,. . . et nc donnant la cat´egorie c. Le terme avec les factoriels correspond au nombre de s´eries de ce type possibles (nombre de fa¸cons d’occuper n1 positions parmi les n successions pour la cat´egorie 1, n2 positions pour la cat´egorie 2, · · · , nc pour la cat´egorie c). La loi marginale de Nk est clairement la loi B(n, pk ). Par ailleurs on d´emontre que cov(Nk , Nl ) = −npk pl . On peut donc ´ecrire l’esp´erance et la matrice des variances-covariances du vecteur al´eatoire N = (N1 , N2 , ..., Nc ) `a valeurs dans {0, 1, 2, ..., n}c avec la contrainte ck=1 Nk = n : ⎞ ⎛ ⎞ ⎛ −np1 p2 ··· −np1 pc np1 np1 (1 − p1 ) ⎜ np2 ⎟ ⎜ −np1 p2 np2 (1 − p2 ) · · · −np2 pc ⎟ ⎟ ⎜ ⎟ ⎜ E(N) = ⎜ . ⎟ , V(Y) = ⎜ ⎟. .. .. .. ⎠ ⎝ .. ⎠ ⎝ . . ··· . npc
−np1 pc
−np2 pc
···
npc (1 − pc )
Cette loi est `a la base de l’´etude des variables cat´egorielles du chapitre 10.
4.1.7
Le processus et la loi de Poisson P(λ)
On consid`ere un processus d’occurrences d’un ´ev´enement donn´e sur l’´echelle du temps, par exemple l’arriv´ee des appels `a un standard t´el´ephonique. Pour un
Statistique − La th´eorie et ses applications
52
temps t > 0 fix´e (`a partir d’une certaine origine des temps) on d´efinit la variable al´eatoire X(t) «nombre d’occurrences dans l’intervalle ]0, t]». Par commodit´e on pose : u k ∈ N. pk (t) = P (X(t) = k), o` En bref, on dit qu’on a un processus de Poisson si : – il y a une invariance temporelle, a` savoir que pk (t) ne d´epend pas de l’origine des temps, mais d´epend uniquement de la longueur t de l’intervalle, quels que soient k et t ; – il y a ind´ependance des nombres d’occurrences pour deux intervalles disjoints ; – pour un tr`es petit intervalle la probabilit´e d’avoir deux occurrences ou plus est n´egligeable devant la probabilit´e d’avoir une occurrence exactement et cette derni`ere est proportionnelle a` la longueur de cet intervalle. Plus formellement : p1 (h) = λh + o(h) ∞
pk (h) = o(h)
k=2
o(h) o` u, rappelons-le, o(h) est une fonction telle que → 0 quand h → 0. h Le param`etre λ > 0 caract´erise l’intensit´e de fr´equence des occurrences. Sous ces hypoth`eses on d´emontre que : pk (t) =
e−λt (λt)k , k ∈ N. k!
La loi de Poisson est la loi du nombre d’occurrences dans une unit´ e de temps, donc pour t = 1 dans les formulations ci-dessus. Par cons´equent on dit que la v.a. X suit une loi de Poisson P(λ) si sa fonction de probabilit´e est : p(k) =
Sachant que alors :
∞ k λ k=0
k!
e−λ λk , k ∈ N. k!
= eλ , la somme des probabilit´es est bien ´egale a` 1. On a
E(X) = λ V (X) = λ t ΨX (t) = eλ(e −1) .
Chapitre 4. Les lois de probabilit´es usuelles
53
Le param`etre λ est donc le nombre moyen d’occurrences par unit´ e de temps pour le processus. Les d´emonstrations sont simples : ∞ ∞ ∞ e−λ λk e−λ λk−1 e−λ λj k λ = =λ =λ E(X) = k! (k − 1)! j! j=0 k=0
E(X 2 ) =
k=1
∞
∞
k2
k=0
= λ2
∞ e−λ λk−2 k=2
∞
e−λ λk e−λ λk e−λ λk = + k(k − 1) k k! k! k! (k − 2)!
k=2
+λ
∞ e−λ λk−1 k=1
(k − 1)!
k=1
= λ2 + λ
d’ o` u V (X) = λ , ΨX (t) =
∞ etk e−λ λk k=0
k!
=
∞ e−λ (λet )k k=0
k!
λ(et −1)
=e
t ∞ e−λe (λet )k
k=0
k!
t
= eλ(e
−1)
.
Remarques – On verra plus loin la loi exponentielle qui est celle du temps s’´ecoulant entre deux occurrences successives. – On a la propri´et´e additive suivante : soient X1 ; P(λ1 ) et X2 ; P(λ2 ) ind´ependante de X1 , alors X1 +X2 ; P(λ1 +λ2 ). Ceci se voit directement en appliquant la proposition 3.10 sur la fonction g´en´eratrice d’une somme. Approximation de la loi binomiale par la loi de Poisson Si l’on choisit une unit´e de temps suffisamment petite pour que la probabilit´e d’avoir plus d’une occurrence devienne n´egligeable on voit que le processus de Poisson peut ˆetre rapproch´e d’un processus de Bernoulli par discr´etisation de l’´ecoulement continu du temps en unit´es successives. Montrons que la fonction de probabilit´e de la loi P(λ) est ´equivalente a` celle de la loi B(n, p) quand n → ∞ et p → 0 de fa¸con que np → λ. On a vu (section 4.1.3) que la fonction g´en´eratrice des moments de la loi B(n, p) est n Ψ(t) = [pet + (1 − p)] . D’o` u :
ln Ψ(t) = n ln pet + (1 − p)
= n ln 1 + p(et − 1) = n[p(et − 1) + o(p)] . Comme np tend vers λ, ln Ψ(t) tend vers λ(et − 1). Par suite Ψ(t) tend vers exp{λ(et − 1)} qui est la fonction g´en´eratrice de la loi P(λ). Ceci a un int´erˆet pratique pour approcher la loi binomiale lorsque l’´ev´enement «succ`es» est rare (p est petit), avec un grand nombre de r´ep´etitions.
54
Statistique − La th´eorie et ses applications
On consid`ere que, si n ≥ 50 et p ≤ 0, 1, la loi binomiale B(n, p) est approch´ee de fa¸con tout a` fait satisfaisante par la loi de Poisson de param`etre λ = np. On peut aussi utiliser une telle approximation si l’´ev´enement «succ`es» est tr`es fr´equent (p ≥ 0, 9) en intervertissant succ`es et ´echec.
Exemple 4.1 La probabilit´e pour qu’un r´eacteur d’avion d’un certain type connaisse une panne avant sa premi`ere r´evision est 1/1000. Sachant qu’une compagnie d’aviation poss`ede sur ses avions 100 r´eacteurs de ce type calculons la probabilit´e qu’elle ne rencontre pas plus de deux probl`emes avec ces r´eacteurs avant la premi`ere r´evision. Le nombre de r´eacteurs `a probl`eme est une v.a. X de loi B(100 ; 0,001) qui peut ˆetre approch´ee par la loi P(0,10). Donc : P (X ≤ 2) e−0,1 +
e−0,1 .0,1 e−0,1 .(0,1)2 + = 0,99985. 1! 2!
Le mod`ele de Poisson s’applique dans de nombreuses situations de comptages par unit´e de temps ou par unit´e de surface : nombre de sinistres par an pour un assur´e, probl`emes de files d’attente (arriv´ees `a un guichet, nombre de personnes servies), particules ´emises par une source radioactive. Pour un comptage par unit´e de surface (par exemple le nombre de couples d’une esp`ece d’oiseaux nichant par quadrat d’une forˆet), le mod`ele correspond `a une r´epartition spatiale au hasard.
4.2 4.2.1
Les lois continues La loi continue uniforme U[a, b]
On dit que X suit une loi uniforme sur l’intervalle fini [a, b] si sa densit´ e est constante sur [a, b] et nulle a` l’ext´erieur de cet intervalle, soit : ⎧ ⎨ f (x) =
⎩
1 b−a
si a ≤ x ≤ b
0
sinon
.
Nous en avons d´ej`a vu une illustration en section 1.4. Sa fonction de r´epartition est : ⎧ 0 ⎪ ⎪ ⎪ ⎨ x−a F (x) = ⎪ b−a ⎪ ⎪ ⎩ 1
si x < a si a ≤ x ≤ b si x > b
.
Chapitre 4. Les lois de probabilit´es usuelles
55
On peut ais´ement v´erifier que : a+b , 2 (b − a)2 V (X) = . 12 E(X) =
La loi uniforme de r´ef´erence est la loi U[0 , 1] correspondant aux g´en´erateurs de nombres au hasard des logiciels (fonction «RANDOM» ou «ALEA»). A partir d’un tel g´en´erateur on peut produire des nombres au hasard sur [a, b] par la transformation y = (b − a)x + a. Nous verrons en section 4.3 comment simuler une loi quelconque a` partir de ces «nombres au hasard».
4.2.2
La loi exponentielle E(λ)
Comme mentionn´e dans les remarques sur le processus de Poisson, la loi exponentielle correspond a` la variable al´eatoire X du temps s’´ecoulant entre deux occurrences successives lors d’un tel processus. Avec les notations de la section 4.1.7 la probabilit´e qu’il n’y ait aucune occurrence dans un intervalle u P (X > t) = e−λt et de temps de longueur t est ´egale `a p0 (t) = e−λt , d’o` l’expression de la fonction de r´epartition P (X ≤ t) : " 1 − e−λt si t ≥ 0 F (t) = , 0 si t < 0 puis de la densit´e, par d´erivation : " f (t) =
λe−λt
si t ≥ 0
0
si t < 0
.
On a d´ej`a montr´e (voir section 2.5) que : 1 λ 1 V (X) = 2 λ λ ΨX (t) = . λ−t E(X) =
Logiquement, puisque λ est le nombre moyen d’occurrences par unit´e de temps, λ1 est la dur´ee moyenne entre deux occurrences successives. On reparam´etrise souvent la loi en posant θ = 1/λ, d’o` u : x 1 − f (x) = e θ , x ≥ 0, θ qui met en ´evidence sa moyenne θ, la variance ´etant alors θ2 .
56
Statistique − La th´eorie et ses applications
La loi exponentielle est ´egalement le mod`ele de dur´ ee de vie pour un syst` eme id´ eal sans usure, λ1 ´etant l’esp´erance de vie du syst`eme. En effet on peut voir que l’ˆ age du syst`eme ne joue aucun rˆ ole quant aux chances de survie `a un horizon donn´e puisque : P (X > t + h|X > t)
=
P ((X > t + h) ∩ (X > t)) P (X > t)
=
P (X > t + h) e−λ(t+h) = = e−λh , P (X > t) e−λt
qui ne d´epend pas de t.
4.2.3
La loi gamma Γ(r, λ)
Soit X eatoires i.i.d. de loi E(λ) et 1 , X2 , ..., Xr une suite de r variables al´ soit T = ri=1 Xi . On d´emontre (voir exercices) que T suit une loi de densit´e : ⎧ λr ⎪ ⎨ xr−1 e−λx si x ≥ 0 (r − 1)! , f (x) = ⎪ ⎩ 0 si x < 0 laquelle d´efinit la loi Γ(r, λ). Des propri´et´es des sommes de v.a. i.i.d. on d´eduit imm´ediatement : r λ r V (T ) = 2 λ E(T ) =
ΨT (t) = (
λ r ) , λ−t
si t < λ .
V´erifions que la densit´e ci-dessus est bien celle qui conduit `a cette fonction g´en´eratrice des moments : +∞ λr xr−1 e−λx dx etx ΨT (t) = E(etT ) = (r − 1)! 0 +∞ λr xr−1 e−(λ−t)x dx = (r − 1)! 0 +∞ λr λr 1 ur−1 e−u du = = r (r − 1)! (λ − t) 0 (λ − t)r en vertu de la relation classique
+∞ 0
ur−1 e−u du = (r − 1)! .
La loi Γ(r, λ) mod´elise en particulier le temps s´eparant une occurrence de la r-i`eme suivante dans un processus de Poisson. Elle joue un rˆole similaire `a celui de la loi binomiale n´egative dans le processus de Bernoulli.
Chapitre 4. Les lois de probabilit´es usuelles
57
On peut g´en´eraliser la loi Γ(r, λ) `a une valeur de r non enti`ere (mais strictement positive) en rempla¸cant, dans la densit´e, l’expression (r −1)! par la fonc∞ tion gamma d’Euler d´efinie, pour tout r´eel positif, par Γ(r) = 0 xr−1 e−x dx, dont la loi a h´erit´e son nom. La fonction de r´epartition de cette loi n’est pas explicite et n´ecessite le recours a` un logiciel (ou des tables, mais celles-ci ne sont pas tr`es courantes).
4.2.4
La loi de Gauss ou loi normale N (μ, σ2 )
Il s’agit, comme on sait, de la loi de probabilit´e fondamentale de la statistique en raison du th´eor`eme central limite que nous verrons en section 5.8.3. On dit que la variable al´eatoire X suit une loi de Gauss, ou loi normale, not´ee N (μ, σ 2 ), si elle a pour densit´e : ! 1 1 (x − μ)2 f (x) = √ exp − , x∈R. 2 σ2 2πσ 2 Les param`etres sont not´es μ et σ 2 du fait qu’ils correspondent respectivement `a la moyenne et `a la variance de la loi (voir la d´emonstration ci-apr`es), σ ´etant donc son ´ecart-type. Le graphe de la densit´e est la fameuse courbe en cloche sym´etrique autour de la valeur μ. Pour μ = 0 et σ 2 = 1 on a la loi de Gauss centr´ee-r´eduite N (0 ; 1) dont la fonction de r´epartition, not´ee Φ, est donn´ee dans les tables statistiques usuelles : x z2 1 e− 2 dz. Φ(x) = √ 2π −∞ Montrons que si X ; N (μ, σ 2 ) alors sa transform´ee centr´ee-r´eduite suit la loi N (0 ; 1). Soient FX et FZ les fonctions de r´epartition Z = X−μ σ respectives de X et de Z, alors : FZ (Z ≤ z) = P (Z ≤ z) = P (
X −μ ≤ z) = P (X ≤ μ + zσ) = FX (μ + σz), σ
et en d´erivant FZ et FX par rapport a` z, on a : ! 1 2 1 1 (μ + zσ − μ)2 1 fZ (z) = σfX (μ + zσ) = √ exp − = √ e− 2 z . 2 2 σ 2π 2π En inversant le raisonnement on montre que si Z ; N (0 ; 1) alors X = μ + σZ ; N (μ, σ 2 ) et, plus g´en´eralement, ceci implique que toute fonction lin´ eaire d’une v.a. gaussienne est une v.a. gaussienne. En vertu de cette propri´et´e le calcul de P (X ≤ x) se ram`ene `a un calcul de probabilit´e sur la variable gaussienne centr´ee-r´eduite. Mettons en ´evidence la r`egle de calcul par la proposition suivante.
Statistique − La th´eorie et ses applications
58
Proposition 4.3 Soit X ; N (μ, σ 2 ), alors : x−μ o` u Z ; N (0; 1), P (X ≤ x) = P Z ≤ σ x−μ soit encore : P (X ≤ x) = Φ . σ
Exemple 4.2 Soit X ; N (10 ; 4). Calculons, par exemple, P (X ≤ 13) : P (X ≤ 13) = P (Z ≤
13 − 10 ) = P (Z ≤ 1,5) = Φ(1,5) = 0,9332 2
par lecture de la table de la loi normale centr´ee-r´eduite. En lecture inverse d´eterminons le quantile d’ordre 0,95 de la loi de X. Pour Z on lit dans la table que le quantile d’ordre 0,95 est 1,645 , i.e. P (Z ≤1,645) =0,95. ≤1,645) =0,95 et P (X ≤ 10+1,645× 2) =0,95. Pour la loi de X D’o` u P ( X−10 2 le quantile est donc 10+1,645× 2 =13,29. D’une fa¸con g´en´erale P (X ≤ x) est obtenu en lisant la probabilit´e d’ˆetre x−μ dans la table et le quantile d’ordre α de la loi de X est ´egal inf´erieur a` σ `a μ + zα σ o` u zα est le quantile d’ordre α de la table, i.e. tel que Φ(zα ) = α. Calculons la fonction g´en´eratrice des moments de Z ; N (0; 1) : ΨZ (t) = E(etZ ) = 1 =√ 2π
+∞
−∞
+∞
e
1 2 1 etz √ e− 2 z dz 2π
− 12 (z−t)2
−∞
t2
e2 e dz = √ 2π t2 2
+∞
1
2
e− 2 u du .
−∞
D’o` u: t2
ΨZ (t) = e 2 . Par cette fonction, v´erifions que la moyenne et la variance de Z sont bien, respectivement, 0 et 1 : t2
ΨZ (t) = te 2 ,
E(Z) = ΨZ (0) = 0 , t2
ΨZ (t) = (1 + t2 )e 2 ,
V (Z) = E(Z 2 ) = ΨZ (0) = 1.
Pour X = μ + σZ on a donc E(X) = μ et V (X) = σ 2 V (Z) = σ 2 , ce qui justifie la notation N (μ, σ2 ).
Chapitre 4. Les lois de probabilit´es usuelles
59
On peut directement acc´eder aux moments de tous ordres par le d´evelopt2 pement en s´erie enti`ere de e 2 (voir la note 2.3) : e
t2 2
=
2 ∞ ( t )s
2
s=0
s!
=
∞ 1 2s t s s! 2 s=0
d’o` u: (2s)! . 2s s! Du fait que la densit´e est une fonction paire les moments d’ordres impairs sont nuls. On notera, pour m´emoire, que μ4 = 3. μ2s =
Pour X ; N (μ, σ 2 ), comme (X − μ)r = σ r Z r , on obtient imm´ediatement les moments centr´es : (2s)! μ2s = σ 2s s 2 s! et, en particulier, μ4 = 3σ 4 . De plus : ΨX (t) = exp(tμ + σ 2
t2 ), 2
car : E(etX ) = E(et(μ+σZ) ) = etμ E(e(tσ)Z ) = etμ e
(tσ)2 2
.
Nous donnons maintenant une proposition essentielle pour les d´eveloppements statistiques. Proposition 4.4 Toute combinaison lin´eaire de v.a. gaussiennes ind´ependantes est une variable al´eatoire gaussienne. D´emonstration : il suffit de d´emontrer cela avec deux v.a., l’extension a` plusieurs v.a. se faisant de proche en proche. De plus, on a vu que si X est gaussienne alors Y = aX est gaussienne. Il suffit donc de d´emontrer la proposition pour Y1 + Y2 , o` u Y1 et Y2 sont ind´ependantes. Soient Y1 ; N (μ1 , σ12 ) et Y2 ; N (μ2 , σ22 ). Selon la proposition 3.10 on a : ΨY1 +Y2 (t) = ΨY1 (t)ΨY2 (t :) = etμ1 + 1
2
2
2 σ1 2 2 t
etμ2 +
2 σ2 2 2 t
2
= et(μ1 +μ2 )+ 2 (σ1 +σ2 )t
qui est la fonction g´en´eratrice des moments de la loi N (μ1 + μ2 , σ12 + σ22 ) . Notons que la proposition n’est pas vraie pour des v.a. d´ependantes. Ainsi deux v.a. peuvent ˆetre marginalement gaussiennes sans pour autant que toute
60
Statistique − La th´eorie et ses applications
combinaison lin´eaire de celles-ci soit gaussienne, car cela d´epend de la nature de leur loi conjointe. Quelques valeurs cl´ es de la loi de Gauss A partir de la lecture dans la table de la loi de Gauss centr´ee-r´eduite des quantiles d’ordres 0,975 ; 0,995 et 0,9995, soit : Φ(0,975) = 1,96 Φ(0,995) = 2,57 Φ(0,9995) = 3,30 , on d´eduit ces intervalles de dispersion autour de la moyenne pour X ; N (μ, σ2 ) : P (μ − 1,96 σ < X < μ + 1,96 σ) = 0,95 P (μ − 2,57 σ < X < μ + 2,57 σ) = 0,99 P (μ − 3,30 σ < X < μ + 3,30 σ) = 0,999 . La premi`ere ´egalit´e est souvent r´esum´ee en disant que la probabilit´e d’obtenir une valeur dans l’intervalle «moyenne plus ou moins 2 ´ecarts-types» est de 95% (plus exactement 0,9544). En termes de fr´equence des observations on a coutume de dire que, grosso modo, 95% des observations doivent se situer dans cet intervalle. Cette propri´et´e est d’ailleurs souvent ´etendue de fa¸con tout a` fait abusive `a tout type de loi. La troisi`eme relation montre qu’il n’y a pratiquement aucune chance de trouver une observation au-del` a de 3 ´ecarts-types de la moyenne.
4.2.5
La loi lognormale LN (μ, σ2 )
Cette loi fournit souvent un bon mod`ele pour les variables strictement positives ayant une distribution asym´etrique avec allongement vers les valeurs ´elev´ees, en particulier dans les domaines biologique (poids des personnes, par exemple), ´economique (distribution des revenus) et physique. Soit X une v.a. a` valeurs strictement positives, on dit qu’elle suit une loi lognormale de param`etres μ et σ 2 , not´ee LN (μ, σ 2 ), si ln X ; N (μ, σ 2 ). Sa densit´e, peu utilis´ee car on pr´ef`ere g´en´eralement se ramener `a l’´echelle logarithmique, peut ˆetre d´eduite de celle de la loi de Gauss par la transformation exponentielle selon la m´ethode du changement de variable expos´ee en section 1.6. Posons Y = ln X, on a : ln x − μ Y . F (x) = P (X ≤ x) = P (e ≤ x) = P (Y ≤ ln x) = Φ σ En d´erivant, on obtient ais´ement : ⎧ ⎪ ⎨ √1 exp{− 1 (ln x − μ)2 } 2σ 2 x 2πσ f (x) = ⎪ ⎩ 0
si x > 0 . si x ≤ 0
Chapitre 4. Les lois de probabilit´es usuelles
61
Comme P (X ≤ x) = P (log X ≤ log x) les quantiles restent en correspondance par la transformation exponentielle et, par exemple, la m´ediane est eμ . Il n’en va pas ainsi des moments qui peuvent toutefois se d´eduire directement de la fonction g´en´eratrice de la loi de Gauss N (μ, σ 2 ). En effet, en posant encore Y = ln X, on a : E(X k ) = E(ekY ) = ΨY (k) = ekμ+
k2 σ 2 2
,
soit, en prenant k = 1 puis k = 2 : 1
E(X) = eμ+ 2 σ
2
E(X 2 ) = e2μ+2σ 2
2 2
d’o` u : V (X) = e2μ+σ (eσ − 1) . .
4.2.6
La loi de Pareto
Cette loi a ´et´e introduite pour mod´eliser la distribution de revenus sup´erieurs `a un seuil donn´e, puis s’est av´er´ee utile pour d’autres ph´enom`enes (par exemple la distribution de la taille de grains de sable pass´es au travers d’un tamis). Elle a deux param`etres strictement positifs : le param`etre de seuil a et un param`etre de forme θ. La fonction de r´epartition et la fonction de densit´e sont : ⎧ ⎧
θ+1
θ ⎨ θ a ⎨ 1− a si x ≥ a si x ≥ a x a x et f (x) = . F (x) = ⎩ ⎩ 0 si x < a 0 si x < a La densit´e ´etant une puissance de x, on calcule ais´ement (voir exercices du chapitre 2) : θa (n’existe que si θ > 1) , θ−1 θa2 V (X) = (n’existe que si θ > 2). (θ − 1)2 (θ − 2) E(X) =
Sa fonction g´en´eratrice des moments n’existe pas (sa fonction caract´eristique voir note 2.4 - ne s’exprime pas par des fonctions usuelles).
4.2.7
La loi de Weibull W (λ, α)
Cette loi g´en´eralise la loi exponentielle pour mod´eliser des dur´ ees de vie. Elle intervient ´egalement dans les probl`emes dits de valeurs extrˆemes (par exemple l’occurrence de crues exceptionnelles d’une rivi`ere). La fonction de
62
Statistique − La th´eorie et ses applications
r´epartition et la fonction de densit´e de cette loi, not´ee W (λ, α) o` u λ et α sont deux param`etres strictement positifs, sont : " " α α si x ≥ 0 αλxα−1 e−λx si x > 0 1 − e−λx et f (x) = . F (x) = 0 si x < 0 0 si x ≤ 0 Quand α = 1 on a la loi E(λ), quand α < 1 la densit´e d´ecroˆıt depuis +∞, 1/α . quand α > 1 elle admet un maximum (mode de la loi) au point [ λ1 ( α−1 α )] On montre que : E(X) =
Γ(1 + α1 ) λ1/α
,
V (X) =
Γ(1 + α2 ) − Γ2 (1 + α1 ) λ2/α
o` u Γ est la fonction gamma d’Euler (voir section 4.2.3). Montrons quelques particularit´es utiles pour la mod´elisation de dur´ees de vie. Proposition 4.5 Si X ; E(λ) alors X 1/α suit une loi W (λ, α) . Cette proposition est ´evidente par le principe du changement de variable expos´e en section 1.6. Ainsi pour α > 1 cela revient `a une contraction de l’´echelle du temps et donc a` introduire un effet d’usure. Consid´erons en effet, comme nous l’avons fait pour la loi exponentielle, la probabilit´e qu’un syst`eme «survive» un temps h fix´e (h > 0) au-del`a du temps t et ´etudions cette probabilit´e comme une fonction ρ de t. On a : ρ(t) = P (X > t + h|X > t) =
α α P (X > t + h) = e−λ[(t+h) −t ] . P (X > t)
La fonction (t + h)α − tα ´etant croissante pour α > 1 et d´ecroissante pour α < 1, la probabilit´e diminue avec le temps pour α > 1 ce qui correspond bien `a un ph´enom`ene d’usure. Au contraire pour α < 1 on a une probabilit´e qui augmente (on peut penser ici a` la dur´ee de chˆomage o` u plus le temps s’´ecoule plus il est difficile d’en sortir).
4.2.8
La loi de Gumbel
C’est une autre loi de mod´elisation de valeurs extrˆemes dont la fonction de r´epartition est : ! x−α − , x ∈ R (β > 0) . F (x) = exp −e β On montre que sa moyenne est α + γβ, o` u γ =0,577... est la constante d’Euler, et que sa variance est π 2 β 2 /6. La valeur α correspond a` son mode. Sa fonction g´en´eratrice des moments est Ψ(t) = eαt Γ(1 − βt). Elle est li´ee `a la loi limite du maximum d’une s´erie de n observations quand n tend vers l’infini, pour une grande vari´et´e de lois.
Chapitre 4. Les lois de probabilit´es usuelles
4.2.9
63
La loi bˆ eta Beta(α, β)
Cette loi fournit un mod`ele pour les mesures comprises entre 0 et 1, en particulier pour des taux ou des proportions. Sa densit´e est : ⎧ Γ(α + β + 2) ⎪ ⎨ xα (1 − x)β si x ∈ ]0; 1[ Γ(α + 1)Γ(β + 1) f (x) = ⎪ ⎩ 0 si x ∈]0; / 1[ avec α > −1 et β > −1. Pour α = β = 0 on a la loi uniforme U[0, 1]. Pour α et β strictement positifs elle admet un mode en x = α/(α + β). Sachant que, pour tout α > −1 et tout β > −1, on a :
1
xα (1 − x)β dx =
0
Γ(α + 1)Γ(β + 1) , Γ(α + β + 2)
on calcule ais´ement, pour X ; Beta(α, β) : α+1 α+β+2 (α + 1)(β + 1) . V (X) = (α + β + 2)2 (α + β + 3) E(X) =
4.3
G´ en´ eration de nombres issus d’une loi donn´ ee
Il n’est pas toujours possible d’´etudier de fa¸con analytique le comportement de mod`eles, d’estimateurs ou de statistiques de tests en raison de leur complexit´e. Dans ce cas on recourt a` des simulations d’´echantillons pour suppl´eer `a l’absence d’´el´ements th´eoriques et nous nous r´ef`ererons parfois, dans les chapitres ult´erieurs, `a des r´esultats obtenus de cette fa¸con. Cette approche constitue l’essence de la m´ethode de Monte-Carlo. Tous les logiciels offrant des possibilit´es de calcul disposent d’un g´en´erateur de «nombres au hasard» (fonction RANDOM, ALEA, etc., voir section 4.2.1) qui correspondent a` des observations issues d’une loi U[0 , 1] ou que l’on peut consid´erer comme telles. Car, en r´ealit´e, ces nombres que l’on qualifie plutˆ ot de pseudo-al´eatoires, sont engendr´es par un m´ecanisme purement d´eterministe. Supposons que l’on veuille g´en´erer des r´ealisations d’une loi continue de fonction de r´epartition F strictement croissante et que l’on dispose de la fonction inverse F −1 , soit de fa¸con analytique, soit de fa¸con num´erique (de nombreux logiciels statistiques ou autres proposent, par exemple, les fonctions
64
Statistique − La th´eorie et ses applications
´ «Gauss-inverse», «exponentielle-inverse», etc.). Etant donn´e une variable al´eatoire U de loi U[0 , 1], consid´erons la fonction X = F −1 (U ) et d´eterminons sa fonction de r´epartition en appliquant la m´ethode de la section 1.6. On a : P (X ≤ x)
= P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x)
puisque, pour la loi uniforme, P (U ≤ u) = u. Donc X suit la loi F. Ainsi, `a partir d’une suite de nombres au hasard u1 , u2 , · · · , un on peut obtenir une suite de nombres x1 , x2 , · · · , xn issus de la loi F , par la transformation xi = F −1 (ui ). Pour la loi E(λ), par exemple, F (x) = 1 − e−λx et la fonction inverse est explicite : F −1 (x) = − λ1 ln(1 − x). On utilisera alors la transformation xi = − λ1 ln(1 − ui ). Pour une loi discr`ete la m´ethode ci-dessus n’est pas applicable du fait que F, ´etant une fonction en escalier, n’est pas inversible. Dans le cas o` u le nombre de valeurs possibles a1 < a2 < · · · < ak < · · · < ar est restreint on peut l’adapter de la fa¸con suivante : si si si
ui ∈ [0, F (a1 )[ alors g´en´erer xi = a1 ··· ui ∈ [F (ak−1 ), F (ak )[ alors g´en´erer xi = ak ··· ui ∈ [F (ar−1 ), 1] alors g´en´erer xi = ar ,
le choix d’ouvrir ou de fermer chaque intervalle d’un cˆ ot´e ou de l’autre n’ayant pas d’importance si les ui sont g´en´er´es avec suffisamment de d´ecimales. En particulier on peut produire un processus de Bernoulli de param`etre p en donnant la valeur 1 si ui < p et 0 si ui ≥ p. Il existe toutefois des m´ethodes de g´en´eration adapt´ees et plus efficaces pour chaque loi que l’on trouvera dans les ouvrages consacr´es sp´ecifiquement `a la simulation.
4.4
Exercices
Exercice 4.1 En transformant lin´eairement la v.a. de la marche al´eatoire (voir exercices du chapitre 3) en une v.a. de Bernoulli, ´etablir la loi de cette marche al´eatoire apr`es n pas. Exercice 4.2 Montrer directement que la fonction g´en´eratrice des moments Ψ(t) de la loi binomiale n´egative est pr /[1 − (1 − p)et ]r et qu’elle est d´efinie pour t < − ln(1 − p).
Chapitre 4. Les lois de probabilit´es usuelles
65
Aide : substituer a` (1 − p)x l’expression [(1 − p)et ]x . En ´ecrivant que la somme des termes de la fonction de probabilit´e vaut 1 et en d´erivant terme par terme par rapport a` p, d´eduire l’expression de la moyenne de la loi. Exercice 4.3 * (Approche historique de Moivre mettant en ´evidence la loi de Gauss) Soit X ; B(n, p), montrer que pour n → ∞, p restant fixe, la probabilit´e P (X) = x est ´equivalente a` la fonction de densit´e en x de la loi de U ; N (np, np(1 − p)) ou encore a` P (x − 12 < U < x + 12 ). On admettra intuitivement que les valeurs d’int´erˆet pour x (`a probabilit´es non n´egligeables) tendent vers l’infini quand n → ∞ et que, pour ces valeurs, nx → p. 2 : On utilisera pour d´emonstration la formule de √ la−n √Stirling n+ 12 −n n+ 12 n! = 2πe n (1 + o(1)) soit n! ∼ 2πe n Exercice 4.4 Soit X ; B(n, p). Montrer que si n → ∞ et p → 0 de fa¸con que np reste constant, alors P (X = x) tend vers la probabilit´e correspondante de la loi de Poisson de param`etre np. n! Aide : on admettra que (n−x)!n x → 1 quand n → ∞. Exercice 4.5 Soit X ; H(N, M, n). Montrer que, quand N → ∞ et M N → p (non nul), P (X = x) tend vers la probabilit´e correspondante de la loi B(n, p). Aide : comme pour l’exercice pr´ec´edent. Exercice 4.6 Soient X1 et X2 deux v.a. ind´ependantes de Poisson de param`etres respectifs λ1 et λ2 . Montrer que la loi conditionnelle de X1 sachant X1 + X2 = n est une loi binomiale. Exercice 4.7 Soit X ; G(p). D´eterminer P (X > n) et montrer que la probabilit´e P (X > n+k | X > n) est ind´ependante de n. [Note : Ceci est `a rapprocher de la propri´e´t´e analogue de la loi E(λ). La loi G(p) peut mod´eliser la dur´ee de vie d’un syst`eme sans usure, en temps discret d’intervalles r´eguliers]. Exercice 4.8 Soit X ; U[0, 1], montrer que Y = (b − a)X + a suit une loi U[a, b]. Exercice 4.9 Montrer que la fonction g´en´eratrice des moments de la loi Γ(r, λ), pour r > 0 non n´ecessairement entier, est Ψ(t) = [λ/(λ − t)]r . Pour quelles valeurs de t est-elle d´efinie ? En d´eduire sa moyenne et sa variance. [Rappel sur +∞ la fonction gamma d’Euler : Γ(r) = 0 xr−1 e−x dx avec r > 0]. Exercice 4.10 En s’appuyant sur un processus de Poisson sous-jacent, d´eterminer pour r entier la fonction de r´epartition de la loi Γ(r, λ). En d´eduire sa densit´e. 2 Dans l’expression de cette formule le terme o(1) indique une fonction qui devient n´ egligeable devant 1 (donc qui tend vers z´ero) quand n tend vers l’infini.
66
Statistique − La th´eorie et ses applications
Exercice 4.11 Soit X ; Γ(r, λ), montrer que rX suit une loi Γ(r, λr ). Montrer que λX suit une loi Γ(r, 1). Exercice 4.12 Montrer que si X suit une loi de Pareto dont le param`etre de seuil a est ´egal `a 1, alors lnX suit une loi exponentielle. Exercice 4.13 Le temps moyen de service `a un distributeur de billets est de 30 secondes. Vous arrivez et trouvez cinq personnes en attente (la premi`ere venant juste d’acc´eder au guichet). Quelle est la probabilit´e que vous attendiez moins de 30 secondes (on supposera ˆetre en pr´esence d’un processus de Poisson) ? Aide : on utilisera le deuxi`eme r´esultat de l’exercice 4.11 et on ´etablira une 1 relation de r´ecurrence pour In = 0 xn e−x dx en int´egrant par parties. Exercice 4.14 Pour un projet de construction d’un immeuble de 20 logements, on ´etudie la capacit´e n´ecessaire du parking. On note X la variable «nombre de voitures d’un m´enage». Pour tout m´enage on admet que la probabilit´e d’avoir une voiture est 0,70 et celle d’avoir 2 voitures est de 0,30 (on n´eglige toute autre possibilit´e). On supposera l’ind´ependance du nombre de voitures entre les m´enages. On pose Y = X − 1. Quelle est la loi de Y ? Quelle est la loi de la somme de 20 variables i.i.d. de mˆeme loi que Y ? En d´eduire la probabilit´e qu’un parking de 29 places soit suffisant pour les 20 m´enages. Exercice 4.15 Grˆ ace `a une importante ´etude ´epid´emiologique on constate que la distribution des poids des individus dans une population adulte donn´ee peut ˆetre convenablement mod´elis´ee par une loi lognormale. Consid´erant que le poids moyen est de 70 kg et que l’´ecart-type des poids est de 12 kg r´esoudre les deux ´equations permettant de d´eterminer les valeurs des param`etres μ et σ 2 de la loi lognormale.
Chapitre 5
Lois fondamentales de l’´ echantillonnage
5.1
Ph´ enom` enes et ´ echantillons al´ eatoires
Nous entrons maintenant v´eritablement dans le domaine de la statistique en nous penchant sur l’´etude d’observations r´ ep´ et´ ees issues d’un certain ph´enom`ene de nature al´eatoire. Sch´ematiquement, on peut distinguer deux classes de ph´enom`enes al´eatoires. D’une part l’al´eatoire peut ˆetre provoqu´e exp´erimentalement comme, par exemple, dans les jeux de hasard ou dans les m´ecanismes de tirage au sort «d’individus» dans des «populations1 » finies pour les sondages, pour le contrˆ ole de qualit´e, etc.(voir section 3.7). Dans ce contexte exp´erimental la notion d’exp´erience al´eatoire, point de d´epart de la mod´elisation probabiliste, a un sens tout a` fait r´eel. D’autre part, on peut aussi recourir `a une mod´elisation al´eatoire lorsqu’on est incapable de pr´evoir avec exactitude les r´ealisations d’un ph´enom`ene. Le caract`ere al´eatoire est simplement attribu´e au ph´enom`ene pour refl´eter l’incertitude de l’observateur par rapport a` un ensemble de r´esultats possibles, par exemple le nombre d’appels parvenant a` un standard t´el´ephonique dans une unit´e de temps, la dur´ee de vie d’un appareil, etc. Il n’y a pas ici d’exp´erience al´eatoire `a proprement parler. Toutefois il est n´ecessaire, pour l’approche statistique, de pouvoir observer le ph´enom`ene de fa¸con r´ep´et´ee afin de constituer des ´echantillons. 1 Nous mettons ces termes entre guillemets car ils sont ` a prendre dans un sens large et non uniquement par r´ef´ erence ` a des populations humaines. A proprement parler les «individus» sont des unit´ es statistiques qui peuvent ˆetre les entreprises d’un secteur d’activit´e, les arbres d’une forˆ et, les pi`eces d’un lot de production, etc. La population est aussi appel´ee univers.
68
Statistique − La th´eorie et ses applications
D´ efinition 5.1 On appelle ´ echantillon al´ eatoire de taille n (en bref n´echantillon) une suite de n variables al´eatoires ind´ependantes et de mˆeme loi (ou v.a. i.i.d). Cette loi est appel´ee la loi m` ere de l’´echantillon. Cette d´efinition appelle quelques remarques. – Math´ematiquement la notion d’´echantillon al´eatoire est identique a` celle de v.a. i.i.d., et l’usage de ce terme ne se justifie qu’en raison du contexte de l’´echantillonnage. Sauf mention contraire, quand on parlera d’´echantillon dans cet ouvrage, il s’agira implicitement d’une suite de v.a. i.i.d. – Il sera commode d’associer `a la loi m`ere un symbole de v.a., par exemple X, le n-´echantillon ´etant alors d´esign´e par X1 , X2 , ..., Xn . Ainsi on peut ´ecrire que pour tout i = 1, ..., n, E(Xi ) = E(X) qui repr´esente la moyenne de la loi m`ere. – On parle souvent, en lieu et place de la loi m`ere, de la distribution de la population - voire mˆeme simplement de la population - en r´ef´erence `a un sondage. Certes ce terme est abusif car, d’une part on y confond les individus et les valeurs num´eriques observables sur ces individus et, d’autre part, il n’existe pas n´ecessairement une population r´eelle (quelle est la population des appels `a un standard, des produits d’un certain type manufactur´es par une entreprise ?). Toutefois il nous arrivera de recourir `a ce terme comme s’il existait une sorte de population virtuelle dont les observations seraient issues comme par un tirage au hasard. – Le statut de v.a. i.i.d. exige que le ph´enom`ene soit invariant au cours des observations successives et que ces observations n’exercent aucune influence entre elles. Il s’agit bien souvent d’une profession de foi, ces conditions n’´etant g´en´eralement pas rigoureusement v´erifiables, ni rigoureusement v´erifi´ees. – Pour ce qui est des notations on distinguera la notion d’´ echantillon al´ eatoire X1 , X2 , ..., Xn dont on peut dire qu’elle se r´ef`ere `a des r´esultats potentiels avant exp´erience ou a priori, de celle d’´ echantillon r´ ealis´ e x1 , x2 , ..., xn correspondant aux valeurs observ´ees apr`es exp´erience ou a posteriori. L’objectif de ce chapitre est d’´etudier certaines caract´eristiques de l’´echantillon al´eatoire, essentiellement sa moyenne et sa variance, en relation avec celles de la loi m`ere. A priori (au sens de la remarque pr´ec´edente) une telle caract´eristique est une v.a. qui prend le nom de «statistique» dans le contexte de l’´echantillonnage, selon la d´efinition suivante. D´ efinition 5.2 Soit X1 , X2 , ..., Xn un n-´echantillon, on appelle statistique toute v.a. Tn = h(X1 , X2 , ..., Xn ), fonction de X1 , X2 , ..., Xn . On peut concr´etiser la loi d’une statistique (donc d’une caract´eristique, telle la moyenne de l’´echantillon) en imaginant une simulation en tr`es grand nombre
Chapitre 5. Lois fondamentales de l’´echantillonnage
69
d’´echantillons de taille n, en calculant pour chacun d’eux la valeur prise par la statistique et en ´etudiant la distribution de ces valeurs. De fa¸con imag´ee on peut dire qu’il s’agit de la distribution d’´echantillonnage de la statistique sur «l’univers» de tous les ´echantillons possibles. Notons qu’une statistique peut ˆetre une fonction `a valeurs dans R, R2 ou Rp . En particulier les moments empiriques ci-apr`es sont `a valeurs dans R. Les d´efinitions qui suivent se rapportent toutes `a un ´echantillon al´eatoire not´e X1 , X2 , ..., Xn .
5.2
Moyenne, variance, moments empiriques
D´ efinition 5.3 On appelle moyenne de l’´ echantillon ou moyenne empi¯ d´efinie par : rique la statistique, not´ee X, ¯= 1 Xi . X n i=1 n
D´ efinition 5.4 On appelle variance empirique la statistique, not´ee S'2 , d´efinie par : n 1 ¯ 2. (Xi − X) S'2 = n i=1 Nous commen¸cons maintenant a` ´etablir certaines relations entre les lois de ces statistiques et la loi m`ere. Proposition 5.1 Soit μ et σ 2 , respectivement la moyenne et la variance de la loi m`ere. On a : 2 ¯ =μ , ¯ =σ . E(X) V (X) n En effet :
1 1 1 Xi ) = E(Xi ) = μ = μ. n i=1 n i=1 n i=1 n
E(
n
n
Puis, en raison de l’ind´ependance des Xi : V(
n n n 1 1 2 nσ 2 σ2 1 . Xi ) = 2 V (Xi ) = 2 σ = 2 = n n n n n i=1
i=1
i=1
Proposition 5.2 La moyenne de la loi de la variance empirique est : E(S'2 ) =
n−1 2 σ . n
Statistique − La th´eorie et ses applications
70
En effet :
1 ¯ 2= 1 ¯ − μ) 2 (Xi − μ) − (X (Xi − X) n n n
i=1
n
i=1
n n 1 ¯ − μ) 1 ¯ − μ)2 = (Xi − μ)2 − 2(X (Xi − μ) + (X n n i=1
i=1
n 1 ¯ − μ)2 + (X ¯ − μ)2 = (Xi − μ)2 − 2(X n i=1
1 ¯ − μ)2 . (Xi − μ)2 − (X n i=1 n
= D’o` u : E(S'2 ) =
2 1 ¯ = σ2 − σ = n − 1 σ2. V (Xi ) − V (X) n i=1 n n n
Quand on abordera l’estimation ponctuelle (chapitre 6) on dira que S'2 est un estimateur biais´e de σ 2 . Par anticipation d´efinissons l’estimateur S 2 = n '2 2 a-dire tel que E(S 2 ) = σ 2 . n−1 S qui est sans biais pour σ , c’est-` D´ efinition 5.5 On appelle variance de l’´ echantillon la statistique 1 ¯ 2. (Xi − X) n − 1 i=1 n
S2 =
ot que S'2 ` a laquelle on pourra ´eventuellement Dor´enavant on ´etudiera S 2 plutˆ se r´ef´erer en conservant le terme de variance empirique. En prenant la racine carr´ee de S 2 (respectivement de S'2 ) on d´efinit l’´ecart' type S de l’´echantillon (respectivement, l’´ecart-type empirique S).
Cas particulier : loi m` ere gaussienne ¯ est gaussienne, en tant que combinaison Si la loi m`ere est N (μ, σ 2 ) alors X lin´eaire de gaussiennes ind´ependantes (voir proposition 4.4). Par cons´equent : 2
¯ ; N (μ, σ ). X n La loi de S 2 sera vue dans la section 5.3. Par ailleurs, nous admettrons la proposition suivante. ¯ et S 2 sont des v.a. ind´eProposition 5.3 Si la loi m`ere est gaussienne, X pendantes.
Chapitre 5. Lois fondamentales de l’´echantillonnage
71
¯ (et a fortiori celle de S 2 ), pour Note 5.1 : D’une fa¸con g´en´erale, la loi de X une loi m`ere quelconque, n’est pas facile `a identifier. Des cas particuliers seront vus en exercice (loi m`ere exponentielle, loi m`ere de Cauchy). Si la loi m`ere est ¯ `a partir de de Bernoulli B(p) ou on peut d´eduire la loi de X nde Poisson P(λ) ¯ qui est, respectivement, une loi binomiale celle de la somme i=1 Xi = nX B(n, p) ou une loi de Poisson P(nλ) selon les propri´et´es de ces lois vues au chapitre 4. D´ efinition 5.6 On appelle moment empirique d’ordre r, not´e Mr , la statistique n 1 r X . Mr = n i=1 i D´ efinition 5.7 On appelle moment centr´ e empirique d’ordre r, not´e Mr , la statistique n 1 ¯ r. (Xi − X) Mr = n i=1
Proposition 5.4 Si la loi m`ere admet un moment μr d’ordre r (voir d´efinition 2.2) alors : E(Mr ) = μr . Ceci d´ecoule directement du fait que, pour tout i = 1, ..., n, E(Xir ) = u X est le symbole de v.a. associ´e `a la loi m`ere). On verra en E(X r ) = μr (o` fait, plus loin, qu’un moment empirique est un «estimateur» naturel du moment de mˆeme ordre de la loi (appel´e parfois, par contraste, moment th´eorique). En revanche, comme on l’a vu pour la variance empirique S'2 qui correspond au moment empirique centr´e d’ordre 2, E(Mr ) n’est pas n´ecessairement ´egal `a μr , le moment centr´e th´eorique de mˆeme ordre. Ceci r´esulte du fait que le centrage ¯ et non pas avec la vraie moyenne est effectu´e avec la moyenne de l’´echantillon X μ de sa loi. Les moments centr´es empiriques s’expriment, par d´eveloppement ¯ r , en fonction des moments empiriques simples de la mˆeme fa¸con des (Xi − X) que le font les moments th´eoriques entre eux, puisqu’il s’agit alors de d´evelopper (X − μ)r . En particulier, on a la formule de d´ ecentrage de la variance empirique : n n 1 ¯ 2= 1 ¯ 2 (Xi − X) X 2 − (X) n i=1 n i=1 i qui fait le pendant de celle de la section 2.3 : V (X) = E(X 2 ) − μ2 .
72
Statistique − La th´eorie et ses applications
Note 5.2 : En consid´erant un n-´echantillon de couples d’observations (X1 , Y1 ), ..., (Xn , Yn ) on peut d´efinir des moments crois´es empiriques d’ordres p et q quelconques et leurs correspondants centr´es : 1 p q X Y n i=1 i i n
1 ¯ p (Yi − Y¯ )q . (Xi − X) n i=1 n
et
Pour p = q = 1 le moment centr´e est la covariance empirique utilis´ee en statistique descriptive : 1 ¯ (Yi − Y¯ ) . (Xi − X) n i=1 n
1 Comme pour la variance on introduit le facteur n−1 au lieu de n1 pour ´eliminer le biais vis-`a-vis de la covariance th´eorique (voir d´efinition 3.5).
Par analogie avec la d´efinition 3.6 de la corr´elation lin´eaire on d´efinit la corr´elation lin´eaire empirique en divisant la covariance empirique par le produit des ´ecarts-types empiriques des v.a. X et Y , soit apr`es simplification : n ¯ (Yi − Y¯ ) (Xi − X) ( i=1 , n n 2 2 ¯ (X − X) (Y − Y ) i i=1 i=1 i formule bien connue en statistique descriptive. Nous abordons maintenant trois lois omnipr´esentes en statistique car li´ees aux distributions d’´echantillonnage de moyennes et de variances dans le cas gaussien.
5.3
Loi du Khi-deux
D´ efinition 5.8 Soit Z1 , Z2 , ..., Zν une suite de variables al´eatoires i.i.d. de loi ν 2 N (0 ; 1). Alors la v.a. ee loi du Khi-deux a ` ν i=1 Zi suit une loi appel´ degr´ es de libert´ e, not´ee χ2 (ν).
Proposition 5.5 La densit´e de la loi du Khi-deux a ` ν degr´es de libert´e est : fν (x) =
ν x 1 2 −1 e− 2 pour x > 0 (0 sinon). ν x 2 Γ( 2 ) ν 2
Chapitre 5. Lois fondamentales de l’´echantillonnage
73
D´emonstration : calculons la fonction g´en´eratrice de Z 2 o` u Z ; N (0 ; 1). On a: ΨZ 2 (t)
2
= E(etZ ) =
+∞
1 2 z2 etz √ e− 2 dz 2π −∞
− 1 (1−2t)z2 1 +∞ = √ e 2 dz 2π −∞ =√ =√
− 1 u2 √ 1 +∞ 1 √ e 2 du en posant u = 1 − 2t z 1 − 2t 2π −∞
1 1 − 2t
qui est d´efinie pour t < 12 . Pour la somme des Zi2 ind´ependantes on a donc (voir proposition 3.12) : Ψ νi=1 Zi2 (t) = (
ν 1 )2 1 − 2t
qui n’est autre que la fonction g´en´eratrice d’une loi Γ( ν2 , 12 ) vue en section 4.2.3, dont la densit´e est bien celle de la proposition ci-dessus. On voit donc, au passage, qu’une loi du Khi-deux est un cas particulier de loi gamma. Proposition 5.6 La moyenne de la loi χ2 (ν) est ´egale au nombre de degr´es de libert´e ν, sa variance est 2ν. Repartons de la d´efinition de la loi χ2 (ν). Comme Zi ; N (0 ; 1) on a : E(Zi2 ) = V (Zi ) = 1
d’o` u
ν E( Zi2 ) = ν i=1
V (Zi2 ) = E(Zi4 ) − (E(Zi2 ))2 = μ4 − 1.
n
u V (Zi2 ) = 2 et V ( Or d’apr`es un r´esultat de la section 4.2.4, μ4 = 3 d’o` = 2ν.
i=1
Zi2 )
Proposition 5.7 Si T1 ; χ2 (ν1 ), T2 ; χ2 (ν2 ), T1 et T2 ind´ependantes, alors T1 + T2 ; χ2 (ν1 + ν2 ). Cette proposition est ´evidente de par la d´efinition de la loi du Khi-deux. Nous revenons maintenant sur la loi de S 2 dans le cas d’un ´echantillon de loi m`ere gaussienne. Th´ eor` eme 5.1 Soit un n-´echantillon X1 , X2 , ..., Xn de loi N (μ, σ 2 ) on a : (n − 1)S 2 ; χ2 (n − 1). σ2
74
Statistique − La th´eorie et ses applications
D´emonstration : en reprenant les d´eveloppements qui suivent l’´enonc´e de la proposition 5.2, on ´etablit que : n
(Xi − μ)2
=
i=1 n
soit
i=1
Xi − μ σ
n
¯ 2 + n(X ¯ − μ)2 , (Xi − X)
i=1
n
2
i=1 (Xi σ2
=
¯ 2 − X)
+
¯ 2 X −μ √ . σ/ n
2
¯
X−μ √ qui et le carr´e de σ/ Les deux termes de droite sont, respectivement, (n−1)S σ2 n est une gaussienne centr´ee-r´eduite. Ces termes al´eatoires ´etant ind´ependants ¯ voir proposition 5.3) et les v.a. Xi −μ ´etant (comme fonctions de S 2 et de X, σ ind´ependantes de loi N (0 ; 1) on a, en termes de fonctions g´en´eratrices :
1 1 − 2t
n/2
= Ψ (n−1)S2 (t). σ
Finalement :
Ψ (n−1)S2 (t) = σ
1 1 − 2t
1 1 − 2t
1/2 (si t <
1 ). 2
n−1 2 ,
ce qui prouve le th´eor`eme.
Sachant que l’esp´erance d’une loi χ2 (n − 1) est n − 1 et sa variance 2(n − 1), on voit que : 2σ 4 E(S 2 ) = σ 2 et V (S 2 ) = . n−1 En fait la loi du Khi-deux a un usage beaucoup plus vaste en statistique notamment dans la th´eorie des tests comme nous le verrons au chapitre 9. Toutes ses applications reposent sur des sommes de carr´es de termes gaussiens ou approximativement gaussiens. Notons, finalement, que la fonction de r´epartition de la loi (ou plutˆ ot de la famille de lois) du Khi-deux ne s’explicite pas et que l’on doit recourir a` des tables ou `a une fonction ad hoc dans les logiciels statistiques pour le calcul de probabilit´es.
5.4
Loi de Student
D´ efinition 5.9 Soit Z et Q deux v.a. ind´ependantes telles que Z ; N (0 ; 1) et Q ; χ2 (ν). Alors la v.a. Z T =( Q ν
suit une loi appel´ee loi de Student a ` ν degr´ es de libert´ e, not´ee t(ν).
Chapitre 5. Lois fondamentales de l’´echantillonnage
75
Proposition 5.8 La densit´e de la loi de Student a ` ν degr´es de libert´e est : Γ( ν+1 ) f (x) = √ 2 ν πν Γ( 2 )
x2 1+ ν
− ν+1 2
, x ∈ R.
Ce r´esultat, que nous ne d´emontrons pas, est dˆ u a` W.S. Gosset en 1908, qui prit le pseudonyme de Student. Ni la fonction de r´epartition, ni la fonction g´en´eratrice ne s’explicitent. Il existe donc des tables de la fonction de r´epartition ou une fonction ad hoc dans les logiciels statistiques. On admettra encore la proposition suivante. Proposition 5.9 Soit T ; t(ν) alors E(T ) = 0 si ν ≥ 2 et V (T ) = ν ≥ 3.
ν ν−2
si
Le fait que la moyenne est nulle est ´evident puisque la densit´e est une fonction paire. On notera que la variance vaut 3 d`es qu’elle est d´efinie (ν = 3) et tend vers 1 quand ν → +∞. Pour ˆetre plus pr´ecis, l’allure de la loi de Student est similaire `a celle d’une loi de Gauss centr´ee-r´eduite avec un ´etalement un peu plus fort, cette diff´erence s’estompant rapidement lorsque ν s’accroˆıt et devenant n´egligeable pour ν > 200. Ceci s’explique, en fait, par sa d´efinition mˆeme mettant en jeu une v.a. N (0 ; 1) au num´erateur et une v.a. qui converge en probabilit´e (voir cette notion en section 5.8.1) vers 1, au d´enominateur. Pour ν = 1 la loi est la loi de Cauchy. Selon la d´efinition 5.9, c’est la loi du rapport de deux gaussiennes centr´ees et r´eduites ind´ependantes (cette d´efinition impose en fait de prendre la valeur absolue de la variable du d´enominateur, mais cette restriction peut ˆetre lev´ee). Sa moyenne n’existe pas en raison de ses “queues de distribution” pesantes (voir exemple 2.1), ce qui lui conf`ere certaines particularit´es, par exemple que la loi des grands nombres (voir section 5.8.2) ne s’applique pas (voir exercices). Th´ eor` eme 5.2 (Application fondamentale) Soit X1 , X2 , ..., Xn un n-´echantillon de loi m`ere N (μ, σ 2 ). Alors : ¯ −μ X √ ; t(n − 1). S/ n La d´emonstration est imm´ediate en prenant, avec les notations utilis´ees pour la d´efinition 5.9, Z=
¯ −μ (n − 1)S 2 X √ . et Q = σ/ n σ2
Ce r´esultat, qui a motiv´e en r´ealit´e les travaux de Gosset, met en ´evidence la modification apport´ee `a la loi N (0 ; 1) de la v.a. Z ci-dessus, lorsqu’on substitue `a l’´ecart-type th´eorique σ de la loi m`ere, l’´ecart-type de l’´echantillon S. On
Statistique − La th´eorie et ses applications
76
comprend au passage, qu’introduisant un terme al´eatoire suppl´ementaire, on provoque un ´etalement plus grand. En fait les applications de la loi de Student se rencontrent souvent en statistique d`es lors qu’on est appel´e `a remplacer σ, en g´en´eral inconnu, par son «estimateur» naturel S.
5.5
Loi de Fisher-Snedecor
D´ efinition 5.10 Soit U et V deux v.a. ind´ependantes telles que U ; χ2 (ν1 ) et V ; χ2 (ν2 ). Alors la v.a. F =
U/ν1 V /ν2
suit une loi de Fisher-Snedecor ` a ν1 degr´ es de libert´ e au num´ erateur es de libert´ e au d´ enominateur, not´ee F (ν1 , ν2 ). En bref on et ν2 degr´ l’appellera loi de Fisher. Proposition 5.10 La densit´e de la loi F (ν1 , ν2 ) est : fν1 ,ν2 (x) =
2 Γ( ν1 +ν 2 ) ν1 Γ( 2 )Γ( ν22 )
ν1 ν2
ν21
x (1 +
Si ν2 ≥ 3 sa moyenne existe et est ´egale a ` et est ´egale a `
2ν22 (ν1 +ν2 −2) ν1 (ν2 −2)2 (ν2 −4)
ν1 −2 2
ν1 +ν2 ν1 x) 2 ν2
ν2 ν2 −2 .
si x > 0 (0 sinon) .
Si ν2 ≥ 5 sa variance existe
.
Nous admettrons ces r´esultats sans d´emonstration, notant avec curiosit´e que la moyenne, quand elle existe, ne d´epend que des degr´es de libert´e du d´enominateur. La fonction de r´epartition (tout comme la fonction g´en´eratrice) n’´etant pas explicite il existe des tables ou des fonctions ad hoc dans les logiciels. La proposition suivante permet une ´economie de tables. Proposition 5.11 Soit H ; F (ν1 , ν2 ), alors
1 H
; F (ν2 , ν1 ).
Cette proposition est ´evidente de par la d´efinition mˆeme de la loi de Fisher. Montrons qu’il suffit, grˆ ace `a cette propri´et´e, de disposer des quantiles d’ordre sup´erieur a` 0,50. Soit a` calculer, par exemple, pour H ; F (ν1 , ν2 ), le quantile d’ordre 0,05. On a : P (H < h0,05 ) = 0,05 1 1 = 0,05 > P H h0,05 1 1 P < = 0,95 . H h0,05
Chapitre 5. Lois fondamentales de l’´echantillonnage
77
Il est donc ´egal `a l’inverse du quantile 0,95 lu sur la loi F (ν2 , ν1 ). Plus g´en´eralement le quantile d’ordre α de la loi F (ν1 , ν2 ) est l’inverse du quantile d’ordre 1 − α de la loi F (ν2 , ν1 ). Les applications de la loi de Fisher sont nombreuses en statistique d`es lors que l’on veut ´etudier le rapport de deux sommes de carr´es de termes gaussiens ind´ependants. L’application la plus directe concerne la loi du rapport des variances S12 /S22 de deux ´echantillons ind´ependants de tailles respectives n1 et n2 , issus de deux lois m`eres gaussiennes ayant une mˆ eme variance σ 2 . En effet : (n1 − 1)S12 ; χ2 (n1 − 1) , σ2 d’o` u imm´ediatement :
(n2 − 1)S22 ; χ2 (n2 − 1), σ2
S12 ; F (n1 − 1, n2 − 1). S22
On remarquera encore que si T ; t(ν) alors T 2 ; F (1 , ν).
5.6
Statistiques d’ordre
Cette notion est tr`es utile dans une s´erie de probl`emes, notamment ceux de minima et de maxima (voir les exercices) que nous abordons tout d’abord. Comme pr´ec´edemment nous consid´erons un ´echantillon al´eatoire X1 , X2 , ..., Xn dont la loi m`ere a pour fonction de r´epartition F . Pour une s´erie de nombres r´eels (x1 , x2 , ..., xn ) notons max{x1 , x2 , ..., xn } la fonction de Rn dans R qui lui associe le nombre maximal de cette s´erie. On peut donc d´efinir une v.a., not´ee X(n) , fonction de (X1 , X2 , ..., Xn ) par : X(n) = max{X1 , X2 , ..., Xn }. La fonction de r´epartition de cette statistique se d´eduit ais´ement de F . En effet l’´ev´enement (X(n) ≤ x) est ´equivalent a` (X1 ≤ x, X2 ≤ x, ..., Xn ≤ x). Par cons´equent : FX(n) (x) = P (X1 ≤ x , X2 ≤ x , ..., Xn ≤ x) = P (X1 ≤ x)P (X2 ≤ x)...P (Xn ≤ x) n = [F (x)] (mˆeme loi).
(ind´ependance)
De fa¸con similaire on note X(1) = min{X1 , X2 , ..., Xn } la fonction minimum et, en notant que l’´ev´enement (X(1) > x) est ´equivalent au fait que toutes les Xi sont sup´erieures `a x, on a : P (X(1) > x) = P (X1 > x)P (X2 > x)...P (Xn > x) n = [1 − F (x)] ,
Statistique − La th´eorie et ses applications
78 d’o` u:
n
FX(1) (x) = 1 − [1 − F (x)] . ` (x1 , x2 , ..., xn ) fait corD´ efinition 5.11 Soit hk la fonction de Rn dans R qui a respondre la k-i`eme valeur parmi x1 , x2 , ..., xn lorsqu’on les range dans l’ordre croissant. On appelle alors statistique d’ordre k, la v.a. not´ee X(k) , d´efinie par : X(k) = hk (X1 , X2 , ..., Xn ). Ceci g´en´eralise les notions de minimum (k = 1) et de maximum (k = n). Proposition 5.12 La fonction de r´epartition de X(k) est : n n FX(k) (x) = [F (x)]j [1 − F (x)]n−j . j j=k
Pour montrer cela il suffit de noter que l’´ev´enement {X(k) ≤ x} est ´equivalent au fait qu’au moins k v.a. parmi X1 , ..., Xn soient inf´erieures `a k. Soit X la v.a. symbolisant la loi m`ere. Consid´erons l’exp´erience de Bernoulli avec pour «succ`es» l’´ev´enement (X ≤ x) dont la probabilit´e est F (x). Le nombre de v.a. parmi X1 , ..., Xn prenant une valeur inf´erieure ou ´egale `a x est donc une v.a. de loi binomiale B(n, F (x)). Pour obtenir la probabilit´e que ce nombre soit au moins ´egal `a k on est amen´e `a sommer les termes de cette binomiale de k `a n.
Note 5.3 Consid´erons X(i) et X(j) avec i < j. La v.a. U = X(j) − X(i) ne peut prendre que des valeurs positives et donc P (U ≥ 0) = 1. De fa¸con conventionnelle on ´ecrira P (X(j) ≥ X(i) ) = 1 et mˆeme, de fa¸con quelque peu rapide, X(j) ≥ X(i) . Moyennant cette convention, il est possible, comme dans la plupart des ouvrages, de d´efinir les statistiques d’ordre X(1) , X(2) , ..., X(n) par une permutation de (X1 , X2 , ..., Xn ) telle que X(1) ≤ X(2) ≤ ... ≤ X(n) .
5.7
Fonction de r´ epartition empirique
Nous abordons ici une variable al´eatoire fonctionnelle, c’est-`a-dire dont les r´ealisations sont en fait des fonctions. Nous nous contenterons de l’´etudier en un point x fix´e pour rester dans le cadre des variables al´eatoires prenant leurs valeurs dans R. Au chapitre 7 traitant des estimateurs fonctionnels on verra l’int´erˆet de la fonction de r´epartition empirique en tant qu’estimateur de ¯ est un estimateur de μ, par exemple. F au mˆeme titre que X
Chapitre 5. Lois fondamentales de l’´echantillonnage
79
D´ efinition 5.12 Pour tout x ∈ R, on appelle valeur de la fonction de r´ epartition empirique en x, la statistique, not´ee Fn (x), d´efinie par : 1 I(−∞,x] (Xi ) n i=1 n
Fn (x) =
o` u I(−∞,x] est la fonction indicatrice de l’intervalle (−∞, x], a ` savoir I(−∞,x] (u) = 1 si u ∈ (−∞, x] et 0 sinon. En d’autres termes Fn (x) est la v.a «proportion» des n observations X1 , X2 , ..., Xn prenant une valeur inf´erieure ou ´egale `a x. Chaque Xi ayant une probabilit´e F (x) d’ˆetre inf´erieure ou ´egale `a x, nFn (x) suit une loi binomiale B(n, F (x)). En cons´equence Fn (x) est une v.a discr`ete prenant les valeurs k u k = 0, 1, ..., n, avec probabilit´es : n , o` k n k n−k [F (x)] [1 − F (x)] . P (Fn (x) = ) = P (nFn (x) = k) = k n Note 5.4 A l’issue de l’exp´erience d’´echantillonnage, soit x1 , x2 , ..., xn la r´ealisation du n-´echantillon X1 , X2 , ..., Xn . La fonction de r´epartition empirique se r´ealise comme une fonction r´eelle d´efinie sur tout R, croissant de 0 `a 1 par paliers avec un saut de «hauteur» n1 ` a chaque fois qu’une valeur observ´ee xi est atteinte. On peut ´egalement la voir comme la fonction de r´epartition d’une loi discr`ete qui a chacune des valeurs x1 , x2 , ..., xn . Cette vision permet donnerait la probabilit´e n1 ` de faire le lien entre moment th´eorique et moment empirique. Le moment th´eorique peut s’´ecrire μr = R xr dF (x) alors que le moment empirique s’´ecrit en rempla¸cant F par Fn dans l’int´egrale de Riemann-Stieltjes (introduite en note 2.1) : Mr = R
xr dFn (x) =
5.8 5.8.1
1 n
n
i=1
xri .
Convergence, approximations gaussiennes, grands ´ echantillons Les modes de convergence al´ eatoires
On consid`ere ici une suite infinie de v.a. {X1 , X2 , ..., Xn , ...} not´ee en bref {Xn }. On peut d´efinir plusieurs modes de convergence pour une telle suite. On notera FXn la fonction de r´epartition de Xn . D´ efinition 5.13 On dit que {Xn } converge en loi vers la v.a. X si l’on a, en tout x o` u sa fonction de r´epartition FX est continue, lim FXn (x) = FX (x) ,
n→∞ L
et l’on note Xn −−−−→ X. n→∞
80
Statistique − La th´eorie et ses applications
On dira aussi que la loi de X est la la loi limite ou asymptotique de la suite {Xn }. En pratique la loi limite sera utile pour donner une approximation pour le calcul de la probabilit´ e d’un ´ ev´ enement sur Xn quand n sera assez grand : P (Xn ∈ A) P (X ∈ A). Pour la convergence en loi comme pour les autres modes de convergence un cas particulier important est celui o` u X est une v.a. certaine, c’est-`a-dire que la suite converge vers une constante c. Pour la convergence en loi cela implique que FXn (x) converge vers 0 si x < c et vers 1 si x ≥ c. On admettra la proposition suivante, o` u l’on suppose que les fonctions g´en´eratrices existent dans un voisinage de 0. Proposition 5.13 La suite de v.a. {Xn } converge en loi vers X si et seulement si, pour tout t dans un voisinage de 0, limn→∞ ΨXn (t) = ΨX (t), o` u ΨXn est la fonction g´en´eratrice de Xn et ΨX celle de X. Cette proposition permet donc d’´etablir la convergence en loi `a partir de la convergence de la fonction g´en´eratrice des moments. e (ou converge D´ efinition 5.14 On dit que {Xn } converge en probabilit´ faiblement) vers la v.a. X si, quel que soit > 0 donn´e, lim P (|Xn − X| < ) = 1 ,
n→∞ p
et l’on note Xn −−−−→ X. n→∞
Pour ce mode de convergence comme pour les suivants la convergence vers une constante c s’explicite naturellement en rempla¸cant X par c. urement (ou converge D´ efinition 5.15 On dit que {Xn } converge presque sˆ avec probabilit´e 1, ou converge fortement) vers la v.a. X si, quel que soit > 0 donn´e, lim P ( sup {|Xm − X|} < ) = 1 , n→∞
m≥n
p.s.
et l’on note Xn −−−−→ X. n→∞
Cette d´efinition est complexe mais on peut voir qu’elle ´equivaut a` dire que la u Mn = sup {|Xm − X|}, converge vers 0 en probabilit´e. Comme suite {Mn }, o` m≥n
pour tout n, sup {|Xm −X|} ≥ |Xn −X|, il est clair que la convergence presque m≥n
sˆ ure entraˆıne la convergence en probabilit´e (d’o` u les qualificatifs de convergence forte et convergence faible). On admettra les propositions ci-apr`es, qui pourront nous ˆetre utiles par la suite.
Chapitre 5. Lois fondamentales de l’´echantillonnage
81
p.s.
Proposition 5.14 Soit {Xn } telle que Xn −→ X et g une fonction continue alors : p.s. g(Xn ) −−−−→ g(X). n→∞
p.s.
p.s.
Proposition 5.15 Soit {Xn } telle que Xn −−→ X et {Yn } telle que Yn −−→ Y . Si f est continue dans R2 alors : p.s.
f (Xn , Yn ) −−→ f (X, Y ). Ces deux propositions sont ´egalement vraies pour la convergence en probabilit´e. Elles s’´etendent ´egalement `a des fonctions de k variables al´eatoires o` u k > 2. D´ efinition 5.16 On dit que {Xn } converge en moyenne quadratique vers la v.a. X si les v.a. X, X1 , X2 , ... ont un moment d’ordre 2 et si lim E[(Xn − X)2 ] = 0 ,
n→∞ m.q.
et l’on note Xn −−−→ X. La convergence m.q. est particuli`erement facile `a manipuler car elle repose sur la convergence usuelle d’une suite de nombres {E[(Xn − X)2 ]}. Nous y recourrons abondamment, d’autant plus qu’elle implique la convergence en probabilit´e. On admettra la hi´erarchie d’implications suivantes (voir certaines d´emonstrations propos´ees en exercices) entre les diff´erents modes de convergence : p⇒L m.q. ⇒ p p.s. ⇒ p (vu ci-dessus). En outre p ⇐⇒ L dans le cas de la convergence vers une constante. Notons que, dans le cas g´en´eral, il n’y a pas, entre convergence m.q. et convergence p.s., de domination de l’une sur l’autre.
5.8.2
Lois des grands nombres
Th´ eor` eme 5.3 Soit {Xn } une suite de v.a. ind´ependantes de mˆeme loi admettant une moyenne μ et une variance σ 2 . Alors la suite des moyennes empiriques urement vers μ, i.e. : {X¯n } converge presque sˆ p.s. X¯n −−−−→ μ. n→∞
82
Statistique − La th´eorie et ses applications
Nous ´enon¸cons ici la loi dite «forte» des grands nombres. Il existe diff´erentes versions de cette loi requ´erant des conditions plus ou moins restrictives que celles utilis´ees ici, dont la loi «faible» concernant la convergence en probabilit´e. D’un point de vue concret la loi des grands nombres garantit que la moyenne empirique se rapproche de plus en plus de la moyenne de la loi dont est issu l’´echantillon quand on augmente la taille de cet ´echantillon. Aussi, comme on le verra plus loin, la moyenne empirique X¯n peut-elle pr´etendre `a «estimer» μ. Historiquement la loi des grands nombres a ´et´e introduite par Jakob Bernoulli (publication posthume Ars conjectandi en 1713) pour d´efinir la probabilit´e d’un ´ev´enement comme ´etant la limite de sa fr´equence relative, au cours d’une s´erie de r´ep´etitions d’une exp´erience al´eatoire a` l’infini. Il s’agit l`a du cas particulier o` u les v.a. X1 , X2 , ..., Xn , ... sont les variables indicatrices de l’occurrence de l’´ev´enement(succ`es) au cours d’un processus de Bernoulli n (voir section 4.1.3). Soit Sn = i=1 Xi le nombre total de succ`es au cours des n premi`eres r´ep´etitions, la fr´equence relative des occurrences est la moyenne empirique Sn /n et donc : Sn p.s. −−−−→ p n n→∞ o` u p est la probabilit´e de l’´ev´enement. La th´eorie axiomatique moderne des probabilit´es permet d’´etablir cette propri´et´e originelle intuitive en pr´ecisant des conditions pour qu’elle s’applique, a` savoir, dans la version usuelle pr´esent´ee ici : ind´ependance des r´ep´etitions successives et constance de la probabilit´e de succ`es au cours de ces r´ep´etitions. Nous nous bornons a` montrer la convergence de X¯n vers μ en moyenne quadratique qui, rappelons-le, garantit la convergence en probabilit´e. D’apr`es 2 u E[(X¯n − μ)2 ] = V (X¯n ) = σn la proposition 5.1 E(X¯n ) = μ pour tout n, d’o` m.q. qui tend vers 0 quand n → ∞, ce qui ´etablit que X¯n −−−−→ μ. n→∞
La loi des grands nombres n’a pas d’int´erˆet pratique pour le calcul statistique, contrairement au th´eor`eme central limite ci-apr`es qui vient pr´eciser la fa¸con dont X¯n converge vers μ. Ce th´eor`eme est `a la base de nombreuses propri´et´es essentielles des ´echantillons en statistique.
5.8.3
Le th´ eor` eme central limite
Th´ eor` eme 5.4 Soit {Xn } une suite de v.a. ind´ependantes de mˆeme loi ad¯n −μ √ mettant une moyenne μ et une variance σ 2 . Alors la suite X converge en σ/ n loi vers la v.a. de loi N (0 ; 1), ce que nous ´ecrivons conventionnellement : X¯n − μ L √ −−−−→ N (0 ; 1). σ/ n n→∞
Chapitre 5. Lois fondamentales de l’´echantillonnage
83
D´emonstration : nous supposerons que la loi m`ere admet une fonction g´en´eratrice des moments ΨX . Une d´emonstration plus g´en´erale consid`ererait de mˆeme la fonction caract´eristique bri`evement mentionn´ee dans la note 2.4 a` la fin de la section 2.5, laquelle existe toujours. Dans cette section nous avons ´egalement mentionn´e le d´eveloppement de ΨX (t) en s´erie de Taylor-Mac-Laurin : ΨX (t) =
∞
μk
k=0
tk , k!
soit, en nous limitant a` l’ordre 2, ΨX (t) = 1 + μ1 t + μ2 o` u
o(t2 ) t2
t2 t2 + o(t2 ) = 1 + μt + (σ 2 + μ2 ) + o(t2 ) 2 2
→ 0 quand t → 0. Soit maintenant : X¯n − μ √ = σ/ n
n
Xi − nμ Xi − μ √ Ti o` u Ti = √ . = σ n σ n i=1 n
i=1
Pour tout i, Xi − μ a pour moyenne 0 et pour variance σ 2 , d’o` u : ΨXi −μ (t) = 1 + σ 2
t2 + o(t2 ) 2
t (X −μ) σ√ n ΨTi (t) = E e i t √ = ΨXi −μ σ n 2 t t2 +o . =1+ 2n n
et
D’apr`es la proposition (3.12), Ψ ni=1 Ti (t) = [1 +
t2 t2 t2 n t2 + o( )]n = (1 + ) + o( ) 2n n 2n n
et, sachant que limn→∞ (1 + na )n = ea , on a : t2
lim Ψ ni=1 Ti (t) = e 2 ,
n→∞
qui est bien la fonction g´en´eratrice de la loi N (0 ; 1). ¯
X−μ √ est centr´ ee-r´eduite (moyenne S’il est clair que, pour tout n, la v.a. σ/ n nulle, variance ´egale `a 1) le th´eor`eme central limite indique en plus que sa loi
84
Statistique − La th´eorie et ses applications
tend `a ˆetre gaussienne quand n s’accroˆıt et ceci, quelle que soit la loi m` ere des Xi .
Application fondamentale ¯ n la moyenne empirique d’un n-´echantillon al´eatoire de loi m`ere quelSoit X ¯ n suit conque, de moyenne μ et de variance σ 2 . Alors si n est assez grand X 2 approximativement une loi N (μ, σn ) ce que l’on note : ¯n X
;
approx
N (μ,
σ2 ). n
Dans tous les cas (ou presque, voir ci-apr`es pour la loi m`ere de Bernoulli) n ≥ 30 suffit pour obtenir des approximations de probabilit´es `a 10−2 pr`es. Pour une loi continue a` un seul mode sans queues de distribution trop allong´ees n = 5 pourra mˆeme suffire. Si la loi m`ere est gaussienne nous avons vu en section 5.2 ¯ n est exactement gaussienne pour tout n. que X Note 5.5 Comme pour la loi des grands nombres il existe diff´erentes versions du th´eor`eme central limite partant de conditions plus ou moins restrictives. En particulier il n’est pas n´ecessaire que les v.a. soient de mˆeme loi ni mˆeme qu’elles soient ind´ependantes dans la mesure o` u leur degr´e de d´ependance reste faible. Ceci explique que certains ph´enom`enes naturels r´epondent bien `a un mod`ele gaussien du fait que la variable ´etudi´ee r´esulte de l’addition d’effets al´eatoires multiples. Ainsi on peut ´etablir un comportement asymptotique gaussien pour d’autres types de statistiques dans la mesure o` u elles sont des moyennes de v.a. qui, sans ˆetre n´ecessairement ind´ependantes pour n fini, tendent a` ˆetre i.i.d. quand n → ∞. En particulier ceci est vrai pour la variance de l’´echantillon Sn2 pour laquelle ¯ n (et donc leurs carr´es) tendent `a devenir ind´ependants du les ´el´ements Xi − X ¯ fait que Xn converge vers μ. Il est toutefois n´ecessaire que la variance de Sn2 existe et il suffit pour cela (voir en fin de section 2.3) que μ4 existe pour la loi m`ere (pour le calcul de la variance de la distribution d’´echantillonnage de Sn2 voir les exercices). Cas particulier : processus de Bernoulli Soit Sn le nombre total de succ`es au cours de n r´ep´etitions. Comme E(Sn ) = np et V (Sn ) = np(1 − p) on a pour la fr´equence relative Sn /n une moyenne p et une variance p(1−p) . D’o` u, pour n suffisamment grand, n Sn n
;
approx
ou encore Sn
N (p,
;
approx
p(1 − p) ) n
N (np, np(1 − p)) .
Chapitre 5. Lois fondamentales de l’´echantillonnage
85
Cette deuxi`eme forme constitue l’approximation de la loi binomiale B(n, p) par la loi de Gauss N (np, np(1−p)). C’est l’approche historique qui a permis a de Moivre pour p = 12 , puis Laplace pour p quelconque, de mettre initialement ` en ´evidence la loi de Gauss (voir exercice 4.3). En pratique on admet g´en´eralement que l’approximation est satisfaisante d`es lors que np ≥ 5 et n(1 − p) ≥ 5. Ces deux conditions garantissent que la moyenne de la loi binomiale ne soit ni trop proche de 0, ni trop proche de n, car dans le cas contraire la loi serait assez nettement asym´etrique. Du fait que l’on passe d’une loi discr`ete `a une loi continue on introduit une correction de continuit´e de la fa¸con suivante. Soit X ; B(n, p) alors : P (X = k) P (k −
1 1 < U < k + ) o` u U ; N (np, np(1 − p)). 2 2
Exemple 5.1 Soit X ; B(20 ;0,3). Nous pouvons recourir a` une approximation gaussienne car np = 6 > 5 et n(1 − p) = 14 > 5. Consid´erons P (X = 8) et P (X ≤ 8). P (X = 8) P (7,5 < U < 8,5) o` u U ; N (6 ; 4,2) 8,5 − 6 7,5 − 6
Remarque : toutes les lois qui peuvent ˆetre d´efinies comme r´esultant d’une somme de variables al´eatoires i.i.d. tendent `a ˆetre gaussiennes quand le nombre de termes augmente. C’est ´evidemment le cas de la binomiale B(n , p) quand n → ∞, comme nous venons de le voir (et par voie de cons´equence pour la loi hyperg´eom´etrique quand N → ∞ et M/N → p, voir section 4.1.5), mais aussi de la loi binomiale n´egative BN (r, p) quand r → ∞, de la loi Γ(r , λ) quand r → ∞, de la loi χ2 (ν) quand ν → ∞. De fa¸con indirecte c’est ´egalement vrai pour la loi de Poisson qui peut ˆetre approch´ee par une somme de v.a. de Bernoulli en d´ecoupant l’unit´e de temps en petits intervalles (voir section 4.1.7). En pratique on peut approcher la loi P(λ) par la loi N (λ , λ) d`es que λ ≥ 20, les calculs de probabilit´es ´etant corrects `a 10−2 pr`es en utilisant la correction de continuit´e.
86
Statistique − La th´eorie et ses applications
Exemple 5.2 Soit X ; P(20) . Calculons P (X ≤ 14). P (X ≤ 14) P (U < 14,5) o` u U ; N (20 ; 20) 14,5 − 20 ) o` u Z ; N (0; 1) P (Z < √ 20 P (Z < −1,23) = 0,1093. La valeur exacte (lue dans une table de Poisson) est 0,1049.
Nous proposons dans la section des exercices quelques «exercices appliqu´es» permettant de voir des situations pratiques illustrant l’int´erˆet des r´esultats pr´ec´edents.
5.9
Exercices
Exercice 5.1 Soit X1 , X2 , ..., Xn un ´echantillon al´eatoire de loi m`ere exponen¯ est de loi Γ(n, nλ). tielle E(λ), montrer que X Exercice 5.2 Soit X1 , X2 , ..., Xn un ´echantillon al´eatoire de loi m`ere Γ(r , λ). ¯? Quelle est la loi de X Exercice 5.3 * Soit X1 , X2 , ..., Xn un ´echantillon al´eatoire de loi m`ere de Cauchy dont la densit´e est : 1 f (x) = , x ∈ R. π(1 + x2 ) ¯ n suit la mˆeme loi (elle Montrer, via la fonction caract´ eristique des moments, que X ne converge donc pas vers une constante quand n → ∞). 4 Exercice 5.4 Montrer que la variance de S 2 est ´egale `a n1 (μ4 − n−3 n−1 σ ). Que vaut-elle dans le cas particulier de la loi de Gauss (voir formule pour μ4 en section 4.2.4) ?
Exercice 5.5 * (Sondage al´eatoire simple sans remise) Soit la suite de v.a. X1 , X2 , . . . , Xn issue du tirage de n individus sans remise dans une population , . . . , aN les valeurs dans la population de taille N. Soit a1 , a2 N de la variable 1 2 2 ´etudi´ee. Soient μ = N1 N a leur moyenne et σ = j j=1 j=1 (aj − μ) leur N variance. Pour des raisons ´evidentes de sym´etrie, P (Xi = aj ) reste identique quels que soient i et j. En d´eduire la loi marginale de Xi . Par le mˆeme type d’argument d´eterminer la loi d’un couple (Xi , Xk ) quels que soient i et k (i = k). D´eterminer alors E(Xi ), V (Xi ) et E(X) o` u X est la moyenne de l’´echantillon sans remise. 2 Montrer que cov(Xi , Xk ) = − Nσ−1 (aide : partir de la formule de d´ecentrage et utiliser la relation g´en´erale ( j aj )2 = j a2j + j =l aj al ).
Chapitre 5. Lois fondamentales de l’´echantillonnage
87
n Calculer V ( i=1 Xi ) (aide : partir de la formule g´en´erale donn´ee `a la fin de la section 3.8). En d´eduire que la moyenne d’un ´echantillon issu d’un tirage sans remise a pour variance : σ2 N − n . n N −1 (on remarquera que l’on trouve le mˆeme facteur correctif de sans remise que pour la loi hyperg´eom´etrique en section 4.1.5) ¯ et de S 2 est ´egale a` μ /n Exercice 5.6 Montrer que la covariance de X 3 (aide : on peut supposer que la loi m`ere est de moyenne nulle sans nuire `a la g´en´eralit´e). Ce r´esultat montre que ces deux statistiques sont asymptotiquement «non corr´el´ees». Exercice 5.7 D´eterminer directement la densit´e d’une loi χ2 (1) par le changement de variable de Z ; N (0 ; 1) `a Z 2 . ´ Exercice 5.8 Etablir, par la fonction g´en´eratrice, la moyenne et la variance de la loi χ2 (ν). Exercice 5.9 * Soit X une v.a. continue de densit´e fX , de moyenne μ et de variance σ 2 . Soit g une fonction positive. 1. Soit A = {x|g(x) > k > 0}. Montrer que ∞ g(x)fX (x)dx ≥ k fX (x)dx. −∞
A
et en d´eduire que E(g(X)) ≥ kP (g(X) > k). 2. En prenant g(x) = (x − μ)2 montrer l’in´egalit´e de Tchebichev : P (|X − μ| > ) ≤
σ2 . 2
3. Soit une suite de v.a. {Yn }. En prenant X = |Yn − Y | et g(x) = x2 m.q. p montrer que Yn −−−→ Y implique Yn → Y . Exercice 5.10 D´emontrer la loi faible des grands nombres quand la variance existe. Aide : utiliser l’in´egalit´e de Tchebichev ci-dessus. Exercice 5.11 Pour un ´echantillon de taille n quelle est la probabilit´e que le maximum d´epasse la m´ediane de la loi m`ere ? Quelle est la probabilit´e que le maximum d´epasse le troisi`eme quartile (i.e. le quantile d’ordre 0,75) de la loi m`ere ?
88
Statistique − La th´eorie et ses applications
Exercice 5.12 Soit un ´echantillon de taille n issu d’une loi U[0 ; 1]. D´eterminer la fonction de r´epartition et la densit´e de la loi du minimum de l’´echantillon. En d´eduire l’esp´erance math´ematique de ce minimum. Exercice 5.13 Pour la marche al´eatoire pr´esent´ee dans la section d’exercices 3.10 donner une valeur approch´ee, pour n suffisamment grand, de la probabilit´e d’ˆetre ´eloign´e de plus de x m`etres de la position initiale apr`es n ´etapes.
Exercices appliqu´ es Exercice 5.14 Le niveau de bruit d’un type de machine a` laver `a un certain r´egime est une v.a. de moyenne 44 dB et d’´ecart-type 5 dB. En admettant la validit´e de l’approximation gaussienne, donner la probabilit´e de trouver une moyenne sup´erieure a` 48 dB pour un ´echantillon al´eatoire de 10 machines. Exercice 5.15 Un constructeur automobile indique une consommation de 6,3 l/100km pour un type de mod`ele dans des conditions exp´erimentales pr´ecises. Pour 30 automobiles (suppos´ees prises au hasard) test´ees dans ces mˆemes conditions on rel`eve une consommation moyenne de 6,42 l/100km et un ´ecart-type de 0,22 l/100km. Calculer la valeur prise dans cet ´echantillon par la statistique de Student du th´eor`eme 5.2. A quel quantile correspond-elle sur la loi de cette statistique ? (on supposera que la loi de Student s’applique avec une bonne approximation vu la taille d’´echantillon) L’indication du constructeur vous paraˆıt-elle plausible ? Exercice 5.16 Un t´el´eph´erique a une capacit´e de 100 personnes. Dans la population fran¸caise le poids des personnes est distribu´e avec une moyenne de 66,3 kg et un ´ecart-type de 15,6 kg. En supposant que les personnes entrant dans la benne soient prises au hasard dans cette population quelle est, approximativement, la probabilit´e que le poids total des personnes transport´ees exc`ede 7 000 kg ? Exercice 5.17 Un sondage est effectu´e aupr`es de 1 000 personnes dans la population fran¸caise sur la popularit´e d’une certaine personnalit´e. Quelle est la probabilit´e que le sondage indique une cote de popularit´e inf´erieure ou ´egale `a 42 % si la proportion de personnes favorables `a cette personnalit´e est de 0,44 au sein de la population ? (aide : on aura avantage a passer par la loi de Sn , nombre total de succ`es, pour pouvoir utiliser la ` correction de continuit´e de l’approximation gaussienne, comme dans l’exemple 5.1)
Chapitre 5. Lois fondamentales de l’´echantillonnage
89
Exercice 5.18 Une machine en fonctionnement normal produit 9 % de pi`eces d´efectueuses. Un contrˆ ole de qualit´e consiste `a pr´elever 120 pi`eces au hasard. Quelle est la loi du nombre de pi`eces d´efectueuses ? Exp´erience faite, 22 pi`eces s’av`erent ˆetre d´efectueuses. A quel quantile correspond cette valeur sur la loi pr´ec´edente ? (aide : on recourra a` l’approximation gaussienne avec correction de continuit´e comme dans l’exemple 5.1) Qu’en conclure quant au fonctionnement de la machine ? Exercice 5.19 D’une fa¸con g´en´erale on d´efinit la pr´ecision d’une m´ethode de mesure par le double de l’´ecart-type de son erreur al´eatoire. L’hypoth`ese d’une erreur al´eatoire gaussienne est la r`egle. Une m´ethode de mesure d’alcool´emie est r´eput´ee avoir une pr´ecision de 0,1 mg/l. Sur un mˆeme ´echantillon sanguin on effectue 5 mesures que l’on peut supposer ind´ependantes. Quelle est la probabilit´e de trouver un ´ecart-type des 5 mesures sup´erieur a` 0,077 ? (aide : on passera par la variance) Exercice 5.20 On cherche `a pr´evoir le nombre de nuit´ees dans les hˆ otels d’une station baln´eaire en juillet. D’exp´erience on a pu constater que le nombre de nuits pass´ees par un m´enage peut ˆetre mod´elis´e par une loi de Poisson de moyenne 4. On fait l’hypoth`ese d’une fr´equentation de 10 000 m´enages, quelles sont la moyenne et la variance de la v.a. «nombre total de nuit´ees» ? En utilisant une approximation gaussienne donner un intervalle de probabilit´e 0,95 pour cette v.a. Exercice 5.21 Lors de la conversion du franc a` l’euro les op´erations sont arrondies au centime d’euro le plus proche. On suppose que les d´ecimales de centime d’euro apparaissent de fa¸con al´eatoire uniform´ement r´eparties sur l’intervalle [0 , 1]. Quelle est approximativement la loi de l’erreur d’arrondi sur 1 000 op´erations ? Donner un intervalle de probabilit´e 0,95 pour cette erreur. Exercice 5.22 Un appareil ´electronique contient 3 accumulateurs. Pour que l’appareil fonctionne il faut que les 3 accumulateurs fonctionnent. On admet que la dur´ee de vie d’un accumulateur suit une loi exponentielle de moyenne 2 ans et que les dur´ees des trois ´el´ements sont ind´ependantes. Quelle est la loi de la dur´ee de fonctionnement de l’appareil ? Quelle est sa moyenne ? Quelle est la probabilit´e qu’elle soit sup´erieure `a un an ? Exercice 5.23 Un industriel doit livrer 100 pi`eces. Sachant que le processus de fabrication produit une pi`ece d´efectueuse avec probabilit´e 0,10 il souhaite budg´eter le nombre de pi`eces `a produire pour ˆetre quasiment sˆ ur de fournir 100 bonnes unit´es. Un raisonnement simpliste consiste a` d´eclarer que 111 pi`eces suffisent. Quelle est la probabilit´e de d´epasser 111 pi`eces pour en obtenir 100 bonnes (on pourra utiliser une approximation gaussienne) ?
90
Statistique − La th´eorie et ses applications
Combien doit-on fabriquer de pi`eces pour ˆetre sˆ ur d’en avoir 100 bonnes ? Combien doit-on fabriquer de pi`eces pour en avoir 100 bonnes avec une probabilit´e 0,99 ?
Chapitre 6
Th´ eorie de l’estimation param´ etrique ponctuelle 6.1
Cadre g´ en´ eral de l’estimation
Soit X une v.a. associ´ee `a un certain ph´enom`ene al´eatoire observable de fa¸con r´ep´et´ee comme d´ecrit en section 5.1. Notre objectif est «d’estimer» certaines caract´eristiques d’int´erˆet de sa loi (la moyenne, la variance, la fonction de r´epartition, la fonction de densit´e, etc.) sur la base d’une s´erie d’observations x1 , x2 , ..., xn . Un cas particulier important est celui du sondage dans une population (voir section 3.7) dont l’objectif est d’estimer diverses caract´eristiques descriptives de celle-ci. Dans ce chapitre nous consid´ererons toujours, mˆeme si des d´eveloppements analogues sont possibles dans d’autres circonstances, que x1 , x2 , ..., xn sont des r´ealisations d’un n-´echantillon al´eatoire X1 , X2 , ..., Xn . Cette hypoth`ese sur nos observations qui peut ˆetre plus ou moins r´ealiste est n´ecessaire pour ´etudier de fa¸con simple, en termes probabilistes, la qualit´e des estimations que l’on cherche `a produire. Ce chapitre ne traite ´egalement que du probl`eme de l’estimation ponctuelle, c’est-`a-dire celle qui consiste `a attribuer, au mieux de notre savoir, une valeur unique a` la caract´eristique d’int´erˆet inconnue. Au chapitre 7 nous aborderons l’estimation par intervalle consistant `a donner un encadrement plausible pour la caract´eristique. La th´eorie de l’estimation ´etudie les propri´et´es des estimations et des m´ethodes g´en´erales d’estimation comme celle dite du «maximum de vraisemblance». L’objectif est de comparer les lois d’´echantillonnage des «estimateurs» pour ´etablir des pr´ef´erences lorsque plusieurs choix se pr´esentent. La notion d’estimateur est la notion centrale de ce chapitre alors mˆeme qu’elle ne se d´efinit pas formellement en termes math´ematiques.
92
Statistique − La th´eorie et ses applications
D´ efinition informelle d’un estimateur et d’une estimation Dans le cadre d´efini ci-dessus, soit `a estimer une caract´eristique c de la variable al´eatoire X sur la base de la r´ealisation (x1 , x2 , ..., xn ) du n-´echantillon (X1 , X2 , ..., Xn ). On appellera estimateur toute statistique (donc toute fonction de X1 , X2 , ..., Xn , voir d´efinition 5.2) dont la r´ealisation apr`es exp´erience est envisag´ee comme estimation de c. Un estimateur se d´efinit donc dans l’intention de fournir une estimation. Insistons sur le fait qu’un estimateur est une variable al´eatoire, alors qu’une estimation est une valeur num´erique prise par l’estimateur suite a` la r´ealisation du n-´echantillon. Si un estimateur est d´etermin´e par une fonction h(X1 , X2 , ..., Xn ), l’estimation correspondante est ´evidemment h(x1 , x2 , ..., xn ). Soit, par exemple, a` estimer la moyenne E(X) de la loi de X, un estimateur qui ¯ qui produit une estimation semble a priori naturel est la moyenne empirique X x ¯, moyenne descriptive de la s´erie des valeurs observ´ees.
6.2
Cadre de l’estimation param´ etrique
En estimation param´etrique la loi de X est r´eput´ee appartenir a` une famille de lois, telles que celles pr´esent´ees au chapitre 4, qui peut ˆetre d´ecrite par une forme fonctionnelle connue soit de sa fonction de r´epartition, soit de sa fonction de densit´e dans le cas continu, soit de sa fonction de probabilit´e dans le cas discret, forme d´ependant d’un ou plusieurs param`etres inconnus r´eels. De fa¸con g´en´erique nous noterons θ ce param`etre ou vecteur de param`etres et F (x; θ), f (x; θ) ou p(x; θ) les trois formes fonctionnelles pr´ecit´ees. Toutefois, par simplification et sauf mention expresse contraire, nous noterons f (x; θ) aussi bien la densit´ e du cas continu que la fonction de probabilit´ e du cas discret. L’ensemble des valeurs possibles pour θ, appel´e espace param´etrique, sera u k est la dimension du param`etre θ. Le plus not´e Θ, lequel est inclus dans Rk o` souvent la famille param´etrique `a laquelle la loi de X est r´eput´ee appartenir sera d´ecrite par la famille de densit´es de probabilit´e (respectivement de fonctions de probabilit´e) {f (x; θ); θ ∈ Θ}. Ces fonctions sont implicitement d´efinies pour tout x ∈ R. Rappelons ici (voir section 1.4) qu’on appelle support de f (x; θ) (ou support de la loi) l’ensemble des valeurs de x telles que f (x; θ) > 0. En termes courants, on parlera de l’ensemble des r´ealisations (ou valeurs) possibles. Lorsque nous consid´ererons une famille de lois usuelles nous reviendrons aux notations du chapitre 4. Ainsi la famille des lois de Gauss est d´ecrite par √ 2 la famille des densit´es de la forme (1/( 2πσ)) exp{− (x−μ) 2σ 2 }, pour tout x ∈ R, o` u intervient un param`etre (μ, σ 2 ) de dimension 2, l’espace param´etrique ´etant la partie de R2 : {(μ, σ 2 ) | μ ∈ R, σ 2 ∈ R, σ 2 > 0}. Dans ce cadre param´etrique le probl`eme est celui de l’estimation du param`etre θ grˆ ace `a laquelle on obtiendra une estimation compl`ete de la loi
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
93
de X et, par voie de cons´equence, de toute caract´eristique de cette loi. Distinguons bien ici la notion de param`etre d’une loi de celle de caract´eristique (moyenne, variance, m´ediane, ...) de la loi : le param`etre identifie chaque loi (chaque membre) dans la famille consid´er´ee mais n’est pas n´ecessairement une caract´eristique usuelle de cette loi. Par contre toute caract´eristique usuelle d´epend du membre de la famille et donc du param`etre θ. Aussi le moment d’ordre k, par exemple, sera-t-il not´e μk (θ), la moyenne sera not´ee μ(θ) et la variance σ 2 (θ). Si notre objectif principal est d’estimer le param`etre inconnu θ, il se pourra aussi que nous souhaitions directement estimer une fonction de θ repr´esentant une certaine caract´eristique particuli`erement int´eressante, sans n´ecessairement passer par l’estimation de θ. En particulier, fr´equemment on voudra estimer moyenne et variance de la loi, soit μ(θ) et σ 2 (θ). Notation pour les estimateurs et estimations Pour un param`etre d´esign´e par une certaine lettre on note souvent un estimateur par la mˆeme lettre surmont´ee d’un accent circonflexe. Pour distinguer la m´ethode d’estimation utilis´ee on pourra ajouter en indice sup´erieur une lettre y faisant clairement r´ef´erence. Ainsi, pour le param`etre g´en´erique θ un estima l’estimateur obtenu par la m´ethode des moments teur non pr´ecis´e sera not´e θ, (expos´ee en section 6.4) sera not´e θM et l’estimateur obtenu par la m´ethode du maximum de vraisemblance (expos´ee en section 6.7) sera not´e θM V . Selon nos conventions initiales nous devrions noter ces variables al´eatoires avec la lettre majuscule de θ. Mais dans la mesure o` u le contexte indique clairement s’il s’agit d’une variable al´eatoire ou de sa r´ealisation, nous ne ferons pas la distinction entre estimation et estimateur lorsqu’ils sont not´ es en lettres ˆ M d´esignera, par exemple, l’estimateur ou l’estimation grecques. La lettre λ des moments pour le param`etre λ de la loi E(λ). Notons que dans le contexte de l’estimation param´etrique le param`etre θ est totalement inconnu. Ainsi la v.a. X : «intervalle de temps s´eparant r occurrences» dans un processus de Poisson suit une loi Γ(r, λ) dont seul le param`etre λ est inconnu. Nous avons donc affaire a` une sous-famille de la famille des lois Gamma. Remarquons ´egalement qu’il n’y a pas qu’une seule fa¸con de param´etrer une famille de lois. En particulier toute fonction strictement monotone h(θ) du param`etre θ permet une reparam´etrisation de la famille des densit´es (respectivement des fonctions de probabilit´e). Ainsi, nous avons adopt´e, pour d´ecrire la famille des lois exponentielles E(λ), la forme fonctionnelle : f (x; λ) = λe−λx , x ≥ 0, λ > 0 dans laquelle λ est l’inverse de la moyenne de la loi mais correspond a` l’intensit´e du processus de Poisson (nombre moyen d’occurrences par unit´e de temps).
94
Statistique − La th´eorie et ses applications
Certains auteurs utilisent la forme : 1 x f (x; θ) = e− θ , x ≥ 0, θ > 0 θ o` u θ = 1/λ est la fonction de reparam´etrisation, auquel cas θ est la moyenne de la loi. Nous garderons a` l’esprit ce probl`eme de changement de param`etre qui permettra de d´egager certaines propri´et´es int´eressantes des estimateurs. Pour clore cette introduction mettons en ´evidence le fait que, dans le cadre des ´echantillons al´eatoires, la loi conjointe du n-´echantillon (X1 , X2 , ..., Xn ) peut ˆetre d´efinie par la fonction de densit´e (respectivement la fonction de probabilit´e) conjointe : f (x1 , x2 , .., ., xn ; θ) = f (x1 ; θ)f (x2 ; θ)...f (xn ; θ) =
n $
f (xi ; θ)
i=1
o` u θ est le param`etre inconnu dans Θ (par commodit´e, nous d´esignons ici, et ferons de mˆeme ´eventuellement plus loin, la densit´e conjointe par la mˆeme lettre f que la densit´e de la loi m`ere). Dans le cas discret cette expression est la probabilit´e Pθ (X1 = x1 , X2 = x2 , ..., Xn = xn ). Pour ´etablir certains r´esultats nous serons amen´es `a poser des conditions sur cette densit´e (ou fonction de probabilit´e) conjointe. Ces conditions ne seront pertinentes qu’aux points (x1 , x2 , .., ., xn ) de Rn correspondant `a des valeurs possibles, en d’autres termes uniquement sur le support de la loi conjointe. Ce support est ´evidemment l’ensemble produit n fois du support de f (x; θ). Pour la famille param´etrique dans son ensemble, il faudra prendre en compte l’union des supports de tous les membres lorsque θ d´ecrit Θ. Pour la famille des lois U[0, θ], avec θ > 0, par exemple, cette union est R+ . Donc, par la suite, les conditions impos´ees aux densit´es ou fonctions de probabilit´es seront implicitement restreintes `a leurs supports.
6.3
La classe exponentielle de lois
Cette classe regroupe des familles param´ etriques de lois qui, de par leur forme particuli`ere, partagent beaucoup de propri´et´es dans la th´eorie de l’estimation ou la th´eorie des tests, du fait que leurs densit´es peuvent s’´ecrire sous une mˆeme expression canonique (on parle aussi de la «famille exponentielle» mais cela prˆete `a confusion avec la famille exponentielle usuelle E(λ)). D´ efinition 6.1 Soit une famille param´etrique de lois admettant des fonctions de densit´e (cas continu) ou des fonctions de probabilit´e (cas discret) {f (x; θ); θ ∈ ` la classe exponentielle de lois si f (x; θ) Θ ⊆ Rk }. On dit qu’elle appartient a peut s’´ecrire : f (x; θ) = a(θ)b(x) exp{c1 (θ)d1 (x) + c2 (θ)d2 (x) + ... + ck (θ)dk (x)} pour tout x ∈ R.
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
95
Notons qu’il doit y avoir autant de termes de produits dans la partie exponentielle que de dimensions pour θ. En particulier, si θ est de dimension 1, on a: f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. De plus cette forme canonique doit ˆetre effective pour tout x ∈ R. En particulier si le support de f (x; θ), donc l’ensemble des valeurs de x pour lesquelles f (x; θ) > 0 , d´epend lui-mˆeme du param`etre θ, un terme d’indicatrice I[α(θ),β(θ)] (x) doit ˆetre introduit, ce qui ne peut en aucun cas permettre la forme d´efinie ci-dessus. Ces types de lois auront, de ce fait, des propri´et´es tr`es sp´ecifiques. On donnera pour exemple la famille des lois U[0, θ], o` u θ > 0 est inconnu, dont les densit´es sont de la forme : f (x; θ) =
1 I[0,θ] (x) , ∀x ∈ R. θ
Notons encore que les notions de dimension k et de forme canonique ne concernent que les param`etres inconnus. Ainsi la sous-famille des lois B(n, p) o` u n est connu, comme c’est toujours le cas dans les applications statistiques, appartient a` la famille exponentielle (voir exemple 6.1), ce qui ne serait pas le cas si n ´etait inconnu. Nous verrons plus loin que les fonctions di (x) jouent un rˆ ole central dans la recherche des meilleurs estimateurs. Aussi les mettons-nous en ´evidence dans les trois exemples qui suivent, puis dans le tableau 6.1 qui servira de r´ef´erence par la suite. Exemple 6.1 Loi B(n, p) avec n connu. n x p (1 − p)n−x pour x = 0, 1, 2, ..., n f (x; n, p) = x p n n exp{x. ln } = (1 − p) x 1−p d’o` u d(x) = x. Le cas de la loi de Bernoulli B(p) est identique avec n = 1.
Exemple 6.2 Loi P (λ). e−λ λx pour x ∈ N x! 1 = e−λ exp{x. ln λ} x!
f (x; λ) =
d’o` u, ´egalement, d(x) = x.
96
Statistique − La th´eorie et ses applications
Exemple 6.3 Loi N (μ , σ 2 ). 1 (x − μ)2 }, x ∈ R 2 σ2 2πσ2 1 μ2 1 μ =√ exp{− 2 } exp{− 2 x2 + 2 x} 2 2σ 2σ σ 2πσ
f (x; μ , σ 2 ) = √
1
exp{−
d’o` u d1 (x) = x2 et d2 (x) = x.
On peut ´etablir ais´ement les r´esultats du tableau suivant qui contient la plupart des lois usuelles. Tableau 6.1 : Principales lois usuelles appartenant a` la classe exponentielle loi param`etre d1 (x) d2 (x) I 1 B(p) p x [p(1 − p)]−1 B(n, p) p (n connu) x n[p(1 − p)]−1 BN (r, p) p (r connu) x r[p2 (1 − p)]−1 P(λ) λ x 1/λ E(λ) λ x 1/λ2 Γ(r, λ) λ (r connu) x r/λ2 2 2 2 N (μ, σ ) (μ, σ ) x x P areto(a, θ) θ (a connu) ln(x) 1/θ2 Beta(α, β) (α, β) ln(x) ln(1 − x) 1 Information de Fisher, voir section 6.6.3 En revanche les lois hyperg´eom´etriques (M inconnu), Weibull et Gumbel n’appartiennent pas a` la classe exponentielle.
6.4
Une approche intuitive de l’estimation : la m´ ethode des moments
Bien que cette m´ethode ne soit pas toujours satisfaisante nous l’introduisons d`es maintenant en raison de son cˆot´e intuitif. Elle nous servira ainsi, dans la section suivante, a` illustrer les propri´et´es g´en´erales des estimateurs. Nous commen¸cons par le cas d’un param`etre `a une dimension. Pour une r´ealisation x1 , x2 , ..., xn de l’´echantillon la m´ethode consiste alors `a choisir pour estimation de θ la valeur telle que la moyenne th´eorique μ(θ) (ou premier moment de la loi) co¨ıncide avec la moyenne empirique x. Pour la loi E(λ), par ˆM = x ˆ M = 1/¯ ˆ M telle que 1/λ ¯, soit λ x. Pour exemple, l’estimation de λ sera λ M la loi BN (r, p) avec r connu, l’estimation de p sera pˆ telle que r r(1 − pˆM ) . =x ¯, d’o` u pˆM = pˆM r+x ¯
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
97
Pour la loi de Poisson la solution est x ¯ puisque le param`etre λ est lui-mˆeme la moyenne de la loi. De mˆeme, pour la loi de Bernoulli, p est estim´e par la moyenne qui est la fr´equence relative observ´ee. La m´ethode n’a de sens que s’il y a existence et unicit´e de la solution dans l’espace param´etrique Θ, ce que nous supposerons toujours vrai. Ainsi, de fa¸con g´en´erale, nous sommes amen´es `a r´esoudre l’´equation μ(θ) = x ¯ et, en x) l’estimation de θ pour raison de l’unicit´e, nous pourrons noter θˆM = μ−1 (¯ ¯ Appliqu´ee maintenant `a X ¯ (donc dans l’univers une r´ealisation x ¯ donn´ee de X. - selon l’acceptation de ce mot donn´ee en fin de section 5.1 - des ´echantillons ¯ appel´ee al´eatoires) la fonction μ−1 d´efinit alors la statistique θˆM = μ−1 (X) estimateur des moments de θ (rappelons que nous n’utilisons pas de lettre grecque majuscule pour distinguer estimateur et estimation). Pour un param`etre de dimension 2 l’estimation r´esulte de la r´esolution de deux ´equations, l’une reposant sur le premier moment, l’autre sur le moment d’ordre 2. Prenons le cas de la loi de Gauss avec (μ, σ 2 ) comme param`etre, dont le premier moment est μ lui-mˆeme et le moment d’ordre 2 est E(X 2 ) = μ2 +σ2 . On r´esout donc (en passant directement aux v.a.) ⎧ ¯ μ =X ⎪ ⎨ n 1 ⎪ Xi2 ⎩ μ2 + σ 2 = n i=1
n ¯ et σ ¯ 2 = S'2 . La moyenne et la variance d’o` u μ ˆM = X ˆ 2,M = n1 i=1 Xi2 − X th´eoriques sont donc estim´ees naturellement par la moyenne et la variance empiriques. Prenons maintenant le cas moins intuitif de la loi de Gumbel de param`etre (α, β), dont la moyenne est α + γβ, o` u γ est la constante d’Euler, et la variance est π 2 β 2 /6 (voir section 4.2.8). On r´esout : ⎧ ¯ α + γβ =X ⎪ ⎨ n π2β 2 ⎪ Xi2 = n1 ⎩ (α + γβ)2 + 6 i=1 ou, de fa¸con ´equivalente,
⎧ ⎨ α + γβ 2 2 ⎩ π β 6
ce qui donne la solution βˆM =
√
6' π S
¯ =X = S'2
¯− et α ˆM = X
γ
√ π
6
' S.
98
Statistique − La th´eorie et ses applications
D’une fa¸con g´en´erale l’estimation de θ de dimension 2 par la m´ethode des moments est la solution (suppos´ee exister et ˆetre unique pour toute r´ealisation du n-´echantillon al´eatoire) du syst`eme : μ(θ) = x ¯ . n μ2 (θ) = n1 i=1 x2i ¯ et 1 n X 2 donne l’estimateur de θ corresponCette solution appliqu´ee `a X i=1 i n dant. Du fait de la correspondance des formules de d´ecentrage pour les moments empiriques et pour les moments th´eoriques il est ´equivalent de r´esoudre : μ(θ) = x ¯ σ2 (θ) = s'2 o` u la deuxi`eme ´equation porte donc sur les moments centr´es d’ordre 2. Nous donnons maintenant une d´efinition formelle de l’estimateur des moments dans le cas g´en´eral o` u le param`etre est de dimension k quelconque. D´ efinition 6.2 Soit un ´echantillon al´eatoire (X1 , X2 , ..., Xn ) dont la loi m`ere appartient ` a une famille param´etrique de param`etre inconnu θ ∈ Θ, o` u Θ ⊆ Rk , et telle que pour tout θ ∈ Θ il existe un moment μk (θ) ` a l’ordre k. Si, pour ` k ´equations toute r´ealisation (x1 , x2 , ..., xn ) de (X1 , X2 , ..., Xn ) le syst`eme a ⎧ μ1 (θ) = m1 ⎪ ⎪ ⎨ μ2 (θ) = m2 ... ⎪ ⎪ ⎩ μk (θ) = mk n (o` u mr d´enote la r´ealisation du moment empirique d’ordre r : mr = n1 i=1 xri ) admet une solution unique, cette solution est appel´ee estimation des moments ` toute r´ealisation (x1 , x2 , ..., xn ) fait de θ. La fonction(de Rn dans Rk ) qui a correspondre cette solution d´efinit, en s’appliquant a ` (X1 , X2 , ..., Xn ), une statistique a ` valeurs dans Rk appel´ee estimateur des moments de θ.
6.5
Qualit´ es des estimateurs
Un des objectifs essentiels de la th´eorie de l’estimation, nous l’avons dit, est d’op´erer des choix parmi les diff´erents estimateurs auxquels on peut penser. Pour cela il est n´ecessaire de se donner des crit`eres de qualit´e pertinents. De ´ fa¸con g´en´erique nous noterons Tn l’estimateur de θ `a ´etudier. Etant donn´e que la valeur de θ est inconnue, nous souhaitons que le comportement de Tn soit satisfaisant quel que soit θ ∈ Θ, c’est-`a-dire quelle que soit la loi m`ere effective dans la famille param´etrique donn´ee, et les crit`eres de qualit´e seront a ´etudier comme des fonctions de θ. Les crit`eres d´efinis ci-apr`es, mis `a part `
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
99
l’exhaustivit´e (section 6.5.4), seront appliqu´es uniquement `a un param`etre de dimension 1 (Θ ⊆ R) et nous commenterons en section 6.6.4 les possibilit´es d’extension a` une dimension sup´erieure.
6.5.1
Biais d’un estimateur
D´ efinition 6.3 Soit une v.a. X de loi de densit´e (ou fonction de probabilit´e) f (x; θ) o` u θ ∈ Θ ⊆ R. Soit X1 , X2 ..., Xn un n-´echantillon issu de cette loi et Tn un estimateur de θ. On appelle biais de Tn pour θ la valeur : bθ (Tn ) = Eθ (Tn ) − θ. Si bθ (Tn ) = 0 quel que soit θ ∈ Θ, on dit que Tn est sans biais pour θ. Cette d´efinition s’´etend naturellement a` l’estimation d’une fonction h(θ). Le biais caract´erise donc l’´ecart entre la moyenne de Tn dans l’univers de tous les ´echantillons possibles et la valeur cible θ. Elle correspond a` la notion d’erreur syst´ematique pour un instrument de mesure. Notons que la moyenne de Tn , Eθ (Tn ), est indic´ee par θ pour rappeler qu’elle est li´ee `a la valeur inconnue de θ. Ceci sera vrai ´egalement plus loin pour la variance et l’erreur quadratique moyenne de Tn . Pour all´eger les ´ecritures, nous omettrons pourtant souvent cette indexation, notamment dans les illustrations. Exemple 6.4 Soit la famille des lois continues U [0, θ]. Montrons que n+1 n X(n) est sans biais pour θ. Nous avons vu en section 5.6 que, pour une loi de fonction de r´epartition F (x), la fonction de r´epartition du maximum de l’´echantillon X(n) est [F (x)]n . Dans la situation particuli`ere consid´er´ee F (x; θ) = xθ quand x ∈ [0, θ] et la densit´e de X(n) est donc : xn−1 1 x n−1 .n = n n si x ∈ [0, θ], θ θ θ d’o` u :
Eθ (X(n) ) =
θ
x.n 0
xn−1 n θn+1 n θ. dx = = n n θ n+1 θ n+1
Donc Eθ ( n+1 eressant de noter la pr´esence du n X(n) ) = θ quel que soit θ. Il est int´ qui, en quelque sorte, prend en compte l’´ecart entre le maximum facteur n+1 n observ´e et la borne sup´erieure des valeurs possibles.
Exemple 6.5 Consid´erons l’estimation des moments de la loi m`ere qui sont des fonctions de θ. Remarquons que le moment empirique d’ordre r est sans biais pour le moment th´eorique d’ordre r de la loi de X. En effet, par d´efinition, Eθ (X r ) = μr (θ) et donc, quel que soit θ, 1 r 1 1 Xi ) = Eθ (Xir ) = nμr (θ) = μr (θ). n i=1 n i=1 n n
Eθ (
n
Statistique − La th´eorie et ses applications
100
Ceci n’est pas vrai pour les moments centr´es. Ainsi pour r = 2 nous avons la 2 variance empirique S'2 pour laquelle (voir proposition 5.2) Eθ (S'2 ) = n−1 n σ (θ). Son biais est : n−1 2 1 Eθ (S'2 ) = σ (θ) − σ 2 (θ) = − σ 2 (θ). n n Ceci signifie, qu’en moyenne, la variance empirique sous-estime la variance de la loi ´etudi´ee. C’est pourquoi on lui pr´ef`ere la statistique 1 ¯ 2 (Xi − X) n − 1 i=1 n
S2 =
appel´ee conventionnellement «variance de l’´echantillon» qui est sans biais pour θ (voir section 5.2). Rappelons que cette sous-estimation s’explique par le fait que les ´ecarts sont mesur´es par rapport a` la moyenne mˆeme des valeurs et non par rapport a` la vraie moyenne μ(θ). Il est int´eressant de remarquer que ces propri´et´es des moments sont vraies pour toute loi m`ere (dans la mesure o` u les moments existent) ind´ependamment de tout cadre param´etrique. On dit que ce sont des propri´et´es non param´etriques (en anglais : distribution free) que nous d´evelopperons au chapitre 8.
6.5.2
Variance et erreur quadratique moyenne d’un estimateur
La variance Vθ (Tn ) de l’estimateur est un crit`ere important dans la mesure o` u elle caract´erise la dispersion des valeurs de Tn dans l’univers des ´echantillons possibles. Toutefois il s’agit de la dispersion autour de Eθ (Tn ) et non pas autour de θ. Pour prendre en compte l’´ecart par rapport a` θ on introduit le crit`ere d’erreur quadratique moyenne. D´ efinition 6.4 On appelle erreur quadratique moyenne de Tn par rapport a θ, la valeur, not´ee eqmθ (Tn ), d´efinie par : ` eqmθ (Tn ) = Eθ [(Tn − θ)2 ], et l’on a : eqmθ (Tn ) = [bθ (Tn )]2 + Vθ (Tn ). En effet : Eθ [(Tn − θ)2 ] = Eθ [{Tn − Eθ (Tn ) + Eθ (Tn ) − θ}2 ] = Eθ [{Tn − Eθ (Tn )}2 ] + [Eθ (Tn ) − θ]2 + 2Eθ [Tn − Eθ (Tn )][Eθ (Tn ) − θ] = Vθ (Tn ) + [bθ (Tn )]2
car Eθ [Tn − Eθ (Tn )] = 0.
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
101
Comme l’indique son nom ce crit`ere mesure la distance au carr´ e `a laquelle Tn se situe en moyenne par rapport `a θ. On peut faire l’analogie avec les impacts effectu´es par un tireur sur une cible (mˆeme si cela correspond plutˆot `a un param`etre de dimension 2). Le tireur cherche a` atteindre le centre de la cible mais ses impacts, au cours des r´ep´etitions («univers» de ses tirs), peuvent ˆetre syst´ematiquement d´ecal´es, c’est-`a-dire que le centre de ceux-ci n’est pas le centre de la cible. En revanche ses tirs peuvent ˆetre tr`es group´es (variance faible). Un autre tireur peut ˆetre bien centr´e (biais nul ou faible) mais avoir peu de r´egularit´e et donc une forte dispersion de ses tirs (variance ´elev´ee). Le choix du meilleur tireur d´epend de l’importance relative du d´ecalage syst´ematique et de la r´egularit´e. Le crit`ere d’erreur quadratique moyenne (en bref e.q.m.) n’est pas la panac´ee mais il est pr´ef´er´e parce qu’il s’exprime en fonction des notions simples de biais et de variance. D’autres crit`eres peuvent paraˆıtre tout aussi naturels, en particulier l’erreur absolue moyenne Eθ (|Tn − θ|), mais celle-ci est beaucoup plus difficile a` manipuler analytiquement. En adoptant le crit`ere d’e.q.m. pour juger de la pr´ecision d’un estimateur le probl`eme est de rechercher le meilleur estimateur au sens de ce crit`ere, ce qui nous conduit aux d´efinitions suivantes. D´ efinition 6.5 On dit que l’estimateur Tn1 domine l’estimateur Tn2 si pour tout θ ∈ Θ, eqmθ (Tn1 ) ≤eqmθ (Tn2 ), l’in´egalit´e ´etant stricte pour au moins une valeur de θ. L’id´eal serait de disposer d’un estimateur qui domine tous les autres. Or il n’existe pas en g´en´eral, d’estimateur d’e.q.m. minimale uniform´ement en θ. u θ0 Pour s’en convaincre consid´erons comme estimateur la v.a. certaine θ0 o` est l’une des valeurs possibles. Pour celui-ci l’e.q.m. en θ = θ0 est nulle alors que pour tout autre estimateur l’e.q.m. est strictement positive (au moins par sa variance s’il est v´eritablement al´eatoire ou par son biais s’il est certain). Cet estimateur particulier ne peut donc ˆetre domin´e. N´eanmoins, si un estimateur est domin´e par un autre estimateur, il n’est pas utile de le retenir. D´ efinition 6.6 On dit qu’un estimateur est admissible s’il n’existe aucun estimateur le dominant. Ainsi seule est `a prendre en compte la classe des estimateurs admissibles. A partir de l` a, plusieurs orientations de choix sont possibles, l’une des plus r´epandues ´etant de choisir l’estimateur pour lequel le maximum que peut atteindre l’e.q.m. sur Θ est le plus faible. D´ efinition 6.7 On dit que Tn∗ est minimax si pour tout autre estimateur Tn on a : sup eqmθ (Tn∗ ) ≤ sup eqmθ (Tn ). θ∈Θ
θ∈Θ
102
Statistique − La th´eorie et ses applications
Nous ne poursuivons pas ici la recherche d’estimateurs minimax et nous nous contenterons d’illustrer par deux exemples les propri´et´es de dominance et d’admissibilit´e. Exemple 6.6 Soit une loi m`ere N (μ, σ 2 ) et un ´echantillon de taille n > 1. 2 2 Montrons que, pour estimer σ 2 , S'2 = (n−1) n S domine S . Pour ce dernier le 2σ 4 biais est nul et la variance est n−1 (voir section 5.3). D’o` u: (n − 1)S 2 n−1 2 = σ E(S'2 ) = E n n (n − 1)2 2σ 4 2(n − 1)σ 4 (n − 1)S 2 = = V 2 n n n−1 n2 2 n−1 2 (n − 1)S 2 2(n − 1)σ4 = σ − σ2 + eqm n n n2 4 1 2(n − 1)σ (2n − 1)σ 4 = 2 σ4 + = . n n2 n2 La diff´erence eqm(S 2 ) − eqm(S'2 ) est donc : (3n − 1)σ 4 2σ 4 (2n − 1)σ 4 = − 2 n−1 n (n − 1)n2 qui est toujours positif. Par cons´equent S 2 n’est pas admissible. En fait S'2 introduit un biais, mais celui-ci (au carr´e) est compens´e par une variance plus faible. Notons que ceci n’est pas vrai pour toute loi m`ere (voir exercices). Exemple 6.7 Soit a` estimer le param`etre p d’une loi de Bernoulli (ou, en situation npratique, une proportion p par sondage dans une population). Soit Sn = i=1 Xi le total empirique ou fr´equence de succ`es observ´ee. Montrons que si p est au voisinage de 1/2 la statistique T = (Sn +1)/(n+2) est pr´ef´erable, au sens de l’e.q.m., a` la proportion empirique naturelle Sn /n pour estimer p. Comme Sn suit une loi B(n, p), on a E(Sn ) = np et V (Sn ) = np(1 − p). Pour la proportion empirique E(Sn /n) = p, le biais est donc nul et l’e.q.m. est ´egale `a p(1−p) . Pour le deuxi`eme estimateur T, on a : n E(T ) =
V (Sn ) np(1 − p) np + 1 et V (T ) = = n+2 (n + 2)2 (n + 2)2
d’o` u son e.q.m. : eqm(T ) =
2
np + 1 −p n+2
+
np(1 − p) (1 − 2p)2 + np(1 − p) = . 2 (n + 2) (n + 2)2
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
103
En faisant le rapport de cette e.q.m. a` celle de Sn /n on obtient : (1 − 2p)2 n n+ . (n + 2)2 p(1 − p) 2
n Or pour p = 12 ceci vaut (n+2) etant une fonction 2 < 1 et le rapport ci-dessus ´ continue de p dans ]0, 1[ , il reste strictement inf´erieur a` 1 dans un certain voisinage de 1/2. Un calcul plus approfondi montrerait que ce voisinage d´epend de n et est l’intervalle ) ) n+1 1 n+1 1 , + [ . ] − 2 2n + 1 2 2n + 1
En conclusion, aucun des deux estimateurs ne domine l’autre.
Dans ces deux exemples on constate que si l’on accepte un certain biais, des estimateurs apparemment naturels peuvent ˆetre moins performants au sens de l’e.q.m.. Toutefois de nombreux statisticiens privil´egient les estimateurs sans biais signifiant ainsi qu’ils ne consid`erent pas l’e.q.m. comme la panac´ee. Si l’on se restreint ` a la classe des estimateurs sans biais des r´esultats tangibles peuvent ˆetre obtenus dans la recherche de l’estimateur optimal et ceux-ci seront pr´esent´es en section 6.6.
6.5.3
Convergence d’un estimateur
Nous consid´erons ici la suite {Tn } de v.a. a` valeurs dans R lorsque la taille n de l’´echantillon s’accroˆıt `a l’infini, toujours avec Θ ⊆ R. Pour un estimateur digne de ce nom on s’attend `a ce qu’il se rapproche de plus en plus de θ quand n → ∞. C’est ce qu’exprime la notion de convergence. Formellement on dira que l’estimateur Tn est convergent selon un certain mode «m» si : «m»
Tn −→ θ n→∞
o` u «m» est `a remplacer par p, p.s ou m.q. respectivement pour la convergence ´ en probabilit´e, presque sˆ ure ou en moyenne quadratique. Etant donn´e qu’il y a convergence vers une constante, rappelons (voir section 5.8) que la convergence en loi est ´equivalente a` la convergence en probabilit´e. Pour Θ ⊆ Rk la convergence en probabilit´e, donc la convergence en loi, et la convergence presque sˆ ure s’entendent composante par composante. La convergence en moyenne quadratique se g´en´eralise avec la norme . euclidienne usuelle dans Rk . Nous ´enon¸cons tout d’abord une propri´et´e de convergence des moments empiriques de port´ee g´en´erale, d´epassant le cadre param´etrique et que nous reprendrons donc dans le cadre non param´etrique du chapitre 8. Proposition 6.1 Si, pour la loi m`ere, E(|X r |) existe, alors tous les moments empiriques jusqu’` a l’ordre r, simples ou centr´es, sont des estimateurs presque sˆ urement convergents des moments correspondants de la loi.
104
Statistique − La th´eorie et ses applications
Il est clair que si les conditions d’application de la loi forte des grands nombres selon le th´eor`eme 5.3 sont r´eunies pour la v.a. X r (r entier), alors le moment empirique Mr , comme moyenne des X1r , X2r , ..., Xnr , converge presque sˆ urement vers μr , moyenne de la loi de X r . Si nous nous en tenons `a l’´enonc´e de ce th´eor`eme, la condition est que la variance de la loi consid´er´ee existe, donc, pour la loi de X r , que E(X 2r ) existe. Dans la proposition ci-dessus nous avons indiqu´e une condition plus faible qui r´esulte d’une version de la loi forte des grands nombres due a` Kolmogorov. Les moments d’ordres inf´erieurs existant a fortiori, ils convergent ´egalement. Quant au moment centr´e Mk (k ≤ r), il converge en tant que fonction continue de M1 , M2 , ..., Mk et n´ecessairement vers μk qui s’exprime par la mˆeme fonction vis-`a-vis de μ1 , μ2 , ..., μk (voir la proposition 5.15 sur la convergence d’une fonction de v.a.). En particulier si E(X 2 ) existe ou, de fa¸con ´equivalente, si la variance de la loi m`ere existe, la variance empirique S'n2 converge presque sˆ urement vers la ¯ n converge vers sa moyenne). Au passage variance de cette loi (et a fortiori X notons que ceci vaut aussi pour la variance d’´echantillon Sn2 qui ne diff`ere de n . S'n2 que par le facteur n−1 Proposition 6.2 Soit une famille param´etrique de param`etre θ de dimension k telle que Eθ (|X k |) existe pour tout θ et qu’il existe un estimateur des moments pour θ. Si les k premiers moments μ1 (θ), ..., μk (θ) sont des fonctions continues de θ, alors cet estimateur est convergent presque sˆ urement. En effet en raison de l’hypoth`ese de continuit´e, la r´esolution du syst`eme d’´equations de la d´efinition 6.2 conduit a` un estimateur des moments qui s’exprime comme une fonction continue, de Rk dans Rk , des moments empiriques μ1 , μ2 , ..., μk . En vertu de la proposition 5.15 il converge donc vers la solution du u nous distinguons syst`eme μ1 (θ) = μ1 (θ0 ), μ2 (θ) = μ2 (θ0 ), ..., μk (θ) = μk (θ0 ) o` p.s. ici θ0 comme ´etant la vraie valeur de θ pour la loi m`ere (ainsi Mr −−→ μr (θ0 ) pour r = 1, ..., k). Du fait de l’unicit´e de solution en θ pour ce syst`eme, propre `a l’existence de l’estimateur des moments, cette solution ne peut ˆetre que θ0 . La convergence est une condition sine qua non pour qualifier une statistique d’estimateur et elle sera normalement v´erifi´ee pour les estimateurs naturels. Pour la loi de Cauchy g´en´eralis´ee de param`etre θ d´efinie par la densit´e : f (x; θ) =
1 , x ∈ R, π[1 + (x − θ)2 ]
(pour θ = 0, c’est la loi de Student `a 1 degr´e de libert´e) on a vu dans l’exemple 2.1 que la moyenne n’existe pas. On peut se poser la question de savoir comment se comporte alors la moyenne empirique. On montre (via la fonction caract´eristique des moments, comme propos´e dans un exercice du chapitre 5)
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
105
¯ suit en fait la mˆeme loi ! Elle ne converge donc pas vers θ. que la moyenne X En fait pour estimer θ il faut prendre la m´ediane de l’´echantillon, laquelle est convergente.
6.5.4
Exhaustivit´ e d’un estimateur
S’agissant d’estimer θ, certaines statistiques peuvent ˆetre exclues du fait qu’elles n’utilisent pas de fa¸con exhaustive toute l’information contenue dans l’´echantillon X1 , X2 , ..., Xn . A l’inverse on peut s’attendre a` ce qu’un «bon» estimateur soit une statistique qui ne retienne que ce qui est utile de l’´echantillon. Les notions d’exhaustivit´e et d’exhaustivit´e minimale viennent pr´eciser cela. Dans cette section Θ pourra ˆetre de dimension quelconque tout comme les statistiques consid´er´ees. D´ efinition 6.8 On dit que Tn est une statistique exhaustive pour θ ∈ Θ ⊆ Rk si la loi conditionnelle de (X1 , X2 , ..., Xn ) sachant Tn ne d´epend pas de θ. Exemple 6.8 Soit la v.a. X de loi continue uniforme sur [0, θ] o` u θ est inconnu. Ecrivons sa fonction de densit´e sous la forme : f (x; θ) =
1 I[0,θ] (x) θ
afin d’y int´egrer le fait que le support de cette densit´e est [0, θ], lequel d´epend donc de θ. Pour un ´echantillon de taille n la densit´e conjointe est (en rappelant que nous la notons ´egalement par f pour simplifier, voir section 5.2) : f (x1 , x2 , ..., xn ; θ) =
n $
f (xi ; θ)
i=1
=
n 1 $ I[0,θ] (xi ) θn i=1
=
1 I[0,∞[ (x(1) )I]−∞,θ] (x(n) ) θn
o` u x(1) = min{x1 , x2 , ..., xn } et x(n) = max{x1 , x2 , ..., xn }. D´eterminons la densit´e conditionnelle de X1 , X2 , ..., Xn sachant X(n) = t qui n’est d´efinie que si t ∈ [0 , θ]. Par extension a` plusieurs variables de l’expression vue en section 3.2, elle est ´egale au rapport de la densit´e conjointe de (X1 , X2 , ..., Xn , X(n) ) `a la densit´e marginale de X(n) . Or la densit´e conjointe de (X1 , X2 , ..., Xn , X(n) ) en un point quelconque (x1 , x2 , ..., xn , t) est ´egale `a la densit´e conjointe de (X1 , X2 , ..., Xn ) en (x1 , x2 , ..., xn ) si t = max{x1 , x2 , ..., xn } et 0 sinon, ce qui peut s’exprimer par la densit´e conjointe de l’´echantillon multipli´ee par un facteur s(x1 , x2 , ..., xn , t) valant 1 ou 0 ind´ependamment de θ. Par ailleurs nous
106
Statistique − La th´eorie et ses applications
avons vu dans l’exemple 6.4 que la densit´e de X(n) au point t ∈ [0, θ] vaut u la densit´e conditionnelle de X1 , X2 , ..., Xn sachant X(n) = t : ntn−1 /θn . D’o` (1/θn ) . I[0,+∞[ (x(1) ) . I]−∞,θ] (t) . s(x1 , x2 , ..., xn , t) ntn−1 /θn dans laquelle θ disparaˆıt puisque, n´ecessairement, t ∈ [0, θ] ce qui entraˆıne I]−∞,θ] (t) = 1. La valeur maximale de l’´echantillon est donc une statistique exhaustive pour l’estimation de θ. Intuitivement on sent bien que, θ devant ˆetre sup´erieur `a toute observation, la valeur maximale observ´ee dans l’´echantillon livre toute l’information utile quant a` la valeur possible de θ. Le mˆeme r´esultat peut ˆetre ´etabli, et attendu intuitivement, pour la loi discr`ete uniforme sur {0, 1, 2, ..., r}. Supposons qu’on ait dans une urne r jetons num´erot´es de 1 `a r o` u r est inconnu. On effectue n tirages (en principe avec remise) et l’on note les num´eros x1 , x2 , ..., xn tir´es. Il est clair que seul le num´ero maximal observ´e est pertinent pour estimer r. Dans cet exemple on a vu que le calcul de la densit´e conditionnelle est loin d’ˆetre imm´ediat. Le th´eor`eme suivant va nous simplifier la tˆ ache. Th´ eor` eme 6.1 Th´ eor` eme de factorisation. La statistique Tn = t(X1 , X2 , . . . , Xn ) est exhaustive pour θ si et seulement si la densit´e de probabilit´e (ou fonction de probabilit´e) conjointe s’´ecrit, pour tout (x1 , x2 , ..., xn ) ∈ Rn , sous la forme : f (x1 , x2 , ..., xn ; θ) = g(t(x1 , x2 , ..., xn ); θ) h(x1 , x2 , ..., xn ). Nous omettrons la d´emonstration de ce th´eor`eme que l’on trouvera dans des ouvrages plus avanc´es (avec d’ailleurs des conditions mineures de validit´e). Ce th´eor`eme indique que si, dans l’expression de la densit´e conjointe, θ entre uniquement dans un facteur contenant une certaine fonction de x1 , x2 , ..., xn alors cette fonction d´efinit une statistique exhaustive. Notons, pour m´emoire, que la notion d’exhaustivit´e et le th´eor`eme de factorisation reposent sur la densit´e conjointe seulement et, de ce fait, s’appliquent dans un cadre plus vaste que celui d’un ´echantillon al´eatoire. Reprenons l’exemple pr´ec´edent o` u: f (x1 , x2 , ..., xn ; θ) =
1 I]−∞,θ] (x(n) ).I[0,+∞[ (x(1) ). θn
On voit imm´ediatement et sans calculs que x(n) forme avec θ un facteur isol´e et, donc, que X(n) est exhaustive.
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
107
Exemple 6.9 Prenons le cas de la loi de Gauss N (μ, σ2 ) o` u le param`etre de dimension 2, (μ, σ2 ), est inconnu. On a : f (x1 , ..., xn ; μ, σ 2 ) =
n $
1 (xi − μ)2 1 exp{− }. 2 σ2 (2πσ 2 )1/2 i=1
En d´eveloppant (xi − μ)2 et en regroupant les termes du produit on obtient : n ! n 2 2μ i=1 xi 1 1 nμ2 2 i=1 xi exp − − + 2 f (x1 , ..., xn ; μ, σ ) = . 2 σ2 σ2 σ (2πσ 2 )n/2 n n n n Comme n’apparaissent que i=1 x2i et i=1 xi , le couple ( i=1 Xi , i=1 Xi2 ) est une statistique exhaustive. Notons qu’ici, et c’est souvent le cas, dans la factorisation la fonction h est r´eduite `a la constante 1. Les propositions ci-apr`es ¯ n , Sn2 ) est ´egalement exhaustive. Ceci signifie que dans le cas montrent que (X o` u le ph´enom`ene ´etudi´e peut ˆetre consid´er´e comme gaussien, on peut ne retenir de l’´echantillon observ´e que sa moyenne et sa variance. Cette pratique est tr`es r´epandue y compris en dehors du cadre gaussien ce qui peut signifier une perte d’information pour ce qui concerne l’estimation d’un param`etre inconnu. Proposition 6.3 Soit Tn une statistique exhaustive et Tn une statistique telle que Tn soit une fonction de Tn . Alors Tn est ´egalement exhaustive. Pour montrer cela, explicitons les fonctions en jeu avec Tn = u(Tn ) et Tn = u Tn = u(t (x1 , x2 , ..., xn )). Comme Tn est exhaustive la t (X1 , X2 , ..., Xn ), d’o` densit´e conjointe peut s’´ecrire :
f (x1 , x2 , ..., xn ; θ) = g(u(t (x1 , x2 , ..., xn )); θ) h(x1 , x2 , ..., xn ). Le premier facteur contenant θ d´epend des observations a` travers la fonction t (x1 , x2 , ..., xn ) qui d´efinit Tn laquelle est donc exhaustive. Proposition 6.4 Soit Tn une statistique exhaustive et Tn une statistique telle u r est une fonction bijective. Alors Tn est aussi exhaustive. que Tn = r(Tn ) o` Ceci r´esulte imm´ediatement du fait que l’on ait Tn = r −1 (Tn ) et que l’on puisse appliquer la proposition 6.3. La proposition 6.3 montre que la notion d’exhaustivit´e telle que nous l’avons d´efinie n’implique pas une r´eduction au minimum de l’information utile dans l’´echantillon pour estimer θ, mais une r´eduction suffisante (en anglais une statistique exhaustive est appel´ee sufficient statistic). Ainsi l’´echantillon dans son ensemble : (X1 , X2 , ..., Xn ), est une statistique ´evidemment exhaustive. Or, s’il s’agit d’estimer un param`etre de dimension k, on peut s’attendre (` a condition que le nombre d’observations n soit sup´erieur a` k, ce que nous supposerons implicitement) a` ce qu’une statistique exhaustive de dimension k procure un r´esum´e minimal de l’information. Toutefois la proposition 6.4 nous dit que
108
Statistique − La th´eorie et ses applications
celle-ci sera d´efinie `a une bijection pr`es. Ainsi pour la famille N (μ, σ2 ), la sta¯ n , Sn2 ) est sans doute minimale pour estimer (μ, σ 2 ). Nous tistique exhaustive (X pouvons d´efinir formellement la notion d’exhaustivit´e minimale de la fa¸con suivante. D´ efinition 6.9 On dit que la statistique Tn∗ est exhaustive minimale si elle est exhaustive et si, pour toute statistique exhaustive Tn , on peut trouver une fonction u telle que Tn∗ = u(Tn ). La recherche d’une statistique exhaustive minimale ne sera pas abord´ee ici. Toutefois nous pourrons admettre intuitivement que, si Θ ⊆ Rk , une statistique exhaustive ` a valeur dans Rk est en r` egle g´ en´ erale minimale. La mise en ´evidence d’une statistique exhaustive minimale est particuli`erement importante pour l’estimation. En effet une statistique qui contiendrait soit une partie seulement de l’information relative `a θ, soit une part superflue, ne saurait ˆetre consid´er´ee comme un estimateur ad´equat de θ. Nous ´enon¸cons donc le principe suivant : tout estimateur pertinent est fonction d’une statistique exhaustive minimale. Pour ce qui concerne la classe exponentielle (voir section 6.3) montrons qu’une telle statistique existe et est ais´ement identifiable. Proposition 6.5 Soit une loi m`ere appartenant ` a une famille param´etrique de la classe exponentielle, avec un param`etre de dimension k. Alors, dans les notations de la d´efinition 6.1, la statistique de dimension k : n n n d1 (Xi ), d2 (Xi ), ..., dk (Xi ) i=1
i=1
i=1
est exhaustive minimale pour le param`etre inconnu. Ceci r´esulte imm´ediatement du th´eor`eme de factorisation. En effet la densit´e (ou fonction de probabilit´e) conjointe f (x1 , x2 , ..., xn ; θ) peut s’´ecrire : " # n n n n $ $ n f (xi ; θ) = [a(θ)] b(xi ) exp c1 (θ) d1 (xi ) + · · · + ck (θ) dk (xi ) . i=1
i=1
i=1
i=1
Ainsi le tableau 6.1 nous livre directement les statistiques exhaustives minimales pour la plupart des lois usuelles. Exemple 6.10 Soit la loi de Bernoulli B(p). On peut ´ecrire sa fonction de probabilit´e : f (x; θ) = px (1 − p)1−x , x ∈ {0, 1} p }, f (x; θ) = (1 − p) exp{x. ln 1−p
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
109
qui r´epond a` la forme n de la classe exponentielle avec d(x) = x. On peut v´erifier directement que i=1 Xi est exhaustive, car la densit´e conjointe : n $
f (xi ; θ) = p
n
i=1
xi
n
(1 − p)n−
i=1
xi
i=1
ne d´epend que de
n
i=1
xi .
Pour les lois binomiale, binomiale n´egative, de Poisson, exponentielle et gamma avec un seul param`etre inconnu on a ´egalement d1 (x) = x, c’est-`a-dire ¯ est une statistique exhaustive minimale. L’imque ni=1 Xi ou, par bijection, X plication pratique de ce r´esultat est que les estimateurs pertinents du param`etre ¯ uniquement. concern´e sont a` rechercher parmi les fonctions de X n n Pour la loi de Gauss le tableau 6.1 indique que le couple ( i=1 Xi2 , i=1 Xi ) est exhaustif minimal ce qui corrobore le r´esultat trouv´e de mani`ere directe dans l’exemple 6.9. n donc i=1 ln Xi est exhaustive minimale Pour la loi de Pareto* d1 (x) = ln x, * n n et, celle-ci s’´ecrivant ln( i=1 Xi ) , i=1 Xi l’est aussi. n n Enfin pour la loi bˆeta le couple ( i=1 ln X* ln(1 − Xi )) est exhaustif i , i=1 * minimal pour (α, β), tout comme le couple ( ni=1 Xi , ni=1 (1 − Xi )). On peut montrer que pour la classe des densit´es (ou fonctions de probabilit´e) r´epondant a` certaines conditions dites conditions de r´ egularit´ e (pr´ecis´ees dans la note 6.1 ci-apr`es) une famille de loi dont le param`etre inconnu est de dimension k ne peut admettre une statistique exhaustive dans Rk que si elle appartient a` la classe exponentielle. Il y a donc ´ equivalence entre appartenance ` a la classe exponentielle et existence d’une statistique exhaustive de mˆ eme dimension que le param` etre inconnu. Ainsi la famille des lois de Weibull, par exemple, qui r´epond aux conditions ´enonc´ees ci-apr`es, mais qui n’est pas dans la classe exponentielle, n’admettra pas de statistique exhaustive de dimension 2. De fait, de par la forme de la densit´e : α f (x; α, λ) = αλxα−1 e−λx (x > 0), aucune factorisation (au sens du th´eor`eme de factorisation) faisant apparaˆıtre une fonction de x1 , x2 , ..., xn ` a valeurs dans Rp avec p < n n’est possible. Une statistique exhaustive minimale est donc de dimension n. Pour toute situation de ce type la statistique exhaustive minimale est, en fait, le vecteur des statistiques d’ordre (X(1) , X(2) , ..., X(n) ) et non pas (X1 , X2 , ..., Xn ) lui-mˆeme. En tout ´etat de cause aucun v´eritable r´esum´e n’est possible si l’on veut conserver toute l’information utile pour estimer (λ, α). Ceci est ´egalement vrai pour le param`etre (α, β) de la loi de Gumbel et, dans le cas discret, pour le param`etre M de la loi hyperg´eom´etrique, ces lois n’appartenant pas a` la classe exponentielle.
Statistique − La th´eorie et ses applications
110
Note 6.1 Conditions de r´egularit´e. Dans le cas d’une densit´e, des conditions suffisantes sont que f (x; θ) soit d´erivable deux fois par rapport a` x ` a l’int´erieur du support de f et d´erivable par rapport a` θ dans Θ (ou par rapport a` chacune de ses composantes si k > 1). Ceci est v´erifi´e pour les familles classiques dont les densit´es reposent toutes sur des fonctions math´ematiques d´erivables. Mais ceci exclut les familles dont le support d´ epend du param` etre inconnu. Prenons de nouveau la loi U[0 , θ] dont la densit´e est f (x; θ) = 1θ I[0,θ] (x). La pr´esence de la fonction indicatrice empˆeche la d´erivabilit´e par rapport a` θ en tout θ ∈ R+ . En effet, x ´etant fix´e, pour θ < x la densit´e vaut 0 et pour θ > x elle passe `a 1/θ. Elle est donc discontinue et a fortiori non d´erivable en θ = x. C’est pourquoi cette famille, quoique n’´etant pas dans la classe exponentielle, peut admettre toutefois une statistique exhaustive de dimension 1, a` savoir le maximum des Xi comme on l’a montr´e dans l’exemple 6.8. Pour conclure, la notion d’exhaustivit´e nous a permis de mettre en ´evidence, pour la plupart des lois usuelles, quelles sont les statistiques a` retenir qui, `a une fonction bijective pr`es, devraient d´eboucher sur des estimateurs pertinents pour θ. Nous nous tournons maintenant vers la classe des estimateurs sans biais o` u nous pourrons encore pr´eciser les choses et obtenir des r´esultats tangibles dans la recherche des meilleurs estimateurs.
6.6 6.6.1
Recherche des meilleurs estimateurs sans biais Estimateurs UMVUE
Si l’on privil´egie maintenant un estimateur sans biais l’objectif se ram`ene, pour le crit`ere de l’erreur quadratique moyenne, a` rechercher l’estimateur dont la variance, en l’occurrence la dispersion autour de θ lui-mˆeme, est minimale. Toutefois, comme θ est inconnu, cela n’a d’int´erˆet que si un tel estimateur domine tous les autres quel que soit θ ∈ Θ, c’est-`a-dire uniform´ement en θ. Il est possible qu’un tel estimateur n’existe pas, mais nous allons voir dans le cas de la dimension 1 qu’il existe effectivement et peut ˆetre mis en ´evidence pour la classe des familles exponentielles qui recouvre la plupart des lois usuelles. D´ efinition 6.10 On dit que l’estimateur Tn∗ est UMVUE pour θ (uniformly minimum variance unbiased estimator) s’il est sans biais pour θ et si pour tout autre estimateur Tn sans biais on a : Vθ (Tn∗ ) ≤ Vθ (Tn ) ,
pour tout θ ∈ Θ .
Nous adoptons ici le sigle anglais UMVUE utilis´e internationalement. Proposition 6.6 Si la famille de la loi m`ere appartient ` a la classe exponentielle avec param`etre de dimension 1 (Θ ⊆ R) et s’il existe une statistique
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
111
n fonction de la statistique exhaustive minimale i=1 d(Xi ) qui soit sans biais pour θ, alors elle est unique et elle est UMVUE pour θ. La d´emonstration de ce th´eor`eme d´epasse le cadre de cet ouvrage. Selon cette proposition, pour trouver nle meilleur estimateur, s’il existe, il suffit de rechercher la fonction de i=1 d(Xi ) qui soit sans biais pour θ, quel que soit θ ∈ Θ. L’existence d’un estimateur UMVUE est donc subordonn´ee `a celle d’une fonction de la statistique exhaustive minimale qui soit sans biais pour θ. Ce th´eor`eme vaut aussi pour estimer une fonction h(θ) de θ. Exemple 6.11 Soit `a estimer le param`etre λ > 0 de la loi exponentielle dont la densit´e est : f (x; λ) = λe−λx , si x ≥ 0 (0 sinon) . Pour cette famille (voir tableau 6.1) on exhaustive statistique na d(x) = x et la n minimale est, `a une bijection pr`es, i=1 Xi . Or E( i=1 Xi ) = nE(X) = n/λ et cette ´evidemment pas sans biais pour λ. Examinons nstatistique n’est ¯ dont on peut penser qu’elle fasse l’affaire puisque plutˆ ot n/ i=1 Xi = 1/X la moyenne de la loi est 1/λ (c’est l’estimateur par la m´ ethode des moments). n Calculons son esp´erance math´ematique en posant Tn = i=1 Xi . On sait (voir section 4.2.3) que Tn suit une loi Γ(n , λ) d’o` u, supposant n > 1 : E
1 Tn
+∞
1 λ (λt)n−1 e−λt dt t (n − 1)! 0 +∞ λ λ (λt)n−2 e−λt dt = n−1 0 (n − 2)! λ , = n−1 =
car on reconnaˆıt que l’expression int´egr´ee est la densit´e de la loi Γ(n − 1 , λ). Donc, en fait, il faut choisir (n−1)/Tn pour estimer λ sans n biais, un r´esultat qui n’est absolument pas intuitif. Par cons´equent (n − 1)/ i=1 Xi est l’estimateur UMVUE de λ. On ne peut en conclure directement qu’il domine en e.q.m. l’estimateur des moments, car celui-ci est biais´e. Toutefois, comme ce dernier vaut n/(n − 1) fois le premier sa variance est sup´erieure et il est effectivement domin´e. nPour la loi de Bernoulli la statistique exhaustive minimale est ´egalement etre p est la moyenne de la i=1 Xi (voir tableau 6.1) et comme le param` ¯ = p et X ¯ est l’estimateur UMVUE. Dans une situation de sondage loi, E(X) une proportion observ´ee dans l’´echantillon est UMVUE pour la proportion correspondante dans la population. ¯ le nombre moyen d’occurrences observ´ees par unit´e Pour la loi de Poisson X, de temps (ou de surface dans un probl`eme spatial), est ´egalement l’estimateur UMVUE pour λ.
112
Statistique − La th´eorie et ses applications
Pour la loi de Gauss, a` supposer que la variance σ 2 soit connue (une situation assez hypoth´etique mais souvent envisag´ee comme cas d’´ecole) on a encore ¯ est donc UMVUE. d(x) = x pour ce qui concerne l’estimation de μ et X Le cas de la loi Γ(r, λ), o` u seul λ est inconnu, est de mˆeme nature que celui de la loi E(λ). Pour la loi de Pareto avec seuil a connu on a d(x) = ln x et l’on montre que n (n − 1)/ i=1 ln(Xi /a) est UMVUE pour θ (voir exercices). Prenons encore un exemple utile en pratique, celui de la loi binomiale n´egative BN (r, p) o` u r est connu. En effet dans certaines situations on voudra estimer la probabilit´e de succ`es p dans un processus de Bernoulli en observant le nombre d’essais qu’il aura fallu effectuer jusqu’` a voir le r-i`eme succ`es (nous prendrons ci-apr`es la version de la loi binomiale n´egative o` u la v.a. est le nombre total d’essais, voir section 4.1.4). Exemple 6.12 Soit X qui suit la loi BN (r, p) avec r connu et p inconnu, de fonction de probabilit´e : x−1 r p (1 − p)x−r , x = r, r + 1, ... f (x; p) = x−r Elle appartient a` la classe exponentielle avec d(x) = x et ni=1 Xi est donc statistique exhaustive minimale. Toutefois comme E(X) = r/p, elle n’est ´evi¯ (estimateur demment pas sans biais pour p. L’intuition nous oriente vers r/X de la m´ethode des moments) mais le calcul montrerait que cette statistique n reste biais´ee. Nous allons voir qu’il faut prendre (nr − 1)/( i=1 Xi − 1) pour obtenir la statistique sans biais et donc UMVUE. n Remarquons tout d’abord que i=1 Xi correspond au nombre d’essais jusqu’`a atteindre le nr-i`eme succ`es, car il est licite de mettre les s´equences d’essais bout a` bout ´etant donn´e la nature du processus de Bernoulli. En cons´equence cette statistique suit une loi BN (nr, p). Le probl`eme `a plusieurs observations est donc identique au probl`eme `a une seule observation : il suffit de remplacer r par nr. D’ailleurs, en pratique, on n’effectuerait qu’une s´erie d’essais apr`es avoir choisi une valeur de r. Restons-en donc `a n = 1 et calculons ∞ r−1 (x − 1)! r−1 = pr (1 − p)x−r E X −1 x − 1 (x − r)!(r − 1)! x=r =p =p
∞
(x − 2)! pr−1 (1 − p)x−r (x − r)!(r − 2)!
x=r ∞
(t − 1)! pr−1 (1 − p)t−(r−1) (t − (r − 1))!(r − 2)! t=r−1
en posant t = x − 1. On reconnaˆıt dans la derni`ere sommation le terme g´en´eral de la loi BN (r − 1 , p), d’o` u E ((r − 1)/(X − 1)) = p, ce qui prouve que
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
113
(r −1)/(X −1) est l’estimateur recherch´e, un r´esultat que l’intuition ne pouvait laisser pr´evoir. Si, sur le plan th´eorique, le cas des familles de la classe exponentielle est r´esolu, la recherche est plus d´elicate pour d’autres familles comme les lois uniforme U[0, θ], Weibull, Gumbel et hyperg´eom´etrique. On montre cependant que pour les statistiques exhaustives minimales dites compl`etes - une propri´et´e, h´elas, g´en´eralement difficile a` v´erifier - la proposition 6.6 ´enonc´ee pour la classe exponentielle se g´en´eralise : une statistique exhaustive compl`ete qui est sans biais est UMVUE pour θ. Par ailleurs un th´eor`eme (dit de Rao-Blackwell) ´etablit, dans les conditions les plus g´en´erales, qu’` a partir d’une statistique sans biais quelconque on peut d´eduire une statistique sans biais qui domine la premi`ere en la conditionnant sur une statistique exhaustive. Ainsi, globalement, peut-on conclure qu’on aura toujours avantage a` rechercher une fonction d’une statistique exhaustive, minimale si possible, qui soit sans biais pour θ. Note 6.2 : Une statistique T est dite compl`ete pour θ s’il n’existe pas de fonction de T , mis `a part la fonction constante, dont l’esp´erance math´ematique soit ind´ependante de θ , donc : Eθ [g(T )] = c pour tout θ ∈ Θ ⇒ g(t) = c pour toute valeur possible t. Bien que la d´efinition ne concerne que l’esp´erance math´ematique il s’ensuit, en v´erit´e, qu’aucune fonction de T non constante ne peut avoir une loi ind´ependante de θ . Ceci n’est pas n´ecessairement vrai pour une statistique exhaustive minimale et le fait pour une statistique d’ˆetre compl`ete signifie une r´eduction encore plus forte de l’information utile. Aussi une statistique compl`ete est-elle a fortiori toujours exhaustive minimale. A titre d’illustration montrons que X(n) est compl`ete dans la famille U [0 , θ] et, X(n) est sans biais pour θ (voir exemple 6.4), cette fonction de X(n) est comme n+1 n donc n´ecessairement UMVUE. Nous avons vu dans l’exemple 6.4 que la densit´e de X(n) est f (t; θ) = ntn−1 θ −n pour θ ∈ Θ. Supposons qu’il existe g(X(n) ) telle que :
E[g(X(n) )] = ou :
θ 0
θ
g(t)ntn−1 θ −n dt = c pour tout θ > 0
0
[g(t) − c]ntn−1 θ−n dt = 0
⇐⇒
θ 0
[g(t) − c]tn−1 dt = 0.
En d´erivant par rapport ` a θ on obtient :
[g(θ) − c]θn−1 = 0 pour tout θ > 0 , ce qui implique g(θ) = c et X(n) est compl`ete. Ainsi, si l’on privil´egie le choix d’un estimateur sans biais, n+1 n X(n) est celui qu’il faut retenir.
114
6.6.2
Statistique − La th´eorie et ses applications
Estimation d’une fonction de θ et reparam´ etrisation
Comme nous en avons fait ´etat en section 6.2, il se peut que l’on souhaite estimer une fonction h(θ) qui corresponde `a une valeur caract´eristique particuli`erement int´eressante de la loi m`ere. Si cette fonction est bijective et deux fois d´erivable tous les r´esultats ci-dessus restent valables et le probl`eme reste de rechercher une fonction d’une statistique exhaustive minimale qui soit sans biais pour h(θ). On peut aussi consid´erer h(θ) comme une reparam´etrisation de la famille : posant ρ = h(θ) comme nouveau param`etre, il suffit de substituer h−1 (ρ) `a θ dans l’expression de f (x; θ). Exemple 6.13 Soit a` estimer e−λ , la probabilit´e qu’il n’y ait aucune occurrence dans une unit´e de temps donn´ee, pour une loi de Poisson. Sachant que n−1 T n est sans biais i=1 Xi = T est exhaustive minimale, montrons que n pour e−λ , rappelant que T suit une loi P(nλ). D’o` u: T t ∞ n−1 n − 1 e−nλ (nλ)t E = n n t! t=0 = e−nλ
∞ [(n − 1)λ]t t=0
t!
est le d´eveloppement en s´erie enti`ere de e(n−1)λ . qui est e−λ car la sommation n n−1 Xi i=1 En conclusion ( n ) est UMVUE pour e−λ .
6.6.3
Borne de Cramer-Rao et estimateurs efficaces
Sous certaines conditions de r´egularit´e, `a la fois pour la famille ´etudi´ee et pour l’estimateur sans biais consid´er´e, on peut montrer que sa variance ne peut descendre au-dessous d’un certain seuil qui est fonction de θ. Ce seuil, appel´e borne de Cramer-Rao, est intrins`eque `a la forme de la densit´e (ou de la fonction de probabilit´e) f (x; θ). L’int´erˆet de ce r´esultat est que, si l’on trouve un estimateur sans biais dont la variance atteint ce seuil, alors il est le meilleur possible (UMVUE) parmi les estimateurs sans biais «r´eguliers». Th´ eor` eme 6.2 (In´ egalit´ e de Cramer-Rao ou de Fr´echet). Soit T un estimateur sans biais pour θ de dimension 1. Sous certaines conditions de r´egularit´e on a n´ecessairement, pour tout θ ∈ Θ : Vθ (T ) ≥
1 , nI(θ)
o` u I(θ), appel´e information de Fisher, vaut : 2 ∂ ln f (X; θ) . I(θ) = Eθ ∂θ
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
115
Nous omettrons la d´emonstration de ce th´eor`eme. Si un estimateur sans biais pour θ atteint la borne de Cramer-Rao, on dit qu’il est efficace.
Note 6.3 Les conditions de r´egularit´e, dans le cas continu, sont les suivantes : - I(θ) existe pour tout θ ∈ Θ - la d´eriv´ee par rapport ` a θ d’une int´egrale sur la densit´e conjointe
···
f (x1 , x2 , ..., xn ; θ)dx1 dx2 · · · dxn
peut s’obtenir en d´erivant ` a l’int´erieur de l’int´egrale a l’int´erieur de - la d´eriv´ee par rapport a ` θ de Eθ (T ) peut s’obtenir en d´erivant ` l’int´egrale correspondante - le support de f (x; θ) est ind´ependant de θ. Dans le cas discret les conditions portent sur les sommations en lieu et place des int´egrations.
Avant d’illustrer cette in´egalit´e de Cramer-Rao montrons succinctement que I(θ) peut aussi se calculer selon : 2 ∂ I(θ) = −Eθ ln f (X; θ) , ∂θ2 ce qui facilitera g´en´eralement les calculs (toutefois cela suppose bien sˆ ur que cette expression existe, mais aussi que l’on puisse d´eriver deux fois sous le signe somme comme dans la d´emonstration qui suit). Nous nous restreindrons au cas o` u f est une densit´e. D´emonstration. Posons : U= On a : Eθ (U ) =
R
∂ f (x; θ) ∂θ
f (x; θ)
∂ f (X; θ) ∂ ln f (X; θ) = ∂θ . ∂θ f (X; θ)
f (x; θ)dx = R
∂ ∂ f (x; θ)dx = ∂θ ∂θ
f (x; θ)dx = 0 R
puisque cette int´egrale est ´egale `a la constante 1. De plus : ∂2 f (x; θ).f (x; θ) ∂θ 2
∂ − [ ∂θ f (x; θ)]2 [f (x; θ]2 2 ∂2 ∂ ∂θ 2 f (x; θ) ∂θ f (x; θ = , − f (x; θ) f (x; θ)
∂2 ln f (x; θ) = ∂θ2
116
Statistique − La th´eorie et ses applications
d’o` u : Eθ
2 ∂ ∂2 ∂θ 2 f (X; θ) ln f (X; θ) = Eθ − Eθ U 2 . 2 ∂θ f (X; θ)
Or : Eθ
∂2 ∂θ 2 f (X; θ)
f (X; θ)
= R
∂2 ∂2 f (x; θ)dx = 2 2 ∂θ ∂θ
f (x; θ)dx = 0, R
ce qui d´emontre la relation.
L’expression de l’information de Fisher pour certaines lois de la classe exponentielle est donn´ee dans le tableau 6.1 de la section 6.3. Exemple 6.14 Soit `a estimer le param`etre λ dans la famille des lois E(λ) de densit´es f (x; λ) = λe−λx pour x ≥ 0. D´eterminons la borne de Cramer-Rao. On a : ln f (x; λ) = ln λ − λx ∂ 1 ln f (x; λ) = − x, ∂λ λ 1 ∂2 ln f (x; λ) = − 2 . 2 ∂λ λ D’o` u:
I(λ) = E
1 λ2
=
1 λ2
et la borne de Cramer-Rao est donc ´egale `a λ2 /n. Dans l’exemple 6.11 on a vu que (n − 1)/ ni=1 Xi est UMVUE pour λ. Par le mˆeme type d’argument que pour le calcul de l’esp´erance de cet estimateur effectu´e alors dans cet exemple, on montre (en supposant n > 2) que sa variance est : λ2 λ2 n−1 = > . V n n−2 n i=1 Xi Comme il s’agit l`a du meilleur estimateur possible, la borne de Cramer-Rao n’est donc pas atteignable : il n’existe pas d’estimateur efficace pour λ. Le probl`eme qui se pose est de savoir si et quand il existe un estimateur sans biais pour θ, ou ´eventuellement pour une fonction h(θ) qui atteigne la borne de Cramer-Rao. La proposition 6.7 apportera la r´eponse, mais pour bien la comprendre il n’est pas inutile de voir au pr´ealable les implications d’une
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
117
reparam´etrisation de la famille ´etudi´ee. Consid´erons donc un changement de param`etre ρ = h(θ) qui ne remette pas en cause les conditions de r´egularit´e. 1 . Montrons Pour un estimateur sans biais de ρ la variance est born´ee par nI(ρ) que I(ρ) peut se d´eduire ais´ement de I(θ). En notant simplement par f (x; ρ) la densit´e (ou fonction de probabilit´e) reparam´etris´ee avec ρ, on a : ∂ dθ ∂ 1 ∂ ln f (x; ρ) = ln f (x; θ) = ln f (x; θ) , ∂ρ ∂θ dρ ∂θ h (θ) d’o` u : I(ρ) = Eρ
2 2 ∂ 1 ∂ I(θ) ln f (X; ρ) ln f (X; θ) Eθ , = = ∂ρ [h (θ)]2 ∂θ [h (θ)]2
o` u θ doit ˆetre remplac´e par h−1 (ρ). En d’autres termes, la borne de Cramer-Rao pour estimer h(θ) est : [h (θ)]2 . nI(θ) Proposition 6.7 La borne de Cramer-Rao n’est atteinte que : - si la famille de lois est dans la classe exponentielle - et pour l’estimation n d’une fonction de reparam´etrisation particuli`ere de θ, a savoir h(θ) = Eθ ( i=1 d(Xi )) . ` Nous admettrons cette proposition. Ainsi il n’existe qu’une fonction de θ qui puisse ˆetre estim´ee de fa¸con «efficace». Pour d´ eterminer cette fonc tion il suffit de calculer l’esp´erance math´ematique de ni=1 d(Xi ) qui en est donc l’estimateur efficace. En r´ealit´e, pour ˆetre plus pr´ecis, cette fonction est d´e finie `a une transformation lin´eaire pr`es, ah(θ) + b ´etant estim´e sans biais par n a i=1 d(Xi ) + b. Cette proposition montre que, malgr´e tout, le r´esultat de Cramer-Rao est d’un int´erˆet limit´e. Exemple 6.15 (suite de l’exemple 6.14) Pour la loi exponentielle la borne de Cramer-Rao ne peut la fonction de λ pour ˆetre atteinte que pour estimer laquelle ni=1 d(Xi ) = ni=1 Xi est sans biais, a` savoir E( ni=1 Xi ) = nE(X) = n ¯ . En reparam´etrant avec θ = h(λ) = λ1 , θ est alors la moyenne de la loi et X λ est l’estimateur qui atteint la borne de Cramer-Rao pour θ. Celle-ci est : [h (λ)]2 θ2 (−1/λ2 )2 1 = . = = 2 2 nI(λ) n(1/λ ) nλ n ¯ = On v´erifie directement que V (X) variance de la loi.
1 nV
(X) =
θ2 n
puisque θ 2 =
1 λ2
est la
118
Statistique − La th´eorie et ses applications
Pour la loi de Bernoulli et la loi de Poisson o` u l’on a ´egalement d(x) = x, ¯ estime «efficacement» les param`etres respectifs p et λ qui sont la moyenne X les moyennes th´eoriques. Pour la loi BN (r, p) avec r connu, on a ´egalement d(x) = x. La fonction n ou, plus de p qui est estim´ee efficacement est donc E( i=1 Xi ) = nr(1−p) p r(1−p) ¯ simplement, E(X) = p . n ln Xi estime Pour la loi de Pareto (a connu, θ inconnu), d(x) = ln x et i=1 sans biais nθ + n ln a (voir exercices) ou, de fa¸con ´equivalente, n1 ni=1 ln( Xai ) estime sans biais 1θ , de fa¸con efficace. Ces deux derniers cas illustrent l’importance tr`es relative de la notion d’efficacit´e dans la mesure o` u elle est r´ealis´ee pour des fonctions du param`etre ne pr´esentant pas n´ecessairement un int´erˆet central.
6.6.4
Extension ` a un param` etre de dimension k > 1
Evacuons tout d’abord le cas o` u l’on s’int´eresse `a une fonction h(θ) `a valeurs dans R. En effet les notions de biais, de convergence, d’erreur quadratique, d’estimateur UMVUE restent valables. Il faut cependant noter que les qualit´es de sans biais ou de variance minimale doivent ˆetre v´erifi´ees pour tout θ ∈ Θ ⊆ Rk , ce qui peut poser probl`eme. On peut, par exemple, vouloir esti2 mer le quantile d’ordre 0,95 de u (μ, σ 2 ) est inconnu, soit la √ la loi N (μ, σ ) o` fonction g(μ, σ 2 ) = μ + 1, 645 σ 2 . Les qualit´es d’un estimateur doivent alors ˆetre examin´ees quel que soit le couple (μ, σ 2 ). Nous consid´erons ici l’estimation simultan´ ee de toutes les composantes θ1 , θ2 , ..., θk de θ. Le crit`ere d’exhaustivit´e a d´ej`a ´et´e trait´e avec k > 1. De mˆeme la g´en´eralisation de la notion de convergence a ´et´e ´evoqu´ee en section 6.5.3. Un estimateur T = (T1 , T2 , ..., Tk ) ´etant un vecteur al´eatoire dans Rk le biais est naturellement d´efini par le vecteur Eθ (T )−θ de composantes Eθ (T1 )− θ1 , ..., Eθ (Tk )−θk (voir l’esp´erance math´ematique d’un vecteur al´eatoire en section 3.8). Pour ce qui concerne l’extension de la notion de variance nous pouk vons prendre la somme des variances des composantes j=1 Vθ (Tj ), le crit`ere u . est la norme euclid’´ecart quadratique correspondant ´etant T − θ2 o` dienne usuelle dans Rk . En effet l’e.q.m. devient : ⎛ ⎞ k k Eθ (T − θ2 ) = Eθ ⎝ (Tj − θj )2 ⎠ = Eθ ([Tj − θj ]2 ) j=1
=
k j=1
(Eθ (Tj ) − θj )2 +
j=1 k
Vθ (Tj )
j=1
o` u le premier terme est le carr´e de la norme du vecteur des biais et le deuxi`eme la variance globale retenue.
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
119
Toutefois ce crit`ere pr´esente deux inconv´enients majeurs. Le premier est qu’il est sensible aux diff´erences d’´echelle entre les composantes. Ceci peut ˆetre att´enu´e en introduisant des pond´erations de r´eduction de ces ´echelles. Le deuxi`eme est qu’il ne tient pas compte des covariances existant g´en´eralement entre les composantes Tj du fait que ces Tj sont des statistiques fonctions des mˆemes observations X1 , X2 , ..., Xn . Il est donc pr´ef´erable d’utiliser une notion de dispersion fond´ee sur la matrice des variances-covariances Vθ (T ) du vecteur al´eatoire T (voir section 3.8). La plus r´epandue est celle du d´eterminant de cette matrice, lequel mesure `a un facteur de proportionnalit´e pr`es le volume d’ellipso¨ıdes de concentration autour du point moyen Eθ (T ) dans Rk . Avec ce crit`ere on a un r´esultat analogue a` la proposition 6.6 : si la famille appartient a` la classe exponentielle et s’il existe un estimateur fonction du vecteur des statistiques exhaustives minimales n
d1 (Xi ),
i=1
n
d2 (Xi ), ...,
i=1
n
dk (Xi )
i=1
qui soit sans biais pour θ, alors il minimise ce crit`ere uniform´ement en θ parmi les estimateurs sans biais. En fait il minimise ´egalement le crit`ere de la somme simple (et mˆeme pond´er´ee) des variances kj=1 Vθ (Tj ). De plus il fournit l’estimateur UMVUE pour chaque composante θj prise isol´ement. En r`egle g´en´erale on aura avantage, comme pour k = 1, a` rechercher une statistique vectorielle qui soit fonction des statistiques exhaustives minimales et qui soit sans biais pour θ. u (μ, σ 2 ) est Exemple 6.16 Soit la famille N (μ, σ 2 ) o` inconnu, appartenant `a la classe exponentielle. La statistique ( ni=1 Xi , ni=1 Xi2 ) est exhaustive ¯ S 2 ), laquelle est sans biais pour (μ, σ2 ) (voir exemple minimale tout comme (X, 2 ¯ 6.9). (X, S ) est donc l’estimateur qui, parmi tous les estimateurs sans biais, a le d´eterminant de sa matrice des variances-covariances le plus faible, quel que ¯ = σ 2 /n, V (S 2 ) = 2σ 4 /(n − 1) soit (μ, σ 2 ). On a vu au chapitre 5 que V (X) 2 ¯ ainsi que l’ind´ependance de X et S . Ce d´eterminant est donc : det
σ2 n
0
0 4
2σ n−1
=
2σ 6 . n(n − 1)
¯ est UMVUE pour μ et S 2 est UMVUE pour σ 2 . De plus X
Exemple 6.17 Soit la famille U[a, b], o` u (a, b) est inconnu, qui n’appartient pas `a la classe exponentielle. On d´emontre que (X(1) , X(n) ) est exhaustive minimale (et compl`ete). A partir des densit´es de X(1) et X(n) on ´etablit ais´ement
120
Statistique − La th´eorie et ses applications
les deux ´equations suivantes : ⎧ ⎪ ⎪ ⎪ E(X(1) ) ⎨ ⎪ ⎪ ⎪ ⎩ E(X(n) )
=a+
b−a n+1
b−a =b− n+1
.
Pour trouver la fonction dans R2 sans biais pour (a, b) il suffit de r´esoudre ce syst`eme d’´equations en a et b. La solution ´etant ⎧ nE(X(1) ) − E(X(n) ) ⎪ ⎪ ⎪ ⎨ a = n−1 ⎪ ⎪ ⎪ ⎩ b
nE(X(n) ) − E(X(1) ) n−1
nX(1) −X(n) nX(n) −X(1) , est sans biais pour (a, b) et donc optimal au le couple n−1 n−1 mˆeme sens que dans l’exemple pr´ec´edent. =
Pour finir d´ecrivons la g´en´eralisation de l’in´egalit´e de Cramer-Rao pour k > 1. On introduit la matrice d’information I(θ) sym´etrique d’ordre k dont l’´el´ement en position (i, j) est : ∂ ∂ ln f (X; θ) ln f (X; θ) , Eθ ∂θi ∂θj moyennant les mˆemes types de conditions de r´egularit´e que k = 1. On + pour , 2 montre que cet ´el´ement peut aussi se calculer par −Eθ ∂θ∂i ∂θj ln f (X; θ) . Alors, pour tout estimateur sans biais T , la variance de toute combinaison u u est un vecteur quelconque de Rk , reste lin´eaire ut T des composantes de T , o` −1 t [I(θ)] sup´erieure ou ´egale `a u u. Sachant que Vθ (ut T ) = ut Vθ (T )u o` u Vθ (T ) n est la matrice des variances-covariances de la statistique T (voir section 3.8), il est ´equivalent de dire que Vθ (T ) − n1 [I(θ)]−1 est une matrice semi-d´efinie positive, ce que l’on note Vθ (T ) ≥ n1 [I(θ)]−1 , quel que soit θ. u (μ, σ 2 ) est inconnu. On a, Exemple 6.18 Prenons le cas de la loi N (μ, σ 2 ) o` 2 en posant v = σ : ! 1 1 f (x; μ, v) = √ exp − (x − μ)2 2v 2πv 1 1 1 ln f (x; μ, v) = − ln(2π) − ln v − (x − μ)2 2 2 2v ∂ 1 ∂ 1 (x − μ)2 ln f (x; μ, v) = (x − μ) ln f (x; μ, v) = − + . ∂μ v ∂v 2v 2v2
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
121
En position (1,1) de la matrice I(μ, σ 2 ) on trouve : 1 1 1 1 2 E 2 (X − μ) = 2 v = = 2 , v v v σ
et en position (2,2) : E
(X − μ)2 1 − + 2v 2v2
2
1 (X − μ)2 (X − μ)4 =E − + 4v 2 2v 3 4v 4 =
1 v 3v 2 1 1 − + = 2 = 2 3 4 4v 2v 4v 2v 2σ 4
sachant que E (X − μ)4 = 3σ4 . En position (1,2) ou (2,1) on a : E
1 1 (X − μ)2 ) =0 (X − μ)(− + v 2v 2v 2
car cette expression ne contient que des moments centr´es d’ordre impair. D’o` u: I(μ, σ ) = 2
1 σ2
0
0 1 2σ 4
et
−1
I(μ, σ 2 ) n
=
σ2 n
0
0 2σ 4 n
.
Cette matrice est pr´ecis´ement la matrice des variances-covariances du couple ¯ S 2 ) qui est donc non seulement optimal au sens vu dans l’exemple 6.16 (X, mais, de plus, «efficace» pour estimer (μ, σ 2 ).
6.7
L’estimation par la m´ ethode du maximum de vraisemblance
Nous abordons maintenant deux m´ethodes g´en´erales qui, comme la m´ethode des moments vue en section 6.4, apportent des solutions dans des situations vari´ees : l’approche par le maximum de vraisemblance et l’approche bay´esienne. Nous commen¸cons par celle du maximum de vraisemblance qui est la plus universelle (y compris pour des mod`eles complexes) pour deux raisons : 1. Elle est facile `a mettre en oeuvre, se ramenant `a un probl`eme classique de r´esolution num´erique. 2. Elle est optimale et mˆeme «efficace» asymptotiquement, i.e. quand la taille de l’´echantillon tend vers l’infini. D’un point de vue pratique, pour un ´echantillon suffisamment grand (disons n > 30 pour fixer les id´ees), elle fournit des estimateurs de tr`es bonne qualit´e.
Statistique − La th´eorie et ses applications
122
6.7.1
D´ efinitions
D´ efinition 6.11 Soit un ´echantillon al´eatoire (X1 , X2 , ..., Xn ) dont la loi m`ere appartient a ` une famille param´etrique de densit´es (ou fonctions de probabilit´e) {f (x; θ) , θ ∈ Θ} o` u Θ ⊆ Rk . On appelle fonction de vraisemblance de θ pour une r´ealisation donn´ee (x1 , x2 , ..., xn ) de l’´echantillon, la fonction de θ : L(θ; x1 , x2 , ..., xn ) = f (x1 , x2 , ..., xn , θ) =
n $
f (xi , θ).
i=1
L’expression de la fonction de vraisemblance est donc la mˆeme que celle de la densit´e (ou fonction de probabilit´e) conjointe mais le point de vue est diff´erent. Ici les valeurs x1 , x2 , ..., xn sont fix´ees (ce seront les valeurs effectivement observ´ees) et on s’int´eresse `a la fa¸con dont varie la valeur de la densit´e (ou fonction de probabilit´e) associ´ee `a une s´erie d’observations donn´ee suivant les diff´erentes valeurs de θ. Dans le cas discret il s’agit directement de la probabilit´e Pθ (X1 = x1 , X2 = x2 , ..., Xn = xn ). S’il n’y a pas d’ambiguit´e possible, on notera la fonction de vraisemblance simplement L(θ). On dira que la valeur θ1 de θ est plus vraisemblable que la valeur θ2 si L(θ1 ) > L(θ2 ). En ce sens il devient naturel de choisir pour θ la valeur la plus vraisemblable, disons θM V , c’est-`a-dire telle que la loi f (x; θM V ) correspondante conf`ere la plus forte probabilit´e (ou densit´e de probabilit´e) aux observations relev´ees. D´ efinition 6.12 On appelle estimation du maximum de vraisemblance une valeur θˆM V , s’il en existe une, telle que : L(θˆM V ) = sup L(θ). θ∈Θ
Une telle solution est fonction de (x1 , x2 , ..., xn ), soit θˆM V = h(x1 , x2 , ..., xn ). Cette fonction h induit la statistique (not´ee abusivement, mais commod´ement, avec le mˆeme symbole que l’estimation) θˆM V = h(X1 , X2 , ..., Xn ) appel´ee estimateur du maximum de vraisemblance (EMV). Cette d´efinition appelle quelques remarques : – θˆM V est une fonction de Rn dans Rk , associant `a tout ´echantillon particulier une valeur particuli`ere de θ ; – g´en´eralement l’EMV existe et il est unique, i.e. quel que soit (x1 , x2 , ..., xn ) il y a un et un seul maximum pour L(θ). On verra cependant dans l’exemple 6.22 un cas o` u il y a plusieurs solutions ; – la d´efinition de l’EMV s’´etend `a des variables al´eatoires non i.i.d. car elle ne repose que sur la notion de densit´e (fonction de probabilit´e) conjointe. Elle s’´etend mˆeme dans un cadre non param´etrique (voir section 8.5.3) ;
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
123
– une fois la r´ealisation (x1 , x2 , ..., xn ) observ´ee, l’estimation est facilement obtenue, y compris pour des situations complexes. Il suffit d’utiliser un algorithme de maximisation num´erique comme on en trouve dans tous les logiciels math´ematiques. Quand les densit´es (fonctions de probabilit´e) conjointes sont des produits de fonctions puissances et exponentielles, ce qui est le cas la plupart du temps, on a plutˆ ot int´erˆet `a maximiser ln L(θ), appel´ee log-vraisemblance, ce qui est ´equivalent puisque la fonction logarithmique est strictement croissante. Dans les cas «r´eguliers» o` u L(θ) est continˆ ument d´erivable et le support pour la famille de lois consid´er´ee est ind´ependant de θ, l’estimation par le maximum de vraisemblance (MV) v´erifie (pour Θ ⊆ R) :
ou ou
∂ ln L(θ) = 0 ∂θ n $ ∂ ln f (xi , θ) = 0 ∂θ i=1 n ∂ ln f (xi , θ) = 0. ∂θ i=1
Cette derni`ere ´egalit´e s’appelle l’´equation de vraisemblance. Dans le cas o` u θ poss`ede k dimensions (θ1 , θ2 , ..., θk ), on r´esout un syst`eme de k ´equations obtenues en d´erivant par rapport a` chacune des composantes. Math´ematiquement, le fait d’ˆetre solution de l’´equation (ou du syst`eme d’´equations) de vraisemblance n’est pas une condition suffisante pour ˆetre un maximum. Toutefois ´etant donn´e que L(θ) admet une borne sup´erieure en tant que probabilit´e (cas discret) mais aussi, g´en´eralement, en tant que densit´e de probabilit´e (cas continu), et qu’elle est le plus souvent concave, l’´equation admettra une solution unique qui sera alors n´ecessairement un maximum. Dans les exemples, pour all´eger l’expos´e, nous n’examinerons pas dans le d´etail si la solution de l’´equation (ou du syst`eme d’´equations) correspond effectivement `a un maximum.
6.7.2
Exemples et propri´ et´ es
Exemple 6.19 Soit la famille de Pareto o` u a > 0 est connu et θ est inconnu. On a : f (x; θ) = θaθ x−(θ+1) , si x ≥ a et θ > 0 ln f (x; θ) = ln θ + θ ln a − (θ + 1) ln x 1 ∂ ln f (x; θ) = + ln a − ln x. ∂θ θ L’´equation de vraisemblance s’´ecrit : n n + n ln a − ln xi = 0 θ i=1
n xi − ln( ) = 0 θ i=1 a n
ou
124
Statistique − La th´eorie et ses applications
d’o` u l’estimation : et l’EMV :
n
xi −1 θˆM V = n i=1 ln( a ) n
Xi −1 θˆM V = n . i=1 ln( a )
u (μ, σ 2 ) est inconnu. On a, en posant Exemple 6.20 Soit la famille N (μ, σ 2 ) o` v = σ2 , 1 1 exp{− (x − μ)2 } f (x, μ, v) = √ 2v 2πv 1 1 1 ln f (x; μ, v) = − ln(2π) − ln v − (x − μ)2 . 2 2 2v En d´erivant par rapport a` μ d’une part et par rapport a` v d’autre part, puis en rempla¸cant x par xi et en sommant sur i = 1, ..., n, on obtient le syst`eme d’´equations de vraisemblance : ⎧ n xi − μ ⎪ ⎪ =0 ⎪ ⎨ v i=1
n ⎪ 1 n ⎪ ⎪ (xi − μ)2 = 0 ⎩ − + 2 v v i=1
d’o` u la solution μ ˆ=x ¯ et vˆ = 2 ¯ ' est donc (X, S ).
1 n
n
i=1 (xi
−x ¯)2 . L’EMV du param`etre (μ, σ 2 )
On constate sur ce dernier exemple que l’EMV peut avoir un biais. Dans les deux exemples il ne d´epend que des statistiques exhaustives minimales, ce qui est une propri´et´e g´en´erale. Proposition 6.8 Si T est une statistique exhaustive pour θ alors θˆM V , s’il existe, est fonction de T . Ceci r´esulte imm´ediatement du th´eor`eme de factorisation. Si la statistique T = t(X1 , X2 , ..., Xn ) est exhaustive, alors la densit´e (fonction de probabilit´e) conjointe est de la forme : g(t(x1 , x2 , ..., xn ), θ) h(x1 , x2 , ..., xn ) . La maximisation vis-`a-vis de θ ne concerne que la fonction g et la solution ne d´epend donc des observations qu’` a travers la fonction t. Cette proposition est vraie pour toute statistique exhaustive et en particulier pour une statistique exhaustive minimale. Remarquons que, bien que tr`es int´eressante, cette propri´et´e n’entraˆıne pas que l’EMV soit UMVUE car, nous l’avons vu, il peut ˆetre biais´e. La proposition suivante, que nous admettrons, montre l’int´erˆet de l’EMV dans le cas o` u il existe un estimateur efficace (pour Θ ⊆ R).
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
125
Proposition 6.9 Si la famille de lois consid´er´ee r´epond ` a certaines conditions de r´egularit´e et si elle admet un estimateur sans biais efficace pour θ, alors l’EMV existe et est cet estimateur. Les conditions sont analogues `a celles du th´eor`eme 6.2 auxquelles s’ajoute le fait que L(θ) admette une d´eriv´ee seconde continue. On pourra v´erifier que ¯ pour le param`etre λ de la loi de Poisson et pour le param`etre l’EMV est X p de la loi de Bernoulli. Pour la loi exponentielle cela est v´erifi´e pour la reparam´etrisation θ = 1/λ. Prenons maintenant deux exemples de cas non r´eguliers. Exemple 6.21 Soit la famille de loi U[0, θ]. Reprenant l’exemple 6.8 on voit que la fonction de vraisemblance est : L(θ) =
1 I[0,+∞[ (x(1) ).I]−∞,θ] (x(n) ) . θn
Elle contient 1/θ n qui est une fonction d´ecroissante de θ, mais a` partir du moment o` u I]−∞,θ] (x(n) ) = 1, c’est-`a-dire θ ≥ x(n) . Par cons´equent, le maximum est atteint pour θ = x(n) , puisque pour θ < x(n) la fonction de vraisemblance est nulle. L’EMV est donc X(n) . Nous avons vu (voir note 6.2) que l’estimateur X(n) . L EMV en est proche, mais il est l´eg`erement biais´e (si UMVUE est n+1 n n n’est pas trop petit). Il est beaucoup plus pertinent que celui de la m´ethode ¯ = θˆM , soit θˆM = 2X, ¯ qui ne repose pas sur une des moments obtenu par X 2 statistique exhaustive et est intuitivement peu convaincant (voir exercices). Exemple 6.22 Consid´erons la loi de Laplace, ou loi exponentielle double (voir exercices du chapitre 2), de densit´e : f (x; μ) =
1 −|x−μ| e pour x ∈ R . 2
Nous ne sommes pas ici dans un cas r´egulier car cette densit´e n’est pas d´erivable quand x = μ. La fonction de vraisemblance : L(μ) =
1 − ni=1 |xi −μ| e 2n
n’est donc pas d´erivable par rapport a` μ pour μ = x1 , μ = x2 , ..., μ = xn . Consid´erons la log-vraisemblance : ln L(μ) = −n ln 2 −
n
|xi − μ|.
i=1
n Elle est maximale quand i=1 |xi − μ| est minimale. La d´eriv´ee de |xi − μ|, pour μ = xi , est ´egale au signe de (xi − μ). On peut donc annuler la d´eriv´ee de ln L(μ), si n est pair, en prenant pour valeur de μ une m´ediane de l’´echantillon, soit tout point dans l’intervalle (x( n2 ) , x( n2 +1) ). Admettant qu’on atteigne bien
126
Statistique − La th´eorie et ses applications
ainsi un minimum (ce qui est intuitif, la m´ediane ´etant au «centre» des observations) on voit que l’estimateur du MV n’est pas unique. Dans le cas o` u n est impair la solution reste la m´ediane, qui est alors unique. La m´ethode des ¯ puisque, par sym´etrie, μ est n´ecessairement moments donnerait l’estimateur X la moyenne de la loi. En fait on peut montrer que la m´ediane est un meilleur estimateur, au sens de l’e.q.m., que la moyenne pour cette loi. En particulier le rapport de la variance de la m´ediane empirique a` celui de la moyenne empirique tend vers 2/3 quand n → ∞.
6.7.3
Reparam´ etrisation et fonctions du param` etre
Une des propri´et´es s´eduisantes de l’EMV est qu’aucun nouveau calcul n’est n´ecessaire en cas de changement de param`etre. On l’appelle la propri´ et´ e d’invariance. Proposition 6.10 Soit ρ = h(θ) une reparam´etrisation, alors l’EMV de ρ est ρˆM V = h(θˆM V ). En effet, soient Lθ et Lρ les vraisemblances respectives de θ et ρ. Comme h est une bijection, l’ensemble des valeurs prises par L(θ) quand θ d´ecrit Θ est aussi l’ensemble des valeurs prises par ρ quand il d´ecrit son espace param´etrique que nous notons Ω. Posons ρˆ = h(θˆM V ). On a donc : ρ) = Lθ (h−1 (ˆ ρ)) = Lθ (h−1 (h(θˆM V ))) = Lθ (θˆM V ) Lρ (ˆ qui reste sup´erieur ou ´egal `a Lθ (θ) pour θ ∈ Θ et donc a` Lρ (ρ) pour ρ ∈ Ω. ρˆ est donc la valeur (unique) o` u Lρ atteint son maximum. ¯ ´etant l’EMV du param`etre p de la loi de Bernoulli, Ainsi, par exemple, X ¯ ¯ est l’EMV du rapport p/(1 − p). Dans la classe exponentielle nous X/(1 − X) avons mis en ´evidence (voir proposition 6.7) une reparam´etrisation qui admet un estimateur efficace. Celui-ci, par la proposition 6.9, est l’EMV pour le pa¯ est efficace pour θ = 1/λ ram`etre correspondant. Pour la loi exponentielle X ¯ est celui de λ). et est donc n´ecessairement l’EMV de θ (et 1/X Pour la loi de Pareto avec a connu, comme ni=1 ln( Xai ) estime de fa¸con ef n
−1 (voir ficace θ1 (voir exercices), on trouve pour EMV de θ : n1 i=1 ln(Xi /a) + ,−1 n 1 exemple 6.19) alors que l’estimateur UMVUE est n−1 . Ici i=1 ln(Xi /a) encore on constate qu’on a un l´eger biais mais qu’on reste proche de l’estimateur sans biais optimal. Selon la propri´et´e d’invariance, l’EMV du couple (μ, σ) de la loi N (μ, σ 2 ) ¯ S). ' Signalons en passant que si (X, ¯ S 2 ) est l’estimateur UMVUE pour est (X, 2 ¯ S) pour (μ, σ) qui est ´egalement biais´e (voir (μ, σ ), cela n’est pas vrai de (X, exercices). Dans le domaine du contrˆole de qualit´e on utilise souvent X(n) −X(1) ,
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
127
avec un coefficient qui d´epend de n et est tabul´e, pour estimer σ, ce qui est moins efficace que S mais ´evidemment plus rapide. Note 6.4 On convient d’appeler h(θˆM V ) l’estimateur du maximum de vraisemblance pour la fonction h(θ) du param`etre, qu’elle soit bijective ou non. Ainsi, pour la loi de Gauss de param`etre (μ, σ 2 ), S' est l’EMV de ¯ σ et X+1,645 S' est l’EMV du quantile d’ordre 0,95 : μ+1,645 σ. On donne une l´egitimit´e `a cette appellation en introduisant la fonction de vraisemblance L1 (δ) d´efinie sur l’ensemble des valeurs δ atteintes par h(θ), qui prend, pour un δ donn´e, la valeur maximale de L(θ) pour l’ensemble des valeurs θ telles que h(θ) = δ, i.e. : L1 (δ) =
sup
L(θ).
θ|h(θ)=δ
Alors h(θˆM V ) est la valeur qui maximise cette fonction de vraisemblance L1 (δ) induite par la fonction h(θ).
6.7.4
Comportement asymptotique de l’EMV
Dans les exemples qui pr´ec`edent nous avons pu constater que, sans ˆetre totalement optimal, l’EMV restait tr`es proche de l’estimateur UMVUE quand il existait et ceci d’autant plus que n ´etait grand. Ceci se g´en´eralise par la propri´et´e essentielle suivante. Proposition 6.11 Soit l’´echantillon X1 , X2 , ..., Xn issu de la densit´e (ou fonction de probabilit´e) f (x; θ) o` u θ ∈ Θ ⊆ R, r´epondant ` a certaines conditions de r´egularit´e qui garantissent notamment l’existence d’un EMV θˆnM V pour tout n. a l’infini. Alors cette suite est telle On consid`ere la suite {θˆnM V } quand n croˆıt ` que : √ MV 1 L n(θˆn − θ) − → N (0, ). I(θ) Nous admettrons ce r´esultat qui est en fait une application indirecte de la loi des grands nombres et du th´eor`eme central limite. Les conditions de r´egularit´e sont celles de la proposition 6.9 compl´et´ees d’autres que nous n’expliciterons pas car elles peuvent varier selon le type de d´emonstration. Le r´esultat ´enonc´e dans cette proposition implique les propri´et´es suivantes : 1. θˆnM V est asymptotiquement sans biais, i.e. Eθ (θˆnM V ) −−−−→ θ. n→∞
2. pour n tendant vers l’infini, la variance de θˆnM V se rapproche de 1/(nI(θ)). On dit que θˆnM V est asymptotiquement efficace. 3. des propri´et´es 1 et 2 on d´eduit que θˆnM V converge vers θ en moyenne quadratique (avec un choix ad´equat de conditions de r´egularit´e on d´emontre urement). que θˆnM V converge presque sˆ
Statistique − La th´eorie et ses applications
128
4. θˆnM V tend a` devenir gaussien quand n s’accroˆıt. On r´esume ces propri´et´es en disant que l’EMV est un estimateur BAN (Best Asymptotically Normal). L’int´erˆet de ce r´esultat est double. D’une part il garantit que l’EMV, moyennant des conditions de r´egularit´e, soit de tr`es bonne qualit´e pour les grands ´ echantillons (disons n > 30), d’autre part il va permettre une approximation de sa distribution d’´echantillonnage par une gaussienne, ce qui sera tr`es utile pour ´etablir des intervalles de confiance (voir chapitre 7). La m´ethode des moments est loin d’offrir les mˆemes garanties et c’est pourquoi la m´ ethode du MV est la m´ ethode de r´ ef´ erence, notamment dans les logiciels statistiques. Nous attirons l’attention sur le fait que les dites conditions de r´egularit´e, si elles sont suffisantes pour que l’EMV soit BAN dans un cadre g´en´eral, ne sont pas n´ecessaires. Ainsi pour la loi exponentielle double, vue dans l’exemple 6.22, la m´ediane empirique se trouve ˆetre ´egalement BAN bien que la fonction de vraisemblance ne soit pas d´erivable partout. Ceci tient au fait que la d´erivabilit´e n’est pas assur´ee uniquement pour un ensemble discret de points. Pour finir signalons deux types d’extension de la proposition 6.11 : 1. elle reste valable pour estimer une fonction h(θ) deux fois d´erivable, en 2 a 1/I(θ) substituant [h (θ)] /I(θ) ` 2. elle s’´etend `a un param`etre `a k dimensions : l’EMV θˆnM V est un vecteur √ al´eatoire tel que n(θˆnM V −θ) tende en loi vers la loi de Gauss multivari´ee `a k dimensions de moyenne nulle et de matrice des variances-covariances ´egale `a [I(θ)]−1 , l’inverse de la matrice d’information. Nous verrons une application de ce type pour le mod`ele de r´egression logistique au chapitre 11.
6.8
Les estimateurs bay´ esiens
Nous abordons ici l’approche bay´esienne qui rel`eve d’une philosophie particuli`ere de la statistique. D’une fa¸con g´en´erale on qualifie ainsi toute approche qui conf` ere ` a tout param` etre inconnu un statut de variable al´ eatoire en stipulant pour celui-ci une distribution sur Θ appel´ee loi a priori. Cette loi peut r´esulter de la connaissance que l’on peut avoir acquise ant´erieurement sur le ph´enom`ene ou ˆetre un simple artifice permettant de mener `a bien les calculs. En g´en´eral on tendra `a utiliser une loi a priori `a laquelle le r´esultat final sera relativement peu sensible (on d´efinit notamment des lois a priori dites «non informatives»). L’espace param´etrique ´etant g´en´eralement continu d´efinissons cette loi par une densit´e, not´ee π(θ). Pour simplifier on supposera le param`etre de dimension 1, mais l’extension a` une dimension quelconque ne pr´esente pas de difficult´es.
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
129
Dans ce cadre, f (x; θ) doit ˆetre consid´er´ee maintenant comme une densit´e (ou fonction de probabilit´e) conditionnelle pour la v.a. X ´etudi´ee, ´etant donn´e une valeur fix´ee du param`etre θ (il serait donc appropri´e de l’´ecrire f (x|θ) ). En suivant la formule de Bayes qui permet de passer de la loi de probabilit´e d’un ´ev´enement A sachant B ` a la probabilit´e de B sachant A selon : P (B|A) =
P (A|B)P (B) , P (A)
on d´efinit la loi a posteriori de θ, c’est-`a-dire apr`es avoir pris connaissance des r´ealisations (x1 , x2 , ..., xn ) de l’´echantillon (X1 , X2 , ..., Xn ). Ci-apr`es le vecteur des r´ealisations sera not´e x et l’´echantillon sera not´e X. Par transcription de la formule de Bayes la densit´e a posteriori est1 : f (x; θ)π(θ) f (x; θ)π(θ)dθ Θ
πθ|X=x (θ) =
o` u le d´enominateur est la densit´e marginale de X au point x ∈ Rn pour le (n + 1)-uplet al´eatoire (X, θ). Notons que dans cette formule f (x; θ) peut ˆetre aussi bien une densit´e qu’une fonction de probabilit´e. On prend alors comme estimation bay´esienne θˆB de θ, la moyenne de la loi a posteriori. L’estimateur bay´esien s’obtient en appliquant a` X la fonction associant `a une valeur de x quelconque la valeur θˆB correspondante. Les avantages de cette approche sont multiples du fait que l’on dispose d’une loi pour θ. Entre autres : – on peut d´eterminer ais´ement un intervalle de valeurs plausibles pour θ (voir chapitre 7 sur l’estimation par intervalles), – on peut estimer θ selon divers crit`eres d’erreur. Le crit`ere des moindres u carr´es, par exemple, choisit le nombre θˆB minimisant E[(θ − θˆB )2 ], o` ici θ est al´eatoire, ce qui correspond a` la moyenne de la loi a posteriori de θ. Nous l’avons privil´egi´e car il est le plus r´epandu. Mais on pourrait souhaiter minimiser E(|θ − θˆB |) ce qui d´ebouche sur la m´ediane de la loi a posteriori. – on peut estimer toute fonction de θ en calculant directement, pour le crit`ere des moindres carr´es, l’esp´erance de h(θ) sur la loi a posteriori, soit : h(θ) πθ|X=x (θ)dθ. E (h(θ)) = Θ
Exemple 6.23 Soit une loi de Bernoulli B(p). La densit´e conjointe au point (x1 , x2 , ..., xn ) ´etant donn´e p ∈ [0 , 1] est : n $
f (xi ; θ) = p
n
i=1
xi
(1 − p)n−
n
i=1
xi
= ps (1 − p)n−s
i=1 1 Voir
` a ce propos l’expression d’une densit´e conditionnelle en fin de section 3.2.
130
Statistique − La th´eorie et ses applications
n o` u s = i=1 xi est le nombre total de succ`es observ´e. Supposons que l’on soit dans l’ignorance totale des valeurs pr´ef´erentielles pour p et prenons une loi a priori U[0, 1], donc : π(p) = 1 pour p ∈ [0 , 1]. La densit´e a posteriori est : πp|X=x (p) = 1 0
ps (1 − p)n−s .1 ps (1 − p)n−s .1 dp
= cps (1 − p)n−s
o` u c est la constante appropri´ee pour avoir une densit´e. Cette densit´e est celle d’une loi Beta(s, n − s) vue en section 4.2.9. D’o` u l’esp´erance sur cette loi a posteriori que nous choisissons comme estimation de p : 1 s+1 p (1 − p)n−s dt . pˆB = 0 1 s (1 − p)n−s dt p 0 En admettant la formule d’int´egration :
1
0
xa (1 − x)b dx =
Γ(a + 1)Γ(b + 1) Γ(a + b + 2)
o` u Γ(r + 1) = r! si r est entier, on obtient : pˆB =
(s + 1)!(n − s)! (n + 1)! s+1 . = . (n + 2)! s!(n − s)! n+2
Cette estimation correspond a` l’estimateur ´etudi´e dans l’exemple 6.7 pour lequel il a ´et´e montr´e que l’erreur quadratique moyenne ´etait meilleure que celle de l’estimateur UMVUE Sn /n lorsque p se situe autour de 1/2. On peut d´emontrer diverses propri´et´es g´en´erales des estimateurs bay´esiens. En particulier qu’ils sont convergents quelle que soit la loi a priori π(θ) choisie (mais ayant pour support Θ) et mˆeme BAN (best asymptotically normal ) sous des conditions de r´egularit´e de la famille {f (x; θ)}. On peut ´egalement voir sur la formule de la densit´e a posteriori, qu’en raison du th´eor`eme de factorisation, cette derni`ere ne d´ependra que d’une statistique exhaustive minimale. ´ Note 6.5 Etant donn´e que π(θ) figure au num´erateur et au d´enominateur de la densit´e a posteriori, il est possible de ne la d´efinir qu’` a une constante pr`es. On peut mˆeme envisager des fonctions qui ne sont pas des densit´es (pourvu qu’elles soient positives) consid´er´ees alors comme des fonctions de pond´eration des diff´erentes valeurs possibles de θ. Dans l’exemple ci-dessus on pourrait ainsi prendre la fonction [p(1−p)]−1 qui n’est pourtant pas int´egrable sur [0, 1]. Cette fonction donne d’ailleurs s/n comme estimation. Dans ce chapitre nous avons trait´e de l’estimation ponctuelle en cherchant `a d´egager les meilleurs estimateurs. Dans le chapitre suivant on consid`ere des
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
131
«fourchettes» d’estimation o` u la qualit´e de pr´ecision des estimateurs, en particulier la variance pour les estimateurs sans biais, jouera un rˆ ole central. Pour approfondir l’estimation ponctuelle on pourra consulter l’ouvrage de Lehmann et Casella (1998).
6.9
Exercices
Exercice 6.1 Montrer que la famille de lois BN (r, p) avec r connu appartient ` la classe exponentielle et que d(x) = x. Faire de mˆeme pour les lois de Poisson, a exponentielle et gamma (avec r connu). Exercice 6.2 Montrer que la famille des lois de Pareto avec a connu appartient ` la classe exponentielle et mettre en ´evidence sa fonction d(x). L’estimateur a des moments d´epend-il d’une statistique exhaustive minimale ? Exercice 6.3 Montrer que la famille des lois bˆeta appartient `a la classe exponentielle et mettre en ´evidence les fonctions d1 (x) et d2 (x). Donner l’estimateur des moments de (α, β). D´epend-il d’une statistique exhaustive minimale ? Exercice 6.4 Soit la famille N (μ, σ 2 ) o` u (μ, σ 2 ) est inconnu. D´eduire la loi 2 2 de S de celle de (n − 1)S /σ . Montrer que S est un estimateur biais´e de σ et proposer un estimateur sans biais. Aide : calculer E(S) directement sur la loi de (n − 1)S 2 /σ 2 . Exercice 6.5 Soit une famille de lois {f (x; θ)} telle que f (x; θ) s’´ecrive f (x−θ) o` u f ne d´epend pas de θ. (On dit que θ est un param`etre de positionnement et on note qu’on a ´egalement F (x; θ) = F (x − θ) pour la fonction de r´epartition). Supposons, de plus, que f soit une fonction paire (lois sym´etriques par rapport `a θ). Les r´esultats suivants seront ´etablis pour n impair (mais sont valables pour n = 2k en d´efinissant la m´ediane de fa¸con unique par 12 (X(k) + X(k+1) )). ´ 1. Etablir la fonction de r´epartition, puis la densit´e de la m´ediane empirique d’un n-´echantillon. 2. Montrer que sa loi est ´egalement sym´etrique par rapport a` θ. 3. En d´eduire que la m´ediane empirique est un estimateur sans biais pour θ. Exercice 6.6 Soit la famille de loi E(λ). Comparer en e.q.m. les estimateurs ¯ et n Xi /(n + 1) pour estimer 1 . X i=1 λ Aide : utiliser les r´esultats de l’exemple 6.11. Exercice 6.7 Pour une loi m`ere quelconque ayant un moment d’ordre 4 comparer les e.q.m. de S 2 et de S'2 et donner une condition pour que le second domine le premier. Aide : voir la variance de S 2 dans l’exercice 5.4.
132
Statistique − La th´eorie et ses applications
Exercice 6.8 Montrer que X(n) est convergent en probabilit´e pour θ dans la famille U[0, θ]. Aide : `a partir de la fonction de r´epartition de X(n) ´ecrire la probabilit´e de (|X(n) − θ| < ). Exercice 6.9 Montrer pour la famille E(λ) que l’estimateur UMVUE de λ domine (en e.q.m.) l’estimateur des moments. On supposera n > 2. Aide : utiliser les r´esultats de l’exemple 6.11. Exercice 6.10 Soit la famille de lois (de Raleigh) de densit´es : 2! x x f (x; θ) = exp − , x ≥ 0, θ > 0 . θ 2θ Appartient-elle a` la classe exponentielle ? Donner une statistique exhaustive minimale. Calculer son esp´erance math´ematique et en d´eduire un estimateur sans biais, efficace pour θ. Exercice 6.11 Soit la famille de Pareto de param`etre a connu et θ inconnu. 1. Montrer que ln( X a ) suit une loi E(θ). 2. Montrer que
n−1 i=1 ln(Xi /a)
n
est UMVUE pour θ. Aide : en calculer l’esp´erance en s’inspirant du r´esultat de l’exemple 6.11. 3. Montrer que n1 ni=1 ln( Xai ) est sans biais et efficace pour estimer 1/θ. Exercice 6.12 Soit la famille de lois de Pareto o` u θ est connu mais a est inconnu. 1. Constater qu’elle n’appartient pas a` la classe exponentielle. 2. Donner l’estimateur des moments pour a. 3. Trouver une statistique exhaustive minimale. 4. Identifier la loi de X(1) . En d´eduire un estimateur sans biais fonction de X(1) . Exercice 6.13 Calculer la borne de Cramer-Rao pour la famille N (μ , 1) o` u u σ 2 est inconnu. μ est inconnu. Mˆeme question pour la famille N (0 , σ 2 ) o` Dans chaque cas montrer que l’estimateur naturel est efficace. Exercice 6.14 Soit la famille des lois de Bernoulli B(p). Donner la borne de Cramer-Rao pour un estimateur sans biais du rapport p/(1 − p).
Chapitre 6. Th´eorie de l’estimation param´etrique ponctuelle
133
Exercice 6.15 Calculer la borne de Cramer-Rao pour la famille des lois de Cauchy 1 , x ∈ R. f (x; θ) = π[1 + (x − θ)2 ] Aide :
1 8
arctan x +
2 1 x(x −1) 8 (x2 +1)2
est primitive de
x2 (1+x2 )3
. √ Sachant que la m´ediane empirique Mn est telle que n(Mn − θ) converge en 2 loi vers la loi N (0 , π4 ) v´erifier qu’elle n’est pas un estimateur BAN. Exercice 6.16 Pour la famille U[0 , θ] comparer les e.q.m. des 3 estimateurs : moments, EMV et n+1 n X(n) qui est la statistique UMVUE (voir note 6.2). Exercice 6.17 On consid`ere la loi de Poisson tronqu´ee de la valeur 0. D´eterminer sa fonction de probabilit´e. Trouver l’estimation du MV pour un ´echantillon de taille 15 de moyenne 3 (ceci n´ecessite une approximation num´erique). Exercice 6.18 Trouver l’EMV pour le param`etre θ de la loi de Pareto avec a connu. Quel est son biais ? (Aide : voir d’abord l’exercice 6.11). Calculer la borne de Cramer-Rao et constater que l’EMV est asymptotiquement efficace. Exercice 6.19 Soit la famille de densit´es f (x; ρ) = ρ(ρ + 1)x(1 − x)ρ−1 pour x ∈ [0, 1] , o` u ρ > 0. Donner l’EMV pour ρ. Exercice 6.20 Soit la famille BN (r, p) o` u r est connu. Donner l’EMV pour p sur la base d’une seule observation. Mˆeme question pour la famille B(n, p) o` u n est connu. Exercice 6.21 (capture-recapture) Un ´etang contient N poissons o` u N est inconnu. M (connu) poissons ont ´et´e marqu´es. On pˆeche (sans remise) jusqu’` a ce qu’on obtienne le premier poisson marqu´e. Soit X le nombre de poissons qu’on doit ainsi pˆecher. Donner la loi de X en supposant un tirage al´eatoire sans remise. En d´eduire l’´equation de vraisemblance de N associ´ee `a une (seule) observation x de X. Application : r´esoudre num´eriquement avec M = 100 et x = 3 pour donner une estimation de N . Exercice 6.22 Donner l’estimateur du MV pour le param`etre λ d’une loi Γ(r, λ) o` u r est connu. Donner une approximation de sa loi pour n grand. Exercice 6.23 Soit la famille des lois de Bernoulli B(p). Donner % la loi a posteriori pour p en utilisant une loi a priori proportionnelle a` p(1 − p) et en d´eduire l’estimation bay´esienne de p. Aide : on utilisera la formule d’int´egration de l’exemple 6.23 et la relation Γ(a + 1) = aΓ(a). G´en´eraliser `a une densit´e a priori Beta( α, β).
Chapitre 7
Estimation param´ etrique par intervalle de confiance 7.1
D´ efinitions
Dans le chapitre pr´ec´edent, l’objectif ´etait de donner une valeur unique pour estimer le param`etre inconnu θ. Dans ce chapitre, nous souhaitons donner un ensemble de valeurs plausibles pour θ essentiellement sous forme d’un intervalle. Dans le vocabulaire courant, pour les sondages notamment, c’est l’id´ee de «fourchette». Il y a ´evidemment un lien entre l’approche ponctuelle et l’approche par intervalle, la seconde s’appuyant pour beaucoup sur les r´esultats de la premi`ere. Si l’on s’en tient aux estimateurs sans biais, un estimateur de variance minimale restera au plus proche de θ et on imagine qu’il sera un bon point de d´epart pour fournir un encadrement. D’autre part, on s’attend a` ce que sa variance soit d´eterminante pour la largeur de l’intervalle. Cependant nous n’approfondirons pas vraiment la notion d’optimalit´e pour un intervalle de confiance et consacrerons l’essentiel des d´eveloppements `a la construction de tels intervalles. Pour celle-ci nous verrons tout d’abord une m´ethode g´en´erale exacte, mais qui est subordonn´ee `a l’existence d’une «fonction pivot», et ensuite une m´ethode asymptotique de port´ee plus g´en´erale, reposant sur une approximation gaussienne en particulier via l’estimateur du maximum de vraisemblance. Apr`es l’approche g´en´erale nous ´etablirons les intervalles de confiance classiques pour les moyennes et variances dans le cas gaussien et pour les proportions dans le cas Bernoulli. La m´ethode des quantiles sera d´evelopp´ee pour indiquer une proc´edure applicable aux petits ´echantillons (notamment dans les cas Bernoulli et Poisson). Par ailleurs, un mode de construction, fond´e sur une proc´edure de test, sera vu ult´erieurement dans le chapitre 9 (section 9.8).
136
Statistique − La th´eorie et ses applications
D´ efinition 7.1 Soit X1 , X2 , · · · , Xn un ´echantillon al´eatoire issu d’une loi de densit´e (ou fonction de probabilit´e) f (x; θ) o` u θ ∈ Θ est un param`etre inconnu de dimension 1. On appelle proc´ edure d’intervalle de confiance de niveau γ tout couple de statistiques (T1 , T2 ) tel que, quel que soit θ ∈ Θ, on ait : Pθ (T1 ≤ θ ≤ T2 ) ≥ γ . En pratique on choisira γ assez ´elev´e : couramment γ = 0,95. Ainsi, il y a une forte probabilit´e pour que l’intervalle ` a bornes al´ eatoires [T1 , T2 ] contienne la vraie valeur de θ. De fa¸con imag´ee, on peut dire que dans l’univers des ´echantillons possibles, pour une proportion au moins γ d’entre eux, on obtient un intervalle qui contient θ. Dans certaines situations, on peut n’ˆetre int´eress´e qu’`a ´etablir une borne inf´erieure ou une borne sup´erieure pour θ, T1 ou T2 ´etant rejet´e `a l’infini. On parle alors d’intervalle de confiance unilat´eral (par opposition a` « bilat´eral »). Exemple 7.1 Prenons l’exemple quelque peu artificiel d’une loi m`ere gaussienne dont la variance serait connue et supposons qu’elle soit ´egale `a 1. On a, par centrage-r´eduction de la moyenne empirique du n-´echantillon : ¯ −μ X √1 n
; N (0 ; 1)
d’o` u : P (−1,96 <
¯ −μ X √1 n
< 1,96) = 0,95
1,96 ¯ − μ < 1,96 √ ) = 0,95 . P (− √ < X n n √ √ ¯ − μ) est ´equivalent a` (μ < X+1,96/ ¯ L’´ev´enement (−1,96/ √n < X n) et, de √ ¯ ¯ − μ <1,96/ n) ´equivaut a` (X−1,96/ n < μ). On voit finalement mˆeme, (X √ ¯ − μ <1,96/√n) est identique `a l’´ev´enement que l’´ev´enement (−1,96/ n <√X √ ¯ ¯ n < μ < X+1,96/ n), d’o` u: (X−1,96/ ¯ + 1,96 ¯ − 1,96 √ <μ<X √ ) = 0,95 P (X n n √ ¯ ¯ +1,96/√n] constitue et ceci quel que soit μ, ce qui prouve que [X−1,96/ n, X une proc´edure d’intervalle de confiance (IC) de niveau 0,95. On voit sur √ cet exemple que la «largeur» de l’intervalle est proportionnelle a` l’´ecart-type 1/ n ¯ pour μ. de l’estimateur ponctuel X
Chapitre 7. Estimation param´etrique par intervalle de confiance
137
Note 7.1 Pour les cas continus, comme dans l’exemple pr´ec´edent, on peut esp´erer atteindre exactement le niveau γ que l’on s’est fix´e, du fait de la continuit´e des fonctions de r´epartition. Pour les cas discrets, cependant, un niveau de probabilit´e donn´e peut ne pas ˆetre atteint en raison des sauts de discontinuit´e. Nous donnerons plus loin un exemple illustrant cela. On se devra alors d’avoir une attitude conservatrice, c’est-`a-dire d’utiliser une proc´edure garantissant que [T1 , T2 ] ait une probabilit´e de couvrir θ qui soit au moins ´egale au niveau nominal γ. C’est pourquoi il est n´ecessaire que γ apparaisse comme une borne minimale de probabilit´e dans la d´efinition 7.1. Notons encore, au vu de l’exemple 7.1, que le choix de l’intervalle n’est pas unique. On aurait ´egalement pu prendre : ¯ −μ X < z0,98 ) = 0, 95 P (z0,03 < 1 √
n
comme point de d´epart ou tout autre couple de quantiles (zα , z0,95+α ) avec α ∈ [0 ;0,05]. L’usage veut, mˆeme si la proc´edure n’est pas n´ecessairement optimale, que l’on choisisse, comme nous l’avons fait, le couple (z 1−γ , z 1+γ ). 2 2 En fait ce choix est celui qui donne la largeur minimale lorsque la densit´e de la loi utilis´ee pour les quantiles est sym´etrique et n’a qu’un seul mode. D´ efinition 7.2 Dans le contexte de la d´efinition 7.1, soit x1 , x2 , · · · , xn une r´ealisation de X1 , X2 , · · · , Xn conduisant ` a la r´ealisation (t1 , t2 ) de (T1 , T2 ). Alors l’intervalle [t1 , t2 ] est appel´e intervalle de confiance de niveau γ pour θ et l’on note : ICγ (θ) = [t1 , t2 ] . L’intervalle de confiance est donc l’application num´ erique de la proc´ edure suite `a la r´ealisation de l’´echantillon. Supposons que dans l’exemple pr´ec´edent, avec un ´echantillon de taille 9, on ait observ´e la valeur 6 pour la moyenne de cet ´echantillon, alors : 1,96 1,96 √ √ IC0,95 (μ) = 6 − ,6 + [5,35 ; 6,65]. 9 9 On ne peut dire a` proprement parler (mˆeme si la tentation est forte) que cet IC contient μ avec probabilit´e 0,95 du fait qu’il s’agit d’une r´ealisation. Soit il contient μ, soit il ne le contient pas. C’est la proc´edure choisie en amont qui garantit a priori une telle probabilit´e. C’est pourquoi on parle d’un niveau de confiance et non de probabilit´e pour un IC. Note 7.2 Lorsque l’intervalle sera sym´etrique par rapport a` l’estimation ponctuelle on pourra aussi noter, comme pour l’application ci-dessus : 1,96 IC0,95 (μ) = 6 ± √ . 9
Statistique − La th´eorie et ses applications
138
Note 7.3 On remarquera que le fait d’augmenter le niveau de confiance accroˆıt la largeur de l’intervalle et qu’il n’est pas possible de donner un intervalle certain autre que Θ dans sa totalit´e. Note 7.4 S’il s’agit d’estimer une fonction h(θ) bijective, par exemple strictement croissante, du param`etre θ, il suffit de prendre l’intervalle [h(t1 ), h(t2 )]. Nous introduisons maintenant la m´ethode de la fonction pivot, qui permet de r´esoudre la plupart des cas classiques.
7.2
M´ ethode de la fonction pivot
D´ efinition 7.3 Soit le contexte de la d´efinition 7.1. Une fonction g(X1 , X2 , · · · , Xn ; θ) est appel´ee fonction pivot si : 1. la loi de g(X1 , X2 , · · · , Xn ; θ) est connue et ne d´epend pas de θ , 2. pour tous r´eels u1 et u2 tels que u1 ≤ u2 et tout (x1 , x2 , · · · , xn ) ∈ Rn , la double in´egalit´e u1 ≤ g(x1 , x2 , · · · , xn ; θ) ≤ u2 peut se r´esoudre (ou «pivoter») en θ selon : t1 (x1 , x2 , · · · , xn ) ≤ θ ≤ t2 (x1 , x2 , · · · , xn ). ¯
X−μ √ ´ Dans l’exemple 7.1, la variable al´eatoire 1/ etait une fonction pivot car n pour toute valeur x ¯ on peut r´esoudre l’in´egalit´e :
u1 < en :
x−μ √ < u2 1/ n
u1 u2 ¯− √ . x ¯− √ <μ<x n n
Notons que dans cette d´efinition, on peut ´evidemment se restreindre aux valeurs (x1 , x2 , · · · , xn ) appartenant `a l’ensemble des r´ealisations possibles pour θ quelconque. Remarquons aussi qu’une fonction pivot n’est pas une statistique car elle contient le param`etre inconnu θ. Proposition 7.1 L’existence d’une fonction pivot assure une proc´edure d’intervalle de confiance de niveau donn´e quelconque. En effet, il suffit de choisir, sur la loi connue, des quantiles u1 et u2 tels que : P (u1 < g(X1 , X2 , · · · , Xn ; θ) < u2 ) ≥ γ puis de faire « pivoter », pour encadrer θ. C’est ce qui a ´et´e effectu´e dans l’exemple 7.1. Donnons un autre exemple.
Chapitre 7. Estimation param´etrique par intervalle de confiance
139
Exemple 7.2 Soit X1 , X2 , · · · , Xn un ´echantillon de loi m`ere E(λ). Nous avons n vu en section 4.2.3 que T = i=1 Xi suit une loi Γ(n, λ) et il n’est pas inutile de rappeler que cette statistique est exhaustive minimale. Sa densit´e est : fT (t) =
λn tn−1 e−λt (n − 1)!
(si t ≥ 0).
Consid´erons la variable al´eatoire λT et d´eterminons sa fonction de densit´e fλT . Avec des notations ´evidentes on a : FλT (t) = P (λT ≤ t) = P (T ≤
t t ) = FT ( ). λ λ
D’o` u, par d´erivation : fλT (t) =
1 t 1 fT ( ) = tn−1 e−t λ λ (n − 1)!
(si t ≥ 0)
qui est la densit´e de la loi Γ(n, 1) et ne d´epend pas de λ. De toute ´evidence, la double in´egalit´e u1 ≤ λT ≤ u2 peut «pivoter» pour isoler le param`etre λ selon uT1 ≤ λ ≤ uT2 . Pour obtenir une proc´edure d’intervalle de confiance de niveau, disons, 0,95 il suffit de choisir pour u1 et u2 respectivement, les quantiles d’ordre 0,025 et 0,975 de la loi Γ(n, 1), c’est-`a-dire les valeurs u1 et u2 telles que : 0
u1
1 un−1 e−u du = 0, 05 (n − 1)!
u2
et 0
1 un−1 e−u du = 0,975 (n − 1)!
que l’on doit lire dans les tables de la fonction de r´epartition des lois gamma ou d´eterminer via une fonction ad hoc d’un logiciel statistique (souvent appel´ee fonction gamma inverse). On a alors :
IC0,95 (λ) = n
i=1
u2
u1 Xi
, n
i=1
Xi
.
Nous verrons d’autres illustrations de fonctions pivots dans la section 7.4 qui concerne les IC classiques. En dehors de ces cas classiques, il n’existera g´en´eralement pas de fonction pivot et il est n´ecessaire d’avoir une proc´edure de type universel pour couvrir les situations les plus vari´ees, et mˆeme complexes. La m´ethode qui a la port´ee la plus g´en´erale est la m´ethode asymptotique qui fournit une approximation d’IC d’une fa¸con que nous allons pr´eciser.
Statistique − La th´eorie et ses applications
140
7.3
M´ ethode asymptotique
Pla¸cons-nous dans le cas le plus g´en´eral et supposons qu’il existe un estimateur Tn de θ tel que : Tn − θ sn (θ)
L
−→
N (0 ; 1)
n→∞
o` u sn (θ) est une fonction appropri´ee de θ : le plus souvent l’´ecart-type de Tn ou −θ pivote pour isoler une fonction ´equivalente quand n → ∞. Si la fonction Tsnn(θ) θ on a la proc´edure d’IC approch´ee recherch´ee. Sinon, Tn ´etant convergente pour θ, moyennant la continuit´e de la fonction sn (´evidemment quel que soit convergera aussi en loi vers la loi normale centr´ee-r´eduite. Alors le n), sTnn(T−θ n) pivotement est imm´ediat pour donner l’IC approximatif : ICγ (θ) [tn − z 1+γ sn (tn ) ; tn + z 1+γ sn (tn )] 2
2
o` u tn est la r´ealisation de Tn . Cet intervalle est approximatif dans le sens o` u la proc´edure correspondante ne garantit pas exactement le niveau γ quel que soit θ pour n fini. Bien qu’il soit difficile de donner un seuil pour n ` a partir duquel on sera suffisamment proche du niveau γ (disons `a 10−2 pr`es), on se r´ef´erera `a la r`egle n ≥ 30 indiqu´ee pour le th´eor`eme central limite. En effet il est clair que c’est ce th´eor`eme qui est susceptible de nous fournir un estimateur appropri´e comme dans l’exemple ci-apr`es. ¯n , Exemple 7.3 (IC pour λ de P(λ)) Nous avons vu (section 6.6.3) que X la moyenne de l’´echantillon, est un estimateur efficace pour λ du fait que pour cette famille de lois on a d(x) = x. Cette statistique √ est donc particuli`erement int´eressante pour envisager un IC pour λ. Comme λ est l’´ecart-type de la loi, le th´eor`eme central limite indique que : ¯n − λ X L ( −→ N (0 ; 1) . n→∞
λ n
Choisissant un niveau de confiance γ, on a : ¯n − λ X P (−z 1+γ ≤ ( ≤ z 1+γ ) γ. 2
2
λ n
La double in´egalit´e se ram`ene `a une in´egalit´e du second degr´e en λ que l’on peut r´esoudre : ¯ n − λ)2 (X ≤ z 21+γ λ n
ou
λ2 − λ
2
¯n + 2X
z 21+γ 2
n
¯2 ≤ 0 . +X n
Chapitre 7. Estimation param´etrique par intervalle de confiance Or :
Δ=
¯n + 2X
2
z 21+γ
¯2 = 4 − 4X n
2
n
¯ n z 21+γ X 2
n
141
z 41+γ +
2
>0
n2
et le polynˆ ome du second degr´e en λ est n´egatif entre les racines, d’o` u la proc´edure d’IC approximatif : ⎛ ⎜¯ P ⎝X n +
z 21+γ 2
2n
−
¯ n z 21+γ X 2
n
z 41+γ +
2
4n2
¯n + <λ<X
z 21+γ 2
2n
+
¯ n z 21+γ X 2
n
z 41+γ +
2
4n2
En n´egligeant sous la racine le terme en n12 par rapport a` celui en celui en n1 par rapport a` celui en √1n on obtient finalement : ) ) ¯n ¯ X ¯ n − z 1+γ ¯ n + z 1+γ Xn γ. P X <λ<X 2 2 n n
⎞ ⎟ ⎠ γ.
1 n,
puis
Cet intervalle est pr´ecis´ement celui que l’on aurait obtenu en substituant ¯ n dans l’expression de la variance λ (conform´ement `a la a` λ l’estimateur X n substitution sn (Tn ) pour sn (θ) ´evoqu´ee plus haut). On voit donc que cette substitution est une approximation du second ordre par rapport au r´esultat du th´eor`eme central limite. G´en´eralement, il en sera ainsi et nous verrons un cas similaire pour l’IC classique sur le param`etre p d’une loi de Bernoulli (voir section 7.4.5). Pour conclure, retenons la formule suivante pour le param`etre λ de la loi de Poisson : ) x ¯ ¯ ± 1,96 IC0,95 (λ) = x n qui, en r` e gle pratique, donne une approximation satisfaisante d`es que l’on a n n x > 30. Pour x plus petit on applique la proc´edure qui sera i i i=1 i=1 d´evelopp´ee au cours de l’exemple 7.6 via la m´ethode des quantiles. La question qui semble se poser pour la mise en œuvre de la m´ethode asymptotique est celle de l’existence d’un estimateur du type de Tn . En fait, l’estimateur du maximum de vraisemblance, moyennant certaines conditions de r´egularit´e, fera l’affaire. Nous avons mˆeme vu (voir proposition 6.11) qu’il est un estimateur BAN (best asymptotically normal) et l’on peut montrer qu’il fournira des IC qui auront une certaine optimalit´e asymptotique, notamment en termes de largeur d’intervalle. Dans les notations de la section 6.7, nous avons (proposition 6.11) : θˆnM V − θ ) 1 nI(θ)
L
−→
n→∞
N (0 ; 1).
142
Statistique − La th´eorie et ses applications
Mis `a part quelques cas simples, l’expression I(θ) de l’information de Fisher sera telle qu’elle ne permettra pas le pivotement. On lui substituera donc I(θˆnM V ) pour obtenir finalement la formule g´en´erale suivante (o` u θˆM V d´esigne cette fois l’estimation du MV) : ⎤ ⎡ z 1+γ z 1+γ ⎦. , θˆM V + ( 2 ICγ (θ) ⎣θˆM V − ( 2 M V nI(θˆ ) nI(θˆM V ) Exemple 7.4 (Param` etre θ de la loi de Pareto avec a connu) n Il a ´et´e indiqu´e (section 6.7.3) que l’EMV pour θ est θˆM V = [ n1 i=1 ln( Xai )]−1 . Par ailleurs, on peut montrer (voir exercices du chapitre 6) que la borne de 2 Cramer-Rao est θn . On a donc : θˆM V − θ θ √ n
;
approx
N (0 ; 1).
Cette expression permet le pivotement sans qu’il soit n´ecessaire de recourir a` la substitution de I(θˆM V ) pour I(θ). En effet (en prenant γ = 0,95 pour simplifier) : ⎛ ⎞ ⎜ ⎟ θˆM V − θ P⎜ < 1,96⎟ ⎝−1,96 < ⎠ 0,95 θ √ n ⎞ ⎛ ⎜ θˆM V θˆM V ⎟ ⎟ 0,95. < θ < ⇔P⎜ ⎝ 1,96 1,96 ⎠ 1+ √ 1− √ n n En utilisant l’approximation [1 + 1 n
par rapport au terme en P
√1 , n
1,96 √ ]−1 n
1−
1,96 √ n
qui n´eglige le terme en
et en faisant de mˆeme pour [1 −
1,96 √ ]−1 , n
on a :
1, 96 1, 96 θˆM V (1 − √ ) < θ < θˆM V (1 + √ ) 0, 95. n n
Une fois encore, cette expression est celle que l’on aurait obtenue en substiˆM V a nθ pour la variance asymptotique de θˆM V . tuant d’embl´ee θ n ` La construction d’un IC a` partir de l’EMV se heurte dans les situations non standard a` une difficult´e pratique, a` savoir la d´etermination de l’information de Fisher I(θ). Nous indiquons la fa¸con dont les logiciels statistiques qui fournissent des IC sur les param`etres des divers mod`eles qu’ils proposent, contournent ce probl`eme y compris lorsque les observations ne sont pas i.i.d.
Chapitre 7. Estimation param´etrique par intervalle de confiance
143
(par exemple : mod`eles de r´egression, mod`eles de s´eries chronologiques), la seule exigence ´etant de connaˆıtre la forme de la densit´e conjointe f (x1 , x2 , · · · , xn ; θ). Nous verrons une situation de ce type en r´egression logistique au chapitre 11. R´ esolution num´ erique pour l’IC fond´ e sur l’EMV Reprenons l’expression de I(θ) donn´ee en section 6.6.3. Sous certaines conditions de r´egularit´e pour la densit´e f (x; θ) on a : 2 ∂ I(θ) = −Eθ ln f (X; θ) . ∂θ2 Il est clair que le calcul d’une telle esp´erance math´ematique peut ˆetre inextricable. Toutefois, en vertu de la loi des grands nombres, la v.a. 1 ∂2 ln f (Xi ; θ) n i=1 ∂θ2 n
−
converge en probabilit´e (voire mˆeme presque sˆ urement quand la variance de ∂2 ln f (X; θ) existe) vers I(θ) quand n → ∞. Ceci reste en fait valable en ∂θ 2 MV ˆ rempla¸cant θ par θn et on estimera donc I(θ) par l’expression ci-dessus calcul´ee au point θ = θˆnM V et pour les r´ealisations xi des Xi , soit : 2 1 ∂2 ˆM V ) = − 1 ∂ ln L(θˆM V ), ln f (x ; θ i n n n ∂θ2 n ∂θ2 n
−
i=1
o` u ln L(θˆnM V ) est la log-vraisemblance de θ en θˆnM V . Num´eriquement, ceci peut ˆetre accompli de fa¸con pr´ecise sans calculer explicitement la d´eriv´ee seconde de la log-vraisemblance, en donnant de tr`es faibles variations a` θ autour de θˆnM V . Le principe de calcul approch´e se g´en´eralise ais´ement `a un param`etre de dimension k > 1 `a partir de la matrice d’information de Fisher. L’´el´ement (i, j) de cette matrice est estim´e par : −
1 ∂2 ln L(θˆnM V ), n ∂θi ∂θj
o` u θi et θj sont, respectivement, la i-`eme et la des param`etres. On obtient des IC sur chacune consid´erant les d´eriv´ees secondes par rapport a` plus loin la notion de r´egion de confiance dans simultan´ee de toutes les composantes.
j-`eme composante du vecteur des composantes isol´ement en chaque composante. On verra Rk pour une prise en compte
Nous abordons maintenant la construction d’IC dans les situations les plus courantes. Elle reposera soit sur la m´ethode du pivot, soit sur l’approche asymptotique.
Statistique − La th´eorie et ses applications
144
7.4
Construction des IC classiques
Sous le terme de « classique » nous pr´esentons les cas de la moyenne et de la variance d’une loi m`ere gaussienne et le cas du param`etre p d’une loi de Bernoulli. Nous verrons que le r´esultat pour la moyenne d’une gaussienne peut servir d’approximation pour une loi m`ere quelconque. Quant au cas de Bernoulli il est d’une grande importance pratique puisqu’il traite des « fourchettes » d’estimation de proportions dans les sondages. Nous rencontrerons ´egalement des situations nouvelles de comparaisons entre deux lois (ou, en pratique, deux populations) distinctes. Les r´esultats qui suivent exploitent ceux ´etablis au chapitre 5 sur les distributions d’´echantillonnage. Pour simplifier les ´ecritures, nous prendrons, comme c’est l’usage, des IC de niveau γ = 0,95 faisant donc intervenir les quantiles d’ordres 0,025 et 0,975 , le passage a` une autre valeur de γ ´etant ´evident. Nous proposons dans la section des exercices quelques « exercices appliqu´es » permettant d’illustrer l’int´erˆet des intervalles de confiance.
7.4.1
IC pour la moyenne d’une loi N (μ, σ2 )
Nous abordons d’embl´ee le cas o` u (μ, σ 2 ) est un param`etre de dimension 2 inconnu, mais nous nous int´eresserons ici uniquement `a un encadrement pour μ ind´ependamment de σ 2 . Nous reviendrons ensuite bri`evement sur le cas plus simple, mais peu r´ealiste, o` u σ 2 est suppos´e connu. Rappelons le r´esultat du th´eor`eme 5.2 : ¯ −μ X t(n − 1). ; S approx √ n Cette v.a. est de toute ´evidence une fonction pivot pour μ et nous obtenons un IC comme suit, les d´eveloppements ´etant de mˆeme nature que dans l’exemple 7.1 : ⎛ ⎞ ¯ −μ ⎜ (n−1) X (n−1) ⎟ ⎟ < t P⎜ −t < 0,975 0,975 ⎠ = 0,95 ⎝ S √ n (n−1)
est la notation adopt´ee pour le quantile d’ordre α de la loi de Student o` u tα `a n − 1 d.d.l. (degr´es de libert´e) dont nous rappelons que, comme la loi de Gauss, elle est sym´etrique par rapport a` 0. Il s’ensuit que : (n−1) S (n−1) S ¯ ¯ = 0,95 P X − t0,975 √ < μ < X + t0,975 √ n n et le r´ esultat tr` es classique : (n−1) s (n−1) s IC0,95 (μ) = x ¯ + t0,975 √ . ¯ − t0,975 √ , x n n
Chapitre 7. Estimation param´etrique par intervalle de confiance
145
Notons que les quantiles des lois de Student sont donn´es dans toutes les tables statistiques usuelles. La largeur de cet IC, dont on peut montrer qu’elle est minimale par rapport `a d’autres ´eventuelles proc´edures, d´epend d’une part de la taille d’´echantillon et d’autre part de la dispersion mˆeme de la loi m`ere (ou, en pratique, de la variable ´etudi´ee dans la population) a` travers l’estimation s de son ´ecart-type σ. Plus la population est homog`ene et plus la taille d’´echantillon est ´elev´ee, plus l’estimation sera pr´ecise. Les praticiens utilisent cette formule sans se soucier de la « normalit´e » de la loi m`ere. Ceci est, de fait, justifi´e d’une part grˆace au th´eor`eme central ¯ X−μ √ soit limite qui assure, avec des conditions g´en´eralement r´ealistes, que σ/ n `a peu pr`es gaussien d`es lors que n est assez grand (rappelons que n > 30 est, en pratique, bien suffisant) et, d’autre part, grˆ ace `a la convergence de la variance d’´echantillon Sn2 en tant qu’estimateur de σ 2 . En r´ealit´e le deuxi`eme point n’est pas si clair. En effet, si cette convergence est op´erante pour de grands ´echantillons, disons plus d’une centaine d’observations (auquel cas on applique simplement une approximation par la loi de Gauss), on peut se poser la question pour de plus petits ´echantillons dans la mesure o` u, pour une loi 2 (n−1)Sn peut suivre une loi qui s’´ e carte sensiblement de la loi m`ere quelconque, σ2 χ2 (n − 1) th´eoriquement requise (voir th´eor`eme 5.1). N´eanmoins on a montr´e que l’approximation de Student reste relativement satisfaisante. Ceci explique le caract`ere quasi universel de la formule pour IC0,95 (μ), dont on peut dire qu’elle fournit un IC approch´e dans des situations non param´etriques puisqu’elle est valable pour une grande vari´et´e de lois (pour le th´eor`eme central limite, il suffit que la variance existe, ce qui est aussi suffisant pour la convergence de Sn2 , selon la proposition 6.1). Cependant, dans les cas param´etriques simples, les formules d’IC ´etablies en tenant compte des sp´ecificit´es de la famille consid´er´ee seront plus pr´ecises. Ainsi, s’il s’agit d’estimer la moyenne λ d’une loi de Poisson, le r´esultat obtenu dans l’exemple 7.3 est pr´ef´erable car il int`egre le fait que la variance de la loi est λ et qu’elle n’a pas besoin d’ˆetre estim´ee ind´ependamment par la variance de l’´echantillon. Revenons maintenant sur la situation o` u σ 2 est connu qui, bien que pr´esent´ee dans tous les ouvrages, est un cas d’´ecole car rares sont les situations pratiques de ce type. Elles ne sont toutefois pas inexistantes. Ainsi certaines machines-outils devant usiner des pi`eces selon une certaine cote provoquent, lorsqu’elles se d´er`eglent, un d´eplacement de la valeur moyenne mais conservent le mˆeme al´ea, c’est-`a-dire la mˆeme variance. u, par En fait, le cas o` u σ 2 est connu a ´et´e trait´e dans l’exemple 7.1 o` commodit´e, on a suppos´e σ2 = 1. L’IC obtenu est donc : σ σ IC0,95 (μ) = x ¯ + 1,96 √ . ¯ − 1,96 √ , x n n Par contraste avec le pr´ec´edent IC o` u σ 2 est inconnu, les quantiles sont `a 2 lire sur la loi de Gauss du fait que σ n’a pas `a ˆetre estim´e.
Statistique − La th´eorie et ses applications
146
7.4.2
IC pour la variance σ 2 d’une loi de Gauss
Nous supposerons que μ est ´egalement inconnu. Le cas d’´ecole o` u μ est connu est propos´e en exercice et s’op`ere par une voie analogue. Reprenons le r´esultat du th´eor`eme 5.1 : (n − 1)S 2 ; χ2 (n − 1), σ2 d’o` u:
(n − 1)S 2 2 (n−1) < < χ0,975 σ2
2 (n−1)
P
χ0,025
= 0,95
2 (n−1)
d´enote le quantile d’ordre α de la loi χ2 (n − 1). Ces quantiles se o` u χα trouvent dans les tables statistiques ordinaires. On peut directement isoler σ 2 pour obtenir : P
(n − 1)S 2 2 (n−1)
< σ2 <
(n − 1)S 2
χ0,975 et
2
IC0,95 (σ ) =
2 (n−1)
= 0,95
χ0,025
(n − 1)s2 2 (n−1)
χ0,975
,
(n − 1)s2 2 (n−1)
.
χ0,025
Cet intervalle de confiance est peu robuste vis-`a-vis de l’hypoth`ese gaussienne, contrairement a` celui sur μ. On ne peut donc l’utiliser dans des situations o` u la loi m`ere diff`ere d’une loi normale. Ceci est vrai mˆeme pour une grande taille d’´echantillon car on montre (voir section 8.2.2) que la loi asymp√ totique de S 2 (plus pr´ecis´ement de n(S 2 − σ 2 ) ) d´epend de la loi m`ere. Note 7.5 Suivant la note 7.4, on peut d´eduire un IC pour l’´ ecart-type σ de celui sur la variance : ⎡% ⎤ % (n − 1)s (n − 1)s ⎦ IC0,95 (σ) = ⎣ ( ,( . 2 (n−1) 2 (n−1) χ0,975 χ0,025 Au passage, on peut comparer la variabilit´e de l’´ecart-type empirique S et ¯ pour une loi de Gauss tout du moins. En premi`ere de la moyenne empirique X, approximation, en appliquant la formule pour une fonction d’une v.a. ´etablie en σ2 ¯ = σ2 . La fluctuation alors que V (X) section 2.6, V (S) 4σ1 2 V (S 2 ) = 2(n−1) n de S est plus faible, ce qui se retrouve au niveau des pr´ecisions des IC (voir exercices).
Chapitre 7. Estimation param´etrique par intervalle de confiance
7.4.3
147
IC sur la diff´ erence des moyennes de deux lois de Gauss
Nous consid´erons ici deux lois m`eres (en pratique, souvent, deux populations) et souhaitons construire un IC sur la diff´erence de leurs moyennes. Citons comme exemples l’´ecart entre la taille moyenne des filles et des gar¸cons a` l’ˆ age de douze ans, l’´ecart de revenu moyen des actifs entre telle et telle r´egion. Pour cela on dispose de deux ´ echantillons al´ eatoires ind´ ependants pris dans chaque population (le fait de prendre une sœur et un fr`ere pour l’exemple de la taille ne respecterait pas cette hypoth`ese d’ind´ependance des deux ´echantillons). La proc´edure classique que nous allons d´evelopper suppose que les deux lois ont mˆ eme variance σ 2 . Soit un ´echantillon de taille n1 issu de la loi 2 N (μ1 , σ ) et un ´echantillon, ind´ependant du premier, de taille n2 , issu de ¯ 1 et S 2 , moyenne et variance empiriques du premier la loi N (μ2 , σ 2 ). Soit X 1 ¯ 2 et S22 pour le deuxi`eme ´echantillon. On a : ´echantillon et de mˆeme X 2
¯ 1 ; N (μ1 , σ ) X n1 2 ¯ 2 ; N (μ2 , σ ) X n2 et
¯ 2 ; N (μ1 − μ2 , σ 2 ( 1 + 1 )) ¯1 − X X n1 n2 ¯ 2 ) − (μ1 − μ2 ) ¯1 − X (X ) ; N (0 ; 1) . 1 1 σ + n1 n2
Le probl`eme qui se pose est celui de l’estimation de σ que l’on effectue, en (n −1)S 2 (n −1)S 2 fait, via σ 2 . Sachant que 1 σ2 1 ; χ2 (n1 − 1) et 2 σ2 2 ; χ2 (n2 − 1), l’ind´ependance des deux ´echantillons entraˆıne (voir proposition 5.7) que : (n1 − 1)S12 + (n2 − 1)S22 ; χ2 (n1 + n2 − 2) . σ2 ¯ 2 centr´ee-r´eduite `a la racine carr´ee de ¯1 − X En faisant le rapport de la v.a. X la v.a. ci-dessus divis´ee par ses degr´es de libert´e, et en posant : Sp2 = on obtient :
(n1 − 1)S12 + (n2 − 1)S22 , n1 + n 2 − 2
¯1 − X ¯ ) − (μ1 − μ2 ) (X )2 ; t(n1 + n2 − 2) 1 1 Sp + n1 n2
148
Statistique − La th´eorie et ses applications
(voir les d´eveloppements similaires du th´eor`eme 5.2). La fonction ci-dessus est une fonction pivot qui aboutit imm´ediatement `a : ) 1 1 (n1 +n2 −2) x1 − x ¯2 ) ± t0,975 sp + IC0,95 (μ1 − μ2 ) = (¯ n1 n2 o` u:
(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2 est la variance empirique pond´er´ee en fonction des tailles d’´echantillon respectives. s2p =
Qu’en est-il de la condition tr`es restrictive d’´egalit´e des variances ? En fait, on a pu montrer que celle-ci n’est pas si cruciale si les tailles d’´echantillons n1 et n2 diff`erent peu. Dans ce cas un facteur 2 pour le rapport des variances reste acceptable. En revanche si n1 et n2 diff`erent substantiellement la formule ci-dessus s’applique mal quand les variances ne sont pas proches. Alors on peut effectuer les mˆemes d´eveloppements que pr´ec´edemment en introduisant les variances respectives des deux lois σ12 et σ22 pour obtenir : ¯1 − X ¯ 2 ) − (μ1 − μ2 ) (X ; N (0 ; 1) σ22 σ12 + n1 n2 et, si les tailles d’´echantillons sont ´elev´ees, disons au-del`a d’une centaine, conserver une approximation raisonnable en substituant a` σ12 et σ22 leurs estimations u : s21 et s22 , d’o` s2 s21 IC0,95 (μ1 − μ2 ) (¯ x1 − x ¯2 ) ± 1,96 + 2. n1 n2 On remarquera que si n1 = n2 cette formule est identique `a celle du cas o` u σ12 = σ22 (mis `a part les quantiles d’ordre 0,975 qui seront cependant pratiquement identiques pour les grands ´echantillons). D’autres formules d’approximation plus pr´ecises ont ´et´e d´evelopp´ees, mais elles donnent des r´esultats num´eriques proches de ceux obtenus avec l’hypoth`ese d’´egalit´e des variances ce qui encourage peu leur utilisation par les praticiens. Indiquons qu’il existe un usage assez r´epandu consistant a` effectuer au pr´ealable un test de l’hypoth`ese d’´egalit´e des variances comme propos´e en section 9.7.4. Mˆeme si l’on peut admettre que cela a l’avantage de constituer un garde-fou, cette proc´edure ne fournit pas une garantie suffisante quant a` l’applicabilit´e de la formule classique en cas d’acceptation de l’hypoth`ese par le test. Quant `a l’usage de celle-ci en dehors des conditions de «normalit´e» des deux lois, il est acceptable pour les mˆemes raisons que celles expos´ees dans le cas
Chapitre 7. Estimation param´etrique par intervalle de confiance
149
d’une seule loi (section 7.4.1). En r´esum´e, le point critique est une diff´erence trop sensible des dispersions des deux lois. Cas des ´ echantillons appari´ es Dans la mesure o` u cela est possible, on gagnera en pr´ecision (i.e. en largeur d’intervalle) en associant les deux ´echantillons par paires ayant les mˆemes valeurs sur une ou plusieurs variables auxiliaires, dites variables de contrˆ ole. Le gain sera d’autant plus important que ces variables auxiliaires seront li´ees `a la variable ´etudi´ee. S’il s’agit, par exemple, de comparer les effets de deux mol´ecules sur la r´eduction de l’hypertension on mettra en œuvre un plan d’exp´erience associant des paires d’individus de mˆeme ˆage, mˆeme sexe, mˆeme niveau d’hypertension initial. Souvent il s’agit de mesures r´ep´et´ees sur le mˆeme ´echantillon, l’appariement ´etant alors parfait. Les d´eveloppements pr´ec´edents ne sont plus possibles du fait que les deux ´echantillons ne sont plus ind´ependants. On contourne ce probl`eme en raisonnant sur la v.a. D «diff´erence entre individus appari´es» pour se ramener au cas d’une seule loi. Ceci est justifi´e du fait que E(D) = E(X1 − X2 ) = μ1 − μ2 . En notant d¯ la moyenne des diff´erences entre les n paires observ´ees et sd l’´ecart-type de ces diff´erences, on a : (n−1) sd IC0,95 (μ1 − μ2 ) = d¯ ± t0,975 √ . n Les consid´erations de «robustesse» de la formule par rapport a` l’hypoth`ese de normalit´e vues en section 7.4.1 restent valables.
7.4.4
IC sur le rapport des variances de deux lois de Gauss
On consid`ere le rapport
σ12 σ22
pour les lois N (μ1 , σ1 ) et N (μ2 , σ2 ). Comme :
(n1 − 1)S12 ; χ2 (n1 − 1) σ12
et
(n2 − 1)S22 ; χ2 (n2 − 1) , σ22
on a, par application des r´esultats de la section 5.5 : S12 /σ12 S22 /σ22 D’o` u:
P
(n −1,n2 −1)
1 F0,025
;
<
F (n1 − 1, n2 − 1).
S12 /σ12 (n1 −1,n2 −1) < F0,975 S22 /σ22
= 0,95 ,
150
Statistique − La th´eorie et ses applications
soit finalement apr`es pivotement et compte tenu du fait (voir proposition 5.11) (ν ,ν ) (ν2 ,ν1 ) que Fα 1 2 = 1/F1−α , 2 σ12 s1 (n2 −1,n1 −1) s21 (n2 −1,n1 −1) , 2 F0,975 . IC0,95 ( 2 ) = 2 F0,025 σ2 s2 s2 Comme pour la proc´edure relative a` une variance (section 7.4.2), cette formule n’est pas robuste lorsque les lois s’´ecartent de lois gaussiennes. Son usage est donc tr`es limit´e.
7.4.5
IC sur le param` etre p d’une loi de Bernoulli
Rappelons, pour les applications, que p peut ˆetre la probabilit´e `a estimer pour l’occurrence d’un ´ev´enement (succ`es). Dans le cas d’un sondage al´eatoire simple sans remise dans une grande population (taux de sondage inf´erieur a 0,10, voir section 3.7), p est la proportion d’individus poss´edant un cer` tain caract`ere dans cette population. C’est pourquoi on parle g´en´eralement d’intervalle de confiance pour une proportion. Les enquˆetes estimant pour l’essentiel des proportions (ou pourcentages), les r´esultats qui suivent vont fournir les «fourchettes» de pr´ecision des sondages. La statistique sur laquelle se fondent les r´esultats est Sn le nombre total de succ`es parmi les n r´ep´etitions dont la loi exacte est B(n, p). C’est une statistique exhaustive minimale pour le param`etre p de la loi m`ere de Bernoulli. Comme c’est le plus souvent le cas pour des distributions discr`etes, on ne peut mettre en ´evidence une fonction pivot. Pour obtenir des IC exacts on doit recourir `a la m´ethode des quantiles expos´ee en section 7.5. Cette m´ethode pr´eside `a l’´elaboration d’abaques et de tables ainsi qu’aux r´esultats fournis par les logiciels. Pour l’heure nous pr´esentons le r´esultat classique obtenu par l’approche asymptotique qui s’applique dans la plupart des cas du fait des tailles d’´echantillons courantes. Suite au th´eor`eme central limite nous avons vu (section 5.8.3) que la loi B(n, p) de Sn peut ˆetre approch´ee convenablement par la loi de Gauss N (np, np(1 − p)) pourvu que np > 5 et n(1 − p) > 5. D’o` u : Sn − np % np(1 − p)
;
approx
N (0 ; 1)
qui met en ´evidence une v.a. de loi asymptotiquement ind´ependante de p et ainsi, en n´egligeant la correction de continuit´e (voir section 5.8.3) : Sn − np < 1,96 0,95. P −1,96 < % np(1 − p) Pour ce qui concerne le pivotement nous sommes dans une situation analogue `a celle rencontr´ee pour le param`etre λ de la loi de Poisson de l’exemple 7.3,
Chapitre 7. Estimation param´etrique par intervalle de confiance
151
`a savoir que la double in´egalit´e se ram`ene `a une in´egalit´e du second degr´e en p que l’on peut r´esoudre : (Sn − np)2 ≤ (1,96)2 . np(1 − p) Donnons la solution finale pour l’IC, en fonction de la fr´equence relative observ´ee pˆ, r´ealisation de Pn = Sn /n : ) 2 pˆ + (1,96) (1,96)4 1 (1,96)2 2n pˆ(1 − pˆ) + ± (1,96)2 (1,96)2 n 4n2 1+ 1+ n
n
qui, bien que d´evelopp´ee dans divers ouvrages, n’est jamais utilis´ee. En effet, les conditions de validit´e de l’approximation gaussienne np > 5 et n(1 − p) > 5 n’´etant pas v´erifiables puisque p est inconnu, on leur substitue des conditions reposant sur pˆ, lesquelles doivent ˆetre plus restrictives du fait que pˆ est une estimation de p. Une r`egle simple consiste `a v´erifier que nˆ p(1 − pˆ) > 12. Comme pˆ(1 − pˆ) reste inf´erieur ou ´egal `a 1/4, cette r`egle implique 4/n < 2 1/12. Alors on peut n´egliger le terme (1,96) devant 1, donc devant pˆ et devant n 4ˆ p(1 − pˆ), pour ne conserver finalement que la formule tr` es classique : ) pˆ(1 − pˆ) IC0,95 (p) pˆ ± 1,96 . n Comme pour l’exemple 7.3 on obtient directement cette formule en estimant la variance np(1 − p) par nPˆn (1 − Pˆn ), car : ⎞ ⎛ ˆn − np n P < 1,96⎠ 0,95 P ⎝−1,96 < ( ˆ ˆ nPn (1 − Pn ) entraˆıne : ⎛ P ⎝Pˆn − 1,96
Pˆn (1 − Pˆn ) < p < Pˆn + 1,96 n
⎞ ˆ ˆ Pn (1 − Pn ) ⎠ 0,95. n
Cette approche par le th´eor`eme central limite co¨ıncide avec l’approche par 1 pour la loi de Bernoulli. Notons que la pr´el’EMV du fait que I(p) = p(1−p) ( ˆ p) ˆ cision absolue (terme consacr´e en m´ethodologie des sondages) : 1,96 p(1− , n diminue quand pˆ se rapproche de 0 (n ´etant fix´e), mais que la pr´ecision relative : % 1, 96 1 − pˆ 1, 96 pˆ(1 − pˆ) √ = √ pˆ pˆ n n tend vers l’infini.
152
Statistique − La th´eorie et ses applications
Exemple 7.5 Soit un sondage aupr`es d’un ´echantillon de 1 000 personnes que l’on supposera avoir ´et´e s´electionn´ees au hasard dans la population fran¸caise des personnes ˆag´ees de 18 ans et plus. A la question «Avez-vous une activit´e sportive au moins une fois par semaine ?» 415 personnes ont r´epondu affirmativement. Le pourcentage r´eel dans la population est donc estim´e par : ) (0, 415)(0, 585) , 0,415 ± 1,96 1 000 soit 0,415±0,031. ˆ(1 − pˆ) La pr´ecision relative est 0,031 0,415 =0,074 ou 7,4 %. Comme la fonction p reste entre 0,24 et 0,25 pour pˆ ∈ [0,40 ; 0,60] on peut retenir que la pr´ecision d’un sondage aupr`es de 1 000 personnes est (au mieux, ´etant donn´e les imperfections pratiques) de 0,03 soit, en pourcentage, de 3% pour une proportion situ´ee entre 40% et 60%. Un probl`eme classique est celui du calcul de la taille d’´ echantillon pour atteindre une pr´ecision absolue donn´ee et nous prendrons 1% (ou 0,01) pour exemple. Si l’on n’a aucune id´ee de la valeur de p on peut utiliser le fait que pˆ(1 − pˆ) ≤ 14 , le maximum ´etant atteint pour pˆ = 12 , et la pr´ecision sera au pire ( 1 . Donc, en prenant n tel que : de 1, 96 4n ) 1,96
soit n =
1 = 0,01 4n
(1,96)2 ou n 9600, 4(0,01)
on est sˆ ur d’atteindre la pr´ecision souhait´ee. Si l’on a une connaissance a priori sur l’ensemble des valeurs plausibles de p (et donc, par assimilation, sur pˆ) on effectue le mˆeme calcul en rempla¸cant pˆ(1 − pˆ) par son maximum sur cet ensemble.
7.4.6
IC sur la diff´ erence des param` etres de deux lois de Bernoulli
Soient les deux lois de Bernoulli B(p1 ) et B(p2 ) et deux ´ echantillons ind´ ependants issus respectivement de celles-ci, de tailles n1 et n2 . On s’int´eresse `a un IC sur p1 − p2 . Les applications sont fr´equentes dans les sondages pour comparer les proportions de deux sous-populations dans le choix d’une modalit´e de r´eponse `a une question donn´ee. On a donc aussi coutume de parler d’intervalles de confiance sur la diff´ erence de deux proportions . Pour respecter l’hypoth`ese d’ind´ependance des ´echantillons, les deux sous-populations
Chapitre 7. Estimation param´etrique par intervalle de confiance
153
doivent ˆetre totalement distinctes de fa¸con `a donner des sous-´echantillons euxmˆemes totalement distincts. Dans ce qui suit, n1 et n2 sont suppos´ees fix´ees, ce qui n’est pas forc´ement le cas dans cet exemple de sondage o` u seule la taille globale de l’´echantillon n est fix´ee et les tailles de sous-´echantillons sont le r´esultat du hasard, mais ceci n’a pas vraiment d’incidence sur les r´esultats ´etablis ci-apr`es (voir `a ce propos la note 9.6). Nous ne donnerons qu’un d´eveloppement asymptotique qui suppose que les quatre expressions n1 p1 , n1 (1 − p1 ), n2 p2 et n2 (1 − p2 ) soient toutes sup´erieures ou ´egales `a 5. Les param`etres p1 et p2 ´etant inconnus on peut utiliser en subp2 (1 − pˆ2 ) > 12. stitution les conditions nˆ p1 (1 − pˆ1 ) > 12 et nˆ Soit Pˆ1 et Pˆ2 les v.a. «proportions de succ`es» respectives de chaque ´echantillon. On a alors : p1 (1 − p1 ) p2 (1 − p2 ) ˆ ˆ et P2 ; N p2 , , P1 ; N p1 , approx approx n1 n2 puis :
Pˆ1 − Pˆ2 ; N approx
p1 − p2 ,
p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2
.
Les variances s’additionnent en raison de l’ind´ependance des deux ´echantillons et donc des statistiques Pˆ1 et Pˆ2 . En estimant les variances par Pˆ1 (1 − Pˆ1 )/n1 et Pˆ2 (1 − Pˆ2 )/n2 , puis en centrant et r´eduisant, on a : ⎞ ˆ1 − Pˆ2 ) − (p1 − p2 ) ( P ≤ 1,96⎠ 0,95 , P ⎝−1,96 ≤ ( Pˆ1 (1−Pˆ1 ) Pˆ2 (1−Pˆ2 ) + n1 n2 ⎛
ce qui pivote imm´ediatement pour isoler p1 −p2 et donne finalement la formule : p1 (1 − p1 ) p2 (1 − p2 ) p1 − p2 ) ± 1,96 + . IC0,95 (p1 − p2 ) = ( n1 n2 On trouvera dans les exercices des applications illustrant l’int´erˆet de cette formule. Signalons, sans d´evelopper, qu’il existe une proc´edure exacte pour les petits ´echantillons fond´ee sur la proc´edure exacte de test correspondante (voir section 9.7.6). Il existe de mˆeme une proc´edure pour le cas d’´echantillons appari´es.
7.5
IC par la m´ ethode des quantiles
Nous pr´esentons cette m´ethode, mˆeme si elle n’est pas d’un usage tr`es r´epandu, parce qu’elle est `a la base des tables et abaques donnant des IC pour
154
Statistique − La th´eorie et ses applications
des petits ´echantillons, notamment pour la loi de Bernoulli et pour la loi de Poisson. Nous exposerons la d´emarche dans le cas continu qui est plus simple et indiquerons son adaptation au cas discret. La m´ethode exige que l’on dispose d’un estimateur T de θ dont l’expression ur avantageux que cet estimateur de la densit´e fT (t; θ) est connue. Il sera bien sˆ soit de bonne qualit´e. Il est ´egalement n´ecessaire que la fonction de r´epartition FT (t; θ) soit, pour t fix´e et quelconque, une fonction strictement monotone de θ et nous supposerons qu’elle soit, par exemple, strictement d´ecroissante. Cela signifie que le graphe de la densit´e se d´eplace vers la droite quand θ augmente. D´efinissons la fonction t0,025 (θ) qui a` chaque valeur de θ associe le quantile d’ordre 0,025 de la loi correspondante. Cette fonction est strictement croissante. En effet, pour θ > θ, on a : FT (t0,025 (θ); θ) = 0, 025 > FT (t0,025 (θ); θ ) et t0,025 (θ) est donc un quantile d’ordre inf´erieur `a 0,025 pour la loi correspondant a` θ . Ainsi t0,025 (θ ), le quantile d’ordre 0,025 de cette derni`ere, est sup´erieur a` t0,025 (θ). D´efinissons de mˆeme la fonction t0,975 (θ) qui a` chaque valeur de θ associe le quantile d’ordre 0,975 de la loi correspondante. Cette fonction est ´egalement strictement croissante. Ayant observ´e T = t, l’IC `a 95% pour θ par la m´ethode des quantiles est [θ1 , θ2 ] o` u θ1 est tel que t0,975 (θ1 ) = t et θ2 est tel que t0,025 (θ2 ) = t (voir la figure 7.1). En d’autres termes, θ1 est la valeur dans Θ dont la loi correspondante a pour quantile d’ordre 0,975 la valeur observ´ee t et de mˆeme pour θ2 avec le quantile d’ordre 0,025. Les fonctions t0,975 (θ) et t0,025 (θ) ´etant −1 monotones on peut ´ecrire θ1 = t−1 0,975 (t) et θ2 = t0,025 (t). Montrons qu’on a bien en amont une proc´edure d’intervalle de confiance de −1 niveau 0,95. Consid´erons donc l’intervalle al´eatoire [t−1 0,975 (T ) , t0,025 (T )]. On a : −1 Pθ t−1 0,975 (T ) < θ < t0,025 (T ) = Pθ (t0,025 (θ) < T < t0,975 (θ)) ce qui, quel que soit θ, est, par d´efinition des quantiles, ´egal `a 0,95. L’application de cette proc´edure `a la loi U[0, θ] est propos´ee en exercice. Cas d’une loi discr` ete Int´eressons-nous maintenant `a une famille de lois discr`etes pour laquelle la statistique T sera ´egalement discr`ete de fonction de probabilit´e pT (x; θ) et de fonction de r´epartition FT (t; θ) strictement d´ecroissante en θ comme pr´ec´edemment. De plus, pour simplifier les ´ecritures nous supposerons que pour tout θ l’ensemble des valeurs possibles de T est N. La proc´edure ci-dessus n’est plus possible car, en raison des sauts de discontinuit´e de FT (t; θ), on ne peut pas syst´ematiquement associer a` un θ donn´e un quantile d’ordre exactement
Chapitre 7. Estimation param´etrique par intervalle de confiance
t
155
t0,975(θ) t0,025(θ)
t observé
θ1
θ2
IC0,95
θ
Figure 7.1 - Intervalle de confiance par la m´ethode des quantiles.
´egal `a 0,025 ou 0,975. En revanche, pT (t; θ) ´etant g´en´eralement continue en θ, pour t donn´e on peut toujours trouver θ1 tel que : FT (t; θ1 ) =
t
pT (x; θ1 ) = 0, 975
x=0
et de mˆeme on peut trouver θ2 tel que FT (t; θ2 ) = 0, 025. −1 En d’autres termes, pour tout t ∈ N, t−1 efinis. En fait 0,975 (t) et t0,025 (t) sont d´ on montre (voir la note 7.6) que si l’on veut garantir pour tout θ une probabilit´e au moins ´ egale ` a 0,95 (on dit alors que la proc´edure est conservatrice) on doit prendre, ayant observ´e t, comme intervalle de confiance :
IC0,95 (θ) = [θ1 , θ2 ] o` u : θ1 est tel que θ2 est tel que
t−1 x=0 t x=0
pT (x; θ1 ) = 0,975 , pT (x; θ2 ) = 0,025.
156
Statistique − La th´eorie et ses applications
Exemple 7.6 Soit la famille des lois de Poisson et un ´echantillon de taille 7 issu de la loi P(λ) o` u λ est inconnu. La statistique efficace (voir section 6.6.3) 7 T = i=1 Xi suit une loi P(7λ). Le graphe de la fonction de probabilit´e d’une loi de Poisson P(ρ) se d´epla¸cant vers la droite quand ρ augmente, la fonction de r´epartition FT (t; ρ) doit ˆetre strictement d´ecroissante en ρ pour t fix´e. Montrons-le rigoureusement. On a : FT (t; ρ) =
t e−ρ ρx x! x=0
t ∂ xe−ρ ρx−1 − e−ρ ρx FT (t; ρ) = −e−ρ + ∂ρ x! x=1
=
t e−ρ ρx−1
(x − 1)!
−
x=1 −t t
=−
e ρ t!
t e−ρ ρx x! x=0
< 0.
Supposons que l’on ait observ´e un total des observations u: L’IC pour λ `a 95% est donn´e par [λ1 , λ2 ] o` λ1 est tel que λ2 est tel que
17 e−7λ1 (7λ1 )x x=0 18
x!
7 i=1
xi = 18.
= 0,975 ,
e−7λ2 (7λ2 )x = 0,025. x! x=0
En recourant a` un logiciel math´ematique on trouve les solutions 7λ1 =10,7 et 7λ2 =28,4 soit finalement : 10,7 28,4 IC0,95 (λ) = ; = [1,53 ; 4,06] . 7 7 En exercice 7.4, on montrera comment on peut ´egalement r´esoudre les deux ´equations ci-dessus `a l’aide d’une table des lois du Khi-deux. Comparons ce r´esultat avec celui de la formule asymptotique de l’exemple 7.3 : ) 18/7 18 ± 1, 96 IC0,95 (λ) = 7 7 = [1,38 ; 3,76]. Ce dernier est un peu plus ´etroit mais, ´etant approch´e, on ne peut garantir le niveau 0,95 , a` savoir que la probabilit´e de couverture de λ par la m´ethode asymptotique n’est pas n´ecessairement ´egale ou sup´erieure `a 0,95 pour tout
Chapitre 7. Estimation param´etrique par intervalle de confiance
157
7 λ. Si l’on avait trouv´e i=1 xi = 50, la proc´edure conservatrice aurait donn´e l’intervalle [5,29 ; 9,41] et la proc´edure asymptotique [5,16 ; 9,12]. De fait, les proc´edures se rapprochent quand λ augmente. Dans les tables ou les logiciels statistiques n ´elabor´es on obtient directement les valeurs nλ1 et nλ2 pour les valeurs de i=1 xi de 0 `a 50. Au-del`a, on peut utiliser l’IC asymptotique. L’approche est identique pour un IC sur le param`etre p dela loi de n Bernoulli pour laquelle statistique T est ´egalement la somme i=1 Xi (le nombre totalde succ`es), de loi B(n, p). Ici il faut tenir compte `a la fois de n la valeur de i=1 xi et de celle de n. C’est pourquoi les bornes de l’IC sont donn´ees sous forme d’abaques. Un exemple pour cette loi est propos´e dans les exercices. Note 7.6 Montrons que la proc´edure adopt´ee pour le cas discret est conservatrice. Pour la valeur t observ´ee, la borne θ1 est telle que FT (t − 1; θ1 ) = 0, 975. Calculons pour un θ quelconque Pθ (θ1 (T ) ≤ θ). L’´ev´enement {θ1 (T ) ≤ θ} est la partie A de N d´efinie par A = {t | |θ1 (t) ≤ θ} ou, puisque FT (u; θ) est strictement d´ecroissante en θ pour u fix´e quelconque, de fa¸con ´equivalente,
A = {t | FT (t − 1; θ1 ) ≥ FT (t − 1; θ)} = {t | FT (t − 1; θ) ≤ 0, 975}. A est donc constitu´e de toutes les valeurs de t de 0 `a t0 o`u t0 est la premi`ere valeur telle que FT (t0 ; θ) > 0, 975. D’o` u P (A) = FT (t0 ; θ) > 0, 975. Par la mˆeme argumentation on peut montrer que Pθ (θ ≤ θ2 (T )) > 0, 975 pour tout θ, d’o` u Pθ (θ1 (T ) < θ < θ2 (T )) > 0, 975 − 0, 025 = 0, 95.
7.6
Approche bay´ esienne
Dans cette approche nous avons vu en section 6.8 que le param`etre θ avait un statut de variable al´eatoire. A la notion d’intervalle de confiance de niveau γ on substitue la notion d’intervalle de probabilit´e γ sur la loi a posteriori de θ. On encadrera donc simplement θ avec les quantiles d’ordre 0,025 et 0,975 sur cette loi. Exemple 7.7 Reprenons l’exemple 6.23 de l’estimation du param`etre p d’une loi de Bernoulli avec une loi a priori U[0, 1]. La loi a posteriori est une loi Beta(s, n − s), o` u s est le nombre de succ`es, dont on peut trouver les quantiles dans les logiciels statistiques ou dans les tables. Supposons que pour n = 20 r´ep´etitions on ait observ´e s = 8 succ`es. On lit dans une table les quantiles d’ordres 0,025 et 0,975 de la loi Beta(8; 12) : 0,22 et 0,62 respectivement. D’o` u l’intervalle de probabilit´e 0,95 pour p : [0,22 ; 0,62], a` comparer avec l’intervalle [0,19 ; 0,64] indiqu´e par la m´ethode des quantiles dans l’exercice 7.5.
158
7.7
Statistique − La th´eorie et ses applications
Notions d’optimalit´ e des IC
Le premier crit`ere d’optimalit´e est celui de largeur minimale des intervalles produits par la proc´edure. C’est d’ailleurs cette id´ee qui nous a conduit `a choisir les quantiles de fa¸con sym´etrique sur les extr´emit´es de la distribution (soit les quantiles d’ordre 1−γ et 1+γ pour un IC de niveau 1 − γ) dans la mesure 2 2 o` u l’on obtient ainsi l’intervalle le plus court lorsque la distribution concern´ee est sym´etrique avec un seul mode (voir note 7.1). Nous d´efinissons ci-apr`es la notion de proc´edure de largeur minimale qui explicite le fait que l’IC doit ˆetre le plus court quelle que soit la r´ealisation (x1 , x2 , · · · , xn ). D´ efinition 7.4 Une proc´edure d’IC est dite de largeur minimale au niveau γ si la largeur de son IC de niveau γ : [t1 (x1 , x2 , · · · , xn ), t2 (x1 , x2 , · · · , xn )], est inf´erieure a ` celle de tout autre IC d´eriv´e d’une proc´edure de niveau ´egal ou sup´erieur a ` γ, et ceci pour toute r´ealisation (x1 , x2 , · · · , xn ). Il n’est ´evidemment pas ais´e de d´egager une telle proc´edure. Cela ne peut ˆetre fait que dans quelques cas simples mais, en g´en´eral, une telle proc´edure n’existera pas. Un crit`ere plus faible consiste `a raisonner non pas pour toute r´ealisation, mais par rapport a` l’esp´erance math´ematique de la largeur de l’intervalle Eθ [t2 (X1 , X2 , · · · , Xn ) − t1 (X1 , X2 , · · · , Xn )] quel que soit θ. Cependant il existe un r´esultat asymptotique int´eressant concernant la proc´edure de la section 7.3 reposant sur l’estimateur du maximum de vraisemblance, r´esultat qui d´ecoule de l’optimalit´e asymptotique de celui-ci (voir proposition 6.11) : sous certaines conditions de r´egularit´e cette proc´edure fournira une largeur d’intervalle qui, en esp´erance math´ematique, tendra a` ˆetre minimale pour n → ∞. Un autre crit`ere d’optimalit´e est fourni par la notion de proc´edure uniform´ement plus pr´ecise. Cette notion semblera ici quelque peu complexe mais elle deviendra plus claire lorsqu’aura ´et´e vue la notion duale de test uniform´ement plus puissant au chapitre 9. ement plus D´ efinition 7.5 Une proc´edure d’IC (T1∗ , T2∗ ) est dite uniform´ pr´ ecise au niveau γ qu’une proc´edure (T1 , T2 ) si, ´etant toutes deux de niveau γ, on a : Pθ (T1∗ < θ < T2∗ ) ≤ Pθ (T1 < θ < T2 ) pour tout θ ∈ Θ et pour tout θ ∈ Θ diff´erent de θ, l’in´egalit´e ´etant stricte pour au moins une valeur de θ. En d’autres termes, la proc´edure sera plus pr´ecise si la probabilit´e d’encadrer une valeur θ autre que la vraie valeur de θ reste plus faible. L’objectif sera alors de rechercher, si elle existe, la proc´edure uniform´ement la plus pr´ecise (en anglais : uniformly most accurate ou UMA) parmi l’ensemble des proc´edures de niveau ´egal (ou sup´erieur) a` γ.
Chapitre 7. Estimation param´etrique par intervalle de confiance
159
Enfin, on peut souhaiter d’une proc´edure que la largeur des IC fournis tende vers 0 quand la taille de l’´echantillon s’accroˆıt. D´ efinition 7.6 Soit une proc´edure d’IC fond´ee pour n ∈ N∗ sur l’intervalle al´eatoire [T1,n , T2,n ]. On dit que cette proc´edure est convergente en probabilit´e si la suite {T2,n − T1,n } est telle que : T2,n − T1,n
p
−→
n→∞
0.
´ Etant donn´e que, pour chaque n, l’intervalle [T1,n , T2,n ] doit contenir la vraie valeur de θ avec une forte probabilit´e, cet intervalle se r´eduira, a` la limite, `a cette valeur. Prenons par exemple l’intervalle : (n−1) Sn (n−1) Sn ¯ ¯ Xn − t0,975 √ , Xn + t0,975 √ n n de la proc´edure classique pour la moyenne μ de la loi N (μ , σ2 ) vue en sec(n−1) Sn tion 7.4.1. La largeur de l’intervalle est 2 t0,975 √ . Comme Sn2 converge en n 2 probabilit´e vers σ , Sn converge vers σ et la largeur converge en probabilit´e ¯ n converge vers μ et cet intervalle se r´eduit a` μ `a l’infini. vers 0. Par ailleurs X Cette propri´et´e de convergence est v´erifi´ee pour tous les intervalles classiques que nous avons pr´esent´es. Elle est ´egalement vraie pour la proc´edure asymptotique par l’EMV (voir section 7.3) dans la mesure o` u I(θˆnM V ) converge vers I(θ0 ) o` u θ0 est la vraie valeur de θ.
7.8
R´ egion de confiance pour un param` etre de dimension k > 1
Pour simplifier nous prendrons k = 2, l’extension `a k quelconque ne pr´esentant pas de difficult´es particuli`eres. Soit donc θ = (θ1 , θ2 ) le param`etre inconnu. Le probl`eme est maintenant de d´eterminer une r´egion al´eatoire du plan qui contienne θ avec une probabilit´e donn´ee quel que soit θ. Supposons d’abord que l’on sache construire s´epar´ement pour chaque composante une proc´edure d’IC de niveau γ et soit I1 et I2 les intervalles al´eatoires correspondants. Pour tout θ ∈ Θ ⊆ R2 , on a alors : Pθ (θj ∈ Ij ) = γ,
j = 1, 2,
en admettant, ´egalement pour simplifier, que la probabilit´e γ est exactement atteinte pour chaque θ. Consid´erons la r´egion al´eatoire constitu´ee du rectangle I1 × I2 . Pour θ fix´e on a : Pθ (θ ∈ I1 × I2 ) = Pθ (θ1 ∈ I1 , θ2 ∈ I2 ) = Pθ ((θ1 ∈ I1 ) ∩ (θ2 ∈ I2 ))
160
Statistique − La th´eorie et ses applications
qui sera toujours inf´erieur `a γ (sauf cas tr`es particulier o` u l’un des ´ev´enements implique l’autre). G´en´eralement ces deux ´ev´enements seront d´ependants (du fait qu’ils reposent sur les mˆemes observations) et il sera difficile de d´eterminer cette probabilit´e et donc, en prenant la valeur minimale quand θ d´ecrit Θ, de connaˆıtre le niveau de confiance exact associ´e `a la proc´edure consistant a prendre le rectangle au croisement de deux intervalles. Toutefois montrons ` que l’on peut donner une borne inf´erieure pour cette probabilit´e. Pour ce faire, posons α = 1−γ qui correspond au risque d’erreur de la proc´edure pour chaque composante. Soit E1 et E2 deux ´ev´enements quelconques. Le compl´ementaire de E1 ∩ E2 est E 1 ∪ E 2 . Par ailleurs (voir section 1.1) : P (E 1 ∪ E 2 ) = P (E 1 ) + P (E 2 ) − P (E 1 ∩ E 2 ) ≤ P (E 1 ) + P E 2 ). D’o` u l’in´egalit´e g´en´erale :
P (E1 ∩ E2 ) ≥ 1 − P E 1 ) + P (E 2 ) . Appliquant celle-ci aux ´ev´enements (θ1 ∈ I1 ) et (θ2 ∈ I2 ) on en d´eduit : Pθ ((θ1 ∈ I1 ) ∩ (θ2 ∈ I2 )) ≥ 1 − 2α. Ainsi, si l’on vise un niveau de confiance 1 − α, on peut le garantir en prenant pour chaque composante un niveau de confiance 1 − α2 . (Pour le niveau courant de 0,95 on utilisera les IC de niveau 0,975 sur chaque composante). Pour une dimension k quelconque la m´ethode ci-dessus s’applique en prenant un niveau 1 − αk sur chaque composante. Toutefois cette proc´edure peut s’av´erer tr`es conservatrice, au sens o` u le niveau r´eel sera sup´erieur et la r´egion du plan sera donc plus vaste que n´ecessaire. Il n’est donc pas inutile de rechercher de fa¸con directe une r´egion de niveau γ. Nous illustrons une approche exacte pour le param`etre (μ, σ 2 ) de la loi N (μ , σ 2 ). ¯ et S 2 sont ind´ependants, ce qui Nous avons vu (proposition 5.3) que X 2 ¯ X−μ) √ et (n−1)S le sont ´egalement. Ces deux derni`eres v.a. ´etant, implique que (σ/ σ2 n respectivement, de lois N (0 ; 1) et χ2 (n − 1) on a, quel que soit (μ, σ 2 ) : ¯ −μ X √ < 2,24 = 0,975 σ/ n (n − 1)S 2 2 (n−1) < < χ = 0,975 0,9875 σ2
P P
2 (n−1)
χ0,0125
−2,24 <
et la probabilit´e que ces deux ´ev´enements aient lieu simultan´ement est donc (0, 975)2 0, 95. Ainsi une r´egion de confiance de niveau 0,95 est obtenue en
Chapitre 7. Estimation param´etrique par intervalle de confiance
161
prenant l’ensemble des points (μ, σ 2 ) du plan tels que : ⎧ x ¯−μ ⎪ √ < 2,24 ⎨ −2,24 < σ/ n 2 ⎪ ⎩ χ2 (n−1) < (n − 1)s < χ2 (n−1) 0,0125 0,9875 σ2 ou, de fa¸con ´equivalente : ⎧ n ⎪ (μ − x ¯)2 > 0 σ2 − ⎪ ⎪ (2,24)2 ⎨ (n − 1)s2 . (n − 1)s2 ⎪ ⎪ < σ 2 < 2 (n−1) ⎪ ⎩ 2 (n−1) χ0,9875 χ0,0125 La premi`ere in´egalit´e correspond, en coordonn´ees (x, y), `a l’int´erieur de la pa¯ o` u a vaut n/(2,24)2 . La seconde d´ecoupe une rabole y = a(x − x ¯)2 centr´ee sur x 2 tranche de cet int´erieur entre les droites horizontales d’´equations y = (n−1)s 2 (n−1) et y =
(n−1)s2 2 (n−1) χ0,0125
χ0,9875
comme indiqu´e sur la figure 7.2 .
2,24
(n − 1) 0,0125
Région de confiance à 95% pour (μ, σ2) (n − 1) 0,9875
Figure 7.2 - R´egion de confiance pour le param`etre (μ, σ 2 ) d’une loi de Gauss.
Signalons bri`evement les ´el´ements permettant d’obtenir des r´egions de confiance approximatives dans Rk ` a partir des propri´et´es√du vecteur estimateur du MV. Nous avons indiqu´e en fin de section 6.7.4 que n(θˆM V − θ) converge en
162
Statistique − La th´eorie et ses applications
loi vers une loi normale a` k dimensions de vecteur des moyennes nul et de matrice des variances-covariances [I(θ))]−1 . Comme la matrice I(θ) est sym´etrique et d´efinie strictement positive il existe une matrice sym´etrique et d´efinie stric1 tement positive dont le carr´e est ´egal `a I(θ) et nous la d´esignons par I(θ) 2 . 1 1 Ceci est ´egalement applicable a` [I(θ)]−1 et I(θ)− 2 est l’inverse de I(θ) 2 , i.e. 1 1 I(θ) 2 I(θ)− 2 = Ik , la matrice identit´e d’ordre k. √ 1 Posons X = n(θˆM V − θ) et soit Y = I(θ) 2 X. Selon la proposition 3.13, 1 E(Y ) = I(θ) 2 E(X) = 0 et : 1
1
1
1
V(Y ) = I(θ) 2 V(X) I(θ) 2 = I(θ) 2 I(θ)−1 I(θ) 2 = Ik . √ 1 Ainsi n I(θ) 2 (θˆM V − θ) a une loi asymptotique N (0 , Ik ), c’est-`a-dire que toutes les composantes de ce vecteur al´eatoire tendent `a ˆetre ind´ependantes et de loi N (0 ; 1) (voir les d´eveloppements analogues en section 3.9). Par cons´equent la somme des carr´es de ses composantes, ´egale `a : ,t +√ , +√ 1 1 n I(θ) 2 (θˆM V − θ) n I(θ) 2 (θˆM V − θ) = n(θˆM V − θ)t I(θ) (θˆM V − θ) , suit approximativement une loi du khi-deux a` k degr´es de libert´e. En rempla¸cant, en deuxi`eme approximation, I(θ) par I(θˆM V ) et en passant `a la r´ealisation de θˆM V , l’in´equation en θ : n(θˆM V − θ)t I(θˆM V ) (θˆM V − θ) ≤ χ20,95 (k) d´efinit l’int´erieur d’un ellipso¨ıde centr´e sur θˆM V qui est une r´egion de confiance de niveau approximatif 0,95. Appliquant ceci a` (μ, σ2 ) dans le cas gaussien on a (voir exemple 6.18) : 1 2 σ 0 0 2 2 2 −1 σ I(μ, σ ) = et [I(μ, σ )] = . 0 2σ 4 0 2σ1 4 D’o` u la r´egion de confiance au niveau 0,95 (o` u ici la substitution I(¯ x, s˜2 ) pour 2 I(μ, σ ) n’est pas n´ecessaire) : n n (μ − x ¯)2 + 4 (σ 2 − s˜2 )2 ≤ χ20,95 (2) = 5,99 σ2 2σ qui correspond a` l’int´erieur d’une ellipse centr´ee sur l’estimation du MV : (¯ x, s˜2 ). En fait, on montre que cette r´egion est plus int´eressante que celle obtenue plus haut car elle est (en esp´erance math´ematique, et pour n pas trop petit) de surface inf´erieure. Grˆ ace `a la r´esolution num´erique vue en section 7.3 permettant d’acc´eder `a I(θˆM V ), les logiciels peuvent, pour k = 2, tracer les ellipses contenant le param`etre `a un niveau de confiance donn´e.
Chapitre 7. Estimation param´etrique par intervalle de confiance
7.9
163
Intervalles de confiance et tests
Nous verrons en section 9.8 qu’il y a une dualit´e entre une proc´edure d’IC et une proc´edure de test. Comme il est g´en´eralement plus facile d’´elaborer une proc´edure de test, nous montrerons comment, `a partir de celle-ci, construire un intervalle de confiance. Cela permettra de couvrir des situations encore plus diverses que celles envisageables par les approches directes du pr´esent chapitre. Pour approfondir la th´eorie des intervalles de confiance (et, plus g´en´eralement, la th´eorie de l’estimation et des tests) on pourra consulter le livre de Cox et Hinkley (1979) ou celui de Shao (1999).
7.10
Exercices
Exercice 7.1 Pour la loi de Gauss N (μ, σ 2 ) o` u (μ, σ 2 ) est inconnu comparer la largeur de l’IC obtenu pour μ ` a celle de l’IC obtenu pour σ quand n est grand. Aide : pour σ on partira de la formule de la note 7.5 et on utilisera l’approximation de la loi du χ2 par une loi de Gauss. Exercice 7.2 Soit la loi de Gauss N (μ, σ 2 ) o` u μ est connu – on prendra μ = 0 – et σ 2 inconnu. Donner un IC pour σ 2 . X2 Aide : montrer que ni=1 σ2i est une fonction pivot. Exercice 7.3 (m´ ethode des quantiles) Donner un IC a` 95% pour θ de la loi U[0, θ] en utilisant la loi de la statistique exhaustive minimale X(n) . Exercice 7.4 (m´ ethode des quantiles) * Soit Fχ2 (x; 2n) la fonction de r´epartition de la loi du khi-deux a` 2n degr´es de libert´e. Montrer que : Fχ2 (x; 2n) = 1 −
n−1 k=0
e− 2 ( x2 )k . k! x
Aide : on calculera l’int´egrale de la densit´e en int´egrant par parties et en exploitant la relation de r´ecurrence obtenue. Soit FP (x; λ) la fonction de r´epartition de la loi de Poisson P(λ). Montrer ace `a cette relation, on peut que FP (x; λ) = 1 − Fχ2 (2λ; 2x + 2) et que, grˆ r´esoudre imm´ediatement les deux ´equations de la m´ethode des quantiles pour la loi de Poisson, a` l’aide d’une table du khi-deux. Consulter une telle table pour v´erifier le r´esultat de l’exemple 7.6. Exercice 7.5 (m´ ethode des quantiles) Soit un n´echantillon de la loi de Bernoulli de taille 20 pour lequel on a observ´e es i=1 Xi = 8 (soit 8 succ` au cours de 20 r´ep´etitions). Montrer, en r´esolvant les ´equations de la m´ethode
164
Statistique − La th´eorie et ses applications
des quantiles au moyen d’un logiciel math´ematique, qu’on obtient un IC a` 95% ´egal `a [0,19 ; 0,64]. Comparer `a l’IC de la formule asymptotique. u μ est inconnu mais σ 2 est connu. Exercice 7.6 Soit la loi m`ere N (μ , σ 2 ) o` Dans une approche bay´esienne on se donne une loi a priori N (μ0 , σ02 ) pour μ. Montrer que la loi a posteriori de μ est gaussienne de moyenne : σ02 x ¯ + σ 2 μ0 /n σ02 + σ 2 /n et de variance :
σ02 σ 2 /n + σ 2 /n
σ02
o` ux ¯ est la moyenne observ´ee sur un ´echantillon de taille n. En d´eduire un intervalle de probabilit´e de niveau 0,95 et le comparer `a l’IC classique avec σ2 connu (voir fin de section 7.4.1). Montrer que les deux intervalles sont ´equivalents quand n → ∞. Exercice 7.7 Montrer que la proc´edure d’IC propos´ee en section 7.4.5 pour le param`etre p d’une loi de Bernoulli est convergente en probabilit´e.
Exercices appliqu´es1 Exercice 7.8 On veut estimer le rendement d’un engrais pour la culture du bl´e. Sur douze parcelles exp´erimentales, on a trouv´e les rendements suivants en tonnes par hectare : 7.7 8.4 7.8 8.2 7.9 8.5 8.4 8.2 7.6 7.8 8.4 8.3 Donner un intervalle de confiance a` 95% pour le rendement moyen de l’engrais (on supposera que le rendement a` l’hectare est une v.a. gaussienne). Exercice 7.9 Un hˆ opital souhaite estimer le coˆ ut moyen d’un patient, sachant que le coˆ ut par jour est de 200 euros. Pour un ´echantillon al´eatoire de 500 patients on a observ´e une dur´ee de s´ejour moyenne de 5,4 jours avec un ´ecarttype de 3,1 jours. Donner un intervalle de confiance a` 90 % pour la dur´ee moyenne de s´ejour d’un patient et en d´eduire un intervalle pour le coˆ ut moyen d’un patient. Exercice 7.10 Une soci´et´e d’assurance doit ´evaluer, en fin d’ann´ee, la provision `a faire au bilan pour les sinistres en cours n’ayant pas encore fait l’objet d’un r`eglement. Elle s´electionne au hasard 200 dossiers qui sont ´evalu´es en moyenne `a 9 944 euros, l’´ecart-type des valeurs ´etant ´egal `a 1 901 euros. Sachant que 11 210 dossiers sont en cours, donner un intervalle de confiance sur la provision totale a` effectuer. 1 Un ou deux de ces exercices appliqu´ es sont des emprunts dont nous avons perdu la source. Nous nous en excusons aupr` es des involontaires contributeurs.
Chapitre 7. Estimation param´etrique par intervalle de confiance
165
Exercice 7.11 Pour ´evaluer le nombre de mots d’un livre on tire 20 pages au hasard et on y compte le nombre de mots. On trouve, pour les 20 valeurs, une moyenne de 614 mots et un ´ecart-type de 26 mots. Donner un intervalle de confiance `a 95 % pour le nombre total de mots du livre sachant qu’il a 158 pages (on admettra que l’approximation gaussienne est satisfaisante). Exercice 7.12 On souhaite ´evaluer le gain de consommation obtenu avec un nouveau carburant pour automobile. Un test en laboratoire est effectu´e sur 20 moteurs du mˆeme type. Dix moteurs sont aliment´es en carburant traditionnel et donnent sur une dur´ee donn´ee une consommation moyenne de 10,8 litres avec un ´ecart-type de 0,21 litre. Pour les dix autres moteurs le nouveau carburant est utilis´e et l’on observe une consommation moyenne de 10,3 litres avec un ´ecart-type de 0,18 litre. Donner un intervalle de confiance a` 90 % sur le gain moyen procur´e par le nouveau carburant (on supposera que les approximations gaussiennes sont satisfaisantes). Exercice 7.13 Un stock comporte 10 000 pi`eces. Pour ´evaluer le nombre de pi`eces d´efectueuses dans le stock on tire au hasard 400 pi`eces dont on constate que 45 sont d´efectueuses. Donner un intervalle de confiance a` 99 % pour le nombre total de pi`eces d´efectueuses. Exercice 7.14 Un sondage aupr`es de 1 500 m´enages tir´es au hasard dans la population fran¸caise a indiqu´e que 20 % de ceux-ci pr´evoient d’acheter une nouvelle voiture dans les douze prochains mois. Estimer par un intervalle de confiance `a 95 % le pourcentage de m´enages de la population fran¸caise pr´evoyant d’acheter une nouvelle voiture dans les douze mois. Exercice 7.15 On veut ´evaluer la diff´erence des proportions de pi`eces d´efectueuses dans deux proc´ed´es de fabrication diff´erents. Pour cela on tire au hasard 1 000 pi`eces r´ealis´ees selon le premier proc´ed´e. Les ayant test´ees on en a trouv´e 86 d´efectueuses. On op`ere de mˆeme pour 800 pi`eces r´ealis´ees selon le deuxi`eme proc´ed´e et on en trouve 92 d´efectueuses. Donner un intervalle de confiance sur la diff´erence des proportions de pi`eces d´efectueuses dans les deux proc´ed´es. Exercice 7.16 Dans une ville on donne la r´epartition du nombre de jours sans accident, avec un accident, etc. parmi 50 jours d’observation au cours d’une mˆeme ann´ee : Nbre accidents Nbre jours
0 21
1 18
2 7
3 3
4 1
On suppose que le nombre d’accidents par jour suit une loi de Poisson. Donner un intervalle de confiance de niveau 0,95 pour le nombre moyen d’accidents par jour (on utilisera une approximation asymptotique).
166
Statistique − La th´eorie et ses applications
Exercice 7.17 Dix bouteilles d’eau min´erale provenant d’une source donn´ee sont analys´ees. On rel`eve les taux de nitrates suivants, en mg/l : 3,61 3,56 3,67 3,56 3,64 3,62 3,44 3,52 3,55 3,52 Donner un intervalle de confiance a` 95% pour l’´ecart-type du taux de nitrates dans les bouteilles produites (on supposera ce taux gaussien).
Chapitre 8
Estimation non param´ etrique et estimation fonctionnelle 8.1
Introduction
Nous consid´erons maintenant que la loi m`ere ne fait pas partie d’une famille param´etrable de lois, c’est-` a-dire que nos connaissances sur la nature de cette loi sont beaucoup plus floues, ce qui correspond d’ailleurs souvent plus a` la r´ealit´e, notamment lorsqu’il s’agit d’un sondage dans une population. Tout au plus ferons-nous ici ou l`a l’hypoth`ese que sa fonction de r´epartition, ou sa densit´e (cas continu), ou sa fonction de probabilit´e (cas discret) r´epond `a des conditions de r´egularit´e, principalement la d´erivabilit´e et l’existence de moments jusqu’`a un certain ordre. Il ne peut donc plus s’agir ici d’estimer un param`etre qui d´eterminerait totalement la loi et par suite toute caract´eristique de celle-ci. D`es lors deux orientations sont possibles. Soit on s’int´eresse uniquement `a quelques valeurs caract´eristiques de la loi (ou de la population dans la situation de sondage) : moyenne, variance ou ´ecart-type, m´ediane ou tout autre quantile, et dans ce cas nous sommes dans un contexte d’estimation non param´etrique ponctuelle. Soit, ce qui est nouveau par rapport a` l’estimation param´etrique, on veut estimer la loi dans sa globalit´e par sa fonction de r´epartition ou sa densit´e, ou sa fonction de probabilit´e (quoique, on le verra, le cas discret soit peu concern´e) et l’on parle alors d’estimation fonctionnelle. Pour illustrer cette deuxi`eme orientation, disons d´ej`a que l’histogramme utilis´e en statistique descriptive est une fa¸con rudimentaire d’approcher la densit´e de la loi, dont nous ´etudierons d’ailleurs l’efficacit´e.
Statistique − La th´eorie et ses applications
168
Nous commen¸cons par l’estimation ponctuelle en nous bornant aux caract´eristiques mentionn´ees ci-dessus. Nous reprendrons certains r´esultats des chapitres pr´ec´edents dont nous avons pu dire qu’ils ´etaient en fait de port´ee g´en´erale et non pas limit´ee au cadre param´etrique. Dans la mesure du possible nous traiterons simultan´ement le probl`eme de la construction d’un intervalle de confiance. Dans ce chapitre, comme pr´ec´edemment, la loi m`ere sera symbolis´ee par la v.a. g´en´erique X, sa fonction de r´epartition par F, sa fonction de densit´e ou de probabilit´e par f .
8.2 8.2.1
Estimation de la moyenne et de la variance de la loi Estimation de la moyenne μ
Nous avons vu en section 6.5.1 que les moments empiriques simples (s’ils existent) sont des estimateurs sans biais des moments correspondants de la loi m`ere et ceci quelle que soit la nature de cette loi. En section 6.5.3 on a vu encore qu’en cons´equence de la loi des grands nombres, ces estimateurs sont convergents presque sˆ urement. Pour que le moment d’ordre k converge il suffit que E(|X k |) existe (voir 6.1). Cela s’applique ´evidemment `a proposition n la moyenne empirique X = i=1 Xi . Notons que, pour un sondage dans une population finie, ces conditions d’existence des moments sont n´ecessairement r´eunies, ceux-ci ´etant des caract´eristiques descriptives de la population dans son ensemble. Pour X nous avions directement ´etabli en section 5.2 (proposition 5.1) que (si σ 2 existe) : E(X) = μ
et
V (X) =
σ2 , n
la premi`ere relation refl´etant un biais nul et la deuxi`eme montrant directement la convergence en moyenne quadratique. En conclusion nous utiliserons naturellement la moyenne empirique pour estimer la moyenne de la loi, nous satisfaisant de ces propri´et´es. Il n’est pas possible de dire si tel est le meilleur choix possible, sauf a` imposer des conditions restrictives sur la nature de la loi m`ere, ce qui n’est pas dans l’esprit de l’estimation non param´etrique. En section 7.4.1 nous avons not´e que, d`es lors que n est assez grand, on a : X −μ √ S/ n
;
approx
t(n − 1)
en vertu du th´eor`eme central limite et de la convergence de S 2 vers σ 2 . Nous en avons d´eduit que l’intervalle de confiance classique (` a 95 %) propre au cas
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
169
d’une loi m`ere gaussienne : (n−1) s (n−1) s IC0,95 (μ) = [x − t0,975 √ , x + t0,975 √ ] n n
fournit une bonne approximation pour une loi quelconque. Influence de valeurs extrˆ emes ou aberrantes Il a ´et´e dit qu’en principe n ≥ 30 suffit. Cependant l’approximation par une loi de Student posera probl`eme pour des v.a. dont les queues de distribution sont allong´ees et peuvent produire des observations tr`es ´eloign´ees du centre. Si l’on ´etudie, par exemple, le niveau maximum annuel de crue d’une rivi`ere sur les cent derni`eres ann´ees celui-ci reste en g´en´eral assez semblable mais on trouvera quelques cas de valeurs exceptionnelles. Une valeur tr`es excentr´ee va influencer fortement la valeur de x et encore plus, car interviennent des ´ecarts au carr´e, celle de la variance s2 , rendant ainsi ces statistiques trop instables pour garantir l’approximation par une loi de Student si la taille de l’´echantillon n’est pas tr`es ´elev´ee. Pour les mˆemes raisons, si les observations sont contamin´ees par des valeurs aberrantes l’approximation sera d´efaillante. Ceci peut provenir, par exemple, d’erreurs dans le recueil des informations ou de pr´esences de valeurs ´etrang`eres au ph´enom`ene ´etudi´e (dans les sondages, pr´esence d’individus distincts n’appartenant pas a` la population). Si l’on soup¸conne la pr´esence de valeurs tr`es extrˆemes ou aberrantes on peut soit ´eliminer purement et simplement les valeurs trop ´eloign´ees par examen de la distribution des observations (histogramme), soit r´eduire leurs poids dans le calcul de la moyenne et de la variance. On d´efinit ainsi des M-estimateurs dont l’´etude des propri´et´es fait l’objet de la th´eorie de la robustesse. En particulier la moyenne α-tronqu´ee, appropri´ee si la distribution est `a peu pr`es sym´etrique, est un M-estimateur facile `a mettre en oeuvre : elle consiste `a rejeter un pourcentage d’observations ´egal `a 100( α2 ) sur chaque extr´emit´e. On peut ´egalement renoncer `a la moyenne comme valeur caract´eristique de position centrale de la distribution et pr´ef´erer la m´ediane qui ne pr´esente pas les mˆemes inconv´enients.
8.2.2
Estimation de la variance σ2
On privil´egiera l’estimateur S 2 dont on sait qu’il est sans biais et convergent (voir section 6.5.3). Pour ce qui concerne un intervalle de confiance la proc´edure classique obtenue dans le cas gaussien (voir section 7.4.2) ne peut ˆetre utilis´ee car (n − 1)S 2 /σ 2 ne suit plus une loi χ2 (n − 1) d`es que l’on s’´ecarte de cette hypoth`ese, y compris quand n tend vers l’infini. On a vu toutefois (note 5.5) que le th´eor`eme central limite s’applique `a S 2 , moyennant l’existence du moment d’ordre 4, et l’on peut donc ´etablir la loi asymptotique de S 2 dans le cas g´en´eral sachant que (voir exercice 5.4) : V (S 2 ) =
1 n−3 4 (μ − σ ), n 4 n−1
Statistique − La th´eorie et ses applications
170
o` u μ4 est le moment centr´e d’ordre 4 de la loi m`ere. Comme V (S 2 ) est asymptotiquement ´equivalent a` n1 (μ4 − σ 4 ) on a, apr`es centrage et r´eduction, le r´esultat suivant : √ n(S 2 − σ 2 ) % ; N (0 ; 1) . μ4 − σ 4 approx En ´ecrivant cette statistique centr´ee et r´eduite sous la forme : √ n(S 2 − σ 2 ) % σ 2 μ4 /σ 4 − 1 on fait apparaˆıtre le coefficient de curtose μ4 /σ 4 qui vaut 3 pour la loi de Gauss, est sup´erieur `a 3 pour une loi a` pic plus prononc´e au mode et queues plus allong´ees, est inf´erieur a` 3 pour une loi `a pic plus plat et % queues courtes. Dans le cas gaussien cette expression est bien, au facteur (n − 1)/n pr`es, la version centr´ee et r´eduite de (n − 1)S 2 /σ 2 puisque la loi χ2 (n − 1) est de moyenne n − 1 et de variance 2(n − 1). Par ailleurs on a vu (voir la remarque en section 5.8) que la loi du khi-deux tend a` devenir gaussienne quand n tend vers l’infini. Pour construire un intervalle de confiance asymptotique, on peut envisager d’estimer μ4 − σ 4 par sa version empirique M4 − S 4 (ou le coefficient de curtose par la curtose empirique M4 /S 4 ), mais la convergence est lente et un nombre important d’observations sera n´ecessaire pour esp´erer une bonne approximation. On peut recourir a` une approche dite par r´e´echantillonnage dont l’int´erˆet est g´en´eral et c’est pourquoi nous y consacrons une section sp´ecifique. Cette approche sera ´egalement appropri´ee pour l’estimation de l’´ecart-type.
8.3
Estimation d’un quantile
Nous supposerons que la v.a. soit continue pour que tout quantile existe. Pour qu’il y ait unicit´e nous supposerons aussi que le support de la densit´e f soit un intervalle [a, b], o` u ´eventuellement a = −∞ et/ou b = +∞, de fa¸con que F soit strictement croissante sur l’ensemble des valeurs de x telles que 0 < F (x) < 1 (voir section 1.5). Nous consid´ererons essentiellement la m´ediane, les d´eveloppements ´etant similaires pour un quantile quelconque. ' la m´ediane empirique d´efinie par : Notons μ ' la m´ediane de la loi m`ere et X " si n = 2m − 1 X(m) ' , X= 1 (X(m) + X(m+1) ) si n = 2m 2 ' est l’estimateur nao` u X(m) est la statistique d’ordre m (voir section 5.6). X turel de μ '. Dans la proposition 5.12 nous avons donn´e la loi d’une statistique d’ordre quelconque, ce qui s’applique directement au cas de n impair. Pour n
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
171
' n’est pas n´ecessairement sans biais et sa variance n’a pas d’expression fini X simple. On doit se contenter de la propri´et´e asymptotique suivante, que nous admettrons. Proposition 8.1 Soit une loi continue de densit´e f et de m´ediane μ ', et soit 'n la m´ediane d’un n-´echantillon X1 , X2 , · · · , Xn issu de cette loi. On a : X ' −→ nV (X)
n→∞
et
1 4[f (' μ)]2
√ L ' −μ 2f (' μ) n(X ') −→ N (0 ; 1) . n→∞
La m´ediane empirique est donc asymptotiquement sans biais et converge en moyenne quadratique vers μ ' puisque sa variance tend vers 0 (on peut aussi ´ montrer qu’elle converge presque sˆ urement). Etant donn´e que f (' μ) est inconnu, il faudrait une estimation de cette valeur pour construire un intervalle de confiance approximatif. On dispose cependant d’une approche directe pour n fini. ' le nombre d’observations inf´erieures ou ´egales `a μ Soit N '. Pour chaque Xi ' ; B(n, 1 ). On a donc : la probabilit´e d’ˆetre inf´erieur ou ´egal `a μ ' vaut 12 , et N 2 ' ≤ l2 ) = P (l1 ≤ N
l2 n 1 . k 2n
k=l1
Choisissons l1 et l2 tels que, d’une part, la probabilit´e ci-dessus soit sup´erieure ou ´egale `a 0,95 et au plus proche de cette valeur et, d’autre part, que l2 soit ´egal `a n− l1 ou le plus proche possible pour avoir l’intervalle [l1 , l2 ] le plus sym´etrique possible par rapport a` n/2 et donc le plus ´etroit. Notons que ') signifie qu’il y a au moins l1 observations inf´erieures l’´ev´enement (X(l1 ) ≤ μ ' ) et, de mˆeme, l’´ev´enement ou ´egales `a μ ' et il est donc identique a` (l1 ≤ N ' (' μ < X(l2 +1) ) est identique a` l’´ev´enement (N ≤ l2 ). La probabilit´e ci-dessus est donc ´egale `a P (X(l1 ) ≤ μ ' < X(l2 +1) ) et ceci quel que soit μ '. Pour un ´echantillon r´ealis´e x1 , x2 , . . . , xn , ceci fournit donc un intervalle de confiance a` 95 % pour μ ' : IC0,95 (' μ) = [x(l1 ) , x(l2 +1) [ . Pratiquement on peut fermer l’intervalle a` droite, les statistiques d’ordre ´etant des v.a. continues. ' ; B(20;0,5) : P (N ' ≤ 5) = 0,021 Exemple 8.1 Soit n = 20. On a pour N ' ' (mais P (N ≤ 6) = 0,58) et par sym´etrie P (N ≥ 15) = 0,021 d’o` u ' ≤ 14) = 0,958 et IC0,95 (' μ) = [x(6) , x(15) ] . P (6 ≤ N On pourra utiliser assez vite l’approximation gaussienne du fait que p = 1/2 (le crit`ere np ≥ 5 et n(1 − p) ≥ 5 de la section 5.8.3 revenant a` n ≥ 10). Avec ' ≤ 5). correction de continuit´e on obtient ici 0,022 pour P (N
172
Statistique − La th´eorie et ses applications
Pour le quantile xq d ordre q consid´erons X[nq]+1 o` u [nq] est la partie enti`ere de nq. La proposition s’applique a` X[nq]+1 avec : nV (X[nq]+1 ) −→
n→∞
et
%
f (xq ) q(1 − q)
q(1 − q) [f (xq )]2
√ L n(X[nq]+1 − xq ) −→ N (0 ; 1) . n→∞
L’intervalle de confiance pour xq est obtenu de fa¸con analogue a` partir de la loi B(n, q). Note 8.1 De la proposition 8.1 on peut d´eduire la pr´ecision relative asymptotique de la m´ediane empirique par rapport a` la moyenne√empirique dans le ' est cas gaussien, par exemple. Pour cette loi f (' μ) = f (μ) = 1/ 2πσ et V (X) π σ2 donc ´equivalent a` 2 n quand n tend vers l’infini. La variance asymptotique de la m´ediane est donc π/2 fois plus grande.
8.4 8.4.1
Les m´ ethodes de r´ e´ echantillonnage Introduction
Ces m´ethodes ont pour principe de simuler la variabilit´e des estimateurs en tirant des ´echantillons a` l’int´erieur de l’´echantillon recueilli. La m´ethode du jackknife (litt´eralement couteau de poche ou canif) est la plus ancienne et effectue des tirages d´eterministes. La m´ethode du bootstrap (chausse-pied) constitue une g´en´eralisation du jackknife qui n’a pu ˆetre con¸cue que d`es lors que de puissants moyens informatiques ´etaient disponibles. Du fait qu’elle effectue des tirages au hasard elle est de port´ee beaucoup plus g´en´erale. Le jackknife a ´et´e d´evelopp´e initialement par M. Quenouille et J. Tukey dans les ann´ees 1950 pour r´eduire le biais d’un estimateur donn´e, puis a ´et´e envisag´e pour obtenir des intervalles de confiance. Le bootstrap a ´et´e propos´e par Efron (1979). Notons que ces m´ethodes s’appliquent aussi bien dans le cas discret que dans le cas continu. Les estimateurs non param´ etriques du maximum de vraisemblance Ces estimateurs sont les estimateurs de r´ef´erence du jackknife comme du bootstrap et il est utile de les expliciter. Pour une caract´eristique ω de la loi d´efinie par sa fonction de r´epartition F (en bref nous dirons la loi F ) son estimateur du maximum de vraisemblance ω est obtenu par sa version empirique, c’est-`a-dire la caract´eristique de mˆeme nature calcul´ee sur l’´echantillon : la moyenne de la loi est estim´ee par la moyenne de l’´echantillon X, la variance par S'2 , la m´ediane de la loi par la m´ediane de l’´echantillon, etc. Ceci d´ecoule du fait que la fonction de r´epartition empirique Fn (d´efinie en section 5.7) est l’estimateur fonctionnel (i.e. une fonction pour estimer une fonction) du maximum de vraisemblance pour F (voir plus loin, section 8.5.3).
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
173
Notons que le passage d’une caract´eristique th´eorique `a la caract´eristique empirique correspondante est imm´ediat dans le cas d’une loi discr`ete (et en particulier dans le cas d’un tirage au hasard dans une population finie) car il suffit d’appliquer a` l’´echantillon la mˆeme formule de d´efinition que celle de la caract´eristique. Si la loi est continue et que la caract´eristique est propre a` ce type de loi, le passage peut ˆetre plus d´elicat du fait que Fn n’est pas continue. C’est par exemple le cas d’un mode de la loi (maximum de la d´eriv´ee de F ) qui n’a pas d’´equivalent direct sur l’´echantillon. On pourra alors utiliser un lissage de Fn en continu du type de celui pr´esent´e en section 8.5.3. Note 8.2 Puisque la loi est parfaitement d´efinie `a partir de F, une caract´eristique ω de la loi F peut s’exprimer comme une application ω(F )qui ` a une fonction fait correspondre un r´eel. On dira que ω est un op´erateur fonctionnel (en bref une fonctionnelle). μ est ´egale `a l’int´egrale de Riemann-Stieltjes d´efinie dans la Par exemple la moyenne note 2.1 : μ(F ) = R xdF (x) et la moyenne empirique est la statistique fonctionnelle correspondante obtenue en rempla¸cant F par la fonction de r´epartition empirique Fn : x = R xdFn (x) (voir note 5.4). Plus g´en´eralement, ce que nous avons appel´e la version empirique de ω(F ) est ω(Fn ). Comme la fonction de r´epartition empirique Fn est l’estimation du maximum de vraisemblance de F (voir section 8.5.3), par voie de cons´equence ω(Fn ), en tant que fonction de Fn , est l’estimation du maximum de vraisemblance de ω(F ).
8.4.2
La m´ ethode du jackknife
Nous illustrons d’abord le principe du jackknife pour l’estimation de l’´ecarttype σ de la loi. Soit l’estimateur de r´ef´erence :
S=
√
1 2 2 2 S =3
1 (Xi − X)2 n − 1 i=1 n
qui est g´en´eralement biais´e (voir exercice 6.4 pour le cas de la loi de Gauss) et soit s l’estimation correspondante pour une r´ealisation x1 , x2 , · · · , xn de l’´echantillon. L’estimation du jackknife est obtenue de la fa¸con suivante. On calcule la valeur, not´ee s−1 , de l’´ecart-type du sous-´echantillon obtenu en omettant la valeur x1 :
s−1
1 2 2 =3
1 (xi − x)2 , n − 2 i=2 n
puis la valeur s∗1 = ns − (n − 1)s−1 . On r´ep`ete cette op´eration en omettant a` tour de rˆ ole chacune des observations pour obtenir n pseudo-valeurs
174
Statistique − La th´eorie et ses applications
s∗1 , s∗2 , · · · , s∗n avec, donc : s−i
1 2 2 =3
1 n−2
n
(xj − x)2
j=1,j =i
s∗i = ns − (n − 1)s−i . L’estimation du jackknife est alors la moyenne des pseudo-valeurs, not´ee s∗ . Un intervalle de confiance approch´e peut ˆetre obtenu en appliquant a` la s´erie des n pseudo-valeurs le r´esultat de la section 6.4.1 concernant la moyenne d’un ´echantillon al´eatoire gaussien. Ainsi on calcule la variance des pseudo-valeurs : 1 (s∗i − s∗ )2 , n − 1 i=1 n
s2JK = d’o` u:
(n−1) sJK (n−1) sJK IC0,95 (σ) [s∗ − t0,975 √ , s∗ + t0,975 √ ] . n n
De fa¸con g´en´erale soit ω une caract´eristique de la loi et Tn un estimateur convergent de ω, typiquement l’estimateur du maximum de vraisemblance. Soit Tn−i l’estimateur calcul´e en omettant Xi . On d´efinit les pseudo-valeurs : Tn∗i = nTn − (n − 1)Tn−i , i = 1, . . . , n. L’estimateur du jackknife fond´e sur Tn est alors Tn∗ = n1 ni=1 Tn∗i . Comme il a ´et´e dit en introduction cet estimateur a ´et´e propos´e `a l’origine pour r´eduire le biais ´eventuel de Tn , en vertu du r´esultat suivant. Proposition 8.2 Si le biais de Tn est de la forme nc , o` u c est une constante, alors Tn∗ , l’estimateur du jackknife fond´e sur Tn , est sans biais. c En effet, comme E(Tn ) = ω + nc , on a, pour tout i, E(Tn−i ) = ω + n−1 −i puisque Tn est le mˆeme estimateur appliqu´e au (n − 1)−´echantillon al´eatoire X1 , . . . , Xi−1 , Xi+1 , . . . , Xn . Ainsi :
E(Tn∗i ) = nE(Tn ) − (n − 1)E(Tn−i ) c ] = nω + c − (n − 1)[ω + n−1 =ω, d’o` u E(Tn∗ ) =
1 n
n i=1
E(Tn∗i ) = ω.
Si le biais est de la forme cn1 + nc22 + nc33 + · · · on montre ais´ement de la mˆeme fa¸con que le premier terme disparaˆıt dans le biais de Tn∗ . Par cons´equent, au
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
175
moins pour des situations de ce type, il y a r´eduction de biais. Si l’on applique, par exemple, la proc´edure du jackknife a` la variance empirique S'n2 dont le biais pour estimer σ 2 est − n1 σ 2 (voir proposition 5.2), on trouve que l’estimateur du jackknife est la variance de l’´echantillon Sn2 qui est sans biais (voir exercices). Notons incidemment que pour l’estimateur X n de la moyenne μ qui est sans biais, l’estimateur du jackknife est X n lui-mˆeme. En g´en´eral, la loi ´etant totalement inconnue, on ne connaˆıt pas la forme du biais (comme par exemple pour l’´ecart-type S dans l’illustration ci-dessus), mais on s’attend a` ce qu’il soit de toute fa¸con r´eduit par la proc´edure d´ecrite. Outre la r´eduction du biais, l’int´erˆet du jackknife, primordial ici, est de permettre l’estimation de l’´ecart-type de Tn et la possibilit´e de construire un intervalle de confiance approch´e. La proposition qui suit va nous y conduire. Proposition 8.3 Soit Tn∗ l’estimateur du jackknife de la caract´eristique ω, 2 la variance des pseudoreposant sur un estimateur convergent Tn , et soit Sn,JK valeurs. Alors, sous certaines conditions concernant la forme de la statistique : Tn∗ − ω L √ −→ N (0 ; 1) . Sn,JK / n n→∞ Nous admettrons cette proposition. Elle r´esulte du fait que les pseudovaleurs tendent a` ˆetre ind´ependantes et gaussiennes pour une grande vari´et´e de statistiques. En appliquant l’intervalle de confiance de la section 7.4.1 pour la moyenne de v.a. i.i.d. gaussiennes, on d´eduit l’intervalle de confiance approch´e pour ω : (n−1) sn,JK (n−1) sn,JK IC0,975 (ω) [t∗n − t0,975 √ , t∗n + t0,975 √ ] , n n o` u t∗n et sn,JK sont les r´ealisations respectives de Tn∗ et de Sn,JK . Ceci s’applique, en particulier, `a l’´ecart-type comme nous l’avons vu plus haut (voir une application dans les exercices) et ´egalement pour estimer la variance σ 2 . Dans ce dernier cas, en prenant l’estimateur du jackknife reposant sur la variance empirique S'2 , on ´etablit que la variance des pseudo-valeurs 2 Sn,JK est ´egale `a : n3 (M4 − S'4 ) , (n − 1)(n − 2)2 ce qui conduit `a une proc´edure d’intervalle de confiance tr`es proche (et asymptotiquement ´equivalente) de l’approche asymptotique propos´ee en section 8.2.2. En effet, dans cette approche, on trouvait simplement M4 − S 4 en lieu et place de l’expression ci-dessus. Les conditions de validit´e de laproposition ne sont pas simples a` expliciter. n u g est une fonction quelconque, Si la statistique est de la forme n1 i=1 g(Xi ) o`
176
Statistique − La th´eorie et ses applications
alors la proposition est v´erifi´ee. C’est le cas de tous les moments simples. Si la forme est proche cela reste vrai, comme par exemple pour les moments centr´es, en particulier pour la variance empirique, et aussi pour l’´ecart-type. En revanche, la m´ediane qui, dans sa version th´eorique, s’exprime par F −1 ( 12 ) a une forme tr`es ´eloign´ee. Le jackknife est alors inadapt´e car Sn,JK ne converge pas vers la valeur de l’´ecart-type de la m´ediane. Il en va de mˆeme pour d’autres statistiques fonctions des statistiques d’ordres : quantiles, ´etendue X(n) − X(1) , distance interquartiles. Note 8.3 Pour pr´eciser quelque peu le domaine de validit´e du jackknife exprimons une caract´eristique ω comme une expression fonctionnelle ω(F ). Une fonctionnelle est dite lin´eaire si ω(a1 F1 + a2 F2 ) = a1 ω(F1 ) + a2 ω(F2 ). Dans ce cas on montre que ω(F ) est de la forme : ω(F ) = g(x)dF (x) = EF (g(X)). R
Pour la statistique n correspondante ω(Fn ) du maximum de vraisemblance cela se evidemment le cas de la moyenne empirique et traduit par n1 i=1 g(Xi ). Ceci est ´ de tout autre moment empirique non centr´e. Un moment centr´e n’est pas strictement de cette forme. Par exemple la variance
EF ([X − EF (X)]2 ) est l’esp´erance d’une fonction qui d´epend elle-mˆeme de F. La condition pour que le jackknife soit op´erant au niveau de la convergence de Sn,JK est que la caract´eristique, et donc la statistique du MV, soit une fonctionnelle lin´eaire ou pouvant ˆetre raisonnablement approch´ee par une fonctionnelle lin´eaire. Ceci est r´ealisable pour la variance empirique (qui est une fonctionnelle quadratique) mais pas dans le cas de la m´ediane qui est trop fortement non lin´eaire.
Le jackknife peut ˆetre utilis´e pour des couples (et des n-uplets) de v.a., par exemple pour la corr´elation entre deux variables, pour la moyenne du ratio de deux variables. Il s’´etend ´egalement `a des situations autres que des ´echantillons al´eatoires simples. Par ailleurs, diff´erentes variantes du jackknife initial ont ´et´e propos´ees. En particulier, pour de tr`es grands ´echantillons, il est pratiquement aussi efficace de l’appliquer en omettant non pas chaque observation mais des groupes de k observations, ceci afin d’acc´el´erer les calculs. Dans le √ cas de la m´ediane le fait de grouper les observations avec k de l’ordre de n permet mˆeme d’assurer la convergence selon la proposition 8.3 et donc d’appliquer l’intervalle de confiance qui en d´ecoule. Rien ne s’oppose `a ce qu’on utilise cette m´ethode dans un cadre param´etrique pour des fonctions du param`etre complexes. Par exemple on pourra estimer e−λ , la probabilit´e qu’il n’y ait aucune occurrence dans une unit´e de temps pour une loi de Poisson, en se fondant sur l’estimateur du maximum de vraisemblance e−X (ceci est `a rapprocher de l’exemple 6.13). En ce qui concerne l’approximation asymptotique de l’intervalle de confiance issu du jackknife il est difficile de savoir a` partir de quelle taille d’´echantillon
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
177
elle devient satisfaisante. Pour les petits ´echantillons le bootstrap offre une alternative plus sˆ ure.
8.4.3
La m´ ethode du bootstrap
Le bootstrap est une approche tr`es g´en´erale pour des situations les plus vari´ees. Il est certes plus coˆ uteux en calcul que le jackknife mais donne en g´en´eral des estimateurs de variance plus faible. On a pu le voir comme une g´en´eralisation du jackknife ou, plus exactement, le jackknife a pu ˆetre consid´er´e comme une forme appauvrie du bootstrap. Au lieu de r´e´echantillonner au hasard un grand nombre de fois, comme la th´eorie montre qu’il convient de le faire et comme le fait le bootstrap, le jackknife se contente de choisir des ´echantillons bien d´etermin´es en nombre limit´e `a n. Nous indiquerons sans d´emonstration1 comment le bootstrap permet d’estimer la variance (donc la pr´ecision) d’un estimateur, ce qui d´ebouche sur la construction d’un intervalle de confiance approch´e. Pour ne pas alourdir les notations on passera indiff´eremment d’une variable al´eatoire a` sa r´ealisation, le contexte permettant de reconnaˆıtre l’une ou l’autre de ces entit´es. Soit ω un estimateur d’une caract´eristique ω de la loi m`ere, cette loi ´etant quelconque, continue ou discr`ete, de fonction de r´epartition inconnue F. On ω ) de ω ou, plutˆ ot, `a une estimation de cette vas’int´eresse `a la variance VF ( riance puisque F est inconnue. Pour aboutir a` cette estimation on op`ere selon les ´etapes suivantes : 1. soit x1 , x2 , . . . , xn l’´echantillon r´ealis´e. On effectue n tirages au hasard avec remise parmi les valeurs x1 , x2 , . . . , xn (on s’attend a` des r´ep´etitions car il est tr`es improbable de tirer les n valeurs distinctes initiales). On calcule l’estimation ω ∗ obtenue sur la base de ce nouvel ´echantillon. 2. on r´ep`ete l’op´eration pr´ec´edente M fois pour obtenir une s´erie d’estima∗ 2∗ , . . . , ω M . tions ω 1∗ , ω 3. l’estimation de la variance propre a` ω est fournie par la variance descriptive de cette s´erie d’observations, i.e. : 1 ∗ ∗ ( ωk − ω )2 M −1 M
ω) = s2∗ (
k=1
∗
o` uω d´esigne la moyenne de la s´erie. On montre que lorsque M tend vers l’infini, l’estimateur issu de cette proc´edure tend presque sˆ urement vers l’estimateur du maximum de vraisemω ). En pratique M = 100 fournit une approximation suffisante de blance de VF ( cet EMV car l’´ecart sera alors n´egligeable par rapport a` l’erreur d’estimation du maximum de vraisemblance lui-mˆeme. 1 Pour de plus amples d´ eveloppements on pourra consulter les ouvrages de r´ef´ erence indiqu´ es en fin de section.
178
Statistique − La th´eorie et ses applications
Note 8.4 D´enotons VF ( ω ) comme une forme fonctionnelle σω2 (F ) pour faire apparaˆıtre le lien avec la loi m`ere de l’´echantillon. Sauf dans les cas simples cette fonctionnelle ne peut ˆetre explicit´ee ce qui n’a aucune importance ici. Prenons tou est X, l’estimateur «moyenne de tefois comme illustration ´el´ementaire le cas o` u ω l’´echantillon». On sait que sa variance est la variance de la loi m`ere divis´ee par n et l’on peut donc expliciter le lien : 2 σX (F ) =
1 n
R
(x − μ)2 dF (x)
o` u μ est en fait μ(F ) = R xdF (x). Si, comme dans ce cas, la forme fonctionnelle σω2 (F ) est connue on peut l’estimer par sa version empirique σω2 (Fn ) obtenue en 2 rempla¸cant F par Fn , qui est l’estimateur du maximum de vraisemblance de σω (F )
'2 /n. Mais si ω (voir note 8.2). Ainsi pour la moyenne, σ 2 (Fn ) devient S est, par X exemple, l’estimateur «m´ediane de l’´echantillon» on ne connaˆıt pas l’expression de sa variance. C’est alors que la proc´edure bootstrap devient particuli`erement pr´ecieuse.
2 Si l’on connaissait F on pourrait estimer σω ecision souhait´ee (F ) avec toute la pr´ par simulation : on sait g´en´erer des ´echantillons de taille n issus de la loi F (m´ethode et, pour un de Monte-Carlo), sur chaque ´echantillon on calculerait la statistique ω grand nombre d’´echantillons ainsi g´en´er´es, on approcherait la distribution r´eelle de ω . En calculant, par exemple, la variance empirique des valeurs de ω ainsi g´en´er´ees on obtiendrait une estimation de la vraie variance de ω , d’autant plus pr´ecise que le nombre d’´echantillons g´en´er´es serait grand, en vertu de la loi des grands nombres. Le 2 erant maintenant processus est identique lorsqu’il s’agit d’estimer σω (Fn ) en consid´ l’´echantillon r´ealis´e x1 , x2 , . . . , xn comme une population en soi, la distribution de celle-ci ´etant caract´eris´ee par Fn . Si l’on parcourt l’univers de tous les ´echantillons possibles (M → ∞) et que l’on examine comment varie la statistique ω en calculant 2 echantillons sa variance on obtient σω (Fn ). Par exemple la variance des moyennes des ´
'2 /n. Pour cette raison σ 2 (Fn ) est appel´e estimation du bootsconvergera vers S ω puisque la proc´edure de r´e´echantillonnage permet de se trap de la variance de ω rapprocher autant que l’on veut de l’EMV. Notons au passage que le jackknife ne parcourt que n ´echantillons particuliers ce qui explique ses performances moindres.
Ayant estim´e la variance de ω on peut obtenir un intervalle de confiance approch´e pour ω en supposant que ω soit asymptotiquement sans biais et gaussien : ω − 1, 96 s∗ ( ω) , ω + 1, 96 s∗ ( ω) ] . IC0,95 (ω) [ L’approximation gaussienne est fr´equemment l´egitime, en particulier si ω est lui-mˆeme une estimation du maximum de vraisemblance de ω, la normalit´e asymptotique de l’EMV ´enonc´ee en proposition 6.11 d´epassant le strict cadre param´etrique. Mais celle-ci n’est pas assur´ee pour tous les types de statistiques ou bien elle peut ˆetre trop lente pour fournir une approximation satisfaisante au vu de la taille n de l’´echantillon. En fait on peut contrˆoler l’hypoth`ese de
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
179
∗ normalit´e en examinant l’histogramme des valeurs ω 1∗ , ω 2∗ , . . . , ω M car il refl`ete la distribution de ω (voir section 8.5.2).
On peut am´eliorer cette m´ethode «basique» par la m´ethode studentis´ee. Cette m´ethode s’applique toutefois si ω tend a` ˆetre gaussien quand n → ∞ u σω2 est une constante (par avec une variance de forme ´equivalente `a σω2 /n o` exemple si ω est EMV ce peut ˆetre 1/I(ω) ) et si l’on dispose d’un estimateur convergent de σω2 que nous noterons simplement s2 . A l’´etape 1 on calcule, en plus de ω ∗ , la valeur s2∗ pour les n valeurs r´e´echantillonn´ees. L’´etape 2 produit, en plus de la s´erie des ω k∗ pr´ec´edents, les s2∗ k correspondants. On calcule alors ∗ ∗ la s´erie des valeurs T1 , T2∗ , . . . , TM d´efinie par : Tk∗ =
ω k∗ − ω √ s∗k / n
et l’on d´etermine les quantiles empiriques t∗0,025 et t∗0,975 de cette s´erie (moyennant M grand, disons M 1000, pour ´evaluer avec suffisamment de pr´ecision de petites probabilit´es sur les extr´emit´es de la distribution). Alors l’IC approch´e est : s s IC0,95 (ω) [ ω + t∗0,025 √ , ω + t∗0,975 √ ] . n n
La m´ethode des percentiles constitue une autre approche simple a` mettre en oeuvre et, de ce fait, assez r´epandue. Elle s’applique en prenant directement ∗ ∗ et ω 0,975 d’ordres pour bornes, avec M 1000, les quantiles empiriques ω 0,025 ∗ 2∗ , . . . , ω M , soit : respectifs 0,025 et 0,975 de la s´erie ω 1∗ , ω ∗ ∗ IC0,95 (ω) [ ω0,025 ,ω 0,975 ].
Cette m´ethode pr´esent´ee `a l’origine comme m´ethode de r´ef´erence des IC bootstrap est moins pr´ecise que la pr´ec´edente et ne donne de bons r´esultats qu’`a condition qu’il existe une fonction croissante h telle que h( ω ) ait une loi sym´etrique autour de h(ω). Cette condition est forte et ´evidemment inv´erifiable dans les situations pratiques complexes o` u le bootstrap est le principal recours. Cette m´ethode n’est donc pas sans risque. Nous avons concentr´e notre attention sur l’obtention d’un intervalle de confiance dans le cadre non param´etrique. Cependant l’int´erˆet des valeurs ∗ bootstrap ω 1∗ , ω 2∗ , . . . , ω M ne se limite pas `a cela. En effet pour des types tr`es divers de statistiques, il a ´et´e d´emontr´e que la distribution g´en´er´ee par les ∗ 2∗ , . . . , ω M en faisant tendre M vers l’infini, appel´ee distribution valeurs ω 1∗ , ω bootstrap de la statistique ω , converge vers la vraie distribution de ω quand n tend vers l’infini et ceci de fa¸con rapide. En d’autres termes, pour une valeur de ∗ 2∗ , . . . , ω M refl`ete bien la distribution M raisonnable, la s´erie des valeurs ω 1∗ , ω d’´echantillonnage de ω . Il faut bien distinguer la convergence pour M → ∞ qui,
180
Statistique − La th´eorie et ses applications
a` un premier niveau, assure une bonne approche de l’estimation du maximum de vraisemblance de toute statistique propre ` a l’´ echantillon r´ ealis´ e `a partir de sa valeur dans la distribution bootstrap, de la convergence pour n → ∞ qui, `a un deuxi`eme niveau, concerne la convergence de l’estimateur du maximum de vraisemblance vers la vraie valeur ω, mˆeme si, en v´erit´e, les deux niveaux sont intimement li´es, et ceci de fa¸con optimale, ce qui fait la grande force du bootstrap. Notons ici que la m´ethode des percentiles donne en fait un intervalle de probabilit´e approch´e pour la statistique ω . Ainsi, au-del` a de l’´ecart-type, toute caract´eristique de la distribution d’´echantillonnage de ω peut ˆetre estim´ee par sa version empirique dans la s´erie ∗ est une estimation des valeurs bootstrap. Par exemple la moyenne de la s´erie ω de la moyenne EF ( ω ) de la loi de ω . Ceci peut d´eboucher sur l’estimation du biais d’une statistique. Illustrons ceci pour la moyenne α-tronqu´ee. En pr´esence de valeurs extrˆemes il peut ˆetre pr´ef´erable (au sens de l’e.q.m.) d’utiliser une moyenne α-tronqu´ee (voir section 8.2.1), que nous notons toujours ω , pour estimer la moyenne μ de la loi ´etudi´ee. On peut, par le bootstrap, ω ) de cet estimer le gain en variance en comparant la variance bootstrap s2∗ ( estimateur `a la variance estim´ee de la moyenne simple, a` savoir s2 /n. Mais cette moyenne α-tronqu´ee peut ˆetre plus ou moins fortement biais´ee. On peut ∗ −x (signalons obtenir une estimation raisonnable de ce biais par la diff´erence ω toutefois qu’il n’est pas pour autant judicieux de rectifier de ce biais l’estimation ω ). Il est clair que ceci ne s’applique qu’en pr´esence de valeurs extrˆemes et non de valeurs aberrantes qui ne proviendraient pas de la loi F, car la th´eorie repose sur une s´erie d’observations toutes issues de cette mˆeme loi F. L’approche bootstrap est appropri´ee dans des situations tr`es complexes, o` u il n’y aura g´en´eralement pas d’alternative, et pas uniquement dans le cadre de l’´echantillonnage al´eatoire simple. C’est donc un outil extrˆemement pr´ecieux qui est devenu viable avec les capacit´es de calcul actuelles. Signalons en particulier qu’alors que le jackknife ´echoue pour obtenir un intervalle de confiance pour la m´ediane (ou un quantile) de la loi m`ere, le bootstrap donne un r´esultat tr`es proche de l’intervalle propos´e par approche directe en section 8.3. Il est int´eressant aussi de voir qu’il peut s’appliquer dans un cadre param´etrique si l’on estime une fonction du param`etre avec un estimateur dont on ignore la loi ou l’expression de la variance. On aura alors avantage `a effectuer les tirages de l’´etape 2 `a partir de la fonction de r´epartition estim´ee F (x; θM V ) obtenue en rempla¸cant θ par son estimation du maximum de vraisemblance dans l’expression F (x; θ). On montre que pour M tendant vers l’infini et sous certaines conditions de r´egularit´e, l’intervalle de confiance de la m´ethode des percentiles tend vers celui obtenu par l’approximation normale asymptotique du MV vue en section 7.3. Enfin il existe des variantes visant a` am´eliorer encore le bootstrap basique : m´ethode des percentiles `a biais corrig´e, bootstrap liss´e.
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
181
Pour approfondir la m´ethode du bootstrap on pourra consulter l’ouvrage de Davison et Hinkley (1997) pour les aspects m´ethodologiques et celui de Shao et Tu (1995) pour les d´emonstrations math´ematiques.
8.5 8.5.1
Estimation fonctionnelle Introduction
Dans le cadre non param´etrique il est pertinent de vouloir estimer, dans sa globalit´e, la fonction de r´epartition F, ou la fonction de densit´e f, ou la fonction de probabilit´e p, alors que, dans le cadre param´etrique, ces fonctions d´ecoulent du seul choix du param`etre inconnu θ. Pour les v.a. continues nous ferons l’hypoth`ese que F et f sont quelconques mais d´erivables, donc lisses en pratique, au moins jusqu’` a l’ordre 2 et parfois plus. Pour les v.a. discr`etes on pourrait envisager de travailler avec de telles hypoth`eses pour F et p ´etendues `a tout R (comme c’est le cas pour la plupart des lois discr`etes usuelles), mais ceci n’est pratiquement jamais effectu´e car on se contente, l’ensemble des valeurs possibles {xi } ´etant connu, d’estimer p(xi ) (respectivement F (xi )) par les fr´equences relatives (respectivement les fr´equences relatives cumul´ees) observ´ees. Cette section ne concerne donc que les variables al´ eatoires continues. Au sens strict on exclut donc l’´etude d’une population r´eelle qui ne prend qu’un nombre fini de valeurs, mais on peut supposer qu’en amont d’une telle population il existe un mod`ele virtuel, parfois appel´e mod`ele de superpopulation, qui est celui que l’on cherche a` estimer. On peut se poser la question de savoir quel est l’int´erˆet r´eel de l’estimation de f ou de F. L’int´erˆet le plus imm´ediat est de visualiser la distribution des valeurs, ce qui est propre a` la fonction de densit´e plutˆ ot qu’`a la fonction de r´epartition. En effet cette derni`ere met mal en ´evidence les zones de fortes ou faibles probabilit´es. L’estimation de la densit´e peut aussi viser `a une premi`ere prise de connaissance du ph´enom`ene de fa¸con `a orienter la recherche d’un mod`ele ad´equat dans la panoplie des mod`eles param´etriques disponibles. Dans certaines applications techniques la densit´e ou la fonction de probabilit´e peut avoir un int´erˆet en soi, par exemple pour effectuer des simulations fines de processus ou pour montrer des caract´eristiques tr`es sp´ecifiques (par exemple des points d’inflexion) ayant une interpr´etation physique. Quant aux caract´eristiques usuelles (moyenne, variance, moments, quantiles, etc.) il arrive qu’en les estimant par les caract´eristiques correspondantes de l’estimation de la fonction F ou f on am´eliore les m´ethodes d’estimation directes, mais nous n’envisagerons pas ces possibilit´es encore peu explor´ees, consid´erant que globalement les estimations directes vues aux sections pr´ec´edentes restent pr´ef´erables. Nous n’avons pas abord´e plus haut l’estimation du ou des modes de la distribution (i.e. les positions des maxima de la densit´e) : l’estimation de la densit´e fournira une fa¸con pertinente d’estimer ces caract´eristiques.
182
Statistique − La th´eorie et ses applications
Le d´eveloppement de l’estimation fonctionnelle est relativement r´ecent, notamment parce que les m´ethodes mobilisent de gros moyens de calcul et qu’elles s’appliquent a` des ´echantillons de taille plutˆ ot grande. Dans les ann´ees 1950 on s’est d’abord int´eress´e `a l’estimation de la densit´e qui pr´esente, comme on vient de le voir, un int´erˆet dominant.
8.5.2
L’estimation de la densit´ e
L’histogramme comme estimation de densit´ e L’histogramme dont l’origine est attribu´ee `a John Graunt au XVIIe si`ecle r´epondait a` l’objectif d’une repr´esentation de la distribution de valeurs et, a` ce titre, peut ˆetre consid´er´e comme une estimation de densit´e avant l’heure. C’est sous cet angle que nous allons l’´etudier mˆeme si son int´erˆet r´eside souvent plutˆ ot dans l’estimation de pourcentages dans des intervalles (ou «classes») bien d´etermin´es (par exemple les classes d’ˆage des statistiques officielles). Dans sa plus grande g´en´eralit´e un histogramme se d´efinit a` partir d’une suite double de valeurs croissantes {. . . , a−i , . . . , a−1 , a0 , a1 , . . . , ai , . . .} constituant un d´ecoupage en intervalles de la droite r´eelle. Soit nk la fr´equence des observations situ´ees dans l’intervalle ]ak , ak+1 ] pour un ´echantillon de taille n, alors l’histogramme est la fonction constante par morceaux fn telle que, pour tout k ∈ Z : nk n pour x ∈ ]ak , ak+1 ], fn (x) = (ak+1 − ak ) conduisant a` la repr´esentation graphique classique en rectangles (obtenue en d´elimitant verticalement les intervalles). La fr´equence relative nk /n estimant la probabilit´e (ou la proportion, dans une population) pk associ´ee `a l’intervalle ]ak , ak+1 ] y est divis´ee par la largeur ak+1 − ak de cet intervalle ce qui a bien valeur de densit´e de probabilit´e au sens explicit´e en section 1.4. Sauf exception on choisit une «grille» de d´ecoupage {ak } r´eguli`ere et soit, alors, h la largeur de chaque intervalle. On a : nk fn (x) = nh
pour x ∈ ]ak , ak+1 ] .
Pla¸cons-nous maintenant dans le cadre d’un n−´echantillon al´eatoire de loi m`ere de densit´e f continue sur tout R et ´etudions les propri´et´es d’´echantillonu nage de la v.a. (not´ee simplement comme pr´ec´edemment) fn (x) = Nk /nh o` Nk est le nombre al´eatoire de valeurs tombant dans ]ak , ak+1 ], x ´etant fix´e dans cet intervalle. On a Nk ; B(n, pk ), d’o` u: pk npk = nh h np pk (1 − pk ) (1 − pk ) k = . V (fn (x)) = n2 h2 nh2 E(fn (x)) =
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
183
a Comme pk = akk+1 f (x)dx, phk est la valeur moyenne de f sur [ak , ak+1 ] et fn (x) u f prend n’est donc sans biais que pour la ou les valeurs de x dans ]ak , ak+1 ] o` cette valeurmoyenne. Nous d´esignons par x∗k l’une de ces valeurs, i.e. telle que a u f (x) diff`ere de f (x∗k ), f (x∗k ) = h1 akk+1 f (x)dx = phk . Pour toute valeur x o` fn (x) est un estimateur biais´e de f (x) dont le biais est ´egal `a f (x∗ ) − f (x). k
Consid´erons le comportement asymptotique de fn (x). Quand n → ∞ le biais qui ne d´epend pas de n ne peut tendre vers z´ero. Sauf a` faire tendre simultan´ement la largeur d’intervalle h vers z´ero, auquel cas x tend n´ecessairement vers x∗k et, par continuit´e de f , f (x∗k ) − f (x) tend donc vers z´ero. Quant `a la variance, du fait que pk (1 − pk )/h = (1 − pk )f (x∗k ), elle ne peut tendre vers z´ero que si, simultan´ement, nh → ∞. En d’autres termes la largeur d’intervalle doit tendre vers 0 mais de√fa¸con infiniment moins « rapide » que 1/n, par exemple en choisissant h = c/ n. Puisque E(Nk ) = npk = nhf (x∗k ) la condition nh → ∞ assure que le nombre attendu de valeurs dans ]ak , ak+1 ] tende vers l’infini. Concr`etement cela se traduit de la fa¸con suivante : plus n est grand plus il y a avantage a` resserrer les intervalles mais pas trop, afin de garder de grandes valeurs de nk . Ces conditions qui assurent la convergence en moyenne quadratique - soit n → ∞, h → 0, nh → ∞ - restent n´ecessaires pour assurer d’autres modes de convergence, notamment en probabilit´e ou presque sˆ urement. De plus elles se retrouvent pour tous les types d’estimateurs fonctionnels comme nous en verrons des exemples plus loin. La proposition suivante, que nous admettrons, vient pr´eciser la forme asymptotique de l’erreur quadratique moyenne de fn (x) pour x fix´e. Proposition 8.4 (Friedman et Diaconis, 1981) En tout x o` u f est deux fois d´erivable on a : eqm(fn (x)) =
h2 f (x) 1 [f (x)]2 + + o(h2 ) + o( ) . 12 nh nh
Ainsi avec les conditions n → ∞, h → 0, nh → ∞, l’e.q.m. est asymptoti2 (x) , le premier terme ´etant dˆ u au biais quement ´equivalente a` h12 [f (x)]2 + fnh (au carr´e) et le deuxi`eme `a la variance. L’int´erˆet de ce r´esultat est d’´etablir la vitesse de convergence de l’e.q.m. vers z´ero, dans le cas o` u h est choisi de fa¸con optimale, pour la comparer plus loin avec un estimateur plus ´elabor´e. En annulant sa d´eriv´ee par rapport a` h on trouve que cette derni`ere expression est minimale pour : h={
6f (x) 1/3 −1/3 } n [f (x)]2
et l’e.q.m. est asymptotiquement ´equivalente, avec cet h optimal, a` k(x)n−2/3 o` u k(x) d´epend de f (x) et de f (x). On dira que la vitesse de convergence de l’e.q.m. est en n−2/3 .
184
Statistique − La th´eorie et ses applications
Remarques 1. La construction de l’histogramme d´epend de deux param`etres : h, la largeur des intervalles, et a0 , la position de l’origine de la grille. En fait le choix de a0 n’est pas crucial (et ne subsiste pas dans l’approche plus ´elabor´ee qui va suivre) alors que celui de h est d´eterminant et incontournable. Notons que le r´esultat pr´ec´edent concernant le h optimal n’est d’aucun secours en pratique car cette valeur d´epend de f (x) et de f (x) qui sont inconnus. Diff´erentes r`egles empiriques, ´etrang`eres aux consid´erations asymptotiques ci-dessus, ont ´et´e propos´ees en statistique descriptive, par exemple√ : choisir un nombre d’intervalles sur l’´etendue des observations ´egal `a n. 2. Si f est discontinue aux bornes de son support (voir la loi uniforme, la loi exponentielle ou la loi de Pareto) les r´esultats d´evelopp´es ne sont pas valables en ces bornes. De plus si celles-ci sont inconnues l’histogramme pose probl`eme. 3. L’histogramme, c’est-`a-dire la fonction fn , est discontinu alors mˆeme que f est continue. On peut donc songer a` le rendre continu pour, sans doute, am´eliorer son efficacit´e. C’est l’id´ee qui pr´evaut pour le polygone des fr´equences (ligne bris´ee reliant les milieux des «plateaux» de l’histogramme) qui reste cependant peu usit´e. La m´ethode de la section suivante va proposer une solution plus performante. Les estimateurs ` a noyaux D´ efinition L’origine de la m´ethode des noyaux est due `a Rosenblatt (1956). Celui-ci a propos´e une sorte d’histogramme mobile o` u la fenˆetre de comptage des observations se d´eplace avec la valeur de x. La densit´e en x est estim´ee par la fr´equence relative des observations dans l’intervalle [x − h, x + h], donc centr´e sur x, divis´ee naturellement par la largeur de l’intervalle 2h. On appelle h la largeur de fenˆetre (bien que cette largeur soit en fait ´egale `a 2h). Pour des raisons qui apparaˆıtront plus loin nous ´ecrivons l’estimation ainsi obtenue a` partir des observations x1 , x2 , · · · , xn sous la forme suivante (conservant encore la mˆeme notation fn ) : 1 K fn (x) = nh n
i=1
o` u
x − xi h
1 K(u) = si u ∈ [−1, +1] et 0 sinon. 2
i En effet xi ∈ [x − h, x + si et seulement si x−x ∈ [−1, +1] et xi est alors h h] n x−xi comptabilis´e 1/2. Ainsi i=1 K h est ´egal au nombre d’observations tombant dans [x − h, x + h] divis´e par 2 pour obtenir la division de la fr´equence relative par 2h. Comme K est discontinue en ±1, fn (x) pr´esente des petits sauts de discontinuit´e aux points x1 ± h, x2 ± h, . . . , xn ± h. Parzen (1962) a
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
185
propos´e une g´en´eralisation de l’id´ee de Rosenblatt permettant, entre autres, de lisser davantage l’estimation. A la fonction K ci-dessus on substitue une fonction que l’on pourra choisir continue ou d´erivable partout, propri´et´e qui se transf`ere `a la fonction fn . En d’autres termes on fera entrer ou sortir les points xi «en douceur» quand on d´eplace la fenˆetre. Toutefois la fonction K est soumise aux conditions suivantes : – K est positive (ou nulle) – K est paire – R K(u)du = 1. Une telle fonction est alors appel´ee noyau. La premi`ere condition garantit que i de chaque observation xi reste positif ou nul, la deuxi`eme le poids K x−x h que ce poids soit identique de part et d’autre de x. La troisi`eme condition est une normalisation des poids de fa¸con que fn soit bien une densit´e. En effet, i on obtient : avec le changement de variable u = x−x h
1 fn (x)dx = nh i=1 R n
K R
x − xi h
h nh i=1 n
dx =
1 1 = 1. n i=1 n
K (u) du = R
Notons qu’une fonction noyau est, en fait, une fonction de densit´e sym´etrique autour de z´ero, donc de moyenne nulle (si elle existe). Comme : 1 nh
K R
x − xi h
dx =
1 n
K(u)du = R
1 , n
on peut donner une interpr´etation concr`ete de fn . Supposons, pour fixer les id´ees, que K ait pour support [−1, +1]. Alors fn est obtenue en rempla¸cant chaque observation xi par une mˆeme petite «densit´e» (son aire ´etant r´eduite `a 1 ) de support [xi −h, xi +h] , puis en sommant ces petites densit´es. Cette vision n correspond `a un principe g´en´eral de lissage de donn´ees discr`etes qui consiste `a faire «bouger» chaque donn´ee pour lui substituer un ´el´ement continu. En pratique on impose comme condition suppl´ementaire que K d´ecroisse de part et d’autre de z´ero, dans l’id´ee naturelle de donner un poids plus faible aux observations au fur et a` mesure qu’elles s’´eloignent du centre de la fenˆetre x. Ainsi les noyaux les plus usuels sont : 1 2 K(u) = 1 − |u| 3 K(u) = (1 − u2 ) 4 15 (1 − u2 )2 K(u) = 16 1 1 K(u) = √ exp(− u2 ) 2 2π K(u) =
si u ∈ [−1, 1]
noyau de Rosenblatt
si u ∈ [−1, 1]
noyau triangulaire
si u ∈ [−1, 1]
noyau d’Epanechnikov
si u ∈ [−1, 1]
noyau de Tukey ou biweight
u∈R
noyau gaussien.
186
Statistique − La th´eorie et ses applications
Les deux premiers ont l’avantage d’ˆetre simples, le noyau triangulaire ´etant continu partout et conduisant a` une estimation fn continue. Le troisi`eme doit sa notori´et´e `a une propri´et´e d’optimalit´e th´eorique mais sans grand int´erˆet pratique (voir plus loin le paragraphe «choix pratiques»). Le quatri`eme est, `a notre sens, le plus int´eressant car donnant une estimation d´erivable partout, tout en ´etant simple `a mettre en oeuvre. En fait il s’agit du noyau le plus simple parmi les noyaux de forme polynomiale d´erivables partout. Ainsi il assure le lissage local de la fonction fn . Ce noyau est d’une forme tr`es proche du noyau gaussien et est donc pr´ef´erable, ce dernier ayant un coˆ ut de calcul plus ´elev´e du fait de son support infini (la «largeur de fenˆetre» h devenant conventionnellement l’´ecart-type de la loi de Gauss). Notons que plus la valeur de h est ´elev´ee plus on ´elargit la fenˆetre, ce qui a un effet de lissage global de fn plus important. Ceci est `a rapprocher du choix de la largeur des intervalles pour l’histogramme.
Note 8.5 Le choix du type de noyau ´etant fix´e, seul reste a` effectuer le choix de h que nous envisagerons plus loin. Le probl`eme du positionnement de la grille de l’histogramme (choix de a0 ) n’existe pas ici. Pour ce dernier on peut aussi s’affranchir de ce choix en prenant la moyenne, en continu, des estimations obtenues par glissement continu de la grille de a0 quelconque `a a0 + h. On obtient alors l’estimateur a` noyau triangulaire (voir exercices).
Propri´ et´ es asymptotiques des estimateurs ` a noyaux Il existe peu de r´esultats `a n fini et l’on doit se satisfaire de r´esultats asymptotiques. Reprenons l’expression g´en´erale d’un estimateur a` noyau pour un ´echantillon al´eatoire X1 , X2 , . . . , Xn : 1 fn (x) = K nh i=1 n
x − Xi h
.
Pour calculer le biais et la variance en un point x fix´e posons :
Zi =
1 K h
x − Xi h
.
Ainsi la variable al´eatoire fn (x) est la moyenne des Zi qui, en tant que fonctions respectives des Xi , sont des variables al´eatoires i.i.d.. Soit Z = h1 K x−X la h v.a. symbolisant la loi commune aux Zi comme X symbolise la loi m`ere des Xi de densit´e f.
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
187
Calcul du biais On a :
Comme
n 1 1 x−X Zi ) = E(Z) = E K E(fn (x)) = E( n i=1 h h x−t 1 f (t)dt K = h R h x−t . = K(u)f (x + uh)du en posant u = h R
R
K(u)du = 1 le biais peut s’´ecrire : E(fn (x)) − f (x) = K(u)[f (x + uh) − f (x)]du . R
On voit que le biais r´esulte de l’´ecart de la valeur de la densit´e dans la fenˆetre centr´ee sur x par rapport a` sa valeur en x mˆeme. Si f ´etait constante dans la fenˆetre le biais serait nul, et de mˆeme si f ´etait parfaitement lin´eaire en raison de la parit´e du noyau K. Comme pour l’histogramme le biais ne d´epend pas de la taille de l’´echantillon et ne peut ˆetre r´eduit a` z´ero qu’en faisant tendre h vers z´ero. Prenons un d´eveloppement de Taylor de f au voisinage de x : f (x + uh) = f (x) + uhf (x) + Le biais s’´ecrit :
u2 h2 f (x) + o(h2 ) . 2
h2 uK(u)du + f (x) 2 R h2 f (x) u2 K(u)du + o(h2 ) = 2 R
E(fn (x)) − f (x) = hf (x)
u2 K(u)du + o(h2 ) R
puisque K est paire. Pour h petit le biais d´epend donc de f (x) et du moment d’ordre 2 du noyau. Le biais est du signe de f ”(x) : si f est concave en x le biais est n´egatif, si elle est convexe le biais est positif. En particulier si x est un point o` u f est `a un maximum le biais sera n´egatif. On sous-estime donc (en moyenne) la hauteur du maximum, ce que l’on peut comprendre intuitivement : la densit´e au voisinage de x ´etant plus faible il y a n´ecessairement un d´eficit de points dans la fenˆetre. A l’inverse les minima ´eventuels seront surestim´es. Par cons´equent la m´ethode tend a` ´ecrˆeter les creux et les pics de la densit´e ce qui est un inconv´enient majeur. Calcul de la variance On a : V (fn (x) = V (
n 5 14 1 1 E(Z 2 ) − [E(Z)]2 Zi ) = V (Z) = n i=1 n n
188
Statistique − La th´eorie et ses applications
avec : 2 1 1 x−t E(Z 2 ) = f (t)dt K n nh2 R h x−t 1 2 ) [K(u)] f (x + uh)du (en posant u = = nh R h et : 1 1 [E(Z)]2 = n n
2 K(u)f (x + uh)du
.
R
Alors que le terme n1 [E(Z)]2 tend bien vers z´ero quand n → ∞ on voit que le terme n1 E(Z 2 ) ne tend vers z´ero que si nh → ∞. Par cons´equent, pour que fn (x) converge vers f (x) en moyenne quadratique les mˆemes conditions sont n´ecessaires que pour l’histogramme : n → ∞, h → 0, nh → ∞. Le terme n1 [E(Z)]2 est d’ordre n1 , ce que l’on note O( n1 ). En utilisant le d´eveloppement de Taylor : f (x + uh) = f (x) + uhf (x) + o(h), on obtient : 1 1 1 2 E(Z 2 ) = f (x) [K(u)] du + O( ) , n nh n R d’o` u: V (fn (x) =
1 f (x) nh
1 2 [K(u)] du + O( ). n R
Finalement l’erreur quadratique moyenne en x fix´e est : h4 [f (x)]2 eqm(fn (x)) = 4
2
2
u K(u)du
+
R
f (x) nh
2
[K(u)] du R
1 + o(h4 ) + O( ) . n Faisant abstraction des termes o(h4 ) + O( n1 ) n´egligeables dans les conditions de convergence, on voit que plus la largeur de fenˆetre h est faible plus le biais diminue mais plus la variance augmente et, inversement, l’´elargissement de la fenˆetre augmente le biais et diminue la variance. Il existe un optimum (mais valable uniquement pour le point x) qui, comme pour l’histogramme, est obtenu en d´erivant par rapport a` h, soit :
hopt
f (x)
2
[K(u)] du R =
2 2 [f (x)] u2 K(u)du R
1/5 n−1/5
et, en substituant hopt dans la formule de l’expression asymptotique de l’e.q.m., u ν(K) est une expression qui ne celle-ci prend la forme k(x) ν(K) n−4/5 o` d´epend que du choix du noyau et k(x) est fonction de f (x) et de f (x). Ainsi
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
189
la convergence est plus rapide que pour l’histogramme, ´etant d’ordre n−4/5 au lieu de n−2/3 . Jusqu’` a pr´esent nous avons raisonn´e `a x fix´e. Il est clair que ce qui nous int´eresse est de connaˆıtre le comportement de l’estimateur fn de la fonction f globalement sur tout R. Pour cela on consid`ere, pour une r´ealisation donn´ee, son ´ecart `a f int´egr´e sur tout R ce qui conduit, en prenant l’esp´erance math´ematique de cet ´ecart int´egr´e, au crit`ere d’erreur quadratique int´egr´ee moyenne (e.q.i.m. ou MISE en anglais : mean integrated square error ) : + ,2 fn (x) − f (x) dx . eqim(fn ) = E R
Celle-ci se calcule ais´ement `a partir des r´esultats pr´ec´edents car, ´etant donn´e les conditions de r´egularit´e impos´ees `a f et `a K, il est licite d’intervertir les int´egrations (l’une explicite, l’autre implicite dans le calcul de l’esp´erance math´ematique) ce qui conduit `a int´egrer l’expression de l’e.q.m. en x fix´e : + ,2 eqim(fn ) = dx = E fn (x) − f (x) eqm(fn (x))dx. R
R
D’o` u: h4 eqim(fn ) = 4
2
[f (x)] dx R
2 2
u K(u)du R
1 + nh
2
[K(u)] du R
1 + o(h ) + O( ). n 4
Comme pr´ec´edemment on trouve un h optimal qui est en n−1/5 et une e.q.i.m. de la forme g(f ) ν(K) n−4/5 . Le mˆeme crit`ere aurait pu ˆetre appliqu´e `a l’histogramme, la vitesse de convergence ´etant ´egalement conserv´ee en n−2/3 . Ainsi, en tant qu’estimateur fonctionnel un estimateur a` noyau converge plus vite vers la vraie densit´e f que l’histogramme. Mais ce r´esultat repose sur un choix optimal tr`es th´eorique (puisque d´ependant de l’inconnue f ) et de conditions de convergence artificielles. C’est pourquoi nous consid´erons maintenant les aspects pratiques. Choix pratiques Le praticien doit effectuer deux choix : celui du noyau K et celui de la fenˆetre h. Le choix de K s’av`ere ˆetre relativement indiff´erent pour ce qui concerne le crit`ere de l’e.q.i.m. Ceci a pu ˆetre constat´e par calcul direct ou par simulation sur une grande vari´et´e de lois m`eres et est d’ailleurs confirm´e sur l’expression asymptotique ci-dessus. En effet la valeur minimale de ν(K) est atteinte avec le noyau d’Epanechnikov. Cette valeur est 0,349 alors qu’elle est ´egale `a 0,351 pour le biweight et 0,369 pour le noyau de Rosenblatt (voir exercices). Par cons´equent
190
Statistique − La th´eorie et ses applications
le biweight (noyau de Tukey) doit ˆetre recommand´e pour son avantage de lissage local ´evoqu´e plus haut. Reste le choix difficile de h pour lequel diverses m´ethodes ont ´et´e propos´ees, aucune ne donnant satisfaction de fa¸con universelle. Sans aborder dans le d´etail ce vaste sujet mentionnons trois approches. Deheuvels (1977) a sugg´er´e de prendre la valeur optimale vue ci-dessus : m(f ) ν(K) n−4/5 , en calculant m(f ) sur f gaussienne. Toutefois on n’´echappe pas a` l’estimation de la variance σ de la loi de Gauss que l’on effectue naturellement par la variance empirique. Une deuxi`eme approche d´eriv´ee d’une proc´edure de type r´e´echantillonnage dite de validation crois´ee a ´et´e ´etudi´ee initialement par Marron (1987) et est souvent adopt´ee par les logiciels, car de port´ee plus g´en´erale. Elle consiste `a choisir la valeur de h qui maximise l’expression : n $
−i (xi ) fn,h
i=1 −i o` u fn,h est l’estimation de densit´e effectu´ee avec une valeur h en omettant la i-`eme observation. On maximise ainsi globalement les densit´es attribu´ees a la mani`ere du maximum de vraisemblance. Pour que aux observations xi ` l’´evaluation en xi ne soit pas influenc´ee par la valeur de xi elle-mˆeme, on ´elimine celle-ci du calcul.
Pour notre part nous proposons de choisir, avec le noyau biweight : h = 0,75 min[x(i+[ n2 ]) − x(i) ] i
n −1/5 . 100
Ceci r´esulte du fait que, pour une diversit´e de lois et pour n = 100, la valeur optimale reste proche de 0,75 fois la largeur de l’intervalle de probabilit´e 0,5 autour du mode. Cette m´ethode est simple ` a mettre en oeuvre et effectue g´en´eralement un lissage ad´equat (voir Lejeune, 1982). La plupart des propositions de choix de h reposent sur l’optimisation de l’e.q.i.m. (ou sur l’un des crit`eres mentionn´es plus loin, mais aucun n’est la panac´ee) et, par exp´erience, on constate souvent qu’elles ne fournissent pas n´ecessairement une estimation graphiquement satisfaisante, laissant subsister des variations locales (tendance a` sous-lisser). La m´ethode la plus sˆ ure reste donc celle des essais et erreurs o` u, partant d’une valeur de toute ´evidence trop faible de h donnant des fluctuations locales ind´esirables, on augmente progressivement cette valeur jusqu’au seuil de disparition de telles fluctuations. Par calcul direct ou par simulation on constate que, mˆeme pour d’assez grands ´echantillons, la valeur de h effectivement optimale (au sens de l’e.q.i.m. mais aussi d’autres crit`eres d’erreur) reste ´etonnamment ´elev´ee. Ainsi en prenant, simplement a` titre indicatif, une loi m`ere N (0 ; 1) la valeur de h optimale
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
191
est de 1,11 pour n = 100 et vaut encore 0,70 pour n = 1 000. Ceci restreint fortement la validit´e des expressions asymptotiques ´etablies avec h tendant vers z´ero. De plus avec un tel choix il faut s’attendre `a un ´ecrˆetement non n´egligeable des extrema de la densit´e. Mˆeme si les expressions asymptotiques sont `a prendre avec pr´ecaution, elles permettent de v´erifier sur diverses lois que la m´ethode des noyaux, outre le fait qu’elle peut donner une estimation lisse, est nettement plus efficace, au sens de l’e.q.i.m., que l’histogramme. En se pla¸cant, par exemple, aux valeurs respectives optimales de h avec n = 100, pour une loi m`ere N (0 ; 1), l’e.q.i.m. asymptotique de l’histogramme est 2,5 fois plus ´elev´ee que celle obtenue par noyau biweight. Lorsque n s’accroˆıt ce rapport augmente, ce qui correspond aux diff´erences de vitesses de convergence : pour n = 1 000 il vaut 3,4 (voir exercices). Remarques diverses On a vu que le biais ´etait de nature a` ´ecrˆeter les extrema de f ce qui est particuli`erement fˆacheux s’agissant de points caract´eristiques de la densit´e (dont son ou ses modes). On peut r´eduire le biais, et notamment ce ph´enom`ene, en relˆachant la contrainte de positivit´e du noyau. En effet en choisissant un noyau K tel que R u2 K(u)du = 0 on ´elimine, dans 2 l’expression asymptotique du biais le terme en h2 : h2 f (x) R u2 K(u)du. En poursuivant le d´eveloppement de Taylor jusqu’` a l’ordre 4 l’expression asymp 4 totique du biais devient h4! f (4) (x) R u4 K(u)du + o(h4 ) o` u f (4) est la d´eriv´ee `a l’ordre 4 de f. Ainsi, si f reste proche d’un polynˆ ome du deuxi`eme ou troisi`eme degr´e au voisinage de x, le biais sera pratiquement r´eduit `a z´ero, ce qui permet de mieux coller aux Un noyau v´erifiant R u2 K(u)du = 0 (et par extrema. 3 la parit´e, forc´ement R u K(u)du = 0) est appel´e noyau d’ordre 4. Le noyau d’ordre 4 d´erivable partout de type polynomial le plus simple est : K(u) =
105 (1 − u2 )2 (1 − 3u2 ) 64
si u ∈ [−1, 1]
(0 sinon) ,
qui est une modification du biweight et dont la figure 8.1 montre qu’il a des plages n´egatives sur les extr´emit´es. Ce faisant la variance est accrue par rapport au biweight, mais cet accroissement est largement compens´e par la diminution du biais pour le crit`ere d’e.q.i.m. (` a titre d’exemple, pour une loi N (0 ; 1) le gain global est de l’ordre de 25% avec des largeurs de fenˆetre autour de l’optimum). Toutefois le prix a` payer pour r´eduire le biais est le fait que fn n’est ´ plus n´ecessairement positive ou nulle. Etant donn´e le faible poids des plages n´egatives dans le noyau (voir figure 8.1) il s’agira d’effets de bord : les zones n´egatives de fn seront limit´ees aux extr´emit´es, o` u les observations se font rares, et seront de tr`es faible ampleur. N´eanmoins on sera contraint de « rectifier » fn sur ces bords. En raison de cet inconv´enient, mˆeme marginal, le noyau d’ordre 4 n’a pas le succ`es qu’il m´eriterait pourtant. La figure 8.2 est un exemple obtenu avec le noyau propos´e ci-dessus.
192
Statistique − La th´eorie et ses applications
K (u ) =
105 (1 − u 2 ) 2 (1 − 3u 2 ) 64
1,5 1 0,5
u 0 -1
-0,5
0
0,5
1
-0,5 Figure 8.1 - Noyau d’ordre 4 d´eriv´e du biweight
Comme nous l’avons d´ej`a indiqu´e d’autres crit`eres d’erreur que l’erreur quadratique int´egr´ee ont ´et´e ´etudi´es, notamment : fn (x) − f (x) dx R sup fn (x) − f (x) x
dont on a montr´e la convergence en probabilit´e vers z´ero avec le mˆeme type de conditions que pr´ec´edemment (citons `a ce propos les travaux de Devroye et Gy¨ orfi, 1985). D’autres approches que la m´ethode des noyaux ont ´et´e propos´ees : s´eries orthogonales, splines, maximum de vraisemblance p´enalis´e, plus proches voisins (nearest neighbour ), ondelettes, etc. Globalement on peut dire qu’elles ne donnent pas des r´esultats significativement meilleurs que la m´ethode des noyaux. Aucune ne peut se soustraire a` l’incontournable probl`eme du choix d’un param`etre de lissage, explicite ou non.
8.5.3
L’estimation de la fonction de r´ epartition
La d´emarche que nous allons suivre est calqu´ee sur celle de la densit´e. Partant de la solution classique de la statistique descriptive, a` savoir la fonction de r´epartition empirique, nous ´etudierons les possibilit´es de lissage en vue d’une am´elioration.
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
193
Figure 8.2 - Estimation par noyau : donn´ees de taux de cholest´erol de 3 200 hommes (source : projet FNRS-Suisse sur la pr´evention des maladies cardiovasculaires)
La fonction de r´ epartition empirique Rappelons sa d´efinition donn´ee en section 5.7 : 1 I(−∞,x] (Xi ) pour tout x ∈ R, Fn (x) = n n
i=1
o` u I(−∞,x] est la fonction indicatrice de l’intervalle (−∞, x]. Pour une r´ealisation x1 , x2 , . . . , xn , c’est une fonction en escalier s’´elevant de 1/n `a chaque rencontre d’une valeur xi . Pour x fix´e on a vu que la statistique nFn (x) suit une loi binomiale B(n, F (x)). Pour n grand, par l’approximation gaussienne d’une binomiale (voir section 5.8.3), nFn (x) suit approximativement une loi N (nF (x), nF (x)(1 − F (x))) et on a donc : F (x)(1 − F (x)) . Fn (x) ; N F (x) , approx n Les deux param`etres de cette loi de Gauss correspondent `a la moyenne et la variance de Fn (x). Pour x fix´e, Fn (x) est donc un estimateur sans biais et convergent de F (x). Notons que Fn (x) est la moyenne d’une suite de variables
194
Statistique − La th´eorie et ses applications
al´eatoires i.i.d. I(−∞,x] (Xi ) (elles sont ind´ependantes comme fonctions respectives des Xi ) toutes issues de la loi de Bernoulli de param`etre p = F (x). Ainsi la loi des grands nombres (th´eor`eme 5.3) s’applique et Fn (x) converge aussi presque sˆ urement vers F (x). L’approximation gaussienne ci-dessus permet de construire un intervalle de confiance approch´e sur le mod`ele de celui de la section 7.4.5 pour le param`etre p d’une loi de Bernoulli. Dans cette section nous nous int´eressons aux propri´et´es de Fn en tant qu’estimateur fonctionnel de F. La premi`ere proposition qui suit a d´ej`a ´et´e mentionn´ee plus haut dans le cadre du r´e´echantillonnage (section 8.4). Proposition 8.5 La fonction de r´epartition Fn est l’estimateur fonctionnel du maximum de vraisemblance pour F. Cette proposition d´emontr´ee par Kiefer et Wolfowitz (1956) m´erite d’ˆetre comment´ee dans la mesure o` u, jusqu’` a pr´esent, l’estimateur du maximum de vraisemblance (EMV) n’a ´et´e d´efini que dans le cadre param´etrique (d´efinition 6.11). Le principe reste le mˆeme : il s’agit de donner aux valeurs observ´ees x1 , x2 , · · · , xn la plus forte densit´e ou fonction de probabilit´e. Dans le cas continu on doit rechercher pour *nquelle fonction F l’expression de la fonction de vraisemblance de F : L(F ) = i=1 F (xi ), est maximis´ee. Pour une loi discr`ete a la fonction de F (xi ) doit ˆetre remplac´e par F (xi ) − F (x− i ) correspondant ` probabilit´e en xi (voir section 1.3). En fait on a avantage a` rester dans la plus grande g´en´eralit´e, n’ayant aucun a priori sur la nature de la loi et consid´erant une maximisation sur l’ensemble F des fonctions de r´epartition englobant le cas discret, continu ou mixte. F est donc l’ensemble des fonctions r´epondant aux conditions n´ecessaires et suffisantes d’une fonction de r´epartition (croissance sur R de 0 `a 1, continuit´e `a droite en chaque point). Cette approche g´en´erale n´ecessite des connaissances au-del`a du niveau de cet ouvrage et nous admettrons donc que la solution du probl`eme de maximisation sur F est Fn . L’int´erˆet d’en rester a` une approche g´en´erale tient au fait qu’une solution simple existe (si l’on met une contrainte de continuit´e pour F le probl`eme devient difficile) et qu’elle est naturelle dans la mesure o` u il s’ensuit que l’EMV de toute caract´eristique de la loi m`ere s’exprimant ncomme une esp´erance math´ematique d’une fonction g(X) devient alors n1 i=1 g(Xi), le cas le plus simple ´etant celui de la moyenne μ dont l’EMV est X (voir note 8.2). Les propri´et´es de Fn (x) pour x fix´e ont ´et´e ´etablies, notamment la convergence vers F (x). Le th´eor`eme suivant (que nous admettrons) est essentiel car il montre la convergence uniforme, pour tout x ∈ R, de Fn vers F. Th´ eor` eme 8.1 (Glivenko-Cantelli) Soit un ´echantillon al´eatoire X1 , X2 , . . . , Xn issu de la loi de fonction de r´epartition F et Fn sa fonction de r´epartition empirique. Alors, quand n −→ ∞ : p.s.
sup |Fn (x) − F (x)| −→ 0 .
x∈R
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
195
Pour voir les choses concr`etement, ce th´eor`eme nous dit que l’on peut ˆetre assur´e que l’´ecart maximal entre Fn et F va tendre vers 0 si l’on augmente la taille de l’´echantillon a` l’infini ou encore que partout, simultan´ement, la fonction de r´epartition empirique va se rapprocher de la vraie fonction de r´epartition. De plus, le th´eor`eme suivant donne le comportement asymptotique de l’´ecart maximal entre Fn et F. Th´ eor` eme 8.2 (Kolmogorov-Smirnov) Soit la variable al´eatoire : Dn = sup |Fn (x) − F (x)|. x∈R
Alors, pour x > 0, on a : ∞ √ 2 (−1)k−1 e−2(kx) . P ( nDn < x) −→ 1 − 2 n→∞
k=1
√ En d’autres termes nDn tend en loi vers une v.a. a` valeurs positives (car Dn est n´ecessairement positive) de fonction de r´epartition G(x) ´egale `a l’expression limite ci-dessus, laquelle ne d´epend pas de F. En fait mˆeme pour n fini epend pas de F et, de ce fait, elle a ´et´e tabul´ee. A partir la loi de Dn ne d´ de n = 40 l’approximation par G(x) est correcte `a 10−2 pr`es. Ce r´esultat permet de donner une bande de confiance approch´ee pour F. En effet, soit g0,95 le quantile d’ordre 0,95 de G(x), on a : √ P ( n sup |Fn (x) − F (x)| < g0,95 ) 0, 95 . x∈R
√ Mais l’´ev´enement ( n supx∈R |Fn (x) − F (x)| < g0,95 ) ´equivaut a` l’´ev´enement √ ( n[Fn (x) − F (x)| < g0,95 ] , pour tout x) ou : g0,95 g0,95 (Fn (x) − √ < F (x) < Fn (x) + √ , pour tout x). n n On a donc une proc´edure qui garantit, a priori avec une probabilit´e 0,95, que F (x), pour tout x, soit compris dans l’intervalle : g0,95 Fn (x) ± √ . n Pour une r´ealisation, la bande autour de Fn ainsi dessin´ee sera une r´egion de confiance `a 95% approch´ee pour F. On peut mˆeme ´etablir une bande exacte en lisant dans une table le quantile 0,95 de la loi exacte de Dn . A partir de n = 40 on peut utiliser l’expression asymptotique qui peut se r´eduire, disons 2 si x >0,8, pratiquement a` 1 − 2e−2x en ne gardant que le premier terme de
196
Statistique − La th´eorie et ses applications
la somme. Ainsi g0,95 est approximativement d´efini par la valeur de x telle que 2 1−2e−2x = 0,95 soit x = 1,36. Pour n assez grand la bande de confiance `a 95 √ . % est donc Fn (x) ± 1,36 n Le th´eor`eme 8.2 trouvera plus loin une application tr`es r´epandue pour tester un mod`ele de loi (voir le test de Kolmogorov-Smirnov en section 10.4.1). Lissage de Fn Nous envisageons maintenant le lissage de Fn pour le cas o` u l’on sait pouvoir se restreindre `a une fonction de r´epartition d´erivable jusqu’`a un certain ordre. Il existe, comme pour la densit´e, une s´erie de solutions, mais nous ne pr´esenterons que celle qui fait le pendant de l’estimateur a` noyau de la densit´e. Consid´erons l’estimation de F obtenue en int´egrant l’estimation par noyau de la densit´e f : n t − xi 1 K dt h −∞ −∞ nh i=1 n t − xi 1 x K = dt nh i=1 −∞ h n x−xi h t − xi 1 K (v) dv en posant v = . = n i=1 −∞ h
Fn (x) =
x
fn (t)dt =
x
u
D´efinissons le noyau int´egr´e : K (u) du ,
H(u) = −∞
alors on a : 1 H Fn (x) = n n
i=1
x − xi h
.
Comme K(u) ´etait de la forme d’une fonction de densit´e, H(u) est de la forme d’une fonction de r´epartition. Pour voir l’analogie avec la fonction de r´epartition empirique Fn , rappelons que Fn (x) est la moyenne des indicatrices I(−∞,x] (xi ). Or : x − xi I(−∞,x] (xi ) = I(−∞,0] (xi − x) = I(0,+∞,] ( )= h
0 si x < xi . 1 si x ≥ xi
Fn est donc de la forme de Fn (x), avec une fonction H(u) tr`es particuli`ere, donnant le saut brutal de 0 a` 1 en u = 0. L’apport d’une fonction plus souple r´epond au mˆeme principe g´en´eral de lissage que celui ´evoqu´e pour la densit´e,
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
197
` savoir qu’on effectue un passage de 0 a` 1 en douceur, ´etal´e entre xi − h et a xi + h autour de x. On remarquera que du fait que H est une primitive de K elle est continue et Fn est donc ´egalement continue. Par int´egration du noyau de Rosenblatt, le plus simple, et de celui de Tukey pr´econis´e pour la densit´e, on obtient : ⎧ si u ≤ −1 ⎨ 0 1 (u + 1) si − 1 < u < +1 (Rosenblatt int´egr´e) H1 (u) = ⎩ 2 1 si + 1 ≤ u ⎧ ⎪ ⎨ 0 H2 (u) =
⎪ ⎩
1 (8 16
1
si u ≤ −1 + 15u − 10u3 + 3u5 )
si − 1 < u < +1 si + 1 ≤ u
(Tukey int´egr´e) .
Lorsqu’on examine le graphe obtenu avec diff´erents noyaux on constate que la diff´erence est imperceptible. Ceci s’explique par le fait que l’estimation d’une fonction de r´epartition est fortement contrainte par la condition de croissance de 0 `a 1, et par sa continuit´e. De ce fait le probl`eme est beaucoup plus simple que pour la densit´e. En particulier la croissance implique de faibles courbures et donc peu ou pas de probl`eme de biais, contrairement `a la densit´e. Il n’y a donc pas d’avantage tangible a` utiliser des noyaux ou autres instruments de lissage sophistiqu´es et nous pr´econisons donc l’emploi du noyau H2 . Notons bien, toutefois, que les estimations de densit´es obtenues par d´erivation seront, quant `a elles, tr`es sensibles aux variations jug´ees mineures pour la fonction de r´epartition. Malgr´e ce constat il n’est pas inutile d’examiner le biais et la variance, de fa¸con asymptotique, comme cela a ´et´e fait pour la densit´e. Biais et variance On d´emontre les r´esultats suivants (voir Lejeune et Sarda, 1992) par des d´eveloppements similaires `a ceux de la densit´e. Pour un noyau K sym´etrique de support [-1,+1] on a, en x fix´e : h2 f (x) u2 K(u)du + o(h2 ) , E(Fn (x)) − F (x) = 2 R ! +1 1 H 2 (u)du − 1 + o(h) . V (Fn (x)) = F (x)[1 − F (x)] + hf (x) n −1 Alors que la fonction de r´epartition empirique Fn est sans biais, le lissage ne peut ´eviter d’introduire un certain biais. Les simulations a` n fini montrent toutefois que ce biais reste tr`es faible. En particulier on voit sur l’expression asymptotique qu’` a o(h2 ) pr`es il s’annule aux extrema de la densit´e (donc aux modes) qui correspondent `a des points d’inflexion pour F. Pour la variance on retrouve dans le premier terme de son expression asymptotique la variance de Fn . Par cons´equent on gagne sur la variance de Fn si le deuxi`eme terme +1 est n´egatif, soit −1 H 2 (u)du < 1, ce qui est v´erifi´e pour les noyaux int´egr´es
198
Statistique − La th´eorie et ses applications
courants. Dans le cas du noyau de Rosenblatt h 3n f (x)
2
h 6
+1 −1
H 2 (u)du =
2 3,
la variance
2
et le biais vaut f (x) (` a o(h ) pr`es). Pour ce qui d´ecroˆıt donc de concerne l’erreur quadratique moyenne elle sera am´elior´ee si la diminution de variance compense le biais au carr´e. Pour estimer, par exemple, le mode d’une loi qui serait une loi de Gauss, il n’y a pas de biais en raison de la sym´etrie en ce point et la variance diminue de 15 %. Ici comme pour la densit´e se pose le probl`eme de la largeur de fenˆetre optimale. Il est toutefois moins crucial en raison de la plus faible sensibilit´e de l’estimation a` ce param`etre de lissage. Note 8.6 On peut penser que l’estimation d’une caract´eristique ω(F ) par ω(Fn ) puisse ˆetre meilleure que la simple version empirique ω(Fn ). Encore faut-il choisir une valeur de h appropri´ee (la valeur optimale pour ce probl`eme ´etant alors g´en´eralement plus faible qu’avec l’objectif de minimisation de l’erreur quadratique int´egr´ee moyenne). Par ailleurs on a avantage ` a utiliser une version «r´etr´ ecie» de Fn (
qui conserve la variance empirique s2 . Elle s’obtient en rempla¸cant x par
1+
h2 s2
x
dans l’expression de Fn (x). Silverman (1987) montre que pour la plupart des lois, le moment simple d’ordre 6 est mieux estim´e par une version lisse, alors que l’am´elioration n’est pas syst´ematique pour les moments d’ordres inf´erieurs.
Pour approfondir l’estimation fonctionnelle on pourra consulter l’ouvrage m´ethodologique tr`es complet de Simonoff (1996) ou, pour les aspects math´ematiques, celui de Bosq et Lecoutre (1987).
8.6
Exercices
Exercice 8.1 G´en´erer 200 observations de loi lognormale LN (0 ; 1) (aide : dans un tableur du type EXCEL g´en´erer 200 observations de loi N (0 ; 1) et les transformer par ex ). Donner une estimation ponctuelle et par intervalle pour la m´ediane de la loi. L’intervalle contient-il la vraie valeur ? Recommencer pour estimer le quantile d’ordre 0,90. Exercice 8.2 (Adapt´e de Mosteller et Tukey, 1977) Soit les valeurs 0,1 0,1 0,1 0,1 0,4 0,5 1,0 1,1 1,3 1,9 1,9 4,7. Donner une estimation du jackknife de l’´ecarttype de la loi m`ere ayant g´en´er´e ces observations, fond´ee sur la statistique S. Donner un intervalle de confiance pour cet ´ecart-type. Exercice 8.3 Montrer que les pseudo-valeurs du jackknife fond´ees sur la van (Xi − X)2 , i = 1, . . . , n. riance empirique S'n2 sont n−1
Chapitre 8. Estimation non param´etrique et estimation fonctionnelle
199
Exercice 8.4 V´erifier que l’estimateur du jackknife appliqu´e `a la moyenne empirique redonne la moyenne empirique. Quelles sont les pseudo-valeurs ? Exercice 8.5 ∗ Dans les notations de la section 8.5.2 concernant l’histogramme, ´ecrire l’estimation fn (x) sous la forme d’une somme d’indicatrices. Dans le cas d’une grille r´eguli`ere {ak } de largeur d’intervalle h, d´eterminer fn (x) pour un u t > 0 et t < h. Calculer la valeur moyenne d´eplacement de la grille {ak + t} o` de fn (x) quand t varie de 0 a` h. Montrer qu’on obtient ainsi une estimation par noyau triangulaire (voir note 8.5). Exercice 8.6 Dans un tableur du type EXCEL g´en´erer 50 observations de loi N (0 ; 1). Estimer f (0) par un noyau biweight avec h = 1. Comparer `a la vraie valeur. Recommencer la proc´edure plusieurs fois pour confirmer le type de biais en pr´esence. Exercice 8.7 Dans un tableur du type EXCEL g´en´erer 50 observations de loi N (0 ; 1). Estimer f (0) par un noyau biweight avec h = 0,5 ; 0,75 ; 1 ; 1,25 ; 1,5 pour appr´ecier la variabilit´e des estimations ainsi obtenues. Quelle est la valeur de h asymptotiquement optimale ? Exercice 8.8 Dans l’expression asymptotique avec h optimal de l’erreur quadratique int´egr´ee moyenne de l’estimateur `a noyau de la densit´e, d´eterminer l’expression ν(K) qui ne d´epend que du noyau. Calculer et comparer ν(K) pour le noyau d’Epanechnikov, le noyau de Rosenblatt et le noyau de Tukey. Exercice 8.9 A partir de l’expression asymptotique de l’erreur quadratique int´egr´ee moyenne de l’estimateur `a noyau de la densit´e ´etablir, dans le cas du noyau de Tukey et pour une loi m`ere N (μ, σ2 ), que la valeur de h optimale est hopt 2,78 σ n−1/5 et que l’e.q.i.m. correspondante est environ 0,321 σ −1 n−4/5 (aide : on utilisera l’expression de hopt ´etablie `a l’exercice pr´ec´edent et les valeurs num´eriques utiles concernant le noyau biweight. Par ailleurs on peut −5 √ pour la loi de Gauss). ´etablir que R [f (x)]2 dx = 3σ 8 π Montrer de mˆeme pour l’histogramme que la valeur optimale de h donn´ee par la formule asymptotique est d’environ 3,49 σ n−1/3 avec une e.q.i.m. correspondante de 0,430 σ −1 n−2/3 (aide : on prendra comme e.q.i.m. l’expression 2 1 . On peut int´egr´ee de l’e.q.m. de la proposition 8.4, soit h12 R [f (x)]2 dx + nh −3 σ√ 2 ´etablir que R [f (x)] dx = 4 π pour la loi de Gauss). ´ Exercice 8.10 *Etablir la formule du biais pour Fn (x), estimateur `a noyau int´egr´e de F : 2 E(Fn (x)) − F (x) = h2 f (x) R u2 K(u)du + o(h2 ) Aide : utiliser une int´egration par partie pour introduire K.
Chapitre 9
Tests d’hypoth` eses param´ etriques 9.1
Introduction
Les tests statistiques constituent une approche d´ecisionnelle de la statistique inf´erentielle. Un tel test a pour objet de d´ecider sur la base d’un ´echantillon si une caract´eristique de la loi m`ere (ou de la population) r´epond ou non a` une certaine sp´ecification que l’on appelle hypoth`ese, par exemple : la moyenne de la loi est sup´erieure `a 10. Ces sp´ecifications peuvent avoir diverses provenances : normes impos´ees, affirmations faites par un tiers (par exemple le fabricant d’un produit), valeurs cruciales de param`etres de mod`eles, etc. Dans le cadre param´etrique o` u nous nous situerons initialement, les hypoth`eses portent sur le param`etre inconnu θ ou sur une fonction de ce param`etre h(θ) correspondant a` une caract´eristique d’int´erˆet de la loi. Dans le cas simple d’un espace param´etrique Θ ⊆ R, l’hypoth`ese sp´ecifiera une valeur ou un intervalle de valeur pour θ (ou pour h(θ)). Alors qu’un intervalle de confiance indique l’ensemble des valeurs plausibles, un test d´ecidera si tel ensemble de valeurs sp´ ecifi´ ees est plausible ou non. Bien que conceptuellement distinctes ces deux d´emarches reposent sur les mˆemes bases math´ematiques et de ce fait nous reprendrons de nombreux ´el´ements du chapitre 7. Nous verrons d’ailleurs en fin de chapitre que, pour tout test, on peut ´etablir une ´equivalence avec un intervalle de confiance. D’une fa¸con g´en´erale il est plus facile de construire un test que de construire un intervalle de confiance. Aussi la multiplicit´e des tests justifiera-t-elle que nous approfondissions les probl`emes d’optimalit´e. En outre on pourra utiliser la propri´et´e d’´equivalence pour d´efinir des proc´edures d’intervalles de confiance d´eriv´ees de tests. Les tests statistiques permettent d’aborder une grande vari´et´e d’hypoth`eses au-del`a du test d’une hypoth`ese portant sur un param`etre. Par exemple : la
202
Statistique − La th´eorie et ses applications
comparaison de plusieurs lois (ou populations), l’existence de liens entre plusieurs variables al´eatoires, l’ad´equation d’un mod`ele, etc. C’est au chapitre 10 que nous aborderons plus particuli`erement des hypoth`eses de nature plus complexe, notamment dans le cadre non param´etrique. Red´efinissons le cadre param´etrique. La loi observ´ee est r´eput´ee appartenir ` une famille de lois d´ecrite par la famille de densit´es de probabilit´e (respectia vement de fonctions de probabilit´e) {f (x; θ); θ ∈ Θ}, la forme fonctionnelle f ´etant connue et seul le param`etre θ ´etant inconnu. Θ est l’espace param´etrique u k est la dimension du param`etre θ. La fonction de et il est inclus dans Rk o` r´epartition est not´ee F (x; θ), l’´echantillon est X1 , X2 , · · · , Xn et X d´esignera la v.a. symbolisant la loi m`ere de l’´echantillon. Dans l’approche param´etrique la plus g´en´erale un test statistique consiste ` d´ecider d’accepter ou de rejeter une hypoth`ese sp´ecifiant que θ appartient a` a un ensemble de valeurs Θ0 . Cette hypoth`ese de r´ef´erence est appel´ee hypoth`ese nulle et est not´ee H0 . A contrario on d´efinit l’hypoth`ese alternative, not´ee H1 , pour laquelle θ appartient a` Θ1 = Θ − Θ0 o` u Θ − Θ0 d´enote le compl´ementaire de Θ0 par rapport a` Θ. En bref on identifiera cette situation en ´ecrivant que l’on teste : H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 , le mot vs. ´etant l’abr´eviation du latin versus. Suivant la nature de Θ0 et de Θ1 on distinguera trois cas : – hypoth`ese nulle simple et alternative simple o` u Θ = {θ0 , θ1 } : vs. H1 : θ = θ 1 H0 : θ = θ0 – hypoth`ese nulle simple et alternative multiple : vs. H1 : θ = θ0 H0 : θ = θ0 – hypoth`ese multiple et alternative multiple : H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 . Pour une hypoth`ese nulle ou une hypoth`ese alternative multiple il est sousentendu qu’il y a plusieurs valeurs possibles de θ. Nous commencerons par le premier cas qui, s’il est en r´ealit´e peu fr´equent, permet de poser simplement les notions essentielles et d’´etablir des r´esultats qui pourront ˆetre ´etendus aux autres situations. Dans ce chapitre, comme pour les intervalles de confiance au chapitre 7, nous introduirons tout d’abord la th´eorie g´en´erale pour pr´esenter ensuite les tests param´etriques classiques.
9.2
Test d’une hypoth` ese simple avec alternative simple
L’espace param´etrique Θ ne comprend donc que deux valeurs θ0 et θ1 , la valeur θ0 ´etant la valeur sp´ecifi´ee a` tester, i.e. : H0 : θ = θ0
vs.
H1 : θ = θ1 .
Chapitre 9. Tests d’hypoth`eses param´etriques
203
Un test pour H0 est une r` egle de d´ ecision fond´ee sur la valeur r´ealis´ee t d’une statistique T appel´ee statistique de test. Sauf exception la statistique T sera `a valeurs dans R, nous le supposerons implicitement. La r`egle est comme suit : – si t ∈ A (une partie de R) on accepte H0 , – si t ∈ A (partie compl´ementaire) on rejette H0 . La r´egion A, qui est g´en´eralement un intervalle, sera appel´ee r´egion d’acceptation et A r´egion de rejet. Une telle r`egle de d´ecision rec`ele deux types d’erreur possibles du fait que la vraie valeur du param`etre est inconnue : – rejeter H0 alors qu’elle est vraie (i.e. θ = θ0 ) : erreur de premi`ere esp`ece, – accepter H0 alors qu’elle est fausse (i.e. θ = θ1 ) : erreur de deuxi`eme esp`ece. ´ Etant donn´e que la d´ecision se fonde sur un r´esultat d’origine al´eatoire on caract´erisera chaque erreur par sa probabilit´e. En th´eorie de la d´ecision une probabilit´e d’erreur est appel´ee risque, d’o` u les d´efinitions suivantes. D´ efinition 9.1 On appelle risque de premi` ere esp` ece la valeur α telle que : α = Pθ0 (T ∈ A), c’est-` a-dire la probabilit´e de rejeter H0 alors qu’elle est vraie. Il est usuel de noter cette probabilit´e P (T ∈ A | H0 ) mˆeme s’il ne s’agit pas l` a d’une probabilit´e conditionnelle et, dor´enavant, nous adopterons cette notation commode. Le risque de premi`ere esp`ece est aussi appel´e en bref risque α. D´ efinition 9.2 On appelle risque de deuxi` eme esp` ece la valeur β telle que : β = Pθ1 (T ∈ A), c’est-` a-dire la probabilit´e d’accepter H0 alors que H1 est vraie. Ici ´egalement on notera cette probabilit´e P (T ∈ A | H1 ) et on parlera de risque β. Les deux risques sont interd´ependants puisque l’un repose sur A et l’autre sur son compl´ementaire A. Par le choix de A ou de A on peut donc vouloir contrˆ oler l’un ou l’autre, mais pas les deux. Dans un test statistique on privil´egie en fait le risque α que l’on se fixe a priori et le plus souvent on prend α = 0,05. C’est pourquoi la valeur α est aussi appel´ee le niveau ou niveau de signification1 du test. Ce niveau ayant ´et´e choisi il s’agit de d´eterminer une r´egion de rejet A 1 Ce terme de signification est ` a rapprocher de la notion de test de significativit´e pr´esent´ ee en fin de section 9.4.2.
204
Statistique − La th´eorie et ses applications
telle que, «sous H0 », la probabilit´e que T «tombe» dans A soit effectivement ´egale `a α. On voit ainsi que la loi de la statistique de test doit ˆ etre parfaitement connue sous H0 . La construction d’un test consiste donc `a rechercher une statistique pertinente (nous expliciterons plus loin ce que nous entendons par l` a) dont on connaˆıt la loi sous H0 . La r´egion de rejet ´etant ainsi d´etermin´ee, la r´egion d’acceptation l’est aussi et donc ´egalement le risque de deuxi`eme esp`ece β. Il est essentiel de garder `a l’esprit que dans une proc´edure de test on contrˆ ole le risque α mais pas le risque β. En d’autres termes, dans un test, on souhaite avant tout limiter `a un faible niveau le risque de rejeter a` tort la sp´ecification H0 , se souciant moins d’accepter `a tort, quand H1 est vraie, cette mˆeme sp´ecification. On peut encore dire que le rejet d’une hypoth`ese nulle est une v´eritable d´ecision alors que son acceptation est plutˆ ot un d´efaut de rejet. Face, par exemple, a` une sp´ecification sur une caract´eristique d’un produit, le fait de rejeter cette sp´ecification est une preuve quasi irr´efutable qu’elle n’est pas correcte, alors que le fait de l’accepter ne signifie pas qu’elle soit correcte mais simplement que, sur la base des observations effectu´ees, rien ne permet de conclure qu’elle soit fausse. Notons que H0 et H1 ne sont pas interchangeables car la construction du test, via le choix de α, repose sur H0 et non pas sur H1 . En particulier il n’est pas n´ecessaire de connaˆıtre la loi de T sous H1 , ce qui est d’ailleurs le cas pour la plupart des tests, y compris parmi les plus usuels. Nous en venons maintenant `a pr´eciser cette id´ee de «pertinence» de la statistique, tant il est vrai qu’il ne suffit ´evidemment pas de choisir n’importe quelle statistique de loi connue sous H0 . Il est naturel de poser comme exigence que la statistique ait une plus forte propension `a tomber dans la r´egion de rejet quand H1 est la bonne hypoth`ese, ce que nous transcrivons math´ematiquement par la condition que la probabilit´e de rejeter H0 soit plus ´elev´ee sous H1 que sous H0 , et si possible nettement plus ´elev´ee. Toute la recherche, intuitive ou non, d’une bonne statistique de test repose sur ce principe que nous allons maintenant formaliser avec la notion de puissance. D´ efinition 9.3 On appelle puissance d’un test la probabilit´e de rejeter H0 alors qu’elle est effectivement fausse soit, dans les notations pr´ec´edentes : P (T ∈ A | H1 ) . La puissance, qui est la capacit´e `a d´etecter qu’une hypoth`ese nulle est fausse, n’est rien d’autre que 1 − β puisque β, le risque de premi`ere esp`ece, est la probabilit´e de l’´ev´enement compl´ementaire ´egalement sous H1. Nous pouvons maintenant clairement exprimer notre exigence. D´ efinition 9.4 On dit qu’un test est sans biais si sa puissance est sup´erieure ou ´egale a ` son risque α, soit : P (T ∈ A | H1 ) ≥ P (T ∈ A | H0 ).
Chapitre 9. Tests d’hypoth`eses param´etriques
205
En conclusion une condition naturelle pour qu’une statistique soit ´eligible pour tester une hypoth`ese est qu’elle induise un test sans biais. Incidemment ce terme de «sans biais» n’a pas de rapport direct avec la notion de biais d’un estimateur. On entrevoit d`es lors que le choix entre plusieurs tests potentiels, pour une hypoth`ese nulle donn´ee, se jouera sur la puissance. Avant de pr´eciser cela notons qu’un test, tel que nous avons pr´esent´e les choses, est parfaitement d´efini par le couple : statistique de test et r´egion d’acceptation (T, A), puisque α, β et la puissance 1 − β en d´ecoulent (mˆeme si conceptuellement le choix de α pr´ec`ede celui de A, mais pour α fix´e il y a diff´erentes fa¸cons de choisir une r´egion - g´en´eralement un intervalle - de probabilit´e α sur la loi de T sous H0 ). En v´erit´e il n’est pas n´ecessaire de se r´ef´erer `a une statistique de test. En effet mettons en ´evidence la fonction de l’´echantillon d´efinissant la statistique : T = h(X1 , X2 , · · · , Xn ) et soit A l’ensemble des points de Rn , r´ealisations de (X1 , X2 , · · · , Xn ), d´efini par : A = {(x1 , x2 , · · · , xn ) | h(x1 , x2 , · · · , xn ) ∈ A} . L’´ev´enement (T ∈ A), que ce soit sous H0 ou sous H1 , est identique a` l’´ev´enement ((X1 , X2 , · · · , Xn ) ∈ A). Le test est donc parfaitement d´efini par la r´egion d’acceptation A dans Rn . D’une fa¸con g´en´erale un test s’identifie ` a une r´ egion d’acceptation dans l’espace des r´ ealisations. Cette vision plus fondamentale sera parfois utile dans les d´eveloppements `a venir, bien que ce ne soit qu’une vue de l’esprit dans la mesure o` u une r`egle de d´ecision fond´ee sur une r´egion dans un espace a` n dimensions n’est pas praticable et que tout test, ou presque, passe par une statistique a` valeurs dans R avec une r´egion d’acceptation sous forme d’un intervalle. Ayant d´egag´e la d´efinition d’un test nous pouvons aborder la comparaison de divers tests. D´ efinition 9.5 On dit que le test τ1 est plus puissant que le test τ2 au niveau ` α et si la puissance α s’il est de niveau α, si τ2 est de niveau ´egal (ou inf´erieur) a de τ1 est sup´erieure a ` celle de τ2 . Il est ´evident que toute comparaison de puissance doit s’op´erer `a un mˆeme niveau. En effet pour tout test il y a un lien entre risque α et puissance : en prenant un risque α plus ´elev´e on agrandit la r´egion de rejet A et, par voie de cons´equence, on augmente ´egalement la puissance. Notons aussi que le fait a un risque α plus faible est p´enalisant pour ce de comparer τ1 `a τ2 qui serait ` dernier, mais cette ´eventualit´e aura sa raison d’ˆetre, notamment dans le cas discret. L’objectif sera finalement de rechercher le test le plus puissant parmi tous. Dans le cas o` u H0 et H1 sont des hypoth`eses simples il existe un tel test, mais cela n’est pas n´ecessairement vrai dans le cas o` u l’hypoth`ese alternative
206
Statistique − La th´eorie et ses applications
est multiple. Par ailleurs, en g´en´eral, quand une statistique de test donne le test le plus puissant `a un niveau donn´e elle reste optimale `a tout autre niveau. Remarques 1. Dans le cas d’une loi discr`ete la statistique sera elle-mˆeme discr`ete et le niveau α choisi ne pourra ˆetre exactement atteint. Comme pour les intervalles de confiance, si l’on souhaite un risque de premi`ere esp`ece de 0,05, par exemple, on recherchera une r´egion A de probabilit´e, sous H0 , la plus proche possible mais inf´erieure `a 0,05. On dira alors que l’on a un test conservateur. Ceci justifie, au demeurant, la comparaison de τ2 `a τ1 selon la d´efinition 9.5 a` un niveau de τ2 ´eventuellement inf´erieur a` celui de τ1 . 2. Les d´efinitions ci-dessus s’appliquent a` des situations d’hypoth`eses multiples (et mˆeme non param´etriques) moyennant quelques pr´ecisions que nous donnerons en temps utile. 3. Nous d´eveloppons ici la th´eorie des tests telle qu’elle a ´et´e formalis´ee par J. Neyman et E.S. Pearson autour de 1930. La pratique s’est aujourd’hui ´eloign´ee de la th´eorie. En particulier, le choix a priori d’un niveau α ne correspond pas a` l’usage, sauf dans des protocoles de tests d´efinis par exemple par une r´eglementation (notamment les tests pharmaceutiques). Il n’empˆeche que le cadre th´eorique classique reste indispensable pour ´elaborer les bonnes m´ethodes. 4. Il est une autre exigence, outre celle de «sans biais», que l’on doit avoir pour une bonne proc´edure de test, a` savoir que lorsque la taille de l’´echantillon tend vers l’infini, la suite de tests correspondante {τn } soit telle que la puissance βn s’accroisse et tende vers 1. En d’autres termes on doit avoir la garantie que l’on gagne a` observer de tr`es grands ´echantillons, ´etant pratiquement sˆ ur, a` la limite, de d´etecter une hypoth`ese nulle qui serait fausse. On dit alors que la proc´edure de test est convergente. Donnons deux exemples, certes quelque peu artificiels, mais illustrant les notions introduites, l’un dans le cas continu, l’autre dans le cas discret. Exemple 9.1 Supposons que deux machines A et B produisent le mˆeme type de produit, mais la machine A fournit un produit plus cher de qualit´e sup´erieure. La qualit´e d’un produit se mesure a` une entit´e al´eatoire qui est de loi N (5 ; 1) pour la machine A et N (4 ; 1) pour la machine B, et ne diff`ere donc que par la moyenne. Un client ach`ete le produit le plus cher par lots de 10 et d´esire d´evelopper un test pour contrˆ oler qu’un lot donn´e provient bien de la machine A. Comme accuser le producteur a` tort peut avoir de graves cons´equences, il doit limiter le risque correspondant et tester H0 : μ = 5 vs. H1 : μ = 4, a` un niveau 0,05 par exemple. Il semble naturel d’utiliser comme statistique de test la moyenne X du lot. Sous H0 sa loi est N (5 ; 1/10) et l’on a alors l’intervalle
Chapitre 9. Tests d’hypoth`eses param´etriques
207
√ √ de probabilit´e 0,95 : [5−1,96/ 10 ; 5+1,96/ 10], soit [4,38 ; 5,62]. D’o` u une r`egle de d´ecision simple : - accepter H0 si la r´ealisation x (moyenne du lot consid´er´e) de X est dans [4,38 ; 5,62], - rejeter sinon. Il est possible de calculer la puissance de ce test puisque la loi de X est connue sous H1 : c’est la loi N (4 ; 1/10). Le risque de deuxi`eme esp`ece vaut : β = P (4,38 < X < 5,62 | H1 ) 5,62 − 4 4,38 − 4 √ ) avec Z ; N (0 ; 1)
4,48 − 4 √ < Z) = P (1,52 < Z) 0,064 , 1/ 10
ce qui donne une puissance de 0,936. Intuitivement on sent bien que, dans le premier test, il est peu pertinent de borner la zone d’acceptation vers le haut car cela conduit a` rejeter l’hypoth`ese nulle pour de tr`es grandes valeurs de x, au-del`a de 5,62. Exemple 9.2 On sait que le nombre de particules ´emises par une source radioactive par unit´e de temps suit une loi de Poisson. Observant l’´emission d’un corps durant 20 unit´es de temps on doit d´ecider s’il s’agit d’une source de type A versus une source de type B. La source A ´emet en moyenne 0,6 particules par unit´e de temps et la source B en ´emet 0,8. On teste donc 20H0 : λ = 0,6 vs. H1 : λ = 0,8 . On peut construire un test sur la statistique i=1 Xi , le nombre total de particules ´emises au cours des 20 unit´es de temps, qui suit une loi P(12) sous H0 . Intuitivement on choisit une r´egion de rejet de la forme 20 i=1 xi ≥ k , puisqu’un nombre plutˆ ot ´elev´e de comptages va `a l’encontre de l’hypoth`ese nulle. Choisissant a priori α = 0,05, on lit dans une table (ou dans un logiciel) que pour une v.a. T ; P(12) on a P (T ≥ 18) = 0,0630 et P (T ≥ 19) = 0,0374. 20 On optera pour un test conservateur en rejetant H0 si i=1 xi ≥ 19. 20 La puissance du test est ´egale `a P ( i=1 Xi ≥ 19 | H1 ) soit, dans une table, P (S ≥ 19) o` u S ; P(16). On trouve 0,258 qui montre que le test est sans biais. Nous mettons maintenant en ´evidence le test le plus puissant.
208
9.3 9.3.1
Statistique − La th´eorie et ses applications
Test du rapport de vraisemblance simple Propri´ et´ e d’optimalit´ e
Reprenons la fonction de vraisemblance du param`etre inconnu θ (voir d´efinition 6.11) pour une r´ealisation de l’´echantillon (x1 , x2 , · · · , xn ) : L(θ; x1 , x2 , ..., xn ) = f (x1 , x2 , ..., xn ; θ) =
n $
f (xi ; θ).
i=1
Nous restons dans le cadre d’une hypoth`ese nulle et d’une hypoth`ese alternative simples, soit Θ = {θ0 , θ1 }. On supposera dans cette section que le support de la densit´e f (x; θ) ne d´epend pas de θ. D´ efinition 9.6 On appelle test du rapport de vraisemblance (RV) de l’hypoth`ese H0 : θ = θ0 vs. H1 : θ = θ1 au niveau α, le test d´efini par la r´egion de rejet de la forme : L(θ0 ; x1 , x2 , ..., xn ) < kα L(θ1 ; x1 , x2 , ..., xn ) o` u kα est une valeur (positive) d´etermin´ee en fonction du risque de premi`ere esp`ece α. Ce test a une certaine logique intuitive puisqu’il conduit a` rejeter la valeur sp´ecifi´ee θ0 lorsqu’elle est moins vraisemblable que la valeur alternative θ1 , car kα (dont on admettra l’existence) se trouvera, en fait, ˆetre plus petit que 1 pour garantir un risque α faible (voir exemple 9.3). Notons que le rapport des deux vraisemblances (que l’on nomme rapport de vraisemblance) est bien une statistique puisque θ0 et θ1 sont donn´es. Th´ eor` eme 9.1 (historiquement : lemme de Neyman-Pearson) Le test du RV est le plus puissant quel que soit le choix de α ∈]0, 1[. D´emonstration : soit A∗ ⊂ Rn la r´egion d’acceptation associ´ee au test du RV de niveau α, i.e. : ! L(θ0 ; x1 , x2 , ..., xn ) ∗ A = (x1 , x2 , ..., xn ) | ≥ kα L(θ1 ; x1 , x2 , ..., xn ) et A celle d’un quelconque autre test. Les risques de premi`ere esp`ece du test du ∗ RV et de l’autre test s’´ecrivent2 donc, respectivement, P (A | H0 ) et P (A | H0 ) 2 Il n’est pas inutile de rappeler ici la convention initiale de la section 1.1, ` a savoir que pour une v.a. X quelconque P (X ∈ A) est la probabilit´e P (A) associ´ ee ` a la partie A de R. ∗ ∗ ee P ((X1 , X2 , · · · , Xn ) ∈ A ) pour Ici la probabilit´e P (A ), par exemple, aurait pu ˆetre not´ n eme si cette notation est plus explicite se r´ ef´ erer aux r´ ealisations de l’´ echantillon dans R . Mˆ nous y renon¸cons pour simplifier les ´ecritures.
Chapitre 9. Tests d’hypoth`eses param´etriques
209
et, pour effectuer la comparaison, on doit avoir, en accord avec la d´efinition ∗ 9.5, P (A | H0 ) − P (A | H0 ) ≥ 0 . Partitionnons A∗ selon A∗ ∩ A et A∗ ∩ A, et de mˆeme A selon A ∩ A∗ et ∗ A ∩ A . La diff´erence entre les risques de deuxi`eme esp`ece des deux tests est : ∗
P (A | H1 ) − P (A∗ | H1 ) = P (A ∩ A | H1 ) − P (A∗ ∩ A | H1 ) puisque les probabilit´es sur la partie commune A∗ ∩ A s’´eliminent. Or en tout point de A∗ , et donc de A∗ ∩ A, on a : 1 L(θ0 ; x1 , x2 , ..., xn ), kα 1 i.e. f (x1 , x2 , ..., xn ; θ1 ) ≤ f (x1 , x2 , ..., xn ; θ0 ) kα L(θ1 ; x1 , x2 , ..., xn ) ≤
et, par int´egration (ou sommation dans le cas discret) sur le domaine A∗ ∩ A, on a donc : 1 P (A∗ ∩ A | H1 ) ≤ P (A∗ ∩ A | H0 ). kα ∗
∗
Pour tout point de A , et donc de A ∩ A , l’in´egalit´e s’inverse et on obtient : ∗
P (A ∩ A | H1 ) >
1 ∗ P (A ∩ A | H0 ). kα
En revenant a` l’´equation de d´epart, il s’ensuit que : , 1 + ∗ P (A | H1 ) − P (A∗ | H1 ) > P (A ∩ A | H0 ) − P (A∗ ∩ A | H0 ) . kα Consid´erant les partitions indiqu´ees plus haut, le terme de droite est aussi ´egal `a k1α [P (A | H0 ) − P (A∗ | H0 )], lequel est lui-mˆeme ´egal `a : , , 1 + 1 + ∗ ∗ 1 − P (A | H0 ) − 1 + P (A | H0 ) = P (A | H0 ) − P (A | H0 ) kα kα qui, par hypoth`ese, est positif ou nul. Ainsi le risque β d’un test quelconque est strictement sup´erieur a` celui du test du RV et, de fa¸con ´equivalente, il est donc moins puissant. Note 9.1 Dans le cas discret la d´emonstration du th´eor`eme peut poser probl`eme. ∗ En effet on n’a pas n´ecessairement P (A | H0 ) − P (A | H0 ) ≥ 0 dans la mesure o` u le risque de premi`ere esp`ece r´eel du test du RV peut, par conservatisme, ˆetre inf´erieur au niveau nominal α, alors que celui de l’autre test peut ˆetre plus proche de α. En fait le mˆeme r´esultat d’optimalit´e peut ˆetre d´emontr´e ` a condition de «randomiser» la r`egle de d´ecision (test randomis´e ou test mixte). Soit ka la valeur qui donne une probabilit´e de rejet sous H0 aussi proche que posa α , ka + 1 sible du niveau nominal α mais inf´erieure (exceptionnellement ´egale) `
210
Statistique − La th´eorie et ses applications
donnant alors une probabilit´e sup´erieure ` a α. La randomisation consiste a ` choisir la limite kα avec une probabilit´e p et ka + 1 avec probabilit´e 1 − p. On doit d´eterminer p pour que finalement le risque r´esultant soit exactement α. Appliqu´e ` a 20 x ≥ 19 avec probal’exemple 9.2 ce proc´ed´e conduirait ` a rejeter selon la r`egle i=1 i 20 bilit´e p et selon e 1 − p, la valeur de p ´etant telle que i=1 xi ≥ 18 avec probabilit´ p×0,0374+(1 − p)×0,0630=0,05 soit p =0,51. A peu de choses pr`es on doit jouer `a pile ou face le choix de la r`egle avec 19 ou celui de la r`egle avec 18. probabilit´e exactement On peut aussi ajuster son choix de α en prenant une 20 atteinte (dans l’exemple ci-dessus on pourra prendre la r`egle i=1 xi ≥ 19 en fixant α = 0, 0374). Alors la d´emonstration ci-dessus est valide.
Note 9.2 On a dˆ u supposer que la densit´e ait un support ind´ependant de θ pour ´eviter que L(θ1 ; x1 , x2 , ..., xn ) s’annule alors que L(θ0 ; x1 , x2 , ..., xn ) ne s’annule pas. On peut toutefois contourner ce probl`eme en d´efinissant la r´egion de rejet par L(θ0 ; x1 , x2 , ..., xn ) < k L(θ1 ; x1 , x2 , ..., xn ). Si L(θ1 ; x1 , x2 , ..., xn ) s’annule on a une r´ealisation impossible sous H1 et l’on peut choisir θ0 sans aucun risque d’erreur. Proposition 9.1 Le test du RV est sans biais. D´emonstration : pour rester tr`es g´en´eral ne supposons pas que kα soit inf´erieur a` 1. Si kα ≥ 1 on a, pour tout point de la r´egion d’acceptation A∗ : f (x1 , x2 , ..., xn ; θ0 ) ≥ f (x1 , x2 , ..., xn ; θ1 ) ∗
∗
u P (A | H0 ) ≤ P (A | H1 ) qui et, par cons´equent, P (A∗ | H0 ) ≥ P (A∗ | H1 ) d’o` est la condition requise. Inversement, si kα < 1, on a, pour tout point de la ∗ r´egion de rejet A : f (x1 , x2 , ..., xn ; θ0 ) < f (x1 , x2 , ..., xn ; θ1 ) ∗
∗
et, par cons´equent, il est vrai aussi que P (A | H0 ) < P (A | H1 ).
Moyennant des conditions mineures on peut ´egalement d´emontrer que la proc´edure du RV est convergente. Ayant mis en ´evidence le test le plus puissant se pose la question de la faisabilit´e de ce test. En effet pour qu’il puisse ˆetre mis en oeuvre il faut que la statistique du rapport de vraisemblance prenne une forme telle que sa loi soit connue sous H0 . Montrons sur l’exemple 9.1 que le test du RV peut se ramener `a une forme simple ce que nous d´emontrerons ensuite pour les lois de la classe exponentielle.
Chapitre 9. Tests d’hypoth`eses param´etriques
211
Exemple 9.3 Dans le contexte de l’exemple 9.1 la fonction de vraisemblance pour μ est : n $
1 1 √ exp{− (xi − μ)2 } 2 2π i=1 n n 1 1 √ = exp{− (xi − μ)2 }. 2 i=1 2π
L(μ; x1 , x2 , · · · , xn ) =
u le Pour ˆetre plus g´en´eral consid´erons H0 : μ = μ0 vs. H1 : μ = μ1 d’o` rapport de vraisemblance : " n # n 1 L(μ0 ; x1 , x2 , · · · , xn ) 2 2 = exp − (xi − μ0 ) − (xi − μ1 ) L(μ1 ; x1 , x2 , · · · , xn ) 2 i=1 i=1 " # n 1 2 2 = exp − −2(μ0 − μ1 ) xi + n(μ0 − μ1 ) . 2 i=1 Le a travers nrapport de vraisemblance ne d´epend donc des observations qu’` n x . De plus comme c’est une fonction croissante de (μ − μ ) 0 1 i=1 i i=1 xi il n u kα est une autre est inf´erieur a` kα si et seulement si (μ0 − μ1 ) i=1 xi < kα o` constante que l’on n d´eduit ais´ement de kα . Si μ0 > μ1 alors la r´egion de rejet est de la forme i=1 xi < kα ou, de fa¸con ´equivalente, x < kα . Si μ0 < μ1 les in´egalit´es doivent ˆetre invers´ees. Dans l’exemple 9.1 on a vu que, pour α = 0,05 , μ0 = 5 et μ1 = 4, la r´egion de rejet ´etait d´efinie par x <4,48 pour le deuxi`eme test envisag´e, lequel s’av`ere ˆetre le test le plus puissant. Ainsi, bien que la statistique du rapport de vraisemblance n elle-mˆeme ne soit pas simple, le fait qu’elle soit fonction monotone de i=1 Xi dont la loi est connue suffit pour mettre au point le test. Par curiosit´e calculons la constante kα propre au rapport de vraisemblance. Comme n = 10 on a kα = 44,8 = kα puisque μ0 − μ1 = 1. Alors :
1 kα = exp − [−2 × 44,8 + 10(25 − 16)] 2
! = 0,82.
Ceci signifie que le test du RV consiste `a rejeter H0 : μ = 5 vs. H1 : μ = 4 lorsque la vraisemblance de la valeur 5 du param`etre inconnu μ est 0,82 fois celle de la valeur 4. Notons encore que si l’on avait eu μ0 < μ1 la r´egion de rejet aurait ´et´e de a l’intuition. la forme x > c, ce qui correspond `
212
9.3.2
Statistique − La th´eorie et ses applications
Cas d’un param` etre de dimension 1
Nous montrons ici que le test du RV se ram`ene `a un test simple, comme dans l’exemple ci-dessus, dans une grande vari´et´e de situations. Proposition 9.2 S’il existe une statistique T = t(X1 , X2 , · · · , Xn ) exhaustive minimale a ` valeurs dans R alors le rapport de vraisemblance ne d´epend de la a travers la valeur t(x1 , x2 , ..., xn ). De plus si ce r´ealisation (x1 , x2 , ..., xn ) qu’` rapport de vraisemblance est une fonction monotone de t(x1 , x2 , ..., xn ) alors le test du RV se ram`ene a ` un test dont la r´egion de rejet est de la forme t(x1 , x2 , ..., xn ) < c si c’est une fonction croissante ou t(x1 , x2 , ..., xn ) > c si la fonction est d´ecroissante. En effet, par le th´eor`eme de factorisation 6.1, si T = t(X1 , X2 , · · · , Xn ) est une statistique exhaustive minimale alors l’expression de la vraisemblance L(θ; x1 , x2 , · · · , xn ) qui est identique a` l’expression de la densit´e conjointe est de la forme g(t(x1 , x2 , ..., xn ); θ) h(x1 , x2 , ..., xn ) et le RV ne d´epend plus que du rapport g(t(x1 , x2 , ..., xn ); θ0 ) / g(t(x1 , x2 , ..., xn ); θ1 ). Si g(u; θ0 ) / g(u; θ1 ) est une fonction monotone de u alors l’in´egalit´e g(u; θ0 ) / g(u; θ1 ) < k est ´equivalente a` une in´egalit´e sur u. Proposition 9.3 Si la loi m`ere est dans une famille appartenant ` a la classe exponentielle, i.e. f (x; θ) = a(θ) b(x) exp{c(θ) d(x)} (voir section 6.3), alors le test du RV a une r´egion de rejet de la forme : n
ou
i=1 n
d(xi ) < k
si c(θ0 ) − c(θ1 ) > 0
d(xi ) > k
si c(θ0 ) − c(θ1 ) < 0.
i=1
nCette proposition est un corollaire de la pr´ec´edente puisque l’on a vu que i=1 d(Xi ) est exhaustive minimale (voir proposition 6.5). Le RV ´etant ´egal a` [a(θ0 )/a(θ1 )]n exp{[c(θ0 ) − c(θ1 )] ni=1 d(xi )} on voit que le sens del’in´egalit´e n d´ependra du signe de c(θ0 )−c(θ1 ). Notons que tr`es souvent la loi de i=1 d(Xi ) est de type connu et k sera donc le quantile d’ordre α de cette loi sous H0 ou d’ordre 1 − α, selon que le signe est positif ou n´egatif. On pourra ´egalement calculer la puissance de ce test optimal. Les exemples 9.1 et 9.2 (loi de Gauss de variance connue et loi de Poisson) correspondaient `a cette situation. Consid´erons encore le cas d’une loi de Bernoulli. Exemple 9.4 Soit le test H0 : p = p0 vs. H1 : p = p1 pour le param`etre p d’une loi de Bernoulli. Cette famille de lois appartient a` la classe exponentielle p et l’on a : f (x; p) = px (1−p)1−x = exp{ln( 1−p ) x} pour x ∈ {0, 1}. Donc d(x) = p0 p1 > ln 1−p et la r´egion x et, supposant par exemple que p0 > p1 , on a ln 1−p 0 1 n de rejet est de la forme i=1 xi < k ou pr´ef´erablement, comme nous sommes
Chapitre 9. Tests d’hypoth`eses param´etriques
213
n n dans le cas discret, i=1 xi ≤ k . La statistique de test i=1 Xi suit une loi B(n, p) et pour α = 0,05 , k est la valeur ´egale ou imm´ediatement inf´erieure au quantile d’ordre 0,05 sur la loi B(n, p0 ). La puissance est la probabilit´e d’ˆetre inf´erieur ou ´egal `a k pour la loi B(n, p1 ). Soit par exemple H0 : p = 0,5 vs. H1 : p = 0,3 `a tester au niveau 0,05 avec un ´echantillon ntable binomiale pour la loi n de taille 30. On lit dans une = 0,0494 et P ( B(30 ; 0,5) : P ( i=1 xi ≤ 10) i=1 xi ≤ 11) = 0,1003. On choisit donc la r`egle de rejet ni=1 xi ≤ 10. Pour la puissance on lit sur la loi n B(30 ;0,3) : P ( i=1 xi ≤ 10) = 0,730 . Le cas de deux hypoth`eses simples, nous l’avons dit, est peu r´ealiste et il nous faut maintenant envisager des situations plus g´en´erales.
9.4
Tests d’hypoth` eses multiples
9.4.1
Risques, puissance et optimalit´ e
Lorsque l’une des hypoth`eses H0 ou H1 est multiple les d´efinitions de la section 9.2 doivent ˆetre revues. En effet si dans une hypoth`ese plusieurs valeurs du param`etre sont possibles il n’y a plus de risque unique. Ainsi une expression telle que P (T ∈ A | H0 ) n’a pas de sens si H0 est multiple. Pla¸cons-nous dans le cas le plus g´en´eral o` u l’on souhaite tester : H0 : θ ∈ Θ0
vs.
H1 : θ ∈ Θ1 ,
o` u Θ1 = Θ − Θ0 est le compl´ementaire de Θ0 par rapport a` Θ. Comme pr´ec´edemment, de la fa¸con la plus g´en´erale, un test est d´efini par une r´egion A ⊂ Rn d’acceptation de l’hypoth`ese nulle H0 . Nous supposerons ici, comme cela se trouve en pratique, que cette r´egion se r´eduit a` un intervalle A de R pour une statistique de test T. Alors la r`egle de d´ecision consiste `a accepter H0 si la valeur r´ealis´ee t de T appartient a` A et `a rejeter H0 sinon. Si H0 est multiple le risque de premi`ere esp`ece Pθ (T ∈ A) d´epend de θ appartenant a` Θ0 . Le niveau du test est alors d´efini comme le risque maximal que l’on encourt a` rejeter H0 alors qu’elle serait fausse. D´ efinition 9.7 Soit H0 : θ ∈ Θ0 une hypoth`ese nulle multiple et α(θ) le risque de premi`ere esp`ece pour la valeur θ ∈ Θ0 . On appelle niveau du test (ou seuil du test) la valeur α telle que : α = sup α(θ) . θ∈Θ0
De mˆeme si l’hypoth`ese alternative H1 : θ ∈ Θ1 est multiple le risque de deuxi`eme esp`ece est une fonction β(θ) ainsi que la puissance. On d´efinit alors la fonction puissance du test : h(θ) = 1 − β(θ) = Pθ (T ∈ A) d´efinie pour tout θ ∈ Θ1 .
Statistique − La th´eorie et ses applications
214
D´ efinition 9.8 On dit qu’un test est sans biais si sa fonction puissance reste sup´erieure ou ´egale a ` son niveau α, soit : Pθ (T ∈ A) ≥ α pour tout θ ∈ Θ1 . En d’autres termes, la probabilit´e de rejeter H0 si elle est fausse, quelle que soit la valeur de θ dans Θ1 , est toujours plus ´elev´ee que la probabilit´e de la rejeter si elle est vraie, quelle que soit alors la valeur de θ dans Θ0 . D´ efinition 9.9 On dit que le test τ1 de niveau α est uniform´ ement plus puissant que le test τ2 au niveau α s’il est de niveau α, si τ2 est de niveau ´egal (ou inf´erieur) a ` α et si la fonction puissance de τ1 reste toujours sup´erieure ou ´egale a ` celle de τ2 , mais strictement sup´erieure pour au moins une valeur de θ ∈ Θ1 , i.e. pour tout θ ∈ Θ1 , h1 (θ) ≥ h2 (θ) et il existe θ ∗ ∈ Θ1 tel que u h1 (θ) et h2 (θ) sont les fonctions puissance respectives des h1 (θ∗ ) > h2 (θ∗ ), o` tests τ1 et τ2 . Le terme «uniform´ement» se rapporte au fait que la puissance de τ1 est sup´erieure quelle que soit θ ∈ Θ1 . ement le plus puissant D´ efinition 9.10 On dit que le test τ ∗ est uniform´ (UPP) au niveau α s’il est uniform´ement plus puissant que tout autre test au niveau α. Rien ne dit qu’un tel test existe. En effet il se peut, par exemple, qu’un premier test domine tous les autres pour certaines valeurs de θ dans Θ1 , qu’un deuxi`eme soit le meilleur pour d’autres valeurs, etc. Signalons que certains ouvrages en fran¸cais parlent de test UMP (de l’anglais uniformly most powerful ). Dans la situation la plus g´en´erale il n’existera g´en´eralement pas de test UPP. N´eanmoins le r´esultat de Neyman-Pearson obtenu dans la situation simple de la section 9.3 s’´etend assez naturellement `a des situations d’hypoth`eses multiples dites unilat´erales, tr`es fr´equentes en pratique.
9.4.2
Tests d’hypoth` eses multiples unilat´ erales
Nous consid´erons dans cette section des situations de test du type : H0 : θ ≤ θ0 ou H0 : θ ≥ θ0
vs. vs.
H1 : θ > θ 0 H1 : θ < θ 0
o` u θ est donc un param`etre de dimension 1 (Θ ⊆ R). Hypoth`ese nulle et hypoth`ese alternative sont multiples. De telles situations se rencontrent lorsque l’on s’int´eresse uniquement `a juger si le param`etre θ d´epasse un certain seuil (par exemple une norme de qualit´e, un seuil de pollution, un niveau ant´erieur, etc.). L’hypoth`ese nulle est dite unilat´erale et par extension on parle aussi de test unilat´eral du fait que la r´egion de rejet est usuellement de la forme T > c ou T < c, T ´etant la statistique de test.
Chapitre 9. Tests d’hypoth`eses param´etriques
215
Proposition 9.4 S’il existe une statistique T = t(X1 , X2 , · · · , Xn ) exhaustive minimale a ` valeurs dans R et si, pour tout couple (θ, θ ) tel que θ < θ , le rapport de vraisemblance L(θ; x1 , x2 , ..., xn )/L(θ ; x1 , x2 , ..., xn ) est une fonction monotone de t(x1 , x2 , · · · , xn ), alors il existe un test uniform´ement le plus puissant pour les situations d’hypoth`eses unilat´erales et la r´egion de rejet est soit de la forme t(x1 , x2 , · · · , xn ) < k, soit de la forme t(x1 , x2 , · · · , xn ) > k. En proposition 9.2 on a vu que le RV ne pouvait d´ependre que de t(x1 , x2 , · · · , xn ) et que, dans le cas o` u l’hypoth`ese nulle et l’hypoth`ese alternative sont simples, il suffisait, pour se ramener `a une r´egion de rejet de la forme t(x1 , x2 , · · · , xn ) < k ou t(x1 , x2 , · · · , xn ) > k, que le RV soit monotone pour les deux valeurs de θ concern´ees, l’existence d’un test le plus puissant ´etant quoi qu’il en soit assur´ee. Ici la monotonicit´e du RV pour tout couple (θ, θ ) est requise afin, d’une part, de garantir l’existence d’un test UPP et, d’autre part, de ramener ce test `a une simple in´egalit´e sur t(x1 , x2 , · · · , xn ). D´emonstration de la proposition : prenons le cas o` u le RV est une fonction croissante de t(x1 , x2 , · · · , xn ) et pour H0 : θ ≤ θ0 vs. H1 : θ > θ0 . Montrons tout d’abord que Pθ (T < k) croˆıt avec θ. Consid´erons le test simple fictif : H0 : θ = θ vs. H1 : θ = θ avec θ < θ . Le test `a r´egion de rejet t(x1 , x2 , · · · , xn ) < k est ´equivalent au test du RV avec L(θ ; x1 , x2 , ..., xn )/L(θ ; x1 , x2 , ..., xn ) < k et est donc sans biais (voir proposition 9.1), d’o` u Pθ (T < k) ≤ Pθ (T < k) quels que soient θ et θ tels que θ < θ . Supposons maintenant que nous choisissions t(x1 , x2 , · · · , xn ) < k comme r´egion de rejet pour tester H0 : θ ≤ θ0 vs. H1 : θ > θ0 . Alors Pθ (T < k) correspond `a la probabilit´e de rejet pour une valeur quelconque θ. En particulier le risque de premi`ere esp`ece croˆıt pour θ ∈] − ∞ , θ0 ] et le risque maximal est donc atteint en θ0 . Par cons´equent, pour obtenir un niveau α il suffit de choisir k tel que Pθ0 (T < k) = α. On notera au passage que Pθ (T < k), pour θ ∈ ]θ0 , +∞ [, d´efinit la fonction puissance laquelle est ´egalement croissante, et ceci au fur et `a mesure que l’on s’´eloigne de θ0 . Du fait que le risque de premi`ere esp`ece est maximal en θ0 , on peut se ' 0 : θ = θ0 vs. H1 : θ > θ0 . contenter d’´etudier la situation de test restreinte H Soit θ une valeur dans H1 , alors t(x1 , x2 , · · · , xn ) < k ´equivaut a` : L(θ0 ; x1 , x2 , ..., xn )/L(θ ; x1 , x2 , ..., xn ) < k , qui correspond au test du RV simple de puissance h(θ ) sup´erieure `a celle de tout autre test en vertu du th´eor`eme 9.1. Ceci restant vrai quel que soit θ dans H1 , le test t(x1 , x2 , · · · , xn ) < k est bien uniform´ement le plus puissant. La d´emonstration a ´et´e faite dans un cas particulier, mais elle est analogue pour les trois autres cas possibles. Pour la situation H0 : θ ≥ θ0 vs. H1 : θ < θ0
Statistique − La th´eorie et ses applications
216
l’in´egalit´e sur t(x1 , x2 , · · · , xn ) doit ˆetre invers´ee par rapport a` la situation pr´ec´edente car la r´egion de rejet L(θ0 ; x1 , x2 , ..., xn )/L(θ ; x1 , x2 , ..., xn ) < k est alors d´efinie avec une valeur θ0 sup´erieure a` θ et le RV change donc de sens de variation par rapport a` t(x1 , x2 , · · · , xn ). En r´esum´e on a les r´egions de rejet suivantes : 1. 2. 3. 4.
H0 H0 H0 H0
:θ :θ :θ :θ
≤ θ0 ≤ θ0 ≥ θ0 ≥ θ0
et et et et
RV RV RV RV
fonction fonction fonction fonction
croissante de t(x1 , · · · , xn ) : t(x1 , · · · , xn ) < k d´ecroissante de t(x1 , · · · , xn ) : t(x1 , · · · , xn ) > k croissante de t(x1 , · · · , xn ) : t(x1 , · · · , xn ) > k d´ecroissante de t(x1 , · · · , xn ) : t(x1 , · · · , xn ) < k .
Notons que la propri´et´e ´etablie en pr´eambule de la d´emonstration s’´etend aux trois autres cas : la probabilit´ e de rejet est une fonction monotone du param` etre θ, le risque de premi` ere esp` ece est maximal en θ0 , la fonction puissance croˆıt quand on s’´ eloigne de θ0 (voir illustration de l’exemple 9.5 et figure 9.1). Certains auteurs consid`erent la situation H0 : θ = θ0 vs. H1 : θ > θ0 . On a vu au cours de la d´emonstration que celle-ci est ´equivalente `a la situation H0 : θ ≤ θ0 vs. H1 : θ > θ0 pour le test UPP. Une famille de densit´e qui v´erifie les conditions de la proposition 9.4 est dite ˆetre `a rapport de vraisemblance monotone. Si elle appartient a` la classe n exponentielle son RV est ´egal `a [a(θ)/a(θ )]n exp{[c(θ)−c(θ )] i=1 d(xi )} (voir d´emonstration de la proposition 9.3). Dans cette classe une condition n´ecessaire et suffisante pour remplir ces conditions est donc que c(θ)−c(θ ) garde le mˆeme signe quel que soit le couple (θ, θ ) tel que θ < θ , c’est-`a-dire que la fonction c(θ) soit monotone. De plus la fonction des observations t(x1 , x2 , · · · , xn ) de la proposition 9.4 est ni=1 d(xi ), d’o` u la proposition suivante. Proposition 9.5 Si la loi m`ere est dans une famille appartenant ` a la classe exponentielle, i.e. f (x; θ) = a(θ)b(x)exp{c(θ)d(x)}, et si la fonction c(θ) est monotone, alors il existe un test uniform´ement le plus puissant pour les situations d’hypoth`eses unilat´eraleset la r´egion de rejet est soit de la forme n n i=1 d(xi ) < k, soit de la forme i=1 d(xi ) > k.
Exemple 9.5 Comme dans les exemples 9.1 et 9.3 consid´erons une loi m`ere N (μ , 1) o` u μ est inconnu. Testons H0 : μ ≤ μ0 vs. H1 : μ > μ0 . La densit´e de la loi m`ere est : 1 1 1 1 1 f (x; μ) = √ exp{− (x − μ)2 } = √ exp{− (x2 )} exp{− μ2 } exp{μx}. 2 2 2 2π 2π Ici c(μ) = μ et d(x) n = x. Le test UPP a donc une r´egion de rejet de la forme n x > k ou egalit´e il faut i=1 i i=1 xi < k. Pour trouver le sens correct de l’in´ repartir du rapport de vraisemblance L(μ; x1 , x2 , ..., xn )/L(μ ; x1 , x2 , ..., xn ) qui,
Chapitre 9. Tests d’hypoth`eses param´etriques
217
n comme il a ´et´e ´etabli dans l’exemple 9.3, varie comme exp{(μ − μ ) i=1 xi } n fonction d´ecroissante de i=1 xi . Ainsi un RV et, pour μ < μ , est donc une n inf´erieur `a k est ´equivalent a` i=1 xi > k ou encore a` x > k . Ceci d´efinit la r´egion de rejet puisque nous sommes dans le cas 2 ci-dessus. Notons qu’on pouvait trouver intuitivement le sens de l’in´egalit´e du fait qu’une moyenne a l’encontre de H0 . empirique ´elev´ee abonde dans le sens de H1 ` Dans l’hypoth`ese nulle on sait que le risque de premi`ere esp`ece est le √ plus ´elev´e en μ0 . Pour cette valeur du param`etre μ, X est de loi N (μ0 , 1/ n). Pour un niveau 0,05 la constante k est d´efinie par √ Pμ0 (X > k ) = 0,05 √ et est donc ´egale au quantile 0,95 de la loi N (μ0 , 1/ n), soit μ0 +1,645(1/ n). √ (X > μ +1,645(1/ n)) pour La fonction puissance est d´ e finie par h(μ) = P μ √ 0 √ X ; N (μ, 1/ n) et μ ∈]μ0 , +∞[. En posant Z = n(X − μ) on obtient : √ h(μ) = P (Z > 1, 645 − n(μ − μ0 ) ) √ o` u Z ; N (0 ; 1). Comme μ − μ0 > 0 la valeur 1,645− n(μ − μ0 ) tend vers −∞ quand n tend vers l’infini, donc h(μ) tend vers 1, ce qui d´emontre la convergence du test. Pour illustrer cela consid´erons un produit dont une certaine mesure de qualit´e est, selon le producteur, inf´erieure ou ´egale `a 5 en moyenne (par exemple la teneur en lipides d’un aliment all´eg´e) et soit un test s’appuyant sur ´echantillon de taille 10. On consid`ere toujours que l’´ecart-type de la variable qualit´e est connu et ´egal `a 1. Pour un niveau de test 0,05 on rejettera H0 si la teneur moyenne observ´ √ ee sur les 10 produits (tir´es au hasard) est sup´erieure ou ´egale `a 5+1,645(1/ 10) = 5,52. La fonction puissance est obtenue en calculant 1 ) pour μ ∈]5, +∞[, c’est-`a-dire en calcuPμ (X >5,52) avec X ; N (μ , 10 √ √ lant P (Z > 10(5,52−μ) ) o` u Z ; N (0 ; 1), soit 1 − Φ( 10(5,52−μ)) o` u Φ est la fonction de r´epartition de cette loi. Cette valeur croˆıt avec μ comme le montre la figure 9.1. A gauche de μ = 5 il s’agit du risque de premi`ere esp`ece. Cette croissance est caract´eristique des familles `a rapport de vraisemblance monotone. Exemple 9.6 Soit la famille de lois exponentielles {f (x; λ) = λe−λx ; x ≥ 0, λ > 0}. On a c(λ) = −λ et d(x) = x. Pour H0 : λ ≥ λ0 vs. H1 : λ < λ0 le n test UPP repose sur i=1 xi ou sur x. Pour trouver le sens de l’in´egalit´e on rappelle que la moyenne de la loi est 1/λ. Ainsi une forte valeur observ´ee pour x doit refl´eter une forte valeur de 1/λ, soit une faible valeur de λ, ce qui est du cˆot´e de H1 . La r´egion de rejet est donc de la forme x > k. La valeur de k doit ˆetre telle que Pλ0 (X > k) = α pour obtenir le niveau n α. Or, si λ = λ0 , i=1 Xi suit une loi Γ(n, λ0 ) (voir section 4.2.3). Comme Pλ0 (X > k) = Pλ0 ( ni=1 Xi > nk), nk est le quantile d’ordre 1 − α sur la loi u l’on d´eduit k. Γ(n, λ0 ), d’o` Pour la loi de Bernoulli B(p) qui r´egit notamment le test sur une proportion p qui est une fonction croissante de p et dans une population, on a c(p) = ln 1−p
Statistique − La th´eorie et ses applications
218
1
H0 : μ ≤ 5
H1 : μ > 5
α=0,05
0 4,5
5
5,5
6
6,5
Figure 9.1 - Fonction puissance pour H0 : μ = 5 sur une loi N (μ , 1).
d(x) = x (voir n exemple 9.4). Le test UPP de H0 : p ≤ p0 vs. H1 : p > p0 repose donc sur i=1 xi qui est le nombre de «succ`es» observ´e. On rejette H0 si ce nombre est trop ´elev´e (car cela fait pencher vers H1 ) et la valeur critique k se lit sur la loi BN (n , p0 ) comme dans l’exemple 9.4. Pour la loi de Poisson P(λ) on a c(λ) = ln λ qui est une fonction croissante de λ et d(x) = x (voir exemple 6.2). Pour d´eterminer la valeur critique k on utilise le fait que ni=1 Xi suit une loi P(nλ). L’examen de la loi de Pareto est propos´e dans les exercices. L’existence d’un test UPP n’est pas r´eserv´ee `a la classe exponentielle. Pour la famille des lois uniformes U[0, θ] on a vu que le maximum X(n) est statistique exhaustive minimale. On peut montrer qu’elle est a` RV monotone et il existe donc un test UPP de la forme X(n) < k ou X(n) > k (voir exercices). Remarque 9.1
Choix de H0
Face `a une situation pratique le choix du sens de H0 (θ ≤ θ0 ou θ ≥ θ0 ) n’est pas toujours ´evident. Il devra se faire en consid´erant les deux erreurs possibles. On doit faire en sorte que celle qui est jug´ee la plus grave soit une erreur de premi`ere esp`ece : affirmer que H0 est fausse (donc que l’on choisit H1 ) alors
Chapitre 9. Tests d’hypoth`eses param´etriques
219
qu’elle est vraie. En d’autres termes l’affirmation la plus sensible doit correspondre a` H1 . Dans l’illustration de l’exemple 9.5 on peut commettre une erreur soit en d´eclarant que la teneur n’est pas respect´ee alors qu’elle l’est pourtant, soit en d´eclarant qu’elle est respect´ee alors qu’elle ne l’est pas. La premi`ere erreur est beaucoup plus pr´ejudiciable pour la personne effectuant le test (on ne veut pas accuser `a tort). Aussi H1 doit-elle exprimer le fait que la teneur n’est pas respect´ee, soit H1 : μ > 5 d’o` u H0 : μ ≤ 5. Supposons qu’un m´edicament soit consid´er´e efficace si un param`etre θ d´epasse un seuil θ0 . On peut d´eclarer le m´edicament efficace alors qu’il ne l’est pas ou le d´eclarer inefficace alors qu’il est efficace. La premi`ere de ces erreurs est plus critique car elle aura pour cons´equence de mettre sur le march´e un m´edicament inutile, alors que pour la deuxi`eme le m´edicament ne sera pas diffus´e par mesure conservatoire. H1 doit u H0 : donc correspondre au fait que le m´edicament est efficace, soit θ > θ0 d’o` θ ≤ θ0 . Notons que dans la th´eorie classique d´evelopp´ee ici la notion de risque de premi`ere ou de deuxi`eme esp`ece suppose que l’hypoth`ese nulle et, donc, l’hypoth`ese alternative aient ´et´e pos´ees avant d’observer les donn´ees. En pratique il est fr´equent que l’on d´ecide du sens du rejet sur la base mˆeme des observations. Cette fa¸con de faire est ` a rapprocher de l’usage de la P-valeur d´ecrit en section 9.6 ou encore de ce qu’on appelle parfois un test de significativit´e.
9.4.3
Tests d’hypoth` eses bilat´ erales
Nous consid´erons deux situations du type bilat´eral : H0 : θ = θ 0
vs.
ou H0 : θ1 ≤ θ ≤ θ2
H1 : θ = θ0 vs.
H1 : θ < θ1 ou θ > θ2
o` u θ est un param`etre de dimension 1 (Θ ⊆ R). La premi`ere situation est fr´equente lorsque θ repr´esente en fait un ´ecart entre param`etres de deux populations, par exemple entre leurs moyennes (voir section 9.7.3). La seconde teste si le param`etre est situ´e dans un intervalle de tol´erance acceptable. L’appellation de bilat´eral se r´ef`ere au fait que l’alternative est situ´ee de part et d’autre de l’hypoth`ese nulle. On ne peut s’attendre dans ces situations a` obtenir un test UPP du fait qu’il faut faire face a` des alternatives `a la fois du type θ < θ0 et du type θ > θ0 , par exemple pour le premier cas. Toutefois il pourra y avoir un test uniform´ement plus puissant dans la classe restreinte des tests sans biais, en bref UPP-sans biais. Ceci est notamment vrai pour les familles de lois de la classe exponentielle. D’une fa¸con g´en´erale la r´egion d’acceptation aura la forme , o` u c1 < c2 , pour la r´ealisation d’une statistique de test T approc1 < t < c2 n pri´ee (soit i=1 d(Xi ) pour la classe exponentielle). Ceci justifie l’appellation fr´equente de test bilat´eral puisqu’on est amen´e `a un rejet sur les deux extr´emit´es. Nous rencontrerons de telles situations dans la section sur les tests usuels.
Statistique − La th´eorie et ses applications
220
Note 9.3 L’usage veut que l’on d´etermine les valeurs critiques c1 et c2 en r´epartissant α/2 sur chaque extr´emit´e. Ainsi, pour le cas H0 : θ = θ0 , ces valeurs seront telles que Pθ0 (T < c1 ) = Pθ0 (T > c2 ) = α/2. Mais cette r`egle ne conduit pas au test UPP-sans biais si la loi de T n’est pas sym´etrique (le test peut mˆeme ne plus ˆetre sans biais). Dans la classe exponentielle la r´epartition doit ˆetre telle que la d´eriv´ee par rapport a` θ de Pθ (T < c1 ) + Pθ (T > c2 ) s’annule en θ0 . Pour le cas H0 : θ1 ≤ θ ≤ θ2 la condition est que le seuil α soit atteint a` la fois en θ1 et en θ2 . La r´esolution de tels probl`emes n’est pas simple et, d`es lors, la r`egle de r´epartition ´egale apparaˆıt bien commode (une situation de test de ce type sera envisag´ee dans l’exemple 9.8). Nous n’approfondirons pas la recherche de tests optimaux dans les cas bilat´eraux et nous nous contenterons de pr´esenter un test de port´ee g´en´erale, inspir´e du rapport de vraisemblance simple, s’appliquant aux situations les plus complexes et, en particulier, aux hypoth`eses bilat´erales ci-dessus.
9.5
Test du rapport de vraisemblance g´ en´ eralis´ e
Consid´erons maintenant les hypoth`eses param´etriques les plus g´en´erales. D´ efinition 9.11 Soit la famille param´etrique {f (x; θ), θ ∈ Θ}, o` u Θ ⊆ Rk , u Θ1 = Θ − Θ0 est le et les hypoth`eses H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 o` compl´ementaire de Θ0 par rapport ` a Θ. On appelle rapport de vraisemblance g´ en´ eralis´ e (RVG), la fonction λ(x1 , x2 , ..., xn ) telle que : sup L(θ; x1 , x2 , ..., xn )
λ(x1 , x2 , ..., xn ) =
θ∈Θ0
supL(θ; x1 , x2 , ..., xn )
θ∈Θ
et test du RVG, le test d´efini par une r´egion de rejet de la forme : λ(x1 , x2 , ..., xn ) < k ≤ 1. Il est ´evident que λ(x1 , x2 , ..., xn ) est inf´erieur ou ´egal `a 1 pour toute r´ealisation (x1 , x2 , ..., xn ). De plus, s’il existe une estimation du maximum de vraisemblance θM V , et c’est pour ainsi dire toujours le cas (voir section 6.7.1), alors le d´enominateur est la valeur de la fonction de vraisemblance en θM V , soit : L(θM V ; x1 , x2 , ..., xn ). Le RVG rel`eve de la mˆeme rationalit´e que le RV simple. Si, pour une r´ealisation donn´ee, la vraisemblance atteint un maximum dans H0 qui reste bien inf´erieur a` son maximum absolu dans tout l’espace param´etrique Θ, alors il y a lieu de douter de cette hypoth`ese.
Chapitre 9. Tests d’hypoth`eses param´etriques
221
V´erifions que dans le cas d’hypoth`eses nulle et alternative simples, le test du RVG est ´equivalent au test du RV simple. Le d´enominateur du RV est L(θ1 ; x1 , x2 , ..., xn ) alors que celui du RVG est la valeur maximale entre L(θ0 ; x1 , x2 , ..., xn ) et L(θ1 ; x1 , x2 , ..., xn ). Pour les r´ealisations (x1 , x2 , ..., xn ) telles que le RV simple est strictement inf´erieur `a 1, cette valeur maximale est donc atteinte pour θ1 et le RV simple est ´egal au RVG et, r´eciproquement, si le RVG est strictement inf´erieur a` 1 alors il en va de mˆeme pour le RV. Les r´egions de test λ(x1 , x2 , ..., xn ) < k et L(θ0 ; x1 , x2 , ..., xn )/L(θ1 ; x1 , x2 , ..., xn ) < k sont donc identiques. Toutefois si le RV simple est sup´erieur a` 1 alors la valeur maximale est atteinte pour θ0 , le RVG reste ´egal `a 1 et il n’y a donc pas ´equivalence sur un plan strictement math´ematique. Cependant il est clair qu’en r`egle g´en´erale le test du RV simple n’a de sens que s’il se fonde sur une valeur de k inf´erieure `a 1, ceci pour garantir un risque de premi`ere esp`ece faible (voir le commentaire a` la suite de la d´efinition 9.6), et on peut consid´erer qu’il y a ´equivalence du point de vue pratique. Le test du RVG n’a pas de propri´et´es d’optimalit´e notables mais on constate dans des situations usuelles qu’il donne le test UPP-sans biais (voir l’exemple 9.7). Cependant il poss`ede des propri´et´es asymptotiques int´eressantes, notamment sa convergence moyennant des conditions de r´egularit´e analogues `a celles de l’estimateur du maximum de vraisemblance. Le probl`eme est toutefois de connaˆıtre la loi de la statistique du RVG λ(X1 , X2 , · · · , Xn ) pour toute valeur de θ dans Θ0 afin de d´efinir la valeur de k permettant de garantir le niveau α choisi. En effet cette valeur doit ˆetre telle que : sup Pθ (λ(X1 , X2 , · · · , Xn ) < k) = α . θ∈Θ0
Il arrive, comme dans l’exemple qui suit, que la r´egion de rejet se ram`ene `a une forme simple. Mais cela reste l’exception et nous verrons plus loin qu’on dispose, sinon, d’une approximation asymptotique tr`es utile. Exemple 9.7 Soit la famille de loi N (μ, σ 2 ) avec (μ, σ 2 ) inconnu et l’hypoth`ese H0 : σ 2 = σ02 vs. H1 : σ 2 = σ02 . Comme μ est inconnu H0 et H1 sont toutes deux multiples. Pour (μ, σ 2 ) quelconque la fonction de vraisemblance est : L(μ, σ2 ; x1 , x2 , · · · , xn ) =
n $
√
i=1
=
√
1 2πσ 2
1 2πσ 2
exp{−
1 (xi − μ)2 } 2σ 2
n exp{−
n 1 (xi − μ)2 } . 2σ 2 i=1
On a vu (exemple 6.20) quel’estimation du MV pour le param`etre (μ, σ2 ) n u s'2 = n1 i=1 (xi −x)2 . Le d´enominateur du RVG est donc inconnu est (x, s'2 ) o` obtenu en rempla¸cant respectivement μ et σ 2 par x et s'2 . Pour le num´erateur il s’agit de maximiser uniquement sur μ car σ 2 est fix´e, ´egal a` σ02 . Cela revient
222
Statistique − La th´eorie et ses applications
` minimiser a est ´egal `a :
n
i=1 (xi
− μ)2 ce qui s’obtient pour μ = x . Finalement le RVG
n n √1 2 exp{− 2σ1 2 i=1 (xi − x)2 } 2πσ0 0 n λ(x1 , x2 , ..., xn ) =
n √ 1 exp{− 2'1s2 i=1 (xi − x)2 } 2 2π' s
=
s'2 σ02
n2 exp{− n s'2 } 2 σ2 0
exp{− n2 }
=
n2
s'2 s'2 exp{1 − 2 } 2 σ0 σ0
.
Consid´erons la fonction g(u) = u exp{1 − u}. Elle est nulle pour u = 0 et tend vers 0 quand u → +∞. Son sens de variation est le mˆeme que celui de ln g(u) = ln u + 1 − u dont la d´eriv´ee est u1 − 1, laquelle est positive pour u < 1, s’annule en u = 1 et est n´egative pour u > 1. La fonction g(u) admet donc un unique maximum sur [0, +∞[ en u = 1. La r´egion de rejet λ(x1 , x2 , ..., xn ) < k 2 u u1 < 1 < u2 et g(u1 ) = g(u2 ), soit encore, se traduit ainsi en u1 < σs' 2 < u2 o` 0 en multipliant par n : n nu1 <
i=1 (xi σ02
− x)2
< nu2 .
n Or la statistique i=1 (Xi − X)2 /σ02 suit une loi χ2 (n − 1) (voir th´eor`eme 5.1) 2 (n−1) 2 (n−1) ce qui permet de trouver des quantiles appropri´es χα1 et χ1−α2 . Ceux-ci, pour le niveau α choisi, doivent d’une part v´erifier α1 + α2 = α et d’autre part 2 (n−1) 2 (n−1) ) = g( n1 χ1−α2 ). Ce test est de la mˆeme forme que le test classique g( n1 χα1 que nous verrons en section 9.7.2 et dont on peut montrer qu’il est UPP-sans biais pour un choix particulier des quantiles ci-dessus. Exemple 9.8 Nous donnons maintenant un exemple dans la situation : H0 : θ1 ≤ θ ≤ θ2
vs.
H1 : θ < θ1 ou θ > θ2
qui, bien qu’assez peu envisag´ee par les praticiens, est souvent plus r´ealiste que celle o` u H0 : θ = θ0 . En effet tester une valeur ponctuelle n’a pas grand sens tant il est vrai qu’on peut ˆetre certain qu’elle ne peut correspondre de fa¸con exacte `a la v´erit´e. D’ailleurs, pour un test convergent, on sera amen´e `a coup quasi sˆ ur a` rejeter cette hypoth`ese avec de grands ´echantillons. Dans la mesure du possible il est pr´ef´erable de consid´erer une marge de tol´erance [θ1 , θ2 ] pour le param`etre inconnu. u le param`etre (μ, σ 2 ) de Nous prenons le cas d’une loi m`ere N (μ, σ 2 ) o` dimension 2 est inconnu et testons donc : H0 : μ1 ≤ μ ≤ μ2 vs. H1 : μ < μ1 ou μ > μ2 .
Chapitre 9. Tests d’hypoth`eses param´etriques
223
√ −n Le d´enominateur du RVG vaut 2π' s2 exp{− n2 } comme dans l’exemple 9.7. Pour trouver le num´erateur il faut maximiser : n −n
√ 1 2πσ2 exp{− 2 (xi − μ)2 } 2σ i=1
pour μ ∈ [μ1 , μ2 ] et σ 2 > 0 quelconque. En passant au logarithme cela revient `a minimiser : n 1 1 2 2 ln σ + 2 (xi − μ) . σ n i=1
2
1 a σ2
Pour a fix´e, ln σ + minimiser la fonction :
n
est minimal quand σ 2 est ´egal a` a et il faut donc
(xi − μ)2 =
i=1
n
x2i + nμ(μ − 2x)
i=1
ou encore h(μ) = μ(μ − 2x). Pour les r´ealisations telles que x soit dans [μ1 , μ2 ] le minimum est atteint pour μ = x. Mais dans ce cas la solution est identique a` celle du d´enominateur et le RVG vaut 1. On est donc n´ecessairement dans la zone d’acceptation (l’in´egalit´e pour la zone de rejet donn´ee dans la d´efinition 9.11 ´etant stricte). Si x < μ1 le minimum cherch´e pour μ ∈ [μ1 , μ2 ] est obtenu pour μ = μ1 car la fonction h(μ) est croissante pour μ > x. Le num´erateur du RVG vaut alors −n
% n 2πs21 exp{− n2 } o` u s21 = n1 i=1 (xi − μ1 )2 et le RVG vaut (s21 /' s2 )−n/2 . L’in´egalit´e λ(x1 , x2 , ..., xn ) < k se traduit donc en s21 /' s2 > k avec k > 1. Or : 1 1 2 (xi − μ1 )2 = [(xi − x) + (x − μ1 )] n i=1 n i=1 n
n
=
n n n 1 2 1 (xi − x)2 + (x − μ1 ) (xi − x) + (x − μ1 )2 n i=1 n n i=1 i=1
= s'2 + (x − μ1 )2 . s2 = 1 + (x − μ1 )2 /' s2 et s21 /' s2 > k ´equivaut a` (x − μ1 )2 /' s2 > k Donc s21 /' o` u k > 0, soit encore, √ apr`es multiplication par n − 1 et en prenant la racine carr´ee, |x − μ1 |/(s/ n) > k1 avec k1 > 0.√Comme x < μ1 on a finalement une r´egion de rejet de la forme (x − μ1 )/(s/ n) < −k1 . De la mˆeme fa¸con on obtient, pour les r´ealisations telles que x > μ2 , la √ r´egion de rejet (x − μ2 )/(s/ n) > k2 . La difficult´e vient alors du fait qu’il faut trouver les constantes positives k1 et k2 telles que, pour tout μ ∈ [μ1 , μ2 ] : X − μ1 X − μ2 √ < −k1 + Pμ √ > k2 ≤ α Pμ S/ n S/ n
Statistique − La th´eorie et ses applications
224
X−μ √ suit une loi de Student a sachant que S/ ` n-1 degr´es de libert´e. Mˆeme en n admettant que le risque maximal est atteint en μ1 ou en μ2 , la solution n’est pas simple. En effet si, par exemple, μ = μ1 la deuxi`eme probabilit´e concerne une v.a. qui ne suit pas une loi de Student classique du fait que μ2 n’est pas la moyenne de X, mais une loi de Student non centrale de param`etre de noncentralit´e (μ1 − μ2 )/σ dont les tables sont peu r´epandues (sans compter que σ est inconnu). On peut mettre en ´evidence une proc´ edure conservatrice en r´e´ecrivant la somme des probabilit´es ci-dessus, dans ce mˆeme cas o` u μ = μ1 , selon : μ2 − μ1 X − μ1 X − μ1 √ < −k1 + Pμ1 √ > k2 + √ Pμ1 . S/ n S/ n S/ n (n−1)
En prenant k1 = k2 = t1−α/2 , la premi`ere probabilit´e vaut bien α/2 et la seconde est certainement inf´erieure `a α/2 puisque μ2 − μ1 est positif. Le raisonnement est identique lorsque μ = μ2 . Notons que la proc´edure est d’autant plus conservatrice que les deux moyennes s’´eloignent. La situation H0 : μ = μ0 vs. H1 : μ = μ0 peut ˆetre consid´er´ee comme un cas particulier de la situation ci-dessus, avec μ1 = μ2 = μ0. On a alors une (n−1) de la loi t(n − 1) et proc´edure exacte en choisissant pour −k1 un quantile tα1 (n−1) pour k2 un quantile t1−α2 de fa¸con que α1 +α2 =α. En raison de la sym´etrie de la (n−1)
loi de Student il semble naturel d’opter pour les quantiles sym´etriques tα/2 (n−1) −t1−α/2
=
(n−1) t1−α/2 .
et Ceci correspond au test classique pr´esent´e en section 9.7.1 dont on montre qu’il est UPP-sans biais. En exercices est propos´e le cas plus simple o` u σ2 est connu.
Param` etre de nuisance Supposons que la loi m`ere appartienne a` une famille `a param`etre de dimension 2, not´e pour la circonstance (θ, ρ) o` u θ et ρ sont ses deux composantes. Si l’hypoth`ese nulle ne sp´ecifie que la composante θ, la composante ρ est appel´ee param`etre de nuisance. C’est le cas de σ 2 dans l’exemple ci-dessus ou celui de μ dans l’exemple 9.7. Pour les tests usuels, la pr´esence d’un param`etre de nuisance fera qu’il n’y aura g´en´eralement pas de test UPP, mais il peut exister un test UPP-sans biais. Ceci est vrai pour l’hypoth`ese H0 : σ 2 = σ02 de l’exemple 9.7 ou pour H0 : μ = μ0 de l’exemple qui pr´ec`ede. Pour une hypoth`ese nulle de la forme H0 : θ1 ≤ θ ≤ θ2 on montre qu’il existe un test UPP-sans biais pour une famille de la classe exponentielle si sa densit´e (ou fonction de probabilit´e) peut s’´ecrire : f (x; θ, ρ) = a(θ, ρ) b(x) exp{c1 (θ)d1 (x) + c2 (ρ)d2 (x)}. On notera que ceci n’est pas v´erifi´e par la loi de Gauss qui ne s´epare pas ainsi μ et σ 2 dans la partie exponentielle. De fait, il n’existe pas de test UPP-sans
Chapitre 9. Tests d’hypoth`eses param´etriques
225
biais pour H0 : μ1 ≤ μ ≤ μ2 consid´er´ee ci-dessus. Ces r´esultats se g´en´eralisent a` plusieurs param`etres de nuisance. Nous donnons maintenant un r´esultat asymptotique tr`es pr´ecieux qui permettra de d´eterminer une r´egion de rejet approch´ee dans le cas de grands ´echantillons. Th´ eor` eme 9.2 Soit la famille param´etrique {f (x; θ), θ ∈ Θ}, o` u Θ ⊆ Rk , et l’hypoth`ese H0 sp´ecifiant les valeurs de r composantes de θ (1 ≤ r ≤ k). Supposons que soient remplies les conditions de r´egularit´e garantissant que l’estimateur du maximum de vraisemblance soit BAN (voir proposition 6.11). Alors, sous H0, la statistique du RVG Λn = λ(X1 , X2 , · · · , Xn ) est telle que : L
−2 ln Λn −→ χ2 (r). Donnons une esquisse de d´emonstration dans le cas simple o` u le param`etre θ inconnu est de dimension k = 1 et est donc parfaitement sp´ecifi´e par H0 : θ = θ0 . On verra ainsi que ce r´esultat est li´e aux propri´et´es asymptotiques de l’estimateur du MV. Pour une quelconque r´ealisation (x1 , x2 , · · · , xn ) not´ee en bref xn , d´eveloppons en s´erie de Taylor la log-vraisemblance de xn en θ0 autour de l’estimation du maximum de vraisemblance θn : ln L(θ0 ; xn ) = ∂ 1 ∂2 ln L(θn ; xn ) + (θn − θ0 ) ln L(θn ; xn )+ (θn − θ0 )2 2 ln L(θ'n ; xn ) ∂θ 2 ∂θ o` u θ'n est une valeur comprise entre θ0 et θn . Comme, par d´efinition de l’esti∂ ln L(θn ; xn ) = 0, on a, pour le RVG : mation du MV, ∂θ −2 ln λn = − 2[ln L(θ0 ; xn )− ln L(θn ; xn )], d’o` u: −2 ln λn = −(θn − θ0 )2
∂2 ln L(θ'n ; xn ). ∂θ2
En passant aux v.a. (avec Xn = (X1 , X2 , · · · , Xn )), sous l’hypoth`ese nulle, θn converge en probabilit´e vers θ0 et il en va donc de mˆeme pour θ'n . On peut alors ∂2 montrer, d’une part par continuit´e de ∂θ ` θ (condition 2 ln f (x; θ) par rapport a de r´egularit´e), d’autre part par la loi des grands nombres, que : 1 ∂2 1 ∂2 ln L(θ'n ; Xn ) = − ln f (Xi ; θ'n ) 2 n ∂θ n i=1 ∂θ2 n
−
+ , ∂2 = I(θ0 ). Ainsi converge en probabilit´e et donc en loi vers Eθ0 − ∂θ 2 ln f (X; θ0 ) −2 ln Λn a la mˆeme convergence en loi que la suite de v.a. nI(θ0 )(θˆn − θ0 )2 . Or,
226
Statistique − La th´eorie et ses applications
% selon la proposition 6.11, nI(θ0 )(θˆn − θ) converge en loi vers la loi N (0 ; 1) d’o` u il d´ecoule que nI(θ0 )(θˆn − θ0 )2 converge en loi vers la loi χ2 (1). Comme la r´egion de rejet λ < k est ´equivalente `a −2 ln λ > k on rejettera ` un niveau approximatif α si : a 2 (r)
−2 ln λ > χ1−α . Ce r´esultat dont la validit´e s’´etend au-del` a de l’´echantillonnage al´eatoire simple autorise un test approch´e dans des situations complexes. C’est pourquoi on trouve le test du RVG de fa¸ con omnipr´ esente dans les logiciels. Nous montrerons plus loin qu’il est a` la base des tests classiques dits du khi-deux portant sur des fr´equences (voir sections 10.1 `a 10.4). Note 9.4 Dans les situations de test que nous avons d´ecrites, le cas le plus fr´equent est celui d’une hypoth`ese nulle ne sp´ecifiant qu’une seule dimension du param`etre, la statistique du RVG suivant alors une loi χ2 (1). Quand le RVG est un test usuel avec une statistique dont la loi est connue sous H0 on peut appr´ecier la validit´e de l’approximation asymptotique (voir exercice 9.8). 2 (1) Notons que la r´egion de rejet au niveau 0,05 est −2 ln λ > χ0,95 = 3,84 ce qui signifie un rapport de vraisemblance inf´erieur `a 0,147. Note 9.5 Lorsque l’on comparera plusieurs populations on posera l’´egalit´e de certains param`etres sans vraiment les sp´ecifier tous. On verra par exemple en section 9.7.3 l’hypoth`ese nulle d’´egalit´e des moyennes de deux lois gaussiennes H0 : μ1 = μ2 . En fait pour le th´eor`eme ci-dessus on peut consid´erer que l’on sp´ecifie un param`etre. Pour le voir il suffit de poser μ2 = μ1 + θ et H0 s’´ecrit alors θ = 0.
9.6
Remarques diverses
La plupart des tests disponibles ont ´et´e d´evelopp´es `a partir d’id´ees intuitives en imaginant une statistique dont le comportement est tr`es diff´erenci´e sous H0 et sous H1 , et dont la loi exacte ou approch´ee est accessible sous H0 . Evidemment de tels tests seront rarement UPP. Pour une situation de test donn´ee il existe g´en´eralement, comme on peut le voir dans les logiciels, plusieurs propositions de test. Il est difficile de savoir quel test est pr´ef´erable car le calcul formel de la puissance ne peut ˆetre conduit, soit parce que la loi de la statistique est trop complexe pour l’alternative, soit en raison de la multiplicit´e de formes de cette alternative (notamment pour les tests de type non param´etrique comme on en verra au chapitre 10). Suite a` des ´etudes examinant des hypoth`eses alternatives particuli`eres, formellement ou par simulation, on dispose parfois d’´el´ements permettant d’effectuer le meilleur choix compte tenu des formes les plus plausibles de l’alternative dans la situation consid´er´ee.
Chapitre 9. Tests d’hypoth`eses param´etriques
227
Comme pour les intervalles de confiance les r´esultats asymptotiques concernant l’estimateur %du MV peuvent ˆetre utilis´es pour construire un test approxiune loi N (0 ; 1). Si matif. En effet nI(θ) (θˆnM V − θ) suit approximativement % l’hypoth`ese nulle sp´ecifie parfaitement θ = θ0 alors nI(θ0 ) (θˆnM V − θ0 ) est une statistique de loi approximativement connue, ce qui permet de d´efinir une r´egion de rejet. Ceci sera utilis´e dans la prochaine section pour le cas d’une loi m`ere de Bernoulli avec de grands ´echantillons. La th´eorie classique des tests peut ˆetre g´en´eralis´ee dans le cadre de la th´eorie de la d´ecision. Celle-ci stipule une fonction de perte qui d´efinit un coˆ ut pour l’erreur de premi`ere et pour celle de deuxi`eme esp`ece, puis la notion de risque comme esp´erance math´ematique de cette fonction de perte. Le risque ´etant une fonction de θ l’objectif est alors de rechercher le test qui minimise le risque, si possible uniform´ement en θ. Un tel test n’existant g´en´eralement pas on se satisfera, par exemple, d’un test minimax pour lequel le risque maximum sur Θ reste inf´erieur ou ´egal `a celui de tout autre test. On peut conjuguer cette approche avec une approche bay´ esienne en consid´erant une loi a priori sur Θ et en minimisant le risque a posteriori qui ne d´epend plus du ou des param`etres inconnus. Notons que la th´eorie classique repose implicitement sur une fonction de perte attribuant le coˆ ut 1 a` une erreur de premi`ere comme de deuxi`eme esp`ece. L’usage courant de la P-valeur La d´ecision d’accepter ou de refuser une hypoth`ese est sujette au choix du risque de premi`ere esp`ece α. Afin d’´eviter ce choix on peut recourir, et c’est ce que font les logiciels, `a la notion de P-valeur pour simplement rendre compte du r´esultat d’un test. La P-valeur est la probabilit´ e que, sous eme H0 , la statistique de test prenne une valeur au moins aussi extrˆ que celle qui a ´ et´ e observ´ ee. La notion de position extrˆeme se d´efinit en relation avec la d´efinition du seuil du test. Si la r´egion de rejet est unilat´erale du type t > c, alors pour une valeur t0 observ´ee apr`es exp´erience la P-valeur est P (T > t0 |H0 ) si H0 est simple ou bien le maximum de Pθ (T > t0 ) sur Θ0 si elle est multiple. Si la r´egion de rejet est bilat´erale, par exemple {t | t < c1 ou t > c2 } alors la P-valeur est d´efinie par 2P (T < t0 |H0 ) si t0 est plus petit que la m´ediane de la loi de T sous H0 ou 2P (T > t0 |H0 ) s’il est plus grand, ceci afin de tenir compte du rejet sur les deux extr´emit´es. Reprenons la situation de l’exemple 9.5 avec H0 : μ ≤ 5 vs. H1 : μ > 5 pour une loi m`ere N (μ , 1). On a vu que sur la base√d’un ´echantillon de taille 10 x > 5 + 1,645(1/ 10) au niveau 0,05 ou, plus on est amen´e `a rejeter H0 si √ g´en´eralement, x > 5 + z1−α (1/ 10) au niveau α o` u z1−α est le quantile d’ordre 1 − α de la loi de Gauss centr´ee-r´eduite. Supposons que l’´echantillon observ´e ait une moyenne ´egale `a 6. Comme le risque de premi`ere esp`ece maximal est atteint pour √ μ = 5 la P-valeur est ´egale `a P (X > 6) pour X ; N (5 ; 1/10) soit P (Z > 10(6 − 5) ) = P (Z > 3, 16) pour Z ; N (0 ; 1), laquelle est ´egale `a
228
Statistique − La th´eorie et ses applications
0,008 ce qui indique directement que la valeur observ´ee est au-del`a de la valeur critique au niveau 0,05 et mˆeme au niveau 0,01. Si le test avait ´et´e bilat´eral avec H0 : μ = 5 vs. H1 : μ = 5, la P-valeur correspondant a` la mˆeme observation 6 aurait ´et´e prise ´egale `a 0,016 impliquant un rejet au niveau 0,05 mais pas au niveau 0,01. Avec cette d´efinition, d’une fa¸con g´en´erale, la P-valeur permet de d´eterminer si l’on rejette a` un niveau α donn´e (`a condition toutefois que, dans le cas bilat´eral, la zone de rejet soit partag´ee en risque α/2 ´equitablement sur chaque extr´emit´e, ce qui est l’usage courant). Si la P-valeur est inf´erieure a` α on rejette H0 sinon on l’accepte. Comme autre fa¸con de voir les choses on peut dire que plus la P-valeur est faible plus l’hypoth`ese nulle est suspecte. Ainsi l’indication des P-valeurs dans les logiciels a rendu obsol`ete l’usage des tables pour le praticien.
9.7
Les tests param´ etriques usuels
Certains de ces tests ont, en fait, d´ej` a ´et´e vus dans la th´eorie g´en´erale et nous les indiquerons plus bri`evement. La construction des tests usuels d´ecoule de la pr´esence d’une statistique de loi connue sous H0 et souvent sous H1 , s’imposant de fa¸con assez naturelle, ind´ependamment de toute consid´eration d’optimalit´e. Dans la plupart des cas il se trouve que le test ainsi construit est UPP-sans biais ce que nous mentionnerons au passage. Il y a un parall´elisme ´etroit entre les sections 7.4.1 `a 7.4.6 pour la construction des intervalles de confiance usuels et les sections qui vont suivre. En effet le point de d´epart est identique. Pour un IC on met en ´evidence une statistique T telle qu’il existe une fonction g(T, θ) dont la loi est ind´ependante de θ, ce qui permet un encadrement `a un niveau de probabilit´e souhait´e. Pour peu que cette fonction puisse pivoter (voir d´efinition 7.3) on en d´eduit un encadrement de θ. Pour un test les choses sont plus simples car on sp´ecifie θ = θ0 sous H0 et g(T, θ0 ) devient une statistique de loi connue. Soit uα/2 et u1−α/2 les quantiles d’ordres respectifs α/2 et 1 − α/2 pour cette loi, on peut donner comme r´egion d’acceptation A = {t | g(t, θ0 ) ∈ [uα/2 , u1−α/2 ]}. Il n’y a donc pas n´ecessit´e `a pivoter pour la fonction g(t, θ) mais, en revanche, il faut souhaiter qu’elle soit monotone vis-` a-vis de t pour que A soit un intervalle pour t. Le calcul de la puissance, par exemple en θ = θ1 : Pθ1 (g(T, θ0 ) ∈ / [uα/2 , u1−α/2 ]), pourra toutefois poser des difficult´es dans la mesure o` u la statistique est ici g(T, θ0 ) et non pas g(T, θ1 ) : la loi de g(T, θ0 ) «sous θ1 » n’aura pas souvent une forme simple. Quoi qu’il en soit tous les tests mis en ´evidence ci-apr`es seront convergents. En fin de chapitre nous reviendrons plus pr´ecis´ement sur le lien entre IC et tests et montrerons l’exploitation que l’on peut en faire. Nous proposons aussi dans la section des exercices quelques « exercices appliqu´es » permettant de voir des situations pratiques pour les tests usuels.
Chapitre 9. Tests d’hypoth`eses param´etriques
9.7.1
229
Tests sur la moyenne d’une loi N (μ, σ2 )
Cas o` u σ 2 est connu Consid´erons tout d’abord ce cas d’´ecole simple. La statistique T du cas g´en´eral ´evoqu´e ci-dessus √ est la statistique exhaustive minimale X et la fonction g(T, θ) est (X − μ)/(σ/ n) de loi connue : N (0 ; 1). Notons que ce point de d´epart est celui de la section 7.4.1. Ainsi pour une hypoth`ese nulle H0 : μ = μ0 vs. H1 : μ = μ0 on a, sous H0 : X − μ0 √ ; N (0 ; 1). σ/ n Comme :
X − μ0 √ < z1−α/2 σ/ n σ σ = Pμ0 μ0 − z1−α/2 √ < X < μ0 + z1−α/2 √ n n
1 − α = Pμ0
−z1−α/2 <
une r´egion d’acceptation peut donc ˆetre d´efinie, pour un test de risque α, par : σ σ A = {x | μ0 − z1−α/2 √ < x < μ0 + z1−α/2 √ }. n n Ce test est UPP-sans biais, en vertu de la propri´et´e mentionn´ee en section 9.4.3 pour la classe exponentielle. √ Ici la fonction puissance h(μ) peut ˆetre d´etermin´ee car la loi de (X − μ0 )/(σ/ n) reste gaussienne quand μ est diff´erent de μ0 . En effet : X − μ0 √ < z1−α/2 h(μ) = 1 − Pμ −z1−α/2 < σ/ n X − μ μ − μ0 √ + √ < z1−α/2 = 1 − Pμ −z1−α/2 < σ/ n σ/ n μ −μ X −μ μ0 − μ √ − z1−α/2 < √ < 0 √ + z1−α/2 = 1 − Pμ σ/ n σ/ n σ/ n μ0 − μ μ0 − μ √ + z1−α/2 + Φ √ − z1−α/2 =1−Φ σ/ n σ/ n o` u Φ est la fonction de r´epartition de la loi de Gauss centr´ee-r´eduite. On montre que la fonction h(μ) s’accroˆıt de part et d’autre de μ0 `a partir de la valeur α (voir une illustration dans l’exercice 9.3). Par ailleurs on v´erifie ais´ement que h(μ) → 1 quand n → ∞ aussi bien lorsque μ > μ0 que lorsque μ < μ0 ce qui d´emontre la convergence du test. Pour des hypoth`eses unilat´erales, par exemple H0 : μ ≤ μ0 vs. H1 : μ > μ0 , il est naturel de rejeter H0 lorsque x est trop grand car cela refl`ete une moyenne
Statistique − La th´eorie et ses applications
230
μ ´elev´ee. Pour d´eterminer la valeur critique on se place en μ = μ0 qui est la valeur la plus d´efavorable pour H0 (plus pr´ecis´ement, comme on l’a vu en section 9.4.2, le risque de premi`ere esp`ece est maximal en μ = μ0 ). Comme : X − μ0 √ α = Pμ0 z1−α < , σ/ n √ H0 : μ ≥ μ0 on a pour r´egion de rejet A = {x | x > μ0 + z1−α σ/ n}. Pour √ vs. H1 : μ < μ0 la r´egion de rejet sera A = {x | x < μ0 − z1−α σ/ n}. Ces tests unilat´eraux sont UPP comme vu en section 9.4.2 (voir exemple 9.5). Cas o` u σ 2 est inconnu Passons maintenant a` ce cas g´en´eral et plus r´ealiste. Ici une statistique exhaustive minimale est n´ecessairement de dimension 2 et l’on prendra (X, S 2 ). Mais on dispose d’une √ fonction a` valeur dans R de loi connue quel que soit μ, `a savoir (X − μ)/(S/ n) de loi de Student t(n − 1). Ainsi pour une hypoth`ese nulle H0 : μ = μ0 vs. H1 : μ = μ0 on a, sous H0 : X − μ0 √ ; t(n − 1). S/ n Comme :
1 − α = Pμ0
(n−1) −t1−α/2
X − μ0 √ < t(n−1) < 1−α/2 S/ n
,
une r´egion de rejet peut ˆetre d´efinie, pour un test de risque α, par : x − μ0 (n−1) (n−1) √ ∈ / [−t1−α/2 , t1−α/2 ]. s/ n Pour des hypoth`eses bilat´erales on aura, comme r´egions de rejet : x − μ0 √ > t(n−1) 1−α/2 s/ n x − μ0 √ < −t(n−1) 1−α/2 s/ n
pour H0 : μ ≤ μ0 , pour H0 : μ ≥ μ0 .
Le test bilat´eral est UPP-sans biais de mˆeme que les tests unilat´eraux (ces derniers ne sont qu’UPP-sans biais en raison de la pr´esence du param`etre de nuisance σ 2 ). Qu’en est-il de la d´etermination de la fonction puissance de ce test de Student ? Par transcription du cas σ2 connu il nous faut calculer, pour μ «dans H1 » : X − μ0 (n−1) √ < t(n−1) h(μ) = Pμ −t1−α/2 < 1−α/2 . S/ n
Chapitre 9. Tests d’hypoth`eses param´etriques
231
√ Mais ici (X − μ0 )/(S/ n) ne suit plus une loi de Student car μ0 n’est plus la moyenne de X. En ´ecrivant : X − μ0 + (μ − μ0) X − μ0 √ = √ S/ n S/ n on met en ´evidence le fait que cette statistique de test suit alors une loi de Student non centrale de param`etre de non centralit´e (μ − μ0 )/σ, d´ej`a rencontr´ee dans l’exemple 9.8. Les tables des lois de Student non centrales sont volumineuses et peu r´epandues. Les logiciels pourraient faciliter la tˆ ache mais rares sont ceux qui ont int´egr´e ces calculs. Il existe ´egalement des abaques pour ce probl`eme. Pour les mˆemes raisons que celles indiqu´ees lors de l’´etude de l’IC sur la moyenne (voir section 7.4.1), ce test est robuste vis-`a-vis de l’hypoth`ese gaussienne. De fait les praticiens l’utilisent sans se soucier de cette hypoth`ese. Pour ce qui concerne l’hypoth`ese : H0 : μ1 ≤ μ ≤ μ2 vs. H1 : μ < μ1 ou μ > μ2 on a vu les difficult´es de mise en oeuvre dans l’exemple 9.8. On a montr´e qu’en √ √ (n−1) (n−1) rejetant H0 lorsque (x − μ1 )/(s/ n) < −t1−α/2 ou (x − μ2 )/(s/ n) > t1−α/2 on obtient un test conservateur de niveau α. Il n’existe pas de test UPP-sans biais dans ce cas.
9.7.2
Test sur la variance σ 2 d’une loi N (μ, σ 2 )
Nous supposons que μ est inconnu et nous nous int´eressons a` une hypoth`ese sur σ 2 , par exemple H0 : σ 2 = σ02 vs. H1 : σ 2 = σ02 . Ce test a d´ej`a ´et´e trait´e dans l’exemple 9.7 via le rapport de vraisemblance g´en´eralis´e. Nous allons retrouver le mˆeme test en d´eveloppant l’approche directe analogue a` celle de l’intervalle de confiance vue en section 7.4.2. Le point de d´epart est identique, `a savoir le fait que : (n − 1)S 2 ; χ2 (n − 1). σ2 Sous H0 on a donc : (n − 1)S 2 2 (n−1) 2 (n−1) P χα/2 < < χ1−α/2 = 1 − α. σ02 On dispose donc d’une statistique de test (n − 1)S 2 /σ02 et d’une r´egion d’ac2 (n−1) 2 (n−1) , χ1−α/2 ]. ceptation [ χα/2 Ce test est UPP-sans biais, mais pour un choix pr´ecis de quantiles 2 (n−1) 2 (n−1) χα1 et χ1−α2 tels que α1 + α2 = α (on montre que la condition `a remplir, conform´ement `a la note 9.3, est que la probabilit´e associ´ee `a l’intervalle
Statistique − La th´eorie et ses applications
232
d´elimit´e par ces deux valeurs sur la loi χ2 (n + 1) soit ´egale `a 1-α). Ce choix est compliqu´e et l’on s’en tient g´en´eralement au choix ci-dessus qui est assez proche. Pour l’hypoth`ese unilat´erale H0 : σ 2 ≤ σ02 la r´egion de rejet doit ˆetre intuiti2 (n−1) vement (n − 1)S 2 /σ02 > χ1−α car une valeur ´elev´ee de S 2 rend H0 suspecte. 2 (n−1) Pour H0 : σ 2 ≥ σ02 on rejette si (n − 1)S 2 /σ02 < χα . Ces tests sont ´egalement UPP-sans biais. Rappelons que le r´esultat sur la distribution d’´echantillonnage de (n − 1)S 2 /σ 2 est peu robuste vis-`a-vis de l’hypoth`ese gaussienne et, par cons´equent, ces tests ne sont valables que si la loi m`ere est proche d’une loi de Gauss. A titre de curiosit´e, si la moyenne μ ´etait connue on utiliserait le fait que n 2 i=1 (Xi − μ) ; χ2 (n), σ2 les d´eveloppements ´etant analogues aux pr´ec´edents.
9.7.3
Tests de comparaison des moyennes de deux lois de Gauss
On est en pr´esence de deux ´ echantillons ind´ ependants, l’un de taille n1 , de moyenne X 1 et variance S12 , issu d’une loi N (μ1 , σ12 ), l’autre de taille n2 , de moyenne X 2 et variance S22 issu d’une loi N (μ2 , σ22 ). En g´en´eral les deux moyennes des lois et les deux variances sont inconnues. On souhaite comparer les deux moyennes μ1 et μ2 sur la base des ´echantillons. Essentiellement, les questions qui se posent sont de savoir si l’on peut d´ecider `a un niveau de risque α donn´e si elles sont diff´erentes (cas bilat´eral) ou si l’une est sup´erieure `a l’autre (cas unilat´eral). Ce type de situation, bilat´erale ou unilat´erale, est tr`es fr´equent car on est souvent amen´e `a comparer deux populations r´eelles ou virtuelles suivant leurs moyennes. Par exemple dans l’exp´erimentation clinique on veut d´emontrer l’efficacit´e d’un traitement en comparant un ´echantillon trait´e et un ´echantillon t´emoin. Prenant soin de s´electionner ces ´echantillons de fa¸con qu’ils puissent, chacun, ˆetre consid´er´es comme pris au hasard parmi les personnes pr´esentant la pathologie a` traiter, l’´echantillon trait´e (respectivement l’´echantillon t´emoin) peut alors ˆetre envisag´e comme issu d’une population virtuelle de patients trait´es (respectivement de patients non trait´es). On se place ici dans une situation de test unilat´erale, cherchant `a voir si l’on peut d´ecider que le traitement est efficace, en moyenne, selon un crit`ere quantitatif appropri´e. Dans la mesure o` u le traitement ne peut qu’avoir soit aucun effet soit un effet n´ecessairement b´en´efique, on pourrait se restreindre a` une hypoth`ese nulle ponctuelle, par exemple H0 : μ1 − μ2 = 0 vs. H1 : μ1 − μ2 < 0, comme on le fait dans certains ouvrages. Cette restriction, comme on l’a vu en particulier en section 9.4.2, ne modifiant pas le niveau du test ni sa puissance par rapport
Chapitre 9. Tests d’hypoth`eses param´etriques
233
au test H0 : μ1 − μ2 ≤ 0, nous en resterons `a cette derni`ere hypoth`ese nulle qui est plus g´en´erale. C’est `a ces tests de comparaison des moyennes que l’on doit l’expression «hypoth`ese nulle». Ceci est ´egalement le cas pour l’expression courante du praticien qui parle de «test significatif au niveau α» lorsque l’hypoth`ese nulle peut ˆetre rejet´ee `a ce niveau. En effet ceci se dit par extension de l’id´ee qu’une diff´erence de deux moyennes empiriques est ou n’est pas statistiquement significative selon que le test d’´egalit´e des moyennes th´eoriques est rejet´e ou accept´e. Comme pour la construction d’un intervalle de confiance vue en section 7.4.3, il n’existe pas de m´ethode exacte dans le cas g´en´eral o` u σ12 = σ22 , mais une proc´edure asymptotique que nous pr´esenterons par la suite. On suppose donc pour l’heure que les deux lois ont mˆ eme variance σ2 . D`es lors notre point de d´epart est le mˆeme que celui de la section 7.4.3 avec le r´esultat g´en´eral suivant : (X 1 − X 2 ) − (μ1 − μ2 ) ( ; t(n1 + n2 − 2) Sp n11 + n12 o` u Sp2 =
(n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2
est un estimateur sans biais de la variance commune σ 2 . R´ef´erons-nous tout d’abord au cas(bilat´eral : H0 : μ1 = μ2 vs. H1 : μ1 = μ2 . Sous H0 la statistique (X 1 − X 2 )/Sp n11 + n12 suit donc une loi t(n1 + n2 − 2) ce qui permet de d´efinir une r´egion de rejet, pour un test de risque α, par : (n1 − 1)s21 + (n2 − 1)s22 x − x2 (n1 +n2 −2) (n1 +n2 −2) (1 ∈ / [−t1−α/2 , t1−α/2 ] o` u s2p = . n1 + n2 − 2 sp n11 + n12 Pour la situation unilat´erale H0 : μ1 ≤ μ2 vs. H1 : μ1 > μ2 , on voit (n1 +n2 −2) intuitivement qu’il faut rejeter uniquement dans ] t1−α , +∞[. Au-del`a de l’intuition, on peut montrer que les r´esultats propres au test sur la moyenne d’un seul ´echantillon s’´etendent a` la situation pr´esente. Notamment, avec une telle r´egion de rejet, le risque α maximal est atteint pour μ1 = μ2 et le test propos´e est donc bien de niveau α. Pour H0 : μ1 ≥ μ2 vs. H1 : μ1 < μ2 le rejet (n1 +n2 −2) [. se fait dans ] − ∞, −t1−α Ces tests sont UPP-sans biais mais la d´etermination mˆeme de la fonction puissance n’est pas formellement possible. Par ailleurs, l’approche par le rapport de vraisemblance est ´equivalente (voir exercices). Pour ce qui concerne la robustesse de ce test vis-`a-vis des conditions de lois gaussiennes et d’´egalit´e des variances, les consid´erations de la section 7.4.3 pour
234
Statistique − La th´eorie et ses applications
l’intervalle de confiance restent valables. Rappelons bri`evement que, comme pour un seul ´echantillon, les conditions de distributions gaussiennes ne sont pas cruciales et, d’autre part, que celle d’´egalit´e des variances peut ˆetre assouplie dans la mesure o` u les tailles d’´echantillons restent du mˆeme ordre. A la lumi`ere des d´eveloppements de ce chapitre, il est int´eressant de revenir sur la pratique mentionn´ee en section 7.4.3, consistant a` effectuer le test de la section suivante pour d´ecider de l’´egalit´e des variances. Cette approche, pour ˆetre rassurante pour le praticien, n’offre pas une garantie absolue de l’applicabilit´e du test de Student ci-dessus. En effet nous savons maintenant que l’acceptation d’une hypoth`ese ne signifie pas qu’elle soit vraie, le risque d’erreur de deuxi`eme esp`ece n’´etant pas contrˆ ol´e. Si les deux lois m` eres n’ont pas mˆ eme variance on peut utiliser, comme pour l’intervalle de confiance, le fait que, pour de grands ´echantillons (n1 et n2 sup´erieurs a` 100) : (X 1 − X 2 ) − (μ1 − μ2 ) ( 2 S1 S2 + n22 n1
;
approx
N (0 ; 1) .
Ainsi, a` un niveau approximativement ´egal `a α, on a, par exemple dans le cas bilat´eral, la r`egle de rejet : x1 − x2 ( 2 ∈ / [−z1−α/2 , z1−α/2 ] , s1 s22 + n1 n2 ces quantiles ´etant lus sur la loi N (0 ; 1). Pour des tailles d’´echantillons plus faibles il existe des formules d’approximation dont l’usage n’est pas tr`es r´epandu. On peut ´etendre les r´esultats ci-dessus au test d’hypoth`eses nulles du type H0 : μ1 − μ2 = Δ0 , H0 : μ1 − μ2 ≤ Δ0 ou H0 : μ1 − μ2 ≥ Δ0 . Il suffit pour a celle de x1 − x2 . En revanche le test bilat´eral cela de retrancher la valeur Δ0 ` H0 : |μ1 − μ2 | ≤ Δ0 vs. |μ1 − μ2 | > Δ0 pose des difficult´es majeures. On peut toutefois recourir a` un test conservateur simple d’une fa¸con tout `a fait analogue `a celle expos´ee en fin de section 9.7.1 pour une moyenne. Cas d’´ echantillons appari´ es Cette situation a ´et´e d´ecrite en section 7.4.3. Comme pour l’intervalle de confiance on se ram`ene au cas d’un seul ´echantillon en ´etudiant la s´erie des diff´erences entre paires. Soit d et sd respectivement la moyenne et l’´ecart-type observ´es pour ces paires, le test se fonde sur la r´ealisation : d √ sd / n o` u n est le nombre de paires. Les quantiles d´efinissant les valeurs critiques sont `a lire sur une loi de Student a` n − 1 degr´es de libert´e. Toutes les consid´erations de la section 9.7.1 restent valables.
Chapitre 9. Tests d’hypoth`eses param´etriques
9.7.4
235
Tests de comparaison des variances de deux lois de Gauss
Avec les mˆemes notations qu’`a la section pr´ec´edente on a ´etabli, en section 5.5, le r´esultat g´en´eral suivant : S12 /σ12 ; F (n1 − 1, n2 − 1). S22 /σ22 Ceci est particuli`erement appropri´e pour tester l’´egalit´e des variances selon H0 : σ12 /σ22 = 1 vs. H1 : σ12 /σ22 = 1. En effet, sous H0 la statistique S12 /S22 suit la loi de Fisher mentionn´ee ci-dessus. La r`egle de rejet au niveau α sera donc : s21 (n −1,n2 −1) (n1 −1,n2 −1) ∈ / [Fα/21 , F1−α/2 ]. s22 (n −1,n2 −1)
Rappelons pour l’usage des tables que le quantile Fα/21 1/
est ´egal `a
(n2 −1,n1 −1) F1−α/2 .
Ce r´esultat ´etant peu robuste par rapport aux conditions gaussiennes, son int´erˆet est limit´e.
9.7.5
Tests sur le param` etre p d’une loi de Bernoulli (ou test sur une proportion)
Les applications de ces tests sont multiples d`es lors que l’on veut ´etudier un caract`ere binaire dans une population. Citons notamment le contrˆ ole de qualit´e o` u l’on souhaite v´erifier si le taux de produits d´efectueux ne d´epasse pas une valeur donn´ee. Le test d’une hypoth`ese unilat´erale a d´ej` a ´et´e abord´e `a la suite de l’exemple 9.6. On a vu que le test UPP repose sur le nombre total de succ`es observ´e. Pour H0 : p ≤ p0 vs. H1 : p > p0 , par exemple, on rejette si ce nombre est trop ´elev´e ´ et la valeur critique se lit sur la loi B(n, p0 ). Etant donn´e le caract`ere discret de cette loi, le test n’est UPP que dans la mesure o` u l’on introduit une r`egle de rejet randomis´ee afin d’obtenir un risque exactement ´egal `a α (voir note 9.1). Pour l’hypoth`ese bilat´erale H0 : p = p0 vs. H1 : p = p0 on a un test UPP-sans biais en choisissant deux quantiles extrˆemes sur la loi B(n, p0 ) v´erifiant une contrainte difficile a` mettre en pratique. On pr´ef`ere donc utiliser des quantiles correspondant au plus proche, et de fa¸con conservatrice, `a une ´equir´epartition sur chaque extr´emit´e de cette loi. Cette approche a les mˆemes fondements que l’approche des intervalles de confiance par la m´ethode des quantiles pr´esent´ee en section 7.5 . On peut ´egalement utiliser une approximation gaussienne comme pour l’intervalle de confiance. La condition d’applicabilit´e que nous avions retenue est
236
Statistique − La th´eorie et ses applications
n p(1 − p) > 12. Mais ici, sous H0 , la valeur de p est donn´ee et nous pouvons prendre la condition np0 ≥ 5 et n(1 − p0 ) ≥ 5 indiqu´ee en section 5.8.3 (toutefois, ´etant donn´e que l’on veut une bonne pr´ecision sur des quantiles aux extr´emit´es de la loi ces conditions sont souvent renforc´ees, par exemple en exigeant np0 (1 − p0 ) ≥ 10). Alors la statistique P, proportion de succ`es dans l’´echantillon, est telle que, sous H0 : )
P − p0 p0 (1 − p0 ) n
;
approx
N (0 ; 1) .
D’o` u l’on d´eduit, par exemple pour le cas bilat´eral, la r`egle de rejet : )
p − p0 p0 (1 − p0 ) n
∈ / [−z1−α/2 , z1−α/2 ]
o` u p est la proportion de succ`es dans l’´echantillon r´ealis´e. Notons que cette approche est en correspondance avec celle de la proc´edure d’IC conduisant `a la r´esolution d’une in´egalit´e du second degr´e (voir section 7.4.5), mais pas avec celle de la formule classique o` u p(1 − p) est estim´e par p(1 − p), ce qui n’est pas n´ecessaire ici puisque p est sp´ecifi´e sous H0 . Cependant il est int´eressant de noter qu’en substituant p(1 − p) `a p0 (1 − p0 ) la statistique ci-dessus est quasiment identique a` la statistique de Student pour le test sur une moyenne. En effet grˆ ace au codage 1/0, la moyenne de l’´echantillon n x1 , x2 , · · · , xn est p et la variance empirique est (en remarquant que i=1 x2i est le nombre de succ`es) : 1 2 xi − p2 = p − p2 = p(1 − p). n n
s'2 =
i=1
% Il ne manque qu’un facteur n/(n − 1) pour retrouver l’´ecart-type de l’´echantillon plutˆ ot que l’´ecart-type empirique. On a donc avantage, dans un fichier de donn´ees, `a utiliser ce codage 1/0 pour une variable binaire car certains logiciels rudimentaires ne proposent que le test de Student (le fait que la P-valeur soit calcul´ee sur la loi de Student plutˆ ot que sur la loi de Gauss ne posant pas de probl`eme puisque cela va dans le sens conservateur). On peut voir aussi le test par approximation gaussienne comme une application du r´esultat asymptotique de l’estimateur du maximum de vraisemblance P pour p, mentionn´ee en section 9.6, car l’information de Fisher I(p0 ) est ´egale `a [ p0 (1 − p0 )]−1 pour la loi de Bernoulli.
Chapitre 9. Tests d’hypoth`eses param´etriques
237
Par ailleurs, pour le cas bilat´eral, le test du RVG ne donne ni le test exact ni le test approch´e ci-dessus mais on verra qu’il est asymptotiquement ´equivalent au test du khi-deux, lui-mˆeme identique au test approch´e (voir sections 10.1.3 et 10.1.4).
9.7.6
Tests de comparaison des param` etres de deux lois de Bernoulli (comparaison de deux proportions)
La comparaison de deux proportions `a partir de deux ´echantillons ind´ependants est tr`es fr´equente, au mˆeme titre que la comparaison de deux moyennes. Elle s’applique ´egalement `a l’´etude de l’efficacit´e d’un traitement par rapport `a un autre (ou en l’absence de traitement avec un ´echantillon t´emoin) lorsque cette efficacit´e est ´evalu´ee par un crit`ere binaire, par exemple la gu´erison ou non gu´erison d’un patient. Pour les mˆemes raisons que celles invoqu´ees en section 9.7.3, dans la mesure o` u le traitement ne saurait avoir d’effet n´egatif par rapport a` une absence de traitement, on pourrait se restreindre a` une hypoth`ese nulle ponctuelle H0 : p1 − p2 = 0 avec une hypoth`ese alternative unilat´erale. Ici ´egalement on conclura en d´eclarant que la diff´erence est ou n’est pas significative a` un niveau donn´e. Soit S1 et S2 les statistiques exhaustives minimales des nombres de succ`es parmi les n1 et n2 observations respectives de chaque ´echantillon. On obtient un test UPP-sans biais en utilisant la loi conditionnelle de S1 (ou de S2 ) sachant S1 + S2 . Montrons tout d’abord que, sous H0 : p1 = p2 , cette loi est une loi hyperg´eom´etrique et notons p = p1 = p2 sous cette hypoth`ese nulle. Rappelons (voir section 4.1.3) que si S1 ; B(n1 , p) et S2 ; B(n2 , p), alors S1 + S2 ; B(n1 + n2 , p). On a donc : P (S1 = x, S2 = t − x) P (S1 = x | S1 + S2 = t) = P (S1 + S2 = t) n1 x n2 p (1 − p)n1 −x pt−x (1 − p)n2 −t+x x t−x = n1 + n2 t p (1 − p)n1 +n2 −t t n1 n2 x t−x = n1 + n2 t qui est le terme g´en´eral de la fonction de probabilit´e de la loi H(n1 + n2 , t, n1 ) selon les notations de la section 4.1.5.
238
Statistique − La th´eorie et ses applications
Le test UPP-sans biais est d´efini, par exemple dans le cas bilat´eral, par une / [cα1 , c1−α2 ] o` u cα1 et c1−α2 sont des quantiles r´egion de rejet de la forme s1 ∈ d’ordres α1 et 1 − α2 tels que α1 + α2 = α, issus de la loi H(n1 + n2 , s1 + u s1 et s2 sont les nombres de succ`es observ´es sur les ´echantillons s2 , n1 ) o` r´ealis´es. On montrera en section 10.3.2 (note 10.3) qu’un test d´efini, comme celui-ci, conditionnellement `a une statistique exhaustive sous H0 (ce qu’est S1 + S2 ici) est l´egitime au sens o` u il s’agit bien d’un test de niveau α non conditionnellement. Les calculs `a la main sont tr`es fastidieux mais certains logiciels donnent la P-valeur pour ce test. On peut ´egalement utiliser le test exact de Fisher pour l’ind´ependance de deux v.a. binaires dont les calculs sont parfaitement identiques (voir section 10.3.2 et exemple 10.1 pour la mise en oeuvre). La puissance est difficilement accessible pour une alternative quelconque (toutefois elle peut ˆetre calcul´ee en fonction du rapport des chances - en anglais : odds ratio - [ p2 /(1 − p2 )]/[ p1 /(1 − p1 )] dont d´epend la loi conditionnelle de S1 sachant S1 + S2 sous H1 ). D`es lors que l’approximation gaussienne vaut pour chaque ´echantillon on utilise une formulation approch´ee simple. Les conditions de validit´e que nous u p1 et p2 sont les retenons sont n1 p1 (1 − p1 ) > 12 et n2 p2 (1 − p2 ) > 12 o` proportions de succ`es observ´ees. On a ´etabli pour l’IC correspondant (voir section 7.4.6) la loi approximative de P1 − P2 : p1 (1 − p1 ) p2 (1 − p2 ) + P1 − P2 ; N p1 − p2 , , approx n1 n2 ce qui donne sous H0 : P1 − P2
;
approx
N
0 ; p(1 − p)(
1 1 + ) . n1 n2
Toutefois la valeur de p est inconnue et doit ˆetre estim´ee par la proportion de succ`es dans les deux ´echantillons fusionn´es, i.e. p =
s1 + s2 n1 p1 + n2 p2 = n1 + n2 n1 + n2
d’o` u, finalement, la r´egion de rejet (cas bilat´eral) : )
p1 − p2 ∈ / [−z1−α/2 , z1−α/2 ]. 1 1 p(1 − p)( + ) n1 n2
On montrera dans le cadre plus g´en´eral de la comparaison de lois multinomiales (voir section 10.2) que ce test bilat´eral est identique au test classique du khi-deux.
Chapitre 9. Tests d’hypoth`eses param´etriques
239
Par ailleurs, pour le cas bilat´eral, le test du RVG ne donne ni le test exact ni ce test approch´e mais on verra (section 10.2) que la forme de la statistique du rapport de vraisemblance est asymptotiquement ´equivalente `a celle de la statistique du khi-deux, donc de la statistique ci-dessus obtenue par approximation gaussienne. Notons bien que ces tests ne sont valables que pour des ´echantillons ind´ependants. Pour des ´ echantillons appari´ es citons simplement le test de McNemar (la construction de ce test est propos´ee dans un exercice du chapitre 10). Il s’appliquera dans les enquˆetes, par exemple, pour tester s’il y a une ´evolution significative dans la r´eponse `a une certaine modalit´e d’une question pour un mˆeme ´echantillon r´einterrog´e apr`es un certain laps de temps (situation de mesures r´ep´et´ees). Note 9.6 Comparaisons de proportions au sein d’un mˆ eme ´ echantillon On peut vouloir tester l’´egalit´e de deux proportions entre deux sous-´echantillons. Par exemple tester que le pourcentage de r´eponses `a une modalit´e d’une question dans une enquˆete est le mˆeme pour les femmes et pour les hommes. Nous ne sommes plus dans le sch´ema pr´ec´edent du fait que n1 et n2 (fr´equences des femmes et fr´equences des hommes) ne sont plus fix´ees a priori mais sont des variables al´eatoires. En r´ealit´e, il s’agit ici d’un test d’ind´ependance entre la variable sexe et le choix ou non de la modalit´e de r´eponse. Ce test sera pr´esent´e en section 10.3 o` u l’on verra que statistique de test et r´egion critique seront, en fait, identiques a` celles des tests pr´esent´es ci-dessus, que ce soit pour le test exact ou pour le test par approximation gaussienne. On peut encore vouloir comparer les pourcentages de r´eponses p1 et p2 pour deux modalit´es distinctes d’une mˆeme question. Par exemple, dans un sondage al´eatoire sur les intentions de vote, voir si les pourcentages obtenus par deux candidats diff`erent ou non de fa¸con statistiquement significative. Ici on est dans le cas d’une loi multinomiale (il y a plusieurs modalit´es de r´eponse `a la question) et les fr´equences observ´ees ne sont pas ind´ependantes. Soit N1 et N2 ces fr´equences al´eatoires, nous avons vu en section 4.1.6 que cov(N1 , N2 ) = −np1 p2 , d’o` u pour les proportions observ´ees P1 = N1 /n et P2 = N2 /n : cov(P1 , P2 ) = −p1 p2 /n. La variance de P1 − P2 est donc ´egale `a : V (P1 ) + V (P2 ) − 2cov(P1 , P2 ) =
p1 (1 − p1 ) p2 (1 − p2 ) 2p1 p2 + + . n n n
Sous H0 : p1 = p2 = p on a, en admettant que la loi de P1 − P2 soit toujours approximativement gaussienne : 2p P1 − P2 ; N 0 ; approx n
Statistique − La th´eorie et ses applications
240
o` u p doit ˆetre estim´e, un estimateur naturel ´etant P = (N1 + N2 )/2n qui est sans biais. Dans le cas bilat´eral on rejettera H0 si (cas bilat´eral) : p1 − p2 ) ∈ / [−z1−α/2 , z1−α/2 ]. 2 p n
9.7.7
Test sur la corr´ elation dans un couple gaussien
Soit le couple al´eatoire (X, Y ) de loi gaussienne bivari´ee. Pour le cas g´en´eral d’un vecteur gaussien dans Rp on a vu en section 3.9 que la densit´e conjointe de ses composantes au point (x1 , x2 , · · · , xp ) ∈ Rp est : fX (x1 , x2 , · · · , xp ) =
1 1 exp{− (x − μ)t Σ−1 (x − μ)} 2 (2π)p/2 (det Σ)1/2
o` u μ est le vecteur des moyennes et Σ est la matrice des variances-covariances. Pour un couple (p = 2) on a : σ12 ρσ1 σ2 μ1 et Σ= μ= μ2 ρσ1 σ2 σ22 o` u ρσ1 σ2 est la covariance des deux composantes et ρ est leur corr´elation lin´eaire (voir d´efinition 3.6). La loi de (X, Y ) d´epend donc de cinq param`etres et la densit´e conjointe s’´ecrit : fX,Y (x, y) = 1√
2πσ1 σ2
1−ρ2
2
2 !
x−μ1 x−μ1 y−μ2 y−μ2 1 . + exp − 2(1−ρ − 2ρ 2) σ1 σ1 σ2 σ2
On consid`ere un ´echantillon de taille n : (X1 , Y1 ), (X2 , Y2 ), · · · , (Xn , Yn ) issu de cette loi dont les cinq param`etres sont inconnus et l’on souhaite tester l’hypoth`ese nulle d’ind´ependance des deux composantes. Comme il a ´et´e vu en section 3.6 ceci ´equivaut a` tester que la corr´elation est nulle, soit : H0 : ρ = 0 vs. H1 : ρ = 0 . *n A partir de l’expression i=1 fX,Y (xi , yi ) de la densit´e conjointe de l’´echantillon on peut ´etablir l’expression du rapport de vraisemblance g´en´eralis´e et montrer (non sans difficult´es) qu’elle ne d´epend des observations qu’`a travers la r´ealisation r de la corr´elation lin´eaire empirique d´efinie en section 5.2 : n
R=
(Xi − X)(Yi − Y ) , n n (Xi − X)2 (Yi − Y )2 i=1
i=1
i=1
Chapitre 9. Tests d’hypoth`eses param´etriques
241
la r´egion de rejet λ < k ´etant ´equivalente `a |r| > k , ce qui semble naturel. On utilise plutˆ ot comme statistique de test la fonction croissante de R : √ n − 2R T = √ 1 − R2 qui offre l’avantage de suivre simplement une loi de Student a` n − 2 degr´es de libert´e sous H0 (une d´emonstration sera donn´ee en section 11.2.6). On rejette donc H0 au niveau α si la r´ealisation t de T tombe en dehors de l’intervalle (n−2) (n−2) [−t1−α/2 , t1−α/2 ]. Note 9.7 A partir de la loi de T on peut, par simple changement de variable, ´etablir la loi de R sous H0 et montrer que sa fonction de densit´e est : fR (r) =
Γ( n−1 2 ) (1 − r 2 )(n−4)/2 1 Γ( 2 )Γ( n−2 ) 2
si r ∈ [−1, 1] .
Cette forme n’est pas sans rappeler celle d’une loi bˆeta. En fait on peut voir ais´ement que le coefficient de d´etermination R2 suit une loi Beta(0,(n-4)/2) et il est ´equivalent de fonder le test sur la r´ealisation r 2 de ce coefficient avec un rejet pour r2 > c1−α o` u c1−α est un quantile de cette loi. On peut ´egalement d´eterminer l’expression de la densit´e de R pour ρ quelconque et ´etablir la fonction puissance du test. Signalons que la loi de R ne 2 2 ) +o( n1 ). d´epend que du param`etre ρ, que E(R) = ρ+O( n1 ) et que V (R) = (1−ρ n R est donc un estimateur biais´e de r pour n fini, mais il est asymptotiquement sans biais et convergent en moyenne quadratique (et presque sˆ urement en tant que fonction continue de moments empiriques). On d´emontrera ´egalement en section 11.2.6 que R est l’estimateur du maximum de vraisemblance de ρ. Fisher a ´etabli un r´esultat asymptotique pour ρ quelconque : 1 1+R ln 2 1−R
;
approx
1 1 1+ρ , ) N ( ln 2 1−ρ n−3
qui autorise un test approximatif pour une hypoth`ese g´en´erale H0 : ρ = ρ0 (bilat´erale ou unilat´erale). Pour ces tests l’hypoth`ese d’une loi gaussienne pour le couple est essentielle et les r´esultats obtenus sont assez peu robustes. Si cette condition est douteuse on pourra se tourner vers une proc´edure non param´etrique telle que le test sur la corr´elation des rangs de Spearman (voir section 10.5.5). Rappelons qu’en dehors de la loi de Gauss l’hypoth`ese nulle ne signifie qu’une absence de corr´elation et non pas l’ind´ependance des deux composantes du couple. Pour tester l’ind´ependance on pourra recourir au test concernant les variables cat´egorielles (voir section 10.3) en d´ecoupant X et Y en classes.
242
Statistique − La th´eorie et ses applications
9.8 Dualit´ e entre tests et intervalles de confiance La pr´esentation des tests usuels a permis de voir que ces proc´edures et celles utilis´ees pour la construction d’intervalles de confiance sont tr`es voisines. Nous allons voir que l’on peut mˆeme ´etablir une sorte d’´equivalence entre celles-ci. Montrons-le sur un exemple avant de passer au cas g´en´eral. Consid´erons le test H0 : μ = μ0 vs. H1 : μ = μ0 pour une loi m`ere N (μ, σ 2 ) o` u (μ, σ 2 ) est inconnu. On accepte H0 au niveau α si et seulement si : (n−1)
−t1−α/2 <
x − μ0 √ < t(n−1) 1−α/2 , s/ n
ce que l’on peut ´ecrire de fa¸con ´equivalente : (n−1) s (n−1) s x − t1−α/2 √ < μ0 < x + t1−α/2 √ . n n Ainsi pour qu’une valeur de μ hypoth´etique soit accept´ee il faut et il suffit (n−1) (n−1) qu’elle soit dans l’intervalle [x − t1−α/2 √sn , x + t1−α/2 √sn ], c’est-`a-dire qu’elle soit comprise dans l’intervalle de confiance de niveau 1 − α pour la moyenne inconnue μ. Il y a donc ´equivalence pour μ entre le fait de prendre une valeur accept´ee dans le test de niveau α et le fait d’ˆetre situ´e dans l’intervalle de confiance de niveau 1 − α. On peut donc voir aussi l’IC comme l’ensemble des valeurs accept´ees par le test. Essayons de formaliser cela dans la g´en´eralit´e. IC d´ eriv´ e d’un test Soit pour l’hypoth`ese nulle H0 : θ = θ0 un test de niveau α d´efini par la r´egion d’acceptation A(θ0 ) ⊂ Rn donc telle que Pθ0 (A(θ0 )) = 1 − α. Faisant varier θ0 dans Θ, on peut ainsi construire, pour chaque valeur de θ ∈ Θ, une r´egion d’acceptation qui d´epend de cette valeur, not´ee A(θ) et telle que Pθ (A(θ)) = 1 − α. Soit maintenant une r´ egion de Θ construite de la fa¸con suivante sur la base d’une r´ealisation (x1 , x2 , · · · , xn ). On consid`ere chaque valeur de θ dans Θ et l’on inclut cette valeur dans la r´egion si et seulement si (x1 , x2 , · · · , xn ) ∈ A(θ). Passant `a l’univers des r´ealisations possibles symbolis´e par (X1 , X2 , · · · , Xn ), la r´egion ainsi d´efinie devient al´eatoire. Or, pour un θ donn´e, la probabilit´e que (X1 , X2 , · · · , Xn ) appartienne a` A(θ) est ´egale `a 1 − α par construction mˆeme de A(θ). Comme il y a identit´e entre cet ´ev´enement et le fait d’inclure cette valeur de θ dans la r´egion de Θ, la probabilit´e que θ soit compris dans cette r´egion (al´eatoire) est ´egale `a 1 − α. Ainsi on a construit une proc´edure de r´egion de confiance de niveau 1 − α pour le param`etre inconnu θ. Quand Θ ⊆ R cette r´egion sera g´en´eralement un intervalle quel que soit θ et on aura une proc´edure d’intervalle de confiance. On peut montrer que les propri´et´es d’optimalit´e du test se transf`erent `a la proc´edure d’IC. Ainsi un test UPP donnera une proc´edure uniform´ement
Chapitre 9. Tests d’hypoth`eses param´etriques
243
plus pr´ecise (voir section 7.7). Un test sans biais impliquera que la proc´edure fournira une probabilit´e plus faible d’inclure une fausse valeur de θ que d’inclure la vraie valeur. En g´en´eral si l’alternative est bilat´erale la r´egion d’acceptation est un intervalle a` bornes finies et il en est de mˆeme pour l’IC. Une alternative unilat´erale conduira a` un intervalle de confiance ouvert sur l’infini pour un cˆ ot´e. Dans le cas discret la dualit´e n’est valable qu’en «randomisant» les bornes de l’intervalle. Il sera toutefois plus simple de partir de r´egions d’acceptation conservatrices pour aboutir `a un IC de niveau de confiance sup´erieur ou ´egal `a 1 − α. Pour illustrer l’int´erˆet de cette dualit´e prenons la m´ethode du test par le rapport de vraisemblance (g´en´eralis´e) avec Θ ⊆ R. En vertu de ses propri´et´es asymptotiques on a une r´egion d’acceptation au niveau approximatif α d´efinie par (voir note 9.4) : 2 (1)
−2 ln λ(x1 , x2 , ..., xn ) ≤ χ1−α ou ou
1
2 (1)
λ(x1 , x2 , ..., xn ) ≥ e− 2 χ1−α
2 (1)
1 f (θ; x1 , x2 , ..., xn ) ≥ e− 2 χ1−α f (θn ; x1 , x2 , ..., xn ).
Pour un ´echantillon r´ealis´e x1 , x2 , · · · , xn on en d´eduit une r´egion de confiance de niveau 1−α en consid´erant l’ensemble des valeurs de θ v´erifiant cette derni`ere in´egalit´e, cette r´egion ´etant g´en´eralement un intervalle ´etant donn´e les propri´et´es du RVG. Ainsi avec α =0,05 , on obtient un IC de niveau approximatif 0,95 contenant les valeurs de θ pour lesquelles la densit´e (ou la fonction de probabilit´e) conjointe aux valeurs observ´ees x1 , x2 , · · · , xn n’est pas inf´erieure `a 0,147 fois leur densit´e maximale f (θn ; x1 , x2 , ..., xn ) atteinte au maximum de vraisemblance θn (voir note 9.4). Ceci est repr´esent´e sur la figure 9.2. D’un point de vue num´erique on voit qu’il suffit de connaˆıtre l’expression de la densit´e (ou de la fonction de probabilit´e) conjointe des observations pour donner un intervalle de confiance approximatif sur le param`etre inconnu. Test d´ eriv´ e d’un IC On peut ´egalement envisager une d´emarche inverse permettant de d´eboucher sur un test a` partir d’une proc´edure d’IC. Soit une famille d’intervalles [t1 (x1 , x2 , ..., xn ) , t2 (x1 , x2 , ..., xn )] d´efinie pour toute r´ealisation (x1 , x2 , ..., xn ), o` u t1 (x1 , x2 , ..., xn ) et t2 (x1 , x2 , ..., xn ) sont `a valeurs dans Θ ⊆ R, issue d’une proc´edure d’IC de niveau 1 − α. Pour tout θ0 on peut d´efinir un test H0 : θ = θ0 consistant `a accepter H0 si et seulement si θ0 appartient a` [t1 (x1 , x2 , ..., xn ), t2 (x1 , x2 , ..., xn )]. Par construction de la proc´edure d’IC, pour toute valeur de θ on a : Pθ (θ ∈ [t1 (X1 , X2 , · · · , Xn ), t2 (X1 , X2 , · · · , Xn )] ) = 1 − α.
Statistique − La th´eorie et ses applications
244
L(θ) L(θˆn )
0,147 L (θˆn )
θˆn θ1
IC 0,95
θ2
θ
Figure 9.2 - Intervalle de confiance d´eriv´e du test du rapport de vraisemblance g´en´eralis´e.
Ceci est vrai en particulier pour θ0 et la probabilit´e d’accepter cette valeur sous H0 est aussi ´egale `a 1 − α. On a bien un test de niveau α. Ainsi, par exemple, on peut recourir a` la m´ethode des quantiles (voir section 7.5), facile a` mettre en oeuvre, pour tester une valeur de θ : il suffit de voir si cette valeur est ou non a` l’int´erieur des limites de confiance. En particulier les abaques de confiance pour le param`etre p de la loi de Bernoulli ou λ de la loi de Poisson peuvent ˆetre utilis´es dans cette optique. Nous concluons en disant qu’un intervalle de confiance donne une information plus riche qu’un simple test car il indique l’ensemble des valeurs qui seraient acceptables via le test dual. Pour approfondir la th´eorie des tests on pourra consulter l’ouvrage de r´ef´erence de Lehmann (1986) ou celui de Shao (1999). Par ailleurs on trouvera dans le livre de Saporta (1990) un vaste ´eventail de m´ethodes o` u s’appliquent les tests les plus divers.
9.9
Exercices
Exercice 9.1 Soit X1 , X2 , · · · , Xn issus d’une loi E(λ). On souhaite tester H0 : λ = 1/2 vs. H1 : λ = 1. Quelle est la r´egion de rejet au niveau 0,05 pour
Chapitre 9. Tests d’hypoth`eses param´etriques
245
le test du RV simple ? Aide : on pourra utiliser le fait qu’une loi Γ(n, 1/2) est une loi χ2 (2n). Exercice 9.2 Soit un ´echantillon al´eatoire X1 , X2, ... , Xn issu d’une loi g´eom´etrique de param`etre inconnu p dont nous rappelons la fonction de probabilit´e : f (x; p) = p(1 − p)x ; x = 0, 1, 2, ... n Expliquer pourquoi i=1 Xi suit une loi binomiale n´egative de param`etres n 1 2 et p. Soit a` tester H0 : p = versus H1 : p = . 3 3 Montrer que la r´ egion critique pour le test fond´e sur le rapport de vraisemblance est de la forme ni=1 xi < k. Donner la r`egle de d´ecision pour n = 4 et α = 0,05. Quelle est la puissance de ce test ? Exercice 9.3 Soit X1 , X2 , · · · , Xn issus de la loi N (μ , 1). Pour tester H0 : μ ≤ 5 vs. H1 : μ > 5 on adopte la r´egion de rejet : 1 { (x1 , x2 , · · · , xn ) | x > 5 + √ }. n Quel est le risque de premi`ere esp`ece de ce test ? D´eterminer sa fonction puissance. Exercice 9.4 Soit la famille de lois de Pareto de param`etres a connu et θ inconnu (voir section 4.2.6). Montrer qu’elle est a` RV monotone. En d´eduire le test UPP pour H0 : θ ≥ θ0 vs. H1 : θ < θ0 . Application : pour a = 1 construire le test de l’hypoth`ese nulle : la moyenne de la loi est inf´erieure ou ´egale `a 2. (aide : la moyenne est θa/(θ − 1)). Exprimer la valeur critique pour α = 0,05. Aide : montrer que ln X suit une loi exponentielle. Exercice 9.5 Soit la famille de lois U[0, θ] de param`etre θ inconnu. Montrer qu’elle est `a rapport de vraisemblance non croissant. En d´eduire un test UPP de niveau α > 0 pour des alternatives unilat´erales sur θ. Exercice 9.6 Soit la situation du tirage sans remise de n individus dans une population de N individus dont M ont un certain caract`ere, M ´etant inconnu. On consid`ere le nombre X ; H(N, M, n) d’individus ayant ce caract`ere dans un ´echantillon de taille n. Soit l’hypoth`ese H0 : M ≥ M0 vs. H1 : M < M0 , montrer que le test avec r´egion de rejet x ≤ cα , o` u cα est le quantile d’ordre α sur la loi H(N, M0 , n), est UPP. Aide : montrer que la famille des lois hyperg´eom´etriques avec M inconnu est `a rapport de vraisemblance croissant. Pour cela il suffira de montrer que L(M + 1; x)/L(M ; x) est une fonction croissante de x.
246
Statistique − La th´eorie et ses applications
Exercice 9.7 Soit la famille de lois exponentielles E(λ). Sur la base d’une seule observation donner, en accord avec la note 9.3, les deux ´equations conduisant au choix des valeurs critiques pour le test UPP parmi les tests sans biais de H0 : λ = λ0 vs. H1 : λ = λ0 . Montrer que la r´egion de rejet n’est pas r´epartie de fa¸con ´egale selon un risque de premi`ere esp`ece α/2 sur chaque extr´emit´e (on pourra constater que le d´es´equilibre peut ˆetre tr`es prononc´e sur un cas particulier en se donnant λ0 et α, et en recourant `a un logiciel de r´esolution d’´equations). u μ est inconnu mais σ 2 est connu, Exercice 9.8 Soit une loi m`ere N (μ, σ 2 ), o` et la situation de test H0 : μ1 ≤ μ ≤ μ2 vs. H1 : μ < μ1 ou μ > μ2 . D´eterminer la forme de la r´egion de rejet pour le test du RVG au niveau α. En admettant que le risque de premi`ere esp`ece est maximal en μ = μ1 et μ = μ2 , et en 2 prenant naturellement des valeurs critiques sym´etriques par rapport a` μ1 +μ 2 donner l’´equation d´efinissant ces valeurs critiques (ceci correspond au test UPP parmi les tests sans biais). Application : r´esoudre approximativement l’´equation pour μ1 = 4, μ2 = 5, σ 2 = 1 et α = 0, 05. Tracer en un seul graphe la fonction puissance (avec un choix de n) et la variation du risque de premi`ere esp`ece. D´eduire du test pr´ec´edent le test UPP-sans biais pour H0 : μ = μ0 vs. H1 : μ = μ0 et σ 2 connu. Montrer ´egalement que, dans ce cas, la loi asymptotique de −2 ln Λn , o` u Λn est le RVG, est en fait la loi exacte. Exercice 9.9 Soit `a tester H0 : λ = λ0 vs. H1 : λ = λ0 pour le param`etre λ ´ de la loi E(λ) `a partir d’un ´echantillon de taille n. Etablir formellement le test du RVG. Application : ´etablir le test pour λ0 = 1/4 et n = 30 en utilisant la loi asymptotique du RVG. Exercice 9.10 Soit une loi (de Raleigh) de densit´e f (x; a) = 2ax exp{−ax2 }, x ≥ 0, a > 0. Donner la statistique du RVG pour tester H0 : a = 1 vs. H1 : a = 1 . Exercice 9.11 Soit la loi de Pareto de param`etre a = 2 et θ inconnu. Donner vs. H1 : θ = 3 en utilisant la loi asymptotique le test du RVG pour H0 : θ = 3 30 du RVG. Application : n = 30, i=1 ln xi = 31. Exercice 9.12 Soit une loi m`ere P(λ) o` u λ est inconnu. On veut tester H0 : λ = λ0 vs. H1 : λ = λ0 . Montrer que la r´egion de rejet pour le test du RVG est de la forme x ∈ / [c1 , c2 ] avec une certaine contrainte liant c1 et c2 . Application : pour λ0 = 5 et n = 10 r´esoudre au plus proche de la solution du RVG en utilisant une r´egion de rejet conservatrice par rapport au niveau 0,05. Calculer le niveau exact de cette r`egle. * Construire une r`egle de rejet «randomis´ee» selon le principe de la note 9.1. Exercice 9.13 Montrer que le test du RVG conduit a` la mˆeme statistique de test que le test classique de Student vu en section 9.7.1 pour le test sur la moyenne d’une loi de Gauss.
Chapitre 9. Tests d’hypoth`eses param´etriques
247
Exercices appliqu´es3 Exercice 9.14 Un producteur de pneus envisage de changer la m´ethode de fabrication. La distribution de la dur´ee de vie de ses pneus traditionnels est connue : moyenne 64 000 km, ´ecart-type 8 000 km ; elle est pratiquement gaussienne. Dix pneus sont fabriqu´es avec la nouvelle m´ethode et une moyenne de 67 300 km est constat´ee. En supposant que la nouvelle fabrication donnerait une distribution a` peu pr`es gaussienne et de mˆeme variance, testez l’efficacit´e de la nouvelle m´ethode au niveau α = 0, 05. Tracez la fonction puissance de ce test. (aide : test de H0 : μ ≤ μ0 ) Exercice 9.15 Une ´etude approfondie a ´evalu´e `a 69 800 euros/an le revenu moyen imposable par m´enage r´esidant a` Neuilly-sur-Seine. Une enquˆete est effectu´ee aupr`es de 500 m´enages pris au hasard, afin de contrˆ oler le r´esultat de l’´etude. Dans l’enquˆete on trouve une moyenne de 68 750 euros/an avec un ´ecart-type de 10 350 euros/an. Quelle est la P-valeur associ´ee aux r´esultats du contrˆole ? (aide : test de H0 : μ = μ0 ) Exercice 9.16 En un point de captage d’une source on a r´ep´et´e six mesures du taux d’oxyg`ene dissous dans l’eau (en parties par million). On a trouv´e : 4,92
5,10
4,93
5,02
5,06
4,71.
La norme en dessous de laquelle on ne doit pas descendre pour la potabilit´e de l’eau est 5 ppm. Au vu des observations effectu´ees peut-on avec un faible risque d’erreur affirmer que l’eau n’est pas potable (admettre une distribution quasi-gaussienne des al´eas des mesures) ? (aide : test de H0 : μ ≥ μ0 ) Exercice 9.17 Un service charg´e de traiter des formulaires standard utilise un r´eseau de dix micro-ordinateurs et une imprimante. Le temps moyen d’attente en impression d’un formulaire est de 42,5 secondes (le temps entre l’envoi de la commande d’impression et la r´ealisation de l’impression du formulaire). Dix nouveaux micros et une imprimante sont ajout´es au r´eseau. Sur trente demandes d’impression dans cette nouvelle configuration on a constat´e un temps moyen de 39,0 secondes et un ´ecart-type de 8,2 secondes. Tester l’hypoth`ese que le temps moyen d’impression n’a pas ´et´e affect´e par l’accroissement du r´eseau. (aide : test de H0 : μ = μ0 ) 3 Un ou deux de ces exercices appliqu´ es sont des adaptations d’emprunts dont nous ne sommes plus en mesure de retrouver la source. Nous nous en excusons aupr`es des involontaires contributeurs.
248
Statistique − La th´eorie et ses applications
Exercice 9.18 On veut tester la pr´ecision d’une m´ethode de mesure d’alcool´emie sur un ´echantillon sanguin. La pr´ecision est d´efinie comme ´etant ´egale `a deux fois l’´ecart-type de l’al´ea (suppos´e pratiquement gaussien) de la m´ethode. On partage l’´echantillon de r´ef´erence en 6 ´eprouvettes que l’on soumet `a l’analyse d’un laboratoire. Les valeurs trouv´ees en g/litre sont : 1, 35
1, 26
1, 48
1, 32
1, 50
1, 44 .
Tester l’hypoth`ese nulle que la pr´ecision est inf´erieure ou ´egale `a 0,1 g/litre au niveau 0,05. Donner la P-valeur du r´esultat. (aide : test de H0 : σ 2 ≤ σ02 ) Exercice 9.19 On sait que dans la population g´en´erale du nord de l’Italie le pourcentage de pr´ematur´es (naissance avant le 8`eme mois) est de 4 %. Dans une r´egion du nord de l’Italie contamin´ee par une pollution chimique on a observ´e sur les derni`eres ann´ees 72 naissances pr´ematur´ees sur 1 243 accouchements. Y-a-t-il lieu, selon la P-valeur constat´ee, de penser que la proportion de pr´ematur´es est plus ´elev´ee dans cette r´egion que dans l’ensemble de la population du Nord du pays ? Donnez la fonction puissance du test de niveau 0,01. (aide : test de H0 : p ≤ p0 ) Exercice 9.20 Le fournisseur d’un lot de 100 000 puces affirme que le taux de puces d´efectueuses ne d´epasse pas 4 %. Pour tester cette hypoth`ese 800 puces prises au hasard sont contrˆ ol´ees et l’on en trouve 40 d´efectueuses. Effectuer un test de niveau 0,05. (aide : test de H0 : p ≤ p0 ) Exercice 9.21 Dans une ´etude on a mesur´e le taux de plomb dans le sang (en mg/litre) de 67 enfants tir´es au hasard dans les classes primaires d’une ville, dont 32 filles et 35 gar¸cons. Pour les filles on a trouv´e une moyenne de 12,50 avec une variance de 3,39. Pour les gar¸cons on a trouv´e, respectivement, 12,40 et 3,94. Le taux moyen est-il significativement diff´erent entre gar¸cons et filles ? Quelle hypoth`ese suppl´ementaire doit-on faire pour pouvoir r´epondre `a cette question ? (aide : test de H0 : μ1 = μ2 ) Exercice 9.22 L’an dernier, on a observ´e sur un ´echantillon de 29 appartements de 3 pi`eces situ´es en ville des d´epenses de chauffage ´egales en moyenne `a 325 euros, avec un ´ecart-type ´egal `a 26 euros. Cette ann´ee, pour un nouvel ´echantillon de 31 appartements de 3 pi`eces en ville on a trouv´e des valeurs respectives de 338 euros et 28 euros. L’hypoth`ese `a laquelle on s’int´eresse est qu’il n’y a pas eu d’augmentation des d´epenses, en moyenne entre les deux ann´ees.
Chapitre 9. Tests d’hypoth`eses param´etriques
249
a) En supposant que toutes les conditions n´ecessaires `a la validit´e du test utilis´e sont remplies, effectuer un test de niveau 0,05 pour l’hypoth`ese ci-dessus. b) Donner les conditions n´ecessaires pour que la proc´edure de test utilis´ee soit applicable. (aide : test de H0 : μ1 ≥ μ2 ) Exercice 9.23 Pour tester l’efficacit´e d’un traitement destin´e `a augmenter le rythme cardiaque, on a mesur´e sur 5 individus ce rythme avant et apr`es administration du traitement. Est-il efficace ? Avant Apr`es
80 84
90 95.5
70.3 73.5
85 86
63 62
On supposera que le rythme cardiaque se r´epartit de fa¸con quasi gaussienne pour la population consid´er´ee (avant comme apr`es traitement). (aide : test «appari´e» H0 : μ1 ≥ μ2 ) Exercice 9.24 Une entreprise qui commercialise des abonnements pour un op´erateur de t´el´ephonie mobile, applique un nouveau r´egime horaire `a ses employ´es. Pour 16 vendeurs pris au hasard, elle comptabilise le nombre d’abonnements vendus le mois pr´ec´edant l’application du r´egime et le mois suivant : vendeur Mois pr´ec´edent Mois suivant vendeur Mois pr´ec´edent Mois suivant
1 39 43 9 69 69
2 28 51 10 41 43
3 67 64 11 52 53
4 45 35 12 60 47
5 28 18 13 50 34
6 73 53 14 46 39
7 67 66 15 53 49
8 53 61 16 47 56
En se fondant sur cette information, la direction annonce que le nouveau r´egime provoque une baisse importante des ventes. Cette affirmation est–elle justifi´ee ? Donner une valeur approch´ee de la P–valeur du test effectu´e. On admettra que la loi du nombre de ventes mensuelles est suffisamment proche d’une loi normale. (aide : test «appari´e» H0 : μ1 ≤ μ2 ) Exercice 9.25 Un nouveau vaccin contre le paludisme est exp´eriment´e aupr`es de la population d’une ville d’Afrique. On prend deux ´echantillons A et B de 200 personnes chacun. On injecte le vaccin aux individus de l’´echantillon A et un placebo `a ceux de l’´echantillon B. Au bout d’un an on constate que 40 personnes de l’´echantillon A ont des acc`es de palustres et 80 de l’´echantillon B. Que dire de l’efficacit´e du vaccin ? (aide : test de H0 : p1 ≥ p2 )
250
Statistique − La th´eorie et ses applications
Exercice 9.26 Suite ` a des sondages, l’institut A donne 510 personnes favorables `a telle mesure sur 980 personnes interrog´ees, l’institut B donne 505 favorables sur 1 030. La diff´erence des estimations de la proportion de personnes favorables estelle significative ? (aide : test de H0 : p1 = p2 )
Chapitre 10
Tests pour variables cat´ egorielles et tests non param´ etriques Dans ce chapitre nous consid´erons tout d’abord la g´en´eralisation des tests des sections 9.7.5 et 9.7.6 concernant des variables de Bernoulli, a` des variables cat´egorielles. Les tests sur des variables cat´egorielles sont voisins dans leur esprit des tests non param´etriques et certains d’entre eux sont effectivement de nature non param´etrique. C’est pourquoi nous regroupons ces deux types de tests dans un mˆeme chapitre. Une variable cat´egorielle est une extension d’une variable de Bernoulli au sens o` u il n’y a plus deux mais c ≥ 2 r´esultats possibles. Il s’agit d’une variable al´eatoire non pas a` valeurs dans R comme les v.a. usuelles mais `a valeurs dans un ensemble de cat´egories. Ce sera, par exemple, la r´eponse d’un individu a` une question `a c modalit´es dans une enquˆete par sondage. Une variable cat´egorielle peut ˆetre une variable purement qualitative (ou nominale) ou une variable ordinale si les cat´egories sont ordonn´ees. Elle peut aussi r´esulter d’une mise en cat´egories d’une variable quantitative (par exemple constitution de classes d’ˆ age ou de revenus). Une variable cat´egorielle est parfaitement d´efinie par les probabilit´es respectives p1 , p2 , · · · , pc des c cat´egories. La somme des probabilit´es ´etant ´egale `a 1, il y a en v´erit´e c − 1 param`etres libres. Dans le contexte d’un tirage al´eatoire d’un individu dans une population finie, expos´e en section 2.4, p1 , p2 , · · · , pc co¨ıncident avec les fr´equences relatives (ou proportions) des c cat´egories dans cette population. D’une fa¸con g´en´erale nous nous int´eresserons `a l’observation de la variable cat´egorielle sur un n−´echantillon al´eatoire, par exemple les cat´egories observ´ees sur n individus tir´es au hasard dans une population. Seules importent (comme
Statistique − La th´eorie et ses applications
252
on le justifiera dans la note 10.1) les variables al´eatoires N1 , N2 , ..., Nc correspondant aux fr´equences respectives des c cat´egories apr`es n observations r´ep´et´ees et ind´ependantes de la variable cat´egorielle. Leur loi conjointe est la loi multinomiale d´ecrite en section 4.1.6 en tant qu’extension de la loi binomiale de deux a` c cat´egories. Cette loi sera donc le point de d´epart des tests concernant les variables cat´egorielles.
10.1
Test sur les param` etres d’une loi multinomiale
Dans les mˆemes notations que ci-dessus, la fonction de probabilit´e conjointe des v.a. N1 , N2 , · · · , Nc est : P (N1 = n1 , N2 = n2 , · · · , Nc = nc ) =
n! pn1 pn2 · · · pnc c n1 !n2 ! · · · nc ! 1 2
c si j=1 nj = n et 0 sinon (voir section 4.1.6). Ces variables al´eatoires ne sont pas ind´ependantes puisque leur somme doit ˆetre ´egale `a n. On s’int´eresse `a l’hypoth`ese nulle : H0 : p1 = p01 , p2 = p02 , · · · , pc = p0c c o` u les p0j sont des valeurs de probabilit´es sp´ecifi´ees telles que j=1 p0j = 1, l’hypoth`ese alternative ´etant qu’il existe au moins une cat´egorie j telle que pj = p0j (en fait il y en aura au moins deux puisque le total doit rester ´egal `a 1). Nous pr´esentons deux approches de test dont on verra qu’elles sont asymptotiquement ´equivalentes.
10.1.1
Test du rapport de vraisemblance g´ en´ eralis´ e
Soit le RVG : n! (p01 )n1 (p02 )n2 · · · (p0c )nc n1 !n2 ! · · · nc ! λ(n1 , n2 , · · · , nc ) = n! p n1 pn2 · · · pcnc n1 !n2 ! · · · nc ! 1 2 o` u ( p1 , p2 , · · · , pc ) est l’estimation du MV de (p1 , p2 , · · · , pc ). Montrons que pj est ´egal a` nj /n, la proportion observ´ee dans l’´echantillon pour la cat´egorie j. c En rempla¸cant pc par 1−p1 −· · ·−pc−1 pour int´egrer la contrainte j=1 pj = 1 dans la recherche du maximum, la fonction de vraisemblance s’´ecrit : n! nc−1 pn1 pn2 · · · pc−1 (1 − p1 − · · · − pc−1 )nc n1 !n2 ! · · · nc ! 1 2
si
c
j=1 nj
= n,
Chapitre 10. Tests non param´etriques
253
d’o` u la log-vraisemblance : ln( si
n! ) + n1 ln p1 + · · · + nc−1 ln pc−1 + nc ln(1 − p1 − · · · − pc−1 ) n1 !n2 ! · · · nc !
c
j=1 nj
= n.
En annulant la d´eriv´ee par rapport a` chacun des param`etres p1 , p2 , · · · , pc−1 on obtient les c − 1 ´equations suivantes : ⎧ n nc 1 ⎪ − =0 ⎪ ⎪ p 1 − p − · · · − pc−1 ⎪ 1 1 ⎪ ⎪ ⎪ ⎪ nc n2 ⎪ ⎨ − =0 p2 1 − p1 − · · · − pc−1 ⎪ ⎪ ⎪ ··· ⎪ ⎪ ⎪ ⎪ n nc ⎪ c−1 ⎪ ⎩ − =0 pc−1 1 − p1 − · · · − pc−1
soit
c n1 n2 nc−1 nc j=1 nj = = = = c = n, p1 p2 pc−1 pc j=1 pj
d’o` u (en admettant que la solution unique aux ´equations donne bien un maximum), pour tout j, la solution pj = nj /n. Le rapport de vraisemblance pour tester H0 est donc : (p01 )n1 (p02 )n2 · · · (p0c )nc
n nc λ(n1 , n2 , · · · , nc ) = n n1 n n2 1 2 c ··· n n n n c $ np0j j = . nj j=1 En utilisant le th´eor`eme asymptotique 9.2 on a comme r´egion de rejet de niveau (approximativement) α : −2 ln λ = 2
c j=1
nj ln
nj 2 (c−1) > χ1−α . np0j
Notons que la loi du khi-deux a c − 1 degr´es de libert´e, car il n’y a que c − 1 param`etres libres sp´ecifi´es par H0 . Dans ce contexte de variables cat´egorielles la statistique −2 ln λ est appel´ee d´eviance. Certains logiciels l’appellent toutefois rapport de vraisemblance (alors que celui-ci est λ). Par commodit´e nous nous autoriserons aussi ce glissement de langage.
254
Statistique − La th´eorie et ses applications
Note 10.1 Chaque observation d’une variable cat´egorielle peut ˆetre d´ecrite par un vecteur «indicateur» (X1 , X2 , · · · , Xc ) tel que la j -`eme composante prenne la valeur 1 si le r´esultat est la j -`eme cat´egorie, les autres composantes prenant alors la valeur 0. La densit´e conjointe des c composantes est : f (x1 , x2 , · · · , xc ; p1 , p2 , · · · , pc ) = px1 1 px2 2 · · · pxc c c o` u, pour tout j, xj ∈ {0, 1} et j=1 xj = 1. Pour n observations r´ep´et´ees on a une suite de n vecteurs : {(X1i , X2i , · · · , Xci ), i = 1, · · · , n}, avec densit´e conjointe : n $
px1 1i px2 2i · · · pxc ci = pn1 1 pn2 2 · · · pnc c
i=1
c
si u nj est le nombre d’observations tombant dans la j=1 nj = n (0 sinon) o` cat´egorie j parmi les n observations. Donc (N1 , N2 , · · · , Nc ) est une statistique exhaustive. De plus on voit que lorsque l’on fait un rapport de vraisemblance pour la suite des n vecteurs, on obtient la mˆeme expression qu’avec la loi multinomiale, les termes avec factoriels de cette derni`ere s’´eliminant. Ceci justifie le fait de passer directement par la loi multinomiale pour construire le test.
10.1.2
Test du khi-deux de Pearson
Ce test est historiquement le premier `a avoir ´et´e propos´e bien avant le d´eveloppement formel de la th´eorie des tests par Jerzy Neyman et par Egon Pearson `a partir de 1930. Il a ´et´e mis au point vers 1900 par Karl Pearson, le p`ere d’Egon, afin de v´erifier sur des donn´ees biologiques certaines hypoth`eses tenant aux facteurs d’h´er´edit´e. En utilisant des approximations gaussiennes Karl Pearson a montr´e que la statistique de test c (Nj − np0j )2 Q= np0j j=1 admet, sous H0 , une loi asymptotique χ2 (c − 1). C’est pourquoi Q est couramment appel´ee statistique du khi-deux ( ou statistique de Pearson). % Remarquons que, sous l’hypoth`ese H0 , (Nj − np0j )/ np0j (1 − p0j ) est la variable centr´ee-r´eduite de Nj dont la loi marginale est la loi binomiale B(n, p0j ) (voir section 4.1.6). Asymptotiquement cette v.a. suit c une loi N (0 ; 1) et son carr´e une loi χ2 (1). On montre que la contrainte j=1 Nj = n a pour effet d’´eliminer les facteurs (1 − p0j ) pour donner une loi asymptotique du khi-deux `a c − 1 degr´es de libert´e. Intuitivement on voit que la valeur prise par Q est d’autant plus petite que les fr´equences observ´ees sont proches des np0j appel´ees fr´equences attendues (ou fr´equences th´eoriques) sous H0 . On ne rejette donc l’hypoth`ese nulle que pour de grandes valeurs de r´ealisation q de Q, `a savoir 2 (c−1) lorsque q > χ 1−α pour un test de niveau (approximatif) α.
Chapitre 10. Tests non param´etriques
10.1.3
255
´ Equivalence asymptotique des deux tests
Nous donnons une d´emonstration abr´eg´ee de cette ´equivalence, des d´eveloppements plus rigoureux se trouvant dans les ouvrages cit´es en r´ef´erence (en fin de section 10.3). Pour ne pas alourdir les notations nous n’indi¸cons pas par n les suites de v.a. ou de r´ealisations dont on consid`ere ici la convergence quand n → ∞. N
Pour toute composante Nj du vecteur al´eatoire (N1 , N2 , ..., Nc ), sous H0 , nj tend presque sˆ urement vers p0j quand n → ∞ par la loi des grands nombres p.s. N −np et, par cons´equent, jnp0j 0j −→ 0. Pour toute r´ealisation1 (n1 , n2 , ..., nc ) de (N1 , N2 , ..., Nc ) on a donc : nj − np0j −→ 0 quand n → ∞ , pour tout j. np0j n −np
n
Posant hj = jnp0j 0j on peut ´ecrire nj = np0j (1 + hj ) et ln npj0j = ln(1 + hj ). n Pour chaque terme nj ln npj0j dans l’expression de la r´ealisation de la d´eviance (i.e. −2 ln λ), d´eveloppons ce logarithme au voisinage de 1 selon ln(1 + x) = x − 12 x2 + O(x3 ) pour obtenir : nj ln
nj 1 = np0j (1 + hj )(hj − h2j + O(h3j )) np0j 2 1 2 = np0j (hj + hj + O(h3j )) 2 1 (nj − np0j )2 = nj − np0j + + np0j O(h3j ) . 2 np0j
Le terme np0j O(h3j ) qui est n´egligeable devant les deux autres termes est d’ordre : 3 (1 − p0j )3/2 (nj − np0j )3 nj − np0j % = . (np0j ) √ (np0j )3 np0j np0j (1 − p0j ) L’expression entre crochets ´etant √ une r´ealisation d’une variable al´eatoire N (0 ; 1), le terme n´eglig´e est d’ordre 1/ n. La r´ealisation de la d´eviance est donc : c
c c (nj − np0j )2 nj 1 2 nj ln =2 (nj − np0j ) + + O( √ ). np np n 0j 0j j=1 j=1 j=1
c Comme ealisation de la d´eviance est j=1 (nj − np0j ) = 0 on voit que la r´ ´equivalente a` la r´ealisation q de la statistique du khi-deux quand n → ∞. Ceci 1 Plus formellement, se r´ ef´ erant ` a la convergence presque sˆ ure, on devrait dire «pour presque toute r´ealisation».
Statistique − La th´eorie et ses applications
256
a pour cons´equence que les statistiques du rapport de vraisemblance2 et du khi-deux ont la mˆ eme loi asymptotique sous H0 . Elles conduisent `a des r´egions de rejet identiques et, donc, `a des tests ´equivalents. Note 10.2 Il est important de remarquer que le seul point crucial de la d´emonstration de l’´equivalence asymptotique des deux statistiques est que (nj − np0j )/np0j tende vers 0 quand n → ∞ ou, de mˆeme, que (ni /n)/p0j tende vers 1. Ainsi on pourrait avoir en lieu et place de p0j une estimation convergente de cette valeur. Dans les sections suivantes on aura `a effectuer de telles estimations et on admettra alors que les deux statistiques conservent la mˆeme loi asymptotique. En pratique on pr´ef`ere utiliser le test du khi-deux qui met en ´evidence les ´ecarts entre les fr´equences observ´ees et les fr´equences attendues. D’autant plus que la statistique du khi-deux converge plus vite que celle du RV et donne donc une meilleure approximation (voir Agresti, 2002). On consid`ere g´en´eralement, comme conditions de validit´e de l’approximation asymptotique, que les fr´ equences attendues np0j doivent rester sup´ erieures ` a 5. Lorsque ces conditions ne sont pas remplies on s’arrange pour regrouper certaines cat´egories proches. Nous ne nous int´eresserons pas `a la puissance de ce test qui est un probl`eme complexe vu la multiplicit´e de formes que peut revˆetir l’hypoth`ese alternative. Ceci sera vrai a fortiori pour les tests introduits dans les sections suivantes.
10.1.4
Cas particulier de la loi binomiale
Appliquons la formule du khi-deux avec c = 2, p01 = p0 , p02 = 1 − p0 et n2 = n − n1 . On a : (n1 − np0 )2 (n − n1 − n(1 − p0 ))2 + np0 n(1 − p0 ) (n1 − np0 )2 (n1 − np0 )2 + = np0 n(1 − p0 ) ( p − p0 )2 (n1 − np0 )2 = = p0 (1 − p0 ) np0 (1 − np0 ) n
q=
en posant p = n1 /n pour la fr´equence relative de succ`es observ´ee. Remarquons maintenant que si Z est une v.a. de loi N (0 ; 1) alors, avec les notations usuelles pour les quantiles de cette loi : P (−z1−α/2 < Z < z1−α/2 ) = P (Z 2 < (z1−α/2 )2 ) = 1 − α. 2 Plus
exactement la statistique de la d´eviance.
Chapitre 10. Tests non param´etriques
257
Comme Z 2 suit une loi χ2 (1) on a, pour les quantiles, l’´egalit´e (z1−α/2 )2 = 2 (1) 2 (1) χ1−α . Ainsi la r´egion d’acceptation q < χ1−α du test du khi-deux est identique `a : p − p0 < z1−α/2 −z1−α/2 < ) p0 (1 − p0 ) n qui est celle du test classique par approximation gaussienne pour une proportion propos´e en section 9.7.5 pour le test bilat´eral H0 : p = p0 vs. H1 : p = p0 .
10.2
Test de comparaison de plusieurs lois multinomiales
Ce test est une double g´en´eralisation du test de comparaison de deux lois de Bernoulli vu en section 9.7.6, consid´erant a` la fois plusieurs cat´egories et plusieurs lois. Soit J lois multinomiales ayant les mˆemes cat´egories, en nombre I, et soit pij la probabilit´e d’ˆetre dans la cat´egorie i pour la loi j. L’hypoth`ese nulle `a tester est que les probabilit´es associ´ees aux I cat´egories sont identiques pour toutes les J lois, soit : H0 : pi1 = pi2 = · · · = piJ
,
i = 1, . . . , I ,
l’hypoth`ese alternative ´etant que pour au moins une cat´egorie (en fait il y en aura au moins deux puisque le total doit rester ´egal `a 1) ces probabilit´es diff`erent pour au moins deux lois. Si l’on se r´ef`ere `a la comparaison de populations ce test est un test d’homog´ en´ eit´ e des populations au sens o` u H0 signifie que la variable cat´egorielle ´etudi´ee se distribue de fa¸con identique dans ces populations (voir les exercices appliqu´es pour illustration). Dans ce probl`eme on est en pr´esence de (I − 1)J param`etres inconnus dont seulement (I − 1)(J − 1) sont sp´ecifi´es par H0 . En effet, pour la cat´egorie i par exemple, on peut ´ecrire, en prenant la J-`eme loi pour r´ef´erence, pi1 = piJ + θ1 , pi2 = piJ + θ2 , . . . , pi,J−1 = piJ + θJ−1 . Pour cette cat´egorie, H0 ´equivaut donc `a θ1 = θ2 = . . . = θJ−1 = 0. Comme il suffit que ce type d’´egalit´e soit v´erifi´e pour I − 1 cat´egories, l’´egalit´e ´etant n´ecessairement v´erifi´ee pour la cat´egorie restante, on a bien (I − 1)(J − 1) param`etres sp´ecifi´es par H0 . On consid`ere J ´echantillons mutuellement ind´ependants de tailles nj o` u j = 1, 2, . . . , J, issus respectivement des J lois. Soit Nij la fr´equence de la cat´egorie i pour la loi multinomiale j, N i.J le total des fr´equences pour la cat´egorie i sur l’ensemble des lois et n = j=1 nj l’effectif englobant tous les J ´echantillons. On pourrait d´evelopper ais´ement le test du rapport de vraisemblance. Par application du th´eor`eme 9.2, la statistique du RVG suit asymptotiquement, sous H0 , une loi du khi-deux a` (I −1)(J −1) degr´es de libert´e. Comme
Statistique − La th´eorie et ses applications
258
pr´ec´edemment nous pr´ef´erons utiliser la statistique Q de Pearson. Toutefois, ici, les pij ne sont pas totalement sp´ecifi´es sous H0 et il faut les estimer pour calculer les fr´equences attendues. En recourant aux estimateurs du maximum de vraisemblance qui sont convergents, les deux tests restent asymptotiquement ´equivalents (voir note 10.2). La loi asymptotique de Q sera donc la loi du khi-deux a` (I − 1)(J − 1) degr´es de libert´e. Sous H0 notons pi la probabilit´e de la cat´egorie i, commune `a toutes les lois (soit pi = pi1 = pi2 = · · · = piJ ) et d´eterminons les estimateurs du MV des pi . Pour un ´echantillon, disons l’´echantillon j, la vraisemblance est, comme vu au d´ebut de la section 10.1.1, nj ! n n nI−1,j p 1j p 2j · · · pI−1 (1 − p1 − · · · − pI−1 )nIj n1j !n2j ! · · · nIj ! 1 2
si
J
i=1 nij
= nj .
Pour l’ensemble des J ´echantillons la vraisemblance globale est le produit des vraisemblances de chaque ´echantillon puisque ceux-ci sont ind´ependants, soit : J $
nj ! n n nI−1,j p1 1j p2 2j · · · pI−1 (1 − p1 − · · · − pI−1 )nIj n !n ! · · · n ! 1j 2j Ij j=1 ⎞ ⎛ J $ n ! j ⎠ pn1 1. pn2 2. · · · pnI−1,. (1 − p1 − · · · − pI−1 )nI. , =⎝ I−1 n !n ! · · · n ! 1j 2j Ij j=1 o` u ni. est le total observ´e pour la cat´egorie i sur toutes les lois. On est ramen´e au mˆeme probl`eme de maximisation qu’en section 10.1.1, les ni. se substituant aux ni . Le maximum est donc atteint pour pi = ni. /n . L’estimateur du maximum de vraisemblance de pi est donc l’estimateur naturel Ni. /n ´egal `a la fr´equence relative de la cat´egorie i obtenue en fusionnant les J ´echantillons. Pour la cat´egorie i de la loi j la fr´equence attendue sous H0 est donc estim´ee par nj Ni. /n . La statistique de test est alors :
Q=
Ni. nj 2 ) n Ni. nj n
I (Nij − J j=1 i=1
dont la loi peut ˆetre approch´ee par la loi χ2 ((I − 1)(J − 1)). Pour la mise en oeuvre de ce test par la statistique du khi-deux consid´erons les notations pour les fr´equences observ´ees comme indiqu´e dans le tableau suivant :
Chapitre 10. Tests non param´etriques
Cat´egorie 1 .. .
loi 1 n11 .. .
··· ··· .. .
loi j n1j .. .
··· ··· .. .
loi J n1J .. .
n1. .. .
i .. .
ni1 .. .
··· .. .
nij .. .
··· .. .
niJ .. .
ni. .. .
I
nI1 n.1
··· ···
nIj n.j
··· ···
nIJ n.J
nI. n
259
Dans ce tableau les nj sont not´es n.j pour donner un rˆ ole sym´etrique aux deux marges. La fr´equence attendue pour la case (i, j) est obtenue en effectuant le produit des marges ni. et n.j divis´e par n . On rejettera donc H0 au niveau α si : ni. n.j 2 J I (nij − ) 2 ((I−1)(J−1)) n > χ 1−α . q= ni. n.j j=1 i=1 n Pour un tableau 2 × 2 la condition de validit´e reste que les fr´equences attendues soient sup´erieures `a 5. Pour un tableau de dimensions sup´erieures de nombreuses simulations ont montr´e que l’approximation ´etait ´etonnamment bonne mˆeme avec des effectifs plus faibles. On montre ais´ement (voir exercices) que, dans le cas I = 2 et J = 2, on retombe sur le test par approximations gaussiennes de la section 9.7.6.
10.3
Test d’ind´ ependance de deux variables cat´ egorielles
10.3.1
Test du RVG et test du khi-deux
On consid`ere un couple de variables cat´egorielles, l’une `a I cat´egories, l’autre a` J cat´egories, observables sur toute unit´e statistique s´electionn´ee (ou, pour un sondage, sur chaque individu d’une population). Le croisement de ces deux variables donne lieu a` une variable cat´egorielle `a I × J cat´egories avec I ×J −1 param`etres libres. A la cat´egorie obtenue par croisement des cat´egories i et j respectives de chaque variable est associ´ee la probabilit´e pij . On a donc I J eresse `a l’hypoth`ese d’ind´ependance de ces deux i=1 j=1 pij = 1. On s’int´ variables. Comme pour les variables al´eatoires (voir d´efinition 3.4) on d´efinit que deux variables cat´egorielles sont ind´ependantes par le fait que, pour tout ´ev´enement sur l’une et tout ´ev´enement sur l’autre, la probabilit´e de leur intersection (ou conjonction) est ´egale au produit des probabilit´es de chaque ´ev´enement. Un ´ev´enement ´etant un sous-ensemble de cat´egories et les cat´egories ´etant en nombre
Statistique − La th´eorie et ses applications
260
fini on peut voir ais´ement (voir exercices) qu’il faut et qu’il suffit qu’il y ait ind´ependance entre tous les couples ´el´ementaires (i, j) de cat´egories pour assurer l’ind´ependance compl`ete. Ainsi l’hypoth`ese nulle `a tester est : H0 : pij = pi. p.j
pour i = 1, · · · , I
et
j = 1, · · · , J ,
o` u pi. est la probabilit´e marginale pour la cat´egorie i de la premi`ere variable et p.j pour la cat´egorie j de la deuxi`eme variable. L’hypoth`ese alternative est la n´egation de H0 ` a savoir qu’il y ait au moins un couple (i, j) pour lequel pij = pi. p.j . Pour un ´echantillon al´eatoire de taille n on observe les fr´equences au croisement des deux variables et l’on note Nij la fr´equence au croisement (i, j). Une r´ealisation de l’´echantillon peut ˆetre repr´esent´ee par le tableau de contingence suivant : PP PP Var.2 1 Var.1 PPP P 1 n11 .. .. . . i ni1 .. .. . . I
nI1 n.1
···
j
···
J
··· .. .
n1j .. .
··· .. .
n1J .. .
n1. .. .
··· .. .
nij .. .
··· .. .
niJ .. .
ni. .. .
··· ···
nIj n.j
··· ···
nIJ n.J
nI. n
Prenons l’approche par le test du rapport de vraisemblance. Consid´erant la variable cat´egorielle `a I × J cat´egories obtenue par le croisement on a pour fonction de vraisemblance du tableau des nij (voir section 10.1) : n! $ nij * p nij ! i,j ij
pour
i,j
nij = n
et 0 sinon,
i,j
*
, les produits de I × J termes avec i = 1, · · · , I et o` u i,j d´enote, en abr´eg´e j = 1, · · · , J (et de mˆeme i,j pour les sommes). Comme il a ´et´e d´emontr´e en section 10.1.1 les estimations du maximum de vraisemblance sont pij = nij /n . Sous H0 la vraisemblance est : n! $ nij $ nij n! $ * (pi. p.j )nij = * pi. p.j nij ! i,j nij ! i,j i,j i,j
i,j
n! $ ni. $ n.j =* pi. p.j . nij ! i i i,j
Chapitre 10. Tests non param´etriques
261
La maximisation s’op`ere s´epar´ement sur chaque variable et revient pour chacune au probl`eme d’une multinomiale d’o` u pi. = ni. /n et p.j = n.j /n . Le RVG est donc : * * ni. n.j i ni. j n.j * λ= . n nn nijij i,j
Asymptotiquement la statistique −2 ln λ (obtenue en rempla¸cant les r´ealisations nij par les v.a. Nij dans l’expression ci-dessus) suit une loi du khi-deux avec un nombre de degr´es de libert´e ´egal au nombre de param`etres sp´ecifi´es. On pourrait trouver ce nombre en utilisant une reparam´etrisation comme nous l’avons fait en section 10.2, mais il est plus simple de constater que sous H0 il reste I − 1 param`etres inconnus pour la premi`ere variable et J − 1 pour la deuxi`eme. Comme il y a globalement IJ − 1 param`etres inconnus cela signifie que H0 sp´ecifie implicitement IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1) param`etres. Donc la statistique −2 ln λ suit, sous H0 , une loi χ2 ((I − 1)(J − 1)) et l’on re2 ((I−1)(J−1)) jettera H0 au niveau α si la r´ealisation −2 ln λ est sup´erieure a` χ1−α .
De pr´ef´erence, on utilisera la statistique Q de Pearson obtenue en estimant les fr´equences attendues sous H0 par le maximum de vraisemblance, soit : n pi. p.j = n
Ni. N.j Ni. N.j = , n n n
d’o` u : Q=
Ni. N.j 2 ) n . Ni. N.j n
J I (Nij − j=1 i=1
Cette statistique est asymptotiquement de mˆeme loi que celle issue du RVG (voir note 10.2) sous H0 . Cette hypoth`ese sera donc rejet´ee au niveau α si la 2 ((I−1)(J−1)) r´ealisation q de Q est telle que q > χ1−α . Ceci conduit a` un test dont la mise en oeuvre est en tous points identique ` a celui propos´ e pour la comparaison de lois multinomiales. Il convient toutefois d’insister sur la diff´erence entre les deux situations. Dans le test d’ind´ependance seule est fix´ee la taille globale de l’´echantillon n, les fr´equences marginales ´etant al´eatoires. Dans la situation pr´ec´edente une des marges (celle du bas du tableau) est fix´ee dans le plan d’´echantillonnage par les effectifs choisis pour les diff´erentes populations. Notons aussi que le tableau des fr´equences attendues (les ni. n.j /n) est un tableau dont toutes les lignes (respectivement toutes les colonnes) sont proportionnelles, ce qui correspond bien a` l’id´ee d’ind´ependance intuitive sur un tableau empirique.
Statistique − La th´eorie et ses applications
262
10.3.2
Test exact de Fisher (tableau 2 × 2)
On consid`ere le cas I = 2 et J = 2 avec le tableau des r´ealisations suivant : PP PP Var.2 1 Var.1 PPP P 1 n11 2 n21 n.1
2 n12 n22 n.2
n1. n2. n
On peut montrer que la loi conditionnelle conjointe de (N11 , N12, N21, N22 ) sachant les fr´equences marginales N1. , N2. , N.1 , N.2 est ind´ependante des pij sous H0 . En d’autres termes les fr´equences marginales sont des statistiques exhaustives pour les param`etres (p1. , p2. , p.1 , p.2 ) en cas d’ind´ependance (voir d´efinition 6.8). Plus pr´ecis´ement, en raison des contraintes, (N1. , N.1 ) est statistique exhaustive si l’on prend comme seuls param`etres inconnus (p1. , p.1 ). La d´emonstration est simple car, les marges ´etant fix´ees `a n1. , n2. , n.1 , n.2 , il suffit de consid´erer la probabilit´e P (N11 = n11 |n1. , n2. , n.1 , n.2 ) puisque les v.a. N12, N21, N22 sont li´ees `a N11 respectivement par n1. − N11 , n.1 − N11 et n2. − n1. + N11 . On a alors une d´emonstration analogue `a celle expos´ee en section 9.7.6 (voir exercices). On obtient : P (N11 = n11 |n1. , n2. , n.1 , n.2 ) =
n.2 n.1 n11 n 12 n n1.
qui montre que, conditionnellement aux marges, N11 suit une loi hyperg´eom´etrique H(n, n1., n.1 ). Le test propos´e par Fisher consiste `a prendre une r´egion critique de niveau α choisi, sur cette loi conditionnelle. On peut ´etablir (voir note 10.3 cidessous) que ceci est l´egitime, donnant bien un test de niveau α dans l’absolu. Cela conduit `a une r`egle de d´ecision totalement identique a` celle utilis´ee en section 9.7.6 pour tester de fa¸con exacte l’´egalit´e de deux proportions (ou, plus g´en´eralement, des param`etres de deux lois de Bernoulli). Pour cette hypoth`esel`a il suffisait toutefois de conditionner sur une seule marge, l’autre ´etant fix´ee par le plan d’´echantillonnage. On d´efinit donc une r´egion de rejet sur la base, par exemple, de la valeur n11 observ´ee, selon : n11 ∈ / [cα1 , cα2 ] o` u cα1 et cα2 sont les quantiles d’ordres α1 et α2 tels que α1 + α2 = α, issus de la loi H(n, n1., n.1 ). Ce test est UPP-sans biais.
Chapitre 10. Tests non param´etriques
263
La plupart des logiciels se chargent d’effectuer les calculs fastidieux et fournissent la P-valeur relative au tableau observ´e. On pourrait ´etendre ce test exact `a un tableau de plus grande dimension. Outre que les calculs se complexifient rapidement ceci n’est pas utile du fait que l’approximation du test du khi-deux devient tr`es vite satisfaisante avec des conditions de validit´e identiques a` celles de la section pr´ec´edente, `a savoir que les fr´equences attendues restent pour la plupart sup´erieures ou ´egales `a 5. Note 10.3 Montrons que, d’une fa¸con g´en´erale, un test de niveau α conditionnellement ` a une statistique exhaustive sous H0 est un test de niveau α dans l’absolu. Soit dans la famille {f (x; θ), θ ∈ Θ} l’hypoth`ese nulle H0 : θ ∈ Θ0 et T une statistique exhaustive sous H0 . Soit, pour un ´echantillon (X1 , X2 , · · · , Xn ), un test d´efini par une r´egion de rejet A de Rn de niveau α pour la loi conditionnelle f (x1 , x2 , · · · , xn |T = t) qui, par d´efinition pour T, ne d´epend pas de θ sous H0 . Alors, notant en raccourci (x1 , x2 , · · · , xn ) par x et dx1 dx2 · · · dxn par dx, on a pour tout θ ∈ Θ0 , avec des notations ´evidentes (T ´etant de dimension k) :
Pθ (A) =
f (x; θ)dx A f (x| T = t)fT (t; θ)dt dx = A Rk = fT (t; θ) f (x| T = t)dx dt Rk A fT (t; θ)dt = α , =α Rk
ce qui prouve que A d´efinit un test de niveau α de fa¸con non conditionnelle. Dans le cas discret ceci vaut si l’on randomise le test pour atteindre exactement le niveau α. Si l’on utilise un test conservateur conditionnellement il restera toutefois conservateur non conditionnellement.
Exemple 10.1 Une pr´e-enquˆete a ´et´e effectu´ee aupr`es de 50 personnes (suppos´ees s´electionn´ees par sondage al´eatoire simple dans la population cible) pour ´evaluer le taux d’acceptation pour participer a` une ´etude de suivi m´edical. On s’int´eresse au croisement des variables cat´egorielles sexe et r´eponse oui/non pour participer. On a obtenu les r´esultats suivants : XXX particip. XXX XXX oui non sexe X femme 9 20 29 homme 5 16 21 14 36 50 Choisissant de fonder le test sur la fr´equence du croisement (femme, oui) on doit lire les probabilit´es sur une loi H(50, 29, 14). C’est-`a-dire qu’on examine la
264
Statistique − La th´eorie et ses applications
v.a. X «nombre de femmes parmi les 14 oui» sachant qu’il y a globalement 29 femmes parmi les 50 personnes, sous l’hypoth`ese d’ind´ependance entre sexe et participation ou non. On doit rejeter cette hypoth`ese si le nombre de femmes r´epondant oui est soit trop ´elev´e, soit trop faible, par rapport a` la fr´equence eom´etrique les sauts attendue qui est ´egale `a 14 29 50 = 8,12 . Pour cette loi hyperg´ de probabilit´e sont assez ´el´ev´es. On a, par exemple, une r´egion de rejet de niveau 0,024 avec {0, 1, 2, 3, 4, 12, 13, 14} pour les valeurs de X et de niveau 0,11 avec {0, 1, 2, 3, 4, 5, 11, 12, 13, 14}. On a donc avantage a` consid´erer la P-valeur. Avec la fonction « loi hyperg´eom´etrique » dans un tableur on trouve que P (X ≥ 9) = 0,41. La P-valeur est donc ´egale `a 0,82 ce qui rend l’hypoth`ese d’ind´ependance tout a` fait acceptable. Notons qu’on aurait pu aussi bien prendre la loi H(50, 14, 29), consid´erant le nombre de oui parmi les 29 femmes sachant qu’il y a globalement 14 oui parmi les 50 personnes, ce qui est rigoureusement ´equivalent. Voyons ce que donne l’approche approximative par la statistique de Pearson. Le tableau des fr´equences attendues est 8,12 5,88 d’o` u: q = (0,88)2 (
20,88 15,12
1 1 1 1 + + + ) = 0,315 8,12 20,88 5,88 15,12
qui correspond au quantile d’ordre 0,43 sur une loi χ2 (1). La P-valeur est donc ici donn´ee `a 0,57 ce qui est sensiblement diff´erent de la valeur exacte de 0,82 mais conduit `a la mˆeme d´ecision d’acceptation de l’ind´ependance. Sur cet exemple, de la fa¸con dont les choses sont pr´esent´ees, on a le sentiment que l’on compare deux proportions : celle des femmes et celle des hommes acceptant de participer `a l’´etude. N´eanmoins il ne s’agit pas d’un test d’´egalit´e entre ces deux proportions car un tel test supposerait que l’on ait fix´e a priori la taille des ´echantillons de chaque sexe (par un plan de sondage stratifi´e selon le sexe), alors que dans notre exemple les effectifs des hommes et des femmes r´esultent du tirage au hasard. La diff´erence m´erite d’ˆetre pr´ecis´ee mˆeme si elle n’a pas d’incidence sur la r`egle de d´ecision. Elle n’est toutefois pas neutre pour le calcul de la puissance. Pour approfondir la th´eorie et la pratique des donn´ees cat´egorielles on pourra consulter les ouvrages suivants : Agresti (2002), Chap (1998), Droesbeke, Lejeune et Saporta (2004).
10.4
Test d’ajustement ` a un mod` ele de loi
Le probl`eme envisag´e ici est de d´ecider, au vu d’un ´echantillon X1 , X2 , . . . , Xn , si la loi m`ere de cet ´echantillon est du type sp´ecifi´e par une hypoth`ese
Chapitre 10. Tests non param´etriques
265
H0 . Un test aura pour but d’examiner si la distribution des valeurs de l’´echantillon s’ajuste suffisamment bien `a une distribution th´eorique donn´ee. On parle ´egalement de test d’ad´ equation (en anglais : goodness-of-fit test). A d´efaut de pouvoir rejeter H0 on acceptera le mod`ele th´eorique propos´e. Les d´eveloppements pr´ec´edents relatifs `a des comparaisons de fr´equences observ´ees et de fr´equences attendues ou «th´eoriques» vont nous fournir un test de port´ee tr`es g´en´erale. Outre ce test fond´e sur une statistique du khi-deux il existe bien d’autres tests d’ajustement d’inspirations diverses et nous ´etudierons en particulier le test de Kolmogorov-Smirnov de port´ee ´egalement g´en´erale et, par l`a-mˆeme, tr`es r´epandu. Nous distinguons deux situations pour l’hypoth`ese nulle. En premier nous ´etudions le cas plus simple o` u la loi est parfaitement sp´ecifi´ee par H0 , puis nous passerons au cas o` u H0 sp´ecifie une famille param´etrique particuli`ere sans pr´eciser la valeur du param`etre qui reste inconnu.
10.4.1
Ajustement a ` une loi parfaitement sp´ ecifi´ ee
Nous nous pla¸cons dans une optique non param´ etrique au sens o` u les tests consid´er´es devront s’appliquer quelle que soit la nature du mod`ele de loi m`ere envisag´e. La fonction de r´epartition ´etant l’objet math´ematique le plus appropri´e pour sp´ecifier une loi, qu’elle soit discr`ete ou continue, nous conviendrons d’´ecrire l’hypoth`ese nulle sous la forme H0 : F = F0 o` u F0 caract´erise donc le mod`ele de loi sp´ecifi´e, l’alternative ´etant H1 : F = F0 . Ce genre de situation n’est pas rare, par exemple lorsqu’une th´eorie a ´et´e ´elabor´ee pour un ph´enom`ene quantifiable et qu’il s’agit de la mettre `a l’´epreuve des faits. Test du khi-deux Son principe repose sur la transformation de la variable al´eatoire en une variable cat´egorielle pour se ramener au test sur une loi multinomiale comme en section 10.1. Pour cela on d´ecoupe R (ou sa partie utile) en intervalles pour obtenir des classes comme on le ferait pour un histogramme. A l’instar de ce qui a ´et´e fait en section 8.5.2 ce d´ecoupage se d´efinit comme une suite double de valeurs croissantes {· · · , a−i , · · · , a−1 , a0 , a1 , · · · , ai , · · · } et l’on note nk la fr´equence des observations situ´ees dans l’intervalle ]ak−1 , ak ] pour un u pk est la ´echantillon de taille n. La fr´equence attendue sous H0 est npk o` probabilit´e pour la loi F0 associ´ee `a l’intervalle ]ak−1 , ak ], i.e. pk = F0 (ak ) − F0 (ak−1 ). Pour ce d´ecoupage il faut toutefois veiller a` remplir les conditions de validit´e de l’approximation asymptotique, a` savoir faire en sorte que les npk restent sup´erieurs ou ´egaux ` a 5. Cela am`enera `a reconsid´erer ´eventuellement
266
Statistique − La th´eorie et ses applications
le d´ecoupage initial et a` regrouper des classes contigu¨es `a faible probabilit´e. Pour une extr´emit´e infinie on constituera un dernier intervalle ouvert sur l’infini de probabilit´e sup´erieure `a 5/n. Notons que dans le cas d’une loi discr`ete concentr´ee sur un faible nombre de valeurs, chaque valeur (sauf peut-ˆetre sur les extr´emit´es) peut constituer naturellement une classe en soi. Par ailleurs le choix du nombre de classes, voire mˆeme des fronti`eres de ces classes, influe sur la puissance. Mais il est difficile d’orienter ce choix et l’on recommande, pour la pratique, de rester proche de classes a` probabilit´es ´egales. Remarquons que le passage d’une variable al´eatoire (au sens strict, c’est`-dire quantitative) a` une variable cat´egorielle induit une perte d’information. a En effet dans une variable cat´egorielle il n’y a pas d’ordre des cat´egories et la statistique du khi-deux est indiff´erente `a une permutation de celles-ci. Ainsi l’´echelle num´erique de la variable al´eatoire est ignor´ee ce qui laisse supposer une perte de puissance. Test de Kolmogorov-Smirnov Ce test tient compte de l’´echelle des observations mais ne s’applique en principe qu’aux lois continues. Il est fond´e sur l’´ecart constat´e entre la fonction de r´epartition empirique Fn et F0 . Nous avons vu en section 8.5.3 diverses propri´et´es de la fonction de r´epartition empirique comme estimateur de la fonction de r´epartition de la loi m`ere : elle est l’estimateur fonctionnel du maximum de vraisemblance et est convergente presque sˆ urement uniform´ement (voir th´eor`eme 8.1). De plus, Fn (x) est sans biais en tout x fix´e. On s’attend donc, si H0 est vraie, a` ce qu’elle reste proche de F0 . En fait le th´eor`eme 8.2 dˆ u `a Kolmogorov et `a Smirnov fournit la statistique de test Dn = sup |Fn (x) − F0 (x)| . x∈R
Son int´erˆet est que, sous H0 , sa loi ne d´epend pas de la nature de F0 ce qui donne lieu a` des tables uniques quel que soit le type de mod`ele `a tester. Rappelons, suite au th´eor`eme 8.2, que pour n ≥ 40 et x > 0,8 on peut utiliser : √ 2 P ( nDn < x) 1 − 2e−2x , √ ) 0,95. Comme on rejette nace qui conduit, par exemple, `a P (Dn < 1,36 n turellement H0 si Dn est trop grand, on a comme r´egion de rejet au niveau √ o` u dn est la r´ealisation observ´ee de Dn . 0,05 : dn > 1,36 n
D’un point de vue pratique il faut tenir compte du fait que Fn est constante par morceaux. S’il est clair qu’en raison de la croissance de F0 l’´ecart absolu maximal doit se situer en un point de discontinuit´e de Fn (donc en une valeur observ´ee xi ) il y a toutefois lieu de comparer, pour tout i = 1, . . . , n, la valeur ee de F0 (xi ) `a la fois `a Fn (xi ) et `a Fn (x− i ) = Fn (xi−1 ). Une illustration est donn´ en figure 10.1.
Chapitre 10. Tests non param´etriques
267
1 F0(x) 0,8
dn
0,6 0,4 0,2 Fn(x)
x
0 0
5
10
15
Figure 10.1 - Illustration du test de Kolmogorov-Smirnov.
On peut appliquer le test a` des observations regroup´ees en classes. Dans ce cas il ne faut comparer que les valeurs aux fronti`eres des classes : si ak est une valeur fronti`ere on comparera uniquement Fn (ak ) et F0 (ak ). En effet les valeurs ne sont comptabilis´ees que sur ces fronti`eres et on ignore l’allure de Fn `a l’int´erieur des classes. Il se trouve qu’ainsi le test est conservateur (i.e. le niveau r´eel reste inf´erieur au niveau nominal de la table). De nombreuses ´etudes ont ´et´e effectu´ees pour comparer les puissances du test de Kolmogorov-Smirnov et du test du khi-deux. Bien qu’on ne puisse tirer de conclusions g´en´erales il est vrai que le plus souvent le test du khi-deux est moins puissant. Ceci s’explique notamment par le fait que, contrairement au test de Kolmogorov-Smirnov, il ne tient pas compte de l’´echelle des valeurs. Il est par ailleurs int´eressant de noter que si les deux tests sont convergents, ils ne sont pas sans biais vis-` a-vis de toutes les fonctions de r´epartitions autres que F0 tant leur multiplicit´e est grande.
10.4.2
Ajustement dans une famille param´ etrique donn´ ee
On suppose maintenant, comme c’est le plus souvent le cas en pratique, que H0 sp´ecifie une famille de loi param´etrique sans pr´ecision sur le param`etre de la loi qui reste inconnu, ce que nous pouvons ´ecrire : H0 : F ∈ {f (x; θ), θ ∈ Θ}
268
Statistique − La th´eorie et ses applications
o` u seul θ est inconnu. Par exemple on souhaite tester que la loi m`ere est gaussienne (ou, plus exactement, que le mod`ele gaussien est acceptable au vu des observations dont on dispose). Pour pouvoir ´elaborer une statistique mesurant d’une certaine fa¸con, que ce soit par la statistique du khi-deux ou par celle de Kolmogorov-Smirnov, l’´ecart entre ce que l’on a observ´e et une r´ef´erence th´eorique sous H0 , il est n´ecessaire de passer par une estimation du param`etre inconnu θ. Test du khi-deux Pour la statistique du khi-deux le th´eor`eme ci-apr`es dont la d´emonstration a ´et´e effectu´ee par Cramer (1946) permet de prendre en compte cette estimation de θ. Donnons tout d’abord le cadre g´en´eral d’application du th´eor`eme. On consid`ere une loi multinomiale a` c cat´egories dont les probabilit´es d´ ependent d’un param` etre inconnu θ ∈ Θ de dimension r < c − 1 et sont not´ees pj (θ), j = 1, · · · , c. Pour un n-´echantillon al´eatoire et les fr´equences observ´ees n1 , n2 , ..., nc , les estimations du MV de ces probabilit´es se d´eduisent, en tant que fonctions de θ, de l’estimation du maximum de vraisemblance θ de θ (voir note 6.4). Celui-ci est obtenu en maximisant la fonction de vraisemblance L(θ) = avec la contrainte
c
n! [p1 (θ)]n1 [p2 (θ)]n2 · · · [pc (θ)]nc n1 !n2 ! · · · nc !
pj (θ) = 1. On en d´eduit alors les estimations du maxi p2 (θ), · · · , pc (θ). Dans l’´enonc´e du th´eor`eme nous mum de vraisemblance p1 (θ), utilisons, pour all´eger, ces mˆemes notations pour les estimateurs, les ni devant ˆetre remplac´es par les Nj . j=1
Th´ eor` eme 10.1 Soit une loi multinomiale a ` c cat´egories de probabilit´es u θ est un param`etre inconnu de dimension r < c−1 et p1 (θ), p2 (θ), · · · , pc (θ), o` soit θ l’estimateur du maximum de vraisemblance de θ pour les v.a. N1 , N2 , ..., Nc . Alors (sous certaines conditions de r´egularit´e) on a : Q=
c 2 (Nj − npj (θ)) ; χ2 (c − r − 1). npj (θ) j=1
En fait, nous avons d´ej`a rencontr´e une telle situation dans le test d’ind´ependance en section 10.3. En effet sous l’hypoth`ese d’ind´ependance H0 les pij de la variable cat´egorielle crois´ee `a I × J cat´egories s’exprimaient selon pij = pi. p.j et ´etaient donc des fonctions de (I − 1) + (J − 1) param`etres correspondant aux probabilit´es marginales pi. , i = 1, · · · , I − 1 et p.j , j = 1, · · · , J − 1 (pI. et p.J se d´eduisant des pr´ec´edents). On retrouve ici la r`egle des degr´es de libert´es pour Q, `a savoir IJ − (I − 1) − (J − 1) − 1 = (I − 1)(J − 1) ´etablie alors en se rapportant a` l’´equivalence avec la statistique du RVG. On pourrait penser
Chapitre 10. Tests non param´etriques
269
que ce th´eor`eme est superflu, mais il m´erite d’ˆetre pr´esent´e du fait qu’il d´ecoule historiquement d’une approche directe du comportement de la statistique du khi-deux et ceci, c’est `a noter, sans faire r´ef´erence `a un test d’hypoth`ese. Si l’on se replace dans une situation de test on peut au premier abord s’´etonner que le fait de devoir estimer des param`etres diminue les degr´es de libert´es. En effet un quantile d’ordre donn´e diminuant avec les degr´es de libert´e la valeur critique en est abaiss´ee par rapport a` une mˆeme situation o` uθ serait connu. La raison tient au fait que la statistique Q sous-´evalue les ´ecarts aux vraies fr´equences attendues en leur substituant des fr´equences calcul´ees sur l’´echantillon lui-mˆeme et ceci d’autant plus que le nombre de param`etres `a estimer est grand (` a la limite, si θ ´etait de dimension c − 1 on serait simplement en pr´esence d’une reparam´etrisation du vecteur (p1 , p2 , · · · , pc−1 ) et l’on prendrait pj = Nj /n r´eduisant ainsi l’expression de Q `a 0). L’application du th´eor`eme `a l’ajustement dans une famille de lois est imm´ediate. On proc`ede comme en section 10.4.1 en op´erant un d´ecoupage en classes, mais ici les probabilit´es pk associ´ees aux intervalles ]ak−1 , ak ] d´ependent du param`etre θ. Il s’agit alors d’exprimer chaque pk comme une fonction de θ et d’en d´eduire l’estimateur du MV comme indiqu´e ci-dessus. Remarquons bien que cet estimateur n’est pas, h´elas, celui que l’on obtient directement de la fa¸con classique sur la base des observations X1 , X2 , · · · , Xn . Illustrons cela par un exemple. Exemple 10.2 Soit a` tester l’hypoth`ese que les observations proviennent d’une loi de Poisson P(λ). Les observations au-del` a de 3 ´etant rares, supposons que l’on effectue un d´ecoupage en 4 classes : {0}, {1}, {2} et {3 et plus}. Les probabilit´es associ´ees `a ces classes sont, respectivement : e−λ , e−λ λ , e−λ
λ2 λ2 et 1 − (e−λ + e−λ λ + e−λ ) . 2 2
Soit ni , i = 1, · · · , 4, les fr´equences observ´ees dans les 4 classes. L’estimation λ du MV appropri´e est obtenue en maximisant la fonction de vraisemblance de λ suivante : L(λ) =
n! λ2 λ2 [e−λ ]n1 [e−λ λ]n2 [e−λ ]n3 [1 − (e−λ + e−λ λ + e−λ )]n4 . n1 !n2 ! · · · nc ! 2 2
Cette fonction de λ n’est pas simple et il faut recourir a` un algorithme d’optimisation num´erique. Il est clair que la solution est diff´erente de celle de l’estimateur du MV classique fond´e sur les observations brutes x1 , x2 , · · · , xn et ´egal `a la moyenne x des observations. Prenons les 100 observations suivantes : valeurs fr´equences
0 38
1 40
2 12
3 7
4 2
5 1
Le maximum de L(λ) obtenu par un logiciel math´ematique est 9,68 alors que la moyenne des observations est 9,8.
270
Statistique − La th´eorie et ses applications
Notons que si n4 est petit ces valeurs sont proches car les fonctions a` maximiser sont similaires. En effet pour L(λ) il faut maximiser e−λ(n1 +n2 +n3 ) λn2 +2n3 [1 − (e−λ + e−λ λ + e−λ
λ2 n4 )] 2
alors que la fonction de vraisemblance classique est proportionnelle a` : n $
n
e−λ λ
i=1
xi
= e−λ(n1 +n2 +n3 +n4 +n5 ··· ) λn2 +2n3 +3n4 +4n5 +···
i=1
o` u n4 , n5 , etc. sont les fr´equences observ´ees des valeurs 3, 4, etc.
Cet exemple simple illustre le fait que l’estimation appropri´ee du maximum de vraisemblance est g´en´eralement difficile. Pour tester que la loi m`ere est gaussienne le probl`eme est encore plus complexe. La probabilit´e pk associ´ee `a a −μ ), o` u Φ est la fonction de l’intervalle ]ak−1 , ak ] est ´egale `a Φ( akσ−μ ) − Φ( k−1 σ r´epartition de la loi de Gauss centr´ee-r´eduite, ce qui complique fortement la fonction de vraisemblance L(μ, σ 2 ). En pratique on utilise l’estimation classique du param`etre qui est d’autant plus proche de l’estimation appropri´ee que le d´ecoupage en classes est fin (mais avec les limitations qui demeurent, a` savoir que les fr´equences attendues ne descendent pas en dessous de 5). Chernoff et Lehmann (1954) ont montr´e que, dans ce cas, la statistique Q ne suit pas une loi du khi-deux mais une loi encadr´ee par les lois χ2 (c − r − 1) et χ2 (c − 1). On se rapproche donc du cas o` u les fr´equences attendues sont parfaitement connues du fait que l’estimateur usuel du MV est plus efficace. En gardant c − r − 1 degr´es de libert´e, comme le font les praticiens et la plupart des logiciels, on effectue un test anti-conservateur (i.e. de niveau r´eel sup´erieur au niveau nominal) puisque le quantile est inf´erieur `a ce qu’il devrait ˆetre. Une proc´edure assur´ement conservatrice, mais souvent trop, consisterait `a prendre le quantile sur la loi χ2 (c − 1). Si le nombre de classes c est assez ´elev´e, la diff´erence entre les quantiles sera peu sensible, sachant que presque toutes les familles param´etriques courantes ont un param`etre `a une ou deux dimensions (r ≤ 2). Test de Kolmogorov-Smirnov En pratique on adapte le test vu en section 10.4.1 en calculant la statistique : ' n = sup |Fn (x) − F (x; θ)| D x∈R
o` u F (x; θ) est la fonction de r´epartition pour la famille param´etrique consid´er´ee et θ est l’estimateur usuel du maximum de vraisemblance. Mais alors la loi de ' n sous H0 n’est plus ind´ependante de la vraie loi et il faut ´etudier chaque D cas de famille s´epar´ement. Fort heureusement le fait d’utiliser la valeur critique
Chapitre 10. Tests non param´etriques
271
propre a` la statistique Dn de la section 10.4.1 conduit a` un test conservateur. Ceci d´ecoule de raisons semblables `a celles invoqu´ees pour la statistique du khi' n tend ` a sous-estimer l’´ecart-r´eel et devrait ˆetre rejet´ee `a deux, a` savoir que D des valeurs critiques inf´erieures. Remarques diverses 1. Il existe des tests sp´ecifiques `a chaque famille qui, de ce fait, sont en principe plus puissants que les tests g´en´eraux pr´ec´edents. Citons en particulier le test de normalit´e de Shapiro-Wilk (1965) fond´e sur la corr´elation entre les statistiques d’ordre et leurs esp´erances math´ematiques sous hypoth`ese gaussienne. 2. Souvent on n’a pas d’id´ee pr´econ¸cue de mod`ele et l’on recherche, parmi les mod`eles courants, celui qui est le plus proche des observations. L’avantage d’une proc´edure g´en´erale telle que celles pr´esent´ees ci-dessus est qu’elle fournit le mˆeme crit`ere pour comparer plusieurs mod`eles, les statistiques Dn ou Q tenant lieu de distance a` minimiser. Paradoxalement, on ne souhaite pas avoir un test trop puissant, car on se contente de s’assurer que le mod`ele le plus proche est accept´e par le test d’ad´equation. 3. Il existe aussi des m´ethodes graphiques telle que la droite de Henri pour l’hypoth`ese gaussienne et sa version g´en´erale non-param´etrique du QQ-plot qui est le graphe de la variation des quantiles empiriques en fonction des quantiles th´eoriques sous H0 . Ces m´ethodes ont l’avantage de mettre en ´evidence les zones de forte d´eviation par rapport au mod`ele supput´e et donc d’orienter, le cas ´ech´eant, la recherche d’un meilleur mod`ele. L’inconv´enient est que le jugement d’acceptabilit´e repose sur une appr´eciation graphique et reste fortement subjectif. 4. Le test du khi-deux s’´etend ais´ement au test d’´egalit´e de deux lois (ou des distributions de deux populations). Il suffit d’utiliser un d´ecoupage en classes et de se ramener ainsi `a la comparaison de deux lois multinomiales expos´ee en section 10.2. Il existe ´egalement une version a` deux ´echantillons du test de Kolmogorov-Smirnov fond´e sur la statistique ∗ = sup |Fn (x) − Fm (x)| Dn,m x∈R
o` u Fn et Fm sont les fonctions de r´epartition empiriques des ´echantillons de tailles respectives n et m. Quand n et m tendent vers l’infini on a : P (( n1 +
1 −1/2 Dn,m m)
2
< x) 1 − 2e−2x
√ qui est la mˆeme probabilit´e que pour nDn < x dans le cas d’un seul ´echantillon. Ceci permet de construire un test approch´e. Il existe ´egalement des tables pour les faibles valeurs de n et m.
272
Statistique − La th´eorie et ses applications
10.5
Tests non param´ etriques sur des caract´ eristiques de lois
10.5.1
Introduction
Il y a une certaine ambigu¨ıt´e en ce qui concerne les tests sur le terme de non param´etrique auquel les anglo-saxons pr´ef`erent parfois celui de «distribution free» pour qualifier les proc´ edures valides quelle que soit la loi m` ere. En particulier la loi F peut alors ˆetre totalement non sp´ecifi´ee ce qui permet de parler de proc´edures non param´etriques. Une autre ambigu¨ıt´e vient du fait que l’on assimile g´en´eralement les tests non param´etriques aux tests fond´es sur les rangs des observations. Il est vrai que les tests de rangs sont, par essence, applicables ind´ependamment de la nature de la loi m`ere et qu’ils offrent de nombreuses possibilit´es, mais il existe d’autres tests de type «distribution free» comme, par exemple, les tests d’ajustement du khi-deux et de KolmogorovSmirnov vus en section 10.4.1 ou certains des tests qui vont suivre. Nous ne pr´esenterons que les tests les plus courants pour illustrer la phi´ losophie g´en´erale de l’approche non param´etrique. Etant donn´e, malgr´e tout, la place importante des rangs dans cette approche, nous donnons tout d’abord quelques propri´et´es les concernant.
10.5.2
Les statistiques de rang
On consid`ere un ´echantillon al´eatoire (X1 , X2 , . . . , Xn ) de loi F. Pour des r´ealisations (x1 , x2 , . . . , xn ), le rang ri d’une valeur xi est la position qu’elle occupe quand les valeurs sont rang´ees dans l’ordre croissant. A tout vecteur de r´ealisations on peut donc associer le vecteur des rangs (r1 , r2 , . . . , rn ) qui consiste en une permutation des nombres {1, 2, . . . , n}. Par exemple, avec n = 5, au vecteur (8,2 ; 7,4 ; 9,2 ; 5,1 ; 6,7) on associe le vecteur des rangs (4, 3, 5, 1, 2). Cette fonction appliqu´ee `a (X1 , X2 , . . . , Xn ) procure les statistiques de rang (R1 , R2 , . . . , Rn ). La v.a. Ri sera appel´ee le rang de Xi . Notons que si Xi est la statistique d’ordre k alors Ri est ´egal `a k. On supposera que F est continue afin d’ignorer, pour l’heure, le probl`eme des valeurs identiques. La proposition suivante indique que les statistiques de rang ont une loi conjointe ind´ependante de F et, par cons´equent, que toute inf´erence fond´ee sur les rangs sera de nature non param´etrique. Qui plus est, cette loi est parfaitement d´etermin´ee et permettra d’´etablir les distributions d’´echantillonnage des statistiques de test reposant sur les rangs. Proposition 10.1 La loi de (R1 , R2 , . . . , Rn ) est la loi uniforme sur l’ensemble des n! permutations des nombres {1, 2, . . . , n}. Ce r´esultat d´ecoule du fait que toutes les v.a. X1 , X2 , . . . , Xn sont ´echangeables, c’est-`a-dire que toute permutation des composantes de (X1 , X2 , . . . , Xn )
Chapitre 10. Tests non param´etriques
273
a la mˆeme loi conjointe que (X1 , X2 , . . . , Xn ). On en d´eduit ´egalement les lois marginales des rangs. Proposition 10.2 Pour tout i = 1, . . . , n le rang Ri suit une loi discr`ete uniforme sur {1, 2, . . . , n}. Ainsi (voir section 4.1.1) : n+1 2 n2 − 1 V (Ri ) = . 12 E(Ri ) =
De plus on d´emontre que, pour tout i et tout j distincts, cov(Ri , Rj ) = −
n+1 . 12
Outre leur non d´ependance vis-`a-vis de la loi m`ere les statistiques de rang ont l’avantage de pouvoir s’appliquer lorsque les donn´ees sont peu pr´ecises et mˆeme simplement ordinales. Ceci est souvent le cas dans les tests psychologiques et dans les ´etudes de comportement d’achat ou de consommation, o` u les sujets sont amen´es `a exprimer des pr´ef´erences ou `a effectuer des classements. De plus ces statistiques sont peu sensibles aux valeurs extrˆemes ou aberrantes.
10.5.3
Tests sur moyenne, m´ ediane et quantiles
Test sur la moyenne En section 8.2.1 on a pu voir que, si μ est la moyenne de la loi, on a : X −μ √ σ/ n
;
approx
N (0 ; 1)
si n est assez grand, pourvu que la loi m`ere admette une variance. En cons´equence le test de Student de la section 9.7.1 fournit un test approch´e pour une hypoth`ese du type H0 : μ = μ0 . Si l’´echantillon est trop petit pour garantir une bonne approximation, ou si la loi m`ere peut produire des valeurs extrˆemes (queues de distribution allong´ees), ou s’il y a risque de pr´esence de valeurs aberrantes, il sera pr´ef´erable de recourir a` un test non param´etrique concernant la m´ediane μ ' de la loi. Test sur la m´ ediane : le test du signe Ce test est le dual de la proc´edure d’intervalle de confiance pour la m´ediane vue en section 8.3. Comme alors, nous supposons simplement que la fonction de r´epartition de la loi m`ere F est continue et strictement croissante pour garantir '=μ '0 avec une alternative l’unicit´e de la m´ediane. L’hypoth`ese nulle est H0 : μ
274
Statistique − La th´eorie et ses applications
soit unilat´erale soit bilat´erale. Pour l’´echantillon al´eatoire X1 , X2 , . . . , Xn la ' , le nombre de ces v.a. inf´erieures ou ´egales `a μ statistique de test est N '0 . Sous ' suit une loi B(n, 1 ). H0 , pour tout i on a P (Xi ≤ μ '0 ) = 12 , donc N 2 ' prend une valeur soit trop grande soit Pour le cas bilat´eral on rejette H0 si N trop petite, les valeurs critiques devant ˆetre choisies de fa¸con conservatrice en raison du caract`ere discret de la loi binomiale (plus commod´ement on pourra se contenter d’indiquer la P-valeur de la valeur observ´ee de la statistique). '=μ '0 (ou H0 : μ '≤μ '0 ) versus H1 : μ '≥μ '0 . Consid´erons le test unilat´eral H0 : μ '0 est inf´erieure a` la m´ediane et la probabilit´e d’observer une valeur Sous H1 , μ ' suit donc une loi B(n, p) o` inf´erieure `a μ '0 est inf´erieure `a 12 . N u p < 12 et l’on ' prendra une valeur trop petite. A l’inverse rejettera l’hypoth`ese nulle lorsque N ' prendra une valeur trop grande. '≤μ '0 on rejettera H0 lorsque N pour H1 : μ Ce test est appel´e test du signe car, en retranchant pr´ealablement μ '0 `a ' devient le nombre de valeurs n´egatives (ou nulles). chaque observation, N ´ Etant identique a` un test sur le param`etre p d’une loi de Bernoulli le test est '0 ) qui d´epend de F sans biais. Le calcul de sa puissance repose sur p = P (Xi ≤ μ ´ donn´e que l’information initiale est ramen´ee choisi dans l’alternative H1 . Etant `a une information binaire on ne peut s’attendre a` un test tr`es puissant. Ceci est la contrepartie de sa validit´e tr`es g´en´erale. F ´etant suppos´ee continue la probabilit´e qu’une valeur soit exactement ´egale a` μ '0 est nulle. Toutefois, en raison du caract`ere discret de toute mesure pratique, il se peut qu’une ou plusieurs valeurs soient ´egales `a μ '0 et donc inclassables dans la proc´edure. On dit avoir affaire a` un probl`eme d’ex aequo. Le rem`ede recommand´e par Lehmann (1975) consiste `a ignorer ces valeurs, diminuant d’autant la taille de l’´echantillon. Le test du signe s’applique ´egalement au cas des ´ echantillons appari´ es. Pour fixer les id´ees prenons le cas de n individus observ´es avant et apr`es un traitement. Soit (Xi , Yi ), i = 1, · · · , n , les n couples d’observations correspondantes et p = P (Yi > Xi ). L’hypoth`ese nulle que la distribution est identique avant et apr`es un traitement, a` savoir qu’il n’y a pas d’effet du traitement, implique que p = 12 . La statistique est alors le nombre de v.a. Yi −Xi n´egatives, les valeurs nulles devant ˆetre ´ecart´ees. Il est int´eressant de noter que la proc´edure s’applique au cas discret (le test ´etant conditionnel aux diff´erences non nulles) et lorsque l’information sur chaque couple est un simple classement. Le test s’´etend ais´ement `a un test portant sur un quantile en rempla¸cant la valeur p = 12 dans H0 par l’ordre du quantile consid´er´e.
10.5.4
Tests de localisation de deux lois
On consid`ere ici qu’on est en pr´esence de deux lois dont les fonctions de r´epartition F1 et F2 ont la mˆeme forme mais peuvent ˆetre localis´ees diff´eremment. En d’autres termes leurs graphes sont identiques a` une translation pr`es.
Chapitre 10. Tests non param´etriques
275
Nous supposons que ces lois sont continues, alors leurs densit´es sont ´egalement translat´ees l’une par rapport a` l’autre. Une telle situation n’est pas rare, notamment pour les ´echantillons appari´es qui feront l’objet d’une attention particuli`ere. Remarquons d’ailleurs que la condition d’´egalit´e des variances impos´ee en section 9.7.3 pour tester l’´egalit´e des moyennes de deux lois de Gauss induit une situation de ce type. Math´ematiquement le mod`ele de localisation (ou mod`ele de position) s’´ecrit : F2 (x) = F1 (x − δ), pour tout x ∈ R, o` u δ est une constante inconnue caract´erisant le d´ecalage des deux lois. Si δ est positif le graphe de la densit´e de la deuxi`eme loi est translat´e `a droite de celui de la premi`ere, il est `a gauche si δ est n´egatif. Le test porte sur l’hypoth`ese nulle d’identit´e de ces lois ce qui ´equivaut a` : H0 : δ = 0 vs.
H1 : δ = 0.
On peut ´egalement envisager des tests unilat´eraux. Nous pr´esentons en premier lieu le test de Wilcoxon qui illustre bien l’usage des rangs dans l’approche non param´etrique. Test de Wilcoxon ou de Mann-Whitney Ce test a ´et´e propos´e initialement par Wilcoxon (1945). Par la suite Mann et Whitney (1947) ont propos´e une forme ´equivalente qui permit de pr´eciser ses propri´et´es. Soit deux ´ echantillons ind´ ependants X1 , X2 , . . . , Xn1 et Y1 , Y2 , . . . , Yn2 issus respectivement de chaque loi. Consid´erons la fusion des n1 + n2 valeurs en un seul ´echantillon et les rangs associ´es `a celui-ci. La statistique de test de Wilcoxon est la somme des rangs de l’un des ´echantillons initiaux. Il est plus rapide de choisir celui de plus petite taille et nous supposerons qu’il s’agit du premier (soit n1 ≤ n2 ), notant alors la somme de ses rangs Tn1 . La valeur minimale pour Tn1 est atteinte lorsque toutes les r´ealisations x1 , x2 , . . . , xn1 sont situ´ees `a gauche des r´ealisations y1 , y2 , . . . , yn2 sur la droite r´eelle et elle vaut 1 + 2 + · · · + n1 = 12 n1 (n1 + 1). La valeur maximale est atteinte lorsque toutes les observations xi sont situ´ees `a droite des observations yj sur la droite r´eelle et elle vaut : 1 (n2 + 1) + (n2 + 2) + · · · + (n2 + n1 ) = n1 n2 + n1 (n1 + 1). 2 Intuitivement on est enclin a` rejeter H0 lorsque la valeur de Tn1 s’approche de l’un ou l’autre de ces extrˆemes (mais un seul d’entre eux pour un cas unilat´eral). Pour d´eterminer les valeurs critiques il est n´ecessaire d’´etablir la loi de cette statistique sous H0 . Cela peut ˆetre fait par des consid´erations combinatoires, lesquelles ont conduit a` la construction de tables bien r´epandues. Nous montrons sur un exemple la d´emarche utilis´ee.
276
Statistique − La th´eorie et ses applications
Exemple 10.3 Soit les r´esultats suivants :
valeurs rangs
´echant. 1 n1 = 4 15 24 12 10 3 6 2 1
´echant. 2 n2 = 5 35 25 20 29 16 9 7 5 8 4
La statistique de test Tn1 prend la valeur 12. Calculons la P-valeur correspondante pour un test bilat´eral en ´etablissant la loi de Tn1 sous H0 , en partant des valeurs extrˆemes 10 et 30. Sous H0 toutes les 9 v.a. sont de mˆeme loi et la proposition 10.1 s’applique : les 9 ! permutations des rangs sont ´equiprobables. Pour calculer P (Tn1 = 10) il faut d´enombrer les permutations de rangs aboutissant `a une somme 10 pour les rangs du premier ´echantillon. Pour cela il faut que ces rangs soient {1,2,3,4} dans un ordre quelconque soit 4 ! possibilit´es. Pour chacune de ces possibilit´es on peut permuter les 5 rangs restant pour le deuxi`eme ´echantillon. Il y a donc en tout 4! 5! cas possibles, d’o` u : P (Tn1 = 10) =
4! 5! = 0,0079365 . 9!
Pour l’´ev´enement (Tn1 = 30) il faut que les rangs du premier ´echantillon soient une permutation sur {6,7,8,9} ce qui conduit a` la mˆeme probabilit´e. Examinons maintenant l’´ev´enement (Tn1 = 11). Il n’y a toujours qu’une possibilit´e pour la liste des rangs du premier ´echantillon, soit {1,2,3,5}, donc encore la mˆeme probabilit´e que ci-dessus. Ceci vaut ´egalement pour (Tn1 = 29). Enfin, pour obtenir (Tn1 = 12), deux listes sont possibles : {1,2,4,5} et {1,2,3,6}. De mˆeme pour (Tn1 = 28) on a deux listes : {5,6,8,9} et {4,7,8,9}. Donc P (Tn1 = 12) = P (Tn1 = 28) = 2 4!9!5! = 0,015873. Finalement : P (Tn1 ≤ 12) = P (Tn1 ≥ 28) = 4
4! 5! 0,032 9!
et la P-valeur, pour une alternative bilat´erale, est 0,064. Si l’on se fixe comme niveau α = 0,05 on doit accepter H0 . Pour une alternative unilat´erale, par exemple que le graphe de la densit´e de la loi m`ere du deuxi`eme ´echantillon soit translat´e `a droite de celui du premier, i.e. H1 : δ > 0, alors la P-valeur serait ´egale `a 0,032 et il faudrait rejeter H0 , donc consid´erer qu’il y a bien translation `a droite. Cet exemple est instructif sur plusieurs aspects. Tout d’abord on voit que le point crucial pour d´eterminer la loi de Tn1 est de d´enombrer les fa¸cons d’obtenir un total donn´e en choisissant k entiers parmi les n premiers entiers (ici k = n1 et n = n1 +n2 ). Ceci est un probl`eme de combinatoire r´esolu par une relation de r´ecurrence en partant du plus petit total. De plus, ce d´enombrement est identique en partant du plus grand total et, par cons´equent, la loi de la statistique est sym´etrique. Ainsi on peut ais´ement construire des tables de
Chapitre 10. Tests non param´etriques
277
valeurs critiques, lesquelles doivent ˆetre conservatrices vu le caract`ere discret de la loi. Enfin on voit l’int´erˆet de la proc´edure dans le cas de petits ´echantillons. Pour les grandes tailles d’´echantillons (en fait n1 > 10 et n2 > 10 suffisent) on peut utiliser une approximation gaussienne d´ecoulant du comportement asymptotique de Tn1 sous H0 . Pour cela il faut utiliser la moyenne et la variance de cette statistique sous H0 : n1 (n1 + n2 + 1) 2 n1 n2 (n1 + n2 + 1) . V (Tn1 ) = 12 E(Tn1 ) =
L’esp´erance math´ematique, en raison de la sym´etrie de la loi, est simplement la demi-somme des deux valeurs extrˆemes donn´ees plus haut. Pour ´etablir la variance on peut utiliser les formules g´en´erales sur les moments des rangs indiqu´ees `a la suite de la proposition 10.2, de la fa¸con suivante. 1 Comme Tn1 = ni=1 Ri , on a, par extension de la formule sur la variance d’une somme de deux v.a. non ind´ependantes vue en section 3.5, V (Tn1 ) =
n1
V (Ri ) + 2
i=1
o` u la somme
i<j
cov(Ri , Rj )
i<j
est `a effectuer sur tous les
n1 (n1 −1) couples (Ri , Rj ) du 2 (n1 +n2 )2 −1 = et cov(Ri , Rj ) = 12
premier ´echantillon tels que i < j. Comme V (Ri ) 2 +1 quels que soient i et j, on obtient finalement : − n1 +n 12
(n1 + n2 )2 − 1 n1 (n1 − 1) (n1 + n2 + 1) −2 12 2 12 n1 (n1 + n2 + 1) [(n1 + n2 − 1) − (n1 − 1)] = 12 n1 n2 (n1 + n2 + 1) = . 12
V (Tn1 ) = n1
La statistique U propos´ee par Mann et Whitney est la suivante : pour chaque Yj on compte le nombre d’observations Xi qui lui sont sup´erieures puis on totalise ces nombres pour j = 1, · · · , n2 . En posant : 1 si Xi > Yj , Zij = 0 si Xi < Yj cette statistique s’´ecrit : U=
n1 n2 i=1 j=1
Zij .
278
Statistique − La th´eorie et ses applications
On montre (voir exercices) que U est ´egale `a Tn1 `a une constante pr`es : U = Tn1 −
n1 (n1 + 1) . 2
Ainsi on peut aussi ´etablir la proc´edure et les r´esultats pr´ec´edents `a partir de U. Certaines tables sont d’ailleurs donn´ees en fonction de cette statistique. Nous avons ignor´e jusqu’ici le probl`eme des ex aequo, c’est-`a-dire lorsque deux (ou plusieurs) valeurs sont ´egales et ne peuvent ˆetre rang´ees. Le rem`ede le plus simple est celui des rangs moyens qui consiste `a attribuer a` chacune de ces valeurs la moyenne des rangs qu’elles auraient totalis´es si elles avaient ´et´e diff´erenti´ees (si, par exemple, il y a deux valeurs identiques apr`es la sixi`eme valeur, chacune re¸coit le rang 7,5 ; trois valeurs identiques recevraient le rang 8). En th´eorie ceci n´ecessite un correctif pour la statistique de test mais qui reste mineur si les ex aequo ne sont pas trop nombreux. Une autre m´ethode plus efficace mais plus lourde consiste `a attribuer les rangs de fa¸con al´eatoire. De nombreuses ´etudes, soit asymptotiques, soit par simulations pour des tailles d’´echantillons r´eduites, ont ´et´e effectu´ees pour ´etudier la puissance du test en fonction de divers types de lois m`eres. Ceci est notamment vrai pour le cas de lois de Gauss qui m`ene `a une comparaison avec le test de Student classique. Asymptotiquement le rapport de la puissance du test de Wilcoxon a` celle du test de Student est de 0,96, cette valeur ´etant pratiquement atteinte avec des tailles d’´echantillons de l’ordre de 50. Hodges et Lehmann (1956) ont ´etabli que le rapport asymptotique ne descend pas au-dessous de 0,86 quelle que soit la loi. Ces r´esultats justifient certainement l’usage r´epandu de ce test. Cependant la condition d’un mod`ele de localisation est une restriction importante. Cette condition peut toutefois ˆetre assouplie. Si l’hypoth`ese alternative est de la forme F1 (x) > F2 (x) pour tout x ou F1 (x) < F2 (x), c’est-`a-dire que les graphes restent totalement d´ecal´es, les propri´et´es du test sont globalement conserv´ees. Echantillons appari´ es : test des rangs sign´ es Ce test, ´egalement dˆ u `a Wilcoxon, est un d´eriv´e du pr´ec´edent. Il repose sur le fait que, si les lois m`eres sont identiques, la loi des diff´erences Xi −Yi doit ˆetre sym´etrique par rapport a` 0. Ainsi on s’attend a` ce que les rangs des diff´erences absolues |Xi − Yi | se partagent ´equitablement pour les diff´erences positives et pour les diff´erences n´egatives. Ayant rang´e les |Xi − Yi | par valeurs croissantes, la statistique de test est la somme T + des rangs associ´es aux diff´erences Xi −Yi positives. Soit les v.a. Zi , i = 1, · · · , n , d´efinies par 1 si Xi − Yi > 0 . Zi = 0 si Xi − Yi < 0
Chapitre 10. Tests non param´etriques
279
n Alors T + est ´egal `a i=1 iZi . Sous H0 , Zi suit une loi de Bernoulli B( 12 ) ce qui permet d’´etablir la loi de T + . Ses valeurs possibles sont 0, 1, · · · , n(n+1) , 2 la valeur 0 ´etant atteinte lorsqu’il n’y a aucune diff´erence positive et la valeur n(n+1) lorsque toutes les diff´erences sont positives. Dans le premier cas cela 2 porte `a croire que la (densit´e de la) loi m`ere des Xi est d´ecal´ee `a gauche de celle des Yi et, dans le deuxi`eme cas, qu’elle est d´ecal´ee `a droite. Ceci oriente donc le sens du rejet pour un test unilat´eral. On trouve ais´ement des tables de valeurs critiques et l’on peut utiliser une approximation gaussienne d`es que n > 30 en utilisant la moyenne et la variance de T + . Comme E(Zi ) = 12 , V (Zi ) = 14 et que les Zi sont mutuellement ind´ependantes (comme fonctions respectives des paires (Xi , Yj ) ), on a : 1 n(n + 1) i= E(T ) = 2 i=1 4 n
+
1 2 n(n + 1)(2n + 1) i = 4 i=1 24 n
V (T + ) =
sachant que 12 + 22 + · · · + n2 = 16 n(n + 1)(2n + 1). Sous H1 les Zi ont une loi B(p) avec p = P (Xi −Yi > 0) et la puissance peut ˆetre calcul´ee en fonction de p, lequel d´epend toutefois de la loi m`ere des Xi −Yi . Dans un probl`eme de localisation le test est sans biais et est plus puissant que le test du signe mentionn´e en section 10.5.3. Le test des rangs sign´es est parfois employ´e comme alternative au test du signe dans le cas d’un seul ´echantillon, mais cette pratique est contestable en raison de la condition forte de sym´ etrie de la loi m` ere, peu r´ealiste dans une approche non param´etrique. Test de la m´ ediane Ce test op`ere dans le mˆeme cadre que le test de Wilcoxon pour deux ´echantillons ind´ependants et rel`eve du mˆeme esprit que le test du signe. On d´etermine la m´ediane des n1 + n2 valeurs fusionn´ees et l’on consid`ere le nombre d’observations du premier ´echantillon inf´erieures `a cette m´ediane globale. D´esignons '1 la statistique correspondante. Supposons par commodit´e que n1 + n2 par N est pair et posons n1 + n2 = 2r, de fa¸con qu’il y ait exactement r observations `a gauche comme `a droite de la m´ediane globale (celle-ci peut ˆetre indiff´eremment n’importe quelle valeur entre les deux observations les plus centrales). '1 Sous l’ hypoth`ese nulle d’identit´e des deux lois on s’attend a` une valeur de N proche de n1 /2 et l’on rejettera donc H0 si la r´ealisation de cette statistique ´ donn´e que l’´echantillon fusionn´e a ´et´e divis´e en s’´eloigne trop de n1 /2. Etant deux parties de taille ´egale et que, sous H0 , toutes les v.a. sont i.i.d., la loi '1 , nombre d’observations parmi n1 observations appartenant `a l’ensemble de N
280
Statistique − La th´eorie et ses applications
des r plus petites valeurs, correspond a` la d´efinition mˆeme (voir section 4.1.5) d’une loi hyperg´eom´etrique H(2r, r, n1 ). On en d´eduit imm´ediatement : '1 ) = E(N
n1 2
et
'1 ) = V (N
n1 n2 , 4(n1 + n2 − 1)
valeurs a` utiliser pour une approximation gaussienne d`es lors que n1 et n2 sont assez grands. Si n1 + n2 est impair on montre, en posant n1 + n2 = 2r + 1, que '1 suit une loi H(2r + 1, r, n1 ). Ainsi, dans ce cas : N '1 ) = E(N
n1 (n1 + n2 − 1) 2(n1 + n2 )
et
'1 ) = n1 n2 (n1 + n2 + 1) . V (N 4(n1 + n2 )2
Comme on peut s’y attendre ce test est moins puissant que le test de Wilcoxon du fait qu’il ignore les rangs des observations (ainsi, pour la comparaison dans le cas de lois m`eres gaussiennes, le rapport asymptotique de sa puissance `a celle du test de Student tombe `a 0,63 contre 0,96 pour le test de Wilcoxon). En contrepartie sa port´ee d´epasse le seul mod`ele de localisation. Il peut ˆetre appliqu´e, par exemple, comme test d’´egalit´e des m´edianes des deux lois. Par ailleurs il offre un substitut au test de Wilcoxon si le nombre d’ex aequo est important suite a` une forte discr´etisation des donn´ees recueillies. Son pendant pour deux ´echantillons appari´es est le test du signe d´ecrit plus haut. Estimateur de Hodges-Lehmann du d´ ecalage des deux lois On cherche `a estimer le param`etre δ qui caract´erise le mod`ele de localisation, `a savoir tel que : F2 (x) = F1 (x − δ), pour tout x ∈ R, o` u F1 est la fonction de r´epartition des Xi et F2 celle des Yj. On peut estimer ponctuellement δ par la diff´erence y − x des moyennes observ´ees dans chaque ´echantillon et fournir un intervalle de confiance approch´e avec la proc´edure classique de Student (supposant que ces lois admettent une moyenne et une variance). Toutefois, pour de petits ´echantillons et/ou en pr´esence de valeurs extrˆemes, il est souhaitable de disposer de proc´edures plus fiables. Hodges et Lehmann (1963) ont propos´e une approche en relation avec les tests non param´etriques que nous exposons dans le cas du test de Wilcoxon-Mann-Whitney, le principe ´etant identique pour d’autres tests. Nous nous int´eressons particuli`erement `a l’intervalle de confiance. Pour une valeur arbitraire δ0 , on d´etermine la valeur tn1 (δ0 ) prise par la statistique de Wilcoxon pour la s´erie fusionn´ee : x1 , . . . , xi , . . . , xn1 , y1 − δ0 , . . . , yj − δ0 , . . . , yn2 − δ0 . En vertu de l’´equivalence test-IC (voir section 9.8) on prend comme IC de niveau 1−α pour δ l’ensemble des valeurs δ0 telles que tn1 (δ0 ) reste `a l’int´erieur
Chapitre 10. Tests non param´etriques
281
des valeurs critiques au niveau α du test. Ceci est justifi´e par le fait que, si δ0 est la vraie valeur, les Xi et les Yj − δ0 ont la mˆeme loi et la statistique Tn1 (δ0 ) suit alors la loi parfaitement d´etermin´ee sous H0 pour des ´echantillons de taille n1 et n2 . Faire varier δ0 peut ˆetre fastidieux mais cela n’est pas n´ecessaire car on montre que cet IC peut ˆetre obtenu de fa¸con simple et directe comme suit. On a vu plus haut que la statistique Tn1 de Wilcoxon a, sous H0 , une loi sym´etrique sur l’ensemble des entiers de 12 n1 (n1 + 1) ` a n1 n2 + 12 n1 (n1 + 1). Soit kα le plus petit entier tel que, sur cette loi, la probabilit´e associ´ee `a l’intervalle : 1 1 [ n1 (n1 + 1) + kα , n1 n2 + n1 (n1 + 1) − kα ] 2 2 soit au moins ´egale `a 1 − α. On consid`ere alors la s´erie des n1 n2 valeurs yj − xi pour tous i et j. L’intervalle de confiance de niveau (conservateur) 1−α s’obtient en prenant comme bornes les statistiques d’ordres kα et n1 n2 − kα + 1 de cette s´erie de valeurs. Pour l’estimation ponctuelle on choisit la valeur δ0 telle que tn1 (δ0 ) co¨ıncide avec la valeur de probabilit´e maximale sur la loi de r´ef´erence. On montre que cette estimation est simplement la m´ediane de la s´erie des yj −xi . Cette m´ethode fournit des estimateurs sans biais. Exemple 10.4 Reprenons l’exemple 10.3. On a vu que, pour n1 = 4 et n1 = 5, la statistique Tn1 peut prendre les valeurs enti`eres de 10 `a 30 et que P (Tn1 ≤ 11) + P (Tn1 ≥ 29) = 0,032 . Donc P (12 ≤ Tn1 ≤ 28) = 1−0,032 alors que P (13 ≤ Tn1 ≤ 27) = 1−0,064. Pour α = 0,05 on a donc k0,05 = 2. La s´erie des yj − xi ordonn´ee est : −8, −4, 1, 1, 4, 5, 5, 6, 6, 8, 10, 10, 13, 14, 15, 15, 17, 18, 19, 20 donc l’intervalle de confiance est [−4 ; 19] et l’estimateur ponctuel est 9 (en prenant pour m´ediane la valeur milieu entre 8 et 10). L’approche classique donne pour estimation ponctuelle y−x = 9,75. L’intervalle de confiance ci-dessus ´etant en fait de niveau 0,968 , celui de mˆeme niveau (7) obtenu par la formule de Student (voir section 7.4.3) avec t0,984 = 2,67 est [−2,7 ; 22,2]. Ce dernier a une amplitude plus grande mais les deux intervalles restent assez semblables du fait qu’il n’y a pas de valeurs extrˆemes.
10.5.5
Test pour la corr´ elation de Spearman
Nous pr´esentons bri`evement ce test pour illustrer encore l’int´erˆet des proc´edures reposant sur les rangs. On consid`ere un couple (X, Y ) de fonction de r´epartition conjointe FX,Y (x, y) inconnue et un ´echantillon de taille n :
282
Statistique − La th´eorie et ses applications
(X1 , Y1 ), (X2 , Y2 ), · · · , (Xn , Yn ), issu de cette mˆeme loi. On souhaite tester l’hypoth`ese nulle d’ind´ependance de ces deux composantes du couple, soit : H0 : FX,Y (x, y) = FX (x)FY (y) pour tout (x, y) ∈ R2 , o` u FX et FY sont les lois marginales des composantes. L’alternative H1 est la a savoir qu’il existe au moins un couple de valeurs (x, y) tel n´egation de H0 , ` que FX,Y (x, y) = FX (x)FY (y). En 1904 Spearman a propos´e comme statistique de test la corr´elation des rangs que nous notons RS . Elle est obtenue simplement en rempla¸cant, s´epar´ement, dans chaque composante les observations par leurs rangs et en calculant sur ces derniers la corr´elation lin´eaire empirique vue en section 9.7.7. Notons que la valeur prise par RS sera ´egale `a 1 (respectivement -1) si Y est une fonction croissante (respectivement d´ecroissante) de X. La corr´elation de rangs a pour int´erˆet de mettre en ´evidence des liens non lin´ eaires. Sous H0 on s’attend a` ce que Rs reste proche de z´ero. Comme cette statistique repose sur les rangs sa loi ne d´epend pas de FX ni de FY . En ´etablissant (voir exercices) que Rs peut aussi s’´ecrire : n
Rs =
i=1
n(n + 1)2 4 , 2 n(n − 1) 12
Ri Si −
o` u Ri est le rang de Xi et Si celui de Yi , et en utilisant l’esp´erance et la variance d’un rang donn´ees `a la suite de la proposition 10.2, on montre ais´ement que : E(Rs ) = 0 V (Rs ) = Par ailleurs on montre que :
1 . n−1
√ n − 2RS % 1 − RS2
suit approximativement une loi de Student `a n − 2 degr´es de libert´e, ce qui est `a rapprocher du r´esultat de la section 9.7.7 concernant la corr´elation lin´eaire. Pour les faibles valeurs de n on dispose de tables des valeurs critiques a` diff´erents niveaux.
Nous avons vu quelques tests non param´etriques parmi les plus courants. Les tests fond´es sur les rangs sont d’une grande vari´et´e et font l’objet d’ouvrages sp´ecifiques. Citons par exemple le livre collectif ´edit´e par Droesbeke et Fine (1996), celui de Lecoutre et Tassi (1987) ainsi qu’en anglais Lehmann (1975) et Gibbons (1985).
Chapitre 10. Tests non param´etriques
10.6
283
Exercices
Exercice 10.1 Montrer que le test du khi-deux de la section 10.2 est le test d’´egalit´e des param`etres de deux lois de Bernoulli vu en section 9.7.6 . Aide : on s’inspirera de la d´emarche de la section 10.1.4. Exercice 10.2 Soit un couple (X , Y) de variables cat´egorielles, X avec I cat´egories not´ees {1, · · · , i, · · · , I} et Y avec J cat´egories not´ees {1, · · · , j, · · · , J}. Montrer qu’elles sont ind´ependantes si et seulement si il y a ind´ependance entre tous les couples ´el´ementaires (i, j) de cat´egories crois´ees. Aide : Soit A = {i1 } un ´ev´enement sur X et B = {j1 , j2 } un ´ev´enement sur Y. (i.e. le r´esultat de l’exp´erience est la cat´egorie j1 ou j2 ), montrer que A et B sont ind´ependants si {i1 } est ind´ependant de {j1 } et de {j2 } respectivement, puis g´en´eraliser. Exercice 10.3 Dans le contexte du test exact de Fisher (section 10.3.2) montrer que sous l’hypoth`ese d’ind´ependance on a : P (N11 = n11 |n1. , n2. , n.1 , n.2 ) =
n1. ! n2. ! n.1 ! n.2 ! n! n11 ! n12 ! n21 ! n22 !
avec les contraintes n´ecessaires sur n11 , n12 , n21 et n22 . En d´eduire que la loi de la v.a. N11 conditionnellement aux marges est une loi H(n, n1., n.1 ). Aide : on suivra la mˆeme d´emarche que dans la d´emonstration du mˆeme type de la section 9.7.6 . Exercice 10.4 (Test de McNemar) Soit un ´echantillon appari´e de n couples d’individus. Sur chacun des 2n individus on observe une mˆeme variable binaire succ`es/´echec. Pour chaque couple on a donc une variable cat´egorielle `a 4 cat´egories. Les probabilit´es et les fr´equences (entre parenth`eses) sont not´ees selon le tableau ci-apr`es : XXX X
XXIndiv.2 succ`es XXX Indiv.1 X succ`es p11 (n11 ) ´echec p21 (n21 ) p.1 (n.1 )
´echec p12 (n12 ) p22 (n22 ) p.2 (n.2 )
p1. (n1. ) p2. (n2. ) 1 (n)
On consid`ere l’hypoth`ese nulle que la probabilit´e de succ`es est la mˆeme pour les deux individus d’un couple, i.e. H0 : p1. = p.1 . 1. Donner la fonction de vraisemblance pour cette loi multinomiale a` 4 cat´egories sous H0 . (aide : noter que H0 ´equivaut a` p12 = p21 et int´egrer les contraintes dans la fonction de vraisemblance comme en section 10.1.1) 2. Donner les estimations du MV des pij sous H0 .
Statistique − La th´eorie et ses applications
284
3. En d´eduire les estimations des fr´equences attendues sous H0 et montrer que la r´ealisation q de la statistique Q du test du khi-deux pour H0 est : q=
(n12 − n21 )2 . n12 + n21
4. Quels sont les degr´es de libert´e de la loi asymptotique de cette statistique sous H0 ? Exercice 10.5 D´emontrer la relation entre la statistique U de Mann-Whitney et Tn1 de Wilcoxon. Aide : on consid´erera les statistiques d’ordre X(1) , X(2) , . . . , X(n1 ) et les rangs correspondants R(1) , R(2) , . . . , R(n1 ) . On exprimera alors chacun de ces rangs en fonction du nombre d’observations Yj inf´erieures `a la statistique d’ordre a` laquelle il correspond. Exercice 10.6 Montrer que la corr´elation de Spearman peut s’´ecrire n Rs =
i=1
n(n+1)2 4 n(n2 −1) 12
Ri Si −
.
Aide : utiliser les formules g´en´erales de d´ecentrage : n i=1
(xi − x)(yi − y) =
n
xi yi − n x y et
i=1
n
(xi − x) = 2
n
i=1
x2i − nx2 .
i=1
Exercices appliqu´es Exercice 10.7 Une enquˆete sur la gˆene caus´ee par la proximit´e d’un a´eroport a donn´e, par sexe, les r´esultats suivants : PP PP Sexe Femmes Gˆene PPP P Aucune 75 Faible 25 Moyenne 17 Forte 3 120
Hommes
Tous
35 27 8 12 82
110 52 25 15 202
Identifier la situation d’´echantillonnage et poser l’hypoth`ese nulle correspondant a` la question informelle : la gˆene est-elle identique pour les deux sexes ? Tester cette hypoth`ese nulle.
Chapitre 10. Tests non param´etriques
285
Exercice 10.8 Lors d’une enquˆete aupr`es de 825 familles ayant eu 3 enfants on a relev´e le nombre de gar¸cons dans chaque famille comme suit : Nombre de gar¸cons fr´equences
0 71
1 297
2 336
3 121
Tous 825
On fait l’hypoth`ese que les sexes des enfants lors des naissances successives au sein d’une famille sont des variables cat´egorielles ind´ependantes et que la probabilit´e p d’avoir un gar¸con reste constante. D´eterminer en fonction de p la loi du nombre de gar¸cons pour une famille de 3 enfants. Estimer p et tester l’hypoth`ese de d´epart. Aide : on utilisera le test du khi-deux avec l’estimation de p usuelle par le maximum de vraisemblance. Exercice 10.9 On donne, pour une agglom´eration, la r´epartition du nombre de jours sans accident, avec un accident etc., parmi 50 jours d’observation tir´es au hasard dans une ann´ee : nombre d’accidents 0 1 2 3 4 total
nombre de jours 21 18 7 3 1 50
Tester que la r´epartition du nombre quotidien d’accidents suit une loi de Poisson. Aide : on effectuera le test du khi-deux en regroupant les cat´egories de fa¸con `a ne pas avoir de fr´equences inf´erieures `a 5. Pour simplifier on estimera λ par l’estimation usuelle du maximum de vraisemblance. Exercice 10.10 Dans une enquˆete aupr`es de 93 ´etudiant(e)s s´electionn´es au hasard dans une universit´e on pose une question sur le mode de logement avec 4 modalit´es de r´eponse : seul (S), dans la famille (F), en couple (C) et autres modes (A). Les r´esultats obtenus par sexe sont les suivants :
F´eminin Masculin
S 12 15
F 11 6
C 14 9
A 12 14
Tester l’hypoth`ese d’ind´ependance du mode de logement et du sexe. Exercice 10.11 Un ´echantillon de 490 utilisateurs de t´el´ephones portables a ´et´e constitu´e avec des quotas d’ˆage, c’est-`a-dire qu’on a s´electionn´e des personnes au hasard jusqu’` a atteindre un nombre fix´e de personnes dans chaque
286
Statistique − La th´eorie et ses applications
classe d’ˆ age. Celles-ci ont ´et´e interrog´ees sur l’op´erateur choisi. Le tableau cidessous donne la r´epartition des choix effectu´es en fonction de l’ˆ age de l’utilisateur. op´erateur 1 op´erateur 2 op´erateur 3 10-19 17 32 57 20-35 38 72 64 36-50 53 42 39 51 + 30 19 27 Identifier la situation d’´echantillonnage appropri´ee et exprimer formellement l’hypoth`ese correspondant `a la formulation suivante : il n’y a pas de relation entre l’ˆ age et le type d’op´erateur choisi. Tester cette hypoth`ese. Exercice 10.12 Une enquˆete par sondage est men´ee parall`element dans deux pays de l’Union Europ´eenne sur la r´epartition des revenus dans une cat´egorie bien d´etermin´ee de salari´es. On obtient les r´esultats suivants : Salaire mensuel (euros) <1200 1200-1600 1601-2000 >2000 Ensemble
Pays A 4 22 20 14 60
Pays B 6 18 18 6 48
Identifier la situation d’´echantillonnage appropri´ee. La diff´erence entre les r´epartitions des revenus observ´ees dans les deux pays est-elle significative ? Exercice 10.13 Les donn´ees du tableau qui suivent ont ´et´e ´etudi´ees par le statisticien belge A. Quetelet (1796-1874) et reprises de l’ouvrage de W.S. Peters : Counting for Something (Springer-Verlag, N.Y., 1986). Elles concernent les mesures (en pouces) de tour de poitrine de 5 738 soldats ´ecossais. Mesure Fr´equence Mesure Fr´equence
33 3 41 934
34 18 42 658
35 81 43 370
36 185 44 92
37 420 45 50
38 749 46 21
39 1073 47 4
40 1079 48 1
Tester l’ajustement d’un mod`ele gaussien pour ces donn´ees. Aide : il s’agit de donn´ees regroup´ees (par arrondi au pouce le plus proche) pour lesquelles on proc´edera comme indiqu´e en section 10.4.1 `a ce propos. Exercice 10.14 On a interrog´e deux ´echantillons ind´ependants de 30 personnes chacun. Le premier ´echantillon est constitu´e de personnes appartenant a` des m´enages avec enfant(s), le deuxi`eme de personnes appartenant a` des m´enages sans enfant. A la question «Consid´erez-vous que l’´education des enfants est actuellement trop permissive ?» on a demand´e aux enquˆet´es de
Chapitre 10. Tests non param´etriques
287
r´epondre en se positionnant sur une ´echelle ordonn´ee de 1 (oui, tout a` fait) a` 5 (non, pas du tout). Les r´esultats obtenus sont les suivants : R´eponse : avec enfant sans enfant Ensemble
1 4 2 6
2 11 6 17
3 5 8 13
4 8 8 16
5 2 6 8
6 30 30 60
On veut tester l’hypoth`ese qu’il n’y a pas de diff´erence d’attitude entre ´ les deux types de personnes. Etant donn´e les tailles relativement r´eduites des ´echantillons d’une part, et le flou de la mesure effectu´ee d’autre part, on proc´edera `a un test non param´etrique. Aide : vu qu’il n’y a que 5 valeurs possibles on aura un nombre d’ex aequo important. On pr´ef´erera donc le test de la m´ediane au test de Wilcoxon. Les observations correspondant `a la valeur m´ediane g´en´erale devront ˆetre ignor´ees.
Chapitre 11
R´ egressions lin´ eaire, logistique et non param´ etrique 11.1
Introduction ` a la r´ egression
A diff´erentes reprises nous avons dit dans les chapitres pr´ec´edents que tel ou tel r´esultat avait une validit´e au-del`a du cadre strict des ´echantillons al´eatoires constitu´es de variables al´eatoires i.i.d.. L’objectif de ce chapitre est de montrer comment les m´ethodes classiques doivent ˆetre adapt´ees lorsque les v.a. observ´ees restent ind´ependantes mais ne sont plus identiquement distribu´ees. Ceci peut ˆetre illustr´e avec profit dans les mod`eles explicatifs appel´es mod`eles de r´egression. De fa¸con informelle, un mod`ele explicatif est un mod`ele exprimant une variable Y, appel´ee variable a ` expliquer (ou r´eponse), comme une fonction d’une ou de plusieurs variables dites variables explicatives ou pr´edicteurs1 . Toutefois si l’entit´e Y est consid´er´ee comme une variable al´eatoire Y, un terme al´eatoire, caract´erisant l’incertitude de la pr´ediction, doit ˆetre introduit d’une certaine fa¸con dans l’´equation du mod`ele. Dans un mod`ele de r´egression, on cherche essentiellement a` d´eterminer la variation de l’esp´ erance math´ ematique de Y en fonction des variables explicatives. En d’autres termes on ´etudie comment Y ´evolue «en moyenne» en fonction de ces variables explicatives. Dans ce chapitre, par souci de simplification, nous ne consid´erons qu’une seule variable explicative ce qui constitue la r´egression simple par opposition a` la r´egression multiple. De plus cette entit´e 1 Un tel mod` ele ne restituant pas n´ecessairement une relation de cause ` a effet directe le terme de pr´edicteur serait plus appropri´e.
290
Statistique − La th´eorie et ses applications
explicative, que nous symboliserons par la lettre X , sera une variable quantitative2 , pouvant prendre toute valeur dans un intervalle I de R. Aux diff´erentes valeurs de X dans I correspondent, par hypoth`ese, des v.a. distinctes et on est donc, en fait, en pr´esence d’une famille de v.a. {Y (x) | x ∈ I}. Admettant que pour tout x l’esp´erance math´ematique existe, alors E(Y (x) ) est la fonction g(x) qu’il s’agit de rechercher. Cette fonction mettant en ´evidence l’´evolution moyenne de l’entit´e Y ` a expliquer en fonction de x est appel´ee fonction de r´egression. Dans cette approche on consid`ere naturellement que l’incertitude de la pr´ediction de Y pour le «niveau» x de X , se manifeste par une v.a. ε(x) venant s’ajouter `a la composante d´eterministe g(x). Dans sa forme la plus g´en´erale un mod`ele de r´egression simple s’´ecrit donc : Y (x) = g(x) + ε(x). Puisque E(Y (x) ) = g(x), on a n´ecessairement E(ε(x)) = 0, quel que soit x. La v.a. ε(x) est appel´ee erreur ou al´ea (d’o` u la notation habituelle du «e» grec). Dans la plupart des mod`eles on suppose que l’erreur est de mˆeme loi quel que soit x ce qui permet d’´ecrire Y (x) = g(x)+ε (on ´ecrit mˆeme parfois simplement Y = g(x) + ε en omettant d’indiquer que la v.a. Y est assujettie `a la valeur x). Le premier mod`ele que nous ´etudierons est le mod`ele de r´egression lin´eaire o` u g(x) = β0 + β1 x, que l’on ´ecrira donc : Y (x) = β0 + β1 x + ε. Ce mod`ele est le plus simple qui soit et, de ce fait, est celui qui est utilis´e le plus fr´equemment. Il stipule qu’en moyenne l’entit´e Y varie lin´eairement en fonction du niveau de l’entit´e X , ce qui est une hypoth`ese souvent r´ealiste. Par exemple le poids moyen des individus (adultes d’un mˆeme sexe) ayant une taille donn´ee x peut ˆetre consid´er´e comme une fonction croissant lin´eairement avec x. La r´egression lin´eaire constitue le point de d´epart historique et m´ethodologique de toute la mod´elisation explicative. Ce mod`ele a ´et´e propos´e par Francis Galton dans son ouvrage Natural Inheritance publi´e en 1889, notamment pour l’´etude de la variation de la taille d’un homme en fonction de celle de son p`ere. Il a choisi le terme de «r´egression» constatant qu’en moyenne un p`ere grand tendra a` avoir un fils plus petit que lui (et vice-versa pour un p`ere petit). Le deuxi`eme mod`ele pr´esent´e dans le chapitre est le mod`ele logistique dont la particularit´e est que la variable a` expliquer est binaire, du type «succ`es» ou «´echec». On la codera comme pr´ec´edemment par 1 ou 0 pour que Y (x) soit, pour tout x ∈ I, une v.a. de Bernoulli. On essaie, par exemple, de d´eterminer dans quelle mesure le fait d’avoir ou de ne pas avoir d’incident cardiaque a` un certain ˆage est li´e au taux sanguin de cholest´erol. Dans l’´ecriture de ce mod`ele de r´egression nous introduirons une fonction g(x) particuli`erement adapt´ee au fait que Y (x) prend les valeurs 1 ou 0. 2 La variable explicative pourrait ˆ etre cat´ egorielle ce qui, dans le cas de la r´egression lin´ eaire, correspond ` a l’analyse de variance ` a un facteur.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
291
Ces deux premiers types de mod`eles sont des mod`eles param´etriques car la fonction de r´egression g(x) est de forme connue mais d´ependant de param`etres inconnus (comme β0 et β1 dans le cas de la r´egression lin´eaire) qu’il s’agira d’estimer. Tous deux permettront d’illustrer l’application des m´ethodes param´etriques classiques des chapitres 6, 7 et 9. Dans le premier cas on obtient des solutions exactes simples. Dans le second cas on verra comment utiliser la m´ethode du maximum de vraisemblance et les propri´et´es asymptotiques de l’EMV lorsqu’il n’y a pas de solution explicite. L’int´erˆet de cette pr´esentation r´eside dans le fait que la d´emarche est celle appliqu´ee en statistique pour la plupart des mod`eles complexes. Le troisi`eme type de mod`ele sera le mod`ele non param´etrique o` u la fonction de r´egression g(x) est totalement inconnue et doit ˆetre estim´ee. Nous sommes l`a face `a un probl`eme d’estimation fonctionnelle comme pour l’estimation d’une densit´e ou d’une fonction de r´epartition, vue en section 8.5. Le mod` ele conditionnel Dans notre expos´e l’entit´e explicative X est une variable d´eterministe, ce qui a des implications sur la fa¸con dont les observations sont effectu´ees. Cela suppose en effet que l’on se trouve dans des conditions exp´erimentales avec un choix planifi´ e des valeurs x1 , x2 , · · · , xn de X , c’est-`a-dire fix´ees `a l’avance selon ce qu’on appelle un plan d’exp´erience. Supposons par exemple que l’on veuille ´etudier l’influence du taux d’engrais (en kg/hectare) sur le rendement (en tonnes/hectare) d’un type de c´er´eale. On s`eme alors n parcelles exp´erimentales trait´ees avec des taux d’engrais choisis x1 , x2 , · · · , xn (certaines valeurs pouvant ˆetre r´ep´et´ees). On consid`ere que le rendement de chaque parcelle est une variable al´eatoire du fait des multiples facteurs, autres que le taux d’engrais, qui le d´eterminent (pour preuve, les valeurs seront certainement diff´erentes si l’on r´ep`ete l’exp´erience). Les valeurs de rendement y1 , y2 , · · · , yn effectivement observ´ees seront donc trait´ees comme des r´ealisations de variables al´eatoires Y1 , Y2 , · · · , Yn . Ici Yi symbolise la loi du rendement pour un niveau d’engrais xi , dont la moyenne est E(Yi ) = g(xi ). Ces v.a. Y1 , Y2 , · · · , Yn sont suppos´ees ind´ependantes mais non de mˆeme loi puisqu’elles diff`erent au moins par leur moyenne. Il s’agira alors d’estimer, a` partir de ces observations effectu´ees en quelques valeurs de X dans I, la fonction g(x) pour tout x ∈ I, o` u I est la plage de variation du taux d’engrais qui int´eresse l’exp´erimentateur. Bien souvent, on ne se trouve pas dans de telles conditions exp´erimentales mais plutˆ ot dans le cadre d’observations r´ep´et´ees d’un couple de v.a. (X, Y ). Prenons, par exemple, le cas d’un sondage effectu´e pour ´etudier la variation du revenu Y en fonction de l’ˆ age X dans une population. En tirant au hasard un individu on g´en`ere un couple al´eatoire (X, Y ) o` u X est la valeur de l’ˆage et Y est la valeur du revenu. Pour n individus on observe alors un ´echantillon al´eatoire (X1, Y1 ), (X2 , Y2 ), · · · , (Xn , Yn ) `a valeurs dans R2 . Pour les valeurs effectivement observ´ees (x1, y1 ), (x2 , y2 ), · · · , (xn , yn ), les x1 , x2 , · · · , xn doivent ˆetre consid´er´ees comme des r´ealisations de v.a. au mˆeme titre que les
Statistique − La th´eorie et ses applications
292
y1 , y2 , · · · , yn . En effet, contrairement aux circonstances pr´ec´edentes les valeurs des xi ne pouvaient ˆetre connues avant exp´erience, car r´esultant du processus de s´election au hasard. L’objectif essentiel restant d’´etudier comment «en moyenne» le revenu varie en fonction de l’ˆage, la fonction de r´egression g(x) est alors l’esp´ erance math´ ematique de la loi conditionnelle de Y sachant X = x, not´ee E(Y |X = x), soit : g(x) = E(Y |X = x) . N´eanmoins, dans le mod` ele classique de r´ egression, les valeurs x1 , x2 , · · · , xn ne sont pas trait´ ees comme des r´ ealisations de variables al´ eatoires, ce qui facilite grandement les calculs. Stricto sensu les d´eveloppements de ce chapitre ne sont valables que conditionnellement aux valeurs prises par les Xi . Le mod`ele de r´egression n’est donc, en principe, pas appropri´e dans une situation d’observations r´ep´et´ees d’un couple de variables al´eatoires. Les propri´et´es d’optimalit´e conditionnelle des estimateurs, par exemple, peuvent ˆetre perdues lorsqu’on prend en compte le caract`ere al´eatoire des Xi . Toutefois on constate g´en´eralement que ces estimateurs conservent des qualit´es assez proches, voire mˆeme identiques. Aussi le praticien applique-t-il les proc´edures de la r´egression quelles que soient les circonstances de la collecte des donn´ees. Le formalisme conditionnel ´etant plus g´en´eral car permettant d’envisager que la variable explicative puisse avoir un statut al´eatoire, nous l’adopterons comme la plupart des auteurs. Mais il est clair que les r´esultats issus du mod`ele conditionnel s’appliqueront de la mˆeme fa¸con `a la situation d´ecrite initialement avec l’exemple du rendement d’une c´er´eale.
11.2
La r´ egression lin´ eaire
11.2.1
Le mod` ele
Nous supposons donc que la fonction de r´egression est de la forme : E(Y |X = x) = β0 + β1 x pour x appartenant a` un certain intervalle I. De plus nous supposons que la variance de la loi conditionnelle de Y sachant X = x ne d´epend pas de x et est ´egale `a σ 2 . Enfin nous faisons l’hypoth`ese que cette loi est gaussienne, quel que soit x. Nous reviendrons toutefois par la suite sur cette condition qui n’est pas cruciale. Notons que la lin´earit´e du mod`ele est relative aux√param`etres β0 et β1 , et que l’on peut substituer `a X des transform´ees ln X, X, X 2 etc., pour atteindre ´eventuellement la lin´earit´e du mod`ele. Le mod`ele contient donc trois param`etres inconnus : β0 , β1 et σ 2 . Pour estimer ces param`etres nous consid´erons une s´erie d’observations ind´ependantes Y1 , Y2 , · · · , Yn situ´ees, respectivement, aux niveaux x1 , x2 , . . . , xn de la variable explicative fix´es (on suppose naturellement qu’au moins deux de ces valeurs sont
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
293
distinctes). Ainsi, pour tout i, Yi ; N (β0 + β1 xi , σ 2 ). Il est aussi commode d’utiliser la notation : Yi = β0 + β1 xi + εi
,
i = 1, . . . , n.
Pour tout i on a donc εi ; N (0 , σ 2 ). L’ind´ependance des Yi entraˆıne celle des «erreurs» ε1 , ε2 , . . . , εn qui sont donc des variables al´eatoires i.i.d..
11.2.2
Les estimateurs du maximum de vraisemblance
La fonction de vraisemblance des trois param`etres, associ´ee aux r´ealisations y1 , y2 , · · · , yn , est : n $ 1 1 √ exp{− 2 [yi − (β0 + β1 xi )]2 }. L(β0 , β1 , σ2 ) = 2 2σ 2πσ i=1 D’o` u la log-vraisemblance :
n √ 1 1 ln L(β0 , β1 , σ 2 ) = −n(ln 2π + ln σ 2 ) − 2 [yi − (β0 + β1 xi )]2 . 2 2σ i=1
En annulant les d´eriv´ees partielles successivement par rapport β0 , β1 et σ 2 on obtient les ´ equations de vraisemblance : ⎧ n [yi − (β0 + β1 xi )] = 0 ⎪ ⎪ ⎨ i=1 n i=1 xi [yi − (β0 + β1 xi )] = 0 ⎪ ⎪ n ⎩ −n 1 2 i=1 [yi − (β0 + β1 xi )] = 0 . 2σ 2 + 2σ 4 Les deux premi`eres ´equations ne d´ependent pas de σ 2 et, ´etant lin´eaires en β0 et β1 , peuvent ˆetre r´esolues. De la premi`ere ´equation on d´eduit β0 = y − β1 x, puis en rempla¸cant dans la deuxi`eme : β1 (
n i=1
x2i − x
n i=1
xi ) =
n i=1
xi y i − y
n
xi .
i=1
n n n n Or i=1 x2i − x i=1 xi = i=1 x2i − nx2 = i=1 (xi − x)2 selon la formule bien connue descriptive et, de la mˆeme n ecentrage n de la statistique n de centrage-d´ n u fa¸con, i=1 xi yi − y i=1 xi = i=1 xi yi − n x y = i=1 (xi − x)(yi − y). D’o` finalement, en substituant les Yi aux yi , les estimateurs du MV de β0 et β1 : ⎧ β0 = Y − β1 x ⎪ ⎪ ⎨ n (x − x)(Yi − Y ) . 1 = i=1 ⎪ n i β ⎪ 2 ⎩ i=1 (xi − x) Il est int´eressant de noter que les deux premi` ´equations de vraisemeres n blance correspondent `a la minimisation du terme i=1 [yi − (β0 + β1 xi )]2 dans l’expression de la log-vraisemblance. Pour une solution quelconque (β0∗ , β1∗ ), la
Statistique − La th´eorie et ses applications
294
diff´erence yi − (β0∗ + β1∗ xi ) est appel´ee r´esidu car elle correspond `a l’´ecart entre la valeur observ´ee et celle donn´ee par le mod`ele ainsi estim´e. On voit donc que le couple (β0 , β1 ) est la solution qui minimise la somme des carr´es des r´esidus. De ce fait β0 et β1 sont aussi appel´es estimateurs des moindres carr´es. Montrons que β0 et β1 sont respectivement sans biais pour β0 et β1 . On a : 1 1 E(Yi ) = (β0 + β1 xi ) = β0 + β1 x n i=1 n i=1 n
E(Y ) =
n
E(Yi − Y ) = β0 + β1 xi − (β0 + β1 x) = β1 (xi − x). D’o` u: E(β1 ) =
n
(xi − x)E(Yi − i=1 n 2 i=1 (xi − x)
Y)
= β1 .
E(β0 ) = E(Y ) − E(β1 )x = β0 + β1 x − β1 x = β0 . On en d´eduit que β0 + β1 x est sans biais pour E(Y |X = x), l’esp´erance de la r´eponse pour la valeur x de la variable explicative. Pour calculer les variances de ces estimateurs notons que le num´erateur de l’expression de β1 s’´ecrit aussi ni=1 (xi −x)Yi puisque ni=1 (xi −x) = 0. Donc : n n 2 σ 2 i=1 (xi − x)2 σ2 i=1 (xi − x) V (Yi ) = n = n . V (β1 ) = n 2 2 2 ( i=1 (xi − x)2 ) ( i=1 (xi − x)2 ) i=1 (xi − x) Pour β0 on a V (β0 ) = V (Y ) + x2 V (β1 ) − 2 x cov(Y , β1 ). Or : n 1 cov Y , i=1 (xi − x)Yi 2 i=1 (xi − x) n 1 = n i=1 (xi − x)cov Y , Yi 2 i=1 (xi − x)
cov(Y , β1 ) = n
et, comme cov(Yj , Yi ) = 0 si j = i , cov Y , Yi = cov n1 Yi , Yi = cov(Y , β1 ) =
n
σ2 n ,
on a :
n σ2 i=1 (xi − x) = 0 , 2 (x − x) i=1 i
n
d’o` u: σ2 σ2 = σ2 + x2 n V (β0 ) = 2 n i=1 (xi − x)
x2 1 + n 2 n i=1 (xi − x)
.
De plus : xσ 2 . cov(β0 , β1 ) = cov(Y − β1 x , β1 ) = cov(Y , β1 ) − x V (β1 ) = − n 2 i=1 (xi − x)
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
295
= (β0 , β1 )t nous r´esumons ces r´esultats (avec En posant β = (β0 , β1 )t et β les notations pour les vecteurs al´eatoires introduites en section 3.8) par : ⎛ ⎞ x2 xσ 2 1 2 − + n σ n 2 2 ⎟ ⎜ n i=1 (xi − x) i=1 (xi − x) ⎟ ) = β et V(β ) = ⎜ E(β ⎜ ⎟. 2 2 ⎝ ⎠ xσ σ n − n 2 2 i=1 (xi − x) i=1 (xi − x) Comme β0 et β1 sont chacun une combinaison lin´eaire des Yi , d’apr`es le est gaussien. Sa loi est th´eor`eme de caract´erisation 3.1 le vecteur al´eatoire β donc parfaitement d´efinie. D´eterminons maintenant l’estimateur du MV de σ 2 . Il se d´eduit de la derni`ere ´equation de vraisemblance selon : 1 [Yi − (β0 + β1 xi )]2 , n n
σ 2 =
i=1
expression dans laquelle on retrouve la somme des carr´es des r´esidus (sous sa forme al´eatoire). Pour ´etudier la distribution d’´echantillonnage de σ 2 on admettra la proposition suivante. n Proposition 11.1 La v.a. σ12 i=1 [Yi − (β0 + β1 xi )]2 suit une loi du khi-deux . a n − 2 degr´es de libert´e. De plus elle est ind´ependante de l’estimateur β ` Pour la premi`ere assertion cette proposition est `a rapprocher du th´eor`eme 5.1 concernant la variance d’un ´echantillon, la d´emonstration faisant appel `a des consid´erations similaires. La perte de deux degr´es de libert´e s’explique par le fait qu’il y a deux liaisons lin´eaires d´eterministes entre les Yi − (β0 + β1 xi ) correspondant aux deux premi`eres ´equations de vraisemblance. L’ind´ependance est `a rapprocher de celle vue en proposition 5.3 entre moyenne et variance empiriques. n De cette proposition nous d´eduisons que E( i=1 [Yi − (β0 + β1 xi )]2 ) = 2 (n − 2)σ 2 . L’esp´erance math´ematique de σ 2 est donc n−2 n σ : cet estimateur est biais´e. C’est pourquoi on lui pr´ef`ere l’estimateur sans biais, obtenu en divisant la somme des carr´es des r´esidus par n − 2, que nous noterons S 2 , soit : 1 [Yi − (β0 + β1 xi )]2 . n − 2 i=1 n
S2 =
On montre que les estimateurs β0 , β1 et S 2 sont chacun UMVUE.
296
Statistique − La th´eorie et ses applications
Si lesxi sont choisis de telle sorte que pour tout n leur variance desn 2 erieure strictement positive criptive i=1 (xi − x) /n admette une borne inf´ ind´ependante de n et leur moyenne x admette une borne sup´erieure ´egalement ind´ependante de n, on voit imm´ediatement que V (β0 ) et V (β1 ) tendent vers 0 quand n → ∞. Alors β0 et β1 sont convergents en moyenne quadratique. Sachant que la variance d’une v.a. de loi χ2 (n − 2) est 2(n − 2) on a V (S 2 ) = 2σ 4 /(n − 2) et S 2 converge aussi (vers σ2 ) en moyenne quadratique.
11.2.3
Intervalles de confiance
Pour β0 et β1 on dispose d’une quantit´e pivot de mˆeme type que celle utilis´ee pour la moyenne d’une loi de Gauss en section 7.4.1. Pour β1 , par exemple, on a: β − β1 %1n ; N (0 ; 1) 2 σ/ i=1 (xi − x) d’o` u, en estimant σ 2 par S 2 , on obtient comme pour le th´eor`eme 5.2 : β − β1 %1n ; t(n − 2). 2 S/ i=1 (xi − x) On posera S 2 (β1 ) = S 2 / ni=1 (xi − x)2 pour noter l’estimateur de la variance de β1 . La variable al´eatoire (β1 − β1 )/S(β1 ) est donc une fonction pivot qui conduit imm´ediatement ` a l’intervalle de confiance suivant : (n−2) (n−2) IC0,95 (β1 ) = [β1 − t0,975 s(β1 ) ; β1 + t0,975 s(β1 )]
o` u:
s(β1 ) = %n
s
i=1 (xi
− x)2
,
s d´esignant la r´ealisation de S (et β1 d´esignant indiff´eremment l’estimation ou l’estimateur de β1 ). De mˆeme on obtient : (n−2) (n−2) IC0,95 (β0 ) = [β0 − t0,975 s(β0 ) ; β0 + t0,975 s(β0 )] )
2 1 o` u s(β0 ) = s + n x(xi −x)2 . n i=1
Il est int´eressant de construire un IC pour l’esp´erance de la r´eponse β0 +β1 x au niveau x de la variable explicative. On a : V (β0 + β1 x) = V (β0 ) + 2x cov(β0 , β1 ) + x2 V (β1 ) 2xx x2 x2 1 2 =σ − n + n + n 2 2 2 n i=1 (xi − x) i=1 (xi − x) i=1 (xi − x) 2 (x − x) 1 + n . = σ2 2 n i=1 (xi − x)
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
297
Par des d´eveloppements tout a` fait analogues aux pr´ec´edents on obtient : IC0,95 (β0 + β1 x) = (n−2) (n−2) [β0 + β1 x − t0,975 s(β0 + β1 x) ; β0 + β1 x + t0,975 s(β0 + β1 x)]
o` u:
s(β0 + β1 x) = s
1 (x − x)2 . + n 2 n i=1 (xi − x)
On constate que la largeur de l’IC est d’autant plus grande que l’on s’´eloigne de la valeur centrale x des valeurs fix´ees pour la variable explicative. On peut ´egalement ´etablir (voir les exercices) un intervalle de pr´ediction pour une observation au niveau x de la variable explicative.
11.2.4
Test H0 : β1 = 0
Ce test est essentiel car il d´ecide de l’int´erˆet du mod`ele (ou de la «significativit´e» de la variable explicative). En utilisant le r´esultat de la section pr´ec´edente on d´eduit que, sous H0 , β1 /S(β1 ) suit une loi de Student a` n − 2 degr´es de libert´e. On rejettera donc H0 au niveau α si : β1 (n−2) (n−2) ∈ / [−t1−α/2 , t1−α/2 ]. s(β1 ) Ce test est uniform´ement plus puissant parmi les tests sans biais. Comme pour le test de Student usuel vu en section 9.7.1 sa puissance pour une vraie valeur β1 se ( lit sur une loi de Student non centrale de param`etre de non centralit´e β1 / V (β1 ). On ne peut obtenir qu’une valeur approch´ee de cette puissance du fait que V (β1 ) doit ˆetre estim´e.
Notons que si le test est accept´e la loi conditionnelle de Y sachant X = x ne d´epend pas de x : les v.a. Yi sont toutes i.i.d. de loi N (β 0 , σ 2 ) et l’on se retrouve dans la situation classique d’un ´echantillon issu d’une loi de Gauss. Approche par l’analyse de variance3 On peut pr´ef´erer aborder ce test par la voie de la relation de d´ecomposition de la somme des carr´es totale. En effet cette relation et la formulation du test qui s’ensuit ont une validit´e g´en´erale pour tout type de mod`ele lin´eaire (en 3 Ne pas confondre avec le mod` ele d’analyse de variance qui concerne des variables explicatives cat´egorielles.
298
Statistique − La th´eorie et ses applications
particulier, on indiquera cela pour la r´egression multiple en section 11.2.7). Posons, pour simplifier les d´eveloppements, yi = β0 + β1 xi . La relation est : n
(yi − y) = 2
i=1
n
( yi − y) + 2
n
i=1
(yi − yi )2 .
i=1
Sa d´emonstration est propos´ee dans les exercices. Le premier terme est appel´e somme des carr´es totale car il exprime la variabilit´e des yi ind´ependamment de tout mod`ele explicatif. Le deuxi`eme terme se nomme somme des carr´es expliqu´ee par le mod`ele du fait qu’il ne prend en compte que les valeurs mod´elis´ees dont il rend compte de la variabilit´e (on v´erifiera sans peine que la moyenne des yi est ´egale `a y). Le troisi`eme terme est la somme des carr´es des r´esidus. D´emontrons la proposition suivante n concernant la somme des carr´es expliqu´es en tant que variable al´eatoire : i=1 (Yi − Y )2 . Proposition 11.2 Sous l’hypoth`ese H0 : β1 = 0, on a : n 2 i=1 (Yi − Y ) ; χ2 (1). 2 σ D´emonstration : en vertu de la relation de d´ecomposition exprim´ee en termes al´eatoires on peut ´ecrire : n
(Yi − Y )2 =
i=1
n
(Yi − Y )2 −
i=1
n
(Yi − β0 − β1 xi )2 ,
i=1
soit, en substituant β0 = Y − β1 x : n
n
(Yi − Y )2 =
i=1
(Yi − Y )2 −
i=1
= 2β1
n +
,2
(Yi − Y ) − β1 (xi − x)
i=1 n
(xi − x)(Yi − Y ) − β12
i=1
n
(xi − x)2 .
i=1
De l’expression de β1 en section 11.2.2 on d´eduit : n n (xi − x)(Yi − Y ) = β1 (xi − x)2 i=1
i=1
d’o` u, en substituant ce terme : n n 2 2 (Yi − Y ) = β1 (xi − x)2 . i=1
i=1
%n 2 2 Or, sous l’hypoth`ese β1 = 0, β1 i=1 (xi − x) /σ suit une loi N (0 ; 1) et son carr´e suit une loi χ2 (1), ce qui prouve la proposition.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
299
n Selon la proposition 11.1, σ12 i=1 (Yi − Yi )2 est ind´ependant de β1 et donc n n de σ12 i=1 (Yi − Y )2 = σ12 β12 i=1 (xi − x)2 . Sous H0 ces deux v.a. suivent, respectivement, des lois χ2 (n − 2) et χ2 (1). Le rapport de la seconde a` la premi`ere, apr`es division par leurs degr´es de libert´e, suit donc une loi de Fisher F (1, n − 2). Le param`etre σ 2 disparaissant et la somme des carr´es des r´esidus s’´ecrivant (n − 2)S 2 , ce rapport est : n F =
i=1 (Yi − S2
Y )2
.
Or, de fa¸con g´en´erale, E(S 2 ) = σ 2 et : n n (xi − x)2 E( (Yi − Y )2 ) = E(β12 ) i=1
i=1
n 6 72 = V (β1 ) + E(β1 ) (xi − x)2 i=1
= σ2 + β12
n
(xi − x)2 .
i=1
On voit que si β1 = 0 la somme des carr´es expliqu´ee tendra `a ˆetre sup´erieure `a S 2 et F peut ˆetre envisag´ee comme statistique de test incitant `a rejeter H0 pour des valeurs trop ´ elev´ ees sur la loi F (1, n−2). En effet il n’y a pas lieu de rejeter H0 lorsque F est faible puisque cela abonde dans le sens de l’hypoth`ese β1 = 0. Notons que ce test est ´equivalent au test de Student pr´esent´e initialement car, d’une part, la statistique F est le carr´e de la statistique β1 /S(β1 ) et, d’autre part (voir en fin de section 5.5), le carr´e d’une v.a. de loi t(n − 2) est une v.a. de loi F (1, n − 2). L’usage veut que l’on pr´esente les r´esultats menant a` cette statistique sous forme d’un tableau d’analyse de variance (voir le tableau de l’exemple 11.1 ciapr`es), cette appellation venant du fait que l’on y met en ´evidence les termes de la d´ecomposition de la variabilit´e totale `a travers les sommes de carr´es.
11.2.5
Cas non gaussien
Le couple (β0 , β1 ) n’est plus estimateur du MV mais demeure l’estimateur des moindres carr´es de (β0 , β1 ) car minimisant ni=1 [yi − (β0 + β1 xi )]2 . Par analogie avec l’estimation de la moyenne d’une n loi a` partir de la moyenne empirique x qui est la valeur de a minimisant i=1 (xi − a)2 , l’estimation de la droite de r´egression y = β0 +β1 x par la droite des moindres carr´es y = β0 + β1 xi semble ˆetre assez naturelle. Ceci est corrobor´e par le th´eor`eme suivant qui s’applique a` toute la mod´elisation lin´eaire et y justifie la pr´e´eminence de la m´ethode des moindres carr´es.
300
Statistique − La th´eorie et ses applications
Th´ eor` eme 11.1 (Gauss-Markov) Les estimateurs des moindres carr´es β0 et β1 sont, respectivement, estimateurs de variance minimale pour β0 et β1 parmi les estimateurs sans biais fonctions lin´ eaires des Yi . La d´emonstration est propos´ee dans la section des exercices. En r´ealit´e cette proposition s’´etend a` toute combinaison lin´eaire de β0 et β1 , et en particulier, pour tout x, β0 + β1 x est estimateur de variance minimale de β0 +β1 x parmi les estimateurs lin´eaires sans biais. Bien que la classe o` u β0 et β1 sont optimaux soit plus r´eduite qu’avec l’hypoth`ese gaussienne, la propri´et´e n’en reste pas moins int´eressante, d’autant plus qu’elle n’exige aucune hypoth`ese sur le type de loi des erreurs (hormis bien sˆ ur l’existence de la variance qui est implicite). Notons que les trois estimateurs β0 , β1 et S 2 restent sans biais car les d´emonstrations pr´ec´edentes ne recouraient pas `a la nature gaussienne des Yi . Pour β0 et β1 la convergence en moyenne quadratique est assur´ee dans les mˆemes conditions que ci-dessus. Quant `a celle de S 2 elle n’exige que l’existence du moment d’ordre 4 de la loi des erreurs. Les tests et intervalles de confiance sont ´etonnamment robustes, le th´eor`eme central limite agissant indirectement. Toutefois cette robustesse connaˆıt des limitations de mˆeme nature que pour l’inf´erence sur les moyennes de lois. En premier lieu la loi ne doit pas produire de valeurs extrˆemes (i.e. pas de queues de distribution trop allong´ees). Par ailleurs la condition de variance constante («homosc´edasticit´e») ne peut ˆetre assouplie que dans une faible mesure. On peut ´eventuellement recourir a` une transformation de Y pour stabiliser la variance (par exemple par la fonction Arcsin si Y est une proportion, par sa racine carr´ee si c’est un comptage de type Poisson).
11.2.6
R´ egression et corr´ elation lin´ eaires
2 Consid´erons un couple de v.a. (X, Y ) et adoptons les notations μX , μY, σX , et ρ pour leurs moyennes, leurs variances et leur coefficient de corr´elation lin´eaire. Supposons que la fonction de r´egression E(Y |X = x) soit lin´eaire. On montre alors (voir exercices) qu’elle est n´ecessairement de la forme :
σY2
E(Y |X = x) = μY + ρ
σY (x − μX ). σX
Y Donc on a, dans les notations pr´ec´edentes, β1 = ρ σσX . On peut constater imm´ediatement que la mˆeme relation vaut pour les estimateurs correspondants, Y o` u R est la corr´elation lin´eaire empirique d´efinie `a la fin de la i.e. β1 = R SSX section 5.2. On en d´eduit que R est l’estimateur du maximum de vraisemblance de ρ. En effet : SX S'X R = β1 = β1 SY S'Y
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
301
2 et β1 , S'X , S'Y sont les estimateurs du MV respectifs de β1 , σX , σY (S'X et S'Y2 2 2 d´esignent les variances empiriques, SX et SY les variances d’´echantillon, voir d´efinitions 5.4 et 5.5).
Comme σY et σX sont strictement positifs, β1 = 0 si et seulement si ρ = 0. En particulier les hypoth`eses H0 : β1 = 0 et H0 : ρ = 0 sont ´equivalentes. Par cons´equent, si l’on dispose d’un test pour l’une des hypoth`eses il vaut pour l’autre. Nous pouvons appliquer cela au cas d’un vecteur gaussien car il est facile de montrer que la fonction de r´egression est lin´eaire (voir exercices). Distinguons les deux situations de recueil des donn´ees, `a savoir avec un plan d’exp´erience (o` u les valeurs de X sont fix´ees a priori) ou avec des observations de X elles-mˆemes al´eatoires. Dans le premier cas le test H0 : β1 = 0 de la section 11.2.4 peut ˆetre consid´er´e ´egalement comme un test de non corr´elation entre les deux variables al´eatoires X et Y. Nous examinons maintenant plus en d´etail la deuxi`eme situation. Soit un ´echantillon de taille n : (X1, Y1 ), (X2 , Y2 ), · · · , (Xn , Yn ). Nous avons vu en section 9.7.7 un test de √ H0 : ρ = √0 fond´e sur un tel ´echantillon. Ce test reposait sur la statistique n − 2R/ 1 − R2 qui, sous H0 , suit une loi t(n − 2). Nous avons admis ce r´esultat que nous sommes maintenant en mesure de d´emontrer. Notons X = (X1 , X2 , . . . , Xn ) et x = (x1 , x2 , . . . , xn ) une r´ealisation de X. Consid´erons la statistique F vue plus haut (section 11.2.4) dans laquelle on remplace les xi par les v.a. Xi . Les d´eveloppements pr´ec´edents indiquent que la loi de F conditionnellement `a X = x est, sous H0 , la loi F (1, n − 2). Cette loi ne d´epend pas de x ce qui signifie que, sous H0, la statistique F est ind´ependante de X. La loi non conditionnelle de F (ou loi marginale) est donc aussi la loi F (1, n − 2). Ainsi F calcul´e `a partir des couples (Xi , Yi ) peut ˆetre utilis´e comme statistique de test pour H0 : ρ = 0. Pour ce qui concerne la mise en oeuvre ce test ne se distingue donc pas de celui vu plus haut lorsque les xi sont fix´es. Montrons qu’on a affaire au mˆeme test que celui propos´e en section 9.7.7 et, pour simplifier, raisonnons sur les r´ealisations. D’une relation ´etablie lors de la d´emonstration de la proposition 11.2, on d´eduit : n 2 [ i=1 (xi − x)(yi − y)] 2 r = n n 2 2 i=1 (xi − x) i=1 (yi − y) n (xi − x)2 β2 = 1n i=1 (yi − y)2 n i=1 ( yi − y)2 = i=1 . n 2 i=1 (yi − y) En raison de la d´ecomposition de la somme des carr´es totale on voit que le rapport de la somme des carr´es des r´esidus `a cette derni`ere est ´egal `a 1 − r2 (r2 est appel´e coefficient de d´etermination, voir section 9.7.7). Donc F (r´ealis´e) peut s’´ecrire :
Statistique − La th´eorie et ses applications
302
(n − 2)r2 . 1 − r2 Sa racine carr´ee est la r´ealisation de la statistique de Student (en valeur absolue) de la section 9.7.7. Or une v.a. de loi t(n − 2) ´elev´ee au carr´e est une v.a. de loi F (1, n − 2) ce qui prouve que les deux tests sont identiques. F =
Il est int´eressant de noter que la loi non conditionnelle de F est une loi F (1, n − 2), sous H0 , quelle que soit la loi marginale de X. Pour que le test s’applique rigoureusement il suffit donc que, pour tout x, la loi conditionnelle de Y sachant X = x soit gaussienne de variance σ 2 ind´ependante de x et que la fonction de r´egression de Y sur X soit lin´eaire. Nous venons de voir que le test usuel H0 : β1 = 0 est utilisable mˆeme si les xi sont des r´ealisations de v.a. Xi . On montre que les autres r´esultats ´etablis conditionnellement aux xi fix´es restent ´egalement valables `a condition que la loi marginale de X ne d´epende pas des param`etres β0 et β1 d´efinissant la fonction de r´egression de Y sur X. Exemple 11.1 Pour une enquˆete on a eu recours `a 54 enquˆeteurs. Pour chacun d’entre eux on dispose du nombre d’entretiens qu’il a effectu´es et de la dur´ee m´ediane de ceux-ci4 . On cherche `a v´erifier si le nombre d’entretiens effectu´es X est un facteur explicatif de la dur´ee de l’entretien Y . On a calcul´e initialement : x = 53 ; y = 30,535 ;
54
x2i
= 4274,8 ;
i=1
54
yi2
= 957,23 ;
i=1
54
xi yi = 1531,7 .
i=1
On en d´eduit les estimations suivantes : β0 = 33,668 s2 (β0 ) = 1,1057
; ;
β1 = −0,05911 ; s2 = 20,473 s2 (β1 ) = 0,0002589 ; cov( 8 β0 , β1 ) = −0,01371.
Pour le( test de l’hypoth`ese H0 : β1 = 0, la statistique de test prend la valeur t = β1 / s2 (β1 )= -3,68 ce qui correspond, pour la loi de Student t(52), `a une Pvaleur de l’ordre de 0,001. Le nombre d’entretiens effectu´es est donc un facteur explicatif tr`es significatif de la dur´ee m´ediane de ces entretiens. Le mˆeme test peut ˆetre conduit a` partir du tableau d’analyse de variance ci-apr`es. Source Expliqu´ee R´esiduelle Totale
Somme des Carr´es 276,53 1 064,59 1 341,12
ddl 1 52 53
Carr´es Moyens 276,53 20,47
F 13,51
P-valeur 0,001
Pour un niveau x = 50 entretiens on obtient une estimation de l’esp´erance de la dur´ee m´ediane des entretiens ´egale `a : β0 + β1 .50 = 30,713 4 Source
: Centre d’Etudes des Supports de Publicit´e, Paris.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
303
et un intervalle de confiance de niveau 0,95 associ´e : (52)
(52)
IC0,95 (β0 + β1 .50) = [30,713 − t0,975 .0,618 ; 30,713 + t0,975 .0,618] (52)
soit, avec t0,975 = 2,007, l’intervalle [29,47 ; 31,95]. La figure 11.1 indique les limites de confiance en fonction du niveau de x ainsi que les limites de pr´ediction (plus larges) d´ecrites dans les exercices. Au vu de la dispersion des points autour de la droite de r´egression la condition de variance constante est plausible.
Figure 11.1 - Donn´ees «enquˆeteurs» : droite de r´egression, limites de confiance, limites de pr´ediction.
11.2.7
Extension ` a la r´ egression multiple
Dans cette section nous montrons succinctement que l’´etude du mod`ele de r´egression simple s’´etend sans difficult´es en pr´esence de plusieurs variables explicatives. Dans le formalisme du mod`ele conditionnel pr´esent´e en section 11.1 on consid`ere p pr´edicteurs X1 , X2 , . . . , Xp et une fonction de r´egression de
Statistique − La th´eorie et ses applications
304
Y de la forme : E(Y | X1 = x1 , X2 = x2 , . . . , Xp = xp ) =β0 + β1 x1 + · · · + βp xp pour les niveaux respectifs x1 , x2 , . . . , xp de ces pr´edicteurs. Les autres hypoth`eses restent identiques : lois conditionnelles de Y gaussiennes et de mˆeme u Yi est variance σ 2 . Soit une s´erie d’observations ind´ependantes Y1 , Y2 , . . . , Yn o` observ´e pour les valeurs xi1 , xi2 , . . . , xip des variables explicatives. On recourt alors `a l’´ecriture matricielle suivante. On d´efinit le vecteur des observations Y = (Y1 , Y2 , . . . , Yn )t , puis le vecteur des p + 1 param`etres inconnus β = (β0 , β1 , . . . , βp )t et la n × (p + 1)-matrice du plan d’exp´erience X dont la i-`eme ligne est (1, xi1 , xi2 , . . . , xip ). On a alors, avec les notations de la section 3.8 : E(Y) = Xβ β , V(Y) = σ 2 In o` u In d´esigne la matrice identit´e d’ordre n. La log-vraisemblance s’´ecrit comme en section 11.2.2 en rempla¸cant β0 + β1 xi par β0 + β1 xi1 + · · · + βp xip . Les ´equations de vraisemblance obtenues en d´erivant par rapport a` chacun des p + 1 param`etres forment un syst`eme t β = Xt Y. On lin´eaire de p + 1 ´equations dont l’´ecriture matricielle est (X X)β suppose que les vecteurs colonnes de X sont lin´eairement ind´ependants (i.e. n > p et pas de redondance d’information dans les vecteurs pr´edicteurs ni de combinaison lin´eaire entre eux donnant un vecteur constant, ce qui signifierait une surparam´etrisation du mod`ele). Alors la matrice Xt X est inversible et on a la solution unique : = (Xt X)−1 Xt Y . β est ´egalement le vecteur des estimateurs des moindres carr´es, c’est-`a-dire tel β que :
9 92 9 2 9 β 9Y − Xβ 9 = min Y − Xβ β 2
o` u . repr´esente la norme euclidienne usuelle d’un vecteur de Rn . D’apr`es la proposition 3.13 on a : ) = (X X) Xt E(Y) = (X X) Xt Xβ E(β β =β ) = (Xt X)−1 Xt V(Y) X(Xt X)−1 = σ 2 (Xt X)−1 . V(β t
−1
t
−1
t −1 ; Np+1 (β Sachant que β β , σ 2 (X X) ) on peut proc´eder `a tout type d’inf´erence concernant les param`etres du mod`ele. Il est notamment int´eressant de tester des hypoth`eses du type H0 : βk = 0 permettant (pour k ≥ 1) de d´ecider de la pertinence de tel pr´edicteur particulier en pr´esence des autres pr´edicteurs. La statistique de test est analogue `a celle de la r´egression simple pour
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
305
H0 : β1 = 0 `a cette diff´erence pr`es que le nombre de degr´es de libert´e de la loi de Student devient ´egal `a n − (p + 1). Ceci d´ecoule du fait que la somme des carr´es des r´esidus ne comporte plus que n − (p + 1) degr´es de libert´e. Compte tenu de cette modification on peut construire un tableau d’analyse de variance semblable `a celui de la r´egression simple. La statistique F permet alors de tester l’hypoth`ese globale H0 : β1 = β2 = · · · = βp = 0, les valeurs critiques se rapportant a` la loi F (p, n − (p + 1)). Au-del`a du mod`ele de r´egression qui stipule l’existence d’une fonction de r´egression, un mod`ele lin´eaire dans sa forme la plus g´en´erale se d´efinit comme un vecteur d’observations Y tel que E(Y) = Xβ β et V(Y) = σ 2 In comme ci-dessus. Ceci inclut notamment les mod`eles d’analyse de variance o` u les variables explicatives (appel´ees alors facteurs) sont cat´egorielles ce qui conduit a` introduire dans la matrice X des variables indicatrices des diff´erentes cat´egories induites par ces facteurs. Les mod`eles lin´eaires g´en´eralis´es constituent un vaste ensemble d’extensions du mod`ele de r´egression multiple o` u, d’une part, les Yi r´epondent `a d’autres types de lois param´etriques que la loi de Gauss et, d’autre part, la u fonction de r´egression s’exprime sous la forme g(β0 + β1 x1 + · · · + βp xp ) o` g est une fonction connue. Le mod`ele logistique pr´esent´e ci-apr`es en offre une illustration particuli`erement importante. Pour un traitement plus complet de la r´egression lin´eaire on pourra consulter, pour les aspects math´ematiques, l’ouvrage classique de Seber (1977) et, pour les aspects pratiques, le livre de Dodge (1999).
11.3
La r´ egression logistique
11.3.1
Le mod` ele
Ce mod`ele est adapt´e au cas o` u la variable `a expliquer est binaire. En utilisant le codage 1/0 on la transforme en variable al´eatoire de Bernoulli. Plus pr´ecis´ement, dans le formalisme conditionnel expos´e en section 11.1, la loi de Y sachant X = x est une loi B(p(x)). La fonction de r´egression `a estimer est donc : E(Y |X = x) = p(x) o` u p(x) = P (Y = 1|X = x). Plus prosa¨ıquement, le probl`eme est de d´eterminer comment la probabilit´e de «succ`es» ´evolue en fonction du niveau de la variable X. Par exemple : quelle est la probabilit´e que le client d’une banque d´etienne des valeurs mobili`eres, en fonction de son niveau de revenu ? Nous ne sommes donc plus dans le cadre pr´ec´edent et le mod`ele de r´egression lin´eaire usuel n’est, en principe, pas appropri´e. Nous disons «en principe» car ce mod`ele est tr`es robuste vis-`a-vis de l’hypoth`ese gaussienne dans la mesure o` u
Statistique − La th´eorie et ses applications
306
l’on a un nombre suffisant d’observations, au mˆeme titre que l’approximation d’une loi binomiale par une loi de Gauss. Mais le mod`ele lin´eaire pose probl`eme pour une raison majeure : la fonction p(x) n’y est pas contrainte dans l’intervalle [0, 1] et les estimations peuvent donc produire des valeurs n´egatives ou sup´erieures `a 1. Le mod`ele logistique rem´edie `a cela. Ce mod`ele stipule que la probabilit´e conditionnelle de succ`es est de la forme : p(x) =
eβ0 +β1 x . 1 + eβ0 +β1 x
La fonction :
eu 1 + eu est appel´ee fonction logistique, elle est strictement croissante et prend ses valeurs dans l’intervalle [0,1] (voir figure 11.2). Sa fonction inverse est : u g −1 (u) = ln 1−u g(u) =
p et s’appelle fonction logit 5 . Pour une loi de Bernoulli B(p) le rapport 1−p a une certaine signification. On l’appelle parfois la chance ou la cote de succ`es (en anglais : odds). Dans le mod`ele logistique le logarithme de ce rapport est donc une fonction lin´eaire de la variable explicative :
ln
p(x) = β0 + β1 x. 1 − p(x)
Le mod`ele comporte donc deux param`etres inconnus β0 et β1. On notera par β le couple (β0 , β1 ) ou, indiff´eremment, le vecteur (β0 , β1 )t . Contrairement a` la r´egression classique il n’y a pas de variance de l’erreur a` estimer puisqu’une loi de Bernoulli B(p(x)) ne d´epend que du param`etre p(x).
11.3.2
Estimation de la fonction p(x)
Supposons que nous observions ind´ependamment les v.a. binaires Y1 , Y2 , · · · , Yn aux points x1 , x2 , · · · , xn de la variable explicative et d´eterminons l’estimateur du maximum de vraisemblance de β . Pour tout i, Yi ; B(p(xi )) et la fonction de probabilit´e de Yi est (voir section 4.1.2) : p(y) = p(xi )y (1 − p(xi ))1−y , y ∈ {0, 1} . La fonction de vraisemblance de β associ´ee `a une r´ealisation (y1 , y2 , · · · , yn ) de (Y1 , Y2 , · · · , Yn ) est donc : L(β β) =
n $
p(xi )yi (1 − p(xi ))1−yi
i=1 5 Ceci
am`ene une confusion entre mod`ele logit et mod`ele logistique. L’usage le plus r´epandu est de parler de r´egression logistique lorsque, comme ici, la (ou les) variable explicative est quantitative et de mod`ele logit lorsqu’elle (ou elles) est cat´egorielle.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
g (u ) =
1
307
eu 1 + eu
0,5
u
0 -6
-4
-2
0
2
4
6
Figure 11.2 - Fonction logistique.
avec : p(xi ) =
exp(β0 + β1 xi ) . 1 + exp(β0 + β1 xi )
La log-vraisemblance est ´egale `a : ln L(β β) =
n
{yi ln p(xi ) + (1 − yi ) ln[1 − p(xi )]} .
i=1
Les deux ´equations de vraisemblance sont ´etablies en d´erivant cette fonction par rapport a` β0 et par rapport a` β1 . Dans un premier temps consid´erons la d´eriv´ee de la fonction logistique g(u) : g (u) =
eu eu 1 = = g(u)[1 − g(u)]. u 2 u (1 + e ) 1 + e 1 + eu
Ainsi : ∂ p(xi ) = p(xi )[1 − p(xi )] ∂β0 ∂ p(xi ) = xi p(xi )[1 − p(xi )]. ∂β1 La d´eriv´ee du i-`eme terme de la log-vraisemblance par rapport a` β0 est donc : yi
p(xi )[1 − p(xi )] p(xi )[1 − p(xi )] − (1 − yi ) = yi − p(xi ) p(xi ) 1 − p(xi )
308
Statistique − La th´eorie et ses applications
et, de mˆeme, celle par rapport a` β1 est xi [yi − p(xi )]. D’o` u les ´equations de vraisemblance : ⎧ n ∂ ⎪ ⎪ ln L(β β ) = {yi − p(xi )} = 0 ⎪ ⎪ ⎨ ∂β0 i=1 ⎪ ⎪ ⎪ ⎪ ⎩
∂ ln L(β β) = {xi [yi − p(xi )]} = 0 ∂β1 i=1 n
ou, faisant apparaˆıtre β0 et β1 : ⎧ n n exp(β0 + β1 xi ) ⎪ ⎪ = yi ⎪ ⎪ ⎨ 1 + exp(β0 + β1 xi ) i=1
n ⎪ ⎪ ⎪ ⎪ xi ⎩ i=1
i=1
exp(β0 + β1 xi ) = xi y i 1 + exp(β0 + β1 xi ) i=1 n
.
Ces ´equations n’ont pas de solution explicite et paraissent complexes. Toutefois elles ne posent pas de difficult´es pour ˆetre r´esolues de fa¸con it´erative pour don = (β0 , β1 ). On en d´eduit l’estimateur de la fonction ner l’estimateur du MV β de r´egression en x quelconque :
p(x) =
eβ0 +β1 x 1 + eβ0 +β1 x
.
Matrice des variances-covariances de β
11.3.3
En approximation on utilise les propri´et´es asymptotiques de l’estimateur du MV. Soit I(β β ) la 2×2-matrice d’information de Fisher de β , on a alors (voir sec) [I(β tion 6.7.4) V(β β )]−1 . Explicitons la matrice I(β β ). En posant f (y; β ) pour la fonction de probabilit´e conjointe du vecteur al´eatoire Y = (Y1 , Y2 , · · · , Yn ) au point y = (y1 , y2 , · · · , yn ), on a (voir section 6.6.4) : ⎞ ⎛ 2 ∂2 ∂ ln f (Y; β ) −E ln f (Y; β ) −E ⎟ ⎜ 2 ∂β0 ∂β1 0 ⎟. ∂ β I(β β) = ⎜ 2 2 ⎠ ⎝ ∂ ∂ ln f (Y; β ) −E ln f (Y; β ) −E 2 ∂β0 ∂β1 ∂ β1 Or ln f (y; β ) n’est autre que la log-vraisemblance vue ci-dessus dont il faut calculer les d´eriv´ees partielles secondes, soit : n n n ∂ ∂2 ∂ ln L(β β ) = [y − p(x )] = − p(x ) = − p(xi )[1 − p(xi )]. i i i ∂ 2 β0 ∂β0 ∂β0 i=1
i=1
i=1
De mˆeme : n n ∂ ∂2 ln L(β β ) = x [y − p(x )] = − x2i p(xi )[1 − p(xi )] i i i ∂ 2 β1 ∂β1 i=1 i=1
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
309
et : n n ∂ ∂2 ln L(β β) = [yi − p(xi )] = − xi p(xi )[1 − p(xi )] . ∂β0 ∂β1 ∂β1 i=1
i=1
Ces d´eriv´ees secondes ne d´ependant plus des yi elles sont inchang´ees quand on u: passe aux esp´erances math´ematiques6 , d’o` ⎛
n
p(xi )[1 − p(xi )]
⎜ ⎜ i=1 I(β β) = ⎜ n ⎝ xi p(xi )[1 − p(xi )] i=1
⎞ xi p(xi )[1 − p(xi )] ⎟ ⎟ i=1 ⎟. n ⎠ 2 xi p(xi )[1 − p(xi )
n
i=1
), c’est-`a-dire substituer p(xi ) Comme β est inconnu il faut estimer I(β β ) par I(β ) on obtient une β ). En inversant I(β `a p(xi ) dans l’expression ci-dessus de I(β estimation de V(β ) que nous notons : s2 (β0 ) s2 (β0 , β1 ) V(β ) = s2 (β1 ) s2 (β0 , β1 ) o` u s2 (β0 ) est une estimation de la variance de β0 , s2 (β1 ) est une estimation de la variance de β1 et s2 (β0 , β1 ) est une estimation de la covariance entre β0 et β1 . Grˆ ace `a ces estimations on peut obtenir des intervalles de confiance et effectuer le test essentiel H0 : β1 = 0 pour d´ecider de la significativit´e de la variable explicative.
11.3.4
Test H0 : β1 = 0
En raison de la normalit´e asymptotique du maximum de vraisemblance, sous H0 la statistique β1 /s(β1 ) suit approximativement une loi N (0 ; 1) et on rejettera l’hypoth`ese de nullit´e au niveau 0,05 si sa r´ealisation n’est pas comprise dans l’intervalle ±1,96. Ce test est le test de Wald donn´e dans les logiciels. Parfois ce test est pr´esent´e avec le carr´e de la statistique ci-dessus dont la valeur critique doit alors ˆetre lue sur une loi χ2 (1). On peut ´egalement envisager le test du rapport de vraisemblance g´en´eralis´e fond´e sur la d´eviance : + , ) − ln L(β ) −2 ln L(β H0 6 Si, comme g´ en´ eralement dans les mod`eles complexes, les d´eriv´ ees secondes avaient ´et´ e e contraint d’estimer les esp´erances en prenant les expressions des fonction des yi on aurait ´et´ d´ eriv´ ees secondes telles qu’elles apparaˆıtraient ci-dessus.
Statistique − La th´eorie et ses applications
310
o` uβ β ) sous l’hyH0 est la valeur de β maximisant la log-vraisemblance ln L(β poth`ese H0 , c’est-`a-dire avec : p(xi ) =
exp β0 = p0 . 1 + exp β0
n Seule subsiste alors la premi`e re ´equation de vraisemblance i=1 (yi − p0 ) = 0 n dont la solution est p0 = n1 i=1 yi , la proportion de succ`es observ´ee. Cette solution est naturelle puisque sous H0 les Yi sont des variables al´eatoires de mˆeme moyenne et donc i.i.d.. On en d´eduit : = ln β H0
p0 1 − p0
qui permet de calculer la d´eviance ci-dessus. Celle-ci suit approximativement une loi χ2 (1) car H0 ne sp´ecifie qu’un seul param`etre. Ce test donne des d´ecisions g´en´eralement en accord avec celles du test de Wald. Notons qu’il existe un autre test, appel´e test du score, qui est encore plus proche du test du RV.
11.3.5
Intervalles de confiance
on peut utiliser le Toujours en vertu de la normalit´e asymptotique de β calcul de la matrice V(β ) pour ´etablir un IC sur chaque composante de β . Par exemple, pour β0 , on a : IC0,95 (β0 ) [β0 − 1, 96 s(β0 ) ; β0 + 1, 96 s(β0 )]. Toutefois l’intervalle de confiance qui nous int´eresse le plus concerne la proportion de succ`es p(x) pour une valeur donn´ee x de la valeur explicative. Consid´erons tout d’abord un IC sur β0 + β1 x. Asymptotiquement, son estimateur du MV β0 + β1 x est gaussien et de variance : V (β0 + β1 x) = V (β0 ) + 2x cov(β0 , β1 ) + x2 V (β1 ) que l’on estime par : s2 (β0 + β1 x) = s2 (β0 ) + 2x s2 (β0 , β1 ) + x2 s2 (β1 ). D’o` u l’IC approch´e : IC0,95 (β0 + β1 x) [β0 + β1 x − 1,96 s(β0 + β1 x); β0 + β1 x + 1,96 s(β0 + β1 x)] . De cet intervalle on d´eduit celui sur p(x) en appliquant aux deux bornes la eu fonction croissante g(u) = . 1 + eu Cette proc´edure est la proc´edure duale (voir section 9.8) du test de Wald.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
311
Exemple 11.2 Lors d’une enquˆete de sant´e publique 307 individus d’ˆ ages variant entre 18 et 85 ans ont ´et´e ´etudi´es7 . Parmi ceux-ci 133 souffraient d’une maladie chronique. Sachant que la proportion de personnes ayant une maladie chronique augmente avec l’ˆage, on envisage un mod`ele logistique pour estimer la probabilit´e d’un tel type d’affection en fonction de l’ˆ age. La solution des deux ´equations de vraisemblance obtenue par un logiciel math´ematique ou statistique est : β0 = −2,284 β1 = 0,04468 . La probabilit´e d’avoir une maladie chronique a` l’ˆ age x est donc estim´ee par : p(x) = −2,284+0,04468 x . En calculant les p(xi ) pour chacune des observations on d´eduit l’expression de ) qui est invers´ee pour donner : la matrice I(β 0,1349 −0,2639 × 10−2 ) = β V( . −0,2639 × 10−2 0,5814 × 10−4 La r´ealisation de la statistique de Wald pour tester H0 : β1 = 0 est ´egale `a % 0,04468/ 0,5814 × 10−4 = 5,86 ce qui correspond a` une P-valeur pratiquement nulle (2×10−9 ). L’ˆ age est donc un facteur explicatif tr`es significatif pour la pr´esence d’une maladie chronique. Pour le test du RVG on a : n )= yi ln L(β H0
ln p0 +
i=1
n
(1 − yi ) ln(1 − p0 )
i=1
avec p0 = 133/307 = 0,4332. Soit : ) = 133 ln (0,4332) + 174 ln (0,5668)= − 210,1 . ln L(β H0 De mˆeme on calcule : ) = ln L(β
n
{yi ln p(xi ) + (1 − yi ) ln[1 − p(xi )]}
i=1
= −190,4 pour obtenir finalement la valeur prise par la d´eviance : + , ) − ln L(β ) = 39,4 −2 ln L(β H0 7 Echantillon non repr´ esentatif extrait de l’enquˆete Health Statistics 1990 aupr` es de 7200 personnes, effectu´ee par Statistics Netherlands.
Statistique − La th´eorie et ses applications
312
qui donne aussi une P-valeur quasi nulle sur la loi χ2 (1). Notons que le carr´e de la statistique de Wald r´ealis´ee est (5,86)2 = 34,3, ce qui est proche de la valeur obtenue par le RVG. Donnons un IC a` 95% pour β1 . On a : % % IC0,95 (β1 ) = [0,04468 − 1,96 0,5814 × 10−4 ; 0,04468 + 1,96 0,5814 × 10−4 ] = [0,02974 ; 0,05963]. Certains logiciels statistiques donnent un IC pour eβ1 , soit ici [1,030 ; 1,060]. Cette valeur, estim´ee ici par eβ1 = 1,046, a une signification particuli`ere. Comme β1 correspond `a l’accroissement du logit de p(x) quand x s’accroˆıt d’une unit´e, eβ1 est le rapport des chances (odds ratio) d’une ann´ee `a l’autre. Voyons maintenant un IC sur la probabilit´e d’avoir une maladie chronique `a l’ˆ age de 50 ans. On a β0 + β1 × 50 = −0,050 et p(50) = 0,488 . Puis : s2 (β0 + β1 × 50) = 0,1349 + 2 × 50 × (−0,2639)2 + (50)2 × 0,5814 × 10−4 = 0,01635 . √ L’intervalle de confiance pour β0 + β1 × 50 est donc −0,050±1,96 0,01635 soit [−0,301 ; 0,201], d’o` u finalement : IC0,95 (p(50)) = [0,425 ; 0,550].
Il est int´eressant de constater qu’un mod`ele lin´eaire ajust´e sur la variable r´eponse 1/0 donne une estimation : p'(x) = −0,0166 + 0,0101 x qui se diff´erencie tr`es peu de celle du mod`ele logistique. En effet pour x = 50 on obtient une probabilit´e identique 0,488 et pour les aˆges extrˆemes de 20 et 80 ans on obtient respectivement 0,185 et 0,791 contre 0,199 et 0,784 pour l’approche logistique. Ceci s’explique par le fait que la plage d’ˆ ages observ´ee se situe dans la partie centrale et quasi lin´eaire de la courbe logistique (voir figure 11.2).
11.3.6
Remarques diverses
1. La r´egression logistique illustre l’int´erˆet de la m´ethode du maximum de vraisemblance. Dans un mod`ele complexe il est peu probable de pouvoir d´egager des estimateurs optimaux des param`etres. Cette m´ethode garantit (moyennant des conditions faibles de r´egularit´e) des estimateurs `a faibles biais - et ceci d’autant plus que la taille d’´echantillon est ´elev´ee - dont on peut par ailleurs estimer les variances et covariances pour construire des tests et intervalles de confiance approch´es.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
313
2. Le mod`ele logistique n’est ´evidemment pas la panac´ee. Une condition n´ecessaire, mais non suffisante, pour qu’il s’applique est que la probabilit´e soit de toute ´evidence une fonction monotone de la variable explicative. Parmi d’autres possibilit´es signalons les mod`eles probit et gompit. Le premier utilise a` la place de la fonction logit g(u) la fonction de r´epartition Φ(u) de la loi N (0 ; 1). Celle-ci restant toutefois tr`es proche de g(u), le mod`ele correspondant ne se diff´erencie pratiquement pas du mod`ele logistique. Le mod`ele gompit utilise la fonction h(u) = 1 − exp(− exp(u)) qui permet d’attribuer des probabilit´es plus fortes sur les extrˆemes mais n’est pas sym´etrique. A l’instar de l’exemple pr´ec´edent, bien des situations peuvent simplement ˆetre mod´elis´ees par une fonction lin´eaire. Mˆeme pour une r´eponse binaire les tests et IC vus en section 11.2 fournissent des r´esultats approch´es corrects. Ceci confirme la forte robustesse du mod`ele lin´eaire vis-` a-vis de l’hypoth`ese gaussienne. 3. Divers diagnostics et tests ont ´et´e propos´es pour v´erifier l’ad´equation du mod`ele (notamment le test de Hosmer et Lemeshow, 2000). Une fa¸con simple et rapide de v´erifier si p(x) semble bien suivre l’allure voulue est de grouper les donn´ees par classes (par exemple former des classes d’ˆage dans l’exemple ci-dessus), de calculer dans chaque classe la proportion de succ`es observ´ee et de tracer de mani`ere lisse la courbe passant par les points dont les abscisses sont les milieux des classes et les ordonn´ees sont les proportions correspondantes. 4. Comme pour la r´egression lin´eaire la r´egression logistique peut s’´etendre `a une r´egression multiple (plusieurs variables explicatives). Les principes de calculs sont une extension naturelle de ceux vus ci-dessus qui ne pose pas de difficult´es sp´ecifiques. 5. Si la variable explicative est cat´egorielle on peut appliquer la r´egression logistique en introduisant les variables indicatrices de chaque cat´egorie, sauf pour l’une d’entre elles qui sert alors de cat´egorie de r´ef´erence. Ceci est `a rapprocher de l’analyse de variance `a un facteur du mod`ele lin´eaire. Toutefois, comme dans le cas lin´eaire, on a affaire a` des interpr´etations particuli`eres qui rel`event d’une m´ethodologie propre. A cette fin, et comme il a ´et´e indiqu´e en note de bas de page dans la section 11.3.1, on pr´ef`ere parler de mod`ele logit lorsque la ou les variables explicatives sont toutes cat´egorielles.
Pour approfondir le sujet de la r´egression avec r´eponse binaire on pourra consulter les ouvrages : Droesbeke, Lejeune et Saporta (2004) ou, en anglais, Agresti (2002) et Chap (1998).
314
Statistique − La th´eorie et ses applications
11.4
La r´ egression non param´ etrique
11.4.1
Introduction
Nous nous situons ici, comme en section 8.5, dans le cadre de l’estimation fonctionnelle : la fonction de r´egression g(x) est totalement inconnue et est l’objet mˆeme `a estimer. Une telle approche peut se r´ev´eler utile si l’on n’a pas d’id´ee pr´ecise sur une forme fonctionnelle ad´equate ou si la forme de la fonction est complexe et se prˆete mal `a une mod´elisation par une forme param´etrique simple. Un avantage de la r´egression non param´etrique est de fournir une proc´edure automatique d’ajustement quel que soit le type de donn´ees. Elle est `a classer parmi les m´ethodes dites adaptatives. On peut voir comme un inconv´enient le fait qu’elle ne livre pas un mod`ele sous forme de formule facilement r´eutilisable pour la pr´evision, mais donne uniquement une description point par point de la fonction. Toutefois on pourra concevoir la proc´edure comme une premi`ere ´etape, sans aucune restriction, pour orienter ensuite la recherche d’une forme param´etrique adapt´ee. Nous pr´esenterons la m´ethode des noyaux qui, plus que toute autre, est une approche tr`es intuitive du probl`eme et qui sera en coh´erence avec l’estimation de densit´e ou de fonction de r´epartition expos´ee en section 8.5. Par ailleurs la r´egression polynomiale locale, plus performante, que l’on ´etudiera en fin de section, en est un prolongement naturel. Les m´ethodes usuelles ne concernent que les ph´enom`enes o` u la variable r´ eponse varie en moyenne de fa¸ con lisse en fonction de la variable explicative. De fait on fera l’hypoth`ese que la fonction de r´egression g(x) est d´erivable au moins `a l’ordre 2. Comme pour les mod`eles param´etriques de ce chapitre on supposera que la variance conditionnelle de la variable Y sachant X = x est ind´ependante de x et ´egale `a σ 2 .
11.4.2
D´ efinition des estimateurs ` a noyaux
Les estimateurs `a noyaux de r´egression (en anglais : kernel estimators) ont ´et´e introduits simultan´ement par Nadaraya (1964) et Watson (1964) qui se sont inspir´es des d´eveloppements accomplis dans le domaine de l’estimation de densit´e. Ils reposent sur une id´ee tr`es intuitive proche de celle, plus ancienne, de moyenne mobile. Pour estimer g(x), o` u x est un niveau donn´e de la variable explicative, a` partir des r´ealisations (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), on prend la moyenne des valeurs des yi pour l’ensemble des observations dont les niveaux
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
315
sont situ´es dans un voisinage (ou fenˆetre) [x − h, x + h] autour de x, soit8 : n
gn (x) =
yi I[x−h,x+h] (xi )
i=1 n
I[x−h,x+h] (xi )
i=1
o` u I[x−h,x+h] (xi ) est ´egal `a 1 si xi ∈ [x − h, x + h] et 0 sinon. En introduisant le noyau de Rosenblatt (voir section 8.5.2) : K(u) = 1/2 si −1 ≤ u ≤ 1 et 0 sinon, on peut ´ecrire : n
gn (x) =
i yi K( x−x h )
i=1 n
. i K( x−x h )
i=1
Cette forme se prˆete `a la g´en´eralisation `a un noyau quelconque K introduisant une moyenne pond´er´ee des yi . Rappelons qu’une fonction K est un noyau si elle est paire et si son int´egration sur R donne 1. Dans le cas de la densit´e qui reste positive ou nulle on a impos´e ´egalement que K ne soit pas n´egative. Cette condition est moins cruciale dans le cas de la r´egression (les moyennes mobiles utilis´ees pour le lissage des s´eries chronologiques comprennent d’ailleurs des coefficients n´egatifs afin de r´eduire le biais). Les propri´et´es de continuit´e et d´erivabilit´e se transf´erant `a la fonction estim´ee on aura avantage, comme pour la densit´e, `a choisir un noyau de type biweight, par exemple, qui soit d´erivable aux bornes du support.
11.4.3
Biais et variance
Comme en r´egression lin´eaire nous distinguerons deux cas, selon que les xi sont d´etermin´es par un plan d’exp´erience ou qu’ils sont r´ealisations de variables al´eatoires Xi .
Cas des xi fix´ es L’estimateur gn (x) en un point x donn´e ´etant une fonction lin´eaire des Yi , i le biais et la variance se calculent ais´ement. Posant wi = K( x−x h ) on a : 8 La plupart des propri´ et´ es que nous expliciterons sont de nature asymptotique. C’est pourquoi nous indi¸cons l’estimation gn (x) par n comme pour la densit´e. De plus nous utiliserons la mˆ eme notation pour estimation et estimateur.
316
Statistique − La th´eorie et ses applications n
E( gn (x)) − g(x) =
wi (g(xi ) − g(x))
i=1
n
wi
i=1 n
wi2
i=1
V ( gn (x)) = σ 2 (
n
wi
. )2
i=1
Pour fixer les id´ees prenons le cas de valeurs xi espac´ees r´eguli`erement sur l’intervalle d’int´erˆet [a, b]. Si n est assez grand on peut approcher la somme finie par une int´egrale pour obtenir (voir Gasser et M¨ uller, 1984) : E( gn (x)) − g(x) = V ( gn (x)) =
1
−1
K(u)[g(x + uh) − g(x)]du + o(
b−a 2 σ nh
1 −1
[K(u)]2 du + O(
1 ) nh
1 ). n2
Ces formules sont tr`es semblables `a celles de la densit´e et conduisent aux mˆemes conditions n´ecessaires pour la convergence en moyenne quadratique, `a savoir n → ∞, h → 0, nh → ∞. Pour pr´eciser le comportement du biais prenons le d´eveloppement de Taylor : 1 g(x + uh) = g(x) + uhg (x) + (uh)2 g (x) + O(h3 ) 2 d’o` u: E( gn (x)) − g(x) =
h2 g (x) 2
1 −1
u2 K(u)du + O(h3 ) + o(
1 ). nh
A partir de ces formules asymptotiques il est possible d’´etudier la vitesse de convergence de l’e.q.m. pour la valeur de h optimale en x fix´e. Les d´eveloppements sont analogues `a ceux de la densit´e et l’on trouve ´egalement une vitesse optimale de l’ordre de n−4/5 avec h de l’ordre de n−1/5 . Toutefois ces formules ne sont valables que si la fenˆetre [x − h, x + h] est int´egralement contenue dans l’intervalle [a, b]. Si, par exemple, x − h < a avec
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
317
x − qh = a o` u 0 ≤ q < 1, le terme uhg (x) du d´eveloppement de Taylor fournit 1 un premier terme de biais hg (x) −q K(u)du g´en´eralement non nul. Supposons que la fonction de r´egression g soit pratiquement lin´eaire au voisinage de x. Si la fenˆetre est `a l’int´erieur de [a, b] le biais est nul par compensation de part et d’autre de x, mais si x − h < a la partie gauche de la fenˆetre contient moins de points ce qui introduit le biais. Notons aussi que si g admet un extremum en x alors le biais est du signe de g (x) ce qui entraˆıne un ph´enom`ene d’´ecrˆetement d´ej`a rencontr´e pour l’estimation de densit´e. Ici aussi l’on peut introduire des noyaux d’ordre 4 contenant n´ecessairement une plage n´egative (voir les remarques diverses en fin de section 8.5.2) pour rem´edier `a ce probl`eme. C’est d’ailleurs pour cette mˆeme raison que les moyennes mobiles utilisent des poids n´egatifs sur les extr´emit´es. eatoires Cas des Xi al´ On supposera que la densit´e conjointe fX,Y du couple (X, Y ) est continue dans R2 . On peut alors montrer que gn (x) converge en probabilit´e vers g(x) en tout point x tel que fX (x) = 0. Collomb (1977) a ´etabli les formules asymptotiques du biais et de la variance suivantes (sous certaines conditions de r´egularit´e de fX,Y et de K) : fX (x) 1 u K(u)du g (x) E( gn (x)) − g(x) = h + g (x) + o(h2 ) fX (x) 2 −1 1 σ2 1 1 V ( gn (x)) = [K(u)]2 du + o( ) . nh fX (x) −1 nh
2
1
2
Ces formules d’approximation asymptotique restent tr`es th´eoriques car en pratique les valeurs de h convenables sont loin d’ˆetre faibles mˆeme avec des grands ´echantillons. De plus, elles n’int`egrent pas les effets de bord. N´eanmoins elles refl`etent bien les ´ecueils des estimateurs `a noyaux. Dans le cas o` u X suit une loi continue uniforme sur [a, b] on retrouve les formules et les probl`emes pr´ec´edents. Si la loi de X n’est pas uniforme il s’introduit un terme de biais suppl´ementaire 1 fX (x) eme si g est lin´eaire, dˆ u au gradient de densit´e h2 −1 u2 K(u)du .g (x) fX (x) , mˆ autour de x mis en ´evidence par fX (x), lequel d´es´equilibre la sym´etrie. La r´egression par noyau pr´esente, nous venons de le voir, des inconv´enients majeurs : effets de bord (importants vu les largeurs de fenˆetre n´ecessaires `a un lissage satisfaisant), ´ecrˆetement des extrema, pr´esence de biais mˆeme pour une fonction de r´egression lin´eaire si la densit´e de X n’est pas uniforme ou, dans le cas d’un plan d’exp´erience, si la r´epartition des xi n’est pas r´eguli`ere. La m´ethode qui suit va y rem´edier.
318
11.4.4
Statistique − La th´eorie et ses applications
La r´ egression polynomiale locale
Cette m´ethode (RPL) est une g´en´eralisation de la m´ethode Local Weighted Regression ou LOWESS de Cleveland (1979) propos´ee par Lejeune9 (1983) dans le cadre de l’estimation par noyau. Elle consiste, pour estimer g(x), `a ajuster une fonction polynomiale de degr´e s choisi, sur les couples de points (xi , yi ) dont les xi sont situ´es dans le voisinage (fenˆetre) [x − h, x + h] de x. L’ajustement s’entend au sens classique des moindres carr´es des r´esidus yi − yi (voir section 11.2) et est donc un cas particulier de r´egression lin´eaire multiple, la fonction polynomiale ´etant lin´eaire par rapport aux param` etres inconnus. Il se r´esout matriciellement comme indiqu´e en section 11.2.7. Alors g(x) est estim´e par la valeur ajust´ee au point x que nous noterons g'n (x). Soit P (u) = a0 + a1 u + · · · + as us un polynˆ ome de degr´e s. Cet ajustement s’op`ere avec les valeurs de a0 , a1 , . . . , as telles que l’expression : n i=1
2
[yi − (a0 + a1 xi + · · · + as xsi )] K(
x − xi ) h
soit minimale, o` u K est la fonction indicatrice de l’appartenance de la valeur xi `a la fenˆetre (K(u) = 1 si |u| ≤ 1, 0 sinon). Soit a0 , a1 , . . . , as les valeurs permettant d’atteindre le minimum, g(x) est alors estim´e par g'n (x) = a0 + as xs . a1 x + · · · + Comme pour l’estimateur a` noyau les propri´et´es de la fonction K se transf`erent `a la fonction g'n et l’on aura avantage a` substituer a` la fonction indicatrice une fonction de pond´eration d´erivable partout, ce qui conduit a` une solution des moindres carr´es pond´er´es. On montre ais´ement que la solution matricielle de la section 11.2.7 pour le vecteur des param`etres devient (Xt WX)−1 Xt WY i o` u W est la n × n−matrice diagonale des poids K( x−x es aux n obh ) affect´ servations. On pourra choisir pour K le noyau le plus simple poss´edant les qualit´es requises, `a savoir le biweight de Tukey. Notons d’ailleurs que l’estimation par noyau correspond aui cas particulier s = 0, car la valeur de a0 qui minimise ni=1 [yi − a0 ]2 K( x−x er´ee des yi avec les poids h ) est la moyenne pond´ i ). K( x−x h Intuitivement on peut voir les avantages de la m´ethode pour autant que s soit sup´erieur `a 0. En effet on per¸coit bien qu’avec un simple ajustement local lin´eaire (s = 1) on doit pouvoir prendre en compte les probl`emes r´esultant du diff´erentiel de densit´e de points de part et d’autre de la valeur x, en particulier le probl`eme des effets de bord. De mˆeme, mais avec s = 2, il est possible d’obtenir un meilleur ajustement pour les zones a` forte courbure, notamment en ce qui concerne le probl`eme de l’´ecrˆetement des extrema. Nous allons v´erifier cela sur les propri´et´es de la RPL. 9 A l’origine la m´ ethode a ´ et´ e ´ egalement appel´ee «r´ egression polynomiale mobile» par r´ ef´ erence ` a la moyenne mobile analogue dans son esprit ` a l’estimateur ` a noyau.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
319
Cas des xi fix´ es On d´emontre (voir Lejeune, 1984, 1985) que la RPL au degr´e s : 1. produit, en tout x fix´e, un biais en O(hs+1 ) quelle que soit la r´epartition des xi et quelle que soit la fonction de poids utilis´ee, 2. est, avec des pond´erations uniformes et pour une largeur de fenˆetre fix´ee, l’estimateur de variance minimale de g(x) parmi les estimateurs lin´eaires (en fonction des Yi ) dont le biais est en O(hs+1 ). La premi`ere propri´et´e montre le caract`ere adaptatif de la RPL pour ce qui concerne le probl`eme du biais. Quant `a l’optimalit´e exprim´ee dans la seconde propri´et´e elle doit ˆetre quelque peu sacrifi´ee si l’on veut b´en´eficier de la d´erivabilit´e de la fonction g'n . Toutefois l’incidence est faible car la fonction de poids n’influe pas de fa¸con tr`es sensible sur la variance.
Cas des Xi al´ eatoires Le biais et la variance asymptotiques ont ´et´e ´etablis par Fan (1993). En fait la variance ne d´epend pas du degr´e de la RPL et reste ´egale `a celle indiqu´ee plus haut pour l’estimateur a` noyau correspondant au cas s = 0. Pour le biais on obtient pour s ≥ 1 : E(' gn (x)) − g(x) =
hs+1 (s+1) g (x) (s + 1)!
1
us+1 K(u)du + o(hs+1 ).
−1
Par rapport `a l’estimateur `a noyau classique on constate qu’avec s = 1 le terme dˆ u au gradient de densit´e autour de x (mis en ´evidence par le facteur (x)/fX (x) ) disparaˆıt. g (x)fX En pratique le choix s = 1, propos´e `a l’origine par Cleveland et repris par divers auteurs, n’est cependant pas satisfaisant car il ne traite pas le probl`eme de l’´ecrˆetement des extrema (ou, plus g´en´eralement, du biais dans les zones `a forte courbure). Pour cela on peut consid´erer qu’un ajustement parabolique (s = 2) suffira, d’autant qu’` a n fini la variance augmente avec l’ordre du biais. La figure 11.3 illustre la bonne qualit´e d’un tel ajustement. Notons que la RPL n’´evite pas le probl`eme du choix de la largeur de fenˆetre. N´eanmoins on constate que l’estimation de g(x) est moins sensible `a ce param`etre qu’avec un estimateur `a noyau. Pour approfondir la r´egression non param´etrique on pourra consulter les ouvrages de Haerdle (1990) et de Simonoff (1996).
320
Statistique − La th´eorie et ses applications
Figure 11.3 - Estimation par r´egression polynomiale locale de degr´e 2 avec pond´erations biweight et h = 0, 4 : ´echantillon de 100 observations simul´ees par un mod`ele sinuso¨ıdal `a erreurs N (0 ; 4) avec abcisses U[0, 1]. Reproduction autoris´ee de la Revue de Statistique Appliqu´ee, vol. XXXIII, n ◦ 3, page 62, 1985.
11.5
Exercices
Exercice 11.1 Soit (X, Y ) un couple al´eatoire gaussien de param`etres μX , μY, 2 σX , σY2 et ρ. Partant de l’expression matricielle g´en´erale de la section 3.9 d´evelopper l’expression analytique de la densit´e conjointe du couple.
Chapitre 11. R´egressions lin´eaire, logistique et non param´etrique
321
Montrer que la loi conditionnelle de Y sachant X = x est gaussienne de Y (x − μX ) et de variance σY2 (1 − ρ2 ). moyenne μY + ρ σσX Aide : on utilisera le r´esultat de la section 3.2 pour la densit´e conditionnelle : f (x,y) fY |X=x (y) = X,Y fX (x) . Exercice 11.2 * Soit (X, Y ) un couple al´eatoire non n´ecessairement gaussien 2 , σY2 et ρ. Montrer de moyennes, variances et corr´elation lin´eaire μX , μY, σX que si E(Y |X = x) est une fonction lin´eaire de x alors cette fonction est Y (x − μX ). μY + ρ σσX Aide : Soit ϕ(x) = E(Y |X = x). Calculer E(ϕ(X)) d’une part de fa¸con g´en´erale en passant par la formule pour la densit´e conditionnelle : E(Y |X = x) =
R
y
fX,Y (x, y) dy fX (x)
et d’autre part par l’expression lin´eaire E(Y |X = x) = β0 + β1 x pour obtenir une premi`ere ´equation en β0 et β1 , puis calculer de mˆeme E(Xϕ(X)) pour obtenir une deuxi`eme ´equation. Montrer que si, de plus, la variance conditionnelle V (Y |X = x) ne d´epend pas de x alors elle est ´egale `a σY2 (1 − ρ2 ). Aide : Soit ψ(x) = V (Y |X = x). Calculer E(ψ(X)) d’une part en d´ecentrant V (Y |X = x) et d’autre part en tenant compte de la propri´et´e sur V (Y |X = x). Exercice 11.3 D´emontrer la formule de d´ecomposition de la somme des carr´es totale pour la r´egression lin´eaire simple. yi − y) et montrer, en rempla¸cant yi Aide : partir de yi − y = (yi − yi ) + ( n par y + β1 (xi − x), que i=1 (yi − yi )( yi − y) = 0. Exercice 11.4 (intervalle de pr´ediction) Dans le cadre de la r´egression lin´eaire gaussienne simple on cherche `a pr´evoir une observation Y0 pour le niveau x0 de la variable explicative. Montrer que
Y0 − (β0 + β1 x2 0 ) suit une loi de Gauss de moyenne 0 et de va(x −x) 1 0 2 riance σ 1 + n + n (xi −x)2 (aide : Y0 est ind´ependante des Yi sur lesquels i=1 reposent β0 et β1 ). En d´eduire que : ) 1 (n−2) P β0 + β1 x0 − t0,975 S 1 + + n
2 n(x0 −x) 2 (x −x) i i=1
) (n−2) β0 + β1 x0 + t0,975 S
1+
1 + n
< Y0 <
2 n(x0 −x) 2 i=1 (xi −x)
= 0, 95.
Les r´ealisations des bornes d’encadrement de Y0 (qui sont al´eatoires) constituent un «intervalle de pr´ediction a` 95%» pour Y0 .
322
Statistique − La th´eorie et ses applications
Exercice 11.5 * D´emontrer le th´eor`eme 11.1 pour β1 (cet exercice n´ecessite la connaissance de la m´ethode du multiplicateur de Lagrange). Aide :n ´etablir les deux contraintes sur les ai pour qu’un estimateur de la forme i=1 ai Yi soit sans biais pour β1 . Puis minimiser la variance d’un tel estimateur sous ces contraintes. Exercice 11.6 Pour la r´egression simple, d´eterminer la statistique λ du test du rapport de vraisemblance g´en´eralis´e pour l’hypoth`ese H0 : β1 = 0 et montrer que c’est une fonction d´ecroissante de la statistique F.
Corrig´ es des exercices
Corrig´es des exercices
325
Chapitre 1 : Variables al´ eatoires Exercice 1.1 Clairement, on a (avec la convention A0 = ∅) : n
n
j=1
j=1
∪ Aj = An = ∪ (Aj ∩ Aj−1 )
et :
∞
∞
n=1
n=1
∪ An = ∪ (An ∩ An−1 ) .
La suite {An ∩ An−1 } ´etant une suite d’´ev´enements incompatibles, on a : ∞
P ( ∪ An ) = n=1
∞
P (An ∩ An−1 )
n=1
= lim
n→∞
n
P (Aj ∩ Aj−1 )
j=1
= lim P n→∞
n
∪ (Aj ∩ Aj−1 )
j=1
= lim P (An ) . n→∞
Note : Soit X une v.a. de fonction de r´epartition FX , montrons que P (X < x) = FX (x− ). Consid´erons l’´ev´enement An =] − ∞, x − n1 ] – soit, ∞
avec la convention de notation usuelle (X ≤ x − n1 ). Comme ∪ An =] − ∞, x[, n=1
on a : P (X < x) = lim P (X ≤ x − n1 ) = lim FX (x − n1 ). Or, en raison de la n→∞
n→∞
non-d´ecroissance de FX , lim FX (x − n1 ) = lim FX (x − ε) = FX (x− ). n→∞
ε→0
Exercice 1.2 Utilisons le fait que {B n } est une suite croissante. On a : ∞
∞
P ( ∩ Bn ) = 1 − P ( ∪ B n ) n=1
n=1
= 1 − lim P (B n ) n→∞
= 1 − lim [1 − P (Bn )] = lim P (Bn ). n→∞
n→∞
326
Statistique - La th´eorie et ses applications
Note : Dans le mˆeme contexte d’application que celui de la note pr´ec´edente, prenons Bn =]−∞, x+ n1 ]. On a ainsi lim P (Bn ) = lim FX (x+ n1 ) = FX (x+ ). n→∞
∞
n→∞
Comme ∩ Bn =]−∞, x] il d´ecoule du r´esultat pr´ec´edent que FX (x+ ) = FX (x), n=1 ce qui ´etablit la continuit´e `a droite de la fonction de r´epartition.
Exercice 1.3 Consid´erons la suite croissante d’´ev´en´ements {An } avec An =] − ∞, n]. ∞ Comme ∪ An = R, on a : n=1
∞
P ( ∪ An ) = 1 = lim P (An ) = lim FX (n). n→∞
n=1
n→∞
En raison de la non d´ecroissance de FX , on a lim FX (n) = lim FX (x) = n→∞
x→∞
FX (+∞) = 1. ∞ De mˆeme avec An =] − n, +∞], on a P ( ∪ An ) = 1 = lim P (An ) = n=1
u lim [FX (−n)] = 0 soit FX (−∞) = 0. lim [1 − FX (−n)], d’o`
n→∞
n→∞
n→∞
Exercice 1.4 Consid´erons la suite d´ecroissante d’´ev´en´ements {Bn } avec Bn =]x − n1 , x]. Notons que pour tout n, Bn est un bien ´ev´enement puisque : ]x −
1 1 , x] =] − ∞, x] ∩ ] − ∞, x − ] . n n
∞
Or ∩ Bn = {x}, ´ev´enement dont la probabilit´e se note conventionnellement n=1
P (X = x). D’o` u, d’apr`es le r´esultat de l’exercice 1.2 : 1 P (X = x) = lim P (Bn ) = lim P (x − < X ≤ x) n→∞ n→∞ n 1 = lim FX (x) − FX (x − ) n→∞ n 1 = FX (x) − lim FX (x − ) = FX (x) − FX (x− ). n→∞ n Note : Dans la note de l’exercice 1.1, on a ´etabli que P (X < x) = FX (x− ). Comme (X ≤ x) = (X < x) ∪ (X = x) le r´esultat ci-dessus est alors imm´ediat.
Corrig´es des exercices
327
Exercice 1.5 La fonction de probabilit´e pX de X est d´efinie sur N∗ = {1, 2, 3, · · · }. 2 pX (1) = 16 , pX (2) = 56 16 , pX (3) = 56 61 et plus g´en´eralement : pX (k) = On a bien :
k∈N∗
k−1 5 1 6 6
pX (k) =
1 6
+ 1+
P (1 < X ≤ 3) = pX (2)+ pX (3) =
5 6
51 66
pour k ∈ N∗ .
+
5 2
+
6
5 2 6
, + ··· = 1 6
1 6
+
1 1− 56
, = 1.
0, 255 .
Pour k ∈ N∗ on a :
2 k k 1 5 5 5 5 1+ + + ··· = . P (X > k) = 6 6 6 6 6
Donc FX (k) = 1 −
5 k 6
et plus g´en´eralement :
" FX (x) =
1−
0 5 k 6
pour x < 1 pour x ∈ [k, k + 1[
Son graphe est une fonction en escalier avec sauts des marches aux valeurs 1, 2, 3, · · · . Il y a continuit´e `a droite (voir figure 1.1). Note : Il s’agit d’une variante de la loi g´eom´etrique (section 4.1.4)
Exercice 1.6 On doit avoir d’abord f (x) ≥ 0 pour x ∈ [0, 1] soit c > 0 puisque x(1−x) ≥ 0 sur [0, 1]. Puis :
1
1
cx(1 − x)dx = c
0
(x − x2) dx = c
0
x2 x3 − 2 3
1 =c 0
1 6
doit ˆetre ´egal `a 1. +D’o` u c =,6. La fonction de r´epartition vaut, pour x ∈ [0, 1] : x 2 3 6 0 (x − x2) dx=6 x2 − x3 . Plus g´en´eralement : ⎧ ⎪ ⎪ ⎨ F (x) =
⎪ ⎪ ⎩
+ 6
x2 2
0 ,pour x ≤ 0 3 pour x ∈ [0, 1] − x3 1 pour x ≥ 1
328
Statistique - La th´eorie et ses applications
On v´erifie que F est continue partout. La m´ediane est la valeur de x telle que F (x) = 12 . L’´equation n’est pas simple a` r´esoudre mais l’on peut constater que le graphe de f (x) est sym´etrique par rapport a` x = 12 qui est donc la m´ediane (et la moyenne). Note : Il s’agit de la loi bˆeta Beta(1, 1) (section 4.2.9).
Exercice 1.7 La fonction F (x) est non d´ecroissante, elle part de 0 et tend vers 1 quand x tend vers +∞. Comme elle est continue partout, elle caract´erise une v.a. continue. Elle est strictement croissante sur le support [0, +∞[ de la loi et les x0,25 quantiles sont donc uniques. Le premier quartile x0,25 v´erifie 1−e− 2 = 0, 25, d’o` u x0,25 = −2 ln(1 − 0, 25) 0, 575. De mˆeme x0,75 = −2 ln(1 − 0, 75) 2, 77. 1
2
P (1 < X ≤ 2) = F (2) − F (1) = e− 2 − e− 2 0, 239. Note : Il s’agit de la loi exponentielle E( 12 ) (section 4.2.2).
Exercice 1.8 Posons Y = 1/X. Au support [0, 1] de X correspond le support [1, +∞[ de Y. Alors, pour y ∈ [1, +∞[, on a : FY (y) = P (Y ≤ y) = P ( Or, pour t ∈ [0, 1], FX (t) =
t 0
1 1 1 ≤ y) = P (X ≥ ) = 1 − FX ( ). X y y
2xdx = t2 . D’o` u: "
0 pour y ≤ 1 . 1 − y12 pour y ≥ 1
FY (y) =
On v´erifie la continuit´e de FY au point y = 1. Posons Z = ln(1/X). Au support [0, 1] de X correspond le support [0, +∞[ de Z. Alors, pour z ∈ [0, +∞[, on a : FZ (z) = P (Z ≤ z) = P (ln( "
D’o` u: FZ (z) =
1 1 1 ) ≤ z) = P (X ≥ z ) = 1 − FX ( z ). X e e
0 pour z ≤ 0 . 1 − e−2z pour z ≥ 0
Corrig´es des exercices
329
On v´erifie la continuit´e de FZ au point z = 0. Il s’agit de la loi exponentielle E(2) (section 4.2.2). Exercice 1.9 Sur [0, 1] on a FX (x) = x. Au support [0, 1] de X correspond le support [0, +∞[ de Y. Alors, pour y ∈ [0, +∞[, on a : FY (y) = P (Y ≤ y) = P (−θ ln(1 − X) ≤ y) = P (ln(1 − X) ≥ − yθ ) y y FY (y) = P (X ≤ 1 − e− θ ) = 1 − e− θ . Pour y ≤ 0 FY (y) vaut 0. On v´erifie la continuit´e de FY au point y = 0. Note : Il s’agit de la loi exponentielle E( 1θ ) (section 4.2.2). La transformation de nombres au hasard par la fonction −θ ln(1 − x) permet donc de simuler des observations d’une loi exponentielle E( 1θ ) (voir section 4.3).
330
Statistique - La th´eorie et ses applications
Chapitre 2 : Esp´ erance math´ ematique et moments Exercice 2.1 E(Y ) = (02 − 1) × 0, 7 + (12 − 1) × 0, 2 + (22 − 1) × 0, 1 = −0, 4.
Exercice 2.2 Suivons la m´ethode de la section 1.6. FZ (z) = P (Z ≤ z) = P (g(X) ≤ z). Comme g est croissante, l’´ev´enement (g(X) ≤ z) est identique `a l’´ev´enement (X ≤ g −1 (z)), donc : FZ (z) = P (X ≤ g −1 (z)) = FX (g −1 (z)). Par d´erivation, on obtient : (g −1 (z))(g−1 (z)) = fX (g−1 (z))(g −1 (z)) fZ (z) = FZ (z) = FX
ce qui peut s’´ecrire, puisque g −1 est ´egalement croissante et (g −1 ) est positive : fZ (z) = fX (g −1 (z))|(g −1 (z)) | . Si g est d´ecroissante, l’´ev´enement (g(X) ≤ z) est identique `a (X ≥ g −1 (z)), donc : FZ (z) = P (X ≥ g −1 (z)) = 1 − FX (g −1 (z)). Par d´erivation, fZ (z) = FZ (z) = −FX (g −1 (z))(g−1 (z)) = −fX (g −1 (z))(g−1 (z)) . Comme g −1 est d´ecroissante, (g −1 ) est n´egative et fZ (z) = fX (g −1 (z))|(g −1 (z)) | ´egalement.
Soit maintenant g strictement croissante, variant de a `a b quand x croˆıt de −∞ `a +∞ (o` u a et b peuvent, respectivement, ˆetre −∞ ou +∞). Alors :
b
E(Z) = a
z fX (g −1 (z))(g −1 (z)) dz.
Corrig´es des exercices
331
Effectuons le changement de variable x = g −1 (z) avec dx = (g −1 (z)) dz et z = g(x), d’o` u imm´ediatement :
+∞
E(Z) = −∞
g(x) fX (x) dx.
Soit g strictement d´ecroissante. Supposons que g(x) d´ecroˆıt de b `a a (a < b) quand x croˆıt de −∞ ` a +∞ (o` u a et b peuvent, respectivement, ˆetre −∞ ou +∞). Alors : b −z fX (g −1 (z))(g−1 (z)) dz E(Z) = a
et par le changement de variable x = g −1 (z) on obtient :
−∞
E(Z) =
−g(x) fX (x) dx =
+∞
−∞
g(x) fX (x) dx. +∞
Exercice 2.3 Soit X de densit´e f (x), alors :
+∞
1 etx e−|x| dx 2 −∞ 0 +∞ 1 1 = etx ex dx + etx e−x dx 2 2 −∞ 0 0 +∞ 1 1 e(t+1)x dx + e(t−1)x dx = 2 −∞ 2 0 ,0 ,+∞ + + 1 1 = + e(t+1)x e(t−1)x 2(t + 1) 2(t − 1) −∞ 0 1 1 (t+1)x (t−1)x + 1 − lim e lim e = −1 x→−∞ 2(t + 1) 2(t − 1) x→+∞
Ψ(t) = E(etX ) =
La premi`ere limite est 0 si t + 1 > 1, soit t > −1, et la deuxi`eme est 0 si t < 1. Donc Ψ(t) est d´efinie au voisinage de 0 et : Ψ(t) =
1 (t − 1) − (t + 1) 1 1 − = = pour |t| < 1. 2(t + 1) 2(t − 1) 2(t2 − 1) 1 − t2
En d´eveloppant Ψ(t) en s´erie enti`ere (voir Note 2.3) : Ψ(t) = 1 + t2 + t4 + · · · ,
332
Statistique - La th´eorie et ses applications
on acc`ede directement aux moments, d’o` u : μ2 = 2! = 2, μ4 = 4! = 24. Ce sont aussi les moments centr´es, donc le coefficient d’aplatissement vaut : 24 μ4 −3= −3=3 σ4 4 ce qui indique un pic plus pointu en la moyenne que pour la loi de Gauss.
Exercice 2.4 On a :
+∞
E(X) = a
θ a θ+1 x dx = θaθ a x
+∞ a
1 dx. xθ
L’int´egrale ci-dessus ne convergeant que si θ > 1, la moyenne n’existe qu’`a cette condition et vaut alors : −θ+1 +∞ x θ E(X) = θa −θ + 1 a −θ+1 a aθ = . = θaθ θ−1 θ−1 Puis : E(X 2 ) = a
+∞
x2
θ a θ+1 dx = θaθ a x
+∞ a
1 dx. xθ−1
L’int´egrale ci-dessus ne convergeant que si θ > 2, E(X 2 ) et la variance n’existent qu’`a cette condition. Alors :
+∞ x−θ+2 −θ + 2 a −θ+2 θa2 a = . = θaθ θ−2 θ−2
E(X 2 ) = θaθ
Ainsi : θa2 θ 2 a2 − θ − 2 (θ − 1)2 θa2 (θ − 1)2 − θ2 a2 (θ − 2) θa2 [θ2 − 2θ + 1 − θ(θ − 2)] = = 2 (θ − 2)(θ − 1) (θ − 2)(θ − 1)2 θa2 = (θ − 2)(θ − 1)2 2
V (X) = E(X 2 ) − [E(X)] =
Corrig´es des exercices
333
G´en´eralisons `a μr = E(X r ) avec r > 2, r entier : +∞ +∞ θ a θ+1 1 xr dx = θaθ dx. E(X r ) = θ−r+1 a x x a a L’int´egrale ne converge que si θ − r + 1 > 1, soit θ > r. Notons qu’il en va de mˆeme pour μr = E((X − μ)r ) qui s’exprime en fonction de μr , μr−1 , · · · , μ2 , μ. Or si μr existe, les moments d’ordres inf´erieurs existent. Pour θ > r on a donc : E(X r ) = θaθ
x−θ+r −θ + r
+∞ = θaθ a
θar . = θ−r
a−θ+r θ−r
La condition θ > r laisse entendre que la fonction g´en´eratrice − permettant pour θ fix´e d’obtenir tous les moments − ne peut exister, ce que nous v´erifions directement en calculant : +∞ +∞ tx θ a θ+1 e etx dx = θaθ dx. Ψ(t) = E(etX ) = θ+1 a x x a a Or, quel que soit θ ∈ R,
tx lim eθ+1 x→+∞ x
→ +∞ si t > 0 et l’int´egrale ne peut
converger. Donc Ψ n’est d´efinie dans aucun voisinage de 0, condition n´ecessaire pour la d´efinition de la fonction g´en´eratrice des moments afin que Ψ (0), Ψ (0), etc., puissent exister.
Exercice 2.5 1. E(
1 )= X
1 0
1 2 3x dx = 3 x
1
x dx = 3 0
2. X prend ses valeurs sur [0, 1] donc Y = Ainsi FY (y) = 0 si y ≤ 1. Soit y ≥ 1, alors :
1 X
x2 2
1 = 0
3 . 2
prend ses valeurs sur [1, +∞[.
1 ≤ y) X 1 1 = P ( ≤ X) car > 0 et X ne prend que des valeurs positives, y y 1 = 1 − FX ( ) y
FY (y) = P (
334
Statistique - La th´eorie et ses applications
Or :
x
FX (x) =
3t2 dt = x3 pour x ∈ [0, 1] ,
0
donc :
1 pour y ≥ 1 (et 0 sinon). y3
FY (y) = 1 −
On v´erifie que la continuit´e est assur´ee pour y = 1 car l’expression ci-dessus vaut 0 pour y = 1. Par d´erivation on a : fY (y) =
3 y4
pour y ≥ 1 (et 0 sinon),
d’o` u:
+∞
y
E(Y ) = 1
=3
−2
y −2
3 y4
+∞ 1
+∞
= 1
dy = 3 3 . 2
1 dy y3
Corrig´es des exercices
335
Chapitre 3 : Couples et n-uplets de variables al´ eatoires Exercice 3.1 On a : E(X) = 1 × 0, 35 + 2 × 0, 45 + 3 × 0, 20 = 1, 85 E(Y ) = 1 × 0, 48 + 2 × 0, 33 + 3 × 0, 19 = 1, 71 E(X 2 ) = 12 × 0, 35 + 22 × 0, 45 + 32 × 0, 20 = 3, 95 E(Y 2 ) = 12 × 0, 48 + 22 × 0, 33 + 32 × 0, 19 = 3, 51 V (X) = 3, 95 − (1, 85)2 = 0, 5275
V (Y ) = 3, 51 − (1, 71)2 = 0, 5859
E(XY ) = 1 × 1 × 0, 22 + 1 × 2 × 0, 11 + · · · + 3 × 3 × 0, 07 = 3, 33 cov(X, Y ) = 3, 33 − 1, 85 × 1, 71 = 0, 1665 et finalement : corr(X, Y ) = √
0, 1665 = 0, 2995. 0, 5275 × 0, 5859
Exercice 3.2 Soit X et Y les deux variables al´eatoires. On a, quelles qu’elles soient : cov(X + Y, X − Y ) = cov(X + Y, X) − cov(X + Y, Y ) = cov(X, X) + cov(Y, X) − cov(X, Y ) − cov(Y, Y ) = V (X) − V (Y ). Il suffit que les deux variables soient de mˆeme loi pour que la covariance soit nulle. L’ind´ependance n’est pas n´ecessaire.
Exercice 3.3 L’´ev´enement (X + Y = 0) ´equivaut a` (X = 0, Y = 0) − c’est-`a-dire (X = 0)∩(Y = 0) − dont, par l’ind´ependance, la probabilit´e vaut (1−p)(1−p).
336
Statistique - La th´eorie et ses applications
De mˆeme (X + Y = 0) ´equivaut `a : (X = 0, Y = 1) ou (X = 1, Y = 0) soit une probabilit´e totale de 2 × p(1 − p), etc. valeurs possibles 0 1 2 La loi de X +Y est d´efinie par : 2 2p(1 − p) p2 avec probabilit´es (1 − p) On ´etablit de la mˆeme fa¸con la loi de X − Y : valeurs possibles avec probabilit´es
-1 p(1 − p)
0 p + (1 − p)2 2
1 p(1 − p)
L’´ev´enement (X + Y = 0, X − Y = 0) ne se r´ealise que si et seulement si (X = 0, Y = 0) (puisque le syst`eme des deux ´equations x + y = 0 et x − y = 0 n’a qu’une seule solution : x = 0 et y = 0). Par cons´equent : P (X + Y = 0, X − Y = 0) = P (X = 0, Y = 0) = (1 − p)2 , alors que P (X +Y = 0)P ( X −Y = 0) = (1−p)2 [p2 +(1−p)2 ], ce qui est diff´erent dans les cas non d´eg´en´er´es (i.e. p = 0 et p = 1). On en d´eduit donc que X + Y et X − Y ne sont pas deux v.a. ind´ependantes. Toutefois cov(X + Y, X − Y ) = 0 comme il a ´et´e montr´e dans l’exercice 3.2 ci-dessus, ce qui illustre le fait qu’une corr´elation lin´eaire nulle n’implique pas n´ecessairement l’ind´ependance.
Exercice 3.4 Calculons P (Z ≤ z|X = x). P (Z ≤ z|X = x) = P (X + Y ≤ z|X = x) = P (x + Y ≤ z|X = x) = P (Y ≤ z − x|X = x) = P (Y ≤ z − x) car X et Y sont ind´ependantes. Donc FZ|X=x (z) = FY (z − x) et, en d´erivant par rapport a` z, fZ|X=x (z) = fY (z − x). On a montr´e en fin de section 3.2 que : fZ|X=x (z) =
fX,Z (x, z) , fX (x)
d’o` u: fX,Z (x, z) = fY (z − x)fX (x)
Corrig´es des exercices et (voir aussi section 3.2) : +∞ fX,Z (x, z) dx = fZ (z) = −∞
+∞
−∞
337
fY (z − x)fX (x) dx .
Notons que par le changement de variable y = z − x cette densit´e s’´ecrit +∞ ´egalement −∞ fY (y)fX (z − y) dy Pour T = X − Y on se ram`ene au cas pr´ec´edent en posant U = −Y , d’o` u T = X + U. La loi de U est donn´ee par : FU (y) = P (U ≤ y) = P (−Y ≤ y) = P (−y ≤ Y ) = 1 − FY (−y) , d’o` u fU (y) = fY (−y). En appliquant la formule plus haut, on obtient : +∞ +∞ fU (t − x)fX (x) dx = fY (x − t)fX (x) dx , fT (t) = −∞
−∞
ce qui s’´ecrit encore, par changement de variable y = x − t : +∞ f (y)fX (t + y) dy . −∞ Y Exercice 3.5 Comme fX (x) = 1 pour 0 ≤ x ≤ 1 et fY (y) = 1 pour 0 ≤ y ≤ 1, par l’ind´ependance on a fX,Y (x, y) = 1 dans le carr´e du plan {(x, y) | 0 ≤ x ≤ 1, 0 ≤ y ≤ 1} et 0 ailleurs. Ainsi la probabilit´e de toute r´egion `a l’int´erieur du carr´e est ´egale `a son aire. Posons Z = X + Y et calculons sa fonction de r´epartition P (Z ≤ z). On voit sur la figure 3.1 qu’il faut distinguer le cas z ≤ 1 du cas z > 1. 1) Pour z ∈ [0, 1] L’´ev´enement (X + Y ≤ z) correspond alors aux r´ealisations (x, y) du couple (X, Y ) appartenant au domaine A indiqu´e sur la figure. Son aire ´etant ´egale `a z 2 /2 on a P (Z ≤ z) = z 2 /2 si 0 ≤ z ≤ 1. 2) Pour z ∈ [1, 2] L’´ev´enement (X + Y ≤ z) correspond alors aux r´ealisations (x, y) du couple (X, Y ) appartenant au carr´e, a` l’exclusion du domaine B indiqu´e sur la figure dont l’aire est (2 − z)2 /2. D’o` u P (Z ≤ z) = 1 − (2 − z)2 /2 si 1 < z ≤ 2. Donc : ⎧ si z ≤ 0 ⎪ ⎪ 0 ⎪ ⎨ z 2 /2 si 0 ≤ z ≤ 1 . FX+Y (z) = 2 ⎪ (2 − z) /2 si 1 ≤ z ≤ 2 ⎪ ⎪ ⎩ 1 si 2 ≤ z
338
Statistique - La th´eorie et ses applications
On v´erifie qu’il y a continuit´e entre les diff´erents morceaux de la fonction de r´epartition. D´erivons pour d´ecrire la densit´e : ⎧ ⎪ ⎨ z fX+Y (z) = 2−z ⎪ ⎩ 0
si 0 ≤ z ≤ 1 si 1 ≤ z ≤ 2 sinon
dont le graphe fait apparaˆıtre un triangle dont la base est le segment [0, 2] sur l’axe des abcisses. Cette loi est naturellement appel´ee loi triangulaire. Note : Pour le calcul de la densit´e on aurait pu appliquer directement le r´esultat de l’exercice 3.4 mais en ´etant attentif aux bornes de l’int´egrale. En premier +∞ z lieu −∞ fY (z − x)fX (x) dx se ram`ene `a z−1 fX (x) dx puisque fY (z − x) = 1 quand 0 < z − x < 1, soit z − 1 < x < z. Pour calculer cette derni`ere int´egrale, z il faut distinguer le cas 0 < z < 1 o` u elle vaut 0 1 dx = z, et le cas 1 < z < 2 1 o` u elle vaut z−1 1 dx = 2 − z. Exercice 3.6 La surface ´etant XY, on a E(XY ) = E(X)E(Y ) = μX μY (voir la proposition 3.7). De plus, V (XY ) = E((XY )2 ) − [E(XY )]2 . Or E((XY )2 ) = E(X 2 Y 2 ) = E(X 2 )E(Y 2 ). En effet, comme X et Y sont ind´ependantes, X 2 et Y 2 le sont 2 + μ2X et E(Y 2 ) = σY2 + μ2Y , on aussi (proposition 3.4). Puisque E(X 2 ) = σX a: 2 2 2 2 V (XY ) = (σX + μ2X )(σY2 + μ2Y ) − (μX μY )2 = σX σY + μ2X σY2 + μ2Y σX . Exercice 3.7 La v.a. X ayant pour fonction de probabilit´e : " p si x = 1 p(x) = , 1 − p si x = −1 on a : E(X) = p + (−1)(1 − p) = 2p − 1 E(X 2 ) = 12 p + (−1)2 (1 − p) = 1 V (X) = E(X 2 ) − [E(X)]2 = 1 − (2p − 1)2 = 4p(1 − p).
Corrig´es des exercices
339
Soit maintenant n ´etapes successives de d´eplacements X1 , X2 , · · · , Xn , ces v.a. ´etant ind´ependantes et chacune suivant la loi ci-dessus. La position r´esultante n ´etant Y = i=1 Xi , on a : E(Y ) = nE(X) = n(2p − 1) V (Y ) = nV (X) = 4np(1 − p). De toute ´evidence, si p > 1/2 alors E(Y ) > 0 et, inversement, si p < 1/2 alors E(Y ) < 0.
Exercice 3.8 Appliquons avec p = 2 la formule g´en´erale de la densit´e gaussienne d’un p−vecteur gaussien : ! 1 1 t −1 fX (x1 , x2 , · · · , xp ) = exp − (x − μ) Σ (x − μ) . 2 (2π)p/2 (det Σ)1/2 La matrice des variances-covariances est : 2 ρσX σY σX Σ= ρσX σY σY2 L’inverse d’une 2 × 2−matrice inversible A = −1
A
1 = det A
d −c
−b a
2 2 on a det Σ = σX σY (1 − ρ2 ) et :
Σ−1
1 = 2 2 σX σY (1 − ρ2 )
. a c
b d
´etant :
o` u det A = ad − bc ,
σY2 −ρσX σY
−ρσX σY 2 σX
.
L’expression dans l’exponentielle se r´eduit ici `a A = − 12 (x, y) Σ−1 a c x Comme (x, y) = ax2 + 2cxy + by 2 on a : c b y A=− =−
1 2 2 2 2 2 σ 2 (1 − ρ2 ) (σY x − 2ρσX σY xy + σX y ) 2σX Y x2 xy y2 1 ( − 2ρ + ) 2 2(1 − ρ2 ) σX σX σY σY2
Par ailleurs, la constante devant l’exponentielle est bien
1
1
2π(det Σ) 2
.
x y
.
340
Statistique - La th´eorie et ses applications
Chapitre 4 : Les lois de probabilit´ es usuelles Exercice 4.1 La marche al´eatoire est d´ecrite dans l’exercice 3.7. Notons que lorsque X prend respectivement les valeurs 1 et −1, Y = + 1) prend les valeurs 1 et 0. X prenant la valeur 1 avec probabilit´e p, Y suit une loi de Bernoulli B(p). 1 (X 2
La v.a. de la marche al´eatoire apr`es n pas est T = Comme Xi = 2Yi − 1, avec Yi ; B(p) , on a : T =2 o` uS=
n
n
n i=1
Xi .
Yi − n = 2S − n
i=1
Yi suit une loi binomiale B(n, p) : n k p (1 − p)n−k pour k = 0, 1, 2, · · · , n. P (S = k) = k
i=1
Comme l’´ev´enement (S = k) ´equivaut a` (T = 2k − n) on a, en posant t = 2k − n, la loi suivante pour T : n+t n−t n P (T = t) = n+t p 2 (1 − p) 2 pour t = −n, −n + 2, · · · , n − 2, n. 2
Exercice 4.2 Soit X qui suit une loi binomiale n´egative BN (r, p), d’o` u (voir section 4.1.4) : r+x−1 r p (1 − p)x pour x ∈ N. x Sa fonction g´en´eratrice des moments est (section 2.5) : r + x − 1 etx ΨX (t) = E(etX ) = pr (1 − p)x x x∈N r + x − 1 [(1 − p)et ]x . = pr x
P (X = x) =
x∈N
Corrig´es des exercices
341
Pour calculer la somme ci-dessus, posons 1 − q = (1 − p)et et notons qu’en vertu de la fonction de probabilit´e d’une loi BN (r, q) on a : r + x − 1 q r (1 − q)x = 1 x x∈N
r + x − 1 1 (1 − q)x = r . x q
et :
x∈N
Notons que ceci est vrai si 0 < 1 − q < 1 et que, de toute fa¸con, les sommes ci-dessus sont divergentes si 1 − q > 1 puisque (1 − q)x → +∞ quand x → +∞. 1 1 ou t < ln 1−p ou Il est donc n´ecessaire que 0 < (1 − p)et < 1 soit 0 < et < 1−p t < − ln(1 − p) Finalement, en revenant `a la derni`ere ´ecriture deΨX (t), on a : ΨX (t) = pr =
1 qr
pr [1 − (1 − p)et ]r
qui est bien l’expression donn´ee en section 4.1.4. Pour obtenir E(X), d´erivons par rapport a` p chaque terme de l’´egalit´e : r + x − 1 pr (1 − p)x = 1 x x∈N
ce qui donne : r + x − 1 r + x − 1 r−1 x p (1 − p) − r pr (1 − p)x−1 = 0, x x x x∈N
x∈N
soit en multipliant par p : r−
d’o` u E(X) =
r(1−p) . p
r+x−1 r p p (1 − p)x = 0 x x 1−p x∈N p r− E(X) = 0 1−p
On peut ´evidemment arriver a` ce r´esultat en calculant ΨX (0) comme indiqu´e en proposition 2.2.
342
Statistique - La th´eorie et ses applications
Exercice 4.3 On posera q = 1 − p pour simplifier les ´ecritures. Notons que, par interchangeabilit´e des notions de succ`es et ´echec, n−x → ∞ pour les valeurs d’int´erˆet de n − x. On a : n! px q n−x P (X = x) = x!(n − x)! En appliquant la formule de Stirling pour n! , x! et (n − x)! on obtient : 1/2 1 nx nn−x n P (X = x) ∼ √ px q n−x x x (n − x)n−x 2π x(n − x) 1/2 x n−x −1 x n−x 1 1 P (X = x) ∼ √ , x x np nq 2π n n (1 − n ) soit, en posant u = x − np (donc 1 P (X = x) ∼ √ 2πnpq
u n
→ 0 puisque u 1+ np
→p):
x n
u+np
u 1− nq
u−nq −1
Le logarithme de l’expression entre parenth`eses est ´egal `a : (u + np) ln(1 +
u u ) + (u − nq) ln(1 − ) np nq
et ´equivalent a` : (u + np)
u u2 u2 u2 u − 2 2 + (u − nq) − − 2 2 = np 2n p nq 2n q 2npq
donc : ! ! u2 (x − np)2 1 1 exp − exp − =√ P (X = x) ∼ √ 2npq 2npq 2πnpq 2πnpq qui est la fonction de la densit´e de U en x. Montrons maintenant que cette expression est ´equivalente `a : P (x −
1 1 1 1 < U < x + ) = FU (x + ) − FU (x − ). 2 2 2 2
Par la formule des accroissements finis on a : 1 1 FU (x + ) − FU (x − ) = fU (x + h) 2 2
Corrig´es des exercices
343
o` u h ∈ (− 12 , + 12 ) et fU est la fonction de densit´e de U , donc : ! 1 (x + h − np)2 . exp − fU (x + h) = √ 2npq 2πnpq Mais fU (x + h) ∼ fU (x) car : fU (x + h) = exp fU (x)
−(x + h − np)2 + (x − np)2 2npq
!
! h x h = exp − 2( − p) + 2pq n n
tend vers 1 quand n → ∞, ce qui montre que P (X = x) ∼ P (x − 12 < U < x + 12 ). Cela constitue une approximation d’une loi binomiale par une loi de Gauss quand n est grand (voir section 5.8.3). Annexe : Justifions sommairement le fait que les valeurs utiles de x tendent vers l’infini en recourant `a l’in´egalit´e de Tchebichev introduite dans l’exercice 5.9. Selon cette in´egalit´e, pour toute v.a. X ayant une variance et pour tout k > 0, on a : P (|X − μ| < kσ) ≥ 1 − soit, ici, en choisissant k =
√ np :
1 k2
1 √ P (|X − np| < np q) ≥ 1 − np 1 √ √ P (np(1 − q) < X < np(1 + q)) ≥ 1 − np √ et donc l’ensemble des valeurs inf´erieures `a np(1 − q), qui tend vers l’infini, re¸coit une probabilit´e tendant vers 0. Par ailleurs, le fait que pour les valeurs d’int´erˆet de x on ait nx → p d´ecoule de la loi des grands nombres (section 5.8.2).
Exercice 4.4 Cet exercice demande une d´emonstration directe de la propri´et´e ´etablie par la fonction g´en´eratrice en section 4.1.7. P (X = x) =
(np)x n! px (1 − p)n−x ∼ (1 − p)n−x x!(n − x)! x!
n! puisque (n−x)! ∼ nx . En posant np = λ (constant quand n → ∞), on a n−x = (1− nλ )n−x , lequel tend vers e−λ quand n → ∞, et donc P (X = x) (1−p) x −λ e tend vers λ x! qui est la probabilit´e de la loi P(λ) en x.
344
Statistique - La th´eorie et ses applications
Exercice 4.5 Pour cette loi hyperg´eom´etrique, on a : M N −M P (X = x) =
x
. Nn−x n
que M → ∞ et N − M → ∞. et notons que N → ∞ et M N → p = 0 implique u s! ∼ su , ou us ∼ su! , quand s tend vers l’infini et En utilisant le fait que (s−u)! u est fix´e ( s et u entiers positifs), on peut ´ecrire : M x (N − M )n−x n! x! (n − x)! N n x n−x M n M ∼ 1− x N N
P (X = x) ∼
et, ainsi, P (X = x) tend vers
n x
px (1 − p)n−x .
Exercice 4.6 Calculons : P ((X1 = k) ∩ (X2 = n − k)) P (X1 + X2 = n) k n−k λ2 λ1 n = λ1 + λ2 λ1 + λ2 k
P (X1 = k | X1 + X2 = n) = =
−λ2 n−k λ2 e−λ1 λk 1 e k! (n−k)!
e−(λ1 +λ2 ) (λ1 +λ2 )n n!
qui est la probabilit´e pour k de la loi binomiale de param`etres n et
λ1 . λ1 +λ2
Exercice 4.7 Reprenant la d´efinition de la loi G(p), on a : P (X > n) =
p(1 − p)x = p(1 − p)n+1 1 + (1 − p) + (1 − p)2 + · · ·
x≥n+1
= p(1 − p)n+1
1 = (1 − p)n+1 . 1 − (1 − p)
Corrig´es des exercices
P(X > n + k | X > n) =
345
P ((X > n + k) ∩ (X > n)) P (X > n)
P (X > n + k) P (X > n) (1 − p)n+k+1 . = = (1 − p)k (1 − p)n+1 .
=
qui est ind´ependant de n et ´egal a` P (X ≥ k). Dans la mod´elisation en temps discret d’une dur´ee de vie cela signifie que la probabilit´e de vivre encore k unit´es de temps au-del`a d’un temps donn´e reste constante.
Exercice 4.8 Reprenant la fonction de r´epartition de la loi U[0, 1] : P (X ≤ u) = u si u ∈ [0, 1] et vaut 0 si u < 0 ou 1 si u > 1. P (Y ≤ y) = P ((b − a)X + a ≤ y) y−a = P (X ≤ ) b−a y−a y−a qui vaut y−a b−a si b−a ∈ [0, 1], soit a ≤ y ≤ b, 0 si b−a < 0, soit y ≤ a, et 1 si y−a ` la fonction de r´epartition de la loi b−a > 1, soit y > b. Cela correspond bien a U[a, b] d´efinie en section 4.2.1.
Exercice 4.9 En section 4.2.3 la loi Γ(r, λ) a ´et´e d´efinie pour r entier (r > 0). Pour r, r´eel positif, on v´erifie ais´ement (par changement de variable u = λx) que la fonction de x : λr r−1 −λx x e Γ(r) est bien une fonction de densit´e, de par la d´efinition mˆeme de Γ(r). Si elle existe, la fonction g´en´eratrice de X ; Γ(r, λ) est : +∞ λr r−1 −λx Ψ(t) = x e etx dx Γ(r) 0 +∞ λr (λ − t)r r−1 −(λ−t)x x e dx si t < λ. = (λ − t)r 0 Γ(r)
346
Statistique - La th´eorie et ses applications
Posons u = (λ − t)x, alors : r +∞ λ 1 r−1 −u u e du. Ψ(t) = λ−t Γ(r) 0
r
λ Comme la fonction int´egr´ee est la densit´e de la loi Γ(r, 1), on a Ψ(t) = λ−t . Si t > λ on pose u = (t − λ) pour constater que la fonction a` int´egrer contient eu en lieu et place de e−u et l’int´egrale est divergente. Pour calculer E(X), d´erivons Ψ(t) : Ψ (t) = puis :
rλr (λ − t)r+1
E(X) = Ψ (0) =
=⇒
r , λ
r(r + 1)λr r(r + 1) =⇒ E(X 2 ) = Ψ (0) = (λ − t)r+2 λ2 r(r+1) r 2 et V (X) = λ2 − λ = λr2 . Notons que les r´esultats obtenus sont identiques `a ceux de la section 4.2.3. Ψ (t) =
Exercice 4.10 Soit la v.a. T d´enotant le temps entre une occurrence et la r-i`eme suivante dans un processus de Poisson d’intensit´e λ. Alors T ; Γ(r, λ) (voir section 4.2.3). L’´ev`enement (T ≥ x) est identique au fait qu’il y ait moins de r occurrences dans un intervalle de temps de longueur x et, donc : P (T ≥ x) = FT (x) = 1 −
r−1 −λx e (λx)k
k=0 r−1 −λx
e
k=0
k!
(λx)k k!
o` u FT (x) est la fonction de r´epartition de T. En d´erivant, on obtient sa fonction de densit´e : fT (x) = λ =λ
r−1 −λx e (λx)k k=0 r−1 k=0
k!
−λ
e−λx (λx)k −λ k!
λr e−λx xr−1 = (r − 1)!
r−1 −λx e (λx)k−1 k=1 r−2 k=0
(x > 0)
qui est bien l’expression donn´ee en section 4.2.3.
(k − 1)! e−λx (λx)k k!
Corrig´es des exercices
347
Exercice 4.11 Soit X ; Γ(r, λ), alors, avec des notations ´evidentes : x x ) = FX ( ), r r λ λ r − λx r−1 ( r )r e− r x xr−1 1λ e r x 1 x frX (x) = fX ( ) = = r r r (r − 1)!rr−1 (r − 1)!
FrX (x) = P (rX ≤ x) = P (X ≤
qui est la densit´e de la loi Γ(r, λr ). De la mˆeme fa¸con, FλX (x) = FX ( λx ), λr e−x xr−1 e−x xr−1 e de la loi Γ(r, 1). fλX (x) = λ1 fX ( λx ) = λ1 (r−1)!λ r−1 = (r−1)! , densit´
Exercice 4.12 Pour la v.a. X de loi de Pareto de seuil a = 1, on a FX (x) = 1 − x−θ pour x ≥ 1 et 0 pour x < 1, o` u θ > 0. Pour Y = ln(X), on a : FY (y) = P (Y ≤ y) = P (eY ≤ ey ) = P (X ≤ ey ) = 1 − e−θy . Comme FX (x) est nulle pour x ≤ 1, FY (y) vaut 0 pour y ≤ 0, ce qui restitue la loi E(θ).
Exercice 4.13 On a un processus de Poisson avec un nombre moyen d’arriv´ee par seconde λ = 1/30. Soit X le temps ´ecoul´e entre le d´epart du guichet de la 1-`ere personne et celui de la sixi`eme, alors X ; Γ(5, λ). On cherche a` calculer P (X ≤ 30), soit P (X ≤ λ1 ) ou P (λX ≤ 1). Comme λX ; Γ(5, 1) selon le r´esultat de l’exercice 1 1 4 −x 1 4.11, cette probabilit´e vaut 0 4! x e dx. Posons In = 0 xn e−x dx, alors, en int´egrant par parties :
1
In = −
n
x d(e 0
−x
)=
−[xn e−x ]10
1
+n
xn−1 e−x dx.
0
1 D’o` u la relation de r´ecurrence In = nIn−1 −e−1 . En partant de I0 = 0 e−x dx = 1 − e−1 , on trouve I1 = 1 − 2e−1 , I2 = 2 − 5e−1 , I3 = 6 − 16e−1 et I4 = 24 − 65e−1 . Finalement, en divisant I4 par 4 ! on obtient une probabilit´e d’environ 0,0366. On peut acc´eder directement au r´esultat avec EXCEL en ´evaluant LOI.GAM M A(30 ; 5 ; 30 ; V RAI).
348
Statistique - La th´eorie et ses applications
Exercice 4.14 La v.a. Y = X − 1 prend, respectivement, les valeurs 0 et 1 avec probabilit´es 0,7 et 0,3 et suit donc une loi de Bernoulli B(0, 3). Soit Y1 , Y2 , · · · , Y20 20 des variables al´eatoires i.i.d. de cette mˆeme loi, alors i=1 Yi suit une loi binomiale B(20 ; 0, 3). Le parking aura une capacit´e suffisante si l’´ev´enement 20 20 ( i=1 Yi + 20 ≤ 29), soit ( i=1 Yi ≤ 9), se r´ealise. Par EXCEL on obtient une probabilit´e 0,952 pour l’expression LOI.BIN OM IALE(9 ; 20 ; 0, 3 ; V RAI). Alternativement, par l’approximation gaussienne introduite en section 5.8.3, on calcule P (S ≤ 9, 5) pour S ; N (20 × 0, 3 ; 20 × 0, 3 × 0, 7), soit P (Z ≤ 9,5−6 √ ) P (Z ≤ 1, 71) pour Z ; N (0 ; 1), ce qui vaut 0,956. On notera que 4,2 l’approximation est satisfaisante dans la mesure o` u 20×0, 3 ≥ 5 et 20×0, 7 ≥ 5.
Exercice 4.15 Selon la d´efinition donn´ee en section 4.2.5, X ; LN (μ , σ 2 ) si Y = ln X ; N (μ , σ 2 ). Ainsi μ et σ 2 sont la moyenne et la variance non pas de X mais de son logarithme. Pour trouver μ et σ 2 , sachant que E(X) = a et V (X) = b, il faut r´esoudre les ´equations suivantes obtenues a` partir des expression s de E(X) et de V (X) ´etablies en section 4.2.5 : " " " 1 2 σ 2 = ln(1 + ab2 ) μ + 12 σ 2 = ln a eμ+ 2 σ = a ⇔ ⇔ . 2 2 2 e2μ+σ (eσ − 1) = b eσ − 1 = ab2 μ = ln a − 12 ln(1 + ab2 ) Ici a = 70 et b = (12)2 ce qui donne μ = 4, 234 et σ 2 = 0, 02896. D`es lors, on peut calculer des probabilit´es selon le mod`ele retenu, par ) = P (Z ≤ 0, 870), o` u exemple P (X ≤ 80) = P (Y ≤ ln 80) = P (Z ≤ ln√80−4,234 0,02896 Z ; N (0 ; 1), soit une probabilit´e de 0,808.
Corrig´es des exercices
349
Chapitre 5 : Lois fondamentales de l’´ echantillonnage Exercice 5.1 n La v.a. T = i=1 Xi est de loi Γ(n, λ) (voir section 4.2.3). Soit FX (x) la fonction de r´epartition de X : FX (x) = P (X ≤ x) = P (T ≤ nx) = FT (nx). Passons aux fonctions de densit´e : fX (x) = nfT (nx) =
nλn (nλ)n n−1 −(λn)x e (nx)n−1 e−λ(nx) = x (n − 1)! (n − 1)!
qui est la densit´e de la loi Γ(n, nλ). Note : On peut aussi utiliser les fonctions g´en´eratrices sur le mod`ele de l’exercice suivant.
Exercice 5.2 n n Pour T = i=1 Xi , on a la fonction g´en´eratrice ΨT (t) = [ΨX (t)] o` u ΨX (t) est la fonction g´ e n´ e ratrice de la loi Γ(r, λ) (voir proposition 3.12). D’o` u Ψ T (t) =
λ λ−t
nr
. Or :
T t t ΨX (t) = Ψ T (t) = E(e n t ) = E(eT n ) = ΨT ( ) = n n
λ λ−
nr t n
=
nλ nλ − t
nr
qui est la fonction g´en´eratrice de la loi Γ(nr, nλ).
Exercice 5.3 Calculons la fonction caract´eristique (voir note 2.4) de la v.a. X qui suit la loi de Cauchy d´efinie lors de l’exemple 2.1. : ΦX (t) = E(eitX ) = E(cos tX) + iE(sin tX) 1 +∞ sin tx 2 +∞ cos tx 1 +∞ cos tx dx + i dx = dx = e−|t| , = π −∞ 1 + x2 π −∞ 1 + x2 π 0 1 + x2
350
Statistique - La th´eorie et ses applications
*n *n |t| 1 d’o` u ΦX (t) = E e n Xi . t = i=1 ΦXi ( nt ) = i=1 e− n = e−|t| . La loi de Cauchy n’ayant pas de moyenne (ni a fortiori de variance), la loi des grands nombres ne s’applique pas.
Exercice 5.4 n La statistique (n−1)S 2 = i=1 (Xi −X)2 peut s’´ecrire (voir la d´emonstration n n 2 2 de la proposition 5.2) i=1 (Xi − μ) − n(X − μ) ou encore i=1 (Xi − 2 n μ)2 − n1 [ i=1 (Xi − μ)] . Soit Zi = Xi − μ. On a E(Zi ) = 0, E(Zi2 ) = σ 2 et E(Zi4 ) = μ4 , o` u σ 2 et μ4 sont, respectivement, les deuxi`eme et quatri`eme moments centr´es de la loi m`ere de l’´echantillon al´eatoire consid´er´e. Les Zi sont i.i.d. Par substitution et d´eveloppement du carr´e d’une somme, on obtient : 2
(n − 1)S =
n
Zi2
i=1
n n 1 2 n−1 2 2 − Zi + 2 Zi Zj = Zi − Zi Zj n i=1 n i=1 n i<j i<j
2 n n−1 2 2 Zi − Zi Zj n i=1 n i<j 2 n 2 2 n−1 E Zk4 + 2 Zi Zj = n i<j k=1 n 2 2 4(n − 1) 4 E Zk Zi Zj Zi Zj + 2E − n2 n i<j i<j
2 (n − 1)2 E( S 2 ) = E
k=1
2 Le premier terme vaut n−1 (nμ4 + n(n − 1)σ 4 ), le deuxi`eme est nul car n il contient soit des termes en E(Zi Zj Zk2 ) avec i = j = k, soit des termes en E(Zj Zk3 ) avec j = k. Pour le dernier terme les produits crois´es sont nuls car ils contiennent soit des termes en E(Zi2 Zj Zk ) avec i = j = k, soit en E(Zi Zj Zk Zl ) 2 2 avec i = j = k = l. Il vaut donc n42 E( Zi Zj ) = 2(n−1) σ 4 . Finalement : n i<j
2 (n − 1)2 (n − 1)3 4 (n − 1) 4 μ4 + σ +2 σ − (n − 1)2 E(S 2 ) n n n (n − 1)2 (n − 1)(3 − n) 4 μ4 + σ = n n
(n − 1)2 V (S 2 ) =
V (S 2 ) = Pour la loi de Gauss, μ4 =
2σ 4 n−1 .
1 n−3 4 (μ − σ ). n 4 n−1
4! 4 4×2! σ
1 n−3 4 4 n (3σ − n−1 σ ) = 2 (n−1)S suit une loi du σ2
= 3σ 4 , donc V (S 2 ) =
Note : On peut retrouver ce r´esultat sachant que
Corrig´es des exercices
351
khi-deux a` n − 1 degr´es de libert´e dont la variance est ´egale `a 2(n − 1). D’o` u (n−1)2 V (S 2 ) 2σ 4 2 = 2(n − 1) et V (S ) = n−1 . σ4
Exercice 5.5 Quel que soit i les valeurs possibles pour Xi sont a1 , a2 , . . . , aN et sa loi marginale est P (Xi = aj ) = N1 pour j = 1, 2, . . . , N. La loi conjointe de Xi et Xk , i = k, est P (Xi = aj , Xk = al ) = N (N1−1) , car il y a N (N −1) arrangements pour les (aj , al ), tous ´equiprobables par sym´etrie. Il r´esulte de cela que : E(Xi ) =
N N n 1 1 1 aj = μ, V (Xi ) = (aj − μ)2 = σ 2 , E(X) = μ = μ. N N n j=1
j=1
i=1
⎡ ⎤ 1 1 ⎣( E(Xi Xk ) = aj al = aj )2 − a2j ⎦ , N (N − 1) N (N − 1) j j j =l
d’o` u E(Xi Xk ) = N (N1−1) N 2 μ2 − (N σ 2 + N μ2 ) et cov(Xi , Xk ) = E(Xi Xk )− 2
μ2 = − Nσ−1 . n n Puis V ( i=1 Xi ) = i=1 V (Xi ) + 2 i
n
Xi ) = nσ 2 − 2
i=1
d’o` u V (X) =
1 n2 V
n
(
i=1
Xi ) =
n(n − 1) σ 2 N −n = nσ 2 , 2 N −1 N −1
σ2 N −n n N −1 .
Exercice 5.6 ¯ − μ = Z, E(Z) = 0 et n (Xi − X) ¯ 2 = Soit Zi = Xi − μ, alors X i=1 n 2 n 2 2 i=1 (Zi − Z) = i=1 Zi − nZ . Donc : 2 2 ¯ ¯ cov(X, S ) = cov(X − μ, S ) = cov Z,
n 2 1 2 Zi − nZ n − 1 i=1 n n 2 2 1 1 2 = E Z = Zi − nZ Zi E Z n−1 n−1 i=1 i=1
3
− nE(Z ) ,
352
Statistique - La th´eorie et ses applications
n n n n or E Z( i=1 Zi2 ) = n1 E(( j=1 Zj )( i=1 Zi2 )) = n1 E( i=1 Zi3 ) = μ3 , + n n n n 3 1 1 3 et E(Z ) = n13 E([ i=1 Zi ] j=1 Zj [ k=1 Zk ]) = n3 E( i=1 Zi ) = n2 μ3 . D’o` u: μ3 1 1 2 ¯ = μ μ . − cov(X, S ) = n−1 3 n 3 n
Exercice 5.7 Soit Z ; N (0 ; 1) et, donc, Z 2 ; χ2 (1) de fonction de r´epartition FZ 2 et de densit´e fZ 2 Alors : √ √ √ FZ 2 (x) = P (Z 2 ≤ x) = P (− x < Z < x) = 2Φ( x) − 1 si x > 0 (0 sinon). En d´erivant : √ x 2 1 fZ 2 (x) = √ Φ ( x) = √ √ e− 2 si x > 0 (0 sinon). 2 x x 2π
Exercice 5.8 La fonction g´en´eratrice de la loi χ2 (ν) est Ψ(t) = (1 − 2t)− 2 (voir sec− ν −1 tion 5.3). Sa moyenne est donc μ = Ψ (0). Comme Ψ (t) = ν(1 − 2t) 2 on a μ = ν. Le moment simple d’ordre 2 est μ2 = Ψ (0) avec Ψ (t) = ν ν(ν + 2)(1 − 2t)− 2 −2 , soit μ2 = ν(ν + 2). La variance est le moment centr´e d’ordre 2 : μ2 = μ2 − μ2 = 2ν. ν
Exercice 5.9
1.
∞
g(x)fX (x)dx ≥ A g(x)fX (x)dx > k A fX (x)dx. Donc E(g(X)) > k A fX (x)dx. u: Mais A fX (x)dx = P (X ∈ A) = P (g(X) > k). D’o` −∞
E(g(X)) ≥ kP (g(X) > k). 2. En prenant g(x) = (x − μ)2 et en posant ε2 = k, ε > 0, on a : σ 2 = E((X − μ)2 ) ≥ ε2 P ((X − μ)2 ) ≥ ε2 ) = ε2 P (|X − μ| > ε) ce qui d´emontre l’in´egalit´e de Tchebichev.
Corrig´es des exercices
353
3. Posons X = Yn − Y. Alors E((Yn − Y )2 ) = E(X 2 ) ≥ ε2 P (|X| > ε) = ε2 P (|Yn − Y | > ε) pour tout ε > 0 donn´e. m.q.
Yn −−−→ Y ´equivaut, par d´efinition, a` lim E((Yn − Y )2 ) → 0. Donc n→∞
lim P (|Yn − Y | > ε) → 0 ou lim P (|Yn − Y | < ε) → 1 ce qui d´efinit
n→∞ p Yn →
n→∞
Y.
Exercice 5.10 Soit X1 , · · · , Xn de loi m`ere de moyenne μ et de variance σ 2 . Appliquons 2 l’in´egalit´e de Tchebichev a` X n de moyenne μ et variance σn : σ2 pour tout ε > 0 fix´e. nε2 Donc lim P (|X n − μ| > ε) → 0 ⇐⇒ lim P (|X n − μ| < ε) → 1 P (|X n − μ| > ε) ≤
n→∞
n→∞
p
soit, par d´efinition, X n → μ (convergence faible).
Exercice 5.11 La m´ediane de la loi m`ere est le nombre M = F −1 ( 12 ) o` u F est sa fonction de r´epartition. La fonction de r´epartition du maximum de l’´echantillon X(n) est u: [F (x)]n en x (voir section 5.6), d’o` 1 1 1 1 P X(n) ≤ F −1 ( ) = [F (F −1 ( ))]n = n =⇒ P (X(n) > M ) = 1 − n . 2 2 2 2 De mˆeme P X(n) ≤ F −1 ( 34 ) = ( 34 )n et la probabilit´e que le maximum d´epasse le troisi`eme quartile de la loi m`ere est donc 1 − ( 34 )n . Notons que dans les deux cas la probabilit´e tend vers 1 quand la taille de l’´echantillon croˆıt vers l’infini.
Exercice 5.12 Pour la loi U[0 , 1] on a F (x) = x pour x ∈ [0 , 1]. Pour le minimum X(1) de l’´echantillon de taille n la fonction de r´epartition est : FX(1) (x) = 1 − [1 − F (x)]n = 1 − (1 − x)
n
(voir section 5.6) pour x ∈ [0 , 1]
354
Statistique - La th´eorie et ses applications
et la fonction de densit´e est, par d´erivation, fX(1) (x) = n(1 − x)n−1 pour x ∈ [0 , 1] et 0 sinon. D’o` u:
1
x(1 − x)n−1 dx et avec x(1 − x)n−1 = (1 − x)n−1 − (1 − x)n , 0 1 1 n−1 n (1 − x) dx − (1 − x) dx soit en posant t = 1 − x, =n 0 0 n+1 1 1 1 1 tn t 1 )= . =n − = n( − n 0 n+1 0 n n+1 n+1
E(X(1) ) = n
Exercice 5.13 Reprenons le corrig´e de l’exercice 3.7 qui donne E(X) = 2p − 1, V (X) = n 4p(1 − p), E(Y ) = n(2p − 1), V (Y ) = 4np(1 − p) o` u Y = i=1 Xi . Pour n grand, Y suit approximativement une loi normale N (n(2p − 1) ; 4np(1 − p)), donc : P (Y > |x|) = P (−x < Y < x) −x − n(2p − 1) x − n(2p − 1) % P
o` u Z ; N (0 ; 1)
o` u Φ est la fonction de r´epartition de la loi normale centr´ee-r´eduite donn´ee en section 4.2.4.
Exercices appliqu´ es Exercice 5.14 Soit X le niveau de bruit d’une machine prise au hasard et X 10 la moyenne d’un ´echantillon al´eatoire de taille 10. On suppose que l’approximation gaussienne s’applique avec n = 10 (ce qui est r´ealiste s’agissant d’une mesure physique dans un processus de fabrication). On a : X 10
;
approx
N (44 ;
52 ), 10
Corrig´es des exercices
355
48−44 √ ) = P (Z > 2, 53) = 1 − 0, 9943 = 0, 0057, o` d’o` u P (X 10 > 48) P (Z > 5/ u 10 Z ; N (0 ; 1). On note que cette probabilit´e est tr`es faible alors que pour une ) soit environ 0, 21. seule machine elle serait P (Z > 48−44 5
Exercice 5.15 t=
6, 42 − 6, 30 √ = 2, 99. 0, 22/ 30
Pour T, v.a. de Student a` 29 degr´es de libert´e, P (T < 2, 99) = 0, 9972, valeur obtenue dans EXCEL par 1 − LOI.ST U DEN T (2, 99 ; 29 ; 1). On peut v´erifier grossi`erement l’ordre de grandeur dans la table fournie dans cet ouvrage. La valeur observ´ee correspond au quantile 0,997 ce qui est extrˆeme sur la distribution des valeurs observables et rend l’indication du constructeur peu plausible.
Exercice 5.16 Soit X le poids d’une personne prise au hasard et X 100 la moyenne d’un ´echantillon al´eatoire de taille 100. L’approximation gaussienne s’applique sans probl`eme. On a : (15, 6)2 X 100 ; N 66, 3 ; , approx 100 000 ) P (Z > d’o` u P (X 100 > 7100 0, 0089, o` u Z ; N (0 ; 1).
70−66,3 √ ) 15,6/ 100
= P (Z > 2, 37) = 1 − 0, 9911 =
Exercice 5.17 On suppose que les 1000 personnes sont choisies au hasard dans la population fran¸caise. Le taux de sondage ´etant tr`es faible (voir section 3.7), on peut ` chaque tirage la probabilit´e assimiler ce sondage `a un sondage avec remise. A d’obtenir une personne favorable est 0,44 et, donc, on a : Sn ; B(1 000 ; 0, 44) u U ; N (440 ; 246, 4). d’o` u P (Sn ≤ 420) P (U ≤ 420, 5) o` √ Soit P (Sn ≤ 420) P (Z ≤ 420,5−440 ) = P (Z ≤ −1, 24) = 1 − 0, 8925 0, 11 246,4 o` u Z ; N (0 ; 1).
356
Statistique - La th´eorie et ses applications
Exercice 5.18 Soit Sn le nombre de pi`eces d´efectueuses parmi 120 pi`eces s´electionn´ees. On a : Sn ; B(120 ; 0, 09) d’o` u P (Sn ≤ 22) P (U ≤ 22, 5) o` u U ; N (10, 8 ; 9, 828). Soit √ ) = P (Z ≤ 3, 73), o` u Z ; N (0 ; 1). Cette P (Sn ≤ 22) P (Z ≤ 22,5−10,8 9,828 probabilit´e est sup´erieure `a 0,9995 comme on peut le voir dans la table (plus exactement elle est ´egale `a 0,99990 selon EXCEL). Cette valeur est tr`es extrˆeme sur la distribution th´eorique et incite `a conclure avec quasi certitude que le fonctionnement est anormal.
Exercice 5.19 Cet exercice, comme d’ailleurs d’autres ci-dessus, pr´efigure la d´emarche d’un test statistique. En arri`ere-plan de l’´enonc´e, on peut supposer que l’on a observ´e un ´ecart-type de 0,077 sur cinq mesures faites sur le mˆeme ´echantillon de sang − soit une valeur de pr´ecision correspondante de 0,154 mg/l − et l’on souhaite savoir si cette valeur observ´ee est plausible au regard de la distribution th´eorique de S consid´erant ce que l’on sait de la m´ethode de mesure. Soit donc S l’´ecart-type d’un ´echantillon gaussien de taille 5. On s’int´eresse 4S 2 a l’´ev´enement (S > 0, 077) qui ´equivaut a` (S 2 > 0, 005929) ou ( (0,05) ` 2 > 9, 49). 2
2
4S a (n−1)S qui, selon le th´eor`eme 5.1, suit La statistique (0,05) 2 correspond ici ` σ2 une loi χ2 (4). On lit dans EXCEL (LOI.KHIDEUX(9,49 ; 4)) une probabilit´e de 0,05 ce qui n’est pas tr`es plausible, sans plus (quantile 0,95). Notons au passage qu’EXCEL n’a pas de coh´erence pour les probabilit´es restitu´ees par les lois et qu’il y a lieu de v´erifier avec un exemple de calcul a` quoi correspond la probabilit´e donn´ee pour telle loi en fonction de x (plus grand que, plus petit que, autre ?).
Exercice 5.20 On suppose que les 10 000 m´enages ont des comportements ind´ependants ce qui donne lieu a` une suite de variables al´eatoires i.i.d. de loi P(4). Leur total
Corrig´es des exercices
357
T suit une loi P(40 000) dont la moyenne est E(T ) = 40 000 et V (T ) = 40 000. Cette loi peut ˆetre pr´ecis´ement approch´ee par une loi N (40 000 ; 40 000). Comme P (−1, 96 < Z < 1, 96) = 0, 95 o` u Z ; N (0 ; 1), de mˆeme P (40 000− √ √ u U ; N (40 000 ; 40 000), 1, 96 40 000 < U < 40 000 + 1, 96 40 000) = 0, 95 o` soit P (39 608 < U < 40 392) = 0, 95. Donc, en n´egligeant toute correction de continuit´e et en arrondissant, un intervalle de probabilit´e 0,95 de [39 600, 40 400].
Exercice 5.21 Pour une seule op´eration l’erreur d’arrondi est une variable al´eatoire 1 X ; U[− 12 , + 12 ] d’o` u E(X) = 0 et V (X) = 12 . Pour T, l’erreur d’arrondi to000 000 et T ; N (0 ; 1 12 ). tale sur 1 000 op´erations, on a E(T ) = 0, V (T ) = 1 12 approx
Comme P (−1, 96 < Z < 1, 96) = 0, 95 o` u Z ; N (0 ; 1), de mˆeme : ) ) 1 000 1 000 < T < 0 + 1, 96 ) 0, 95 P (0 − 1, 96 12 12 soit approximativement un intervalle [−18, +18] en centimes d’euros.
Exercice 5.22 Rappelons que le param`etre λ de la loi E(λ) est l’inverse de sa moyenne. Pour un accumulateur quelconque, on a ainsi une dur´ee de vie X ; E( 12 ) dont 1 la fonction de r´epartition en x est FX (x) = 1 − e− 2 x pour x ≥ 0. L’appareil fonctionne si et seulement si, avec des notations ´evidentes, l’´ev´enement (X(1) ≥ x) est r´ealis´e, o` u X(1) = min{X1 , X2 , X3 }. Selon la loi g´en´erale du minimum d’un ´echantillon explicit´ee en section 5.6, la fonction de r´epartition de 1 3 X(1) est, au point x ≥ 0, FX(1) (x) = 1−(e− 2 x )3 = 1−e− 2 x laquelle correspond `a la loi E( 32 ). Donc E(X(1) ) =
2 3
3
et P (X(1) > 1) = e− 2 0, 22.
Exercice 5.23 On doit envisager un processus de Bernoulli avec probabilit´e de succ`es 0,9, la variable d’int´erˆet Y ´etant le nombre d’essais pour arriver a` 100 succ`es.
358
Statistique - La th´eorie et ses applications
La loi de Y est la loi binomiale n´egative sous la deuxi`eme forme d´efinie en fin de section 4.1.4, avec param`etres r = 100 et p = 0, 9. Alors Y prend ses 12, 35. valeurs dans {100, 101, · · · }, E(Y ) = pr 111, 1 et V (Y ) = r(1−p) p2 Comme on a vu dans la dite section qu’une loi BN (r, p) peut ˆetre envisag´ee comme une somme de r variables al´eatoires i.i.d. de loi G(p), le th´eor`eme central limite s’applique et la loi binomiale n´egative peut ˆetre approch´ee par une loi de Gauss pourvu que r soit suffisamment grand, ce qui est le cas ici car r est largement sup´erieur a` 30. Ainsi, en utilisant la correction de continuit´e : P (Y > 111) P (U > 111, 5) o` u U ; N (111, 1 ; 12, 35) 111, 5 − 111, 1 √ P (Z > ) = P (Z > 0, 11) = 1 − 0, 5438 0, 46. 12, 35 Pour ˆetre sˆ ur de fabriquer 100 pi`eces bonnes, il faudrait pr´evoir de fabriquer une infinit´e de pi`eces ! Pour atteindre 100 bonnes pi`eces avec probabilit´e 0, 99 il faut fabriquer n pi`eces o` u n est tel que P (Y ≤ n) = 0, 99 ou plus correctement P (Y ≤ n) ≥ 0, 99 puisque nous sommes sur une loi discr`ete. Or P (Z < 2, 33) = 0, 99, donc √ P (U < 111, 1 + 2, 33 12, 35) = 0, 99, soit P (U < 119, 29) = 0, 99. Comme 119, 29 < 119, 5 on prendra n = 120 pi`eces.
Corrig´es des exercices
359
Chapitre 6 : Th´ eorie de l’estimation param´ etrique ponctuelle Exercice 6.1 Il s’agit de voir si ces lois a` un param`etre (inconnu), disons θ, ont une fonction de probabilit´e, respectivement fonction de densit´e de probabilit´e, pouvant se mettre sous la forme (voir section 6.3) : p(x; θ) = a(θ)b(x) exp{c(θ)d(x)} o` u a, b, c, d sont des fonctions. Loi BN (r, p) avec r connu Fonction de probabilit´e : r+x−1 r p (1 − p)x , x ∈ N p(x; p) = x r+x−1 r p exp{x ln(1 − p)} = x forme classe exponentielle avec a(p) = pr , b(x) = r+x−1 , c(p) = ln(1 − p) et x d(x) = x.
Loi P (λ) Fonction de probabilit´e : p(x; λ) =
e−λ λx = e−λ x!
1 x!
exp{x ln λ}
forme classe exponentielle avec a(λ) = e−λ , b(x) =
1 x! ,
c(λ) = ln λ et d(x) = x.
Loi E(λ) Fonction de densit´e de probabilit´e : f (x; λ) = λe−λx = λ exp{−λx} forme classe exponentielle avec a(λ) = λ, b(x) = 1, c(λ) = −λ et d(x) = x.
360
Statistique - La th´eorie et ses applications
Loi Γ(r, λ) avec r connu Fonction de densit´e de probabilit´e : λr r−1 −λx x e = f (x; λ) = Γ(r)
λr Γ(r)
forme classe exponentielle avec a(λ) = d(x) = x.
λr Γ(r)
(xr−1 ) exp{−λx}
, b(x) = xr−1 , c(λ) = −λ et
Exercice 6.2 f (x; θ) = θaθ x−(θ+1) I[a,+∞[ (x) = (θaθ )I[a,+∞[ (x) exp{−(θ + 1) ln x}, de forme classe exponentielle avec a(θ) = θaθ , b(x) = I[a,+∞[ (x), c(θ) = −(θ + 1) et d(x) = ln x. Donc ni=1 ln Xi est statistique exhaustive minimale. θa (voir section 4.2.6), l’estimateur des moments θM est tel Comme μ = θ−1 M que X = θ a , soit θM = X . On constate qu’il n’est pas fonction de la θM −1
X−a
statistique exhaustive minimale ci-dessus (et en ce sens il ne saurait ˆetre un des plus pertinents).
Exercice 6.3 Γ(α + β + 2) xα (1 − x)β I[0,1] (x) Γ(α + 1)Γ(β + 2) Γ(α + β + 2) I]0,1[ (x) exp{α ln x + β ln(1 − x)}, = Γ(α + 1)Γ(β + 1)
f (x; α, β) =
de forme classe exponentielle avec d1 (x) = ln x et d2 (x) = ln(1 − x). Donc le n n couple ( i=1 ln Xi , i=1 ln(1 − Xi )) est statistique exhaustive minimale. Pour l’estimateur des moments du couple (α, β), on utilise le fait que (voir (α+1)(β+1) (α+1)2 α+1 section 4.2.8) E(X) = α+β+2 et E(X 2 ) = (α+β+2) 2 (α+β+3) + (α+β+2)2 = (α+1)(α+2) (α+β+2)(α+β+3) .
"
Il s’agit donc de r´esoudre en (α, β) le syst`eme :
α+1 α+β+2 (α+1)(α+2) (α+β+2)(α+β+3)
=X n ⇔ = n1 i=1 Xi2
"
α+1 α+β+2 = X n α+2 1 i=1 α+β+3 X = n
Xi2
,
Corrig´es des exercices
361
soit deux ´equations lin´eaires en α et β, dont la solution in fine est : X (1 − X) − S'2 (1 + X) S'2 2
α M =
X − (2 − X)(S'2 + X ) βM = . S'2 2
et
On constate qu’elle n’est pas fonction de la statistique exhaustive minimale ci-dessus (et en ce sens elle ne saurait ˆetre une des plus pertinentes). Exercice 6.4 de r´epartition de S en s est P (S ≤ s) = P (S 2 ≤ s2 ) =
La fonction 2 2 2 P (n−1)S = Fχ2 (n−1) (n−1)s (selon le th´eor`eme 5.1) o` u Fχ2 (n−1) ≤ (n−1)s σ2 σ2 σ2 est la fonction de r´epartition d’une loi du khi-deux a` (n − 1) degr´es de li2 bert´e. La fonction de densit´e de S est donc : 2(n−1)s que fχ2 (n−1) (n−1)s σ2 σ2 l’on peut ´ecrire explicitement en substituant (proposition 5.5) fχ2 (n−1) (x) = −1 (n−3)/2 −x/2 [2(n−1)/2 Γ( n−1 x e , avec x > 0. On peut calculer directement 2 )] E(S) par : σ E E(S) = √ n−1
(n − 1)S 2 σ2
12
= √
1 σ ) n − 1 2(n−1)/2 Γ( n−1 2
+∞ 0
1
x2 x
n−3 2
x
e− 2 dx
o` u l’int´egrale n’est autre que la densit´e de la loi du khi-deux a` n degr´es de libert´e au facteur [2n/2 Γ( n2 )]−1 pr`es. D’o` u: )
E(S) = σ
Γ( n2 ) 2 . n − 1 Γ( n−1 ) 2
( Γ( n−1 2 ) S. Pour ´eliminer le biais, il suffit de prendre, comme estimateur de σ, n−1 2 Γ( n ) 2
Exercice 6.5 1. Soit n = 2k − 1, la m´ediane est la statistique d’ordre k, not´ee X(k) . Sa fonction de r´epartition (voir proposition 5.12) est : n G(x; θ) = j=k nj [F (x − θ)]j [1 − F (x − θ)]n−j . Sa densit´e est donc : g(x; θ) = nj=k nj f (x − θ){ j[F (x − θ)]j−1 [1 − F (x − θ)]n−j −(n − j)[F (x − θ)]j [1 − F (x − θ)]n−j−1 } n g(x; θ) = j=k nj f (x − θ)[F (x − θ)]j−1 [1 − F (x − θ)]n−j−1 [j − nF (x − θ)]. 2. Notons que f (−t) = f (t) ´equivaut a` F (−t) = 1 − F (t). Soit x1 = θ + h et x2 = θ − h. Il suffit de montrer que G(x2 ; θ) = 1 − G(x1 ; θ). Posons F (h) = a.
362
Statistique - La th´eorie et ses applications
Ainsi : G(x1 ; θ) =
n n j=k
G(x2 ; θ) =
n n j=k
=
aj (1 − a)n−j
j
j
[F (−h)] [1 − F (−h)]
n−k s=0
j
n−j
n (1 − a)n−s as = n−s
=
n n j=k
k−1
j
(1 − a)j an−j
n s a (1 − a)n−s s
s=0
en posant s = n − j (et comme n = 2k − 1). Donc G(x1 ; θ) + G(x2 ; θ) = nt=1 nt at (1 − a)n−t = 1.
+∞ 3. Soit M la m´ediane empirique, alors E(M − θ) = −∞ (x − θ)g(x; θ)dx = +∞ tg(t + θ; θ)dt = 0 car g(−t + θ; θ) = g(t + θ; θ). Notons qu’il est toutefois −∞ +∞ n´ecesssaire que ces int´egrales existent, ce qui revient `a ce que −∞ xf (x − θ)dx existe, soit que la loi m`ere ait une esp´erance math´ematique.
Exercice 6.6 X est sans biais pour λ1 puisque E(X)= λ1 ; V (X) = nλ1 2 ; eqm λ1 (X) = nλ1 2 . n 1 n n 1 1 1 T = n+1 i=1 Xi = n+1 X, donc E(T ) = n+1 λ et T a un biais − n+1 λ ; n 1 V (T ) = (n+1)2 λ2 . 1 1 n 1 1 D’o` u eqm λ1 (T ) = (n+1) 2 λ2 + (n+1)2 λ2 = (n+1)2 λ2 < eqm 1 (X). En erreur λ quadratique moyenne T est meilleur, le gain de variance ´etant sup´erieur a` la perte due au biais.
Exercice 6.7
4 Comme vu `a l’exercice 5.4, V (S 2 ) = n1 (μ4 − n−3 n−1 σ ) et est sans biais donc son e.q.m. est V (S 2 ). (n−1)2 (n−1)2 σ2 n−3 4 2 2 '2 S'2 = n−1 σ ) n S et a un biais − n ; V (S ) = n2 + V (S ) = n3 (μ4 − n−1 , 2 (n−1) 1 n−3 n−3 σ4 σ 4 )− (μ4 − σ 4 ) + 2 > 0, S'2 domine S 2 en e.q.m. si (μ4 − 3
soit
2n−1 n (μ4
−
n−3 4 n−1 σ )
>
n σ4 n2 ou,
n−1
n
finalement, μ4 >
n−1 3n2 −8n+3 (2n−1)(n−1) σ4.
n
Pour la loi de Gauss μ4 = 3σ4 et l’on peut ais´ement v´erifier que cette condition est remplie pour tout n > 1. Si l’on s’en tient au crit`ere de l’e.q.m., on doit pr´ef´erer S'2 .
Corrig´es des exercices
363
Exercice 6.8 Soit pour X ; U[0, θ] la fonction de r´epartition FX (x; θ) = xθ si x ∈ [0, θ]. Donc n pour un ´echantillon de taille n, FX(n) (x; θ) = [FX (x; θ)]n = xθ si x ∈ [0, θ]. θ−ε n qui tend vers Pour tout ε > 0, P ( X(n) − θ > ε) = P (X(n) < θ − ε) = θ 0 quand n → ∞. Ainsi pour tout ε > 0, P (X(n) − θ < ε) → 1 quand n → ∞ ce qui d´efinit la convergence en probabilit´e de X(n) vers θ (d´efinition 5.14).
Exercice 6.9 L’estimateur UMVUE est T = n−1 (voir exemple 6.11). Posons Tn = n i=1 Xi n λ eme argument que pour d´emontrer E( T1n ) = n−1 dans i=1 Xi . Suivant le mˆ l’exemple 6.11, on a, `a condition que n > 2 : +∞ 1 1 λ E( 2 ) = (λt)n−1 e−λt dt 2 (n − 1)! Tn t 0 +∞ λ2 λ λ2 = (λt)n−3 e−λt dt = . (n − 1)(n − 2) 0 (n − 3)! (n − 1)(n − 2) 2
2
λ λ − (n−1) Donc V ( T1n ) = (n−1)(n−2) 2 = eqmλ (T ) pour l’estimateur UMVUE. 1 = L’estimateur des moments est X
2 2 λ λ 1 n biais n−1 ; V ( X ) = n−1 (n−2) et :
eqmλ (
λ2 , (n−1)2 (n−2)
n n−1 T,
d’o` u V (T ) =
1 d ’o` u E( X ) =
n n−1 λ
λ2 (n−2)
=
avec un
1 1 n2 n2 + n − 2 λ2 = λ2 . )= λ2 + 2 2 (n − 1) (n − 1) (n − 2) (n − 1)2 (n − 2) X 2
+n−2 2 2 = 3(n − 1). Non Or, pour tout n > 2 , n(n−1) 2 > 1 car n + n − 2 − (n − 1) seulement l’estimateur des moments est domin´e en e.q.m., mais en plus il est biais´e.
Exercice 6.10 De toute ´evidence, la famille est dans la classe exponentielle, avec d(x) = x2 . n n Ainsi i=1 d(Xi ) = i=1 Xi2 est statistique exhaustive minimale. +∞ x3 − x2 +∞ −t x2 2 2θ dx, soit, en posant t = te dt. E(X 2 ) = 0 θ e 2θ , E(X ) = 2θ 0 Or l’int´egrale ci-dessus est la moyenne de la loi E(1) et vaut donc 1. Donc
364
Statistique - La th´eorie et ses applications
n n 1 1 2 2 E(X 2 ) = 2θ et E( 2n i=1 Xi ) = θ. En vertu de la proposition 6.7, 2n i=1 Xi n − sans biais et fonction lin´eaire de i=1 d(Xi ) − est efficace. On peut dire aussi que cet estimateur de θ est UMVUE.
Exercice 6.11 a θ x 1. P (ln X si aex ≥ a, soit x ≥ 0 (voir fonca ) < x = P (X < ae ) = 1 − aex )<x = tion de r´epartition de la loi de Pareto en section 4.2.6). Ainsi P (ln X a 1 − e−θx pour x ≥ 0, qui est la fonction de r´epartition de la loi E(θ). 2. La densit´e de la loi de Pareto est : f (x; θ) = θaθ x−(θ+1) I[a,+∞[ (x) = θaθ I[a,+∞[ (x) exp{−(θ + 1) ln x}, qui met en ´evidence la forme de la classe exponentielle avec d(x) = ln x. n Posons Yi = ln( Xai ), alors i=1 Y i ; Γ(n, θ) puisque
Yi ;E(θ). Selon l’exemple 6.11, E
n1
i=1
Yi
=
θ n−1 ,
d’o` uE
n−1 n i=1 Yi
= θ. La statistique
n−1 n−1 = n n Xi i=1 ln Xi − n ln a i=1 ln( a ) n est une fonction de i=1 ln Xi sans biais pour θ. D’apr`es la proposition 6.6 c’est la statistique UMVUE pour estimer θ. n 3. Selon la proposition 6.7, seul i=1 d(Xi ) est efficace pour estimer h(θ) = n 1 Eθ ( i=1 d(Xi )) et ceci `a une fonction lin´eaire pr`es. Or E(ln( X a )) = θ , la n n moyenne de la loi E(θ). Ainsi E( n1 i=1 ln( Xai )) = 1θ et n1 i=1 ln( Xai ) est sans 1 biais et efficace pour estimer θ .
Exercice 6.12 1. La densit´e est : f (x; θ) = θaθ x−(θ+1) I[a,+∞[ (x) qui ne peut ˆetre mis sous la forme de la classe exponentielle en raison de I[a,+∞[ (x). 2. L’estimateur des moments pour a est solution de X. 4.2.6, si θ > 1), soit aM = θ−1 θ
aθ θ−1
= X (voir section
3. Utilisons le th´eor`eme 6.1 : n $ i=1
n nθ
f (xi ; a) = θ a
n $ i=1
xi
−(θ+1) n $ i=1
I[a,+∞[ (xi ),
Corrig´es des exercices or
*n
i=1 I[a,+∞[ (xi ) n $
=
*n
i=1 I[a,+∞[ (x(1) )
nθ
f (xi ; a) = a
i=1
n $
365
o` u x(1) = min{x1 , · · · , xn }. Donc :
I[a,+∞[ (x(1) )
i=1
n $
−(θ+1)
θn
xi
i=1
et d’apr`es le th´eor`eme X(1) est exhaustive. Elle est minimale du fait qu’elle est de dimension 1. nθ 4. La fonction de r´epartition de X(1) est 1 − [1 − F (x; a)]n = 1 − xa si x ≥ a. Donc X(1) suit une loi de Pareto de param`etre de seuil a et de param`etre de nθ 1 forme nθ, d’o` u E X(1) = nθ−1 a, E nθ−1 nθ X(1) = a et (1 − nθ )X(1) est un estimateur sans biais pour a. Notons qu’il n’est pas pour autant UMVUE car on n’est pas dans la classe exponentielle.
Exercice 6.13 1. Pour la famille des lois N (μ , 1), μ ∈ R, on a la densit´e : f (x; μ) =
√1 2π
2
exp{− 12 (x − μ) }. Calculons :
ln f (x; μ) = − 12 ln(2π) − ϑ2 ϑμ2
2
ϑ (x − μ) , ϑμ ln f (x; μ) = x − μ, + , ϑ2 ln f (x; μ) = −1, I(μ) = E − ϑμ2 ln f (X; μ) = 1. 1 2
1 nI(μ)
La borne de Cramer-Rao est que V (X) = n1 , X est efficace.
=
1 . n
Comme X est sans biais pour μ et
2. Pour la famille des lois N (0 , σ 2 ), σ 2 > 0, posons v = σ 2 pour simplifier les ´ecritures. f (x; v) =
√1 2πv
2
exp{− 12 xv }, ln f (x; v) = − 12 ln(2π) − 2
2
1 2
car E(X 2 ) = σ 2 = v, donc I(v) = 1 2σ 4 . Rao est nI(σ 2) = n
1 x2 , 2 v
2
1 x ϑ 1 x ln f (x; v) = − 2v + 2v 2 , ϑv 2 ln f (x; v) = 2v 2 − v 3 , , + 2 ) ϑ2 = − 2v12 + E(X = − 2v12 + I(v) = E − ϑv 2 ln f (X; v) v3 ϑ ϑv
ln v −
1 2v 2
ou I(σ 2 ) =
1 2σ 4
1 v2 ,
et la borne de Cramer-
n n 2 Xi2 2 i=1 Xi Notons que i=1 est sans biais pour σ et que V = n1 V (X 2 ) = n + n , 4 2 1 4 = n1 3σ 4 − σ 4 = 2σn . Donc cet estimateur est effi− E X2 n E X cace.
366
Statistique - La th´eorie et ses applications
Exercice 6.14 Comme vu en section 6.6.3, pour estimer une fonction h(p) =
2
[h (p)] nI(p)
p 1−p
du param`etre
1 nI(p)(1−p)4 .
p, la borne de Cramer-Rao est = Pour la loi de Bernoulli f (x; p) = px (1 − p)1−x , ln f (x; p) = x ln p + (1 − x) ln(1 − p), 2
1−x ln f (x; p) = xp − 1−x , ϑ ln f (x; p) = − px2 − (1−p) 2, 1−p ϑp2 , + 2 ϑ 1 = E(X) + 1−E(X) = p1 + 1−p = I(p) = E − ϑp 2 ln f (X; p) p2 (1−p)2 p Cramer-Rao est donc, pour estimer h(p), n(1−p)3 . ϑ ϑp
1 . p(1−p)
La borne de
Exercice 6.15 −2(x−θ) ϑ On a : ln f (x; θ) = − ln π − ln[1 + (x − θ)2 ], ϑθ ln f (x; θ) = 1+(x−θ) 2, , + , + 2 2 2 +∞ (x−θ) 4(X−θ) ϑ = E [1+(X−θ)2 ]2 = π4 −∞ [1+(x−θ)2 ]3 dx. ln f (X; θ) I(θ) = E ϑθ
Posons t = x − θ : +∞ t2 I(θ) = π4 −∞ (1+t 2 )3 dt =
4 8π
+ arctan t +
,+∞ t(t2 −1) (t2 +1)2 −∞
=
1 π 2π
= 12 .
La borne de Cramer-Rao pour θ est donc n2 . √ 2 La variance asymptotique de n(Mn − θ) est π4 2, 47 > 2, donc Mn n’est pas asymptotiquement efficace et n’est pas un estimateur BAN (voir la d´efinition en proposition 6.11).
Exercice 6.16 Estimateur des moments Il v´erifie θ2 = X et c’est donc θM = 2X. Il est sans biais et eqm(θM ) = θ2 θ2 = 3n . V (θM ) = 4V (X) = n4 V (X) = n4 12 Estimateur du MV On a vu que θM V = X(n) (exemple 6.21) et que E(X(n) ) = 6.4). Son biais est
n n+1 θ − θ
θ = − n+1 . Calculons V (X(n) ) = n−1
n n+1 θ (exemple n2 2 2 E(X(n) ) − (n+1) 2θ .
La densit´e de X(n) ´etant n xθn si x ∈ [0, θ] et 0 sinon (voir exemple 6.4), on a: θ n+1 n 2 ) = n 0 xθn dx = n+2 θ2 ; V (X(n) ) = (n+1)n2 (n+2) θ 2 . D’o` u: E(X(n) 2
θ 2 + (n+1)n2 (n+2) θ 2 = (n+1)(n+2) θ2 . eqm(X(n) ) = − n+1
Corrig´es des exercices Estimateur n+1 n X(n) (UMVUE) Calculons sa variance d’apr`es celle de l’EMV. n+1 2 n+1 V (X(n) ) = eqm( n+1 n X(n) ) = V ( n X(n) ) = n
367
1 2 n(n+2) θ .
X(n) ) < eqm(X(n) ) < eqm(θM ). Pour n ≥ 3, on v´erifie ais´ement que eqm( n+1 n Pour n = 2, la deuxi`eme in´egalit´e devient une ´egalit´e. 2 2 Notons que pour n grand, eqm( n+1 X(n) ) ∼ nθ 2 , eqm(X(n) ) ∼ 2θ , eqm(θM ) ∼ n n2 2 θ e par les deux autres (il 3n . L’estimateur des moments est largement domin´ est peu pertinent car il n’est pas une fonction de X(n) , statistique exhaustive minimale).
Exercice 6.17 La fonction de probabilit´e de cette loi au point k s’obtient par : P (X=k) 1 e−λ λx f (x; λ) = P (X = k| X = 0) = 1−P (X=0) = 1−e−λ x! . Alors : −λ ln f (x; λ) = −λ + x ln λ − ln x! − ln(1 − e ). n ϑ e−λ ϑ ne−λ i=1 xi ln f (x; λ) = −1 + λx − 1−e − 1−e −λ , ϑλ ln L(λ) = −n + −λ . ϑλ λ L’estimation du MV est la valeur de λ (si unique) telle que : n ne−λ λ i=1 xi −n + − 1−e −λ = 0 ou 1−e−λ = x. λ M V 2, 82. Pour x = 3, la solution donne, par approximations successives, λ
Exercice 6.18 La densit´e de la loi de Pareto est : θ+1 pour x ≥ a et 0 sinon. f (x; θ) = aθ xa θ ϑ ln f (x; θ) = ln a + (θ + 1) ln xa ; ϑθ ln f (x; θ) = 1θ + ln xa ; n ϑ ln L(θ) = nθ + i=1 ln xai . ϑθ L’estimation du MV est telle que : n n + i=1 ln xai = 0, soit pour l’estimateur θM V = n nln a . θ
i=1 Xi Dans la solution de l’exercice 6.11 on a vu que E nn−1 = θ, donc ln a E(θM V ) =
i=1
n n−1 θ.
Son biais est
n n−1 θ
−θ =
Pour la borne de Cramer-Rao calculons : 2 et la borne est θn .
Xi
1 n−1 θ.
ϑ2 ϑθ2
ln f (x; θ) = − θ12 , d’o` u I(θ) =
1 θ2
Pour la variance de l’EMV notons que selon l’exercice 6.11, Yi = ln( Xai ) et n n2 2 M V ) = V ( n ) = Yi ; E(θ). Posons T = i=1 Yi , alors V (θ T (n−2)(n−1)2 θ
368
Statistique - La th´eorie et ses applications
comme il a ´et´e ´etabli lors de la solution de l’exercice 6.9 pour V ( T1 ). Comme n2 θ2 2 M V est asymptotiquement efficace. (n−2)(n−1)2 θ ∼ n quand n → ∞, θ Exercice 6.19 Calculons : ln f (x; ρ) = ln ρ + ln(ρ + 1) + ln x + (ρ − 1) ln(1 − x), ϑ 1 1 ϑρ ln f (x; ρ) = ρ + ρ+1 + ln(1 − x). n n MV (estimation du MV) est solution de nρ + ρ+1 + i=1 ln(1 − xi ) = Donc ρ n n 2ρ+1 0 ou ρ(ρ+1) = − n1 i=1 ln(1 − xi ). Posons a = − n1 i=1 ln(1 − xi ). Il faut √
2
r´esoudre en ρ l’´equation 2ρ + 1 = aρ(ρ + 1). Les solutions sont 2−a±2a 4+a . Comme a ne√prend que des valeurs positives, la seule solution dans R+ est 2 ρM V = 2−a+2a4+a .
Exercice 6.20 Loi binomiale n´ egative BN (r, p) avec r connu r fonction de probabilit´e f (x; p) = r+x−1 p (1 − p)x , x ∈ N. x r+x−1 + r ln p + x ln(1 − p) ln f (x; p) = ln x ϑ r x x ln f (x; p) = − M V (estimation) solution de pr − 1−p = 0, d’o` u ϑp p 1−p ; p r MV = X+r (estimateur). La solution est intuitivement r´ealiste puisqu’elle p consiste `a faire le rapport du nombre de succ`es sur le nombre d’essais. Loi binomiale B(n, p) avec n connu fonction de probabilit´e f (x; p) = nx px (1 − p)n−x , x = 0, 1, · · · , n. ln f (x; p) = ln nx + x ln p + (n − x) ln(1 − p) ϑ ln f (x; p) = xp − n−x ; pM V (estimation) solution de xp − n−x = 0, ϑp 1−p 1−p X MV d’o` u p = n (estimateur), nombre de succ`es sur nombre d’essais.
Exercice 6.21 La fonction de probabilit´e non nulle pour x ∈ {1, 2, · · · , N − M + 1} est : f (x; N ) = P (X = x) = ln f (x; N ) =
x−2 k=0
N −M N −M −1 N − M − (x − 2) M ··· . N N −1 N − (x − 2) N − (x − 1)
ln (N − M − k) −
x−1 k=0
ln (N − k) + ln M
Corrig´es des exercices x−2 ln f (x; N ) = k=0 annulant cette expression. ϑ ϑN
1 N −M −k
−
x−1
1 k=0 N −k ;
369
M V (estimation) solution N
Application 1 1 + N −101 − ( N1 + N 1−1 + N 1−2 ) = 0. M = 100, x = 3, r´esoudre en N : N −100 M V = 300. La solution donn´ee par un logiciel math´ematique est N On notera que c’est la mˆeme solution que dans un ´echantillonnage sans 1 remise o` u Y = X − 1 ; G(p) avec p = M M V = y+1 = x1 = 13 . N , car p
Exercice 6.22 r
λ La fonction de probabilit´e est f (x; λ) = Γ(r) xr−1 e−λx , x > 0. ln f (x; λ) = r ln λ − ln Γ(r) + (r − 1) ln x − λx n ϑ r ϑ nr M V (estimation) solution i=1 xi . λ ϑλ ln f (x; λ) = λ −x; ϑλ ln L(λ) = λ − r M V annulant cette expression, donc λ = X (estimateur).
M V Pour n grand λ I(λ) : ϑ2 ϑλ2
;
approx
1 N (λ ; nI(λ) ) selon la proposition 6.11. Calculons
+ , ϑ2 ln f (x; λ) = − λr2 ; I(λ) = E − ϑλ = 2 ln f (X; λ)
M V d’o` uλ
;
approx
r λ2 ,
2
λ N (λ ; nr ). Ce r´esultat sera utile pour ´etablir un intervalle de
confiance pour λ (voir chapitre 7).
Exercice 6.23 La densit´e de probabilit´e a posteriori de p sachant (X1 , · · · , Xn ) = (x1 , · · · , xn ) n − ou en bref X = x − est, en posant s = i=1 xi : % 1 1 ps (1 − p)n−s p(1 − p) ps+ 2 (1 − p)n−s+ 2 πp|X=x (p) = 1 = 1 % 1 1 ps (1 − p)n−s p(1 − p)dp ps+ 2 (1 − p)n−s+ 2 dp 0 0 qui est la densit´e de la loi Beta(s + 12 , n − s + 12 ). Pour l’estimation bay´esienne de p on prend sa moyenne
Γ(s+ 52 ) Γ(n+3) Γ(n+4) . Γ(s+ 32 )
=
s+ 32 n+3 .
Pour une loi a priori Beta(α, β), on a une densit´e proportionnelle a` pα (1 − p)β , avec α > −1, β > −1, d’o` u une loi a posteriori Beta(s + α, n − s + β), de s+α+1 moyenne n+2+α+β .
370
Statistique - La th´eorie et ses applications
Chapitre 7 : Estimation param´ etrique par intervalle de confiance Exercice 7.1 Pour μ la largeur est 2 × 1, 96 √sn . Pour σ on a l’IC (voir note 7.5) : ⎡%
(n − 1)s
%
⎤ (n − 1)s ⎦
,( IC0,95 (σ) = ⎣ ( 2 (n−1) 2 (n−1) χ0,975 χ0,025
.
Pour n grand la loi χ2 (n − 1), de moyenne n − 1 et variance 2(n − 1), est approch´ee par la loi N (n − 1 ; 2(n − 1)) (voir la remarque de la section 5.8.3). Donc : + , ( % 2 (n−1) 2 χ0,975 (n − 1) + 1, 96 2(n − 1) = (n − 1) 1 + 1, 96 (n−1) ( , ,− 12 + ,− 12 + + ( 1 1 2 (n−1) 2 1 (n−1)− 2 1 + 1, 96 (n−1) (n−1)− 2 1 − 1, 96 2n χ0,975 et de mˆeme par simples changements de signes : ( , + ,− 12 + 1 2 (n−1) 1 χ0,025 . (n − 1)− 2 1 + 1, 96 2n ( ( + , 1 1 ) , s(1 + 1, 96 2n ) dont la largeur est D’o` u IC0,95 (σ) s(1 − 1, 96 2n √ s 2 × 1, 96 √2n soit 2 fois plus petite que celle de l’IC sur μ.
Exercice 7.2 n
X2
i ; χ2 (n). Pour un ´echantillon (X1 , X2 , · · · , Xn ) de la loi N (0 ; σ 2 ), on a i=1 σ2 Donc : n n n Xi2 Xi2 Xi2 2 (n) 2 (n) P (χ α < i=1 < χ1− α ) = 1 − α, P ( i=1 < σ2 < i=1 2 2 ( n) 2 (n) ) = 1 − α, σ 2 2 χ1− α χα 2 2
d’o` u IC1−α (σ 2 ) =
n
2 i=1 xi 2 (n) χ1− α 2
,
n
2 i=1 xi 2 (n)
χα 2
.
Corrig´es des exercices
371
Exercice 7.3 Pour X ; U[0, θ] on a la fonction de r´epartition FX (x; θ) = xθ si x ∈ [0, θ]. Donc n n pour un ´echantillon de taille n, FX(n) (x; θ) = [FX (x; θ)] = xθ si x ∈ [0, θ]. xα n 1 = α ou xα = θα n . Ainsi : Le quantile xα de X(n) est tel que θ
1 1 P θ(0, 025) n < X(n) < θ(0, 975) n = 0, 95
1 1 P X(n) (0, 975)− n < θ < X(n) (0, 025)− n = 0, 95 + , 1 1 d’o` u IC0,95 (θ) = x(n) (0, 975)− n , x(n) (0, 025)− n .
Exercice 7.4 1 n−1 − x e 2 2n (n−1)! x
La densit´e de la loi χ2 (2n) est, au point x, fonction de r´epartition est : Fχ2 (x; 2n) =
x
0
1 t tn−1 e− 2 dt = n 2 (n − 1)!
x 2
0
(x > 0) et sa
1 tn−1 e−t dt = Jn−1 . (n − 1)!
Int´egrons par partie Jk pour ´etablir une relation de r´ecurrence :
x 2
Jk = − 0
x k − x k x x k−1 −t 2 t e 2 t −t 2 tk e −t + d(e ) = − e dt = − 2 + Jk−1 , k! k! k! 0 (k − 1)! 0
avec J0 = 1 − e− 2 . x
D’o` u Jn−1 = 1 − e− 2 − x
2
x
e− 2 2!
( x2 )
− ···
x
e− 2 (n−1)!
( x2 )
n−1
=1−
n−1 k=0
x
k e− 2 ( x 2) . k!
Rempla¸cons x par 2λ et 2x + 2, x entier, par 2n pour obtenir Fχ2 (2λ; 2x + 2) = x −λ k 1 − k=0 e k!λ = 1 − FP (x; λ). Trouver λ tel que, pour x donn´e, FP (x; λ) = α ´equivaut a` prendre le quantile d’ordre 1 − α de la loi χ2 (2x + 2) puis a` le diviser par 2. Exemple 7.6 : T ; P (7λ). Pour x = 18 et α = 0, 025 on prend pour 7λ le quantile 0, 975 de la loi χ2 (38), soit 56,9. Cela donne la borne sup´erieure de l’IC sur 7λ : 7λ2 = 56,9 erieure, on obtient x = 17, 2 = 28, 4. Pour la borne inf´ α = 0, 975, χ20,025 (36) = 21, 34 et 7λ1 10, 7. Finalement, on a trouve bien le mˆeme intervalle pour λ : [1, 53 ; 4, 06] .
372
Statistique - La th´eorie et ses applications
Exercice 7.5 20 On a T = i=1 Xi ; B(20 ; p). Il faut r´esoudre en p les deux ´equations (voir section 7.5, cas d’une loi discr`ete) : 7 20 x 20−x = 0, 975 x=0 x p (1 − p) 8 20 x 20−x = 0, 025 x=0 x p (1 − p) Un logiciel de r´esolution d’´equations donne pour la premi`ere p1 = 0, 19 et la deuxi`eme p2 = 0, 64, qui sont les bornes de (l’intervalle de confiance a` 95%. L’in-
p) de la section 7.4.5 donnerait, tervalle asymptotique classique p ± 1, 96 p(1− n avec ici p = 8/20 : [0, 185; 0, 615]. Cet intervalle est toutefois assez approximatif du fait que la r`egle de validit´e donn´ee n p(1 − p) > 12 n’est pas v´erifi´ee (ici n p(1 − p) = 4, 8).
Exercice 7.6 On sait que X est statistique exhaustive minimale. On a remarqu´e en section 6.8 que la loi a posteriori du param`etre inconnu sachant les valeurs prises par l’´echantillon ne d´epend que de cette statistique. On conditionnera donc 2 simplement sur l’´ev´enement (X = x). Comme X ; N (μ , σn ), sa densit´e est 2 fX (x; μ) = √ 1 2 exp{− 12 (x−μ) e de la loi a priori de μ ´etant σ2 /n }. La densit´ 2πσ /n
π(μ) =
√1 2 2πσ0
2
0) exp{− 12 (μ−μ }, on a la loi a posteriori : σ2 0
! (μ − μ0 )2 1 (x − μ)2 + πμ|X=x (μ) = c exp − 2 σ 2 /n σ02
o` u c est la constante qui normalise `a une densit´e. L’expression entre crochets s’´ecrit : x2 n nx μ0 μ20 1 2 − 2μ + + + + μ 2 2 σ2 σ0 σ2 σ0 σ 2 /n σ02 μ0 2 2 nx ¯ + σ 2 μ0 /n σ02 x n 1 1 σ 2 + σ02 te μ − μ − = + + C = + C te , n 1 2 + σ 2 /n σ02 σ2 /n σ2 σ02 σ + 2 2 0 σ σ 2 2 0
σ0 +σ /n
expression qui met en ´evidence la moyenne et la variance de la loi a posteriori de μ, comme indiqu´e dans l’´enonc´e. On en d´eduit l’intervalle de probabilit´e 0, 95 pour μ (ou, en d’autres termes, son IC bay´esien `a 95%) : ¯ + σ 2 μ0 /n σ02 σ 2 /n σ02 x ± 1, 96 . σ02 + σ 2 /n σ02 + σ 2 /n
Corrig´es des exercices
373
Quand n → ∞, on obtient x pour le premier terme et, pour l’expression sous 2 2 le radical, n+σσ2 /σ2 ∼ σn , soit l’IC classique. 0 Dans l’approche bay´esienne, le centre de l’intervalle est une pond´eration entre 2 2 x et μ0 avec(poids ( respectifs σ0 et σ /n. La demi-largeur est plus petite car ´egale `a 1, 96
σ2 n
σ02 . σ02 +σ 2 /n
Exercice 7.7
( n ) P tend Dans les notations de la section 7.4.5, il suffit de montrer que Pn (1− n Sn vers 0 en probabilit´e, o` u Pn = n . Or selon la loi des grands nombres, Pn converge presque sˆ urement ( vers p (voir section 5.8.2) et a fortiori Pn converge en probabilit´e vers p. Ainsi Pn (1 − Pn ), en tant que fonction continue de Pn , % converge en probabilit´e vers p(1 − p), ce qui prouve le r´esultat.
Exercices appliqu´ es Exercice 7.8 (11)
On calcule x = 8, 10, s2 = 0, 1018, s = 0, 319 et on lit t0,975 = 2, 201. D’o` u: 0, 319 = 8, 10 ± 0, 20. IC0,95 (μ) = 8, 10 ± 2, 201 √ 12 Exercice 7.9 (499)
u: On a x = 5, 4, s = 3, 1 et on lit t0,95 z0,95 = 1, 645. D’o` 3, 1 IC0,90 (μ) = 5, 4 ± 1, 645 √ = 5, 4 ± 0, 23 jours. 500 Pour le coˆ ut moyen, on obtient un IC a` 90% en multipliant les bornes du pr´ec´edent par 200, soit 1080 ± 46 euros.
Exercice 7.10 Pour les 200 sinistres s´electionn´es, on a une valeur moyenne de 9 944 euros avec (199) un ´ecart-type de 1901. Avec t0,975 1, 97 on obtient, pour la valeur moyenne 1 901 des sinistres en cours, l’IC `a 95% : 9 944 ± 1, 97 √ ou 9 944 ± 264, 8 euros. 200 Pour la valeur totale des sinistres en cours on a un IC a` 95% de : 11 210 × 9 944 ± 11 210 × 264, 8 111, 5 ± 3, 0 millions d’euros.
374
Statistique - La th´eorie et ses applications
Exercice 7.11 (19)
Soit μ le nombre moyen de mots par page du livre, on a, avec t0,975 = 2, 093 : 26 IC0,95 (μ) = 614 ± 2, 093 √ = 614 ± 12, 2. 20 Pour le nombre total de mots, on obtient l’IC a` 95% en multipliant par le nombre de pages, soit 97 012 ± 1 923 ou environ [95 100, 98 900] .
Exercice 7.12 Soit μ1 et μ2 les consommations moyennes avec carburant traditionnel et carburant nouveau respectivement. On cherche un IC sur μ1 −μ2 . Sur les ´echantillons on a n1 = 10, x1 = 10, 8, s1 = 0, 21, n2 = 10, x2 = 10, 3, s2 = 0, 18. On peut appliquer la formule sous l’hypoth`ese de variances ´egales au vu des tailles d’´echantillons et des ´ecarts-types observ´es (voir section 7.4.3). On calcule 1 d’abord la variance empirique pond´er´ee : s2p = 18 (9 × (0, 21)2 + 9 × (0, 18)2 ) = 0, 03825 , d’o` u sp = 0, 196. (18)
Avec t0,95 = 1, 734 on obtient :
)
IC0,95 (μ1 − μ2 ) = (10, 8 − 10, 3) ± 1, 734 × 0, 196
1 1 + 0, 5 ± 0, 15. 10 10
Le gain peut ˆetre estim´e entre 0,35 et 0,65 litres.
Exercice 7.13 On a p = 45/400 = 0, 1125. Comme n p(1 − p) = 39, 9 > 12 nous appliquons l’approximation gaussienne pour la proportion de pi`eces d´efectueuses. Avec z0,995 = 2, 57 on a : ) 0, 1125 × 0, 8875 = 0, 1125 ± 0, 0406, IC0,99 (p) = 0, 1125 ± 2, 57 400 ce qui donne pour le nombre total de pi`eces d´efectueuses dans le stock : 1 125±406 soit entre 720 et 1 530 pi`eces environ.
Corrig´es des exercices
375
Exercice 7.14 On a p = 0, 20. Comme n p(1 − p) = 240 > 12, nous appliquons l’approximation gaussienne pour la proportion de personnes pr´evoyant d’acheter une voiture dans les douze prochains mois. Avec z0,975 = 1, 96 on a : ) 0, 20 × 0, 80 IC0,95 (p) = 0, 20 ± 1, 96 = 0, 20 ± 0, 032, 1500 soit entre 17% et 23% environ.
Exercice 7.15 Soit p1 et p2 les proportions de pi`eces d´efectueuses produites par le premier et le deuxi`eme proc´ed´e respectivement. On cherche un IC sur p1 − p2 . Sur les ´echantillons on a n1 = 1000, p1 = 86/1000 = 0, 086, n2 = 800, p2 = 92/800 = p2 (1 − p2 ) = 81, 4 > 12 nous 0, 115. Comme n p1 (1 − p1 ) = 78, 6 > 12 et n appliquons l’approximation gaussienne de la section 7.4.6. Avec z0,975 = 1, 96 on a : ) 0, 086 × 0, 914 0, 115 × 0, 885 + IC0,95 (p1 − p2 ) = (0, 086 − 0, 115) ± 1, 96 1000 800 = −0, 029 ± 0, 028, soit entre −0, 057 et −0, 001. Cet intervalle semble indiquer que p1 est inf´erieur `a p2 .
Exercice 7.16 50 Pour les 50 jours, on a observ´e un nombre total d’accidents ´egal `a i=1 xi = 0 × 21 + 1 × 18 + 2 × 7 + 3 × 3 + 4 × 1 = 45 d’o` u une moyenne d’accident par jour observ´ee de x = 0, 90. On applique l’approximation gaussienne d´evelopp´ee dans l’exemple 7.3. Avec z0,975 = 1, 96 on a : ) 0, 90 = 0, 90 ± 0, 26, IC0,95 (λ) = 0, 90 ± 1, 96 50 soit un nombre moyen d’accident par jour entre 0,64 et 1,16. Notons que cet IC tient compte des sp´ecificit´es du mod`ele de Poisson, `a savoir que moyenne et variance sont ´egales `a λ.
376
Statistique - La th´eorie et ses applications
Exercice 7.17 On calcule s2 = 0, 00461, s = 0, 0679. Calculons d’abord l’IC pour la variance 2 (9) 2 (9) σ 2 du taux (voir section 7.4.2), avec χ0,025 = 2, 700 et χ0,975 = 19, 023 : IC0,95 (σ 2 ) = [
9 × 0, 00461 9 × 0, 00461 , ] = [0, 00281 , 0, 01537] 19, 023 2, 700
soit IC0,95 (σ) = [0, 047 , 0, 124] ou, environ, [0, 05 , 0, 12].
Corrig´es des exercices
377
Chapitre 8 : Estimation non param´ etrique et estimation fonctionnelle Exercice 8.1 Dans EXCEL on g´en`ere en premi`ere colonne 200 nombres au hasard dans [0,1] avec la fonction ALEA(). En deuxi`eme colonne on applique a` la premi`ere colonne la fonction EXP(LOI.NORMALE.STANDARD.INVERSE(-)) ou directement LOI.LOGNORMALE.INVERSE(- ; 0 ; 1), pour obtenir 200 observations issues de la loi LN (0 ; 1) selon le principe d´efini en section 4.3. Nous avons effectu´e cette op´eration et trouv´e une m´ediane des 200 observations ´egale `a 1,073 qui est une estimation ponctuelle de la vraie m´ediane μ ' laquelle est ici ´egale `a e0 = 1. En effet, si ζq est le quantile d’ordre q de la loi N (0 ; 1), eζq est le quantile d’ordre q de la loi LN (0 ; 1) puisque P (Z ≤ q) = P (eZ ≤ eq ) = q o` u Z ; N (0 ; 1) et eZ ; LN (0 ; 1). Comme vu en section 8.2 on obtient un IC a` 95% pour μ ' avec les l1 -i`eme et u l1 est tel que l2 + 1-i`eme statistiques d’ordre r´ealis´ees dans l’´echantillon, o` ' ' P (N ≥ l1 ) ≥ 0, 975 et l2 = n − l1 , avec N ; B(200 ; 0, 5). En calculant les probabilit´es de cette loi dans EXCEL pour l’ensemble des valeurs possibles on ' ) = 0, 980 et P (87 ≤ N ' ) = 0, 972 donc l1 = 86 et l2 = 114. trouve que P (86 ≤ N Dans notre ´echantillon, les 86-i`eme et 115-i`eme statistiques d’ordre ont pris, respectivement, les valeurs 0,923 et 1,230 d’o` u IC0,95 (' μ) = [0,923;1,230]. Cet intervalle couvre bien la vraie valeur. ' ∗ , nombre Pour x0,90 , le quantile d’ordre 0,90, on recourt de mˆeme `a la v.a. N d’observations inf´erieures ou ´egales `a x0,90 qui suit une loi B(200 ; 0, 90). On ' ∗ ≤ l∗ ) ≥ 0, 95. On trouve, en caldoit chercher l1∗ et l2∗ tels que P (l1∗ ≤ N 2 ' ∗ ) = 0, 984 et culant les probabilit´es de cette loi dans EXCEL, P (171 ≤ N ' ∗ ) = 0, 973 donc on prendra l∗ = 171. Comme P (N ' ∗ ≤ 187) = P (172 ≤ N 1 ∗ ' ≤ 187) = 0, 968 − 0, 016 = 0, 952. Dans notre 0, 968 on a P (171 ≤ N ´echantillon les 171-i`eme et 188-i`eme statistiques d’ordre ont pris, respectivement, les valeurs 3,29 et 4,48 d’o` u IC0,95 (' μ) = [3,29;4,48]. Cet intervalle couvre 1,28 bien la vraie valeur ´egale `a e = 3,60. L’estimation ponctuelle ´etait donn´ee par le quantile empirique d’ordre 0,90 soit 3,94 pour notre ´echantillon.
378
Statistique - La th´eorie et ses applications
Exercice 8.2 Pour les 12 valeurs donn´ees, ( on obtient x = 1, 10 et s = 1, 32. 12 1 2 On calcule les valeurs s−i = 10 j=1,j =i (xi − x−i ) et on obtient : 1,34 1,34 1,34 1,34 1,36 1,37 1,38 1,38 1,38 1,36 1,36 0,71. Puis on calcule les pseudo-valeurs s∗i = 12s − 11s−i et on obtient : 1,05 1,05 1,05 1,05 0,82 0,77 0,62 0,61 0,63 0,89 0,89 8,05. La moyenne des pseudo-valeurs est ´egale `a 1,46 ce qui donne l’estimation par jackknife de σ. On note qu’elle est assez diff´erente de l’estimation usuelle par s =1,32 ce qui s’explique par l’incidence forte de la derni`ere valeur pour un nombre faible d’observations. Comme l’´ecart-type des pseudo-valeurs est sJK =2,08 on obtient : 2,08 2,08 11 √ √ IC0,95 (σ) = [1,46−t11 0,975 12 , 1, 46 + t0,975 12 ]
soit, avec t11 0,975 =2,201, l’intervalle [0,14 ; 2,78] qui est assez large en raison du faible nombre d’observations. Note : Les r´esultats ont ´et´e calcul´es avec la pr´ecision d’EXCEL mais sont indiqu´es arrondis `a la deuxi`eme d´ecimale.
Exercice 8.3 On a S'n2 = 2 = S'−i
1 n
n
1 n−1
j=1 (Xj n
− X)2 et, en omettant l’observation i :
(Xj − X −i )2 =
j=1,j =i
1 n−1
n
(Xj − X)2 − (X −i − X)2
j=1,j =i
soit pour la pseudo-valeur correspondante : 2 2 S'∗i = nS'n2 − (n − 1)S'−i
=
n
n
(Xj − X)2 −
j=1
(Xj − X)2 + (n − 1)(X −i − X)2
j=1,j =i
= (Xi − X) + (n − 1)(X −i − X)2 . 2
Or : X −i − X = =
1 n−1
n j=1,j =i n
1 n(n − 1)
j=1
1 Xj = n j=1 n
Xj − Xj −
1 1 − n−1 n
n j=1
1 1 Xi = (X − Xi ), n−1 n−1
Xj −
1 Xi n−1
Corrig´es des exercices d’o` u:
2 = (Xi − X)2 + S'∗i
379
1 n (X − Xi )2 = (Xi − X)2 . n−1 n−1
2 Ainsi l’estimateur du Jackknife qui est la moyenne des S'∗i donne Sn2 qui est 2 sans biais. Cela corrobore la proposition 8.2 : le biais de S'n2 qui est - σn est ´elimin´e par la proc´edure Jackknife.
Exercice 8.4 On a X =
1 n
n j=1
Xj et X −i =
1 n−1
n j=1,j =i
X ∗i = nX − (n − 1)X −i =
n j=1
Xj . Donc :
Xj −
n
Xj = Xi .
j=1,j =i
Les pseudo-valeurs sont ainsi identiques aux valeurs mˆemes et l’estimateur du jackknife reste X.
Exercice 8.5 Consid´erons la double suite · · · , a0 − 2h, a0 − h, a0 , a0 + h, a0 + 2h, · · · qui d´efinit une grille d’intervalles de largeur h pour l’histogramme, pour laquelle nous consid´ererons le point a0 comme point de positionnement. Soit fn (x; a0 ) la valeur de l’histogramme au point x. Nous pouvons ´ecrire fn (x; a0 ) en exprimant le comptage des xi situ´es dans le mˆeme intervalle que x (pour lever l’ambigu¨ıt´e aux limites des intervalles, nous prendrons des intervalles ouverts `a droite), ce qui donne la double somme comme suit : 1 I[a0 +kh,a0 +(k+1)h[ (xi ) I[a0 +kh,a0 +(k+1)h[ (x) fn (x; a0 ) = nh i=1 n
=
1 nh
k∈Z n
i=1 k∈Z
I[0,1[ (
xi − a0 x − a0 − k) I[0,1[ ( − k). h h
Nous consid´erons maintenant fn (x; a0 ) correspondant a` la valeur moyenne obtenue en faisant glisser uniform´ement la grille du positionnement a0 `a a0 + h : 1 fn (x; a0 ) = nh2
n a0 +h a0
i=1 k∈Z
I[0,1[ (
xi − t x − t) − k) I[0,1[ ( − k)dt, h h
380
Statistique - La th´eorie et ses applications
xi −a0 x−a0 0 soit, en posant u = t−a et en permutant l’int´egration et h , zi = h ,z = h la premi`ere sommation : n 1 1 I[0,1[ (zi − k − u)I[0,1[ (z − k − u)du. fn (x; a0 ) = nh i=1 0 k∈Z
En remarquant que I[0,1[ (zi − k − u) est ´egal `a 1, si et seulement si k = [zi ] (la partie enti`ere de zi ) quand u ∈ [0, zi − [zi ]] et si et seulement k = [zi ] − 1 quand u ∈ [zi − [zi ], 1] , on a : 1 n zi −[zi ] 1 fn (x; a0 ) = I[0,1[ (z − [zi ] − u)du + I[0,1[ (z − [zi ] + 1 − u)du . nh i=1 0 zi −[zi ] En effectuant le changement de variable v = z − [zi ] − u dans la premi`ere int´egrale et v = z − [zi ] + 1 − u, on obtient : 1 fn (x; a0 ) = nh i=1 n
z−zi +1
z−zi
I[0,1[ (v)dv.
En examinant les diff´erentes positions de [0, 1] par rapport a` [z − zi , z − zi + 1], on arrive finalement a` : 1 [1 − |z − zi |] I[0,1[ (|z − zi |) fn (x; a0 ) = nh i=1 n n 1 1 x − xi = K(z − zi ) = K nh i=1 nh i=1 h n
o` u K(u) = (1 − |u|)I[0,1[ (|u|) est le noyau triangulaire. Comme on s’y attendait, fn (x; a0 ) ne d´epend pas de l’origine a0 .
Exercice 8.6 Dans EXCEL, on g´en`ere en premi`ere colonne 50 nombres au hasard dans [0,1] avec la fonction ALEA(). En deuxi`eme colonne on applique a` la premi`ere colonne la fonction LOI.NORMALE.STANDARD.INVERSE(-). Puis on applique (1 − x2 )2 pour les valeurs x ∈ [−1, 1] et 0 la fonction biweight avec h = 1 soit 15 16 sinon. Alors la moyenne de ces poids est l’estimation pour f (0) = √12π 0,399. L’esp´erance math´ematique de cet estimateur est (voir section 8.5.2) : +1 x2 x−t 15 1 1 )f (t)dt = (1 − x2 )2 √ e− 2 dx 0,369 , K( h R h 2π −1 16
Corrig´es des exercices
381
valeur obtenue via un logiciel de calcul math´ematique. Le biais est 0,369−0,399 = 0,030. Il est ´evidemment n´egatif puisqu’on pond`ere des observations prises au voisinage d’un maximum. Sur une simulation de 50 observations on doit trouver une estimation avec un ´ecart `a la vraie valeur pas trop ´eloign´e de 0,03 (on peut ´eventuellement augmenter la taille de l’´echantillon pour le v´erifier plus pr´ecis´ement).
Exercice 8.7 On proc`ede comme `a l’exercice pr´ec´edent ` a ceci pr`es que la fonction de poids est 15 x 2 2 erentes valeurs de h propos´ees. 16 (1 − ( h ) ) pour les x ∈ [−h, h], avec les diff´ La valeur de h optimale asymptotiquement en un point x est donn´ee en section 8.5.2 : 1/5 f (x) R [K(u)]2 du n−1/5 . hopt =
2 [f (x)]2 R u2 K(u)du Ici on a x = 0, f (0) = R
√1 2π
0,399 , f (0) = −1 et :
2 +1 2 +1 15 15 (1 − u2 )4 du = (1 − 4u2 + 6u4 − 4u6 + u8 )du 16 16 −1 −1 2 4 15 6 4 1 0,7143 , 1− + − + =2 16 3 5 7 9 15 +1 2 15 1 2 1 u2 K(u)du = (u − 2u4 + u6 )du = 2 0,1429. − + 16 −1 16 3 5 7 R
[K(u)]2 du =
1
d’o` u finalement hopt =1,694 n− 5 . Pour n = 50 on trouve hopt =0,775. Observez-vous l’estimation la plus proche de √12π 0,399 pour h =0,75? Augmentez ´eventuellement la taille de l’´echantillon pour v´erifier empiriquement que la meilleure estimation est celle obtenue avec la valeur de h la plus proche de hopt . Par exemple, pour n = 500, hopt = 0,49. Notons que la largeur de fenˆetre reste assez large mˆeme pour une taille d’´echantillon assez ´elev´ee.
Exercice 8.8 Rappelons l’expression asymptotique de l’eqim donn´ee en section 8.5.2. 2
h4 1 2 [f (x)]2 dx u2 K(u)du + [K(u)] du eqim fn ∼ 4 R nh R R
382
Statistique - La th´eorie et ses applications
En la d´erivant par rapport a` h, on obtient une expression qui s’annule pour :
hopt = R
1/5
2
[K(u)] du
R [f (x)]2 dx
R
2 u2 K(u)du
n−1/5 .
et en rempla¸cant dans l’eqim :
eqim fn
opt
5 = 4
45
2
2
[K(u)] du R
25
u K(u)du R
2
[f (x)] dx
15
4
n− 5 .
R
Le facteur d´ependant uniquement du noyau que l’on peut souhaiter minimiser + , 45
2 est ν(K) = R [K(u)]2 du u2 K(u)du 5 . R 2 Pour le noyau biweight on a calcul´e `a l’exercice pr´ec´edent R [K(u)] du = 2 0,7143 et R u K(u)du = 0,1429 ce qui donne ν(K) = 0,351. Pour le noyau de Rosenblatt on trouve de mˆeme ν(K) = 0,369 et pour le meilleur noyau, celui d’Epanechnikov, ν(K) = 0,349. On constate qu’en termes d’approximation asymptotique les diff´erences sont faibles. En particulier le noyau biweight est tr`es proche de celui d’Epanechnikov, avec l’avantage d’ˆetre partout d´erivable.
Exercice 8.9 On peut simplement appliquer les r´esultats de l’exercice pr´ec´edent concernant ⎤ 15 le noyau biweight : ⎡ 0,7143 ⎦ n− 15 2,78 σn− 15 . h = ⎣ 5 3σ 2 √ (0, 1429) 8 π 15
4 5 2 = ν(K) [f (x)] dx n− 5 eqim fn 4 opt R 5 15 4 4 5 3σ √ = (0, 351) n− 5 0, 321 σ −1 n− 5 . 4 8 π
2 2 En int´egrant eqm fn (x) ∼ h12 [f (x)] + f (x)/(nh) donn´ee en section 8.5.2 pour l’histogramme au point x, on obtient :
h2 1 2 eqm fn (x) dx ∼ [f (x)] dx + . eqim(fn ) = 12 R nh R La d´eriv´ee par rapport a` h de cette expression s’annule pour : −1/3 2 1/3 [f (x)] dx n−1/3 , hopt = 6 R
ce qui donne pour la loi N (μ , σ 2 ) :
Corrig´es des exercices
383
√ 1 hopt = (24 π) 3 σ n−1/3 3,49 σn−1/3 . En rempla¸cant dans l’expression de eqim(fn ) ci-dessus on v´erifie ais´ement que 2 eqim(fn )opt 0,430 σ −1 n− 3 . Pour n = 500, par exemple, cette erreur vaut 6,83×10−3 σ −1 contre 2,22×10−3 σ −1 pour le biweight, soit environ trois fois plus.
Exercice 8.10 Pour Fn (x) =
1 n
n i=1
H
x−xi h
, on a :
+∞ n + , 1 x − Xi x−t x−X E Fn (x) = E H H =E H = f (t)dt, n i=1 h h h −∞ +∞ +∞ H(u) h f (x − uh)du = H(u) d(−F (x − uh)) = −∞
= [−H(u)F (x − uh]+∞ −∞ +
−∞
+∞ −∞
K(u) F (x − uh)du.
car H (u) = K(u). Le premier terme est nul et, pour le deuxi`eme, d´eveloppons F (x − uh) au voisinage de x : , +∞ + u2 h2 2 f (x) + o(h ) du K(u) F (x) − uhf (x) + E Fn (x) = 2 −∞ +∞ h2 u2 K(u)du + o(h2 ) = F (x) + f (x) 2 −∞ en utilisant la sym´etrie du noyau. Notons qu’en raison de cette propri´et´e on peut remplacer o(h2 ) par o(h3 ).
384
Statistique - La th´eorie et ses applications
Chapitre 9 : Tests d’hypoth` eses param´ etriques Exercice 9.1 n *n La fonction de vraisemblance est L(λ) = i=1 f (xi ; λ) = λn e−λ i=1 xi . Le rapport de vraisemblance (RV) est : n n n n L( 12 ) 1 1 1 1 = exp{(1 − ) xi } = exp{ xi }. L(1) 2 2 2 2 i=1
i=1
L( 12 )
On rejette H0 : λ = 1/2 (vs. H1 : λ = 1) si L(1) < kα , ce qui ´equivaut a` n n 1 2 i=1 xi < kα . Sous H0 i=1 Xi ; Γ(n, 2 ) ≡ χ (2n). n 2 (2n) 1 Comme P ( i=1 Xi < χ0,05 |λ = 2 ) = 0, 05 on rejette H0 au niveau 0,05 si n 2 (2n) i=1 xi < χ0,05 .
Exercice 9.2 a) Dans un processus de Bernoulli X1 ; G(p) est le nombre d’´echecs avant le premier succ`es. Les v.a. X1 et X2 ´etant ind´ependantes, X1 + X2 peut ˆetre vue comme le nombre d’´echecs avant le deuxi`eme succ`es et ainsi de suite X1 + X2 + · · · + Xn peut-ˆetre vue comme le nombre d’´echecs avant le n-i`eme n succ`es et ainsi i=1 Xi ; BN (n, p). n b) La fonction de vraisemblance de p est L(p) = pn (1−p) i=1 xi , n ´etant connu. Pour le test consid´er´e le RV est : n n L 13 1 2 = 2 i=1 xi 2 L 3 n < kα ´equivaut a` i=1 xi < kα . 4 n c) T = (4, 1 ) sous H0 . Alors P (T = 0) = 30 13 ( 23 )0 = i=1 Xi ; BN 4 4 1 34 2 0,0123 , P (T = 1) = 1 3 ( 3 ) = 0,0329 et P (T = 2) = 52 13 ( 23 )2 = 0,0549. On a donc un test conservateur de niveau 0,05 en rejetant H0 si n i=1 xi ≤ 1. d) La puissance du test est donn´ee par P (T = 1| p = 23 ) = ( 23 )4 + 4( 23 )4 13 = 0,461. et
L( 13 ) L( 23 )
Corrig´es des exercices
385
Exercice 9.3 Le risque de premi`ere esp`ece est α = P (X > 5 + √1n ) avec X ; N (5 ; n1 ). Donc X−5 √ > 1) = P (Z > 1) o` α = P ( 1/ u Z ; N (0 ; 1), d’o` u α = 0, 159. n
Pour μ quelconque X ; N (μ , n1 ) et : √ X −μ 1 5−μ P (X > 5 + √ ) = P ( √ > √ + 1) = P (Z > n(5 − μ) + 1) n 1/ n 1/ n √ u et la fonction puissance, d´efinie pour μ > 5, est h(μ) = 1 − Φ( n(5 − μ) + 1) o` Φ est la fonction de r´epartition de la loi normale centr´ee-r´eduite. Cette fonction croˆıt de 0,159 a` 1.
Exercice 9.4 ´ Ecrivons la fonction de densit´e f (x; θ) = θaθ I[a,+∞[ (x) exp{−(θ + 1) ln x}, .soit la forme exponentielle avec c(θ) = −(θ + 1). Or la proposition 9.5 indique que le RV est monotone si la fonction c(θ) est monotone. Pour θ < θ , L(θ)/L(θ ) = n (θaθ /θ aθ )n exp{(θ − θ) i=1 ln xi } croˆıt en fonction de la statistique exhausn tive minimale (ou plutˆ ot sa r´ealisation) i=1 ln xi . Pour H0 : θ ≥ θ0 vs. H1 : θ < θ0 le test UPP consiste `a rejeter H0 si n ◦ i=1 ln xi > kα (cas N 3 de la section 9.4.2). Application : θ θ L’existence de la moyenne θ−1 suppose que θ > 1. L’hypoth`ese θ−1 ≤ 2 ´equivaut `a θ ≥ 2. Or le test UPP pour H0 : θ ≥ 2 vs. H1 : 1 < θ < 2 consiste `a rejeter H0 si ni=1 ln xi > kα . La fonction de r´epartition de X suivant la loi de Pareto avec a = 1 ´etant, au point x, 1 − x−θ pour x ≥ 1, celle de ln X au point x est P (ln X ≤ x) = P (X ≤ ex ) = 1 − e−θx si ex ≥ 1, soit x > 0. Donc ln X ; E(θ) n et i=1 ln Xi ; Γ(n, θ). Sous H0 ni=1 ln Xi ; Γ(n, 2). Soit γ0,95 le quantile d’ordre 0,95 de cette loi, n alors le test UPP consiste a` rejeter H0 au niveau α = 0, 05 si i=1 ln xi > γ0,95 .
Exercice 9.5 On a f (x; θ) = 1θ I[0,θ] (x) et :
386
Statistique - La th´eorie et ses applications
n 1 $ 1 L(θ) = n I[0,θ] (xi ) = n I[0,θ] (x(n) )I[0,+∞] (x(1) ). θ θ i=1
Pour 0 < θ < θ , L(θ)/L(θ ) est nul pour x(n) > θ et vaut (θ /θ)n > 0 pour 0 ≤ x(n) ≤ θ (le RV n’est pas d´efini pour x(n) < 0). Donc le RV est non croissant en fonction de x(n) . Soit, par exemple, le test H0 : θ ≤ θ0 vs. H1 : θ > θ0 (cas N◦ 2 de la section 9.4.2), alors le test UPP consiste a` rejeter H0 si x(n) > k. Pour un niveau α on choisit k tel que, sous H0 , P (X(n) > k) = α. Or, sous H0 , la fonction de
n
n r´epartition de X(n) au point x est θx0 , donc P (X(n) > k) = 1 − θk0 . En
n = α, on trouve k = θ0 (1 − α)1/n . r´esolvant 1 − θk0
Exercice 9.6 On est ici dans une situation o` u l’on fait une seule observation. X est donc statistique exhaustive minimale. Pour une r´ealisation x, on a : L(M ) =
M x
N −M N / n−x n
si M entier dans [n, N ] et 0 sinon (nous envisageons le cas r´ealiste o` u M et N − M sont sup´erieurs a` n sinon il y a lieu de tenir compte de toutes les situations autres). D’o` u: L (M + 1) = L (M ) =
M +1 N −M −1 x
n−x
M N −M x
n−x
(M + 1)(N − M − n + x) (M + 1)!(M − x)!(N − M − 1)!(N − M − n + x)! = (M + 1 − x)!M !(N − M − 1 − n + x)!(N − M )! (M + 1 − x)(N − M )
qui est une fonction croissante de x. Cela est vrai ´egalement pour
L(M +2) L(M )
=
L(M +2) L(M +1) L(M +1) L(M )
comme produit de deux fonctions croissantes positives et, de L (M ) proche en proche, pour L(M ) avec M > M. Notons que les r´esultats ´etablis en section 9.4.2 sont fond´es sur le rapport d´ecroissant.
L(θ) L(θ )
avec θ < θ , lequel est donc ici
Pour tester H0 : M ≥ M0 vs. H1 : M < M0 nous sommes dans le cas 4 d´ecrit en section 9.4.2 et le test UPP consiste `a rejeter H0 si x < k, ce qui est intuitif. Pour un risque de premi`ere esp`ece α choisi, soit il existe − cas tr`es peu vraisemblable − un entier cα tel que, pour M = M0 , P (X ≤ cα ) = α et on a un test exactement de niveau α en rejetant si x ≤ cα , soit le quantile d’ordre α
Corrig´es des exercices
387
est une interpolation entre un entier c et c + 1, auquel cas on devra rejeter de fa¸con conservatrice pour x ≤ c, ce qui ´equivaut encore a` x ≤ cα avec la valeur non enti`ere d’interpolation.
Exercice 9.7 Soit le rejet de H0 pour une observation n’appartenant pas a` [c1 , c2 ]. On a pour un λ donn´e : / [c1 , c2 ]) = Pλ (X < c1 ) + Pλ (X > c2 ) = 1 − e−λc1 + e−λc2 . Il s’agit Pλ (X ∈ de r´esoudre en (c1 , c2 ) le syst`eme suivant : " 1 − e−λ0 c1 + e−λ0 c2 = α c1 e−λ0 c1 − c2 e−λ0 c2 = 0 la deuxi`eme ´equation correspondant a` la condition d’annulation de la d´eriv´ee en λ0 de 1 − e−λc1 + e−λc2 , comme indiqu´e dans la note 9.3. Supposons que le risque soit ´equir´eparti sur les deux extr´emit´es. Alors on aurait 1 − e−λ0 c1 = e−λ0 c2 = α2 , ou λ0 c1 = − ln(1 − α2 ) et λ0 c2 = − ln α2 . Ce qui donnerait par la deuxi`eme ´equation : λ0 c1 (1 − α2 ) − λ0 c2 α2 = 0 =⇒ α2 ln α2 − (1 − α2 ) ln(1 − α2 ) = 0. Or on peut v´erifier que la fonction x ln x − (1 − x) ln(1 − x) ne s’annule pas sur ]0, 12 [ et l’´equir´epartition n’est donc pas possible pour α ∈]0, 1[. Exemple : λ0 = 1, α = 0, 10 donnent la r´epartition 1 − e−λ0 c1 = 0, 081 et e−λ0 c2 = 0, 019.
Exercice 9.8 On est l`a dans un cas particulier de l’exemple 9.8. La fonction de vraisemblance est maximis´ee, au d´enominateur du RVG, pour μ M V = x. Pour le num´erateur on doit la maximiser, pour μ dans [μ1 , μ2 ], ce qui revient `a minimiser μ(μ−2x). Si x ∈ [μ1 , μ2 ], le minimum est atteint pour μ = x, le RVG vaut 1 et on accepte toujours. Si x < μ1 , le minimum est atteint pour μ = μ1 et le RVG vaut alors 2 x−μ 1) √1 exp{− 2σn2 (μ1 − x)2 }. On rejette donc H0 pour (x−μ σ2 /n > k1 , soit σ/ n < −k1 . De mˆeme si x > μ2 on rejette si
x−μ √2 σ/ n
> k2 .
388
Statistique - La th´eorie et ses applications
Par sym´etrie on prend k1 = k2 = k avec k tel que : X − μ1 X − μ2 √ √ < −k + Pμ >k ≤α pour tout μ ∈ [μ1 , μ2 ], Pμ σ/ n σ/ n μ1 − μ μ2 − μ X −μ X −μ √ < √ − k + Pμ √ > √ + k ≤ α. ou Pμ σ/ n σ/ n σ/ n σ/ n On peut ais´ement v´erifier que la somme de ces probabilit´es est identique pour μ = μ1 et pour μ = μ2 . En admettant que le maximum est atteint pour ces valeurs, on doit trouver k tel que : 2 −μ √ 1 + k) = α ⇐⇒ Φ( μ2 −μ √ 1 + k) − Φ(−k) = 1 − α, o` Φ(−k) + 1 − Φ( μσ/ uΦ n σ/ n est la fonction de r´epartition de la loi N (0 ; 1).
Probabilité de rejet
Application : √ Il faut trouver k tel que Φ( n + k) − Φ(−k) = 0, 95. En prenant k =1,645 on a √ Φ(−k) = 0, 05 et pour n ≥ 2, Φ( n + k) 1. On donne ci-apr`es, pour n = 50, le graphe de : √ √ h(μ) = Pμ Z < n(4 − μ) − 1, 645 + Pμ Z > n(5 − μ) + 1, 645 √ √ = Φ( n(4 − μ) − 1, 645) + 1 − Φ( n(5 − μ) + 1, 645).
Figure 9.4 - Fonction de puissance et de risque de premi`ere esp`ece Pour tester H0 : μ = μ0 vs. H1 : μ = μ0 appliquons les r´esultats pr´ec´edents en prenant μ1 = μ2 = μ0 .
Corrig´es des exercices
389
x−μ x−μ √ 0 < −k (cas o` √ 0 > k (cas o` On rejette pour σ/ u x < μ0 ) ou σ/ u x > μ0 ) o` u n n α α k est tel que Φ(−k) + 1 − Φ(k) = α, soit encore 1 − Φ(k) = 2 ou Φ(k) = 1 − 2 , d’o` u k = z1− α2 . Cela est le test classique donn´e en section 9.7.1 et fond´e sur le
fait que, sous H0 ,
X−μ √0 σ/ n
; N (0 ; 1).
On a vu ci-dessus que Λn = exp{− 2σn2 (μ0 − X)2 }, donc −2 ln Λn =
X−μ √0 σ/ n
2
.
Cette variable al´eatoire suit une loi χ2 (1) comme carr´e d’une gaussienne centr´eer´eduite. Le th´eor`eme asymptotique 9.2 est en fait v´erifi´e pour tout n ici.
Exercice 9.9 M V = 1 , soit L(λ M V ) = On a L(λ) = λn e−nλx , prenant son maximum pour λ x M V ) = (x)−n e−n . Pour tester H0 : λ = λ0 vs. H1 : λ = λ0 le RVG est L(λ0 )/L(λ n −n(λ0 x−1) (λ0 x) e . Appliquant le th´eor`eme 9.2, on rejettera H0 au niveau α si 2 (1) 2 (1) n −n(λ0 x−1) > χ1−α ⇐⇒ 2n[λ0 x − 1 − ln(λ0 x)] > χ1−α . −2 ln (λ0 x) e Application : Pour λ0 = 1/4 et n = 30, la r`egle de rejet avec α = 0, 05 est x4 − 1 − ln x4 > 3,84 60 . Or la fonction g(u) = u − 1 − ln u d´ecroˆıt de +∞ `a 0 quand x varie de 0 a` 1 et croˆıt ensuite de 0 `a +∞. Donc g(u) = c admet deux solutions pour c > 0. Pour , on trouve, par approximations successives, les solutions u1 0, 68 g(u) = 3,84 60 et u2 1, 40. On sera ainsi amen´e `a rejeter H0 si x <2,72 ou x >5,60.
Exercice 9.10 On a L(a) = 2n an de a :
n i=1
ln L(a) = n ln a − a qui s’annule pour aM V
xi exp{−a
n
n i=1
x2 + ln(2n i n = n/ i=1 x2i . i=1
x2i }. D´eterminons l’estimateur du MV
n i=1
xi ) ,
ϑ ϑa
ln L(a) =
n a
−
n i=1
x2i ,
Le RVG pour tester H0 : a = 1 vs. H1 : a = 1 est : n n n n 2 n 2n i=1 xi exp{− i=1 x2i } L(1) i=1 xi = = exp{n− x2i }. n n L( aM V ) n 2n (n/ i=1 x2i )n i=1 xi exp{−n} i=1 Pour la statistique RVG, on remplace xi par Xi dans cette expression.
390
Statistique - La th´eorie et ses applications
Exercice 9.11 n *n 2 θ+1 si x > a. D´eterminons l’estimateur du MV de On a L(θ) = θ2 i=1 xi θ: n n ϑ ln L(θ) = n ln θ2 − (θ + 1) i=1 ln( x2i ) , ϑθ ln L(θ) = nθ − i=1 ln( x2i ), qui s’annule pour θM V = n/ ni=1 ln x2i . Le logarithme du RVG pour tester H0 : θ = 3 vs. H1 : θ = 3 est : n n xi xi θM V 3 ln( ) − n ln ln( ) −4 + (θM V + 1) ln RV G = n ln 2 2 2 2 i=1 i=1 n xi 3 ln( ) + (θM V − 3) = n ln M V 2 θ i=1 2 (1)
et on rejette H0 au niveau 0, 05 si −2 ln RV G > χ0,95 = 3, 84. Application : 30 n xi Pour n = 30 et i=1 ln xi = 31 on a i=1 ln( 2 ) = 31 − 30 ln 2 =10,206, θM V =2,9396 et −2 ln RV G = 0, 0125. Donc on accepte H0 . Note : H0 sp´ecifie une valeur proche de θM V .
Exercice 9.12 *n M V = x et, pour tester H0 : λ = λ0 vs. On a L(λ) = ( i=1 xi !)e−nλ λnx , λ H1 : λ = λ0 : RV G =
e−nλ0 λ0nx , −2 ln RV G = 2n[λ0 − x + x(ln x − ln λ0 )]. e−nx xnx
´ Etudions la fonction g(u) = λ0 − u + u(ln u − ln λ0 )pour u ∈]0, +∞[. On a g (u) = ln u − ln λ0 et est n´egative pour u < λ0 , positive pour u > λ0 . Quand u → 0, g(u) → λ0 et quand u → +∞, g(u) → +∞. la fonction d´ecroˆıt donc de λ0 `a 0 `a gauche de λ0 et croˆıt de 0 `a +∞ `a droite. L’in´equation g(u) > k admet donc comme solutions les valeurs de u `a l’ext´erieur de [c1 , c2 ] o` u u λ0 < c2 si k ≥ λ0 . 0 < c1 < λ0 < c2 si k ∈]0, λ0 [ et `a l’ext´erieur de [0, c2 ] o` ´ Etant donn´e que le rejet de H0 se fait (approximativement) au niveau α quand 2 (1) 1 2 (1) −2 ln RV G > χ1−α , c’est-`a-dire g(x) > 2n χ1−α , il y a deux cas de figure. Soit 2 (1) 1 e sur un intervalle de la forme [c1 , c2 ], soit 2n χ1−α < λ0 et le rejet est fond´ 1 2 (1) χ ≥ λ et il est fond´ e sur un intervalle de la forme [0, c2 ]. Ce dernier 0 2n 1−α
Corrig´es des exercices
391
cas se pr´esente si λ0 est trop petit compte tenu de la taille d’´echantillon et du niveau α souhait´e pour pouvoir rejeter sur des valeurs de x entre 0 et λ0 . Dans le premier cas, on a la relation −c1 + c1 (ln c1 − ln λ0 ) = −c2 + c2 (ln c2 − ln λ0 ) r´esultant du fait que g(c1 ) = g(c2 ). Application : 2 (1) Pour λ0 = 5, n = 10 et α = 0,05, on a χ0,95 = 3, 84 et on rejette H0 si g(x) > 0, 192. Par un logiciel math´ematique (ou par approximations successives) on trouve pour g(u) = 0, 192, soit 5 − u + u(ln u − ln 5) = 0, 192, les n solutions c1 = 3, 68 et c2 = 6, 45. On rejette donc H0 si i=1 xi < 36, 8 ou n n con conservatrice i=1 xi > 64, 5. Comme i=1 xi est entier, on rejettera de fa¸ n n si i=1 xi ≤ 36 ou i=1 xi ≥ 64. On peut trouver le niveau exact de la r`egle ci-dessus dans la mesure o` u n i=1 Xi ; P(nλ0 ) sous H0 . On trouve, par exemple via EXCEL : n n P ( i=1 Xi ≤ 36) = 0, 0238 et P ( i=1 Xi ≥ 65) = 0, 0236 d’o` u le niveau exact de 0,0474. Pour randomiser, changeons la borne sup´erieure pour laquelle il faudrait atteindre une probabilit´e de 0,0262 pour avoir pr´ecis´ement α = 0, 05. Comme P ( ni=1 Xi ≥ 64) = 0, 0318 on choisit la limite 65 avec probabilit´e p et 64 avec probabilit´e 1 − p o` u p×0,0236+(1 − p)×0,0318=0,0262, soit p =0,683.
Exercice 9.13 Soit a` tester H0 : μ = μ0 vs. H1 : μ = μ0 avec un ´echantillon issu de la loi N (μ , σ 2 ), σ 2 ´etant inconnu. D’une fa¸con g´en´erale, on a : n − n 1 L(μ, σ 2 ) = 2πσ 2 2 exp{− 2 (xi − μ)2 }. 2σ i=1 σ 2 )M V = (x, s'2 ) le d´enominateur du RVG est : Comme (μ, − n n 2π i=1 (xi − x)2 2 − n L(x, s'2 ) = e 2. n Le num´erateur est la maximisation de L(μ, σ 2 ) sur Θ0 = {(μ0 , σ 2 ), σ 2 > 0}, n soit : − n 1 (xi − μ0 )2 } supL(μ, σ 2 ) = sup 2πσ 2 2 exp{− 2 2 2σ Θ0 σ i=1 n n 2 −2 2π i=1 (xi − μ0 ) n = e− 2 . n
392
Statistique - La th´eorie et ses applications
car le sup sur σ 2 est atteint pour σ 2 = L(x, s'2 ) = RV G = supL(μ, σ 2 ) Or
n
Θ0
1 n
n
i=1 (xi
− μ0 )2 . Ainsi :
n − n (xi − μ0 )2 2 i=1 . n 2 i=1 (xi − x)
n
− μ0 )2 = i=1 (xi − x)2 + n(x − μ0 )2 , d’o` u: − n2 − n (x − μ0 )2 2 n(x − μ0 )2 = 1 + . RV G = 1 + n 2 s'2 i=1 (xi − x)
i=1 (xi
Le test du RVG consiste a` rejeter H0 si : − n x − μ0 (x − μ0 )2 2 (x − μ0 )2 1+
k ⇔ √ > k s'2 s'2 s'/ n ce qui est la forme du test de Student. En revanche la r´egion de rejet, pour un α fix´e, donn´ee par le r´esultat asymptotique sur le RVG ne co¨ıncide pas avec celle du test de Student.
Exercices appliqu´ es Exercice 9.14 La question est de savoir si l’on peut admettre l’efficacit´e de la nouvelle fabrication (μ > 64 000) avec un risque d’erreur contrˆ ol´e. On doit donc tester : H0 : μ ≤ 64 000 vs. H1 : μ > 64 000. Soit X la moyenne d’un ´echantillon de taille 10 de pneus de nouvelle fabrication. 000 √ ; N (0 ; 1). On doit rejeter H0 au Sous H0 (μ = 64 000), Z = 8X−64 000/ 10 approx
niveau de risque α = 0, 05 si l’on observe une valeur z de Z sup´erieure a` z0,95 = 1, 645. √ 000 = Dans l’exp´erience effectu´ee on a observ´e x = 67 300, soit z = 678300−64 000/ 10 1, 30 et on accepte H0 . La m´ethode ne peut ˆetre jug´ee efficace. Calculons la puissance du test pour une valeur μ = 65 000. Dans cette alterna000 √ tive on a donc 8X−65 ; N (0 ; 1) et, selon la r`egle de d´ecision utilis´ee, la 000/ 10 approx
probabilit´e de rejeter H0 est :
P
X − 64 000 √ > 1, 645 8 000/ 10
=P
1 000 X − 65 000 % √ > 1, 645 − 8 000/ 10 8 000/ 10)
= P (Z > 1, 25) = 0,106.
De fa¸con plus g´en´erale, pour toute valeur de μ, la probabilit´e de rejet est :
h(μ) = P
μ − 64 000 X − 65 000 √ % > 1, 645 − 8 000/ 10 8 000/ 10)
=1−Φ
1, 645 −
μ − 64 000 % 8 000/ 10)
Corrig´es des exercices
393
o` u Φ est la fonction de r´epartition de la loi N (0 ; 1). Pour μ = 67 000 on trouve h(67 000) = 0, 323, pour μ = 69 000 on trouve h(69 000) = 0, 629, pour μ = 71 000 on trouve h(71 000) = 0, 869. Le graphe de la fonction est analogue celui de l’exemple 9.5 : la courbe part de 0,05 pour μ = 64 000 et croˆıt comme l’indiquent les calculs ci-dessus.
Exercice 9.15 On teste H0 : μ = 69 800 vs. H1 : μ = 69 800. Sous H0 , T =
X−5 √ ; S/ 6 approx
750−69 √ 800 t(499) N (0 ; 1). T a pris la valeur 68 = −2, 27. On a 10 350/ 500 P (T < −2, 27) 0,012 et s’agissant d’un test bilat´eral la P-valeur est 0,024 (ceci pour ˆetre en coh´erence avec la notion de risque α).
Exercice 9.16 On teste H0 : μ ≥ 5 vs. H1 : μ < 5, l’alternative H1 correspondant `a l’affirmation (eau non potable) dont le risque doit ˆetre contrˆol´e. Sous H0 , X−5 √ T = S/ ; t(5) et l’on doit rejeter H0 au niveau de risque α si T prend 6 une
approx (5) valeur t < tα
(5)
= −t1−α .
On a observ´e x = 4, 9567 et s = 0, 1401, soit t =
4,9567−5 √ 0,1401/ 6
= −0, 757. Pour
(5) t0,05
= −2, 105 et il n’y a donc pas lieu de rejeter H0 . En d’autres α = 0, 05 termes on ne peut affirmer que l’eau n’est pas potable.
Exercice 9.17 L’hypoth`ese `a tester est que le temps moyen est rest´e identique, soit : H0 : μ = 42, 5 vs. H1 : μ = 42, 5. On rejettera H0 au niveau 0,05 si t = Ici on a t =
39−42,5 √ 8,2/ 30
x−42,5 √ s/ 30
(29)
(29)
∈ / [−t0,975 , t0,975 ] soit [-2,045 ;2,045].
= −2,34 et l’on rejette H0 . (29)
Pour α = 0, 01 on a t0,995 = 2, 756 et il n’est pas possible de rejeter H0 `a ce niveau de risque plus faible.
394
Statistique - La th´eorie et ses applications
Exercice 9.18 L’hypoth`ese `a tester est 2σ ≤ 0,1, ce qui ´equivaut a` H0 : σ 2 ≤ 0,0025 vs. H1 : 2 (5) 5s2 > χ0,95 = 11, 1 et σ 2 > 0,0025. On rejettera H0 au niveau 0,05 si q = 0,0025 2 (5)
au niveau 0,01 si q > χ0,99 = 15, 1 (voir section 9.7.2). Sur la base des observations on trouve s2 = 0, 009216, soit q = 18, 43 ce qui nous permet de rejeter H0 au niveau 0,01. Note : 18,43 est le quantile 0,9975 de la loi χ2 (5) − dans EXCEL 1-LOI.KHIDEUX(18,43 ; 5) − et la P-valeur est donc 0,0025.
Exercice 9.19 u p est la probabilit´e qu’une On doit tester H0 : p ≤ 0,04 vs. H1 : p > 0,04 o` naissance soit pr´ematur´ee dans la r´egion consid´er´ee. On suppose − ce qui est assez r´ealiste − que les observations effectu´ees sont ind´ependantes. Comme np0 = 1 243×0, 04 > 5 et aussi n(1−p0 ) > 5 on peut appliquer l’approximation gaussienne d´ecrite en section 9.7.5. On rejettera H0 au niveau α si : p − 0, 04 z=(
(0,04)(0,96) 1243
> z1−α,
o` u z1−α est le quantile d’ordre 1 − α de la loi N (0 ; 1). On trouve ici, avec p = 72/1243 =0,05792, z = 3, 22 ce qui correspond `a une P-valeur de 0,0006 (voir la table N (0 ; 1)). On peut donc rejeter au moins au niveau 0,001. On peut donc affirmer avec un risque tr`es faible d’erreur que la proportion (th´eorique) de pr´ematur´es est plus ´elev´ee dans cette r´egion que dans le nord de l’Italie en g´en´eral. Au niveau 0,01 on est amen´e `a rejeter si z > z0,99 = 2,33 ce qui ´equivaut a` une r´ealisation p > 0,0530 de Pn , la proportion de pr´ematur´es dans un ´echantillon al´eatoire de taille n (ici n = 1 243) avec probabilit´e p qu’un nouveau n´e soit pr´ematur´e `a chaque naissance. Pour calculer la puissance pour une valeur p donn´ee, sup´erieure `a 0,04, il faut calculer la probabilit´e d’avoir une r´ealisation de Pn sup´erieure a` 0,053. La fonction puissance est donc : ⎛ ⎞ 0, 053 − p 0, 053 − p ⎠ ) = 1 − Φ⎝ ( h(p) = P (Pn > 0, 053) = P (Z > ( p(1−p) 1 243
p(1−p) 1 243
Corrig´es des exercices
395
pour p > 0, 04, o` u Z ; N (0 ; 1) et Φ est la fonction de r´epartition de cette loi. Le graphe de h(p) est une courbe croissante partant de 0,01 pour p = 0, 04 (point non inclus) jusqu’` a 1 quand p = 1. En fait h(p) se rapproche tr`es vite de 1 puisqu’elle d´epasse d´ej` a 0,999 pour p = 0, 08. Cela est `a relier `a la taille d’´echantillon ´elev´ee.
Exercice 9.20 On doit tester H0 : p ≤ 0,04 vs. H1 : p > 0,04 o` u p est la proportion de pi`eces d´efectueuses dan le lot. On applique l’approximation gaussienne car np0 = 800 × 0, 04 > 5 et n(1 − p0 ) = 800 × 0, 96 > 5. On a trouv´e p = 40/800 = 0,05, z =
(0,05−0,04
(0,04)(0,96) 800
= 1, 44 ce qui correspond `a
une P-valeur de 0,0749 et ne suffit pas pour rejeter H0 ne serait-ce qu’au niveau 0,05 (qui aurait n´ecessit´e une valeur de z sup´erieure `a 1,645).
Exercice 9.21 Soit μ1 la moyenne de taux de plomb des filles du primaire dans la ville et μ2 celle des gar¸cons. On se pose la question de savoir si l’on peut, a` faible risque d’erreur, consid´erer qu’il y a une diff´erence en moyenne, sans s’int´eresser au sens de cette diff´erence. On testera donc H0 : μ1 = μ2 vs. H1 : μ1 = μ2 et on rejettera H0 au niveau α (voir section 9.7.3) si : + , (n1 − 1)s21 + (n2 − 1)s22 x1 − x2 (n +n −2) (n +n −2) t= ( ∈ / −t1−1α 2 , t1−1α 2 o` u s2p = 2 2 n1 + n2 − 2 sp n11 + n12 avec n1 = 32 et n2 = 35. Les tailles d’´echantillons sont sup´erieures `a 30 et donc suffisantes pour appliquer la proc´edure, mais nous devons faire l’hypoth`ese suppl´ementaire (au sens de condition a` remplir) que σ12 = σ22 . Toutefois cette condition n’est pas cruciale comme on l’a indiqu´e en section 9.7.3 dans la mesure o` u les tailles d’´echantillons sont proches. Qui plus est, les variances empiriques semblent indiquer que les variances th´eoriques sont du mˆeme ordre. On a : 31 × 3,39 + 34 × 3,94 12,50 − 12,40 ( = 3,678, sp = 1,918 et t = = 0,213. s2p = 65 1,918 1 + 1 32
(65) (65) [−t0,95 , t0,95 ]
35
On ne peut rejeter H0 au niveau 0,05 car [−2,00;2,00]. En d’autres termes, la diff´erence observ´ee entre les deux moyennes n’est pas significative.
396
Statistique - La th´eorie et ses applications
Exercice 9.22 Soit μ1 la moyenne de l’an dernier pour l’ensemble des appartements de 3 pi`eces en ville et μ2 celle de cette ann´ee. Prenons l’hypoth`ese explicit´ee dans l’´enonc´e comme ´etant l’hypoth`ese nulle, ce qui revient a` se poser la question de savoir si l’on peut, a` faible risque d’erreur, consid´erer qu’il y a eu une augmentation en moyenne. On testera donc H0 : μ1 ≥ μ2 vs. H1 : μ1 < μ2 et on rejettera H0 au niveau 0,05 (voir section 9.7.3) si : (n1 − 1)s21 + (n2 − 1)s22 x 1 − x2 (58) < −t0,95 = −1, 67 , o` u s2p = t= ( 1 n1 + n2 − 2 s + 1 p
n1
n2
car une valeur de t trop n´egative correspond a` x1 nettement inf´erieur a` x2 ce qui va dans le sens de H1 . Les tailles d’´echantillons sont (quasi) suffisantes pour appliquer la proc´edure et nous supposerons pour l’heure que la condition σ12 = σ22 est remplie. On a : s2p =
28(26)2 + 30(28)2 325 − 338 ( = 732, sp = 27, 1 et t = = −1,86 58 1 1 27,1 29 + 31
ce qui nous am`ene `a rejeter H0 au niveau 0,05, sans plus, la P-valeur ´etant de 0,034 (obtenue par EXCEL : LOI.STUDENT(1,86 ; 58 ; 1) ; cette fonction donne la probabilit´e d’ˆetre au-del` a d’une valeur − n´ecessairement positive − avec le param`etre 1 ; pour 2 la probabilit´e est doubl´ee, ce qui correspond `a une situation bilat´erale) . La proc´edure est applicable si les tailles d’´echantillon permettent les approximations gaussiennes, ce qui est le cas ici avec des tailles proches de 30. D’autre part, la condition σ12 = σ22 n’est pas cruciale du fait que n1 n2 , d’autant plus que les valeurs des variances observ´ees sont assez voisines. Il faut aussi que les deux ´echantillons aient ´et´e s´electionn´es ind´ependamment.
Exercice 9.23 Soit μ1 la moyenne th´eorique (population pathologique virtuelle suppos´ee d´efinie) du rythme cardiaque avant traitement et μ2 celle apr`es traitement. On se pose la question de savoir si l’on peut, `a faible risque d’erreur, consid´erer que le traitement est efficace, soit μ2 > μ1 . On testera donc H0 : μ1 ≥ μ2 vs. H1 : μ1 < μ2 . Il s’agit d’un test appari´e (voir en fin de section 9.7.3) car les mesures sont r´ep´et´ees sur le mˆeme ´echantillon. Ce test porte sur la
Corrig´es des exercices
397
moyenne δ des diff´erences, apr`es moins avant par exemple, ce qui se traduit par H0 : δ ≤ 0 vs. H1 : δ > 0. On rejettera H0 au niveau α (voir les notations (n−1) section 9.7.3) si t = sd /d√n > t1−α , car une valeur ´elev´ee (positive) r´esulte d’une diff´erence moyenne observ´ee fortement positive, ce qui va dans le sens de H1 . Les observations apr`es moins avant sont 4 ; 5,5 ; 3,2 ;1 ; −1 et donnent une moyenne d = 2, 54, un ´ecart-type sd = 2, 561. D’o` u t = 2,218. (4)
Pour α = 0,05 on a t0,95 = 2, 132 ce qui nous am`ene `a rejeter H0 `a ce niveau de risque. On ne peut rejeter au niveau 0,01 car la P-valeur est ´egale `a 0,0454 (EXCEL : LOI.STUDENT(2,218 ; 4 ; 1) ). Si l’on est prˆet `a prendre un risque d’erreur de 5% on peut admettre que le traitement est efficace.
Exercice 9.24 Comme pour l’exercice pr´ec´edent, il s’agit d’un test appari´e. Soit μ1 la moyenne th´eorique du niveau des ventes dans l’ancien r´egime et μ2 celle relative au nouveau r´egime (sur la population de l’ensemble des vendeurs). Si l’on veut pouvoir affirmer, avec un faible risque d’erreur, qu’il y a baisse de niveau des ventes (μ2 < μ1 ) il faut mettre cet ´etat de fait en H1 . On testera donc H0 : μ1 ≤ μ2 vs. H1 : μ1 > μ2 , soit encore en posant δ = μ2 − μ1 (nouveau moins ancien) H0 : δ ≥ 0 vs. H1 : δ < 0. (n−1)
On rejettera H0 au niveau α si t = sd /d√n < −t1−α , car une valeur nettement n´egative r´esulte d’une diff´erence moyenne observ´ee de mˆeme nature, ce qui va dans le sens de H1 . La moyenne des 16 diff´erences observ´ees nouveau moins ancien est trouv´ee ´egale `a d = −2,315, avec un ´ecart-type sd =10,675. D’o` u t = −0,8665. De toute ´evidence, on ne peut faire l’affirmation mentionn´ee avec (15) une telle valeur de t (−t0,95 = −1,753 et P-valeur 0,2).
Exercice 9.25 L’id´ee est de voir si, sur la base d’observations, on peut consid´erer que le vaccin est efficace, soit, avec des notations ´evidentes, pA < pB . On testera donc H0 : pA ≥ pB vs. H1 : pA < pB . On suppose que les deux ´echantillons ont ´et´e s´electionn´es ind´ependamment. On rejettera H0 si la statistique de test prend une valeur : z= )
pA − pB 1 1 p(1 − p)( + ) nA nB
398
Statistique - La th´eorie et ses applications
trop n´egative (vis-`a-vis de la loi N (0 ; 1) ) car cela r´esulterait d’une valeur pA nettement inf´erieure `a pB , ce qui va dans le sens de H1 . Comme nA pA (1 − pA ) = 32 > 12 et nB pB (1 − pB ) = 48 > 12, on est en droit d’appliquer la proc´edure approximative d´ecrite en section 9.7.6. On a pA = 0,20−0,40 0, 20, pB = 0, 40 et p = (40+80)/400 =0,3. D’o` uz = √ = (0,30)(0,70)(1/200+1/200)
−4, 36. Cette valeur est tr`es ´eloign´ee sur la loi de Gauss N (0 ; 1) et a une P-valeur inf´erieure `a 0,001 car le quantile d’ordre 0,999 est la valeur 3,10 environ (voir table). Donc, sans aucun doute, le vaccin est efficace.
Exercice 9.26 Le test est H0 : pA = pB vs. H1 : pA = pB . On rejette H0 si la valeur de z explicit´ee `a l’exercice pr´ec´edent est trop ´eloign´ee de fa¸con bilat´erale sur la loi N (0 ; 1). On a trouv´e ici pA = 0, 5204, pB = 0, 4903 et : 510 + 505 0, 5204 − 0, 4903 p = = 0,505 , z = % = 1,35. 980 + 1030 (0,505)(0,495)(1/980 + 1/1030) / [−1,96; 1,96]. Donc on ne rejette pas. Au niveau α = 0, 05, on rejette H0 si z ∈ La diff´erence des estimations fournies par les deux instituts n’est pas significative. Notons que la proc´edure approximative est applicable : nA pA (1 − pA ) > 12 et nB pB (1 − pB ) > 12.
Corrig´es des exercices
399
Chapitre 10 : Tests pour variables cat´ egorielles et tests non param´ etriques Exercice 10.1 Prenons les notations du khi-deux introduites en fin de section 10.2, soit : u p1 = nn11 - pour la loi 1 : n11 succ`es et n21 ´echecs parmi n.1 essais, d’o` .1 - pour la loi 2 : n12 succ`es et n22 ´echecs parmi n.2 essais, d’o` u p2 = nn12 .2 12 et n = n.1 + n.2 , p = n11 +n = nn1. . Montrons que z 2 = q. n Le num´erateur de z est p1 − p2 =
n11 n.1
−
n12 n.2
=
n11 n22 −n12 n21 . n.1 n.2
Au d´enominateur on a p(1 − p) = nn1. (1 − nn1. ) = n1.nn2 2. et n1.1 + Ainsi : n(n11 n22 − n12 n21 )2 ( p1 − p2 )2 = . z2 = 1 1 n1. n2. n.1 n.2 p(1 − p)( n.1 + n.2 )
1 n.2
=
n n.1 n.2 .
Pour q, la statistique du test du khi-deux, notons que tous les quatre ´ecarts entre observ´e et attendu sont ´egaux en valeur absolue puisque les deux tableaux ont les mˆemes marges. Prenons donc la premi`ere case, on a : n11 − n1. n.1 = 1 |n11 (n11 + n12 + n21 + n22 ) − (n11 + n12 )(n11 + n21 )| = n n 1 |n n − n n | . 11 22 12 21 n Donc q =
1 n2 (n11 n22
− n12 n21 )2 ( n1.nn.1 +
Comme le dernier facteur est ´egal `a propri´et´e est d´emontr´ee.
n n1. n.2
+
n n2. n.1
+
n n2. n.2 )
n2. n.2 +n2. n.1 +n1. n.2 +n1. n.1 n1. n2. n.1 n.2
=
n2 n1. n2. n.1 n.2 ,
la
La statistique de test Z suivant la loi N (0 ; 1), Z 2 ; χ2 (1) et les deux tests sont donc ´equivalents (voir avec plus de pr´ecision la section10.1.4). Notons toutefois que ceci n’est vrai que pour le test avec l’alternative bilat´erale p1 = p2 .
Exercice 10.2 Rappelons que les deux variables cat´egorielles X et Y sont dites ind´ependantes si tout ´ev´enement sur l’une est ind´ependant de tout ´ev´enement sur l’autre, un ´ev´enement ´etant un sous-ensemble de cat´egories. La condition indiqu´ee dans l’´enonc´e est ´evidemment n´ecessaire puisque chaque cat´egorie constitue un ´ev´enement en soi. Il reste `a montrer qu’elle est suffisante.
400
Statistique - La th´eorie et ses applications
D’une fa¸con g´en´erale, si A est ind´ependant de B1 d’une part et de B2 d’autre part, B1 et B2 ´etant disjoints, alors A est ind´ependant de B1 ∪ B2 . Clairement, comme A ∩ B1 et A ∩ B2 sont disjoints on a : P (A ∩ (B1 ∪ B2 )) = P ((A ∩ B1 ) ∪ (A ∩ B2 )) = P (A ∩ B1 ) + P (A ∩ B2 ) = P (A)P (B1 ) + P (A)P (B2 ) = P (A) [P (B1 ) + P (B2 )] = P (A)P (B1 ∪ B2 ).
Dans le contexte de l’´enonc´e, cela implique que {i1 } ´etant ind´ependant de {j1 } et de {j2 } alors {i1 } est ind´ependant de {j1 , j2 } et, de proche en proche, {i1 } est ind´ependant de {j1 , j2 , · · · , jk } quel que soit le sous-ensemble de cat´egories de Y. Par sym´etrie {i1 , i2 } est ind´ependant de {j1 , j2 , · · · , jk } et, de proche en proche, {i1 , i2 , · · · , il } est ind´ependant de {j1 , j2 , · · · , jk }.
Exercice 10.3 Soient les ´ev´enements A = (N11 = n11 ), B = (N1. = n1. , N2. = n2. , N.1 = n.1 , N.2 = n.2 ), on souhaite ´evaluer P (A|B) = P (A ∩ B)/P (B). Pour l’´ev´enement A ∩ B, N11 = n11 et les marges sont donn´ees, alors le tableau 2 × 2 est enti`erement d´etermin´e. Ainsi cet ´ev´enement est identique `a (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) `a condition de prendre n12 = n1. − n11 , n21 = n.1 − n11 et n22 = n − (n11 + n12 + n21 ) = n + n11 − n1. − n.1 . La loi conjointe de (N11 , N12 , N21 , N22 ) est une loi multinomiale de param`etres u (voir section 4.1.6) : p1. p.1 , p1. p.2 , p2. p.1 , p2. p.2 sous l’ind´ependance d’o` P (A ∩ B) = P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) =
n! (p1. p.1 )n11 (p1. p.2 )n12 (p2. p.1 )n21 (p2. p.2 )n22 . n11 !n12 !n21 !n22 !
L’´ev´enement B est identique a` (N1. = n1. , N.1 = n.1 ) car N2. et N.2 sont alors d´etermin´es. On a N1. ; B(n, p1. ), N.1 ; B(n, p.1 ), avec N1. et N.1 ind´ependants sous l’hypoth`ese d’ind´ependance des deux variables cat´egorielles. Donc : n! n! P (B) = P (N1. = n1. , N.1 = n.1 ) = pn1 . pn2. pn.1 pn.2 . n1. !n2. ! 1. 2. n.1 !n.2 ! .1 .2 n1 . n2. n.1 n.2 p2. p.1 p.2 et En notant que (p1. p.1 )n11 (p1. p.2 )n12 (p2. p.1 )n21 (p2. p.2 )n22 = p1. en faisant le rapport P (A ∩ B)/P (B) on obtient imm´ediatement le r´esultat `a d´emontrer.
Corrig´es des exercices
401
Exercice 10.4 1. D’une fa¸con g´en´erale, on a la fonction de vraisemblance relative `a la loi multinomiale avec les 4 cat´egories du tableau, soit : L(p11 , p12 , p21 , p22 ) =
n! pn11 pn12 pn21 pn22 . n11 !n12 !n21 !n22 ! 11 12 21 22
Sous H0 on obtient, en int´egrant les contraintes p21 = p12 , p22 = 1 − p11 − 2p12 (et sachant que n22 = n − n11 − n12 − n21 ) : L(p11 , p12 ) =
n! p11 n11 pn1212 +n21 (1 − p11 − 2p12 )n22 . n11 !n12 !n21 !n22 !
2. Maximisons : ln L(p11 , p12 ) = n11 ln p11 +(n12 +n21 ) ln p12 +n22 ln(1−p11 −2p12 )+Constante en annulant les deux d´eriv´ees partielles par rapport a` p11 et p12 :
"
n22 δ 11 L(p11 , p12 ) = np11 − 1−p11 δp11 −2p12 n12 +n21 2n22 δ L(p , p ) = − 11 12 δp12 p12 1−p11 −2p12
.
En annulant on obtient : n11 n22 n12 + n21 n = = = p11 1 − p11 − 2p12 2p12 1 d’o` u les estimations du MV sous H0 : p11 =
n11 n ,
p12 =
n12 +n21 2n
= p21 , p22 =
n22 n .
3. Les fr´equences attendues sous H0 sont respectivement : n p11 = n11 , n p12 =
n12 +n21 2
= n p12 , n p22 = n22 ,
d’o` u: 21 2 21 2 (n12 − n12 +n (n21 − n12 +n ) ) 0 0 2 2 + + + n12 +n21 n12 +n21 n11 n22 2 2 2 2 (n12 − n21 ) (n21 − n11 ) (n12 − n21 )2 2 + = = . n12 + n21 4 4 n12 + n21
q=
4. Le nombre de cat´egories est 4 et il y a 2 param`etres `a estimer sous H0 , p11 et p12 , donc selon le th´eor`eme 10.1 (Cramer) les degr´es de libert´e sont 4−1−2 = 1. Note : Pour le test du RVG, dont on sait qu’il est asymptotiquement ´equivalent au test du khi-deux, on aurait un seul param`etre sp´ecif´e par H0 et on retrouve le mˆeme degr´e de libert´e.
402
Statistique - La th´eorie et ses applications
Exercice 10.5 Raisonnons sur des r´ealisations en supposant l’absence de valeurs identiques. Si R(1) prend la valeur r1 , cela signifie qu’il y a r1 − 1 valeurs des Yj qui pr´ec`edent X(1) . Si R(2) prend la valeur r2 , il y a r2 − 2 valeurs des Yi qui pr´ec`edent X(2) et, plus g´en´eralement, si R(i) prend la valeur ri , il y a ri − i valeurs des Yj qui pr´ec`edent X(i) . En section 10.5.4, nous avons d´efini la statistique U de Mann-Whitney en d´eterminant pour chaque Yj le nombre de Xi qui lui sont de valeur sup´erieure puis en totalisant sur tous les Yj . De fa¸con ´equivalente, on peut comptabiliser pour chaque X(i) le nombre de Yj qui lui sont de valeur inf´erieure et totaliser. Dans les notations ci-dessus la r´ealisation u de U vaut : n1 1 u = r1 − 1 + r2 − 2 + · · · + rn1 − n1 = ri − n1 (n1 + 1) 2 i=1 n1 ri est la r´ealisation de la statistique Tn1 de Wilcoxon fond´ee sur les o` u i=1 Xi . On a donc bien la relation U = Tn1 − 12 n1 (n1 + 1).
Exercice 10.6 La corr´elation de Spearman est la corr´elation lin´eaire usuelle (voir section 3.4) entre la s´erie des rangs Ri des Xi et la s´erie des rangs Si des Yi . Chaque s´erie ´etant constitu´ee des nombres 1 `a n, sa somme vaut 12 n(n + 1), sa moyenne 1 (n + 1), la somme des carr´es 16 n(n + 1)(2n + 1). On a : 2 n
n − R)(Si − S) i=1 Ri Si − nRS R s = ( =( . 2 n 2 n n n 2 2 ( i=1 Ri2 − nR )( i=1 Si2 − nS ) i=1 (Ri − R) i=1 (Si − S) i=1 (Ri
n 2 1 n(n2 − 1) et de mˆeme Or i=1 Ri2 − nR = 16 n(n + 1)(2n + 1) − 14 n(n + 1)2 = 12 n 2 2 pour i=1 Si − nS . Finalement en substituant dans l’expression de Rs ci-dessus on obtient imm´ediatement le r´esultat recherch´e.
Corrig´es des exercices
403
Exercices appliqu´ es
Les exercices qui suivent concernent des tests de type khi-deux sur des variables cat´egorielles. Rapportons-nous encore a ` EXCEL, disponible pour tous. Ces tests peuvent ˆetre effectu´es par la fonction TEST.KHIDEUX(plage1 ;plage2) o` u la plage 1 contient les effectifs observ´es et est soit un vecteur, soit un tableau, et plage 2 les effectifs attendus correspondants. C’est ` a l’utilisateur de calculer les effectifs attendus, le tableur se prˆetant ais´ement ` a leur calcul. La fonction renvoie directement la P-valeur sans indiquer la valeur q prise par la statistique Q (appel´ee usuellement le khi-deux). On peut toutefois r´ecup´erer q par la fonction KHIDEUX.INVERSE(P-valeur ; d.l.l.). Pour un tableau I × J, que ce soit lors d’un test de comparaison de lois multinomiales ou d’ind´ependance de deux variables cat´egorielles, les degr´es de libert´e (d.d.l.) sont (I − 1)(J − 1), sauf situations tr`es particuli`eres et rares, et le calcul de q est identique dans les deux types de situations. Pour un vecteur a ` I composantes du test d’ad´equation ` a une loi multinomiale, EXCEL applique des degr´es de libert´e ´egaux a ` I − 1, mais ceci peut ˆetre incorrect lorsqu’on a dˆ u estimer un certain nombre de param`etres de la loi de r´ef´erence, car il faut encore soustraire ce nombre. On peut toutefois revenir a ` la valeur de q par la fonction KHIDEUX.INVERSE avec I − 1 degr´es de libert´e et lire la bonne P-valeur via la fonction LOI.KHIDEUX avec le nombre de degr´es de libert´e correct. Nous verrons des exemples de cela. Pour les tableaux les calculs des effectifs attendus sont simples et r´ep´etitifs. Nous donnerons ces calculs sur un premier exemple et les omettrons par la suite.
Exercice 10.7 A priori on peut penser que l’on a s´electionn´e les 202 individus au hasard et donc que toutes les marges sont al´eatoires. Il s’agit alors de tester l’ind´ependance entre sexe et niveau de gˆene. Toutefois, si la s´election a ´et´e faite avec des quotas par sexe, les effectifs 120 et 82 ont ´et´e fix´es par le plan de sondage et il s’agit stricto sensu du test de comparaison de la distribution de la variable gˆene entre femmes et hommes, ce qui ne change rien a` la proc´edure du test. Le tableau des effectifs attendus sous H0 (ind´ependance gˆene/sexe ou identit´e des distributions par sexe le cas ´ech´eant) est le suivant :
404
Statistique - La th´eorie et ses applications
PP P
Sexe Femmes P PP Gˆene P Aucune 65,3 Faible 30,9 Moyenne 14,9 Forte 8,9 120 PP
Hommes
Tous
44,7 21,1 10,1 6,1 82
110 52 25 15 202
Rappelons qu’il s’obtient par le produit des marges, par exemple 65,3 = La valeur prise par la statistique du khi-deux est : q=
110×120 . 202
(75 − 65, 3)2 (12 − 6, 1)2 + ··· + = 16,7. 65, 3 6, 1
Sous l’hypoth`ese H0 , la statistique de test Q suit asymptotiquement une loi χ2 (3). Comme aucun effectif attendu n’est inf´erieur a` 5, l’approximation asymp2 (3) totique est satisfaisante. On rejette ici au niveau α = 0, 05 car q > χ0,95 =7,815 (voir table). On rejette mˆeme au niveau de risque tr`es faible de 0,001 puisque 2 (3) χ0,999 =16,26. De fait, la P-valeur fournie par EXCEL est de 0,0008. On peut affirmer avec un tr`es faible risque d’erreur qu’il y a un effet sexe pour la gˆene. La comparaison des tableaux observ´e et attendu (sous H0 ) montre que les femmes se d´eclarent moins sensibles `a la gˆene que les hommes.
Exercice 10.8 Il s’agit d’un test d’ad´equation a` un certain mod`ele de loi multinomiale. Les 4 cat´egories correspondent au nombre de gar¸cons dans une famille de 3 enfants. Sous l’hypoth`ese H0 que le sexe d’un nouveau n´e est ind´ependant au cours des naissances successives et que la probabilit´e p d’avoir un gar¸con `a chaque naissance reste constante, le nombre de gar¸cons X pour une famille de 3 enfants suit une loi B(3, p). Pour les valeurs x = 0, 1, 2, 3 les probabilit´es sont respectivement (1 − p)3 , p(1 − p)2 , p2 (1 − p), p3 . Mais p est inconnu et doit ˆetre estim´e par l’estimateur du MV qui est la proportion p de gar¸cons dans l’´echantillon, soit : p =
1 3×825 (0
× 71 + 1 × 297 + 2 × 336 + 3 × 121) =0,5382.
Corrig´es des exercices
405
Le tableau ci-apr`es donne les effectifs observ´es en regard des effectifs attendus. Nombre de gar¸cons Effectifs observ´es Prob. th´eoriques estim´ees Effectifs attendus
d’o` uq=
(71−81,26)2 81,26
+
x ni pi n pi
(297−284,08)2 284,08
0 71 0, 0985 81, 26 +
1 297 0, 3443 284, 08
(336−331,06)2 331,06
+
2 336 0, 4013 331, 06
3 121 0, 1559 128, 60
(121−128,60)2 128,60
= 2, 41.
Sous H0 , Q suit approximativement une loi du khi-deux avec 4-1-1=2 d.d.l. du fait qu’il a fallu estimer un param`etre (les effectifs attendus ´etant ´elev´es l’approximation doit ˆetre tr`es satisfaisante). La valeur de q trouv´ee correspond `a une P-valeur de 0,30 et il n’y a pas lieu de rejeter H0 . Ici nous rencontrons une situation o` u EXCEL donne une valeur erron´ee de la P-valeur. En effet la fonction TEST.KHIDEUX prend un nombre de d.d.l. ´egal `a 3, ignorant qu’un param`etre a dˆ u ˆetre estim´e. La P-valeur donn´ee est en fait 0,4925 laquelle, par KHIDEUX.INVERSE(0,4925 ; 3), redonne la bonne valeur de q = 2, 41. Il faut ensuite ex´ecuter LOI.KHIDEUX(2,41 ; 2) pour trouver la bonne P-valeur.
Exercice 10.9 Cet exercice se fait sur le mˆeme mod`ele que le pr´ec´edent. La distribution multinomiale est donn´ee avec 5 cat´egories. Il est n´ecessaire d’estimer le param`etre λ de la loi de Poisson pour estimer les probabilit´es des cat´egories : M V = x = 1 (21 × 0 + 18 × 1 + 7 × 2 + 3 × 3 + 1 × 4) = 0, 90 . λ 50 Les probabilit´es th´eoriques du mod`ele sous H0 sont calcul´ees selon D’o` u le tableau : Nombre d’accidents Effectifs observ´es Prob. th´eoriques estim´ees Effectifs attendus
x ni pi n pi
0 21 0, 4066 20, 33
1 18 0, 3659 18, 30
2 7 0, 1647 8, 235
e−0,90 (0,90)x . x!
3 3 0, 0494 2, 470
4 1 0, 0135 0, 675
On remarque que pour x=3 et x = 4, les effectifs attendus sont inf´erieurs `a 5. Pour ´eviter cela, il faut regrouper les 3 derni`eres cat´egories. Cette nouvelle cat´egorie a pour effectifs observ´es 11 et attendus 11,38. La valeur prise par la statistique du khi-deux est : q=
(18 − 18, 30)2 (11 − 11, 38)2 (21 − 20, 33)2 + + = 0, 043. 20, 33 18, 30 11, 38
406
Statistique - La th´eorie et ses applications
Sous H0 , Q suit approximativement une loi du khi-deux avec 3 − 1 − 1 = 1 2 (1) d.d.l. et on rejette H0 au niveau 0,05 si q > χ0,95 = 3, 84. On accepte donc H0 . Note : La P-valeur est 0,836 (voir exercice pr´ec´edent pour son calcul).
Exercice 10.10 On se rapportera a` l’exercice 10.7 pour la proc´edure qui est ici analogue. On trouve (via EXCEL, par exemple) une valeur de q ´egale `a 2,78 correspondant a` une P-valeur de 0,43 sur la loi χ2 (3). Il n’a donc pas lieu de rejeter l’hypoth`ese d’ind´ependance. Sur la base de cette enquˆete on ne peut consid´erer qu’il y ait un mode de logement diff´erent entre ´etudiantes et ´etudiants.
Exercice 10.11 On se rapportera ´egalement `a l’exercice 10.7 pour la proc´edure. On est ici dans une situation de comparaison de 4 distributions multinomiales car on peut consid´erer qu’on a constitu´e 4 ´echantillons de tailles d´efinies, respectivement 106, 174, 134 et 76. On trouve (via EXCEL, par exemple) une valeur de q ´egale `a 32,87 correspondant a` une P-valeur inf´erieure `a 10−3 sur la loi χ2 (6). On peut consid´erer avec un risque quasi nul de se tromper qu’il y a une relation entre l’ˆ age et le type d’op´erateur choisi.
Exercice 10.12 On se rapportera a` l’exercice 10.7 pour la proc´edure. On est ici dans une situation de comparaison de 2 distributions multinomiales. 2 (3) On doit rejeter au niveau 0,05 pour q > χ0,95 = 7, 81. On trouve (via EXCEL, par exemple) une valeur de q ´egale `a 2,81 (P-valeur=0,42). Il n’y a donc pas lieu de consid´erer, sur la base de cette enquˆete, que la r´epartition des revenus soit diff´erente entre les deux pays. Note : Un des effectifs attendus vaut 4,44 et est donc inf´erieur `a 5. On a vu toutefois en fin de section 10.2 que, pour des tableaux autres que 2×2, la condition n’´etait pas cruciale. De plus, ici, on est suffisamment loin de rejeter pour se soucier du niveau d’approximation.
Corrig´es des exercices
407
Exercice 10.13 Le tableau ci-apr`es donne les ´el´ements utiles pour effectuer le test d’ad´equation du khi-deux (colonnes 2 a` 4) et celui de Kolmogorv-Smirnov (colonnes 5 a` 8). Mesure 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
Effectif Observ´ e 3 18 81 185 420 749 1073 1079 934 658 370 92 50 21 4 1
Proba. th´ eorique 0,0010 0,0037 0,0126 0,0348 0,0758 0,1303 0,1779 0,1920 0,1643 0,1112 0,0597 0,0253 0,0086 0,0022 0,0005 0,0001
Effectif attendu 5,7 21,2 72,3 199,7 434,9 747,7 1020,8 1101,7 942,8 638,1 342,6 145,2 49,3 12,6 2,9 0,6
Eff. Obs. cumul´ e 3 21 102 287 707 1456 2529 3608 4542 5200 5570 5662 5712 5733 5737 5738
Fn. R´ ep. empirique 0,0005 0,0037 0,0178 0,0500 0,1232 0,2537 0,4407 0,6288 0,7916 0,9062 0,9707 0,9868 0,9955 0,9991 0,9998 1,0000
Fn. R´ ep. th´ eorique 0,0010 0,0047 0,0173 0,0521 0,1279 0,2582 0,4361 0,6281 0,7924 0,9036 0,9633 0,9886 0,9972 0,9994 0,9999 1,0000
Diff´ erence test K-S -0,0005 -0,0010 0,0005 -0,0021 -0,0047 -0,0045 0,0046 0,0007 -0,0008 0,0026 0,0074 -0,0018 -0,0017 -0,0003 -0,0001 0,0000
La moyenne observ´ee est 39,83 et l’´ecart-type 2,050. Les probabilit´es th´eoriques sous H0 doivent ˆetre estim´ees sur la loi de X ; N (39,83 ; (2,050)2 ). Pour la premi`ere ligne on calcule P (X < 33, 5) = 0,0010, pour la deuxi`eme P (33, 5 < X < 34, 5) = 0,0037, etc. Pour le test du khi-deux il faut regrouper les 3 derni`eres lignes pour avoir un effectif attendu sup´erieur `a 5, se ramenant ainsi a` 14 classes. Sous H0 (la r´epartition est gaussienne) la statistique de test Q a une loi asymptotique du khi-deux avec 14 − 1 − 2 = 11 d.d.l. car il a fallu estimer moyenne et variance de la loi. On trouve une valeur q = 36,1 pour cette statistique ce qui correspond `a une P-valeur de 0,00016. On peut rejeter l’hypoth`ese gaussienne avec un risque d’erreur infime. Ce r´esultat ne doit pas surprendre car la taille de l’´echantillon ´etant grande, la puissance du test est ´elev´ee et un mod`ele plus adaptatif doit ˆetre recherch´e. Pour le test de Kolmogorov-Smirnov on obtient une diff´erence maximale entre fonctions de r´epartition empirique et th´eorique dn = 0,0074. Vu la taille d’´echantillon on a, pour la statistique de test Dn , une approximation de la valeur √ critique au niveau 0,05 qui est 1,36/ n = 0,018. On voit que ce test ne rejette pas l’hypoth`ese gaussienne. En r´ealit´e, il est inadapt´e car beaucoup trop conservateur et donc peu puissant, d’une part du fait des gros effectifs sur les
408
Statistique - La th´eorie et ses applications
classes qui ne permettent pas de suivre l’´evolution d´etaill´ee de la fonction de r´epartition empirique, d’autre part du fait que les ´ecarts sont sous-´evalu´es en prenant comme r´ef´erence la loi de Gauss dont la moyenne et la variance sont estim´ees sur les donn´ees.
Exercice 10.14 En fusionnant les deux ´echantillons, il y a 23 observations en-dessous de 3 et 24 au-dessus de 3. La m´ediane ´etant la valeur 3 on est contraint d’´evacuer les 13 observations situ´ees sur 3 qui sont inclassables. On raisonne donc sur une taille globale r´eduite ` a 47 pour laquelle il y a 23 valeurs sous la m´ediane. '1 d’observations Sous H0 (pas de diff´erence d’attitude) la loi du nombre N sous la m´ediane pour le premier ´echantillon (m´enages avec enfant(s)) de taille 25, est la loi H(47 ; 23 ; 25) qui peut ˆetre approch´ee par une loi de Gauss de moyenne et variance : μ=
25 × 46 = 12, 234; 2 × 47
σ2 =
25 × 22 × 48 = 2, 988 . 4 × (47)2
'1 sort de l’intervalle 12,234±1,96√2, 988, Donc on rejettera au niveau 0,05 si N '1 a pris la valeur 15, on ne peut rejeter l’hypoth`ese soit [8,85 ;15,62]. Comme N d’absence de diff´erence d’attitude. La probabilit´e de d´epasser 14,5 sur la loi de Gauss ´etant ´egale `a 0,095, la P-valeur est approximativement 0,19. Sur la loi H(47 ; 23 ; 25), la probabilit´e '1 ≥ 15) vaut 0,092 (calculable par EXCEL) et la P-valeur exacte est donc P (N 0,184 ce qui montre que l’approximation est tr`es bonne. Note : Rappelons que le test de la m´ediane est peu puissant d’une fa¸con g´en´erale et qu’il l’est particuli`erement ici au vu de l’´etroitesse de l’´echelle et de la taille des ´echantillons.
Corrig´es des exercices
409
Chapitre 11 : R´ egression lin´ eaire Exercice 11.1 Pour p = 2 la formule g´en´erale de la densit´e du vecteur (X, Y ) gaussien est : ! 1 1 t −1 fX,Y (x, y) = exp − (u − μ) Σ (u − μ) . 2 2π(det Σ)1/2 o` uu=
x y
et μ =
μX μY
.
La matrice des variances-covariances est : 2 σX ρσX σY Σ= ρσX σY σY2 2 2 σY (1 − ρ2 ) et : d’o` u det Σ = σX
Σ
−1
1 = 2 2 σX σY (1 − ρ2 )
σY2 −ρσX σY
,
−ρσX σY 2 σX
.
L’expression de fX,Y (x, y) est finalement (pour plus de d´etails sur le calcul matriciel voir l’exercice 3.8) : 2πσX σY
1 %
" (1 − ρ2 )
exp
−
1 2(1 − ρ2 )
(x − μX )(y − μY ) (y − μY )2 (x − μX )2 − 2ρ + 2 2 σX σX σY σY
# .
7 6 2 X) et donc fY |X=x (y) a pour constante exp − 12 (x−μ 2 σX 1 √ devant l’exponentielle √ et pour l’exponentielle : 2 Par ailleurs fX (x) =
1 σX
2πσY
(1−ρ )
(x − μX )2 (x − μX )(y − μY ) (y − μY )2 1 (x − μX )2 − (1 − ρ2 ) − 2ρ + 2 2 2 2(1 − ρ ) σX σX σX σY σY2 2 2 1 (x − μX )(y − μY ) (y − μY ) (x − μX ) =− − 2ρ + ρ2 2 2(1 − ρ2 ) σX σX σY σY2 !2 1 σY y − μY + ρ =− 2 (x − μX ) 2σY (1 − ρ2 ) σX
−
Y ce qui met en ´evidence une loi de Gauss de moyenne μY + ρ σσX (x − μX ) et de 2 2 variance σY (1 − ρ ). Cela montre que dans le mod`ele de r´egression de Y sur X la droite de r´egression Y a pour pente ρ σσX et passe par le point de coordonn´ees (μX , μY ). De plus, la variance de Y est r´eduite du facteur 1 − ρ2 , c’est-`a-dire d’autant plus que Y est li´ee `a X.
410
Statistique - La th´eorie et ses applications
Exercice 11.2 On a :
y
E(ϕ(X)) = R
R
qui est donc ´egal `a De la mˆeme fa¸con :
R
fX,Y (x, y) dy fX (x)dx = yfX,Y (x, y)dxdy = μY fX (x) R2
(β0 + β1 x) fX (x)dx = β0 + β1 μX .
E(Xϕ(X)) = qui est donc ´egal `a en (β0 , β1 ) :
R
R2
xyfX,Y (x, y)dxdy = E(XY )
x(β0 +β1 x) fX (x)dx = β0 μX +β1 E(X 2 ). D’o` u `a r´esoudre "
β0 + β1 μX = μY . β0 μX + β1 E(X 2 ) = E(XY )
En multipliant la premi`ere ´equation par −μX et lui ajoutant la suivante, on a : ) Y soit β1 = cov(X,Y = ρ σσX β1 [E(X 2 ) − μ2X ] = E(XY ) − μX μY 2 σX et en rempla¸cant dans la premi`ere : Y Y μX et ainsi β0 + β1 x = μY + ρ σσX (x − μX ). β0 = μY − ρ σσX Pour la variance conditionnelle : E(ψ(X)) = V (Y |X = x)fX (x)dx R 2 # " fX,Y (x, y) σY 2 y − μY + ρ dy fX (x)dx (x − μX ) = σX fX (x) R R 2 # " σY 2 (x − μX ) y − μY + ρ fX,Y (x, y)dxdy = σX R2 2 σY 2 2 2 σY = E(Y ) − μY + 2μY ρ E(X − μX ) + ρ 2 V (X) σX σX = E(Y 2 ) − μ2Y − ρ2 σY2 = σY2 (1 − ρ2 ). Mais d’autre part, comme V (Y |X = x) ne d´epend pas de x on peut dire, a` partir de la premi`ere ´equation ci-dessus, que E(ψ(X)) = V (Y |X = x), ce qui d´emontre le r´esultat donn´e. Ainsi on peut conclure que, pour tout mod`ele `a esp´erance conditionnelle lin´eaire et `a variance conditionnelle constante, les expressions de ces derni`eres restent identiques a` celles trouv´ees dans le cas gaussien.
Corrig´es des exercices
411
Exercice 11.3 Tout d’abord, reprenons les formules de la section 11.2.2 donnant β0 et β1 en raisonnant sur les r´ealisations yi des Yi : ⎧ β0 = y − β1 x ⎪ ⎪ ⎨ n (x − x)(yi − y) 1 = i=1 ⎪ n i β ⎪ 2 ⎩ i=1 (xi − x) dont on d´eduit que yi = β0 + β1 xi = y + β1 (xi − x). yi − y) d´ecoule : De yi − y = (yi − yi ) + ( n
(yi − y)2 =
i=1
n
(yi − yi )2 +
i=1
n
( yi − y)2 + 2
i=1
n
(yi − yi )( yi − y).
i=1
Il suffit de montrer que le dernier terme `a droite est nul pour avoir la d´ecomposition utilis´ee en section 11.2.4. On a : n
(yi − yi )( yi − y) =
i=1
n
yi (yi − yi ) − y
i=1
n
(yi − yi ),
i=1
or, en substituant l’expression donn´ee plus haut,pour yi : n + n i ) = i=1 (yi − y) − β1 (xi − x) = 0 i=1 (yi − y n n car i=1 (yi − y) et i=1 (xi − x) sont nuls. Il reste donc le terme : n i=1
yi (yi − yi ) =
n + , y + β1 (xi − x) (yi − yi ) i=1 n
=y
(yi − yi ) + β1
i=1
= 0 + β1 = β1
n
(xi − x)(yi − yi )
i=1 n
+
,
(xi − x) yi − y − β1 (xi − x)
i=11 n n (xi − x)(yi − y) − β1 (xi − x)2 i=1
i=11
et ce terme est bien nul en vertu de l’´equation qui donne β1 .
412
Statistique - La th´eorie et ses applications
Exercice 11.4 La pr´evision ponctuelle de Y0 est β0 + β1 x0 . Comme E(Y0 ) = β0 + β1 x0 et que β0 , β1 sont sans biais, E(Y0 − (β0 + β1 x0 )) = 0. En utilisant les r´esultats de la section 11.2.2 sur les esp´erances, variances et covariance de β0 et β1 on a : V (β0 + β1 x0 ) = V (β0 ) + x20 V (β1 ) + 2x0 cov(β0 , β1 ) x2 σ2 xσ 2 1 = σ2 − 2x0 n + x20 n + n 2 2 2 n i=1 (xi − x) i=1 (xi − x) i=1 (xi − x) (x0 − x)2 1 = σ2 , + n 2 n i=1 (xi − x)
et comme Y0 est de variance σ 2 et ind´ependante de β0 + β1 x0 : (x0 − x)2 1 V (Y0 − (β0 + β1 x0 )) = σ 2 1 + + n . 2 n i=1 (xi − x) et Y0 − (β0 + β1 x0 ) est gaussien. Selon la proposition 11.1 S 2 est ind´ependant de β0 + β1 x0 et donc ´egalement 2 de Y0 − (β0 + β1 x0 ) et comme (n−2)S ; χ2 (n − 2) : σ2 Y − (β0 + β1 x0 ) ( 0 ; t(n − 2). −x)2 S 1 + n1 + n(x0(x 2 i −x) i=1
(n−2)
(n−2)
Cette v.a. peut ˆetre encadr´ee par [−t0,975 , t0,975 ] avec probabilit´e 0,95 ce qui conduit imm´ediatement `a l’intervalle de pr´ediction donn´e dans l’´enonc´e. Notons que l’intervalle est d’autant plus pr´ecis que x0 est proche de x.
Exercice 11.5 n Soit β'1 = i=1 ai Yi un estimateur lin´eaire quelconque de β1 . Comme E(β'1 ) = n n ai (β0 + β1 xi ) il est sans biais, quels que soient les xi , si i=1 ai E(Yi ) = n n ni=1 n 2 2 2 i=1 ai = 0 et i=1 ai xi = 1. Sa variance est i=1 ai V (Yi ) = σ i=1 ai . L’estimateur de variance minimale parmi les estimateurs sans biais est tel que n n n 2 i=1 ai soit minimal sous les contraintes i=1 ai = 0 et i=1 ai xi = 1. R´esolvons ce probl`eme par le multiplicateur de Lagrange, soit en minimisant la n n n fonction de (c1 , c2 , · · · , cn , λ1 , λ2 ) : i=1 a2i − λ1 i=1 ai − λ2 ( i=1 ai xi − 1).
Corrig´es des exercices
413
On r´esout le syst`eme suivant annulant les n + 2 d´eriv´ees partielles : ⎧ ⎪ equations pour i = 1, · · · , n) i − λ1 − λ2 xi = 0 (n ´ ⎨ 2a n . i=1 ai = 0 ⎪ ⎩ n a x = 1 i=1 i i La somme des n premi`eres ´equations donne −nλ1 − λ2 ni=1 xi = 0. En multin pliant chacune d’elles par xi et en sommant on obtient encore 2 − λ1 i=1 xi − n λ2 i=1 x2i = 0. Ces deux ´equations permettre de d´eterminer λ1 et λ2 : "
λ1 = −λ2 x n n 2 + λ2 (x i=1 xi − i=1 x2i ) = 0
" ⇐⇒
λ2 =
n
2
i=1 (xi −x)
2
λ1 = − n
2x 2 i=1 (xi −x)
.
Puis, en substituant dans les n premi`eres ´equations du syst`eme initial : 2x 2xi − n =0 2 2 i=1 (xi − x) i=1 (xi − x)
2ai + n soit finalement :
xi − x . 2 i=1 (xi − x)
ai = n
Ainsi l’estimateur de variance minimale est : n n (xi − x)Yi (x − x)(Yi − Y ) i=1 n i = β'1∗ = i=1 n 2 2 (x − x) i=1 i i=1 (xi − x) puisque
n
i=1 (xi − x)Y
= 0. Cet estimateur est bien celui des moindres carr´es.
Exercice 11.6 La log-vraisemblance a ´et´e vue en section 11.2.2 : n n 1 [yi − (β0 + β1 xi )]2 . ln L(β0 , β1 , σ 2 ) = − (ln 2π + ln σ 2 ) − 2 2 2σ i=1 Le d´enominateur du RVG est obtenu avec les estimations du MV de β0 , β1 et σ 2 ´etablis dans cette section : n n 1 2 ) = − (ln 2π + ln σ [yi − (β0 + β1 xi )]2 2) − 2 ln L(β0 , β1 , σ 2 2 σ i=1 n n 2) − = − (ln 2π + ln σ 2 2 n car σ 2 = n1 i=1 [yi − (β0 + β1 xi )]2 .
414
Statistique - La th´eorie et ses applications
Pour le num´erateur, on se place sous H0 : β1 = 0, c’est-`a-dire que les Yi sont i.i.d. d’esp´erance β0 et de variance σ 2 dont les estimations du MV sont respecn tivement (voir exemple 6.20) y et s'2 = n1 i=1 (yi − y)2 . La log-vraisemblance maximale est : n n ln L(β0 , 0, s'2 ) = − (ln 2π + ln s'2 ) − . 2 2 Finalement : n (yi − y)2 n n s'2 . ln RV G = − ln 2 . = − ln i=1 2 2 σ 2 n σ Or la r´ealisation de la statistique F est (voir section 11.2.4) : n (n − 2) ni=1 ( ( yi − y)2 yi − y)2 = , f = i=1 2 2 s n σ S 2 ayant ´et´e d´efini comme ´egal `a n σ 2 /(n−2). Par la d´ecomposition de la somme des carr´es totale on a : n i=1
d’o` u:
( yi − y)2 =
n
(yi − y)2 −
i=1
f = (n − 2)
n
(yi − yi )2 =
i=1
n
i=1 (yi − n σ2
n
(yi − y)2 − n σ2
i=1 2
y)
−1
n f ln( + 1) . 2 n−2 Le RVG est une fonction d´ecroissante de f et la r´egion de rejet de la forme −2 ln RV G < k correspond ` a une r´egion f < k du test classique. Toutefois la loi asymptotique de −2 ln RV G n’est pas en correspondance avec la loi F (1, n − 2) du test classique.
et :
ln RV G = −
Tables Loi Loi Loi Loi
de Gauss de student de Fisher du khi-deux
Ces tables ont ´et´e reproduites avec l’aimable autorisation de Denis Labelle et Alain Latour, de leur ouvrage polycopi´e Statistique Inf´erentielle, Universit´e du Qu´ebec `a Montr´eal (UQAM)
416
Statistique - La th´eorie et ses applications
Loi normale
-4
-3
-2
-1
0
z
1
2
3
4
Loi N (0; 1) : Valeur de Pr {N (0; 1) ≤ z} en fonction de z z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2
,5000 ,5398 ,5793 ,6179 ,6554 ,6915 ,7257 ,7580 ,7881 ,8159 ,8413 ,8643 ,8849 ,9032 ,9192 ,9332 ,9452 ,9554 ,9641 ,9713 ,9772 ,9821 ,9861 ,9893 ,9918 ,9938 ,9953 ,9965 ,9974 ,9981 ,9987 ,9990 ,9993
,5040 ,5438 ,5832 ,6217 ,6591 ,6950 ,7291 ,7611 ,7910 ,8186 ,8438 ,8665 ,8869 ,9049 ,9207 ,9345 ,9463 ,9564 ,9649 ,9719 ,9778 ,9826 ,9864 ,9896 ,9920 ,9940 ,9955 ,9966 ,9975 ,9982 ,9987 ,9991 ,9993
,5080 ,5478 ,5871 ,6255 ,6628 ,6985 ,7324 ,7642 ,7939 ,8212 ,8461 ,8686 ,8888 ,9066 ,9222 ,9357 ,9474 ,9573 ,9656 ,9726 ,9783 ,9830 ,9868 ,9898 ,9922 ,9941 ,9956 ,9967 ,9976 ,9982 ,9987 ,9991 ,9994
,5120 ,5517 ,5910 ,6293 ,6664 ,7019 ,7357 ,7673 ,7967 ,8238 ,8485 ,8708 ,8907 ,9082 ,9236 ,9370 ,9484 ,9582 ,9664 ,9732 ,9788 ,9834 ,9871 ,9901 ,9925 ,9943 ,9957 ,9968 ,9977 ,9983 ,9988 ,9991 ,9994
,5160 ,5557 ,5948 ,6331 ,6700 ,7054 ,7389 ,7704 ,7995 ,8264 ,8508 ,8729 ,8925 ,9099 ,9251 ,9382 ,9495 ,9591 ,9671 ,9738 ,9793 ,9838 ,9875 ,9904 ,9927 ,9945 ,9959 ,9969 ,9977 ,9984 ,9988 ,9992 ,9994
,5199 ,5596 ,5987 ,6368 ,6736 ,7088 ,7422 ,7734 ,8023 ,8289 ,8531 ,8749 ,8944 ,9115 ,9265 ,9394 ,9505 ,9599 ,9678 ,9744 ,9798 ,9842 ,9878 ,9906 ,9929 ,9946 ,9960 ,9970 ,9978 ,9984 ,9989 ,9992 ,9994
,5239 ,5636 ,6026 ,6406 ,6772 ,7123 ,7454 ,7764 ,8051 ,8315 ,8554 ,8770 ,8962 ,9131 ,9279 ,9406 ,9515 ,9608 ,9686 ,9750 ,9803 ,9846 ,9881 ,9909 ,9931 ,9948 ,9961 ,9971 ,9979 ,9985 ,9989 ,9992 ,9994
,5279 ,5675 ,6064 ,6443 ,6808 ,7157 ,7486 ,7794 ,8078 ,8340 ,8577 ,8790 ,8980 ,9147 ,9292 ,9418 ,9525 ,9616 ,9693 ,9756 ,9808 ,9850 ,9884 ,9911 ,9932 ,9949 ,9962 ,9972 ,9979 ,9985 ,9989 ,9992 ,9995
,5319 ,5714 ,6103 ,6480 ,6844 ,7190 ,7517 ,7823 ,8106 ,8365 ,8599 ,8810 ,8997 ,9162 ,9306 ,9429 ,9535 ,9625 ,9699 ,9761 ,9812 ,9854 ,9887 ,9913 ,9934 ,9951 ,9963 ,9973 ,9980 ,9986 ,9990 ,9993 ,9995
,5359 ,5753 ,6141 ,6517 ,6879 ,7224 ,7549 ,7852 ,8133 ,8389 ,8621 ,8830 ,9015 ,9177 ,9319 ,9441 ,9545 ,9633 ,9706 ,9767 ,9817 ,9857 ,9890 ,9916 ,9936 ,9952 ,9964 ,9974 ,9981 ,9986 ,9990 ,9993 ,9995
Tables
Loi de Student
α/2
-4
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 50 70 90 ∞
0,500 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,679 0,678 0,677 0,674
-3
α/2
-2
0,200 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,299 1,294 1,291 1,282
-1
0,100 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,676 1,667 1,662 1,645
0
1
α 0,050 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,009 1,994 1,987 1,960
2
3
0,020 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,403 2,381 2,368 2,326
4
0,010 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,678 2,648 2,632 2,576
417
418
Statistique - La th´eorie et ses applications
Loi de Fisher
α
0
1
2
3
4
5
6
Pr (Fν1 ,ν2 > c) = 0, 05 ν2 ν1
1
2
3
4
5
6
7
8
9
10
12
15
1 2 3 4 5
161 199 216 225 230
18,5 19,0 19,2 19,2 19,3
10,1 9,55 9,28 9,12 9,01
7,71 6,94 6,59 6,39 6,26
6,61 5,79 5,41 5,19 5,05
5,99 5,14 4,76 4,53 4,39
5,59 4,74 4,35 4,12 3,97
5,32 4,46 4,07 3,84 3,69
5,12 4,26 3,86 3,63 3,48
4,96 4,10 3,71 3,48 3,33
4,75 3,89 3,49 3,26 3,11
4,54 3,68 3,29 3,06 2,90
6 7 8 9 10
234 237 239 241 242
19,3 19,4 19,4 19,4 19,4
8,94 8,89 8,85 8,81 8,79
6,16 6,09 6,04 6,00 5,96
4,95 4,88 4,82 4,77 4,74
4,28 4,21 4,15 4,10 4,06
3,87 3,79 3,73 3,68 3,64
3,58 3,50 3,44 3,39 3,35
3,37 3,29 3,23 3,18 3,14
3,22 3,14 3,07 3,02 2,98
3,00 2,91 2,85 2,80 2,75
2,79 2,71 2,64 2,59 2,54
11 12 13 14 15
243 244 245 245 246
19,4 19,4 19,4 19,4 19,4
8,76 8,74 8,73 8,71 8,70
5,94 5,91 5,89 5,87 5,86
4,70 4,68 4,66 4,64 4,62
4,03 4,00 3,98 3,96 3,94
3,60 3,57 3,55 3,53 3,51
3,31 3,28 3,26 3,24 3,22
3,10 3,07 3,05 3,03 3,01
2,94 2,91 2,89 2,86 2,85
2,72 2,69 2,66 2,64 2,62
2,51 2,48 2,45 2,42 2,40
16 17 18 19 20
246 247 247 248 248
19,4 19,4 19,4 19,4 19,4
8,69 8,68 8,67 8,67 8,66
5,84 5,83 5,82 5,81 5,80
4,60 4,59 4,58 4,57 4,56
3,92 3,91 3,90 3,88 3,87
3,49 3,48 3,47 3,46 3,44
3,20 3,19 3,17 3,16 3,15
2,99 2,97 2,96 2,95 2,94
2,83 2,81 2,80 2,79 2,77
2,60 2,58 2,57 2,56 2,54
2,38 2,37 2,35 2,34 2,33
21 22 23 24 25
248 249 249 249 249
19,4 19,5 19,5 19,5 19,5
8,65 8,65 8,64 8,64 8,63
5,79 5,79 5,78 5,77 5,77
4,55 4,54 4,53 4,53 4,52
3,86 3,86 3,85 3,84 3,83
3,43 3,43 3,42 3,41 3,40
3,14 3,13 3,12 3,12 3,11
2,93 2,92 2,91 2,90 2,89
2,76 2,75 2,75 2,74 2,73
2,53 2,52 2,51 2,51 2,50
2,32 2,31 2,30 2,29 2,28
26 27 28 29 30
249 250 250 250 250
19,5 19,5 19,5 19,5 19,5
8,63 8,63 8,62 8,62 8,62
5,76 5,76 5,75 5,75 5,75
4,52 4,51 4,50 4,50 4,50
3,83 3,82 3,82 3,81 3,81
3,40 3,39 3,39 3,38 3,38
3,10 3,10 3,09 3,08 3,08
2,89 2,88 2,87 2,87 2,86
2,72 2,72 2,71 2,70 2,70
2,49 2,48 2,48 2,47 2,47
2,27 2,27 2,26 2,25 2,25
32 34 36 38 40
250 251 251 251 251
19,5 19,5 19,5 19,5 19,5
8,61 8,61 8,60 8,60 8,59
5,74 5,73 5,73 5,72 5,72
4,49 4,48 4,47 4,47 4,46
3,80 3,79 3,79 3,78 3,77
3,37 3,36 3,35 3,35 3,34
3,07 3,06 3,06 3,05 3,04
2,85 2,85 2,84 2,83 2,83
2,69 2,68 2,67 2,67 2,66
2,46 2,45 2,44 2,43 2,43
2,24 2,23 2,22 2,21 2,20
45 50 55 60 65
251 252 252 252 252
19,5 19,5 19,5 19,5 19,5
8,59 8,58 8,58 8,57 8,57
5,71 5,70 5,69 5,69 5,68
4,45 4,44 4,44 4,43 4,43
3,76 3,75 3,75 3,74 3,73
3,33 3,32 3,31 3,30 3,30
3,03 3,02 3,01 3,01 3,00
2,81 2,80 2,79 2,79 2,78
2,65 2,64 2,63 2,62 2,61
2,41 2,40 2,39 2,38 2,38
2,19 2,18 2,17 2,16 2,15
70 80
252 253
19,5 19,5
8,57 8,56
5,68 5,67
4,42 4,41
3,73 3,72
3,29 3,29
2,99 2,99
2,78 2,77
2,61 2,60
2,37 2,36
2,15 2,14
Tables
419
α
0
1
2
3
4
5
6
Pr (Fν1 ,ν2 > c) = 0, 05 ν2 ν1
18
20
22
24
26
28
30
40
50
60
100
200
1 2 3 4 5
4,41 3,55 3,16 2,93 2,77
4,35 3,49 3,10 2,87 2,71
4,30 3,44 3,05 2,82 2,66
4,26 3,40 3,01 2,78 2,62
4,23 3,37 2,98 2,74 2,59
4,20 3,34 2,95 2,71 2,56
4,17 3,32 2,92 2,69 2,53
4,08 3,23 2,84 2,61 2,45
4,03 3,18 2,79 2,56 2,40
4,00 3,15 2,76 2,53 2,37
3,94 3,09 2,70 2,46 2,31
3,89 3,04 2,65 2,42 2,26
6 7 8 9 10
2,66 2,58 2,51 2,46 2,41
2,60 2,51 2,45 2,39 2,35
2,55 2,46 2,40 2,34 2,30
2,51 2,42 2,36 2,30 2,25
2,47 2,39 2,32 2,27 2,22
2,45 2,36 2,29 2,24 2,19
2,42 2,33 2,27 2,21 2,16
2,34 2,25 2,18 2,12 2,08
2,29 2,20 2,13 2,07 2,03
2,25 2,17 2,10 2,04 1,99
2,19 2,10 2,03 1,97 1,93
2,14 2,06 1,98 1,93 1,88
11 12 13 14 15
2,37 2,34 2,31 2,29 2,27
2,31 2,28 2,25 2,22 2,20
2,26 2,23 2,20 2,17 2,15
2,22 2,18 2,15 2,13 2,11
2,18 2,15 2,12 2,09 2,07
2,15 2,12 2,09 2,06 2,04
2,13 2,09 2,06 2,04 2,01
2,04 2,00 1,97 1,95 1,92
1,99 1,95 1,92 1,89 1,87
1,95 1,92 1,89 1,86 1,84
1,89 1,85 1,82 1,79 1,77
1,84 1,80 1,77 1,74 1,72
16 17 18 19 20
2,25 2,23 2,22 2,20 2,19
2,18 2,17 2,15 2,14 2,12
2,13 2,11 2,10 2,08 2,07
2,09 2,07 2,05 2,04 2,03
2,05 2,03 2,02 2,00 1,99
2,02 2,00 1,99 1,97 1,96
1,99 1,98 1,96 1,95 1,93
1,90 1,89 1,87 1,85 1,84
1,85 1,83 1,81 1,80 1,78
1,82 1,80 1,78 1,76 1,75
1,75 1,73 1,71 1,69 1,68
1,69 1,67 1,66 1,64 1,62
21 22 23 24 25
2,18 2,17 2,16 2,15 2,14
2,11 2,10 2,09 2,08 2,07
2,06 2,05 2,04 2,03 2,02
2,01 2,00 1,99 1,98 1,97
1,98 1,97 1,96 1,95 1,94
1,95 1,93 1,92 1,91 1,91
1,92 1,91 1,90 1,89 1,88
1,83 1,81 1,80 1,79 1,78
1,77 1,76 1,75 1,74 1,73
1,73 1,72 1,71 1,70 1,69
1,66 1,65 1,64 1,63 1,62
1,61 1,60 1,58 1,57 1,56
26 27 28 29 30
2,13 2,13 2,12 2,11 2,11
2,07 2,06 2,05 2,05 2,04
2,01 2,00 2,00 1,99 1,98
1,97 1,96 1,95 1,95 1,94
1,93 1,92 1,91 1,91 1,90
1,90 1,89 1,88 1,88 1,87
1,87 1,86 1,85 1,85 1,84
1,77 1,77 1,76 1,75 1,74
1,72 1,71 1,70 1,69 1,69
1,68 1,67 1,66 1,66 1,65
1,61 1,60 1,59 1,58 1,57
1,55 1,54 1,53 1,52 1,52
32 34 36 38 40
2,10 2,09 2,08 2,07 2,06
2,03 2,02 2,01 2,00 1,99
1,97 1,96 1,95 1,95 1,94
1,93 1,92 1,91 1,90 1,89
1,89 1,88 1,87 1,86 1,85
1,86 1,85 1,84 1,83 1,82
1,83 1,82 1,81 1,80 1,79
1,73 1,72 1,71 1,70 1,69
1,67 1,66 1,65 1,64 1,63
1,64 1,62 1,61 1,60 1,59
1,56 1,55 1,54 1,52 1,52
1,50 1,49 1,48 1,47 1,46
45 50 55 60 65
2,05 2,04 2,03 2,02 2,01
1,98 1,97 1,96 1,95 1,94
1,92 1,91 1,90 1,89 1,88
1,88 1,86 1,85 1,84 1,83
1,84 1,82 1,81 1,80 1,79
1,80 1,79 1,78 1,77 1,76
1,77 1,76 1,75 1,74 1,73
1,67 1,66 1,65 1,64 1,63
1,61 1,60 1,59 1,58 1,57
1,57 1,56 1,55 1,53 1,52
1,49 1,48 1,46 1,45 1,44
1,43 1,41 1,40 1,39 1,37
70 80
2,00 1,99
1,93 1,92
1,88 1,86
1,83 1,82
1,79 1,78
1,75 1,74
1,72 1,71
1,62 1,61
1,56 1,54
1,52 1,50
1,43 1,41
1,36 1,35
420
Statistique - La th´eorie et ses applications
Loi du khi-deux
α α ν
0,995
0,975
0,95
0,9
0,1
0,05
0,025
0,005
1 2 3 4 5
0,000 0,010 0,072 0,207 0,412
0,001 0,051 0,216 0,484 0,831
0,004 0,103 0,352 0,711 1,145
0,016 0,211 0,584 1,064 1,610
2,706 4,605 6,251 7,779 9,236
3,841 5,991 7,815 9,488 11,070
5,024 7,378 9,348 11,143 12,832
7,879 10,597 12,838 14,860 16,750
6 7 8 9 10
0,676 0,989 1,344 1,735 2,156
1,237 1,690 2,180 2,700 3,247
1,635 2,167 2,733 3,325 3,940
2,204 2,833 3,490 4,168 4,865
10,645 12,017 13,362 14,684 15,987
12,592 14,067 15,507 16,919 18,307
14,449 16,013 17,535 19,023 20,483
18,548 20,278 21,955 23,589 25,188
11 12 13 14 15
2,603 3,074 3,565 4,075 4,601
3,816 4,404 5,009 5,629 6,262
4,575 5,226 5,892 6,571 7,261
5,578 6,304 7,041 7,790 8,547
17,275 18,549 19,812 21,064 22,307
19,675 21,026 22,362 23,685 24,996
21,920 23,337 24,736 26,119 27,488
26,757 28,300 29,819 31,319 32,801
16 17 18 19 20
5,142 5,697 6,265 6,844 7,434
6,908 7,564 8,231 8,907 9,591
7,962 8,672 9,390 10,117 10,851
9,312 10,085 10,865 11,651 12,443
23,542 24,769 25,989 27,204 28,412
26,296 27,587 28,869 30,144 31,410
28,845 30,191 31,526 32,852 34,170
34,267 35,718 37,156 38,582 39,997
21 22 23 24 25
8,034 8,643 9,260 9,886 10,520
10,283 10,982 11,689 12,401 13,120
11,591 12,338 13,091 13,848 14,611
13,240 14,041 14,848 15,659 16,473
29,615 30,813 32,007 33,196 34,382
32,671 33,924 35,172 36,415 37,652
35,479 36,781 38,076 39,364 40,646
41,401 42,796 44,181 45,558 46,928
26 27 28 29 30
11,160 11,808 12,461 13,121 13,787
13,844 14,573 15,308 16,047 16,791
15,379 16,151 16,928 17,708 18,493
17,292 18,114 18,939 19,768 20,599
35,563 36,741 37,916 39,087 40,256
38,885 40,113 41,337 42,557 43,773
41,923 43,195 44,461 45,722 46,979
48,290 49,645 50,994 52,335 53,672
40 50 60 70 80
20,707 27,991 35,534 43,275 51,172
24,433 32,357 40,482 48,758 57,153
26,509 34,764 43,188 51,739 60,391
29,051 37,689 46,459 55,329 64,278
51,805 63,167 74,397 85,527 96,578
55,758 67,505 79,082 90,531 101,879
59,342 71,420 83,298 95,023 106,629
66,766 79,490 91,952 104,215 116,321
90 100
59,196 67,328
65,647 74,222
69,126 77,929
73,291 82,358
107,565 118,498
113,145 124,342
118,136 129,561
128,299 140,170
Bibliographie Agresti A (2002) Categorical data Analysis. Second edition, Wiley, New York Bosq D, Lecoutre JP (1987) Th´eorie de l’estimation fonctionnelle. Economica, Paris Chap TL (1998) Applied Categorical Analysis. Wiley, New York Chernoff H, Lehmann EL (1954) The use of maximum likelihood estimates in χ2 tests for goodness of fit. Annals of Mathematical Statistics 25 : 579-86 Cleveland WS (1979) Robust Locally Weighted Regression. Journal of the American Statistical Association 74 : 829-36 Collomb G (1977) Quelques propri´et´es de la m´ethode du noyau pour l’estimation non-param´etrique de la r´egression en un point fix´e. Comptes Rendus de l’Acad´emie des Sciences de Paris tome 285, s´erie A : 289-92 Cox DR, Hinkley DV (1979) Theoretical Statistics. Chapmann and Hall, London Cramer H (1946) Mathematical Methods of Statistics. Princeton University Press Davison AC, Hinkley DV (1997) Bootstrap Methods and their Application. Cambridge University Press Deheuvels P (1977) Estimation Non Param´etrique de la Densit´e par histogrammes g´en´eralis´es. Revue de Statistique Appliqu´ee vol. XV : 5-42 Devroye L, Gy¨orfi L (1985) Nonparametric Density Estimation : The L1 View. Wiley, New York Droesbeke JJ, Fine J ´ed. (1996) Inf´erence non param´etrique, les statistiques de rangs. Editions de l’Universit´e de Bruxelles et Ellipses Droesbeke JJ, Lejeune M, Saporta G ´ed. (2004) Donn´ees Cat´egorielles. Technip, Paris Dodge Y (1999) Analyse de r´egression appliqu´ee. Dunod, Paris Efron B (1979) Bootstrap methods : another look at the jackknife. Annals of Statistics 7 : 1-26 Fan J (1993) Local Linear Regression Smoothers and their Minimax Efficiency. Annals of Statistics 21, 1 : 196-216 Friedman D, Diaconis P (1981) On the Histogram as a Density Estimator : L2 Theory. Zeitung fuer Wahrscheinlichkeitstheorie und Verwandte Gebiete 57 : 453-76 Gasser T, M¨ uller HG (1984) Estimating Regression Functions and their Derivatives by the Kernel Method. Scandinavian Journal of Statistics 11 : 171-85 Gibbons JD (1985) Nonparametric Statistical Inference, Second edition. Marcel Dekker, New York
422
Statistique - La th´eorie et ses applications
Haerdle W (1990) Applied Nonparametric Regression. Cambridge University Press Hodges JL, Lehmann EL (1956) The efficiency of some non parametric competitors of the t-test. Annals of Mathematical Statistics 27 : 324-55 Hodges JL, Lehmann EL (1963) Estimates of location based on rank tests. Annals of Mathematical Statistics 34 : 598-611 Hosmer DW, Lemeshow S (2000) Applied Logistic Regression, Second edition. Wiley, New York Kiefer J, Wolfowitz J (1956) Consistency of the maximum likelihood estimator in the presence of infinitely many nuisance parameters. Annals of Mathematical Statistics 27 : 887-906 Lecoutre JP, Tassi P (1987) Statistique non param´etrique et robustesse. Economica, Paris Lehmann EL (1975) Nonparametrics : Statistical Methods based on Ranks. Holden-Day, San Francisco Lehmann EL (1986) Testing Statistical Hypotheses, Second edition. Wiley, New York Lehmann EL, Casella G. (1998) Theory of Point Estimation. Springer-Verlag, New York Lejeune M (1982) Estimation de densit´e `a noyau variable. Rapport technique No 1, Projet No 2.843-0.80 du Fonds National Suisse de la Recherche Scientifique «D´eveloppement et impl´ementation de m´ethodes d’estimation non param´etrique» Lejeune M (1983) Estimation non-param´etrique multivari´ee par noyaux. Rapport technique No 3, Projet No 2.843-0.80 du FNRS Lejeune M (1984) Optimization in non Parametric Regression. Compstat 84, Proceedings in Computational Statistics. Physica-Verlag, Wien : 421-26 Lejeune M (1985) Estimation Non Param´etrique par Noyaux : R´egression Polynomiale Mobile. Revue de Statistique Appliqu´ee vol. XXXIII, No 3 : 43-67 Lejeune M, Sarda P (1992) Smooth estimators of distribution and density functions. Computational Statistics & Data Analysis 14 : 451-71 Mann HB, Whitney DR (1947) On a test of whether one of the two random variables is stochastically larger than the other. Annals of Mathematical Statistics 18 : 50-60 Marron JS (1987) A Comparison of Cross-Validation Techniques in Density Estimation. Annals of Statistics 15 : 152-62 Mosteller F, Tukey JW (1977) Data analysis and regression, a second course in statistics. Addison-Wesley Nadaraya EA (1964) On Estimating Regression. Theory of Probability and its Applications 9 : 141-42
Bibliographie
423
Parzen E (1962) On Estimation of a Probability Density Function and Mode. Annals of Mathematical Statistics 33 : 1065-76 Quenouille M (1956) Notes on biais in estimation. Biometrika 43 : 353-60 Rosenblatt M (1956) Remarks on Some Nonparamatric Estimates of a Density Function. Annals of Mathematical Statistics 27 : 832-5 Saporta G (1990) Probabilit´es, Analyse des Donn´ees et Statistique. Technip, Paris Seber GAF (1977) Linear Regression Analysis. Wiley, New York Shao J, Tu D (1995) The Jackknife and Bootstrap. Springer-Verlag, New York Shao J (1999) Mathematical Statistics. Springer-Verlag, New York Shapiro S, Wilk M (1965) An analysis of variance test for normality. Biometrika 52 : 591-611 Silverman BW (1987) The bootstrap : To smooth or not to smooth ? Biometrika 74,3 : 469-79 Simonoff JS (1996) Smoothing Techniques in Statistics. Springer-Verlag, New York Watson GS (1964) Smooth Regression Analysis. Sankhya A 26 : 359-72 Wilcoxon F (1945) Individual comparisons of grouped data by ranking methods. Biometrics Bulletin 1 : 80-3
Index A
en probabilit´e, 80 faible, 80 forte, 80 presque sˆ ure, 80 uniforme, 194 Corr´elation de rangs, 282 de Spearman, 241, 282 lin´eaire, 34, 240, 300 empirique, 35, 72, 240 BAN, 128, 225 Correction de continuit´e, 85 Bande de confiance, 195 Couple de variables al´eatoires, 28–37 Bayes T., 129 gaussien, 43, 240 Bernoulli J., 82 Biais, 70, 72, 99–100, 174, 180, 187, Covariance, 33–36 empirique, 72 191, 197 formule de d´ecentrage, 33 Biweight, 185, 190, 315, 318 Cramer, 268 Bootstrap, 177–181 Cramer-Rao borne (de), 114–118 in´egalit´e (de), 114, 120 Capture-recapture, 133 Curtose, 19, 170 Caract´eristique, 18, 68, 91 Caract`ere, 47 Centrage, 18, 71 D´eviance, 253, 255, 309 Chance, 306 Classe exponentielle, 94–96, 108, 109, de Moivre, 65 Degr´e de libert´e, 72, 74, 76 117, 119, 212, 216, 220 Distance interquartiles, 176 Coefficient d’aplatissement, 19 Distribution, 30 Coefficient d’asym´etrie, 19 asym´etrique, 60 Coefficient de d´etermination, 241, 301 bootstrap, 179 Comptage, 54 d’´echantillonnage, 69 Contrˆ ole de qualit´e, 126, 235 d’une population, 68 Convergence, 79–86 empirique, 15, 21 avec probabilit´e 1, 80 th´eorique, 15, 21 en loi, 79 Droite de Henri, 271 en moyenne quadratique, 81 A posteriori, 68 A priori, 68 Analyse de variance, 297 mod`ele (d’), 305, 313 tableau (d’), 299, 302 Approximation gaussienne, 82–86
B
C
D
425
426
Statistique - La th´eorie et ses applications
du maximum de vraisemblance, 122, 141, 158, 161, 227, 300 comportement asymptotique, 127 efficace, 115, 117, 125 fonctionnel, 78, 172, 194 e.q.m., 101 minimax, 101 e.q.i.m., 189 ´ sans biais, 99, 103, 110–121 Ecart-type, 19, 173 UMVUE, 110–113, 119 de l’´echantillon, 70, 173 Estimation, 92 empirique, 70 ´ d’une densit´ e, 182–192 Echantillon d’une fonction de r´epartition, -s appari´es, 149, 153, 234, 239, 274, 192–198 278 du bootstrap, 178 -s ind´ependants, 77, 152, 232 du maximum de vraisemblance, 122, al´eatoire, 37, 67–69 178 loi conjointe, 94 fonctionnelle, 167, 314 r´ealis´e, 68 ´ Etendue, 176, 184 Effectif, 21 ´ enement, 1 Ev´ Efron B., 172 compl´ementaire, 2 EMV, 122 incompatible, 2 Ensemble fondamental, 1 ´ Equation(s) de vraisemblance, 123, 293, Ex aequo, 274, 278 Exhaustivit´e, 105–110 308 ´ Exp´erience, 1, 67 Equiprobabilit´ e, 4, 21 Erreur, 290, 293 absolue moyenne, 101 de deuxi`eme esp`ece, 203 Famille de premi`ere esp`ece, 203 exponentielle, 94 quadratique moyenne, 100–103, 118, param´etrique de lois, 92 183 Fenˆetre, 184, 315 int´egr´ee, 189 largeur (de), 184, 198 Esp´erance math´ematique, 15–24, 32, Fisher, R.A., 241 40 Fonction Espace param´etrique, 92 caract´eristique, 24, 37 Estimateur, 92 d’un couple de v.a., 32, 81 `a noyau, 184, 314 d’un param`etre, 93, 114, 126, 128, admissible, 101 129, 138 asymptotiquement efficace, 127 d’une v.a., 11, 16, 81 asymptotiquement sans biais, 127 de densit´e conditionnelle, 30 BAN, 128, 130 de densit´e conjointe, 28, 41 bay´esien, 128–131 de densit´e de probabilit´e, 8 convergent, 103–105 de perte, 227 de Hodges-Lehmann, 280 de probabilit´e, 6 des moindres carr´es, 294, 299 de probabilit´e conditionnelle, 29 des moments, 97, 98, 104 de probabilit´e conjointe, 28 du jackknife, 174 de r´egression, 290, 300 Dualit´e test-IC, 242–244 Dur´ee de vie, 56, 61, 65
E
F
Index de r´epartition, 4 empirique, 78, 172, 193 de r´epartition conditionnelle, 30 de r´epartition conjointe, 28, 37 de vraisemblance, 122, 208, 220, 293 g´en´eratrice, 21–24, 36, 38, 80 gamma, 57 indicatrice, 46, 79 logistique, 306 logit, 306 mesurable, 3, 31 pivot, 138–139 puissance, 213 Formule de Bayes, 129 de Stirling, 65 Fr´echet M., 114 Fr´equence, 21, 252 attendue, 254 relative, 21, 82, 84, 151, 181, 182 th´eorique, 254 Fractile, 11
G Galton F., 290 Gauss-Markov, 300 Glivenko-Cantelli, 194 Goodness-of-fit, 265 Gosset W.S., 75 Graunt J., 182
H Histogramme, 169, 182, 189 Homosc´edasticit´e, 300 Hypoth`ese alternative, 202 bilat´erale, 219–220 multiple, 202, 213–220 nulle, 202, 233 simple, 202 unilat´erale, 214–219
I i.i.d., 38
427
IC, 136 Ind´ependance, 3, 31, 33, 37 Individu, 67 Information de Fisher, 96, 114, 143 Int´egrale de Riemann-Stieltjes, 17, 173 Intervalle de confiance, 137, 228 asymptotique, 140–143, 150, 153 largeur, 141, 145, 158 niveau, 136 par le jackknife, 175 pour la diff´erence de deux moyennes, 147 pour la diff´erence de deux proportions, 152 pour la m´ediane, 171 pour le rapport de deux variances, 149 pour un ´ecart-type, 146, 170, 174 pour un quantile, 172 pour une caract´eristique quelconque, 175, 178 pour une moyenne, 144, 168 pour une proportion, 150 pour une variance, 146, 170 proc´edure (d’), 136 conservatrice, 137, 155, 160 convergente, 159 uniform´ement plus pr´ecis, 158 Intervalle de pr´ediction, 297, 321 Invariance (du MV), 126
J Jackknife, 173–177
K Kolmogorov-Smirnov, 195, 266
L Lehmann E.L., 274 Lissage, 185, 190, 196, 315 Log-vraisemblance, 123, 143 Logiciels, 74, 128, 142, 162, 226, 227 Loi a posteriori, 129 a priori, 128
428
Statistique - La th´eorie et ses applications
asymptotique, 80 bˆeta, 63, 130 binomiale, 47, 53, 65 approximation gaussienne, 85 binomiale n´egative, 49, 85, 112 conditionnelle, 29, 37 conjointe, 43 continue uniforme, 9, 17, 54, 63 de Bernoulli, 46, 150 de Cauchy, 16, 75, 86, 104 de Fisher, 76 de Gauss, 57–60, 160 centr´ee-r´eduite, 41, 57 multivari´ee, 40, 128 de Gumbel, 62, 97 de Laplace, 25, 125 de Pareto, 61, 142 de Pascal, 49 de Poisson, 6, 51, 140, 156 approximation gaussienne, 85 de Raleigh, 132, 246 de Student, 74, 169 non centrale, 224, 231, 297 de Weibull, 61, 109 des grands nombres, 75, 81, 104 du khi-deux, 72, 85, 162 exponentielle, 22, 55, 61, 111, 139 exponentielle double, 25 g´eom´etrique, 23, 49 gamma, 56 hyperg´eom´etrique, 50, 85 limite, 80 lognormale, 60, 66 m`ere, 68, 84 gaussienne, 70 marginale, 29, 37, 43 multinomiale, 51, 252 normale, 57 uniforme discr`ete, 45 Lowess, 318
M M-estimateur, 169 M´ediane, 11, 169, 170, 176 empirique, 105, 125, 131, 170
M´ethode adaptative, 314 des moments, 96–98 des percentiles (bootstrap), 179 des quantiles, 153–157, 235 studentis´ee (bootstrap), 179 Marche al´eatoire, 44, 64, 88 Matrice d’information, 120, 128, 143, 162 des corr´elations, 37 des variances-covariances, 37, 40–42, 51, 308 semi-d´efinie positive, 120 Maximum, 77 Maximum de vraisemblance, 121–128, 172, 194 Mesures r´ep´et´ees, 149, 239 Minimum, 77 MISE, 189 Mod`ele de localisation, 275 de position, 275 de r´egression, 289 explicatif, 289 gompit, 313 lin´eaire, 305 g´en´eralis´e, 305 logistique, 290 logit, 313 probit, 313 Mode, 62, 181, 197, 198 Moindres carr´es, 129, 294, 299 pond´er´es, 318 Moment, 18–22 crois´e, 32 empirique, 72 empirique, 71, 79, 99, 103 centr´e, 71, 100 th´eorique, 71, 79, 99 Monte-Carlo (m´ethode de), 63, 178 Moyenne, 16, 168 α-tronqu´ee, 169, 180 empirique, 38, 69, 81, 84, 168, 173 MV, 123
Index
N n-´echantillon, 68 Neyman J., 206 Neyman-Pearson (lemme de), 208 Niveau d’un test, 203, 213 Niveau de signification, 203 Nombres au hasard, 55, 63 Nombres pseudo-al´eatoires, 63 Normalit´e, 145, 148, 271 Noyau, 185, 315 int´egr´e, 196 ordre (du), 191
O o(.), 24 O(.), 188 Occurrence, 51, 55, 82 Odds ratio, 238, 312 Ondelettes, 192
P P-valeur, 227 Param`etre d’une loi, 92 de dimension k, 95, 118–121, 128, 143, 159 de nuisance, 224 de positionnement, 131 dimension, 92 Parzen E., 184 Pearson E.S., 206 Pearson K., 254 Percentile, 11 Ph´enom`ene al´eatoire, 67 Plan d’exp´erience, 291, 304 Plus proches voisins, 192 Polygone des fr´equences, 184 Population, 21, 38, 67, 168 virtuelle, 68, 232 Pr´ecision, 89 absolue, 151 relative, 151 Pr´edicteur, 289, 303 Probabilit´e conditionnelle, 3
429
mesure de, 2, 5, 28 Processus de Bernoulli, 47–48, 64, 82, 84 de Poisson, 51–56 Proportion, 63, 79, 150, 152, 235, 237 Pseudo-valeurs, 174 Puissance, 204
Q QQ-plot, 271 Quantile, 9, 154, 170–172, 176, 271 d’une loi de Fisher, 76 Quartile, 13 Quenouille M., 172 Queues de distribution, 75, 169
R R´e´echantillonnage, 170, 172–181, 190 R´ealisation, 67–68 R´egion d’acceptation, 203 R´egion de confiance, 143, 159–162 R´egion de rejet, 203 R´egression lin´eaire, 290, 292–305 logistique, 143, 305–313 multiple, 303–305 non param´etrique, 314–319 polynomiale locale, 318–319 simple, 289 R´esidu, 294 Rang, 272 moyen, 278 Rapport de deux v.a. gaussiennes, 75 de sommes de carr´es, 77 de variances, 77 Rapport de vraisemblance, 208 g´en´eralis´e, 220 monotone, 216 Rapport des chances, 238, 312 Reparam´etrisation, 55, 93, 114, 117, 126 Risque, 203 alpha, 203 bˆeta, 203
430
Statistique - La th´eorie et ses applications
Tables, 74 Taille d’´echantillon, 152 Taux de sondage, 39, 51 Tchebichev (in´egalit´e de), 87 Test bilat´eral, 219 conservateur, 206 convergent, 206 d’ad´equation, 265 d’ajustement, 264–271 d’homog´en´eit´e de populations, 257 Seuil d’un test, 213 d’ind´ependance, 239, 241, 259–264 Significatif, 233, 297, 309 de Hosmer et Lemeshow, 313 Simulation, 63, 68 de Kolmogorov-Smirnov, 266, 270 Somme de la m´ediane, 279 de carr´es, 74 de localisation (deux lois), de v.a., 36–38, 40 274–281 Somme des carr´es de Mann-Whitney, 275 des r´esidus, 294, 295 de McNemar, 239, 283 expliqu´ee, 298 totale, 297 de normalit´e Shapiro-Wilk, 271 d´ecomposition (de la), 297 de significativit´e, 219 Sondage al´eatoire, 38, 47, 67, 150, 239 de Student, 230, 234 avec remise, 39, 51 de Wald, 309 pr´ecision, 150 de Wilcoxon, 275, 278 sans remise, 39, 50, 86 des rangs sign´es, 278 Sondage stratifi´e, 264 du khi-deux, 254, 256, 259, 265, Splines, 192 268 Statistique, 68 du rapport de vraisemblance compl`ete, 113 g´en´eralis´e, 220–226, 243, 252, 259 d’ordre, 77–78, 109, 272 simple, 208–213 de Pearson, 254, 261 du score, 310 de rang, 272 du signe, 273 de test, 203 exact de Fisher, 238, 262–264 descriptive, 21, 34, 36, 72 le plus puissant, 205, 208 du khi-deux, 254, 256, 258 minimax, 227 exhaustive, 105 plus puissant, 205 exhaustive minimale, 108, 212, 215 pour la diff´erence de deux moyennes, Suite de v.a., 37–39 232 i.i.d., 38 pour la diff´erence de deux proporinfinie, 79 tions, 237, 262 Superpopulation, 181 pour le rapport de deux variances, Support, 9 235 pour un quantile, 274 pour une corr´elation, 240, 281 Tableau de contingence, 260 pour une loi multinomiale, 252
de deuxi`eme esp`ece, 203 de premi`ere esp`ece, 203 Robustesse, 146, 149, 169, 231, 233, 300, 313 Rosenblatt M., 184, 197, 315 RPL, 318 RV, 208 RVG, 220
S
T
Index pour une m´ediane, 273 pour une moyenne, 229, 273 pour une proportion, 235, 257 pour une variance, 231 randomis´e, 209 sans biais, 204, 210, 214 UMP, 214 uniform´ement le plus puissant, 214–216 uniform´ement plus puissant, 214 unilat´eral, 214 UPP, 214 UPP-sans biais, 219 Th´eor`eme central limite, 82–86, 140, 145 de factorisation, 106, 124 de Rao-Blackwell, 113 Th´eorie de la d´ecision, 227 Tirage al´eatoire, 21, 34, 38 Tirage au hasard, 3, 21 Tribu bor´elienne, 5, 28 Tukey J., 172, 185, 197
U UMVUE, 110 Unit´es statistiques, 67 Univers, 67, 69
431
V Valeur -s critiques, 220 aberrante, 169, 273 extrˆeme, 61, 62, 169, 273 Validation crois´ee, 190 Variable al´eatoire, 1–12 -s ´echangeables, 272 centr´ee, 18 centr´ee-r´eduite, 83 certaine, 18, 20, 80 fonctionnelle, 78 gaussienne, 57, 59 Variable cat´egorielle, 51, 251 Variables de contrˆ ole, 149 Variance, 19, 169 de l’´echantillon, 70, 73, 84, 86, 100, 169 empirique, 69, 70, 100, 175 pond´er´ee, 148 formule de d´ecentrage, 19, 71 Vecteur al´eatoire, 37 gaussien, 41, 42 notation matricielle, 39 Vitesse de convergence, 183