ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Grenoble Sciences Grenoble Sciences poursuit un triple objectif : • realiser des ouvrages correspondant a un projet clairement defini, sans contrainte de mode ou de programme, • garantir les qualites scientifique et pedagogique des ouvrages retenus, • proposer des ouvrages a un prix accessible au public le plus large possible. Chaque projet est selectionne au niveau de Grenoble Sciences avec le concours de referees anonymes. Puis les auteurs travaillent pendant une annee (en moyenne) avec les membres d'un comite de lecture interactif, dont les noms apparaissent au debut de 1'ouvrage. Celui-ci est ensuite publie chez 1'editeur le plus adapte. (Contact: Tel.: (33)4 76 51 46 95 - E-mail:
[email protected]) Deux collections existent chez EDP Sciences : • la Collection Grenoble Sciences, connue pour son originalite de projets et sa qualite • Grenoble Sciences - Rencontres Scientificjues, collection presentant des themes de recherche d'actualite, traites par des scientifiques de premier plan issus de disciplines differentes. Directeur scientifique de Grenoble Sciences Jean BORNAREL, Professeur a 1'Universite Joseph Fourier, Grenoble 1
Comite de lecture pour "Analyse statistique des donnees experimentales" J.P. BERTRANDIAS, Professeur a 1'Universite Joseph Fourier, Grenoble 1 C. FURGET, Maitre de conferences a 1'Universite Joseph Fourier, Grenoble 1 B. HOUCHMANDZADEH, Directeur de recherches au CNRS, Grenoble M. LESIEUR, Professeur a 1'Institut National Polytechnique, Grenoble C. MlSBAH, Directeur de recherches au CNRS, Grenoble J.L. PORTESEIL, Professeur a 1'Universite Joseph Fourier, Grenoble 1 P. VlLLEMAIN, Maitre de conferences a I'Universite Joseph Fourier, Grenoble 1
Grenoble Sciences rec.oit le soutien du Ministere de 1'Education nationals, du Ministere de la Recherche, de la Region Rhone-Alpes, du Conseil general de 1'Isere et de la Ville de Grenoble.
ISBN 2-86883-456-6 ISBN 2-86883-590-2 © EDP Sciences, 2002
ANALYSE STATISTIQUE DES DONNEES EXPERIMENT ALES
Konstantin PROTASSOV
SCIENCES
17, avenue du Hoggar Pare d'Activite de Courtabceuf, BP 112 91944 Les Ulis Cedex A, France
Ouvrages Grenoble Sciences edites par EDP Sciences Collection Grenoble Sciences Chimie. Le minimum vital a savoir (/. Le Coarer) - Electrochimie des solides (C. Deportes et al.) - Thermodynamique chimique CM. Oturan & M. Robert) - Chimie organometallique CD. Astruc) Introduction a la mecanique statistique (E. Belorizky & W. Gorecki) - Mecanique statistique. Exercices et problemes corriges (E. Belorizky & W. Gorecki) - La symetrie en mathematiques, physique et chimie (J. Sivardiere) - La cavitation. Mecanismes physiques et aspects industriels (J.P. Franc et al.) - La turbulence (M. Lesieur) Magnetisme : I Fondements, II Materiaux et applications (sous la direction d'E. du Tremolet de Lacheisserie) - Du Soleil a la Terre. Aeronomie et meteorologie de 1'espace (J. Lilensten & P.L. Blelly) - Sous les feux du Soleil. Vers une meteorologie de 1'espace (J. Lilensten & J. Bornarel) - Mecanique. De la formulation lagrangienne au chaos hamiltonien (C. Gignoux & B. Silvestre-Brac) - La mecanique quantique. Problemes resolus, Tomes 1 et 2 (V.M. Galitsky, B.M. Karnakov & V.I. Kogan) Exercices corriges d'analyse, Tomes 1 et 2 CD. Alibert) - Introduction aux varietes differentielles (J. Lafontaine) - Analyse numerique et equations differentielles (J.P. Demailly) - Mathematiques pour les sciences de la vie, de la nature et de la sante (F. & J.P. Bertrandias) - Approximation hilbertienne. Splines, ondelettes, fractales (M. Atteia & J. Caches) - Mathematiques pour 1'etudiant scientifique, Tomes 1 et 2 (Ph.]. Haug) Bacteries et environnement. Adaptations physiologiques (/. Pelmont) - Enzymes. Catalyseurs du monde vivant (J. Pelmont) - La plongee sous-marine a 1'air. L'adaptation de 1'organisme et ses limites (Ph. Foster) - L'ergomotricite. Le corps, le travail et la sante (M. Gendrier) - Endocrinologie et communications cellulaires (S. Idelman & J. Verdetti) L'Asie, source de sciences et de techniques (M. Soutif) - La biologie, des origines a nos jours (P. Vignais) - Naissance de la physique. De la Sicile a la Chine CM. Soutif) Minimum Competence in Scientific English (J. Upjohn, S. Blattes & V. Jans) Listening Comprehension for Scientific English (J. Upjohn) - Speaking Skills in Scientific English (J. Upjohn, M.H. Fries & D. Amadis)
Grenoble Sciences - Rencontres Scientifiques Radiopharmaceutiques. Chimie des radiotraceurs et applications biologiques (sous la direction de M. Comet & M. Vidal) - Turbulence et determinisme (sous la direction de M. Lesieur) - Methodes et techniques de la chimie organique (sous la direction de D. Astruc)
PREFACE Le but de ce petit ouvrage est de repondre aux questions les plus frequentes que se pose un experimentateur et de permettre a un etudiant d'analyser, d'une fagon autonome, ses resultats et leurs precisions. C'est cet esprit assez "utilitaire" qui a determine le style de presentation. Dans 1'analyse des donnees experiment ales, il existe plusieurs niveaux qui sont conditionnes par notre desir d'obtenir une information plus ou moins riche, mais aussi par le temps que nous sommes prets a y consacrer. Frequemment, nous voulons juste obtenir la valeur d'une grandeur physique sans nous preoccuper de verifier les hypotheses a la base de notre demarche. Parfois, cependant, les resultats obtenus nous paraissent etre en contradiction avec nos estimations preliminaries et ainsi nous sommes obliges d'effectuer un travail plus scrupuleux. Ce livre est ecrit pour permettre au lecteur de choisir le niveau d'analyse necessaire. La partie "indispensable" du texte correspondant au premier niveau est composee avec une police de caracteres normale. Les questions qui correspondent a une analyse plus approfondie et qui necessitent un appareil mathematique plus complexe sont composees avec une police de caracteres speciale. Cette partie du livre peut etre sautee lors d'une premiere lecture. A la base de toute analyse des donnees experimentales, on trouve une approche statistique qui exige des considerations mathematiques rigoureuses et parfois complexes. Neanmoins, Pexperimentateur n'a pas toujours besoin de connaitre les details et les subtilites mathematiques. De plus, rares sont les situations ou les conditions experimentales correspondent exactement aux conditions d'application de tel ou tel theoreme. C'est pourquoi 1'accent est mis non pas sur la demonstration des resultats mathematiques mais sur leur signification et leur interpretation physique. Parfois, pour alleger la presentation, la rigueur mathematique est volontairement sacrifice et remplacee par une argumentation "physiquement evidente". Le plan du livre est simple. Dans 1'introduction, on presente les causes d'erreurs et on definit le langage utilise. Le premier chapitre rappelle les principaux resultats de statistique essentiels a 1'analyse des donnees. Le deuxieme chapitre presente des notions plus complexes de statistique, il est consacre aux fonctions de varables aleatoires. Dans le troisieme chapitre qui est la partie la plus importante, on s'efforce de repondre aux questions les plus frequentes qui se posent dans 1'analyse des donnees experimentales. Le dernier chapitre est consacre aux methodes les plus frequemment utilisees pour 1'ajustement de parametres.
6
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Bien que ce livre soit particulierernent adapte au travail d'etudiants de second cycle, il pourra etre egalement utile aux jeunes chercheurs, aux ingenieurs et a tons ceux qui sont amenes a realiser des mesures. J'airnerais remercier mes collegues enseignants et chercheurs qui ont lu le manuscrit et qui m'ont fait des propositions pour arneliorer son contenu. Je voudrais exprimer ma profonde gratitude a M. Elie Belorizky qui m'a encourage a ecrire ce livre et avec qui j'ai eu des discussions tres fructueuses.
POURQUOI LES INCERTITUDES EXISTENT-ELLES ? Le but de la majorite des experiences en physique consiste a comprendre un phenomene et a le modeliser correctement. Nous effectuons des mesures et nous avons sou vent a nous poser la question : "quelle est la valeur de telle ou telle grandeur ?", parfois sans nous demander prealablement si cette formulation est correcte et si nous serons capables de trouver une reponse. La necessite de cette interrogation prealable devient evidente des qu'on rnesure la meme grandeur plusieurs fois. L'experimentateur qui le fait est frequemment confronte a une situation assez interessante : s'il utilise des appareils suffisamment precis, il s'apergoit que des mesures repetees de la meme grandeur donnent parfois des resultats qui sont un peu differents de celui de la premiere mesure. Ce phenomene est general, que les mesures soient simples ou sophist iquees. Meme les mesures repetees de la longueur d'une tige metallique peuvent donner des valeurs differentes. La repetition de 1'experience montre que, d'une part les resultats sont toujours un peu differents et d'autre part cette difference n'est en general pas tres grande. Dans la plupart des cas, on reste proche d'une certaine valeur moyenne, mais de temps en temps on trouve des valeurs qui sont differentes de celle-ci. Plus les resultats sont eloignes de cette moyenne, plus ils sont rares. Pourquoi cette dispersion existe-t-elle ? D'ou vient cette variation ? Une raison de cet effet est evidente : les conditions de deroulement d'une experience varient toujours legerement, ce qui modifie la grandeur mesurable. Par exemple, quand on determine plusieurs fois la longueur d'une tige metallique, c'est la temperature ambiante qui peut varier et ainsi faire varier la longueur. Cette variation des conditions exterieures (et la variation correspondante de la valeur physique) peut etre plus ou moins importante, mais elle est inevitable et, dans les conditions reelles d'une experience physique, on ne peut pas s'en affranchir. Nous sommes "condamnes" a effectuer des mesures de grandeurs qui ne sont presque jamais constantes. C'est pourquoi meme la question de savoir quelle est la valeur d'un parametre peut ne pas etre absolument correcte. II faut poser cette question de maniere pertinente et trouver des moyens adequats pour decrire les grandeurs physiques. II faut trouver une definition qui puisse exprimer cette particularity physique. Cette definition doit refleter le fait que la valeur physique varie toujours, mais que ses variations se regroupent autour d'une valeur moyenne. La solution est de caracteriser une grandeur physique non pas par une valeur, mais plutot par la probabilite de trouver dans une experience telle ou telle valeur. Pour cela on introduit une fonction appelee distribution de probabilite de detection d'une valeur physique, ou plus simplement la distribution d'une valeur physique, qui montre
8
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
quelles sont les valeurs les plus frequentes ou les plus rares. II faut souligner une fois encore que, dans cette approche, il ne s'agit pas tellement de la valeur concrete d'une grandeur physique, mais surtout de la probabilite de trouver differentes valeurs. On verra par la suite que cette fonction — la distribution d'une valeur physique — est heureusement suffisamment simple (en tout cas, dans la majorite des experiences). Elle a deux caracteristiques. La premiere est sa valeur moyenne qui est aussi la valeur la plus probable. La deuxieme caracteristique de cette fonction de distribution indique, grosso modo, la region autour de cette moyenne dans laquelle se regroupe la majorite des resultats des mesures. Elle caracterise la largeur de cette distribution et est appelee 1'incertitude. Comme nous pourrons le voir par la suite, cette largeur a une interpretation rigoureuse en terme de probabilites. Pour des raisons de simplicite nous appellerons cette incertitude "1'incertitude naturelle" ou "initiale" de la grandeur physique elle-meme. Ce n'est pas tout a fait vrai, puisque cette erreur ou incertitude est souvent due aux conditions experimentales. Bien que cette definition ne soit pas parfaitement rigoureuse, elle est tres utile pour la comprehension. Le fait que, dans la plupart des experiences, le resultat puisse etre caracterise par seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons commence notre discussion : "Peut-on se demander quelle est la valeur d'un parametre physique ?" II se trouve que dans le cas ou deux parametres sont necessaires et suffisants pour caracteriser une grandeur physique, on peut reconcilier notre envie de poser cette question et la rigueur de 1'interpretation d'un resultat en termes de probabilites. La solution existe : on appellera valeur physique la valeur moyenne de la distribution et incertitude ou erreur de la valeur physique la largeur de la distribution 1 . C'est une convention admise de dire que "la grandeur physique a une valeur donnee avec une incertitude donnee". Cela signifie que 1'on presente la valeur moyenne et la largeur d'une distribution et que cette reponse a une interpretation precise en termes de probabilites. Le but des mesures physiques est la determination de cette fonction de distribution ou, au moins, de ses deux parametres majeurs : la moyenne et la largeur. Pour determiner une distribution on doit repeter plusieurs fois une mesure pour connaitre la frequence d'apparition des valeurs. Pour obtenir 1'ensemble des valeurs possibles ainsi que leurs probabilites d'apparition, on devrait en fait effectuer un nombre infini de mesures. C'est tres long, trop cher, et personne n'en a besoin. On se limite done a un nombre fmi de mesures. Bien sur, cela introduit une erreur Pour des raisons historiques, les deux termes "incertitude" et "erreur" sont utilises en physique pour decrire la largeur d'une distribution. Depuis quelques annees, les organismes scientifiques internationaux essaient d'introduire des normes pour utiliser correctement ces deux termes (de la meme fagon que 1'on a introduit le systeme international d'unites). Aujourd'hui, on appelle une erreur la difference entre le resultat d'une mesure et la vraie valeur de la grandeur mesuree. Tandis que 1'incertitude de mesure est un parametre, associe au resultat d'une mesure, qui caracterise la dispersion des valeurs qui peuvent raisonnablement etre attributes a la grandeur mesuree. Dans ce livre, nous tacherons de suivre ces normes, mais parfois nous utiliserons des expressions plus habituelles pour un physicien. Par exernple, une formule tres connue dans 1'analyse des donnees experimenatles porte le nom de "la formule de propagation des erreurs". Nous utiliserons toujours ce nom bien connu bien que, selon les normes actuelles, nous aurions du 1'appeller "la formule de propagation des incertitudes". Le lecteur interesse trouvera dans la bibliographie toutes les references sur les normes actuelles.
POURQUOI LES INCERTITUDES EXISTENT-ELLES ?
9
(incertitude) supplementaire. Cette incertitude, due a 1'impossibilite de mesurer avec une precision absolue la distribution initiale (naturelle), s'appelle 1'erreur statistique ou rerreur accidentelle. II est assez facile, du moms en theorie, de diminuer cette erreur : il suffit d'augmenter le nombre de mesures. En principe, on peut la rendre negligeable devant I'incertitude initiale de la grandeur physique. Cependant un autre probleme plus delicat apparait. II est lie au fait que, dans chaque experience physique existe un appareil, plus ou moins complique, entre 1'experimentateur et 1'objet mesurable. Get appareil apporte inevitablement des modifications de la distribution initiale : il la deforme. Dans le cas le plus simple, ces changements peuvent etre de deux types : I'appareil peut "decaler" la valeur moyenne et il peut elargir la distribution. Le decalage de la valeur moyenne est un exemple de ce qu'on appelle les "erreurs systematiques". Ce nom exprime que ces erreurs apparaissent dans chaque mesure. L'appareil donne systematiquement une valeur qui est differente (plus grande ou plus petite) de la valeur "reelle". Mesurer avec un appareil dont le zero est mal regie est 1'exemple le plus frequent de ce genre d'erreurs. Malheureusement, il est tres difficile de combattre ce type d'erreurs : il est a la fois difficile de les deceler et de les corriger. Pour cela, il n'y a pas de methodes generates et il faut etudier chaque cas. Par contre, il est plus facile de maitriser 1'elargissement de la distribution introduit par I'appareil. On verra que cette incertitude ayant la meme origine que les incertitudes initiales (naturelles) s'ajoute "simplement" a celles-ci. Dans un grand nombre d'experiences, 1'elargissement du a I'appareil permet de simplifier les mesures : supposons que nous commissions I'incertitude (la largeur) introduite par un appareil et que celle-ci soit nettement plus grande que I'incertitude initiale. II est possible de negliger I'incertitude naturelle par rapport a I'incertitude d'appareillage. II suffit done de faire une seule mesure et de prendre I'incertitude de I'appareil comme incertitude de la mesure. Evidemment, dans ce genre d'experience, il faut etre sur que I'incertitude de I'appareil domine I'incertitude naturelle, mais on peut toujours le verifier en faisant des mesures repetitives. L'appareil peu precis ne permettra pas d'obtenir les variations dues a la largeur initiale. II faut remarquer que la separation entre incertitude d'appareillage et incertitude naturelle reste assez conventionnelle : on peut toujours dire que la variation des conditions d'experience fait partie de I'incertitude d'appareillage. Dans ce livre, on ne parle pas des mesures en mecanique quantique, ou existe une incertitude de la valeur physique a cause de la relation d'incertitude de Heisenberg. En mecanique quantique, 1'interference appareil—objet devient plus compliquee et interessante. Cependant nos conclusions generales ne sont pas modifiees puisque, en mecanique quantique, la notion de probabilite est non seulement utile et naturelle, mais elle est indispensable. Nous avons compris que pour determiner experimentalement une valeur physique il est necessaire (mais pas toujours suffisant) de trouver la moyenne (la valeur) et la largeur (I'incertitude). Sans la determination de I'incertitude, 1'experience n'est pas complete : on ne peut la comparer ni avec une theorie ni avec une autre experience. Nous avons egalement vu que cette incertitude contient trois contributions possibles. La premiere est I'incertitude naturelle liee aux changements des conditions d'experience ou a la nature-meme des grandeurs (en statistique ou en mecanique quantique). La
10
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
deuxieme est 1'incertitude statistique due a 1'impossibilite de mesurer precisement la distribution initiale. La troisieme est 1'incertitude d'appareillage due a 1'irnperfection des outils de travail de Pexperimentateur. Un experimentateur se pose toujours deux questions. Premierement, comment peuton mesurer une grandeur physique, c'est-a-dire les caracteristiques de sa distribution : la moyenne et la largeur ? Deuxiemement, comment et jusqu'ou faut-il diminuer cette incertitude (largeur) de 1'experience ? C'est pourquoi 1'experimentateur doit comprendre les relations entre les trois composantes de 1'incertitude et trouver comment les minimiser : on peut diminuer 1'incertitude naturelle en changeant les conditions de 1'experience, 1'incertitude statistique en augmentant le nombre de mesures, 1'incertitude d'appareillage en utilisant des appareils plus precis. Cependant, on ne peut pas reduire les incertitudes infiniment. II existe une limite raisonnable de 1'incertitude. L'evaluation de cette limite est non seulement une question de temps et d'argent depenses, mais c'est aussi une question de physique. II ne faut pas oublier que, quelle que soit la grandeur a mesurer, nous ne pourrons jamais tenir compte de tous les facteurs physiques qui peuvent influencer sa valeur. De plus, tous nos raisonnements et discussions sont effectues dans le cadre d'un modele ou, plus generalement, de notre vision du monde. Ce cadre peut ne pas etre exact. C'est pourquoi notre probleme est de choisir des methodes experimentales et des methodes d'estimation des incertitudes en adequation avec la precision souhaitable et possible. Diverses situations existent selon la precision desiree. Dans la premiere nous voulons seulement obtenir 1'ordre de grandeur de la valeur mesuree ; dans ce cas, 1'incertitude doit aussi etre evaluee grossierement. Dans la seconde nous desirous obtenir une precision de 1'ordre de un a dix pour cent ; il faut alors faire attention en determinant les incertitudes, car les methodes choisies doivent evoluer en fonction de la precision requise. Plus on cherche de precision, plus la methode doit etre elaboree, mais le prix a payer est la lenteur des calculs et leur volume. Dans la troisieme nous cherchons a obtenir une precision du meme ordre de grandeur que celle de Petalon correspondant au parametre physique mesure ; le probleme de 1'incertitude peut alors etre plus important que celui de la valeur. Dans cet ouvrage, nous considerons seulement les methodes d'estimation d'erreurs dans la seconde situation. La plupart des paragraphes apporte reponse a une question concrete : comment calcule-t-on les incertitudes pour une experience avec un petit nombre de mesures ? comment peut-on ajuster les parametres d'une courbe ? comment compare-t-on une experience et une theorie ? quel est le nombre de chiffres significatifs ? etc. Le lecteur qui connait les bases de la statistique peut omettre sans probleme les premiers paragraphes et chercher la reponse a sa question. Dans le cas contraire, 1'ouvrage lui apporte 1'information necessaire sur les parties de la statistique utiles au traitement des incertitudes.
CHAPITRE 1 RAPPELS SUR LA THEORIE DES PROBABILITES Dans ce chapitre, nous avons reuni des notions de base de la theorie des probabilites : la definition d'une probability et ses proprietes elementaires ainsi que 1'introduction des distributions les plus frequemment utilisees dans 1'analyse des donnees experimentales. Parmi ces distributions, celle de Gauss joue un role tres particulier, c'est pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacree car elle et est indispensable a la comprehension du reste du livre.
1.1
PROBABILITES
Pour pouvoir decrire une grandeur physique en termes de probability il faut rappeler les definitions et les proprietes les plus simples. Pour les mesures les plus frequentes faites en laboratoire nous n'avons pas besoin de toute la panoplie des methodes de la statistique mathematique et notre experience du monde est largement sumsante pour comprendre et assimiler les proprietes fondamentales des probabilites. Logiquement, chaque lecteur de ce livre a deja eu 1'occasion dans sa vie de jouer, au moins aux cartes et ainsi la notion de probabilite ne lui est pas etrangere.
1.1.1
DEFINITIONS ET PROPRIETES
Supposons que 1'on observe un evenement E repete Ne fois (on dit que 1'on prend un echantillon de Ne evenements). Dans n cas, cet evenement est caracterise par une marque distinctive a (appelee aussi caractere). Si les resultats des evenements dans cette suite sont independants, alors la probabilite P(a) que la marque a se manifeste est definie comme
On voit toute de suite que la probabilite varie de 0 a 1
12
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
et que la somme sur tous les caracteres (de meme nature) possibles {/}, i = a,b,c,... est egale a 1
Un exemple d'evenement est le tirage d'une carte du jeu. La marque distinctive serait la categoric de couleur (pique, coeur, carreau ou trefle). Pour un jeu de 52 cartes, la probabilite d'une categoric de couleur est egale a 1/4. On notera par A 1'ensemble d'evenements ou ce signe s'est manifested Introduisons deux operations tres simples avec les probabilites. Definissons par A + B 1'ensemble des evenements dans lesquels la marque a ou la marque 6, ou les deux, sont presentes (ici a et 6 peuvent etre de nature differente). Par exemple, a est une categoric de couleur, 6 est la valeur de la carte (le roi, la dame, etc.) De plus, defmissons par AB 1'ensemble des evenements dans lesquels ces deux signes se manifestent simultanement. Alors,
C'est-a-dire, pour trouver la probabilite qu'un evenement possede au moins une des marques nous devons, d'abord, ajouter deux probabilites P(A) et P(B). Cependant, certains evenements peuvent avoir les deux signes en meme temps et on les a comptes deux fois. C'est pourquoi il faut soustraire la probabilite P(AB}. Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le valet et 10 cartes numerotees de 1 a 10). Pour une carte tiree au hasard, la probabilite d'etre soit le roi soit une carte de cceur (a etant le roi, 6 une carte de coeur) est egale a P("soit le roi, soit une carte de coeur") = P("roi") + 7>("cceur") - P("roi de cceur")
Introduisons une notion un peu plus compliquee. Supposons que 1'evenement A puisse se produire de na manieres differentes, 1'evenement B de n^ manieres et 1'evenement AB de nab manieres. Si le nombre total de realisations possibles est egal a N (ne pas confondre avec le nombre Ne d'evenements introduit au debut du paragraphe), alors
On peut reecrire P(AB') comme
Parmi les na cas ou 1'evenement A se produit, il y a une proportion 1'evenement B s'est egalement produit. On peut introduire la probabilite correspondante qui s'appelle la probabilite conditionnelle P(A/B) de 1'evenement B, c'est-a-dire la probabilite d'observer B sous reserve que A se soit produit.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
13
Ainsi, la derniere formule prend la forme
Si 1'evenement A n'a pas d'influence sur la probabilite d'evenement B, on dit alors que les deux evenements sont independents et
Dans ces conditions, on obtient pour la probabilite d'apparition de deux evenements a la fois P(AB) une relation tres importante :
ce qui montre que les probabilites des evenements independants se multiplient. On utilisera cette propriete plusieurs fois dans ce livre. Considerons 1'exemple de notre jeu de 52 cartes. Soit A "un roi", B "une carte de coeur". Done na = 4, 77.5 = 13, N = 52 et les probabilites correspondantes :
Vu que P(AB) = "P("roi de cceur") = 1/52, on conclut que
et ainsi, dans le jeu de 52 cartes, ces deux evenements sont independants. Ajoutons juste une carte a notre jeu — un joker qui n'appartient a aucune categoric de couleur. na, a nouveau, est egal a 4, n^ a 13, mais N est egal a 53. Done,
On s'apergoit facilement que
et ainsi ces deux evenements ne sont plus independants dans le jeu de 53 cartes ! L'explication de cette difference est relativement simple : si nous savons qu'une carte est un roi alors elle ne peut pas etre le joker, et ainsi nous avons deja obtenu une certaine information pour determiner sa categoric de couleur.
1.1.2
GRANDEURS DISCRETES ET CONTINUES, FONCTIONS DE DISTRIBUTION
Une grandeur physique peut avoir une valeur numerique discrete ou continue. Dans le premier cas, on 1'appellera grandeur "discrete", dans le deuxieme, "continue". Les exemples de grandeurs discretes sont la categoric de couleur, la valeur de la carte, si
14
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Figure 1.1 : Histogramme de la premiere serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
Ton reprend notre exemple, ou le comptage d'un detecteur, si 1'on considere des exemples plus physiques. Mais plus frequemment en physique, on mesure des grandeurs continues, comme la longueur, la duree, le courant, etc. Cette distinction des valeurs (ou des grandeurs) discretes et continues est tout a fait justifiee. Neanmoins, en physique, on decrit assez souvent une grandeur continue par une valeur discrete et vice versa. De ce point de vue, cette separation est, en partie, conventionnelle et les proprietes (ou meme Pecriture) valables pour les valeurs discretes seront utilisees pour les valeurs continues et inversement. On franchira cette frontiere regulierement, meme parfois sans se rendre compte de ce que Ton fait. Cette attitude correspond a un parti pris de presentation. Le lecteur ne doit pas en deduire que le passage a la limite s'effectue dans tous les cas sans difficulte. Pour illustrer le caractere conventionnel de cette distinction, considerons un exemple de mesure de la longueur d'une chambre (il est evident que la longueur est une grandeur continue) a 1'aide d'un decimetre qui possede aussi des divisions centimetriques. Le fait meme que nous disposions d'un decimetre avec des divisions nous oblige a decrire une grandeur continue a 1'aide de valeurs entieres done discretes (on aura un certain nombre de decimetres ou de centimetres). On peut aller plus loin et dire que la representation d'une longueur par un nombre fini de chiffres est un passage oblige d'une valeur continue a une valeur discrete. Bien sur, il existe des situations ou une valeur discrete ne peut pas etre remplacee par une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont rares dans les experiences de physique. Nous observerons par la suite des passages des valeurs d'un type a 1'autre. Les proprietes de probabilite resteront les memes dans
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
15
les deux cas. C'est pourquoi nous donnerons les demonstrations generales pour les variables continues et considererons que les resultats s'appliquent aussi aux variables discretes. Continuons notre experience mentale. Supposons qu'apres avoir fait une dizaine de mesures rapides, nous ayons trouve une fois la longueur de la chambre egale a 323 centimetres, cinq fois — 324 cm et quatre fois — 325 cm. Les resultats sont presentes sur la figure 1.1 qui s'appelle un "histogramme". Sur 1'axe des abscisses, on montre la valeur mesuree et, sur 1'axe des ordonnees, le nombre relatif (HI mesures de la valeur / par rapport au nombre total N de mesures) c'est-a-dire la frequence d'apparition de chaque valeur. Le sol n'etait pas plat, notre decimetre n'etait pas toujours droit, la longueur etait, la plupart du temps, comprise entre 324 et 325 cm et nous ne savions pas dans quel sens il fallait Tarrondir. D'ou la dispersion de nos resultats. Pour clarifler la situation nous avons pris un instrument de mesure gradue en millimetres et en augmentant sensiblement le nombre de mesures nous avons obtenu les nouveaux resultats representes sur la figure 1.2. Avec une autre echelle on retrouve les memes tendances : les resultats sont legerement differents et se regroupent autour d'une certaine valeur.
Figure 1.2 : Histogramme de la deuxieme serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
On peut continuer ainsi notre experience en diminuant 1'echelle et en augmentant le nombre de mesures dans chaque serie. La forme des histogrammes tendra vers une forme en cloche qui, lorsque le nombre de mesures tend vers I'infmi, peut etre decrite par une fonction continue f(x) (figure 1.3). Chaque histogramme donne le nombre relatif de resultats se trouvant dans un inter-
16
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 1.3 : Fonction de la densite de probabilite
valle donne. Ainsi, dans le cas d'un grand nombre de mesures et selon notre definition (1), le produit f(x}dx donne la probabilite que la grandeur mesuree se trouve dans 1'intervalle La fonction f(x) represente la densite de probabilite. On 1'appellera aussi la fonction de distribution de probabilite. x varie au hasard et s'appelle variable aleatoire. D'apres notre definition, la probabilite P de trouver la valeur dans 1'intervalle compris entre xi et x
qui est la somme (1'integrale) de f(x] pour toutes les valeurs de x entre x\ et x^. Selon (2), f(x) obeit a la condition
ce qui signifie que la probabilite de trouver une valeur de x quelconque est egale a 1. Par commodite mathematique, nous avons pris ici des limites infmies pour 1'integrale. Mais une grandeur physique, par exemple la longueur, peut ne pas varier dans ces limites (elle ne peut pas etre negative). Cela signifie que la fonction /(a?) utilisee pour decrire cette grandeur doit devenir tres petite en dehors des limites que nous choisissons effectivement. Pour une grandeur discrete qui prend les valeurs numeriques X{ = {x\, x % , . . . } nous
I — RAPPELS SUE LA THEORIE DBS PROBABILITES
17
avons exactement la meme relation de normalisation :
ou 'P(xi) est la probabilite de trouver la valeur Xi. On peut souligner que le passage d'un histogramme a une fonction continue est analogue a la notion d'integrale comme limite de la somme des aires de rectangles element aires sous la courbe representant une fonction quand le nombre de divisions tend vers 1'infini.
1.1.3
PROPRIETES DE LA FONCTION DE DISTRIBUTION
Comment pouvons-nous caracteriser la fonction de distribution de probabilite f(x] ? Theoriquement, il faut la connaitre a chaque point x mais il est evident que ceci n'est pas realisable experimentalement : nous ne pouvons pas mesurer la probabilite pour chaque valeur x. A priori, cette fonction f(x] doit etre positive, vu sa relation avec la probabilite, tendre vers zero a plus l'infini et a moins 1'infini assez rapidement pour que 1'integrale (5) existe, et avoir la forme de la courbe presentee sur la figure 1.3. II est logique d'introduire au moins deux parametres qui decrivent la. position de la courbe (c'esta-dire celle de son maximum) sur 1'axe et son etalement. Ainsi la premiere caracteristique de la distribution de probabilite f(x) est la valeur moyenne de x
Chaque valeur possible de x est multipliee par la probabilite de son apparition f(x)dx et la somme (1'integrale) est effectuee sur toutes les valeurs possibles. Pour une variable discrete
La barre sur x est la notation standard indiquant la valeur moyenne arithmetique. Bien evidemment, nous supposons que cette integrate (cette somme) ainsi que les integrates (les sommes) que nous allons definir existent. C'est une hypothese physique naturelle mais nous discuterons aussi d'exemples ou elle n'est pas valable. L'etalement de la distribution peut etre decrit par la variance ou le carre de I'ecarttype et defini par
18
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
pour une variable continue, et par
pour une variable discrete. Pour chaque valeur de a?, on considere 1'ecart par rapport a la valeur moyenne af et on calcule la valeur moyenne du carre de cet ecart. Pourquoi avoir choisi cette caracteristique plutot qu'une autre ? Parce que la simple valeur moyenne de 1'ecart est nulle. Nous aurions pu prendre comme caracteristique \x — x mais nous verrons a la fin de ce paragraphe que, sous cette forme, la variance ne presente pas certaines proprietes remarquables et fort utiles. II est facile de demontrer qu'avec la definition (7) le carre de 1'ecart-type s'ecrit
Prenons 1'exemple le plus simple : une distribution de probability constante (voir figure 1.4) d'une grandeur x qui peut varier de a a &
La valeur de cette constante est definie par la condition de normalisation (5).
Figure 1.4 : Distribution constante
La valeur moyenne de x pour cette fonction de distribution est
et sa variance :
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
19
Les deux seules caracteristiques, peuvent ne pas etre suffisantes pour decrire la fonction f(x). On peut alors defmir les valeurs moyennes du cube, de la quatrieme puissance de I'ecart etc. De cette facon, on obtient un moment central d'ordre n :
Le mot "central" souligne le fait que le moment est calcule par rapport a la valeur moyenne ~x. Notons que, par definition,
Parfois, il est utile d'introduire des moments sans rapport avec la valeur moyenne
Les moments (ou les moments centraux), ainsi defmis, determinent la distribution f(x) d'une facon unique. On demontre facilement que si deux densites de probabilites fi(x) et /2(x) ont les memes moments, elles sont identiques Laissons au lecteur interesse le soin d'effectuer cette demonstration. La connaissance de tous les moments {fi'n} (ou {pn}} donne une information complete sur la fonction de distribution de probabilite f(x). Cependant, il est plus rationnel de travailler avec une seule fonction contenant tous les moments dans son expression. Cette fonction s'appelle la fonction generatrice des moments defmie par :
La fonction exponentielle peut etre developpee en serie
On voit que [i'n est le coefficient des derivees de la fonction M'x(t} :
peut egalement etre determinee a partir
20
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Done pour t = 0, on obtient
D'une facon analogue, on introduit la fonction generatrice des moments centraux :
La relation entre ces deux fonctions est done :
Conformement au theoreme que Ton vient d'enoncer, on peut affirmer que I'egalite des deux fonctions g e n e r a t r i c e s , i m p l i q u e I'egalite des deux fonctions de distribution de probabilite : Pour un lecteur interesse par les aspects mathematiques du probleme, notons que cette definition de la fonction generatrice n'est pas la seule utilisee dans la litterature. On peut remplacer la fonction exponentielle d'un argument reel e^par la fonction d'un argument purement complexe etxt. Dans le premier cas, la definition est etroitement liee a la transformation de Laplace, alors que dans le deuxieme elle est liee a la transformation de Fourier. Les deux transformations integrates sont tres proches I'une de I'autre : une rotation de 7T/2 dans le plan complexe de t permet de passer d'une transformation a I'autre. L'introduction de la fonction generatrice peut etre consideree comme une astuce permettant de faciliter les diverses demonstrations (ce que nous verrons plus tard). Mais on peut lui donner une interpretation physique plus profonde qui sort du cadre de ce livre.
1.1.4
FONCTION DE DISTRIBUTION DE PLUSIEURS VARIABLES
Examinons maintenant la situation un peu plus complexe ou nous avons affaire a deux grandeurs (variables) x\ et x^. Par exemple, nous mesurons la longueur et la largeur d'une piece. Ou encore, nous faisons deux mesures independantes de la rneme grandeur : dans ce cas nous pouvons aussi dire que nous travaillons avec deux grandeurs. La construction et les definitions sont absolument analogues au cas d'une seule variable. Pour deux grandeurs continues, on doit introduire la densite de probabilite qui depend de deux variables /(a?i, x ^ } . Ainsi la probabilite de trouver la premiere valeur dans Pintervalle compris entre x\ et x\ + dx\ et la deuxieme valeur dans 1'intervalle compris entre
avec la condition de normalisation :
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
21
La generalisation de ces definitions au cas de N variables est evidente. Parmi toutes les fonctions il existe un cas particulierement important et interessant en physique. C'est celui ou deux variables x\ et x-2 sont independantes. Alors, selon la formule (3), la fonction f ( x \ , X 2 ) se separe en un produit de deux fonctions :
ou chaque fonction represente la densite de probabilite de la variable correspondante. Etudions les proprietes remarquables des valeurs moyennes et des variances dans un cas particulier mais tres frequent en physique : la somme de deux grandeurs independantes x\ -+- x^. Ces deux grandeurs x\ et x^ peuvent etre deux resultats de mesure de la meme grandeur x. Leur somme nous sera utile pour calculer la valeur moyenne sur deux experiences. L'hypothese de leur independance nous permet d'utiliser la propriete (16) et, par definition, la valeur moyenne de la somme est egale a
la somme des deux valeurs moyennes. Pour calculer la variance
on procede aussi par definition :
22
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
On separe cette expression en trois integrates et on utilise la propriete (16)
On obtient finalement une relation simple
qui montre que la variance de la somme de deux grandeurs independantes est egale a la somme de leur variance. Cette formule est la base du traitement des incertitudes et elle est utilisee continuellement en physique. On voit d'ailleurs 1'avantage d'une telle definition de la variance. Nous avons dit qu'il etait "a priori" possible de caracteriser 1'etalement d'une distribution f(x) par par exemple. Mais, avec cette definition, on ne peut obtenir une relation aussi simple que celle donnee par la formule (17). Par analogic, pour TV grandeurs independantes x±, x % , . . . , XN, on a
On introduit la somme
de ces grandeurs. La moyenne de la somme X est egale a
c'est-a-dire a la somme des moyennes et la variance de X est donnee par
soit la somme des variances. Pour la fonction generatrice des moments
I — RAPPELS SUR LA THEORIE DBS PROBABILITIES
23
on obtient facilement d'apres (18)
Cela signifie que la fonction generatrice des moments d'une somme de grandeurs independantes est egale au produit des fonctions generatrices individuelles. De plus, si toutes les grandeurs dans cette somme ont la meme fonction de distribution
on a la meme fonction generatrice de moments pour toutes les grandeurs
et pour la somme X on obtient une expression encore plus simple
1.1.5
CORRELATIONS
Jusqu'a present, nous n'avons considere que des exemples de grandeurs physiques (variables aleatoires) independantes. Mais on rencontre aussi des variables correlees (c'est-a-dire non independantes). A la fin du paragraphe 1.1.1 (voir (4)), nous avons vu un tel exemple avec une carte ajoutee a un jeu normal de 52 cartes, ce qui entrafne que la probabilite de deux evenements A et B simultanes P(AB) n'est pas egale au produit des probabilites
Cette inegalite est le signe de deux evenements correles. On peut penser que de tels exemples sont relativement rares en physique. En effet, dans la plupart des situations reelles, nous avons affaire a des variables aleatoires independantes comme les mesures d'une meme grandeur {x,}. Bien evidemment, il existe des situations ou une mesure peut influencer la suivante, comme la mesure d'un courant avec un amperemetre electromecanique (de mauvaise qualite) dont le ressort est usage et se deforme facilement. Dans ce cas, chaque mesure risque de dependre des precedentes. La statistique n'est d'aucun secours dans ce type de situations. C'est un exemple d'erreur systematique qu'il est assez difficile de detecter et de corriger. En physique experimentale, il existe beaucoup de situations ou, pour une experience precise, on doit utiliser un unique appareil dont on ne connatt pas tres bien les proprietes. Ce manque de connaissance de I'appareillage conduit parfois a des erreurs systematiques et meme a de fausses decouvertes.
24
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Neanmoins, en statistique, il existe "un mecanisme" tout a fait nature! et frequent d'apparition des correlations. Meme si les variables {a??-} sont independantes, leurs fonctions peuvent etre correlees. Nous caracteriserons la dependance entre deux variables X{ et Xj (avec des valeurs moyennes et des variances par le coefficient de correlation q^j defmi par :
Les ecarts quadratiques moyens crz et
En particulier, pour i = j
Si les variables X{ et Xj sont independantes, le coefficient de correlation est nul : q^j — 0. Si Xi est proportionnelle a X j , c'est-a-dire ce coefficient est egal a ±1 ; Dans un cas general,
Prenons un exemple, presque trivial, qui donne une illustration de ce mecanisme d'apparition des correlations. Soient x\ et x^ deux grandeurs physiques independantes avec la meme moyenne /j, et la meme variance a2. Introduisons deux grandeurs y{ et y^ qui leur sont liees par une relation lineaire :
Calculons la covariance cov(2/1,7/2) (23). Tout d'abord, determinons les moyennes de 7/1 et de 7/2 :
yT= auxi +012^2 = aii^I+ 012^2"= (an + 012)^ , y2 = azixi + 022^2 = (<*2i + ^22)^-
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
25
On a alors :
Autrement dit, dans le cas general
les deux variables y\ et yi
ne sont pas independantes mais sont correlees. Get exemple donne une illustration de la notion de correlation. Neanmoins, la notion d'independance de deux variables n'est pas toujours evidente. Considerons I'exemple simple de la correlation des deux variables x et y = x2. A priori, nous pouvons penser qu'elles sont correlees. D'apres la definition (23), la covariance est donnee par
Dans le cas general, cette expression est differente de zero, c'est-a-dire que x et x2 sont effectivement correlees. Mais il suffit que Ton prenne le cas particulier d'une fonction de distribution f(x) paire, par exemple la distribution de Gauss (voir paragraphe suivant) avec fj, = 0, pour que et pour que la correlation disparaisse ! Get exemple n'est pas tres exotique : dans le cas d'un gaz dont les vitesses des molecules obeissent a la distribution de Maxwell (voir paragraphe 3.1.3), les composantes de la vitesse (vx, vy et vz) et I'energie ne sont pas correlees. A posteriori, on peut comprendre qualitativement ce resultat : la valeur de x est caracterisee par son module et son signe tandis que x2 n'est caracterise que par le module de x. Les signes + et — sont equiprobables en vertu de la symetrie de f(x), c'est pourquoi x et x2 se trouvent decorrelees.
1.2
DISTRIBUTION DE GAUSS
La premiere distribution continue que Ton etudie ici est la distribution de Gauss. Cette distribution est la plus frequente en physique, c'est pourquoi, dans la litterature, on Tappelle aussi la distribution normale. Dans cet ouvrage, nous utiliserons les deux denominations. Nous verrons, dans le paragraphe suivant consacre au theoreme central limite, pourquoi cette distribution joue un role si particulier. Pour 1'instant nous etudions surtout ses proprietes.
26
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 1.5 : Les distributions de Gauss pour plusieurs jeux de parametres /j, et
Supposons qu'une valeur physique varie d'une fagon continue dans un intervalle de moins 1'infmi jusqu'a plus I'mfini 1 . La densite de probabilite f(x] de trouver la valeur physique aleatoire x pour une distribution normale est donnee par
La distribution normale est caracterisee par deux parametres ^ et a. Leur sens est clairement visible sur la figure 1.5 ou nous avons presente plusieurs distributions correspondant a des /j. et a differents : ^ donne la position de la distribution,
Nous avons deja dit, au paragraphe precedent, que la plupart des valeurs physiques varient dans des limites finies, mais, dans les situations experimentales concretes, les valeurs reelles ne sont jamais proches des limites et ainsi 1'hypothese d'infinite de 1'intervalle de variation n'a aucune consequence sur 1'applicabilite des resultats obtenus.
I — RAPPELS SUR LA THEORIE DBS PROBABILITIES
27
Rappelons au lecteur que le calcul de I'integrale
qui se rencontre souvent en physique est simple. II suffit de considerer 72 (integrale sur tout le plan xy) et de passer en coordonnees polaires dans Tintegrale double :
Calculons la moyenne et la variance de cette distribution. Par definition, la valeur moyenne de x est egale a
Ainsi, le parametre p peut etre interprete comme la valeur moyenne de x. Notons aussi que x = ^ est le maximum de la fonction f(x] et que cette distribution est symetrique par rapport a ce point. De la meme fagon, on calcule la variance de la distribution normale :
(La derniere integrale peut etre calculee, par integration par parties.) Nous voyons pourquoi, des le debut, nous avons designe par a le deuxieme parametre de cette distribution. II est relativement facile de calculer des moments d'ordre plus eleve de la distribution de Gauss. II faut introduire la fonction generatrice des moments centraux qui, par definition, est egale a
28
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Pour la calculer il suffit de faire le changement de variable completer ('argument de la fonction exponentielle en faisant apparattre Ces changements de variable nous permettent de retrouver I'integrale (25). Ainsi, pour la fonction generatrice des moments centraux on obtient I'expression
On voit que tous les moments impairs sont nuls ce qui est evident en vertu de la symetrie de la distribution normale par rapport a x = //. Les moments pairs sont
Pour voir I'utilite des fonctions generatrices, prenons un exemple qui interviendra au paragraphe suivant. Considerons la distribution d'une grandeur physique y — ax + b qui est une fonction lineaire d'une autre grandeur x distribute selon la loi normale avec une moyenne /^ et une variance
done
Selon notre hypothese, la distribution de x est une distribution de Gauss (26). D'ou
Cette expression prouve que la grandeur y a aussi une distribution normale de valeur moyenne a/j, + b et de variance a 2
Comme la distribution de Gauss est entierement determinee par les deux valeurs //,
II faut expliquer ce que cette ecriture symbolique signifie. Premierement, en presentant un resultat de cette maniere, on suppose que la distribution de la grandeur 2
Les normes ISO proposent d'utiliser la notation ux plutot que Ao\ Cependant, dans ce livre, nous garderons 1'ecriture Ao: plus habituelle pour les physiciens.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
29
physique mesuree est gaussienne. Deuxiemement, on prend la valeur rnoyenne de la distribution pour la valeur "reelle" de la grandeur x et sa largeur a pour 1'erreur. Cette forme d'ecriture est une convention generate que tout le rnonde accepte en gardant bien en tete ces hypotheses. On ne peut pas dire que la valeur "reelle" de x varie de la valeur minimale xmin = [i — a a une valeur maximale C'est faux ! Sous cette ecriture se cache une interpretation en termes de probabilite. Rappelons que la probabilite de trouver une valeur physique dans un intervalle de x\ a X2 est egale a 1'integrale de la densite de probabilite dans ces limites. Pour une distribution donnee, on peut calculer les integrales qui nous interessent numeriquement. En particulier, pour la distribution de Gauss (figure 1.6), la probabilite de trouver la valeur x dans 1'intervalle
dans 1'intervalle
dans 1'intervalle
Ces resultats montrent encore une fois a quel point 1'interpretation comme valeurs maximale et rninimale possibles de x est approximative. Pour une distribution de Gauss, la probabilite de retrouver x en dehors de cet intervalle est egale a 1/3, c'est-a-dire tres importante ! Autrement dit, si Ton mesure
Figure 1.6 : La distribution de Gauss
30
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
une grandeur x plusieurs fois, environ un tiers des resultats se trouve en dehors de jU ±
1.3
AUTRES DISTRIBUTIONS ELEMENTAIRES
Au paragraphe precedent, nous avons souligne que la distribution de Gauss est la plus frequente dans la nature. Cependant, elle n'est pas la seule possible. D'autres distributions de probabilite interviennent frequemment dans la vie courante ; mentionnons en particulier les distributions de Student, de Poisson, de Lorentz, ainsi que la distribution binomiale et celle du x 2 . Les distributions de Student et du x2 son^ indispensables en physique, mais elles sont relativement complexes. Nous leur consacrerons les paragraphes speciaux dans le troixeme chapitre du livre ou nous aborderons des problemes plus avances. La distribution binomiale sera la premiere etudiee parmi celles qui decrivent des grandeurs discretes. II faut dire qu'elle n'est pas frequemment rencontree dans les experiences mais elle est simple et instructive. Nous obtiendrons la distribution de Poisson comme une certaine limite de la distribution binomiale. Cette "transformation" sera le premier exemple du passage d'une distribution vers une autre. Plus tard, nous verrons que ces distributions se transforment en une distribution normale dans la limite d'un grand nombre de mesures. La formulation plus rigoureuse de cette propriete sera donnee au paragraphe suivant ou nous demontrerons qu'il s'agit d'un resultat general valable pour presque toutes les
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
31
distributions. La seule exception (physiquement interessante) a cette regie est donnee par la distribution de Lorentz. Ici, il faut noter que la "transformation" d'une distribution en une autre n'est pas d'un interet purement academique ou pedagogique. C'est un probleme pratique car une telle operation peut nous permettre de remplacer, au moins dans une premiere approche, plusieurs distributions de probabilite complexes par des distributions plus simples et plus generales et trouver ainsi un langage commun pour une description uniforme de grandeurs physiques tres diverses.
1.3.1
DISTRIBUTION BINOMIALE
Cette distribution decrit des grandeurs discretes qui peuvent prendre seulement deux valeurs. Supposons qu'un evenement ait deux realisations possibles ^4 et B. Soient p la probability de la realisation A, q = I — p la probabilite de la realisation B. Si cet evenement se repete N fois, on peut determiner la probabilite PN(H) que la realisation A se produise n fois. La probabilite d'obtenir successivement n fois la realisation A puis N — n fois la realisation B est egale . Vu que 1'ordre de realisations .4 et B est sans importance, il faut multiplier cette probabilite par le nombre de possibilites d'extraire n objets parmi N objets, c'est-a-dire par
Finalement, la probabilite P^(n) que la realisation A se produise n fois est egale a :
Cette densite de probabilite est celle de la distribution binomiale. Elle est caracterisee par deux parametres N et p. Plusieurs exemples de cette distribution sont donnes sur la figure 1.7. Comme exemple physique simple, considerons N particules d'un gaz sans interaction distributes uniformement dans un volume V. Chaque particule a une position aleatoire dans ce volume et a une probabilite p = v/V de se manifester dans une partie v du volume V. Dans ces conditions la probabilite P/v(n) de trouver n particules dans v est donnee par (30). II est facile de verifier que la densite de probabilite (30) est normee conformement a 1'equation (2) :
Determinons la moyenne du nombre n. Par definition (voir (6')), elle est egale a
32
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 1.7 : La distribution binomiale pour trois valeurs du parametre p, N etant fixe : N = 10
Nous avons utilise le fait que le terme avec n — 0 est nul ; changeons la variable de sommation en posant k = n — 1 :
Nous aurions pu prevoir ce resultat directement car si la probabilite de realisation A est egale a p, a la suite de Af evenements, le nombre moyen de realisations A doit etre egale a Np. Pour calculer 1'ecart-type, prenons la definition (7') et utilisons 1'expression (8) :
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
33
Pour calculer la premiere somme, nous utilisons la meme astuce que pour le calcul de n dans (32) :
Autrement dit, 1'ecart-type est egal a :
La fonction generatrice des moments (14) de la distribution binomiale est
La premiere et la deuxieme derivees de cette fonction en t = 0 defmissent les moments
Ainsi la moyenne et la variance de la distribution binomiale sont donnees par :
conformement a (32) et (33).
Les resultats (32) et (33) peuvent paraitre triviaux mais ils sont fondamentaux pour toute la statistique : la valeur moyenne n est proportionnelle au nombre de mesures
34
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
tandis que 1'ecart-type est proportionnel a la racine de N
Pour comprendre 1'importance de ces resultats, rappelons que la valeur moyenne est associee a la valeur d'une grandeur physique xexp et 1'ecart-type a son incertitude (voir la discussion suivant la formule (29)). Si Ton definit 1'erreur (1'incertitude) relative 6 comme le rapport
on voit que cette valeur est inversement proportionnelle au nombre de mesures TV
Cela signifie que, plus 1'on fait de mesures, plus la precision est grande : une conclusion evidente, presque triviale. Ce qui est beaucoup moins evident, c'est la dependance fonctionnelle de 8 avec N. La formule (35) montre que la precision relative decroit seulement comme la racine de N. Pour augmenter la precision par un facteur de 10, il faut multiplier le nombre d'experiences, et ainsi le cout, par 100 ! Une experience precise peut couter tres cher et, ici, on en comprend la raison. Vu qu'une bonne precision est chere, il faut savoir de quelle precision on a vraiment besoin. C'est une question non triviale et nous y reviendrons a la fin du livre. Nous avons obtenu la formule (35) a partir de la distribution binomiale mais elle restera valable quelle que soit la situation experimental. Nous reviendrons sur cette question au paragraphe 2.1.
1.3.2
DISTRIBUTION DE POISSON
Etudions maintenant un autre phenomene particulierement interessant : la transformation d'une distribution dans une autre. Prenons comme point de depart la distribution binomiale dans laquelle nous augmentons le nombre de mesures N. Nous considerons la limite quand N est tres grand mais en imposant que le produit Np reste constant Np = const = // (c'est-a-dire p —>• 0). Nous voulons trouver la probabilite P/^(n) que la realisation A se produise n fois au cours de toutes les mesures :
et du fait que
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
35
Rappelons que n restant fini, il est toujours petit par rapport a N. Done,
lorsque TV tend vers Pinfini. On peut reecrire (1 — p)N~n comme
L'expression dans le denominateur tend vers 1 quand N —> oo, par centre
Finalement, pour la probability P^(n), on obtient .,1
C'est la distribution de Poisson. On peut verifier aisement qu'elle est normee :
que sa moyenne est egale a // :
et que sa variance est p, (soit un ecart-type
Nous aurions pu prevoir ces resultats a partir des expressions relatives a la distribution binomiale (32—33). La fonction generatrice des moments (14) de la distribution de Poisson est
36
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Le lecteur interesse retrouvera aisement la moyenne et la variance de cette distribution a I'aide des deux premieres derivees de la fonction M^{t] prises en t = 0.
Notons que la distribution de Poisson ne depend que d'un seul parametre // = Np. La forme de cette distribution pour plusieurs valeurs de p est presentee sur la figure 1.8.
Figure 1.8 : La distribution de Poisson pour plusieurs valeurs du parametre p,
Cette distribution de probability est souvent rencontree en physique atomique ou en physique nucleaire, car le nombre de particules comptees par un detecteur est distribue selon cette loi a condition que le flux de particules reste constant. Prenons un exemple. Supposons qu'a I'aide d'un detecteur on compte des particules et que 1'on enregistre leur nombre pendant une certaine duree, disons 1 seconde. Ces mesures seront decrites par la distribution de Poisson. Pour le verifier, divisons notre intervalle de temps (de 1 s) en A*" petits sous-intervalles, disons de 1 nanoseconde (1 ns = 10~9 s). Supposons que le nombre moyen de particules enregistrees pendant 1 s soit egal a // = 8. Alors la probabilite de detection d'une particule dans un sous-intervalle est egale a p = II est important que cette valeur soit faible pour que Ton puisse negliger la probabilite de detection de deux particules dans un sous-intervalle de temps. En principe, c'est une distribution binomiale ou la realisation A est 1'apparition d'une particule dans le detecteur et la realisation B est son absence. Les conditions de la limite const) sont satisfaites et la distribution devient une distribution de Poisson avec une moyenne JJL = 8
I - RAPPELS SUR LA THEORIE DES PROBABILITES
37
(figure 1.8). n est le nombre de particules detectees pendant 1 seconde. Get exemple montre un "passage" entre differentes distributions. On a remplace une distribution a deux parametres (binomiale) par une autre beaucoup plus simple (de Poisson) qui ne contient qu'un seul parametre.
1.3.3
DISTRIBUTION DE LORENTZ
La distribution de Lorentz, qui porte parfois aussi le nom de Cauchy, a une place particuliere en statistique. D'une part, la fonction de Lorentz (37) est tres importante en physique car elle decrit des systemes qui se trouvent dans un etat dit de resonance. Ce phenomene se caracterise par une grande amplification des parametres du systeme. II est connu et utilise en mecanique (pour mettre en marche une balangoire, un enfant doit effectuer ses mouvements periodiques avec une certaine frequence) ou en electromagnetisme (tous les postes de radio ou de television utilisent le phenomene de resonance pour choisir une station). En physique microscopique, une resonance decrit, entre autres, la duree de vie d'une particule ou d'un systeme de particules. D'autre part, la fonction de Lorentz apparait comme une distribution de probabilite surtout en mecanique quantique, c'est-a-dire en physique microscopique. C'est pourquoi cette distribution de probabilite se manifeste relativement rarement dans les problemes macroscopiques et, en particulier, dans les experiences en travaux pratiques. Neanmoins, elle donne un exemple de distribution pour laquelle les definitions standards de la statistique ne sont pas toujours valables. Cette raison a elle seule est suffisante pour que 1'on etudie cette distribution de maniere plus approfondie. La distribution de Lorentz est donnee par la fonction
qui depend de deux parameteres XQ et a (figure 1.9). Le coefficient devant la fonction est choisi pour que la probabilite totale de trouver une valeur quelconque de x soit egale a 1.
Le calcul de cette integrate ne represente aucune difficulte car la primitive de cette fonction est bien connue (arctangente). On peut voir facilement que cette distribution est symetrique par rapport a XQ qui est aussi le maximum de cette fonction. En ce qui concerne le coefficient a, son interpretation est aussi claire : il represente la moitie de la largeur a mi-hauteur et caracterise ainsi 1'etalement de cette fonction. Cependant, on rencontre de vrais problemes quand on veut trouver la moyenne et la variance en utilisant nos definitions habituelles.
38
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Figure 1.9 : La distribution de Lorentz
D'apres la definition (6), la valeur moyenne de x est egale a
Pour calculer cette integrale, faisons le changement de variable
Le deuxieme terme est egal a XQ en vertu de la normalisation de la distribution. On peut dire que la premiere integrale est nulle car la fonction que Ton integre est impaire par rapport a £ — 0. Formellement, ceci est faux. Du point de vue mathematique, cette integrale est divergente. Elle n'est egale a zero que si 1'on considere ce que Ton appelle sa valeur principale. Autrement dit, si Ton prend d'abord un intervalle d'integration fini et symetrique (—R,R) et si Ton calcule ensuite la limite lorsque R —>• oo. Done, la valeur moyenne peut etre consideree egale a XQ mais 1'on constate que le calcul de 1'integrale est un peu delicat. Le vrai probleme apparait quand on veut etablir la variance, car 1'integrale correspondante
diverge. Cela signifie que Pecart-type, qui etait pour nous la caracteristique de la largeur d'une distribution, n'existe pas au sens de la definition (7). Neanmoins, 1'etalement de la fonction de Lorentz peut etre decrit par le parametre a.
I - RAPPELS SUR LA THEORIE DES PROBABILITIES
39
La fonction generatrice (14) ou (15) de la distribution de Lorentz n'existe pas non plus a cause de la divergence de I'integrale correspondante. Cependant, il est possible de remedier a ce probleme. Au lieu de la definition issue de la transformation de Laplace, on peut choisir pour fonction generatrice une definition issue de la transformation de Fourier (voir la discussion a la fin du paragraphe 1.1.3) :
ou la fonction exponentielle d'un argument reel a ete remplacee par la fonction exponentielle d'un argument purement complexe (pour simplifier la discussion, on prend Avec cette definition, la fonction generatrice existe et elle est egale a :
Cette integrale, relativement compliquee, peut etre calculee directement en utilisant la theorie des fonctions des variables complexes. Cependant, on peut obtenir ce resultat indirectement en utilisant le fait qu'en prenant la transformation de Fourier d'une fonction puis la transformation de Fourier inverse de la fonction obtenue, on retrouve la fonction initiale. Ainsi si F(t) est la transformation de Fourier de f(x)
alors
Dans notre cas, en prenant
on obtient
ou nous avons utilise le fait que a > 0. Ainsi ('expression de la transformation de Fourier directe (40) nous donne la formule (39).
Nous sommes en presence d'une distribution pour laquelle les definitions generates des valeurs moyennes ne sont pas valables. Cette particularity de la distribution de Lorentz a des consequences tres importantes. Nous verrons au paragraphe suivant que c'est la seule distribution qui ne se transforme pas en une distribution de Gauss lorsque le nombre de mesures devient grand.
40
1.3.4
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
DISTRIBUTION GAMMA
Cette distribution herite son nom d'une fonction speciale dite fonction F ou integrate d'Euler de deuxieme espece. La fonction F est defmie par I'integrale
En principe, x dans cette expression peut etre complexe. Nous n'etudierons pas toutes les proprietes de cette fonction, mais nous nous bornerons a la plus interessante :
qui se demontre tres simplement : il suffit d'integrer (41) une fois par parties. Pour x entier, x = n, nous obtenons
car
Autrement dit, la fonction F est une generalisation de la fonction factorielle n\ au cas d'un argument non entier, ou meme complexe (dans la litterature, on rencontre parfois I'ecriture x\ qui signifie T(x + 1)). Notons que pour les valeurs demi-entieres x — n + 1/2, la fonction F peut aussi etre ecrite sous une forme relativement simple
car I'integrale
Le changement de variable
la ramene a I'integrale (25).
La distribution de probabilite liee a la fonction F est decrite par la fonction
pour x > 0. Cette fonction contient deux parametres 3 . Notons que (3 est simplement un parametre d'echelle. Le choix de la constante devant la fonction de x est dicte, comme d'habitude, par la normalisation de la probabilite totale, ce qui se verifie facilement a I'aide
I — RAPPELS SUR LA THEORIE DES PROBABILITES
41
Figure 1.10 : La distribution gamma pour plusieurs valeurs du parametre a, /3 etant fixe
de (41). Quelques exemples de la distribution gamma (pour (3 = 1) sont representes sur la figure 1.10. Calculons la moyenne et la variance de cette distribution. Par definition,
Nous avons utilise la definition de la fonction F et sa propriete (42). Pour calculer la variance, utilisons ('expression (8) :
Le calcul de
est relativement simple :
Ainsi la variance de cette distribution est donnee par
3
Notons la ressemblance formelle entre la distribution gamma et celle de Poisson : si Ton remplace n par a et jj, par x/j3. Cependant, il ne faut pas oublier que les roles des variables et des parametres sont inverses dans ces distributions.
42
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Completons I'etude de la distribution gamma par sa fonction generatrice. Par definition (14),
Ecrivons /3a+1 sous la forme
et introduisons une nouvelle variable
L'expression pour M'(t] devient
L'integrale dans cette expression est egale a F(a + l)pa+l et fmalement M'(t] s'ecrit
Nous verrons un exemple physique de la distribution gamma lie a la distribution de Maxwell des vitesses au paragraphe 2.2.3 consacre a la distribution % 2 .
1.4 THEOREME CENTRAL LIMITE Considerons maintenant un des aspects les plus importants de la statistique qui concerne le theoreme central limite. Ce theoreme represente non seulernent un resultat mathematique puissant niais il est particulierement important pour ses applications physiques. II affirme que, dans presque toutes les experiences, on peut travailler avec une distribution de Gauss. La formulation exacte de ce theoreme est la suivante : Soit x une grandeur physique aleatoire avec une moyenne ^ et une variance
tend vers une distribution de Gauss avec une moyenne // et une variance Avant de demontrer ce theoreme, soulignons un fait tres important : on ne fait aucune hypothese sur la forme de la distribution de la grandeur aleatoire x ! Elle peut meme avoir une distribution discrete. II faut seulernent que la variance soit finie. Cette condition est presque toujours satisfaite dans la plupart des experiences, mais nous citerons un peu plus tard un exemple physique ou cette limitation est violee et ou la
I - RAPPELS SUE LA THEORIE DBS PROBABILITES
43
distribution ne tend pas vers une distribution normale, Neanmoins, cette situation reste rare et quand les conditions du theoreme sont remplies, celui-ci nous garantit que, pour obtenir un resultat precis et fiable, il faut mesurer plusieurs fois la valeur de x et calculer sa moyenne. Vu 1'importance du theoreme central limite, nous donnons ici sa demonstration qui peut, cependant, etre oubliee lors d'une premiere lecture. Considerons la fonction generatrice des moments centraux pour / —>• 0 :
Ici, nous avons fait le developpement limite de la fonction exponentielle et nous avons utilise le fait que la valeur moyenne de x est egale a ^ et que le carre de I'ecart-type est fmi et egal a a2 (13). Introduisons d'abord une valeur auxiliaire
dont la fonction generatrice des moments est donnee par
Pour t fixe, tend vers 0 lorsque n tend vers I'infmi. Nous pouvons ainsi utiliser le developpement (47) par rapport au parametre t/^/n :
Introduisons maintenant une nouvelle variable z liee a la valeur moyenne introduite dans I'enonce du theoreme
par une relation lineaire
Toute les valeurs Wi apparaissant dans la derniere expression ont la meme distribution car les differents x^ ont des distributions equivalentes. Nous pouvons alors utiliser la propriete (21) de la fonction generatrice des moments, selon laquelle la fonction generatrice des moments d'une somme de n grandeurs aleatoires ayant la meme distribution est egale a la n-ieme puissance de leur fonction generatrice :
44
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Lorsque n tend vers I'infmi, cette expression tend vers
On reconnaft ici la fonction generatrice (26) des moments d'une distribution de Gauss avec une moyenne nulle et une variance a2 = 1. Autrement dit, dans la limite ou n est grand, la grandeur z a une distribution normale avec une moyenne nulle et une variance unite. La valeur moyenne X est liee a z par
Nous avons deja demontre qu'une fonction lineaire (ici X) d'une grandeur aleatoire z avec une distribution normale a aussi une distribution normale (voir (28)). Ainsi la valeur X, dans la limite ou n est grand, a une distribution de Gauss avec une moyenne p et une variance a2/n. Nous pouvons encore remarquer que I'erreur relative Sx sur la valeur moyenne X, introduite dans la formule (34), est inversement proportionnelle a la racine carree de n. Soulignons que, dans la demonstration, aucune hypothese n'a ete faite sur la forme de la fonction de distribution de x et qu'ainsi ce resultat est tres general.
Le theoreme que nous venons de demontrer est particulierement important pour les experiences physiques car il nous donne la garantie que, si le nombre de mesures est suffisant, nous obtiendrons tot ou tard une valeur physique ayant une distribution bien connue. Cependant, il s'agit d'un theoreme limite, c'est-a-dire que le passage vers une distribution de Gauss ne se realise que si n est suffisamment grand. Dans une situation concrete, il faut savoir a quel point la distribution de la grandeur mesuree est proche de la distribution de Gauss et quand le nombre de mesures est suffisant. Pour 1'instant, la conclusion physique principale du theoreme central limite est que toutes les grandeurs physiques, ou presque, ont une distribution de Gauss ; de plus nous savons ce qu'il faut faire pour que la distribution devienne une distribution normale. Pour eclaircir cet aspect du theoreme, donnons-en une autre formulation, plus "physique", que 1'on peut aussi rencontrer dans les livres sous le nom du theoreme central limite : Si une grandeur physique subit Vinfiuence d'un nombre important de facteurs independants et si Vinfiuence de chaque facteur pris separement est petite, alors la distribution de cette grandeur est une distribution de Gauss. Les points importants dans cette formulation du theoreme sont la presence d'un grand nombre de facteurs exterieurs, leur independance et leur faible influence sur la grandeur physique. Les deux formulations du theoreme sont relativement proches I'une de I'autre. Dans la deuxieme, n joue le role du nombre de facteurs independants ; art- peut etre consideree comme la valeur de la grandeur x influencee par un seul facteur i. Ainsi on retrouve presque la meme demonstration du theoreme. Pour n mesures independantes on peut affirmer que les X{ ont la meme distribution et ainsi la meme valeur de
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
45
avec les memes valeurs de // et de cr2. Toutefois cela n'est pas un obstacle au theoreme. Pour le demontrer, il faut remplacer une simple valeur moyenne arithmetique X par une expression plus complexe. Le lecteur, amateur de rnathematiques, pourra mener lui-meme cette etude.
Donnons maintenant le contre-exemple annonce au debut du paragraphe. Dans ce cas les conditions du theoreme ne sont pas satisfaites et les calculs de la valeur moyenne ne peuvent sauver la situation, la distribution n'etant pas gaussienne. C'est celui de la distribution de Lorentz discutee au paragraphe 1.3.3 pour laquelle 1'ecart-type diverge. II est facile de voir que, pour la distribution de Lorentz, le theoreme central limite ne s'applique pas. Autrement dit, la condition d'existence d'un ecart-type fmi est essentielle a ce theoreme et n'est pas simplement une condition pour faciliter la demonstration. Si x est distribue selon une loi lorentzienne, la valeur moyenne
a aussi la distribution de Lorentz. La fonction generatrice de Xi/n defmie par (38) est egale a :
(a comparer avec (39)). Done la fonction generatrice de X est, en vertu de (21),
il s'agit d'une lorentzienne et non d'une gaussienne !
En physique, cette distribution est caracteristique de la forme d'une raie dans les transitions electromagnetiques. Get exemple ne signifie pas, cependant, que toutes les raies mesurees experimentalement ont une forme lorentzienne. Nous verrons plus tard que 1'appareil avec lequel on efFectue les mesures modifie aussi la forme de la distribution et que, pour une distribution de Lorentz initiale, on peut mesurer une distribution de Gauss. Notre exemple de la distribution de Lorentz, bien qu'il soit tres important en physique, reste neanmoins une exception. Pour illustrer le theoreme central limite, considerons quelques exernples. Commengons par un exemple numerique simple. Nous pouvons faire cette experience elementaire a la maison : dans 1'annuaire telephonique, choisissons 200 numeros au hasard et calculons pour chaque numero la somme s4 des quatre derniers chiffres. Une telle experience a ete effectuee avec "Les Pages Blanches" du departement de 1'Isere de 1'annee 1999 ou nous avons pris les 200 premiers numeros de la page 365. Les resultats sont presenters sur la figure 1.11 sous la forme d'histogramme : nous avons reporte, pour chaque valeur de 84 calculee, sur ces 200 numeros, le nombre de realisations NS4.
46
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
II faut comparer ce resultat avec la distribution de Gauss representee par une ligne discontinue :
avec les parametres p,S4 = 18 et aS4 w 5, 2. Les valeurs de ces parametres ont ete calculees selon (19) et (20) en supposant que chaque chiffre dans un numero telephonique est distribue selon une distribution discrete constante avec une moyenne (9 + 0)/2 = 4, 5 et une variance (9 - 0) 2 /12 = 6, 75 (a comparer avec (10) et (11)). La coincidence entre la courbe et 1'histogramme est impressionnante ! Notons que le theoreme central limite suppose que les distributions de Xi doivent etre les memes et independantes (ce qui semble etre credible dans notre experience). Alors la somme sn, pour n termes dans la somme, aura une distribution proche de celle de Gauss lorsque n —>• oo. Dans notre cas, n = 4, mais nous voyons que la distribution de Gauss est deja une tres bonne approximation de la distribution de §4.
Figure 1.11 : La distribution de la somme 54 des quatre derniers chiffres dans un numero de telephone
Un autre exemple classique nous montre comment 1'augmentation de // transforme la distribution de Poisson en une distribution de Gauss4. 4
A cause de la ressemblance formelle entre les distributions gamma et de Poisson, on peut utiliser exactement la meme approche pour demontrer que, dans la limite a —>• oo, la distribution gamma donne une distribution de Gauss. Nous laissons cet exercice au lecteur.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
47
Rappelons que, pour la distribution de Poisson (36), la probabilite de trouver n evenernents dans un intervalle donne est egale a
Augmentons la valeur du parametre //. Les nombres d'evenements HQ pour lesquels les probabilites P^(UQ} sont sensiblement differentes de zero doivent etre proches de la valeur // ; ainsi nous considerons la limite n » 1 pour laquelle nous pouvons utiliser la formule de Stirling donnant n\
et ecrire la probabilite P^(n) sous la forme
Pour simplifier cette expression dans la limite p,n » 1, utilisons une approche assez connue dite "methode du col". Notre fonction P(j,(n) contient deux facteurs, le premier, I/A/TI, qui varie lentement avec n et le deuxieme, e~^ n \ qui a une variation tres rapide avec n du fait de la fonction exponentielle ; ici
On peut voir aisement que la fonction f^(n) possede un seul minimum pour n — p, et qu'elle peut etre developpee en serie de Taylor au voisinage de ce point :
Nous avons utilise ici le fait que / M (//) = 0 et f'n(^) = 0, car n — p, est un minimum de la fonction, et nous n'avons garde que le premier terme non nul. Comme nous 1'avons deja remarque, la probabilite P^(n] ne sera sensiblement differente de zero qu'au voisinage de n — /j,. Au-dela de cette region, elle est tres petite a cause de la fonction exponentielle decroissante. Au voisinage de ce point, on peut ecrire que
Dans cette expression, nous avons remplace la fonction qui varie lentement avec n par sa valeur au point n = p. La distribution ainsi obtenue est une distribution de Gauss avec une moyenne p, et un ecart-type ^/Ji. D'ailleurs, il est tout a fait normal que la moyenne et la variance restent les memes que pour la distribution de Poisson. Sur la figure 1.8, nous avons donne quelques exemples de la distribution de Poisson avec plusieurs valeurs de /j,. Plus la valeur de p est grande, plus la distribution devient symetrique par rapport au maximum qui est aussi la valeur moyenne. Nous avons deja vu au paragraphe 1.3.2 que la distribution de Poisson peut etre obtenue a partir de la distribution binomiale lorsque le nombre de mesures N est grand et que p est petit, le produit p = Np restant constant. Cela signifie egalement que, dans le cas d'un grand nombre de mesures, la distribution binomiale tend vers
48
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
la distribution de Gauss. Cependant, il faut interpreter ces limites avec precaution. On ne peut pas dire que la distribution de Gauss est un cas particulier de celle de Poisson lorsque fj, —>• oo. La distribution de Gauss generale est caracterisee par deux parametres independants : la valeur moyenne et 1'ecart-type. La distribution de Gauss obtenue de la distribution de Poisson dans la limite // —» oo ne depend que d'un seul pararnetre. Sur la figure 1.12, nous recapitulons les relations entre ces trois distributions. Un autre exemple d'une distribution qui tend vers la distribution de Gauss quand le nombre de mesures augmente sera donne plus loin lorsque nous etudierons la distribution de Student (en 4.3). Pour 1'instant, considerons un exemple physique instructif issu d'une experience reelle ou nous verrons le fonctionnement du theoreme central limite dans sa deuxieme formulation ainsi que ses conditions de validite. II s'agit d'une experience recente faite au CERN sur un enorme anneau d'accelerateur de particules dont le perimetre est de 27 kilometres. Pour etudier les proprietes fondamentales des particules elementaires, les experimentateurs du CERN ont eu besoin de determiner avec une tres grande precision 1'energie des particules qui tournent dans 1'anneau de Paccelerateur. En augmentant la precision de leurs mesures, les physiciens ont decouvert a un certain stade un phenomene tres etrange : 1'energie du faisceau variait selon les heures de la journee. On a du consacrer beaucoup de temps et d'efforts, rejeter beaucoup d'hypotheses avant d'arriver a comprendre et a demontrer que 1'origine de ce comportement bizarre se trouvait dans le mouvement de la Lune autour de la Terre. Get effet gravitationnel est clairernent visible sur 1'ocean : c'est le phenomene des marees. Cependant, cet effet existe aussi pour la croute terrestre et donne lieu a des deplacements d'environ trente centimetres chaque jour. Cette variation minime cumulee sur toute la longueur de 1'accelerateur modifie sa circonference de 1 mm et change ainsi 1'energie des particules. Ce cas, assez curieux, donne a la fois un exemple d'erreur systematique liee a la negligence d'un phenomene physique et donne une belle illustration du "mecanisme" du theoreme central limite (la necessite d'avoir plusieurs petits facteurs). II y a beaucoup de facteurs qui peuvent influencer 1'energie des particules dans un accelerateur : les variations du champ magnetique terrestre, les changements de pression barometrique, le mouvement de la Lune, etc. Chacun de ces facteurs parait etre peu important. Si c'est le cas, et si 1'on ne recherche pas une trop grande precision, les conditions du theoreme central limite sont satisfaites et la distribution d'une valeur physique reste gaussienne. Des qu'on veut augmenter la precision d'une experience, les facteurs qui auparavant etaient supposes negligeables deviennent importants et se manifestent sous forme d'erreurs systematiques. Soulignons les conclusions a retenir. D'abord, pour la plupart des experiences physiques faites au laboratoire, 1'hypothese selon laquelle la distribution d'une grandeur physique est une distribution de Gauss constitue une tres bonne hypothese de depart. C'est le theoreme central limite qui nous le garantit. De plus, si jamais on a le moindre doute sur la forme de la distribution, ce meme theoreme nous indique comment on peut contourner le probleme : il faut faire plusieurs mesures et travailler sur la valeur moyenne qui est forcement decrite par la distribution normale.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
49
Figure 1.12 : Les relations entre les distributions binomiale, de Poisson et de Gauss
Neanmoins, il ne faut pas oublier "le point faible" de ce theoreme : comme c'est un theoreme limite, le nombre de mesures doit etre grand, et done 1'experience peut devenir chere. Pour controler la deviation a la loi gaussienne et savoir combien de mesures sont necessaires, une analyse plus approfondie est indispensable : elle est 1'objet des paragraphes suivants.
Cette page est laissée intentionnellement en blanc.
CHAPITRE 2 FONCTIONS D'UNE VARIABLE ALEATOIRE On peut formuler un probleme assez general et tres important pour les applications physiques. Supposons que soit connue la fonction de distribution de probability f(x) d'une variable aleatoire x (en particulier, la moyenne de cette distribution sa variance Quelle est alors la fonction de distribution de probabilite g(y) d'une variable aleatoire y (en particulier, p,y et <jy) lorsque la relation entre y et x est donnee par une fonction connue y = y(x) ? C'est, en statistique, le phenomene de la propagation des erreurs.
2.1
PROPAGATION DES ERREURS
Au chapitre precedent, nous avons vu que la valeur moyenne et la variance sont les caracteristiques majeures d'une distribution de probabilites. Elles peuvent meme etre suffisantes pour decrire toute la distribution et Ton les interprete alors comme valeur de la grandeur et son incertitude (erreur). Ceci est vrai, en particulier, dans le cas de la distribution de Gauss qui est la plus frequemment rencontree dans les experiences. C'est pourquoi nous aliens trouver d'abord la relation entre les moyennes et les variances de x et de y — y(x). La relation entre les variances porte le nom de la formule de propagation des erreurs.
2.1.1
FORMULE DE PROPAGATION DES ERREURS
Commengons simplement par chercher la relation entre px et cr^, d'une part et p,y et <7y, d'autre part. Nous nous limitons, pour 1'instant, au cas d'une seule variable
y = y(x). Developpons cette fonction en serie de Taylor au voisinage de x — p,x :
52
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
La valeur moyenne de y est egale a
L'approximation standard consiste a negliger dans cette expression tons les termes sauf le premier :
C'est un resultat qui pourrait sembler evident mais cette expression est approximative. Elle n'est exacte que si la fonction y(x] est lineaire. D'une fagon tout a fait analogue, nous pouvons calculer la variance de y :
A partir du developpement en serie de Taylor (48) nous avons :
Pour conserver la coherence de nos expressions, gardens uniquement le terme lineaire. Alors,
soit
II s'agit encore d'une expression approchee qui ne prend une valeur exacte que si la fonction est lineaire. Nous reviendrons sur la precision de cette approximation a la fin du chapitre. Nous pouvons generaliser les resultats (49) et (50) au cas de plusieurs variables. Soit une fonction de n variables. Pour abreger, utilisons des notations "vectorielles" :
ici Developpons la fonction en serie de Taylor au voisinage de x = jl. Au premier ordre, on obtient :
Cette expression donne pour la valeur moyenne
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
53
et pour la variance :
Supposons que les variables xi soient independantes (nous verrons dans ce chapitre le cas plus general sans cette hypothese supplementaire). Alors
Finalement, pour 1'ecart-type
Nous avons ainsi resolu le probleme pose au debut du paragraphe. L'expression (54) permet de calculer 1'ecart-type ay de y si les ecarts <7Z- de Xi sont connus. Reecrivons cette derniere formule en remplagant 1 ax et ay par Aa? et Ay :
Ici, toutes les derivees sont calculees pour x\ — Hi, x-2 = jJ>2, • • • , xn — Hn, c'est-a-dire que tous les x^ doivent etre remplaces par leurs valeurs moyennes fa. Soulignons encore une fois que pour obtenir cette expression nous avons utilise deux hypotheses importantes : la premiere est 1'independance des grandeurs a?,-, la deuxieme est que, dans le developpement en serie de Taylor de y, nous nous limitons seulement aux deux premiers termes. 2.1.2
EXEMPLES DE PROPAGATION DES ERREURS
Les exemples les plus simples et les plus frequents concernent la somme et le produit (ou le rapport) de deux valeurs physiques. Pour la somme de deux valeurs x\ et x-i
['expression (55) s'ecrit
car les deux derivees sont
1
Rappelons que, dans ce livre, nous conservons les "anciennes" notations A:r au lieu de ux.
54
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Pour le produit de deux variables
les derivees sont
et la formule (55) donne
Dans cette expression ainsi que dans les expressions suivantes nous ecrivons x\ et x% a la place de /^i et ^. Ce choix est volontaire car experimentalement il est possible de determiner mXl et mX2 et non //i et ^2- Pour ne pas introduire chaque fois de nouvelles notations, gardens partout x\ et x-± qui ne representent pas des fonctions mais des valeurs experimentales. D'une fagon analogue, pour le rapport
nous obtenons
Les deux dernieres expressions de Ay peuvent etre reunies sous une forme plus commode si Ton passe a 1'incertitude relative Ay/y :
Cette formule se generalise facilement au cas du produit et du rapport d'un nombre arbitraire de n variables :
Les formulas (56) et (58) ont une structure similaire : la racine carree d'une somme de carres. Pour des estimations rapides et simplifiees, on applique les majorations suivantes :
et
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
55
(on "deduit" parfois cette formule en calculant la derivee de log y). Cependant 1'utilisation de ces majorations n'est justifiee que si Ton veut une evaluation grossiere de Pincertitude. La difference entre la vraie valeur de 1'incertitude (58) et sa majoration (60) peut etre importante. Par exemple, si 1'on suppose des incertitudes relatives sur Xi de 5%, la formule exacte donne une incertitude Ay/y = 7%, tandis que sa majoration conduit a une valeur beaucoup plus grande : 10% ! Plus les variables sont nombreuses, plus la difference est grande. Ceci s'explique simplement car 1'augmentation de 1'incertitude en fonction du nombre n des variables est en ^Jn dans 1'expression (58') et en n dans la majoration du type (60). L'expression (55) ou les cas particuliers (56) et (58) donnent une idee sur la fac,on de diminuer 1'incertitude : il faut toujours se battre contre la plus grande incertitude. Si une des incertitudes est seulement trois fois plus petite que les autres, on peut pratiquement la negliger. Cette approximation donne une erreur supplementaire de 10% dans les calculs d'incertitude (c'est une erreur de deuxieme ordre). Le meilleur choix des conditions experimentales (des appareils et des methodes de mesure) consiste a avoir si possible les memes contributions de toutes les variables differentes dans 1'expression (55), ce qui minimise cette incertitude. Parfois, nous rencontrons des fonctions plus compliquees. Prenons un exemple :
Nous pouvons appliquer la formule (55) directement. Pour le faire nous calculons les derivees :
et obtenons 1'expression suivante de 1'incertitude sur y :
Le probleme est que, pour des fonctions compliquees, nous obtenons toujours un resultat "complique" et qu'ainsi la probabilite d'avoir une erreur arithmetique lors de la derivation ou lors des applications numeriques est tres grande. II est preferable de proceder autrement : on decompose la fonction initiale en fonctions elementaires et on fait les operations successivement. Dans 1'exemple precedent :
Pour chaque formule, on obtient aisement les incertitudes :
La probabilite d'erreur dans cette approche est beaucoup plus faible.
56
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
II existe un autre avantage a cette procedure, celle de permettre d'analyser facilement le role et la contribution de chaque variable #,-. Soient
Nous voulons calculer 1'incertitude de y a 10% pres. Nous voyons que Ax2/x% est beaucoup plus grande que A£3/£3. Ainsi, 1'expression de Az2 peut etre simplifiee par
Nous notons aussi que Az% ~ 1 est beaucoup plus grande que Axi = 0,1 et ainsi, pour Azi, nous obtenons 1'expression
Finalement, 1'incertitude sur y est egale a
une expression beaucoup plus simple que (61). Le resultat est y = 2, 5 ± 0, 2. II faut souligner que 1'exemple precedent n'est pas artificiel. La raison de ce phenomene un peu etrange est liee au fait qu'il est difficile d'effectuer une experience ou toutes les sources d'incertitudes ont la meme importance : il existe une ou deux incertitudes dominantes. II faut en profiter car le gain de temps dans le calcul de 1'incertitude peut etre assez grand, surtout pour des mesures repetitives. De plus, cette analyse par etapes est utile pour elucider les veritables sources d'incertitudes et ainsi prevoir des possibilites d'amelioration de 1'experience. Notons une fois de plus que notre expression (55) n'est pas une formule exacte. Dans sa demonstration, nous avons suppose que le developpement en serie de Taylor peut etre limite a la derivee premiere. Autrement dit, nous remplagons lafonction y = y(x) par la fonction lineaire :
Cette hypothese signifie que la forme de la distribution reste inchangee : si x, par exemple, est distribute selon une loi normale, y est aussi distribute selon une loi normale. II existe des situations ou la derivee y'(^) s'annule et cette approche n'est plus valable. Un exemple est donne par la fonction y = x2 avec // = 0. La distribution de Gauss est remplacee par la distribution ^2 (voir paragraphe 3.1.3). II existe des situations moins "dramatiques" ou la derivee est non nulle mais ou il faut tenir compte des derivees superieures. Par exemple pour la fonction y = cotg x et
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
57
C'est la raison assez differente de pour laquelle, pour les fonctions "rapides", 1'ecriture yexp i Ay est remplacee par
:)| et At/2 = \y(x — Aar) — y(x}\. Dans notre cas,
La valeur de y ne suit plus une distribution de Gauss, cependant, la probabilite que la vraie valeur de y se trouve dans Pintervalle [yexp — Ayi, yexp + A 3/2] reste "gaussienne", a peu pres 68%. Nous reviendrons sur cet aspect du probleme, a la fin du chapitre, lors de la discussion sur les intervalles de confiance. Ce phenomene peut apparaitre meme pour un monorne y = xn lorsque x n'est pas tres grand par rapport a Ax. C'est pourquoi il faut toujours se souvenir que notre approche approximative n'est correcte que si les incertitudes restent petites. 2.1.3
CAS DES VARIABLES CORRELEES
Cherchons a generaliser la formule de propagation des erreurs (54) au cas de plus de deux variables correlees. Nous considerons le passage de n variables {xj} a n variables {yi} liees entre elles par des relations generates :
Nous voulons trouver la relation entre les matrices de covariance de x et de y. De maniere analogue a (23), on defmit la matrice de covariance par :
De meme, D(y) = cov(y, y). Nous utilisons la lettre D pour cette matrice dans le but de souligner sa relation avec la variance (24). Conformement au (51), nous avons :
en accord avec (52).
58
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Un element cov(yi,yj) de la matrice de covariance D(y) s'ecrit
lei, pour les valeurs moyennes apparaissant dans (63), nous avons des expressions plus compliquees que (53) :
L'expression (assez volumineuse) de la matrice de covariance D(y] peut etre ecrite sous une forme beaucoup plus compacte si Ton introduit la matrice du Jacobien de la transformation (62) :
Toutes les derivees sont calculees au point x = jl. A I'aide de cette matrice ('expression (63) s'ecrit :
la matrice J^ etant la matrice transposee de J. Dans notre exemple illustratif du paragraphe 1.1.5, nous avons choisi une transformation lineaire Solent xi et x? deux grandeurs physiques independantes avec la meme moyenne /j et la meme variance d1. Introduisons deux grandeurs y\ et y^ qui leur sont liees par une relation lineaire :
la matrice de covariance de x est diagonale :
la matrice du Jacobien s'ecrit comme
II - FONCTIONS D'UNE VARIABLE ALEATOIRE
59
et ainsi la matrice de covariance D(y] est donnee par :
Comme illustration de la formule de propagation des erreurs dans le cas des variables correllees, considerons un exemple dans lequel nous voulons determiner la valeur d'une resistance R ainsi que la puissance P degagee par cette resistance. Si nous connaissons le courant / qui traverse la resistance et la tension U aux bornes de celle-ci, nous trouvons immediatement
Les incertitudes relatives sur R et P sont selon (58)
et
Nous aurions pu choisir une autre approche. En ayant calcule la valeur de la resistance R — U/1, nous pouvons determiner P a partir de la formule
P = RI2. Cette relation, compte tenu de (66), nous donnerait
en contradiction evidente avec (67). Ou se trouve I'erreur dans notre raisonnement ? Pour obtenir I'expression (55) nous avons utilise I'independance des variables, lei, cette hypothese n'est pas satisfaite car R et / ne peuvent pas etre consideres comme variables independantes. Done, la relation (68) n'est pas correcte. Pour montrer formellement la correlation entre R et P nous utilisons la procedure decrite au debut du paragraphe et nous calculons le Jacobien (64) de passage des variables U,I. aux variables P, R :
60
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
La matrice de covariance (65) D(P, R) prend la forme
Comme il se doit nous retrouvons sur la diagonale les expressions des incertitudes
qui peuvent etre reecrites sous les formes (67) et (66) respectivement, alors que les elements non diagonaux nous donnent la covariance de R et P
II est interessant de remarquer que la correlation entre P et R est nulle lorsque les contributions a I'incertitude AP et A/?, de la tension et du courant sont identiques
II s'agit d'un argument supplementaire pour effectuer les mesures en faisant en sorte que toutes les contributions des differentes sources d'incertitude soient a peu pres les memes. Pour retrouver I'expression correcte de AP, a partir de P = R,P, compte tenu de la correlation entre R et /, calculons d'abord cov(Pt, /). D'apres (63), nous avons :
En vertu de I'independance de deux variables / et U
Done,
L'incertitude sur P s'ecrit alors :
En utilisant les expressions des derivees
II - FONCTIONS D'UNE VARIABLE ALEATOIRE
61
et la formule (69), nous obtenons
en accord avec les expressions (66) et (67).
2.2
DISTRIBUTION DE PROBABILITE D'UNE FONCTION DE VARIABLE ALEATOIRE
Nous pouvons maintenant resoudre un probleme plus complexe et trouver la fonction de distribution de la variable y = y(x] qui est une fonction d'une variable aleatoire x.
2.2.1
FONCTION BIUNIVOQUE
>us supposons, tout d'abord, que cette fonction y = y(x] est biunivoque, c'est-a-dire Nous qu 'a une valeur de x correspond une seule valeur de y et inversement. Nous presentons sur la figure 2.1 un exemple de fonction de ce type.
Figure 2.1 : Une fonction biunivoque y = y(x)
Nous savons que la probabilite de trouver la valeur de x dans I'intervalle compris entre x et x + dx est egale a :
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
62
Nous cherchons la fonction g(y) qui nous donne la meme probabilite de trouver la valeur de y dans I'intervalle compels entre y et y + dy :
II suffit de reecrire (70) en remplacant x par y. Pour cela nous devons, d'abord, introduire la fonction inverse :
Ceci est possible car notre fonction y(x) est biunivoque. On a alors
II nous reste a remplacer dx par dy comme nous le faisons dans les changements de variables d'integration. La seule difference reside dans le fait que la densite de probabilite ne peut jamais etre negative. C'est pourquoi nous defmissons
si la derivee dx(y)/dy
est positive, et
si la derivee dx(y]/dy est negative. Les deux dernieres expressions peuvent etre reunies sous une forme compacte :
Les formules (72) et (73) nous donnent
La comparaison avec (71) nous permet d'obtenir le resultat final :
2.2.2
CAS GENERAL
Si la fonction y = y(x] n'est pas biunivoque (figure 2.2), la tache devient un peu plus compliquee. II faut d'abord introduire toutes les branches univoques pour la fonction inverse : x\ — x\(y\x-2 — x^y],... ,Xk = Xk(y), puis faire la somme sur toutes ces branches (la probabilite de trouver y dans I'intervalle entre y et y + dy est egale a la somme de toutes les probabilites d'apparition de x entre Xi et Xi -f dxi].
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
63
Figure 2.2 : Une fonction non biunivoque y — y(%)
Ainsi la generalisation de I'expression (74) s'ecrit
Prenons I'exemple y(x) = x2, avec une fonction de distribution de probabilite de x egale a f(x). La fonction y(x) = x2 n'est pas biunivoque car pour deux valeurs de x differentes on peut avoir la meme valeur de y : y(x) — x2 — ( — x } 2 . II existe done deux branches de la fonction inverse :
Leurs derivees sont :
Ainsi la densite de probabilite g(y] est donnee par
soit
64
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Les formules obtenues sont valables dans le cas d'une fonction d'une variable y = y(x). On peut les facilement generaliser au cas ou nous voulons passer de n variables independantes x\, x^, .. • , xn = x a n variables independantes j/i, y 2 , • • • > 2/n = y a I'aide d'une transformation y,- = y«(a?i, £2, • • • 5 #n) = yi(x). Alors la densite de probabilite /(xi, # 2 , . . - , xn) = f(x) (voir (18)) se transforme en une densite de probabilite (yi, 7/2, • • • ,yn) = d(y) a I'aide d'une relation qui est la generalisation de (74) etablie dans le cas d'une seule variable. II faut introduire la transformation inverse Xi = Xi(yi,y2j ... ,yn) = X i ( y ) . La densite de probabilite g(y) est
ou |5(a?i, x < 2 , . . . , xn)/d(yi, y % , . . . , yn}\ est la valeur absolue du Jacobien de cette transformation. Cette formule est analogue a celle utilisee pour un changement de variables d'integration. La seule difference est la presence du module deja discutee prcedemment. Pour les fonctions qui ne sont pas biunivoques, il faudra faire la somme sur tous les branches comme on I'a fait pour une fonction y — y(x).
2.2.3
EXEMPLE PHYSIQUE
Pour montrer 1'importance de ce type de problemes, non seulement pour la statistique mais egalement pour la physique en general prenons un exemple illustratif. II s'agit d'une collision elastique entre deux corps (deux particules) de meme masse m. D'apres les principes bien connus de la mecanique, nous savons que le mouvement des deux corps est la resultante du mouvement du centre de masse et du mouvement relatif par rapport a ce centre. Habituellement, on introduit un systeme des coordonnees correspondant au centre de masse car c'est dans ce referentiel que la description theorique de 1'interaction entre les deux corps est la plus simple. Cependant, 1'etude experimentale se fait dans le systeme dit du laboratoire, c'est-a-dire dans le systeme ou, avant la collision, un des corps etait au repos. Supposons que nous connaissions les caracteristiques de 1'interaction dans le systeme du centre de masse avec, par exemple, une distribution angulaire isotrope des particules apres la collision. Qu'observonsnous experimentalement, autrement dit, quelle sera la distribution angulaire dans le systeme du laboratoire ? Avant de chercher la relation entre les deux fonctions de distribution angulaires, rappelons la relation entre les angles de diffusion dans le systeme du laboratoire (figure 2.3 a) et dans le systeme du centre de masse (figure 2.3 b). Avant la collision dans le referentiel du laboratoire, un corps se deplace avec une vitesse VQ et le deuxieme est fixe. Apres la collision, les deux particules out des vitesses V\ et V<2 qui font les angles 9\ et 9-2 avec le vecteur VQ. La collision est elastique, c'est-adire que la structure interne des particules reste intacte et que 1'energie cinetique est conservee. Ainsi les lois de conservation de 1'energie et de I'impulsion
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
65
Figure 2.3 : Les vitesses et les angles dans le systeme du laboratoire (a) et dans le systeme du centre de masse (b)
nous montrent que V\ et Vz sont perpendiculaires :
La vitesse du centre de masse est egale a
Dans le systeme du centre de masse (figure 2.3 b), les particules ont les vitesses v{ et V2 de modules egaux mais de directions opposees :
Apres la collision, les modules des vitesses restent inchanges en vertu de 1'elasticite de la collision :
et la collision donne lieu "simplement" a une rotation d'un angle x Qui egt 1'angle de diffusion dans le systeme du centre de masse. Dans le systeme du laboratoire apres la collision, les vitesses sont egales a :
Si Ton represente graphiquement (figure 2.4), par exemple, la premiere relation, on voit toute de suite que
66
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 2.4 : Relation entre les angles dans le systeme du laboratoire et dans le systeme du centre de masse
Deux relations lient les angles polaires de diffusion dans les deux systemes. L'angle azimutal, bien evidemment, reste invariant et nous le designerons par
Comme nous 1'avons dit, dans le systeme du centre de masse la distribution angulaire est isotrope. Cela signifie que la probabilite dP que la particule 1 parte dans un angle solide dQcm divisee par d£lcm ne depend pas de Tangle :
La valeur de cette constante est egale a 1/47T car la probabilite est normee a 1. Vu la relation entre les angles solides (79), nous pouvons reecrire / C m(X; V7) s°us la forme
Ainsi nous avons la distribution angulaire dans le systeme du laboratoire qui d'apres (78) s'ecrit :
Les deux fonctions de distribution sont representees sur la figure 2.5. La conclusion physique est tres simple : une distribution angulaire isotrope dans le systeme du centre de masse se manifestera experimentalement par une distribution anisotrope dans le systeme du laboratoire. De plus, on peut economiser du temps en restreignant les mesures a 9\ < 7T/2. Du point de vue mathematique, nous avons vu que le changement des variables angulaires implique une modification de la forme de la distribution (la fonction constante a ete remplacee par une fonction lineaire).
II - FONCTIONS D'UNE VARIABLE ALEATOIRE
67
Figure 2.5: Les distributions angulaires dans le systeme du cnetre de masse (s) et dans le systeme du laboratorie(b)
2.2.4
PRECISION DE LA FORMULE DE PROPAGATION DES ERREURS
Nous avons deja souligne que la formule de propagation des erreurs, largement utilisee dans le traitement des resultats experimentaux, est une formule approchee (sauf dans le cas presque trivial d'une fonction lineaire). Cette approximation est parfois assez grossiere puisque pour obtenir la formule de propagation des erreurs nous avons utilise la relation (49) : y(x) ~ y(~x), alors que toute la statistique est basee, par la definition de la variance, sur 1'importance de la difference entre y — x2 et y ~ ~x2. Dans certains cas, nous pouvons obtenir 1'expression exacte de la variance a^ sans utiliser la formule de propagation des erreurs. Considerons Pexemple tres simple d'une fonction produit de deux variables independantes :
Cette fonction peut etre mise sous la forme equivalente :
c'est-a-dire sous la forme d'un developpement en serie de Taylor au voisinage du point xi = //!, x-2 ~ fJ.2- L'expression (80) contient un nombre fini de termes : une constante Ui «2 ; les contributions avec les derivees premieres
et un seul terme avec les derivees secondes puisque
Compte tenu de 1'independance de x\ et #2, nous pouvons calculer exactement la variance de y :
68
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
La formula de propagation des erreurs (57)
est obtenue en negligeant le dernier terme dans le developpement (80). Ainsi cette formule conduit a une erreur supplemental dans le calcul de (Ay) 2 = a^ egale a 2 9 «•
On pourrait penser qu'il est facile d'ameliorer la formule de propadgation des erreurs en poussant plus loin le developpement de la fonction en serie de Taylor. Cette proposition apparait dans certains livres sur 1'analyse des donnees. Techniquement, c'est un exercice simple, bien qu'il soit assez penible (il faut faire tres attention et garder correctement tous les termes de meme ordre dans le developpement et dans les calculs intermediares). Cependent des problemes majeurs apparaissent dans cette voie. Considerons 1'exemple simple d'une fonction d'une seule variable y — y(x). Comme pour la formule de propagation des erreurs, developpons cette fonction en serie de Taylor au voisinage de x — px = ~x :
Nous conservons volontairement le terme du troisieme ordre car il donnera en fait une contribution a la variance du meme ordre que le terme du seconde ordre. La valeur moyenne de y prend alors la forme
ou apparait le troisieme moment de la distribution pxs = (x — x)3 introduit en (12), qui caracterise I'asymetrie de la distribution de x. Ainsi, pour la variance, nous obtenons
ou est en outre introduit le quatrieme moment ^4 = (x — x}4. Le probleme est resolu formellement mais le prix a payer est 1'introduction de moments centraux d'ordres superieurs non utilises jusqu'a present et dont la determination experimentale peut s'averer delicate. Pour obtenir une expression plus precise de la variance, on a sacrifie la simplicite de la description des grandeurs physiques. Rappelons, que dans la plupart des situations, nous travaillons avec des distributions gaussiennes. La prise en compte du terme lineaire dans la formule de propagation des erreurs nous garantit la conservation du langage utilise (la variable y est aussi decrite par la distribution normale). II est vrai que, si x est decrite par une distribution gaussienne, nous pouvons exprimer tous les moments d'ordres superieurs a 1'aide de la variance (voir (27)), mais le probleme vient du fait que la variable y n'est plus gaussienne (on peut verifier que la distribution de y est asymetrique : ny3 7^ 0). Quand la distribution de y est gaussienne, un ecart-type <jy a une interpretation precise. Dans le cas contraire il peut la perdre. La question qui se pose est de savoir s'il
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
69
est Pinteressant d'obtenir une expression plus precise de 1'incertitude d'une grandeur physique si Ton ne peut plus 1'interpreter avec precision. Pour mieux comprendre, etudions sur un exemple le "passage" d'une distribution gaussienne a une distribution plus complexe. Soient x± et X2 deux variables gaussiennes. Quelle est la distribution de leur rapport
Appliquons 1'approche generale presentee dans le paragraphe 2.2.2. II faut passer des variables x\ et x^ aux variables y et z = #2 (cette derniere joue le role d'une variable auxiliaire) et integrer sur z. Pour simplifier les relations, supposons que les valeurs moyennes //,• sont positives et que les incertitudes sont faibles par rapport aux valeurs moyennes (
selon (77), la fonction de distribution g(y) de la variable y prend la forme
Le Jacobien de la transformation x\ — yz, x% = z est egal a
Ainsi I'integrale g(y) prend la forme
Cette derniere integrale peut etre calculee si Ton utilise la valeur de I'integrale auxiliaire2
2
L'astuce pour calculer J(A, B) est classique : il faut utiliser la methode de derivation par rapport au parametre B :
La derniere integrale se remene a I'integrale connue (25) par le changement lineaire de variable y = VAz - B/2VA.
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
70
on trouve finalement apres quelques calculs laborieux mais sans difficulte majeure
Dans cette expression
La fonction (81) s'ecrit sous une forme qui ressemble beaucoup (surtout si Ton fait 1'approximation supplementaire AQ(y)/A 2 (y) w 1) a la distribution de Gauss, mais sa largeur depend de y. Un exemple d'une telle distribution est trace sur la figure 2.6 (pour /^i///2 — 1,
Figure 2.6 : La fonction de distribution g ( y ) de y = x\jx2 (ligne continue) comparee a une fonction gaussienne (ligne pointillee).
On constate que, lorsque les incertitudes relatives sont faibles (
II - FONCTIONS D'UNE VARIABLE ALEATOIRE
71
Done, en premiere approximation, on retrouve une distribution gaussienne avec une moyenne yo = ^1/^2 et une incertitude ay en parfait accord avec la formule de propagation des erreurs (55). Si Ton veut ne pas se limiter a de cette approximation, on peut remarquer que la fonction g(y] n'est pas tout a fait symetrique par rapport a y = yo et aucune gaussienne, meme avec une largeur calculee a partir de la formule de propagation des erreurs amelioree, ne peut decrire correctement cette distribution. Ce fait est illustre sur la figure 2.6 ou la fonction de distribution (81) est comparee avec une fonction gaussienne pour laquelle la moyenne y sup et la variance
Notons que ces valeurs sont tres proches de la moyenne /jy et de la variance cr^ calculees avec la fonction de distribution (81) :
Neanmoins, la difference entre ces deux fonctions est evidente. On remarquera que la nouvelle fonction (81) depend de trois variable yo = ^1/^2, <TI//-II et o~2/H2i tandis qu'une gaussienne ne depend que de deux variables. En principe, des mesures precises de la fonction de distribution g(y) peuvent permettre d'avoir non seulement des informations sur la variable y mais aussi sur x\ et x<± (une des quatre caracteristiques des distributions initiales //i, <TI, jj.2, &2 restera toujours inconnue mais on pourra avoir les rapports entre elle et les autres). En conclusion de ce paragraphe, on constate que "Pamelioration" de la formule de propagation des erreurs, grace a 1'augmentation du nombre de termes dans le developpement en serie de Taylor, ne represente aucune dimculte. Mais cela n'a pas beaucoup d'interet puisque 1'interpretation du resultat obtenu en termes de probabilites reste assez limite.
2.3
NlVEAU DE CONFIANCE ET INTERVALLE DE CONFIANCE
Nous avons deja etudie des distributions tres differentes : symetriques et asymetriques ; definies sur un intervalle fini, demi-infini et infini ; determinees par un ou plusieurs parametres. Si nous conservons la meme approche, la description des donnees experimentales devient assez lourde (pour chaque grandeur physique on est oblige d'indiquer la loi de probabilite et ses parametres). Sans doute, une telle approche est indispensable pour rester precis dans la description des donnees (sans approximer les distributions de toutes les grandeurs par une loi gaussienne). Cependant, il est possible de 3
Nous laissons au lecteur le soin de retrouver ces expressions.
72
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
proposer une autre forme de description des donnees experimentales qui permet, au moins en premiere approximation, d'unifier les resultats de distributions differentes. La notion unificatrice sera, bien evidemment, celle de probability. On pent commencer par le cas le plus simple, celui d'une distribution de Gauss. Dans le paragraphe 1.2, nous avons vu qu'une grandeur decrite par cette loi de probability est entierement definie par deux valeurs [i et a et que le resultat, ecrit sous la forme // ± cr, a une interpretation rigoureuse en termes de probabilites. Autrement dit, si 1'on connait // et a on peut donner la probabilite Pr pour que x prenne une valeur dans 1'intervalle de x\ = n — r
Au lieu de caracteriser la variable x par \i, et cr, on peut la decrire par 1'intervalle [#1,2:2] et par la probabilite Pr de trouver x dans cet intervalle. Cette probabilite s'appelle le niveau de confiance et 1'intervalle correspondant rintervalle de confiance. Plus la probabilite est elevee, plus grand est 1'intervalle correspondant (pour que 1'on soit certain de trouver x dans cet intervalle). Bien sur, pour presenter un resultat, on peut choisir une valeur quelconque de r (et la valeur de Pr correspondante), mais les intervalles les plus frequemment utilises sont ceux qui correspondent a un (r = 1) ou deux (r = 2) ecart-types. Autrement dit, on choisit les niveaux de confiance de 68 % ou 95 %. Pour une distribution de Gauss, les relations entre les niveaux de confiance et les intervalles de confiance correspondants d'une part, et les valeurs de fj, et cr d'autre part, sont simples. Pour fj, et a donnes et Pr choisie, on calcule facilement 1'intervalle [a?i, #2] (voir paragraphe 2.1). Et inversement, si 1'on connait [#i, x?] et la probabilite Pr, on peut retrouver // et a. Si, par exemple, Pr = 95 %, alors r = 2 et on peut calculer // = \(x\ + #2) et
A 1'inverse, connaissant Pr, on peut toujours determiner r et ainsi trouver 1'intervalle de confiance. Par exemple, a une probabilite Pr = 95,0% correspond r = 1,960, a Pr = 99, 00% correspond r - 2, 576 et a Pr = 99, 9% correspond r = 3, 290.
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
73
Les avantages d'une telle presentation sont, d'une part, qu'elle est suffisamment informative (elle nous donne le domaine de variation de la valeur de x et la probabilite de 1'y trouver) et, d'autre part, qu'elle est aisement generalisable aux autres distributions. Quelle que soit la distribution /(a?), on peut decrire le resultat observe par le niveau de confiance Pr et 1'intervalle de confiance [xi, xz]
II est vrai que pour une distribution non gaussienne, la determination de la moyenne et de la variance a partir de Pr et [xi,X2] peut etre plus complexe que pour une distribution gaussienne ; mais si Ton dispose d'une information exhaustive (forme de la distribution et autres parametres necessaires comme, par exemple, le nombre de mesures effectuees) ce probleme peut etre resolu. Des exemples d'utilisation des niveaux et des intervalles de confiance seront presentes lors de la discussion d'utilisation de la distribution de Student (pour un nombre limite de mesures) ou encore de la distribution %2 (pour 1'ajustement des parametres). Notons qu'un tel language permet de presenter d'une fagon tres informative un autre type de resultats experimentaux : les resultats negatifs, c'est-a-dire le fait qu'un phenomene attendu n'est pas observe. Toute la physique des particules en est une bonne illustration : pendant tres longtemps on cherche une particule, on ne la trouve pas, mais on continue jusqu'au jour ou 1'on obtient un resultat positif. On a cherche ainsi la particule vehiculant 1'interaction forte, proposee par Yukawa, ou du positon (antiparticule de 1'electron) dont 1'existence avait etc predite par Dirac. Aujourd'hui recherche le boson de Higgs (selon les modeles actuels, c'est une particule qui serait responsable de 1'existence de la masse de toutes les autres particules) : les recherches de cette particule out debute il y a plus de quarante ans mais n'ont toujours pas abouti. Quand un resultat negatif est obtenu, on peut quantifier cet echec : on peut dire, par exemple, que, dans le domaine de variation des parametres ou la recherche a ete menee, la probabilite de trouver une particule est inferieure a une certaine valeur. D'habitude, une particule se manifeste par un signal x dans un detecteur. Quand aucun signal n'est enregistre, on peut considerer que ce signal est inferieur a une certaine valeur xi, et ce, avec une certaine probabilitee Pr(x < xi). C'est pour ce type de resultats qu'il est utile d'introduire des niveaux de confiance dont 1'intervalle est limite d'un seul cote. On a alors affaire a un intervalle unilateral (contrairement a un intervalle bilateral introduit au depart). La probabilite que x soit plus petit que x\ est alors egale a
Avec une distribution de Gauss, on peut facilement trouver la valeur de xi (ou de r) telle que la probabilite d'obtenir x < x\ = // + rcr, soit egale a Pr :
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
74
Evideminent, pour une meme probabilite Pr, les intervalles unilateraux et bilateraux ne sont pas les memes. Par contre, si Ton salt calculer les intervalles unilateraux, par soustraction, on obtient facilement les intervalles bilateraux, et vice versa. Quelques exemples numeriques sont donnes dans le Tableau 2.2. Tableau 2.2 : Probabilites Pr (en %) pour que la valeur d'une variable gaussienne x soit inferieure a /j, + rcr
r
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Pr
50,00
69,15
84,13
93,32
97,72
99,38
99,87
99,98
CHAPITRE 3 EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
Ce chapitre presente 1'interet d'expliciter la procedure a adopter dans telle ou telle situation experimentale. II comprend plusieurs paragraphes consacres a des questions precises qui apparaissent lors du traitement des resultats experimentaux. Nous essayons de montrer les differents "niveaux" d'un tel traitement, qui vont d'une consideration tres simple pouvant prendre quelques minutes jusqu'a une analyse assez sophistiquee a laquelle il faut consacrer beaucoup plus de temps. Le choix d'une analyse depend de la qualite du resultat que nous desirous obtenir, de 1'effort et du temps que nous sommes prets a y consacrer. II faut souligner qu'en physique comme dans la vie la methode de traitement des resultats est choisie pour minimiser le rapport qualite/prix. De plus, ayant obtenu un resultat, nous devons nous assurer qu'il est "raisonnable" et que notre analyse est bien autocoherente. Nous illustrerons ces etapes du travail et repondrons aux diverses questions precedentes.
3.1
ECHANTILLON, VALEUR MOYENNE ET ECART-TYPE
En general, lors d'une experience, il est difficile de connaitre la distribution de la valeur physique mesuree x et ainsi de determiner la valeur moyenne de la distribution /j, et sa variance
76
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Nous aurons done besoin de distributions plus compliquees que celles de Gauss et nous les presentons dans ce chapitre.
3.1.1
DEFINITIONS ET PROPRIETES
Une experience de physique donne un nombre fini de mesures. Get ensemble de resultats {xi} s'appelle un echantillon. Comment a partir de ces resultats obtenir des informations sur la valeur moyenne // et sur la variance cr2 ? La reponse intuitive est presque evidente, surtout compte tenu du theoreme central limite. La valeur qui remplace la moyenne /j, peut etre construite simplement comme la moyenne arithmetique de tous les resultats {x^} :
Nous appellerons cette valeur la moyenne estimee a partir d'un echantillon ou plus simplement la moyenne experimental pour la distinguer de la vraie moyenne // que nous appellerons aussi la moyenne theorique. Cette moyenne experimentale peut etre consideree comme une grandeur physique. Elle est la somme de n grandeurs independantes car nous supposons que les mesures {%i} sont independantes. Pour n grandeurs independantes, la fonction de distribution se factorise en un produit de fonctions de distribution (voir (18)). (Arm d'alleger les demonstrations nous n'ecrivons pas les integrates multiples pour exprimer les valeurs moyennes qui sont symbolisees par une barre). Ainsi, la valeur moyenne de m est egale a
(a comparer avec (19)) et la variance cr2^ a
(voir la demonstration de la formule (17) et comparer avec (20)). Soulignons le resultat deja etabli lors de la demonstration du theoreme central limite : 1'ecart-type de la valeur moyenne experimentale crm decroit comme l/^/n. De plus, en vertu de ce theoreme, nous pouvons dire que la distribution de m devient de plus en plus proche de la distribution normale quand le nombre de mesures n augmente (pour 1'instant nous n'avons fait aucune hypothese supplementaire sur la forme de la distribution de x ) . Le deuxieme probleme est celui de la variance. Par analogic avec la valeur moyenne on definit la variance experimentale comme
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
77
L'apparition de n — 1 a la place de n dans le denominateur peut paraitre un peu surprenante. Mais on peut la justifier meme qualitativement : une seule mesure est suffisante pour avoir une information concernant la moyenne mais on a besoin d'au moins deux mesures pour pouvoir apprecier 1'ecart par rapport a la valeur moyenne. En fait, le veritable argument pour ce choix est la condition d'egalite de la valeur moyenne de la variance experimentale s2 et de la variance a2. D'apres notre definition (85), la valeur moyenne de la variance experimentale s2 est egale a :
Ecrivons le terme sous la somme en utilisant le fait que les valeurs moyennes de Xi et de ra sont identiques et egales a p :
Le premier terme dans cette expression donne, par definition, cr 2 , le troisieme cr 2 /n, en vertu de (84). Pour calculer le deuxieme terme explicitons la difference
Alors,
car dans cette somme il n'existe qu'une seule contribution differente de zero pour k = i. Finalement, nous obtenons la valeur moyenne de la variance :
Ainsi nous avons construit une grandeur s2 qui, dans la limite d'un grand nombre de mesures, nous donne la vraie variance
Lorsque n tend vers 1'infini, cette valeur tend vers zero comme
78
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
quadratique moyen s^ (88). Soulignons que cet ecart est une caracteristique de m et represente ainsi 1'incertitude sur cette derniere valeur et non pas sur x. Si Ton veut determiner la variance de x il faut utiliser la definition (86). Bien evidemment, les deux valeurs m et sm ne sont plus suffisantes pour presenter toute 1'information experimentale (les deux definitions contiennent explicitement un troisieme parametre, le nombre de mesures n). Plus tard nous completerons cette description et nous en donnerons une interpretation exacte a 1'aide des probabilites, comme cela a deja ete fait pour la distribution de Gauss. Par analogic avec les formules (86) et (83), on peut defmir la covariance, le coefficient de correlation et les moments d'ordre superieur pour un echantillon. Ainsi, par exemple, la covariance de deux variables x et y est donnee par
ou mx, my et mxy sont les valeurs moyennes de x, de y et du produit xy selon la defmtion (83). Le coefficient de correlation est alors egal a
ou sx et Sy representent les racines carrees des variances expreimentales de x et de y defmies dans (86). Nous aurons egalement besoin des moments centraux m^ pour k > 3, qui peuvent etre defmis par
3.1.2
PRECISION DE LA VARIANCE EXPERIMENTALE ET CHIFFRES SIGNIFICATIFS
II faut aller plus loin dans 1'analyse des nouvelles definitions. Pour la valeur moyenne m, 1'incertitude experimentale est donnee par la racine carree de sa variance, autrement dit par sm. Mais cette valeur sm etant une valeur determinee a partir des donnees experimentales, possede sa propre incertitude. Nous devons savoir 1'estimer. Malheureusement, on ne peut pas obtenir un resultat general pour toute distribution ; c'est pourquoi on fait 1'hypothese supplementaire que la grandeur x est distribute selon la loi normale. Le probleme devient facile a resoudre bien que sa demonstration soit assez longue. La mesure de 1'incertitude est la racine carree de 1'ecart quadratique moyen. Si 1'on veut calculer 1'erreur de s"L on doit calculer la variance correspondante :
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
79
Pour calculer s^ ecrivons d'abord s^ sous la forme
peut etre mis sous la forme
Ainsi s^ est donnee par
Prenons le carre de cette expression et calculons la valeur moyenne s^ a un facteur multiplicatif n2(n — I)2 pres. Nous obtenons trois termes. Le premier, est donne par
ou nous avons introduit, en accord avec (12), les moments centraux
pour k = 2 et k — 4. Le deuxieme terme est nul :
car, en vertu de la condition k ^ I dans la deuxieme somme, il contient seulement les puissances impaires de (xi — /u) dont la valeur moyenne est nulle (voir la remarque apres
80
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
I'equation (26)). Finalement, pour le troisieme terme, nous avons
du fait que les puissances impaires de (a?,- — /u) donnent zero ; ainsi, dans ce produit, les termes non nuls correspondent ai = k,j = louj = k, i = 1. Le resultat final pour s^ est :
Du fait que, d'apres (88),
la variance D(s^) est donnee par
Dans cette expression, on peut utiliser le fait que, pour une distribution normale, //2 = v"2 et /i4 = 3cr4 (voir (27)) :
L'incertitude relative (34) sur la valeur de la variance experimentale est egale a
Une fois de plus nous retrouvons une dependance de la forme \j\fn ; autrement dit. il est assez difficile d'avoir une tres bonne precision sur les incertitudes dans une experience : on a besoin de plusieurs dizaines de mesures pour s'approcher de la precision de 1'ordre de 10%. Nous reviendrons sur la formule (93) dans un paragraphe special consacre a la precision des incertitudes. La precision d'une experience Aa? est determinee a partir des donnees experimentales et possede aussi sa propre incertitude. Sa connaissance est tres importante dans 1'analyse des resultats car elle est liee directement a leurs interpretations en termes de probabilites. Une erreur d'un facteur 2 dans Ax peut modifier completement les conclusions. Dans certaines situations, on peut connaitre de maniere assez exacte la precision sur 1'incertitude Aa?. S'il s'agit d'une incertitude purement statistique nous avons montre que 1'incertitude relative sur la variance experimentale est d'apres (93)
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
81
Ax est proportionnel a la racine carree de s^ et ainsi son incertitude relative est egale a
Soulignons que cette fonction decroit tres lentement avec le nombre de mesures n. Sa courbe est presentee sur la figure 3.1. Pour 5 — 6 mesures, 6&x est a peu pres egale a 1/3 et il faut effectuer une cinquantaine de mesures pour avoir une incertitude relative de 1'ordre de 10%.
Figure 3.1 : L'erreur relative sur 1'incertitude S^^ en fonction du nombre de mesures n
En travaux pratiques, nous obtenons difficilement une precision sur 1'incertitude superieure a 10%. Nous pouvons le regretter mais il faut s'en contenter en gagnant du temps de calcul comme nous 1'avons fait au paragraphe precedent. La precision de 1'incertitude et le nombre de chiffres significatifs qu'il faut garder dans un resultat final sont directement lies (il vaut mieux conserver un peu plus de chiffres lors de calculs intermediaries pour eviter les erreurs d'arrondissement). Si la precision de 1'incertitude est de 1'ordre de 10—30%, il faut retenir un ou deux chiffres significatifs dans 1'incertitude. Le nombre de chiffres dans la valeur x doit etre coherent avec le nombre de chiffres dans 1'incertitude. Par exemple, nous avons obtenu un resultat # exp = 1, 37685 • 10~3 avec une incertitude Ax = 4,87611 • 10~5. Dans le resultat final de Ax, il faut retenir un chiffre Ax = 5 • 10~5 si 6&x est proche de 30% ou deux chiffres Ax = 4, 9 • 10~5 si S&,x est plutot proche de 10%. Selon ces deux cas, nous garderons trois ou quatre chiffres pour exprimer la valeur de xm, soit xm = 1, 38 • 10~3 ou xm = 1, 377 • 10~3 respectivement.
82
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Le resultat final s'ecrit
3.1.3
DISTRIBUTION x2
Pour etidier les caracteristiques de la variance experimentale (85), trouvons lafonction de distribution d'une variable aleatoire y liee aux variables aleatoires a?i, # 2 , . . . ,xn par la fonction
Supposons que les variables xi, x % , . . . ,xn sont distributes selon une loi normale, avec une moyenne nulle et une variance unite. Pour une seule variable y(x) — x2 le resultat general a deja ete exprime par (76). Pour la distribution de Gauss cette formule s'ecrit comrne
Autrement dit, g(y] represente une distribution gamma avec a — —1/2, /? = 2 et a une fonction generatrice
Pour la somme des n variables independantes (95) nous pouvons utiliser la propriete (21) et ecrire la fonction generatrice de Xn '•
Cette expression signifie que Xn a une distribution gamma avec a — n/2 — 1 et j3 = 2 :
Ainsi nous avons trouve ce que Ton appelle la distribution de probabilite x2 • Sa valeur moyenne est
et sa variance
Quelques exemples de la distribution %2 sont donnes sur la figure 3.2.
Ill — EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
83
Figure 3.2 : La distribution Xn P°ur n — 4,8,16
Dans la limite d'un grand nombre de mesures n —> oo, la distribution x 2 tend, comme il se doit, vers celle de Gauss. Nous ne demontrons pas ici ce resultat. Notons simplement que le changement formel de variable y/2 —>• /j et n/2 — I —)• n nous donne la densite de probabilite pour la distribution de Poisson (36) qui tend vers la distribution de Gauss lorsque n —>• oo. Notons que la ressemblance formelle entre ces deux distributions, deja mentionee lors de la discussion de la distribution gamma, conduit a des relations utiles. Par exemple, les intervalles de confiance (voir paragraphe 2.3) pour la distribution de Poisson et pour la distribution x2 sont lies entre eux :
Pour demontrer cette relation, on fait le changement de variable z = x/2 et on integre n fois par parties :
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES Nous sommes passes d'une distribution a n variables a une nouvelle distribution d'une seule variable. Une question assez naturelle peut etre posee : oil et quand les autres variables ont-elles disparu ? Pour mieux voir et comprendre la technique de ce "tour de passe-passe", prenons un exemple bien connu de la physique statistique : un gaz de particules sans interaction qui se trouve a 1'equilibre thermodynamique a la temperature T. Chaque composante Vi (i — x, y, z] de la vitesse des particules du gaz a une distribution maxwellienne :
ou m est la masse des particules, k la constante de Bolzmann. Quelle est la loi de distribution de 1'energie des particules ? L'energie est liee a la vitesse par une relation du type (95) :
La probability de trouver les composantes de la vitesse dans les intervalles compris entre vx et vx + dvx, vy et vy + dvy, vz et vz + dvz est egale a
Nous ne sommes interesses que par 1'energie des particules et ainsi les directions de la vitesse n'ont aucune importance. Nous pouvons ecrire 1'element de volume dans 1'espace de vitesses dvxdvydvz sous la forme v dvdQv, ou v est le module de la vitesse et d£lv 1'angle solide dans cet espace. Calculons 1'integrate sur £lv, c'est-a-dire la somme sur toutes les directions possibles. Apres une telle sommation, dvxdvydvz se transforme en 47rv2dv. Le dernier pas concerne le passage de la vitesse a 1'energie : v = ^/2E/m et dv = dE/VZmE. On en deduit la distribution de probabilite en energie. La probabilite de trouver la particule avec une energie dans 1'intervalle compris entre E et E + dE est egale a :
C'est une distribution gamma avec a = 1/2 et (3 = kT. En posant e = 2E/kT et g(e}de = g(E)dE, on a
soit une distribution %2 avec n = 3. Le parametre n dans la distribution de Xn es^ le nombre de degres de liberte. Dans cet exemple, \2 a trois degres de liberte. Le passage des vitesses a 1'energie fait "disparaitre" deux degres de liberte (deux variables) lors de 1'integration sur Tangle solide.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
85
Considerons une autre grandeur directenient liee a la variance experimentale (86) :
qui peut etre mise sous la forme
Nous verrons que cette grandeur est egalement distribute selon %2 mais avec n — 1 degres de liberte ! II est possible de prevoir ce resultat et meme de le comprendre qualitativement. Certains arguments qualitatifs ont ete developpes au paragraphe 2.1.1, lors de la discussion du facteur n — I dans la definition de la variance experimentale. II faut aussi noter que les n grandeurs z; = Xi — m sont liees par la relation
et qu'ainsi dans la formule (100) nous avons n —1 et non pas n variables independantes. Le principe d'une demonstration plus rigoureuse est le suivant. Nous voulons passer de n variables independantes x±, x?,. . . , xn = x a n variables independantes yi, y^,. . . ,yn = y a I'aide d'une transformation yi = y z '(^i, x-2, • • • , xn) = Hi(%}- Pour cela, on utilisera la formule (77) introduite a la fin du paragraphe 2.2.2. Effectuons une transformation lineaire orthogonale
avec
Une rotation dans I'espace euclidien a n dimensions est un exemple d'une telle transformation. Le Jacobien est alors egal a 1 et, en vertu de (77), la fonction de distribution est inchangee. La formule (101) nous garantit que la forme de la distribution reste gaussienne :
La condition (101) peut encore s'exprimer a I'aide des coefficients c ? j sous la forme
86
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Dans le cas particulier ou
la condition (102) prend la forme
Pour notre fonction w (100), choisissons
et les autres yi avec i > 2 de facon arbitraire. IMeanmoins, les fonctions yi possedent les proprietes suivantes (rappelons que tous les Xj ont les memes // et cr) :
et
qui ont ete etablies en utilisant I'independance des Xi et la relation (102). Ainsi les variables t/» sont distributes selon une loi gaussienne avec une moyenne nulle et une variance a2.
Les expressions (101) et (103) nous permettent de reecrire w sous la forme
Autrement dit, la grandeur w est distribute selon la loi %2 avec n — l degres de liberte. Ainsi nous pouvons utiliser les resultats etablis sur la distribution x2 (98—99) et en deduire immediatement que
resultats que nous avons deja obtenus difTeremment (voir (87) et (93)). Notons sans demonstration que, dans un cas general, le nombre de degres de liberte v d'une distribution xl pour la somme de carres du type (104) est egale a
ou / est le nombre de relations lineaires entre |xz-}.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
3.2
87
DISTRIBUTION DE STUDENT
Pour pouvoir interpreter les resultats experimentaux en termes de de m (82) et de sm (88), on a besoin de la fonction de distribution de la variable
ou m et sm sont definies par (82) et (88). La solution du probleme est relativement simple si nous exprimons cette fonction sous la forme
La variable y\ a une distribution normale (car tous les x± ont la meme distribution normale) avec la moyenne nulle (83) et la variance unite (84). La variable y^ est distribute selon Xn-i comme nous venons de le demontrer (104). Ainsi nous connaissons les distributions de yi et de y? et nous voulons trouver la distribution du rapport t — yi/^/y^ en utilisant les regies connues de transformation des distributions. La densite de probabilite de y\ et y? est egale a :
avec 7/1 qui varie de —oo jusqu'a +00 et y% qui varie de 0 jusqu'a +00. d'abord cette densite en faisant le changement de variables
Transformons
soit par transformation inverse
Le module du Jacobien de cette transformation est egal a ^fz^ et, conformement a (77), la nouvelle densite de probabilite h(z\}zi) est
88
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Pour obtenir la densite de probabilite f(t] nous integrons h(zi,Z2) par rapport a z-2 et utilisons la relation f(i) — f(zi}\dz\/dt\ :
Le changement de variable
ramene cette integrale a une fonction F.
Figure 3.3 : La distribution de Student pour n = 2 (distribution de Lorentz), n = 5, et n = oo (distribution de Gauss)
Finalement la distribution f(t] s'ecrit
ou t a n — I degres de liberte. Les variables initiates y\ et y^ (soit Xn-i} en on^ 1 et n — 1 respectivement. L'integration sur z-i a elimine une variable (un degre de liberte) : l + (n — 1) — I = n — 1. La constante C dans 1'expression (107) est egale a
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
89
Pour n donne, les fonctions F dans la formule ci-dessus peuvent etre explicitees a 1'aidede (43) et (44). Cette fonction (107) est relativement simple. Pour n = 2, on retrouve la distribution de Lorentz. Pour n > 2, la distribution t de Student represente, grosso modo, une certaine puissance de cette distribution. Vu la discussion du paragraphe 1.3.3, nous pouvons tout de suite dire que, pour n donne, seuls les moments p^ avec k < n — 1 peuvent etre definis. On peut aussi calculer facilement la valeur moyenne et la variance de cette distribution lorsque cette derniere existe :
Dans la limite n —>• oo, la distribution de Student se transforme en distribution gaussienne. La demonstration est simple et peut etre realisee par le lecteur interesse. Plusieurs exemples de la distribution de Student sont presentes sur la figure 3.3. La figure 3.4 est une version elargie de la figure 1.12 ; elle montre les relations qui existent entre les differentes distributions. Notons que nous avons regroupe la distribution F (45) et celle de Poisson (36) par suite de la ressemblance formelle de leurs dependances fonctionnelles. Neanmoins, il ne faut pas oublier que les roles des variables et des parametres sont inverses dans ces distributions.
Figure 3.4 : Les relations entre les differentes distributions
90
3.2.1
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
PETIT NOMBRE DE MESURES
Commengons par un exemple concret : nous mesurons n fois la longueur / d'une plaque metallique et ainsi obtenons des resultats {/i, l^, • • • , ln}- Solent n = 6, /i = 4372 mm, / 2 = 4364 mm, /3 = 4342 mm, 14 = 4338 mm, 15 = 4354 mm et /6 = 4330 mm. Quelle est la longueur de la plaque ? Ier niveau d'analyse
L'objectif est d'avoir une idee sur 1'ordre de grandeur des parametres du probleme. II est logique de supposer que la vraie valeur de la longueur se trouve entre la valeur minimale et la valeur maximale mesurees et que 1'ecart entre ces deux valeurs donne une estimation de 1'incertitude. Nous prenons comme estimation :
Dans notre cas, lmax = 4372 mm et lmin — 4330 mm, ou
Le resultat est simple et rapide. Peut-on lui donner credit ? Pourquoi pas ? Quels sont les justificatifs mathematiques d'un tel resultat ? Nous ne les avons pas. Nous avons obtenu une idee de la valeur mesuree et 1'interpretation de la derniere formule ne peut aller au-dela de ce que nous avons fait : la valeur cherchee est la moyenne entre les valeurs maximale et minimale mesurees et 1'incertitude est la moitie de 1'ecart correspondant. II est difficile d'interpreter cette analyse en termes de probabilites. IP niveau d'analyse
Son but est d'obtenir la valeur de la longueur et de 1'incertitude sur cette valeur et, en outre, de pouvoir les interpreter en termes de probabilites comme nous 1'avons fait au debut de ce livre (voir le paragraphe 1.2). Supposons de plus que la distribution de la longueur / est celle de Gauss. Avec cette hypothese supplementaire, nous pouvons utiliser la distribution de Student etudiee au debut du paragraphe 3.2. Nous avons vu que si une grandeur physique est distribute selon une loi normale, alors la valeur
est decrite par la distribution de Student / n _i(t) (107). Dans cette expression, // est la vraie valeur de la grandeur mesuree (dans notre cas, la longueur /), m la moyenne estimee a partir des resultats experimentaux (82)
et s^ la variance experimentale de cette moyenne (88)
Ill — EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
91
Soulignons une fois de plus que m et sm sont entierement definis par les resultats experimentaux. La forme de la distribution de Student est relativement proche de celle de Gauss (elle est la meme dans la limite n —>• oo) et ainsi nous aliens vite comprendre par analogic avec la distribution de Gauss comment nous pouvons 1'utiliser. En termes de probabilites, la phrase "t a la distribution de Student" signifie que la probabilite de trouver la vraie valeur /j de / dans 1'intervalle compris entre m — smt^p et m + smivp est egale a :
(comme toujours, c'est 1'aire de la surface sous la courbe de la fonction de distribution ; voir la figure 3.5). Dans la notation tvp nous avons introduit les deux parametres dont depend ce coefficient : v = n — I qui est le nombre de degres de liberte de notre probleme et la probabilite P desiree. Cette probability est le niveau de confiance et 1'intervalle correspondant, FintervaUe de confiance qui ont ete definis dans le paragraphe 2.3. Nous connaissons la fonction fv(t) pour un nombre de mesures donne, c'est pourquoi nous pouvons etablir une bijection entre la valeur de t^-p qui nous definit 1'intervalle et la probabilite P (109). Nous pouvons calculer la probabilite qui nous interesse et determiner numeriquement la valeur correspondante du coefficient tvp qui s'appelle le coefficient de Student. Ces resultats numeriques sont representes dans le tableau 3.1. Us donnent la valeur de t^p a prendre pour que, pour n = v-}-\ mesures, la probabilite de trouver la vraie valeur dans 1'intervalle compris entre m — smtvp et m-\rsmtv-p soit egale a P.
Figure 3.5 : La distribution de Student pour n = 6
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
92
Tableau 3.1 : Les coefficients de Student tv-p correspondant a un nombre v de degres de liberte et a une probabilite T
p
0,2
0,4
0,5
0,6
0,7
0,8
0,9
0,95
0,99
0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,256 0,253
0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,530 0,524
1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,683 0,674
1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,854 0,842
1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,055 1,036
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,311 1,282
6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,836 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,699 1,645
12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,132 2,120 2,110 2,101 2,093 2,086 2,045 1,960
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,756 2,576
V
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 oo
En pratique cela signifie que la valeur de 1'incertitude depend du nombre de mesures et de la probabilite avec laquelle nous voulons connaitre la vraie valeur dans 1'intervalle indique :
Dans les conditions limites d'un grand nombre de mesures, les coefficients de Student tv-p coincident avec les valeurs donnees par la distribution de Gauss (voir la derniere ligne du tableau 3.1). Par exemple, pour une probabilite (un niveau de confiance) de 95%, le coefficient ti/ =0 o;7>=o,95 = 1, 96. Quand le nombre de mesures n'est pas eleve, par exemple n — 3, pour la meme probabilite il faut prendre Al beaucoup plus grand £t/=2;7>=0,95 = 4, 3.
Desormais, pour un nombre fini n de mesures, notre resultat s'exprimera sous la forme
dont 1'interpretation est un peu plus compliquee que dans le cas de la distribution de Gauss : nous sommes obliges de donner le nombre de mesures effectuees et la probabilite choisie pour pouvoir utiliser un coefficient de Student.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
93
Dans l'exemple de la longueur de la plaque,
et
Pour presenter le resultat final (111), choisissons, par exemple, ime probability de 95%, alors le coefficient de Student ^_ 5 .-p =095 = 2,57 et A/ = 17 mm. Ainsi la valeur moyenne de la longueur est :
avec un niveau de confiance de 95% pour les 6 mesures effectuees. Soulignons un point tres important deja mentionne au debut du paragraphe 2.3. L'incertitude A/ dans cette expression est 1'incertitude sur la moyenne ra et non pas sur la longueur / elle-meme ! Dans le cas d'un grand nombre de mesures, la variance de la valeur moyenne s^ tend vers zero et non pas vers la veritable variance cr 2 . Si nous voulons avoir une estimation de la veritable variance il nous faut utiliser la definition (85)
Dans notre exemple, s — A/6 - 6 , 6 mm — 16 mm. C'est la raison pour laquelle nous avons ecrit "la valeur moyenne de la longueur" et non pas "la longueur" tout court. Nous voyons que le deuxieme niveau d'analyse est plus rigoureux et plus riche d'information que le premier, mais il est aussi notablement plus lourd dans son traitement et surtout dans son interpretation. Dans le resultat final, nous avons garde deux chiffres significatifs mais on aurait pu n'en garder qu'un seul. Montrons comment evaluer 1'incertitude de 1'incertitude. L 'estimation "theorique" obtenue dans (94) ne depend que du nombre de mesures n, et conduit pour 1'incertitude relative a
Rappelons que pour obtenir cette estimation, chaque mesure Xi est supposee avoir une distribution de Gauss. II est possible d'obtenir une estimation experimental e de cette valeur a partir des donnees obtenues. Pour cela, on utilise les formules (94) et (93)
94
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
et les valeurs experiment ales de 0(8^) et s^. Pour D(s^), on utilise la formule generale (92) dans laquelle les moments "theoriques" ^ et ^4 sont remplaces par leurs valeurs experimentales m^ et 7714 introduites dans (91). Dans notre exemple,
Finalement, pour <J^, on obtient
en parfait accord I'estimation "theorique". Ill 6 niveau d'analyse
En fait, nous pouvons aller plus loin dans notre analyse des donnees experimentales. Pour utiliser la distribution de Student, nous avons fait 1'hypothese supplemental que la longueur / est distribute selon la loi normale. Est-ce vrai ? Nos mesures correspondent-elles a une telle hypothese ? II n'est pas tres facile de trouver la reponse a ces questions, surtout pour un nombre si faible de mesures. Neanmoins nous pouvons essayer. Si la distribution de la longueur est vraiment gaussienne, on doit s'attendre a avoir a peu pres deux tiers de resultats dans 1'intervalle compris entre fi — cr et {J, +
Ill — EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
95
On aurait pu voir qu'il y a probablement un probleme dans les donnees experimentales en comparant les estimations "theorique" et experimental de 6<\x. La valeur "theorique"
est tres differente de celle obtenue a partir des donnees experimentales :
Cette difference peut servir d'indication sur 1'existence d'un probleme dans les donnees. Compte tenu de fait que pour obtenir 1'estimation "theorique" nous n'avons utilise que 1'hypothese de normalite de la distribution, c'est cette hypothese qui doit etre verifiee en premier lieu. En fait, il existe une procedure relativement simple (criteres de Pearson) qui permet de voir si la distribution a laquelle on a affaire est une gaussienne. Cette procedure est basee sur la verification des relations precises qui existent entre les moments centraux differents d'une distribution gaussienne (voir (27)). Dans ce livre, nous ne presentons pas ces criteres car, dans les experiences simples, ils ne sont pas souvent utilises.
Nous avons compris que la methode d'analyse des donnees experimentales depend de la rigueur et de la precision du resultat que nous voulons obtenir. Notons que le premier niveau, bien qu'il ne possede pas de bases mathematiques profondes et qu'il ne soit fonde que sur notre "bon sens", donne presque toujours des resultats acceptables. La plupart du temps, il donne tout a fait correctement la valeur de la grandeur physique (a a pres). Par centre, 1'incertitude estimee dans cette methode peut etre assez differente de 1'incertitude exacte par un facteur deux-trois ou meme plus (dans notre exemple, nous avons obtenu une estimation de 21 mm au lieu de s = 16 mm ; nous verrons d'autres exemples ou cette difference est encore plus grande). Le premier niveau d'analyse des donnees est utile, surtout si Ton tient compte de la facilite avec laquelle les resultats sont obtenus. On peut dire que le deuxieme niveau est un niveau fondamental. II donne les resultats avec une interpretation precise, y compris pour 1'analyse posterieure plus sophistiquee. Cette etape est indispensable lors d'une experience effectuee en travaux pratiques. Le troisieme niveau est presque obligatoire si nous effectuons une veritable experience de physique en laboratoire. II touche des aspects un peu differents de la statistique : il essaie d'analyser la validite des hypotheses qui forment notre theorie. Dans notre exemple, nous avons tente de verifier 1'hypothese sur la forme de la distribution pour la longueur. Jusqu'ici nous n'avons pas considere ce type de problemes en statistique. Ces problemes sont importants surtout pour une experience reelle de physique, mais ils necessitent des resultats statistiques beaucoup plus fournis que ceux que nous pouvons obtenir lors de travaux pratiques classiques.
96
3.3
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
DEUX RESULTATS EXPERIMENTAUX
Un autre probleme apparait lorsque Ton veut comparer des resultats experimentaux. Avant de discuter le cas de deux grandeurs decrites par la distribution de Student, commenc.ons par celui de deux grandeurs decrites par une distribution gaussienne. A partir de deux resultats, x\ ± A#i et £2 i A#2, il faut introduire leur difference X = x\ — xi qui a egalement une distribution gaussienne avec une moyenne nulle et une variance AX2 = Ax± + Ax%. Si la valeur de X est compatible avec 0, compte tenu de son incertitude, alors les deux resultats sont compatibles. Par exemple, on veut savoir si la temperature dans une piece varie dans le temps. On a effectue deux mesures a une heure d'intervalle et on a obtenu deux valeurs TI = 25, 2 ± 0, 2 °C et T2 = 24, 5 ± 0, 2 °C. La difference T = TI - T2 = 0, 7 °C doit etre comparee avec 0. On voit que cette valeur depasse la? (avec UT = 0, 3 °C) et 1'on peut raisonnablement conclure que la temperature a effectivement varie. Etudions maintenant un exemple de deux grandeurs decrites par la distribution de Student. Supposons qu'un collegue ait mesure la longueur de la meme plaque metallique et qu'il ait obtenu la valeur
avec la meme probabilite P = 95% mais pour n = 10 mesures. Rappelons que notre resultat, pour n = 6 mesures, est
Ces deux valeurs sont legerement differentes et nous voulons savoir si elles sont compatibles. Si oui, pouvons-nous les regrouper d'une certaine fagon pour augmenter la statistique et ainsi ameliorer la precision ? 3.3.1
COMPARAISON DE DEUX RESULTATS EXPERIMENTAUX
Comme au paragraphe 3.2.1, nous montrerons deux niveaux de solutions possibles. Ier niveau d'analyse
II est tres simple. On voit que les deux resultats se recouvrent compte tenu des incertitudes presentees et notre conclusion est immediate : les deux valeurs sont compatibles. Encore une fois, dans cette approche, nous ne pouvons pas dire exactement quelle est la probabilite d'avoir cette difference entre les resultats. IIe niveau d'analyse
Formulons d'abord cette question d'une fagon plus generale et plus precise. Soient deux series de nx et de ny mesures {xi, #2, • • • , xHx} et {yi, y?,... , yny}. Dans chaque cas, nous pouvons calculer les moyennes mx et my (82) et les variances s%lx et s^ (88) experimentales.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
97
Nous desirons savoir quelle est la probabilite pour que la valeur absolue de la difference \mx — my | soit superieure ou inferieure a une valeur donnee. Le probleme est a nouveau 1'absence d'information sur les veritables valeurs de fi et de
ou
a une distribution de Student avec v = nx + ny — 2 degres de liberte. La demonstration de cette propriete suit exactement la demonstration utilisee pour obtenir la distribution de Student (voir paragraphic 3.2). C'est pourquoi ne seront notees que les petites modifications a apporter. Reecrivons t sous la forme t
et
Le numerateur Y\ est la somme de deux grandeurs distributes selon la loi normale et sa distribution est done normale. La moyenne de cette distribution est nulle car elle est proportionnelle a la difference des moyennes rn^ — rn^ — p, — p — 0. La variance de YI est I'unite car la variance de mx est
qui ont les distributions Xnx-i avec nx — 1 degres de liberte et %2 _1 avec ny — I degres de liberte respectivement (voir (104)). Leurs fonctions generatrices des moments sont
98
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
(voir (96)). Ainsi la fonction generatrice de la somme
est egale a
ou nous avons utilise la propriete (21). Autrement dit, cette somme a la distribution Xnx+n -2 avec v —nx +ny — 2 degres de liberte (nous avons nx + ny mesures avec deux relations lineaires qui fixent mx et my ; voir la remarque (105)). Ensuite nous retrouvons la demonstration du paragraphe 3.2.
Nous sommes maintenant en mesure de repondre a notre question puisque nous avons etabli une relation univoque (109) entre la valeur de t et la probability T. Dans notre exemple, mx = 4355 mm, my = 4350 mm, nx = 10, ny = 6. Pour connaitre s2 nous devons calculer les sommes (112). Dans notre experience
II faut calculer la somme correspondante a Texperience faite par notre collegue. A partir de sa valeur de Ara^. = 13 mm et des relations
nous avons
Done,
et la valeur de t correspondante a s2 est egale a
Dans le tableau 3.1, nous voyons que la probabilite qui correspond au coefficient de Student t c± 0, 55 pour v = 14 degres de liberte est P ~ 0, 4.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
99
Ceci signifie que la probabilite de trouver la difference \mx — my\ inferieure a 5 mm etait de 40%. II etait meme plus probable (60%) de trouver cette difference superieure a 5 mm. Ainsi le "disaccord" de nos deux experiences est tout a fait acceptable et nous pouvons confirmer notre conclusion intuitive par une consideration plus rigoureuse. Notons que le critere qualitatif applique dans la premiere approche (recouvrement des barres d'erreurs) est rapide mais parfois assez dangereux. Quand nous utilisons de telles notions nous nous referons a la distribution de Gauss et nous examinons la probabilite pour que mx se trouve dans 1'intervalle [my — Ara y ,ray + Am y ], ou inversement la probabilite pour que my se trouve dans 1'intervalle [mx — Ara x , mx + Ara^]. Pour la distribution de Gauss, la probabilite d'apparition d'un evenement en dehors de 1'intervalle [fji — cr, ^ + cr] est relativement grande, a peu pres 1/3. Meme pour une difference \mx — my — 15 mm notre conclusion basee sur ce critere reste la meme car cette difference est compatible avec les incertitudes des deux series de mesures (A = ^(Amx + Ara y ) = 15 mm). Le traitement correct nous donne un coefficient de Student t ~ 1, 65 auquel correspond une probabilite de presque 90%. Cela signifie que la probabilite de trouver une difference de 15 mm ou plus est tres faible, de 1'ordre de 10%. La methode qualitative basee sur la distribution de Gauss donne une probabilite trois fois plus forte que celle attendue avec notre methode correcte basee sur la distribution de Student ! La contradiction apparente s'explique par le fait que notre estimation de a (pour laquelle nous avons choisi la demi-somme de Am x et de Am y ) etait grossiere. Nous verrons que 1'incertitude dans 1'experience qui accumule les resultats de deux experiences est plutot de 10 mm. La valeur de \mx — my\ = 15 mm correspondrait ainsi a 1, 5«r. Pour la distribution de Gauss, la probabilite de trouver un evenement en dehors de 1'intervalle \ji — I , 5
3.3.2
"ADDITION" DE DEUX RESULTATS EXPERIMENTAUX
Nous sommes assez convaincus que les deux resultats ne sont pas contradictoires et desirons savoir comment les "reunir" pour avoir une meilleure statistique et plus de precision sur la grandeur mesuree.
100
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Nous obtenons assez facilement la formula exprimant la moyenne pour les deux series de mesures
si nous connaissons les moyennes pour les deux experiences separement
remplagons les sommes dans (113) par mxnx et myny :
II est utile de reecrire cette formule autrement. Rappelons les relations entre les variances experimentales s2 de la grandeur et celles de ses valeurs moyennes slm (voir eqs. (88) et (110))
Quand le nombre de mesures dans chaque experience est relativement grand, Alors nous pouvons rmplacer dans (114)
et obtenir 1'expression
ou est introduite 1'incertitude Amx+y comme
ou wx et wy peuvent etre interpretes comme les poids relatifs de deux experiences. Cette formule a une signification tres simple : moins 1'experience est precise (grande valeur de Am^), moins importante est sa contribution (faible valeur de l/(Amj) 2 ) dans le calcul de la moyenne (115).
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
101
Dans notre exemple de deux experiences, nous obtenons mx+y = 4353 mm,
Am r+y = 10 mm.
II est logique, compte tenu du fait que les mesures du collegue etaient plus precises, que mx+y soit plus proche de sa valeur mx. Les formules (115) et (116) peuvent etre generalisees facilement pour un nombre arbitraire n d'experiences :
II est vrai que cette fagon de calculer la moyenne sur plusieurs experiences n'est pas toujours mathematiquement irreprochable mais elle donne la possibilite d'avancer et de reunir les connaissances obtenues dans des experiences parfois tres differentes. S'il a ete possible de verifier auparavant que ces series de mesures sont compatibles (compatibility des moyennes et des variances), 1'erreur introduite par cette procedure est tres faible. Meme 1'hypothese d'egalite des coefficients de Student pour un grand nombre de mesures n'est pas mauvaise. Dans le tableau 3.1, on voit que le coefficient de Student varie peu avec v. Par exemple pour "P = 0,95, t change seulement de 10% quand v passe de 10 a 30. De plus, cette variation est une correction dans 1'incertitude, autrement dit, c'est une correction de deuxieme ordre. C'est la raison pour laquelle cette approche est tres utilisee en physique quand on veut profiter de resultats d'experiences differentes (parfois assez couteuses) pour obtenir la valeur "universelle" de telle ou telle constante physique fondamentale.
3.4
AUTRES SOURCES D'ERREURS
L'incertitude naturelle d'une grandeur physique n'est pas la seule possible. Une autre source importante d'incertitude est 1'appareil de mesure. Par 1'appareil, nous sousentendons non seulement 1'appareillage utilise pour faire une experience mais, plus generalement, la methode de mesure choisie. Nous voulons savoir quelle est Pinfluence de 1'appareil sur la valeur physique ou, en d'autres termes, comment il modifie la fonction de distribution initiale. Nous verrons qu'il y a d'abord une modification "triviale" de cette distribution : celle-ci s'elargit, ce qui signifie que les erreurs d'appareil s'ajoutent aux erreurs naturelles de la grandeur physique. Cependant, une autre modification de la fonction de distribution est aussi possible. L'appareil peut decaler la valeur moyenne, done 1'appareil mesure une valeur systematiquement plus grande (ou plus petite) que la valeur "reelle". Ces erreurs s'appellent les erreurs systematiques. Elles ne sont pas forcement de nature aleatoire et ne pourront pas etre traitees directement a 1'aide des techniques qui ont ete presentees jusqu'ici. L'analyse de ce type d'erreurs, qui est plus complexe, fait Pobjet de ce paragraphe.
102
3.4.1
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
INCERTITUDES D'APPAREIL
Pour etudier 1'influence d'un appareil sur la valeur mesuree, choisissons d'abord un appareil tres simple — un pese-personne mecanique. Son principe de fonctionnement est elementaire : le poids d'un objet dont nous voulons connaitre la masse m est compense par la contraction d'un ressort. Ce dernier est lie a une aiguille qui indique sur un cadran la valeur de la masse. Si le coefficient de raideur est egal a k, le deplacement du ressort et celui de 1'aiguille est
ou g est 1'acceleration du champ de pesanteur. Supposons que 1'incertitude sur la valeur de g soit negligeable devant les autres incertitudes. Ainsi, 1'incertitude sur Ax s'ecrit conformement a (58) /Ax\2_/Am\2
(Ak\2
(—) - (-^-J + (-T) • La particularity de cette formule vient du fait que 1'incertitude de mesure comprend deux contributions, 1'une issue de 1'incertitude naturelle Am et 1'autre issue de 1'appareil de mesure Ak. Une expression analogue peut etre obtenue dans un cas plus general. La probabilite de trouver une valeur physique x, caracterisee par sa fonction de distribution f ( x ) , dans 1'intervalle [ x , x + dx] est egale a f ( x ) d x . Cependant, la probabilite pour que 1'appareil donne cette valeur dans un autre intervalle [x',x' + dx'} n'est pas nulle. Designons cette probabilite par S(x, x'}dx'. Pour determiner la probabilite (F(x')dx'] de detection par 1'appareil de la valeur physique dans 1'intervalle [x', x' + dx'], on doit multiplier la probabilite (f(x}dx] pour que cette valeur se trouve dans [x, x + dx], par la probabilite (S(x, x')dx') pour que 1'appareil donne la valeur dans [x', x' + dx'] et calculer la somme (ou 1'integrate) pour toutes les valeurs x possibles :
soit
On peut dire qu'au lieu de la vraie fonction de distribution f ( x ) , 1'appareil nous donne une fonction de distribution modifiee F ( x ) . La fonction S ( x , x ' ) s'appelle la fonction de resolution (la terminologie vient de 1'optique). Quelle est la forme de cette fonction ? La reponse a cette question est difficile. La plupart du temps, la fonction de resolution S(x,x') ne depend que du module de la difference x — x' :
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
103
Cette propriete signifie que 1'appareil n'introduit pas d'erreur systematique, c'est-adire qu'il ne modifie pas la valeur moyenne de la distribution. La valeur moyenne p,p pour la distribution F(x) est
A I'aide de (120) et en introduisant la variable t = x — x' nous obtenons
Nous avons tenu compte de la normalisation de f(x] et de S(t) :
et du fait que S(\t\) est une fonction paire. II n'y a pas d'erreur systematique :
Dans les memes conditions, nous pouvons montrer facilement que I'appareil ne peut qu'elargir la distribution initiale. La variance de la distribution F(x] est
D'ou
Comme pour les fonctions de distribution, on peut affirmer que si les conditions du theoreme central limite sont satisfaites (c'est-a-dire s'il y a plusieurs facteurs independants qui agissent sur la fonction de resolution et si 1'influence de chacun de ces facteurs est petite), cette fonction a la forme de Gauss :
104
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
avec une variance
II existe deux facons de calculer I'integrale
La premiere est directe : on fait le changement de variable
pour retrouver I'integrale bien connue (25). La deuxieme est plus elegante : il faut passer par la transformation de Fourier de cette integrale et utiliser deux proprietes de la transformation de Fourier (la transformee de Fourier d'une gaussienne est une gaussienne et la transformee de Fourier d'une convolution de deux fonctions est le produit de leurs transformees). Nous laissons cet exercice aux lecteurs familiers de la transformation de Fourier.
Ce calcul permet de verifier que la variance ffp de la fonction F(x) est egale a la somme des variances 0-| et crj :
Dans une experience reelle deux situations extremes peuvent etre rencontrees. Celle ou la variance de 1'appareil est negligeable devant la largeur naturelle (<j|
Ill — EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
105
une echelle de 1'appareil utilisable pour la mesure de poids inconnus. Les fonctions obtenues de cette maniere se presentent souvent sous la forme d'une courbe ou d'une table d'etalonnage. Pour un appareil digital, 1'incertitude de mesure est indiquee dans la description. Pour un appareil a aiguille, la precision est caracterisee par la classe de 1'appareil qui est toujours marquee sur son cadran au-dessus du symbole de position de 1'appareil. L'incertitude de 1'appareil est egale au produit de sa classe par la pleine echelle utilisee pour la mesure, divise par 100 : classe • pleine echelle incertitude — . 100 Pour diminuer 1'incertitude de mesure, il faut done toujours travailler avec les echelles les plus sensibles possibles (les echelles qui donnent la deviation maximale acceptable). Dans la plupart des cas, on travaille avec des appareils de classe 0,5 ; 1,0 ; 1,5 ou 2,5. Pour les experiences plus sophistiquees, cette procedure simple n'est plus suffisante. L'experimentateur doit faire une etude approfondie du nouvel appareil pour avoir le maximum d'informations sur la fonction de resolution S ( x ' , x ) : verifier si elle ne depend que de \x — x' ou, sinon, etablir la forme de cette fonction, etc.
3.4.2
ERREURS SYSTEMATIQUES
On peut mentionner trois sources d'erreurs systematiques : la methode de mesure choisie, le mauvais fonctionnement de 1'appareillage et les erreurs d'experimentateur. Nous allons etudier toutes ces sources d'erreurs et de voir ce qu'il faut faire dans ces cas. Erreurs liees a la methode de mesure
Un exemple simple d'erreur systematique provenant de la methode de mesure est donne par la determination d'une resistance inconnue Rx. On peut la mesurer a 1'aide d'un voltmetre ayant une resistance Ry et d'un amperemetre ayant une resistance RASupposons que ces valeurs soient inconnues ; on sait seulement que Ry est grande par rapport a Rx et que RA est petite par rapport a Rx. On branche 1'amperemetre en serie avec la resistance inconnue. Le branchement du voltmetre peut etre effectue de deux fagons : (I) on peut mesurer la tension aux bornes de la resistance Rx (figure 3.6) ou (II) on peut mesurer la tension aux bornes de la resistance et de 1'amperemetre (figure 3.7). Si on determine la valeur experimentale RGXp de la resistance inconnue Rx comme le rapport de la tension amchee sur le voltmetre et du courant traversant 1'amperemetre, pour ces deux branchements, on obtient les relations suivantes entre ReXp et Rx :
Si les appareils choisis sont de bonne qualite, pour un assez grand domaine de valeurs de la resistance Rx, telles que Ry ^> Rx ^ RA, on a Rexp — Rexp — RX- Neanmoins,
106
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 3.6 : Premier schema possible pour mesurer la valeur d'une resistance
la premiere methode donne toujours des valeurs systematiquement plus petites que la vraie valeur de Rx, tandis que la deuxieme donne des valeurs systematiquement plus grandes. Dans les deux cas, on a une erreur systematique plus ou moins importante en fonction des relations entre Ry, RA e^ RX • (II)
Figure 3.7 : Deuxieme schema possible pour mesurer la valeur d'une resistance
On peut done dire que la premiere methode est preferable pour mesurer des petites resistances tandis que la deuxieme est plus adaptee aux grandes resistances. Cependant les deux methodes donnent une erreur systematique qu'on ne peut eliminer qu'en connaissant les valeurs de Ry et RAProposons une troisieme fagon de mesurer la resistance. Pour cela, nous avons besoin d'une resistance variable dont nous pouvons etablir la valeur Rv, de deux resistances identiques R et d'un appareil de mesure (d'un amperemetre ou d'un voltmetre, au choix). Le schema de branchement est presente sur la figure 3.8. Si Rx est egale a Rv, alors le courant Ia qui passe par 1'amperemetre (ou le voltmetre) est nul. On peut le voir a partir de 1'expression de Ia :
I etant le courant aux bornes du circuit,
ou Ra est la resistance de 1'appareil (R^ ou RV)-
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
107
Figure 3.8 : Troisieme schema possible pour mesurer la valeur d'une resistance
L'expression (121) peut etre obtenue de la facon suivante. Nous introduisons les courants Iv, 1%, h, 1-2 (figure 3.8) et ecrivons le systeme de 5 equations
Nous exprimons /„, Ix et /2 en fonction de /, Ia et I\
et obtenons deux equations
En eliminant I\, \\ est possible d'ecrire
Cette relation nous donne la formule (121).
Nous devons faire varier la resistance Rv jusqu'a annuler le courant Ia. Quels sont les avantages d'une telle methode par rapport aux methodes precedentes ? Premierement, il n'y a pas d'erreurs systematiques liees a la methode. Si nos appareils sont precis nous obtiendrons exactement la valeur
108
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Deuxiemement, nos mesures sont extremement simples : nous voulons annuler le courant et nous ne devons faire aucun calcul. Troisiemement, il est relativement facile de verifier si le zero est bien etabli. Supposons que la valeur du courant est non nulle Ia — IQ =t 0, mais tellement petite que notre amperemetre n'arrive pas a le detecter. Pour s'affranchir du probleme, il suffit d'augmenter le courant exterieur / d'un facteur n, afm que le courant Ia augmente aussi d'un facteur n (voir (121)) et qu'il redevienne detectable. Ainsi nous pouvons corriger la valeur de Rv pour retablir le zero. Les inconvenients possibles de cette methode sont la difficulte de trouver une resistance variable de bonne qualite et la duree d'une telle experience. Dans 1'example precedent apparaissent deux conceptions differentes d'une experience. Dans la premiere approche, nous devons d'abord calibrer les appareils de mesure (voltmetre et amperemetre) a 1'aide d'etalons et ensuite les utiliser pour mesurer des valeurs physiques inconnues. Dans la deuxieme approche, nous comparons directement la valeur inconnue a 1'etalon. La deuxieme approche est generalement plus precise mais elle est aussi plus couteuse. Ces deux conceptions de mesure sont utilisees partout dans la vie courante. Le choix depend de la precision recherchee et des moyens disponibles. Par exemple nous pouvons mesurer une masse, soit a 1'aide d'un pese-personne qui utilise un ressort prealablement calibre, soit a 1'aide d'une balance qui equilibre la masse inconnue par des poids connus. Erreurs liees au fonctionnement d'appareils
Le deuxieme type d'erreurs systematiques est lie au mauvais fonctionnement de 1'appareillage ou au changement des conditions de deroulement de 1'experience. Ces erreurs peuvent etre diverses et elles dependent de 1'experience concrete. L'exemple le plus simple est le mauvais reglage du zero de 1'appareil. Avant toute mesure il faut s'assurer que le zero est regie correctement. Cette verification ne prend pas beaucoup de temps mais elle permet d'eviter des erreurs grossieres et elle doit devenir une habitude pour 1 'experimentateur. L'instabilite des conditions de deroulement de 1'experience donne lieu a une derive systematique des mesures. Par exemple la position du zero d'un wattmetre pent varier lors d'une experience. Un autre exemple d'une telle erreur est la mesure de la vitesse d'une boule metallique dans un liquide visqueux. Si cette experience dure longtemps, la temperature du liquide peut varier avec la variation de la temperature ambiante et ce changement modifie la viscosite du liquide. Erreurs d'experimentateur
Finalement les erreurs de 1'experimentateur constituent le troisieme type d'erreurs systematiques. Par exemple certaines personnes evitent tel ou tel chiffre lors des estimations de fractions de divisions d'echelle d'un appareil. Ou encore, quand on modifie les parametres d'une experience, le systeme a besoin d'un certain temps pour se mettre en equilibre et les indications des appareils peuvent etre instables pendant quelques secondes. II ne faut pas se precipiter pour faire les mesures. Lors des mesures d'un intervalle de temps, une erreur systematique peut etre introduite par le fait que des personnes differentes ont des vitesses de reaction differentes.
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
109
Une erreur presque inevitable intervient lors de la lecture des indications des appareils a aiguille : il existe toujours une certaine distance entre 1'aiguille et 1'echelle et le resultat lu depend de 1'angle de vision. De plus, si 1'aiguille se trouve entre deux divisions d'echelle, il y aura une erreur liee au choix de la valeur retenue. Toutes ces erreurs sont presque inevitables. II faut savoir les estimer en sachant bien que ces estimations sont personnelles, subjectives, de la responsabilite de 1'experimentateur.
3.4.3
COMMENT EVITER LES ERREURS SYSTEMATIQUES ?
Pour eviter ces erreurs on peut donner quelques recommandations pratiques. Les erreurs systematiques proviennent souvent du mauvais fonctionnement de 1'appareillage ou de 1'experimentateur lui-meme. Ce dernier paragraphe contient quelques recommandations generates qui permettront d'eviter une grande partie de ces erreurs. Commengons par les questions de planification et de realisation d'une experience sont d'une importance fondamentale. Meme dans le cas d'une manipulation relativement simple en travaux pratiques il faut leur consacrer quelques minutes. Quels sont les points auxquels il faut faire attention ? Les conditions de deroulement de 1'experience
Une manipulation dure plusieurs heures et demande un effort mental assez important. L'experimentateur peut etre fatigue et il peut se tromper. C'est pourquoi il faut commencer par la preparation de la place de travail : on ne laisse que les objets indispensables (le cahier d'experience, la calculatrice, un stylo, etc.), 1'endroit doit etre bien eclaire, la temperature ambiante ne doit pas etre trop elevee et surtout rester stable, il faut eviter les courants d'air. La stabilite de la temperature rend le travail plus confortable et diminue les erreurs systematiques liees aux changement des conditions de 1'experience. II faut placer 1'appareillage de fagon telle que les appareils les plus frequemment utilises soient facilement accessibles. Verification des choses evidentes
Parfois, il vaut mieux verifier des choses qui paraissent evidentes. Les appareils ne doivent pas bouger. Si la base de 1'appareil est consideree comme horizontale il faut, au moins, le verifier a 1'oeil nu. En optique, la condition importante est 1'alignement de tous les appareils sur un meme axe. Ainsi nous eviterons beaucoup d'erreurs systematiques et le processus experimental sera accelere. Si nous utilisons un circuit electrique alimente directement par le reseau EDF, nous devons mesurer la tension car elle peut etre differente de 220 V. Les appareils alimentes par des piles ont la "mauvaise habitude" de tomber en panne d'alimentation au moment le plus important de 1'experience. Pour eviter ce probleme il faut verifier 1'etat des piles avant 1'experience. Symetrie apparente
Si le montage possede des elements identiques, il faut les interchanger et repeter la mesure. Par exemple, sur la figure 3.8, nous avons un schema pour determiner une
110
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
resistance inconnue Rx dans lequel nous utilisons deux resistances supposees identiques R. II faut s'en assurer experimentalement en permutant ces resistances lorsque le courant qui passe par 1'amperemetre est nul. Si, avec les resistances interchangees, le courant devient different du zero, il faut soit remplacer les resistances soit augmenter 1'incertitude de mesure. En travaux pratiques, on utilise frequemment des appareils polyvalents qui peuvent mesurer le courant, la tension ou meme la resistance. Si 1'on utilise deux appareils de ce type dans la meme experience, on peut les interchanger et verifier la stabilite du resultat. Quand on mesure la difference de deux temperatures avec deux thermometres differents il faut aussi les interchanger. Si le resultat n'est pas le meme on doit prendre la demi-somme des deux mesures comme valeur experimentale. Si 1'un des thermometres (ou les deux) est affecte par une erreur systematique, cette procedure permettra de s'en affranchir. Experience preliminaire
Une experience scientifique est toujours precedee d'une manipulation preliminaire. Son but est multiple. L'experimentateur "apprend" la manipulation, s'entrame a effectuer les operations qui seront les plus frequentes, verifie le fonctionnement des divers elements. Dans cette manipulation, on essaie d'obtenir une idee sur 1'intervalle des valeurs de chaque grandeur physique ainsi que sur leurs incertitudes. Cette manipulation preliminaire permet de determiner la strategic future pour toute 1'experience. Meme en travaux pratiques il faut essayer d'effectuer une experience preliminaire, bien que le temps soit tres limite. II faut, au moins, prendre connaissance de 1'appareillage et surtout de ses composantes qui n'ont pas ete etudiees auparavant. Si, pendant 1'experience, il faut changer d'echelle et si on ne sait pas effectuer cette operation, on risque non seulement de perdre du temps mais aussi de perdre une partie des donnees.
Planification d'une experience
La manipulation preliminaire fait partie d'un probleme plus general de planification d'une experience. En travaux pratiques, il faut cerner exactement les points les plus delicats et les plus importants du point de vue physique ainsi que 1'enchainement entre les differentes parties de 1'experience. Un autre aspect important de la planification est 1'ordre chronologique des mesures lorsqu'il s'agit de determiner une dependance en fonction d'un parametre (courant, frequence, temperature, etc.). Si on cherche, par exemple, la puissance P degagee par une resistance en fonction du courant / qui passe dans le circuit et qui varie de 0 a 10 A (la limite de notre amperemetre), on s'attend a une dependance telle que :
La presence de la constante PQ peut etre expliquee par 1'existence de sources de chaleur, celle de la fonction lineaire par Feffet Peltier et celle de la fonction quadratique par I'effet Joule. Six points (entre 0 et 10 A avec un pas de 2 A) sont largement suffisants pour definir les parametres PQ, a et b. Si nous voulons augmenter la precision sur ces valeurs,
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
111
nous pouvons prendre un pas plus petit, 1 A. Dans notre systeme, il n'y a pas de dependance rapide en fonction du parametre et il vaut mieux choisir des points de mesures distribues de maniere uniforme sur tout intervalle de variation du courant. Cependant, il ne faut pas perdre de temps en fixant les valeurs de / exactement a 1 A ou 2 A. Si nous mesurons la puissance pour I — 1, 95 A au lieu de / = 2, 00 A, la precision sur les parametres sera la meme. Pour accelerer la manipulation nous pouvons faire les mesures en augment ant progressivement le courant avec un pas de 2 A d e O a l O A . L'avantage est que notre systeme trouvera chaque fois son equilibre assez rapidement. De plus, nous nous attendons a une dependance reguliere P(I) et pouvons controler que la puissance varie lentement avec la variation du courant. Le probleme concernant 1'ordre des mesures apparait quand il existe une source d'erreurs systematiques (par exemple, si la temperature de la piece monte progressivement pendant 1'experience, elle modifie le parametre PQ). Avec 1'ordre precedent nous ne trouverons jamais cette source d'erreurs : la fonction P(I} sera toujours reguliere et continue. Par centre, si nous choisissons un ordre different des mesures : / = 0, 10, 2, 8, 4, 6 A, les points experimentaux "oscilleront" autour d'une courbe continue et ces oscillations seront plus grandes que les incertitudes des mesures. Un simple changement de 1'ordre des mesures peut nous aider a detecter une erreur systematique. G'est a Texperimentateur de decider quel est 1'aspect de la manipulation le plus important : la rapidite et la simplicite des mesures ou la securite. Si nous etudions une grandeur dont la dependance en fonction d'une variable est assez rapide comme, par exemple, la recherche de la frequence propre d'un circuit RLC par une mesure de la tension en fonction de la frequence, la logique doit etre differente. La tension aux bornes de la resistance peut etre approchee par la formule
L'experience comprend deux etapes. D'abord, nous determinons le comportement general U(v} avec un pas qui peut etre assez grand, 15 Hz (quatre points noirs sur la figure 3.9). Le but de cette etape est de determiner approximativement la position de la resonance : nous voyons que z/o se trouve entre 30 et 50 Hz. Ensuite, nous devons repeter nos mesures au voisinage de VQ avec un pas beaucoup plus faible, 2 Hz (carres blancs sur la figure 3.9). II n'y aucun interet a faire des mesures avec ce petit pas loin de i/o si nous ne nous interessons qu'a la position de la resonance. Ces exemples elementaires montrent que 1'ordre et le pas des mesures dependent de differents facteurs et I'experimentateur doit chaque fois decider quels sont les criteres les plus importants pour effectuer ces choix. Enregistrement des resultats
Lorsque nous enregistrons les resultats, le but est de ne pas introduire d'erreurs supplementaires. Le remede est trivial : nous devons noter immediatement tous les resultats pour ne rien oublier. L'ecriture doit etre simple, concise et elle doit contenir un minimum d'explications necessaires pour que nous puissions plus tard comprendre et interpreter ces resultats sans aucune ambigui'te. Une ecriture claire et facilement lisible depend de notre experience personnelle et elle viendra au fil des annees.
112
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 3.9 : Determination de la position d'une resonance
La fagon la plus traditionnelle d'enregistrement des resultats est 1'utilisation d'un cahier d'experience. L'avantage principal d'un tel cahier par rapport aux feuilles separees est qu'il est plus difficile de le perdre. L'inconvenient est que meme les mesures simples ne s'effectuent jamais dans un ordre parfait et que notre enregistrement peut etre assez disparate. II n'est pas toujours commode de coller dans ce cahier des feuilles de papier millimetre avec des courbes ou des listings d'ordinateur. Cependant, le cahier d'experience reste le meilleur moyen pour eviter la perte d'information. II est utile de numeroter ses pages et de reserver une page au debut pour la table des matieres. Inscription des resultats
Tous les resultats doivent etre notes immediatement, dans leur forme brute et sans la moindre modification. Par exemple, si 1'echelle d'un voltmetre est de 5 V, dans le cahier d'experience il faut noter le nombre de divisions d'echelle ainsi que la valeur de pleine echelle. Si, par hasard, nous nous trompons lors de la multiplication par 5 nous ne serons plus capables de corriger cette erreur plus tard. Recopier des resultats est tres dangereux. II ne faut jamais utiliser les brouillons pour copier ensuite les resultats dans le cahier de manipulation. Cette operation est triplement dangereuse. Premierement, nous perdons du temps. Deuxiemement, nous pouvons introduire des erreurs supplementaires. Mais le danger le plus important vient du fait que, lorsque nous copious les resultats, nous ne pouvons pas eviter la selection. Dans le bilan d'une experience, on n'utilise pas toutes les mesures effectuees. Assez frequemment, on decide que telle ou telle mesure n'est pas tres parlante ou simplement
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
113
inutile. Autrement dit, nous selectionnons les resultats. Cette procedure est parfaitement correcte a condition que nos criteres de selection soient objectifs et justes. Si, plus tard, nous decidons que nous nous sommes trompes dans le choix des criteres, nous devons avoir la possibilite de revoir Fensemble des mesures initiales. La seule solution a ce probleme est de conserver tous les resultats des mesures. Par exemple, nous mesurons des differences de temperatures a 1'aide des deux thermometres. Nous devons enregistrer les indications de deux appareils et ensuite calculer la difference. Si 1'un des appareils fonctionne mal et donne, de temps en temps, une valeur fausse nous pourrons trouver plus facilement cette erreur si nous avons deux enregistrements separes. Nous verrons alors les fluctuations dans les indications de ce thermometre. Si nous ne notons que la difference nous ne saurons jamais lequel des deux thermometres fonctionne mal. Ordinateur
L'ordinateur devient de plus en plus present en travaux pratiques. C'est tres bien car il permet d'accelerer 1'acquisition des donnees d'une fagon spectaculaire. Cependant, il faut comprendre que 1'ordinateur ne peut pas faire des miracles et la precision d'une seule mesure faite avec 1'ordinateur n'augmente pas pour autant ! Quand Pecran de 1'ordinateur afflche huit chiffres significatifs, nous devons savoir qu'en realite le nombre de chiffres significatifs reste le meme que si nous avions fait la mesure nous-memes. Simplement, 1'appareil qui sert d'interface entre Pappareil de mesure (un voltmetre, un thermometre, etc.) et 1'ordinateur ne sait pas arrondir correctement le resultat. Le nombre de chiffres am dies est defini par le nombre de digits d'ordinateur et non par la veritable precision de 1'experience. Ce phenomene pose un vrai probleme : 1'acquisition automatique des donnees rend difficile la determination de 1'incertitude de mesure car 1'appareil de mesure est souvent inaccessible. La solution consiste a repeter 1'experience ou une partie de celle-ci. Nous obtiendrons des resultats differents et determinerons ainsi 1'incertitude en utilisant 1'approche decrite dans ce livre. Schemas et tableaux
Les schemas et les tableaux sont des formes tres pratiques pour limiter Pecriture et eviter ainsi les erreurs inutiles. II ne faut pas que le schema d'une experience soit trop detaille et qu'il soit proche d'une photographic. II doit contenir le minimum necessaire d'informations en expliquant Pidee de Pexperience, en donnant une description de Pappareillage et les notations utiles. On a parfois besoin d'un schema complet dans lequel 1'echelle est soigneusement respectee. Mais dans la plupart des situations, 1'echelle est consciemment modifiee. Par exemple, dans le schema presente sur la figure 4.4, la vraie taille de la resistance inconnue Rx peut etre de quelques millimetres tandis que la resistance variable Rv represente un appareil d'une dizaine de centimetres. Dans cette experience, ces resistances jouent le meme role et le dessin souligne leur "equivalence". Tous les resultats des mesures doivent etre ecrits de preference, sous la forme d'un tableau. II vaut mieux noter les valeurs de la meme grandeur physique dans une colonne, car Poeil compare plus facilement deux chiffres ecrits Pun sous Pautre. La premiere ligne de chaque colonne doit contenir le nom de la grandeur, son symbole et ses unites. Si possible, il faut preparer les tableaux avant la manipulation. II
114
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
est toujours utile de reserver quelques colonnes supplementaires. Elles peuvent etre necessaires pour noter immediatement les incertitudes sur les valeurs (surtout si elles varient lors de 1'experience) ou, plus tard, les resultats obtenus lors du traitement des donnees. Par exemple, si nous mesurons la resistance inconnue comme rapport de la tension a ses bornes au courant qui la traverse, nous devons preparer six colonnes : pour la tension et son incertitude, pour le courant et son incertitude et pour la resistance et son incertitude. Si, de plus, les echelles de ces appareils ne sont pas des multiples de 10, il vaut mieux preparer des colonnes supplementaires pour noter les mesures brutes comme nous Tavons discute auparavant. Calculs arithmetiques
Lors des calculs arithmetiques, il ne faut pas se precipiter sur la calculatrice. Prenons un exemple. Nous determinons la valeur de la chaleur specifique C d'un liquide de masse m contenu dans une boite. Pour cela, nous chauffons ce recipient a 1'aide d'une petite resistance plongee dans le liquide. Le courant qui passe par la resistance est /, la tension aux bornes de celle-ci [/, la duree du chauffage r. En premiere approximation, si nous negligeons les pertes de chaleur (par la surface de la boite ou pour chauffer la resistance elle-meme, etc.) la chaleur specifique est donnee par :
ou AT est la difference des temperatures apres et avant le chauffage. Soient les valeurs experimentales : m = 17, 6 g, U = 10, 7 V, / = 42 mA, r = 23, 7 s, AT = 0, 36 K. L'ordre de calculs doit etre le suivant. Dans 1'expression initiale
nous reecrivons toutes les valeurs dans le meme systeme d'unites (par exemple, SI) :
nous separons les chiffres et les unites :
nous faisons les operations arithmetiques a 1'aide d'une calculatrice et nous transformons les unites :
Ici, trois remarques s'imposent. Premierement, il est utile de reecrire Favant-derniere expression sous la forme
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
115
ou nous avons separe les chiffres significatifs et les ordres de grandeur : si la valeur de x • 10n est plus grande que 5 • 10n nous 1'ecrivons cornrne 0, x • 10n+1, sinon nous ne changeons rien. L'avantage d'une telle representation est que nous voyons immediatement 1'ordre de grandeur : 103. La valeur de la premiere fraction, dans la plupart des situations, sera alors de 1'ordre de 1 (de 0,1 a 10). Deuxiemement, dans le resultat intermediaire nous gardens, pour 1'instant, trois chiffres significatifs 1,68, bien que les valeurs de AT et de / n'en contiennent que deux. Nous le faisons volontairement pour eviter les erreurs supplementaires d'arrondi. Dans le resultat final, apres avoir calcule 1'incertitude sur C, nous ne laisserons que le nombre de chiffres significatifs correspondant a cette incertitude (peut etre un seul). Troisiemement, dans la derniere expression, nous avons choisi les unites kJ/kg-K et non pas J/kg-K, car nous connaissons la chaleur specifique de 1'eau 4,18 kJ/kg-K et cette valeur nous est tres familiere. Meme si le liquide dans le recipient n'est pas de 1'eau, il faut toujours avoir les reperes physiques qui peuvent servir comme moyens de controle de la validite de notre resultat.
3.4.4
COMMENT TRAVAILLER AVEC LES ERREURS SYSTEMATIQUES ?
Que faire avec les erreurs systematiques ? Comment peut-on travailler avec ? Si c'est possible, il vaut mieux les eviter ou, au moins, essayer d'eliminer ces sources d'erreurs (comme, par exemple, verifier la position du zero de Pappareil). Parfois, on ne peut pas eliminer la source de ces erreurs mais on peut introduire une correction permettant de diminuer Ferreur. Par exemple, si nous effectuons la mesure d'une puissance electrique supposee constante a 1'aide d'un wattmetre. Au debut de 1'experience, nous avons note une valeur de 4,50 W et nous savons que 1'incertitude sur cette valeur determinee a partir de la classe de 1'appareil est de 0,02 W. A la fin de notre experience, nous voyons que le wattmetre indique une valeur de 4,42 W. Que devons-nous faire dans cette situation ? II faut debrancher le wattmetre du circuit et voir la valeur affichee. S'il indique — 0 , 0 7 W, cela signifie que le zero de 1'appareil a derive et que la puissance mesuree a la fin de 1'experience etait egale en fait a 4,49 W. La difference par rapport a la valeur initiale est due, probablement, a la precision de nos mesures. II faut obligatoirement noter ce phenomene dans le cahier d'experience, mais pour les calculs ulterieurs on prendra une valeur de la puissance P = (4, 50 ± 0 , 0 2 ) W. Si 1'appareil debranche indique une valeur 0,00 W, cela signifie que la difference entre les deux valeurs de la puissance est due a la variation reelle de la puissance dans le circuit. Dans ce cas, nous devons utiliser lors des calculs ulterieurs une valeur de la puissance P = (4, 46 ±0,04) W ; dans notre cahier d'experience nous devons noter ce phenomene et que 1'incertitude a ete calculee non pas a partir de la classe de 1'appareil mais qu'elle a ete estimee grossierement par AP = (.Pmax — -P m m)/2. Les erreurs systematiques et statistiques sont de nature differente. Cependant, pour des raisons de commodite, les deux s'ecrivent sous la meme forme ±Ax. II ne faut pas oublier que, pour les erreurs statistiques, cette ecriture suppose une interpretation
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES precise en termes de probabilites. En revanche, pour les erreurs systematiques il n'en est pas de meme : leurs valeurs sont obtenues par des estimations parfois grossieres et subjectives. C'est pourquoi, dans la litterature scientifique, le resultat final d'une experience se presente sous la forme
ou Ax s tat est une erreur statistique et Axi et Aa?2 sont des erreurs systematiques introduites par des raisons differentes. Formellement, ces erreurs n'obeissent pas aux memes lois que les incertitudes statistiques. En particulier, la formule de propagation des erreurs (55) ne peut pas etre appliquee aux erreurs systematiques. On peut le voir dans un exemple tres simple. A 1'aide d'un voltmetre nous avons mesure deux tensions V\ = 7, 5 V et V-2 = 6, 3 V. Les incertitudes statistiques sont respectivement AVi = 0,4 V et AV? = 0, 3 V. II existe aussi une erreur dans la position du zero du voltmetre que nous estimons a AVb = 0,1 V. Ainsi, nous pouvons ecrire
Si nous voulons calculer la difference v — V\ — Vz, nous obtenons la valeur
La seule incertitude presente est statistique et calculee selon (56). Le decalage du zero d'appareil ne peut pas influencer la difference des deux tensions. Par contre, si nous voulons calculer la somme V = V\ + V?, le resultat sera
Les erreurs systematiques sur la position du zero s'ajoutent dans ce cas. En principe, on peut utiliser la formule de propagation d'erreurs a condition d'introduire les correlations entre les erreurs. Dans notre cas, le module du coefficient de correlation est egal a 1. Nous conseillons au lecteur interesse d'obtenir la formule correspondante. L'ecriture d'un resultat sous la forme (122) est la seule acceptable. Neanmoins, le travail avec une telle expression devient complique. C'est pourquoi on introduit aussi une incertitude totale de 1'experience qui reunit toutes les sources d'incertitudes :
Cette expression n'est pas mathematiquement irreprochable mais elle est tres pratique, par exemple dans la comparaison rapide de deux resultats experimentaux. Cette formule nous aide a comprendre, par exemple, quelle incertitude il faut choisir, celle de 1'appareil ou celle de la lecture, quand nous effectuons des mesures avec les appareils a aiguille. Supposons que notre appareil de mesure soit un amperemetre de la classe 4 avec une pleine echelle de 5 A et que cette echelle possede 100 divisions. Ainsi 1'erreur d'appareil est egale a Aar app = 0, 2 A. Nous estimons que notre incertitude de lecture est egale a la moitie de la division d'echelle : Aa?iect = 0, 025 A. L'incertitude de mesure est alors
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
117
Si notre amperemetre est de la classe 0,1, alors Aa?app = 0, 005 A et
Ces deux examples ne sont pas ties realistes : ils servent surtout a illustrer la procedure a appliquer pour estimer les incertitudes. En pratique, tous les appareils ont une echelle telle que 1'incertitude de lecture soit compatible avec celle de 1'appareil :
Autrement dit, notre amperemetre devrait etre de la classe 1 ou 0,5. Dans ces conditions, on peut dire que 1'incertitude de mesure est approximativement egale a la division d'echelle. Cette estimation est utilisee quand on ne dispose pas d'information sur la classe de 1'appareil. Par exemple, pour les appareils avec Paffichage numerique, 1'incertitude peut etre estimee grossierement a 1 dans le dernier digit (a condition, bien evidemment, que les indications de 1'appareil aient ete stables tout le long de la mesure).
Cette page est laissée intentionnellement en blanc.
CHAPITRE 4 AJUSTEMENT DES PARAMETRES
On rencontre des nombreuses situations dans lesquels on des parametres sont determines a partir des donnees experimentales. Par exemple, on a une fonction qui depend d'un parametre et on veut trouver la valeur de ce dernier pour que cette fonction reproduit bien les donnees. Habituellement, on cherche la meilleure valeur du parametre, son incertitude et une maniere d'evaluer la qualite de la description des donnees par la fonction choisie. Cette procedure est appelee ajustement des parametres. Avant d'evoquer des approches concretes d'ajustement, defmissons quelques propretes generales des parametres deduits des donnees experimentale. En principe, differentes expressions peuvent etre proposees pour definir la valeur d'un parametre a partir des donnees experimentales. Par exemple, si Ton fait une serie de TV mesures d'une grandeur1 X pour laquelle on obtient les resultats xi,x^, • • • ,XN, on peut proposer comme valeur de X la moyenne de tous les resultats
ou la moyenne des valeurs maximale x max et minimale xmln
Xi et X<2 sont des estimations differentes de la meme grandeur X. Comme nous 1'avons deja discute dans ce livre, les deux estimations peuvent etre utilisees dans des situations differentes. On peut donner quelques importantes caracteristiques des telles estimations. La premiere est 1'existence d'une erreur systematique. Si
Ici, on parle d'une grandeur X pour utiliser les exemples deja abordes dans ce livre, mais on aurait pu egalement parler d'un parametre X.
120
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
1'estimation est dite biaisee. On a deja vu 1'importance de cette notion dans la discussion de la variance experimental e au paragraphe 3.1.1. Dans la definition (86), on a du diviser la somme par N — 1 et non pas par TV, precisement, pour eviter une erreur systematique dans cette definition. Si 1'estimation n'est pas biaisee, on dit egalement qu'elle est correcte. La deuxieme caracteristique importante d'une estimation est son efficacite. Parmi toutes les estimations possibles, 1'estimation efficace est celle dont la variance est la plus petite. Regardons le role de cette notion d'efficacite sur un exemple deja etudie : 1'addition de resultats experimentaux (voir paragraphe 3.3.2). Quelle est la meilleure fagon de calculer la moyenne de resultats experimentaux differents ? Soient N resultats a?i,X2, • • • , #AT qui, en tant que variables aleatoires, ont la meme moyenne ~x\ — ~x^ = ... — F/v = ^ mais des variances differentes aXl = <TI, &x-2 — °~2, • • • ) &XN — VNA partir de ces donnees, on peut construir une combinaison lineaire
dans laquelle les difFerents resultats sont ponderes par des poids inconnus pi. Choisissons ces poids en imposant comme condition Pefficacite de 1'estimation. Autrement dit, on cherche a ce que la variance de X soit minimale. Avant de calculer la variance de X, on impose que X ait la meme moyenne fi que les {*.'} :
Cette condition donne
La variance de X se calcule tres facilement en ecrivant Tindependance des {xj} :
cr^x peut etre consideree commefonction de TV—1 variablesindependantes pi,p2, • • • >PN-i (pN doit etre exprimee en fonction des autres variables a partir de (123)) :
Pour que &'x(piip2, • • -PN-i) soit minimale, il faut que les derivees partielles correspondantes soient nulles :
IV — AJUSTEMENT DBS PARAMETRES
121
Ainsi on obtient N — 1 conditions :
On pent ecrire a nouveau ce systeme sous la forme
ou A = pi + Pi + • • • + PN-I- En faisant la somme de ces equations on obtient :
soit
Finalement, on trouve les poids pi qui sont inversement proportionnels aux variances ~2 .
Ainsi pour X et
On voit que ces caracteristiques (estimation biaisee, emcacite) sont tres importantes pour pour optimiser le choix des parametres. Nous allons exposer maintenant deux methodes les plus frequemment utilisees (la methode des moindres carres et celle du maximum de vraisemblance) pour ajuster des parametres.
122
4.1
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
METHODE DES MOINDRES CARREES
Revenons sur la question posee au debut de ce chapitre : si dans notre fonction theorique, des parametres libres existent, comment pouvons-nous les choisir pour avoir le meilleur accord avec les points experimentaux ? Par exernple, quelle est la meilleure fagon de tracer une droite qui passe par les points experimentaux representes sur la figure 4.1 ?
Figure 4.1 : Trace de la fonction lineaire
Nous disposons de n mesures independantes {y^v} = yr P '^2 X p > • • • > ?/nXp d'une grandeur physique y pour n valeurs de son argument {%i} — xi,a?2, • • • ,xn. Supposons que notre fonction y = y(x] depende aussi de k parametres {dj} — ai, 02 ; • • • , akCette formulation du probleme suppose que les valeurs y,- sont decrites par les variables aleatoires tandis que les {#;} sont definis d'une fagon deterministe. En pratique, cette hypothese signifie que les incertitudes Axt- sont negligeables. Ainsi les parametres {ctj} sont egalement decrits par les variables aleatoires dont nous devons determiner non seulement les valeurs moyennes mais aussi les variances.
4.1.1
IDEE DE LA METHODS DES MOINDRES CARRES
Dans un cas general, c'est un probleme assez complexe. C'est pourquoi nous faisons 1'hypothese supplementaire que y est une fonction lineaire de ses parametres {aj} qui s'ecrit
IV - AJUSTEMENT DBS PARAMETRES
123
ou les fonctions {fi(x)} sont connues. II peut s'agir de monomes comme fi(x] — xl, dans ce cas nous cherchons les coefficients de developpement en serie de Taylor ou de fonctions trigonometriques cosinus et sinus et obtenons un developpement en serie de Fourier. Ainsi, malgre cette hypothese sur la linearite par rapport aux coefficients {ctj}, notre probleme reste assez general et particulierement utile pour les applications physiques. Pour determiner k parametres, il faut que le nombre de points experimentaux n soit egal ou superieur a k. Par exemple, pour une droite, nous avons besoin d'au moms deux points pour definir la pente et la constante a 1'origine. Nous supposons done que n > k. Une approche assez generale pour choisir des parametres est donnee par la methode des moindres carres. Dans cette methode on affirme que les meilleurs parametres {aj} sont tels qu'ils minimisent la somme des carres :
C'est une sornme sur tous les points experimentaux i = 1, 2 , . . . , n qui reunit ainsi la totalite de 1'information experimentale. Chaque terrne de la somme est le carre de la difference entre la valeur mesuree y^xp et la valeur theorique y(a\, 0 2 , . . . , a^', Xi) calculee pour cette valeur de Xi. Plus proches sont la theorie et 1'experience, plus petite est la contribution de ce terme. Chaque terme est pondere par un poids conformement a son erreur
124
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Pour trouver le minimum de la somme
nous devons resoudre un systeme d'equations lineaires :
soit
Dans le cas general, II est plus facile de travailler avec une ecriture matricielle. Pour cela, introduisons la matrice T de n lignes et de k colonnes :
le vecteur (soit la matrice d'une colonne et de n lignes)
et le vecteur (soit la matrice d'une colonne et de k lignes)
Avec ces notations matricielles, la somme R (125) s'ecrit
et les equations (126)
Nous voulons trouver le vecteur A a partir du vecteur connu 3^ En multipliant (127) par la matrice (^7T^7)~1, nous obtenons le resultat :
IV - AJUSTEMENT DBS PARAMETRES
125
Les vecteurs A et y sont lies par une transformation lineaire avec un Jacobien J, c'est pourquoi nous pouvons utiliser la relation (65) pour les variances :
La matrice de covariance D(y] est diagonale car toutes les mesures y"p sont independantes. De plus elle est egale a la matrice unitaire vu la normalisation du vecteur y :
Ainsi, I'expression (129) prend la forme
Grace aux formules (128) et (130) nous avons trouve les valeurs des parametres {aj} et leurs incertitudes. Bien que la matrice D(y] soit diagonale, la matrice D(A) ne Test pas (les parametres {a,j} ne sont pas independants). Explicitons (128) et (130) pour les cas les plus simples. Fonction constants
la matrice T se degenere en une seule colonne :
La matrice (.77T.77) devient un nombre
De meme
Le resultat (128) prend la forme
126
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
et 1'expression (130) pour la variance devient
Si toutes les erreurs sont les memes, <TI = &i = . . . = an = a, nous retrouvons nos formules pour la moyenne (82) et pour la variance (84) :
Fonction lineaire
la matrice F prend la forme :
la matrice (F^F] est une matrice (2 x 2)
et
La matrice inverse de (J-^ J-} qui est aussi la matrice de covariance (130) s'ecrit
ou
IV - AJUSTEMENT DBS PARAMETRES
127
Les expressions (128) donnent
Les elements D(A)\\ et D(A}<2-2 de la matrice de covariance defmissent 1'incertitude sur cti et sur 0,3
Dans le cas general, I'element D(A)i2 est different de 0, ce qui signifie que les deux parametres a\ et a-i sont correles :
Remarque tres importante. Supposons que toutes les valeurs {yzexp} soient distribuees selon une loi normale. Les conditions de minimisation (126) ou (128) fixent k relations entre les {yzexp}. Ainsi, la somme Rmin ou nous avons remplace les {aj} par leurs valeurs venant de la minimisation (128) a une distribution x2 avec (n — k) degres de liberte, conformement a la formule (105). Pour les {yjxp} distributes selon une loi normale, la notation standard de cette somme est x2 : Rmin = Xmin- Rappelons que la valeur moyenne de Xmin sel°n (98) est
alors que son erreur est selon (99)
Autrement dit, si tous nos calculs sont corrects et coherents et si toutes nos hypotheses sont verifiees, nous devons obtenir pour la somme de carres jR^Pn une valeur proche de (n — k ) . A cause de cette relation avec la distribution % 2 , la methode de moindre carres est egalement appelee la methode % 2 . L'hypothese de la forme gaussienne des distributions y^ donne une autre interpretation du critere du minimum des carres. La probability dP que les y{ se trouvent dans les
128
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
intervalles [yj xp , y^xp + dyi] s'ecrit alors
ou R est defini par (124). Ainsi le minimum de R(ai,a,2,... , a/j), fonction des parametres 0 1 , 0 2 , . . . , o&, correspond au maximum de cette probability. On peut dire que les "meilleures valeurs" de 0 1 , 0 2 , . . . , a^ sont celles qui attribuent la plus grande probabilite au resultat observe.
4.1.2
EXEMPLE D'UNE FONCTION LINEAIRE
Sur la figure 4.1, nous avons presente un exemple de donnees experiment ales (10 points) pour lesquelles nous voulons ajuster une droite y = a\ + a-^x. Les valeurs numeriques correspondantes sont reunies dans le tableau 4.2. Ier niveau d'analyse
Pour une estimation rapide on peut utiliser une procedure presque intuitive. A Poeil nu, on trace toute la famille des courbes lineaires qui passent par les points experimentaux et on choisit les valeurs maximale et minimale de a;. La valeur approximative et son erreur peuvent etre definies simplement comme :
Dans notre cas, pour les lignes (1) et (2) on obtient
IIe niveau d'analyse
Dans le tableau 3.2, nous avons explicite tous les resultats intermediaires necessaires pour calculer 01 et a 2 . L'application directe des formules (133) —(134) nous donne le resultat final :
Nous gardens deux chifFres significatifs dans 1'incertitude Aa2 afin d'avoir, pour les grandes valeurs de x, le meme nombre de chifFres significatifs dans a^x et dans 01Nous pouvons estimer aussi le coefficient de correlation (22) de deux parametres
Sa valeur absolue est relativement grande, done ces parametres sont fortement correles. Nous avons pris conscience de cette correlation lors de notre analyse rapide : pour passer
129
IV - AJUSTEMENT DBS PARAMETRES Tableau 3.2 : L'ajustement des coefficients ai et a? pour une droite 1
2
3
4
5
6
7
8
9
5,4
3,8
4,0
4,0
3,5
2,1
2,9
2,0
1,1
1,7
0,6
1,1
0,2
0,5
0,5
0,6
0,6
1,1
0,2
0,4
2,78
0,83
25
4
4
2,78 2,78 0,83
25
6,25
74,25
2,8
1,7
75
16
20
16,7 19,4
6,6
225
62,5
445,7
I?
3
3
225
64
100
100
136
53
2025
625
3334
t/r p
15,0
3,1
100
16
14
5,8
8,1
1,7
27,5 10,6
201,8
15,0
6,3
300
64
70
35
56,4 13,2 247,5 106,3
913,7
5,0
4,5
4,1
3,6
3,2
2,7
2,3
1,8
1,4
0,9
0,4
0,4
0,3
0,6
0,4
1,0
1,0
0,0
2,3
4,0
xt
vr ^r (A^F (Ayfxp)2
(A3/rp)2 (Aj/^ x p P 2/eXP'^i
(Ay^p
J/*hi
p
-vjph42) 2
(»r (A2/r )
1 0
£
10
de la droite (1) a la droite (2) il faut changer non seulement la pente a^ mais aussi la constante a\. Ceci n'est pas toujours le cas. Dans une situation ou I'origine x = 0 se trouve a peu pres au milieu des points experimentaux, le passage d'une droite extreme a une autre se fait seulement par la modification de la pente 02- L'erreur sur la constante et le coefficient de correlation sont petits dans ce cas-la. Ceci peut egalement se voir grace a la formule (135). Quand tous les {a?;} sont du meme signe, le coefficient de correlation est grand. Quand I'origine x = 0 se trouve au milieu des points experimentaux, la somme correspondante est proche de zero. IIP niveau d'analyse Dans Interpretation d'une experience de physique, nous ne pouvons pas nous limiter aux calculs des parametres et a leurs incertitudes. Nous devons aussi nous assurer que notre hypothese, selon laquelle les resultats experimentaux peuvent etre decrits par une fonction lineaire, est correcte. Supposons que notre collegue affirme que la meilleure approximation de ces points experimentaux n'est pas une fonction lineaire y(x) = a\ + a^x, mais une constante :
II applique les formules (131) et (132) et il obtient
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
130
II suffit de regarder la figure 3.3 pour voir qu'il se trompe. Son hypothese est fausse, mais comment pouvons-nous le prouver ? La difference entre nos deux resultats se trouve dans la valeur de la somme Xmin clu '' faut calculer apres avoir choisi les valeurs des parametres {a z }. Conformement a (136) et (137), dans notre ajustement de 10 points avec 2 parametres, on obtient Xmin = & avec une incertitude A.Xmin = 4- La valeur obtenue dans la derniere ligne du tableau 3.2 (Xmm)exp — 10 est en tres bon accord avec cette estimation (les valeurs de y\^ sont calculees avec les parametres (139)). Par centre, pour I'analyse de notre collegue, on s'attendrait a obtenir Xmin = ® avec ^Xmin — ^ tandis que la valeur experimental est (Xmm)eXP - 145 ! Voi|a la contradiction ! Nous pouvons reformuler ces conclusions en termes de probabilite car nous avons deja etudie la distribution %2 au paragraphe 2.3.2. Dans le tableau 3.3, nous presentons les valeurs %2 et les probabilites P pour que %2 soit plus grande ou egale a %2 avec un nombre donne de degres de liberte. Pour notre collegue, la probabilite de trouver x2 P'US grand que 21,7 pour v — 9 est inferieure a 1%. La probabilite de trouver x2 proche de 100 est alors negligeable. Ainsi son hypothese est refutee. Tableau 3.3 : Les valeurs x^> et les probabilites P pour que \2 > x?, pour v degres de liberte pour une droite
T
0,98
0,90
0,80
0,70
0,50
0,30
0,20
0,10
0,01
0,001 0,040 0,185 0,429 0,752 1,134 1,564 2,032 2,532 3,059 3,609 4,178 4,765 5,368 5,985 6,614 7,255 7,906 8,562 9,237
0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,444
0,064 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578
0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267 8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 15,352 16,266
0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337
1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775
1,642 3,219 4,642 5,980 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038
2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412
6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566
V
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Dans notre cas, la probabilite de trouver x2 > 10 Pour v — 8 est approximativement egale a 25%. En fait, cette valeur est assez grande. II faut se rappeler que la distribution X 2 est asymetrique et que ('interpretation des resultats avec cette distribution est un peu particuliere. Pour illustrer ses proprietes dans notre cas, divisons les valeurs de %2 en 4
IV - AJUSTEMENT DBS PARAMETRES
131
intervalles : /i = [0,4[, 72 = [4,8[, 73 = [8,12[ et 74 = [12,oo[. Le pas correspond a la racine carree de la variance. A I'aide du tableau 3.3, nous evaluons les probabilites pour que la valeur de x2 se trouve dans I'intervalle correspondant : P\ ~ 0,15, ^2 — 0,40, PS ~ 0, 30, PI ~ 0,15. Nous voyons que les probabilites d'obtenir de tres grandes et de tres petites valeurs de x2 sont faibles. Leur apparition signifie que le choix de la fonction etait mauvais. En physique, on considere que le choix d'une fonction est correct si la valeur de x2 Par degre de liberte est proche de 1. II existe un autre argument important qui conduit a interpreter ces probabilites avec beaucoup de prudence. Rappelons que nous avons remplace partout dans nos calculs les vraies variances cr? par les valeurs experimentales (Ay^ xp ) 2 , car nous ne connaissons que ces dernieres. La difference entre a^ et Ay^xp peut etre de I'ordre de 10%. Ainsi nous sommes capables de determiner %2 a 10 — 20% pres.
En conclusion, notons que la comparaison des deux premiers niveaux d'analyse montre bien deux particularity caracteristiques de ce genre d'evaluation rapide : 1'approche simple reproduit assez bien les valeurs de 01 et de 0,3, mais les incertitudes sur ces valeurs peuvent etre tres differentes des valeurs exactes. L'avantage du troisieme niveau reside en la possibilite de confirmer ou d'infirmer le choix de la dependance fonctionnelle. La methode des moindres carres est une approche tres efficace et elle est largement suffisante pour les experiences faites en travaux pratiques. Neanmoins, il existe des situations ou on ne peut pas 1'appliquer, par exemple lorsque le nombre d'evenements est petit et que Ton ne peut pas evaluer correctement les incertitudes, ou quand les incertitudes sur x ne sont pas negligeables x\,xi,... ,xn. Dans ces situations, on utilise une autre approche plus generale basee sur la fonction dite de vraisemblance.
4.2
METHODE DU MAXIMUM DE VRAISEMBLANCE
Une des hypotheses utilisees pour developper la methode des moindres carres etait la forme gaussienne de la distribution des y t -. On peut demontrer que cette condition peut etre legerement affaiblie mais que, de toute facon, cette approche n'est pas valable pour une distribution quelconque. C'est pourquoi on peut chercher a proposer une approche plus generale du probleme.
4.2.1
L'IDEE DE LA METHODE DU MAXIMUM DE VRAISEMBLANCE
L'idee de la methode du maximum de vraisemblance est assez simple (pour simplifier encore la presentation, nous supposons qu'il n'y qu'un seul parametre a ; la generalisation au cas de plusieurs parametres est relativement simple). Utilisons la demarche adaptee a la fin du paragraphe 4.1.1, ou nous avons interprete la methode des moindres carres comme celle qui donne la probabilite maximale de retrouver les valeurs experimentales avec une fonction theorique.
132
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
En utilisant les fonctions de distribution /(# z ; a) des variables 2 independantes X{, on ecrit la probabilite de trouver les valeurs de Xi dans les intervalles [#,,£; + dxi]
Pour que cette probabilite soit maximale, il faut que la fonction
ait un maximum. Cette fonction s'appelle la fonction de vraisemblance, et la condition du maximum de vraisemblance prend naturellement la forme
A partir de cette condition, on trouve la valeur du parametre a. II est parfois plus commode de minimiser le logarithme de cette fonction que la fonction elle-meme. On desire, par exemple, trouver la moyenne /j, inconnue d'une fonction de distribution gaussienne. Supposons que la fonction de distribution est la meme pour tous les Xi (avec la meme variance inconnue cr2) :
Le logarithme de la fonction de vraisemblance s'ecrit alors
et sa derivee
s'annule pour
Le signe^sur p souligne que la methode du maximum de vraisemblance nous indique comment estimer ce parametre ; autrement dit, elle fournit une estimation. Bien evidemment, dans ce cas simple, on retrouve une expression connue de la moyenne. Mais cette methode est vraiment tres generale. Par exemple, pour une distribution binomiale (qui est une distribution discrete !), on peut trouver la valeur la plus vraisemblable 2
Pour avoir la meme ecriture qu'au debut du chapitre, la variable aleatoire est representee par la lettre x.
IV - AJUSTEMENT DES PARAMETRES
133
de la probabilite inconnue p si, au cours de N experiences, un evenement se produit x fois. La fonction de vraisemblance, d'apres (30), s'ecrit
et son maximum correspond au maximum du logarithme
(dans cette expression, nous avons volontairement omis une constante qui ne depend pas de p). Alors
pour np = x. Autrement dit, la valeur la plus vraisemblable de p est
Malheureusement, la methode du maximum de vraisemblance ne peut pas resoudre tous les problemes. En particulier, les estimations obtenues par cette methode peuvent etre biaisees. Revenons a I'exemple d'une distribution gaussienne avec le logarithme de la fonction de vraisemblance
et determinons I'estimation pour la variance. La derivation de cette expression par rapport a u conduit a ('equation
soit
Comme nous I'avons deja vu plusieurs fois, pour avoir une estimation correcte (non biaisee) il faut diviser la somme par TV — 1 et non pas par N (voir, par exemple, (85)). En conclusion de ce paragraphe, donnons quelques remarques concernant les relations entre les deux methodes proposes d'ajustement des parametres. Tout d'abord, la methode des moindres carres peut etre consideree comme un cas particulier de la methode du maximum de vraisemblance : si Ton prend comme fonction de
134
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
distribution3 de y"p une gaussienne avec des "moyennes" y th (a;x z ) dependant de un (ou plusieurs) parametre(s), on a
et le logarithme de la fonction de vraisemblance donne (a une constante pres) la somme R (125) avec le signe moins. Ainsi le maximum de vraisemblance correspond au minimum de la somme des carres. Cette correspondance n'est pas surprenante, compte tenu de ('argumentation choisie pour developper la methode du maximum de vraisemblance. De plus, elle permet d'utiliser la puissance de la methode des rnoindres carres pour evaluer, par exemple, les incertitudes sur les valeurs des parametres (voir le paragraphe suivant). Enfm, si la methode du maximum de vraisemblance soit plus souple que la methode des moindres carres, on doit se souvenir qu'elle n'est pas parfaite : les estimations qu'elle propose peuvent etre biaisees et il est plus difficile d'avoir un jugement sur la qualite de I'ajustement des parametres. Rappelons que la methode des moindres carres (par la valeur de x2 obtenue) peut nous dire si notre hypothese sur la forme de la fonction a ajuster est correcte ou non. Au contraire, dans la methode du maximum de vraisemblance, ce type de critere n'existe pas.
4.2.2
INEGALITE DE CRAMER-RAO-FRECHET
Un aspect important de la methode du maximum de vraisemblance est le calcul des incertitudes sur les valeurs des parametres. Commencons par la fonction de vraisemblance d'une distribution normale (140) et cherchons ('incertitude sur p. Nous avons deja calcule le logarithme de la fonction de vraisemblance dans (141) de cette distribution. On peut ajouter a cette expression une constante independante de p comme, par exemple,
ou p est defmi par (142). On obtient alors
La representation de cette fonction de p est une parabole dont le maximum se trouve au point p = p. Pour N = 1, la parabole correspondante
est presentee sur la Figure 4.2. 3
Pour retrouver exactement les meme expressions que dans la methode de x 2 > notations yj pour les variables aleatoires et x^ pour 1'argument des fonctions.
on
reprend les
IV — AJUSTEMENT DES PARAMETRES
135
Figure 4.2 : Le logarithme de la fonction de vraisemblance d'une distribution gaussienne
Cette courbe est a la base de ('analyse des fonctions de vraisemblance dependant d'un parametre. Le segment de droite reliant les deux branches de la parabole pour InL = — 1/2, caracterise un intervalle de confiance
correspondant a une probabilite de 68,27 %, pour une distribution gaussienne. D'une facon analogue, le segment de droite reliant les deux branches de la parabole pour \nL = —2 correspond a un intervalle de confiance de 95,45 %. On peut demontrer pour une classe assez large de distributions (pas forcement gaussiennes) qui ne dependent que d'un seul parametre, qu'il est possible de trouver les intervalles de confiance de la meme facon. Par exemple, dans le cas d'une distribution binomiale abordee dans le paragraphe precedent, on peut tracer le logarithme de la fonction de vraisemblance en fonction de p. Pour x = 2 et A" = 10, cette fonction
est presentee sur la Figure 4.3 (dans cette expression, on a ajoute une constante pour que la valeur maximale de InL(p) soit egale a 0). Ce n'est pas une parabole mais elle lui ressemble quelque peu. D'ailleurs, on peut souvent approximer les fonctions de ce type par des paraboles au voisinage du maximum (ce qui signifie qu'on peut approcher la
136
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
fonction de distribution par une gaussienne). La position du maximum de cette fonction nous donne la valeur de I'estimation (143) : p= 0,2.
Figure 4.3 : Le logarithme de la fonction de vraisemblance pour une distribution binomiale avec x = 2 et N = 10
A partir de cette courbe, nous pouvons facilement trouver tous les intervalles de confiance desires. Parexemple, pour un intervalle de confiance de 95,45 %, la solution de I'equation
donne [0,036 ; 0,505]. On remarque que cet intervalle n'est pas symetrique par rapport ap=0,2.
Une autre approche existe pour determiner ("incertitude sur la valeur des parametres dans la methode du maximum de vraisemblance. Elle est beaucoup plus pratique, surtout lorsque la fonction de vraisemblance depend de plusieurs parametres. Cette approche porte le nom d'inegalite de Cramer-Rao-Frechet. Donnons sa demonstration dans le cas ou la vraisemblance L(a) ne depend que d'un seul parametre a, mais le resultat peut etre generalise au cas de plusieurs parametres. Soit a I'estimation du parametre a. Cette estimation est biaisee par une erreur systernatique f3(a), c'est-a-dire que la valeur moyenne de a est egale a 4
4
Pour simplifier la presentation des formule, nous utiliserons 1'ecriture / • • • dX qui signifie une integrate multiple sur toutes les variables xt.
IV - AJUSTEMENT DBS PARAMETRES
137
En derivant cette relation par rapport a a et utilisant le fait que I'estimation a n'est fonction que des donnees experimentales {xi}, on obtient
Cette relation peut encore s'ecrire sous la forme
Calculons maintenant la derivee par rapport a a de la relation de normalisation de la vraisemblance
que Ton peut mettre sous la forme
En multipliant cette relation par a et en le soustrayant de (145), on obtient
Si Ton applique I'inegalite de Schwartz 5
aux fonctions
on trouve
La premiere integrale represente la variance
5
Pour demontrer cette inegalite, il suffit de remarquer que 1'integrale f ( X f ( x ) positive quelque soit la valeur de A. Ainsi 1'equation
+ g(x))2dx
est
n'a pas de racines reelles non nulles. Done, le discriminant doit etre negatif. Cette condition nous donne I'inegalite recherchee.
138
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
La valeur moyenne du carre de la derivee logarithmique de la vraisemblance peut etre mise sous la forme
(pour obtenir cette relation, il suffit de calculer la derivee de 1'equation (146) par rapport a a). Ainsi I'inegalite (147) prend une autre forme equivalente
Pour que cette inegalite devient une egalite, il faut que, dans I'inegalite de Schwartz, les fonctions / et g soient les memes a un facteur multiplicatif A pres, c'est-a-dire que
Autrement dit, la vraisemblance doit avoir une forme gaussienne (a comparer avec 1'equation (144))
Notons que, dans ce cas, la derivee seconde du logarithme de la vraisemblance est une constante :
Ainsi, pour la variance, on obtient
soit
Comme exemple d'utilisation de la formule de Cramer-Rao-Frechet, considerons la distribution de Maxwell deja etudiee dans le paragraphe 3.1.3. Supposons que soit mesure le module de la vitesse des molecule d'un gaz et que nous voulions determiner la temperature a partir des resultats de N mesures effectuees : i;? (i — 1,... , N).
IV - AJUSTEMENT DBS PARAMETRES
139
La fonction de distribution f(v) du module de vitesse v s'ecrit
done, le logarithme de la vraisemblance prend (a une constante pres qui ne nous interesse pas) la forme
L'estimation de la temperature T s'obtient en annulant la derivee par rapport a T de cette expression :
Ainsi, on obtient
Cette expression correspond a I'intrepretation physique bien connue de la temperature comme mesure de I'energie cinetique moyenne des molecules. On peut verifier aisement que cette estimation n'est pas biaisee (elle ne contient pas d'erreur systematique), ce qui signifie que sa valeur moyenne est egale a T :
Pour demontrer ce resultat, calculons la valeur moyenne de T en utilisant la forme explicite de la distribution de Maxwell (151). La valeur moyenne du carre de la vitesse pour chaque molecule i, est d'apres (27), egale a
On obtient, ainsi pour
Le parametre T n'est pas biaise, done, De meme, on calcule la variance de ce parametre en utilisant la procedure appliquee pour obtenir la formule (84) :
140
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Pour obtenir ce resultat, nous avons utilise I'independance des variables Vi et le fait que, d'apres (27),
D'apres la formule de Cramer-Rao-Frechet, la variance de la temperature est donnee par
On peut calculer facilement la denominateur de cette expression :
Ainsi, dans le cas de la distribution de Maxwell, I'inegalite devient I'egalite. On voit que I'estimation de la temperature defmie par (152) est une estimation non biaisee et efficace. On peut aisement verifier que la condition (149) est satisfaite et que la vraisemblance peut encore s'ecrire sous la forme (150). IMous laissons au lecteur le soin de retrouver la valeur de A correspondante ainsi que le coefficient de normalisation.
CONCLUSION En conclusion, on retiendra les points suivants. Le probleme de la determination de la valeur d'une grandeur physique est inseparable de celle de son incertitude car toutes deux font partie d'une description unique en termes de probabilites. En utilisant ce langage probabiliste, nous ne pouvons plus repondre facilement a la question par laquelle nous avons commence cet ouvrage : "Quelle est la valeur de telle grandeur ?" Mais en donnant comme reponse la valeur et son erreur (et les autres parametres si, par exemple, la distribution de probabilite n'est pas gaussienne), nous apportons une information plus riche et surtout plus coherente. Sans connaitre 1'incertitude il est impossible de savoir si Ton peut avoir confiance en une valeur mesuree : avons-nous obtenu seulement un ordre de grandeur ou avons-nous reussi a avoir plusieurs chiffres significatifs ? C'est 1'incertitude qui donne 1'information sur la fiabilite des resultats et sur leur qualite. On comprend ainsi qu'il est toujours necessaire d'avoir une estimation, meme grossiere, de 1'erreur experimentale. En fait, la determination de 1'incertitude n'est pas plus difficile que la determination de la valeur elle-meme. L'incertitude est evaluee avec sa propre precision. C'est tres important dans les applications car il doit y avoir adequation entre la methode choisie pour obtenir la valeur moyenne avec son erreur et la precision recherchee : il ne faut pas utiliser des methodes lourdes et complexes si 1'on cherche une precision de 10%. L'approche statistique est une approche extremement puissante et informative, mais elle a ses limites : elle doit etre appliquee avec beaucoup de precautions aux erreurs systematiques qui mettent en jeu des parametres plus difficiles a analyser. Finalement, il faut souligner que rien ne peut remplacer le bon sens de 1'experimentateur, ni dans le choix de la methode d'analyse ni dans 1'appreciation des resultats. Nous esperons que les differents aspects qui ont ete abordes contribueront a demystifier un domaine qui rebute souvent les experimentateurs. II existe, certes, une litterature abondante sur ce domaine, notamment dans les pays anglo-saxons, mais souvent tres specialisee ou dispersee. Quelques ouvrages de reference sont donnes dans la bibliographic pour permettre d'approfondir certaines questions ou pour trouver d'autres exemples d'application, mais les problemes les plus courants ont ete traites dans cet ouvrage volontairement synthetique.
Cette page est laissée intentionnellement en blanc.
BlBLIOGRAPHIE
R.J. Barlow, "A Guide to the Use of Statistical Methods in the Physical Sciences", Jonh Wiley fe Sons, Chichester, New York, Brisbane, Toronto, Singapore, 1989. E. Belorizky, "Probabilites et statistiques dans les sciences experiment ales", Nathan, Paris, 1998. G. Cowan, "Statistical Data Analysis", Clarendon Press, Londres, 1987. D.J. Hudson, "Lectures on Elementary Statistics and Probability", CERN 63-29, 1963 ; D.J. Hudson, "Statistics Lectures II: Maximum Likelihood and Least Squares Theory", CERN 64-18, 1964. L. Lyons, "A practical guide to Data Analysis for Physical Sciences Students", Cambridge University Press, Oxford, 1991 ; L. Lyons, "Statistics for nuclear and particle physicists", Cambridge University Press, Oxford, 1986. M. Neuilly et CETAMA, "Modelisation et estimation des erreurs de mesure", Lavoisier, Technique et Documentation, Londres, Paris, New York, 1998. M.R. Spiegel, "Theorie et applications de la statistique", Mc-Graw-Hill, Londres, 1987. G.L. Squires, "Practical Physics", McGraw-Hill, Londres, 1968. B.N. Taylor, Ch.E. Kuyatt, "Guidelines for Evaluating and Expressing the Uncertainty ofNIST Measurement Results", NIST Technical Note 1297, 1994 (http://physics.nist.gov/cuu/Uncertainty/bibliography.html) ; "Guide pour ./'expression de 1'incertitude de mesure", BIPM, CEI, FICC, ISO, OIML, UICPA, UIPPA, ISBN 92-67-20188-3, 1995 (http://www.iso.ch/iso/fr/prods-services/otherpubs/Metrology.html). B.L. Van der Waerden, "Statistique mathematique", Dunod, Paris, 1967.
Cette page est laissée intentionnellement en blanc.
INDEX "Addition" de deux mesures
99
Ajustement des parametres
119
Chiffres significatifs Coefficient de correlation Coefficient de Student Comparaison de deux resultats Correlations Covariance (voir aussi matrice de covariance) Degre de liberte
78 24, 127 91, 97 96 23, 57, 125 29 91, 97, 127, 130
Distribution binomiale
31,49
Distribution constante
18, 66
Distribution gamma
40, 89
Distribution de Gauss (normale)
25, 42, 89
Distribution de Lorentz (de Cauchy)
37, 45, 89
Distribution de Maxwell
25, 84, 139
Distribution de Poisson
34, 49, 89
Distribution de Student
87, 89, 90
Distribution x2
82, 89, 127, 130
Ecart quadratique moyen
77
Ecart-type
18
Echantillon
76
Erreur Erreur systematique Estimation
8 9, 101, 105, 116 119
146
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Estimation biaisee
120, 140
Estimation efficace
120, 140
Fonction de distribution
16, 17
Fonction de distribution de plusieurs variables
20
Fonction generatrice des moments
19
Fonction generatrice des moments centraux
20
Incertitude d'appareil
9, 102
Incertitude naturelle
8, 101
Incertitude statistique
9, 116
Intervalle de confiance
72, 91
Matrice de covariance
57, 125 2
Methode de moindres carres (% )
122
Methode de maximum de vraisemblance
131
Moments
19
Moments centraux
19
Moyenne
17
Moyenne experimentale
76
Niveau de confiance Probabilite Propagation des erreurs
72, 91 11 51, 53
Precision de la variance experimentale
78
Theoreme central limite
42
Variable (grandeur) continue
14, 16, 17
Variable (grandeur) discrete
14, 16, 17
Variables independantes
13, 21, 23
Variance
18
Variance experimentale
77
Vraisemblance
132
TABLE DES MATIERES Preface
5
Pourquoi les incertitudes existent-elles ?
7
Chapitre 1. Rappels sur la theorie des probabilites 1.1. Probabilites
11 11
1.1.1. Definitions et proprietes
11
1.1.2. Grandeurs discretes et continues, fonction de distribution
13
1.1.3. Proprietes de la fonction de distribution
17
1.1.4. Fonction de distribution de plusieurs variables
20
1.1.5. Correlations
23
1.2. Distribution de Gauss
25
1.3. Auitres distributions elementaires
30
1.3.1. Distribution binomiale
31
1.3.2. Distribution de Poisson
34
1.3.3. Distribution de Lorentz
37
1.3.4. Distribution gamma
40
1.4. Theoreme central limite Chapitre 2. Fonctions d'une variable aleatoire 2.1. Propagation des erreurs
42 51 51
2.1.1. Formule de propagation des erreurs
51
2.1.2. Exemples de propagation des erreurs
53
2.1.3. Cas des variables correlees
57
2.2. Distribution de probabilite d'une fonction de variable aleatoire
61
2.2.1. Fonction biunivoque
61
2.2.2. Cas general
62
2.2.3. Exemple physique
64
148
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES 2.2.4. Precision de la formule de propagation des erreurs 2.3. Niveau de confiance et intervalle de confiance
Chapitre 3. Experiences avec un nombre limite de mesures 3.1. Echantillon, valeur moyenne et ecart-type 3.1.1. Definitions et proprietes
67 71 75 75 76
3.1.2. Precision de la variance experimentale et chifFres significatifs .. 78 3.1.3. Distribution x2 3.2. Distribution de Student 3.2.1. Petit nombre de mesures 3.3. Deux resultats experimentaux
82 87 90 96
3.3.1. Comparaison de deux resultats experimentaux
96
3.3.2. " Addition " de deux resultats experimentaux
99
3.4. Autres sources d'erreurs
101
3.4.1. Incertitudes d'appareil
102
3.4.2. Erreurs systematiques
105
3.4.3. Comment eviter les erreurs systematiques ?
109
3.4.3. Comment travailler avec les erreurs systematiques ?
115
Chapitre 4. Ajustement des parametres
119
4.1. Methode des moindres carres
122
4.1.1. Idee de la methode des moindres carres
122
4.1.2. Exemple d'une fonction lineaire
128
4.2. Methode du maximum de vraisemblance
131
4.2.1. Idee de la methode du maximum de vraisemblance
131
4.2.2. Inegalite de Cramer-Rao
134
Conclusion
141
Bibliographie
143
Index
145
Table des matieres
147
Imprime en France - JOUVE, 11, bd de Sevastopol, 75001 Paris - France N° 314554A. Depot legal: Octobre 2002