Probabilia, statistica e sl ulaz one
A. Rotondi P. Pedroni A. Pievatolo
ALBERTO ROTONDI Dipartimento di Fisica Nucleare e Teorica Universita di Pavia PAOLO PEDRONI Istituto Nazionale di Fisica Nucleare Sezione di Pavia ANTONIO PIEVATOLO Istituto di Matematica Applicata e Tecnologie Informatiche CNR - Milano
Springer-Verlag fa parte di Springer Science+Business Media
O Springer-Verlag Italia, Milano 2005
ISBN 88-470-0262-1 Quest'opera k protetta dalla legge sul diritto d'autore. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all'uso di figure e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla riproduzione su microfdm o in database, alla diversa riproduzione in qualsiasi altra forma (stampa o elettronica) rimangono riservati anche nel caso di utilizzo parziale. Una riproduzione di quest'opera, oppure di parte di questa, & anche nel caso specific0 solo ammessa nei limiti stabiliti dalla legge sul diritto d'autore, ed k soggetta all'autorizzazione dell'Editore. La violazione delle norme cornporta le sanzioni previste dalla legge. L'utilizzo di denominazioni generiche, nomi commerciali, marchi registrati, ecc, in quest'opera, anche in assenza di particolare indicazione, non consente di considerare tali denominazioni o marchi liberamente utilizzabili da chiunque ai sensi della legge sul marchio. Riprodotto da copia camera-ready fornita dagli Autori Progetto grafico della copertina: Simona Colombo, Milano Stampato in Italia: Arti Grafiche Nidasio, Assago
lndice
Prefazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
La probabilith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Caso. caos e determinism0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Terminologia . . . . . . . . . . . . . . . . . . . . . . . . . . . , .. . . . . . . . . . . . . 1.3 I1 concetto di probabilita ................................ 1.4 Probabilitii assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Prove ripetute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Teorema di Bayes ...................................... 1.8 L'approccio bayesiano ................................... 1.9 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
Rappresentazione dei fenomeni aleatori ................... 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Variabili aleatorie ...................................... 2.3 Funzione cumulativa o di ripartizione ..................... 2.4 La rappresentazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Media, Varianza e Deviazione Standard . . . . . . . . . . . . . . . . . . . 2.9 Operatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 I1 campione casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Criteri di convergenza ................................... 2.12 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
Calcolo elementare delle probabilith . . . . . . . . . . . . . . . . . . . . . . 3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Proprieta della distribuzione binomiale . . . . . . . . . . . . . . . . . . . . 3.3 La distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Densita di Gauss o normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Calcolo di distribuzioni in SCILAB . . . . . . . . . . . . . . . . . . . . . . . 3.6 Legge 3-sigma e gaussiana standard . . . . . . . . . . . . . . . . . . . . . . . 3.7 I1 teorema Lirnite Centrale: universalita della gaussiana .....
VI
lndice
3.8 3.9 3.10 3.11 3.12 3.13
.
Calcolo delle probabilitb p e r p i h variabili . . . . . . . . . . . . . . . . . 111 4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2 Distribuzioni statistiche multidimensionali ................. 111 4.3 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.4 Densit&gaussiana bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.5 Generalizzazione in pih dimensioni . . . . . . . . . . . . . . . . . . . . . . . . 133 4.6 Insiemi di probabilith in piil dimensioni ................... 136 4.7 La distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.8 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
.
Funzioni di variabili aleatorie ............................. 143 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.2 Funzione di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 144 5.3 finzioni di pih variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.4 La trasformazione della media e della varianza . . . . . . . . . . . . . 158 5.5 Medie e varianze per n variabili . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.6 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
.
Statistica d i base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 6.3 Determinazione degli intervalli di confidenza ............... 176 6.4 Cenno all'approccio bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.5 Alcunenotazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 6.6 Stima della probabilita da grandi campioni . . . . . . . . . . . . . . . . 180 6.7 Stima della probabilita da piccoli campioni . . . . . . . . . . . . . . . . 184 6.8 Stima di valori limite poissoniani . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.9 Stima della media da grandi campioni . . . . . . . . . . . . . . . . . . . . . 192 6.10 Stima della varianza da grandi carnpioni ................... 194 6.11 Stima di media e varianza ha piccoli campioni .............. 198 6.12 Come utilizzare la teoria della stima . . . . . . . . . . . . . . . . . . . . . . 202 6.13 Stime da una popolazione finita . . . . . . . . . . . . . . . . . . . . . . . . . . 208 6.14 Verifica di una ipotesi ................................... 210 6.15 Verifica di compatibilita tra due valori .................... 212 6.16 Stima della densith di una popolazione . . . . . . . . . . . . . . . . . . . . 217 6.17 Verifica di compatibilitb tra campione e popolazione . . . . . . . . 223 6.18 Verifica di ipotesi con test non parametrici . . . . . . . . . . . . . . . . . 231 6.19 Stima della correlazione ................................. 238
4
5
6
Processi stocastici poissoniani . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 La densith X 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 La densith uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Disuguaglianza di Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Come utilizzare il calcolo delle probabilith ................. 101 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
lndice
6.20 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VII 245
7. I1 metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.2 Cosl&il metodo Monte Carlo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 7.3 Fondamenti matematici ................................. 251 7.4 Generazione di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . 252 7.5 Generazione di variabili aleatorie continue ................. 256 7.6 Metodo del rigetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 7.7 Metodo di ricerca lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 7.8 Metodi particolari di generazione casuale .................. 268 7.9 Studio Monte Carlo di distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 273 7.10 Determinazione degli intervalli di confidenza ............... 276 7.11 Bootstrap non parametric0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 7.12 Problemi .............................................. 283 8
.
Applicazioni del metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . 285 8.1 Introduzione .......................................... 285 8.2 Studio dei fenomeni di difisione . . . . . . . . . . . . . . . . . . . . . . . . . 285 8.3 Simulazione dei processi stocastici . . . . . . . . . . . . . . . . . . . . . . . . 293 8.4 Il numero di addetti ad un impianto: simulazione sincrona . . . 298 8.5 I1 numero di addetti ad un impianto: simulazione asincrona . . 302 8.6 Algoritmo di Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 8.7 I1 modello di Ising . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 8.8 Calcolo di integrali definiti ............................... 311 8.9 Campionamento ad importanza . . . . . . . . . . . . . . . . . . . . . . . . . . 315 8.10 Campionamento stratificato ............................. 316 8.11 Integrali multidimensionali ..............................320 8.12 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
9
.
Inferenza statistica e verosimiglianza ..................... 323 9.1 Introduzione ........................................... 323 9.2 Il metodo della massima verosimiglianza ................... 325 9.3 ProprietB degli stimatori ................................ 330 9.4 Teoremi sugli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 9.5 Intervalli di confidenza ..... , ............................ 342 9.6 I1 metodo dei minimi quadrati e la massima verosimiglianza . . 345 9.7 Adattamento di densit& (best fit) ad istogrammi . . . . . . . . . . . . 347 9.8 La media pesata ........................................ 352 9.9 Verifica delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 9.10 Test di potenza massima ................................ 359 9.11 Funzioni test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.12 Test sequenziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 9.13 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
VIII
lndice
.
Minimiquadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 10.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373 10.2 Predittori osservati senza errore . . . . . . . . . . . . . . . . . . . . . . . . . 376 10.3 Rette dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 10.4 Minimi quadrati lineari: caso.generale . . . . . . . . . . . . . . . . . . . . 385 10.5 Minimi quadrati lineari pesati . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 10.6 ProprietA delle stime dei minimi quadrati . . . . . . . . . . . . . . . . . 392 10.7 Verifica del modello e determinazione di forme funzionali . . . 394 10.8 Ricerca delle correlazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 10.9 Test di adattamento del modello . . . . . . . . . . . . . . . . . . . . . . . . . 405 10.10 Errori sui predittori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 10.11 Minimizzazione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 10.12Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
.
Analisi dei dati sperimentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 11.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 11.2 Terminologia .......................................... 414 11.3 Grandezze fisiche costanti e variabili . . . . . . . . . . . . . . . . . . . . . 415 11.4 Sensibilita e accuratezza degli strumenti . . . . . . . . . . . . . . . . . . 416 11.5 Incertezza nelle operazioni di misura . . . . . . . . . . . . . . . . . . . . . 418 11.6 Misure indirette e propagazione degli errori ............... 421 11.7 Definizione dei tipi di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 11.8 Misure del tip0 M ( 0 , 0, A ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.9 Misure del tip0 M ( 0 , u , 0 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 11.10 Misure del tip0 M ( 0 , u. A) . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 11.11 Misure del tip0 M ( f . 0. 0 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 11.12 Misure del tip0 M ( f , u. 0 ) . M ( f . 0, A ) , M ( f . u , A ) . 444 11.13 Studio di un caso: gli esperimenti di Millikan . . . . . . . . . . . . . . 448 11.14 Alcune note sul metodo scientific0 ....................... 452 11.15Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
10
11
.
Appendice A Tabella dei simboli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 Appendice B . Funzioni generatrici . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 Appendice C Soluzioni dei problemi . . . . . . . . . . . . . . . . . . . . . . . . . 463 Appendice D Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 D.l Integrale della densit&gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . .477 D.2 Valori quantili della densit& di Student . . . . . . . . . . . . . . . . . . . . 478 D.3 Integrale della densita X 2 ridotto . . . . . . . . . . . . . . . . . . . . . . . . . 478 D.4 Valori quantili di x2 non ridotto . . . . . . . . . . . . . . . . . . . . . . . . . 479 D.5 Valori quantili della densit& F ........................... 479
. .
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 Indice analitico ............................................... 491
Prefazione alla prima edizione
Questo testo nasce dalla collaborazione tra due fisici sperimentali e uno statistico. Tra i non statistici, i fisici sono forse quelli che piir apprezzano e utilizzano il calcolo delle probabilith e la statistica, il pib delle volte perb in mod0 pragmatic0 e manualistico, avendo in mente la soluzione di problemi o applicazioni tecniche. D'altra parte, nel confront0 cruciale fra teoria ed esperimento, occorre a volte utilizzare metodi sofisticati, che richiedono una conoscenza profonda dei principi, anche logici e matematici, che stanno alla base dello studio dei fenomeni casuali. Pib in generale, anche chi non i: statistico deve spesso affrontare, nell'ambito della ricerca, problemi che richiedono particolari doti di attenzione e competenza nel trattamento degli aspetti casuali o aleatori. Queste doti sorlo irlvece possedute in mod0 naturale dallo statistico, il quale fa delle leggi del caso l'oggetto delle proprie ricerche. Questo testo B maturato con l'intento di cercare una sintesi tra queste esperienze diverse, per fornire a1 lettore non solo uno strumento utile ad affrontare i problemi, ma anche una guida ai metodi corretti per comprendere il complicato e affascinante mondo dei fenomeni aleatori. Un tale obiettivo ha comportato ovviamente delle scelte, talvolta anche dolorose, sia nel tip0 sia nella forma dei contenuti. Nella forma, abbiamo cercat0 di non rinunciare alla precisione necessaria per insegnare correttamente i concetti importanti; nelle applicazioni, abbiamo privilegiato i metodi che non richiedono eccessive elaborazioni concettuali preliminari. Abbiamo ad esempio cercato di utilizzare, quando i: possibile, metodi approssimati per la stima intervallare, con le approssimazioni gaussiane alla distribuzione degli stimatori. Allo stesso modo, nel caso dei minimi quadrati, abbiamo usato in mod0 esteso l'approssimazione basata sulla distribuzione X 2 per la verifica dell'adattamento di un modello ai dati. Abbiamo anche evitato di insistere nel trattamento formale di problemi complicati nei casi in cui si pub trovare la soluzione utilizzando il computer e facili programmi di simulazione. Nel nostro testo la simulazione riveste quindi un ruolo importante nell'illustrazione di molti argomenti e nella verifica della bont& di molte tecniche ed approssimazioni. I1 libro si rivolge in primo luogo agli studenti dei primi anni dei corsi di indirizzo scientifico, come ingegneria, informatica e fisica. Pensiamo perb che esso possa risultare utile anche a tutti quei ricercatori che devono risolvere problemi concreti che coinvolgono aspetti probabilistici, statistici e di simulazione. Per questo abbiamo dato spazio ad alcuni argomenti, come il metodo Monte Carlo e le sue applicazioni, le tecniche di minimizzazione e i metodi
X
Prefazione
di analisi dei dati, che solitamente non vengono trattati nei testi di carattere introduttivo. Le conoscenze matematiche richieste a1 lettore sono quelle impartite solitamente nell'insegnamento di Analisi Matematica I dei corsi di laurea ad indirizzo scientifico, con l'aggiunta di nozioni minime di Analisi Matematica 11, come i fondamenti della derivazione ed integrazione delle funzioni di pih variabili. La struttura del testo consente diversi percorsi didattici e livelli di lettura. I prirni 6 capitoli trattano tutti gli argomenti solitamente svolti in un corso istituzionale di statistica. A scelta del docente, questo programma pub essere integrato con alcuni argomenti pib avanzati tratti dagli altri capitoli. Ad esempio, in un corso orientato alle tecniche di simulazione, va senz'altro incluso il capitolo 7. Le nozioni di probabilita e statistica impartite di solito agli studenti di fisica nei corsi di laboratorio del primo biennio sono contenute nei primi 3 capitoli, nel capitolo 6 (statistica di base) e nel capitolo lo1, scritto esplicitamente per i fisici e per tutti coloro che hanno a che fare con il trattamento dei dati provenienti da esperienze di laboratorio. Molte pagine sono dedicate alla risoluzione completa di numerosi esercizi inseriti direttamente nei capitoli ad illustrazione degli argomenti trattati. Raccomandiamo a1 lettore anche i problemi (tutti con soluzione) riportati alla fine di ogni capitolo. I1 testo Q stato scritto nel corso di diversi anni, nel tempo "libero" dagli impegni dell'insegnamento e della ricerca. Molte parti del materiale che qui presentiamo sono state collaudate in alcuni corsi per fisici, istituzionali e di dottorato, sull'analisi statistica dei dati e sulle tecniche di simulazione Monte Carlo. Ringraziare uno per uno tutti gli studenti e i colleghi che ci hanno dato consigli, suggerimenti e corretto errori e imprecisioni ci Q veramente impossibile. Un grazie particolare va comunque a Franco Barbaini, Valerio Filippini, Andrea Fontana e Victor Tretyak. Infine, un sincero ringraziamento all'editore Springer per aver apprezzato e sostenuto il nostro progetto. Pavia, gennaio 2001 Gli Autori
Nella nuova edizione B il capitolo 11
Prefazione
XI
Prefazione alla seconda edizione In questa seconda edizione abbiamo tenuto conto delle numerose osservazioni e di alcune segnalazioni di errori di molti lettori, che ringraziamo vivamente per la collaborazione. E solo grazie a questi lettori che un libro non muore, ma resta una cosa viva che evolve e migliora nel tempo. La prima parte del capitolo 6 sulle stime frequentiste di Neyman e tutto il capitolo 10 sui minimi quadrati sono stati riscritti cercando di presentare la materia in mod0 pih chiaro e sintetico. Per soddisfare il notevole interesse sulle tecniche di simulazione Monte Carlo, l'argomento k stato ampliato, arricchito di nuovi esempi ed applicazioni e suddiviso in due capitoli. I1 nuovo materiale non ha aumentato la mole del testo, perchi: alcune parti di secondaria importanza o troppo tecniche sono state alleggerite od eliminate. Una delle maggiori novita i:l'utilizzo, in tutto il testo, del software libero SCILAB~,particolarmente semplice e potente, e di numerosi programmi che abbiamo scritto e che si possono ottenere dal sito web dell'editore3. Consigliamo quindi una lettura interattiva, che a110 studio di un argomento faccia seguire l'uso delle routine second0 le modalita indicate nel testo e le istruzioni tecniche contenute in queste pagine web. Nella speranza che questa nuova fatica venga ripagata con lo stesso interesse che ha accompagnato la prima edizione, ringraziamo ancora l'editore Springer per la fiducia che ha continuato ad accordarci. Pavia, agosto 2004 Gli Autori
XI1
Prefazione
C o m e utilizzare il t e s t o Figure, equazioni, definizioni, teoremi, tabelle ed esercizi sono numerati progressivamente all'interno di ogni capitolo. Le sigle delle citazioni (ad esempio [57]) si riferiscono all'elenco riportato nella bibliografia alla fine del libro. La soluzione dei problemi 6 a pagina 463. Pub anche essere utile la tabella dei simboli riportata nelle pagg. 459-460. I codici di calcolo come h i s t p l o t sono indicati su sfondo grigio. Le routine che iniziano con lettera minuscola sono quelle originali di SCILAB, che possono essere liberamente copiate d a
mentre quelle che cominciano in maiuscolo sono scritte dagli autori e si trovano in
In questo sit0 si trovano anche tutte le informazioni per la installazione e l'uso di SCILAB, una guida all'uso delle routine scritte dagli autori e materiale didattico complementare a1 testo.
1. La probabilita
"Sembra non esserci alternativa dl'accettare l'idea che nell'esistenza c'i un qualche elemento incomprensibile. La scelta t. libera. Noi tutti Auttuiamo delicatamente fra una visione soggettiva e una visione oggettiva del mondo, e questo dilemma 6 a1 centro della natura umana. " Douglas R. Hofstadter, "L'Io DELLA MENTE" .
1.1 Caso, caos e determinism0 Questo libro si propone di studiare in mod0 dettagliato i fenomeni detti aleatori, stocastici o casuali. Prima di immergerci nell'argomento, in questa introduzione analizzeremo brevemente la collocazione ed il ruolo di questi fenomeni nel contest0 della realta in cui viviamo. Nella misura o nell'osservazione di un fenomeno naturale, inizialmente si cerca di identificare tutte le cause e le condizioni esterne che ne determinano l'evoluzione. Successivamente, si opera in mod0 da tenere fisse o sotto controllo, per quanto possibile, queste cause esterne e si procede a registrare i risultati delle osservazioni. Ripetendo le osservazioni, si possono allora presentare due casi: 0
si ottiene sempre lo stesso risultato. Come esempio, pensate alla misura di un tavolo con un metro commerciale; si ottiene ogni volta un risultato differente. Pensate ad un fenomeno naturale molto semplice: il lancio di una moneta.
Mentre nel primo caso per il momento non c'i: molto da dire, nel second0 vogliamo qui chiederci a cosa sono dovute le variazioni osservate nei risultati. Possibili cause sono il non aver tenuto sotto controllo tutte le condizioni del fenomeno, oppure avere definito in mod0 scorretto la grandezza d a osservare. Una volta effettuate queste correzioni, il fenomeno pub diventare stabile, oppure continuare a presentare fluttuazioni. Spieghiamo con un esempio: supponiamo di voler misurare l'ora del sorgere del sole all'orizzonte in una data localit8. Osserveremo che misure ripetute in giorni successivi forniscono un risultato differente. Ovviamente, in questo caso la variazione del risultato 6 dovuta ad una cattiva definizione della
2
Capitolo 1. La probabiliti
misura. L'ora del sorgere del sole va misurata in un certo luogo e per un determinato giorno dell'anno, e va ripetuta a distanza di un anno in quello stesso giorno e luogo. Ridefinendo in questo mod0 l'osservazione, i risultati di misure ripetute coincidono. Come i: noto, le leggi del mot0 dei pianeti forniscono in questo caso un modello che permette di prevedere (a meno di piccole correzioni che non vogliamo discutere) le ore dell'alba per tutti i giorni dell'annol. Consideriamo ora la misura di un'altra grandezza, la temperatura di un giorno ad una determinata ora. In questo caso, anche considerando un certo giorno dell'anno e ripetendo le misure di anno in anno, si osservano risultati differenti. A differenza dell'ora del sorgere del sole, non siamo in questo caso nemmeno in possesso di un modello che ci permetta di prevedere con precisione il risultato della misura. Come mai la temperatura, a differenza dell'ora dell'alba, sembra avere intrinsecamente un comportamento casuale? La ragione b che, mentre l'ora dell'alba dipende dall'interazione di pochi corpi (il sole e i pianeti), la temperatura dipende, oltre che dalle condizioni astronomiche, anche dallo stato dell'atmosfera, il quale 5 il risultato dell'interazione di innumerevoli fatt,ori, che nemmeno i n linea di principio possono essere determinati con assoluta precisione o comunque tenuti sotto controllo. Questa distinzione b cruciale ed B la chiave per stabilire la differenza tra grandezze che presentano fluttuazioni e quelle che sembrano fisse o comunque prevedibili con precisione in base a modelli deterministici. Storicamente, i sistemi deterministici sono stati per lungo tempo considerati privi di fluttuazioni ed il lor0 studio, nell'ambito della fisica classica, i! proseguito in parallel0 a quello dei sistemi detti stocastici, aleatori o casuali, nati con lo studio dei giochi d'azzardo: lancio di dadi, giochi di carte, roulette, slot machines, gioco del lotto e cosi via. Questi ultimi sono sistemi costruiti appositamente per assicurare la casudita del risultato. Esistevano pertanto due mondi separati: quello privo di fluttuazioni dei fenomeni deterministici, legati alle leggi fondamentali della fisica, ai sistemi semplici (in genere a pochi corpi), ed il mondo dei fenomeni aleatori, soggetti a fluttuazioni, legato ai sistemi complessi (in genere a molti corpi). Tuttavia, gii all'inizio del secolo scorso il fisico-matematico francse H. Poincar6 si accorse che in alcuni casi la conoscenza della legge deterministica non era sufficiente per fare predizioni esatte sulla dinarnica del sistema a partire d a condizioni iniziali note. I1 problema, che oggi si chiama studio del caos, venne perb ripreso e studiato a fondo solo ben piil tardi, a partire dagli anni '70, grazie all'aiuto dei calcolatori. Oggi sappiamo che, nei sistemi macroscopici, l'origine delle fluttuazioni pub essere duplice, ciob dovuta a leggi deterministiche che presentano elevata sensibilita rispetto alle condiIn realtit non si sa esattamente quanto sia stabile il sistema solare. Alcuni modelli indicano che non sia possibile estendere le previsioni oltre un intervallo di tempo dell'ordine dei cento milioni di anni [7]
1.1Caso, caos e determinism0
3
Fig. 1.1. Valori assunti d a x in base alla equazione logistica (1.1) partendo dal valore iniziale x = 0.3 per differenti valori del parametro A.
zioni iniziali (sistemi caotici) oppure alla impossibilith di definire in mod0 deterministic0 tutte le variabili del sistema (sistemi stocastici). Uno dei paradigmi migliori per spiegare il caos & la mappa logistica, proposta fin dal 1838 dal matematico belga P.F. Verhulst e studiata in dettaglio dal biologo R.May nel 1976 e dal fisico M. Feigenbaum nel 1978:
dove k i: il ciclo di crescita della popolazione, X & legato a1 tasso di crescita e 0 j x(k) 5 1 i: una variabile di stato proporzionale a1 numero di individui della popolazione. Affinch6 x si mantenga nei limiti prefissati, deve essere 0 X 5 4. La legge logistica descrive bene la dinamica di evoluzione delle popolazioni dove esiste un accrescimento per ciclo proporzionale a X x(k) con un termine correttivo negativo (reazione o feedback) -A x2(k) proporzionale a1 quadrat0 della dimensione gi8 raggiunta dalla popolazione. Senza addentrarci troppo nello studio della mappa logistica, notiamo che il comportamento della popolazione evolve col numero dei cicli second0 le caratteristiche seguenti (riportate anche in Fig. 1.1):
<
0 0
per X 5 1 il modello conduce sempre all'estinzione della popolazione; per 1 < X 5 3 il sistema raggiunge un live110 stabile, che dipende da X ma non dalla condizione iniziale x(0); per 3 < X 3.56994. . . il sistema oscilla periodicamente tra alcuni valori fissi. Ad esempio, come mostrato in Fig. 1.1 per X = 3.5, i valori possibili sono 4 ( si noti che in figura i valori discreti di x sono uniti dalla linea con-
<
4
0
Capitolo 1. La probabiliti
tinua). Anche in questo caso gli stati raggiunti dal sistema non dipendono dalla condizione iniziale; per X > 3.56994. . . il sistema i: caotico: le fluttuazioni sembrano regolari, ma, come si vede guardando con attenzione la Fig. 1.1 per X = 3.8, esse non sono n6 periodiche n6 sembrano del tutto casuali. Uno studio approfondito mostra anche che le fluttuazioni non sono nemmeno prevedibili con precisione, perch6 valori della condizione iniziale x ( 0 ) molto vicini portano ad evoluzioni completamente diverse della popolazione. Questo fenomeno, che si chiama dipendenza sensibile dalle condizioni iniziali o efletto farfalla2, i:una delle caratteristiche principali del caos. Si noti che le fluttuazioni nei sistemi caotici sono oggettiue, intrznseche o essenziali, poich6 la riproducibilith dei risultati richiederebbe condizioni iniziali fissate ad un live110 di precisione inferiore a quello della scala atomica, il che non 6 possibile n e m m e n o i n linea di principio.
Potete fare esperienza numerica con la mapp l'effetto , con cui farfalla utilizzando le nostre funzioni SCILAB abbiamo prodotto la Fig. 1.1. I metodi per distinguere i sistemi caotici da quclli stocastici si basano essenzialmente sullo studio degli scarti, ciob della differenza tra i valori corrispondenti delle stesse variabili di stato nelle evoluzioni successive del sistema, in funzione del numero di variabili di stato. In un sistema caotico, raggiunto un certo numero di variabili, gli scarti si stabilizzano o tendono a diminuire. Questo comportamento indica che si t: raggiunto un numero di variabili di stato adeguato a descrivere il sistema e che si pub ottenere la legge deterministica che ne regola la dinamica. Le fluttuazioni nei risultati di esperimenti ripetuti in questo caso vengono attribuite, come abbiamo visto, alla sensibilith del sistema rispetto alle condizioni iniziali In un sistema stocastico, invece, il numero di variabili di stato necessario alla descrizione completa del sistema non viene mai raggiunto e la somma degli scarti, o delle grandezze ad essi connesse, continua a crescere col numero delle variabili di stato considerate [7]. Le fluttuazioni delle variabili appaiono casuali e seguono le distribuzioni del calcolo delle probabilith. Lo studio del caos e delle transizioni dallo stato caotico a quello stocastico (e viceversa) i: un'area di ricerca molto recente e tuttora aperta, dove molti problemi restano ancora irrisolti. I1 lettore interessato pub entrare in questo affascinante argomento attraverso le letture introduttive [7, 72, 771. Riferendosi a1 caos nei sistemi meteorologici, spesso si dice: "un battito d'ali di farfalla ai tropici pub scatenare un uragano in Florida" Le istruzioni per eseguire le nostre routine e a quelle del software SCILAB [73], utilizzato come codice di riferimento nel seguito del testo, si possono ottenere dal sito http: //www. springer. i t / l i b r i - l i b r o .asp?id=242 [64]. D'ora in poi i nomi dei codici verranno evidenziati su sfondo grigio. Le routine originali SCILAB iniziano con lettera minuscola, le nostre con lettera maiuscola.
1.1 Caso, caos e determinism0
5
Nel seguito del libro non tratteremo il caos, ma ci dedicheremo invece a110 studio dei sistemi aleatori o stocastici, cioB di tutti quesi sistemi nei quali, in base a quanto detto, vi sono variabili che seguono, in linea di massima, l'affermazione4: Affermazione 1.1 (Variabile aleatoria i n senso lato). Una variabile statistica, aleatoria o casuale b il risultato del17interazione di molti fattori, ognuno dei quali n o n d preponderante sugli altri. Questi fattori (e le loro leggi dinamiche) n o n possono essere completamente individuati7 fissati e comunque tenuti sotto controllo, n e m m e n o i n linea di principio. Nel testo useremo prevalentemente il termine "variabile aleatoria" . Proviamo ora a identificare alcuni sistemi o processi stocastici che in natura producono variabili aleatorie o casuali. In natura tutti i sistemi a molti corpi hanno un grado molto elevato di casualitb: le osservabili dinamiche di sistemi di molecole, gas ideali e sistemi termodinamici in genere seguono molto bene l'affermazione 1.1. Questi sistemi sono oggetto di studio della fisica statistica. Chiameremo per brevitb sistema stocastico puro un sistema stocastico (o aleatorio) che produce variabili aleatorie. Possiamo a questo punto precisare il significato del termine "fattori e leggi dinamiche impossibile da determinare, n e m m e n o in linea di principio" che abbiamo usato nell'affermazione 1.1. Supponiamo di lanciare un dado 100 volte. Per costruire un modello deterministico che possa prevedere il risultato dell'esperimento sarebbe necessario introdurre nelle equazioni del mot0 del dado tutte le condizioni iniziali relative a1 lancio, i vincoli dati dalle pareti della mano o del bicchiere entro cui si scuote il dado prima del lancio, i vincoli dati dal piano dove si getta il dado, e forse altro ancora. Avremmo cosi un insieme veramente formidabile di numeri, relativi alle condizioni iniziali e ai vincoli per ognuno dei cento lanci, enormemente pih grande dei cento numeri che costituiscono il risultato finale dell'esperimento. E chiaro che il potere predittivo di una teoria del genere B nu110 e la sua applicabilitb pratica inesistente. Un modello deterministico, per essere tale, deve basarsi su un insieme compatto di equazioni e condizioni ini?iali e deve essere in grado di prevedere un insieme vastissimo di fenomeni. E questo, ad esempio, il caso della legge logistica (1.1) o della semplice legge della caduta dei gravi, che collega lo spazio percorso s alla accelerazione gravitazionale g e a1 tempo di caduta t attraverso la formula s = g t 2 / 2 . Questa sola formula consente di prevedere, assegnando s o t come condizione iniziale, il risultato di infiniti esperimenti. Possiamo riassumere il significato delle osservazioni appena fatte dicendo che ogni volta che un modello deterministico db luogo ad algoritmi che richiedono un insieme numeric0 di condizioni iniziali, vincoli ed equazioni Nel testo le definizioni operative, di tipo non matematico, verranno chiamate "afTermazionin.
6
Capitolo 1. La probabiliti
enormemente pih numeroso dell'insieme costituito dal risultato che si intende prevedere, esso perde di senso. In alternativa, va usato l'approccio statistic0 che, basandosi sullo studio a posteriori dei risultati ottenuti, cerca di quantificare l'entith delle fluttuazioni ed estrarre da queste delle regolarith globali che possano essere utili nella previsione d'insieme (cioi: probabilistica) dei risultati futuri. Questa linea di pensiero, che si andata sviluppando nel corso degli ultimi tre secoli, i: pervenuta, studiando i sistemi stocastici puri, ad identificare le leggi matematiche fondamentali per la descrizione dei fenomeni casuali. L'insieme di queste leggi i: oggi noto come calcolo delle probabilith. Tutti i libri dove si espone il calcolo delle probabilitb (e il nostro non fa eccezione, come vedrete) fanno largo uso di esempi tratti dai giochi d'azzardo, come il lancio dei dadi. Queste esemplificazioni, lungi dall'essere una banalizzazione del problema, ne costituiscono invece l'essenza. Solo studiando sistemi stocastici puri si pub pervenire ad una identificazione non ambigua delle leggi del caso. Grandi matematici e statistici, come Fermat (1601-1665), Laplace (1749-1827) e Bernoulli (1654-1705), discutono spesso, nelle lor0 memorie, esperimenti d a lor0 eseguiti con lanci di dadi od altri meccanismi tratti dai giochi. Uno dei lor0 obiettivi era proprio quello di fornire strategie vincenti per i giochi d'azzardo, gih allora molto diffusi e d a lor0 stessi praticati assiduamente. In questo mod0 essi gettarono le fondamenta del calcolo delle probabilith e della statistica basandosi esclusivamente, come vuole il metodo scientifico, sui fatti sperimentali. Accanto ai giochi tradizionali, oggi esiste un altro laboratorio "artificiale", per cosi dire, costituito dai processi casuali generati mediante calcolatore. Come vedremo, i: infatti possibile, disponendo di un generatore di numeri casuali equiprobabili (una specie di roulette elettronica), simulare sistemi stocastici puri di qualunque tip0 e comunque complessi: lanci di dadi, giochi di carte, sistemi fisici a molti corpi ed altro ancora. Queste tecniche, dette Monte Carlo (in omaggio alla patria dei giochi d'azzardo) o di simulazione, sono molto pratiche ed efficaci, perch4 permettono di ottenere in pochi secondi banche di dati che con un esperimento reale richiederebbero anni. E per6 importante sottolineare che dal punto di vista concettuale queste tecniche non introducono elementi nuovi. I1 fine i: sempre quello di ottenere variabili casuali da modelli costituiti da sistemi stocastici puri (in tutto o anche solo in parte, se il problema lo richiede). Questi dati servono poi per sviluppare ed ottimizzare gli strumenti logico-matematici da applicare a110 studio dei sistemi reali. E veniamo ora proprio ai sistemi reali in generale. Osservate la Fig. 1.2, che rappresenta la temperatura media della terra negli ultimi 120 anni. Come potete ben immaginare, sull'andamento di questa curva negli anni futuri si giocherh l'avvenire delle prossime generazioni. Paragonando "ad occhio" questa curva con quella di Fig. 1.3, che rappresenta un process0 stocastico puro, sembra che ad un andamento casuale si sia sovrapposto, agli inizi di
1.1 Caso, caos e determinism0
gradi Celsius
7
r
Fig. 1.2. Variazione della temperatura media della terra negli ultimi 120 anni. La
linea di zero rappresenta la media degli anni 1950-1980 questo secolo, un andamento (trend) parametrizzabile in mod0 piG o meno esatto con una funzione matematica crescente. Non andiamo oltre con questo esempio, piuttosto preoccupante, che ci k servito solo per mostrare che nei casi reali la contemporanea presenza di effetti stocastici e deterministici B molto comune. Per tenere conto di queste possibili complicazioni, lo studio di un sistema reale viene condotto con un approccio graduale, secondo dei passi che possiamo schematizzare come segue: a) identificare i processi puramente stocastici del sistema ed individuarne, in base alle leggi del calcolo delle probabilith, le leggi di evoluzione; b) separare le componenti stocastiche da quelle non stocastiche (dette anche sistematiche), se ve ne sono. Questo passo viene generalmente fatto utilizzando i metodi della statistica; c) se il problema k particolarmente difficile, eseguire a1 calcolatore la simulazione del sistema in esame e confrontare i dati simulati con quelli reali. Spesso 6 necessario ripetere i passi a)-c) fino a che i dati simulati sono in accord0 soddisfacente con quelli reali. Questa tecnica ricorsiva costituisce un metodo di analisi molto potente ed B oggi applicata in molti campi della ricerca scientifica, dalla fisica all'economia. Prima di chiudere questa introduzione dobbiamo fare cenno a cib che avviene nel mondo microscopico. In questo caso le equazioni fondamentali della fisica forniscono una funzione di stato complessa $ ( r ) il cui modulo quadrat0 fornisce la probabilith di localizzazione della particella nello spazio: P ( r ) = l$(r)I2.La probabilith cosi trovata obbedisce alle leggi generali del calcolo delle probabilitd che illustreremo nel seguito. I1 fatto che le leggi fondamentali del mondo microscopico contengano una funzione di probabilita e che nessuno'sia stato finora in grado di trovare
Fig. 1.3. Numero di teste ottenuto nel lancio di 10 monete nel corso di 120 prove simulate a1 calcolatore. I1 numero progressivo della prova & riportato in ascisse, il numero di teste ottenute in ordinate. La linea continua rappresenta il valore medio atteso (5 teste). Si confronti questa figura con la Fig. 1.1 per X = 3.8, che riporta le fluttuazioni caotiche.
leggi fondamentali piu elementari fondate su grandezze diverse, porta correttamente ad affermare che la probabilitb i: una quantiti fondamentale della natura. L'indeterminismo, essendo presente nelle leggi fondamentali che regolano la dinamica del mondo microscopico, assume in questo caso un carattere oggettivo, non legato alla ignoranza o alle capaciti limitate di chi osserva.
1.2 Terminologia Cominciamo ora ad introdurre, in mod0 poco rigoroso ma intuitivo, i termini fondamentali del linguaggio usato nello studio dei fenomeni stocastici. Nel seguito del testo questi termini verranno gradualmente ridefiniti in mod0 matematicamente rigoroso. Spazio campionario o dei casi: i:l'insieme di tutti i possibili valori diversi
0
(casi) che pub assumere una variabile aleatoria. Ad esempio: la variabile aleatoria carta di un mazzo da gioco db luogo a uno spazio di 52 elementi. La struttura dello spazio dipende dal mod0 utilizzato per definire la variabile aleatoria. Infatti lo spazio relativo alla variabile aleatoria carta di un mazzo da gioco i! costituito dalle 52 carte, oppure d a 52 numeri interi se creiamo una tabella di corrispondenza tra carte e numeri. Evento: i: una particolare combinazione o un particolare sottoinsieme di casi. Ad esempio: nel caso delle carte da gioco, se si definisce come evento una carta dispari, l'insieme dei casi che si ottiene i: 1,3, 5, 7, 9, per ognuno dei 4 colori. Questo evento dB luogo ad un sottoinsieme di 20 elementi di uno spazio che ne contiene 52 (tutte le carte del mazzo). Spettro: i: l'insieme di tutti gli elementi diversi del sottoinsieme di casi che definisce l'evento. Nel caso delle carte da gioco dispari, lo spettro i: dato da: 1, 3, 5, 7, 9. Ovviamente, lo spettro pub coincidere con l'intero spazio
1.2 Terrninologia
0
a 0
a 0
9
della variabile aleatoria che si sta considerando (se, ad esempio, l'evento & definito come una carta qualunque di un mazzo). Probabilitci: i: la valutazione quantitativa della possibilit& di ottenere un determinato evento. Essa viene fatta sulla base dell'esperienza, utilizzando modelli matematici oppure anche su base puramente soggettiva. Ad esempio, la probabilitb che a questo punto voi continuiate a leggere il nostro libro i:, second0 noi, del 95%. . . Prova: & l'insieme delle operazioni che realizzano l'evento. Esperimento, Misura, Campionamento: i: un insieme di prove. I1 termine usato dagli statistici i: campionamento, mentre i fisici spesso usano il termine esperimento o misura. Ovviamente, in fisica un esperimento pub consistere in un campionamento, ma non necessariamente. Campione: & il risultato di un esperimento (campionamento). Popolazione: i: il risultato di un numero di prove, finito o infinito, tale d a esaurire tutti gli eventi possibili. Ad esempio, nel gioco del lotto la popolazione si pub pensare come l'insieme finito di tutte le cinquine estratte da un'urna di 90 numeri; nel caso dell'altezza degli italiani, possiamo immaginare l'insieme delle misure delle altezze di ogni individuo. Quando la popolazione i: pensata come un campione costituito da un numero infinito di eventi, va considerata come una astrazione matematica non raggiungibile in pratica.
Le idee ora introdotte possono essere riassunte nello schema di Fig. 1.4. Una volta assegnate le probabilita elementari per gli elementi dello spazio campionario (passo induttivo), utilizzando il calcolo delle probabilitb si possono calcolare le probabilita degli eventi e dedurre i modelli matematici per la popolazione (passo deduttivo). Eseguendo invece una serie di misure si pub ottenere un campione di eventi (spettro sperimentale) rappresentativo della popolazione in esame. Utilizzando poi l'analisi statistica dei dati (passo induttivo/deduttivo) si cerca di individuare, dall'analisi del campione, le proprietb della popolazione. Queste tecniche sono dette di inferenza statistica. Una volt a assunto un modello, si pub verificarne la congruenza con il campione dei dati raccolti. Questa tecnica si chiama verifica di ipotesi. Nel testo verranno inizialmente illustrati i fondamenti del calcolo delle probabilitb, con particolare riguardo alla assegnazione delle probabilitb elementari agli elementi dello spazio campionario e all'utilizzo del calcolo combinatorio per ottenere alcuni modelli matematici fondamentali. Successivamente verranno illustrati i metodi di analisi statistica dei dati che permettono di stimare, partendo d a quantitb misurate, i valori "veri" di grandezze fisiche o di verificare la congruenza dei campioni sperimentali con i modelli matematici. Gli elementi di calcolo delle probabilitb e statistica precedentemente acquisiti verranno poi applicati in mod0 esteso alle tecniche di simulazione.
10
Capitolo 1. La probabiliti
Campionario Evento insieme di casi)
u I
statistica
.a Campione
Esperimento
-
Fig. 1.4. Connessione tra calcolo delle probabilitii, statistica e misura
1.3 11 concetto di probabiliti L'esperienza mostra che, quando un fenomeno stocastico o aleatorio Q stabile nel tempo, alcuni valori dello spettro capitano piu frequentemente di altri. Se lanciamo in aria 10 monete e contiamo il numero di teste, vediamo che 5 teste si ottengono piu frequentemente di 8, mentre 10 teste Q un evento veramente raro, quasi impossibile. Se consideriamo un esperimento costituito da 100 prove (dove la prova i:il lancio di 10 monete), osserviamo che il numero di volte in cui si ottengono 5,8 e 10 teste, pur variando di poco da esperimento a esperimento, si mantiene abbastanza regolare, perch6 i valori 5,8 e 10 appaiono sempre (o quasi) con frequenza decrescente. Se immaginiamo tutti i possibili allineamenti di 10 monete, possiamo avere una spiegazione intuitiva di questo fatto: all'evento 10 teste (o 10 croci) corrisponde un solo allineamento, mentre all'evento 5 croci-5 teste corrispondono molti allineamenti possibili (5 croci e poi 5 teste, croce-testa in mod0 alternato, e cosi via fino a ben 252 allineamenti diversi). Quando lanciamo 10 monete scegliamo a caso, senza privilegiarne nessuno, uno dei possibili allineamenti ed Q intui-
1.3 11 concetto di probabiliti
11
tivo che quasi sempre otterremo risultati bilanciati (pih o meno 5 teste) e quasi mai i casi estremi. Ragionamenti di questo tipo, comuni all'esperienza quotidiana di ognuno di noi, portano istintivamente a pensare che questa regolarith dei fenomeni stocastici sia dovuta all'esistenza di quantith fisse, dette probabilitd, definibili, ad esempio, come il rapport0 tra i casi (allineamenti) favorevoli e quelli possibili. Queste considerazioni portarono J. Bernoulli alla formulazione della prima legge matematica con la quale oggi possiamo prevedere, a meno delle fluttuazioni dovute alle numerose interazioni tra gli elementi interni a1 sistema aleatorio, l'andamento d'insieme dei risultati in esperimenti come quello del lancio delle monete. Nel caso delle monete, la probabilita viene introdotta per tenere conto della variabilitii dei risultati sperimentali; tuttavia, ognuno di noi utilizza la probabilith anche per tenere conto dell'incertezza di molte situazioni che capitano nella vita reale, quantificando soggettivamente le possibilith che si presentano e scegliendo quelle di maggior probabilith in relazione ai costi o benefici che se ne possono ricavare. Ad esempio, quando siamo alla guida dell'auto ed incontriamo un semaforo rosso, abbiamo due possibiliti: fermarci o proseguire. Se siamo in un incrocio ad alto traffico e in un'ora di punta, ci fermiamo, perch6 sappiarno, in base all'esperienza, che la probabiliti di entrare in collisione con altri veicoli i: elevatissima. Se siamo invece in un incrocio a basso traffico e nel pieno della notte, siamo tentati di proseguire, perch6 sappiamo che la probabilith di una collisione k molto bassa. Un altro esempio di probabilit& soggettiva, di tip0 discreto, i: dato dal giudizio di colpevolezza o meno di un imputato in un process0 da parte di una giuria. In questo caso la probabilith pub essere espressa con due valori, 0 od 1, cioi: colpevole o innocente. In genere le giurisprudenze attuali formulano il giudizio finale combinando le probabilith individuali soggettive espresse dai singoli giurati. Attualmente l'approccio considerato pih corretto, efficace e in fondo pih economico per lo studio dei fenomeni aleatori i: quello che considera la scelta della probabilita come un atto soggettivo, basato sull'esperienza. Una prima possibile definizione operativa di probabilitii i: pertanto: Affermazione 1.2 (Probabilith soggettiva). La probabilitd 2 il grado di convinzione (degree of belief) soggettivo circa il verificarsi di un evento.
La probabilith soggettiva k libera, ma generalmente si assume che essa deb1e ba essere coerente, vale a dire espressa come un numero reale 0 p pari a p = 1 per un evento ritenuto certo e p = 0 per un evento giudicato impossibile. Considerando poi due o pih eventi tra lor0 incompatibili (come ottenere 2 o 4 nel lancio di un dado) la coerenza impone che le probabilith siano additive. Queste ipotesi sono sufficienti per l'assiomatizzazione second0 lo schema di Kolmogorov, che illustreremo tra poco. La probabilith soggettiva 6 largamente usata nelle scienze generalmente denominate "non esatte"
< <
12
Capitolo 1. La probabiliti
(giurisprudenza, economia, parte della medicina, ecc.). Nelle scienze esatte come la fisica (preciseremo meglio in seguito, a pagina 414, il significato del termine scienza esatta), la probabilita soggettiva viene generalmente evitata e ad essa vengono sostituite le definizioni di probabilith a priori (Laplace, 1749-1827) e probabilith frequentista (Von Mises, 1883-1953). Definizione 1.3 (Probabilith a priori o classica). S e N 2 il n u m e r o totale di casi dello spazio campionario di u n a variabile aleatoria ed n il n u m e r o di casi favoreuoli per i quali s i realizza l'euento A, la probabilitci a priori di A C data da: n P(A) = - .
N
Nel testo useremo prevalentemente il termine "probabilita classica". Ad esempio, la probabilita classica di una faccia nel lancio di un dado non truccato k : n numero di casi favorevoli 1 -P(A)= - = N numero di casi possibili 6 ' mentre la probabilita di estrarre l'asso di quadri da un mazzo di carte e 1/52, la probabilith di estrarre un seme di quadri B 114 e cosi via. Definizione 1.4 (Probabilith frequentista). S e m d il n u m e r o di prove in cui si 2 verificato l'evento A s u un totale di M prove, la probabilitci di A t: data da: m P(A) = l i m - . M+oo M I1 limite che compare in questa definizione non va inteso in senso matematico, ma in senso sperimentale: il valore vero della probabilith si trova solo effettuando un numero infinito di prove. Chiameremo nel seguito questa operazione, con il limite scritto in corsivo, limite frequentista. La scelta delle probabilita elementari da assegnare agli eventi it dunque induttiva ed arbitraria. I1 calcolo delle probabilita di eventi complessi a partire dalle probabilitii elementari assegnate it invece di tip0 deduttivo e viene fatto, come vedremo, senza uscire dal rigore matematico. L'uso della probabilitii soggettiva i: detto anche approccio bayesiano, perch4 in questo caso le probabilith iniziali vengono spesso riaggiustate in funzione dei risultati ottenuti utilizzando la famosa formula di Bayes, che dedurremo tra poco nel par. 1.7. L'approccio frequentista i: quello nettamente prevalente in ambito fisico e tecnico. In base alla nostra esperienza, riteniamo che nei lavori di fisica sperimentale l'approccio frequentista sia seguito nel 99% dei casi, e questa B una valutazione ... soggettiva! Nell'approccio frequentista si ritiene che la (1.3) permetta una valutazione "oggettiva" della probabilita per quei fenomeni naturali che si possono campionare facilmente o riprodurre numerose volte in laboratorio. In molti casi l'esperienza mostra che la probabilita frequentista tende a coincidere con quella classica:
1.4 Probabiliti assiomatica
13
(dall'esperienza!) Quando si verifica questa condizione, che B detta legge dei grandi n u m e r i od anche legge empirica del caso, si dice che i casi sono equiprobabili. Spesso, se su basi intuitive si ritiene fondata l'ipotesi dei casi equiprobabili, si utilizza la probabilita classica per costruire utili modelli matematici di riferimento. Prendiamo, ad esempio, il lancio di un dado: se si it sicuri che esso non it truccato, i! intuitivo assumere che la probabilita di ottenere in un lancio una certa faccia (poniamo la numero 3) sia pari a 116. L'esperienza mostra che, eseguendo numerosi lanci, la probabilita frequentista (detta anche limite della frequenza, eq.(1.3)) tende effettivamente a 116, in accord0 con la (1.4). Se il dado B invece truccato, la probabilita di ottenere la faccia con il numero 3 pub essere valutata solo eseguendo numerose prove. Poich6 il limite per il numero di prove tendente a infinito non i! praticamente raggiungibile, ci si ferma solitamente ad un numero di prove elevato ma finito e si stima la probabilita Vera col metodo dell'intervallo di confidenza (vedi cap. 6). La definizione frequentista (1.3) sembrerebbe dunque la pih generale ed affidabile; tuttavia, essa non B esente da problemi: dato che non si pub ripetere un esperimento infinite volte, la probabilita (1.3) non sara mai osservabile; il limite che compare nella (1.3) non ha un senso matematico preciso. La decisione su quale sia l'approccio migliore da usare (bayesiano o frequentista) in base a1 tip0 di problema che si intende affrontare (incertezza in senso lato o variabilita dei risultati di un esperimento) B una questione tuttora apert a ed it fonte di continue controversie; ci sembra pertanto opportuno fermare qui la discussione sui fondamenti. Questo testo, che i! dedicato a studenti e ricercatori in ambito tecnico-scientifico, B basato sull'approccio frequentista. Non mancheremo tuttavia di accennare in alcuni casi anche a1 punto di vista bayesiano, rimandando il lettore ai testi pic specifici, come [65].
1.4 Probabiliti assiomatica Per formalizzare in mod0 matematicamente corretto la probabilita b necessario ricorrere alla interpretazione insiemistica dei concetti fondamentali fin qui introdotti. Se S it lo spazio campionario di una variabile aleatoria, consideriamo la famiglia F di sottoinsiemi di S con le proprietk date dalla Definizione 1.5 (a-algebra). Ogni famiglia le proprietd: a) l'insieme vuoto appartiene ad
F:0 E F;
F di sottoinsiemi di S avente
14
Capitolo 1. La probabilitl
b) se u n a infinitd numerabile d i i n s i e m i A1, A2, . . . E 3, allora
c) se A E
F,lo
stesso vale per l'insieme complementare:
71 E F;
si chiama c-algebra.
Utilizzando le note propriet& degli insiemi:
AUB
= AnB,
AnB
=
A-B,
& facile dimostrare che anche l'intersezione di un insieme numerabile di insiemi
appartenenti ad F e la differenza A - B di due insiemi di F appartengono a lor0 volta ad F:
i=n
A-B
E
F.
La corrispondenza tra concetti insiemistici e probabilistici introdotta dal formalism~& riassunta in Tab. 1.1. Se, per fissare le idee, consideriamo un Tabella 1.1. Corrispondenza tra concetti insiemistici e probabilistici notazione
AUB AnB A-B
simificato insiemistico
sianificato ~robabilistico
insieme totale elemento di S sottoinsieme di S insieme vuoto insieme degli elementi di S che non appartengono ad A elementi di A o di B elementi comuni ad A e B elementi di A non appartenenti a B gli elementi di A sono anche elementi di B
spazio dei casi: evento certo risultato di una prova se a E A si realizza l'evento A nessun evento realizzato evento A non realizzato si realizzano gli eventi A o B si realizzano gli eventi A e B si realizza l'evento A m a non l'evento B se si realizza A si realizza anche B
mazzo di carte da gioco e definiamo come evento A l'estrazione di un asso e come evento B l'estrazione di un seme quadri (Fig. 1.5)' otteniamo la corrispondenza seguente tra insiemi (eventi) ed elementi di S : -
S: l'insieme delle 52 carte;
1.4 Probabiliti assiomatica
15
Fig. 1.5. Esempio di rappresentazione insiemistica della variabile casuale "cart a da gioco" e degli eventi "estrazione di un asso" ed "estrazione di un seme di quadri" -
a: una delle 52 carte del mazzo;
- A U B: seme di quadri o asso di cuori, fiori, picche; - A n B: asso di quadri; - A - B: asso di cuori, fiori o picche; - A: - B:
tutte le carte tranne gli assi; un seme non di quadri.
Sia ora P(A) una applicazione o funzione che fa corrispondere ad un gener i c ~insieme A appartenente ad una a-algebra F un numero reale compreso nell'intervallo [O, 11. In simboli,
Nella formulazione di Kolmogorov, la probabilit& segue la
Definizione 1.6 (Probabilith d i Kolmogorov o assiomatica). U n a funzione P ( A ) che soddisfa alla (1.7) ed alle proprietd:
per ogni famiglia jinita o numerabile Al, A 2 , .. . di insiemi di F,tra loro mutuamente disgiunti:
viene detta probabilitci. Definizione 1.7 (Spazio di probabilith). La terna
formata dallo spazio campionario, da u n a a-algebra spazio di probabilitd.
F e da P viene detta
16
Capitolo 1. La probabilitb
La probabilita definita con gli assiomi di Kolmogorov gode delle seguenti importanti proprietA:
La (1.12) B valida perch4 l'insieme complementare 21 8 definito in mod0 tale che U A = S , quindi P ( z ) P(A) = P ( S ) = 1 dalle (1.9, 1.10), dato che A e 2 sono insiemi disgiunti. Inoltre,
+
dalla (1.9) , P(SU0) = P(S) = 1 P(SU0) = P ( S ) + P ( 0 ) = 1 dalla(1.10),
(1.15) (1.16)
da cui la (1.13): P(0) = 1- P ( S ) = 1- 1 = 0. Infine, occorre tenere presente che se A C B si pub scrivere B = ( B - A) U A, dove B - A B l'insieme costituito dagli elementi di B che non appartengono ad A; allora
e poichk P ( B - A) 2 0, anche la proprieta (1.14) B dimostrata. E di notevole importanza il Teorema 1.1 (di addithit;). La probabilitd dell'evento dato dal verificarsi
degli eventi elementari A oppure B, nel caso generale in cui A n B # 0, t: data da:
Dimostrazione. S o n o di facile dimostrazione le proprietd (provate a disegnare gli insiemi.. .): AuB=AU[B-(AnB)],
poiche' AU B e B sono ora espressi in t e r m i n i di i n s i e m i disgiunti, 2! possibile applicare la (1.10) ottenendo: P ( A u B) = P(A) + P [ B - (A n B)] P ( B ) = P[B - (A n B)]
,
+ P ( A n B) .
Sottraendo m e m b r o a membro, si ottiene: P ( A U B ) = P(A)
+ P ( B ) - P ( A n B) .
1.4 Probabiliti assiomatica
17
Sia la probabilita classica sia quella frequentista soddisfano agli assiomi (1.81.10). Infatti, per la probabilita classica, si ha:
>
P(A) = (nA/N) 0 P(S) = N / N = 1 ,
sempre, perch6 n, N
>0 ,
In mod0 del tutto analog0 si pub dimostrare la validith degli assiomi anche nel caso della probabilith frequentista, poich6 il limite che vi compare va considerato come un operatore lineare. Le probabilith classica e frequentista definite nel paragrafo precedente soddisfano quindi a tutte le proprieth (1.8-1.17). Ad esempio, la probabilita a priori di estrarre un asso oppure una carta rossa da un mazzo di carte, in base alla (1.17), i: data da:
A = asso di cuori, asso di quadri, asso di fiori, asso di picche, B = 13 carte di quadri, 13 carte di cuori, P ( A n B ) = asso di cuori, asso di quadri , P(A u B) = P(A) + P(B) - P(A n B) = 4/52 + 112 - 2/52 = 7/13 . La probabilitL associata all'insieme A n B riveste, come vedremo, un ruolo particolarmente importante nell'algebra delle probabilita. Essa prende il nome di probabilith composta: Definizione 1.8 (Probabilith composta). Sz dice probabilith composta e si indica con P ( A n B) oppure con P ( A B )
la probabilitci che si verijichino contemporaneamente gli eventi A e B. Introduciamo ora un nuovo tip0 di probabilita. Supponiamo di essere interessati alla probabilith che, estratto un seme di quadri, la carta sia un asso, oppure che, estratto un asso, esso sia di quadri. Indichiamo con A l'insieme degli assi, con B quello delle carte di quadri e con P(A1B) la probabilita che si verifichi A dopo che si i! verificato B, ovvero che, una volta estratto un seme di quadri, la carta sia un asso. Si ha ovviamente: P(AJB) =
casi favorevoli all'asso di quadri casi favorevoli a1 seme di quadri
Analogamente, la probabilith di ottenere un seme di quadri se si i: estratto un asso i3 data da: P ( B J A )=
casi favorevoli all'asso di quadri casi favorevoli ad un asso
Nell'esempio appena visto la probabilita condizionata P(A1B) di ottenere un asso una volta estratto un seme di quadri i: uguale alla probabilita non condizionata P(A) di ottenere un asso; infatti:
Si dice in questo caso che gli eventi A e B sono indipendenti. Tuttavia, se A rappresenta l'insieme [asso di quadri, asso di picche] e B i: sempre l'insieme dei semi di quadri, abbiamo questa volta:
In questo caso gli eventi A e B sono dipendenti, perch&,se si estrae un seme di quadri, la previsione su A viene modificata. Si noti che perb la (1.18) vale anche in questo caso:
Questi esempi suggeriscono la
Definizione 1.9 (Probabilith condizionata). S i dejinisce probabilith condizionata e si indica con P(B1A) la probabilitci che si verijichi l'evento B essendosi verijicato l'evento A. Essa 6 espressa come:
E facile mostrare (ve lo lasciamo come esercizio) che la definizione di probabilita condizionata (1.19) i: in accord0 con gli assiomi generali di Kolmogorov (1.8-1.10). E importante anche notare che la formula della probabilita condizionata i: stata introdotta come definixione. Tuttavia, per le probabilit& trattate nel testo, sussiste il seguente Teorema 1.2 (del prodotto). P e r le probabilitci classica e frequentista, la probabilitci che si verifichi l'evento costituito dalla realizzazione degli eventi elementari A e B b data da:
Dimostrazione. P e r la probabilitci classica, se N k il numero dei casi possibili e n A B quell0 dei casi favorevoli ad A e B , si ha:
19
1.4 Probabilita assiomatica
dato che, per definizione, nAB/nB z P ( A ( B ) . Questa proprieta continua ovviamente a valere scambiando A con B, da cui la (1.20). Per la probabilitci frequentista, si procede come segue: P(AnB) =
numero di volte che si sono ottenuti A e B nAB = lim numero di prove (+ ca) N+OO N '
P(A) =
numero di volte che si B ottenuto A n~ = lim - , N + N ~ numero di prove (+ w )
P(B) =
numero di volte che si B ottenuto B n~ = lim - , N-+a N numero di prove (+ w )
P(BIA) = P(A1B) =
n. di volte che si B ottenuto B insieme a d A ~ A B = l i m -, n.4-w n~ n. di prove che hanno realizzato A (t co) n. di volte che si i: ottenuto
A insieme a B
n. di prove che hanno realizzato B (+ c o )
~ A B
= lim -, na-too
nB
Abbiamo introdotto, negli esernpi trattati, la nozione di eventi indipendenti; in mod0 generale, possiamo introdurre la Definizione 1.10 (Eventi indipendenti). Due eventi A e B sono detti indipendenti se e solo se
Pi6 in generale, gli eventi di una famiglia ( A i , i = 1 , 2 . . . ,n ) sono indipendenti se e solo se /
\
per ogni sottoinsieme J di indici (tutti distinti) della famiglia. Dalla (1.19) segue che per eventi indipendenti P ( A \ B ) = P ( A ) e P ( B ( A ) = P ( B ). Ancora una definizione: Definizione 1.11 (Eventi incompatibili). Due eventi sono incompatibili o disgiunti se quando si realizza A non si realizza B e viceversa:
I n base alle (1.13) e (1.19) si ha allora:
20
Capitolo 1. La probabiliti
Ad esempio, se A ii l'asso di picche e B il seme di quadri, A e B sono eventi incompatibili. Con l'aiuto di queste definizioni l'essenza del calcolo delle probabilita pub essere sintetizzata nelle formule: 0
eventi incompatibili: P ( A oppure B )
0
= P(A U B) = P(A) + P(B) ;
(1.22)
eventi indipendenti:
Ancora un punto ovvio ma fondamentale: P(A1B) e P(B1A) non sono la stessa cosa. Infatti, la probabilith che si verifichi A dopo B it diversa d a quella che si verifichi B dopo A, come risulta subito evidente considerando eventi indipendenti con P ( A ) # P ( B ) , per i quali P ( A ( B ) = P(A) e P(B1A) = P ( B ) . Tra queste due probabilith condizionate esiste peri, una connessione molto importante, data dal teorema di Bayes, che illustreremo tra poco.
1.5 Prove ripetute Nei casi considerati finora abbiamo sempre considerato esperimenti consistenti in una sola prova. Tuttavia, spesso ci si deve occupare di esperimenti consistenti in prove ripetute: due carte estratte da un mazzo, il punteggio che si ottiene lanciando 5 dadi, e cosi via. Affrontiamo questo problema considerando due prove ripetute, essendo ovvia, come vedremo, la generalizzazione ad un numero finito qualunque di prove. Due prove ripetute possono essere viste come la realizzazione di due eventi relativi a due esperimenti (S1, Fl,PI) e (S2,F2, P2) che soddisfano alle condizioni delle definizioni 1.6, 1.7. E allora spontaneo definire un nuovo spazio campionario S = S1 x S2come prodotto cartesiano dei due spazi campionari di partenza, in cui l'evento i! costituito dalla coppia ordinata (xl, x2), dove xl E S1 e x2 E S2e il nuovo spazio S contiene n l n2 elementi, se n l ed n2 sono gli elementi di S1 ed S2 rispettivamente. Ad esempio, [asso di cuori, donna di fiori] it un elemento dell'insieme S dello spazio di probabilith relativo all'estrazione di due carte da un mazzo. Si noti che il prodotto cartesiano pub essere definito anche quando S1 ed S2sono lo stesso insieme. Avendo definito gli eventi in questo modo, dato che Al C S1 e A2 C S2, ii immediato rendersi conto che
Occorre adesso definire una probabilith P , definita in S1 x S2, che goda delle proprieth di Kolmogorov (1.8-1.10) e che possa essere associata in mod0 univoco agli esperimenti consistenti in prove ripetute. La (1.24) e la (1.23),
1.5 Prove ripetute
21
valida per eventi indipendenti, portano in mod0 naturale alla definizione di probabilith prodotto:
In base a questa definizione, le probabilith degli eventi Al E S1 e A2 E possono essere calcolate anche nello spazio S tramite le uguaglianze:
S2
che risultano ovvie nel caso delle probabilita classica e frequentista. Ad esempio, nell'estrazione di due carte da gioco, le probabilith degli eventi Al =[estrazione di un asso la prima volta] e A1 x 5'2 =[asso, carta qualunque] sono uguali, come quelle degli eventi A2 =[estrazione di un seme di quadri la seconda volta] e S1 x A2 =[carta qualunque, seme di quadri]. Come abbiamo detto, la relazione (1.25) viene ritenuta valida solo per eventi indipendenti, per i quali, in base alla (1.23), il verificarsi di un evento qualsiasi tra quelli considerati non altera la probabilith degli altri. Per fissare meglio le idee con un esempio, supponiamo di estrarre due carte da un mazzo (con reimmissione nel mazzo della prima carta dopo la prima prova) e sia Al l'insieme degli assi e A2 l'insieme dei semi di quadri. La (1.26) diventa:
mentre la (1.25) fornisce:
in accord0 con il rapport0 tra il numero dei casi favorevoli (4.13) e di quelli possibili (52 . 52) nello spazio S1 x S2. La famiglia di insiemi Fl x F2 = {Al x A2 : Al E Fl,A2 E F2} non k in generale una a-algebra, ma si pub F2di sottoinsiemi di S1 x S 2 che mostrare che esiste un'unica a-algebra Fl18 contiene Fl x F 2 e che la (1.25) permet'te di estendere in mod0 univoco la probabilith di ogni evento A c S1 x S 2 dalla famiglia di insiemi Fl x F 2 alla [43]. Si pub quindi scrivere lo spazio di probabilith a-algebra prodotto Fl @F2 prodotto come:
Un'estensione della (1.25) che useremo spesso viene utilizzata quando lo spazio S2 non pub essere assegnato a priori, ma dipende dai risultati dell'esperimento precedente El. Tipico it il caso del gioco del lotto, in cui vengono
estratti 5 numeri, senza la reimmissione nell'urna del numero estratto. Nel caso di due prove, possiamo pensare alla estrazione di due carte da gioco: se si reinserisce la prima carta estratta nel mazzo, S2i! costituito da 52 elementi, altrimenti da 51. In questi casi i! necessario definire lo spazio S = Sl x S2 non come prodotto cartesiano, ma come l'insieme di tutte le coppie ordinate possibili dei due insiemi, cosi come risultano dal particolare esperimento. Possiamo dire in questo caso che l'evento A2 dipende dall'evento Al e generalizzare la (1.25) come: (1.27) P ( A x B ) = P2(BIA) PI( A ) , ottenendo cosi un'estensione del teorema 1.2 del prodotto (vedere eq. 1.20). E irnmediato infatti dimostrare che le probabilitb a priori e frequentista soddisfano la (1.27). La dimostrazione per la probabilita frequentista B identica a quella del teorema 1.2, quella per la probabilith classica richiede di ridefinire N come l'insieme delle coppie possibili, nAg come l'insieme delle coppie favorevoli all'evento e n A come l'insieme delle coppie in cui, nella prima estrazione, si i: verificato l'evento A. E importante a questo punto, per evitare confusione, distinguere t r a esperimenti indipendenti ed eventi indipendenti. L'ipotesi di esperimenti indipendenti, che utilizzeremo in tutto il testo, B del tutto generale ed implica che le operazioni o prove che portano alla realizzazione di u n evento qualsiasi son o invarianti rispetto alle operazioni che portano alla realizzazione degli altri eventi rimanenti. Essa si riferisce alla procedura sperimentale che si segue, n o n a1 numero di elementi dello spazio campionario s u cui si agisce. A1 contrario, nello schema a prove ripetute saranno considerati dipendenti gli eventi per i quali la dimensione dello spazio i-esimo Sidipende dalle (i - 1) prove gi8 effettuate. Questo 6 l'unico tzpo di dipendenza che si assume, considerando prove ripetute, quando si scrive la probabilith condizionata P(A1B). Prendiamo confidenza con questi concetti con un semplice esempio. Sia (B1 x Nz) l'evento consistente nell'estrarre nell'ordine, da un'urna contenente 2 palline bianche e 3 nere, una pallina bianca e una nera (senza reinserire nell'urna la pallina dopo la prima estrazione); si ha in questo caso (con ovvio significato dei simboli) :
S1
=
S2 =
s1xs2 =
[Bl,B2, N1, N2, N3] , [ insieme formato da 4 palline, 2 bianche e 2 nere oppure 1 bianca e ' 3 nere ] ,
B l N 1 , B2N1, N l B 2 , B l N 2 , B2N2, N l N 2 ,
N2B2, N2N1,
N3B2 = 5 x 4 = 20 elementi. N3N1
Si noti che il mancato reinserimento della pallina dopo la prima estrazione esclude coppie del tip0 BlB1, NlN1, ecc. Definiamo inoltre:
1.5 Prove ripetute
23
B1 x S2= [pallina bianca, pallina qualunque] , S1 x N2 = [pallina qualunque, pallina nera] , BlN1, B2N1 B1 x Nz = [pallina bianca, pallina nera] = B l N 3 , B2N3 Se i casi sono equiprobabili, la probabilit& classica fornisce: P(B1 x N2) =
sei casi favorevoli 6 3 - --venti coppie possibili 20 10 '
Fin qui abbiamo usato la definizione di probabilitA classica in mod0 del tutto generale. Ora notiamo che le probabilita (1.26) degli eventi B1 e N2 sono date da: Pi (Bi) = 215 , P 2 (N2IB1) = 314 , perch4 nell'urna si hanno inizialmente B1, B2, Nl, N2, N3 (due palline bianche su un totale di 5) e, nella seconda estrazione, si hanno nell'urna 3 palline nere e una bianca se la prima pallina estratta era bianca, per un totale di 3 palline nere su 4. Se ora applichiamo la (1.27) otteniamo:
in accordo con il calcolo diretto dei casi favorevoli su quelli possibili fatto in precedenza. Se non diamo importanza all'ordine di estrazione e definiamo come evento la estrazione di una pallina bianca ed una nera o viceversa, dobbiamo definire gli insiemi: B l x S2 Nl x S 2 S1 x Nz S1 x B2
[pallina bianca, pallina qualunque] , [pallina nera, pallina qualunque] , = [pallina qualunque, pallina nera] , = [pallina qualunque, pallina bianca] =
=
ed applicare la (1.27):
in accordo con il rapport0 tra numero di coppie favorevoli (12) e quelle possibili (20). La generalizzazione dello schema a prove ripetute per un numero finito di prove richiede la naturale estensione delle formule che qui abbiamo ricavato per due sole prove e non presenta difficolta.
24
Capitolo 1. La probabiliti
1.6 Calcolo combinatorio Supponendo che conosciate gia il calcolo combinatorio, ne riassumiamo qui brevemente le formule di base, che spesso sono di aiuto, nel calcolo delle probabilit8, per contare il numero dei casi possibili o di quelli favorevoli. Per contare bene, occorre tenere presente che il numero delle coppie possibili (abbinamenti) A x B tra due insiemi A di a elementi e B di b elementi i: dato dal prodotto ab e che il numero delle permutazioni possibili di n oggetti i: dato dal fattoriale n!. Basandosi su queste due proprieta & possibile dimostrare facilmente le quattro formule fondamentali del calcolo combinatorio, che si riferiscono alle disposizioni senza ripetizione D ( n , 5) di n oggetti in gruppi di k (n oggetti in classe k), a quelle con ripetizione D*(n, k) ed alle combinazioni senza e con ripetizione C(n, k) e C*(n,k). Nelle disposizioni h a importanza l'ordine dei k oggetti, ma non nelle combinazioni. Le formule, come forse gih sapete, sono:
dove si i: fatto uso del coefficiente binomiale. Per ricordare le formule, basta immaginare il gruppo di k oggetti come il prodotto cartesiano di k insiemi. In D(n, k) il primo insieme contiene n elementi, il secondo, non potendo ripetere il primo elemento, ne conterra n - 1 fino ad arrivare, dopo k volte, a (n - k 1). Se si pub ripetere l'elemento, i k insiemi conterranno ognuno n elementi, dando luogo alla (1.29). La numerazione in base n i! proprio un insieme D*(n, k): se ad esempio n = 10, k = 6, si hanno l o 6 numeri, da 000 000 a 999 999. La relazione (1.30) C(n, k) = D(n, k)/k! evita di contare pic volte i gruppi che contengono gli stessi oggetti, dato che in questo caso non ha importanza l'ordine. Per ottenere la (1.31) bisogna immaginare di scrivere, ad esempio, una combinazione C*(n,5) del tip0 a l , a2, a2, a2, a7 come a l , *, a2, *, *, *, a3, a4, as, a6, a7, *, dove ogni elemento & seguito da un numero di asterischi pari a1 numero di volte che esso compare nella combinazione; esiste pertanto una corrispondenza biunivoca tra le combinazioni in esame e tutte le permutazioni possibili nell'allineamento di lettere e asterischi. Poichh ogni allineamento comincia con a1 per costruzione, si possono permutare n - 1 k oggetti, di cui k (gli asterischi) ed n - 1 (gli elementi ai con i = 2, . . . ,n) uguali tra loro, da cui la (1.31). Una formula particolarmente utile i: la legge ipergeometrica, che permette di calcolare la probabilith che d a un'urna contenente a biglie di tip0 A e
+
+
1.7 Teorema di Bayes
25
b biglie di tip0 B si estraggano k biglie di tip0 A avendone estratte n 5 a b senza reintroduzione nell'urna. Assumendo che tutte le biglie abbiano la stessa probabilith di essere estratte e che le estrazioni siano indipendenti, adottando la definizione a priori (1.2) e utilizzando i coefficienti binomiali, abbiamo:
+
Infatti, il numero di casi possibili i! dato dal coefficiente binomiale a1 denominatore, mentre a1 numeratore abbiamo il numero di casi favorevoli, dato dal numero di elementi dell'insieme prodotto cartesiano di due insiemi di C(a, k ) e C(b, n - k ) elementi rispettivamente. Esercizio 1.1
Risposta. La soluzione, se il gioco non b truccato, b data dalla legge ipergeometrica (1.32) con a = k e b = 90 - k :
La probabilitci di u n ambo b di circa 1 su 400, quella del terno di circa I su 12000. U n gioco b onesto se la vincita k pari all'inverso della probabilitci della puntata; nel gioco del lotto l'erario paga l'ambo 250 volte ed il terno 4250 volte . . .
1.7 Teorema di Bayes In linea di principio, qualunque problema che coinvolge l'uso di probabilith a priori pub essere risolto con le due leggi fondamentali dell'additivith e del prodotto. Tuttavia, l'algebra della probabilith porta rapidamente a formule complicate, anche nel caso di situazioni relativamente semplici. In questi casi sono di grande aiuto due formule fondamentali, la formula delle probabilith totali e il teorema di Bayes, che andiamo ad illustrare.
26
Capitolo 1. La probabilith
Se gli insiemi Bi( i = 1 , 2 , ..n) sono mutuamente disgiunti ed esaustivi dello spazio totale S,
utilizzando la (1.20) & facile dimostrare che, per ogni insieme A contenuto in S:
La (1.34) & detta formula delle probabilitd totali o di partizione dell'evento certo. Quando B1 = B e B2= B,si ottiene la relazione:
Con queste formule 6 possibile risolvere problemi che capitano di frequente, come quelli mostrati nei due esempi che seguono.
Esercizio 1.2
donne. Sapendo che la popolazione t composta d a l 4 5 % di uomini e dal 55% di donne, trovare in numero N atteso di ammalati s u u n a popolazione di 10 000 persone. Risposta. Per prima cosa b necessario determinare la probabilitd di ammalarsi per u n generic0 individuo (uomo o donna) della popolazione. Essa b data dalla probabilita che l'individuo sia u n a donna, per la probabilitd che u n a donna ha di ammalarsi, pi6 la probabilitd che l'individuo sia un u o m o per la probabilitd che u n u o m o ha di ammalarsi. I1 tutto b condensato nelle formule (1.34, 1.35). S i ha pertanto:
I1 numero atteso di ammalati (speranza matematica) si calcola moltiplicando il numero di prove (individui) per la probabilitd classica P ( H ) appena trovata. Abbiamo allora: N = 10 000.0.0725 = 725 . Esercizio 1.3
zioni successive senza reinserimento delle palline estratte, qua1 b la probabilitd di estrarre u n a pallina bianca alla seconda estrazione?
1.7 Teorema di Bayes
27
Risposta. Indicando con A e B l'uscita di una pallina bianca alla prima e alla seconda estrazione rispettivamente, applicando la (1.35) si ottiene, con ovvio significato dei simboli:
Se ora esprimiamo la probabilitd P(A) che compare nella (1.20) tramite la (1.34), otteniamo il famoso
Teorema 1.3 (di Bayes). Se gli euenti Bk soddisfano alla (1.33), la probabilitci condizionata P ( B k l A ) si pub scrivere come:
Questo teorema, che i: forse il risultato pic importante dell'algebra elementare delle probabilith, viene spesso utilizzato per "riaggiustaxe", sulla base di una serie di dati reali Ak, delle probabilitd P ( B k ) assegnate a priori in base ad ipotesi pic o meno axbitrarie. La procedura d a usare i: mostrata negli esempi che seguono. Consigliamo agli studenti di fisica di risolvere anche il problema 1.8 alla fine del capitolo.
Esercizio 1.4
di malattia, m a risulta positiuo anche nel 5% dei casi se effettuato su persone sane. Sapendo che la malattia 8 presente mediamente nell'l% della popolazione, qua1 b la probabilitci di essere veramente malati se si risulta positivi a1 test? Risposta. Poiche' quello dei test diagnostici i: u n problema interessante, affrontiamo l'argomento in mod0 generale. Dai dati i n nostro possesso possiamo definire le seguenti probabilitci condizionate:
P ( P 1 S ) = 0.05 P ( N 1 S ) = 0.95 P ( P 1 M ) = 1. P ( N 1 M ) = 0.
probabilitci probabilitci probabilitci probabilitci
di di di di
risultare m'sultare risultare risultare
positivi negativi positivi negativi
essendo essendo essendo essendo
sani , sani, malati, malati.
Fate bene attenzione, nel definire le probabilitci condizionate, a n o n scambiare gli argomenti (ad esempio P ( M J S ) con P ( S J M ) ) , altrimenti applicando il teorema di Bayes combinerete solo pasticci. Le definizioni di probabilitci implicano ovviamente:
28
Capitolo 1. La probabilith
E anche ovvio che per un test ideale s i deve avere:
I1 problema richiede il calcolo della probabilitci P(M1P) di essere malati condizionata dalla positivitci del test. Applicando il teorema di B a y e s (1.36) e tenendo presente che dai dati risulta che le probabilitci n o n condizionate di essere sani o malati valgono rispettivamente P ( S ) = .99 e P ( M ) = 0.01, otteniamo:
pari ad u n a probabilitci di circa il 17%. I1 risultato ( u n a probabilitci cosi bassa con il test positivo) pud sembrare a prima vista paradossale. P e r aiutare la vostra intuizione, vi invitiamo ad esaminare la Fig. 1.6, che mostra un metodo grafico equivalente alla applicazione del teorema di Bayes. S e 100 persone vengono sottoposte a1 test, m e d i a m e n t e 99 saranno sane ed u n a sola malata; il test, applicato ai 99 sani, fallirci nel 5% dei casi e segnalerci 0.05 x 99 = 4.95 -. 5 casi positivi; a questi v a aggiunt o il caso di malattia correttamente diagnosticato. I n definitiva, avremo u n a sola persona eflettivamente malata s u un totale di 6 t e s t positivi:
dove la piccola diflerenza con il calcolo esatto B dovuta solo agli arrotondamenti. Spesso i medici in questi casi fanno ripetere il test. S e il risultato B negativo, allora la persona 4 sana, perch6 il t e s t considerato in questo esercizio n o n pui, m a i sbagliare s u persone malate. S e il t e s t risulta ancora positivo, allora occorre calcolare, in base alla (1.23), la probabilitci di un test doppiamente positivo s u un sano:
che vale il 2.5 per mille, e quella P(PPIM) = 1 di un test doppiamente positivo su un malato (che ovviamente vale sempre 1) ed applicare ancora il teorema di Bayes:
1.7 Teorerna di Bayes
SANI
NEGATIVI
94
29
MALATI
\
a
NEGATIVI
o
9
POSITIVI 1
POS~~IVI
5
Fig. 1.6. Illustrazione grafica del teorema di Bayes nel caso di un test inefficiente a1 5% sui sani per una malattia di frequenza pari all'l%
C o m e vedete, n e m m e n o due test posztivz bastano in questo caso per essere ragionevolmente certi della malattia. Potete calcolare da voi che questa certezza, nel caso considerato, la si ha solo dopo ben tre test consecutzvz (circa z1 99%). L'esempio rnostra quanto si debba essere cauti con i test che possono risultare positivi anche su persone sane. I1 caso opposto sz h a con i test che sono sempre negativi sui sani m a n o n sempre sono positivi sui malati. I n questo caso zl test positivo dd la certezza della malattia, mentre il test negativo crea incertezza. V i sono anche i casi in cui z test hanno u n a eficienza limztata sia sui sani sia sui malati. In tutti questz casi il teorema di Bayes permette di calcolare con esattezza le probabzlztd dz interesse. Provate ad inventarvz dei casi (oppure a chiedere a un medico qualche esempio concreto) e a risolvere da solz il problema.
- -----=-
*---
"
-
~
-
~
?
-
~
-
%
,
~
**
W
?
W
-*-
q
Esercizio 1.5 U n insieme di H z , H3, che, i n base ai dati epidemiologici, hanno u n a frequenza relativa rispettivamente del l o % , 5'0% e 60%. L e probabilith relative sono pertanto:
Sempre i n base ai dati epidemiologici, risulta che l'occorrenza dei sintomi nelle tre malattie segue la tabella:
30
Capitolo 1. La probabiliti
dalla quale risulta, ad esempio, che il sintomo A2 si presenta ne11780% dei casi nella malattia H I , il sintomo A4 si presenta nel 70% dei casi nella m a lattia H 3 e cosi via. U n paziente presenta solo i sintomi A1 e A2. Quale tra le tre malattie considerate b la pi& probabile? Risposta. P e r applicare il teorema di Bayes occorre innanzitutto definire il paziente come un evento A tale che
e calcolare le probabilitci di questo evento, condizionate dalle tre malattie (ipotesi) H I , H Z ,H3 come:
I n base ai dati della tabella, facendo corrispondere ai sintomi assenti le probabilitci complementari, otteniamo:
La malattia pi& probabile sembra la H I , m a n o n abbiamo ancora tenuto conto delle frequenze epidemiologiche (1.37); qui sta il punto cruciale per la comprensione del teorema di Bayes! Applichiamo pertanto la (1.36) e otteniamo finalmente le probabilitci per ognuna delle tre malattie (notate che la s o m m a dci 1, grazie a1 denominatore della formula di Bayes, che ha proprio la funzione di fattore di normalizzazione):
Risulta pertanto u n a diagnosi che propende per la malattia H3, che ha u n a probabilitci di circa il 75%.
1.8 L'approccio bayesiano
31
AMMALATI
MALATTIA 1
ALTRI SINTOMI
MALATTIA 2 30 000
SINTOMI
SINTOMI SINTOMO
MALATTIA 3 60 000
SWTOMO
SINTOMO
Fig. 1.7. Illustrazione grafica del teorema di Bayes nel caso di 3 malattie con dei sintomi comuni
I codici di calcolo per la diagnosi automatica fanno in genere largo uso del teorema di Bayes. La soluzione del problema pu6 anche essere trovata per via grafica come mostrato in Fig. 1.7: poiche' v i sono probabilitci piccole, i n figura si considerano 100 000 ammalati, che vengono ripartiti secondo le tre malattie in base alle frequenze epidemiologiche 0.1, 0.3, 0.6; applicando a questi tre gruppi di ammalati le probabilztci del17insieme dz sintomi A (0.288, 0.00035, 0,1458), si ottengono i numeri finali 2880, 10, 8748. S i arriva anche i n questo m o do, a m e n o degli arrotondamenti, a1 risultato fornito dalla formula di Bayes.
1.8 L'approccio bayesiano I due esercizi del paragrafo precedente non si sarebbero potuti risolvere senza l'informazione a priori sulla percentuale sanilammalati e sulle frequenze epidemiologiche delle tre malattie H I , H2,H3 L'approccio bayesiano estende l'utilizzo della formula di Bayes anche ai casi in cui le probabilita iniziali non sono note con ragionevole certezza. In questi casi si utilizza la (1.36) per modificare, sulla base dei dati ottenuti, le probabiliti iniziali di ipotesi P(Hi) valutate in mod0 soggettivo in accordo con l'aflermazione 1.2. Indicando con l'evento generic0 "dati" il risultato di una o pih prove (esperimento), nell'approccio bayesiano si applica la (1.36) come segue:
32
Capitolo 1. La probabiliti
Le probabiliti P(Hkldati) cosi ricavate vengono poi sostituite alle P ( H k ) nel termine a destra della (1.38) ed il calcolo pub essere ripetuto in mod0 iterativo:
dove En indica l'evento n-esimo. Nell'esempio che segue, le probabilitb P(EnIHk) restano costanti. Esercizio 1.6
mendo uguale probabilitci P ( H i ) = 116 per le 6 ipotesi di partenza possibili, scritte con ovvia notazione come:
calcolare le 6 probabilitci P(Hildati) nel caso si siano estratte, con reimmissione nell'urna, n = 1,5,10 biglie nere consecutive. Risposta. L'esercizio si risolue facilmente definendo l'evento "dati7'= E = En come l'estrazione di una biglia nera, utilizzando, per le probabilitci a priori P(EIHk) = P(EnIHk), i valori:
ed applicando i n mod0 iterativo la (1.39). S i ottiene la Tab. 1.2, da cui si vede che, aumentando il numero di palline nere estratte consecutivamennte,
E cruciale notare che questo problema non k stato risolto in puro ambito frequentista, perch6 si k fatto ricorso alle probabiliti a priori (soggettive e arbitrarie) P ( H i ) = 116 (i = 1,2,. . . ,6) per le ipotesi iniziali. Questa maggiore flessibiliti si paga perb con un certo margine di ambiguitb, perch6 con ipotesi iniziali diverse, si sarebbero ottenuti risultati diversi, come nei problemi 1.12 e 1.13. Per fare esperimenti numerici col problema dell'urna, potete anche copiare dal nostro sito [64] la routine Bayes . I1 dilemma "maggiore flessibiliti di applicazione ma ambiguitb dei risultati" 6 spesso a1 centro di accesi dibattiti, come in [48]. L'esempio appena visto k quindi fondamentale per comprendere la differenza tra l'approccio frequentista e quello bayesiano:
1.9 Problemi
33
Tabella 1.2. Calcolo delle probabilita a posteriori P,(Hln*) a partire da probabilita a priori tutte uguali nel caso di estrazioni consecutive di n biglie nere d a un'urna contenente un insieme di 5 biglie bianche e nere
(
tip0 di urna
ooooo
0000.
000.0
000.0
0.0..
e .
P(Hi) a priori Pn(HiIn=l.) P,(Hiln = 5 0) Pn(Hiln = 10 0)
116 0 0. 0.
116 0.07 0.00 0.00
116 0.13 0.01 0.00
116 0.20 0.05 0.00
116 0.27 0.23 0.11
116 0.33 0.71 0.89
approccio frequentista (adottato in questo testo): non si assumono probabilith arbitrarie di tip0 soggettivo per le ipotesi. Non si possono quindi mai determinare probabilita di ipotesi del tip0 P(H1dati) P(ipotesi1dati). Per una soluzione frequentista dell'esercizio appena visto potete andare a vedere pii3 avanti, a pag. 189, l'esercizio 6.4. approccio bayesiano: si determinano probabilita del tip0 P(ipotesi1dati) che dipendono, tramite la (1.38)' sia dai dati ottenuti durante le prove sia dalle probabilita di ipotesi iniziali assunte in mod0 arbitrario.
=
1.9 Problemi 1.1. I1 gioco di Monty Hall prende il nome dal conduttore di un gioco televisivo che nel 1990 fece discutese di probabilita milioni di americani. I1 concorrente viene messo davanti a tre porte, dietro una delle quali c'i: un'auto nuova. I1 concorrente sceglie una porta, che rimane chiusa. Monty apre una delle due porte non scelte, dietro alla quale non c'i: l'auto (operazione sempre possibile). A questo punto a1 concorrente viene chiesto se intende mantenere la prima porta scelta oppure cambiare scegliendo l'altra porta rimasta chiusa. Conviene cambiare, non cambiare o la scelta i: indifferente? 1.2. Nel gioco del bridge un mazzo di 52 carte viene suddiviso in 4 gruppi di 13 carte e distribuito a 4 giocatori. Calcolare la probabilith che 4 giocatori che fanno 100 partite a1 giorno per 15 miliardi di anni (l'eta dell'universo) possano giocare la stessa partita. 1.3. Una macchina B composta da tre elementi, che si possono guastare indipendentemente l'uno dall'altro. Le probabilit& di funzionamento dei tre elementi durante un tempo fissato T sono: pl = 0.8, pz = 0.9, ps = 0.7. La macchina si ferma per un guasto a1 primo elemento oppure per un guasto a1 second0 e a1 terzo elemento. Calcolare la probabilit& P che la macchina funzioni entro T.
1.4. Una macchina ii composta d a quattro elementi aventi tutti la stessa probabilita p = 0.8 di funzionamento entro un tempo T. La macchina si ferma per un guasto contemporaneo agli elementi 1 e 2 oppure per un guasto contemporaneo agli elementi 3 e 4. a) Disegnate lo schema di flusso di funzionamento della macchina e b) calcolatene la probabilita P di funzionamento entro T.
34
Capitolo 1. La probabilita
1.5. Calcolare la probabilith di ottenere almeno un 6 lanciando 3 dadi. 1.6. Un lotto contenente 10 pezzi viene sottoposto ad un controllo di qualith che accetta l'intero lotto se tre pezzi scelti a caso sono tutti buoni. Calcolare la probabilith P che il lotto venga scartato nel caso vi siano a) un pezzo difettoso oppure b) quattro pezzi difettosi. 1.7. I1 famoso problema dell'incontro: due amici X e Y decidono di incontrarsi in un certo luogo tra le 12 e le 13, scegliendo casualmente il tempo di arrivo. X arriva, aspetta dieci minuti, poi se ne va. Y fa come X , ma aspetta 12 minuti. Qual i: la probabilitb P che X e Y si incontrino? 1.8. I1 problema del trigger, comune in fisica: un sistema fisico emette in mod0 aleatorio gli eventi A e B con probabilitb del 90% e del 10% rispettivamente. Un apparato, che intende selezionare gli eventi "buoni" B, d b in consenso alla registrazione (innesco o trigger) il 5% delle volte per gli eventi A, nel 95% dei casi per gli eventi B. Calcolare la percentuale di eventi accettata dal trigger P ( T ) e la percentuale P(B1T) di eventi di tip0 B tra quelli accettati. 1.9. Valutare la probabilita P{X 5 Y) che in una prova, in cui si estraggono a caso in mod0 uniforme due coordinate 0 5 X , Y 5 1, si ottengano i valori x y.
<
1.10. Tre ditte elettroniche A, B e C forniscono di componenti identici un laboratorio. Le percentuali di fornitura sono il 20% per A, il 30% per B e il 50% per C. La percentuale di componenti difettosi dei tre fornitori 6 il 10% per A, il 15% per B ed il 20% per C. Qual i! la probabilith che un componente scelto a caso risulti difettoso? 1.11. Un certo tip0 di pilastro ha il carico di rottura R compreso uniformemente tra 150 e 170 kN. Sapendo che esso i: sottoposto ad un carico aleatorio C distribuito uniformemente tra 140 e 155 kN, calcolare la probabilith di rottura del pilastro. 1.12. Risolvere l'esercizio 1.6 per n = 5 biglie nere estratte, con le seguenti probabilitk iniziali (di tip0 binomiale): P(H1) = 0.034, P ( H 2 ) = 0.156, P(H3) = 0.310, P(H4) = 0.310, P(H5) = 0.156, P(H6) = 0.034 1.13. Assumendo che un amico sia bar0 od onesto con il 50% di probabilith, trovare la probabilith a posteriori che l'amico sia un bar0 dopo che egli it risultato vincitore a testa o croce per n = 5,10,15 volte consecutive.
2. Rappresentazione dei fenomeni aleatori
"La scienza 6 il corollario della convinzione che 17universosia algoritmicamente comprimibile, e l'attuale ricerca di una teoria di ogni cosa t. l'espressione ultima di questa convinzione che esista una rappresentazione abbreviata della logica sottostante alle proprietA dell'universo, e che gli esseri umani possano scrivere per esteso, in forma finita, questa rappresentazione. " John D. Barrow, "TEORIE DEL TUTTO".
2.1 lntroduzione Inizieremo questo capitol0 definendo meglio il formalismo, la notazione e la terminologia che ci accompagneranno per tutto il resto del testo. Questo it un passo molto importante, senza il quale si espone il lettore a1 rischio di fraintendere il significato di gran parte delle formule di base della probabilit2i e della statistica. Proseguiremo illustrando la rappresentazione degli eventi in istogrammi, che it quella piii conveniente per un adeguato sviluppo della teoria, sia probabilistica che statistica, e quella piii vicina alle applicazioni. La scelta della rappresentazione in istogrammi ci portera a definire subito il primo tip0 di distribuzione importante, quella binomiale, mentre le altre distribuzioni saranno studiate successivamente nel cap. 3. Nel nostro sito h t t p : //www .s p r i n g e r . i t / l i b r i l i b r o . asp?id=242 si trova una breve guida all'uso del software libero SCILAB [73], nato in ambiente scientifico, che fornisce parecchie routine di utilit& in campo statistic0 e matematico e che consente all'utente, con un linguaggio semplice ed intutivo, di scrivere ed eseguire con estrema facilita le proprie routine (tutte quelle utilizzate nel testo si trovano nel nostro sito web). Raccomandiamo quindi ai lettori di installare SCILAB sul proprio calcolatore, di copiare le nostre routine e di cercare, d'ora in poi, di affiancare a110 studio del testo gli esercizi con SCILAB che verranno via via suggeriti. Questo consentira di sfruttare da subito le eccezionali possibilita che il calcolatore offre nella verifica e nella applicazione delle leggi fondamentali della probabilita, della statistica e della simulazione.
36
Capitolo 2. Rappresentazione dei fenomeni aleatori
2.2 Variabili aleatorie Avendo presente le definizioni 1.5, 1.6 e 1.7 del capitol0 precedente, conSi sideriamo uno spazio di probabilita & = (S, F,P) e siano a € A risultati di una generica prova che realizza l'evento A della a-algebra .F. Ad ogni elemento a associamo un numero reale mediante una corrispondenza o funzione X : S + (-co,+co), ovvero X ( a ) = x . (2.1) Si dice variabile aleatoria o casuale una variabile che segue la
Definizione 2.1 (Variabile aleatoria o casuale). Una variabile aleatoria X ( a ) 6 u n a funzione avente come dominio lo spazio S , come codominio la retta reale e tale che l'znsieme degli elementi a per i quali vale la relazione
b u n evento per ogni x E
R.
Fate attenzione perch6 abbiamo compiuto un passo concettuale importante: la variabile aleatoria B definita come u n a corrispondenza o funzione che porta dallo spazio campionario a117assereale. Ovviamente, sarebbe pih appropriato parlare di funzione aleatoria invece che di variabile, ma questa infelice terminologia si B ormai definitivamente consolidata. Se a1 E A1 e a2 E Az sono elementi di due insiemi (eventi) di F ,in base alla (1.6) anche l'elemento a E (A2 - Al) apparterra ad un insieme (evento) del campo. Se ora X(a1) 5 X I e X(a2) 5 22, (A2 - Al) sara l'evento corrispondente a117insiemenumerico xi
< X(a) 5 $2
ovvero x l
< x 5 x2 .
(2.3)
Se la variabile aleatoria fa corrispondere agli eventi un insieme di numeri reali, dalla definizione 2.1 e dalla (1.5) discende che anche l'insieme
dove xo 6 un numero reale, it un evento. Prendiamo come esempio l'esperimento consistente nella estrazione di una biglia numerata nel gioco del lotto. Secondo il formalismo appena introdbtto la (2.2) diventa: ESTRAI E LEGGI (biglia)
5 numero intero .
I1 dominio di questa legge it l'insieme delle biglie, il codominio un sottoinsieme de117assereale e la variabile aleatoria i:definita come "estrazione a caso di una biglia e lettura del numero" . In generale, se i&, B un qualunque sottoinsieme dell'asse reale, rappresentabile come unione (somma), intersezione (prodotto) o differenza di intervalli, it facile convincersi che anche 17insiemenumerico
2.2 Variabili aleatorie
37
pub essere associato ad una a-algebra 3.In breve, diremo che
2? un evento. Riassumendo, nel testo useremo la notazione:
per indicare un insieme A E 3 di elementi [a]ottenuti dalle prove sperimentali (non un insieme di numeri reali!) per i quali la funzione X ( a ) soddisfa la condizione numerica espressa entro parentesi graffa. La probabilith
6 detta legge o distribuzione di X . Essa i: un applicazione & -+ P { X ( a ) E &) che ad ogni sottoinsieme & IK associa la probabilith che X prenda valori appartenenti ad &. La legge i: una funzione definita su un insieme. Essa pub essere messa in corrispondenza con combinazioni lineari di somme o integrali di funzioni, che sono piii facili da trattare. Queste sono le funzioni cumulative o di ripartizione e le funzioni di densith, che definiremo tra poco. Nel testo considereremo probabilitA per le quali vale la condizione
Si noti che questa proprieth non esclude che la variabile assuma valori infiniti; tuttavia si richiede che il valore della probabilith di questi eventi sia nullo. Queste considerazioni sono molto importanti e vanno tenute sempre presenti nella lettura del seguito. Su altri testi B possibile trovare, invece della (2.2), la notazione x, 4a)l o altre forme equivalenti. Noi useremo, per indicare le variabili aleatorie, le lettere maiuscole (in genere le ultime) e riserveremo le lettere minuscole per rappresentare i particolari valori numerici ottenuti in una prova; nei pochi casi in cui avremo conflitti di notazione useremo per le variabili aleatorie le lettere maiuscole in grassetto (X). Inoltre, per capire a cosa ci riferiamo dovrete fare attenzione alle parentesi: l'espressione {. . .) indicherh sempre un insieme definito nello spazio campionario, corrispondente all'insieme di valori reali indicato all'interno delle parentesi graffe. Le notazioni che utilizzeremo sono riportate in Tab. 2.1. E essenziale capire bene la differenza tra la notazione maiuscola e minuscola: 0
X indica la variabile aleatoria, che pub assumere un insieme finito o infinito di valori numerici possibili, prima di una o pih prove;
38
Capitolo 2. Rappresentazione dei fenomeni aleatori
Tabella 2.1. Confront0 tra la notazione usata nel testo ed altre notazioni correnti
significato risultato di una prova il risultato B un evento variabile aleatoria
Sea€A,XE& ProbabilitL P ( A ) codominio reale di X ( a ) operatore su una variabile aleatoria valore atteso varianza
0
notazioni del testo
altre notazioni
a aEA X(a) =x { X E &So) P { X E &)
a aEA x(a) =x {x~&Bo) P { x E &)
spettro
codominio, coinsieme
01x1
014, O ( X ) E b ) , E(X)
E[Xl, ( X ) V4XI
Var
[XI,
(x)
a2
x 6 un numero, cio&un particolare valore numeric0 assunto da X dopo una ben determinata prova. La n-upla di valori (xl ,xz, . . . ,xn) k l'insieme di valori assunti da X in un campionamento.
E importante notare che la variabile aleatoria deve essere definita su tutti gli elementi dello spazio campionario S. Sia dato ad esempio uno spazio (S, F,P) e sia A un evento con probabilita p, ovvero P(A) = p. E naturale allora definire la funzione X , detta funzione o variabile indicatrice tale che: X(a) = 1 s e a € A ,
X(a) = 0 s e a E A .
(2.8)
X i: una variabile casuale, perch4 0 0 0
se x < 0 a X 5 x corrisponde l'insieme vuoto 0; se 0 5 x < 1 a X x corrisponde l'insieme A; se z 1 a X x corrisponde lo spazio campionario A U A = S .
>
<
<
Poich6, per le proprieta della a-algebra F,se A B un evento lo sono anche gli insiemi 0, A ed S, la X soddisfa alla definizione 2.1 ed & pertanto una variabile aleatoria. Su uno stesso spazio di probabilith si possono definire pih variabili aleatorie. Ad esempio, se lo spazio campionario i: formato da un insieme di persone, la variabile aleatoria X(a) pub essere il peso della persona e la variabile Y(a) la statura. Avremo anche spesso a che fare con funzioni di una, due o pih variabili aleatorie, del tip0
I1 dominio di Z sono gli elementi dello spazio campionario S, poich6 per X(a) e Y Y(b) con a, b E S, per cui si ha anche Z = definizione X f (X(a), Y (b)). Dato che X(a) = x e Y (b) = y & possibile associare a Z anche una funzione "tradizionale" con dominio e codominio in campo reale:
=
=
2.2 Variabili aleatorie
39
Dalla discussione fatta finora dovrebbe esservi chiaro che la variabile aleatoria crea una corrispondenza tra unioni o intersezioni numerabili, diffe~enzee complementi di insiemi di S (campo F)ed intervalli del campo reale. E allora possibile dimostrare (ma 6 abbastanza intuitivo) che se, per ogni z reale, la z B soddisfatta da unioni, intersezioni numerabili disuguaglianza f(x,y) o differenze di intervalli reali delle variabili x e y, allora anche la variabile Z della (2.9) B una variabile aleatoria che obbedisce alla definizione 2.1 [2], [63]. Se le variabili di partenza X e Y sono variabili aleatorie definite sullo stesso spazio di probabilitA, questo avviene per tutte le funzioni f (X, Y, . . .) che tratteremo in seguito, cosi che supporremo sempre, d a ora in poi, che funzioni di variabile aleatoria siano anch'esse variabili aleatorie. E importante capire bene la differenza tra Z = f (X, Y) e z = f (z, y). Consideriamo ad esempio la somma
<
e i risultati di due prove
La variabile aleatoria Z indica un possibile insieme di risultati (21, z2, . . .) che sono gli esiti di Z in un esperimento consistente in una serie di prove in cui si fanno accadere X e Y e poi si sommano i risultati. Invece, zl rappresenta il valore di Z ottenuto nella prima prova, z2 quello ottenuto nella seconda ed analogamente per X e Y. L'indipendenza tra eventi comporta anche quella t r a variabili aleatorie: Definizione 2.2 (Variabili aleatorie indipendenti). S e le variabili aleatorie Xi, (i = 1,2,. . . ,n) sono definite sullo stesso spazio di probabilitd e gli eventi {XiE Ail,(i = 1 , 2 , . . . ,n ) sono indipendenti second0 la definizione 1.10 per ogni scelta possibile degli intervalli Ai E &, dalla (1.21) si ha:
S i dice in questo caso che le variabili Xi sono stocasticamente indipendenti. Nel seguito diremo semplicemente che le variabili sono indipendenti, avendo perb cura di distinguere, quando necessario, questa indipendenza da quella di tip0 matematico, come la dipendenza (o indipendenza) lineare, che implica l'esistenza (o meno) di equazioni lineari tra le variabili. Per finire, un'ultima definizione: Definizione 2.3 (Spettro). Chiameremo spettro il codominio reale della variabile aleatoria X ( a ) . S e il codominio b u n insieme numerabile, diremo che lo spettro b discreto, quando i valori possibili sono s u tutto R o su unioni di intervalli di IR, diremo che lo spettro i: continuo.
40
Capitolo 2. Rappresentazione dei fenomeni aleatori
Una variabile X a spettro discreto verra chiamata variabile aleatoria discreta, una variabile a spettro continuo varzabile aleatoria continua. Sappiamo bene che il termine spettro in matematica si usa in altri contesti, come nella teoria delle trasformate; tuttavia, i: abbastanza usuale, tra fisici e ingegneri, nella attivita di ricerca o di laboratorio, dire che "si studia o si rappresenta lo spettro", non "il codominio" della variabile casuale che si sta esaminando. Vi sono inoltre campi della fisica, come la spettroscopia atomica o nucleare, dove si studiano proprio le probabilita degli stati energetici, discreti o continui, che un sistema fisico pub assumere. Poichk nel seguito I'uso del termine spettro non causer& conflitti di sorta, abbiamo deciso di mantenere questa dizione. La legge o distribuzione (2.7) associa una probabilita a valori (o insiemi di valori) dello spettro.
2.3 Funzione cumulativa o di ripartizione La legge o distribuzione di una variabile aleatoria viene solitamente espressa in termini della funzione cumulativa o dz ripartizione, che dB la probabilitA che la variabile aleatoria assuma valori minori o uguali di un certo valore assegnato x. Definizione 2.4 (Funzione cumulativa o di ripartizione). Se X 2 una variabile aleatoria, continua o discreta, la funzione cumulativa o di ripartizione (2.11) F(x)=P{X 5 x )
rappresenta la probabilith che X assuma u n valore n o n superiore ad u n valore assegnato x. Le funzzoni cumulative verranno sempre indicate con lettere maiuscole. Si noti che x non deve necessariamente fare parte dello spettro di X ; ad esempio, nel caso del lancio di un dado, dove X = 1,2,3,4,5,6:
<
Se x1 < 2 2 , gli eventi { X X I ) e { x l < X I x 2 ) sono incompatibili e la probabilitA totale dell'evento { X 5 x z ) i: data dalla (1.10): P{X
522)
=P{X
5 2 1 ) + P{21 < x I x2) ,
da cui, in base alla (2.11): P { x ~< X 5 22) = F(x2) - F(x1) .
(2.12)
Ricordando che la probabilita & una quantith non negativa, abbiamo quindi F(x2) 2 F ( z 1 ) .
2.3 Funzione cumulativa o di ripartizione
41
Se x, e x,i, rappresentano rispettivamente il massimo e il minimo dei valori assunti da X, dalla (1.13) e dalla definizione (1.9) risulta: F(x)
= 0
per x
< xmin ,
(2.13)
00
F(x)
= C p ( x i ) = 1 per x
2 x,
.
(2.14)
i= 1
Risulta anche, per costruzione, che F ( x ) & continua a destra, cioit continua in ogni punto x se ci si avvicina da destra. Questo fatto dipende dalla posizione del segno di uguale che compare nella (2.12): lim [F(x2) - F(xl)] = P { X = 2 2 )
,
(2.15)
21-w2
lim [F(x2) - F(xl)] = 0
(continuit8 destra) .
(2.16)
m+21
Si pub dimostrare che ogni funzione cumulativa o di ripartizione soddisfa alle propriet8 lim F ( x ) = 1 , (2.17) lim F(x) = 0, s-++co
23-W
it non decrescente e continua a destra. Viceversa, se una funzione soddisfa queste propriet8, essa rappresenta la funzione cumulativa di una variabile aleatoria. Per dettagli matematici sulla dimostrazione potete consultare [2]. Notiamo anche che dalla (2.11) si calcola facilmente la probabilita di ottenere valori maggiori di un limite assegnato x:
La funzione cumulativa F(x) permette di definire una grandezza che useremo spesso nel seguito: Definizione 2.5 (Quantile). S i chiama quantile di ordine a il pid piccolo ualore x, che uerifica la disuguaglianza:
P{X
< x,)
= F(x,)
2a.
(2.19)
La disuguaglianza 2 nella (2.19) tiene conto del fatto che, per uariabili discrete, F(x,) pub n o n coincidere con a quando questo ualore uiene assegnato a priori. Nel caso di uariabili continue, F(x,) = a e il quantile i. il ualore x che ha come pedice la probabilitii di osservare valori in (-00, XI.
<
Ad esempio, se P{X x,) = F(x,) = 0.25, si pub dire che ~ 0 . 2 5& il quantile 0.25; se i valori a sono dati in percentuale, si dice anche che x & il 25-esimo percentile, oppure che x ha un valore tra il second0 e terzo decile, oppure tra il 20% e il30%.
42
Capitolo 2. Rappresentazione dei fenomeni aleatori
2.4 La rappresentazione dei dati La rappresentazione pih usata per trattare campioni di dati provenienti da un esperimento B detta istogramma. Nel caso di una variabile aleatoria discreta, I'istogramma si costruisce come segue: 0 0
sull'asse x si riporta lo spettro di X; sull'asse y si riporta il numero di volte che ogni valore dello spettro B comparso nel corso dell'esperimento.
Consideriamo un esperimento consistente in 100 prove, ogni prova essendo costituita dal lancio di 10 monete. Definiamo l'evento come il risultato di un lancio (fila ordinata di teste e croci) e sia X il numero di teste ottenuto; lo spettro di X i! dato dagli 11 numeri interi 0'1'2, ...,10. Ad ognuno di questi valori corrisponderh un numero, limitato tra 0 e 100, dato dal numero di volte che il valore (cioB quel numero di teste) si B presentato nelle 100 prove dell'esperimento. Se riportiamo in ascisse lo spettro dell'evento riportat0 nella prima colonna della Tab. 2.2 e in ordinate i risultati ottenuti in un esperimento reale, riportati nella seconda colonna della Tab. 2.2, otteniamo l'istogramma di Fig. 2.1. I1 numero di eventi ottenuti con valore dello spettro Tabella 2.2. Risultati di un esperimento reale costituito d a 100 prove, ognuna consistente nel lancio di 10 monete da 50 lire. La seconda colonna riporta il numero di prove in cui si B ottenuto il numero di teste riportato in prima colonna. La terza colonna riporta le frequenze empiriche ottenute semplicemente dividend0 per 100 i valori della seconda colonna, la quarta colonna riporta le frequenze cumulative spettro (n: teste) 0
n. di prove 0
fre quenza 0.00
frequenze cundative 0.00
xi, si indica con n(xi). Poichi! xi viene detto canale dell'istogramma (bin), si dice anche che n(xi)corrisponde a1 numero n di eventi caduti nel canale i-esimo dell'istogramma. Sussiste pure l'ovvia relazione
2.4 La rappresentazione dei dati
43
Fig. 2.1. Due modi di istogrammare il numero di prove in cui si sono ottenute x teste nel lancio di 10 monete: i valori x dello spettro, compresi tra 0 e 10, sono riportati in ascissa; il numero di successi n(x), per ogni valore dello spettro, i: riportato in ordinata, come un punto di coordinata xi a) oppure come una barra larga quanto la distanza tra due valori dello spettro b). I dati, riportati anche in Tab. 2.2, si riferiscono ad un esperimento reale costituito da 100 prove
dove C 1! il numero dei canali dello spettro discreto ed N il numero totale di eventi, ovvero delle prove effettuate nell'esperimento. Si dice anche che l'istogramma rappresenta un campione di N eventi. L'istogramma cosi costruito ha lo svantaggio di avere le ordinate divergenti con il numero delle prove, poich6 n(xi) + co per N + co. Si rimedia a questo inconveniente rappresentando il campione come un istogramma nomnalizzato dove a1 numero di eventi n(xi) si sostituisce la frequenza
Le frequenze relative all'esempio di Fig. 2.1 sono riportate nella terza colonna di Tab. 2.2. In questo modo, quando N -+ co, il contenuto dei canali resta finito e, in base alla (1.3), f (xi) tende alla probabilita p(xi) di cadere nel canale i-esimo dello spettro. L'equazione (2.20) diviene:
che i: detta condizione di normalizzazione. Le frequenze dell'istogramma possono venire rappresentate anche come frequenza cumulativa, indicata solitamente con lettera maiuscola: per il kesimo canale essa si ottiene, come in Fig. 2.2, sommando i contenuti del k-esimo canale e di tutti i canali a sinistra e dividend0 per il numero totale di eventi: k
44
Capitolo 2. Rappresentazione dei fenomeni aleatori
Fig. 2.2. Istogramma del-
le frequenze cumulative per i dati di Fig. 2.1
<
La frequenza cumulativa Fk = F(xk) d& la percentuale di valori x xk del campione sperimentale. Essa B il corrispondente "sperimentale" della funzione cumulativa (2.11). Vediamo ora come sia possibile estendere la rappresentazione in istogrammi anche a1 caso di variabili continue, che possono assumere valori su un qualsiasi intervallo [a,b] del campo R dei numeri reali. Siano x i valori dello spettro continuo in esame e siano compresi in [a, b]. Dividiamo questo intervallo in parti uguali [XI,x2), [xz, xs), . . . , [ x ~ - x,] ~ , di ampiezza Ax ed assegniamo ad ognuno di questi nuovi intervalli (canali o bin) un valore dato dal numero di eventi che hanno il valore dello spettro contenuto entro l'intervallo. Dividend0 per il numero di prove effettuate, otteniamo l'analogo della (2.21):
Per N + a,in base alla (1.3) $(Axk) p(Axk), che B la probabilit& di ottenere valori dello spettro compresi entro [xk-1, xk], cioi: nel k-esimo canale. La rappresentazione grafica di dati di variabili continue i: in genere quella dell'istogramma di Fig. 2.lb), per indicare che i valori sono distribuiti equamente entro tutto il canale; se si vuole utilizzare la rappresentazione dell'istogramma di Fig. 2.la), l'ascissa del punto i: il valore centrale del canale. Per ottenere istogrammi a1 computer esiste la routine originale SCILAB histplot (n,data) , che esegue l'istogramma in n canali di un insieme di dati grezzi data. In alternativa, potete usare la nostra routine che offre pih opzioni statistiche (elencate nel cornmento a1 codice). Se i dati sono gi&raggruppati in canali, va usata la routine Histfreqe (fre, xdata) , dove f r e 6 il vettore delle frequenze n(x)/N o del numero di prove n(x) e xdata B lo spettro della variabile. Se f r e e xdata hanno la stessa dimensione, xdata 6 interpretato come il valor medio del canale oppure come lo spettro di una variabile discreta; se xdata h a una posizione in piil di f r e , esso viene interpretato come il vettore degli estremi dei canali per una va-
2.5 Variabili aleatorie discrete
45
riabile continua. Ad esempio, per ottenere gli istogrammi di Fig. 2.1 e 2.2, basta scrivere ( xbasc0 k una routine SCILAB che pulisce il display grafico): fre = CO 0 5 13 12 25 24 14 6 I 01; xdata= CO 1 2 3 4 5 6 7 8 9 I01 ; Hi~tfreqe(fre,xdata,~oints=l); // istogramma a punti di Fig. 2.1a) xbasc(); Histfreqe(fre,xdata); // istogramma a gradino di Fig. 2.lb) xbasc(); Histfreqe(fre,xdata,cum=l); / / istogramma di Fig. 2.2
2.5 Variabili aleatorie discrete Come abbiamo visto nella definizione 2.3, una variabile aleatoria X discreta prende a1 pih una infinit& numerabile di valori (xl ,xa, . . . ,x,). Sappiamo anche, dalla (2.4), che gli insiemi {X = xi) sono degli eventi. Possiamo allora definire l'analogo probabilistico della rappresentazione in istogrammi di frequenza, la funzione di densit&di probabiliti:
Definizione 2.6 (Densith di probabilith per variabili discrete). Data una variabile X discreta, la funzione p(x), che vale
in corrispondenza dei valori dello spettro di X e p(x) = 0 a1 di fuori di essi, & detta densitci di probabilitci, funzione di densitci o, piti semplicemente, densitci. Questa funzione gode della importante proprieti di normalizzazione:
La conoscenza della densitd permette il calcolo di leggi o distribuzioni statistiche del tip0 (2.7):
La funzione cumulativa o di ripartizione (2.11) si pub quindi esprimere come:
Essa pub essere vista come B il corrispondente probabilistico dell'istogramma delle frequenze cumulative (2.23). Un esempio di funzioni di densit2 e cumulativa (o di ripartizione) i: mostrato in Fig. 2.3.
46
Capitolo 2. Rappresentazione dei fenomeni aleatori
Fig. 2.3. Rappresentazione a barre della densitk di probabilita binomiale p ( x ) = b(x;10,1/2) e corrispondente funzione cumulativa o di ripartizione F(x). Questa distribuzione it il modello probabilistico per l'esperimento delle 10 monete di Tab. 2.2. I dati sono riportati anche in Tab. 2.3
Come sappiamo, la funzione cumulativa i! definita per ogni x, non solo per i valori discreti assunti dalla variabile X . Quindi, nel caso di Fig. 2.3 e Tab. 2.3 abbiamo, ad esempio:
F ( x ) presenta salti per i valori discreti di X di altezza pari a P { X = xi) e resta costante in [xk,xkfl).La continuit&a destra i: indicata graficamente in Fig. 2.3 con i punti in grassetto a sinistra dei valori costanti in ordinata. L'importante relazione (2.12) pub essere allora espressa in termini di densit&con l'uguaglianza:
che permette di svolgere i calcoli probabilistici in termini di funzione di densith o di funzione cumulativa, come risulta pic agevole. Esiste un modello di distribuzione per esperimenti del tip0 di quelli di Fig. 2.1 e Tab. 2.2? La risposta i: affermativa: la distribuzione cercata, detta binomiale o di Bernoulli, 6 uno dei risultati pih importanti del calcolo delle probabilitii.
2.6 La distribuzione binomiale Consideriarno una prova consistente in n tentativi e sia p la probabilita assegnata a priori di ottenere l'evento desiderato (successo) in ogni tentativo.
2.6 La distribuzione binomiale
47
Fig. 2.4. Rappresentazione a barre della distribuzione binomiale b(x;10,0.2)
Si vuole trovare la probabilith dell'evento costituito da x successi nella prova considerata. I1 problema i! pertanto ricondotto alla determinazione di una funzione b(z;n,p) dove (fate bene attenzione!) n e p sono parametri assegnati e b(x; n,p) i: la probabilith dell'evento costituito d a x successi. Consideriamo una serie di prove tutte costituite da x successi e n - x fallimenti, indicati rispettivamente con i simboli X e 0:
In base alla legge (1.23) delle probabilita composte, se gli eventi sono in&pendenti, la probabilita di ogni configurazione (riga) & la stessa ed & data dal prodotto della probabilith di ottenere x successi e (n - x) fallimenti, vale a dire p . p . .: ( 1 - p ) . (1-p) . ( I - p ) = p x ( 1 - ~ ) ~ - " . Quante configurazioni diverse (righe) sono possibili? Tante quante le combinazioni di n oggetti di cui x ed n - x uguali tra loro. Dal calcolo combinatorio sappiamo che questo numero i! dato dal coefficiente binomiale (1.30): n!
x!(n - x)! Dato che una prova che realizza I'evento desiderato fornisce una qualunque delle righe considerate, in base alla legge delle probabilith totali (1.17) le probabilita delle righe vanno tutte sommate per ottenere la probabilith finale dell'evento. Abbiamo pertanto l'espressione finale della densith binomiale:
48
Capitolo
2. Rappresentazione dei fenomeni aleatori n!
P{X = x successi)
b ( x ;n , P) = x!(n - x)., P X P-
E importante ricordare sempre che questa distribuzione i: valida se e solo se gli n tentativi sono indipendenti e la probabilitii di successo in un tentativo i: sempre costante e pari a p. La distribuzione binomiale, quando n = 1, i: detta anche di Bernoulli, a ricordo del matematico svizzero Jacques Bernoulli, che la formulb per primo, verso la fine del '600. Essa ha numerose applicazioni, come mostrato dagli esempi che seguono. Esercizio 2.1 Calcolare la pro 5 successi.
Risposta. Dalla(2.30) si ha immediatamente:
<
Ripetendo questo conto per 0 x 5 10 e riportando in grafico le corrispondenti probabilitii, si ottiene la rappresentazione della distribuzione binomiale di Fig. 2.4. Le probabilitii della distribuzione binomiale possono anche essere ottenute con la routine SCILAB binomial(p,n) . Ad esempio, per ottenere il grafico per punti della distribuzione di Fig. 2.4, basta scrivere: y=binomial(0.2,10) ; plot (y) ;
poich6, se il vettore delle ascisse non i: specificato, esso viene assunto per difetto come formato da interi positivi. Esercizio 2.2 I1 10% dei pez probabilitci che su 40 pezzi n e siano difettosi soltanto 2.
Risposta. Dato che n = 40,p = 0.1 e ' x = 2:
Esercizio 2.3 Assumendo ch calcolare la probabilitci di avere 5 jiglie fernmine.
2.7 Variabili aleatoric continue
49
Risposta. Dato che p = (1 - p) = 112, n = 5, z = 5, si ha:
Esercizio 2.4
del 35%. Calcolare la probabilit4 che, i n u n a prima classe elementare di 25 alunni, 10 alunni abbiano gib fatto la scarlattina. Risposta. Dato che p = 0.35, n = 25, x = 10, si ha:
Possiamo ora confrontare l'esperimento di Tab. 2.2 e Fig. 2.1 con le previsioni del calcolo delle probabilith. Per fare questo basta calcolare le probabilith b(x; 10,0.5) per 0 5 x 5 10. Ovviamente, si suppone che le monete non siano truccate e che la probabilith di testa (o croce) sia costante e pari a 112. I risultati sono riportati in Fig. 2.3 e nella Tab. 2.3, dove si nota che fra le frequenze sperimentali e le probabilith teoriche vi sono sensibili differenze. Se esse fossero dovute solo alla dimensione limitata dell'esperimento (100 prove), potremmo affermare che a1 limite, per un numero infinito di prove, si otterrebbero i valori dati dalla distribuzione binomiale. Si dice in questo caso che teoria ed esperimento sono in accord0 entro le fluttuazioni statistiche. Se invece le differenze fossero dovute a un modello probabilistico sbagliato (il che avverrebbe nel caso di lanci correlati di monete, di monete con probabilith di testa o croce diversa da 112, o di monete dotate di memoria ...) dovremmo parlare di differenze sistematiche e non statistiche tra teoria e modello. Chi ci pub dire allora se le differenze in discussione sono fluttuazioni statistiche o sistematiche? La statistica. Ci spiace, ma dovrete aspettare fino a1 cap. 6 per una interpretazione definitiva e soddisfacente della Tab. 2.2. Come vedete, senza nozioni di statistica, le quali non sono affatto intuitive, n o n si pud interpretare correttamente n e m m e n o u n esperimento veramente banale come il lancio delle monete! Se ci credete sulla parola, possiamo anticiparvi che le differenze tra distribuzione binomiale ed esperimento delle 10 monete sono fluttuazioni statistiche e che l'accordo tra teoria ed esperimento k buono.
2.7 Variabili aleatorie continue Nel caso di variabili aleatorie che possono variare con continuith in un intervallo reale, finito o infinito, la definizione della funzione di densiti va fatta
50
Capitolo 2. Rappresentazione dei fenomeni aleatori
Tabella 2.3. Risultati dell'esperimento di Tab. 2.2 confrontate con le previsioni della legge binomiale. Le probabilith previste dalla distribuzione binomiale ponendo nella (2.30) n = 10, p = 112 sono riportate nella terza colonna, mentre la quarta e la quinta colonna riportano rispettivamente le frequenze cumulative dei dati e le probabilith cumulative calcolate inserendo nella (2.28) le probabilith della terza colonna proba - frequenza probabilita spettro fre cumulativa cumulativa (n. teste) quenza bilith 0.001 0.00 0.001 0 0.00 1 0.00 0.00 0.011 0.010 0.055 2 0.05 0.044 0.05 0.18 0.172 3 0.13 0.117 4 0.12 0.205 0.30 0.377 0.246 0.55 0.623 5 0.25 6 0.24 0.205 0.79 0.828 0.117 0.93 0.945 7 0.14 0.99 0.989 8 0.06 0.044 1.00 0.999 9 0.01 0.010 1.000 0.001 1.00 10 0.00
con cautela e per passi successivi. I1 procedimento B analog0 a quello spesso fatto in fisica, quando, ad esempio, si passa d a un insieme di cariche puntiformi entro un volume alla densith di carica, che fornisce la carica effettiva in una regione di spazio solo quando viene integrata sul volume corrispondente. Si possono costruire variabili aleatorie continue la cui funzione di ripartizione abbia dei punti di discontinuita, ma nella pratica 6 molto piii frequente incontrare variabili aleatorie continue con funzione di ripartizione continua. Ci limiteremo dunque a110 studio di queste ultime. Se allora vogliamo calcolare la probabilith che X assuma un certo valore, dato che {X = x) c {x - E < X 5 x) per ogni E > 0, dalle (1.14, 2.12) risulta: P{X=x)
> 0. Quindi lim [F(x) - F (x - E ) ] = 0
&+O
per la continuith di F(x). Risulta allora che la probabilitci di un valore assegnato x t: sempre nulla. Questo risultato B intuitivamente compatibile con il concetto di probabilith classica e frequentista: lo spettro continuo comprende una infinith non numerabile di valori e la probabilith, in una prova, di ottenere esattamente il valore x su un insieme infinito di casi possibili (probabilith a priori) o di ottenere esattamente il valore x su numero infinito di prove (probabilita frequentista) deve essere nullo. Per i valori di una variabile continua X hanno quindi senso solo le probabilith di localizzazione entro un intervallo; valgono pertanto le uguaglianze:
2.7 Variabiii aleatorie continue
51
Fig. 2.5. Densit& di probabilita (in basso) e corrispondente funzione cumulativa (in alto) per variabili aleatorie continue. L'ombreggiatura evidenzia come alle aree parziali della densit&corrispondano gli incrementi nelle ordinate della cumulativa
le quali mostrano che includere o meno gli estremi in un intervallo di probabilita i: indifferente. Consideriamo ora una variabile X continua che assume valori in [a, b]. Dividiamo questo intervallo in sottointervalli [a = x l , x2], [x2,x3], . . ., [x,-~, x, = b] di ampiezza Axk. Definiamo una variabile aleatoria discreta X' che assume valori solo nei punti medi xi di questi intervalli e sia
la densit& di X', che fornisce la probabiliti che X sia compresa entro il k-esimo intervallo. La densiti p p ( A x k ) , essendo funzione dell'ampiezza del canale, & una quantiti che dipende dalla scelta arbitraria di Ax, poich6 lo spettro i: continuo. Tuttavia, i: possibile definire una funzione p(x) nel mod0 seguente:
dove xk i: un punto interno (ad esempio il punto medio) a1 canale kesimo. In base alla definizione di integrale di Riemann, possiamo ora scrivere la (2.26) come:
La funzione p(x) cosi definita i: la densiti di probabiliti cercata della variabile aleatoria continua X. Arriviamo pertanto alla
52
Capitolo 2. Rappresentazione dei fenomeni aleatori
Definizione 2.7 (Densith di probabilith per variabili continue). La densitci di probabilitci di u n a variabile continua X E IR 6 u n a funzione p(x) 2 0 che soddisfa, per ogni x, l'equazione:
Dalla definizione risulta che la probabiliti di ottenere valori in [xk,x ~ + di~ ] ampiezza Ax it allora data da (vedere Fig. 2.5):
e che la proprietA di normalizzazione (2.26) si scrive in questo caso come:
Se l'intervallo i! piccolo rispetto alla scala di variazione della funzione, si pub approssimare p(x) con un tratto di retta entro ogni Ax (approssimazione lineare) e la (2.34) viene sostituita dalla (2.31), dove xk 6 il punto medio del canale. Possiamo dunque indicare simbolicamente il passaggio dallo spettro discreto a quello continuo come
da cui si vede che si passa da una funzione a valori discreti a1 prodotto di una funzione a valori continui per un differenziale. La quantith differenziale p(x) dx fornisce la probabilit2, di ottenere valori di X contenuti in [x, x dx]. Nei punti dove F ( x ) i: derivabile, dalla (2.33) si ottiene anche I'importante relazione:
+
Le funzioni di densit&e di ripartizione (o cumulative) hanno come dominio lo spettro della variabile aleatoria e come codominio un insieme di valori reali; esse possono essere messe in corrispondenza con leggi o distribuzioni del tip0 (2.7), come mostrato in Fig. 2.6.
2.8 Media, Varianza e Deviazione Standard La descrizione di un fenomeno aleatorio in termini di media e varianza i: un mod0 meno completo di quello che fa uso della funzione di densith, ma che ha il pregio di essere semplice e di risultare spesso adeguato per molte applicazioni pratiche. In sostanza, la media individua dove i! il baricentro dei valori
2.8 Media. Varianza e Deviazione Standard
53
Fig. 2.6. Assegnazione di una probabiliti P ( A ) ad un evento A dello spazio campionario S. La variabile aleatoria X ( a ) = x trasforma il risultato di una prova a E A in un codominio dell'asse reale x E h,che chiarniamo spettro; le funzioni di densit& e di ripartizione permettono di calcolare, a partire dai valori dello spettro delI'evento, la probabiliti P(4
della variabile X , mentre la deviazione standard, che i: la radice quadrata della varianza, fornisce una stima della dispersione dei valori intorno alla media. Nel trattare questi argomenti riteniamo utile, per aiutare la vostra intuizione, trattare prima la media e la varianza di un insieme di dati (anche se questo tema verra approfondito piii avanti, in statistica) e poi media e varianza di una distribuzione. Introduciamo prima una notazione che ci accompagneri per tutto il testo: Definizione 2.8 ( P a r a m e t r i veri e P a r a m e t r i campionari). I parametri media, varianza e deviazione standard di u n a variabile aleatoria X verrann o indicati con lettere greche; i parametri campionari o sperimentali, ottenuti da insiemi finiti di valori xi, con lettere latine. L a probabilitd '%era" verrd invece sempre indicata con p e la frequenza relativa sperimentale con f 7 poic h i questa 6 ormai la notazione standard della maggior parte dei testi di statistica. Definiamo ora media e varianza di un insieme di dati sperimentali: Definizione 2.9 (Media e varianza di un insieme di dati). S e xi (i = 1 ' 2 . . . N ) sono le N realizzazioni numeriche di u n a variabile aleatoria, la media e la varianza campionarie sono definite rispettivamente come:
54
Capit010 2. R a ~ ~ r e s e n t a z i o ndei e fenomeni aleatori
dove p 2: il valore della media assegnato a priori. La varianza rispetto alla media campionaria m della (2.37) 2: invece data da:
Avrete notato che nel denominatore della varianza calcolata rispetto alla media campionaria compare il termine N - 1 invece di N: il motivo, concettualmente non banale, i: di natura statistica e ve lo spiegheremo pih avanti, nel cap. 6. Dal punto di vista pratico, il fattore N / ( N - 1) k importante solo per campioni molto piccoli. Quando si trascura questa differenza, scriveremo s2 = S% E 5;. La radice quadrata s = 0k detta deviazione standard campionaria o scarto quadratic0 medio. E necessario ricorrere alla radice quadrata per misurare la dispersione dei dati nella stessa unit& di misura in cui i: definita la media. Dato che la differenza (xi- p) i:detta scarto del dato i-esimo dalla media, la varianza pub essere vista come la media dei quadrati degli scarti. Quando i valori di una variabile X discreta sono rappresentati in istogrammi, la media e la varianza, invece che dalle (2.37-2.38), possono essere calcolate anche come:
dove C i: il numero dei canali dell'istogramma, nk, f k e xk sono rispettivamente il contenuto (frequenza assoluta), la frequenza relativa e l'ascissa del canale. Nelle (2.37-2.38) la somma viene fatta direttamente su tutti i dati, come ad esempio (3 3 4 2 4 . . .), mentre nelle (2.40, 2.41) la stessa somma viene eseguita nel mod0 compatto (2 2 . 3 2 - 4 . . .). Pertanto, nel caso dello spettro discreto, i due procedimenti danno un risultato assolutamente identico. Quando lo spettro k continuo, le formule (2.40, 2.41) possono ancora essere usate assegnando a xk il valore del punto medio dell'ascissa del canale. Tuttavia in questo caso esse forniscono risultati approssimati. Vediamo ora di definire media, varianza e deviazione standard quando si conosce a priori della densita di probabilit& di una variabile X. Le formule, per una variabile aleatoria discreta, non sono altro che la spontanea generalizzazione delle (2.40. 2.41), ottenuta sostituendo alle frequenze misurate fk le probabilit&a priori pk date dalla funzione di densit&.Per una variabile
+ + + + +
+
+
+
2.8 Media, Varianza e Deviazione Standard
55
aleatoria continua, le formule si trovano con un process0 di limite analogo a quello fatto nella (2.32). Arriviamo pertanto alla seguente Definizione 2.10 (Media e varianza di una variabile aleatoria). La media (o valore atteso) p e la varianza a2 di una variabile X sono date da:
xkpk
=
p
(per variabili discrete)
,
k=l
-
-
L
+00
xp(x) dx
(per variabili continue)
,
X -L p)2pk
(per variabili discrete)
,
00
a2 =
~
(
k=l -
L
+m
(x - p)2p(x) dx
(per variabili continue) .
(2.43)
Come nel caso di un campione, la deviazione standard i: data da CJ = @. La definizione (2.42) si assume valida solo se esiste il limite della serie o dell'integrale dei valori assoluti. Dato che pk, p(x) 0, questa condizione equivale a porre:
>
Le (2.44) ovviamente implicano le (2.42). Perch6 si richieda anche l'inverso i: una questione pih sottile: nel calcolo delle probabiliti, si assume sempre che l'ordine dei termini nelle serie sia indifferente e che valgano relazioni del tip0 x k ~ i (f x k ) g ( ~ i )e, questo, come sappiam0 dalxkf (xk) ?jig(yi) = l'analisi matematica, i:possibile solo le serie sono assolutamente convergenti. Un discorso analogo vale nel caso degli integrali. Nel seguito l'esistenza dei valori medi implicheri, sempre anche l'esistenza dei valori medi assoluti. Per quanto riguarda la varianza, la definizione B ovviamente valida se le serie o gli integrali (2.43) (a valori sempre positivi) non sono divergenti. Vi sono tuttavia casi (per fortuna molto rari) di variabili aleatorie che non hanno varianza finita; in questo caso si deve rinunciare a caratterizzare la dispersione dei dati in termini di varianza e si deve ricorrere a110 studio delle funzioni di densit&o di ripartizione. Si pub mostrare che la successione di momenti calcolati dalla funzione generatrice (si veda l'appendice B):
zk
xi
consente di determinare in mod0 univoco la funzione di ripartizione di una variabile casuale X 1221. I1 momento per k = 1 i: la media e quindi, una volta noti i momenti, si possono determinare anche i momenti rispetto alla media:
56
Capitolo 2. Rappresentazione dei fenomeni aleatori
Si noti che A2 E n2 e che il momento Al i: sempre nullo. Infatti:
Le prime due quantith significative sono allora la media e la varianza. Come vedremo, per la quasi totalith delle applicazioni pratiche che considereremo esse sono sufficienti a definire univocamente o in mod0 accettabile le distribuzioni statistiche. Nel seguito utilizzeremo molto raramente i momenti di ordine superiore a1 secondo. La media k forse il parametro piil efficace per valutare il baricentro di una distribuzione, poich6 il momento del secondo ordine, se calcolato rispetto alla media, risulta minimo. Infatti:
e la derivata si annulla in un minimo solo se p B la media (2.42), nel qua1 caso A2 = a 2 . La varianza, se si sviluppano i quadrati nelle (2.39, 2.43), pub anche essere espressa come differenza tra la media dei quadrati e il quadrat0 della media:
Queste relazioni sono a volte utili nei calcoli pratici, come vedremo nell'esercizio 2.6. I momenti di una funzione di densith, varianza compresa, sono indipendenti dalla posizione della media, cioi: invarianti per traslazioni lungo l'asse x. Questa proprietd i: ovvia (ma importante), poich6 la misura della larghezza intrinseca di una funzione non pub dipendere dalla posizione di questa lungo l'asse delle ascisse. Si pub comunque dimostrare questo fatto in mod0 formale, definendo una generica traslazione
2.8 Media. Varianza e Deviazione Standard
dx' = dx
,
p(x)
57
+ p(x' - a) -- p1(x') ,
e verificando che A
X
= =
- plnp(x) dx = - p')np'
( d ) ds'
/
(x' - P')~P(x' - a ) dx'
I A,
(sf) .
(2.51)
Riassumendo, la media, la varianza ed i momenti della (2.45) nel caso di istogrammi di campioni sperimentali o di variabili aleatorie sono date, indicando con una freccia il passaggio da una variabile discreta ad una continua, da:
E bene far rilevare ancora la notazione in lettere greche o latine, che ci accompagnera nel seguito del testo. I1 calcolo di media e varianza da un insieme x di dati grezzi second0 le (2.37, 2.39), pub essere effettuato con le funzioni SCILAB mean(x> e variance(x1 . Se invece i dati sono in forma di istogrammi, il calcolo va fatto con le (2.53, 2.56) e vanno usate le funzioni mediaf (xdata,fre) e variancef (xdata,fre) , dove xdata 6 lo spettro della variabile aleatoria e f r e B il corrispondente vettore delle frequenze o del numero delle prove favorevoli.
58
Capitolo 2. Rappresentazione dei fenomeni aleatori
2.9 Operatori Come abbiamo visto, le formule per il calcolo della media e della varianza assumono forma diversa a seconda che l'insieme dei dati sia finito o infinito, le variabili aleatorie siano discrete o continue e i dati siano grezzi o raggruppati in istogrammi. Per questo motivo B comodo considerare media e varianza non solo come numeri, ma anche come operatori su variabili aleatorie od insiemi di dati, con i quali si indica il tip0 di operazione che si effettua, a prescindere dalla particolare rappresentazione utilizzata per i dati o le variabili. Indicheremo con lettere latine e variabili minuscole:
medie, varianze e deviazioni standard ricavate da insiemi di valori sperimentali di una variabile X in una ben determinata prova o campionamento. Si noti il simbolo (x)per la media, che B una notazione molto usata da fisici e ingegneri. L'operatore media di una variabile aleatoria viene solitamente indicato con (. . .) oppure con E[.. .], l'operatore varianza con Var[. . .I. Le variabili su cui agiscono gli operatori saranno sempre indicate con lettere maiuscole:
Nel testo verrh usata preferenzialmente la notazione (X), Var[X]. Per l'operatore deviazione standard useremo la notazione ,[XI. A questo punto vi consigliamo di riguardare ancora la Tab. 2.1, dalla quale risulta che le funzioni che operano sulle variabili aleatorie sono le probabilit& e gli operatori: la variabile aleatoria risulta quindi sempre racchiusa tra parentesi grafle, quadre o tra i simboli (. . .). Useremo questa convenzione in tutto il seguito del testo. I1 mettere in evidenza in tutte le formule l'aspetto operatoriale di media e varianza, sebbene sia corretto, non B sempre indispensabile ed appesantisce notevolmente il formalismo. Per alleggerire la notazione, noi indicheremo talvolta media, varianza e deviazione standard come:
(notate i pedici scritti con lettere minuscole). La scrittura p e a2 (oppure p, e a: se i: necessario specificare il tip0 di variabile) va intesa come il risultato numeric0 del corrispondente operatore statistico. La scrittura in lettere greche (valori veri), definisce comunque in mod0 univoco il tip0 di operazione fatta, evitando possibili confusioni. E facile ora verificare, ricorrendo alle (2.52-2.56), che gli operatori media e varianza godono delle proprieth seguenti:
2.9 Operatori
Var[Xl = ((X -
w2),
(ax) = (X) , Var[aX] = a2Var[X] (X+cu) Var[X+a]
(2.61) (2.62) (2.63) (2.64)
,
(X)+cu, ((X+a- ( ~ + a ) ) ~ ) = ( ( ~ + c u - (X) - a ) 2 )=Var[X]
59
= =
,
(2.65)
dove cu 6 una costante. Le ultime due relazioni mostrano, come 5 ovvio, che la media di una costante coincide con la costante e che la dispersione di una costante & nulla. Sfruttando le (2.61, 2.62), possiamo riscrivere in notazione operatoriale la (2.50), che esprime la varianza come media dei quadrati meno il quadrat0 della media: Var[X] = ((X-p)') = =
( ( X - (X)I2)
=
(x')-(x)~
(x2)- 2 (X) ( X ) + ( x ) ~ .
(2.66)
L'operatore di media permette la definizione in generale del valore medio vero di una qualunque funzione di variabile aleatoria del tip0 (2.9): Definizione 2.11 (Valore atteso). S e f (X) i: u n a funzione di u n a variabile aleatoria X avente densita di probabilita p(x), si definisce come valore di aspettazione o valore atteso (expected value) di f ( X ) la quantitb:
dove con la freccia si 2 indicato il passaggio da u n a variabile X discreta ad una continua. Le funzioni di variabili aleatorie verranno trattate in dettaglio pi^ avanti, nel cap. 5. In base a questa definizione, la media Vera p pub essere considerata come il valore atteso di X . Termini sinonimi di valore atteso sono aspettazione, valore di aspettazione, speranza matematica o semplicemente valore medio. Come nel caso della definizione 2.10, perchi: la definizione di valore atteso di una variabile f (X) abbia senso, si deve imporre che esista la somma CkIf (xk)lp(xk) o l'integrale 1 f (x)lp(x)dx. Per questo si assume sempre che una variabile o funzione di variabile, per la quale si definisce il valore atteso (2.67), sia assolutamente sommabile o integrabile sulla corrispondente densita di probabilita. In pratica, si richiede, per una variabile continua, che la densita di probabilitg tenda a zero per x + fco almeno come l/lxla con cu > 2. Tutte le densith che considereremo in seguito godono di questa proprieta.
60
Capitolo
2. Rappresentazione dei fenomeni aleatori
Esercizio 2.5 S i consideri con probabilitci pl e l'evento (A2), indipendente dal primo, col valore xz con probabilitci p2. Calcolare la media della somma ( X I X 2 ) dove X 1 e X 2 sono due variabili indicatrici definite come X 1 ( A 1 )= X I , X 2 ( A 2 ) = 2 2 e X I (A1)= 0 , ~ 2 ( A 2 = ) 0.
+
+
Risposta. Lo spettro della somma b dato dai quattro valori ( 0 O ) , ( 0 f x 2 ) , (x1+0), ( X I +x2), aventi, i n base a1 teorema delle probabilitci composte (1.20), probabilith rispettivamente pari a ( 1 - p l ) ( l - p 2 ) , ( 1 - p1)p2, p l ( l - p 2 ) e plp2. I n base alla (2.53) si ha allora:
Poiche' ( X I ) = ( 1 - p l ) - 0 + p l x l = p l x l , e lo stesso vale per X2, si pud anche scrivere: ( X l + X 2 ) = ( X l )+ ( X 2 ) , da cui si vede che la media della somma delle due variabili aleatorie b uguale alla somma delle medie.
con i valori dati dalla corrispondente distribuzzone binomiale. Risposta. Applicando la (2.52) ai dati della prima e terza colonna della tabella, si ottiene:
( x ) = m = (2.0.05
+ 3.0.13 + . . . + 9.0.01) = 5.21 ,
corrispondente ad u n totale di 521 teste su 1000 lanci. La media dei quadrati b data da:
Dalla (2.49) abbiamo allora
Applicando la stessa procedura alle probabilitci vere della quarta colonna, otteniamo:
2.10 11 c a m ~ i o n ecasuale
61
(x2)= 27.5. a2 = (x2)(x)' = (27.5 - 2 5 ) = 2.5 ,
(X) = 5.00, Var[X] = a
=
-
a= 1.58 .
S i noti l'assenza del fattore 100/99 nel calcolo della varianza, poiche' qui essa i! calcolata rispetto alla media vera. Anche in questo caso, la differenza tra i valori sperimentali m = 5.21, s = 1.57 e teorici p = 5.00, (7 = 1.58, verrci
2.10 11 campione casuale Consideriamo un esperimento che coinvolge una variabile aleatoria X ed effettuiamo N prove indipendenti. I1 risultato di questa operazione sia una N-upla di variabili (XI,X Z ,. . . ,XN), per le quali valga la condizione di indipendenza (2.10). Arriviamo quindi alla Definizione 2.12 (Campione casuale). L'insieme delle N variabili (XI, X2, . . . , X N ) indzpendenti ed aventi densitci di probabilztci p(x) viene detto campione casuale di dimensione N estratto dalla popolazione di densith p(x).
La dizione, corretta ma un po' lunga, di "popolazione di densith p(x)" , B a volte abbreviata con "popolazione p(x)". I1 concetto di popolazione, introdotto su basi intuitive nel par. 1.2, assume qui un significato preciso. Nel caso di un campione di una variabile discreta, la probabilith di ottenere un certo insieme di valori campionati, in base alla (2.10), vale:
Per capire il concetto di campione casuale ci si deve riferire ad una situazione in cui una variabile aleatoria X B campionata ripetutamente, secondo lo schema seguente: prim0 campione
x i , xb, . . . , x b
+ ml,
sf
,
secondo campione
,,,
111
Ill
, x2 , . . . , X N
terzo campione
x,
tutti i camwioni
X I . X?.
.. .. XN
4
ms, sz ,
4
M. S2 :
X1 rappresenta la variabile aleatoria "risultato della prima estrazione" o "primo elernento", mentre xy B il numero ottenuto alla prima estrazione nel secondo campione. I valori mi ed s: sono rispettivamente la media e la varianza del campione i-esimo:
62
Capitolo 2. Rappresentazione dei fenomeni aleatori
Questi valori, che stimano con un campione di dimensione finita le corrispondenti quantita vere p e a2,sono dette s t i m e della media e della varianza. Se ripetiamo la prova o il campionamento, otterremo ad ogni prova media e varianza differenti: medie e varianze campionarie m ed s vanno quindi considerate come realizzazioni delle variabili aleatorie M ed S , indicate nell'ultima riga della (2.69), che sono funzioni, nel senso della (2.9), delle variabili Xi:
Le variabili M ed S2sono funzioni del campione. In generale, queste quantitb si chiamano statistiche: Definizione 2.13 (Statistica). Dato un campione u n a densitci p(x), u n a funzione
(XI, X2, . . . , XN) da
che n o n contiene alcun parametro incognito, i u n a variabile aleatoria che prende il n o m e di statistica. Media e varianza campionarie sono quindi due statistiche che si possono ottenere dal campione. Come vedremo nel prossimo paragrafo, esse sono anche stimatori della media e della varianza.
2.11 Criteri di convergenza Occorre a questo punto precisare bene il significato dei limiti ed i criteri di convergenza utilizzati nello studio delle variabili aleatorie. Come abbiamo detto, il limite che compare nella definizione di probabilitb frequentista (1.3) k fatto sulle realizzazioni numeriche della variabile aleatoria: esso non ha un significato matematico precis0 ed indica che le prove v a n n o ripetute un n u m e r o infinito o finito di volte, m a comunque fino ad esaurire la popolazione. Questo B il significato da attribuire ad un limite ogni volta che esso B applicato ad una successione o somma di valori di una variabile (notazione in lettere rninuscole). Abbiamo chiamato questa operazione con il nome di limite frequentista. Va per6 subito chiarito che, in genere, si devono evitare scritture del tipo: 1 lirn N4oo N
rknk
= lirn
Ntoo
Enrf k = k
xxPk = ,u
(da evitare!) ,
k
perch6 nei termini pib a destra compaiono quantitb matematiche ben definite come somme, serie o funzioni, mentre a sinistra compare un limite
63
2.11 Criteri di convergenza
matematicamente indefinito. Facciamo notare, tuttavia, che questo limite i: giustificato nell'interpretazione frequentista (1.3) e che esso riproduce qualitativamente cib che succede in molti fenomeni aleatori. Ad esempio, se consideriamo il lancio di un dado {X = 1,2,3,4,5,6)ed assegniamo ad ogni faccia la probabilita di 116, secondo la (2.42) p = (1 2 3 4 5 6)/6 = 3.5. L'esperienza mostra che, lanciando un dado e facendo la media progressiva dei punteggi, secondo la (2.37), il risultato tende a 3.5 aumentando il numero dei lanci. Assegnando arbitrariamente ad ogni faccia la probabilita di 116, abbiamo simulato mediante calcolatore il lancio di un dado ottenendo, per N = 100, 1000, 100 000, 1000 000, rispettivamente le medie campionarie m = 3.46, 3.505, 3.50327, 3.500184. Per uno studio matematicamente rigoroso dei fenomeni aleatori, i: perb necessario stabilire il tip0 di convergenza di successioni di variabili aleatorie e l'entita dello scostamento dal valore limite all'aumentare della dimensione del campione. Una prima definizione rigorosa afferma che una successione di variabili X N converge verso una variabile X se, prefissato un numero e > 0 comunque piccolo, la probabilita che X N differisca da X per una quantita > e tende a zero per N -+ co:
+ + + + +
lirn P {IXN(a) - X (a)1 2 e) = 0
N+oo
,
o
lim P {IXN(a) - X (a)(
N+m
<
6)
=1
(2.72) Questo limite, che gode delle proprietA usuali dei limiti di successioni di numeri reali, viene detto limite in probabilitb A questo punto dobbiamo farvi notare un aspetto sottile del problema: dire che la probabilita nella (2.72) tende a zero non assicura affatto che tutti i valori lXN(a) - X(a)l, per ogni elemento a dello spazio campionario, si manterranno minori di 6 a1 di sopra di un certo N , ma solo che l'insieme dei valori che superano e ha una probabilita piccola, a1 limite nulla. Se si vuole che per la maggior part,e delle successioni si abbia IXN(a) - X(a)l 5 e per ogni a, si deve introdurre il limite quasi certo o in probabilita 1, sull'insieme degli elementi a dello spazio di probabilita (S, F,P):
P{ N-tcc lim (XN(a)-X(a)l 5 e) = 1 ;
(2.73)
in questo caso siamo sicuri che esiste un insieme di elementi a , che per M -+ co tende a coincidere con lo spazio campionario S, per i quali la successione di numeri reali XN(a) tende ad un limite nel senso ordinario dell'analisi matematica. I due tipi di convergenza in probabilita e quasi certa sono schematizzati in Fig. 2.7. I1 terzo ed ultimo tip0 di convergenza che si deve considerare k quello in legge o distribuzione. Una successione di variabili X N converge in legge ad una variabile X se, essendo Fx, e Fx le rispettive funzioni di ripartizione o cumulative, (2.74) lim Fx, (x) = Fx(x) N-tm
64
Capitolo 2. Rappresentazione dei fenomeni aleatori
Fig. 2.7. a) Convergenza in probabiliti: l'insieme dei valori IXN(a) - X(a)l che superano per N -t oc un valore E assegnato tende ad avere probabiliti nulla.
Questo non impedisce perb che vi siano singoli valori fuori dal limite (indicati dalle frecce). b) Convergenza quasi certa: la maggior parte delle successioni verificano la disuguaglianza IXN( a ) - X(a)[ 5 E a meno di un insieme di elementi a 6 S di probabilitb nulla
per ogni punto x in cui Fx(x) k continua. Questo limite & molto utilizzato in statistica quando si studia il tip0 di distribuzione d a assegnare, per grandi campioni, agli stimatori statistici fondamentali. Si pub dimostrare (come del resto B abbastanza intuitivo) che la convergenza quasi certa implica sia quella in probabilitb sia quella in legge e che la convergenza in probabilita implica quella in legge, mentre non vale il contrario. Inoltre, un fondamentale teorema di Kolmogorov, che potete trovare dimostrato in [34], assicura la convergenza quasi certa di successioni di variabili aleatorie indipendenti se vale la condizione
Tutti gli stimatori statistici considerati nel testo soddisfano questa proprietb, per cui, quando affronteremo la statistica, non avremo problemi di convergenza: tutte le variabili che considereremo convergeranno quasi certamente (e quindi anche in probabilitci) ai limiti stabiliti. I criteri di convergenza sono a volte importanti nella teoria delle funzioni stocastiche [63], che noi perb non considereremo. Riassumendo, abbiamo considerato quattro differenti limiti: quello frequentista (che agisce sulle variabili "minuscole"), quello in probabilitb e quello quasi certo (che agiscono entrambi sulle variabili "maiuscole") e quello in legge, che riguarda le funzioni di ripartizione. Le variabili aleatorie limite nelle (2.72,2.73) possono anche semplicemente essere delle costanti, come spesso accade considerando i limiti degli stimatori statistici.
2.11 Criteri di convergenza
65
N' campioni di N elementi
A
\ Ci (xi - CL) IN ' 2
/
I
mPZdiN3
/
.
media per N' infinito
--
'
< & ( $ - p ) 2/ N >
Fig. 2.8. Operazione di media di una varianza
Infatti, una statistica T N ( X ) ,funzione di un campione casuale di dimensione N second0 la (2.71), che converge in probabilith ad un valore costante
k detta stimatcre consist,ente di p. La teoria degli stimatori statistici, come quelli definiti nelle (2.70), v e r r j svolta in dettaglio pih avanti, nei capitoli 6 e 9. Tuttavia, qui vogliamo illustrarvi subito il significato di media e varianza di uno stimatore. Dato che dalle (2.66) risulta che la varianza pub essere ricondotta ad una operazione di media, sarh sufficiente discutere soltanto la media di uno stimatore. Chiediamoci ad esempio cosa significa la media della varianza:
Cib che sta tra parentesi ( ) i: una variabile aleatoria costruita eseguendo N prove della variabile X, ottenendo altrettanti valori dello spettro xi e calcolandone la varianza. La parentesi ( ) indica che si deve ripetere il procedimento un numero infinito di volte e fare la media delle infinite varianze cosi ottenute. Pertanto, nella visione frequentista, prima, si ottiene d a una serie di N' campioni di N elementi della stessa variabile X un campione della variabile (Xi - p)2I N , poi si fa la media di quest'ultimo campione per N' -+ oo. I1 procedimento i: schematizzato in Fig. 2.8. Applicando le proprietL (2.66) dell'operatore media, si ottiene:
xi
ovvero:
66
Ca~itolo2. Ra~~resentazione dei fenorneni aleatori
Questa relazione pub essere scritta come:
Gli stimatori consistenti che godono di questa proprieth sono detti corretti o non distorti. In sostanza, per questa classe di stimatori la media Vera di una popolazione costituita d a element,i TN, ciok d a stimatori ottenuti d a campioni di dimensione N , coincide con il limite all'infinito (valore vero) dello stimatore. Mostreremo pic avanti, nei parr. 6.10 e 6.11, che la media campionaria (2.52) gode delle proprieth (2.76) e (2.78), mentre la varianza rispetto alla media campionaria (2.55), privata del fattore N / ( N - I ) , non soddisfa la (2.78). In genere lo studio delle proprieth asintotiche delle variabili aleatorie e degli stimatori a d esse associati risulta piG semplice se si applica l'operatore di media ad un insieme di stimatori TN(X), invece di studiare direttamente il limite dello stimatore (2.72) per N -+ GO.
2.12 Problemi 2.1. Calcolare la probabilita di ottenere 2 volte 6 nel lancio di tre dadi. 2.2. Assegnando all'evento testa (o croce) probabilita 112, calcolare la probabilita di ottenere 3 teste in 10 lanci come rapport0 tra i casi favorevoli e quelli possibili. 2.3. Un produttore sa che la percentuale di pezzi difettosi messi in vendita 6 del 10%. In un appalto accetta di pagare una penale se; in una scatola di dieci pezzi, piii di due risultano difettosi. Trovare la probabilitk di pagare la penale. 2.4. Un giocatore scommette 60 000 lire alla roulette puntando 50 000 lire sul rosso (strategia X ) e 10000 sul numero nero 22 (strategia Y). Tenendo presente che i numeri vanno da 0 a 36 e che il banco vince se esce lo 0 mentre paga una quota pari alla posta se esce il rosso e a 36 volte la posta se esce il numero 22, calcolare il valor medio del capitale dopo una puntata. Che significato ha questo risultato? 2.5. Una variabile X pub assumere i valori {X = 2,4,6,8,10) con uguale probabilit&. Trovare media e deviazione standard delle variabili X e Y = 2X 1. 2.6. Da un'urna contenente 3 biglie rosse e 7 nere vengono estratte, senza reimmissione, tre biglie. Determinare la densitk di probabilit8 discreta, la media e la deviazione standard del numero R di biglie rosse dopo le tre estrazioni. 2.7. Trovare la densit&di probabiliti p(x), la funzione di ripartizione F(x), media e deviazione standard di una variabile continua XI definita in [ O , l ] , avente densit& linearmente crescente e tale che p(0) = 0. 2.8. Trovare il 25-esimo percentile della distribuzione del problema precedente. 2.9. Per coprire la distanza di andata e ritorno tra due punti A e B, distanti 100 Km, un'auto viaggia alla velociti di 25 Km/h all'andata e di 50 Km/h a1 ritorno. Calcolare la velocitk media del viaggio. 2.10. Dai dati di tab. 2.2 trovare il numero totale di teste sul totale di mille lanci.
+
3. Calcolo elementare delle probabilith
" La questione non i: tanto se Dio giochi a dadi, ma come lo faccia." Im Stewart, "DIO GIOCA A DADI?".
3.1 lntroduzione In questo capitolo approfondiremo le proprietb della distribuzione binomiale e dedurremo via via, utilizzando il calcolo delle probabilith, tutte le distribuzioni statistiche fondamentali. Nello sviluppare questi argomenti, ci sforzeremo di sottolinearne pic gli aspetti concettuali che quelli formali. Non eviteremo comunque nessun passaggio matematico importante, poichk riteniamo che questo aiuti ad avere quella visione coerente delle cose che vi permetterb, analizzando un qualunque problema, di capirne immediatamente gli aspetti statistici e probabilistici e di trovarne la soluzione utilizzando le distribuzioni statistiche piii appropriate. Termineremo il capitolo accennando a come utilizzare il calcolo delle probabilith nella verifica delle ipotesi. Questo argomento, che sarb sviluppato in mod0 completo piu avanti, in statistica, vi far&apprezzare meglio cib che avrete imparato e vi consentirb di compiere un salto di qualitb notevole nella comprensione di molti fenomeni naturali.
3.2 ProprietA della distribuzione binomiale La densitb binomiale, introdotta nel par. 2.6, i! la legge di una variabile aleatoria X che rappresenta il numero x di successi che si possono ottenere in n tentativi indipendenti, ognuno dei quali ha una probabilitA di success0 costante. Le proprieta di questa densith ci permetteranno di costruire per passi successivi lo schema di base del calcolo delle probabilitb per variabili aleatorie monodimensionali. La densitb binomiale & normalizzata, poichk dalla formula del binomio di Newton e dalla (2.30), si ha:
68
Capitolo 3. Calcolo elementare delle probabiliti
La media della distribuzione binomiale 6 data dalla (2.42), dove la somma va estesa a tutti i valori 0 5 x 5 n , e la probabilith pk 6 data dalla (2.30): n
n
p
= xxb(x;n,p)=
-
x=o
2=0
-
5x!(nn! z)! px (1 - P)~-"
n
n(n - I)! ppx-l(l x=1 z ( z - l)!(n - z)!
Ex
-
P)~-"
dove va notato, nell'ultimo membro, il cambiamento della somma-su x da 0 a 1, poich6 per x = 0 il termine della sommatoria i: nullo. Ponendo ora nella (3.2) z1=x-1, ni=n-I, nl-x'=n-z (3.3) otteniamo, utilizzando la (3.1): n'
( X ) = n~
C
n'! (n, -
z1=0
1!
Px'(l - p)nr-x' -np,
(3.4)
un risultato in accord0 con l'intuizione, che considera la media come valore atteso, cioi: il prodotto dei tentativi per la probabilit& di ogni tentativo. Niente affatto intuitivo e, come vedremo, estremamente importante, k il valore della varianza, alla quale si pub arrivare facilmente calcolando la media dei quadrati con lo stesso procedimento della (3.2) ed utilizzando ancora la notazione (3.3):
In base alle (2.66) e (3.4), si pub allora scrivere: Var[X] = n p [(n - l ) p
+ I]
-
n2p2 = n p (1 - p) .
(3.5)
In definitiva, si ottengono le formule fondamentali: p =n p
,
(r2
=np(l -p)
, c=JnPT1-))
(3.6)
le quali stanno alla base del calcolo delle probabilith. I1 valore della media & intuitivo, quelli della varianza e della deviazione standard non lo sono, ed k utile che li mandiate a memoria fin d a ora.
3.2 Proprieti della distribuzione binomiale
69
Esercizio 3.1 Trovare media, t~nrinn,zne devinzione standard oere per l'esperimento delle 10 m.onete riportnto in Tab. 2.2. Risposta. Poich6 nell'csperimento delle 10 monete si ndottatn la distribuzione binoniiale con n = 10 e p = 0.5, dalle (3.6) si ha immediatamente:
I risultnti sono identici a quelli ottenuti nell'esercizio 2.6, dove si sono applicnte le formule di base (2.5.z 2.50) alle probnbilitd bin~omialiriportate nella qnarta colonna della Tnb. 2.2. Esercizio 3.2 Ln probabilitd di centrare un bersn.qlio i, pari all'SO%. 'Rovare In densitd di probabilitd del nnmero n di prove necessarie per efettunre vn ceniro. Quanto on1,qono in media e la devindone standard di n ? Risposta. Si chiede di tlavnre la probabelit& del nnmero di terrtntivi n dn effettuare per avere S U C C ~ S S O ,quando la probabilitd 2: p. In qeesto cnso la variabile alentorin da considerare non 6 pi< costituita dnl numero X cli successi in TL tentatiei fissati (elre port@ alla distribuzione binomiale), ma dal numero di tentatisi n essendo il numero di successi fissnto e pnri n z = 1. A,finchi il ten,tatiuo wesinro sia coronato da successo, & necessario nacre primn n: = 0 successi in n - 1 prove; la plabahilitii di questo evento 2 data dalla denaitd binominlc (2.30):
La densitd che cerchianro, clne i. la probnbilitri di avere un successo alln esimn prom, sard qnindi data dalla probabilitd mmposta:
71,-
che prende il nome di densit&geometrica. E.ssa pud quindi essere vista come ?ma semplice applicnzione della 1eg.q~delle probnbilitd composte (I.=), dove 1e dne probabilitd si riferiscono nd n - 1 in,mccessi consecntdvi segzltti dn n n successo alla n-eszma prooa. La densitd c? nomnlizznta, perchi 2 noto dalln teorda delle ~ e r i eche
70
Capitolo 3. Calcolo elementare delle probabiliti
e quindi:
Media e varianza si trovano dalle (2.42) e (2.66) sfruttando Ee proprietci della serie geometrica. Diflerenziando due volte la seconda delle (3.8), dopo facili calcoli si ottiene:
D a queste fovmule segue che
La varianza b allora data da: 1-P . a,2 -- ( n2 ) - ( n )2 = p2
(3.12)
Probabilitci, media e deviazione standard nel caso considerato valgono:
Una media p = 1.25 sta a significare che in 12-13 prove mediamente si avranno 10 prove i n cui il success0 capita a1 primo tentativo.
3.3 La distribuzione di Poisson I1 calcolo della densit&binomiale non 6. agevole se n 6. molto grande, a causa dei fattoriali che compaiono dalla formula (2.30). Se, oltre alla condizione n >> 1, la probabilitb dell'evento i? piccola (p << l ) , allora si avranno pochi successi (x << n) e si pub scrivere:
Ponendo poi y = (1 - P ) ~ - " e passando ai logaritmi, si ha:
3.3 La distribuzione di Poisson
I1 limit,e della densiti binomiale per n >> 1 e p lim b ( x ; n , p ) =
,ti00
P+O
lim
I L - , ~
P-10
71
<< 1 diventa allora:
n,! x ! ( n - z)! p3(1 - p)ll-"
da cni, ricordando le (3.6) e ponendo p = n p , ot,teniamo la densiti discreta di Poisson: (3.14) p(x; p) = g e - " ,
x!
che rapprescnta la probabilitA di ottenere u n valore x quando la media dei valon e p. La poissoniaria viene ritenuta in pratica una approssimazione accet,tabile ddla binomiale gii a partire da p > 10 e p < 0.1, come mostrato in Fig. 3.1. Esercizio 3.3 171 11n eittii di 50000 abitanti si veriJicano i n media 5 suicidi l'anno. Galcolare la probabilitri che se ne ar7ifichino 10. Risposta. Applicando la formula binomiale (9.30)abbiamo:
Dalla poissoniana otteniamo inveee:
La. densitA di Poisson 6 normaliezat,a. Infatti:
La media e la varianza. dclla dist,ribuzione di Poisson possono essere trovat,e con lo stesso metodo usato per la distribuzione binomiale nellc (3.2-3.5). Lasciamo come csercizio il calcolo della media, che fornisce, come devc esscre, il paramet,ro p che compare in chiao nella (3.14). Per la w i a n z a , utilizzando lc (2.66, 3.3), si ottiene:
72
Caoitolo 3. Calcolo elementare delle ~robabilith
Fig. 3.1. Densith poissoniana (linea piena) e binomiale (linea tratteggiata) per
n = 10,p = 0.1, p = n p = 1. Per facilitare il confront0 i valori discreti delle curve sono uniti da tratti di retta
Abbiamo pertanto le formule:
da cui risulta che la poissoniana ha media uguale alla varianza.
3.4 Densit3 di Gauss o normale Un altro importante caso limite della densita binomiale & la densita normale o di Gauss. Questa approssimazione B possibile quando il numero di prove i! molto grande: in questo caso solo i valori dello spettro in un intorno del massimo della densita sono importanti. Pensate, ad esempio, a 1000 lanci di una moneta: i valori dello spettro dell'evento testa vanno da 0 a 1000, ma i valori importanti saranno concentrati intorno a1 valore atteso 500, che presumibilmente i: il valore di pib alta probabilita. Non si otterranno praticamente mai valori come 5, 995 e cosi via. Consideriarno allora il caso in cui
ed approssimiamo il fattoriale con la formula di Stirling, valida per x
x! = &xxe-"
e-'=
21
&xxe-x
,
>> 1: (3.18)
73
3.4 Densiti di Gauss o norrnale
dove lexl 5 1/(12x). Questa t: gia una approssimazione molto buona per x 10, dato che exp[-1/120] = 0.992, corrispondente ad un errore relativo de11'8 per mille, come potete facilmente verificare col vostro calcolatore tascabile. Notate pure che ora x B, come richiesto, una variabile continua, che approssima il fattoriale per valori interi. Utilizzando la formula di Stirling, la densita binomiale (2.30) assume la forma:
>
Sviluppiamo ora la densita binomiale nell'intorno del suo punto di massimo. Passando ai logaritmi, otteniamo: In b(x;n,p) = Inn! - lnx! - In(n - x)!
+ x l n p + (n - z ) ln(1 - p) .
I1 punto di massimo si ottiene annullando la derivata prima di In b, utilizzando la formula di Stirling e considerando quindi x come variabile continua:
Con le approssimazioni fatte, la derivata di In x!, vale:
-
1 1 -+l+lnx-1=-+Inx-+ 22 2s
Poichi: d(ln x!)/dx
2
x,>1
lnx
(3.21)
In x, la (3.20) diventa:
Abbiamo ottenuto un primo risultato: per p >> 1, ovvero x >> 1, il valor medio diventa anche il punto di massimo. Eseguiamo ora lo sviluppo in serie di Taylor a1 second'ordine nell'intorno di questo valore. Ponendo sempre y(x) = In b otteniamo:
74
Cawitolo 3. Calcolo elementare delle wrobabiliti
dove la derivata seconda 8 stata ottenuta derivando la (3.22) e il termine in (l/n2) derivando ancora la derivata seconda. Dopo facili calcoli si ottengono le equazioni:
Dato che e g ( n p ) non 8 altro che la densit& binomiale cdcolata nel punto di massimo x = np con la formula di Stirling, dalla (3.19) otteniamo facilmente: b(x = np; n, P)
1
1
-
6
~
~
da cui:
Questa i: una forma approssimata della binomiale che vale per valori di x nell'intorno di p = np, a patto di trascurare i termini di ordine superiore a l / n nello sviluppo di Taylor (3.23). La funzione g(x; n , p), che approssima la binomiale per valori interi di x, pud essere considerata come funzione continua di x. Infatti, il fattore 1
nt=~m'
che compare nella (3.26), 6 una quantita indipendente da x, che 0i per n + oo e che assume il significato di differenziale della variabile t data da:
E allora possibile, passando a1 limite di Riemann, calcolare la somma delle probabilita di un insieme di valori di X , per valori grandi di n , come: P(xl
< X 5 x ~ ) =n+m lirn
$2
b(z; n,p) = lim 1
nt+a
x2
c xl
1
1 ( 2 - n ~ ) at ~
[--
2 np(1 - P)
Questo fondamentale risultato 6 detto teorema di DeMoivre-Laplace. Introducendo p e e definiti nelle (3.6) otteniamo infine:
I
3.4 DensitP di Gauss o norrnale
dove si 6 fatto uso dell'integrale notevole (vedere esercizio 3.4)
75
exp (-z2) dz=
J;;. La densith gaussiana o normale: 1
dx;!-b c)=
exp
[- (x it)2] ,
B quindi normalizzata e permette di calcolare, quando B integrata, la probabilith che un valore x cada in un intervallo vicino alla media p quando la varianza B u 2 . Questa i: di gran lunga la piti importante funzione di densita del calcolo delle probabilita e andrebbe pertanto ricordata a memoria. Esercizio 3.4 Dimostrare che
+m [a
exp(-x2) dx = fi .
(3.29)
Risposta. Posto
e, in coordinate polari:
da cui I = fi.Analogamente, si pud dimostrare che
La media e la varianza della distribuzione binomiale sono ovviamente date, per costruzione, dai parametri p e u che compaiono in chiaro nella (3.28). Tuttavia, utilizzando gli integrali (3.29,3.30), si pui, anche dimostrare direttamente che:
/-, x exp [-2 aff 1
(X) =
-
+0°
(3.31) cT2
76
Capitolo 3. Calcolo elementare delle probabiliti
t
Fig. 3.2. Densit&gaussiana (linea piena) e binomiale (punti) per n = 10, p = 0.4
In statistica dovremo utilizzare il momento di ordine 4 della gaussiana; tramite integrali del tip0 (3.29, 3.30), si pub mostrare che:
A,=-/
1
f i a
+O0
(T - p), exp -,
[- it)2] (x
dx = 3 04 .
(3.33)
La densiti di Gauss approssima la binomiale per p >> 1. Grazie alla rapida convergenza dell'approssimazione di Stirling (3.18), in molti casi si commette un errore minore di qualche per cento gia per p 2 10. Come regola pratica, la funzione di Gauss pub essere sostituita alla binomiale quando sono valide le condizioni p =np
> 10 ,
n(1- p)
> 10
(in ~ratica!) ,
(3.34)
che giustificano in mod0 ragionevole l'approssimazione dello sviluppo (3.23). Se p e 1 - p non sono molto vicine agli estremi dell'intervallo [O, 11, basta la condizione p 2 10. Se invece le probabilita sono molto sbilanciate occorre verificare entrambe le condizioni della (3.34). Si veda la Fig. 3.2, dove viene riportata l'approssimazione gaussiana di una densita binomiale b(x; 10,0.4). In questo caso media e varianza sono date da p = n p = 10 - 0.4 = 4 e 02 = np(1 -p) = 2.4. Pur essendo p = np = 4, n ( l - p ) = 6 < 10, l'approssimazione & gia piu che accettabile. Esercizio 3.5 Utilizzando la distribuzione di Gauss, mlcolare le probabilitlt di ottenere u n dato numero di teste nell'esperimento delle 10 monete di Tab. 2.2.
Risposta. Nell'esperimento delle 10 monete, di cui ci stiamo servendo ripetutamente per afinare la vostra sensibilitci statistica, i valori di media, varzanza e deviazione standard sono dati da:
3.5 Calcolo di distribuzioni in SCILAB
77
Questi valori, inseriti nella (3.28), permettono il calcolo delle probabilitb gaussiane richieste:
Se ricopiamo la Tab. 2.2 e riportiamo i n u n a colonna le probabilith cosi calcolate, otteniamo il risultato: spettro (n. teste)
n. di prove
frequenza
0
0
0.00
probabilitk binom. 0.001
probabilitj gauss. 0.002
d a cui si vede che, pur essendo n p = n ( 1 - p) = 5 < 10, la densitb gaussiana fornisce risultati gici in buon accord0 con la densitb binomiale. P e r questo motivo spesso la condizione (3.34) viene ulteriormente allargata ponendo
3.5 Calcolo di distribuzioni in SCILAB In ambito SCILAB h possibile calcolo di tutte le principali distribuzioni di probabilit2. Esistono infatti delle funzioni di sistema cdfxxx per il calcolo delle cumulative; i caratteri xxx sono riservati a1 tipo di distribuzione richiesta: ad esempio, se xxx vale bin, nor, poi, si ottiene rispettivamente il calcolo delle cumulative delle densitb binomiale, normale o poissoniana. Per tutte queste funzioni, sono possibili i seguenti tipi di chiarnata (per fissare le idee, consideriamo il caso della distribuzione binomiale con parametri n, p): [P,l-P]=cdfbin("Pq",X,n,p,l-p)
78
Capitolo 3. Calcolo elementare delle probabilita
[n]=cdfbin("Xn" ,p,1-p,P, l-P,X) [p,1-p] =cdfbin("PrOmprl',P, 1-P ,X ,n)
In modalita "PQnsi calcola in P il valore cumulativo da zero ad X; la modalith "S" calcola il valore X corrispondente a1 valore cumulativo P; con "Xn" viene fornito il numero n di tentativi relativo ad una binomiale con probabilit& elementare p quando il valore cumulativo tra zero e X i. pari a P; infine, con la chiamata "PrOmpr" viene trovata la probabilith p a partire da n e dal valore cumulativo P tra zero e X. Questa modalith di chiamata sono comuni a tutte le distribuzioni e possono subire alcune variazioni a seconda dei parametri matematici in gioco, che variano da caso a caso. E bene quindi, prima di utilizzare queste routine, consultare il manuale in linea di SCILAB.
3.6 Legge 3-sigma e gaussiana standard La densita gaussiana, oltre ad essere una ottima approssimazione delle distribuzioni binomiale e poissoniana B anche, come vedremo nel prossimo paragrafo, la densita limite della combinazione lineare di pi6 variabili aleatorie. Per queste ragioni essa rappresenta di certo la distribuzione pi6 importante del calcolo delle probabiliti Vogliamo qui discutere una proprieth matematica molto importante di questa funzione, detta legge 3-sigma (o 3a):
0.683 per 0.954 per 0.997 per
k=l k =2 k =3
(3.35)
che, espressa a parole, suona cosi : se X 6 una variabile gaussiana di media ( X ) = p e deviazione standard u[X] = 5, la probabilitb di ottenere u n valore x compreso i n u n intervallo centrato sulla media p e di ampiezza f a b di circa il68%, mentre se l'zntervallo k ampio 1 2 0 essa k di circa il95%; inoltre il valore x pud cadere fuori da u n intervallo di ampiezza f 3 5 solo con una probabilitb di 3 casi su mille In molti casi pratici si assume che i valori dello spettro siano tutti contenuti in un intervallo entrato su p e largo f35 (da cui il nome della legge (3.35)).Le probabilit& definite dalla (3.35) sono dette anche livelli o valori di probabilitb gaussiani. I1 calcolo dell'integrale (3.35) & difficile in pratica, perch6 la primitiva E(x) della gaussiana:
79
3.6 Legge 3-sigma e gaussiana standard
non k nota anditicamente (strano, ma vero!). L'integrale viene di solito valutato con metodi numerici, sviluppando in serie l'esponenziale e calcolando numericamente il limite della serie integrata. Si ottengono in questo mod0 i livelli di probabilita della (3.35). Sembrerebbe a questo punto necessario, per ogni gaussiana di media e deviazione standard assegnate, procedere per via numerica a1 calcolo delle probabilita cumulative negli intervalli di interesse. Questa complicazione pub essere perb evitata ricorrendo ad una gaussiana universale o gaussiana standard, che si ottiene definendo una variabile fondamentale in statistica, la variabile standard
T=
a
x-P , che assume i valori t = a
(3.37)
la quale misura lo scarto di u n valore x dalla sua media in unitci di deviazion e standard. Applicando le (2.62, 2.64, 2.65) k facile vedere che la variabile standard ha media nulla e varianza unitaria. Se ora operiamo il cambio di variabile (3.37) nell'integrale (3.36) otteniamo: 1 E(X) = -enp dt .
G
Ix (-g) 0
Questa primitiva, come B facile verificare, it legata alla nota funzione degli errori (error function) Erf(x) dalla relazione:
\
,
Essa pub essere calcolata una volta per tutte, essendo indipendente da p e a. PoichB la gaussiana B una curva simmetrica, vale anche la condizione
Considerando ora la trasformazione t = ziale, si ottiene:
4z ed integrando la serie esponen-
La somma di questa serie si trova tabulata in tutti i testi di statistica (nel nostro la trovate in appendice D nella Tab. D.1 a pagina 481), ed k presente come routine di libreria in molti prodotti software di uso scientifico. In
80
Caoitolo 3. Calcolo elementare delle wrobabilita
Fig. 3.3. Gaussiana standard g(z; 0'1) (3.42) e corrispondente cumulativa @(z) (3.43)
SCILAB i: disponibile la funzione degli errori erf con 7 cifre decimali. Invertendo la (3.39) l'integrale E(x), pub essere calcolato con l'istruzione: 0.5*erf (x/sqrt (2))
che pub essere usata in alternativa alla Tab. D.l, ottenendo anche un risultato piii accurato con 7 cifre significative. La primitiva (3.38) corrisponde ad una densith gaussiana standard
di media zero e deviazione standard unitaria. Una distribuzione avente densit&gaussiana (3.28) viene chiamata normale ed indicata spesso con N(p, g2); la variabile aleatoria corrispondente a volte viene indicata con X -- N(p, 0 2 ) , o T N(0, I), se i: standard. I1 simbolo significa "distribuito come". La funzione cumulativa della gaussiana standard, rappresentata in Fig. 3.3, viene invece indicata solitamente con @(x): N
N
Essa i! legata alla funzione (3.38) dalla relazione:
che vale anche per x < 0 grazie alla (3.40). In sostanza, il calcolo delle probabilitA integrate, con qualunque gaussiana, pub sempre essere ricondotto a1 caso della gaussiana standard, di media nulla e varianza unitaria, per il quale esiste una tabella universale. Chiariamo ~ ' U S O di questa tabella con alcuni esempi.
3.6 Legge 3-sigma e gaussiana standard
81
Esercizio 3.6 Trovare la pro Risposta. La variabile standard (3.37), nei due estremi del17intervallo da considerare, vale i n questo caso * l ; dalla Tab. D.1, riportata i n appendice D, per t = 1.00 (1.0 si legge nella riga e l'ultimo zero nella colonna i n alto) si ha P = 0.3413. Poiche' la tabella dci l'integrale tra zero e t , dobbiamo raddoppiare questo valore. Otteniamo pertanto P { p - CJ X 5 ,LA CT} = 2 x 0.3413 = 0.6826, i n accordo con la (3.35). S i noti che la tabella fornisce valori solo per 0 t 5 0.5, dato che la gaussiana standard i! simmetrica rispetto all 'origine.
<
+
<
Esercizio 3. Qual i! la pro deviazione standard 3, valori di X pid grandi di 12 oppure -2 5 X
5 12?
Risposta. La variabile standard (3.37) vale in questo caso
Dalla cumulativa @(z)di Fig. 3.3 si vede che la probabilitci di ottenere valori x > 2.33 b molto piccola. Un valore precis0 lo si pud ottenere dalla Tab. D.l, dove i n corrispondenza di questo valore si legge il valore 0.4901, che rappresenta la probabilitci di ottenere valori tra 0 e 2.33. Le probabilitci cercate sono date allora da:
Esercizio 3.8 Quali sono gli no del95% 2 Risposta. Si chiede di trovare u n numero reale t tale che P { p - t a 5 X 5 p t a ) = 0.95. Dalla Tab. D.1 si legge, i n corrispondenza di una probabilith pari a 0.95/2 = 0.475, il valore t = 1.96. La risposta 6 pertanto: la probabilitci del 95% si ottiene integrando la gaussiana i n u n intervallo ampio 1 . 9 6 ~e~ centrato sulla media. Infatti
+
82
Capitolo 3. Calcolo elernentare delle probabiliti
3.7 11 teorema Limite Centrale: universalit2 della gaussiana La densit&gaussiana appare fin qui come limite per medie elevate della densiti binomiale. Tuttavia, un teorema fondamentale, proposto da Gauss e da Laplace nel 1809-1812 e dimostrato in mod0 generale agli inizi del '900, assegna ad essa un ruolo cruciale nel calcolo delle probabilitk, sia per le variabili continue sia discrete. Questo i: il Teorema 3.1 (Limite Centrale o C e n t r a l e Limite). Sia Y u n a variabile aleatoria combinazione lineare di N variabili aleatorie Xi (si veda la(2.9)) con la relativa discussione)
dove ai sono coeficienti costanti. S e a) le variabili Xisono tra loro indipendenti (si veda la (2.10)); b) le variabili X i hanno varianza finita; c) le varianze ( o deviazioni standard) sono tutte dello stesso ordine di grandezza:
n[X'l = 0(1) per ogni i , j ; (3.46) 4Xjl allora, per N + oo, la variabile aleatoria YN converge i n legge, secondo la (2.74), verso la distribuzione gaussiana. S i ha pertanto, in termini dz funzioni dz ripartizione:
dove @(z) R la funzione di ripartizione della gaussiana standard (3.43). Dimostrazione. La dimostrazione del teorema, per variabili auenti tutte la stessa distribuzione, fa uso delle funzioni generatrzci ed b riportata in appendice B. Anche la formula di DeMoivre-Laplace (3.27) v a vista come u n caso particolare del teorema nel caso della s o m m a di variabili di Bernoulli. S i puo anche dimostrare, pi3 in generale, che il teorema vale per s o m m e di variabili, sia discrete sia continue, aventi ognuna u n a distribuzione diversa [22]. Tuttavia, b essenziale che le variabili Xi siano tra loro indipendenti (condizione a)), e che esse, se prese singolarmente, abbiano debole influenza sul risultato finale (condizioni b) e c)). Va per6 subito notato un fatto piuttosto strabiliante e di estrema importanza, che si verifica in pratica: alla condixione N -t oo si pud sostituire con buona approssirnaxion,e la condixione N 2 10. 0
83
3.7 11 teorema L i m i t e Centrale: universalit5 della gaussiana
In sostanza il teorema afferma che una variabile aleatoria tende ad avere densitB di Gauss se essa B la sovrapposizione lineare di piu variabili aleatorie indipendenti, numerose, e, se prese singolarmente, di debole influenza sul risultato finale. Parlando un po' liberamente, possiamo dire che il teorema assegna alla gaussiana il ruolo di una funzione universale a cui tendono le variabili di sistemi ad "alto equilibrio statistico". Ancora piG interessante B il fatto che la pratica e le simulazioni a1 calcolatore mostrano che N non deve essere poi tanto grande. Come gia evidenziato nella dimostrazione del teorema, B lecito utilizzare la condizione N 10. Spesso si dice: "gli sperimentatori usano la gaussiana perch6 pensano che i matematici abbiano dimostrato che essa i: la curva universale; i matematici la usano perch6 pensano che gli sperimentatori ne abbiano in pratica dimostrato I'universalitB ...". Questa affermazione, un po' semplicistica, andrebbe sostituita con la seguente: spesso le variabili aleatorie seguono la distribuzione gaussiana perch6 sono verificate abbastanza bene le condizioni del teorema Limite Centrale. Esistono tuttavia numerose ed importanti eccezioni a questa regola generale, la quale va considerata spesso come un indispensabile punto di riferimento, ma non va applicata alla cieca. Ecco alcuni esempi di variabili aleatorie che, in accord0 col teorema, si distribuiscono in mod0 gaussiano:
>
l'altezza o il peso di una popolazione di individui etnicamente omogenei; il peso dei fagioli contenuti in una scatola (provare per credere ...); r i valori dei quozienti di intelligenza di un gruppo di persone; r la media di un campione con numero di eventi maggiore di una decina: in questo caso le condizioni a)-c) del teorema sono senz'altro soddisfatte, perch6 le variabili sono indipendenti e le loro varianze sono tutte uguali; r le componenti della velocita delle molecole di un gas perfetto. r
r
Le grandezze seguenti non sono invece di tip0 gaussiano: l'energia delle molecole di un gas perfetto: essa B proporzionale a1 modulo quadrat0 del vettore velocith (che ha componenti gaussiane) e quindi viene meno la condizione di linearit& (3.45). Dimostreremo tra breve che il modulo quadro di un vettore di componenti gaussiane indipendenti segue una distribuzione particolare, detta di X 2 (chi-quadrat0 o chi-quadro). In tre dimensioni, questa distribuzione i: la famosa distribuzione di Maxwell, ben nota ai fisici; come vedremo tra breve, i tempi di arrivo di eventi poissoniani non si distribuiscono second0 una gaussiana.
84
Capitolo 3. Calcolo elementare delle probabiliti
3.8 Processi stocastici poissoniani Nei processi stocastici le variabili aleatorie dipendono da un parametro continuo o discreto. In q u e s t ~paragrafo tratteremo un caso molto frequente, quello in cui il parametro continuo che si considera i: il tempo. Per questa classe di fenomeni la distribuzione di Poisson riveste un ruolo fondamentale: essa non va pertanto considerata solo come una semplice approssimazione matematica della distribuzione binomiale, ma, analogamente a1 caso della gaussiana, come una legge universale della natura. Consideriamo un processo stocastico in cui una sorgente genera eventi
a) discreti, in mod0 tale che in un intervallo infinitesirno di tempo dt si generi a1 piQ un evento; b) con probabilith per unit&di tempo X costante e uguale per tutti gli eventi generati. Questa quantit&, di dimensione s-l, rappresenta la frequenza di emissione per unit& di tempo (per esempio, il numero di eventi a1 secondo). Questa proprieth implica che il numero medio di eventi contati in un intervallo dipenda solo dalla larghezza dell'intervallo, e non dalla sua posizione lungo l'asse dei tempi; c) indipendenti tra loro. In altre parole, i conteggi degli eventi in intervalli di tempo disgiunti sono variabili aleatorie indipendenti. Un fenomeno stocastico che obbedisce alle condizioni a)-c) si chiama processo stazionario di Poisson. Quale s a r i la legge statistica del numero di eventi generati entro un intervallo di tempo misurabile At ? La risposta B facile se si definiscono le quantith seguenti: 0
0
il numero di tentativi N = A t l d t . Se At i! una quantith macroscopica misurabile e dt i: un differenziale, si ha sempre N >> 1. Notate che si considera come durata di un tentativo utile alla generazione di un evento la quantith differenziale o comunque molto piccola dt; i: questa l'ipotesi cruciale di tutto il ragionamento che stiamo sviluppando; la probabilith p = Xdt di osservare un evento in un tentativo di durata dt. Si ha sempre p << 1 se il processo di emissione B discreto e dt i: un differenziale; il numero medio p = XAt di eventi generati entro At.
I1 processo di emissione degli eventi pub allora essere visto come la probabiliti binomiale di avere {X = n ) successi in N = ( A t l d t ) >> 1 tentativi quando la probabilith elementare di un successo B p = X dt << 1. Tenendo presente i risultati del par. 3.3, 6 immediato dedurre che il conteggio X(At) in un intervallo At in un processo di emissione discreto non pub che essere una variabile aleatoria che segue la legge di Poisson, con p = XAt. Dalla (3.14) otteniamo: (AAtIn e-AAt P { X ( A t )= n) = p, (At) = n!
3.8 Processi stocastici ~ o i s s o n i a n i
85
E facile mostrare che, se vale la (3.47), i conteggi in intervalli di tempo disgiunti sono variabili aleatorie indipendenti (si veda il problema 3.13). Alla legge di Poisson obbedisce una classe veramente vasta di fenomeni: il numero di pesci pescati in un70rain condizioni ambientali costanti, il numero di auto che si fermano a un semaforo a paritj di giorno ed ora nel corso, poniamo, di un mese (se non vi sono eventi eccezionali), il numero di fotoni emessi da un insieme di atomi eccitati, il numero di particelle nucleari emesse da una sorgente radioattiva, il numero di stelle cadenti osservate in 10 minuti in una sera di agosto, il numero di incidenti stradali in un anno se non vengono presi nuovi provvedimenti per la sicurezza, . . . insomma, tutti quei casi in cui una sorgente stabile (A costante) emette eventi discreti (Xdt << 1) ed indipendenti. Fin qui abbiamo considerato le proprieta della sorgente degli eventi; qua1 B il ruolo dell'osservatore o dell'apparato di conteggio? L'osservazione del fenomeno non altera la statistica poissoniana se l'apparato di rivelazione o conteggio (l'occhio, uno strumento o un apparato comunque complicato) ha un tempo morto e un tempo di risoluzione piccoli rispetto a1 tempo medzo rli arrivo degli even&. Per tempo morto si intende il tempo d~xranteil quale lo strumento resta inattivo dopo il conteggio di un evento (in un contatore Geiger, ad esempio, questo tempo b dell'ordine del millisecondo); per tempo di risoluzione si intende il tempo a1 di sotto del quale l'apparato non registra pih tutti i conteggi (per l'occhio questo tempo i! di poco inferiore a1 secondo, per gli strumenti meccanici si va dalla frazione a1 millesimo di secondo, per gli strumenti elettronici si arriva a1 miliardesimo di secondo o anche meno). In sostanza, un evento che arriva entro il tempo morto non viene registrato, due o pib eventi che arrivano entro il tempo di risoluzione vengono registrati come un solo evento. E chiaro allora che la statistica poissoniana originale non viene alterata se la probabilita di arrivo di un evento entro il tempo morto e la probabilita di arrivo di piu di un evento entro il tempo di risoluzione sono entrambe trascurabili. I1 numero di eventi emessi e/o contati in un tempo finito At non i: l'unica variabile aleatoria importante di un process0 stocastico: fondamentale b anche la variabile deatoria tempo di arrivo T dell'evento successivo rispetto al precedente. Dimostriamo ora un'ulteriore e importante legge statistica fondamentale della natura: la legge esponenziale negativa dei tempi di arrivo. Azzeriarno l'orologio ad un tempo arbitrario t = 0 oppure su117ultimo evento registrato: il tempo T che scorre prima che arrivi un altro evento B una variabile aleatoria che & determinata dalla probabilitii composta di non registrare nulla fino a un tempo t e che venga registrato un evento in (t, t+ dt]. Ponendo nella (3.47) n = 0, abbiamo po ( t )= e c x t , mentre, in base alla definizione di A, la probabilita di arrivo in (t,t + d t ] b data semplicemente da X dt. La variabile T ha dunque una densith di probabilita di tip0 esponenziale negativo: (3.48) e(t) dt = po (t)X dt = ~ e - ' ~dt , t 0 .
>
86
Ca~itolo3. Calcolo elernentare delle probabilita
Fig. 3.4. La densita dei tempi di arrivo i: di tip0 esponenziale negativo come mostrato nella curva a) della figura, che si riferisce ad un flusso medio di 0.1 eventils (A = 0.1 sP1, 1 evento ogni 10 secondi). La curva b) B una gaussiana di media 10 secondi e deviazione standard arbitraria di 4 secondi, che costituisce un esempio della rappresentazione intuitiva (ma errata!) che spesso si ha dei fenomeni stocastici
t (secondi)
E facile vedere che essa & normalizzata e che media e varianza sono date da:
L'equivalente nel discreto della densith esponenziale B la densitb geometrica (3.7). E facile infatti vedere che, per p <( 1, il logaritrno di questa equazione diventa: lng(n) = lnCp(1 - P)~-'] = l n p
+ (n
-
1) In(1- p)
+ lnp
-
(n - l ) p ,
e quindi: g(n) p
y pe-(n-l)~
.
(3.50)
I1 risultato ottenuto si presta ad alcune considerazioni interessanti. La rappresentazione intuitiva che spesso si ha dei tempi di arrivo di un flusso di eventi (10 eventi a1 secondo, poniarno) F: di tip0 gaussiano: gli eventi dovrebbero arrivare ad intervalli di circa 1/10 di secondo, con piccole fluttuazioni simmetriche intorno a questo valore. Questa rappresentazione intuitiva d completamente sbagliata: l'arrivo degli eventi F: regolato dalla legge esponenziale, secondo la quale eventi ravvicinati nel tempo sono molto pi& probabili di eventi separati da lunghi intervalli di attesa (si veda la Fig. 3.4). Questo effetto F: ben visibile con i contatori che spesso si usano in laboratorio: gli eventi sembrano arrivare "a grappoli" separati da lunghe attese, dando l'impressione ai non esperti di malfunzionamenti strumentali. In realta, questa apparente correlazione temporale & proprio dovuta alla assoluta mancanza di correlazione tra gli eventi! Eventi rari come gli incidenti o le calamith naturali spesso avvengono a breve distanza di tempo, generando la (falsa) credenza di misteriose correlazioni tra le sciagure. In realtb si tratta quasi sempre di effetti dovuti
87
3.8 Processi stocastici poissoniani
a1 caso, che si riflettono in alcuni detti popolari quali "non c'e il due senza il tre . . .", oppure "le disgrazie non vengono mai sole . . .". Forse questi sono da annoverare tra i pochi proverbi che hanno un qualche fondamento sperimentale . . .. Dato che la densith esponenziale negativa non h a la classica forma "a campana" , la media in questo caso non dice molto su dove i dati si localizzano. E allora pih utile rifarsi alla funzione cumulativa della (3.48), che si ottiene facilmente dalla (2.34):
Questa funzione fornisce la probabilitj di arrivo di almeno u n evento in [0, t]. La probabilitj di non osservare eventi fino a t & ovviamente data da:
che coincide con la densith di Poisson (3.47) quando n = 0. Esercizio 3.9
veicoli. Qua1 b la probabilitd di osservare, tra u n veicolo ed il successive, u n intervallo di tempo minore di 10 secondi ed uno di pili Zungo di 5 minuti? Risposta. I1 tempo medio tra due veicoli successivi b dato da
cui corrisponde una probabilitd o frequenza media di arrivo pari a
Applicando la (3.51) con t = 10 s si ottiene:
La probabilitd di osservare intervalli pi3 lunghi di t = 5 m i n = 300 s b data invece da:
Vogliamo ora mostrare che l'esponenziale negativa B l'unica forma funzionale che assicura I'indipendenza temporale degli eventi. Siano A = {T > t At) e 3 = {T > t ) gli eventi: "non si sono registrati arrivi fino a t At" e "fino a
+
+
88
Caoitolo 3. Calcolo elementare delle orobabilits
+
t" rispettivamente. Ovviamente {T > t At) c {T > t ) , perch6 se si verifica A si B verificato anche B, per cui P ( A n B) = P ( A ) (l'intersezione degli eventi non corrisponde a quella degli intervalli di tempo!). La probabilith condizionata (1.19) vale in questo caso:
Come si vede, I'informazione sull'assenza di eventi fino a t non ha alcuna influenza sulla legge di probabilitb dei tempi successivi. La legge esponenziale rimane invariata, qualunque sia l'istante t in cui si decide di azzerare l'orologio; essa descrive pertanto i sistemi detti senza memoria. Basta perb combinare tra lor0 piG sistemi senza memoria per avere sistemi con memoria le cui densith di probabilita temporali non soddisfano la (3.53); si vedano, nei prossimi due capitoli, l'esercizio 4.1 ed il problema 5.8. L'indipendenza t r a i conteggi in intervalli di tempo separati (condizione c) di pagina 84) implica anche l'indipendenza degli eventi "c'i: un arrivo a1 tempo t" e "non ci sono arrivi in (t, t At]". Vale pertanto la relazione:
+
P{T
> AtlT = t )
= P{T
> At}
= e P X A t,
da cui si vede che i tempi t r a gli arrivi (intertempi) sono uariabili aleatorie indipendenti di legge esponenziale negatiua. Per descrivere sistemi biologici o dispositivi dotati di memoria, che tendono a "invecchiare", di solito si usa una variante della funzione esponenziale, detta densit&di Weibull:
I parametri a e b vengono spesso determinati empiricamente dall'analisi dei dati. La curva di Weibull, per a = b = 1, i: l'esponenziale negativa; tende invece ad assumere una forma a cam ana per b > I. La corrispon7 dente funzione cumulativa vale F ( t ) = So w(t) dt = 1 - exp(-atb/b). Se ad esempio a = 2, b = 2, allora w(t) = 2texp(-t2) e dalla (3.53) risulta P{T > t + At It} = e x ~ [ - ( A t )-~ 2tAtl. La probabilith di non avere eventi fino a t + A t (ovvero la probabilith di vita, se l'evento i: la rottura del sistema) diminuisce se aumenta t. Generalizziamo ora la legge esponenziale ad eventi poissoniani non contigui, dove interessa il tempo del k-esimo evento. Gli eventi registrati sono in questo caso separati da k - 1 eventi, come in Fig. 3.5. Ponendo nella (3.48) pk-1 (t) a1 posto di po(t), otteniamo facilmente la densita erlanghiana di ordine 5 o densita gamma di Fig. 3.6: ek(t) = A- (At)'.-I .-At_ ( k - I)!
-
A* tk-1 e - A t r(k)
,
t
20 ,
(k
-
1)
>0,
(3.55)
3.8 Processi stocastici poissoniani
89
I
tempo zero
tempo zero
Fig. 3.5. Definizione di evento k-esimo nella densith gamma, relativa ai tempi di arrivo di eventi non contigui
dove r ( k ) = (k - I)! per k intero (andate a vedere, pih avanti, la 3.63). La media e la varianza di questa densit& sono date da:
Per eventi contigui, k - 1 = 0 e riotteniamo le (3.48-3.49). Quando k aumenta, la media e la varianza aumentano e la densit& del flusso X L = l / p diminuisce. La densit&gamma B per costruzione la densith della somma di k variabili aleatorie esponenziali negative indipendenti. Si pub ottenere questo risultato anche con la teoria delle funzioni di variabili aleatorie, che svilupperemo nel cap. 5 (si veda il problema 5.5). Tra le densit&di Poisson e di Erlang 6 facile mostrare che sussiste l'utile relazione: -dpkI' - e i (t) - e i + (t) ~ . dt Abbiamo visto che dalle condizioni a)-c) di pagina 84, che definiscono il process0 stazionario di Poisson, discende la (3.47), che implica la densit& esponenziale negativa dei tempi di arrivo. Mostreremo ora che vale anche l'inverso se gli intertempi sono indipendenti e di legge esponenziale negativa. Infatti, sviluppando in serie le (3.51, 3.52) segue che la probabilith di osservare un evento in un intervallo infinitesimo vale Xdt e quella di osservare pic eventi B trascurabile (un infinitesimo di ordine superiore). Inoltre, se si verificano k conteggi entro t , significa che t sta tra i tempi di arrivo Tk e Tk+l, dell'evento k-esimo e (k 1)-esimo rispettivamente. Dato che P I T k t)= P{Tk 5 t < T ~ + I } + P { T ~ + t }~,vale la relazione:
<
+
<
dove nell'ultimo passaggio si i: fatto uso della (3.57). Avendo ritrovato la legge di Poisson, che implica l'indipendenza dei conteggi in intervalli di tempo disgiunti, in definitiva si arriva a1 seguente
90
Ca~itolo3. Calcolo elementare delle probabilit2
Fig. 3.6. Densith gamma per X = 1 e vari vaiori di k
Teorema 3.2 (Indipendenza stocastica). Condizione necessaria e S U B ciente perch4 u n process0 sia stazionarzo di Poisson b che gli intertempi siano indipendenti ed abbiano Eegge esponenzzale negativa.
3.9 La densita X 2 Se un vettore ha come componenti delle variabili aleatorie gaussiane, quale sar&la densit& di probabilit& del suo modulo quadrato? Questo problema riguarda la determinazione della densitb di probabilitb di una variabile aleatoria funzione di pih variabili aleatorie e verrb affrontato in generale nel cap. 5. Tuttavia, qui anticipiamo un risultato particolare, relativo alla densitb x2,la quale ha un ruolo importante nell'ambito delle densitb di probabilitb monodimensionali, che stiamo qui illustrando. Vogliamo trovare la funzione di densitb della variabile
somma dei quadrati di n variabili standard gaussiane tra lor0 indipendenti. Notiamo subito che la trattazione vale in generale per variabili gaussiane indipendenti, perch6 una variabile aleatoria pub sempre essere resa standard attraverso la trasformazione (3.37). Indichiamo con FQ( q ) la cumulativa della funzione di densitb che stiamo cercando: essa db la probabilita P{Q 5 q ) che la variabile Q sia compresa entro una ipersfera di raggio &. Poichk le variabili Xi provengono dalla densitii gaussiana standard (3.42) e sono indipendenti, la probabilitb cercata sarh data, in base alle (1.22, 1.23. 2.10), dal prodotto delle probabilitb di
ottenere un insieme di valori (21,x2,. . . ,xn) sommato (integrato) su tutti gli x: 5 q. Si ha quindi: insiemi che soddisfano alla condizione
Ci
dove la produttoria nell'integrando viene dal teorema delle probabilita composte e dalle (1.22, 1.23) ed il legame funzionale tra Q e le variabili Xi compare solo nella definizione del dominio di integrazione. Se passiamo alle coordinate sferiche ponendo = r , l'integrando risulta indipendente dagli angoli e il vincolo funzionale (3.58) dB luogo ad una integrazione sul raggio dell'ipersfera. Per un noto risultato della geometria differenziale, sappiamo che l'elemento di volume integrato sugli angoli si trasforma, passando da una sfera tridimensionale a.d una. ipersfera di uno spazio ad n dimensioni, come: Jdn
=Idn
r2sen 6 d r df3 dq5 = 4nr2 dr
+ D rn-'
dr
dove D b una costante ottenuta integrando sulle variabili angolari. L'integrale (3.59) diventa allora:
dove Fo comprende tutti i fattori costanti apparsi nel calcolo. Se ora operiamo il cambio di variabile
e conglobiamo ancora tutti i fattori costanti in Po, possiamo esprimere FQ (q) come: e-3 q2-' dq , F Q ( ~ )= FO (3.60)
iq
che i:la primitiva della funzione di densita X 2 che stiamo cercando. Abbiamo pertanto, dalla (2.36):
Ovviamente, questa funzione 6 definita solo per q imponendo la condizione di normalizzazione
2 0. La costante Fo si trova
92
C a ~ i t o l o3. Calcolo elementare delle orobabiliti
Per la valutazione di questo integrale si deve ricorrere all'integrale notevole (lo potete trovare su molte tavole standard di matematica):
dove r ( p ) , detta funzione gamma, si pub ottenere integrando ripetutamente per parti la (3.62):
r(p+i)
(i) (k) fi
= P ( ~ - I ) ( ~ - ~ ) . .-.
per p semi-intero.
Dalle (3.61-3.62) otteniamo infine la densiti:
la quale individua la distribuzione statistica del modulo quadro di un vettore di n componenti gaussiane indipendenti. Se le componenti linearmente indipendenti fossero pari a v < n, allora nella (3.58) la somma pub essere trasformata in una combinazione lineare dei quadrati di u variabili gaussiane indipendenti e la funzione di densiti 6 sempre data dalla (3.64), se si opera la sostituzione n + v. Le variabili linearmente indipendenti di una distribuzione X 2 si chiamano gradi di liberth. Nella letteratura fisica internazionale si usa quasi sempre la notazione unica X 2 per indicare la distribuzione, la variabile aleatoria e le sue realizzazioni numeriche (!) . Poichk questa ci sembra una disinvoltura eccessiva, per restare (parzialmente) coerenti con il nostro testo, noi indicheremo con Q una variabile aleatoria che ha una distribuzione X2 di densita (3.64) e con x2 (e non con q) i valori numerici di Q ottenuti in prove specifiche. Diremo quindi che Q (v) X2(u) assume valori x2. Con questa notazione la densit&(3.64) con u gradi di liberta della variabile Q viene scritta come:
-
la quale, come & facile vedere dalle (3.62, 3.63), ha media e varianza pari a
93
3.9 La densita y 2
Fig. 3.7. Densit&X 2 ridotto per vari gradi di liberth
1
/
( Q ) = ---;22r(2)
Spesso si usa la distribuzione
X2
00
~ ( x ) g - l e - %d x Z v
0
ridotto della variabile
la quale, in base alle (2.62, 2.63, 3.66, 3.67), ha media e varianza date da:
Nella Tab. D.3 dell'appendice D sono riportati i valori dell'integrale della densitj x2 ridotto (vedere Fig. 3.7):
11(") & 00
P { Q R ( 2~ ~ k ( v ) I =
vT
~f-'exp(-?)
ds,
(3.70)
ottenuto applicando la trasformazione (3.68) alla (3.65). La tabella fornisce la probabilita di superare un valore assegnato di Di essa si far& ampio uso in statistics. Possiamo riassumere questi risultati, trovati d a Helmert nel 1876 e generalizzati da Pearson nel 1900, con il
Xi.
Teorema 3.3 (di Pearson). La somma dei quadrat2 di v variabili gaussiane indipendenti b una variabile aleatoria che ha densitci chi-quadrat0 (3.65) con v gradi di libertci, detta X 2 (v).
94
Capitolo 3. Calcolo elementare delle probabiliti
Sar&utile nel seguito anche il seguente
Teorema 3.4 (Additivith della variabile x2). Siano Q1 e Q 2 due variabili aleatorie indzpendenti. S e esse hanno densitci X 2 con u1 e u2 gradi di libertci rispettivamente, la variabile
-
x2(vl ha una densitb x 2 ( v ) con v = vl + u2 gradi di libertci: Q Inoltre, se Q x 2 ( v ) e Q 1 X 2 ( u 1 ) ,allora Q 2 x2(v- U I ) .
+u~).
Dimostrazione. La dimostrazione della prima parte del teorema 6 immediata e pui, essere vista come u n lemma del teorema di Pearson 3.3: poiche' la somma dei quadrati di vl variabili standard indipendenti si distribuisce come x2, se a queste vl se n e aggiungono, tramite la (3.71), altre u2 indipendenti, la somma risultante b u n a s o m m a dei quadrati di y u2 variabili gaussiane standard indipendenti, da cui l'enunciato. Anche la dimostrazzone della seconda parte b facile se si utilizzano le funzioni generatrici dell'appendice B e la (B.lO). Nell'applicare il teorema occorre ricordarsi sempre che esso vale per variabili 0 Q x2, n o n per le variabili ridotte Q R X$ della (3.68).
+
-
-
In SCILAB le probabilita della distribuzione X 2 non ridotto con DF gradi di libertL vengono calcolate con la funzione cdlchi nei modi seguenti: [P, I-PI =cdf chi ("PQ",X ,DF) [XI =cdf chi ("X" ,DF,P, I-P) [DF] =cdf chi ("DF" ,P,1-P ,XI
Nel mod0 "PQ" il risultato P contiene il valore cumulativo da zero ad X; la modalit& "X" calcola il valore X corrispondente a1 valore cumulativo P; con "DF" viene calcolato il numero DF di gradi di liberta per il quantile Xp, cio& quando ad un valore X dello spettro corrisponde una probabilita cumulativa P.
Come vedremo nei prossimi esercizi, la densit& x2 h di importanza fondamentale non solo in statistica, ma anche in fisica.
Esercizio 3.10 Trovare la distribuzione statistica del modulo R di un vettore tridimensionale avente componenti gaussiane indipendenti ( X , Y,Z) di media nulla e varianza g2.
Risposta. Supponiamo per un momento le componenti siano standard con varianxa unitaria. La densitd del modulo quadrat0 del vettore b data allora dalla (3.64) con n = 3:
poiche'r(3/2) = r ( 1 / 2 + 1 ) = f i / 2 dalle (3.63). Questa densitd rappresenta la probabilitd che il quadrato del modulo del vettore sia compreso i n ( q , q+dq). Dato che d richiesto il modulo del vettore ( n o n il suo quadrato), operiamo la trasformazione
ottenendo: (3.72) Finora abbiamo considerato le variabili ( X ,Y ,2 ) come gaussiane standard. Per tenere conto della varianza n o n unitaria, operiamo la trasformazione
che porta a ridefinire r come:
Sappiamo che R t: il nzodulo di u n vettore di componenti gaussiane n o n standard ( X ,Y ,2 ) aventi varianza finita f f 2 . Inserendo la trasformazione nella
che b la famosa densitd di Maxwell o maxwelliana. Poiche' R2/a2 b u n a variabile X 2 con 3 gradi di lzbertd (cioh X 2 ( 3 ) ) , essa ha come media e varianza, i n base alle (2.63, 3.66, 3.61;), i valori
e quindi
( R ~=) 3a2 ; v~I-[R'] = 6a4 .
(3.74)
Esercizio 3.11 Trovare la densitd di energia delle molecole di u n gas perfetto alla temperatura assoluta T .
(V,, V,, V,) della velocitd delle molecole sono variabili aleatorie che soddisfano alle condizioni del teorema Limite Centrale 3.1. 11 modulo della velocita sara pertanto dzstribuito secondo la maxwelliana (3.73). Se teniamo conto delle note relazioni tra l'energia cinetica e la velocitd di una molecola di massa m:
Risposta. I n u n gas perfetto le componenti
98
Capitolo 3. Calcolo elementare delle probabilita
-
Dimostrazione. La probabilitd che un valore X sia compreso entro [xl,x2] 13 identical per costruzione, alla probabilitd che la variabile cumulativa C sia compresa entro i valori [q G ~ ( x l )c2, c ( x ~ ) ] Utilizzando . la (2.34) abbiamo allora:
da cui si vede che C
N
U ( O , l ) lpoiche' soddisfa la relazione (3.81) con (b-a) =
1.
0
L'importanza concettuale e pratica del teorema non vi deve sfuggire: la variabile cumulativa 2 sempre u n i f o m e , qualunque sia la distribuzione d'origine. Se l'integrale (3.82) k noto per via analitica, allora i valori della variabile cumulativa C sono esprimibili come una funzione nota c = F(x). Se questa funzione 6 invertibile, allora la variabile
h a densit2 p(x). Se si dispone di un generatore di variabili uniformi in [O,1] (una roulette o una funzione random su calcolatore), si possono generare variabili aventi u n a densitd qualsiasi utilizzando l'equazione:
X = F - I (random) .
(3.85)
L'estensione del teorema 3.5 a variabili discrete richiede un minimo di attenzione e l'utilizzo della (2.29) di pagina 46. Se C i: una variabile uniforme, tenendo presente che la cumulativa F(x) k definita in [0, 11, dalla (3.81) otteniamo:
L'equiwlente nel discreto della (3.85), se si dispone di un generatore random, diventa allora:
{X = xk) se {F(zk-1) < random
< F(xk))
(se k = 1, F(xO) = 0) . (3.87) Sulle (3.85, 3.87) si fondano tutti i metodi di simulazione Monte Carlo, su cui torneremo in dettaglio nel cap. 7. La formula (3.84) ha una convincente interpretazione grafica, che riportiamo in Fig. 3.9. Consideriamo le probabilita P ( x l 5 X 5 x2) e P{x3 5 X 5 2 4 ) definite entro i valori [x1,x2] e [x3,x4]: esse sono rappresentate dalle aree sottese dalla funzione di densit&p(x) ed ombreggiate in Fig. 3.9. L'area relativa ai valori meno probabili compresi in [xl , x2] 6 minore
96
Capitolo 3. Calcolo elernentare delle probabiliti
possiamo scrivere:
Se ora usiamo la nota relazione tra varianza e temperatura,
dove K 6 la costante di Boltzmann, otteniamo infine:
che 4 la famosa funzione di Boltzmann. Dalle (3.74, 3.75) si ottiene u n altro fondamentale risultato della terrnodinarnica, quello che lega l'energia cinetica media ( U ) della molecola alla temperatura assoluta:
A questo punto vorremmo farvi notare che abbiarno ottenuto, in questo esercizio e nel precedente, alcuni risultati fondamentali della j-isica statistica utilizzando come ipotesi jisiche solo il teorema Limite Centrale e le relazioni (3.75).
3.10 La densiti uniforme Una variabile deatoria X continua, che assume valori nell'intervallo finito [a,b], si dice uniforme in [a,b] e si denota con X U ( a ,b) quando ha una densitj di probabilith costante, detta densit&uniforme o piatta (riportata in Fig. 3.8), data da:
-
E facile vedere che la condizione di normalizzazione
i: soddisfatta e che media e varianza sono date da:
3.10 La densit3 uniforme
97
Fig. 3.8. Densit& uniforme u(x) e corrispondente funzione cumulativa F ( x ) di
una variabile aleatoria che assume valori compresi in
a
g2
=
(3.79)
b-a
dove l'ultimo integrale pub essere facilmente valutato operando la sostituzione y = n: - (b+a)/2, dy = dx e integrando t r a gli estremi -(b-a)/2 e (b-a)/2. Spesso si considera la densita uniforme per valori compresi tra gli estremi a = 0 e b = A. Ovviamente in questo caso media e varianza sono date da:
<
+
x 5 p A12 e la deviazione standard vale La densit&esiste per p - A/2 =A I ~ . Per una variabile aleatoria a 5 X 5 b, avente densitb uniforme, la probabilita di localizzazione in (XI,2 2 ) B proporzionale all'ampiezza dell'intervallo: ff
Viceversa, se una variabile aleatoria continua soddisfa alla (3.81), essa B distribuita in mod0 uniforme. Veniarno ora ad un teorema molto semplice, ma importante ed estremamente generale.
Teorema 3.5 (Variabili aleatorie cumulative). S e X b u n a variabile aleatoria avente densitci p(x) continua, la variabile aleatoria cumulativa C :
b uniforme i n [O,l], cioB C
N
U(0,l).
3.10 La densita uniforrne
XI
x2
X3,
99
Fig. 3.9. Interpretazione grafica del teorema sulle variabili cumulative. Le funzioni p(x) e F ( x ) sono rispettivamente una generica densit& di probabilit& e la sua corrispondente cumulativa
X4
X~
di quella relativa ai valori pic probabili compresi in [x3,x4]. Il valore di queste due aree i: identico, per costruzione, alla lunghezza degli intervalli [ q ,c z ] e [c3,c4] di Fig. 3.9, ottenuti dalla funzione cumulativa F ( x ). Se ora consideriamo sull'asse delle ordinate della cumulativa una variabile C U(0, I), essa cadra pih frequentemente in [cs,c4] che in [cl,c2] con probabilita date esattamente dalla ampiezza di questi intervalli. Pertanto, se in corrispondenza di un valore co assunto dalla variabile uniforme C ricaviamo (per via grafica o analitica) il corrispondente valore xo indicato in Fig. 3.9 e ripetiamo il procedimento pih volte, otterremo un campione di valori della variabile X di densit&p ( x ) .
-
Esercizio 3.12
Disponendo s u calcolatore di un valore random ~ n i f o r m ~ e r n e n compreso te in [O, 11, estrarre a caso i tempi di arrivo di eventi stocasticamente indipendenti.
Risposta. Se gli eventi sono stocasticamente indipendenti, la distribuzione dei tempi di arrivo 6 esponenziale negativa e la corrispondente cumulativa, che dd la probabilitd di un arrivo in [0,t],i: data dalla (3.51). I n base a1 teorema 3.5 questa funzione i: u n a variabile aleatoria unzforme. Abbiamo pertanto:
random = 1 - e-xt
.
Invertendo questa equazione otteniamo: 1 X
t = - - In(1 - random) , Poichd, analogamente aEEa variabile random, anche (1-random) 2: la relazione precedente risulta equivalente a:
(3.88) U(0, I),
100
Capitolo 3. Calcolo elementare delle probabiliti
Le (3.88, 3.89) sono u n esempio delle formule generali (3.84, 3.85).
3.11 Disuguaglianza di Tchebychev La deviazione standard, che B un indicatore della dispersione dei valori di una variabile aleatoria intorno alla media, gode di un'importante e generale propriet&, che andiamo a illustrare. Consideriamo una generica distribuzione statistica di media p e di di varianza a2finita e consideriamo l'intervallo dei valori [ p- K a , p KO],dove K B un numero reale positivo. Ovviamente, i punti fuori da questo intervallo sono definiti dalla condizione lx - pI > K a . Considerando l'espressione della varianza di variabili continue (2.561, possiamo scrivere:
+
Dall'ultima relazione otteniamo:
che B la disuguaglianza di Tchebychev. Questa B una relazione dimostrabile facilmente anche per variabili discrete ed i: del tutto generale, perch6 l'unica condizione che i! stata imposta su p(x) B la varianza finita. Vediamo ora quali informazioni sono contenute in questa legge generale. Analogamente alla (3.35), essa pub essere messa nella forma:
0 per K = 1 0.75 per K = 2 K2 0.89 per K = 3 , (3.91) da cui si vede che negli intervalli centrati sulla media e ampi 2 0 e 30 sono compresi rispettivamente almeno il 75% e 21 90% della probabilitci totale. La (3.91) dh luogo a una legge 30 generalizzata, che consiste nel ritenere trascurabili per qualunque distribuzione statistica, le probabilith di avere valori fuori d a [p - 3a, p + 3a].
P{JX - pI 5 K a) =
LKU p+Kc
p(x) dx
2 1- - =
{
3.12 Come utilizzare il calcolo delle ~robabilita
101
Generalmente questa B una approssimazione molto buona, perch6 la disuguaglianza di Tchebychev, che prevede non piii di un 10% di probabilitb a1 di fuori di f3~7,k quasi sempre una notevole sovrastima dei valori effettivi. Ad esempio, nel caso della densit&di Gauss, "fuori da 3a" (cosi si dice in gergo) abbiarno solo lo 0.3% dei valori, nel caso della densitb uniforme tutti i valori sono compresi entro zk2a (controllate come esercizio). L'uso di considerare solo i valori entro 3a B molto difhso, ed in genere porta, come si B detto, a dei risultati corretti. Tuttavia, in casi particolari, se si ha a che fare con densitb "molto larghe", B bene ricordarsi che con questo metodo si pub compiere un errore sensibile, fino a1 lo%, come mostrato dalla (3.91).
3.12 Come utilizzare il calcolo delle probabilita In Fig. 3.10 ed in Tab. 3.1 sono riportate le distribuzioni statistiche fondamentali che abbiamo fin qui ottenuto col calcolo delle probabilita. I1 punto di partenza B la distribuzione binomide (2.30), relativa agli eventi generati in mod0 discreto, indipendente e con probabilitb p costante. I1 limite per np, n ( l - p) >> 1 (in pratica np, n ( l - p) > lo), tlove n B il numero dei tentativi effettuati, porta alla densitb gaussiana o normale, mentre il limite per n >> 1,p << 1 (in pratica n > 10, p < 0.1) porta alla densitb poissoniana. Quest'ultima densitb, quando np > 10 (e quindi anche n ( l - p) > 10, dato che p << l ) , evolve anch'essa verso la densith gaussiana, mantenendo perb sempre la relazione (3.16) p = a2,tipica dei processi poissoniani. Abbiamo anche visto che la gaussiana e la poissoniana, lungi dall'essere solo casi limite della densitb binomiale, sono le distribuzioni di riferimento di molti fenomeni naturali di notevole importanza. La gaussiana B la densit&limite della sovrapposizione lineare di variabili aleatorie indipendenti, nessuna delle quali B preponderante sulle altre. Questo risultato viene normalmente chiamato teorema Limite Centrale (o Centrale Limite) ed B stato da noi riportato come teorema 3.1. La distribuzione statistica del modulo quadrat0 di un vettore di componenti gaussiane B individuata dalla densita x2,che in tre dimensioni prende il nome di densita di Maxwell o maxwelliana. La distribuzione poissoniana B invece la distribuzione universale del numero di eventi indipendenti generati in mod0 discreto con probabilitb costante nel tempo (generazione stocastica). I1 tempo di arrivo tra questi eventi segue anch'esso delle distribuzioni universali, l'esponenziale negativa e la distribuzione gamma o erlanghiana. Infine, anche la densitb uniforme k di importanza generale, perch6, come mostrato nel teorema 3.5, essa individua la distribuzione di tutte le variabili aleatorie cumulative. Come vedremo, questo principio B la base del metodo di simulazione Monte Carlo.
102
Capitolo 3. Calcolo elementare delle probabiliti
lu>l,
p<
(in pratica n>tO, p<0.1)
u
np>>l/ (inpratica npzlo)
tempi tra eventi poissoniani
/ 1
gausslam L'
Fig. 3.10. Connessione tra le distribuzioni statistiche fondamentali del calcolo delle probabilitk
Crediamo che vi sia gi8 chiaro, e lo s a d comunque sempre di pih nel seguito, come le distribuzioni statistiche dedotte col calcolo delle probabilit a elementare forniscano uno schema coerente per I'interpretazione di una quantith veramente notevole di fenomeni naturali. Questo schema dovrebbe essere parte essenziale della formazione culturale dello scienziato, del ricercatore e, in genere, di chiunque voglia osservare la realta con occhio scientifico. Cercheremo ora di spiegare meglio questo punto, con una serie di esempi ed alcuni approfondimenti. La sola intuizione non 6 sufficiente per interpretare i fenomeni aleatori: se lanciamo in aria una moneta 1000 volte intuiamo che mediamente avremo testa (o croce) 500 volte, ma se otteniamo 450 teste e 550 croci come facciamo a sapere se il risultato i! cornpatibile col caso o se invece la moneta & truccata o i lanci non sono stati regolari? (A tra poco la risposta, nell'esercizio 3.13).
103
3.12 Come utilizzare il calcolo delle probabilita
Tabella 3.1. Le densiti fondamentali del calcolo delle probabilita
nome
gaussiana
densit&
media
- ir)2/2021 ~XP[-(X
deviazione standard
u
&u
chi-quadrato
(x2)% -' exP(-G) 25r(;)
poissoniana
P
~ e- - ~ ~t
r(k)
uniforme
&
modulo di un vettore gaussiano
&
conteggi
tempi tra variabili poissoniane
k X
v%
somma di k variabili esponenziali negative
A -
A -
X
2t 1 -
A
(OlxlA)
costante combinazione lineare d i variabili indipendenti
1' -
esponenziale
gamma
commenti
2
X
a?
variabili lative
cumu-
Utilizzando il calcolo delle probabilitb possiamo affrontare in mod0 quantitativo questi problemi, utilizzando funzioni di densitb p(x) (continue o discrete) e risolvendo somme (per variabili discrete) o integrali (per variabili continue) del tipo:
P{a 5 X che forniscono il live110 di probabilitci, cio5 la probabilitb di ottenere, se il modello rappresentato da p ( ~ &) valido, eventi con valori compresi nell'intervallo di probabilitci [a,b]. E possibile quindi giudicare se un certo scostamento dal valore atteso & cornpatibile col caso oppure no. Come abbiamo gi8 accennato a1 par. 2.6, nel primo caso si dice che si i: in presenza di una normale fluttuazione statistics
104
Capitolo 3. Calcolo elementare delle probabiliti
e che il modello rappresentato da p(x) i: valido (o meglio, che non i: stato falsificato dall'esperienza); nel secondo caso si interpreta il risultato come una deviazione significativa e si rigetta il modello. In questo tip0 di analisi si possono in molti casi utilizzare, in alternativa agli integrali del tip0 (3.92)' i valori quantili (2.19) oppure la media e la deviazione standard della distribuzione modello. In questo mod0 l'analisi risulta pi^ rapida e permette di acquisire utili automatismi mentali, facili da ritenere a memoria, che consentono di giudicare anche "a occhio", ma in mod0 rapido e corretto, i risultati sperimentali. Se sono noti i valori quantili della distribuzione, ponendo a = x, e b = xg, l'intervallo di probabiliti, rappresentato anche in Fig. 3.11, diventa:
Se X ha una densith simmetrica, spesso si usa la scrittura:
In molti casi to sono i quantili della curva normale standard (che si ricavano con facili passaggi dalla Tab. D.1); oppure della densit& di Student(che vedremo piG avanti). I quantili gaussiani su molti testi sono scritti come 2,. Livelli usati di solito in statistica sono 1 - a = 0.90,0.95,0.99,0.999, cui corrispondono i valori quantili gaussiani tl-,lz = 1.64,1.96,2.58,3.29. In alternativa, come faremo spesso in questo testo, si pub adottare la convenzione, usuale tra i fisici, che parametrizza l'intervallo di probabilith secondo la legge 30 (3.35). La deviazione standard k considerata come l'unitci di misura internazzonale delle fluttuazioni statistiche. Per calcolarne il valore, non si pub procedere per via intuitiva, ma si deve utilizzare il calcolo delle probabilith. Allora, un valore di 450 successi in 1000 lanci, & una fluttuazione statistica rispetto a 500 oppure una deviazione significativa? La risposta 6 nell'esempio che segue.
Esercizio 3.13
risultato con Z'ipotesi di Eanci casuali di una moneta non truccata?
3.12 Come utilizzare il calcolo delle ~robabilita
105
Risposta. Il modello assunto come riferimento, che in statistics verrci chiamato ipotesi nulla (null hypothesis), prevede che la probabilitci a priori di ottenere testa in u n singolo lancio sia p = 0.50 e che le probabilitci dei valori possibili di mille lanci, che vanno da 0 a 1000, si possano calcolare dalla distribuzione binomiale con media e deviazione standard date dalle (3.6):
I1 valore della frequenza empirica, cioR dell'evento osservato, 6 invece f = 0.45, che corrisponde ad un valore della variabile standard pari a
I1 risultato si scosta dal valore medio della distribuzione prevista dz 3.16 deviaxioni standard. Dato che n p = n(1 - p ) = 1000.0.5 = 500 >> 10, possiamo utilizzare l'approssimazione gaussiana per la variabile standard, ed utilizzare la Tab. D.1 della funzione gaussiana degli errori, riportata in appendice D. D a questa tabella leggiamo, i n corrispondenza di t = 3.16, il valore 0.4992. L'area della coda alla sinistra di t R data da:
che
t!
la probabilitci di ottenere per puro caso, se il modello 6 valido, valori
< 450. Fate ora bene attenzione a questo passo cruciale: se rifiutiamo il modello quando & vero, la probabilitd che abbiamo di sbagliare non i: piG grande di 8 su 10 000. S i dice anche che il dato 2 i n accordo col modello con u n livello di significativitd di 8 . I n conclusione, dato il livello di significativitci molto piccolo, possiamo dire, con una piccola probabilitci di sbagliare, che 450 successi s u mille Eanci rappresenta u n evento i n disaccordo con il modello binomiale con p = 1/2, che assume lanci indipendenti di u n a moneta n o n truccata. In genere si ritiene falsificata l'ipotesi quando il livello di significativitd osservato & a1 di sotto dell'l-5%. Tuttavia, la decisione dipende dal tip0 di problema che si sta considerando, ed i: di tip0 soggettivo. Se invece della bontb o meno di una moneta stessimo considerando la sicurezza di un aereo e un certo risultato sperimentale ci fornisse un livello di significativit& dell'l per mille rispetto all'ipotesi nulla di un difetto di progettazione, probabilmente non ce la sentiremmo di rigettare l'ipotesi e concludere che l'aereo B ben progettato. Infatti, il test indica in questo caso che un aereo su mille potrebbe cadere. I1 calcolo delle probabilitii permette di quantificare le possibilitb che vengono prese in considerazione nello studio di un problema, ma
106
C a ~ i t o l o3. Calcolo elementare delle ~ r o b a b i l i t h
spesso nella decisione finale occorre fare una analisi costi/benefici che tenga in considerazione anche fattori non strettamente matematici e statistici. Vi sono comunque casi in cui la decisione 5 facile, perch6 si raggiunge un livello di significativith cosi piccolo da coincidere in pratica con la certezza. Ad esempio, se nei mille lanci della moneta si ottenessero 420 teste, la variabile standard varrebbe 5.1 e la probabilith di sbagliare rigettando l'ipotesi "moneta buona" sarebbe praticamente nulla. Nell'esperimento reale di Tab. 2.2, come risulta dal problema 2.10 di pagina 66, si sono ottenute 479 teste su milk lanci. Questo risultato corrisponde ad un valore della variabile standard t = 1500 - 479)/15.8 = 1.39, alla quale la Tab. D.l assegna un valore di 0.4177, corrispondente ad un livello di significativith dell' 8.2%. Abbiamo qui un primo punto fermo nell'analisi dell'esperimento di Tab. 2.2 (sul quale siamo tornati e torneremo pih volte nel corso del testo): il numero globale di teste ottenute 2: in ragionevole accord0 col modello binomiale ed una probabilith a priori di 1/2. Nell'esercizio precedente si 6 fatto ricorso a1 cosiddetto test a una coda. Nell'esempio che segue si effettua invece il test a due code, in cui si scartano i valori a1 di fuori di un intervallo, cioit quelli troppo piccoli o troppo grandi. Esercizio 3.14 Qua1 i. la proba finire una moneta buona (ciod con probabilitd 112) u n numero di successi in mille lanci compreso tra 450 e 5508 Risposta. Utilizzando i dati dell'esercizio precedente otteniamo immediatamente il risultato:
il cui significato d che si scartano circa 2 monete buone su 1000 nell'ipotesi che tutte le monete provate siano buone. Chiediamoci ora, riferendoci all'ultimo esercizio, quante monete cattive si accettano. Qua1 &, in altri termini, la probabilitA di accettare come giusta una ipotesi sbagliata? In genere trovare questa probabilitb non i: facile, perch6 si dovrebbero conoscere tutte le probabilith a priori delle variabili coinvolte nel problema. Nel caso delle monete, dovrebbero essere note le probabilith vere di tutte le monete utilizzate nel test, come chiarito nell'esercizio che segue. Esercizio 3.15 Nello stock di m o n priori p = 0.6 per la faccia di interesse. Qzlal d la probabilitci di accettarla come buona adottando ancora come regola di decisione 450 x 5 5502
<
Risposta. Dobbiamo calcolare P{450 5 X 5 550) per una gaussiana di media e deviazione standard pari a:
107
3.12 Come utilizzare il calcolo delle ~robabilita
Considerando i due valom' standard:
dalla Tab. D.l in appendice D otteniamo la probabilita:
Negli esempi trattati finora si 6 sempre usata l'approssimazione gaussiana della distribuzione binomiale. Ecco ora un caso diverso.
_
Esercizio 3.16 e ~ a ~ ~ w A:L;-M=-TL~.~~:,. ~ ~ ~ - _ i tc ~~ i _ -~ ~ i ~ ~~ ~~4~ i *, ~ UI / i ~ 11i j ~ I n una popolazione dz 10 000 abitanti i dati storici riguardanti una malattia rara fanno registrare 4 casi l'anno. S e in un anno si vem'ficano 10 casi, siamo i n presenza di un zncremento della malattza o si tratta semplicernente di u n a fluttuazione statistzca? j i , ~ ~
Risposta. L'ipotesi di lavoro pi& ragionevole sta nell'assumere come modello del fenomeno la distribuzione di Poisson di media p = 4. I n questo caso n o n possiamo utilizzare l'approssimazione gaussiana, che richiede p > 10 e siamo costretti ad utilizzare la (3.92). La probabilita di osservare, per puro caso, almeno 10 casi di malattia quando la media annuale 6 4 vale allora:
I n aalternativa, si pud usare E'zstruzione SCILAB:
che dct come m'suktato x=0081322. Questo numero rappresenta il live110 di significativith osservato dell'ipotesi,
~
-
108
Capitolo 3. Calcolo elementare delle probabilita
ciod la probabilitri di scartare u n a ipotesi giusta. Possiamo allora ragionevolmente dire che siamo in presenza di un increment0 della malattia, con u n a probabilitd di sbagliarci di circa 1' 8 per mille. Da ultimo, consideriamo un esempio molto istruttivo, che si pub considerare come il paradigma del mod0 di operare della scienza per cib che riguarda il rigetto (falsificazione) o meno di una teoria. Esercizio 3.17
-= == ----+
d
Una commissione di astrologi interroga u n a persona, di cui ignora le generalitd anagrafiche, cercando di identificarne il segno zodiacale. Alla fine dell'interrogatorio vengono sottoposti alla commisszone 3 segnz zodiacalz, uno corretto, gli altri due erratz. S e la commissione ottenesse almeno 50 successi s u 100 prove, si potrebbe ragionevolmente attribuire all'astrologia u n a qualche validztd sczentifica? Risposta. Assumiamo come ipotesi nulla la pura casualita. I n questo caso la probabilitd che la commissione ha di dare la risposta giusta tirando a indovinare d pari a 113 per ogni persona interrogata. I termini del problema sono allora: 0 0
e
funzione di densitd: binomiale; numero di tentativi: n = 100; probabilitd di success0 i n u n tentativo: p = 113; numero di successi ottenuti: a: = 50; media attesa della distribuzione: p = n p = 33.3; deviazione standard: D = = 4.7.
Dato che valgono le condizioni n p > 10, n ( l - p ) > 10, possiamo utilizzare le probabilitci gaussiane e trovare il live110 di signijicativitb del valore standard
La probabilitb di ottenere almeno 50 successi b calcolabile con la Tab. D.l dell'appendice D:
oppure con l'istruzione S C I L A B 0.5-0.5*erf(3.55/sqrt( 2 ) 1=O.0001926 spiegata a pagina 80. Possiamo pertanto rigettare l'ipotesi della casualith, con u n a probabilitd di sbagliare di circa 2 s u 10000. S e si ottenesse u n a sem'e di risultati di questo genere, l'astrologia acquisterebbe dignitd scientifica e potrebbe essere a buon titolo insegnata nelle scuole. Tuttavia, la realta 6 ben diversa: nel 1985 la rivista Nature [15] ha riportato i risultati dz questo test, compiuto da u n a commissione mista di scienziati e astrologi. La percentuale dei successi, in 120 prove, d stata del 34%. A
3.13 Problerni
109
tutt'oggi, tanto per l'astrologia come per molte altre pseudoscienze come la telepatza e la chiaroveggenza, n o n t: m a i stato pubblicato, su nessuna rzvista accredztata presso la comunitci scientifica internazionale, alcun risultato che si discosti significatiwamente dalle leggi del caso. I n altre parole, possiamo dzre che zn questo genere di esperimentr l'zpotesi della pura casualitci n o n b mat stata falsijicata, ovvero che astrologia, telepatia e chiaroveggenza n o n hanno validitci scientifica. a
--
* = : * = > a
9
---
-e~~~~k~--*-&z-E*-*~=~~*~*~~%~-~a
In questi ultimi esercizi abbiamo discusso se accettare o meno u n valore sperimentale avendo adottato a priori un certo modello probabilistico. Questi argomenti, che sono oggetto della statistica, verranno discussi dettagliatamente pi^ avanti, a partire dal cap. 6. Crediamo comunque che vi sia stato utile avere dato uno sguardo preliminare a questi interessanti problemi.
3.13 Problemi 3.1. Risolvcre il problema 1.9 (valutare la probabilith P { X 5 Y ) per due variabili uniformi 0 5 X, Y 5 1) senza ricorrere ad argomenti geometrici. 3.2. Passeggiata a caso: una particella procede per passi e ad ogni passo pub staie ferma xo = 0 oppure effettuare una deviazione di X I = +1, con uguale probabilit8. Calcolare, dopo 500 passi, il valor medio e la deviazione standard del percorso X.
3.3. A differenza del problema precedente, questa volta la particella sceglie ad ogni passo, con uguale probabilita p = 112, le deviazioni xo = -1 e X I = $1.
Calcolare la probabilita 3.4. La probabilita di trasmettere un bit sbagliato b che a) in un numero di 16 bit vi sia un bit sbagliato e b) il valor medio o atteso dei bit sbagliati. 3.5. La probabilita che in una certa stagione una persona abbia il virus dell'influenza b del 20%. Trovare la probabiliti che in una sala di 200 persone i portatori dell'influenza siano tra 30 e 50. 3.6. Trovare, per n -+ co,la funzione di densita della variabile Y = X I X ~...X,, dove le Xisono variabili aleatorie positive che soddisfano le condizioni del teorema Limite Centrale. 3.7. A volte, per caratterizzare la larghezza di una funzione di densitb, si usa la "semi-larghezza a meth altezza", detta anche FWHM (dall'inglese Full Width at H a g Maximum), definita come FWHM= 1x2 - X I 1, dove XI) = p(x2) = pmax/2. Trovare la relazione tra FWHM e cr per una gaussiana.
3.8. In un ospedale si registra in media un parto gemellare ogni tre mesi. Supponendo una distribuzione esponenziale negativa, determinare: a) la probabilith di non avere parti gemellari per almeno 8 mesi; b) la probabilita di non avere parti gemellari entro un mese se sono passati 8 mesi senza parti gemellari. 3.9. La somma dei quadrati di 10 variabili standard vale 7. Trovare la probabiliti di sbagliare affermando che le variabili non sono gaussiane ed indipendenti.
110
Capitolo 3. Calcolo elementare delle probabilith
3.10. I dati storici fanno registrare 8500 morti l'anno per incidenti stradali. L'anno successivo all'introduzione delle cinture di sicurezza i morti calano a 8100. Considerando il dato storico come valore medio vero e il dato annuale come variabile aleatoria, valutare se le cinture di sicurezza hanno fatto diminuire il numero dei morti in mod0 significativo, ad un live110 dell'l%. 3.11. Se la frequenza media di eventi poissoniani B di 100 a1 secondo, calcolare la frazione di intervalli di tempo tra due eventi minori di 1 millisecondo. 3.12. Una certa quantiti di sostanza radioattim emette una particella ogni due secondi. Eseguendo un test su un campione, non si registrano conteggi per 10 secondi e si conclude che la sostanza i: assente. Qua1 i! la probabilita che la conclusione sia errata? 3.13. Dimostrare che, se vale la legge di Poisson (3.47), i conteggi in intervalli di tempo disgiunti sono variabili aleatorie indipendenti. 3.14. Trovare l'intervallo, centrato sulla media, che contiene con probabilitA del 50% i vvalri di una variabile gaussiana standard. 3.15. Trovare media e deviazione standard di una gaussiana sapendo che la probabilitk in una prova di ottenere valori maggiori di 4.41 vale il 21% e quella di ottenere valori maggiori di 6.66 i! il 6%. 3.16. Un fenomeno poissoniano fa registrare 100 eventi in 5 giorni. Calcolare quanti giorni in media devono trascorrere prima di registrare 4 eventi in un'ora. 3.17. Utilizzando il teorema 3.5, trovare un algoritmo di generazione casuale di variabili aleatorie dalla densit%p(x) = 22 - 2,1 5 x 2.
<
4. Calcolo delle probabilitii per piu variabili
" Qui, in effetti, la geometria dei picchi e delle valli B a n dimensioni... ed i: intrattabile." David Ruelle, "CASOE CAOS".
4.1 lntroduzione In questo capitolo affronteremo argomenti un po' pih complessi di quelli del capitolo precedente. Questa fatica sarA perb ripagata dai risultati che ot,terremo, che saranno indispensabili per capire e trattare i problemi che coinvolgono pih variabili aleatorie. Per non complicare inutilmente il formalismo matematico, i problemi saranno discussi inizialmente per il caso di due variabili aleatorie. Successivamente, poich6 l'ipotesi di due sole variabili non entrer5 mai nelle dimostrazioni dei teoremi e nella discussione, i risultati saranno facilmente estesi ad un numero qualunque di variabili. I risultati saranno inoltre prevalentemente ottenuti in forma integrale, considerando variabili continue. n passaggio a1 caso di variabili discrete B immediata.mente ottenuto con trasformmioni del tip0
dove (. . .) indica una qualunque espressione contenente variabili aleatorie e parametri. La (4.1) B immediatamente estendibile anche a1 caso di piG variabili.
4.2 Distribuzioni statistiche multidimensionali Se X e Y sono due variabili casuali definite sullo stesso spazio di probabilit8, definiamo come A l'evento in cui un valore z B compreso tra due valori XI e xz {XI 5 X 5 22) e analogamente l'evento B come {yl 5 Y 5 y2). Scriviamo la probabilith composta P(AB) come:
112
C a ~ i t o l o4. Calcolo delle orobabiliti wer ~ i i variabili r
che i: la probabilita che il valore di (x, y) cada in una funzione p(x, y) 2 0 tale che
[XI, x2] x
[ y ~yz]. , Se esiste
si dice che p(x, y) 6 la densitci congiunta di probabilita delle due variabili. Essa b l'estensione bidimensionale della funzione di densitb definita nel par. 2.7. pi^ in generale, se A E R2, si pub dimostrare che, se p(x, y) soddisfa la (4.3), la probabilitb che (X, Y) E A (ad esempio x + y 5 a, con a costante) i! data da [2]: p{(X, y ) E A} =
j
r
P(X,Y)dx dy
A
,
(4.4)
la quale diventa I'analogo del generic0 integrale (3.92) e della funzione cumulativa o di ripartizione (2.34) quando
5 a,-oo I Y 5 b ) .
P{(X,Y) € A ) = P { - o o < X
La condizione di normalizzazione, le medie e le varianze delle variabili coinvolte si ottengono come immediata generalizzazione delle corrispondenti formule monodimensionali:
dove l'integrazione si intende estesa in (-co,+oo), ovvero in tutto l'intervallo di esistenza della funzione di densit&. Come nel caso monodimensionale (si veda la def. 2.10), per l'esistenza dei valori medi si richiede l'assoluta integrabilita o sommabilit8. Nel seguito l'integrazione multipla verra indicata semplicemente col simbolo di integrale singolo. Se X e Y sono stocasticamente indipendenti second0 la (2.10), il teorema delle probabilitb composte e le (1.20, 1.23, 2.10) permettono di scrivere, per ogni coppia (XI,xz) e (yl ,yz):
cio6: p(x, y) dx dy =
lr
PX ($1
dx
lr
P ~ Ydy)
e quindi di definire la densita congiunta come: p(x, y ) = p x (x) p y (y)
(se X e Y sono indipendenti)
,
(4.6)
4.2 Distribuzioni statistiche multidimensionali
113
dove p x (x) e py (y) sono le densita di probabilita delle variabili X e Y. E possibile anche definire medie e varianze di combinazioni di variabili. Ad esempio:
E facile mostrare, dalla seconda e dalla terza delle (4.5) e dalla seconda delle (4.7),che (X+ Y ) = (X) (Y) (4.8)
+
e che, se X e Y sono stocasticamente indipendenti, dalla prima delle (4.7) e dalla (4.6) segue: ( X U )= ( X ) ( Y ) (4.9) Fin qui non sembra esserci qualcosa di nuovo, se non la ovvia generalizzazione delle formule monodimensionali. Invece, le distribuzioni multidimensionali riservano subito delle sorprese, perch6 t? possibile la definizione di almeno tre nuove importanti quantita, la densitb marginale, la densitb condizzonata e la covarianza tra le variabili.
Definizione 4.1 (Densith marginale). S e X e Y sono due varzabilz aleatorie con densith p(x,y) ed A 6 u n intervallo dell'asse reale, la densitd marginale px (x) i. definita dalla relazione
da cui:
La densita marginale py(y) dz y si ottiene dalla formula precedente scambiando x con y .
E facile vedere che le densita marginali sono normalizzate:
Le densit&marginali danno la probabilitj di eventi del tip0 {X E A) per ogni valore di Y (e viceversa); esse rappresentano pertanto le densit&di probabilita monodimensionali delle variabili X e Y. PoichC spesso e importante stabilire se due o pih variabili sono indipendenti, risulta molto utile il seguente
114
C a ~ i t o l o4. Calcolo delle urobabilitl uer uih variabili
T e o r e m a 4.1 ( I n d i p e n d e n z a d i variabili). Due variabili aleatorie ( X ,Y ) , di densitci congiunta p(x, y ) , sono stocasticamente indipendenti se e solo se esistono due finzioni g ( x ) ed h ( y ) tali che, per ogni x , y E R, si abbia:
Dimostrazione. Se le wariabili sono indipendenti, la (4.6) dimostra la prima parte del teorema con g ( x ) = p x ( x ) e h ( y ) = p y ( y ) . Nel caso invece valga la (4.12), i n generale si avrh:
Dato che p ( x , y ) b una densitci normalizzata, dalla prima delle (4.5) risulta (sottointendendo i limiti di integrazione):
E possibile allora definire le due densitci rnarginali normalizzate:
da cui, dato che HG = 1, si ottiene la (4.6):
In corrispondenza di u n valore fissato zo la funzione p ( x 0 , g ) deve rappresentare la densit& di probabilita monodimensionale della variabile Y . Tuttavia, poiche p(xo, y ) non 6 normalizzata, tenendo presente la (4.11), si pub definire la D e f i n i z i o n e 4.2 ( D e n s i t h c o n d i z i o n a t a ) . Se X e Y sono due wariabili aleatorie con densitci p ( x , y), la densitd condizionata p ( y ( x o ) di y per ogni x = xo fissato e tale che p x ( x 0 ) > 0 , 6 data da: P(ZO,Y) ~ ( ~ 1 x=0 pxo )
P(XO,
Y)
foo
J_,
~
(
~
Y 0) d1y
Anche in questo caso la densitd condizionata; p ( x J y ) di x rispetto ad y si ottiene scambiando le due variabili nella formula precedente. Le densit& condizionate cosi definite sono normalizzate. Infatti:
4.2 Distribuzioni statistiche multidimensionali
115
E importante notare che la densiti condizionatap(yJx)2! funzione della sola y, essendo x un valore fissato (parametro). Lo stesso vale per p(xly) scambiando le due variabili. E quindi sbagliato scrivere:
in quanto p(ylz) B funzione solo di y. Per trovare la scrittura corretta occorre rifarsi alla definizione di probabilita condizionata data dalla (1.19):
Sempre per un determinato valore fissato a priori, F: possibile definire gli operatori media e varianza condizionati. Ad esempio, il valore atteso di Y condizionato d a un valore z B dato da:
dove px(x) = Jp(x, y) dy i: un numero essendo x fissato. Le densitb marginale e condizionata discendono dal teorema 1.2 delle probabiliti composte. Infatti, invertendo la (4.13), possiamo scrivere:
che corrisponde alla formula delle probabilitb composte (1.20) per variabili continue: la densit&di (X, Y) i: data dalla densita in Y per la densita di X per ogni Y fissato (o viceversa). Quando le variabili sono indipendenti, dalle (4.6, 4.13) si ottiene: p(x1y) = px (x)
,
p(y jx) = py(y) ,
( X ed Y indipendenti).
(4.16)
La differenza tra densita marginale e condizionata pub essere ben cornpresa con l'aiuto di Fig. 4.1; la densit& marginale si ottiene proiettando semplicemente la curva in una dimensione, mentre la densita condizionata B la proiezione della curva sull'asse y (ciok la densita probabilita di y) per un determinato valore x (o viceversa). Notiamo anche che le medie e le varianze definite nelle (4.5) possono essere espresse utilizzando le densitb marginali:
116
Ca~itolo4. Calcolo delle probabiliti oer pih variabili
Fig. 4.1. La densit&marginale p y ( y ) di y rappresenta la proiezione sull'asse y della densiti dei punti (x, y) per qualunque valore di z. La funzione p ( x o , y) rappresenta invece la proiezione sull'asse y della densita dei punti in corrispondenza di un determinato valore xo (linea tratteggiata). Questa funzione, normalizzata con la (4.13)' rappresenta la densit&condizionata della variabile Y in corrispondenza del valore
xo
Occupiamoci ora della quarta delle (4.7); poichh dalla (4.8) risulta che la media della somma i: pari alla somma delle medie, otteniamo:
dove Cov[X, Yl
=
I
(x - Px) (Y - P ~ ) P ( XY) , dx dY -
Introduciamo pertanto la
Definizione 4.3 (Covarianza di due variabili). La covarzanza dz due variabili aleatorie X e Y 2 definita come
Questa grandezza ii una sorta di definizione "incrociata" rispetto alle due varianze possibili a: e a: definite nelle (4.5). Essa ii una grandezza quadratica, avente come dimensione il prodotto delle dimensioni di X e Y. A titolo di esercizio, trascriviamo la definizione generale (4.20) per i vari casi possibili,
4.2 Distribuzioni statistiche multidimensionali
117
analogarnente a quanto fatto per la varianza nelle (2.38, 2.41, 2.66). Quando si ha una densit& discreta p x y la covarianza diventa:
dove la somma si intende estesa a tutti i valori dello spettro delle due variabili. I1 calcolo diretto da un insieme di dati va invece eseguito sulla somma di tutte le realizzazioni numeriche delle variabili:
Qui la somma va fatta solo su un indice, cio&su tutte le coppie (xi, yi) che si sono ottenute, dividend0 per N - 1 quando si calcolano gli scarti dalle medie campionarie e non dalle medie "vere" assegnate a priori. L'insieme di queste coppie esaurisce, per N + oo, l'insieme dato dalle coppie (xi, yk) quando gli indici i e k rappresentano i valori dello spettro delle due variabili. Questo & un punto formale ma importante che va tenuto presente per eseguire calcoli corretti: quando la covarianza ?I calcolata attraverso la funzione di densit&, la sommatoria 2 doppia e va fatta sulle probabilitd delle coppie dei valori possibili delle due variabili; quando la covarianza b calcolata da u n insieme sperimentale di dati, la somma 6 singola e va fatta su tutte le coppie ottenute nel campionamento. I1 software SCILAB fornisce la funzione che calcola la covarianza dalla (4.21), dove x e y sono du delle probabilith o frequenze di tutte le coppie possibili (xi, yj). Per calcolare e di dati (xi, y i ) con le (4.22,4.23), abbiarno scritto dove x e y sono i vettori dei valori misurati. I1 ei commenti della funzione, k un vettore contenente la covarianza ed il coefficiente di correlazione con il relativo errore statistico, che verrA introdotto pih avanti, nel capitol0 6. Per finire, notiamo che in notazione operatoriale abbiamo:
Vale anche la relazione notevole, analoga alla (2.50):
dalla quale si vede che la covarianza k data dalla media dei prodotti meno il prodotto delle medie.
118
Capitolo 4. Calcolo delle probabilith per pih variabili
L a covarianza gode di proprieth particolarmente interessanti che verranno discusse nel prossimo paragrafo. Esercizio 4.1 p = l / X = 1000 ore
(si veda la 3.49). Viene realizzato u n dispositivo costituito dai due elementi i n parallelo, il che significa che esso funziona finche' almeno u n o dei due dispositiui 6 funzionante. Quanto 6 maggiore il tempo di vita medio del dispositivo i n parallelo rispetto a quello del singolo dispositivo? Dopo u n tempo pari a 2000 ore, qua1 t: la probabilitd che il dispositivo singolo e quello i n parallelo siano ancora funzionanti? Risposta. S e tl e t z sono i tempi di guasto dei due dispositivi, il parallelo cesserd di funzionare ad u n tempo t tale che t = m a x ( t l , t 2 ) .La probabilitb di funzionamento fino a t, cio; di u n guasto al tempo t, sara data dalla probabilitb composta che il primo dispositivo e il second0 cessino di funzionare. Dato che i due dispositivi sono indipendenti, basta allora integrare i n [ O , t ] la densitci congiunta dei tempi (4.6), come previsto dalle (4.4, 4.12): P { r n a x ( T l , T z )5 t ) = P{Tl
< t ,T2 5 t ) =
el ( t ) d t
e z ( t )d t
poiche' le due distribuzioni esponenzialz el ed ez sono uguali, dalla (3.51) si ha immediatamente:
la quale rappresenta la funzione di ripartizione monodimensionale dei tempi di guasto del dispositivo i n parallelo. Derivando la funzione di ripartizione otterremo, in base alla (2.36)) la densitd di probabilitb e p ( t ) corrispondente. S i ha pertanto: e,(t) = 2 ~ e - ' ~(1- e-'t) , la quale n o n B u n a esponenziale semplice. La media dei tempi di guasto:
corrisponde ad u n increment0 nella vita media del 50 %. Veniamo alla seconda parte del problema. La probabilitd di funzionamento dopo un tempo to = 2000 ore b data, per il dispositivo singolo, dalle (3.51, 3.52):
4.3 Covarianza e correlazione
119
La stessa probabilith, per il parallelo, k data da:
Dopo 2000 ore l'aumento di afidabilitci b quasi del 100 %. 29
4.3 Covarianza e correlazione La covarianza di due variabili aleatorie gode dell'importante proprieta di annullarsi quando le variabili sono indipendenti. Infatti in questo caso la densitb p(x, y) che compare nella (4.20) si pub scrivere, in accord0 con la (4.6)' come il prodotto px(x)py(y). Si ottiene allora immediatamente, dato che pX (x)e py ( y ) sono normalizzate:
Segue immediatarnente dalla (4.19) che, per variabili Xi tra lor0 indipendenti, la varianza della somma B pari alla somma delle varianze:
La covarianza si presta quindi ad essere un indicatore statistic0 della correlazione: tanto pih essa B diversa d a zero tanto pih le variabili sono correlate. Come, valutare per6 il grado massimo di correlazione? Come renderlo indipendente dall'insieme di dati che si sta esaminando? Questa difficolta si pub superare grazie a1
Teorema 4.2 (di Cauchy-Schwarz). Se le variabili X e Y hanno varianze finite, allora vale la disuguaglianza:
Dimostrazione. La (4.28) pub essere scritta come:
5.3 Funzioni di pih variabili aleatorie
151
0.41
Fig. 5.3. Convoluzione di una gaussiana standard con p = 0 e c = 1 (linea tratteggiata) con una densit2 uniforme limitat a tra -2 e 2 (linea tratto-punto). La curva risultante e la linea piena
Risposta. Dalle (3.28, 3.77) 5.32) si ha immediatamente:
Questa densitci non 2 altro che una gaussiana di media ( z - p) e varianza a2 integrata entro i limiti della densitd uniforme di partenza. Ricorrendo alla gaussiana cumulativa (3.43) possiamo scrivere:
Nelle misure di grandezze fisiche, spesso a110 strumento viene associata una dispersione casuale di tipo uniforme, mentre alle operazioni di misura una dispersione di tip0 gaussiano (vedi cap. 11). I n questi casi la (5.34) fornisce la legge di dispersione totale della misura, ed b pertanto importante nello studio della propagazione degli errori, che verrci svolto nel par. 11.6. La Fig. 5.3 mostra che la forma di questa densitci risultante b abbastanza simile ad una gaussiana.
Esercizio 5.2
somma di due variabili indipendenti X , Y
-
U(0,l).
4.3 Covarianza e correlazione
121
Evidentemente, la definizione dipende dal coefficiente di correlazione che viene usato nella analisi dei dati. Per il momento, usiarno il coefficiente di correlazione definito nella (4.31) ; nel seguito, nella (10.lo), daremo la definizione piir generale di questo coefficiente. Notiamo anche che qui il significato di correlazione B molto tecnico e non coincide necessariamente con il senso che il linguaggio comune assegna a questo termine. Fatte queste premesse, analizziamo in dettaglio il problema. Notiamo subit0 che, se le variabili sono correlate (cioi?il coefficiente p,, della (4.31) non 15 nullo), allora tra di esse deve esistere un certo grado di dipendenza. Tuttavia, l'inverso non B vero. Per dimostrare questo fatto, basta un controesempio: consideriamo le variabili X = U V e Y = U - V, dove U e V sono variabili uniformi in [O, I]; X e Y sono dipendenti perchi: non vale la (4.12), ma hanno coefficiente di correlazione nullo perchi: B nulla la covarianza. Infatti, dato che(U+V)=le(U-V)=0:
+
Cov[X,YI = ((X- (X))(Y - (Y))) = ((U+V-(U+V))(U-V-(U-V))) = ((U+V-1)(U-V)) = ( u 2 - v 2 - u + v ) = =
(u2)- (v2)- (U) + (V) = 0 "
poich6 U e V hanno la stessa distribuzione. Un altro punto chiave, dimostrato nella (4.26), i:che, se due variabili sono statisticamente indipendenti, allora esse sono anche incorrelate. Possiamo riassumere la discussione nei punti seguenti: condizione sufficiente perch6 vi sia dipendenza statistica B la presenza di correlazione; condizione necessaria per l'indipendenza statistica B la mancanza di correlazione (pZy = 0). Queste proprieta sono riassunte in Fig. 4.2. Esercizio 4.2 -swai2 W L S e T ,U e V U(0, l), calcolare zl coeficzente di correlazione lzneare tra la variabile: X =T
e Ee variabili:
Fare inoltre u n a verifica con dati sirnulati a1 calcolatore. Risposta. T e n e n d o presente le (3.80), per u n a generica variabile unifoforme U valgono le relazioni:
~
122
Ca~itolo4. Calcolo delle ~robabilitaper pih variabili
correlate
I incorrelate /
Fig. 4.2. Legarne tra correlazione e dipendenza statistica. Per variabili gaussiane gli insiemi delle variabili correlate e dipendenti e quelli delle variabili indipendenti e incorrelate coincidono.
mentre per u n a coppia (U, V ) di variabili unzformi indipendenti si ha: (UV)=
~
I
1
~ ( rdT)
Dalle (4.24? 4.31) otteniamo facilmente:
PPX,EI
=
( ( T - 1/2)(-T [ ( ( T - 1 / 2 ) 2 ) ((-T
S
8~
( sds) = 114
+V ) )
- --1
+ v ) ~ )-] ' a ~~ " -0.7071
.
I diagrammi di dispersione delle tre coppie di variabili sono riportati in Fig. 4.3, dove 1: possibile vedere chiaramente lo diflerenza tra due variabiY l ) e due li incorrelate ( X , Y ) , due variabili con correlazione positiva (X, variabili con correlazione negativa ( X , Yz). Si pub verificare l'esercizio con u n a simulazione utilizxando SCILAB e la noP e r generare N = 20 000 variabili uniformi x, y , correlazione basta porre: x=rand(l, 20000) ; y=rand(i,20000) ; v=rand(l, 20000) ;
yl= x + v; y2= -x + v; Corcov(x,y); / / vengono mostrati i d a t i
Corcov(x,yl) ; Corcov(x,y2) ;
...
4.4 Densit3 gaussiana bidimensionale
123
II coeficiente di correlazione p[X, Y] ( e analogamente i coeficienti p[X, Yl] e p[X,Y2]) sono stimati dalla routine con le formule;
dove si sono usati i simboli latini perche' si tratta di valori campionari (si veda la def. 2.8). La couarianza viene calcolata dai dati con u n a sommatoria unica, utilizzando la (4.22). Inoltre, si usa il fattore N - 1 al posto di N perche' le varianze e covarianze sono state calcolate rispetto alle medie empiriche e n o n rispetto a quelle vere. Questa misteriosa correzione, gici introdotta nella (2.391, verrci finalmente spiegata nel cap. 6. Dalla simulazione abbiamo ottenuto i valori:
Imparerete a decidere se la differenza tra questi valori "sperimentalz" e quelli teorici 0 , 0.7071, -0.7071 i: significativa o m e n o nel cap. 6, quando vi zntrofornisce anche gli errori sulle stime della couarianza e he sranno discussi piti avanti, nel cap. 6. d##i=wU!#%M~ll#m%%liB= - & W % d ~ V !
-A?&$-:
JJjvLdqn@l.~#d8LwL-~~J
-%bl:-
9
4.4 Densit3 gaussiana bidimensionale Anche nel caso multidimensionale moltissimi problemi possono essere trattati in mod0 esatto o approssimato supponendo di avere a che fare con variabili normali o gaussiane. Risulta pertanto quasi indispensabile studiare a questo punto la densitii gaussiana bidirnensionale. Per prima cosa, notiamo subito che la densit& g(x,y) di due variabili gaussiane indipendenti s a r i data, in base alle (3.28, 4.6), dalla semplice espressione:
124
Capitolo 4. Calcolo delle probabilith per pih variabili
2'
Fig. 4.3. Diagrammi di dispersione delle coppie di variabili considerate nell'esercizio 4.2: assenza di correlazione (a), correlazione positiva (b) e correlazione negativa (c)
I'analogo bidimensionale della densit& gaussiana standard (3.42) sar& dato
La densit&generale che vogliamo trovare deve per6 riferirsi a due variabili normali tra lor0 dipendenti e quindi, in generale, correlate con coefficiente di correlazione lineare p, p # 0. La densit&standard corrispondente dovrh percib soddisfare le proprieta non essere fattorizzabile in due termini dipendenti rispettivamente solo da u e solo da v; r avere distribuzioni marginali gaussiane standard; r soddisfare I'equazione a , , = p; a soddisfare la condizione di normalizzazione. Verifichiamo se esiste una forma funzionale del tipo
che soddisfa a tutte queste condizioni. Esse si traducono nel sistema di equazioni:
4.4 Densit3 gaussiana bidimensionale
125
Questi integrali possono essere risolti col metodo indicato nell'esercizio 3.4 e forniscono un sistema di 4 equazioni nelle 4 incognite a, b, c, d. Poichk il procedimento dettagliato, per quanto laborioso, non b particolarmente difficile n6 istruttivo, qui ne riportiamo solo il risultato finale. Se volete, potete facilmente controllare a posteriori la correttezza del risultato, che, se p # f1, risulta essere:
La (4.36) risulta allora:
E facile vedere che questa densith, come richiesto, d&luogo a due densit2 marginali gaussiane standard, per ogni p # fl. Infatti, aggiungendo e sottraendo nell'esponente il termine p2u2 ed integrando in y otteniamo:
dove si i? posto z = (v - p u ) / 4 v , dv = J m d z e si b utilizzato l'integrale notevole (3.29) dell'esercizio 3.4. Lo stesso risultato si ottiene ovviamente per la densith marginale in v. Tornando dalle variabili ridotte a quelle normali, dalla (4.38) otteniamo infine la densita:
che rappresenta la forma pi^ generale di gaussiana in due dimensioni.
126
Capitolo 4. Calcolo delle probabilith per pih variabili
A questo punto possiamo enunciare una notevole propriet& delle variabili gaussiane: quando il coefficiente di correlazione lineare i: nullo, esse sono indipendenti. Infatti, ponendo p = 0 nella (4.40), si ottiene una densith corrispondente a1 prodotto di due gaussiane in x e y. In base a1 teorema 4.1, questa B la densita di due variabili aleatorie indipendenti. La condizione p = 0, che in generale B solo necessaria per l'indipendenza, in questo caso diventa anche sufficiente. Vale pert anto il Teorema 4.3 (Indipendenza di variabili gaussiane). Condizione necessaria e sufficiente affinche' due variabili aleatorie congiuntamente gaussiane (normali) siano indipendenti, i: che il loro coeficiente di correlazione lineare sia nullo. Vediamo quindi che I'esistenza di una covarianza nulla (che implica p = 0) tra variabili gaussiane assicura la indipendenza statistica e quindi l'assenza di un legame di causa-effetto tra di esse (si veda la Fig. 4.2). Riconsiderando ora le distribuzioni marginali ridotte (4.39), notiamo che, passando dalle variabili standard a quelle normali si ottengono in x e y due distribuzioni gaussiane monodimensionali del tip0 (3.28), nelle quali non compare il coefficiente di correlazione. Emerge qui un. altro fatto importante: la conoscenza delle due distribuzioni marginali, ciok delle proiezioni della gaussiana sui due assi x e y, non basta per una conoscenza completa della densita bidimensionale, perch6 variabili correlate o incorrelate danno in entrambi i casi proiezioni gaussiane. La conoscenza della covarianza o del coefficiente di correlazione i3 quindi essenziale per la determinazione completa della distribuzione statistica delle variabili. Facciamo ora qualche considerazione sulla forma della gaussiana bidimensionale. La Fig. 4.4 riporta tre casi: variabili incorrelate, parzialmente correlate e totalmente correlate. Se immaginiamo di tagliare la curw con piani di quota costante, l'intersezione dB luogo ad una curva di equazione: u2 - 2puv $ u2 = costante
,
(4.41)
per variabili standard, e ad una curva
per variabili normali. Queste curve in generale rappresentano delle ellissi, dette ellissi di concentrazzone, con centro nel punto (px,p,). Se p = 0, l'ellisse ha gli assi principali paralleli agli assi di riferimento e degenera in una circonferenza se D~ = oy.Infine, se p = f1, le variabili sono completamente correlate e l'ellisse degenera in una retta di equazione
4.4 Densit%naussiana bidimensionale
127
Fig. 4.4. Gaussiana in due dimensioni nel caso di variabili incorrelate a), parzialmente correlate b), totalmente correlate c). Sono ankhe mostrate le distribuzioni marginali per un determinato valore xo, la retta di regressione ( Y l x ) e la corrispondente dispersione ~ [ Y l x ]
In questo caso la curva normale si schiaccia completamente su un piano, come . ha allora a che fare con una sola variabile aleatoria mostrato in Fig. 4 . 4 ~ ) Si (X o Y) essendo l'una completamente dipendente dall'altra attraverso una relazione matematica. A questo punto B necessario soffermarsi su di un'importante proprietb della gaussiana bidimensionale: quando gli assi principali dell'ellisse sono paralleli agli assi di riferimento, allora p = 0, le variabili sono incorrelate e qnindi, per il teorema 4.3, anche indipendenti. E allora sempre possibile, operando una rotazione di assi, trasformare una coppia di variabili gaussiane dipendenti in variabili gaussiane indipendenti. Questa proprieta che, come vedremo, B generalizzabile ad un numero qualunque di dimensioni, sta a fondamento del test X 2 applicato alla verifica di ipotesi in statistica. L'espressione dell'angolo di rotazione la si trova in mod0 abbastanza semplice operando sulle variabili standard (4.34) una generica rotazione di un angolo a! degli assi di riferimento:
Se non vi ricordate questa formula potete consultare un qualunque testo di fisica o geometria. Le nuove variabili A e B per essere incorrelate e indipendenti devono avere la covarianza (e quindi il coefficiente di correlazione) uguale a zero. Imponiamo dunque:
128
Capitolo 4. Calcolo delle probabilith per piir variabili
(AB) = ((Ucosa+Vsena)(-Usena+Vcosa)) = - sen a cos a ((u2)- (v2)) (cos2a - sen2 a ) (UV) 1 = - - sen 2a ((U2) - (V2)) cos 2 a ( U V ) = 0 . 2
+
+
Poichk per le variabili standard (U2) = (V2) = c2 = 1, si ottiene la condizione
Per questo valore di a il sistema (4.44) diventa:
Sono naturalmente valide le relazioni inverse:
ed anche la conservazione della norma in una rotazione, come B facile verificare: (4.48) A ~ + B ~ = u ~ + v ~ . Sostituendo le (4.46-4.48) nella (4.41) otteniamo:
Se ora consideriamo l'esponente della gaussiana standard (4.38), passando alla notazione minuscola, vediamo che esso si trasforma come:
Poich6 lo jacobiano della trasformazione (4.47) vale: du 8th d a d b -
1
-
1
I
a 1
1 1 =-+-=I 2 2
'
otteniamo:
1 1 - 2 ~ e ~ [-5 p
(5+ hi)]
da, db, ,
4.4 Densitl aaussiana bidimensionale
129
dove:
Le (4.50, 4.51) contengono due risultati di fondamentale importanza. I1 primo i! che, date due variabili gaussiane con p # f1, k sempre possibile, passando alle variabili standard ed operando una rotazione di un angolo a = f45O, definire due nuove variabili ( A ,B) tra lor0 incorrelate. L'angolo corrisponde ad una rotazione che porta gli assi principali dell'ellisse di concentrazione paralleli agli assi di riferimento. I1 doppio segno nell'angolo indica semplicemente che la rotazione pub consistere indifferentemente nel portare un determinato asse dell'ellisse parallelo all'asse a: oppure all'asse y del sistema di riferimento. I1 second0 fatto importante & che dalle variabili incorrelate (A, B) 6 possibile ottenere due variabili (A,, B,) che sono gaussiane standard indzpendenti. Poichk la somma dei quadrati di variabili gaussiane standard indipendenti, in base a1 teorema di Pearson 3.3, si distribuisce come x2,se ne deduce che due variabili gaussiane con coefficiente di correlazione p # f1, con legame funzionale dato dall'esponente della gaussiana bidimensionale (4.40), danno luogo ad una variabile X 2 ( 2 ) con due gradi di liberth:
Se p = f1, tra A e B esiste una relazione deterministica e i gradi di liberth scendono a uno soltanto. Mostreremo tra poco che la relazione fondamentale (4.52) vale per un numero qualunque di dimensioni. I1 fatto che la (4.52) sia una variabile x2 Q un fatto importante in s6, e non richiede di conoscere la forma esplicita delle variabili gaussiane indipendenti che vi compaiono: i: sufficiente sapere che esse possono sempre essere trovate, se p # 1. I1 calcolo del X 2 viene fatto di solito con le variabili di partenza del problema, anche se esse sono correlate. Per finire, studiamo le densiti normali condizionate. La densith g(ylx), per un certo x fissato, si trova facilmente applicando la definizione (4.13). Nel nostro caso questo comporta la divisione della densita (4.40) per la densit& marginale gx (x), che, in base a quanto gig detto, non 6 altro che una densit& gaussiana monodimensionale g ( x ; p x , a,) data dalla (3.28). Dopo una facile rielaborazione, si ottiene:
Dato che x B costante, questa curva corrisponde ad una gaussiana monodimensionale di media e varianza date da:
130
Capitolo 4. Calcolo delle probabilith per piir variabili
Fig. 4.5. Differenza tra retta di regressione e assi principali
dell'ellisse di concentrazione
x
Le formule appena trovate mostrano che la media di Y condizionata ad x si dispone, nel piano (x, y) ed a1 variare di x, lungo una retta, detta retta di regressione. Si dice anche che tra le medie condizionate della gaussiana bivariata esiste un legame di regressione lineare. La varianza di Y, a1 contrario, si mantiene costante e dipende d a x solo attraverso il coefficiente di correlazione. Uno sperimentatore che esegue una serie di esperimenti consistenti nel campionare Y per diversi valori x mantenuti costanti, osserva una media che si sposta lungo la retta (4.54) ed una varianza costante (4.55). La varianza condizionata Var[Y 1x1 misura la dispersione dei dati intorno alla retta di regressione ed 6 sempre 5 di quella proiettata a:. Essa dipende dall'angolo che gli assi principali dell'ellisse di concentrazione formano con gli assi di riferimento. Se p = 0 le due coppie di assi sono parallele, le rette di regressione coincidono con gli assi dell'ellisse, non c'i: correlazione e le due varianze sono uguali; se p = 1, Var[Ylx] = 0 e lungo la retta di regressione non si osserva dispersione (Fig. 4.4). La densit& condizionata g(xly), per un prefissato valore di y, e le corrispondenti media, varianza e retta di regressione si ottengono dalle formule precedenti scambiando y con x. E possibile, tra variabili gaussiane, una correlazione non lineare? I calcoli appena svolti mostrano che, se le densit& marginali (proiettate) sono entrambe gaussiane, la relazzone deve essere lineare: una relazione non lineare distorce la forma gaussiana su almeno uno dei due assi. Vi anticipiamo anche che la dipendenza non lineare verra trattata in modo dettagliato pih avanti, nel cap. 10. Notiamo infine che le rette di regressione sono, per costruzione, il luogo dei punti di tangenza all'ellisse delle rette parallele agli assi e quindi non coincidono con gli assi principali dell'ellisse (Fig. 4.5). --- Esercizio 4.3 Sono date due variabili gaussiane, X dz media p = 25 e deviazzone standard & -
131
4.4 Densith ~ a u s s i a n abidimensionale
dove YR 21 gaussiana di parametri p,, = 0 e a,, = 6 (nel cap. 10 indicheremo con S T A T X Y questo tipo di legame tra le variabili X ed Y). Determinure la covarianza e il coeficiente di correlazione tra le due variabili. Verificare i risultati con u n a simulazione. Risposta. Media e deviazione standard dz Y valgono:
(Y) = p, = 10 + ( X ) = 35
, a[Y] = o, =
da; + a:,
= 8.48
.
Definendo A X = X - p,, AY = Y - p Y , dalla (4.241 possiamo calcolare la covarianza tra le variabili come: COV[X,Y]= (AX AY) = ( A X ( A X + AYR)) = (A2x) =
02
= 36
,
(4.57)
dove si b s f m t t a t o il fatto che (AXAYR) = 0 , essendo le variabili X ed YR incorrelate per costruzione. I1 coeficiente di correlazione vale:
S i noti che, dalla (4.551, risulta Var[Yjx] = a i ( l - p 2 ) = 8.482(1- 0 . 7 0 7 ~ )= 62 -- a2y RVerifichiamo ora i risultati con u n a simulazione. Come vi spiegheremo in dettaglio nel cap. 7, disponendo del generatore r a n d o m di variabili uniformi, b possibile ~ r o d u r r e "attraverso u n calcolatore delle variabili casuali gaussiane di media e deviazione standard prefissate. Utilizzando il codice S C I L A B : x=grand(i,200000,'norJ,25,6); // 200000 variabili normali y=grand(1,200000,JnorJ, 0,6); / / di media 0 e 25 e std dev 6 y=io.+x+y; xbasc0 ; // viene pulita la f inestra grafica Hist3d(x,y,20,20,plot4=1); // grafico di Fig. 4.6
si ottengono 200 000 valori sirnulati della coppia (X, Y) in accord0 con la (4.56). Dato che S C I L A B n o n possiede routine eficaci per la rappresentaistogrammi bidimensionali, abbiamo fatto uso della nostra che fornisce un risultato come quello di Fig. 4.6, corredato die, deviazioni standard, covarianza e coeficiente di correlazione. Poiche' la correlazione tra X e Y b di tipo lineare, gli istogrammi marginal2 g(x) e g(y) hanno u n a forma di tipo gaussiano, come si pui, vedere facilmente dai grafici di Fig. 4.6. Le medie e le deviazioni standard di questi istogrammi sono u n a stima delle corrispondenti quantitci vere delle densitci g x (s)e g y ( y ) . Esse si possono calcolare tramite le (2.37, 2.39, 4.23). Dalle 200 000 coppie simulate abbiamo ottenuto:
132
Capitolo 4. Calcolo delle probabiliti per piij variabili
Fig. 4.6. Campione di 200 000 eventi, simulato a1 calcolatore utilizzando una popolazione avente la densit& gaussiana bivariata dell'esercizio 4.3. Istogramma bidimensionale g(x,y), istogrammi marginali g(x) e g(y) e vista dall'alto con le curve di densit%(in basso a destra)
Le dispersioni sono state calcolate dividend0 per ( N - 1) = 199 999 poiche' si sono utilizzate le medie empiriche. Queste quantit4 sono state indicate con lettere latine perch6 sono stime campionarie delle (4.17, 4.18). I1 coeficiente di correlazione stimato vale allora:
4.5 Generalizzazione i n uih dimensioni
133
Dato che il campione simulato contiene u n grande numero di eventi, tutti i valori che abbiamo ricauato dai dati coincidono, entro "qualche per mille", con quelli veri. Questi aspetti di convergenza saranno trattati nel cap. 6.
4.5 Generalizzazione in piir dimensioni La generalizzazione delle formule di questo capitol0 a1 caso di piu di due variabili B abbastanza immediata e non presenta difficolth particolari. La densith di probabilith congiunta di n variabili aleatorie 6 data da una funzione non negativa: P(xI,x~,-..,x~) (4.59) tale c h e , s e A & IW", P{(2,x2; . . . ,5,) E A) =
L
p(x1, 5 2 , . . . , 5%)dx1 dxz . . . dx, .
Nel caso di variabili indipendenti si ha:
La media e la varianza della variabile X k si ottengono generalizzando le (4.5):
Nel caso di pi6 variabili la covarianza pub essere calcolata con la (4.20) per una qualunque coppia di variabili (xi, xk):
Si hanno pertanto n(n - 1)/2 covarianze diverse ed n varianze. Esse sono spesso scritte in una matrice simmetrica V, detta matrice delle covarianze: Var[XI] COV[X~, Xz] . . . COV[XI,Xn] . . . Cov [X2,X,] Var[X2] ...
...
. .. . ..
. .. . ..
. ..
Var[XnI
1
(4.63)
,
dove gli elementi diagonali sono le n varianze e quelli non diagonali le n(n 1)/2 covarianze. La matrice B simmetrica perch6 ovviamente Cov[Xi, Xk]= Cov[Xk,Xi]: per questo motivo essa B stata scritta esplicitamente solo sopra la diagonale. In totale gli elementi diversi della matrice sono
134
Capitolo 4. Calcolo delle probabiliti per pih variabili
n(n - 1) 2
+n=
+
n(n I) 2 -
Sovente si introducono i coefficienti di correlazione p[Xi, X k ] ottenuti generalizzando la (4.31) e la matrice delle covarianze viene espressa anche come:
Se le variabili sono incorrelate, i termini fuori dalla diagonale sono tutti nulli, ed i termini diagonali coincidono con le varianze delle singole variabili. Invece della matrice delle covarianze talvolta si usa la matrice di correla-
la quale 6 anch'essa simmetrica. Generalizzando la (4.24) in pii3 dimensioni, la matrice delle covarianze si pub esprimere come:
dove (X - p ) 1: un vettore colonna e il simbolo t indica l'operazione di trasposizione. In questo mod0 il prodotto righe per colonne tra un vettore colonna ed uno riga fornisce la matrice quadrata simmetrica (4.63). I1 calcolo della matrice delle covarianze e dei coefficienti di correlazione a partire d a un insieme di dati pub essere fatto con la nostra routine Covarda%. Le istruzioni per l'uso si trovano nei cornmenti al codice. Le matrici V e C compaiono spesso nel calcolo delle probabilith multidimensionale. Si pub rnostrare che esse godono della fondamentale proprieth di essere definite positive: x t ~ x > O , (4.67) dove l'uguaglianza vale solo se tutti gli n elementi del vettore x sono nulli. Notate che nella forma quadratica (4.67) a sinistra compare un vettore riga x t ed a destra un vettore colonna x , in mod0 da ottenere un numero (non una matrice) che, nel caso V sia diagonale, i: una somma di quadrati del tip0
C "?Xi.
Poichi: ~t = V, (V-l)t = V-l, se x = V-'y si ottiene la relazione:
la quale mostra che anche la rnatrice inversa B definita positiva. Un'altra utile proprietii i: che, per ogni matrice definita positiva, V esiste una matrice H tale che:
4.5 Generalizzazione i n pib dirnensioni
135
dove 1 15la matrice unita. Tutte queste proprietii sono dimostrate in dettaglio nel classico testo di Cram& [22]. E possibile anche generalizzare le (4.11, 4.13) ed ottenere varie distribuzioni marginali e condizionate di una o pih variabili integrando su quelle rimanenti. La generalizzazione B ovvia e non la riportiamo. Quando le X sono variabili gaussiane, esse hanno una funzione densita data dalla generalizzazione multidimensionale della gaussiana bivariata (4.40):
dove V B la matrice delle covarianze (4.63). La densit& (4.70) B detta gaussiana multivariata e pub essere ricavata estendendo in pib dimensioni gli argomenti con i quali si B dedotta la gaussiana bivariata. Ovviarnente, i:facile verificare che la gaussiana multivariata contiene quella bivariata come caso particolare. Infatti, se p f f1:
da cui la (4.40). Se H i: una matrice che soddisfa la (4.69), attraverso la trasformazione
la forma definita positiva che compare nell'esponente della gaussiana si trasforma in:
dove si B utilizzata la terza delle (4.69). L'equazione (4.71) B pertanto l'equivalente della rotazione bidimensionale (4.44). Le move variabili Z sono ancora gaussiane perch6 combinazioni lineari di variabili gaussiane (si veda l'esercizio 5.3 del prossirno capitolo); inoltre, B facile vedere che esse hanno media nulla e che, in base alle (4.66, 4.71) ed alla terza delle (4.69), sono anche variabili standard incorrelate:
-
Dal teorema 4.3 segue che le Zisono mutuamente indipendenti e che pertanto la (4.72) B u n a variabile Q x2(n). La relazione (4.52) vale quindi anche per il caso n-dimensionale.
136
Capitolo 4. Calcolo delle probabilith per pib variabili
Se / V J= 0, tra le n variabili esistono una o piil relazioni di dipendenza lineare; 6 allora necessario individuare un nurnero r < n di variabili linearmente indipendenti e riformulare la (4.70). Pensiamo sia utile ricordarvi che due variabili sono stocasticamente indipendenti (o dipendenti) se vale (o non vale) la (4.12); la dipendenza matematica di tip0 lineare implica invece l'esistenza di equazioni di vincolo ben definite tra le variabili. Due variabili linearmente dipendenti o vincolate corrispondono statisticamente ad una sola variabile. Se l'equazione B lineare, dal teorema 4.2 di Cauchy-Schwarz risulta p = f1. Pertanto, quando si ha a che fare con variabili aleatorie espresse da forme quadratiche definite positive del tip0
dove le X sono variabili gaussiane e W 6 una matrice simmetrica, occorre sempre verificare se I WI = 0. In questo caso B necessario ridurre il numero di variabili determinando, se vi sono tra le variabili p equazioni lineari, (n - p) nuove variabili linearmente indipendenti. La teoria dei sistemi lineari assicura che B sempre possibile determinare queste nuove variabili in mod0 da ottenere ancora una forma quadratica definita positiva di dimensione n - p, per la quale valgono ancora le (4.72, 4.73). E quindi possibile esprimere la forma quadratica come somma di n - p variabili gaussiane standard indipendenti
Ti:
Possiamo a questo punto generalizzare il teorema di Pearson 3.3 come segue:
Teorema 4.4 (Forme quadratiche). Una variabile aleatoria Q -- X2(v) 2 data dalla somma dei quadrati di v variabili standard gaussiane stocasticamente indipendenti, oppure dalla forma quadratica definita positiva (4.74) di variabili gaussiane. I grad2 di libertci sono dati in questo caso dal numero di variabili presenti m e n o il numero di eventuali relazioni lineari che esistono tra di esse.
4.6 lnsiemi di probabiliti in pih dimensioni Consideriamo ora il calcolo dei livelli di probabilitL in piil dimensioni. L'analogo bidimensionale dell'integrale (3.92) B dato da:
Esso fornisce la probabilith che in una prova si ottengano le realizzazioni numeriche delle due variabili aleatorie entro dei limiti fissati. L'intervallo di
4.6 lnsiemi di probabilita in pih dimensioni
137
probabilitii si trasforma in questo caso in un rettangolo, come mostrato in Fig. 4.7a). Quando i limiti inferiori sono a = -co,c = -CQ, la (4.75) fornisce I'analogo bidimensionale della funzione di ripartizione (2.34). La (4.75) pub essere estesa in pih dimensioni considerando una variabile X = (XI, X2, . . . ,X,) e una regione D nello spazio n-dimensionale. La probabilita che una prova fornisca un vettore compreso in D 6 data allora da: p(xl, x2,. . . ,x,) dxl dx2.. . dx, .
(4.76)
Nel caso di variabili gaussiane indipendenti la (4.75) dB luogo a1 prodotto di due integrali di densit&gaussiane monodimensionali. Quando gli intervalli di probabilitii di X e Y sono simmetrici e centrati sulle rispettive medie, i livelli di probabilitii si possono ottenere come prodotto delle funzioni (3.38) definite a pagina 79:
I livelli di probabilita corrispondenti alla legge 3a monodimensionale si ottengono pertanto come prodotto dei livelli di probabilitb monodimensionali (3.35). Ad esempio, la probabilitii che entrambe le variabili siano comprese entro f a , cio&entro una deviazione standard, 6 data da: P { ( X - pxl
< a,,
IY
- pVI 5 ay) = 0.683.0.683 = 0.466
.
(4.78)
Consideriamo ora la gaussiana bivariata standardizzata per il caso di variabili incorrelate (4.35) ed operiamo la trasformazione in coordinate polari:
Poich6 l'elemento di superficie du dv si trasforma in r d r d8 (lo jacobiano della trasformazione & r ) , la (4.35) si trasforma nella funzione:
la quale non i: altro che la densitii X2 con due gradi di liberta; essa mostra che, utilizzando le variabili standard, 17eZlisse di concentrazione di Fig. 4 . 7 ~ ) si trasforma i n u n cerchio col centro nell'origine (Fig. 4.7b). Da qui & poi facile ricavare le probabilith di cadere entro l'ellisse di concentrazione avente gli assi principali pari a k volte le deviazioni standard delle due variabili:
138
Capitolo 4. Calcolo delle probabilith per pih variabili Fig. 4.7. Regione relativa alla probabilita P{IX - p z l 5 cz, IY p,l 5 a,) ed ellisse di concentrazione corrispondente per variabili normali incorrelate (a); nel caso di variabili standard, il rettangolo e I'ellisse si trasformano rispettivarnentein un quadrato e in un cerchio di semi-lato o raggio unitario centrati nell'origine (b)
da cui ottiene una sorta di legge 3u nel piano:
+ (Y - &'I2
< k2
c$
0.393 per 0.865 per 0.989 per
k =1 k =2
lc = 3
(4.81) Notate che l'intervallo di probabilita rettangolare &a della (4.78) ha una probabilith maggiore (0.466 contro 0.393) di quello della corrispondente ellisse (4.81), la quale per 5 = 1ha i lati del rettangolo come assi principali. Questo fatto B mostrato anche in Fig. 4.7, dove si vede che il rettangolo o il quadrat0 di probabilita contiene l'ellisse o il cerchio di concentrazione. Se, invece di due variabili standard (U, V), consideriamo due variabili gaussiane (X, Y) di media nulla ed aventi la stessa varianza o2 e nell'integrale (4.80) operiamo la sostituzione r + ria, otteniamo la funzione
1 r p(r) = - - exp 27r a2 la quale, integrata in dr dB, d& la densit& di probabilith nel piano per due variabili gaussiane indipendenti (X, Y) di uguale dispersione. Questa funzione B detta densith di Rayleigh, ed B l'analogo bidimensionale della densit& di Maxwell (3.73), che i: valida nello spazio. Vi sarete accorti che gli intervalli di probabilita di una certa variabile sono diversi a seconda del numero globale di variabili che viene fatto variare e del tip0 di dominio D che viene considerato nella (4.76). Fissando le idee a1 caso di due variabili (X, Y), per un certo livello di probabilitzl fissato (ad esempio 68.3%), possiamo definire ben cinque intervalli di probabilita: un intervallo (x f a,) relativo alla probabilith del 68.3% di trovare un valore di X per un qualunque valore di Y e l'analogo scambiando X con Y (e sono due), oppure l'intervallo ((Ylz) f dVar[ylz])delle (4.54, 4.55) relativo alla probabilith del 68.3% di trovare un valore di Y per un valore fissato xo e l'analogo per X per un valore fissato yo (e sono quattro) ed infine possiamo definire una
4.6 lnsierni di probabilith in pib dimensioni
139
regione bidimensionale D in cui cade il 68.3% dei punti di (X, Y). Le densita coinvolte nei cinque casi sono rispettivamente le densita marginali px(x), p y (y), le densita condizionate p(y lzo),p(xlyo), e la densitb congiunta p(x, y). La regione del piano D dove effettuare le stime multidimensionali it quasi sempre l'ellisse di concentrazione:
dove l'espressione a destra della freccia vale ovviamente in caso di variabili incorrelate. Questa regione possiede delle proprietA importanti che esaminiamo brevemente. Nel caso di n variabili gaussiane, in base a1 teorema 4.4, la variabile Q ha distribuzione x2(n). Questo permette di utilizzare, nel calcolo dei livelli di probabilita associati all'ellisse di concentrazione rnultidimensionale (4.83), le tabelle D.3 e D.4 dei livelli di significativitA della densit& x2 riportate in Appendice D. Dato che la densith marginale di ogni variabile B gaussiana, la variabile
segue la densit&x2(-1).I livelli di probabilita corrispondenti a {Qi = 1,4,9) non sono altro, come sappiamo, che i livelli di probabilita gaussiani del = 1,2,3) della variabile 68.3%, 95.4% e 99.7% corrispondenti ai valori gaussiana standard non quadrata: P{Qi 5 X 2 ) = P{Ti Le tabelle D.3 e D.4 sono due modi diversi di calcolare le probabilita relative alla distribuzione x2: per ottenere i valori riportati nella Tab. D.4 per un determinato livello di probabilith a: basta trovare il corrispondente livello 1 - a in Tab. D.3 e moltiplicare il chi-quadrat0 ridotto x;(v) della tabella per i gradi di liberta v del problema (si noti infatti che la Tab. D.4 riporta i valori di del X 2 totale, non di quello ridotto). La differenza tra i livelli di probabilit& di ogni singola variabile e quelli congiunti i. mostrata, per il caso bidimensionale, in Fig. 4.8, dove il valore x2 = 2.30 i:tratto dalla Tab. D.4 per v = 2. Guardando la figura dovete fare attenzione ad un fatto importante, che useremo spesso in seguito: le proiezioni sugli assi della curva corrispondente a X 2 = 1 definiscono gli intervalli ad 1a delle variabili, riferite alle rispettive densitci marginali. Questa proprieth, ovvia in una dimensione, si dimostra anche per due variabili ponendo uguale ad 1 la funzione x2 (4.52):
{a
< a).
e considerando l'intersezione di questa curva con la retta di regressione (4.54) v = pu. Si trova facilmente la soluzione, che Q u = f1, corrispondente ad un intervallo ( f i x icx).Lo stesso vale ovviamente per la proiezione sull'asse y.
140
Ca~itolo4. Calcolo delle ~robabilitaaer aii! variabili uesta banda contiene 8.3 % dei valori di x
Fig. 4.8. Regioni di probabilita in una e due dimensioni. La curva corrispondente a X 2 = 2.30 contiene il 68.3% delle coppie di variabili. La proiezione sugli assi della curva X 2 = 1fornisce gli intervalli di probabilith ad 1c per ognuna delle variabili
l'ellisse contiene
Analogamente a1 caso monodimensionale, spesso il modello gaussiano & ragionevolmente valido anche per una gran parte di fenomeni statistici in piii dimensioni. L'uso dell'ellisse di concentrazione e della densita X2 fornisce allora un mezzo molto potente per prevedere la probabilitk di un risultato sperimentale costituito da una n-upla di valori (XI, x2, . . ., x,). Se invece il problema non consente l'uso del modello gaussiano, 2 necessario ricorrere alla risoluzione degli integrali (4.76) definendo opportune regioni di probabilitb, di solito ipercubiche o ellittiche, e tenendo conto con cura delle correlazioni tra le variabili. Spesso, per raggiungere questo difficile obiettivo, si ricorre ai metodi di simulazione Monte Carlo descritti nel cap. 7.
4.7 La distribuzione multinomiale La densit2 binomiale (2.30) individua la distribuzione di probabilith della variabile I = (Il,I2) definita come istogramma sperimentale di N eventi suddivisi in due canali con conteggi Il ed I2 rispettivarnente, quando le probabilita vere che una osservazione cada nei canali 1 e 2 sono rispettivamente p = p l e (I-p)=p2:
+
+
\
,
con (PI p ~ = ) 1 e (nr nz = N). Questa equazione si presta ad una immediata generalizzazione al caso di un istogramma generic0 con un numero 5 di canali. La densit2 che si ottiene, detta multinomiale, rappresenta la probabilit& che la variabile aleatoria I = (11, Iz, . . . , Ik)fornisca un iptogramma sperimentale con un numero determinato di eventi ni in ognuno dei canali, quando sono note le probabilita a priori pi:
141
4.7 La distribuzione rnultinomiale
(PI
+ p2 + . . . + p k ) = 1,
(n1
+ n2 + .. . + nk) = N
.
(4.88)
Poich6 ogni variabile, rispetto a tutte le altre, soddisfa i requisiti della densit& binomiale, valgono le relazioni:
Le variabili (11, 4 , . . . ,I k ) sono perb dipendenti a causa della seconda delle (4.88). La lor0 covarianza puh essere calcolata direttamente con la (4.62) oppure in mod0 molto piu semplice utilizzando la legge di trasformazione della varianza. I1 calcolo verrb svolto nel prossimo capitolo, nell'esercizio 5.11. I1 risultato 6 la formula (5.86), che qui anticipiamo:
La covarianza 6 negativa, perch6 l'aumento del numero di eventi in un canale comporta la diminuzione del numero degli eventi negli altri canali. Nel caso monodimensionale, la densita binomiale tende rapidamente alla densita gaussiana. La stessa proprieth vale anche per 13 densitb multinomiale, il che i: un fatto di grande importanza per studio degli istogrammi che faremo in statistica. L'equazione (3.24), valida per Np, N ( 1 - p) > 10, si pub infatti anche scrivere come:
- - -
dove l'ultima uguaglianza, ottenuta ponendo p p l , (1 - p) pz, n n l , ( N - n) n2, suggerisce una forma simmetrica che pub essere generalizzata a1 caso di n variabili (trovate la traccia della non facile dimostrazione in [42]). Possiamo pertanto scrivere il risultato fondamentale:
dove la somma va estesa a tutte le k variabili che compaiono nelle somme (4.88). Abbiarno pertanto approssimato la densitb multinomiale con una densit6 gaussiana multidimensionale, dove nell'esponenziale compare la somma dei quadrati delle variabili. Tuttavia, le variabili sono correlate attraverso la (4.88) e quindi i gradi di libert& sono in realta solo k - 1. Se ora combiniamo questo risultato con il teorema 4.4, arriviamo all'importante conclusione che possiamo enunciare come: Teorema 4.5 (Somma di Pearson). I n un istogramma di k canali, costruito a partire da u n campione casuale dz dimensione N e avente probabilitb Vera pi i n ogni canale, la variabile
142
Capitolo 4. Calcolo delle probabilith per piir variabili
dove Ii & il numero d i eventi osservati in ogni canale, tende ad avere, per + co,densitci X 2 con k - 1 gradi d i liberta.
N
Questo teorema, come vedremo, Q l a chiave di volta per l'impiego del test in statistics e pub gi8 venire applicato con ottima approssimazione se
X2
Npi> 10. Notiamo anche che nella (4.93) n o n compare la somma dei quadrati di variabili standard, perch6 la varianza delle variabili Ii & d a t a dalla (4.89) e le variabili sono correlate. Pertanto il teorema generalizza in mod0 non banale i risultati del teorema 3.3, che si riferivano a somme di quadrati di variabili gaussiane standard indipendenti.
4.8 Problemi 4.1. Se X e Y sono due variabili uniformi ed indipendenti negli intervalli 10, a] e [0,b] rispettivamente, trovare la densit&congiunta p(x,y).
4.2. Se Xi, i = 1,2,3 sono tre variabili gaussiane indipendenti di media pi e varianza u:, trovare a) la striscia che contiene il 90% dei valori di X I , b) l'ellisse che contiene il 90% dei valori delle coppie ( X I ,X2) e C) l'ellissoide che contiene il 90% delle n-uple (XI,Xz, X3).
4.3. Se X e Y sono variabili aleatorie indipendenti, vale l'uguaglianza (Ylz) = (Y)? 4.4. Calcolare approssimativamente per via grafica il coefficiente di correlazione dall'ellisse di concentrazione di Fig. 4.6 (in alto a destra).
4.5. Se Z = a x
+ b e U = cY + d con ac # 0, calcolare p[Z,U ] .
4.6. In una popolazione la statura B una variabile gaussiana pari a (X) fa [ X ]= 175 f8 cm per gli uomini e (Y) fu[Y]= 165 f6 cm per le donne. Supponendo che non vi sia correlazione, trovare la percentuale di coppie con uomo e donna pih alti di 180 e 170 cm rispettivamente.
4.7. Come risolvereste, in linea di principio, il problema precedente nel caso piii realistic0 (le coppie tendono infatti ad avere statura omogenea) di un coefficiente di correlazione p = 0.5 tra la statura del marito e quella della moglie? 4.8. Nel lancio indipendente di due dadi si accetta il valore del secondo dado solo se il numero & dispari, altrimenti si assume come secondo valore quello del primo dado. Indicando con X e Y la coppia di valori ottenuti in ogni prova, trovare, per le due strategie, la densit&di probabilith, le densith marginali di X e Y, la media e le deviazioni standard di X e Y e la loro covarianza.
5. Funzioni di variabili aleatorie
" I libri di testo traboccano di trionfi dell'analisi lineare, i cui insuccessi sono sepolti cod in profondita che le tombe non sono segnate e la loro esistenza passa inosservata. " Ian Stewart, L L D GIOCA ~ ~ A DADI?" .
5.1 lntroduzione Prima di passare alla statistica ci rimane ancora questo capitolo, in cui affrontiamo il problema seguente: se consideriamo pih variabili aleatorie X, Y ,. . . definite sullo stesso spazio di probabilith e le combiniamo in una funzione Z = f (X, Y,. . .) del tip0 (2.9), otteniamo u n a nuoua uariabile aleatoria 2; se conosciamo la densith di probabilith congiunta pxy...(z, y; . . .) delle variabili aleatorie di partenza, quale sara la densita p z (2) della variabile Z? Per fissare le idee, consideriamo il caso di due variabili X e Y. Sono allora coinvolte due densit&di probabilit5 pxy e p z e una funzione f (x, y), second0 lo schema seguente:
Le densiti pxy b nota, f (x, y) rappresenta un legame funzionale assegnato (somma, prodotto, esponenziale o altro) e il problema consiste nel determinare la densita p z della nuova variabile casuale 2. Questo schema, che pub essere esteso in mod0 ovvio ad un qualunque numero di variabili, rappresenta I'essenza del problema che vogliamo risolvere. Le densit&di probabilith verranno sempre indicate con la. lettera p(. . .), i legami funzionali con la lettera
f ( - . .). La variabile aleatoria Z resta definita in funzione dei risultati a e b delle prove che realizzano X e Y, second0 lo schema di Fig. 5.1:
Nel caso di variabili discrete, la probabilit& che Z appartenga ad un certo insieme numeric0 & 6 allora data, in base a1 teorema 1.1, dalla probabilith di ottenere {X E Rx} e {Y E Ry } (ovvero a E A e b E B) sommata su tutti i casi che soddisfano la condizione x E Rz:
144
C a ~ i t o l o5. Funzioni di variabili aleatorie
I
I
campo reale
Fig. 5.1. Definizione della variabile aleatoria Z = f ( X ,Y )
(5.1) Se X e Y sono indipendenti, dal teorema 1.2 delle probabilitii composte si ha anche: P{ZERZ)= P { X € R x ) P { Y E Wy). (5.2) [ G Y : ~(Z,Y)ERZI
La Fig. 5.1 mostra schematicamente il significato della (5.1). Consideriamo ora un semplice esempio: siano X e Y i punteggi che si ottengono lanciando due volte un dado (1 5 X, Y 5 6) e sia Z = f (X,Y) = X + Y la somma dei due punteggi. Definiamo IRz l'insieme dei risultati minori di 5 ( Z = X +Y < 5) e calcoliamo la probabilitA P{Z E Rz ). Se le due prove sono indipendenti, vale la (5.2) e la probabilitd di ottenere una coppia (z, y) vale 116 x 116 = 1/36. La (5.1) prescrive di sommare le probabilita di tutte le coppie per le quali Z < 5: (1,1), (1,2), (1,3), (2,1), (2,2), (3,l). Si hanno 6 coppie e quindi P{Z < 5) = 6/36 = 116. Nel seguito procederemo per passi successivi, considerando prima una variabile, poi due variabili, ed indicando infine come estendere il procedimento a n variabili. Mostreremo anche come sia possibile, limitandosi solo a110 studio della trasformazione della media e della varianza attraverso la funzione f , arrivare ad una soluzione semplice e generale, anche se approssimata, del problema.
5.2 Funzione di una variabile aleatoria Sia X una variabile casuale continua di densitd px(z) e sia Z una variabile casuale legata a X dalla relazione funzionale:
Per determinare la densit&p ~ ( z basta ) applicare le note regole sul cambia-
5.2 Funzione di una variabile aleatoria
145
mento di variabile in una funzione,,facendo per6 attenzione a come si trasformano gli intervalli di probabilita. E quindi opportuno ricorrere agli integrali di probabilith definiti dalla funzione di ripartizione ed utilizzare le relazioni chiave (2.29, 2.36). Oltre a queste equazioni, ci serviremo del teorema di Leibnitz di derivazione di un integrale, la cui dimostrazione pub essere trovata su molti testi di analisi matematica. Data una funzione z = f (x), se x = f-'(z) esiste ed it derivabile in [xl , x2], vale la relazione:
dove l'apice indica l'operazione di derivata. Consideriamo ora una generica funzione f (X) continua come in Fig. 5.2, e determiniamo la probabilith che Z sia minore di un determinato valore zo. In sostanza, dobbiamo trovare la probabilit2 che Z si trovi al di sotto della retta z = zo di Fig. 5.2. Dalle (2.29, 5.1) e dalla figura otteniamo:
dove Fz it la funzione cumulativa di Z e gli intervalli A isono indicati sempre in Fig. 5.2. Questi intervalli, tranne il primo e l'ultimo, hanno come estremi le radici reali X I ,x2,. . .,xn dell'equazione (5.3):
L'equazione (2.36) ci assicura che, deriwndo la (5.5), otterremo la densith di probabilith cercata. Poichk dalla Fig. 5.2 si vede che l'estremo inferiore di ogni
146
Caaitolo 5. Funzioni di variabili aleatorie
intervallo Ai non dipende da z (e quindi h a derivata nulla) oppure, quando dipende da z , ha derivata sempre negativa (la funzione decresce), applicando la formula di Leibnitz (5.4) alla (5.5) possiamo scrivere la densit&pz(z) come somma di termini tutti positivi, prendendo il valore assoluto delle derivate delle radici reali (5.6):
-
d F z (2) PX (21) PX (22) = pz ( z ) = ------ + -+...+-px(xn) dz I f ' ( 4 lf1(x2)1 Ifl(xn)I '
(5.7)
dove il membro a destra i! una funzione di zo z tramite l'inverso delle (5.6). II risultato 6 sempre positivo, come si richiede per una densit& di probabiliti. Quando esiste una sola radice reale dell'equazione (5.3) e p ( ~ ) 0, questa formula coincide con il solito metodo di sostituzione di variabile in un integrale. Questo metodo 15 gih stato tacitamente applicato negli esercizi 3.10 e 3.11 sulle distribuzioni di Maxwell e di Boltzmann. Applichiamo ora l'equazione fondamentale (5.7) a qualche altro caso significativo. Nel caso in cui l'equazione (5.3) sia data da:
>
la (5.6) ammette la sola soluzione:
Poichk f '(a)= a, dalla (5.7) si ottiene:
Se invece consideriamo il legame funzionale:
Z = f (X) = a x 2 , la (5.6) ammette le soluzioni:
che danno luogo alle derivate:
le quali, inserite nella ( 5 . 7 ) ,permettono di determinare la densit& cercata:
5.3 Funzioni di pib variabili aleatorie
147
Se la densith px(x) di partenza k la gaussiana (3.28) e si applica l'equazione (5.8), la (5.9) diventa:
la quale k una gaussiana di media e varianza date da
Notiamo che, poich6 la trasformazione (5.8) i! lineare, le (5.14) si possono dedurre direttamente anche dalle (2.62, 2.63). Nel caso di una trasformazione quadratica (5.10) di una variabile proveniente da una distribuzione gaussiana di media nulla, la (5.12) diventa:
che B la densita gamma (3.55) con k = 1/2. La media e la varianza possono essere ottenute dalle (3.56), oppure integrando per parti le (2.53, 2.56), e sono date da: pz = U(T2 , a : = 2a 2 04 . (5.16)
5.3 Funzioni di pib variabili aleatorie Generalizziarno i risultati del paragrafo precedente a1 caso di funzioni di piG variabili aleatorie. Consideriamo per primo il caso semplice di una sola variabile Z funzione di n variabili aleatorie:
L'analogo della funzione di ripartizione o cumulativa (5.5) i: in questo caso dato dall'equazione:
(5.18) dove p x (xl, 22, . . . ,x,) k la densith di probabilita delle n variabili e D B I'insieme che comprende tutte le n-uple X = (XI,xz, . . . , x,) tali che P{Z zo), in accord0 con la (5.1). E bene notare che la densith di probabilith delle variabili X compare solo come argomento dell'integrale, mentre il legame funzionale Z = f ( X ) compare esclusivamente nella determinazione del dominio di integrazione D. La derivazione della cumulativa (5.18) risolve in molti casi il problema della determinazione della densit&p,. Questo metodo B Ia generalizzazione
<
148
Capitolo 5. Funzioni di variabili aleatorie
di quello usato nel par. 3.9, dove abbiamo derivato la (3.59) per ottenere la densit&X 2 . Per trattare il caso piii generale di n variabili Z funzioni di n variabili aleatorie X di partenza, in alternativa all'uso della funzione cumulativa o di ripartizione, si pub ricorrere ad una celebre formula basata sul teorema generale del cambiamento di variabile in una funzione integranda. Poich6 questo teorema si trova dimostrato su molti testi di analisi matematica, qui ne riportiamo soltanto l'enunciato:
Teorema 5.1 (Cambiamento di variabile in funzioni densith). Sian o X = (XI, X2, . . . ,X,) n variabili casuali con densitci congiunta p~ (x) e siano Z (Z1, Z2, . . . , 2,) n variabili legate alle X dalle n relazioni funzionali
le quali siano tutte invertibili e deriuabili con derivata continua rispetto a tutti gli argomenti (vi sia cio6 u n a corrispondenza biunivoca tra i due domini delle X e delle 2, per cui X1 = f c 1 ( 2 ) , ecc..). La densitci di probabilitd pz i: data allora da:
dove [JI 6 lo Jacobiano, definito come il valore assoluto del determinante:
IJI
=
Ovviamente, la trasformazione 6 possibile se tutte le derivate sono continue e IJI # 0. Nel caso n o n vi sia un'unica trasformazione fi (i = 1 , 2 , . . . ,n) che sia invertibile, occorre suddividere i domini delle X e delle Z i n m sottoinsiemi tra loro disgiunti tra i quali esista u n a corrispondenza biunivoca e sommare la (5.20) s u tali domini:
5.3 Funzioni di pib variabili aleatorie
149
Il teorema pub essere applicato anche a1 caso della trasformazione particolare (5.17). Consideriamo infatti una variabile Z funzione di 2 variabili:
Per applicare il metodo del determinante jacobiano, definiamo Z1E Z e una variabile ausiliaria 2 2 = X2. La (5.19) diventa:
=
La densit& di Z 21pub essere allora trovata applicando la (5.20) ed integrando poi sulla variabile ausiliaria 2 2 = X2. Dato che lo jacobiano vale:
dalla (5.20) si ottiene:
La densit&della variabile Z si ottiene integrando sulla variabile ausiliaria Z2:
Ricordando che
21
-
2,X2 = Z2 e che quindi
possiamo scrivere la (5.26) come:
che rappresenta la densit& di probabiliti cercata. Questa formula rappresenta una alternativa alla (5.18) per trovare la densit&p z ( z ) quando il legame funzionale B del tipo Z = f(X1,X2). Se le variabili XI e X2 sono indipendenti, allora la densit&p~ si fattorizza second0 la (4.6), e la (5.27) diventa:
150
Cavitolo 5. Funzioni di variabili aleatorie
Quando la variabile Z B data dalla somma:
la funzione inversa f
-'e la sua derivata da inserire nella (5.27) sono date da:
per cui si ottiene:
Se le due variabili X1 e X 2 sono indipendenti, allora la densitb di probabilita di partenza, che B del tip0 (4.3), si fattorizza nella (4.6) e otteniamo l'integrale:
1
+m
pz (2) =
P X ~( 2 - 2 2 ) px2 (22) dx2
,
(5.32)
-00
che i: detto integrale di convoluzione. Esso si incontra molte volte, sia in statistica sia in fisica sperimentale nell'analisi di misure di laboratorio (si veda il cap. 11). Dopo tanta matematica, vi facciarno notare che quest'ultimo integrale ha una semplice spiegazione intuitiva: la.probabilitb di osservare un valore Z = z B dato dalla probabilitb di avere realizzato un valore x2, per la probabilitb di avere un valore X I = z - rc2 che assicuri l'uguaglianza z = XI 22. Questa probabilitb va sommata su tutti i possibili valori di X2. L'integrale di convoluzione appare quindi come una ulteriore applicazione delle leggi fondamentali (1.22, 1.23) per variabili continue. Notiamo anche che la (5.31) pub essere trovata anche tramite la funzione cumulativa (5.18). Infatti, in questo caso si ha:
+
P{(X+Y
< z)}
= Fz(z) = / ( X + Y s z J P X (21r 2 2 ) dxl dz2
e, derivando rispetto a z tramite la (5 In SCILAB i! presente la funzione due funzioni date per punti. Copiando risolvere l'esercizio seguente e, con poche modifiche, anche gl in generale molti semplici problemi di convoluzione.
somma di due varzabili indipendenti X -- N ( p , a2) e Y -- U ( a ,b).
5.3 Funzioni di pib variabili aleatorie
151
Fig. 5.3. Convoluzione di una gaussiana standard con p = 0 e a = 1 (linea tratteggiata) con una densit&uniforme limitat a tra -2 e 2 (linea tratto-punto). La curva risultante i:la linea piena
Risposta. Dalle (3.28, 3.77, 5.32) ssi ha immediatamente: 1
PZ(Z) = b-a
l &?% b
1
exp
[-
(Z -;g~
&I2]
dy
Questa densitd n o n .4 altro che u n a gaussiana dz media ( z - ,u) e varianza c2 integrata entro i limiti della densith uniforme di partenza. Ricorrendo alla gaussiana cumulativa (3.43) possiamo scrivere:
Nelle misure di grandezze fisiche, spesso a120 strumento viene associata u n a dispersione casuale di tip0 uniforme, mentre alle operaxioni dz misura u n a dispersione di tipo gaussiano (vedi cap. 11). I n questi casi la (5.34) fornisce la legge di dispersione totale della misura, ed 2 pertanto importante nello studio della propagazione degli errorz, che verrd svolto nel par. 11.6. La Fig. 5.3 mostra che la forma di questa densith risultante i? abbastanza simile ad u n a gaussiana.
Esercizio 5.2
s o m m a di due variabili indipendenti X , Y
-
U(0,l)
152
Capitolo 5 . Funzioni di variabili aleatorie
Risposta. Poiche' 0 5 X, Y 5 1, ovviamente 0 5 Z caso, dalle (3'. 77, 5.32) si ha immediatamente:
5
2. Anche i n questo
dove u(x)rappresenta la densitd uniforme: u(x)=
1 per 0 < x < 1 0 altrimenti .
Gli argomenti della densitci uniforme, che sono le variabili ( z - z ) e ( x ) , devono quindi mantenersi limitati tra 0 e 1. L'integrale si scompone allora n e i due termini:
ed ha come risultato: per O < z < l per 1 < z 5 2 altrimenti
.
(5.35)
Questa densitb b normalizzata, compresa tra 0 e 2 , di forma triangolare e con massimo i n z = 1. Anche questa funzione verrd discussa i n dettaglio nello studio della gropagazione degli errori di due misure aflette da errori strumentali, che verrti svolto nel par. 11.6. Esercizio 5.3 Dovare la densitci della variabile
dove X, Y
N ( p , c 2 )sono due variabili gaussiane indipendenti.
Risposta. Anche in questo caso, dalle (3.28, 5.32) otteniamo immediatamente:
L'integrale che compare in questa formula pud essere risolto con i metodi indicati nell'esercizio 3.4. Esso b del tipo:
5.3 Funzioni di pih variabili aleatorie
153
dove:
S i ottiene pertanto la densitd:
la quale d u n a gaussiana di media e deviazione standard date da
Poiche' la trasformazione d lineare e le variabili sono indipendenti, le (5.38) sono in accordo con le (4.8, 4.19). L7esercizio ci dice perd u n fatto nuovo e molto importante: la composizione lineare di variabili gaussiane da luogo ancora a densita gaussiane. La (5.37) pub essere facilmente dimostrata anche utilizzando la proprietci ' (B.4) delle funzioni generatrici dell'appendice B. Quando u n a densitd conserva la sua forma funzzonale per composizione lineare di pi4 variabili, si dice che essa b stabile. E utile a questo punto ricordare il teorema Limite Centrale 3.1, secondo il quale la somma di N variabili aleatorie qualsiasi si distribuisce secondo la gaussiana per N abbastanza grande, i n pratica per N > 10. Ebbene, se le variabili di partenza sono gih gaussiane, questa condizione pub essere rimossa e la proprietd vale per qualunque N . L'insieme di queste proprietd sta alla base del ruolo centrale che la densiti gaussiana o normale assume sia nel calcolo delle probabiliti sia in statistics. Esercizio 5.4
dove X e Y sono due variabili intere poissoniane indipendenti rispettivamente di media p~ e p2. Risposta. La (5.32), per variabili intere X , Y 2 0 , va riscm'tta come:
dove la densitd px, py ii la poissoniana (3.14).
Sz ha pertanto:
154
Capitolo 5. Funzioni di variabili aleatorie
Moltiplicando e dividend0 per z ! e ricordando la formula del binomio di Newton:
si ottiene:
+
.
.
da cui rzsulta che la densitd cercata P: una poissoniana di media (pl p2). Notiamo che, diversamente dal caso gaussiano, solo la somma, ma non la differenza di variabili poissoniane b poissoniana. Infatti, se Z = Y - X , b possibile avere Z 5 0 e nella (5.40) compare il termine ( z + x)! invece del termine ( z - z ) ! . E chiaro allora che la distribuzione della dijferenza 12 diversa da quella di Poisson. Nei due esercizi che seguono determineremo le densit&di Student e di Snedecor, di cui ci serviremo pih avanti in statistica. Quindi, non saltate gli esercizi (leggetene almeno l'enunciato e la soluzione) e fate attenzione.
Esercizio 5.5
una variabile gaussiana standard e la radice quadrata di una variabile Q R di densitd X 2 ridotto con v gradi di libertci. La variabile gaussiana e la variabile Q R siano tra loro indipendenti. Risposta. Denotiamo con X la variabile gaussiana standard di densitci (3.42) e con Y la variabile X 2 di densith (3.65). Dobbiamo allora trovare la densith della variabile
Poiche' le variabili sono indipendenti, possiamo applicare la (5.28), dove
Abbiamo allora, utilizzando il prodotto delle densitci (3.42, 3.65):
Operiamo ora nell'zntegrale il cambio di variabile:
5.3 Funzioni di pih variabili aleatorie
155
ed otteniamo:
Ricordando l'espressione integrale (3.62) della funzione gamma, ed operando le necessarie semplificazioni algebriche, otteniamo infine:
Questa B la famosa densitci t di Student. Generalmente essa viene scritta come densith di una variabile t , ponendo anche fi = I'(1/2), come risulta dalle (3.63). Ecco pertanto il risultato finale, relativo a una variabile t espressa come rapport0 tra una variabile gaussiana standard e la radice quadrata di una variabile ( u ).
xi
I valori integrali della densitci di Student sono riportati nella Tab. D.2 in appendice D a pagina 482. Dalla tabella e dalla Fig. 5.4 potete verificare che,
per u n numero di gradi di libertci > 20 - 30, la densitci coincide praticamente con una gaussiana. I valori della media e della varianza della distribuzione si possono ricavare, come sempre, dalle (2.53, 2.56), ottenendo:
da cui risulta che la varianza 6 definita solo per u > 2 . Per u 5 2 la funzione s,(t) B u n esempio, insolito m a n o n impossibile, di densitci che n o n possiede varianza. I n questo caso la parametrizzazione dell'intervallo di probabilztd (3.92) zn termini dz deviazzone standard n o n B pi& possibile, ed B necessario, per ricavare i livelli di probabilith n'chiesti da u n problema, calcolare direttamente l'integrale della densita entro i lzmiti assegnati. Queste probabzlzta si possono anche ricavare dalla Tab. 0 . 2 . In S C I L A B esiste la funzione c d f t per il calcolo della densitci di Student. Le sequenze di chiamata sono le seguenti: Cp, ql = c d f t ("PQ",t ,Df) [t] =cdft ("T", D f ,p,q)
C ~ f l= ~ d f t ( + ~ D f " , p , q , t )
156
Capitolo 5. Funzioni di variabili aleatoric
Fig. 5.4. Densit&di Student per 1, 5 e 20 gradi di libertb. La linea tratteggiata 6 la gaussiana standard
C o n la chiamata TQ" viene calcolato 1'integrale.p (ed il suo complement o q = I-p) tra -oo ed il valore t nel caso di D f gradi dz liberth. C o n la chiamata 'T" viene calcolato il quantile t corrispondente alla probabilitci p, mentre con la chiamata 'Df " vengono trovati i gradi di libertti corm'spondenti
Esercizio 5.6
due variabili indzpendenti x2 ridotto con p e v gradi di libertri:
Poiche' la tradizione vuole che si indichi il rapport0 (5.44) seempre in lettere maiuscole, indicheremo con F i ualori assunti dalla variabile di Snedecor F . Risposta. P e r n o n appesantire la notazione, definiamo:
Y = f-'(F,X)
=F X ,
at-1
----
=x.
8F La densitri x2 ridotto con u gradi di liberti b data dall'integrando della (3.70):
dove:
5.3 Funzioni di piS variabili aleatorie
157
I n questo caso la relazzone base (5.28) diventa:
Eseguendo ora il cambio di variabile:
d
otteniamo infine:
Ricordando la (5.45) e notando che l'integrale non 13 altro che la funzione v)/2] i n accord0 con la (3.63), otteniamo finalmente:
r[(p
+
=
C,,
F ~ ( P -(@~ ) + v)-
;(p+u)
>
(5.46)
che rappresenta la famosa densitci F di Snedecor per la variabile F . Essa d riportata i n Fig. 5.5. La media e la varianza si calcolano come a1 solito dalle (2.53, 2.561, e sono date da:
Queste due equazzoni sono definite per u > 2 e v > 4, rispettivamente. Per i gradi di libertci p,v + oo la densitb F tende ad essere gaussiana; tuttavia, come si vede dalla figura, la conuergenza verso questa forma & piuttosto lenta. I valom' del rapport0 F F,(p, v) corrispondenti ai percentzlz del 95% (u = 0.95) e del99% (u = 0.99) e quindi ai livelli di szgnzficativitu del5% e dell'l% a destra della media,
=
158
Capitolo 5. Funzioni di variabili aleatorie
sono molto usati in statistics nell'analisi della varianza. Essi sono riportati nelle tabelle D.5 e D.6 dell'appendzce D , alle pagine 485 e 486. I percentili (u = 5%) e (u = I % ) , coincidenti coi livelli di significativitci delle code a sinistra della media, i n genere n o n vengono dati, perch6 tra i walori quantili sussiste la relaxione: 1 La (5.49) pud essere dimostrata notando che, per dejinizione:
e che, dato che la variabile F 6 u n rapporto: 1 se F segue p,,,(F) allora - segue p , , ( F ) F S i pud dun,que scriwere:
da cui la (5.49). In SCILAB esiste la funzione cdff per zl calcolo della densitct F . Le sequenze di chiamata sono le seguenti:
C o n la chiamata 'PQ" viene calcolato l'integrale p (ed il suo complemento q = tra -w ed il valore f nel caso di Dfn e Dfn gradz dz libertd. C o n la chiamata T " uiene calcolato il quantile t corrispondente akka probabilztd p, mentre con le chiamata 'Dfn" e 'Dfd" vengono trovati i gradi di libertd corrispondenti ai parametri indicati nella funxione. Sul problema delle funzioni di variabili aleatorie si possono scrivere dei libri (ed infatti sono stati scritti...). Se vi piace l'analisi e volete approfondire ulteriormente l'argomento, potete consultare il testo di Papoulis 1631.
5.4 La trasformazione della media e della varianza Come avete visto, la determinazione della densit2 di probabilitb di una variabile espressa come funzione di altre variabili aleatorie k un argomento
5.4 La trasformazione della media e della varianza
159
Fig. 5.5. Densitb della va-
0
1
2
3
4
5
6
7
F
8
riabile F di Snedecor d* ta d d rapport0 di due variabili X 2 ridotto aventi rispettivamentep e v gradi di libertA
piuttosto complesso. Negli esempi che abbiamo fin qui sviluppato, abbiamo gig incontrato discrete complicazioni matematiche, pur essendoci limitati al caso piG semplice di due sole variabili indipendenti. . Fortunatamente, come nel calcolo delle probabilith elementare, quasi sempre una soluzione approssimata ma soddisfacente del problema pub essere ottenuta determinando, invece che le forme funzionali complete, solarnente il valore centrale (media) e la dispersione (deviazione standard) delle funzioni densit&coinvolte. Questo B quanto ora ci proponiamo di fare. Cominciamo dalla situazione piii semplice, quella di una variabile Z funzione di una sola variabile aleatoria X
di densith nota px (2). Supponendo che f sia invertibile, X = f - l ( Z ) e la media della variabile Z si ottiene dalla (2.53),dalla (5.7) e differenziando la (5.50):
Risulta pertanto che la media di Z & data dalla media di f (X) sulla densit&di partenza p x ( x ) , in accord0 con la (2.67), che 6 la definizione di valore atteso. Questo risultato, valido anche nel caso multidimensionale sotto le condizioni del teorema 5.1, consente di ottenere in mod0 corretto e abbastanza semplice il valore centrale della densith di 2. In molti casi si ricorre per6 ad una formula approssimata, che si ottiene sviluppando a1 second0 ordine in serie di Taylor la funzione f (x) nell'intorno
160
Capitolo 5. Funzioni di variabili aleatorie
del valor medio p della variabile di partenza X:
Inserendo questo sviluppo nella (5.51), si verifica facilmente che il termine associato alla derivata prima si annulla e che vale pertanto la relazione
dove 0 6 la deviazione standard di X. Questa importante relazione mostra che la media della funzione f (cioi di 2) t: pari alla funzione della media piQ u n termine correttivo che dipende dalla concavitd della funzione nebl'zntorno della media e dalla varianza di X . Se la relazione (5.50) 6 di tip0 lineare,
allora la derivata seconda nella (5.53) si annulla e si ottiene:
Nel caso non lineare, si pub mostrare che (2)2 f ( ( X ) )se f" ((X)) > 0, mentre ( 2 )5 f ((X)) se f" ((X)) < 0 . Veniamo ora alla trasformazione della varianza. Analogamente alla (5.51) si pub scrivere:
Ricordando il risultato approssimato (5.53) ed utilizzando per la funzione f lo sviluppo a1 second0 ordine (5.52), possiamo scrivere:
Svolgendo il quadrat0 nell'integrando e ricordando la definizione (2.58) dei momenti di una distribuzione, dopo una rielaborazione un po' lunga ma facile si ottiene:
dove Ai sono i momenti definiti nella (2.58) di pagina 57. Dato che questa i: comunque una relazione approssimata, spesso 6 sufficiente conoscere solo l'ordine di grandezza dei momenti per poter effettuare una stima accettabile
161
5.4 La trasformazione della media e della varianza
della varianza di Z. Se la densit&di X i:simrnetrica intorno alla media, allora. A3 = 0. Se, oltre ad essere simmetrica, la densita i:gaussiana, allora, in base alla (3.33), A4 = 3 c4 e la (5.56) diventa:
Se la densit&px (x) 6 sirnmetrica ma non gaussiana, in genere non si commette un grande errore utilizzando comunque la (5.57). Quando la deviazione standard di px(x) B piccola, cioB quando g2 >> g4, i: valida l'ulteriore approssimazione:
che diventa esatta quando tra Z ed X esiste una relazione lineare. In quest'ultimo caso le (5.54, 5.58) coincidono con le (2.62, 2.63). E utile anche verificare che quando Z = ax2e X segue la densith gaussiana, le (5.53, 5.57) forniscono il risultato corretto (5.16). Trattiamo ora il caso piti generale, costituito da una variabile Z funzione di n variabili Xi: (5.59) = f (XI, x 2 , . . . ,X,) f (X)
=
z
.
Questo caso rimane trattabile in mod0 semplice se si utilizza l'approssimazione lineare delle (5.54, 5.58). In altre parole, si suppone che la media della funxione f coincida con la ,finxione delle medie e che la varianza di Z dzpenda solo dalle deriuate prime di f e dalle varianze delle distribuzioni delle X. Per cominciare, consideriamo il caso sernplice di due variabili,
e linearizziamo la funzione f nell'intorno delle medie p l , p2 delle due variabili di partenza X I , X2:
dove le derivate sono calcolate in XI = p1,x2 = p2. La media di Z si ottiene considerando la (5.51) estesa a due variabili: (2) =
1
f (XI,$2) PX ( ~ 1 ~ xd1.1 ) dm2 ,
(5.61)
e sostituendo ad f (xl,xz) lo sviluppo (5.60). PoichB i termini del tip0 (xi- pi) P X (XI, x2) si annullano integrando, il risultato finale B semplicemente, come sempre nell'approssimazione lineare, che la media della funzione coincide con la funzione delle medie:
162
Capitolo 5. Funzioni di variabili aleatorie
(2) = f (PI, P2)
-
(5.62)
La generalizzazione a1 caso di n variabili 6 ovvia:
(2) =f(Pi,P2,...,Pn) .
(5.63)
La varianza di Z si trova invece considerando la generalizzazione della (5.55):
e sostituendo ad f (xl, x2) - f (pl, pa) lo sviluppo (5.60). I1 risultato contiene ora delle novit&interessanti: 0:
[g]
' / ( ~ X i ) ' p ~(xi, 52) dxl dx2
La varianza di z , nell'approssimazione lineare, risulta funzione delle varianze CT? delle singole variabili, della lor0 covarianza 012, e delle derivate calcolate nei punti xl = pl, 2 2 = 11% Questa legge generalizza la (4.19) di pagina 116. Se le due variabili sono indipendenti, esse hanno covarianza nulla e si ottiene:
Quando Z = XI + X2 B data dalla somma di due variabili indipendenti, la densith risultante B data dall'integrale di convoluzione (5.32) e il calcolo esplicito di pz e a: pub risultare molto complicato, se lo sono le densith delle variabili di partenza. Tuttavia, in questo caso le (5.62) e (5.66) sono esatte e forniscono il risultato:
che permette di conoscere esattamente la media e la varianza dz 2,anche se la forma esplicita della densit2 corrispondente non k nota o B troppo complicata da calcolare. Nel caso di trasformazioni lineari, B quindi sempre possibile, utilizzando i criteri dell'intervallo di probabilitb e della legge 30 illustrati nei parr. 3.6,
5.4 La trasformazione della media e della varianza
163
3.11, valutare in mod0 approssimato, ma estremamente semplice e in molti casi pic che soddisfacente, la dispersione dei valori di z intorno a1 valor medio. Le (5.62, 5.66) forniscono in genere buoni risultati (ma approssimati!) anche quando Z i! il prodotto o il rapporto di due variabili indipendenti. In questo caso la (5.66) fornisce, sia per il prodotto sia per il rapporto, l'unico risultato (verificatelo come esercizio): XI z=x1x2,z=-,Z=-
Var [ Z ]- Var [XI] (,q2 Wd2
X2
+-,Var [X2]
( ~ 2 ) ~ (5.68) il quale rnostra che la varianza relativa di Z (detta anche quadrato del'coefficiente di variazione a / p ) i: la somma delle varianze relative delIe variabili di partenza. Tuttavia, questo i: un risultato approssimato, come mostrato nell'esercizio che segue. x 2
x 1
~ ~ J 4-*, f % *"-~~#C-~&+~-3d~4~k23#l~ Esercizio 5.7 Trovare la formula esatta della varzanza per il prodotto XY di due variabili aleatorie indipendenti.
Risposta. Se le due variabili sono indipendenti, sappiamo, dalla (4.9), che la media del prodotto i: il prodotto delle medie. La varianza del prodotto i: data allora da:
Tenendo presente la (2.66) possiamo scrivere:
che i: la soluzione del problema. Possiamo confrontare questa equazione con la (5.68) se ne dividiamo ambo i membri per il prodotto delle medze al quadrato:
Quest'ultima equazione mostra che la (5.68) 6 valida solo si verifica la condizione
z1 che avviene solo se le vamanze relatzve sono piccole. -?%&n16"-
%%kT M
TIbk -tCM WW %m7Pv
164
Capitolo 5. Funzioni di variabili aleatorie
Torniamo ora alla (5.65) e notiamo che essa puo essere espressa nella forma matricide:
dove V B la matrice simmetrica delle covarianze (4.63) scritta per il caso bidimensionale, T i: la matrice delle derivate, detta anche gradiente o matrice del trasporto e t indica l'operazione di trasposizione. Si puo interpretare questa equazione dicendo che le varianze e covarianze delle variabili di partenza vengono trasformate o "trasportate" dalle matrici delle derivate, attraverso la funzione f , per ottenere la dispersione della variabile 2. La (5.72) i: immediatarnente generalizzabile a1 caso n-dimensionale contemplato nella (5.59):
Se tutte le variabili sono indipendenti, le covarianze sono nulle e la (5.73) fornisce direttamente la generalizzazione della (5.66):
dove le derivate sono calcolate, come sempre, nei valori medi delle Xi. Ricordiamo che le formule (5.60 - 5.74) sono esatte solo nel caso di trasformazioni lineari del tip0 Z = b C aiXi con a e b coefficienti costanti. Esse per6 forniscono risultati abbastanza accurati anche nei casi non lineari, quando le densith coinvolte sono abbastanza simmetriche, il numero delle variabili di partenza b elevato e le varianze relative sono piccole. Per i casi complicati fortunatamente esiste un metodo, basato sulle tecniche di simulazione, che permette di effettuare in mod0 molto semplice ed efficace il calcolo della varianza di una funzione di pih variabili. Esso sarh descritto in dettaglio nel par. 7.9.
+
5.5 Medie e varianze per n variabili Trattiamo ora il caso pih generale, quello di m variabili Zk funzioni di n variabili Xi :
5.5 Medie e varianze per n variabili
165
Restando sempre nell'ambito dell'approssimazione lineare, le m medie delle variabili Z sono date ovviamente da:
Per determinare le varianze (e le covarianze!) delle variabili Zk, occorre generalizzare la (5.73). La procedura non presenta difficolth concettuali: si deve partire dalla matrice delle covarianze (4.63) delle variabili X , effettuare il prodotto righe per colonne con le matrici del trasporto T e Tt ed ottenere la matrice delle covarianze delle variabili 2:
Le matrici V ( X ) e V(Z) sono matrici quadrate e simmetriche di dimensione n x n e m x m rispettivamente, mentre la matrice T del trasporto i! una matrice m x n data da:
mentre Tt B la matrice n x m trasposta di T. Ricordiamo che, per la definizione 4.3, Cov[Xi, Xi] ? Var[Xi] = aii, Cov[Xi, Xj] = aij. Se introduciamo la notazione compatta:
possiamo scrivere la (5.77) come:
166
Capitolo 5. Funzioni di variabili aleatorie
Questa equazione permette di calcolare in mod0 abbastanza semplice le dispersioni delle variabili Z e le lor0 eventuali covarianze, ovvero le lor0 eventuali correlazioni. Ad esempio, se le variabili di partenza sono indipendenti, le covarianze sono nulle, cioi: aij = 0 per i # j e la (5.80) diventa:
Poich6 spesso capita di effettuare calcoli di covarianze per funzioni di variabili aleatorie, vogliarno mostrarvi in dettaglio come fare. Tratteremo il caso di due variabili Z1, Z2 e X I , X2, essendo ovvia la generalizzazione ai casi contenenti un numero maggiore di variabili. I1 problema consiste, essendo state ricavate dai dati le varianze e covarianze delle X I , &, nel determinare le varianze e covarianze delle variabili Z1, Zz. In realth, tutto i: gi8 contenuto nella (5.80). La covarianza Cov[Z1, Zz] i3 data infatti da:
dove nell'ultimo passaggio si i: utilizzata l'uguaglianza 0 1 2 = Ozl. La notazione matriciale B comoda e compatta, ma, afEnch6 non perdiate il senso di quello che si i: fatto, vi ricordiamo che la (5.82) pub essere dimostrata anche direttamente, ricorrendo alla definizione di covarianza (4.24) e sviluppando in serie a1 primo ordine le variabili z nell'intorno della lor0 media. Si ha infatti:
Se si prosegue il conto tenendo presente che
si ottiene esattamente la (5.82).
167
5.5 Medie e varianze per n variabili
--
r- -- -. -- : - =-ZrL --,:=----+ Esercizio 5.8 AT=---%=,. , :sic-= & -+- d-*% Due variabili Zl e Z2 dipendono da due variabzli gausssane standard indipendenti X e Y second0 le funzzoni: ;u
-,d+---
%F.
Trovare il coeficiente di correlazione lineare di Z1 e
-&---
22.
Risposta. P u r essendo X e Y indipendenti, la relazione funzionale crea u n a dzpendenza tra Z1e 22. Definendo XI X e X 2 3 Y ed utilizzando la notazione (5.79), si trovano facilmente le derivate da utilizzare nei calcoli:
(w2) =5 ,
(a2f2)= I .
Per determinare il coefficzente di correlazione Eineare, dato dalla (4.31), occorre prima determinare le varianze e la covarianza di Zl e Z2. Le variabili di partenza sono indipendenti, quindi per determinare 2e varianze delle Z basta applicare la (5.81) e tenere presente che le variabili standard hanno varianza unitaria:
Dato che le variabili X e Y sono standard e indipendenti, la covarianza tra le variabzli Z si trova applicando la (5.82) con 0; = 0; = 1 e a12 = 0:
Dalla (4.31) otteniamo infine:
Esercizio 5.9 2 pz, pCly, az , a:, uZY.S i opera la trasfomnazione:
Trovare la covarianza
Cov[Zl,ZZ]tra
21e Zz
168
Capitolo 5. Funzioni di variabili aleatoric
Risposta. Siano p~ e ,LQ rispettivamente le medie di 21 e 2 2 . Dalla (5.83)) sviluppando in serie le due nuove variabili in funzione delle vecchie otteniamo:
a21 a 2 2 - -A AX)^)
ax ax
az, az, (Axnu) +ax au
Poiche' lo sviluppo zn serie sz mtende fatto nell'zntorno dez valori medz, le variabili X e Y , che compaiono in questa equazione come b u t t o delle derivate, sono i n realtd z valori p, e py assuntz come noti. I1 problema 6 quindi completamente risolto. = = = - -- - - -- - -+k-- yp- =--= -
-
%
rn
gn
"a
=
Esercizio 5.10 y come variabili aleatorie di deviazione standard di 0.2 c m i n x e 0.4 c m
in y . Le misure n o n sono correlate. Trovare la matrice delle covarianze in coordinate polari nel punto (x,y ) = (1,l). Risposta. Poiche' le misure n o n sono correlate, la matrice delle covarianze delle variabili di partenza vale:
La trasformazione in coordinate polari ? data da:
Ad essa corrisponde la matrice del trasporto:
la quale, calcolata nel punto (x,y ) = ( 1 , 1 ) , cui corrisponde in coordinate 7r/4), diventa: polari il punto (r,9)=
(a,
5.5 Medie e varianze per n variabili
169
Il problema pub essere ora risolto applicando la (5.77):
La radice quadrata degli elementi diagonali della matrice V,,, fornisce le deviazioni standard delle variabili r , y . Pertanto, i n corrispondenza della misura x=lf0.2cm, g=lst0.4crn, la trasformazione in coordinate polari fornisce i valori:
Gli elementi n o n diagonali della matrice mostrano anche che la trasformazione di variabili che si b operata ha introdotto u n a correlazione positiva tra r e y. Esercizio 5.11
distribuzione multinomiale. Risposta. I n u n a distribuzione multinomiale i contenuti {Ii = ni)dei canali sono correlati dalla relazione:
+
f (ni)E (nl nz -t . . . + n k ) = N .
(5.85)
Dato che N b u n a costante, V a r [ N ]= 0.Applicando alla (5.85) la legge di trasformazione (5.80) otteniamo:
Dall'ultimo passaggio di questa equazione e dalle (4.89) otteniamo.
dove si 6 tenuto conto che
Dalla precedente relazione otteniamo la (4.90): C o v [ I i ,Ij]
oij
= -Npipj
170
Capitolo 5. Funzioni di variabili aleatorie
Per finire, ricordiamo che in questo paragrafo abbiamo utilizzato solo l'approssimazione lineare e che per essa valgono t u t t e le limitazioni gi&discusse in precedenza.
5.6 Problemi 5.1. Se X
w
U(0, I ) , utilizzando la funzione cumulativa trovare la densitA di
Z = -1nX 5.2. Trovare la densita di probabilita di Z = x2dove la densita di X k px(x) =
2(1 - x), 0 5 x
5 1.
5.3. Trovare la densita di probabilita p z ( z ) della variabile Z = X / Y conoscendo la densita congiunta p x ~ ( xy). , 5.4. Le variabili X e Y sono indipendenti e hanno densitipx(x) = exp[-x], x 2 0 e py(y) = exp[-y], y 2 0 rispettivamente. Trovare la densita di Z = X Y.
+
5.5. Trovare la densita di X = Cy'l Ti, dove Tisono tempi aleatori indipendenti di legge esponenziale negativa.
5.6. Sapendo che le variabili X e Y sono indipendenti e hanno densita p x ( z ) = exp[-x], x 2 0 e py(y) = exp[-y], y 0 rispettivamente, calcolare la densitb pzw(z, w ) delle variabili Z = X / ( X Y ) ,W = X + Y e commentare il risultato.
+
>
5.7. Trovare la densiti di Z = X Y dove X e Y sono due variabili uniformi U(0,l) e calcolare (2) e Var[Z]. 5.8. Due componenti Tl e Tz, entrambi con tempo medio di vita 1 / X , funzionano in parallelo. I1 second0 componente entra in funzione solo dopo il guasto del primo. Se il tempo di funzionamento dei due componenti segue la legge esponenziale, trovare la densitb di probabilita deI tempo T di funzionamento del sistema e la sua vita media.
+
5.9. Sono date due variabili aleatorie 21= 3X 2Y e Z2 = X Y , dove X e Y sono variabili indipendenti. Trovare media, varianza, covarianza e coefficiente di correlazione lineare di 2 1 e Zz quando a) X e Y sono variabili standard e quando b) X e Y sono variabili di media e varianza unitaria. 5.10. Una ditta produce alberi di acciaio il cui diametro B una variabile gaussiana di parametri ( X ) = 5.450 e c[X] = 0.020 mm e cuscinetti il cui d i m e t r o interno k anch'esso una variabile gaussiana di parametri ( Y )= 5.550 e a [ Y ]= 0.020 mm. L'albero va alloggiato entro il cuscinetto e l'accoppiamento B accettabile quando il gioco albero/cuscinetto k compreso tra 0.050 e 0.150 mm. Trovare la percentuale di assemblaggi scartati. 5.11. Lungo una strada passano in media, nell'unita di tempo, p veicoli d a A a B e X veicoli nell'altro senso, da B ad A. Trovare la densit2 di probabilita del numero totale di veicoli N e la probabiliti di osservare k veicoli da A a B su un totale di n.
6. Statistica di base
"DoveAlinardo sembra dare informazioni preziose e GuglieImo rivela il suo metodo per arrivare a una verita probabile attraverso una serie di errori sicuri." Umberto Eco, "IL NOME D E L L A ROSA".
6.1 lntroduzione Nei capitoli precedenti crediamo di avervi presentato tutti i risullati veramente importanti del calcolo delle probabilith. Vediamo ora di entrare nel mondo affascinante della statistica iniziando con il porci la domanda fondamentale: cos'8 la statistica e in cosa differisce dal calcolo delle probabilitii? Una prima risposta la si pub ottenere meditando attentamente sui due punti seguenti: 0
0
u n problema di calcolo delle probabilita: se ad una moneta attribuiamo una probabilitii Vera pari a 112 di ottenere testa in un lancio, qual B la probabilith di ottenere in 1000 prove meno di 450 teste? Questo problema 6 stato risolto nell'esercizio 3.13 di pagina 104; lo stesso problema i n statistica: se in 1000 lanci di una moneta si ottengono 450 teste, qual B la stima che si pub dare della probabilit2 Vera di ottenere testa, cioi! quella che si otterrebbe in un numero infinito di lanci?
Come si vede, nell'approccio probabilistic0 si definisce un intervallo di probabilit&calcoEato con i valori veri dei parametri della distribuzione assunta come modello e si stima la probabilitA di ottenere un certo risultato sperimentale. Nell'approccio statistico, invece, partendo dal valore sperimentale si deve trovare un intervallo per localizzare il valore vero della probabilitii. Ci accorgiamo a questo punto che per compiere questa stima manca un ingrediente essenziale: l'equivalente statistico della deviazione standard. Anticipiamo qui un risultato approssimato che verrh discusso nei prossimi paragrafi: spesso in statistica B lecito eseguire la stima delle deviazioni standard sostituendo alle quantitii vere quelle misurate: a -. s. La deviazione standard stimata s cosi definita viene spesso chiamata da fisici ed ingegneri (e in genere d a chi 6 abituato ad eseguire misure di laboratorio) come errore statistico. In sede internazionale [39], il termine consigliato per i risultati provenienti da misure
172
Capitolo 6. Statistica di base
& quello di incertezza statistica (statistical uncertainty). Abbiamo quindi tre sinonimi: deviazione standard stimata (termine matematico), errore statistico (linguaggio dei fisici) ed incertezza statistica (termine consigliato in sede internazionale). Nel seguito noi useremo prevalentemente il termine errore statistico. Utilizzando le formule dell'esercizio 3.13, otteniamo la tabella 6.1, che fornisce gli intervalli di probabilith: p CL e
xfs
500.0 4~ 15.8 21 500 i 16 = [484,516] (calcolo delle probabilith) = 450.0 f 15.7 2: 450 f 16 = [434,466] (statistica) . =
Nonostante l'apparente analogia, questi due intervalli hanno un significato profondamente diverso: il primo, noti p e e, assegna una probabilita ad un insieme di valori di X, il second0 fornisce una previsione sul d o r e di p. Tabella 6.1. Differenza tra calcolo delle probabilitk e statistica nel caso elementare di a: = 450 successi in n = 1000 lanci di una moneta CALCOLO DELLE
STATISTICA
PROBABILITA probabilitii di valori dello spettro probabilitii Vera: p = 0.5 valore atteso: (X) = 500 deviazione standard: n [ X ]= d
m = 15.8
stima di parametri @) frequenza: f = x / n = 0.45 valore misurato: x = 450 errore statistic0 o incertezza: s=
= 15.7
L'esempio appena discusso si riferisce alla stima di un parametro vero incognito partendo dai dati. Come vedremo, questa operazione viene fatta attraverso gli stimatori consistenti, definiti nella (2.76) come variabili aleatofunzioni di un campione casuale di dimensione N che convergono rie TN(X) in probabilith ad un valore determinato. Vi ricordiamo che la definizione 2.12 di campione casuale b a pagina 61. L'altro campo di applicazione della statistica, la verifica delle ipotesi, cerca di rispondere a domande del tipo: se ripetendo due volte l'esperimento consistente in mille lanci di una moneta si ottengono 450 e 600 successi, quanto b probabile che nei due esperimenti si sia usata la stessa moneta? In questo capitol0 affronteremo la verifica delle ipotesi nel caso pic semplice, quello del rigetto o meno di una ipotesi iniziale. Pic avanti, nel cap. 9, spiegheremo come ottimizzare la scelta tra pih ipotesi alternative. I concetti finora esemplificati col lancio della moneta possono essere definiti rigorosamente tramite lo spazio di probabilita (1.11),introducendo una notazione leggermente diversa:
6.2 lntervalli di confidenza
173
dove Po B una probabilita dipendente da un parametro 0, che fornisce una legge per il campione casuale (XI, Xz, . . . ,XN). Nel caso del lancio della moneta la probabilita B discreta e p(x;8) = b(x; 1000,p), con 0 = p. E dunque nel parametro 0 che cercheremo una stima e sul parametro 0 che vedremo come procedere alla verifica di ipotesi, formalizzando quanto esposto in via intuitiva negli esercizi 3.13-3.17. Le sezioni seguenti fino alla 6.13 sono dedicate alla stima, le successive alla verifica di ipotesi. Per facilitarvi lo studio e la applicazione pratica di questi metodi abbiamo suddiviso l'esposizione per problemi (studio della probabilit&,della media, della varianza, ecc.) e abbiamo intenzionalmente intitolato i paragrafi come "stima di ..." quando si tratta di un problema di stima dei parametri e come "verifica di ..." quando si discute di verifica di ipotesi.
6.2 lntervalli di confidenza Nell'esempio introduttivo di Tab. 6.1 abbiamo definito, in mod0 intuitivo, un intervallo di ampiezza 2s per stimare la probabilita di ottenere testa come:
n f J m ~ 4 5 0 1f6 sulla base del risultato di mille lanci. Immaginiamo ora di ripetere lo stesso esperimento per ottenere un nuovo intervallo, che, prima di osservare il risultato dei lanci, 6 chiaramente un intervallo aleatorio che potremmo definire come X-IS. In statistica, la probabilith che questo intervallo ha di contenere la Vera probabilit&p di osservare testa si chiama livello di confidenza dall'inglese confidence level, e si indica con CL r (1 -a), mentre a B detto livello di significativitk. E nostro interesse che questo intervallo abbia contemporaneamente un livello di confidenza elevato e un'ampiezza ridotta perch6 sia utile. Cherchiamo allora di definire un criterio per scegliere un intervallo con il CL desiderato seguendo l'interpretazione frequentista adottata nelle scienze sperimentali sulla base del famoso lavoro di Neyman [61]. Consideriamo la densit&p(x;6) di forma funzionale nota, e supponiamo di voler determinare il valore del parametro 6 fisso ed incognito. Se 0 B un parametro di posizione come la media, per valori diversi di 0 la densit&scorrer&lungo l'asse x come mostrato in fig. 6.1. Le aree non ombreggiate delle densita di fig. 6.1 corrispondono ai livelli di probabilitb:
174
Capitolo 6. Statistica di base
Fig. 6.1. Costruzione di un intervallo di confidenza di livello CL per il parametro di posizione 8. Le aree chiare non ombreggiate di p(x; 0) valgono tutte CL. Variando il valore di 8 varia la posizione di p(x; 8) lungo l'asse dei valori misurati x. Introducendo l'asse verticale dei parametri O, si ottiene la situazione della figura, in cui si vede la fascia di confidenza di Neyman [81(x), 02(x)], la cui larghezza in x B l'intervallo di p(x; 0) che sottende un'area CL.Ottenendo in un esperimento il valore x e determinando le intersezioni della retta passante per x e parallela all'asse O con la fascia di confidenza, si determina l'intervallo [B1, $21 che contiene il valore vero B con un livello di confidenza CL = 1 - a,dove 0 = cl cz 8 la somma delle due aree ombreggiate.
+
dove a k la somma delle aree delle due code ombreggiate. L'unione di tutti gli intervalli [xl, 2 2 1 di fig. 6.1 dh luogo ad una regione, nel piano (x, 8),detta fascia di confidenza di livello CL = 1-a. Questa fascia, se si guarda la fig. 6.1 dall'alto, appare come nella fig. 6.2. Le due curve che la delimitano sono funzioni monotone crescenti B1 (x) e Q2(x).Questo non it vero in generale ma spesso ci si pub ricondurre a questa situazione riparametrizzando il problema (ad esempio, nel caso della distribuzione esponenziale negativa, utilizzando la media anziche la probabilith per unit2 di tempo come parametro). Tenendo sempre presente le figg. 6.1 e 6.2, supponiamo ora di aver misurato X ottenendo un valore x; tracciamo da questo punto una parallela all'asse dei parametri, le cui intersezioni con la fascia di confidenza individuano l'intervallo [&, 821. Notiamo che questo intervallo B aleatorio, perch6 il valore x varia ad ogni esperimento. In generale dovremo quindi indicarlo con [@I, 0 2 1 . Se il valore vero del parametro incognito B 8, dalle figure si vede che ad esso corrisponde sull'asse dei valori misurati l'intervallo [xl, x2] e, per costruzione, si ha P(xl 5 X 2 2 ) = CL. Dato che quando x = $1 sull'asse dei parametri 8 = O2 e quando x = xz si ha invece B = 01, per costruzione z E [XI,xz] se e solo se 8 E [$I, $21. Vale allora la relazione fondamentale:
<
6.2 lntewalli di confidenza
175
Fig. 6.2. Guardando dall'alto la fig. 6.1 ap-
X~
X2
pare la fascia di confidenza di Neyman per un CL fissato, che permette la determinazione dell'intervallo di confidenza 6 E [@I,621 a vartire da un valore misurato x.
che definisce l'intervallo di confidenza 02]di livello di confidenza C L = 1- a. Quanto detto finora pub essere riassunto nella Definizione 6.1 (Intervallo di confidenza). ate due statistiche 01 e (nel senso della def. 2.13 di pagina 62) con 01 e 0 2 variabili continue e 01 5 0 2 con probabilitd 1, si dice che I = [01,02] 6 un interval10 di confidenza per u n parametro 6 , di livello di confidenza 0 < C L < 1, se, per ogni 0 appartenente a110 spazio dei parametri, la probabilitci che I contenga 6 vale CL: p{015e 5 02)= CL . (6.5) e O2 sono variabili discrete, l'intervallo di confidenza 6 l'intemallo piG Se piccolo che soddisfa la relazione:
e2
Per evidenziare meglio questo concetto di intervallo che "ricopre" il parametro 6 con una certa probabilitd, il livello di confidenza viene anche chiamato "copertura" . In inglese viene usato il termine coverage probability [16] e la condizione (6.6) viene detta di m i n i m u m overcoverage. I1 fatto importante da notare i: che nell'intervallo di confidenza (6.5) gli estremi sono variabili aleatorie, mentre il parametro B i. fissato; di conseguenza, il livello di confidenza va sempre riferito all'intervallo I = [ e l , 0 2 1 ed indica la frazione di esperimenti che individuano correttamente il valore vero, in un insieme infinito di esperimenti ripetuti, ognuno dei quali troua u n intervallo di confidenza diverso. Cib equivale ad affermare che ogni particolare intervallo [el, 02] viene ricavato con un metodo che dB il risultato corretto in una frazione C L degli esperimenti. Questa interpretazione dei risultati statistici, che ha un chiaro significato operativo, molto vicino a quanto succede nella vita reale nelle misure di
176
Capitolo 6. Statistica di base
laboratorio e in genere negli esperimenti ripetuti, B detta interpretazione frequentista ed B quella diventata prevalente nelle scienze applicate grazie a1 lavoro pubblicato dallo statistic0 J. Neyman nel 1937 [61]. In statistica B lecito chiamare intervallo di confidenza sia l'intervallo aleatorio I = [GI,G2]sia le sue realizzazioninumeriche [dl,d2].Talvolta si afferma che il CL B la probabilita che il valore vero 8 sia contenuto in [B1, 821 ma si deve sempre essere consci che questa dizione, nell'interpretazione frequentista, & scorretta perch6 6' non B una variabile aleatoria [20]. In pratica, avendo ottenuto un valore z di una variabile X continua e conoscendo la densita p ( ~8); della (6.2), se 8 B un parametro di posizione come la media, i valori [81,02],relativi ad una realizzazione dell'intervallo aleatorio [@I, 0 2 1 second0 il C L assegnato, possono essere trovati, come mostrato in fig. 6.1, con le relazioni (fate attenzione alla posizione di 81 e 82): ~ m P ( z ; % l ) d=ze l
,
L
~ ( z62) ; d.2 = c2 ,
(6.7)
dove C L = 1-el -c2. Nel caso X sia una variabile discreta, agli integrali vanno sostituite le somme sui corrispondenti valori dello spettro, come vedremo tra poco. Se si sceglie un intervallo simmetrico, allora valgono le condizioni el = c2 = (1 - CL)/2. La scelta dell'intervallo simmetrico non B ovviamente l'unica ma B la piil comune poichk, nel caso di densit& di probabilitb di forma regolare "a campana", questo i: l'intervallo di ampiezza minima. A volte si vuole determinare, per un certo CL, solo il limite superiore di 8, ciog l'intervallo (-m, 01; in questo caso nelle (6.7) va posto 8 = 81 = 82 e cl = CL, c2 = 1 - CL. Per il limite inferiore, cioB per I'intervallo [8,+m), valgono invece le condizioni 8 = 81 = e CI = 1- CL, c2 = CL. I1 tip0 di intervallo da utilizzare B in genere determinato dalla natura del problema. E perb di fondamentale importanza tenere presente che la scelta va fatta prima di eflettuare la misura. Decidere ad esempio, nel caso di eventi rari, se dare un intervallo simmetrico o un limite superiore a seconda che la misura fornisca o meno dei risultati (tecnica detta di "flip-flopn) porta ad un calcolo errato dei livelli da associare agli intervalli di confidenza [33]. Notiamo che le (6.7) valgono in generale, poichk quasi sempre un problema di stima richiede la individuazione di uno stimatore T N ,second0 la (2.76) di pag. 65 (dove /I 8). La densita di TN dipende in genere dal parametro da stimare e pub essere indicata come p ( t ; 8), con 8 parametro di posizione. Infatti, ( T N )= t p(t; 6) dt = .r(%), con ~ ( 8 = ) 8, se lo stimatore B corretto (questi concetti verranno approfonditi piih avanti, nel cap. 9). Se si riesce a trovare questa densita, si pub effettuare la stima di 8 attraverso le (6.7).
6.3 Determinazione degli intervalli di confidenza Abbiamo fin qui visto due modi per determinare l'intervallo di confidenza: il semplice metodo grafico di fig. 6.1, che richiede perb la costruzione della fascia
6.3 Deterrninazione degli intervalli di confidenza
177
Fig. 6.3. Nel caso la forma della densiti sia invariante per traslazione del parametro p, il calcolo dell'intervallo di confidenza viene fatto in mod0 semplice con la formula (6.9.)
di confidenza di Neyman, oppure il calcolo degli int.egrali (6.7). Entrambi questi metodi sono in genere impegnativi dal punto di vista computazionale. Fortunatamente, se la forma della funzione densith ha qualche proprieth di invarianza rispetto ai parametri da stimare, si possono trovare metodi particolarmente semplici. Consideriamo il caso in cui il parametro 8 di Fig. 6.1 i: la media di una curva normale, 8 =: p. Allora la forma di ~ ( x,u); i: invariante per traslazioni e le funzioni &(x) e &(x) di fig. 6.2 sono due rette parallele. Dalla fig. 6.3 risulta la proprith seguente:
che si pub scrivere come:
P{p-to 5 X
< p+ta)
= Pi-to
<X-p
5 t o ) = P{X-to 5 p 5 X+to) .
(6.9) In altre parole, i livelli di probabilit6 dell'intervallo centrato su p coincidono con i livellz dz confidenza dell'intervallo aleatorio centrato su X . Ad ogni esperimento il valore di X varia, ma la probabilita di copertura di p i: uguale all'intervallo di probabilith p f to (si veda la fig. 6.3). In termini di funzione di ripartizione F(z;8) (per 8 ed z scalari) questa proprietii pub essere scritta come: F ( z ;8) = 1 - F(8;z ) . (6.10) Abbiamo percib trovato la seguente regola pratica: nel caso gaussiano, o comunque quando vale la (6.10), basta centrarsi sul valore misurato ed assumere come livelli di confidenza i livelli di probabilith corrispondenti all'ampiezza dell'intervallo di stima centrato sulla media.
178
C a ~ i t o l o6. Statistica di base
Ad esempio, nel caso di Tab. 6.1, dato che sappiamo che il numero x di successi in n = 1000 lanci di una moneta i: una variabile gaussiana (perch6 np, n(1- p) )> lo), possiamo stimare la probabilita Vera come: x&d x f2d x k3 d
m m m
=
450 f 16 (CL = 68.3%)
= 450 f 32
(CL = 95.4%)
= 450 f 48
(CL = 99.7%) .
Come abbiamo appena visto, la variabile aleatoria Q = (X-p), pur contenendo il parametro p, ha distribuzione N(0, n2) indipendente d a p. Le variabili aleatorie la cui distribuzione non dipende dal parametro che si vuole stimare sono dette quantith-pivot o quantith pivotali. Un altro esempio si ha quando 8 B un parametro di scala, cioi: p(x; 8) = h(x/8)/8; in questo caso Q = XI0 i:una quantith pivotale per 0. Generalizzando la discussione, possiamo dire che se Q(X, 0) 2 una quantith pivotale, la probabilith P { Q E A) non dipende da 0 per ogni A E R. Se questa distribuzione ha una densitd nota (gaussiana standard, Student, X 2 , . . .), in corrispondenza di un CL assegnato si possono determinare facilmente i quantili ql e q2 tali che
Se la relazione ql 5 Q(X, 0) 5 q2 pub essere risolta rispetto a 0, possiamo scrivere, come nella (6.9) : P{ql I Q ( X ,8) 5 q2) = P{81(X)
5 0 5 82(X)) = P { 0 1 I 0 I 0 2 1 ,
(6.12) ottenendo cosi la (6.5). Come si vede, se si trova una quantiti pivotale risolubile rispetto a 8 second0 la (6.12), l'intervallo di confidenza pub essere determinato senza ricorrere agli integrali (6.7).
6.4 Cenno all'approccio bayesiano Le considerazioni fin qui svolte stanno alla base dell'approccio frequentista per la stima dei parametri. Nell'approccio bayesiano, cui abbiamo accennato nel par. 1.3, il parametro da stimare viene considerato come u n a variabile aleatoria e l'intervallo di confidenza rappresenta la conoscenza ottenuta, dopo la misura, sul valore del parametro. Avendo ottenuto 450 teste in mille lanci di una moneta, in approssimazione normale ed attribuendo a1 valore atteso una probabilith a priori costante, risulta che dopo l'esperimento il valore atteso vale 450 f 16 con un grado di credibilith (probabilith o belief) del 68%. In questo caso 17approcciobayesiano fornisce un risultato numeric0 uguale a quello frequentista, ma interpretato in altro modo. L'intervallo bayesiano dipende perb
6.5 Alcune notazioni
179
dalle informazioni a priori. Se sapessimo che la moneta i: fabbricata bene (p = 0.5) con una incertezza sulla bilanciatura di tip0 gaussiano con, po~ 0.1%, potremmo sostituire alla distribuzione a priori uniforniamo, o p / = me (probabilit8 costante) quella gaussiana N(p, a;), ottenendo un risultato diverso anche numericamente da quello frequentista. Non approfondiremo ulteriormente questi aspetti, che sono trattati in dettaglio, dal punto di vista statistico, in [16] e [65]. Ricordiamo infine che in fisica sono state recentemente proposte analisi bayesiane quando non i: facile trovare quantita pivotali, come nel caso di piccoli campioni contenenti conteggi in presenza di fondo o di campioni provenienti da popolazioni gaussiane con vincoli fisici sulle variabili misurate (ad esempio, se X B una massa, vale la condizione a priori {X 2 0)) [20, 241. Recentemente B stato per6 proposto, anche per questi casi, un approccio frequentista, che non necessita di assunzioni a priori sulla distribuzione dei parametri [33] e che sta incontrando il favore dei fisici sperimentali [48].
6.5 Alcune notazioni Nel seguito sarA importante tenere presente le notazioni usate per le stime puntuali e le stime per intervalli di confidenza. La stima puntuale di una quantitA vera si effettua attraverso i valori degli stimatori; ad esempio la media di un campione i: una possibile stima della media vera. La notazione che useremo 6: m = fi. Tratteremo in mod0 esteso le stime puntuali nei capp. 9 e 10. In questo capitol0 tratteremo invece in mod0 completo le stime per intervalli. Nel caso gaussiano, un valore vero 0 B contenuto con live110 di confidenza 1 - a! = CL in un intervallo simmetrico centrato su x quando
dove s E (T e tcu12 = -tl-a/2 sono i quantili della gaussiana standard. E facile verificare che gli indici dei quantili si possono scrivere in termini del CL come: a 1-CL a! 1+CL In statistica spesso si scrive l'intervallo ad l a come:
La prima notazione i: preferita dai matematici, la seconda da fisici ed ingegneri, i quali quasi sempre sostituiscono il simbolo di appartenenza con quello di uguaglianza: fisici ed ingegneri ~ E X I ~ S + 0=xfs (6.16)
180
Capitolo 6. Statistica di base
Se gli errori a destra e sinistra del valore centrale sono diversi, la notazione dei matematici ovviamente non cambia, mentre l'altra diventa:
Solitamente viene considerato improprio assegnare ad s piu di due cifre significative; se ad esernpio la prima cifra significativa dell'errore s i:il metro, non ha senso dare il risultato con la precisione del millimetro. Vale la seguente regola pratica, che qui riportiamo come Affermazione 6.2 (Cifre significative dell'errore statistico). In statistica i risultati finali del tipo x fs vanno presentati con l'errore statistico s dato a n o n p i i di due cifre significative e x arrotondato di conseguenza. Se n o n si segue questa regola, occorre spiegarne le ragioni.
Notiamo che nei risultati intermedi, per ridurre gli errori di troncamento, 6 lecito usare un numero pih elevato di cifre significative; tuttavia, nei risultati finali, si dovrebbe sempre seguire la regola 6.2. E pertanto scorretto scrivere: 35.923*1.407,
35.923f1.4,
35.9&1.407,
perch4 nel primo caso vi sono troppe cifre significative, nel secondo e nel terzo vi 6 discordanza tra le cifre significative del dato e dell'errore. E invece corretto scrivere: 35.9 f 1.4 oppure 36 i 1 .
6.6 Stima della probabilita da grandi campioni Ci poniamo il problema seguente: se eseguiamo una prova di n tentativi bernoulliani e otteniamo x successi e quindi una frequenza f = x l n , come possiamo stirnare la probabilith Vera dell'evento in esame? Dal calcolo delle probabilit8, sappiamo che effettuando n tentativi su un sistema che genera eventi con probabilitap costante si pub ottenere un numero x di successi (spettro) compreso tra 0 ed n. Tuttavia, questi risultati non sono equiprobabili, ma si distribuiscono secondo la densith binomiale (2.30). Sappiamo anche che i valori capitano piG di frequente intorno a1 valor medio np, con varianza g2 = np(l - p), e che la forma della densith binomiale diventa gaussiana per np, n(1- p) > 10. Con questo tipo di prova si osservano le realizzazioni numeriche f = x / n della variabile aleatoria frequenza F = X l n , che, in base alle (2.63, 3.4, 3.6)' ha media e varianza pari a
181
6.6 Stirna della probabilita da grandi campioni
Possiamo quindi definire la variabile standard (3.37) -
T = ----- , 4FI
che assume i valori
f
-P
(6.20)
Se ora eseguiamo una prova, f i3 noto e p i: incognito; utilizzando l'approccio statistico, possiarno allora determinare i valori d i p per i quali il valore assunto dalla variabile standard risulta minore di un certo limite t assegnato:
Eliminiamo i valori assoluti elevando a1 quadrat0 ambo i membri e risolviamo, rispetto all'zncognita p, I'equazione di I1 grado risultante:
Poich6 il termine in p2 B sempre positivo, la disuguaglianza 2 soddisfatta per valori di p compresi nell'intervallo: PC
(t2+ 2f n )
% Jt4
+ 4f2n2 + 4t2nf - 4t2nf2 - 4n2f2 2(t2 + n)
7
da cui, in forma compatta:
I1 parametro t sta ad indicare un qualunque valore della variabile standard
T; porre t = 1 corrisponde a considerare una unita di errore statistico. Si noti che l'intervallo non 6 centrato sul valore misurato f , ma nel punto (f + t2/2n)/(t2/n + I ) , che i: funzione di f e del numero dei tentativi effettuati. Questo effetto 5 dovuto alla notevole asimmetria della densita binomiale per
piccoli n, come si vede daIla Fig. 2.4. Per n >> 1 l'intervallo tende a centrarsi sul valore misurato e la (6.21), per C L = 1- a, diventa:
che viene spesso scritta convenzionalmente ad l a con tlPal2 = 1:
182
Capitolo 6. Statistica di base
Moltiplicando per il numero di tentativi n , la (6.23) pub essere facilmente espressa in funzione del numero di successi x. L'intervallo che si ottiene B allora relativo al numero atteso di successi, ovvero alla speranza matematica
I.L: Questa formula, che viene usata in pratica per nf, n ( l - f ) > 20'30, 6 stat a utilizzata in Tab. 6.1 nell'esempio introduttivo a1 capitolo. Essa & facile da ricordare, perch4 l'intervallo B centrato sul valore misurato, la varabile T della (6.20) k pivotale perch6 T N(0, I), vale la (6.9), l'errore statistic0 ha la stessa espressione della deviazione standard della distribuzione binomiale (con la probabilith p sostituita dalla frequenza misurata f ) e i livelli di confidenza CL sono gaussiani. Gli intervalli (6.21) e (6.23) sono gli intervalli di confidenza rispettivamente per piccoli e grandi campionamenti. Come abbiamo appena osservato, per grandi campionamenti la densit& binomiale assume una forma gaussiana e l'intervallo di confidenza, come mostrato in Fig. 6.4a, 6 simmetrico. I1 valore misurato f definisce in questo caso due code che valgono entrambe (1 - CL)/2, in mod0 tale da avere le due aree tra f e pl e tra f e pz uguali ognuna a CL/2. Nel caso di piccoli campioni, come mostrato in Fig. 6.4b, le due code di area (1 - CL)/2 assumono forma diversa e l'intervallo di confidenza i! asimmetrico rispetto alla frequenza osservata. La variabile T della (6.20) non 6 pivotale e non i! piG possibile assegnare in mod0 generale i livelli di confidenza all'intervallo (6.21). Trattiamo per primo il caso dell'intervallo (6.23), relativo ai grandi campioni, che B il caso pih facile. Se B valida la condizione n f , n ( l - f ) > 10, i livelli di confidenza associati all'intervallo (6.23) sono quelli della legge 30 gaussiana (3.351, riportati nella tab. D.1. E allora molto facile effettuare stime affidabili, come mostrato nell'esempio che segue. Esercizio 6.1
de, campionate casualmente dalla popolazione totale di schede in scrutinio. I1 partito A ha ottenuto 600 voti. Dare la previsione finale (proiezione) del risultato. Risposta. Dato che n = 3000, f = 600/3000 = 0.20 e nf, n ( l - f ) >> 10 possiamo utilizzare l'intervallo (6.23), con i livelli di confidenza gaussiani. Otteniamo pertanto:
6.6 Stima della probabiliti da nrandi campioni
183
spondente nel caso simmetrico (a) alla somma di due aree relative agli intervalli (npl ,x) e (z,npa), corrispondono due code di area (1 - C L ) / 2 che sono uguali nel caso di grandi campionamenti (a), di forma diversa nel caso di piccoli campioni (b)
S i noti la sorprendente precisione che si ottiene pur con u n numero limitato di schede elettorali. A m'gore, dato che la popolazione in questo caso B molto grande m a finita (milioni di elettori), a questi risultati andrebbe apportata, come mostreremo tra poco nel par. 6.13, u n a correzione che perd qui b assolutamente trascurabile. La Vera dificoltit, in questo tipo di previsioni, sta nel170ttenere un campione veramente rappresentativo della popolazione totale. I n generale si definisce come rappresentativo o casuale u n campione nel quale u n individuo di qualunque gruppo ha u n a probabilitd di entrare proporzionale alla dimensione del gruppo rispetto alla popolazione totale (si ueda anche la def. 6.4 piu avanti). I n campioni relativi ad un fenomeno naturale di tzpo fisico, come quelli che si ottengono in laboratorio, se n o n si commettono errori sistematici durante le misure b la natura stessa che provvede a fornire un campione casuale. La situazione b invece molto diversa nel caso delle scienze sociali o biologiche, dove le tecniche di campionamento da u n a popolazione (sampling) sono tanto importanti e dificili da costituire u n ramo speciale delEa statistics. Chi 2: interessato a questi metodi pud consultare [la]. La (6.22) permette anche di trovare la dimensione del campione necessaria per mantenere l'errore statistico a1 di sotto di un valore assoluto prefissato a priori. Si arriva facilmente a questo risultato se eleviamo a1 quadrat0 l'errore statistico presente nell'equazione e sostituiarno a f il valore vero p, ottenendo la varianza:
184
Capitolo 6. Statistica di base
Per inciso, notiamo che questa equazione i: identica alla (3.5), a meno della divisione per il fattore n" dato che qui consideriamo la variabile F = X l n . Se ora uguagliamo a zero la derivata rispetto a p, otteniamo:
Sostituendo il valore di massimo p = 112 nella (6.25), otteniamo il limite superiore per la varianza Vera, in funzione del numero di tentativi n:
La proprieta notevole di questa formula i:che essa dB un limite superiore per la varianza indipendentemente dal valore della probabilitci Vera p. E pertanto possibile determinare una formula universale per il numero di tentativi necessari per mantenere l'intervallo di stima ftl-,12 a,, a1 di sotto di un certo valore prefissato, in corrispondenza di un certo livello di confidenza CL = 1- a. Essa si ottiene dalla (6.26):
Esercizio 6.2 Trovare il n u m e stima assoluto minore d e l 4 per mille con un livello di confidenza del99%. Risposta. Poiche' il problema si riferisce ai grandi campionamenti, possiamo usare la Tab. D.l da cui risulta che ad u n C L del99%, pari a u n a semi-area gaussiana d i 0.495, corrisponde u n valore tl-o.oos = 2.57. Inserendo questo valore nella (6.25') otteniamo immediatamente:
6.7 Stima della probabilitA da piccoli campioni Veniamo ora alla seconda parte del problema relativo alla stima di una probabilith, cioQa1 caso dei piccoli campioni, in cui x = n f < 10. In questo caso dovremmo usare l'intervallo (6.21), per il quale non sono perb definiti livelli di confidenza universali, perch6 la forma della densit& binomiale dipende fortemente, per piccoli campionamenti, sia dal numero di
6.7 Stirna della probabilith da piccoli campioni
185
tentativi n sia dal valore di p. Risolviamo pertanto il problema con le (6.7) trascritte per una variabile discreta; se C L it il livello di confidenza richiesto, i valori pl e pa del corrispondente intervallo di confidenza sono determinati dagli estremi delle due code di Fig. 6.4b:
Nel caso simmetrico CI = ca = (1-CL)/2 = a/2. La risoluzione di queste due equazioni rispetto a pl e p2 permette la stima corretta della probabilitb d a piccoli campioni. Abbiamo risolto questo problema con un metodo ricorsivo, che riportiamo a pagina 186. mediante il codice Durante l'inser ei dati, l'utente pub scegliere, tramite una finestra di dialogo, se fare la stima a due code simmetriche oppure se procedere alla stima ad una coda a destra (r 'estremo inferiore) o a sinistra (estremo superiore). Nel primo cas risolve le equazioni (6.28, 6.29) con una ricerca dicotomica che t r dimezzando il passo s ad ogni ciclo, finch6 il valore q = c2 =(1- CL)/2 calcolato s l o s2 differisce da quello previsto SL1 o SL2 a meno della quantitb SMALL, che determina l'acNella ricerca dicotomica viene usata la routine e calcola i valori cumulativi (indicati con la sie binomiale b ( X ;AT,p). Per non contare due volte il valore k = x il codice include il punto x = k sia nella (6.28) sia nella (6.29) contemporaneamente, pesando le relative probabilita con un fattore 112. L'algoritmo scelto contiene un margine di arbitrarietb: avremmo ugualmente potuto scegliere di calcolare le equazioni due volte, escludendo il punto x = k prima nella (6.28), poi nella (6.29) e scegliendo il piG piccolo tra i due intervalli (pl, p2) cost calcolati; i risultati che si ottengono sono in questo caso leggermente diversi. Questa ambiguith intrinseca del problema it dovuta a1 fatto che, per piccoli campioni, l'intervallo di confidenza it asimmetrico e la probabiliti corrispondente a x = k it diversa a seconda che si consideri la coda di destra o di sinistra. Come mostrato in Fig. 6.4, l'ambiguita sparisce per grandi campioni, quando le densitb diventano gaussiane e le code di destra e sinistra hanno area uguale. osti pari a (1- CL) e si Nei casi di sti che con il codice d'uso utilizza la routine PrOmpr trova direttamente la probabilitb p della binomiale b(x;N,p) per la quale il valore misurato x it un quantile pari a CL. In uscita il codice stampa i valori pl ,p2 e, per la stima a due code, il livello di confidenza calcolatol-s I-s2 che, a meno degli errori di arrotondamento numerico, coincide con il valore assegnato in ingress0
186
C a ~ i t o l o6. Statistica di base
Fig. 6.5. Stima dei limiti inferiori e superiori di un probabilith con CL assegnato. Nei casi limite in cui x = 0 es x = n si ha rispettivamente (1- ~ 2 = )1 -~ C L e p;2 = 1 - CL.
Nel caso x = 0 e nel caso rc = n le (6.28, 6.29), con cl = cz = 1 - C L , forniscono due importanti casi limite, mostrati nella Fig. 6.5:
Da queste formule otteniamo, per un CL prefissato, il limite inferiore di una probabilith quando tutti i tentativi hanno avuto successo: pl =
q
m = e$'n(l-CL)
-
10$'~g(l-CL)
(6.32)
dove l'uso dei logaritmi in base e o base 10 pub essere utile nel caso di n molto grande. Nel codice questi casi limite vengono trattati automaticamente se viene ric tima ad una coda. Nel caso della stima a due code, se si verifica la condizione pI
6.7 Stima della probabilita da piccoli campioni
187
// SCILAB script Stiprob: stima della probabilita' per piccoli carnpioni / / con il metodo di Neyman
stl=I1Lastima a due code viene fatta"; st2="solo per valori pI
N
=
X
= input("numero dei successi
X: ' I )
;
if X>N then warning("X deve essere <= N ! Stop"); abort; end; CL = input("Livel10 di Confidenza CL (range [0,11) :"1 ; YN=x-choose(["due code","lim. inf","lim. sup."1,[llQualestima?"] ;
/ / stima a due code if YN==1 then SLl=O.5* (1-CL) ; SL2=SLl; //ricerca dicotomica di pl pl=O.5; s=pl; sl=O; while abs(s1-SLl)>SMALL & pl>SMALL, if X==O then cwnl=O; else cuml=cdfbin("PQ",X-l,N,pl,l-pl) ; end ; sl=l - cum1 - (cdfbin("PQ",X,N,pl,l-pi)-cuml)/2; s=s/2; if sl<SLl then pl=pl+s; else pl=pl-s; end ; end ; //ricerca dicotomica di p2 p2=0.5; s=p2; s2=0; while abs (s2-SL2)>SMALL & (1-p2) >SMALL, if X==O then cum2=0; else cum2=cdfbin("PQ" ,X-l,N,p2,I-p2) ; end ; s2=cum2 + (~dfbin('~PQ",X,N,p2,1-p2)-cum2)/2; s=s/2; if s2<SL2 then p2=p2-s; else p2=p2+s; end ; end ; end ;
/ / stime a una coda
188
Capitolo 6. Statistica di base
if (YN==3 I pl
pari a circa lo 0.6%. L'interpretazione di N e y m a n del risultato B la seguente: una pompa con probabilitd di panne maggiore d e l 6 per mille pub partire per 500 volte consecutive, m a questo accade in m e n o del 5% dei test. Si noti che questo risultato vale nello schema di prove indipendenti. Esercizio 6.6 Quante prove mare, con u n a confidenza del95%, che u n dispositivo si guasterd: i n m e n o del 3% dei casi?
Risposta. Utilizzando i logaritmi decimali, dalla (6.33) si ottiene facilmente: n=
log(1- C L ) - log(1 - 0.95) = 98.4 log(1-p) log(1-0.03)
,
6.8 Stima di valori limite ~oissoniani
191
pari a circa 100 prove. Un dispositivo con probabilith di guasto > 3% pud aflrontare con success0 100 prove, m a questo succede in meno del 5% dei test.
6.8 Stima di valori limite poissoniani Quando n B grande e non si sono registrati successi, pa B piccola. Sviluppando a1 primo ordine l'esponenziale nella (6.33) intorno a1 punto iniziale pz = 0, si ottiene allora l'approssimazione: ~2 N
1 --ln(1 n
- CL)
,
(6.35)
che corrisponde all'equazione:
la quale non i: altro che B la probabilita poissoniana di non ottenere eventi quando la media 6 p = npz La procedura fin qui applicata pub essere quindi estesa anche a1 caso poissoniano. Nel caso di eventi rari, si pub utilizzare in mod0 approssimato il codipagina 186 con n molto grande (ad esempio n = 1000), oppure, nza di un numero x di eventi osservato, stimare esattamente p risolvendo le equazioni, analoghe alle (6.28, 6.29):
dove nella prima equazione la somma va estesa fino a valori tali da rendere trascurabile l'errore di troncamento. Nel caso simmetrico si ha come sempre C l = C 2 = (1 - CL)/2. La seconda delle (6.37), con cz = 1 - CL, permette anche di risolvere in mod0 generale e non approssimato il problema di trovare, per un CL assegnato, il limite superiore poissoniano a1 numero medio di eventi avendo ottenuto x eventi. Per x = 0,1,2, ponendo pa p , si ha ad esempio (si veda anche la Fig. 6.7):
-
e cosi via. La Tab. 6.2 pub evitarvi la fatica di risolvere queste equazioni. A titolo di esempio, essa mostra che, quando p > 2.3, mediamente non si
192
Capitolo 6. Statistica di base
0
1 2 3 4 5 6 7 8 9 1 0 1 1
Fig. 6.7. Rappresentazione grafica della seconda delle (6.37) per z = 1
otterranno successi in un numero di esperimenti < 10%. Analogamente, se 4.74 B il limite superiore per x = 1 e CL = 95%, significa che, quando C , L > 4.74, si possono ottenere i valori x = 0 , l solo in un numero di esperimenti < 5%, come mostrato anche in Fig. 6.7. In alternativa alla tabella, si possono calcolare le probabilita cumulative poissoniane con la essa risolve la priso Xlam. Con la chiamata ma delle (6.37) fornendo conda delle (6.37) si otti Ad esempio, potete ver mu=cdfp o i ("XlamI7, . I , .9,0) , si ottenga il limite superiore mu=2.302585 per x = 0 e CL = 90010, in accord0 con la Tab. (6.2).
6.9 Stima della media da grandi campioni A differenza della media Vera p, che 6. una quantita fissa, la media di un campione (o media campionaria) k una variabile aleatoria. Infatti se produciarno un campione casuale di dimensione N da una distribuzione, ne facciamo la Tabella 6.2. Limiti superiori p2 poissoniani a1 numero medio di eventi per x eventi osservati, per livelli di confidenza del 90 e 95%
6.9 Stima della media da grandi campioni
193
media:
e ripetiamo il procedimento piu volte, otterremo ogni volta un risultato diverso. La media campionaria va quindi vista come uno stimatore
del tip0 (2.9, 2.70), second0 lo schema di pagina 61. Applicando l'operatore varianza alla variabile M otteniarno, sfruttando le solite proprieta (4.19, 5.74):
Poich6 le variabili Xi appartengono tutte allo stesso campione e sono indipendenti, Var[Xi] = a 2 , dove n2 6 la varianza della distribuzione campionaria. Otteniamo dunque l'importante e semplice risultato:
Poich6 cr2 in genere non 6 nota, possiamo approssimarla con la varianza s2 calcolata direttamente dal campione ed ottenere cosi l'intervallo ad la
centrato sul valor medio e di ampiezza pari all'errore statistic0 s / a , che contiene la media Vera. Con quale live110 di confidenza? I1 teorema Limite Centrale 3.1 afferma che la densith della media campionaria sarh, gaussiana per N >> 1, condizione che in pratica diventa N > 10. Nel caso gaussiano dalla (6.9) risulta allora che i livelli di confidenza cercati sono dati dai livelli di probabilita rispetto alla media della corrispondente densith gaussiana. I1 problema Q quindi completamente risolto, almeno per grandi campioni. Spesso, per indicare esplicitamente che per N grande i livelli di confidenza sono gaussiani, la (6.40) viene messa nella forma:
dove le N variabili Xihanno media p e deviazione standard (T e @ k la funzione cumulativa della gaussiana standard (3.43). Vediamo ora per quali valori di N Q lecito sostituire nella (6.40) la varianza (o la deviazione standard) Vera con quella osservata.
194
Capitolo 6. Statistica di base
Rappresentiamo il campione discusso nel paragrafo precedente, per la stima della probabilitb, con un istogramma, assegnando il valore 0 agli insuccessi, ed il valore 1 ai successi. Nell'approssimazione N - 1 -. N , la media e la varianza di questo campione si ottengono dalle (2.52, 2.54):
d a cui si vede che, con la rappresentazione scelta, la media misurata del campione i? uguale alla frequenza $ e la varianza misurata k uguale a f (1 - f). Utilizzando ora la (6.40), otteniamo immediatamente:
Per capire bene il significato di questo risultato, .& bene ricordare che esso si basa sulla sostituzione della varianza Vera con quella misurata e sull'approssimazione per grandi campioni N 21 N - 1. Esso mostra che Ee approssimazioni su cui si basa la (6.23) sono le stesse della (6.40). Se si tiene presente la discussione del par. 6.6, si pub allora dedurre che l'effetto di sostituire nella (6.40) la varianza misurata a quella Vera diventa nella pratica trascurabile per N > 20,30. Riassumendo, la (6.40) & una buona approssimazione per N > 20,30, ed i livelli di confidenza sono gaussiani per N > 10. Dato che la condizione N > 20,30 i: quella prevalente, possiamo scrivere la formula che stima ad la la media Vera per grandi campioni come: S
p Em& -
JN '
(N > 20,30, CL gaussiani) .
Tratteremo tra breve il caso dei piccoli campioni (N < 20,30).
6.10 Stima della varianza da grandi campioni In statistica si possono definire due tipi di varianze: l'una rispetto alla media Vera, l'altra rispetto alla media campionaria:
le quali, per N + oo,tendono, nel senso della (2.76), alla varianza Vera c2. In genere si indica semplicemente con S2 la varianza rispetto ad M, che B
6.10 Stirna della varianza da nrandi campioni
195
detta varianza campionaria. Solo se sara strettamente necessario, nel seguito distingueremo le due varianze con la notazione della (6.44). Per prima cosa, diamo ragione del fattore N - 1 che compare in S2 della (6.44). I1 punto della questione sta nella relazione algebrica:
dove nell'ultimo passaggio si & sfruttato il fatto che C i ( X i - M ) = 0. Ora osservate bene la (6.45): essa indica che la dispersione dei dati intorno alla media vera B pari alla dispersione dei dati intorno alla media campionaria pih un termine che tiene conto della dispersione d e b media campionaria intorno alla media vera. Questa somma di fluttuazioni i: proprio l'origine del termine N - 1. Infatti, invertendo la (6.45), abbiamo:
Applichiamo ora l'operatore di media a tutti i membri di questa relazione, seguendo la tecnica discussa nel par. 2.11. Dalle (2.61, 4.8, 6.39) otteniamo:
Si ha in definitiva la giustificazione della seconda delle (6.44)' poichB risulta che lo stimatore S2 B non distorto in quanto gode della proprieth (2.78):
La varianza campionaria (non corretta)
& un esempio di stimatore non corretto o distorto (biased). Infatti dalla (6.47) risulta: N
(6.50) i= 1
196
Capitolo 6. Statistica di base
Come abbiamo gi&accennato nel par. 2.11, uno stimatore i:distort0 quando la media degli stimatori TN,calcolati da un campione di dimensione N , differisce dal limite per N + co (2.76) dello stimatore. Nel nostro caso, la media differisce dal parametro che si vuole stimare, che i: la varianza, per un fattore (N - 1 ) l N = 1 - 1 / N . I1 termine 1 / N si chiama fattore di distorsione (bias); nel nostro caso perb esso si annulla al limite per N = co. Si dice allora che lo stimatore B asintoticarnente corretto, poichQla media di stimatori ottenuti con N sufficientemente grande B molto vicina a1 limite in probabiliti dello stimatore. Tutti questi concetti saranno poi approfonditi nel cap. 9. L'equazione (6.48) si pub anche interpretare richiamando il concetto di gradi di libertd, introdotto per la prima volta nel par. 3.9 a proposito della distribuzione x2. Se si stima la media dai dati, la somma degli N quadrati degli scarti B in realta formata da N - 1 termini, perch6 la media B vincolata ad essere proporzionale alla somma dei dati. La varianza di un campione i: pertanto una grandezza univoca, a patto che la media dei quadrati degli scarti venga fatta sui gradi di liberth della statistica. In mod0 abbastanza generale, possiamo quindi dire:
Definizione 6.3 (Gradi di liberth di una statistica). I1 nurnero dei gradi di liberth v di una statistica T = t(X1, X 2 , .. . ;XN, 6) dipendente da u n insieme noto di pararnetri 8, ii dato dal nurnero N di variabili del campione m e n o il numero k di pararnetri 0 stimati dai dati:
Cerchiamo ora di trovare ... la varianza della varianza. Questo non i: un paradosso, perch6 la varianza campionaria, come la media, i: una variabile aleatoria, che tende alla varianza Vera per N 4 oo. Analogamente a quanto abbiamo fatto per la media, possiamo applicare l'operatore varianza alle quantita St e S2 della (6.44) ed applicare la trasformazione (5.74). I1 formalism~operatoriale, definito nelle (2.59, 2.66) e gi&applicato nella (6.47), semplifica di molto il calcolo, almeno nel caso di S&.Abbiamo infatti:
dove il momento di ordine 4 i: stato indicato con la notazione dell& (2.58). Sostituendo ai valori veri A4 e a2 i valori stimati dai dati s: e
otteniamo la relazione: var[S;]
D4 - :S
E
N '
6.10 Stima della varianza da grandi campioni
197
che permette di scrivere ad la l'intervallo di confidenza della varianza come:
Un calcolo di questo genere pub essere ripetuto per la varianza S2, ma in questo caso bisogna tenere conto anche della varianza della media campionaria M intorno alla media Vera. I1 risultato finale, abbastanza laborioso da ottenere, mostra che, rispetto alla (6.52), compaiono termini correttivi di ordine 1/N2 che pertanto, per grandi campioni, possono essere trascurati. La (6.52) pub allora essere utilizzata anche in questo caso, sostituendo ad N il numero ( N - 1) di gradi di libertk Nel seguito utilizzeremo la notazione:
(
; */ * /=s2,
D4 - S;
media nota,
D4 - s4
s2
N-1
(6.53) media ignota .
Quali sono i livelli di confidenza da associare alla (6.53)? Si pub mostrare che la varianza campionaria per variabili X qualsiasi tende alla densitb gaussiana, ma solo per campioni con N > 100. Se le variabili del carnpione sono gaussiane, allora, come vedremo meglio nel prossimo paragrafo, la distribuzione campionaria della varianza B riconducibile alla densit2 X2, la quale converge alla densit& gaussiana un po' piG velocemente, all'incirca per N > 30. In generale la variabile aleatoria "varianza campionaria" tende a diventare una variabile gaussiana molto pic lentamente della corrispondente media campionaria, che lo B gib per N > 10. Questo fatto B del tutto naturale se si tiene conto che nella varianza la combinazione delle variabili campionarie i! quadratica invece che lineare. Per trovare l'intervallo di confidenza della deviazione standard, conoscendo l'intervallo [sf, sg] della varianza per un CL assegnato, basta porre a E @]. In modo approssimato, basta applicare la legge di trasforRitenendo solo mazione non lineare (5.56), dove z = s2 e z = s = & = il primo termine, abbiamo:
[fi,
a.
L'intervallo di confidenza ad l a per la deviazione standard B allora:
4(N - l)s2 '
(N
> 100 , CL gaussiani)
Se le variabili che compongono il campione sono gaussiane, allora vale la relazione (3.33) A4 = 3 a 4 , e le (6.53, 6.55) divengono rispettivamente:
198
Capitolo 6. Statistics di base
da cui, per CL = 1 - a:
dove tl-,12 sono i quantili della densitb gaussiana e dove a N - 1va sostituito N se le dispersioni sono calcolate rispetto alla media Vera. Le formule (6.43, 6.53, 6.55, 6.57, 6.58) risolvono il problema della stima di media, varianza e deviazione standard per grandi campioni. A volte, invece delle (6.57, 6.58), si usano un po' impropriamente le (6.56) dove a a si sostituisce s nella formula dell'errore. Daremo tra breve alcuni esempi di stime statistiche, dopo che avremo trattato il problema della stima con piccoli campioni.
6.11 Stima di media e varianza da piccoli campioni La stima di media e varianza per piccoli campioni (N < 20,30 per la media e N < 100 per la varianza) porta ad intervalli e livelli di confidenza che dipendono dal tip0 di popolazione del campione. Per questa ragione non B possibile, a differenza di quanto appena visto per i grandi campioni, arrivare in questo caso a formule di validith generale. Tuttavia, applicando le nozioni di calcolo delle probabilita che abbiamo fin qui sviluppato, B possibile arrivare a una soluzione semplice e completa almeno per il caso pi6 frequente ed importante, quello relativo ai campioni estratti da densit&gaussiane. La teoria dei campioni gaussiani si basa su due punti fondamentali. I1 primo punto B che, come mostrato nell'esercizio 5.3, la media campionaria M , se i: la somma di N variabili gaussiane, B anch'essa gaussiana per qualunque N. Allora, in base alla (6.39), anche la variabile
i: una variabile standard gaussiana per qualunque N, cioi: una quantit& pivotale. I1 second0 punto pub essere condensato in due importanti teoremi: Teorema 6.1 (Indipendenza di M e S 2) . Se ( X I ,X2, . . . ,X N ) 2 u n campione casuale di dimensione N estratto da u n a popolazione avente densith normale g ( x ; p, a ) , M ed S2 sono variabili aleatoric indzpendenti.
6.11 Stima di media e varianza da piccoli campioni
199
Dimostrazione. Dato che le Xi sono variabili gaussiane indipendenti, esse hanno una densitci congiunta prodotto di N gaussiane monodimensionali. Introducendo le variabili standard Ti = (Xi - p ) / c , la densitci congiunta diventa:
E facile verificare le relazioni:
xi
dove M = Ci Xi/N, Mt = Ti/Nsono le medie campionarie di X e T ed S2 2 data dalla (6.44). Poiche' la gaussiana standard g ( t ) ha simmetria sferica, essa h a forma funzionale invariante per trasformazioni ortogonali del tipo
corrispondenti ad una rotazione degli assi. Le nuove variabili Zisono anch'esse gaussiane standard indipendenti N ( 0 , l ) . Scegliamo ora u n a trasformazzone ortogonale che soddisfa alle (6.61) e tale che:
dove si 2 tenuto conto d e l k (6.60) e del fatto che che la (6.59) si pud scrivere come:
xZ1
= N . Risulta dungue
Dal teorema di fattorizzazione 4.1 segue allora l'indipendenza di M e S2. Teorema 6.2 (Varianza campionaria). S e ( X I ,X2, . . . ,X N ) 2: un campione casuale estratto da u n a popolazione auente densita normale g ( z ; p, a ) , la variabile
200
Ca~itolo6. Statistics di base
ha densitd (3.70) x2 ridotto con N - 1 gradi di libertd. Essa d pertanto u n a quantitd pivotale rispetto a a2. Dimostrazione. Dal teorema precedente risulta che ( N - 1)S2/a2 b somma dei quadrati di ( N - 1) variabili standard indipendenti Zi(i = 2,3,. . . ,N), da cui I 'asserto. S i noti che dividend0 la (6.46) per o2 e scambiando i termini risulta:
-- S2 ( M - ,u)2 ( N - 1) - f o? 02/N = N-1
1
C i
N
(Xi - P ) ~ a2
>
gradi di liberta
in accord0 col teorema di additivitd 3.4 delle variabili X2.
0
L'intervallo di confidenza per la media pub allora essere trovato sfruttando i risultati dell'esercizio 5.5. Infatti la variabile (5.41), che in questo caso vale: I
essendo il rapport0 tra una variabile gaussiana standard e la radice quadrata di una variabile X2 ridotto, tra lor0 indipendenti, si distribuisce second0 la nota densit&di Student con N - 1 gradi di Eibert6, i cui quantili sono tabulati in Tab. D.2 (notate che nella (6.63) compare N, ma che la variabile T ha densith con N - 1 gradi di liberth). La (6.63) mostra che l'uso della variabile di Student permette di eliminare dall'intervallo di confidenza la varianza Vera (incognita) o2 e di definire una quantith pivotale per la stima di p. Infatti, se tlFa12 = -tala sono i valori quantili di T corrispondenti a1 live110 di confidenza CL = 1- a fissato come in Fig. 6.8, invertendo la (6.63) si ha:
Come i! facile vedere dalla Tab. D.2 e dalla Fig. 5.4, per n > 20,30 la densit& di Student in pratica coincide con la densit& gaussiana e la (6.64) coincide con la (6.43). Rimandiamo a tra poco gli esercizi sull'uso di queste formule ed occupiamoci prima della stima della varianza. In questo caso la (6.62) fornisce la quantitii pivotale S2/02 x;(N - 1). Seguendo il procedimento indicato nelle (6.11, 6.12), definiamo prima l'intervallo di probabilith:
6.11 Stima di media e varianza da piccoli campioni
201
Fig. 6.8. Intervalli di confidenza associati ai valori quantili tala < tl-,la della variabile di Student a) e della variabile chi-quadrat0 ridotto b) nelle stime di media e varianza con piccoli campioni gaussiani
dove x&,12 , x R2 ( l - ~ n , sono i valori quantili della variabile Qn corrispondenti a1 live lo di con denza CL prefissato, come rnostkto in Fig. 6.8. Quindi, dall'intervallo (6.65) otteniamo per inversione l'ntervallo di stima della varianza in corrispondenza di un valore misurato s2:
1'
s2 2 XR(1-al2)
s2
, N - 1 gradi di libert2 .
(6.66)
XR(a/2)
I quantili a sono legati a1 live110 CL dalle (6.14). L'intervallo di confidenza per la deviazione standard 6 dato semplicemente da:
Per valori N > 30, la densit&x2 pub gi&considerarsi quasi gaussiana, quindi simmetrica, centrata sul valor medio ( Q R ) = 1 e con deviazione standard
in accord0 con le (3.69). In questo caso si possono scrivere i valori quantili come: 2 2 X E ( ~ /= ~ ) - t l - a / 2 OU , X R ( ~ - ~ /=~ ) t l - a / 2 > e l'ampiezza dell'intervallo di confidenza con CL = 1- a diventa:
+
che coincide con l'intervallo (6.57).
202
Capitolo 6. Statistica di base
6.12 Come utilizzare la teoria della stima Nei paragrafi precedenti abbiamo dedotto le formule fondamentali della stima di parametri. Esse sono quelle di uso corrente nelle analisi dei dati e vengono impiegate nei campi pih diversi, ddla fisica, dl'ingegneria e alla biologia. I1 quadro d'insieme i: riassunto nella Tab. 6.3. Tabella 6.3. Gli intervalli di confidenza ad l a e le distribuzioni d a utilizzare per i livelli di confidenza (CL)nella stima di parametri. I campioni con N > 30 per la stima della media ed N > 100 per la stima della varianza sono detti in statistica
grandi campioni VARIABILI GAUSSIANE
INTERVALLO
CL
Probabilith N f <10
N f > 10 N(l- f) Media
N
VARIABILI Q U A L U N Q U E
INTERVALLO
CL
eq. (6.21)
binomiale
f*/qT)
> 1C
< 30
Gauss
Student
N > 30
Gauss
Gauss
Varianza
N
< 100
N
> 100
eq. (6.57)
Gauss
s2 A
/-
- s4 N-1
D4
Gauss
Dev. S t d N
< 100
N > 100
d& 2q.
(6.58)
/-&
Maxwell
Gauss
D4 - s4
Gauss
La tabella mostra che, per quelli che in statistica vengono detti grandi campioni (N > 30 per la media ed '\I > 100 per la varianza), le formule ottenute risolvono il problema della stima in modo semplice e generale. Risulta altresi evidente che il caso relativo alla stima della media e della dispersione per piccoli carnpioni non gaussiani resta ancora non ben definito.
6.12 Come utilizzare la teoria della stima
203
Tuttavia, questo 5 un caso che nella pratica capita assai rararnente e per il quale non & possibile dare una soluzione generale, in quanto sia gli intervalli sia i livelli di confidenza dipendono dal tip0 di distribuzione coinvolta nel problema. Le soluzioni, per alcuni casi di particolare interesse, si trovano nelle riviste specializzate o in libri un po' pih tecnici del nostro. Se sfortunatamente vi capitera di dover risolvere un problema di questo genere, potete consultare il testo [58] ed i riferimenti li riportati. Dalla Tab. 6.3 risulta che tutte le varianze degli stimatori frequenza, media, varianza, ecc. per grandi campioni sono della forma a i / N , dove g o B una costante. Risulta pertanto pienamente verificata la condizione di Kolmogorov (2.75), sufficiente per la convergenza quasi certa di tutte queste stime verso i valori veri. Anche la convergenza debole risulta pertanto verificata, come si pub vedere direttamente dalla disuguaglianza di Tchebychev. Infatti, la (3.91) pub anche essere messa nelle forme:
dove, nell'ultima forma, si B posto K = E / C . Se ora T di Tab. 6.3, Var[Tjv] = a $ / N ed otteniamo:
= TN B uno stimatore
Per N + cm,la (2.72) B quindi verificata. La convergenza quasi certa della media campionaria verso la media vera con l'aumentare delle dimensione del campione i: detta anche legge dei grandi numeri. Copiando dal nostro sit0 la routine S t i m s e studiandone il codice, potete esplorare numericamente le formule per la stima di media e varianza nel caso gaussiano, per piccoli e grandi campioni. Esercizio 6.7
standard s = 5. Stzmare, con u n live110 di confidenza del95%, media, varianza e deviazione standard nei due casi N = 10 ed N = 100. Risposta. Poiche' E i campione 6 gaussiano, possiamo utilizzare le (6.64, 6.66, 6.67), che richiedono la valutazione dei quantili a: = 0.025 e 0.975 delle distribuzioni di Stadent e X 2 . Queste distribuzioni sono tabulate ne117appendice D. Poiche' la densitd di Student 6 simmetrica, dalla Tab. 0 . 2 risulta: -t0.025
= t0.975 =
2.26 per 1.98 per
N = 10 (9 gradi di libertii) N = 100 (99 gradi di liberth)
Dalta (6.64) otteniamo allora la stima della media:
204
Capitolo 6. Statistica di base
P e r la stima della dispersione, dobbiamo ricorrere ai quantili della densitd Tab. D.3 otteniamo:
Xk. Dalla
2 2 XR0.025'XR0.975
0.30 , 2.11 per 0.74 , 1.29 per
=
N = 10 (9 gradi di libert&) N = 100 (99 gradi di liberth).
Dalla (6.66) e dalla sua radice quadrata otteniamo allora la stima della varianza e della deviazione standard: o2 E
[x 2.11 251 0.3 = [11.9 , 83.31 (N= 10, C L = 95%)
o2 E
[& ,
&I
= [19.3 , 33.81 ( N = 100, C L = 95%)
(6.70)
C o m e utile confronto, applichiamo le formule approssimate, che presuppongono livelli di conjidenza gaussiani. Dal17esercizio 3.8, oppure direttamente da Tab. D.1, ricaviamo che i n corrispondenza di C L = 0.95 si ha t = 1.96. P e r la stima della media possiamo allora utilizzare la (6.43):
la quale fornisce (entro gli arrotondamenti) u n risultato identico alle (6.69) per N = 100, ed u n risultato leggermente sottostimato per N = 10. Infatti, come si pud vedere dalla Fig. 5.4, le code della densitd di Student sottendono aree leggermente maggiori di quelle sottese dalla gaussiana standard. P e r stimare in modo approssimato i parametri di dispersione con C L = 95%, utilizziamo le (6.57, 6.58) ancora con t = 1.96:
6.12 Come utilizzare la teoria della stima
205
-
S e confrontiamo quest2 risultati con i risultati corretti (6.70, 6.71), vediamo che le dzspersioni approssimate sono accettabili solo per N = 100. Sz possono usare anche le (6.56) con s cr nez termini a destra, ottenendo gli intervalli g 2 E [ 1 . 9 , 4 7 . 1 ] , a ~ [ 2 . 7 , 7 . 3 ] p e r N = 1 0 e a€[18.1,31.9],aE[4.3,5.7] 2 per N = 100. Come si vede, per grandz campioni si possono usare anche le (6.56). Potete anche risolvere 21 problema con la routine Stimvs . Esercizio 6.8 - 2 1 ~ 6:M~T+%-'uw L'analzsi di u n campione di 1000 che del valore 1000 R prodotte da una ditta ha mostrato che z valori sz distribuzscono approsszmatzvamente second0 una gausszana dz devzazione standard s = 10 R (zn effetti z processz di produzione delle reszstenze a impasto seguono abbastanza bene le condizzoni del teorema Limzte Centrale 3.1). Sz deczde dz mantenere costante questo standard di produzione egettuando u n controllo di qualatci mzsurando perzodicamente con u n multimetro di grande accuratezza n n campione di 5 resistenze. Definire z lzmiti statisticz del controllo di qualitci ad u n livello di confidenza del 95%.
Risposta. Dobbiamo assumere il ualore nominale delle resistenze come valore medio vero della produzione: p = 1000 R . La dispersione Vera dei valori delle resistenze intorno alla media si pud stimare dalla misura fatta sul campione di 1000 resistenze, applicando con s a la (6.56):
--
da cui si vede che il campione di 1000 resistenze consente di stimare la dispersione con una incertezza relativa del 2 %. Possiamo pertanto assumere s = 10 R come valore vero della deviazione standard. Dato che si d osservato un campione di tipo gaussiano, dalla tab. D.l possiamo dire che entro 1000 f 1.96 a E 1000 f 20 0 cadra il95% dei valori. I n sostanza solo 5 resistenze su cento devono stare a1 di fuori di
I1 problema b ora istituire dei controlli sulle resistenze prodotte per verificare che le condizioni iniziali si mantengano ragionevolmente costanti. Campionando 5 resistenze, possiamo istituire u n buon control10 di qualitd attraverso la media del campione. Infatti, se vengono assunti come valori veri
/ l . = i ~ ~ ~an=, s = i o n ,
i n base alla (6.40), la media campionaria di 5 elementi sard compresa nell7intervallo cl p f - = 1000.0 f 4.5 R .(6.73)
d5
206
Capitolo 6. Statistica di base
con livelli di confidenza gaussiani. I n questo caso la distribuzione di Student n o n va usata, perche' il campione b gaussiano ed abbiamo supposto di conoscere la deviazione standard vera. S e questa n o n fosse nota dalla misura delle 1000 resistenze, essa andrebbe dedotta dal campione ridotto delle 5 resistenze campionate; varrebbe ancora la (6.73), m a i n questo caso avremmo a1 posto di a la deviazione standard s delle 5 resistenze, e i livelli di confidenza seguirebbero la distribuzione di Student con 4 gradi di libertd, dato che N < 10. Per u n primo controllo di qualitd si pub allora utilizzare la (6.73), con u n livello di confidenza del 95%, che dalla Tab. D.l risulta associato ad un intervallo di circa f1.96 a. I n q u e s t ~caso la probabilitd di sbagliare giudicando la produzione scadente b del 5%. U n primo controllo di qualitci segnalerci allora u n a possibile cattiva produzione quando la media del campione 2: a1 di fuori dell'intervallo
ovvero 991 R 5 m(R)5 1009 R
(I controllo qualit&,CL = 95 %) .
(6.74)
I1 controllo globule pud essere ulteriormente perfezionato verificando anche che la deviazione standard del campione n o n superi il valore iniziale dz 10 0. Infatti, invertendo la (6.67) e prendendone l'estremo superiore abbiamo:
, variabile x2 ridotto con 4 gradi dove a = 10 0 e X&, b il valore di & ~ ( 4 )la di libertd corrispondente a1 livello di confidenza prestabilito. Per u n C L = 95%, dalla tabella D.3 otteniamo:
I1 secondo controllo di qualitci segnalerci allora una possibile cattiva produzione quando la dispersione deZ campione di 5 resistenze supera il limite di 15 0: s ( R ) I 15 0
(I1 controllo qualitii, CL = 95%) .
S e si richiede che i controlli di qualzta I e I1 siano contemporaneamente soddisfatti, si assicura il mantenimento corretto sia del valore nominale sia della dispersione iniziale delle resistenze elettriche, entro il livello di confidenza arbitrariamente scelto. Avendo richiesto un CL = 0.95, avremo un superamento di questi limiti mediamente 5 volte s u cento. U n segnale fuori dalla fascia di confidenza, m a
6.12 Come utilizzare la teoria della stima
207
Fig. 6.9. Caxta di controllo per il c a o della produzione di resistenze elettriche discusso nell'esercizio 6.8
entro i limiti della statistica prevista, si chiama falso allarme. La situazione viene spesso sintetizzata graficamente nella carta di controllo della qualit&, i n cui si sceglie una zona di normalitci, a1 di sopra o a1 di sotto della quale vi sono due fasce di allarme ed al di j%ori di queste la zona proibita. La Fig. 6.9 mostra una possibile carta di controllo per il valor medio delle resistenze, relativa a1 problema che stiamo discatendo.' La zona di normalitci corrisponde all'intervallo (6.74) di ampiezza f1.960; la zona di allarme va da 1.96 a 3.0 a , mentre la zona proibita 2 a1 di fuori di f3.0 a. U n valore nella zona proibita pud capitare in condizioni normali solo 3 volte su 1000 controlli (legge 3n), u n evento che pub giustificare la sospensione della produzione e l'attivazione dei processi di manutenzione delle macchine (attenzione: questa 2 una decisione soggettiva che pud variare da caso a caso). Come esercizio, utilizzando la (6.75) potete fare una carta simile (carta S ) anche per la dispersione. Nella zona di allarme mediamente dovremo avere 5 valori ogni cento controlli, vale a dire una probabilitci a priori y = 0.05. I1 control10 di qualitci pub allora essere ulteriormente rafinato segnalando se capita u n numero eccessivo di falsi allarmi, anche in assenza di segnali nella zona proibita. Se n 2 il numero di falsi allarmi avuti i n N controlli si pud applicare la (6.20), poiche' qui assumiamo di conoscere la probabilitci Vera y:
ed arrestare la produzione, applicando ancora la legge 37, quando t, > 3.0. Per una variabzle gaussiana, questo valore corrzsponde a una probabilitci di sbagliare di 2 1.5 per mille. L'approssimazione gaussiana 2 lecita per n > 10, cui corrisponde N y > 10, ciob N > 200 nella (6.76). Per N = 200, risulta che bisogna procedere alla manutenzione se n 2 19.
r ~ ~ a ~ i ~ ~ ~ ~ ~ ~ 7 ~ ~ ~ = 3 PF ~ -=war ~ ~ -318~*Uh?~lh8F-4flih?%p3h ~ r . - - ~ ~ r ~n5 t ~: :w ~~7 ~~ v~ m ~ ~ r ~~ ~m ~ f i ~
208
Capitolo 6. Statistica di base
6.13 Stime da una popolazione finita Nelle stime fin qui eseguite abbiamo supposto che la popolazione fosse costituita da un insieme infinito di elementi. I risultati ottenuti valgono anche per popolazioni finite, a patto che, dopo ogni prova, l'elemento estratto venga reinserito nella popolazione (campionamento con reimmissione). E intuitivo perb che vi siano delle modifiche da fare nel caso di campionamento senza reimmissione da una popolazione finita, poichk, se si esaurisse la popolazione, le quantita in esame diventerebbero certe e non sarebbero piu stime statistiche. Iniziamo con la Definizione 6.4 (Campione casuale da una popolazione finita). U n campione S di N elementi estratto da u n a popolazione finita di Np elementi b detto casuale se b u n o dei N,!/[N!(N, - N)!] possibili insiemi ognuno dei quali ha la stessa probabiliti di essere scelto.
Se X B la variabile aleatoria che si vuole stimare attraverso il campione S, possiamo scrivere:
dove la seconda somma B fatta su tutti gli elementi N, della popolazione e Ii i: una variabile indicatrice (vedere eq. 2.8), definita come:
Ii =
1 s e x i ~ S , 0 altrimenti.
Iii: una variabile binomiale a due valori e corrisponde pertanto a1 numero di successi che si possono ottenere in un solo tentativo, di probabilith N/N,.Si ha pertanto:
Otteniamo allora:
da cui si vede che anche i n questo caso la media campionaria t? uno stimatore corretto della media Vera. Troviamo ora la varianza della somma delle variabili campionate; ricordando la (5.65) possiamo scrivere:
209
6.13 Stime da una popolazione finita
Il calcolo della covarianza di (Ii, I j ) richiede la conoscenza della media (&Ij). Ricorrendo alle definizioni generali di pagina 57 e scrivendo solo i valori non nulli, abbiamo:
[,
Dalla (4.25) di pagina 117 possiamo esprimere la covarianza come:
N N-1 N2 - N ( N p - N ) COV[I~, Ij] = (&Ij) - (Ii) (Ij) = - --- - - - NpNp-1 N. Np2(Np-I)' Inserendo questo risultato nella (6.80) abbiamo: Var
x
]
X: - 2 N(Np - N, xi li = - ------NP NP i=1 N;@P - 1)
Ricordando che ( x i xi)2 = algebra otteniamo infine:
xix: + 2 xi C j < i zixj, dopo un po' di facile
dove (X2) = C X:/Np e ( x ) ~ = campionaria vale allora:
-
. (6.81)
.ix j
(CXi)2/Np2. La varianza
Var [XI Np - N N N Np-1
-
-
var[xl (1 N
della media
)
.(6.83)
Questa equazione B il risultato fondamentale per la stima da popolazioni finite: dal confront0 con le formule analoghe per popolazione infinita di Tab. 6.3, si vede che le varianze di medie, frequenze e proporzioni, calcolate da campioni estratti da popolazioni finite, vanno corrette col fattore (Np - N)/(Np - 1) N (1 - N/Np). Lo stesso fattore va applicato se nella (6.83) alla varianza Vera a2 si sostituisce quella stimata s2. Ad esempio, nel caso dell'esercizio 6.1, considerando 30 milioni di elettori, la correzione sarebbe dell'ordine di V/1 - 3/30 000. Diverso B il caso dell'estrazione senza reimmissione da un'urna: se la frequenza delle biglie di un certo tip0 fosse ad esempio f = 15/30 = 0.50 e l'urna contenesse 100 biglie, l'errore della frequenza passerebbe da d0.5(1- 0.5)/30 = 0.09 (popolazione infinita) a1 valore J0.5(1- 0.5)/30 = 0.08. La varianza si annullerebbe se si estraessero tutte le 100 biglie.
210
Capitolo 6. Statistica di base
La varianza campionaria, a differenza della media, deve essere corretta per popolazioni finite. Infatti, dalle (6.47, 6.83) si ha:
(6.84) Risulta allora che lo stimatore non distort0 per la varianza di una popolazione
La correzione per la varianza Var[S2] i: pih complicata e pub essere trovata in [52].
6.14 Verifica di una ipotesi Abbiamo gih accennato alla verifica delle ipotesi negli esercizi 3.13-3.17. Approfondiamo ora l'argomento considerando la verifica (accettazione o rifiuto) di una ipotesi, detta ipotesi nulla o, pi6 semplicemente, ipotesi. L'argomento verrh poi completato piti avanti, nel cap. 9, dove discuteremo i criteri per ottimizzare le scelte tra pic ipotesi in alternativa. Consideriamo dunque la densitb di probabilitb p(x; 6 ) della variabile X definita nella (6.2), dipendente da un parametro B e supponiamo che, in base ad argomenti a priori o a stirne statistiche, venga assunta l'ipotesi 6 = OO. Se l'esperimento fornisce un evento {X = a}, occorre decidere se accettare o meno il modello corrispondente all'ipotesi, in base a1 risultato ottenuto. Lo schema che si utilizza i: in genere quello di Fig. 6.10: come si vede, l'intervallo di variabilith di X viene suddiviso in due regioni, una regione favorevole all'ipotesi ed una regione contraria, detta regione critica. I limiti di queste regioni sono date dai valori quantili x,/z, x ~ - , / ~corrispondenti , ad un livello di significativitb a stabilito a priori, detto anche livello del test. Si rifiuta l'ipotesi se il livello di significativith osservato a0 < a , la si accetta in caso contrario. Avendo osservato l'evento {X = x), nell'ipotesi corrispondente a p(x; Qo), di media p, occorre quindi calcolare le probabilith:
P { X < x) = a0 , test a una coda (a sinistra), P{X > x) = a0 , test a una coda (a destra), P{IX - pI > ix - pi} = a. , test a due code.
(6.86) (6.87) (6.88)
Se si scarta l'ipotesi, la probabilitb di sbagliare, cioi: di ottenere per puro caso valori "nelle code", per i quali le (6.86-6.88) danno a0 < a essendo vera l'ipotesi, non supera mai a. Questo tip0 di errore i: detto di I tip0 (scartare una ipotesi giusta), per distinguerlo dall'altro possibile errore (accettare una
6.14 Verifica di una ipotesi
-1-a
si accetta l'ipotesi
si rifiuta I'ipotesi
1
-la/2
-
si rifiuta si I'ipotesi
211
12ipotesi si rifiuta
I'ipotesi
Fig. 6.10. Test a una coda a) o a due code b). L'uso dell'uno o dell'altro dipende dal tip0 di problems, come evidenziato dagli esempi discussi nel testo. I1 livello confidenza CL tt il valore dell'area ombreggiata definita dai valori quantili XI-,, 2,p e x ~ - ~ I1 p livello . del test a = 1- C L B il valore dell'area delle code a1 di fuori dell'intervallo di confidenza
ipotesi sbagliata), detto di I1 tipo, che verrh trattato pih avanti. I1 valore a! viene anche detto dimensione dell'errore di I tipo. Il livello di significativith osservato (szgnzficance level) definito nelle (6.866.88), che indicheremo spesso con SL, nella letteratura inglese viene detto anche p-value. La verifica di una ipotesi pui, essere fatta anche con statistiche T = t(X1, X2, . . . ,XN) che stimano il valore del parametro 8, cioi: con degli stimatori. In questo caso alla densith p(z;80) attribuita a1 campione si deve sostituire la densith della distribuzione campionaria dello stimatore e tutto procede come appena spiegato. Se lo stimatore non 6 distorto, in base alla (2.78), (TN(X)) = Bo. Stabilito allora un valore a! per il livello del test, si rigetta l'ipotesi se, ottenuta una stima {T = to), risulta: P{T < to) = S L < a! , test a una coda (a sinistra), P{T > t o ) = S L < a! , test a una coda (a destra), P{IT - 801 > (to - 60' 1) = SL < a , test a due code.
(6.89) (6.90) (6.91)
I1 livello del test a! viene scelto in mod0 arbitrario. In genere si scelgono valori piccoli, di circa 1'1-5%. Se l'evento ha un SL minore di a, esso si trova nelle code della densith di riferimento. In questo caso si giudica piu probabile la falsith dell'ipotesi 6' = Oo che non la sua validith. I1 caso contrario viene interpretato come una fluttuazione statistics, lo scostamento viene attribuito a1 caso e l'ipotesi viene accettata.
212
Capitolo 6. Statistica di base
Per finire, notiamo che in alcuni casi il confront0 tra livello del test ed S L presenta ambiguit 8: a per una variabile aleatoria discreta, i livelli S L di due valori contigui possono "stare a cavallo" del valore deciso per il test. Ad esempio, nel test a una coda a destra, pub succedere che:
con XI > x2. In questo caso si accetta l'ipotesi se {X = x2}, la si respinge se {X = xl}. In alternativa, se si dispone di un generatore di variabili uniformi 0 U 5 1 (ad esempio, la routine random di un calcolatore), si pub randomizzare il test definendo una probabilita p tale che:
<
Se si verifica l'evento {X = XI), si scarta l'ipotesi se dalla routine random si ottiene {U = u 5 p}, la si accetta in caso contrario. In questo modo, per costruzione, il livello S L dell'evento coincide esattamente col livello del test a; nel caso del test a due code, ad un livello a possono corrispondere limiti fiduciari diversi, cioit intervalli di estremi diversi ma con lo stesso livello di confidenza C L = 1- a. Generalmente in questo caso si scelgono i due estremi, a destra e sinistra, che sottendono "code" di area uguale a/2. Questa convenzione 6 stata in effetti utilizzata nella (6.88).
6.15 Verifica di compatibiliti tra due valori Affrontiamo ora, per la prima volta, un semplice problema di verifica di ipotesi, la verifica di compatibilita tra due valori. Supponiamo che siano stati eseguiti due esperimenti o campionamenti differenti e che si voglia verificare se i risultati XI e xz sono in accord0 tra loro, ovvero se i dati provengono dalla stessa popolazione. Se alla popolazione si attribuisce una densita nota con parametri fissati a priori, allora si pub affrontare il problema col calcolo delle probabilita, verificando la compatibilitA di ogni singolo dato con in valori assunti come veri. Esempi di questa tecnica sono stati dati negli esercizi 3.13-3.17. Tuttavia, spesso i parametri della la densit&non sono noti ed i: necessario procedere in ambito esclusivamente statistico. Un mod0 elegante per affrontare il problema sta nel definire una nuova variabile aleatoria differenza
la quale ha valore atteso nullo nell'ipotesi che i due valori X I e X2 provengano dalla stessa popolazione.
6.15 Verifica di c o r n ~ a t i b i i i ttra i due valori
213
Poich6 la varianza di una differenza Q data, per variabili indipendenti, dalle (5.66, 5.67), possiamo scrivere:
dove nell'ultimo passaggio si Q utilizzata l'approssimazione per grandi campioni (si veda la Tab. 6.3) sostituendo ai valori veri incogniti quelli delle varianze misurate. Possiamo allora definire il valore standard:
e calcolarne il live110 di significativita second0 le densita di probabilith coinvolte nelle misure. Poichk la (6.93) presuppone l'approssimazione per grandi campioni, per il calcolo dei livelli di probabilita si usa quasi sempre la densit&gaussiana, perch6 (come mostrato anche nell'esercizio 5.3) la differenza di due variabili gaussiane indipendenti i! anch'essa gaussiana. Generalmente la (6.93) viene usata per confrontare due frequenze oppure due medie campionarie. Nel caso di due frequenze fl ed f 2 , indicando con Nl ed N2 (invece che con n) il numero di tentativi effettuati nelle due prove, dalla (6.23)' valida per grandi carnpioni, si ottiene immediatamente:
con livelli di probabilith gaussiani. Invece che in termini di probabilita, se Nl = N2 = N , il confronto pub l successi XI e x2, utilizzando sempre anche essere fatto in termini di numero d la (6.93) e la varianza definita nella (6.24):
Se Nl f N2, occorre rinormalizzare uno dei due valori (ad esempio xl + x1Nl/N2) ricalcolandone la varianza, ma in questo caso 6 piu conveniente il confronto in termini di frequenza, attraverso la (6.94). Per il confronto di due medie ml ed ma, provenienti da due campioni diversi con varianze s:, s$ e numero di elementi Nl, Nz rispettivamente, dalla (6.43) si ottiene il valore standard:
a1 quale, se Nl, N2 gaussiani.
> 20,30, vanno ovviamente applicati livelli di probabilita
214
Capitolo 6. Statistica di base
ed affermano che entrambe Ee misure sono di tip0 gaussiano. Verificare se le misure sono tra loro compatibili. Risposta. Dalla (6.93) otteniamo:
Poiche' si deve trovare lo scostamento assoluto tra le due misure, b necessario fare il test a due code. Dalla Tab. D.l risulta:
pari ad u n live110 di signzficativitd del20%. Poiche' la probabilitd di sbagliare rigettando l'ipotesi di compatibilitd 2 troppo alta, le due misure si devono ritenere compatibili. Notate bene che non si afferma che le misure sono compatibili, m a solo che esse n o n possono essere messe in dubbio sulla sola base della statistica. Com e dovreste aver gM capito da parecchio tempo, la distinzione pud sembrare sottile, m a 2 fondamentale! Esercizio 6.10 z : ~ ~ * -~ ~ d p -i ~ P-LC~ =-:y :a~ :~:= ~ ~ v-=t%@$ywg - * . -~-? ~5~=;: I n u n esperimento di percezione extrasensoriale (ESP) sono state predisposte 5 scatole, numerate da 1 a 5 e, nella scatola n . 3, b stato posto u n oggettobersaglio. Duecento persone sono state invitate ad indovinare i n quale scatola si trovasse il bersaglio e 62 di queste hanno indicato proprio la n. 3. I n una prova di controllo con tutte le scatole vuote, facendo sempre credere alla platea che i n una delle scatole si trovasse u n bersaglio, le persone che hanno indicat0 la scatola n. 3 sono state 50. Stabilire se l'esperimento rivela o meno eflettz ESP. Risposta. Se utilizziamo il calcolo delle probabilitci, possiamo procedere come nell'esercizio 3.17 ed assumere come ipotesi nulla che, se le persone tirano a indovinare, ognuna delle 5 scatole abbia una eguale probabilitd di 115 di essere scelta. Allora la distribuzione teorica assunta come Vera b binomiale, di media e deviazione standard date da:
6.15 Verifica di compatibilitP tra due valori
215
Poiche' i successi sono stati pari a 62, la variabile standard (3.37) di questo dato vale: a cui corrisponde, come da Tab. D . l , u n livello di significativitci estremamenL'ipotesi di presenza di efletti E S P sembra confermata te basso, < 1 . dall'esperzmento. Tuttavia, la psicologia sperimentale aflenna che il numero 3 d psicologicamente fauorito (in genere lo sono tutti i numeri dispari rispetto a quelli pari). I n altre parole, in una prova a vuoto con scatole numerate da 1 a 5, la maggior parte delle scelte dovrebbe localizzarsi sudla scatola n. 3, anche in assenza di bersaglio, semplicemente perch6 il 3 21 u n numero " p i i simpatico" degli altri. Occorre allora, i n mancanza di u n modello a priori, abbandonare il calcolo delle probabilitci e aflrontare il problema in ambito statistico, utilizzando solamente il numero di successi con bersaglio (xl = 62) e quello a scatola vuota (x2 = 50). Gli errori statistici da associare a queste osservazioni si ottengono dalla (6.24):
Combinando adesso i risultati della prova a vuoto e di quella col bersaglio nella formula (6.95) abbiamo immediatamente:
A questo valore della variabile gaussiana standard corrisponde in Tab. D.1 u n livello di significativitci sulle due code di
L'analisi mostra pertanto che nel 18% dei casi, tirando ad indovinare ed essendo psicologicamente condizionati a favore del numero 3, si possono avere scostamenti di pi3 di 1 2 punti (in piti o in meno) tra la prova a vuoto e la prova col bersaglio, Il risultato b pertanto compatibile con il caso e non rivela aflatto probabili effetti ESP. Se i due carnpioni sono piccoli e la distribuzione campionaria i: gaussiana, si pub ancora fare uso della densit& di Student, se si suppone che le due medie provengano da campioni aventi, oltre che la stessa media, anche la a. In questo caso la variabile standard della stessa dispersione: a1 = a2 differenza assume il valore:
216
Capitolo 6. Statistica di base
Utilizzando la (6.62), nella quale la varianza dei dati i! calcolata rispetto alla media campionaria, definiamo il valore di X"non rzdotto):
+
a1 quale, in base al teorema 3.4, vanno assegnati Nl N2 - 2 gradi di liberth. In base ai risultati del17esercizio5.5, possiamo dire che il valore (5.41), che in questo caso diventa:
+
si distribuisce second0 la densit2 di Student con NI N2 - 2 gradi di liberth. In questo mod0 il test sulla differenze delle medie pub essere risolto in mod0 soddisfacente anche per campioni con almeno una decina di eventi, per i quali la media si pub considerare una variabile gaussiana. SCILAB fornisce la routine nand%ed(xl,xZ,eonf) per il test tra le medie di due campioni xi e x2, in forma di vettori contenenti i dati grezzi. In uscita si ottengono due numeri: la differenza tra le medie e il valore s = tCodsl2J(I/N~) (l/Nz) della (6.99), dove t B il quantile di Student per campioni con meno si 100 eventi, altrimenti i! quello gaussiano. Per grandi campioni, l'errore vale s 1.tc,,,f J($/N~) + (sg IN2), in accord0 con la (6.96). Si tenga presente che c o n f B il valore cumulativo ed B legato a1 live110 CL del test a due code dalla relazione conf= 0.5 + CL/2. Se si vuole ottenere la stima ad lo de117errores sulla diffferenza delle medie si deve porre conf = 0.5 0.68312 = 0.8415. Occupiamoci infine della verifica di compatibilith tra due varianze. Essa, per campioni con meno di un centinaio di eventi, non pub essere fatta utilizzando la densit&gaussiana o di Student. Tuttavia, per campioni gaussiani esiste un test molto semplice ed utile, che fa uso della densita F di Snedecor trovata nell'esercizio 5.6. Se s& ed s& sono due varianze ottenute da due campioni indipendenti rispettivamente con N ed M eventi e provenienti da popolazioni di densith gaussiane aventi la stessa varianza 02, dalla (6.62) sappiamo che il valore
+
+
6.16 Stima della densit2 di una popolazione
217
essendo il rapporto tra due valori X 2 ridotto indipendenti, si distribuirh secondo la densith F di Snedecor (5.46) con (N - 1, M - 1) gradi di IibertA. L'uso combinato della (6.100) e dei quantili della densit2 F delle tabelle D.5, D.6 viene detto analisi della varianza o F usare la nostra routine =i&2y. , che utilizz dalla distribuzione p N M ( F )il valore cumula per il calcolo di F a partire dal valore cu Esercizio 6.1 1 s ~ r ~ e ~ , Due sperimentatori, che aflermano di aver eseguito u n campionamento dalla stessa popolazione avente densit&gaussiana, hanno trovato rispettzvamente varianze pari a = 12.5 , s; = 6.4
ST
con campioni di 20 e 40 eventi rispettivamente. Verificare se le due varianze campionarie sono compatibili con u n unico valore vero g2 ad u n livello del 2%. Risposta. La variabile F 2. data da:
Se sceglzamo di fare la verifica di compatibikitit ad u n livello di significativitit del 2%, il rapporto sperimentale F deve essere minore del valore di F a1 99% che si ricava da Tab. D.6:
e maggiore del valore di F all'l %, che si ricava con la relazione (5.49):
i due valori sono compatibili ad u n livello del 2%. etere l'eserci ;m:*&<6-~*rasc=
test. J T e :.--
6.16 Stima della densita di una popolazione Dopo l'analisi della media e della dispersione del campione, passiamo ora all'analisi della struttura globale (forma) del campione, con l'obiettivo di ottenere informazioni sulla densit& della popolazione da cui 5 stato estratto.
218
Capitolo 6. Statistica di base
. . .
1501
':i 90 *h
I Fig. 6.11. Due rappresentazio-
. da h
... ..
da
0
.
100
ni possibili di un istogramma ottenuto simulando a1 calcolatore l'estrazione di 1000 eventi da un popolazione di densitk gaussiana di media ,u = 70 e deviazione standard u = 10
La media e la varianza campionarie non sono le sole variabili aleatorie di interesse. Quasi sempre il campione viene presentato in forma di istogramma, suddiviso in un numero K di canali, di solito di ampiezza fissa Ax, in ognuno dei quali cade un numero di eventi ni. Le quantitb ni danno la forma complessiva del campione e sono di cruciale importanza se si B interessati a studiare la struttura della densith della popolazione da cui il campione i: stato estratto. Queste quantith vanno considerate come variabili aleatorie li, perch6 variano da campionamento a campionamento. L'istogramma spesso viene normalizzato, nel qual caso, invece delle quantit& ni, vengono date le frequenze o probabilita misurate fi = ni/N, dove N & il numero totale di eventi presenti nel campione. In Fig. 6.11 e nella (6.101) viene riportato, a titolo di esempio, un istogramma non normalizzato ottenuto simulando a1 calcolatore un campione di N = 1000 eventi estratto da una densitb gaussiana con pararnetri p = 70 , a = 10. Nella (6.101) xi e ni = n(xi) sono rispettivamente il punto medio e il contenuto del canale, il passo vale Ax = 5:
Se p(x) 6 la densit& della popolazione del campione, definendo le variabili aleatorie I ed F associate agli eventi {Ii= ni} ed {Fi = ni/N}, dalla (2.34)
6.16 Stima della densit2 di una popolazione
219
segue che:
dove A x b la larghezza del canale e xo un punto interno ad esso. I1 termine pib a destra nelle equazioni viene dal teorema della media integrde. Se l'ampiezza del canale i: sufficientemente piccola e la densit8 i: una funzione abbastanza regolare (funzione smooth), si pub assumere che essa vari linearmente entro il canale; in questo caso, in base alla regola trapezoidale, so i:il punto medio del canale. Nel caso di variabili aleatorie discrete, nelle (6.102, 6.103) all'integrale su A x va sostituita la sommatoria sulle probabilitb vere corrispondenti ai valori contenuti in A x . Nel par. 4.7 abbiamo visto, per un carnpione casuale di ampiezza N , che la probabilitb globale di ottenere un particolare istogramma a partire da probabilith vere pi, (i = 1,2,. . . ,k) date, tramite la (6.103), da una densit8 p ( ~ ) , segue la distribuzione multinomiale (4.87). Abbiamo gi8 notato, a proposito della (4.87), che il numero di eventi Ii caduti in un generic0 canale i-esimo (xi,xi+l) di ampiezza A x segue la distribuzione binomiale. Infatti: se il fenomeno stocastico i:stazionario nel tempo, la probabilitii pi di cadere nel canale resta costante; la probabilitb di cadere nel canale non dipende dagli eventi che sono caduti o che cadranno negli altri canali. Pertanto, possiamo dire che la variabile aleatoria Ii,numero di eventi in un canale dell'istogramma, b data d d verificarsi di eventi indipendenti determinati da una probabilith costante. Se il numero totale di eventi N b un parametro predeterminato, risulta allora che la probabilitb che la variabile aleatoria Ii assuma il valore ni sar8 data dalla legge binomiale (2.30) con probabilitii elementare pi (si veda anche la (4.87)):
dove (1 - pi) indica la probabilitii di cadere in un qualunque altro canale dell'istogramma diverso da quello considerato. La deviazione standard della binomiale considerata vale:
Questa quantit8 pub essera stimata dai dati attraverso l'incertezza si z s(ni). Se il canale ha pib di 5, 10 eventi, poichb a maggior ragione N(l -pi) =
( N - ni) > 5, 10, si pub utilizzare la (6.24), con x
ni ed n
E
N:
220
Capitolo 6. Statistica di base
Se l'istogramma B normalizzato, la (6.106) va divisa per N , ottenendo cosi un risultato ben noto, l'errore statistico (6.23) sulla probabilita misurata fi = ni/N: (6.107) Le due formule appena mostrate sono di fondamentale importanza nell'analisi degli istogrammi e vengono dette fluttuazzoni casuali (o statistiche) dei canali. Se l'istogramma non i! ottenuto con numero totale N di eventi costante, ma B raccolto controllando altri parametri, ad esempio un certo intervallo di tempo At, il numero N si trasforma da costante a variabile statistica N poissoniana e le fluttuazioni del contenuto dei canali vanno calcolate in mod0 diverso. Questo B un argomento statistico abbastanza sottile e vogliamo fare subit0 un esempio per chiarirvi le idee. Se esaminiarno pi^ istogrammi, ognuno dei quali si riferisce a1 peso di 100 neonati, le fluttuazioni del numero dei neonati entro un certo intervallo di peso (percentile, come dicono i medici) obbediranno alle (6.106, 6.107). Se invece raccogliamo gli istogrammi del peso dei neonati mese per mese, alle fluttuazioni del numero dei neonati entro un certo intervallo di peso si aggiungeranno quelle del numero totale N dei neonati in un mese, che saranno poissoniane nell'intorno di un valore medio stabile (se si suppone, per semplificare, che le nascite siano stabili di mese in mese) . Procedendo nella discussione, osserviamo che, in base alla legge delle probabilitb composte, in questo caso la probabilith di osservare N eventi, dei quali {Ii = ni)nel canale i-esimo, s a r i data dal prodotto della probabilitk poissoniana (3.14) di ottenere un totale di {N = N ) eventi quando la media B X e dalla probabilita binomiale (2.30) di avere ni eventi nel canale in esame, su un totale di N , quando la probabilita Vera B pi:
Se ora definiamo mi = N - ni, ed utilizziamo le identit&:
possiamo esprimere questa probabilitb nella forma:
la quale non B altro che il prodotto di due poissoniane, di media Xpi e X(l -pi) rispettivamente. Da questo fatto, in base a1 teorema 4.1 di pagina 114, si
6.16 Stirna della densits di una ~ o ~ o l a z i o n e
221
deduce che le variabili Ii, numero di eventi nel canale i-esimo, ed (N - Ii), numero di eventi caduti negli altri canali dell'istograrnma, sono entrambe variabili poissoniane indipendenti. Detto in altre parole, se N i: una variabile poissoniana ed Ii, per {N = N ) fissato, una variabile binomiale, allora Ii ed (N - Ii) sono variabili poissoniane indipendenti. PoichC sappiamo che la deviazione standard della poissoniana i: pari alla radice quadrata della media, possiamo immediatamente modificare la (6.106) nella forma: s(ni) = 6 , .[Ii] ui =
6-
dove ai valori veri si sono sostituiti quelli misurati. L'errore statistic0 dei canali i, dato allora da:
Riassumiamo ora in uno schema coerente i risultati ottenuti. La stima del numero di eventi vero pi (speranza matematica o valore atteso) nel canale i-esimo i: dato dalla (6.102) ed il corrispondente intervallo di confidenza approssimato, di live110 68.3%, i: dato da:
per istogrammi raccolti con numero di eventi N determinato e da
per istogrammi in cui il numero totale di eventi N i: una variabile poissoniana. Per gli istogrammi normalizzati, le (6.109 e 6.110) si trasformano rispettivamente in:
che rappresentano gli intervalli di stima per le quantith vere (6.103). Queste formule sono valide per ni 2 5, 10, cioi: per canali popolati da almeno una decina di eventi e in questo caso, come sappiamo, valgono i livelli di confidenza gaussiani. Per canali con meno di 10 eventi, alla (6.111) va sostituita la (6.21) (con N a1 posto di n), e alla (6.109) la (6.21) moltiplicata per N. Le formule poissoniane (6.110, 6.112) restano invece invariate. In questi casi, tuttavia, i livelli di confidenza non sono gaussiani e vanno ricavati dalle distribuzioni binomiale e poissoniana, a seconda che N sia fisso o variabile.
Ca~itolo6. Statistica di base
222
100
* I
40
*
+
* . -
50
60
I
70
80
--
1 I I I
90
100
Fig. 6.12. Istogramma di Fig 6.11 completato eon le
barre d'errore
Le conclusioni cui siamo pervenuti si prestano ad una soddisfacente rappresentazione intuitiva delle fluttuazioni del contenuto dei canali di un istogramma. Se consideriamo ad esempio un istogramma a due canali, nel caso di N costante il numero di eventi nl ed n z nei due canali B completamente correlato, dato che n~ na = N . In realtb si ha a che fare con una sola vaxiabile aleatoria e in questo caso gli errori statistici nei due canali sono uguali, come risulta evidente dalla (6.107), che i: simmetrica in f e (1 - f ) , oppure dalla (6.106) dopo un minimo di algebra. In generale il fatto di avere N costante determina una correlazione tra i canali, data dalla covarianza (4.90)' che statisticamente, per ni, n j > 10, pub essere stimata con buona approssimazione come: (6.113) s(ni,nj) = - N f i f j .
+
Quando invece N 6 una variabile poissoniana, ogni canale dell'istogramma si comporta come un contatore poissoniano e indipendente di eventi e le fluttuazioni vanno come la radice quadrata del numero degli eventi. La rappresentazione gradica dell'istogramma, per essere corretta, va completata con la rappresentazione degli errori statistici. Per convenzione questi errori, calcolati con le (6.106,6.107) a seconda dei casi, si riportano in grafico come intervalli fsi centrati sui valori ni. Questi intervalli, chiamati barre d'errore (error bars), definiscono una banda entro cui sono localizzati i valori veri pi o pi delle (6.102, 6.103). Tuttavia, come sempre, bisogna ricordarsi che i livelli di confidenza, se ni > 5, 10, seguono la legge 3a. Pertanto, la banda totale entro cui sono contenuti con ragionevole certezza questi valori B in realth larga 3 volte le barre d'errore riportate nei grafici. L'istogramma di Fig.6.11, completato con le barre d'errore calcolate con la (6.106)' B mostrato in Fig. 6.12.
6.17 Verifica di compatibilita tra campione e popolazione
fluttuazione - - .- - binorniale o poissoniana
223
valore misurato
%
_--
Fig. 6.13. Valore misurato, valore atteso in base ad un modello qualunque di densita e fluttuazione statistica del canale dell'istogramma. L'area ombreggiata va immaginata useente ortogonalmente a1 foglio
,-.--
densita' teorica 1
I
Abbiamo dimostrato che le fluttuazioni negli eventi contenuti in un certo canale dell'istogramma obbediscono alle leggi di probabilita binomiale o poissoniana; questa k una legge del tutto generale, indipendente dalla densit& p(x) della popolazione da cui il campione proviene, che pub essere qualunque. Come illustrato in Fig. 6.13, la densit&determina invece la struttura globale del campione, che B data dai valori medi o centrali del contenuto dei canali. Come verificare se la forma del campione sia o meno in accord0 con un modello di densit& scelto per la popolazione i: l'argomento del prossimo paragrafo.
6.17 Verifica di compatibiliti9 tra campione e popolazione In questo paragrafo completiamo lo studio del campione (6.101). La media e la varianza calcolate dai dati valgono:
Poich4 N = 1000, gli intervalli di confidenza per media, varianza e deviazione standard si possono calcolare dalle (6.43, 6.56):
cr
E
sfs
1
= 9.77
f 0.22
e poich6 i livelli di confidenza da associare a questi intervalli sono gaussiani, si pub affermare che i risultati sono compatibili con i valori veri p = 70 e 0 = 10.
224
Caoitolo 6. Statistica di base
Verifichiamo ora se la popolazione del campione ha una densit&gaussiana, assumendo che i valori della media e della deviazione standard siano quelli veri, p = 70, cr = 10. I valori veri o attesi del numero degli eventi in ogni canale sono allora dati dalla (6.102), dove p(x) & una gaussiana, N = 1000 e AX = 5 :
E utile ora costruire la Tab. 6.4, dove nelle colonne da (1) a (7) sono riportati Tabella 6.4. Dati necessari per il confront0 tra l'istogramma di Fig.6.12 e la densiti
gaussiana della (6.114)
nell'ordine: il valore dello spettro nel punto medio del canale (I), il numero di eventi (2), il valore vero del numero di eventi calcolato con la (6.114) (3), l'errore statistico s i della (6.106) (4), la deviazione standard
del numero vero di eventi ( 5 ) , i valori della variabile standard
del numero misurato di eventi in ogni canale calcolata con l'errore statistico (6) e infine i valori
6.17 Verifica di compatibilita tra campione e popolazione
225
Fig. 6.14. Confront0 tra l'istogramma di Fig. 6.12 ed i va-
lori attesi sulla base della densit& gaussiana di media 70 e deviazione standard 10 calcolati con la deviazione standard Vera (7). In Fig. 6.14 i: riportato l'istogramma di Fig. 6.12 (colonne 1,2 e 5 di Tab. 6.4) con. l'aggiunta della linea continua, che rappresenta i valori veri (attesi) provenienti dalla gaussiana (6.114) e calcolati in colonna 3 di Tab. 6.4. Una prima valutazione dell'accordo tra dati e modello pub essere fatta "ad occhio": circa il 68 % dei punti sperimentali deve "toccare", entro una barra d'errore, il corrispondente valore vero. Nel nostro caso, dalla colonna 7 di Tab. 6.4 e dalla Fig. 6.14, risulta che su 13 punti si ottiene l'accordo col valore atteso per 9 punti (69 %) entro +ai, 12 punti (92 %) entro +2ai, 13 valori (100 %) entro +3 mi. Come si vede, le fluttuazioni sembrano rispettare molto bene le percentuali della legge 30 (3.35), il che significa che la densita assunta come modello fornisce una buona rappresentazione dei dati. Notiamo che si arriva alle stesse conclusioni anche utilizzando gli errori statistici, cioi! le variabili standard di colonna 6. L'unico canale anomalo i: quello corrispondente a1 valore zi = 92.5, che fornisce in questo caso un valore standard stimato di 3.38, a fronte di un valore corretto di 2.26.11 disaccordo 6 origiriato dal basso contenuto del canale, che contiene solo 7 eventi. Per questo motivo, se si usano gli errori statistici, in genere si accettano discrepanze maggiori di 3 a nei canali con meno di 10 eventi. Oltre a questo test qualitative, in statistica i! possibile fare test quantitativamente precisi, il piG importante dei quali, per il confront0 tra densita della popolazione e istogramma, & il test x2 (chi-square test). Per eseguire questo test occorre conoscere (o assumere come ipotesi nulla) le probabilitL vere pi di ogni canale ed eseguire la somma su tutti i K canali:
226
Capitolo 6. Statistica di base
Se il numero totale N di eventi B variabile e si somma sui canali con pi^ di 5, 10 eventi, la (6.115) risulta essere approssimativamente la somma del quadrato di K variabili gaussiane standard indipendenti (dato che per una distribuzione di Poisson 0; = pi) e pertanto, in base a1 teorema di Pearson 3.3, essa si distribuisce approssimativarnente come la densit& x2 (3.64) con K gradi di liberti. I valori integrali della corrispondente densit&X 2 ridotto (3.70) sono riportati in Tab. D.3. Se invece il numero totale N di eventi B costante, le variabili della somma (6.115) sono correlate, ma il teorema 4.5 della somma di Pearson ci assicura ancora che il risultato B una variabile X 2 , ma questa volta con (K - 1) gradi di liberti. Notiamo che, se N 6 costante, B sbagliato scrivere: K
(ni - N P ~ ) ~
= i=l N p i ( l -pi)
(falso!)
,
perch6 la somma i: si composta dal quadrato di variabili standard, ma queste sono correlate. In conclusione, occorre sempre sommare il quadrato delle diffirenze tra le frequenze osservate e quelle vere e dividere per le frequenze vere, avendo cura di ricordarsi che i gradi di liberth sono pari al nurnero dei canali se N 6 una variabile poissoniana, mentre vanno diminuiti ,di una unit& se N & costante. Tutto questo deriva dal teorema 4.5 di Pearson applicato all'analisi statistica degli istogrammi. Eseguiamo ora il test x2 sui dati dell'istogramma (6.101). Nel nostro caso, poich6 il primo canale contiene solo un evento (il contenuto non & una variabile gaussiana), occorre sommare tra lor0 i primi due canali e poi sommare gli altri undici canali rimanenti. I1 valore X 2 ridotto che si ottiene dai dati di Tab. 6.4 B allora:
Poicht! N B costante, il numero dei gradi di liberta B uguale al numero dei punti della somma meno uno, cioB 11. Col calcolo del x2 si raggiunge, per cosi dire, il massimo della sintesi, perch6 i risultati di Tab. 6.4 e di Fig. 6.14, relativi a1 confront0 tra dati e modello, vengono condensati in un solo numero, nel nostro caso 0.82. Ovviamente, se rifacessimo un altro esperimento, otterremmo un numero diverso, della (6.116) i: il valore assunto da una variabile aleatoria che perch6 il ha la densit&di Tab. D.3. Procediamo ora a1 test X 2 vero e proprio. Cerchiamo in Tab. D.3, nella riga corrispondente a 11 gradi di libertii, l'area corrispondente a1 valore di 0.82: troviamo un valore di circa il 60 %. In termini formali, la situazione corrisponde all'equazione: :
Xi
227
6.17 Verifica di corn~atibilitatra cam~ionee ~opolazione
Fig. 6.15. Livello di significativitk osservato nel caso di test a due code (aree ombreg iate) quando il valore trovato XR corrisponde a) ad una probabilith
d
",
xg
P(Q >
xi) < 0.5
P(Q z
xi ) > 0.5
1
P{QR> X: < 0.5 oppure b) a P{QR> xRa}> 0.5. Le zone ombreggiate hanno aree uguali
dove Q R i? una variabile che segue la densita x2 ridotto con 11gradi di liberta. Definendo il livello di significativita come:
se il modello i: valido, sono possibili valori di x2 ridotto minori di quello trovato in almeno il 40 % delle prove. Poichk un livello di significativita del 40% rende altamente probabile l'errore di I tipo, l'ipotesi va accettata. In conclusione, abbiamo generato a1 calcolatore un campione di 1000 eventi da una distribuzione gaussiana con p = 70 e a = 10. Successivamente, abbiamo eseguito I'analisi del campione ed effettuato i test statistici rispetto alla densita vera. Questi test hanno mostrato buon accord0 tra dati e modello. Come vedete, la logica del test X2 i:esattamente uguale a quella utilizzata con la Tab. D.1 per le variabili gaussiane. Cib che cambia i: solo il tip0 di variabile e la funzione di test. Non occorre quindi ridiscutere il livello di significativitb e l'errore di I tipo in ulteriore dettaglio. L'unico punto su cui fare attenzione, come abbiamo giA spiegato, i: che la densit&x2, a differenza della gaussiana, non i: simmetrica. Si rende pertanto necessario tabulare i valori integrali in tutto il campo di esistenza della funzione, invece che in una sola delle due met&,e questo fatto porta a probabilitb cumulative estratte dalla tabella che possono superare il 50%. I1 test X2 pub essere fatto ad una o due code. Nel test ad una coda il livello del test riguarda in genere la coda a destra ed il livello di significativita osservato SL (o p-value) vale
Se il test 2: a due code, come in Fig. 6.15, allora
228
Capitolo 6. Statistica di base
Occorre fare ancora alcune ulteriori considerazioni quando i valori di X2 sono troppo alti o troppo bassi: in ognuno di questi due casi test indica che le Jtuttuaxioni dei dati intorno ai valori assunti come veri n o n sono di tipo statistico. Quando la (6.117) fornisce valori troppo piccoli:
il valore di x2 ridotto trovato si situa nella coda a destra e risulta troppo alto. In questo caso & altamente probabile che la densit&della popolazione assunta come modello non sia quella Vera. Pub anche essere che gli errori assegnati ai canali siano stati calcolati male e risultino sottostimati. Se si 6 sicuri di aver calcolato bene gli errori, il risultato del test 6 il rifiuto dell'ipotesi. Molto pih raramente capita che il valore di X2 sia troppo piccolo:
Questo caso si verifica quando le probabilith, a priori pi sono calcolate da una popolazione che, avendo un numero eccessivo di parametri, tende ad interpolare i dati, oppure quando gli errori sono stati erroneamente sovrastimati. Approfondiremo meglio questi concetti nel cap. 10. Spesso il x2 di un istogramma viene calcolato dividend0 per le frequenze misurate invece che per quelle vere:
In questo caso il denominatore di ogni addendo & approssimato ma B indipendente da ogni modello. Se si opera nell'ambito di un modello, 6 pih corretto e consistente dividere per le frequenze vere. Tuttavia, se nella verifica di ipotesi si considerano solo i canali con pih di 5-10 eventi, l'uso delle frequenze misurate porta quasi sempre a risultati equivalenti a quelli ottenuti con quelle vere. Nei test con procedure di minimizzazione, che vedremo nei capitoli 9 e 10, si utilizzano spesso a1 denominatore le frequenze misurate, perchb, essendo indipendenti dai modelli, esse restano costanti durante la procedura di adattamento del modello ai dati, semplificando di molto gli algoritmi di calcolo. La nostra routine , assegnati in ingress0 la matrice dei dati n, quella dei valo adi di liberta nu, calcola il X 2 con la (6.115) e fornisce in uscita un vettore & tre posizioni: X 2 , x2/v, SL; . Esercizio 6.1 Fare l'analisi e Fig. 2.1, assumendo come modello che i lanci siano indipendenti e che tutte le monete abbiano una probabilitd a priori testa/croce pari a 1/2. Risposta. I dati sono riportati ancora per comoditd nella nuova Tab. 6.5, dove sono state anche calcolate le quantzth di base che ci semiranno nella
229
6.17 Verifica di cornpatibilith tra carnpione e popolazione
Tabella 6.5. Istogramma relativo all'esperimento costituito d a 1V = 100 prove, ognuna consistente nel lancio di 10 monete da 50 lire (vedi anche Tab. 2.2). Le colonne contengono: il numero di teste possibili (1)' il numero di volte (successi) in cui si 15 ottenuto il numero di teste riportato in prima colonna (2), le speranze matematiche, o numero vero di eventi, date dal numero di prove per la probabilita binomiale della (2.30) con n = 10, p = 1/2 (3), l'errore statistic0 dell'istogramma calcolato col numero vero di eventi (4) oi = (5) si =
m ni
1 - - , i valori del
X2
J 41 -3 , e con quello misurato p.
-
per ogni punto, ottenuti utilizzando nel
I
calcolo la probabilitii Vera (6) e la frequenza misurata (7) spettro (n. teste)
successi
binomiale
dev. std. "vera"
dev. std. stimata
xL
xL
"vero"
stimato
analisi. Per n o n fare confusione, occorre per prima cosa definire i parametri:
- numero di lanci per prova: n = 10; - numero di prove: N = 100; - numero totale di lanci: N .n = M = 1000.
Il primo test che possiamo fare i: quello sul numero totale di successi, cioB sul numero totale di teste. Dalle colonne 1 e 2 della tabella otteniamo: J:
=2 .5
+ 3 . 1 3 + . . . = 521
successi .
Poiche' la speranza matematica B M p = 500 e la dispersione vera, calcolata con la (3.5), vale (T = J ~ o o ( I -1/21 = 15.8, otteniamo zl valore standard:
a1 quale corrisponde i n Tab. D.l a n livello di significativitd
230
Capitolo 6. Statistics di base
il quale permette di aflermare che, ripetendo varie volte mille lanci indipendenti con monete non truccate, i n circa 2118% dei casi si avranno scostamenti (in piu o i n meno) da 500 maggiori di 21. Nell'esercizio 2.6 abbiamo calcolato la media e la varianza dell'istogramma di Tab. 6.5: m = 5.21 , s2 = 2.48 , s = 1.57 , ed i corrzspondentz valori veri della binomiale con n = 10 e p = 1 / 2 :
I1 test sulla media, eseguito con la (6.40), fornisce allora:
ll test sulla media risulta uguale a1 test sul numero totale di lanci, perch4 vale 1 'identiti Mp-x
Nnp - NxIN
np - x l N
b-m
Per il test sulla varianza possiamo utilizzare la formula per grandi campioni (6.56) e calcolare il valore standard:
cui corrisponde i n Tab. D.l u n livello di significativitd
Veniamo ora a1 test x2, che i: il test finale complessivo sulla forma del campione. Raggruppando i primi e gli ultimi 3 canali, i n modo da avere sempre u n numero di eventi per canale 5, otteniamo:
>
Il numero dei gradi di liberti i. uguale a 6, poiche' il numero totale di eventi 6 Jissato e nella somma compaiono 7 termini. A questo valore di X & corrisponde i n Tab. 0 . 3 u n livello di signzficativith
6.18iVerifica di iootesi con test non oararnetrici
231
Fig. 6.16. Dati sperimentali con barre d'errore e previsioni della densit%binomiale (quadrati vuoti) per 100 prove consistenti nel lancio di 10 monete d a 50 lire. Per facilitare il confronto, i punti discreti della densiti binomiale sono stati uniti d a tratti di retta
deE50% czrca: in pratzca abbiamo ottenuto un evento {QB = x;} nell'intorno del valore piu probabale. S e nel calcolo del X2 avesszmo divwo per le frequenze misurate come nella (6.119), avremmo ottenuto & = 7.4216 = 1.24 ed u n live110 di significatiwith di circa il 25%. I due risultati, per quanto analoghi dal punto di vista statistico, dzgeriscono sensibilmente a causa della dimensione del campione (N = 100) piuttosto ridotta per il test x2. In tutti i test eseguits si sono ottenuti livelli di significativitii molto elevati, il che dimostra u n buon accord0 statistico tra i dati e il modello che assume lanci indipendenti di monete n o n truccate, I dati sperimentali con i relativi errori statistici e i valori teorici dati dalla distribuzione binomiale sono riportati anche in Fig. 6.16. Abbiamo finalmente analizzato in modo completo ed esauriente l'esperiment o delle 10 monete, la cui presenza ... incombeva minacciosa da tempo. V i facciamo notare che n o n si tratta di un esperzmento tanto facile da interpretare, se ci sono volute 231 pagine di testo per completarne l'analisi.
--
a-
4
-
.
.= -
-- -
= ---- -<--- -"2
%
---
- -- -
"
-- -
-- -
4 z = = s
6.18 Verifica di ipotesi con test non parametrici Abbiamo visto come applicare il test X 2 nel confronto tra un istogramma e una densit&modello dipendente da parametri. Vediamo ora come modificare questa procedura quando si confrontano tra loro due o pi?, campioni, senza assumere per la loro popolazione una specifica funzione di densit&. Questi test vengono detti n o n parametrici. Notiamo prima di tutto che, se il dato sperimentale consiste in una sola frequenza corrispondente ad un numero di successi > 10, l'uso del test X 2 2:
232
Capitolo 6. Statistica di base
equivalente all'uso del test gaussiano a due code s u una variabile standard. Infatti, le variabili
seguono l'una la densita gaussiana, l'altra quella X 2 con un grado di libertk. Potete facilmente controllare come, assegnando a caso un valore di T ed eseguendo il test a due code con la Tab. D.l ed eseguendo il test ad una coda per la variabile Q(1) con la Tab. D.3, si ottengano risultati identici. Nel caso di una coppia di variabili gaussiane, la verifica di compatibilita pub essere effettuata con la densit& gaussiana o di Student, second0 il metodo della differenza del par. 6.15. In alternativa, se l'esperimento misura la frequenza di realizzazione di un evento in due carnpionamenti indipendenti, spesso viene usata l'analisi delle tabelle di contingenza con il test x2. Questo metodo consiste nel costruire una tabella contenente il numero di successi n, ed n b ottenuti con due serie di tentativi N, ed Nb:
I
SUCCESS1
I
INSUCCESSI
TOTALE
1
Supponendo che i due campioni provengano da un medesimo process0 stocastico con probabilita Vera p, si costruisce la tavola di contingenza attesa:
(
CAMPIONE CAMPIONE TOTALE
A B
SUCCESS1
INSUCCESSI
pNb p(Na
(1(1- p)Nb (1- P ) (Na
I pNa
+ Nb)
TOTALE
I
+ Nb)
Na Nb Na
+ Nb = N
Ogni riga della tabella di contingenza sperimentale costituisce un istogramma a due canali e la tabella attesa associata fornisce il corrispondente valore atteso del numero di successi e insuccessi. In base ai teoremi di Pearson 4.4, 4.5 ed al teorema 3.4 di additivita del X 2 la quantita
si pub considerare come il valore assunto d a una variabile X 2 con 2 gradi di liberta. Se p ii incognita e l'ipotesi nulla afferma solo che essa B la medesima per i campioni A e B, si pub effettuarne una stirna puntuale dai dati. Se i successi e gli insuccessi osservati sono tutti > 10, allora si pone
233
6.18 Verifica di ipotesi con test non pararnetrici
Poich6 questa assunzione introduce una ulteriore relazione di dipendenza tra i dati, in base alla definizione 6.3 la (6.120) rappresenta i valori presi da una variabile X 2 con un solo grado di libertd. Notiarno che il metodo 6 approssimato, perch6 la probabilitii Vera i! stata stimata dalla frequenza osservata (6.121). La tendenza verso la densith di x2 della variabile (6.120) si ha ovviamente per I T , Nb + w. Tuttavia il metodo viene accettato e fornisce buoni risultati quando vale la condizione N > 40, n,, n b > 10, la quale assicura che il numero di successi sia gaussiano e che la stima della probabilith Vera sia affidabile. Vi ricordiamo che questo punto i: stato ampiamente discusso nel par. 6.6. Esercizio 6.13 gt+yjx ~ ~ e ~ ~ s ~ . ~ 2 y ~ ~4 , ~y ~z ~ ~- 2G7 :~ P e r provare la validitd di u n vaccino, si sono studiati due gruppi di cavie, u n o vaccinato, 17altro n o n vaccinato. I risultati sono riportati nella seguente tavola di contingenza:
I
1
I
AMMALATE
1
10 18 28
1
CAVIE VACCINATE CAVIE NON VACCINATE TOTALE
SANE
II
41. 1 29 1 70 1
TOTALE
I
51 47 98
1 1
Dire se i risultati sono significativi per it test a una coda a destra ad u n live110 del 5%. Risposta. S e assumiamo come zpotesi nulla Ho che il vaccino n o n sia efficace, allora le dzflerenze tra i due gruppi di cavie sono solo casuali. Sotto questa ipotesi la miglior stima della probabilitci di contrarre la malattia sard data dalla frequenza (6.121):
Analogamente, la probabilitd di n o n contrarre la malattia sarci pari a 0.714. Possiamo allora costrmire la tavola di contingenza attesa (ciod dei valori attesi sotto Ho: 0.286 . 5 1 = 14.6, ecc.): CAVIE VACCINATE CAVIE NON VACCINATE TOTALE
Dalla formula (6.120) abbiamo:
I
AMMALATE
SANE
14.6 13.4 28.0
36.4 33.6 70.0
TOTALE
I
1
51 47 98
~
~
234
Capitolo 6 . Statistica di base
-
Dalla Tab. 0 . 3 si vede che S L = 5% corrisponde, con un grado di libertd, ad un valore X2(1) = 3.84, mentre il valore trovato, x2(1) = 4.24, corrisponde a S L 4%. Concludiamo che il vaccino supera il test di eficacia a1 live110 del 5%, perch6 la probabilitd di sbagliare, scartando Ho ed aflermando che il vaccino d eficace, b solo del4%. Dato che questo problema richiede 17uso di u n a tavola di contingenza a due entrate, possiamo usare i n alternativa il metodo del par. 6.15 e la formula (6.94). Dalla tabella di contingenza sperimentale si ha i n questo caso:
Notate che qui n o n si utilizza la tabella di contingenza attesa. I1 valore t; = 4.30 corrisponde ad u n x2 con u n grado di libertci in accordo col valore 4.24 trovato i n precedenza con la tavola di contingenza attesa. Avremmo trovato due valori identici se nella (6.122) avessimo usato a1 denominatore, invece che le frequenze sperimentali, quelle della tabella di contingenza attesa. Dalla Tab. D.l si ottiene, per t = 2.07, un valore di 0.4808, pari ad u n live110 di significativitci, per u n test a due code, di:
i n accordo col test X2 eflettuato i n precedenza. V a notato che entrambi i metodi usatz sono approssimati: zl metodo che utilizza la tabella dz contingenza attesa assume che le probabilitci vere coincidano con le frequenze calcolate dai dati supponendo che il vaccino sia ineficace, mentre zl metodo della differenza utilzzza, a1 posto degli errorz veri, glz errori statistzcz calcolatz dalle frequenze sperzmentali.
------ *
-- -
--* = --
= ~ = ? * ~ - = -=. - : & ~ - ~ ~
- --
-=
Mostriamo ora come il test del X2 possa essere esteso a tavole di contingenza di qualunque dimensione. In generale, possiamo considerare la tabella di contingenza seguente:
I
CAMPIONE
I
CAMPIONE
2
...
1 I
CANALE 7211
1
CANALE 1212
2
... ...
CANALE C wc
I
TOTALE C i n l j
...
la quale 5 composta d a T righe (i campioni in forma di istogramma) e c colonne (i canali degli istogrammi). Nel caso di un solo istogramma, il test si riduce a1 caso discusso nel par. 6.17. Come a1 solito, supponiamo di voler verificare se i campioni sono omogenei, se cioi: provengono tutti dalla stessa popolazione. Se questa ipotesi
6.18 Verifica di ipotesi con test non parametrici
235
nulla B Vera, allora ad ogni colonna della tabella potremo associare una probabiliti Vera (incognita) pj, che moltiplicata per il numero totale di elementi Cjnij = Nidi ogni campione (riga), forniri, in ogni cella, il valore vero o atteso pjNi del numero di eventi. Tenendo presente anche in questo caso i teoremi di Pearson 4.4, 4.5 ed il teorema 3.4 di additivita del x2, possiamo dire che la quantitii
segue una distribuzione di X 2 . I1 valore incognito della probabilitb si pub stirnare dai dati generalizzando la (6.121) e sommando per colonne:
dove N B il gran totale della tabella. Veniamo ora a1 calcolo dei gradi di liberti. Dal teorerna di Pearson 4.5 sappiamo che ogni riga contribuisce con ( c - 1) gradi di libertb. Tuttavia questo numero, che vale r(c - I), va diminuito di una valore pari a1 numero di relazioni (6.124) con le quali abbiamo stimato le probabilita vere. Queste ultime non sono pari a a1 numero di colonne c, ma a ( c - I ) , perch6 la probabilitb dell'ultima colonna resta determinata dalla relazione di chiusura:
Abbiarno pertanto un numero di gradi di libertb che vale:
In conclusione, per la verifica di una ipotesi Ho, con un livello di significativita S L = a prefissato (in genere a = 0.01-0.05), su uno o pi6 istogrammi raccolti in una tabella di contingenza con (i = 1,2,. . . , r ) righe e ( j = 1,2,. . . ,c ) colonne, si procede come segue: si calcola il X 2 ridotto
dove Ni sono i totali di riga, N i: il gran totale della tabella e Ijj B data dalla (6.124); si rifiuta Ho ad un livello di significativitb cw se dalla Tab. D.3 risulta
236
Capitolo 6. Statistics di base
Questo test B il pilastro della analisi statistica non parametrica delle frequenze. Si noti che, nel caso non parametrico, non si rigetta l'ipotesi quando il x2 B piccolo ed i valori di probabilitb sono alti, poich6 non va preso in considerazione il caso in cui il modello a priori di densitb contenga un numero troppo elevato di parametri. I1 test i! quindi sempre a una coda, quella di destra. Tuttavia, i! bene notare che un valore di x2 troppo piccolo, corrispondente a valori di probabilitB > 0.99 nella (6.128), indica una coincidenza sospetta tra la tabella di contingenza sperimentale e quella attesa, dovuta in genere a jluttuazioni non casuali o a correlazioni nei dati. In questi casi occorre cautela nell'accettare l'ipotesi nulla, specialmente se si B in presenza di un numero elevato di gradi di libert8. Vi raccomandiamo, a questo proposito, il problema 6.11. Potremmo evitare di usare il test X2 e ricorrere sempre a1 test gaussiano delle differenze come nel caso delle tabelle di contingenza (2 x 2)? La risposta 6 negativa e vogliamo spiegarvene il motivo. Nel caso di tavole di contingenza con pih di due dimensioni potremmo pensare di fare una somma di differenze di frequenze divise per il relativo errore, come nella (6.94). Se togliamo il valore assoluto della differenza, anche la somma di queste variabili aleatorie sar&gaussiana e potremmo eseguire il test di significativita con la Tab. D.1. Tuttavia, una somma di grandi fluttuazioni (positive e negative) potrebbe fornire un buon valore della variabile standard anche nel caso di una ipotesi grossolanamente sbagliata. Se, per evitare questo inconveniente, mantenessimo il valore assoluto nella somma delle differenze, allora non avremmo piii una variabile finale gaussiana e non potremmo pertanto eseguire il test. La variabile X2, invece, essendo una somma di quadrati di fluttuazioni, combina sempre positivamente tutte le fluttuazioni dei dati rispetto a1 valore vero ed i: pertanto pih affidabile. In linguaggio tecnico, possiamo dire che il test x2, rispetto a quello gaussiano delle differenze, minimizza l'errore di I1 tip0 (accettare una ipotesi sbagliata) e che pertanto, in base alla terminologia che introdurremo nel cap. 9, B un test piii potente. In ambito SCILAB una routine estremamente sintetica, che abbiamo chiamato per l'analisi di tabelle di contingenza t a b e l di qualsiasi dimenslone: // // // //
f u n z i o n e SCILAB p e r il c a l c o l o d e l c h i q u a d r a t o , d e l c h i quadrato r i d o t t o e d e l l i v e l l o d i s i g n i f i c a t i v i t a ' SL a p a r t i r e d a una t a b e l l a d i contingenza t a b e l Output: [contl = [chi2 ; c h i 2 r i d o t t o ; l i v e l l o SL]
f u n c t i o n [cont] =Tabcont ( t a b e l )
//
r i l e v a z i o n e dimensioni t a b e l l a
6.18 Verifica di ipotesi con test non parametrici
// //
237
gran totale GT = sum(tabe1) ; probabilita' vere stimate (matrice riga somma delle colonne)
P = sum(tabe1,'r') ./GT; //
totali per riga (matrice colonna s o m a delle righe)
T = sum(tabe1,'c'); //
creazione della tabella di contingenza attesa tabatt = T*P;
//
calcolo del chi quadrat0 cont = Chisq(tabe1, tabatt, (r-l)*(c-1))
;
endfunction
La routine sfrutta la funzione SCILAB *sum per sommare righe e colonne della tabella. P B la matrice delle probabilit&(6.124), T quella dei totali di riga N, della (6.126). I1 prodotto righe per colonne T*P 2 la tabella di contingenza attesa N&. I1 vettore di usc , che contiene i valori di x2, x 2 / v , SL, viene ottenuto con la routine descritta a pag. 228, che potete copiare dal nostro sito.
Esercizio 6.14 mi= j i ~ ~ A i o w ~ ~ ~ ~ m ~ ~ - ~ r ~ ~ , ~ ~ I n una ditta di cinghie dentate di gomma tre operatori X , Y e Z eseguono u n test uisiuo sulla bontd del prodotto. Essi possono accettare il pezzo oppure scartarlo per un difetto di tipo A o B. U n controllo ha fornito la tabella seguente:
I
I
OPERATORE OPERATORE OPERATORE TOTALE
X I Y
TIPO
A 10 20 30 60
B 54 50 35 139
TIPO
BUONO
26 50
35 111
I TOTALE 1
90 120 100 310
Stabilire se i cm'tem' di controllo dei tre operatori sono omogenei ad un liuello dell'l%. Kisposta. Utilizzando la (6.124) otteniamo le probabilitd
Queste probabilitd permettono di ottenere la tabella di contingenza attesa: OPERATORE OPERATORE OPERATORE TOTALE
X Y 19.3 60.0
44.8 139.0
35.8 111.0
310
238
Capitolo 6 . Statistica di base
Se rifate i conti, potrete trovare qualche piccola difjerenza rispetto ai valori sopra riportati a causa degli arrotondamenti. ll valore del X 2 ~iottiene dalla (6.126):
I n base alla (6.127), i gradi di libertd sono:
I1 X2 ridotto (6.126) vale pertanto:
Dalla Tab. D.3 risulta che a questo valore corrisponde u n livello di szgnixg(4)) molto pzccolo, poiche' a1 valore xL(4) = 3.71 ficativztci P{QR(4) corrisponde gici u n livello di significativitci del 5 per mille; il valore trovato dz 4.73 corrisponde danque ad u n livello ancora minore. La routz Possiamo concludere che gli opera fornisce znfatti S L = 8.3 cm'teri dzversi, poiche' l'ipotesi di omogeneitci, ad u n live110 dell'l%, va rzfiutata.
>
6.19 Stima della correlazione Quando si calcola da un insieme finito di dati (xi, yi) il coefficiente di correlazione campionario si ottiene generalmente un valore diverso da zero, anche quando le variabili sono incorrelate. Il problema B quindi, avendo ottenuto dai dati un coefficiente di correlazione r , verificare se esso B compatibile o meno con un valore nullo (verifica di ipotesi), oppure stimare l'intervallo di confidenza entro il quale i: localizzato il coefficiente di correlazione vero p (stima di un parametro). La stima campionaria del coefficiente di correlazione (4.31) per un insieme finito di N elementi richiede prima la definizione della covarianza carnpionaria S ( X ,Y) S x y . Senza perdere di generalit2 possiamo considerare una coppia di variabili centrate (a media Vera nulla), per le quali la covarianza Vera vale;
Per individuare eventuali fattori di distorsione (bias) B necessario, analogamente a quanto fatto per la varianza nella (6.47), trovare il valor medio vero della somma campionaria:
6.19 Stima della correlazione
239
the in generale avrh {Mx= ms # 0}, {My = my # 0) anche quando i valori veri delle medie sono nulli. Applicando le proprieta di linearita dell'operatore media e notando che
e cod via, abbiamo:
L'ultimo termine di questa equazione si pub scrivere come:
Ora, Xi ed Yj sono indipendenti, perch6 sono valori provenienti da eventi diversi campionati indipendentemente (ricordiamo che la correlazione esiste nella coppia (Xi, Y,),relativa alla stessa prova!). Dalla (4.9) si pub allora scrivere (X&) = (X) (Y) = 0 , poich6 per ipotesi le medie vere delle due variabili sono nulle. Dato che XU) = N (XY), la (6.130) si risolve nell'equazione:
(x
F ( X i - Mx)(Y, - MY))=(?xi+
(?Xix)
= (N-1)
(xi-) ,
i=l
(6.131) che, ricordando la (6.129), implica:
In definitiva, la covarianza campionaria nun distorta vale:
240
Capitolo 6. Statistica di base
Questo risultato mostra che tanto per la varianza che per la covarianza, se le stime sono fatte rispetto alle medie campionarie, il fattore N a1 denominatore va sostituito con N - 1. I1 coefficiente di correlazione lineare campionario assume allora la forma compatta:
S x sy
(6.134) dove nell'ultimo passaggio b stata utilizzata la (4.25). A questo valore corrisponde la variabile "coefficiente di correlazione campionario R" . Per i1 calcolo n insieme di dati grezzi, potete usare la nostra routine dove x b la matrice r x c contenente c valori di r vari ato B la (6.133) quando flag=O e la (6.134) quando f lag=i. La densit& di probabilith di R B stata trovata nel 1915 da R.A. Fisher. Questa distribuzione (dedotta anche in [22]), nel caso di N variabili gaussiane con coefficiente di correlazione vero p = 0, ha densitii di probabilita data da:
dove v = N - 2. Anche la stima del coefficiente di correlazione vero a partire dai dati campionari k un problema difficile, la cui brillante soluzione B dovuta sempre a R.A. Fisher, che nel 1921 dimostrb il teorema:
Teorema 6.3 (Variabile Z di Fisher). S e R b un coeficiente di correlazione campionario ottenuto da N coppie di variabili normali, la variabile
possiede, per N
+ oo, distribuzione normale con media e varianza date da:
essendo p il coeficiente di correlazione vero. Dimostrazione. La dimostrazione completa del teorema d piuttosto complicata e generalmente i testi rimandano all'articolo originale di Fisher oppure al suo celebre testo [37]. Tuttavia, possiamo dare u n a parziale dimostrazione del teorema considerando, come in (401, il caso in cui p = 0 ed applicando alla densitci (6.135) la trasformazione inversa della (6.136):
6.19 Stima della correlazione
241
dove tanh rappresenta la tangente iperbolica. Dato che: 11 - tanh2 x = -cosh2 x '
1 d tanh x -dx cosh2 x '
-
indicando con A tutti i coeficienti costanti della (6.135) e tenendo presente che v = N - 2, dalla uguaglianza c ( r ) d r f (2)dz, si ottiene: 1 cosh2 z
-= A
f ( z ) = A (1 - tanh2
1 coshN-2 z
'
P e r il coseno iperbolico vale lo sviluppo in serie: 1 coshz = -(eZ 2
-
+ e-")
=1
.z2 z4 +++ .. . 2! 4!
dove l'ultima approssimazione vale per z dell'ordine dell'unita. A causa della presenza del logaritmo, i valori di z si mantengono abbastanza limitati, tranne che nel caso estremo r f1. Possiamo allora, con buona approssimazione, arrestare questo sviluppo in serie a1 second0 ordine e scrivere:
Risulta dunque che la variabile Z b approssimativamente normale, con media nnlla e vam'anza Var[Z] = 1 / ( N - 2). Il risultato corretto b tuttavia 0 rappresentato dalle (6.137). In realt& il teorema & molto potente, perch6 in pratica vale per N > 10 e d& buoni risultati anche con variabili non gaussiane. Per mostrarvi le prodigiose proprieta della trasformazione di Fisher, abbiamo riportato in Fig. 6.17 l'istogramma di 50 000 coefficienti di correlazione campionari r ottenuti con 20 coppie di variabili uniformi (X, X V) dell'esercizio 4.2 e il relativo istogramma della variabile Z. Nella stima della correlazione da un insieme di dati ({R = r ) , { Z = z)) si esegue la trasformazione (6.136)' si applica la teoria della stima per variabili gaussiane ed infine si antitrasforma applicando I'esponenziale ad ambo i membri della (6.136):
+
Una formula pih semplice per I'intervallo di stima pub essere ottenuta trovando l'errore su r applicando alla (6.138) la legge di propagazione degli errori e la (6.137):
242
Capitolo 6. Statistics di base
SOO 0.4
8.2
rho
0.6
Fig. 6.17. Istogramma di 50 000 coefficienti di correlazione tra 20 coppie di variabili uniformi (X,X + V) a); corrispondente istogramma della variabile Z di Fisher e della gaussiana (curva piena) che rneglio si adatta ai dati b)
z di Fisher
e sostituendo poi il valore di z della (6.136): ST
=
1 - r"
-
Jm
da cui
p Erf
1-r2
'
- CL rr 68%.
d7C3
(6.139)
La procedura 6 chiarita negli esempi che seguono. Esercizio 6.15 Valutare la compatibilitd tra valori veri e simulati nell'esercizio 4.2 di pagina 121.
Risposta. L'esercizio si riferisce a 10000 coppie di dati simulati, per i quali si sono ottenuti i valori:
a fronte di valori veri dati da:
Trasformiamo i valori sperimentali con la (6.136) e i valori veri con la prima delle (6.137):
I valori zi sono relativi ad una variabile gaussiana di media pi e deviazione standard: 0
=
J&
=
,,I& = 0.0100 .
243
6.19 Stirna della correlazione
Tabella 6.6. Statura e perimetro toracico (in cm) di 1665 soldati italiani della prima guerra mondiale. I dati sono riportati da [lo] PERIMETRO TORACICO
-72
S T
150 154 158
3
76 1 7 7
80 7 27 69
84 2 39 118
92 1 6 21
88 2 28 87
Possiamo allora costruire le tre variabili standard:
alle quali, come si vede dalla Tab. D.l, com~spondonoelevati livelli di significativitd. I dati si scostano infatti di 1.38, 0.42 o 1.21 deviazioni standard dalla loro media, indicando u n buon accord0 tra simulazione e valori attesi. mrFaw--Tq%
=
~
~
-
m
~
~
>
~
~
~
~
~
=: *~ ~ G~~--g . r*-:~: e q~~*:= *
*
d
~
>
=
Esercizio 6.16 Determinare dai dati di Tab. 6.6 il coeficiente di correlazione altezza/torace. Risposta. La tabella, riprodotta anche i n Fig. 6.18, rappresenta u n istogramm a bidimensionale. DalEa sua strmttura si deduce facilmente l'ampiezza delle classi: ad esempio, i soldati con perimetro toracico tra 78 e 8.2 cm (valore centrale 80) e altezza tra 160 e 164 c m (valore centrale 16.2) sono i n numero di 110 e cosi via. Se ti ed si sono i valori spettrali del torace e della altezza, gli istogrammi marginali n(ti) e n ( s i ) hanno forma di tipo gaussiano, come si pub vedere facilmente dai grafici (fatelo per esercizio). Le medie e Ee deviazioni standard degli istogrammi marginali sono una stima delle corrispondenti quantitd vere delle densitci marginali delle altezze e dei perimetri del torace. Esse si possono calcolare tramite le (2.40, 2.41). Con ovvia notazione, si ottiene:
~
a
~
v
244
Capitolo 6. Statistics di base
Fig. 6.18. Istogramma bidimensionale dei dati di Tab. 6.6
Le due dispersioni st ed s, sono state calcolate dividend0 per (1665 - I ) , poiche' si sono utilizzate le medie empiriche. La stima ad l a delle medie della statura e del torace d data dalla (6.40):
Veniamo ora a110 studio della correlazione. I dati dovrebbero essere correlati, perch6 l'esperienza mostra che uomini piccoli con torace enorme, o viceversa, sono molto rari. Calcoliamo pertanto la covarianza campionaria (4.25'):
I1 coeficiente di correlazione campionarzo (6.134) vale allora:
Vi ricordiamo che, per il calcolo di sst o di r,t potete usare le routine di S C I L A B -%dk$ Stimzamo ora, con un C L = 95%, zl coeficiente di correlazione altezza/torace dei soldatz. Per przma cosa, calcoliamo la variabile Z corrzspondente alla correlazzone campionaria r = 0.266:
6.20 Problemi
245
Questa B una variabile approssimativamente gaussiana, di deviazione standard data dalla seconda delle (6.137). Poiche' i dati si riferiscono a 1665 soldati, abbiamo:
Per una variabile gaussiana, i limiti di confidenza a1 95% sono data da una variabile standard t = 1.96:
L'intervallo che abbiamo trovato contiene con C L = 95% il valore p,. L'zntervallo di conjidenza per il coeficiente di correlazione vero p si trova infine inserendo nella seconda delle (6.138) i valori (0.225,0.319):
Come si vede, dai dati risdta in mod0 certo la correlazione altezza/torace. Lo stesso risultato pub essere ottenuto in questo caso anche con la formula approssimata (6.139). Poniamoci ora la domanda: u n soldato alto sui 170 cm, che torace deve avere per essere considerato nella norma? Se assumiamo l'istogramma della tabella come campione di riferimento, possiamo rispondere alla domanda stimando dai dati, con le (4.54, 4.55), la media (sulla retta dz regressione) e la deviazione standard del torace t condizionate dalla statura s: m ( t l s ) = mt
+ r,t
St
- ( s - m,) = 85.71
+ 0.204 (170 - 163.71) -4 86.9 crn
S,
Sempre nell'ipotesz di u n modello gaussiano, posszamo dire che il perzmetro toracico del soldato, per essere nella norma, deve essere compreso, con legge 3 0 , nell'intervallo 86.9 f 4.3 cm.
6.20 Problemi 6.1. Da un'urna contenente 400 biglie rosse e nere (in proporzione sconosciuta) si estraggono 30 biglie, di cui 5 rosse. Trovare, ad un livello di confidenza del 95%, il numero iniziale di biglie rosse R contenute nell'urna nel caso di a) estrazione er grandi campioni, b) estrazione con reinserimento utilizzando l'appro con reinserimento utilizzando il codic c) estrazione senza reinserimento utilizzando I'approssimazione per gran
246
Cawitolo 6. Statistica di base
6.2. In un esperimento si sono ottenuti 20 conteggi. Trovare il limite superiore del valore atteso dei conteggi, con CL = 90%. Utilizzare I'approssimazione gaussiana della distribuzione di Poisson. 6.3. Lo scarto quadratic0 medio del peso di una popolazione adulta B a = 12 Kg. Trovare la media ( S ) e la deviazione standard u[S] per un campione di N = 200 individui. 6.4. Eseguendo un numero incognito N di prove, ognuna con probabilita nota a priori p = 0.2, si ottengono n = 215 successi. Stimare N con CL=90%. 6.5. Se Xi(i = 1 , 2 , . . . ,N) k un campione casuale estratto da una popolazione normale, dimostrare che la covaxianza tra la media M e lo scarto campionario (Xi - M) k nulla. 6.6. Vengono sommate 25 variabili gaussiane aventi tutte la stessa media p ignota e u = 1, ottenendo il valore di 245. Si trovi a) l'intervallo standard di stima di p (CL=68%) e b) il limite superiore di /I con CL=95%. 6.7. Due macchine producono alberi di acciaio. Le medie di due campioni di 10 alberi hanno fornito i diametri: p1 E 5.36 f 0.05 e pz E 5.21 i0.05 mm. Applicare il test di Student per verificare l'omogeneit8 dei pezzi prodotti dalle due macchine. 6.8. Ad un gruppo di 70 ammalati k stato somministrato un farmaco, ad un altro gruppo di 58 ammalati del semplice zucchero (placebo). Giudicare se il farmaco B efficace in base alla tabella di contingenza ottenuta:
I
GUARITI AMMALATI TOTALE
I
MEDICINA
PLACEBO'
I
40 30 70
28 30 58
I
I
TOTALE
1
68 60 128
1
1
6.9. I1 conteggio X del numero di autobus arrivati ad un case110 autostradale in 5 minuti, ripetuto per N = 100 prove, ha dato il seguente istogramma, con lo spettro discreto di X diviso in 11 canali (da 0 a 10):
5 6 7 8 9 10 3 4 n. di autobus xi I 0 1 2 0 1 1 5 6 19 20 17 15 8 8 1 n.diproveni Dire, con un test a due code, se i dati sono compatibili con un process0 poissoniano. 6.10. Secondo un modello genetic0 un certo tip0 di pianta dovrebbe fornire in rapport0 tra piselli verdi e gialli di 3:l. In un campione di 500 piselli se ne sono trovati 356 verdi. Dire se il modello pub essere accettato ad un live110 del 5%. 6.11. Una serie di 600 lanci con due dadi diversi ha dato luogo alla tabella di contingenza relativa alle 6 facce: TOTALE 1 3 4 5 6 2 106 600 105 103 95 90 DADO 1 101 600 99 99 105 98 DADO2 103 96 1200 TOTALE 200 210 201 198 186 205 Dire se a) le due serie di lanci sono tra lor0 compatibili e se b) i dadi e i lanci sono regolari. 6.12. Un campione di 40 coppie di dati gaussiani ha coefficiente di correlazione r = 0.15. Fare la stima per intervallo di p con CL cz 68%.
6.13. Dopo l'introduzione del nuovo codice della strada le morti per incidente nel fine settimana sono diminuite da 60 a 33. Qual'k la probabilita di sbagliare dermando che il calo k merito del nuovo codice?
7 . 11 metodo Monte Carlo
" Le proprieta davvero uniche del cervello umano m i sembrano caratterizzate proprio dal possente sviluppo e dall'impiego intensivo della funzione di simulazione. E ci6 a1 1iveIlo piii profondo delle funzioni conoscitive, quello su cui si basa il linguaggio e che questo, senza dubbio, esprime solo in parte. " Jacques Monod, "IL CASO E LA NECESSITA".
7.1 lntroduzione Con il termine di "metodo Monte Carlo" oppure "metodo MC", vengono in generale denominate tutte quelle tecniche che fanno uso di variabili aleatorie artificiali (cioi: generate a1 calcolatore) per la risoluzione di problemi matematici. Indubbiamente questo non i? un mod0 molto efficiente per trovare la soluzione di un problema, in quanto la procedura di campionamento simulato porta ad un risultato che Q sempre affetto dall'errore statistico. Nella pratica per0 ci si trova spesso di fronte a situazioni in cui Q troppo difficile, se non addirittura impossibile, utilizzare i tradizionali procedimenti numerici o analitici ed in tutti questi casi il metodo Monte Carlo diventa I'unica alternativa disponibile. L'applicazione di questo metodo non 6 ristretta solo. ai problemi di natura statistica, come potrebbe forse sembrare dall'utilizzo delle distribuzioni di probabilitd, ma include tutti quei casi in cui si riesce a trovare un collegamento tra il problema in esame ed il comportamento di un certo sistema aleatorio: il valore di un integrale definito, che non Q certamente una grandezza casuale, pub, ad esempio, essere calcolato anche usando dei numeri casuali. Le basi teoriche del metodo Monte Carlo (o metodo di simulazione) sono conosciute da molto tempo ed il primo esempio dell'impiego di numeri casuali per la risoluzione di integrali definiti si trova addirittura in un libro ("Essai d'aritmetique morale") scritto nel 1777 d a Georges-Luis Leclerc, conte di Buffon, matematico e naturalista francese, in cui i: delineato un metodo per il calcolo approssimato del valore di T (si veda il problema 7.13). Per oltre un secolo e mezzo esso fu perb usato solo sporadicamente e soprattutto per fini didattici. La sua prima applicazione sistematica si 6 avuta
248
Ca~itolo7. 11 metodo Monte Carlo
solo nella prima met& degli anni '40 a Los Alamos, ad opera dell'kquipe di scienziati, guidata da Enrico Fermi, che sviluppb il progetto delle prime bombe atomiche. In questo stesso period0 nasce anche il termine "Monte Carlo", che fa ovviamente riferimento alla citta del Principato di Monaco famosa per il suo casinb e, pic precisamente, alla roulette, uno dei mezzi meccanici pic semplici per generare delle variabili aleatorie. La paternit& del nome va in particolare attribuita ai matematici J. Von Neumann e S. Ulam, che lo adottarono come nome in codice delle lor0 ricerche segrete, condotte utilizzando numeri casuali, sui processi di diffusione ed assorbimento dei neutroni nei materiali fissili (per maggiori notizie storiche, potete consultare [44]). Dopo gli anni '50 si Q avuto un decisivo impulso nell'impiego del metodo con l'utilizzo dei calcolatori, grazie ai quali esso i! passato in pochi anni dal ruolo di curiositk matematica a quello di strumento indispensabile per la ricerca scientifica. Questo Q avvenuto non solo perch6 i calcolatori permettono la rapida esecuzione dei lunghi calcoli che sono spesso necessari per ottenere un risultato significative, ma anche, come vedremo in seguito, per la facilita con cui essi possono generare dei numeri casuali. Attualmente si hanno applicazioni nei piii svariati campi di ricerca, dalla fisica nucleare alla chimica, dalla meccanica statistica e quantistica all'economia. In questo capitol0 daremo una descrizione dei principi fondamentali del metodo e dei dettagli tecnici pih importanti necessari per realizzare codici Monte Carlo per la risoluzione di problemi di tip0 statistico. Altre applicazioni significative verranno illustrate pih avanti, nel cap. 8.
7.2 Cos'i! il metodo Monte Carlo? Come gi& abbiamo accennato, in tutte le librerie di sistema dei calcolatori esistono da molto tempo routine di servizio che generano valori di variabili che possiamo considerare aleatorie, con densita uniforme in [0, I].La presenza di queste routine i: dovuta a1 fatto che, in base a1 teorema 3.5 ed a quanto spiegheremo dettagliatarnente tra poco, attraverso di esse 15 possibile generare variabili aleatorie aventi una qualsiasi altra densit& di probabilit8, discreta o continua. La realizzazione di questo tip0 di routine, che apparentemente pub sembrare semplice, costituisce in realta un problema matematico complesso, come 5, 46, 57, 661. La libreria si pub vedere consultando i riferimenti [5, disposizione la routine articolarmente semplice, pih sofisticata, che utili nel seguito. La chiamata
dove x i!una matrice di numeri aleatori di dimensione m x n, "tipo" Q il tip0 di distribuzione da cui sono estratti i numeri e p i , p2, . . . sono i parametri
7.2 Cos'it i l rnetodo Monte Carlo?
249
della distribuzione. Ad esempio, per estrarre un numero casuale uniforme nell'intervallo [0, 1) basta scrivere:
e per generare un vettore di 2000 numeri e farne l'istogramma evidenziandone i parametri statistici bastano le due istruzioni:
uso della nostra routine Le numerose in cui abbiarn possibiliti di sono descritte in dettagli a in linea di SCILAB. Le routine che generano numeri casuali vanno inizializzate con uno o pi6 numeri interi detti semi (seeds). Se i semi non vengono cambiati, ad ogni nuova prova del programma i risultati (pur casuali), saranno sempre gli stessi. In altre parole, con gli stessi semi si genereri sempre lo stesso campione. Nel caso di I'istruzione da collocare all'inizo del programma per avere una certa s casuale & la seguente: grand ("setsd" ,123432) ;
dove il seme 123432 B arbitrario e va cambiato ogni volta che si desidera ottenere sequenze diverse. Dobbiamo a questo punto mettervi subito in guardia sulla affidabiliti delle routine di attualmente in circolazione, diverse delle quali non superano molti dei test casuali standard. Per procedere a simulazioni corrette 6 allora necessario utilizzare routine ben documentate e di provata affidabilitb, come quelle presenti in SCILAB e nelle librerie scientifiche pih collaudate. Da ora in poi: a
con il simbolo 6 (con o senza indici) denoteremo sempre una variabile aleatoria uniforme nell'intervallo [O, I]; con (con o senza indici) denoteremo i valori assunti dalla variabile 6 U(0,l) in una o pih prove spe pratica questi sono i valori numerici forniti in uscita dalla routine
-
Per simulare l'esperimento pih semplice, il lancio della moneta, basta allora dividere a metb l'intervallo unitario e, per ogni numero generato t, definire 0.5 e come "croce" quando 0.5 < ( 5 1 l'evento come "testa" quando 0 (naturalmente anche la convenzione inversa andrebbe ugualmente bene). Le istruzioni SCILAB sono le seguenti:
<<<
// Routine MCmoneta per la simulazione del lancio di una moneta // Lo spettro e' nel vettore punti (11 posizioni) / / le frequenze simulate sono nel vettore monete (11 posizioni)
250
Capitolo 7. 11 metodo Monte Carlo
I
1 mean = 4.83
'
I
+-
3 0.17
'
I
5
'
I
'
I
I
s
~
7 9 std dev. = 1.74 +- 0
Fig. 7.1. Numero di teste ottenuto in 100 lanci simulati di 10 monete. Si confronti il risultato con quello dell'esperimento reale di Fig. 6.16 a pagina 231. monete = [O 0 0 0 0 0 0 0 0 0 01; grand("setsd",l37778); // cambiare 137778 per una frequenza diversa for k=i:100, xi = grand(l,lO,"unf",O,1) ; / / lancio delle 10 monete teste=O; for j=1:10, if(xi(j) < 0.5) then teste=teste+i, end; // conta le teste end ; monete(teste+l) = monete(teste+l) + 1; // frequenza teste end ; xbasc () ; Histfreqe(monete,punti,stat=i,errors=l) ; // display end ;
E facile riconoscere che la routine opera second0 i seguenti passi: 1) genera 10 numeri casuali &, 5;, . . . , Elo; 2) conta il numero z di volte in cui ti 5 0.5 (i = 1,2, . . . , l o ) ; 3) ripete i due passi precedenti per N = 100 volte, mettendo in istogramma i valori di x via via trovati; Alla fine del ciclo, se denotiamo con ni il contenuto di un generic0 canale dell'istogramma, il rapport0 n i / N ci dB, per ogni canale, la stima della probabilitii cercata. L'istogramma che si ottiene k riportato in Fig. 7.1. Occorre a questo punto notare quanto segue: mediante i passi 1) e 2), con cui sirnuliarno il lancio di 10 monete, non facciarno altro che generare una variabile aleatoria dalla distribuzione binomiale (2.30) e, per N tendente all'infinito, l'istogramma di frequenza
7.3 Fondamenti matematici
251
che otteniamo tende quindi ad essere proprio b(x; 10,0.5). Potete facilmente verificare questo fatto simulando un numero molto grande di lanci, come N 2 20 000; poich6, per ovvie ragioni, possiamo ripetere questo algoritmo solo per un numero finito di volte, la simulazione ha come risultato delle frequenze affette da un certo errore, che B poi lo stesso che otterremmo se cercassimo di trovare x eseguendo dei veri lanci. Se denotiamo con fi il rapport0 n i / N , la migliore stima che siamo in grado di dare per b(xi; 10,0.5) risulta:
Naturalmente la precisione della nostra stima aumenta all'aumentare di N ma il migliorarnento che otteniamo non e molto elevato: quadruplicando il numero di simulazioni, per esempio, dimezziamo solamente l'errore e, come dimostreremo tra poco, tale andamento non B legato a questo particolare esempio ma k una caratteristica generale di tutti i calcoli MC. Nel prossimo paragrafo daremo una giustificazione teorica del metodo MC, riscrivendo in maniera pih generale e matematicamente corretta le indicazioni, piuttosto qualitative, che abbiamo finora sviluppato.
7.3 Fondamenti matematici Consideriamo una variabile T associata ad un qualsiasi fenomeno aleatorio come funzione di k variabili casuali (XI, X2, . . . ,Xk):
Come abbiamo spiegato nei capitoli precedenti, l'intero process0 i: in ultima analisi caratterizzato dai valori medi e dai pararnetri di dispersione di T; questi ultimi sono a lor0 volta esprimibili, in base alla (2.66), come differenza di valori medi. I1 fenomeno in esame pub quindi sempre essere studiato sulla base di valori attesi (2.67), tramite la risoluzione di uno o pih integrali (o somme) del tipo:
dove p(xl,22,. . . ,xr) i: la densitb di probabilita normalizzata delle variabili (XI, X2, . . . ,Xk), definite in D E R' ,
252
Capitolo 7. 11 metodo Monte Carlo
Da un punto di vista strettamente formale, tutti i calcoli MC che sono simulazioni di processi stocastici, in cui si generano casualmente degli eventi secondo certe distribuzioni di probabilith, sono equivalenti all'approssimazione del valore di un integrale definito o di una somma. Se simuliamo N prove della variabile aleatoria T utilizzando diversi insiemi indipendenti di numeri casuali estratti dalla densitci p, per le proprieth della media di un campione (vedere parr. 2.11 e 6.9), sappiamo che la quantith: N
una stima consistente e corretta di I. Se supponiamo che la distribuzione della variabile aleatoria T , come i! quasi sempre verificato in pratica, abbia una varianza finita a$, applicando la disuguaglianza di Tchebycheff (3.90) e la formula (6.39) della varianza della media, otteniamo la relazione:
Un'altra proprietk molto utile (sempre assumendo a$ finita) i: quella fornita dal teorema Limite Centrale 3.1, secondo il quale la densit2 di probabilitA di TN tende "asintoticamenten ad essere una gaussiana con media I e deviazione standard a T / f i . Come abbiamo gia notato, il requisito di asintoticita viene in realth soddisfatto per N abbastanza basso ( N 2 10) per cui possiamo quasi sempre scrivere che:
Le (7.6, 7.7) mostrano che i valori simulati convergono in probabilita verso la quantita da stimare I come a T / m . Risulta pertanto che (salvo i casi in cui, come accenneremo piii avanti, si riesce a "manipolare" T riducendone la varianza) l'unico mod0 per aumentare la precisione della stima TN k quello di aumentare il numero N di eventi simulati. Questa lenta convergenza degli stimatori MC pub richiedere un notevole tempo di calcolo nella simulazione di sistemi complessi.
7.4 Generazione di variabili aleatorie discrete Se la funzione di densit&della variabile discreta che si vuole generare i: nota, allora, tenendo presente che: 0
B possibile costruire, con la (2.28)' la funzione cumulativa;
7.4 Generazione di variabili aleatorie discrete
253
Fig. 7.2. Generazione di variabili casuali discrete. L'intervallo [O,1] viene suddiviso in k segmenti di lunghezza pl ,pz, . . . ,p k ed il sottointervallo entro cui cade un numero casuale E individua I'evento generato
valgono le (3.85, 3.87) di pagina 98; si dispone della routine
k immediato rendersi conto che il rnetodo pih efficiente, per simulare variabili discrete, consiste ne117estrarre u n numero casuale 0 5 J 5 1, considerarlo come variabile cumulativa e determinare i l valore quantize corrispondente a1 valore curnulativo estratto. L'uso della curnulativa 6 il metodo di base per tutte le simulazioni MC.
Consideriamo un segment0 di lunghezza unitaria, suddividiamolo poi in k intervalli ed assegniamo ad ognuno di essi una lunghezza pi pari alla probabilit& che si verifichi il corrispondente evento {X = xi} (Fig. 7.2). Poich6 la probabilitk che un numero casuale uniforme 0 5 5 1 cada in un particolare intervallo 5 esattamente pari alla lunghezza dell'intervallo:
<
si dovra considerare estratto il valore x j corrispondente all'estremo superiore 'intervallo entro cui i: contenuto il nurnero E generato Tale procedimento pub essere cosi schematizzato: Algoritmo 7.1 (Generazione di variabili discrete). Per generare una variabile casuale discreta X , che pu6 assumere u n insieme finito di valori spettrali XI,xz,. . . ,xk con probabilitd pl ,pa, . . . ,pk, occorre: 0
costruire la funzione cumulativa
Fj:
j
Fj =
C pi
( j = 1,2, ... k ) ;
i= 1
<
generare u n numero 0 5 5 1 ; trovare 17indicej (1 5 j 5 k ) per cui b verificata la disuguaglianxa:
(quando j = 1, definiamo Fj-1 = 0);
(7.11)
254
Capitolo 7. 11 metodo Monte Carlo
Tabella 7.1. Distribuzione di probabilitb pi(i = 1,. . . ,11) e funzione cumulativa Fi (Fi = Cj=,p j ) del punteggio Si che si ottiene lanciando una coppia di dadi
i
Si
1 2 3 4 5 6 7 8 9 10 11
2
3 4 5
6 7 8 9
10 11
12
pi 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Fi=Ca,,pj 1/36 3/36 6/36 10136 15/36 21/36 26/36 30136 33/36 35/36 1
porre { X = xj}.
Risposta. Dobbiamo, innanzitutto, trovare la probabilith puntuale e quella cumulativa F associate ad ogni punteggio. S e con S denotiamo la somma dei punti che si ottiene i n u n singolo lancio, queste probabilitd sono rappresentate dalla Tab. 7.1. S i possono usare due differenti metodi per determinare in quale intervallo del vettore F si collocano i numeri casuali J:
ricerca sequenziale: si esaminano in serie, uno dopo l'altro, tutti i sottointervalli iniziando dal primo (o dall'ultimo); ricerca binaria (o dicotomica): si inizia l'esame dal sottointervallo corrispondente all'indice centrale del vettore; se quello cercato B maggiore (minorej si elimina la prima (seconds) meth del vettore F , ci si riposzziona a1 centro della met6 rimasta e si ripetono le operazioni precedenti fino a trovare l'indice j che soddisfa la relazione (7.12).
E facile dimostrare che i n quest'ultimo procedimento il numero di confronti necessari per individuare questo indice 6 pari a1 minimo intero m che verifica la disuguaglianza 2m 2 k (se k = 1000, ad esempio, m = 10). Per questo motivo esso b senz'altro pi& vantaggioso, in termini di tempo di calcolo, rispetto a quello sequenziale, che necessita di u n numero medio di confronti pari a k / 2 . La routine S C I L A B per la m'cerca dicotomic cumulatiua discreta val troua l'indice corrispon vallo in cui cade u n valore x. Le numerose possibilith di questa routine sono descritte nella guida in linea. Altri algoritmi di ricerca dicotomica sono descritti in [53, 661.
7.4 Generazione di variabili aleatorie discrete
255
1600 1200 -
+
-
800 400 punteggio
0
I
1
'
I
3 5 mean = 7.00 +- 0.01
'
I
7
'
'
I
9
I
11 std dev. = 2.42 +- 0.01
'
Fig. 7.3. Istogramma di 20 000 lanci simulati di una cogpia di dadi.
I1 codice SCILAB il seguente:
per la simulazione del lancio di due dadi d allora
/ / Routine Dadi per la simulazione del lancio di due dadi // Lo spettro e' nel vettore punti / / le frequenze simulate sono nel vettore lanci cum=[O. 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1.1; punti = [2 3 4 5 6 7 8 9 10 11 121; lanci = COO 0 0 0 0 0 0 0 0 01; grand("setsdn,678543); // cambiare 678543 per una frequenza diversa for k=1:20000, xi = grand(l,l,"unf",O,l); / / ricerca dicotomica nella cumulativa ind = dsearch(xi ,cum) ; / / frequenza simulata lanci (ind)=lanci(ind)+I ; end ; xbasco; Histfreqe(lanci,punti,stat=l,errors=1); / / display end ;
roduce il risultato di Fig. 7.3, ottenuta simuLa nostra routine m a , attrauerso la relazione (7.77, possiamo lando 20 000 lane stimare il valor medio ( S ) del punteggio che si ottiene lanciando u n a coppia di dadi come: ( S ) = 7.00 =t0.03 , CL 99.7% .
-
256
C a ~ i t o l o7. 11 metodo Monte Carlo
Esercizio 7.2 :szarn&
Simulare il lanczo del
a.
Risposta. Consideriamo l'ultima colonna della Tab. 2.3 di pagina 50, che contiene proprio i valori cumulativi (7.11) relativi a1 numero di successi nel . il segmento in cui essa lancio di 10 monete. Se generiamo una variabile $ d compreso individua il numero di teste ottenute nella prova; ad esempio, il numero [ = 0.35 cade all'interno del quinto segmento:
e corrisponde percid a1 valore x = x5 = 4 teste. V i lasczamo come esercizio scrivere il faczle codice di szmulazzone, che i: molto pi3 eficiente di quello visto nel par. 7.2. ~ ~ ~ ~ ~ ~ ~ - * - ~ . a ~ y 5 T - - ~ F A ~ ~ r r F " - . IT1a:?.!-~; -l-=~ l & , ~ C 1 E B ~ Z R C E
7.5 Generazione di variabili aleatorie continue Nel caso delle variabili continue basta sfruttare ancora il teorema 3.5 per arrivare immediatamente a110 stesso tip0 di procedimento che abbiamo usato per le variabili discrete. Consideriamo una generica densitb di probabilitb p ( x ) , avente cumulativa F ( x ) e definita su un intervallo qualsiasi [a,b]. Se generiamo a caso (5 = 5) e calcoliamo il corrispondente valore:
otteniamo, in base alla relazione (3.85), una generazione casuale di X second0 la densiti p ( x ) . Per generare variabili aleatorie di densith qualsiasi basta quindi risolvere un integrale ed invertire la funzione risultante mediante un algoritmo che possiamo cosi enunciare: Algoritmo 7.2 (Trasformazioneinversa). Per generare una variabile casuale continua X , di densitd p ( ~ e) definita nell'intervallo [a,b], occorre: 0 0
generare u n numero 0 5 J 5 1; risolvere, rispetto a x , l'equazione:
Iniziate a prendere confidenza con questo procedimento, di fondamentale importanza per il metodo MC, seguendo attentamente gli esercizi che seguono. Vi consigliamo anche di riguardare l'esercizio 3.12 di pag. 99. z s m ~ ~ ~ = - ~ --------------Generare una variabile X unif'ormemente distribuita nell'intervallo [a,b].
Esercizio 7.3
=----
7.5 Generazione di variabili aleatorie continue
257
Risposta. I n questo caso dalla (3.77) si ha:
da cui il risultato: x=a+<(b-a).
Esercizio 7.4 rimw~~iffi~~=a: Generare casualmente, i R, punti distribuiti in maniera u n i f i r m e con densitb p (punti/cm2) costante.
Risposta. E conveniente individuare u n punto P qualsiasi all'interno di un cerchio mediante la coppia di coordinate polari r e q (con 0 5 r 5 R e 0 5 p 5 27r). Per trovare le densitb di probabilitci p ( p ) e q ( r ) di queste variabili, osserviamo che p ( 9 ) d q i: data dal rapport0 tra il numero di puntz contenuto nel settore infinitesimo tratteggiato i n Fig. 7.40) ed il numero totale di punti contenuti nella superficie del cerchio:
Analogamente, per q ( r ) otteniamo (vedere Fig. 7.4b):
Le corrispondenti cumulative risultano allora:
r2
h =Q(r) = i T q ( r ) d r= R2 . Applicando di nuovo l'algoritmo 7.2 otteniamo:
(7.22)
258
Capitolo 7. 11 metodo Monte Carlo
Fig. 7.4. a) Nel caso di punti uniformemente distribuiti nel cerchio, p(p) d q 6 pari a1 rapport0 t r a l'area infinitesima tratteggiata ed il numero totale di punti sulla superficie circolare. b) Come nella figura precedente, ma per q ( r ) dr
Esercizio 7.5 ~ W ~ ~ - - ~ + ~ W ~ Generare i n mod0 isotropo (con densitd costante) punti dzstribuiti su u n a superficze sferica dz raggio R. Risposta. La posizione di un generic0 punto P posto s u u n a superficie sfem'ca (che supponiamo, senza perdere i n generalitd, essere a1 centro di u n sistema di assi cartesiani) viene di solito definita (come i n Fig. 7 . 5 ~ )mediante la terna dz coordinate ( R ,cp, 6 ) con: 0
< p 5 27r
016 5 n
(cp = angolo azzmutale) (6 = angolo polare) .
(7.24)
Le formule che permettono di passare nel sistema di coordinate ortogonali X Y Z sono: x = Rsenbcoscp y = Rsendsencp (7.25) z = R C O S. ~ Poiche' R rimane costante lungo la superficie della sfera, dobbiamo determinare solo le funzzoni di generazione di 6 e cp. Consideriamo u n a superficie infinitesima dR attorno a P; la sua area 4: df2 = sen 6 d19 dp .
(7.26)
S e ora denotiamo con ntOt e dn ik numero totale dei punti sulla sfera e s u dQ, per la condizione di isotropia dobbiamo porre che la densiti dei punti sulla superficie sferica sia costante:
7.5 Generazione di variabili aleatorie continue
259
Fig. 7.5. a) 11 generic0 punto P sulla superficie sferica viene individuato mediante la terna di coordinate sferiche (R,@, 9).b) Per ottenere la stessa densiti di punti casuali sulle superfici S1 ed S2, non si deve generare uniformemente secondo 6, ma secondo (1 - cos @)oppure cos
La probabilitd p ( 0 ) dfl per u n punto qualsiasi sulla superjicie sferica di trovarsi entro dR risulta quindi:
+
e le probabilitd p(cp) dcp e q(6) d6 che u n punto si trovi nell'intervallo [p,cp dp] qualunque sia 8 e nell'intervallo [6,8+ d9] qualunque sia cp, sono date dalle rispettive densitri rnarginali, definite nella (4.11):
1 q(9) d6 = - sen9 d6 471.
27T
sen 6 dv = -d6 . 2
Le cumulative corrispondenti a queste densitd sono:
e le forrnule per la generazzone casuale di cp e 19 risultano infine:
Ricordatevi quindi la seguente considerazzone n o n proprio intuitiva: isotropia sulla superficie sferica significa unzformitri i n cp m a non i n 6 . Dalle equazioni
260
C a ~ i t o l o7. 11 metodo Monte Carlo
precedenti ricaviamo infatti che la condizione di isotropia b soddisfatta quando .$ = (1-cos 8) (oppure 6 = cos 8)' e n o n 8, t u n a variabile unzformemente distribuita. Questa proprietd pub essere compresa qualitativamente da u n punto di vista geometrico se consideriamo le due superfici tratteggiate S1 ed S2 di dd]. Fig. 7.5b), che sono rispettivamente comprese tra [&, dl dd] e [ 8 2 , $2 Generando in maniera uniforme in 8, otterremmo all'incirca lo stesso numero di punti sulle due superfici m a , essendo l'area di S2 molt0 maggiore di quella di S1, la densitci dei punti risultante sarebbe molto maggiore ai poli che all'equatore. La funzione ( 1 - cos 8 ) i. c o d interpretabile come u n a funzione "di peso7' da assegnare ad ogni valore di 8 perch6 valga la relazione (7.27).
+
+
Giudicando solo in base agli esercizi precedenti, l'algoritmo 7.2 sembrerebbe risolvere tutti i nostri problemi di generazione casuale. In realta la situazione non B cosi semplice, perch6 la funzione p(x) da integrare pub essere nota solo numericamente, oppure l'integrale che compare nel termine di sinistra della (7.15) pub non essere risolubile o dare come risultato una funzione non invertibile analiticamente. In tutti questi casi esiste un'ampia varieth di procedimenti alternativi a cui fare ricorso; nei prossimi paragrafi ne presenteremo alcuni tra quelli di pih comune impiego.
7.6 Metodo del rigetto Dopo aver costruito un rettangolo (delimitato dai vertici A, B, C, D in figura 7.6),di base ( b- a ) ed altezza h, che racchiude una densith di probabilitii p(x) (ovviamente h deve essere maggiore o uguale a1 massimo p,, assunto da p(x) in [a,b]), scegliamo in modo casuale a1 suo interno dei punti uniformemente distribuiti le cui generiche coordinate ( x i ,y i ) risultano, per la (7.18):
c o n O I h , & 'z 1. Consideriamo ora la probabilith che la variabile uniforme a entro l'intervallo infinitesimo [xi,xi dx]:
+
5 X 5 b cada
dx P{xi < X < x i f d x ) = P{xi < a + t l ( b - a ) < x i + d x ) = - (7.35) ( b - a) e la probabilit8, condizionata da xi, che una variabile uniforme 0 sia minore di p(xi):
5Y5h
7.6 Metodo del rigetto
26 1
Fig. 7.6. Generazione di variabili casuali mediante il metodo del rigetto. La densit&di probabilitk p(x) viene delimitata entro un rettangolo (oppure entro una funzione f (x)) ed un punto generato uniformemente all'interno di esso viene "accettato" se si trova nella regione definita da p ( ~ e) dall'asse delle ascisse (zona tratteggiata)
In base a1 teorema 1.20 delle probabilit& composte, la probabilitb che si verifichino entrambe le condizioni precedenti vale:
Essa coincide, a parte il fattore costante E = l/[(h(b - a)], con la probabilita che X sia compresa in (xi, xi dx). Queste semplici considerazioni sono alla base della tecnica del rigetto, che applica per tentativi la (7.37) e che possiamo cosi enunciare:
+
Algoritmo 7.3 (Rigetto elementare). Per generare una variabile casuaEe continua X , di densitb di probabilitb qualsiasi p(x) definita nell'intervallo occorre: finito [a,b] ed avente valore massimo p,,,,
+
estrarre u n punto x E [a, b]: x = a & (b - a); calcolare p(x); estrarre un punto y compreso tra 0 ed h (h P,,,): y =hh; Se y p(x) si accetta x, altrimenti lo si scarta e si rzprende il procedimento dall'inizio.
<
>
E chiaro che per applicare questo procedimento basta conoscere l'espressione analitica di p(x), mentre non B richiesta alcuna informazione sulla sua cumulativa; tale vantaggio viene perb pagato in rendimento poich6 sono necessari almeno due numeri casuali uniformi per generare una variabile di densitb P(x). La costante E , uguale alla frazione dei punti accettati rispetto alla totalit2 di quelli generati, rappresenta l'efficienza di generazione o, in maniera equivalente, l'inverso del numero medio di tentativi necessari per accettare
262
Ca~itolo7. 11 metodo Monte Carlo
un punto. Essa, come i: semplice dedurre anche in base a elementari considerazioni geometriche, dipende dal rapporto tra l'area di p(x) e quella del rettangolo ABCD di Fig. 7.6. Per ottimizzare il metodo, occorrerebbe generare i punti da accettare o scartare non pih all'interno di un rettangolo ma entro una curva f (x) che contenga p(x) e che ne segua abbastanza bene l'andamento, in mod0 tale d a massimizzare il rapporto tra le rispettive aree (vedere Fig. 7.6). Questa estensione rende il metodo del rigetto valido anche per funzioni definite in un intervallo non limitato in quanto basta trovare una funzione f (x) che sia definita nello stesso intervallo. Per rendere agevole (e soprattutto rapida) l'operazione di campionamento occorre che f (x) abbia una cumulativa F ( x ) invertibile analiticamente. In tal caso, mediante le equazioni:
si genera uniformemente un punto all'interno di f (x) che, analogamente a quanto abbiamo appena visto, deve essere poi accettato se yi 5 p(xi). Per dimostrare dal punto di vista formale questo nuovo procedimento, basta riscrivere le relazioni (7.35) e (7.36)' che ora diventano rispettivamente:
Inserendo queste due ultime relazioni nella (7.37)' otteniamo il risultato:
L'efficienza E del metodo viene ottenuta integrando la relazione precedente su tutti i valori di x:
In questo caso, la costante E, che nella (7.37) rappresentava I'inverso dell'area h ( b - a) del rettangolo ABCD, i: l'inverso dell'integrale di f (x), cioi: dell'area sottesa da questa funzione con l'asse delle ascisse. L'algoritmo precedente viene cosi generalizzato come: Algoritmo 7.4 (Rigetto ottimizzato). Per generare una uariabile aleatoria X , auente una densitd di probabilitd qualsiasi p(x) definita nell'intervallo (limitato o ilZimitato) [a,b] e delimitata entro u n a funzione f (x) avente u n a cumulativa F(x) invertibile analiticamente, occorre:
7.6 Metodo del rigetto
0
0
263
estrarre u n punto x E [a,b] distribuito second0 f(x): x = F-'(&); calcolare p(x); estrarre dalla densitci unzforme u n punto y compreso tra 0 ed f(x): Y = 5 2 f (XI; se y 5 p(x) si accetta x, altrimenti lo si scarta e si rzprende il procedimento dall'inizio.
E possibile formulare anche una terza versione del metodo del rigetto (ideata dal matematico arnericano J. Von Neumann negli anni '50) quando la funzione p(x) d a cui si intende generare la variabile X B fattorizzabile come il prodotto di due funzioni:
dove h(x) abbia una cumulativa H(x) invertibile analiticamente e g(x) sia. limitata nell'intervallo [a,b]. Possiamo pertanto scrivere:
Utilizziamo come a1 solito due numeri uniformi indipendenti [I e definiamo le condizioni:
[2
e
Le relazioni (7.39)e (7.40) risultano ora:
e quindi:
L'efficienza E viene ottenuta, anche in questo caso, integrando su tutti i valori
264
Capitolo 7. 11 metodo Monte Carlo
Se p(x) i: gih normalizzata, allora cemente: &
=
J,b h(x)g(x)dx = 1 e I'efficienza & sempli1
G J: h(x) dx
(7.51)
La (7.43) pub essere quindi riscritta come:
<
dove h*(x) Q una densith normalizzata e 0 g*(x) 5 1. La costante C, se p(x) i: normalizzata, i: l'inverso dell'efficienza e deve pertanto soddisfare alla condizione C 1. L'algoritmo diventa allora:
>
Algoritmo 7.5 (Rigetto pesato). P e r generare i valori di u n a variabile casuale X , avente u n a densitd di probabilith qualsiasi p(x) definita nell'intervallo (finito o infinito) [a,b] e fattorizzabile come p(x) = Cg(x)h(x), dove C 2 1, 0 g(x) 5 1 e dove h(x) b u n a densitci di probabilitd avente u n a cumulativa H(z) invertibile analiticamente, occorre:
<
generare 0 5 & 5 1; generare u n punto x E [a,b] distribuito second0 h(x): x = H-'(Jl); calcolare g(x); generare 0 5 52 5 1; se 5 g(x) si accetta x, altrimenti lo si scarta e si rzprende il procedimento dall'inizio. Questo algoritmo pub essere facilmente ricordato se si considera h(x) come densit& di base degli eventi e g(x) come funzione "peso": generato un punto xi = H-l(J1), esso sarh tanto pi6 importante ("pesante") quanto pic g(xi) 6 vicino ad uno. Questa condizione viene tenuta presente nella seconda generazione, quando si accetta l'evento solo se 5; 5 g(xi). Notiamo infine che se nella (7.52) la funzione peso vale g(x) = p(x)/h e h(x) = l / ( b - a) otteniamo l'algoritmo 7.3, mentre se la funzione peso vale g(x) = p(x)/h(x) abbiamo l'algoritmo 7.4.
Esercizio 7.6 Generare u n a variabile distribuita nell'intervallo [O, ~ / 2 con ] densitd di probabilita: p(z) = xsenxdx . (7.53) Risposta. I n questo caso n o n possiamo applicare il metodo di inversione della cumulativa (algoritmo 7.2) in quanto l'equazione: xsenx = senx - xcosz = J
(7.54)
n o n 2 invertibile analiticamente per x. Applichiamo per& la tecnica del rigetto utilizzando i tre procedimenti che abbiamo appena derivato.
7.6 Metodo del rigetto
>
Fig.
7.7.
265
Andarnento delle funzioni
f (g) = x e p(x) = x sen(x) nell'intervallo
lo, ~ 1 2 1 Algoritmo 7.3 Delimitiamo p(x) entro il quadrat0 di base [0,n / 2 ] ed altezza n / 2 , come in Fig. 7.7. Con riferimento alle eq. (7.34)' abbiamo ora che a = 0 ; b = .rr/2; h = ~ / 2 . La variabile richiesta viene percid simulata, con un'eficienza di estrazione di circa il40% (E = 4/.rr2), mediante le seguenti isiruzioni SCILAB:
xv = zeros (I ,n) ; for k=i:n; csi2=1; px=O. ; while (csi2>px), x = pig2 * sqrt (grand(l,l,"unf'I ,0,1)) ; px= sin(x) ; csi2= grand(l,l,"unf" ,0,i); xv(k) = x; end; end ; xbasc(); Histplote(20,xv,stat=i,errors=l);
// display
Algoritmo 7.4 Se generiamo dei punti uniformemente distribuiti all'interno della curva f (x) = x (come i n Fig. 7.7)' raddoppiamo 1'eJJicienza di generazione rispetto all'algoritmo precedente i n quanto il rapport0 tra le aree di p ( ~ )ed f (x) risulta:
Per compiere tale operazione, occorre prima normalizzare f (x), calcolandone l'area nell'intervallo [O, .rr/2]:
266
Capitolo 7. 11 metodo Monte Carlo
e poi risolvere 1 'equazione:
che d4 come risultato: (7.58)
I n questo modo abbzamo generato l'ascissa xi del generic0 punto casuale, mentre la sua ordinata viene ricavata generando unzformemente tra 0 ed f (x) = x, condizione che fornisce 17equazione y = x&. ll ciclo di generazzone casuale diventa cosi : while (csi>px), x = pig2 * sqrt(grand(l, 1, "unf" ,0,I) ) ; px= x*sin(x) ; csi= x * grand(i,l,"unf",O,l); xv(k) = x; end ;
Algoritmo 7.5 Sfruttando la (7.56), k immediato fattorizzare p(x) come: .(XI =
(g) (&) 8
x sen x
ed applicare questo procedimento ponendo C = n2/8;g(x) = sen x e h(x) = (8/n2)x. I1 ciclo da eseguire diventa: while (csi>px), x = pig2 * sqrt(grand(i,l,"unf",O,l)); px= s i n ( x ) ; csi= grand(l,l,"unf",O,I!; xv(k) = x; end ;
7.7 Metodo di ricerca lineare Quando la cumulativa F(x) non k esprimibile analiticamente, possiamo sempre calcolare numericamente l'integrale
per N valori diversi X I ,x2, . . . ,X N (con 21 = a ed per punti tale funzione (vedere Fig. 7.8):
XN
= b) e costruire cosi
267
7.7 Metodo di ricerca lineare
Fig. 7.8. Generazione di variabili casuali mediate il metodo di ricerca lineare. Si costruisce per punti la funzione cumulativa F ( x ) per riportarsi in un caso analog0 a quello della generazione di una variabile discreta
In questo mod0 ci siamo riportati a1 caso gig discusso nel par. 7.4, relativo alla generazione di una variabile discreta. Infatti, attraverso la relazione:
siamo subito in grado di determinare il particolare sottointervallo [xj-l, zj] in cui Q compresa la variabile aleatoria che dobbiamo generare. Se supponiamo che F(x) vari linearmente entro ogni sottointervallo, interpolando linearmente tra i due estremi xj-1 ed xj del sottointervallo prescelto
Dato che la cumulativa F(x) ha, per costruzione, un andamento monotbno crescente ed Q pertanto una funzione regolare, l'approssimazione (7.63) dA in generale un risultato molto buono. Tutte queste considerazioni sono riassunte nel seguente procedimento: Algoritmo -7.6 (Ricerca lineare). Per generare una variabile casuale X , avente una densitd di probabilztd qualsiasi p(x) definita nell'zntervallo Eimitato o illimitato [a,b] occorre:
calcolare numericamente la cumulativa per N punti = b):
XN
XI, 2 2 ,
. . .,X N
(XI
= a;
268
Caoitolo 7. 11 metodo Monte Carlo
<< <
0
generare un numero 0 1; determinare l'indice j tale che: FjFl < E calcolare x medzante la relazzone (7.63).
5 Fj;
7.8 Metodi particolari di generazione casuale In alcuni casi nessuno degli algoritmi finora discussi riesce a generare in mod0 semplice o sufficientemente rapido valori di variabili aleatorie. Fortunatarnente, esistono ormai da molto tempo diversi algoritmi consolidati per risolvere "ad hoc" e in mod0 efficiente molti problemi particolari di generazione casuale. Nel seguito vi mostreremo, come esempio, solo alcuni dei metodi utilizzati per generare variabili da densitb gaussiane e poissoniane mentre, per avere una rassegna completa di tutti (o quasi) i differenti algoritmi di generazione, vi consigliamo di consultare le referenze [38], [54], [59] e [71]. di SCILAB permette di generare Ricordiamo anche che la funzione variabili aleatorie distribuite second0 le densitb piu comuni.
,+dl
a) Generazione di variabili gaussiane. Come abbiamo visto nel par. 3.6, per ottenere una densiti g(x), avente p e cr qualsiasi, basta ottenere un valore standard
dalla densitb gaussiana standard (avente p = 0 e a = 1):
ed effettuare la trasformazione inversa della (7.65):
A questo punto non siamo per6 in grado di esprimere analiticamente la cumulativa di g ( t ) e, di conseguenza, utilizzare l'algoritmo 7.2. Dato I'intervallo infinito di variazione di t, non B utilizzabile nemmeno l'algoritmo 7.3, mentre sono invece applicabili gli algoritmi 7.4 (vedere esercizio 7.5), 7.5 e 7.6 (vedere, ad esempio, [78]). Ad essi vengono tuttavia di solito preferiti altri metodi, pih semplici od efficienti. Uno di questi, basato sul teorema Limite Centrale, utilizza la somma di variabili aleatorie ed B descritto nel problema 7.7. Potete anche vedere le routine sul nostro sito. iene pih frequentemente usato per la generazione gaussiana it quello ideato alla fine degli anni '50 dai matematici americani G.E.P. Box e M.E. Muller, i quali hanno mostrato che, contrariamente
7.8 Metodi particolari di generazione casuale
269
quanto si potrebbe supporre intuitivamente, B piil facile generare simultaneamente non una ma due variabili gaussiane indipendenti. Consideriamo infatti la gaussiana standard bidimensionale in coordinate polari (r, 9 ) dell'eq. (4.79):
e calcoliamo le funzioni cumulative del modulo e dell'angolo del vettore polare:
A questo punto 6 facile immaginare il motivo della scelta compiuta: sia p(r) che q(p) hanno delle cumulative che sono invertibili analiticamente. Applicando l'algoritmo 7.2 otteniamo facilmente:
Passando alle coordinate cartesiane
(21, z2) :
z1 = rcoscp = d q c o s ( 2 n t 2 ) Z2 = r sen p = sen(2;rtz) ,
Ja
(7.72)
otteniamo i valori di una coppia di variabili gaussiane standard indipendenti partendo da due numeri casuali e &,. Per rendere piil veloce l'algoritmo si pub utilizzare un ingegnoso espediente, descritto in [54]: se generiamo casualmente un punto di coordinate cartesiane (Q ,u2) all'interno del cerchio unitario centrato sull'origine, la somma s = v: + u; k un numero casuale uniformemente compreso tra 0 ed 1 (vi lasciamo come esercizio la semplice dimostrazione di questa affermazione) che possiamo usare a1 posto di mentre l'angolo definito da questo punto e dall'asse delle ascisse rappresenta l'angolo casuale 2x12. In tal mod0 si evita il calcolo diretto delle funzioni trigonometriche poichk il coseno ed il sen0 che compaiono nelle eq. (7.72) vengono calcolati attraverso i rapporti vl/& e vz/&. Per ottenere le coordinate (vl, 212) si ha lo svantaggio di dover utilizzare la tecnica del rigetto, poichi! occorre prima generare due numeri vl, v2 uniformemente distribuiti nell'intervallo [-I, 11 e poi accettare solo le coppie che soddisfano la condizione: u; + vg 5 1. Tuttavia l'efficienza di questa operazione (E 78%' pari a1 rapport0 tra cerchio unitario ed il quadrat0 ad esso circoscritto) F: abbastanza elevata e quest'ultimo procedimento i: risultato, sul calcolatore da noi utilizzato, all'incirca un 20% piii veloce del metodo "classico" descritto dalle eqq. (7.72). L'algoritmo di generazione gaussiana pub essere quindi cosi schematizzato:
270
C a ~ i t o l o7. 11 metodo Monte Carlo
I
Fig. 7.9. Istogramma di un campione di 20 000 numeri casuali generati con la routine Gauss2. L a curva continua rappresenta la densit& gaussiana standard.
Algoritmo 7.7 (Generazione gaussiana). Per generare due variabili
gaussiane normalizzate indipendenti Z1, Z2 occorre: generare due numeri casuali indipendenti 0 5 6 , t2 5 I; definire vl = 2& - 1; 212 = 2Q - 1 e calcolare la s o m m a s = se s > 1 ~ i p e t e r eil procedimento dull'inizio; se s 1 generare gli eventi {Z1 = z l ) , {Z2.= 22) come:
1 12 + v;;
<
1a
= w
J--2 logs s
Questo algoritmo Q realizzato nella routine Gauss2,qui riportata, che dB come risultato l'istogramma di Fig. 7.9. // // // // //
routine Gauss2: generazione di due variabili gaussiane col metodo di Box & Muller iset e g2 sono variabili globali se iset = 1 si utilizza la variabile globale g2 precedentemente calcolata
global iset g2; iset=O; function x = Gauss2(mu, sigma) s = 2; if (iset==O) then while (s>l), vl = 2. * grand(l,l,"unf" ,O,l) v2 = 2. * grand(l,l,"unf" ,O,i) s = vl*vi + v2*v2; end 1s = sqrt (-2.*log(s) /s) ; gi = vl * 1s; g2 = v2 * 1s;
-
I; 1;
7.8 Metodi particolari di generazione casuale
271
iset=i ; else isets0; gl=g2 ; end; x = mu + sigma*gl endfunction;
/ / esempio di chiamata con grafico dei risultati n=20000; s=40; // si generano 20000 numeri in 40 canali g = zeros(1,n); for k=l:n, g(k) = Gauss2(0,1); end; dx= (max(g)-min (g)) /s ; x= [min(g) +O. 5*dx: (max (g)-min(g) ) /s :max( g ) -0.5*dx] ; xbasc0 ; plot(x,n*dx*exp(-x-2/2)/sqrt(2*3.14159265)); // curva gaussiana Histplote(s,g,stat=i,errors=l); / / istogramma simulato end ;
Generazione di variabili poissoniane. Ogni process0 stocastico in cui vengono generate, con probabilit8 X costante nel tempo, variabili discrete e indipendenti 4 caratterizzato d a due proprietii fondamentali: 0 l'intervallo di tempo tra due eventi successivi i! una variabile aleatoria di densit& esponenziale; 0 il numero di eventi che cadono entro un certo intervallo di tempo di ampiezza At prefissata 1! una variabile poissoniana di media p = Ant. Nell'esercizio 3.12 abbiamo visto che il tempo r tra due eventi stocastici successivi viene simulato attraverso l'equazione
Per ricavare il numero x di eventi che cadono entro At = 1 basta quindi generare una sequenza TO,r~, . . . ,T, ,T,+I di intervalli temporali (con 1-0 = 0) fino a quando & verificata la disuguaglianza:
Tenendo conto della (7.74) possiarno riscrivere questa disuguaglianza come:
oppure, eliminando i logaritmi:
272
Capitolo 7. 11 metodo Monte Carlo
In conclusione abbiamo dedotto il seguente: Algoritmo 7.8 (Generazione poissoniana). P e r generare u n a variabile poissoniana X di media p occorre: definire k = 0; s = 1; generare un numero casuale 0 5 & 5 1;
porres=s&; se s < e-'l porre x = 5; altrimenti porre k = k procedimento dal second0 passo.
+1
e ripetere il
E molto facile dedurre che il tempo di calcolo di questo algoritmo aumenta proporzionalmente a p; per tale motivo, quando p B abbastanza grande (p 30) conviene senz'altro sfruttare il fatto che, come rilevato nel par. 3.3, la poissoniana viene molto ben approssimata da una gaussiana avente media e varianza p. Data una variabile gaussiana normalizzata 2, possiamo ottenere un'altra variabile gaussiana G con le caratteristiche sopra indicate attraverso la relazione:
>
Per ottenere i valori di X , che B una variabile intera 2 0, dobbiamo perb arrotondare G, variabile reale cornpresa nell'iritervallo (-m, +m), a1 piii vicino intero non negativo:
X
{
= max 0, [G
+ 0.51) = max { 0Jp + Z,/ji + 0.51) .
(7.79)
dato come ingress0 p = mu, genera una variabile poisl'algoritmo 7.8 e, per p 30, la relazione (7.79) e la subroutine che abbiamo appena presentato:
>
// //
routine Poiss: generazione del numero di eventi osservati x da una poissoniana di media mu
function x = Poiss(mu) if (mu<30) then s=l; x=o; while (s>exp(-mu)), s = s*grand(l,l,"unf",O,l); x= x-1; if (xc0) then x=O; end; else / / approssimazione gaussiana x = int (Gauss2(mu,sqrt (mu)) + 0.5) ; if (x<0) then x=0; end; end ; endfunction;
x=x+l;
end;
Un utile esercizio d a fare con la routine 6 la verifica della Tab. 6.2 del par. 6.7. Ponendo p = 2.3 e gener pioni sempre pi^ grandi, osserverete che il numero di volte in cui vi sono zero eventi estratti tendera a1 lo%, che ponendo ,u = 4.74 il numero di successi x 5 1 tender& a1 5% e cosi esta ed altre prove potete copiare dal nostro sit0 la routin che elabora istogrammi poissoniani.
7.9 Studio Monte Carlo di distribozioni
273
Per simulare variabili aleatorie aventi distribuzioni qui non considerate, basta ricorrere alle definizioni ed ai teoremi del calcolo delle probabilith; ad esempio, per simulare una variabile Q ( v ) X 2 ( u )basta ricordare il teorema 3.3 e sommare i quadrati di v variabili gaussiane standard gaussiane. Seguendo le definizioni standard si ottengono senz'altro algoritmi corretti, anche se non sempre particolarmente rapidi ed efficienti.
7.9 Studio Monte Carlo di distribuzioni Una delle applicazioni pib interessanti e spettacolari del metodo MC B probabilmente la determinazione di distribuzioni statistiche comunque complicate. Come abbiamo visto nel cap. 5, lo studio delle distribuzioni di variabili aleatorie funzioni di altre variabili aleatorie richiede tecniche matematiche alquanto laboriose, tanto che la soluzione analitica, nella maggior parte dei casi, pub essere alla portata solo di abili matematici o non essere nemmeno ottenibile in pratica. I1 metodo Monte Carlo ha rivoluzionato questo ram0 della statistica applicata, in quanto consente di ottencre, con procedure elementari, la soluzione richiesta, anche se nella forma approssimata di istogrammi e non nella forma analitica corretta. Da117istogrammasimulato si possono poi estrarre i parametri che servono (come media, varianza, area delle code) con errore statistic0 trascurabile rispetto a1 problema che si sta trattando. La procedura B schematizzata in Fig. 7.10: si generano le variabili aleatorie (XI, X z , X3, . . .) second0 le rispettive densita e si calcola, ad ogni estrazione, la variabile Z = f (XI,Xz, X3, . . .); alla fine del ciclo si presenta il risultato come istogramma della variabile 2.I1 passo di istogrammazione pub essere variato a piacere e reso congruo col problema in esame. Dall'istogramma simulato si calcolano infine le quantita statistiche fondamentali che caratterizzano la distribuzione. Si pub anche eseguire il best fit dell'istogramma (con i metodi che vi illustreremo nel par. 9.7) utilizzando funzioni empiriche come esponenziali, polinomi, somme di gaussiane, ottenendo cosi una forma analitica, indipendente dal passo dell'istogramma, che interpola la so1uzione Vera con il grado di accuratezza desiderato. Se si dispone di un calcolatore, il metodo B talmente semplice da poter essere illustrato in modo completo con un facile esempio. Si supponga di voler trovare la distribuzione della variabile aleatoria sen X Z = --senY ' dove X e Y sono angoli gaussiani di media e deviazione standard pari a:
Utilizzando le formule approssimate (5.63, 5.66) del par. 5.4, possiamo stimare media e varianza della distribuzione incognita come:
274
Capitolo 7. 11 metodo Monte Carlo
P Fig. 7.10. Determinazione di una distribuzione con il metodo MC
sen 8,
(z)=
1
=
[ sen ( ( 8,
) d+(
x
= 1.52
, 1/2
)
2
8v
2
]
=o-n1,
180
(7.83) dove la varianza B stata trasformata in radianti, dato che z k un numero reale espresso nel sistema decimale. Come illustrato nel par. 5.4, queste due formule sono approssimate: la (7.82) vale solo se la relazione tra Z e (X,Y) i: lineare, mentre la (7.83) richiede sia la validith della dipendenza lineaxe sia la presenza di errori percentuali piccoli. Poich6 queste condizioni sono violate in mod0 drastic0 dalle (7.80, 7.81), in questo caso non siamo affatto certi n6 della bont& delle (7.82, 7.83) n4 del tip0 di distribuzione della variabile 2. Anzi, le nostre conoscenze di calcolo delle probabilita ci autorizzano a supporre una distribuzione non gaussiana per 2.Vediamo come la simulazione sia in grado di risolvere agevolmente tutti questi problemi. abbiamo generato, con la routine Utilizzando la routin siane (7.81) e ne abbiamo fatto il qui riportata, 20 000 varia dei seni come nella (7.80): il risultato 5 l'istogramma di Fig. 7.11a). // //
routine Rifraz: simulazione della misura di un indice di rifrazione
n=20000 ; g = zeros(1,n) ; rad=57.296; // conversione gradi radianti for k=l:n, ai=20/rad; a2=3/rad; a3=13/rad; t=100; // valori in radianti while (t>4.5), // esclusione dei valori piu' alti (trascurabili) t = sin(grand(1,l,'nor~,al,a2))/sin(grand(1,1,~nor',a3,a2)); end ; g(k) = t;
7.9 Studio Monte Carlo di distribuzioni
275
Fig. 7.11. Istogramma di 20 000 variabili Z della (7.80), dove X e Y sono variabili gaussiane date a) dalle (7.81); b) dalla (7.84)
end ; x b a s c 0 ; Histplote(40,g,stat=l,errors=l); end;
Come si vede, i parametri p e
0,stimati
// istogramma simulato
dall'istogramma:
hanno valori abbastanza differenti dalle predizioni delle (7.82, 7.83). L'errore statistic0 su queste due quantit8, stimato dalle formule fondamentali di Tab. 6.3 di pagina 202, risulta dell'ordine di 0.002-0.003 e pub essere pertanto trascurato nelle considerazioni che seguono. Esso comunque pub essere reso piccolo a piacere aumentando il numero di variabili simulate. La simulazione rivela anche che la forma della densit& si dzscosta in modo sensibile dalla curua normale o gaussiana. Dall'istogramma risulta che gli eventi nell'intervallo
sono pari a 14895, corrispondenti a una percentuale del 75%. Come si vede, a parte la non conoscenza della forma analitica esatta della densit&istograrnmata in Fig. 7.lla), tutte le altre informazioni sono facilment e accessibili con la simulazione. E anche interessante diminuire la dispersione di X e Y e vedere quello che succede. L'intuizione ci dice che dovremmo eliminare la coda lunga della densit&, che i: dovuta alla non linearit& della funzione seno. Operiamo allora come in precedenza, sostituendo perb alle (7.81) le condizioni:
276
Capitolo 7. 11 rnetodo Monte Carlo
La (7.82) rimane invariata, mentre la (7.83) predice in questo caso il valore:
I1 risultato della simulazione 6 mostrato in Fig. 7.11b). Ora la densit2 B diventata "quasi" normale, con media e deviazione standard praticamente coincidenti con le previsioni delle (7.82, 7.83). Nell'intervallo m f s si trovano 13 723 eventi, pari al68.6%, un valore in pieno accord0 con la legge 3 ~ .
7.10 Determinazione degli intervalli di confidenza Le tecniche MC hanno un ruolo fondamentale anche nella determinazione degli intervalli di confidenza, perch6 consentono di risolvere in mod0 approssimato gli integrali (6.7) di pagina 176 anche quando 6 complicato o impossibile trovare la forma funzionale della densit2 (2; 8) , dove Z = f (XI, Xz, . . .) & una variabile aleatoria funzione di altre variabili primarie di distribuzione nota. I1 parametro (o i parametri) 6' sono in genere relativi alle distribuzioni delle variabili XI, X2, . . .. Supponendo di dover effettuare la stima di un parametro I3 E O, il metodo segue la definizione 6.1: se z,i, B il valore misurato (spesso uno stimatore di 8 ricavato da un campione di dimensione n ) , per ogni valore di 8 si deve ottenere, con i metodi descritti nel paragrafo precedente, un istogramma rappresentativo della densit&pz(z; 8). Le condizioni espresse dagli integrali (6.7) vengono approssimate contando, per ogni istogramma generato, la frazione f (frequenza) di eventi per cui z z,i,. Gli estremi dell'intervallo di confidenza [el, &] si trovano quando
<
Se il parametro 6 continuo, si considera una griglia discreta di valori di passo A6' tale da consentire la precisione desiderata. Nella (7.85) l'uguaglianza i: stata sostituita col simbolo -., che va inteso come circa uguale entro l'errore statzstzco. Se vogliamo fissare la precisione attraverso la deviazione standard, dalla (6.18) segue che dobbiamo simulare un numero n di osservazioni tale che gli errori
assumano il valore desiderato. Supponiamo ad esempio di voler determinare l'intervallo standard simmetrico con C L = 0.683; in questo cmo, come sappiamo, (1- CL)/2 = cl = c2 = 0.158. Se generiamo un istogramma con
7.10 Determinazione degli intervalli di confidenza
277
100 000 eventi, nelle code d a ricercare ve ne saranno circa 15 800 e dalla (7.86) risulta che l'errore statistic0 da associare ad f vale circa 0.001. Quando la densita p z ( z , 0) dipende da un insieme di parametri 0 E O , si costruisce una griglia multidimensionale per tutti i parametri e si registrano gli insiemi di valori per i quali, come nelle (7.85), vengono soddisfatti i livelli corrispondenti agli insiemi di confidenza scelti. Se sono coinvolte densitA congiunte p Z ( z ; 8),le regioni di confidenza ed i relativi livelli possono essere molto complicati e variano a seconda del problema in esame [48]. I1 caso piil semplice si ha quando le variabili sono gaussiane ed i parametri 0 sono i valori medi veri incogniti. Se zi,is e zi ,im sono rispettivamente i valori misurati e simulati e Bi i valori di griglia dei parametri, si includono nell'insieme di confidenza di livello CL i punti 0 della griglia multidimensionale per i quali sia approssimativamente CL la frequenza relativa f con la quale si i. verificata la condizione
<
Spesso il CL richiesto corrisponde alla regione Ax2 1, i cui estremi definiscono, come rnostrato nella Fig. 4.8 di pagina 140, le'deviazioni standard di ogni variabile. Questa tecnica si chiama, come vedremo piti avanti nel cap. 11, propagazione degli errori. I1 metodo basato sulle (7.85-7.87), detto metodo della griglia, i: del tutto generale, ma risulta spesso laborioso. In alcuni casi i: per6 possibile, se la densita di Z i, invariante rispetto ai parametri 0, procedere in mod0 molto pib facile e diretto. Ci rifacciamo qui ai risultati del par. 6.2 di pagina 173. Se vale la (6.10), la seconda delle (7.85) diviene
equazione che, quando F i, invertibile, viene immediatamente risolta rispetto a O2 ponendo (7.88) 82 = ~ - ' ( 1- ~ 2 zmiS) ; . Analogamente, si ottiene per 81:
In altre parole, si tratta di trovare i quantili di ordine 1-cz e della distribuzione F con parametro z,i,. Quando non i: possibile procedere all'inversione analitica di F, Q1 e 0 2 sono facilmente ricavabili simulando un istogramma di questa distribuzione. Nel caso gaussiano valgono le (6.9, 6.10) di pagina 177 e quindi, se Z ha media 8 (ad esempio B lo stimatore della media campionaria) la (6.10) diventa
278
Ca~itolo7. 11 rnetodo Monte Carlo Fig. 7.12. Ricerca dell'intervallo di confidenza, quando vale la (6.10), nel caso di simmetria ed invarianza di forma della densitb rispetto
gfigli questo ai trova si della parametri griglia caso il valore p(curva considerati ) . Col di in pmetodo per alto), (in il
P(X;P,~)
-
A Pi
bootstrap
X:
- S..'
p(1-L; X, s)
-'I
---- -*
1-L
x
quale l'area ombreggiata ha il valore consistente col C L assegnato (in genere 1- C L o (1 - CL)/2). Col metodo bootstrap (curva in bas-
ma parametro so), dalla si ottiene densit& un che istogramha micome il valore surato x e si trova l'intervallo di confidenza di p come se fosse un intervallo di probabilitb. L'area delle code ombreggiate i: uguale
dove F rappresenta la funzione di ripartizione della gaussiana di media nulla (la varianza non interessa), simmetrica rispetto allo zero. Se CL = 1 - a! e el = c2 = a/2, la (7.88) e la (7.89) danno
e x = zmis).In sostanza, per (Si guardi anche la Fig. 7.12, con p = risolvere il problema con il Monte Carlo, ci si centra sul valore misurato e si trova la localizzazione di 02 dalla coda della densitii, simulando un campione dalla densita gaussiana g(z; zmi,) e valutando 82 attraverso l'istogramma. Si procede in mod0 simile per Q1. Questa tecnica [13, 25, 681, che in pratica sostituisce ai parametri veri quelli stimati, fa parte di una classe di algoritmi Monte Carlo detti di bootstrap1, di cui parleremo piti diffusamente nel prossimo paragrafo Applichiamo ora questi principi generali a1 caso concreto della (7.80). Se le (7.81) rappresentano una misura, alle quantitk vere 6 , e By vanno SOstituiti i valori sperimentali t, e t,. Supporremo che la quantita z nmi, = (sent,/senty) = 1.52 sia la misura dell'indice di rifrazione n ottenuto con un goniometro ottico misurando le direzioni dei raggi luminosi con errori di f3' oppure di 60.5'. I1 risultato, come avviene in genere per le misure di
=
In italiano si dovrebbe dire, ma B poco usato, algoritmi a laccio.
7.10 Determinazione degli intervalli di confidenza
6
indice di rifrazione n
279
Fig. 7.13. Carnpioni simulati dalla densit& p(n; 0,, 0,) per i valori 8, e By corrispondenti agli estremi dell'intervallo (7.90). La linea & il valore misurato
laboratorio, va dato ad un livello di confidenza del 68.3% centrato sul valore misurato n,i, = 1.52. Consideriamo, per cominciare, il caso di errori grandi ( a = 3'). Per applicare il metodo della griglia, essendo gli angoli misurati delle variabili gaussiane indipendenti, occorre calcolare la distribuzione 'di sen x/ sen y dove X e Y sono variabili gaussiane di media 8, e 8, e deviazione standard pari all'errore di misura di 3O, e determinare i due indici di rifrazione per i quali il valore misurato n = 1.52 i! rispettivamente il quantile di valore a! e 1 - a: con a! = 0.1585. I1 calcolo va eseg tti i possibili valori di 8, e By. I1 risultato, ottenuto con la routin e mostrato anche in Fig. 7.13, fornisce l'intervallo:
Applichiarno ora il metodo bootstrap ed utilizziamo le (7.88, 7.89) sostituendo ai valori 0, e 9, delle (7.81) i valori t, e t, degli angoli misurati ed accumulando un istogramma di Z = sen X / senY generando X e Y second0 le densitd normali g(x; t,, a,) e g(y; t,, u,) . Questo istogramma non 6 altro che quello di Fig. 7.11a), il quale va ora considerato come proveniente da una popolazione di densit2 p(n; t,, t,). Con 100000 eventi simulati, si sono ottenuti con la routine 15 850 eventi negli intervalli (-oo,1.17] e [2.03, foo), cioi:
che i! un risultato differente rispetto a1 risultato corretto della (7.90). La ragione della discrepanza e la forte asimmetria della distribuzione, come si vede dalla Fig. 7.13. Nel caso rappresentato in Fig.7.11 b) e relativo ad un errore di fO.S0, la densita delle misure ha una forma all'incirca invariante entro i valori degli angoli considerati e l'intervallo di confidenza diventa simmetrico rispetto a1
280
Capitolo 7. 11 metodo Monte Carlo
valore misurato. In questo caso, entrambi i metodi discussi precedentemente, bootstrap e griglia, danno lo stesso risultato:
dove l'errore degli estremi, che B di qualche per mille, non 6 riportato. La simulazione mostra che, per ottenere una misura affidabile, 6 opprtuno avere errori di misura dell'ordine del mezzo grado. Questa i: peraltro l'accuratezza tipica dei goniometri ottici ordinari. Nel par. 11.6 applicheremo le tecniche di simulazione a1 caso estremamente importante della propagazione degli errori di misura.
7.11 Bootstrap non parametrico Nel paragrafo precedente abbiamo visto come ricavare numericamente le proprietA di una variabile aleatoria generandone un campione casuale mediante un modello parametrico della sua densit2 di probabilitb. Qliesto metodo, detto bootstrap, ii in realtb ancora pib generale e si pub spesso applicare anche quando n o n si h a alcuna jnformazione sulla densiti di probabiliti della variabile aleatoria da esaminare [25, 27, 29, 30, 31, 661. Riprendiamo, ad esempio, l'esercizio 6.16 nel quale abbiamo determinato un intervallo di confidenza per il coefficiente di correlazione vero delle coppie dati di altezza/torace riportati nella Tab. 6.6, supponendo che la densit2 di probabilit& bivariata p ( x , y j delle coppie di dati fosse data dalla funzione gaussiana bidimensionale. Cerchiamo ora di determinare un intervallo di confidenza per il coefficiente di correlazione torace/altezza senza supporre una densit2 gaussiana per queste due variabili e non utilizzando pertanto la trasformazione di Fisher. Con il metodo bootstrap, si assume che il campione ottenuto rappresenti la Vera densitb di probabilith dei dati da cui poi vengono estratti dei campioni casuali per la stima dei parametri da determinare. Un numero pari a n = 1665 coppie correlate (si,ti) di valori torace/altezza viene quindi estratto (con reimmissione) dal campione sperimentale fino ad ottenere un nuovo campione "virtuale" di 1665 elementi. Alcuni dei dati originali cosi saranno presenti pih di una volta all'interno di questo campione simulato, mentre alcuni altri non saranno considerati. Da esso, con le stesse operazioni dell'esericizio 6.16 ricaviamo tramite la (6.134) un valore T - : ~ . Ripetendo per un numero sufficientemente grande di volte questa operazione otteniamo un campione abbastanza numeroso di coefficienti r,*, da cui ricavare l'intervallo di confidenza per il coefficiente di correlazione. uto con 10000 diversi valori simulati di r:t con la k mostrato nella Fig. 7.14. Da esso abbiamo ricavato l'intervallo di confidenza
r:t E [0.221,0.309] = 0.266?$::3,
(CL
-- 95.4%)
7.11 Bootstra~non ~ararnetrico
281
Fig. 7.14. Istogramma di boostrap ottenuto con 10 000 campioni per rit.
che ii esattamente coincidente con quello trovato nell'esercizio 6.16! L'essenza del metodo si pub sintetizzare come segue: attraverso Z'estrazione con reimmissione, generare da u n unico campione reale u n insieme di campioni jittiaz di pari dimenszone e determinare da questo insieme l'intervallo di conjidenza per il parametro desiderata. La generazione di campioni fittizi o artificiali a partire dal campione reale (e aventi la stessa dimensione n) corrisponde a sostituire la densita di probabilit& incognita p(x) con una distribuzione di pfobabilith discreta pE(x) ad n componenti, la quale assegna ad ogni valore osservato la stessa probabilitB l l n . Dal campione fittizio (x;, . . . ,x i ) , generato da questa distribuzione, si ricava un valore t*; questa operazione, ripetuta per r volte, fornisce un campione di valori t;,t;,. . . ,t: da cui si stimano le proprietB della statistica T = t ( X 1 , .. . ,X,) che si vuole utilizzare per stimare il parametro 9. Consideriamo ora la funzione cumulativa F ' ( x ) di pA(x) che assume i valori (0,l l n , 2/n, . . . ,n/n) e che, in maniera formale, viene scritta come:
dove con il simbolo N ( A ) abbiamo denotato quante volte si verifica l'evento A. Dalla (7.92) i! facile convincersi che F* segue una distribuzione binomiale di probabilita p = F ( x ) ,dove F i:la cumulativa della densita Vera ma incognita p(x). Da questa osservazione segue direttamente che:
(z)] = 1{ F(x) [ I Var [F,* n Dal teorema Limite Centrale e dalla legge dei grandi numeri i. facile ricavare che, per n grande, F,*(x) tende ad avere distribuzione gaussiana e ad approssimare sempre meglio la Vera cumulativa F ( x ) . Da questa sempli-
282
Capitolo 7. 11 metodo Monte Carlo
ce propriet& dipende la bonth del metodo bootstrap, che a prima vista pub apparire quasi mirac~losa!~ Poichi, nel bootstrap si sostituisce, come abbiamo visto, F,*(x)a F ( x ) ,gli errori di questo tip0 di approssimazione sono dovuti alla differenza (t" - 0) tra il valore vero 0 del parametro e la su stima statistica corretta t^ ed alla differenza (t^ - I?), dove I? B ricavato dal campione simulato di bootstrap. Quest'ultima differenza B dovuta sia alle dimensioni finite del campione sperimentale e di quelli di bootstrap (rispettivamente n ed r ) sia a1 particolare stimatore T utilizzato. Ad esempio, se T non B una funzione lineare, non i:di solito vero che asintoticamente I? = t^ e questo porta ad un errore sistematico (bias) nella stima bootstrap. Mentre B possibile ridurre l'errore statistic0 aumentando il numero r dei campioni bootstrap (mentre n B di solito fissato), piii difficile risulta stimare quanto B importante l'errore sistematico per il particolare caso considerato. Occorrerebbe quindi trovare stimatori che siano il pih possibile pivotali (che abbiano cio& la stessa distribuzione sia rispetto a F,*(x) che a F ( x ) ) ,ma non sempre questo B fattibile. In [25] trovate un elenco dei vari metodi che vengono applicati con successo in questi casi. In generale, tuttavia, il metodo boostrap funziona abbastanza bene per diverse classi di stimatori anche quando non si hanno valori molto elevati sia di r che di n, come capita spesso nei casi reali. Supponiamo, ad esempio, di conoscere statura e perimetro toracico solo ' per un gruppo casuale di n = 20 soldati estratto a caso dal c pleto di Tab. 6.6. Da questo campione, ottenuto con la routin riportato nella parte a) di Fig. 7.15, abbiamo ricavato l'inter za di Fisher per il coefficiente di correlazione vero p ripetendo il procedimento dell'esercizio 6.16: +0.200
p E [0.06,0.507] = 0.307- 0.247 ,
CL = 68% .
(7.93)
Data la ridotta numerositA del campione, questa stima B necessariamente pib rozza di quella ricavata in precedenza dato che, per la (6.137), l'ampiezza degli intervalli di confidenza varia proporzionalmente a IX I/-. Supponiamo ora di non conoscere la teoria di Fisher, che ha portato alla (7.93). Possiamo proce e applicando il metodo boostrap. Utilizzando ancora la routine si possono generare 1000 replicazioni del calcolare l'intervallo di stima di r*. Se campione, ognuna con utilizzate la routine, noterete che i due intervalli, quello di Fisher e quello ottenuto con i mille campioni bootstrap, sono molto simili. Per verificare la stabilith del metodo, abbiamo ripetuto 1000 volte questa procedura ricavando il valor medio (r*) e gli estremi di minimo (r&) e massimo (?-,*.,,) dell'intervallo di confidenza con CL = 6 8 % ~Abbiamo ~. riportato In effetti, a causa della sua "oltraggiosa" semplicitb, il metodo, dopo i famosi lavori di Efron [29, 301, ha impiegato un certo tempo ad af'iermarsi tra gli statistici. Per ridurre i tempi di calcolo, qui abbiamo utilizzato un codice FORTRAN
7.12 Problerni
283
Fig. 7.15. a) Istogramma bidimensionale statura/torace per un sottogruppo di 20 soldati estratto dalla Tab. 6.6. b) istogramma con media e limiti dell'intervallo di confidenza a1 68% dei campioni di bootstrap
i diversi valori via via ottenuti nella parte b) di Fig. 7.15. Nonostante il basso valore n = 20 che abbiamo scelto, i valori medi delle quantita in istogramma differiscono solo di qualche % dai corrispondenti valori della (7.93), approssirnazione questa senz'altro accettabile per quasi tutti i problemi concreti. Inoltre, gia con r = 1000, la dispersione di (r*), r&s e r;.,4 b abbastanza contenuta; la maggior parte dei campioni bootstrap fornisce valori per l'intervallo di confidenza uguali, entro il 5%, a quelli della (7.93); solo una piccola percentuale dei campioni si discosta (anche se di poco) di oltre il 10%. Generalizzando, possiamo dire che, tutte le volte che non sono note le proprietb statistiche di una certa quantith che si vuole stimare da un campione, l'intervallo di confidenza pud essere stimato col metodo bootstrap. Va tuttavia tenuto presente che non si pub sapere in anticipo quali siano i "cattivi" carnpioni bootstrap, quelli ciob che portano ad un grande errore sistematico, e questa rimane in definitiva la limitazione principale del procedimento. Questi problemi di applicabilitb sono discussi in dettaglio in PSI.
7.12 Problemi 7.1. Sirnulare il comportamento di un giocatore che punta sui numeri del lotto che ritardano da piti di 90 settimane su una certa ruota. Questa strategia aumenta le probabilita di vincita? 7.2. Risolvere con un codice di simulazione il problema di Monty 1.1 di pag. 33.
284
Capitolo 7. 11 metodo Monte Carlo
7.3. Risolvere con un codice di simulazione il problema dell'incontro 1.7 di pag. 34. 7.4. Scrivere un codice di simulazione che calcoli la probabilitb che la distanza tra due punti estratti a caso in mod0 uniforme all'interno di un cerchio sia maggiore del raggio. 7.5. Generare, mediante l'algoritmo 7.3, variabili casuali x distribuite second0 la densitb di probabilita semi-gaussiana:
utilizzando la funzione f (x) = ke-". Trovare il valore di k che db la massima efficienza di generazione. Con il valore di x cosi ottenuto, generare una variabile N(0,l). 7.6. Determinare, con un codice di simulazione, i livelli di confidenza dell'eq. (6.21) di pag. 181 nel caso n = 5, p = 0.25 e t = 1,2,3.
z
7.7. Utilizzando il teorema Limite Centrale trovare un algoritmo di generazione di variabili gaussiane standard. 7.8. Generare una coppia d i variabili normali standard X e Y aventi coefficiente di correlazione lineare p. 7.9. Come si pub utilizzare l'algoritmo del rigetto per estrarrc a caso uniformemente dei punti all'interno di un cerchio di raggio R? . 7.10. Generare l'istogramma della variabile Z = Y/X dove X e Y sono variabili gaussiane standard. 7.11. In una popolazione la statura 6 una variabile gaussiana pari a (X)zk a [ X ]= 1754~8cm per gli uomini e (Y) &cr[Y] = l 6 5 f 6 cm per le donne. Sapendo che tra la statura del marito e della moglie esiste una correlazione positiva p = 0.5 (le coppie tendono ad avere statura omogenea), trovare, mediante un codice di simulazione, la percentuale di coppie con uomo e donna piii alti di 180 e 170 cm rispettivamente (si vedano anche i problemi 4.6, 4.7 di pagina 142). 7.12. Risolvere con un codice di simulazione il problema 5.9 di pagina 170. 7.13. Un piano infinito it diviso d a linee parallele a distanza unitaria. Un ago di lunghezza unitaria i: gettato in mod0 casuale sul piano. Si pub mostrare che la probabiliti che l'ago cada a cavallo di una linea & p = 2/7r (problema di Buffon [42]). Stimare il valore di ?r con un codice Monte Carlo. 7.14. Nel problema di asimmteria destra-sinistra (o alto-basso) gli eventi possono realizzarsi "a sinistra" con probabilitb P oppure "a destra" con probabilitb 1- P. Sirnulare 5000 esperimenti destra-sinistra, e contare il numero di volte in cui, su N = 50 prove, si hanno n, eventi a sinistra ed nd = N - n, eventi a destra. Fare l'istograrnma della asimmetria A = (n, - nd)/N, e confrontare la deviazione standard dei dati con quella Vera discussa nel problema 11.7 di pagina 457. 7.15. Le quotazioni medie (in $) delle azioni (a) e delle obbligazioni (0) della borsa di New York negli anni 1950-1959 sono riportati nella tabella (dati da [76]):
Una teoria economica prevede una correlazione negativa tra le quotazioni delle azioni e delle obbligazioni. Utilizzare il metodo bootstrap non parametrico per verificare il modello ad un live110 del 5%.
8. Applicazioni del metodo Monte Carlo
'' PRIMOPOSTULATO
DI
THUMB
E meglio risolvere un problema con forte approssimazione e sapere la verita pi6 o meno a1 10 per cento, che esigere una soluzione esatta e non sapere la veritk per niente" Arthur Bloch, "IL SECONDO LIBRO DI MURPHY".
8.1 lntroduzione I campi di applicazione del metodo Monte Carlo (nel seguito abbreviato spesso come MC) sono praticarnente illimitati, ed 6 verarnente difficile affrontare in mod0 organic0 un problema di questo genere entro un ambito ristretto come quello di un capitolo. Tuttavia, abbiamo pensato che fosse utile presentarvi qui almeno la risoluzione di alcuni problemi, partendo dall'impostazione generale fino all'estremo dettaglio del codice di simulazione. In questo modo potrete acquisire una completa padronanza della tecnica, cosi da essere in grado di applicare e adattare con success0 il metodo ai vostri problemi specifici. Gli esempi trattati in questo capitolo sono volutamente scelti in mod0 arbitrario e disomogeneo: la diffusione di particelle nei materiali (tipico problema di fisica sperimentale, chimica o ingegneria), il calcolo del numero ottimale di addetti ad un impianto (una istruttiva applicazione alla gestione industriale), alcune applicazioni dell'algoritmo di Metropolis (studio dei sistemi aventi un gran numero di componenti identici, che sono studiati in economia, ingegneria, fisica e chimica), ed infine il calcolo del valore di un integrale definito (qui siamo soprattutto nella fisica teorica e nella matematica).
8.2 Studio dei fenomeni di diffusione La propagazione di un insieme di particelle in un dato materiale, neutroni in un reattore nucleare, elettroni in un metallo o in un semiconduttore, fotoni nell'atmosfera, viene di solito denominata con il termine di dzfusione. In questo tip0 di processi ciascuna particella, partendo da uno stato iniziale, percorre durante un certo intervallo di tempo una traiettoria predeterminata fino ad un istante casuale in cui essa subisce un urto, cioi: un'interazione
286
Capitolo 8. Applicazioni del metodo Monte Carlo
assorbimento
Fig. 8.1. Rappresentazione schematica della traiettoria percorsa d a un neutrone termico durante il process0 di diffusione.
con il mezzo attraversato (con la possibile produzione, in alcuni casi, di particelle secondarie), per effetto del quale cambia, sempre in maniera aleatoria, direzione e modulo della velocita e prosegue il ~ r o p r i ocammino fino alla successiva collisione. Lo schema generale ii quello di Fig. 8.1. In linea di principio, questo sistema pub essere descritto mediante l'equazione di Boltzma.nn (o del trasporto), la cui trattazione i! riportata in molti testi avanzati di fisica, chimica o ingeneria, come [55]. Sfortunatamente, come ha giustamente commentato JLamarsh [55], " b molto pi6 facile ricavare 17equazione di Boltzmann che risolverla", poich6 essa ha una complessa forma integro-difierenziale, dove compaiono parametri che, per la complicata configurazione dei sistemi reali, sono estremamente variabili in funzione sia dello spazio sia dell'energia delle particelle. Il metodo MC resta cosi quasi sempre l'unico approccio disponibile per risolvere questi problemi e, nonostante la grande varieth dei processi di diffusione, 6 anche possibile delineare uno schema di simulazione "a blocchi" di validita quasi universale. Consideriamo, come esempio significativo, il caso della diffusione di neutroni all'interno di un materiale. Qui, analogamente a quanto avviene per i raggi y e per le altre particelle elettricamente neutre, il calcolo delle traiettorie si presenta molto semplice poiche i neutroni seguono, tra due collisioni successive con i nuclei atomici del mezzo attraversato, percorsi in linea retta. Consideriamo, come in Fig. 8.1, una sorgente puntiforme che emette in mod0 isotropo neutroni di energia cinetica fissa e pari a 0.0038 elettronvolts (essi fanno parte della categoria dei neutroni "terrnici", cosi chiamati L'elettron-volt, o pi^ brevemente eV, B un'unit8 di lavoro molto usata nella fisica atornica e nucleare ed 8, per definizione, uguale all'energia cinetica acquisita da un e1ettron;e quando passa t r a due punti fra cui vi B una differenza di potenziale di 1 Volt. E facile mostrare che vale la relazione: l e v = 1 . 6 0 2 1 0 - ~ ~ e r ~ .
8.2 Studio dei fenorneni di diffusione
287
perch6 in equilibrio termico con la materia alla temperatura ambiente di 27" C), situata al centro di una sfera omogenea di raggio infinito, costituita dal materiale diffusore. I1 procedimento MC che vi presentiamo pub essere suddiviso in vari passi, che sono comuni a tutti i calcoli diffusivi (vedere anche [67]): a) geometria, materiali ed interazioni: poichk il mezzo in cui si propagano i neutroni i: infinito ed omogeneo, il nostro sistema risulta molto semplificato e non 6 quindi necessario introdurre alcun dato geometrico. Abbiamo invece bisogno di conoscere i parametri che definiscono le interazioni dei neutroni con i nuclei atomici. Esse (a1 pari di quanto avviene per tutte le altre particelle) vengono descritte mediante una grandezza, denominata "sezione d'urto macroscopica totale" (0, pih in breve, C T ) ,che da la probabilit8, per unit& di lunghezza percorsa, di avere un qualsiasi tipo di reazione. CT i:una proprieta intrinseca di ogni materiale, rimane costante in mezzi omogenei, dipende dalla velocit& ma non dal cammino precedente della particella considerata. In caso di una sorgente nun rnonoenergetica, occorre percib conoscere con sufficiente precisione~l'mdamentodi CT nell'intervallo di energia considerato. Supponiamo, come i: ragionevole fare per i neutroni termici, che le interazioni possibili siano di due tipi: assorbimento oppure diffusione elastica (carnbio di direzione senza perdita di energia); con questa ipotesi la sezione d'urto macroscopica totale viene ovviamente decomposta come:
dove Ca e Ce1sono le sezioni d'urto macroscopiche dei due processi considerati. Dato che i neutroni che consideriamo sono monoenergetici, abbiamo bisogno di soli due numeri, che leggeremo come parametri iniziali, per definire le loro interazioni. Altri dati di cui avremo bisogno (e che leggeremo sempre all'inizio del programma) sono il numero di massa del nucleo diffusore (necessario per il calcolo delle traiettorie) e la velocita dei neutroni, in quanto siamo interessati anche a sapere il tempo necessario per il lor0 assorbimento. b) cinematica: il punto di emissione i: prefissato e, per comodith, lo porremo al centro del sistema di coordinate, mentre invece la direzione di volo dei neutroni uscenti dalla sorgente viene determinata, in base alla (7.33), generando a caso gli angoli cp e 6 attraverso le relazioni:
Si calcolano poi i coseni direttori:
288
Cawitolo 8. Awwlicazioni del rnetodo Monte Carlo
a = senbcoscp
p
= sendsencp
y = cosd che, con la conoscenza del punto di partenza, permettono di definire univocamente i parametri che descrivono la traiettoria iniziale di ogni particella. c) tracciamento: in base a110 schema di Fig. 8.1, poich6 tra due collisioni successive il neutrone non subisce altre interazioni, un passo del tracciamento coincide in questo caso con la distanza di volo. Essa pub venire calcolata notando che, in base alla definizione stessa di sezione d'urto macroscopica, l'interazione del neutrone in uno qualunque dei modi permessi i: un processo stocastico avente le stesse caratteristiche di quelli che abbiamo trattato nel par. 3.8. I1 neutrone, infatti, durante il suo percorso nel mezzo attraversato, subisce urti (cioB "genera" eventi) non correlati, discreti e con probabilit& CT costante; per questo, analogamente alla (3.48)' la probabilitA di avere una distanza z tra un urto e l'altro risulta:
Questa distribuzione (la cui media 1/ETrappresenta il libero cammino medio tra 2 urti successivi), attraverso la relazione (3.891, che in questo caso diventa: 1 d = ---logt3 , (8.5) ZT permette di associare ad ogni neutrone una distanza d, pari alla lunghezza del "passo" della simulazione, tra il punto di partenza e quello dove avviene la collisione successiva. Ora, conoscendo gli angoli di emissione e la distanza percorsa, siamo in grado di calcolare le coordinate del punto in cui avviene la reazione del neutrone con un nucleo del materiale diffusore. A questo punto dobbiamo valutare gli effetti di questa interazione sulla traiettoria della particella, sapendo che la probabilit2 che essa sia assorbita B data da (C,/CT),mentre quella di essere diffusa B (CeL/ET).La scelta tra queste due alternative viene compiuta estraendo un nuovo numero casuale (4: se 0 5 (4 5 LEG/&) il neutrone 6 assorbito e l'evento generato ha termine; se invece ( E a / z ~ )< t4 5 1 si ha una diffusione elastica ed occorre generare una nuova direzione di volo, come mostrato in Fig. 8.1. Per i neutroni termici il processo di urto, rispetto alla direzione incidente, B isotropo nel sistema del centro di massa neutronenucleo2; si devono percib generare in tale sistema gli angoli azimutale (cp,,) e polare (d,,) di emissione: Consideriamo un insieme di N particelle di massa rnl, ma,. . . ,rnN aventi rispettivamente una velocitb, vl,v2,... ,V N rispetto ad un sistema di riferimento predeterminato. I1 punto definito mediante l'equazione:
8.2 Studio dei fenomeni di diffusione
289
ed effettuare la trasformazione nel sistema del laboratorio, che risulta essere [55]: 9 = (Pem (8.8) 1+ A cos 6,, cos79 = .\/A2 2AcostYm 1
+
+
dove con A si i! indicato il numero di massa dei nuclei bersaglio. I coseni direttori della nuova direzione di volo del neutrone (a', P', y') vengono quindi calcolati mediante le formule: a'
P' y'
= pa+a(aysencpt~coscp) = pP a(py sen cp - a cos cp) = py - a(1 - y2) sen cp
+
(8.9)
Se (yl = 1 si ha invece: Q'
pl 7'
= ybcoscp = bsencp = YP
d m .
Nella Fig. 8.2 i: rappresentata la geometria del process0 con b = di urto nel sistema del laboratorio. Per la dimostrazione di queste formule potete consultare le nostre pagine web [64]. d) memorizzazione dell'evento: nel caso di diffusione elastica, prima di ritornare a1 punto precedente per continuare a seguire il cammino della particella considerata, si aggiornano le quantith pi^ rilevanti della traiettoria:
(dove ri i: la distanza dell'i-esima particella dal centro del sistema di coordinate) k detto centro di massa dell'insieme. In mod0 analog0 si pub definire la sua velocitb come:
Un sistema di riferimento in cui v,, = 0 viene chiamato sistema del centro di massa dell'insieme di particelle. Esso b spesso usato nella fisica poich6 permette di trattare in maniera semplice, come avviene nel nostro caso, molte reazioni nucleari.
290
Capitolo 8. Applicazioni del metodo Monte Carlo
Fig. 8.2. Le terne di coseni direttori (a,p, 7) e (a',p', 7') rappresentano rispettivamente la direzione di volo del neutrone prima e dopo l'urto che avviene nel punto 0' mentre con 8 B indicato l'angolo polare di diffusione del neutrone rispetto alla direzione incidente.
la distanza percorsa totale di tra la sorgente ed il punto in cui avviene l'ultima collisione (che supponiamo essere l'i-esima) considerata; le proiezioni di di sugli assi cartesiani:
(ovviamente xo = yo = zo = 0); il tempo di volo dilv (v 6 il modulo della velocita dei neutroni considerati; nel nostro caso v = 2.2 . lo5 cm/s); il numero delle collisioni subite. Quando invece il neutrone i: assorbito, dopo un numero 5 di urti, si calcola
~
I
che rappresenta la distanza tra la sorgente ed il punto finale di arresto (vedere la Fig. 8.2). I1 procedimento ha termine quando i: stato generato di particelle. Nel nostro sito web [64] 6 riportato il codic gue questa simulazione.
I risultati forniti dal programma generando 10 000 eventi, nel caso in cui il nucleo diffusore 6 il carbonio (A = 12, .Eel = 0.3851 cm-l, & = 2.728. cm-l), sono riportati negli istogrammi di Fig. 8.3. Dalla analisi di questi dati, oltre a ricavare, dai valori medi degli istogrammi, i principali parametri che caratterizzano la diffusione dei neutroni nel carbonio, possiamo ottenere diverse altre utili indicazioni su questo processo.
8.2 Studio dei fenomeni di diffusione
10000
20000 0'
0.04
= 1408
0.08
s = 80 2400
500
0'
0.06
Tempo diff. (see.)
Dist. percorsa (em) b=
0.02
29 1
2500
5000
Numero urti
200
400
Dist. di vole (em)
Fig. 8.3. Istogrammi finali ottenuti nella simulazione della diffusione di 10000 neutroni riel ,-arbO&.
Prendiamo in esame I'istogramma (a) di Fig. 8.3 (distanza a zigzag perE 36 corsa dai neutroni): l'errore sulla media m dell'istogramma i? s/dm (s i? la deviazione standard dell'istogramma). Entro l'errore statistico, c'B coincidenza tra media e deviazione standard e I'istogramma proviene, percib da una densitb di probabilitb esponenziale negativa (vedere par. 3.3). E facile capire questa caratteristica se osserviamo che l'unica quantita che influenza il cammino percorso i: E,; richiamando le stesse considerazioni che ci hanno portato alla (8.4)' la densitb di probabilitii iniziale deve quindi essere:
ed infatti, sempre entro gli errori statistici, i? verificata la relazione:
Simili considerazioni valgono anche per l'istogramma (b), che rappresenta il tempo intercorso tra emissione ed assorbimento. Tale grandezza non 6 altro che iI rapport0 tra la distanza percorsa x e la velocitii v dei neutroni, per cui questa distribuzione ha le stesse caratteristiche della precedente. Per ricavare esplicitamente formula della densith p(t) (con t = xlv) associata a questo istogramma basta percib applicare la legge di trasformazione (5.7):
292
Capitolo 8. Applicazioni del metodo Monte Carlo
Passiamo ora a considerare la distribuzione del numero di urti subiti da ogni particella prima di essere assorbita (istogramma (c)). A prima vista, tenendo conto che ogni interazione pub essere considerata un evento raro, uniforme e stazionario, ci si potrebbe aspettare, per tale istogramma, una distribuzione poissoniana ma, anche in questo caso, c'i: coincidenza tra media e deviazione standard, caratteristica indicazione di una distribuzione esponenziale negativa. Contrariamente a quanto avviene, per esempio, nel lancio di una moneta, in cui la probabilita di avere testa o croce non i: influenzata dai lanci precedenti, l'alternativa diffusione elastica-assorbimento ha effetto sulle interazioni successive poichk, se si verifica il second0 processo, ha termine il cammino del neutrone e viene cosi esclusa la possibilitb di avere altri urti. In base a queste considerazioni k facile convincersi che risulta poissoniano solo il nul urti subito cia ogni particella per unit4 di lunghezza percorsa: questa mero d grandezza viene influenzata solo dalla diffusione elastica ed in tale processo ogni collisione k sicuramente indipendente da quella precedente. La distribuzione del numero di urti segue invece la legge geometrica (3.7) di pagina 69 con probabilita di successo, cio k di assorbimento, p = Ca/&-. Come abbiamo notato nel par. 3.8, questa distribuzione, quando p << 1 (come nel nostro caso), i: praticamente indistinguibile dall'esponenziale con parametro p (3.50); per questo motivo, sempre entro gli errori statistici, media e varianza dell'istogramma sono pari a ET/E,. Per interpretare l'istogramma (d), notiamo che la distanza di volo (8.15) i: il modulo di un vettore le cui componenti xk, yk, zk sono realizzazioni di una somma di variabili casuali indipendenti e provenienti da popolazioni con varianza finita:
Peril teorema Limite Centrale gih tante volte richiamato, se xk, yk e zk fossero variabili gaussiane, per il teorema 3.3 di Pearson, la densita di probabilith p(r) della distanza di volo r sarebbe una distribuzione maxwelliana. In questo caso specific0 non k per6 verificata una delle condizioni di applicazione del teorema Limite Centrale: B vero che diai, dipi e diyi sono indipendenti e provengono da popolazioni con varianza finita, ma nelle sommatorie (8.19) il numero di collisioni per evento non i: fisso ma i: anch'esso una variabile casuale. Variabili di questo tip0 vengono denominate somme aleatoric; per derivarne la distribuzioni di probabilith sono necessari metodi matematici abbstanza sofisticati, che sono sono sviluppati in alcuni testi come [63] e che noi tralasciamo, scrivendo solo il risultato finale [55]:
in cui il parametro caratteristico L (nel nostro caso L = 56.3 cm) viene denominato, con ovvio significato, lunghezza di diflusione. E facile verificare che
8.3 Simulazione dei processi stocastici
293
la media e la deviazione standard della distribuzione risultano rispettivamente p = 2L = 112.6 e a = &L = 79.4, valori in accordo, entro gli errori statistici, con quelli che abbiamo ricavato dall'istogramma simulato (d). In questo grafico abbiamo anche riportato la funzione di best fit spiegata nel cap. 9 calcolata prendendo la formula (8.20) come modello della popolazione statistica dell'istogramma. L'accordo migliore con la distribuzione simulata Q stato ottenuto per L = 56.8 f 0.4 ed il valore del X 2 risultante dal programma di fit k stato X 2 = 1.0, indicazione che il modello assunto interpreta correttamente la forma dell'istogramma.
8.3 Simulazione dei processi stocastici Con il metodo MC diventa molto conveniente anche lo studio dell'evoluzione temporale di un qualsiasi processo stocastico. Come esempio, prenderemo in esame un classic0 argomento di ricerca operativa3: lo studio dei fenomeni di attesa. Le code di persone davanti ad uno sportello sono il caso piii noto e familiare dei sistemi che stiamo per prendere in esame: da esse la teoria dei fenomeni di attesa ha preso il nome e gran parte della terminologia, ma le classi di processi che si possono cosi analizzare sono assai numerose e molte di esse riguardano da vicino anche diversi altri momenti della nostra vita quotidiana. La regolazione del traffic0 automobilistico urbano o di una stazione ferroviaria, la programmazione dei voli di una compagnia aerea o del numero di casse in un supermercato, il funzionamento di un magazzino o del sistema di manutenzione di uno stabilimento, sono solo alcuni dei problemi che possono essere interpretati e risolti mediante la teoria delle code, la cui conoscenza B percib indispensabile quando ci si deve occupare delle metodologie legate alla gestione industriale, economica o sociale. La struttura di un fenomeno di attesa comprende, in maniera schematica, un certo numero di "stazioni di servizio" o "canalin (che possono essere impiegati oppure operai addetti ad una certa mansione, linee di comunicazione, posti in un parcheggio, ecc.) che svolgono il lavoro richiesto dai "clienti" (persone in attesa di un servizio, macchine da riparare, merci da spedire, ecc.). I1 sistema servente, quando arriva un nuovo cliente, pub trovarsi in due diverse configurazioni: a) vi Q almeno una stazione libera: la domanda del cliente viene subito eseguita e questa operazione occupa una o pih stazioni per un certo period0 di tempo; b) tutte le stazioni sono impegnate: il cliente in attesa di essere "servito" viene messo in una "coda", le cui caratteristiche variano di molto a1 variare del sistema considerato. La ricerca operativa B quel settore delle scienza economiche che si occupa dell'analisi dei sistemi produttivi a1 fine di fornire soluzioni adatte per una organizzazione ottimale.
294
Capitolo 8. Applicazioni del metodo Monte Carlo 513600 = 5 eventi l'ora
7 o(
o
l
1
1
evento awenuto
t=t+l
cambiamento di stat0
sisterna invariato
\ / RANDOM
(ad ogni secondo)
Fig. 8.4. Simulazione sincrona di un evento di probabilita pari a 5 eventilora
Lo scopo di questo studio B ovviamente quello di valutare qua1 i: il rendimento complessivo del processo tenendo conto dei costi legati sia ai tempi di attesa dei clienti sia al numero o ai periodi di inattivita delle stazioni serventi (per trattazione pih completa, si pub consultare [21]). La parte pih difficile per la simulazione di questo tip0 di processi consiste nel definire in mod0 corretto un "orologio" che riproduca la sequenza temporale continua degli eventi. Tale problema pub essere risolto in due modi diversi, che nella letteratura vengono denominafi simulazione sincrona e simulazione asincrona [ll]. Nella simulazione sincrona il problema dell'orologio viene risolto in mod0 estremamente semplice: si definisce una unitb di tempo (il secondo, iLminuto, l'ora . . .) arbitraria purch6 piccola rispetto ai tempi caratteristici del sistema e ad ogni ciclo di scansione si fa avanzare I'orologio di una unita. La simulazione i: cosi discreta, ma si pub anche arrivare alla simulazione di un processo continuo quanto pih l'unith di avanzamento temporale in un ciclo B piccola rispetto ai tempi di transizione di stato del sistema. Conoscendo allora le probabilita tempordi 0 < Xi << 1 (nell'unita di misura scelta) di ogni possibile evento o cambiamento di stato del sistema, si esegue un'estrazione casuale di un insieme di variabili aleatorie uniformi 0 5 & 5 1 e si fa accadere l'evento se 5, < Xi, altrimenti si lascia invariato il sistema. Per ogni intervallo di tempo prefissato At si cdcolano quindi le medie temporali e le deviazioni standard delle grandezze caratteristiche del sistema e se ne fanno eventualmente grafici ed istogrammi alla fine della simulazione. La Fig. 8.4 mostra come fare per simulare il guasto di una macchina che in media fa registrare 5 guasti dl'ora, scegliendo come unitb di tempo il secondo. Poniamoci ora la domanda fondamentale: la simulazione sincrona i: in accordo con la legge generale dei fenomeni stocastici indipendenti, che prevede un numero di eventi poissoniano ed eventi contigui separati da intervalli di tempo esponenziali? La risposta & si purch6 valga la condizione Xi << 1. Infatti, in questo caso la probabilita di un numero n di istanti di tempo elementari tra eventi contigui 6 data dalla densit&geometrica (3.50),che, come ripetutamente notato, quando p << 1,diventa un'ottima approssimazione della densitb esponenziale (3.50) con parametro p.
8.3 Simulazione dei urocessi stocastici
295
1250 1000 750 500 250
eventilora
secondi tra due eventi
Fig. 8.5. Istogrammi del numero medio di eventi all'ora e dei tempi tra due eventi successivi generati con la simulazione sincrona di Fig. 8.4. La linea continua riportata nell'istogramma dei tempi B il fit dei dati con la legge esponenziale negativa
A conforto di questa asserzione, riportiamo in Fig. 8.5 gli istogrammi relativi alla simulazione, per 10000 ore, del numero di richieste di interventi all'ora e del numero di secondi tra due eventi contigui per il caso illustrate in Fig. 8.4, dove X = 513600 s-l: come potete vedere, la soluzione e praticamente indistinguibile dal caso continuo sia per il humero di eventi all'ora (poissoniana) sia per gli intertempi (esponenziale). Notate che, pur con un tempo medio tra due eventi di circa 360015 = 720 secondi (12 minuti), si possono avere attese lunghe quasi due ore! Questo i: uno dei motivi delle grandi fluttuazioni nelle medie temporali che spesso si hanno nei fenomeni stocastici, che la simulazione B in grado di riprodurre accuratamente. Veniamo ora all'altro tip0 di simulazione discreta, quella asincrona [14, 701. In questo caso si sfrutta il fatto che il sistema cambia il proprio stato solo in corrispondenza di eventi ben precisi (ad esempio, arrivo di un nuovo cliente o fine del servizio di una stazione) rimanendo, in caso contrario, sostanzialmente invariato. Cosi il tempo dell'orologio simulato non avanza in mod0 costante ma per intervalli variabili, ottenuti tramite la (3.12), che scandiscono l'arrivo di un nuovo evento ed in corrispondenza dei quali vengono aggiornati tutti gli indicatori che descrivono lo stato del sistema da studiare (supponiamo di nuovo per semplicita che ogni cambiamento avvenga con durata nulla). L'istante in cui avviene un nuovo evento i? ricavato facendo riferimento ad una "lista" in cui devono essere riportati tutti i possibili tipi di eventi che possono avvenire nel sistema e l'istante in cui essi accadranno. In genere la simulazione sincrona d& luogo a codici di calcolo molto piii semplici di quelli che utilizzano la simulazione asincrona, poich6 quest'ultima deve garantire l'ordinamento corretto dei tempi di arrivo, il che risulta spesso difficile, specialmente se il sistema B cornplicato. Tuttavia, la scelta della simulazione asincrona risulta a volte assolutamente preferibile, in quanto i tempi richiesti dalla simulazione sincrona, che esegue un ciclo fisso anche nei casi (e sono la maggioranza!) in cui il sistema rimane invariato, possono risultare inaccettabili.
296
Capitolo 8. Applicazioni del metodo Monte Carlo SIMULAZIONE SINCRONA
SIMULAZIONE ASINCRONA
definizione
memorizza lo stato entro A t
Fig. 8.6. Diagrammi di flusso per la simulazione sincrona e asincrona dei fenomeni di attesa
I diagrammi di flusso tipici della simulazione sincrona e asincrona sono riportati in Fig. 8.6. L'obiettivo della simulazione di questo tip0 di sistemi ii in genere la determinazione del valore di alcune grandezze caratteristiche mediate entro intervalli di tempo prefissati. Per fissare le idee, potremmo essere interessati a1 numero X di clienti in attesa ad una stazione di servizio o in fila alla cassa di un supermercato, mediato entro un'ora (assunta come unit& di tempo). Per ricavare queste grandezze mediate i: necessario registrare i tempi ti delle variazioni (ad esempio quando si aggiunge un nuovo cliente alla coda) e calcolare ad ogni variazione la grandezza
dove xi i! il valore della variabile (discreta o continua) prima che avvenga la variazione a ti. Se osserviamo il fenomeno per un tempo lungo t ore (ad esempio un giorno), possiamo definire la grandezza mediata come:
Se dividiamo il tempo in intervalli Ati E 6t abbastanza piccoli, in mod0 da contenere non pih di un cambiamento di stato, e tutti uguali tra lor0 (come nella simulazione sincrona) e assegniamo ad ogni 6t il valore xi dell'ultimo cambiamento di stato, questa formula non i: altro che la normale media di un campione di n = t/St eventi. La media e la varianza di X si possono ottenere mediante un campionamento sirnulato su N cicli di durata pari a t (ad esempio per molti giorni,
8.3 Simulazione dei processi stocastici
297
una settimana o un mese), applicando le formule standard della statistica:
In questi casi la stima della varianza di X va sempre fatta second0 la (8.24), accumulando via via le medie parziali, dato che il valore finale deUa media sara noto solo alla fine della simulazione. In questo tip0 di problemi occorre tener conto che le fluttuazioni sul risultat0 finale dipendono, oltre che dall'errore statistico, anche dalla variabilitb nel tempo dei parametri che descrivono lo stato del processo d a studiare. Quasi sempre, tuttavia, i sistemi che interessano raggiungono, dopo un period0 pic o meno lungo dall'inizio del loro funzionamento, uno stato stazionario a partire dal quale le quantitb (8.23,8.24) non hanno piii variazioni apprezzabili. Determinare quando viene raggiunto lo stato stazionario non i: un problema risolubile in generale per via analitica poich6 vengono coinvolte le particolari caratteristiche di ogni singolo processo come la intensit&del traffic0 dei clienti o la forma delle densita dei tempi di arrivo e di servizio. Per tale motivo, di solito si stampano i risultati ad intervalli regolari di tempo simulato in mod0 tale da poter osservare empiricamente le variazioni e la convergenza a1 valore di equilibrio delle variabili di stato del sistema in esame. Anche la valutazione dell'errore statistico risulta abbastanza complicat a poich6 tutti gli eventi sono correlati tra di loro (il tempo di attesa di un generic0 cliente dipende, per esempio, da quello dei clienti immediatamente precedenti) e l'uso delle formule relative ad osservazioni indipendenti porterebbe cosi a dare una valutazione sbagliata di questa grandezza. Un risultato generale della statistica, che comunque resta sempre valido, B quello relativo all'errore della media (X) che, nel caso di regime stazionario, diminuir&come la radice quadrata del numero dei cicli di campionamento, i quali ovviamente sono proporzionali a1 tempo totale simulato Tsi,:
Uno degli algoritmi pic utilizzati per il calcolo dell'errore statistico i: il metodo delle batch means (medie a lotti) che tratteremo tra poco nel par. 8.6. In alternativa, possono essere applicati due semplici procedimenti: una volta determinato l'intervallo di tempo simulato entro cui si vuole studiare un certo processo, si ripete l'intero programma, con diversi insiemi di numeri casuali, un numero di volte (almeno 15 o 20) abbastanza grande da poter applicare il teorema Limite Centrale per il calcolo dell'errore sulla media di differenti risultati;
298
Cawitolo 8. Awwlicazioni del rnetodo Monte Carlo
se si vuole invece trovare l'intervallo minimo di tempo simulato necessario per ottenere una precisione prefissata sui risultati finali, occorre effettuare un breve test preliminare per ricavare l'errore sul risultato in corrispondenza di un piccolo valore di TSi,. Sfruttando la legge di proporzionalith (8.25) sull'errore statistico, si ricava quindi facilmente il valore cercato.
8.4 11 numero di addetti ad un impianto: simulazione sincrona Per esemplificare e chiarire meglio le considerazioni precedenti risolviamo, mediante la simulazione sincrona, il problema di determinare il numero ottimale di addetti da adibire alla sorveglianza ed alla manutenzione di un certo numero di macchine utensili. Supponiamo che le caratteristiche principali del sistema da studiare, dedotte in base alle osservazioni compiute, risultino essere le seguenti:
0
nell'impianto vi sono 10 macchine, per ognuna di esse si hanno in media 3 richieste di intervento in un'ora sia per la riparazione di eventuali guasti sia durante la normale fase operativa di lavoro; . la durata di ogni intervento (che richiede l'attivith di una sola persona), qualunque sia l'addetto che la compie e la macchina che lo richiede, segue anch'essa una legge esponenziale negativa con una media di 2 interventi condotti a termine in un'ora da ciascun addetto; il costo orario legato all'inattivith di un addetto (a) i! valutato in 70 euro, mentre quello legato all'inattivith di una macchina (ca) i: di 20 euro.
Per prima cosa occorre procedere ad una descrizione sintetica (ma completa!) del sistema. Ricordiamo che mediamente si hanno 3 richieste di intervento per ora per macchina e che ogni addetto ripara mediamente due macchine all'ora. Obiettivo della ottimizzazione 6 minimizzare il costo dell'impianto, sapendo che una macchina in attesa di intervento costa 20 eurolora e un operatore inattivo costa 70 eurolora. La simulazione dovra quindi determinare il numero medio di operatori inattivi (Nos) e di macchine in attesa (Nmi) e minimizzare il costo orario medio
La descrizione sintetica del sistema B riportata in Tab. 8.1. I1 secondo passo da fare consiste nella scrittura di un codice di simulazione come quello riportato qui sotto. L'unita di misura scelta i: il secondo e quindi le probabilita di richiesta di intervento e di fine riparazione sono rispettivamente 3/3600 e 213600. I1 programma, ad ogni secondo, esamina lo stato delle macchine (inizialmente poste tutte funzionanti, Ms [k]=O). Se la macchina funziona, richiede un intervento se la variabile casuale uniforme [ 5 313600; se invece la macchina i! servita da un meccanico, avviene una
8.4 11 nurnero di addetti ad u n irnpianto: sirnulazione sincrona
299
Tabella 8.1. Descrizione logica utilizzata per la simulazione del sistema "numero di addetti ad un impianto". La variabile di stato di una macchina pub assumere tre valori: macchina in funzione (0), in riparazione (I), in attesa di riparazione (2) stato macchina funzionante
variazione di stato funziona richiede intervento
in riparazione
continua fine intervento
in attesa
-
addetti inattivi invaxiati se > 0 se = 0 invariati aument a se > 0
se = 0
variazione addetti in. -1 1 -1 -
+
stato macchina 0 1 2 1 0 1 2
fine servizio se 5 5 2/3600. Questa scelta casuale 6 operata dalla routine e v e n t o (A). Infine, se la macchina i: in attesa di intervento e vi sono meccanici liberi essa viene servita (Ms [k]=l), altrimenti resta in attesa ( M s [kl = 2). Questa & la fase di cambiamento di stato, indicata nella seconda colonna di Tab. 8.1 ed anche nello schema a blocchi di Fig. 8.6. / codice SCILAB Optsinc: simulazione sincrona per l a // ottimizzazione d e l numero d i a d d e t t i ad un impianto // // Routine SCILAB u t i l i z z a t e : / / g r a n d ( l , l , ' d e f ' ) (chiarnata d i d e f a u l t ) // per e s t r a r r e ' u n valore d a l l a d i s t r . uniforme U(0,l) / / plotad, Histplote (utente) per il display d e i r i s u l t a t i //
/ / v a l o r i i n i z i a l i e azzeramenti Nn=lO; // 10 rnacchine H = 12000; / / 12000 ore d i simulazione // seme d e i numeri c a s u a l i grand(' s e t s d J ,5876756) ; On=O; 0 1 ~ 0 ; med=O; minh=O; oinh=O; // azzeramenti enne=O; med2=0; olib=O; olib2=0; memac=O; simac=O; meope=O; sigad=O; // Ms(Mn) = 0, 1 , 2 e J il v e t t o r e d i s t a t o macchina // azzera Ms e g l i i n d i c a t o r i o r a r i Oih e Mih Ms=zeros (1 ,Mn) ; Oih=zeros (1,H) ; Mih=zeros (1,H) ; Ore=zeros ( 1 ,H); Oihl=zeros (1,H) ; Mihl=zeros (1 ,H) ;
// On
input da terminale = input ("numero d e g l i operatori :") ;
Hour = 60; // UnitaJ d i misura: minuto. 1 ora = 60 rninuti Mp = 3/Hour; / / 3 i n t e r v e n t i / o r a Op = 2/Hour; / / 2 f i n e i n t e r v e n t i / o r a 01=0n; Oi=O;
/ / 01 = numero istantaneo d i o p e r a t o r i i n a t t i v i / / O i = numero cumulato d i o p e r a t o r i i n a t t i v i
300
Capitolo 8. Applicazioni del rnetodo Monte Carlo
Mi=O;
// Mi
=
contano le macchine in attesa di intervento
// simula per H ore in passi di 3600/Hour secondi for n=l:Hour*H, for k=l:Mn, select Ms (k) , case 0 then if (grand(l,l, 'def ')<Mp) then if (Ol>O) then Ms (k)=l; 01=01-1; else Ms (k)=2; end ; end ; case I then if (grand(l,l, 'def' ) (Op) then Ms (k)=O ; 01=01+1; end ; case 2 then if (Ol"=O) then, Ms (k)=l; 01=01-1; end ; end ; end ; for k=l:Mn, if(Ms(k)==2) then Mi=Mi+l; end; end; Oi = Oi + 01; ; if (modulo(n,~our*24)==O & n"=O) then enne=enne+l; Ore (enne) = 24*enne ; minh= Mi/ (Hour*24) ; med = med + minh; med2 = minh*minh + med2; oinh = Oi/ (Hour*24); olib = olib + oinh; olib2 = oinh*oinh + olib2; memac = med/enne; simac = sqrt(med2/enne - memac*memac); meope = olib/enne; sigad = sqrt(olib2/enne - meope*meope); // plot delle curve Oihl(enne) = oinh; // operatori inattivi/ora // macchine in attesa/ora Mihl (enne) = minh; / / media operatori inattivi/ora Oih(enne) = meope; // media macchine in attesa/ora Mih(enne) = memac; x=zeros(l,enne); y = zeros(1,enne) ; z = zeros(1,enne) ; y l = zeros(1,enne) ; zl= zeros (1,enne) ; z(j) =Mih(j); for j=l:enne, x(j)=Ore(j); y(j) =Oih(j); yl(j)=Oihl(j); zl(j)=Mihl(j); end; if (enne>3) then xbasco ; subplot(2,2,1) ; xtitle('addetti inattivi') ; pl~t2d(~,y)
8.4 11 numero di addetti ad un impianto: sirnulazione sincrona
macchine in attesdgiorno
I
2.6,
I
200 giorni
I
400
301
Fig. 8.7. Le figure in basso mostrano l'andarnento giornaliero del numero di macchine in attesa di riparazione e del numero di addetti inattivi per ora per il problema "numero ottimale di addetti ad un impiantonnel caso di 5 addetti; la proiezione sulle ordinate dei valori giornalieri i: riportata negli istogrammi in alto. La media m e i valori m +s degli istogrammi in alto sono le linee continue e tratteggiate dei diagrammi in basso
subplot (2,2,2) plot2d(x,z) ; xtitle ('macchine inattive') ; subplot (2,2,3) Histplote (30,y I , stat=l) ; subplot (2,2,4) Histplote (30,zl,stat=I); end ; Oi=O ; Mi = 0; // azzera gli indicatori giornalieri end ; end ;
Ad ogni secondo viene sommato il numero di operatori inattivi Oi e quello delle macchine in attesa di intervento Mi, che sono le variabili che si vogliono studiare. Ogni 24 ore queste grandezze sono mediate secondo la (8.22) e le corrispondenti medie e varianze sono calcolate progressivamente con le (8.23, 8.24). La Fig. 8.7 mostra l'andamento di O i e M i per un period0 di osservazione di 500 giorni. Le rnedie e le varianze finali di queste quantita sono riportate in Tab. 8.2 con la valutazione del costo globale tramite la (8.26). Dall'esame della figura e della tabella si vede che le fluttuazioni intorno ai valori medi sono notevoli. In effetti, l'impianto non i: molto efficiente, perch4 avendo 10 macchine con una media di 3 richieste di intervento l'ora ed un tempo medio di servizio di mezz'ora, si avrA sempre un gran numero di macchine ferme (circa 5 o 6) anche con 10 addetti, uno per macchina. Data la legge esponenziale assunta per i tempi di richiesta sia di intervento sia di servizio, che sono pure tra loro confrontabili, B naturale attendersi ampie fluttuazioni nelle grandezze giornaliere osservate. Essendo perb il tip0 di macchina un dato assegnato a priori, la simulazione risolve comunque il problema di minimizzazione dei
302
Cawitolo 8. Awwlicazioni del rnetodo Monte Carlo
Tabella 8.2. Variazione del costo globale dello stabilimento a1 variare del numero degli operatori utilizzati. Gli errori indicano la deviazione standard dei dati, non I'errore sulla media Numero Ore di inattivita Ore di attesa Costo Globale addetti addettilora macchinelora orario ((Noi) ((Nmi)f s m i ) 3 1.5 .lo-' f 3 . lo-" 5.00 f0.21 100,lO
*
costi, mostrando che il numero ottimale di addetti it 5, come mostrato in Tab. 8.2. Nella Fig. 8.8 abbiamo invece riportato, nel caso di 6 operai, l'andamento a1 variare del tempo di simulazione del numero medio di ore di addetti inattivi e della frazione di macchine in attesa di riparazione per ogni ora di funzionamento dell'impianto. Le fluttuazioni presenti all'inizio della simulazione sono dovute sia alle particolari condizioni iniziali assunte per il sistema, lontane da quelle stazionarie, sia alla quantith insufficiente di dati. Dai due riquadri in basso della Fig. 8.7 si pub comunque dedurre che la condizione di stazionarieth viene raggiunta abbastanza rapidamente. Va anche notato che le medie e deviazioni standard di Tab. 8.2 sono ricavate da una osservazione di 500 giorni. Considerando come esempio il caso ottimale di 5 operatori, dalle formule statistiche della Tab. 6.3 di pag. 202, in accord0 anche con la (8.25), possiamo stimare gli errori su queste quantith come:
8.5 11 numero di addetti ad un impianto: sirnulazione asincrona La simulazione sincrona ha lo svantaggio di compiere numerosi cicli inutili, nei quali il sistema non cambia di stato. Per rendere il programma del paragrafo precedente piii veloce abbiamo carnbiato l'unith di tempo dal secondo al minuto, ottenendo risultati differenti di qualche per cento da quelli di Tab. 8.2. In questo schema non it inoltre possibile usare distribuzioni dei tempi di richieste di intervento e di fine servizio diversi dall'esponenziale. Un
8.5 11 nurnero di addetti ad u n impianto: simulazione asincrona
1
303
1
tempo (ore)
Fig. 8.8. Variazione, in funzione del tempo della simulazione, del numero medio di addetti inattivi (a) e della frazione di macchine in attesa di riparazione (b) per ogni ora di funzionamento dell'impianto e nel caso di 6 addetti. La linea continua rappresenta il valore asintotico di tali quantiti calcolato analiticamente come in [23]
metodo pih generale e veloce per descrivere il sistema k quello di utilizzare la simulazione asincrona. In questo caso il tempo non scorre ad intervalli regolari ma a salti, scandito dall'accadere degli eventi. Nel caso del problema trattato in precedenza, gli eventi sono di due tipi, richiesta di intervento e fine intervento. Si 6 reso quindi necessario, nel codice di simulazion che troverete nelle nostre pagine web [64], introdurre i vettori op Ckl che contengono rispettivamente, per ogni macchina, i tempi di richiesta di intervento e di fine servizio, determinati dalla legge esponenziale attraverso la routine texp. In fase di inizializzazione, vengono estratti una serie di tempi di richieste di intervento mentre i tempi di intervento vengono "congelati" con un tempo "infinite" B I G . L'orologio della simulazione avanza ricercando il minimo dei tempi contenuti in questi due vettori, utilizzando la routine mini. Nel caso una macchina sia in attesa di riparazione o un operatore sia inattivo bisogna avere I'avvertenza di "fermare" il tempo di richiesta o di fine intervento introducendo nei vettori Tmac e Top il tempo BIG. Supponiamo ora di aver gia considerato un certo numero di eventi; quello successivo sarB o una nuova richiesta di intervento oppure la fine del servizio .di un addetto. Se l'evento 5 una richiesta di intervento della macchina kmac, si aggiorna il tempo simulato, si impegna un operatore (se disponibile), si "congela" la macchina (Tmac [kmacl =BIG) e si simula i1 tempo di fine intervento (Top [kmacl = t + texp(0p)); se non vi sono operatori liberi, si pone la macchina nello stato 2 (#s [kmacl=2). Se invece l'evento 5 la fine dell'intervento dell'operatore sulla macchina kop, si genera un tempo di nuova richiesta di intervento Tmac [kopl = t + texp (Mp), si congela il tempo di riparazione della macchina (Top [kop] = BIG) e si aggiornano i vettori e gli
304
Capitolo 8. Applicazioni del metodo Monte Carlo
indici di stato, come commentato nel programma. Se vi sono altre macchine in coda, il meccanico che ha appena terminato il proprio lavoro si occupa subito di una macchina in attesa (la numero n), con un intervento che avrii termine all'istante Top [n] = t + texp (Up). I1 numero di macchine in attesa M i e il numero di operatori liberi 0 1 vengono moltiplicati per il tempo tra due eventi ( t - t p r e c ) , ottenendo le nuove variabili o i n e min. Qui va notato un punto importante: questo intervallo di tempo moltiplica 01 e M i calcoEati al tempo t p r e c , in quanto tra t p r e c e t la situazione rimane quella del cambiamento di stato avvenuto in tprec. Questo passo del codice k equivalente a quello della simulazione sincrona in cui, ad ogni secondo, si sommavano le stesse quantith, anche se rimanevaao invariate. Le medie giornaliere della (8.22) vengono poi ottenute dividend0 o i n e min per l'intervallo ( t - t p r i n t ) che, a meno di fluttuazioni di qualche decina di minuti dovute alla selezione discreta dei tempi, vale circa 24 ore. Le medie progressive e le relative varianze vengono poi calcolate come nel caso della simulazione sincrona. La simulazione ha termine quando il tempo t raggiunge un vdore prefissato TIME. Come si vede, la logica e la struttura del codice risultano pih complicate che nel caso della simulazione sincrona; tuttavia, il tempo di esecuzione k risultato circa 15 volte pi6 breve, perch6 in questo caso si calcola la transizione di stato del sistema solo quando avviene effettivamente un evento. Il programma h a ovviamente fornito gli stessi risultati della simulazione sincrona, che abbiamo gi8 riportato in Tab. 8.2 e Fig. 8.7. Per programmi semplici come questi il guadagno di tempo non & importante, ma per modelli complessi, in cui il tempo di esecuzione dei programmi pub essere anche di qualche ora, un guadagno di questa entit& risulta determinante. Potete ora riprendere dalle pagine web [64] il programma appena descritto e complicarne la struttura cercando di descrivere un modello pih realistic0 sperimentando direttamente come sia possibile studiare sistemi complessi in modo tutto sommato semplice. Ad esempio, si possono introdurre tipi diversi di richieste di servizio (guasto, manutenzione, . . .) con tempi diversi di intervento, considerare la disponibilitb dei pezzi di ricambio, oppure assegnare ad ogni addetto tempi di riparazione personalizzati e cosi via. L'inserimento di questi dettagli in un modello analitico rende rapidamente intrattabile il problema, mentre, con un programma di simulazione, k possibile aggiungere in mod0 modulare nuovi pezzi di codice senza complicare eccessivamente sia la struttura sia la gestione del modello.
8.6 Algoritmo di Metropolis L'algoritmo di Metropolis k un metodo sofisticato per riuscire a produrre un campione da distribuzioni per le quali non sia facilmente utilizzabile una delle tecniche spiegate nel capitol0 7.
8.6 Alnoritrno di Metropolis
305
Le distribuzioni alle qudi meglio si applica sono quelle specificate da
dove x B un vettore aleatorio d-dimensionale. A causa della condizione di normalizzazione, si deve avere Z = Ex h(x) nel caso discreto e Z = h(x) dx in quello continuo. La costante di normalizzazione Z i:indispensabile per ricavare qualsiasi quantith legata a p ( ~ (come ) media, varianza e percentili), tuttavia in alcuni casi il calcolo pub rivelarsi in pratica impossibile. Questo avviene, ad esempio, nell'ambito della fisica o della chimica quando si studiano sistemi composti da un gran numero d di identici componenti elementari come le molecole in un gas o in un solido cristallino (tipicamente loz3, numero che rappresenta grosso mod0 il numero di atomi contenuti in un em3 di materia). Supponiamo che ciascun componente elementare possa assumere k stati. Se g(x) esprime un pararnetro macroscopico del sistema (come temperatura, pressione, momento magnetico), il calcolo della sua media, Exg(x)p(x), richiederebbe di valutare h(x) per ognuna delle kd possibili configurazioni del sistema, un numero che pub essere enorme rispetto alle nostre risorse di calcolo. L'algoritmo di Metropolis i: molto potente per risolvere questi problemi, in quanto non B necessario conoscere 2,ne valutare h(x) per tutti i valori di x. L'idea 6 quella di generare una sequenza di numeri la cui distribuzione di frequenza asintotica tenda a p(x). Immaginiamo quindi un sistema in cui gli eventi "nascono" assumendo un valore x in accord0 con la densit&p(x) e poi possano "migrare" ad un altro valore y second0 una probabilith di transizione arbitraria t ( x t 9).I sistemi in cui queste probabilith dipendono solo dal valore di partenza e di arrivo sono detti cutene dz Murkov, e sono di importanza fondamentale nello studio di molti processi stocastici [69]. Una condizione sufficiente affinchR la catena converga ad una popolazione distribuita come p(x) & che essa si stabilizzi in una situazione di equilibrio in cui ogni transizione avviene con probabilith uguale a quella inversa. Una delle condizioni sotto cui questo si verifica i: data dall'equazione detta del bilancio dettagliato: N
in cui il termine di destra (sinistra) esprime la probabilith che il sistema evolva da x a y (da y a x). La funzione arbitraria t(x + y) viene in genere scritta come (8.28) , 4 x 7 9) . t ( z -+ Y) = 4 ( ~Y) Alla distribuzione ausiliaria q(x, y ) si richiede che, per ogni fissato valore x appartenente a110 spettro di X, essa sia una distribuzione di probabilit&sullo spettro di X. In altre parole, per ogni x fissato, q(x, y ) 0 per ogni valore di y e Cyq(x, y) = 1nel caso discreto e q(x, y ) dy = 1 nel caso continuo.
>
306
Capitolo 8. Applicazioni del rnetodo Monte Carlo
Un'altra condizione necessaria 6 che sia possibile generare velocemente dalla distribuzione q(x, .) . La probabilita a ( x , y ) di accettare il valore proposto dalla distribuzione ausiliaria i: invece definita dall'algoritmo di Metropolis in mod0 tale da "guidare" l'evoluzione del sistema verso stati sempre pih probabili (in cui, ad esempio, sia minima l'energia totale o la temperatura o la pressione). In questo mod0 si arriva in una situazione stazionaria in cui i parametri macroscopici del sistema non variano con il tempo ed in cui viene soddisfatta anche la (8.27). L'algoritmo prevede N passi; se x ( ~i:) il valore generato a1 passo i , per ottenere il valore successive si procede come segue: Algoritmo 8.1 (Algoritmo di Metropolis). 1) generare un valore y dalla distribuzione ausiliaria q ( ~ ( ~ .) ) , 2) generare u n valore dalla distribuzione uniforme su ( 0 , l ) 3) calcolare la probabilitd di accettazione
dove il rapporto che vi compare si dice rapporto di accettazione x(~+')= y, altrimenti p o r e x(~+')= x ( ~ ) .
4) se < 5 I(x(~),y), allora porre S e i < N tornare a1 passo 1.
E facile mostrare che i valori ottenuti con la (8.29) seguono una densita che soddisfa a1 bilancio dettagliato. Infatti, poich6 dalle (8.27, 8.28) segue:
tenendo conto che dalla (8.29), se p(y) q(y ,x ) / b ( x ) q(x, y)] < I , segue asintoticamente a ( x , y) = p(y)q(y, x ) / b ( x ) q(x, y)] e a ( y , x ) = 1, si ottiene I'identitL p(y) q(y, = p(y) g(y, x) . p(x) q(x, Y) p(x) q(x, y ) Fissato dunque un valore iniziale s ( O ) , e ripetendo N volte i passi 1-4 si ) bisogno di conoscere 2,in quanto ottiene un campione (x('), . . . , x ( ~ )senza il passo 3 dipende dal rapporto p(y) /p(x(i)) = h(y) / h ( ~ ( ~ ) ) . Ma che genere di carnpione abbiamo ottenuto? Evidentemente non un campione casuale, perch4 la variabili generate sono dipendenti, essendo la . il valore iniziale z(O) ha generazione di x(~+')dipendente da x ( ~ )Inoltre poco a che fare con p(.) perch6 viene di solito scelto in mod0 arbitrario. Tuttavia, sotto semplici ipotesi, si pub mostrare i69] la validit& del seguente Teorema 8.1. S e q(x, y ) > 0 per ogni z e per ogni y appartenenti a110 spettro di X , allora la proprietci
8.6 Algoritmo di Metropolis
c E N~d ~ ' ~ =' ) ( 9 ( x ) ) = N-tw
Exg(x)p(x),
307
caso discreto;
lim
(8.30)
J g(x)p(x) dx, caso continuo.
b valida per ogni punto iniziale x(O).La validitri della (8.30) si mantiene
anche se la condizione q(x, y) > 0 n o n i: soddisfatta per tutte le coppie (x, y), a condizione che, per ogni insieme A dello spettro con p(A) > 0, q(x, y) sia tale che A b raggiungibile con probabilith positiva a partire da ogni X. Nella sua formulazione piu semplice, l'algoritmo viene utilizzato con q(x, y) = q(y, x ) , nel qua1 caso (;I: dipende solo dal rapport0 p(y)/p(x). Spesso si estrae X dalla distribuzione uniforme, entro l'intervallo di esi p(x). Potete a questo punto fare qualche test con la nostra routine e risolvere il problema 8.7. L'esecuzione dell'algoritmo di Metropolis ci fornisce dunque lo stimatore
c:,
v ~ ~ [ ~ ( x ( ~ ! ) ] / Nin' , quanto le vaper (g(X)). La varianza di a! n o n b riabili aleatorie simulate non sono indipendenti. Un mod0 per allentare la dipendenza B suddividere la successione simulata (x(l),. . . ,x ( ~ )in) k blocchi consecutivi di b elementi ciascuno (con b e k tali che kb = N)
e calcolare la media campionaria di g in ciascun blocco:
All'aumentare della dimensione dei blocchi, i blocchi non consecutivi sono sempre piu distanti (in termini di iterazioni) e percib sempre meno correlati. Si pub mostrare che anche la correlazione tra blocchi consecutivi tende ad annullarsi al crescere di b, percio ci si avvicina a una situazione di incorrelazione ed i: naturale utilizzare la stima della varianza campionaria della successione delle medie dei blocchi per stimare l'errore di (g(x))(i). Questo errore B associato a una media campionaria di b termini, pertanto, per ot(g(x)), che B una media di N = kb termini, tenere l'errore associato a m dobbiamo dividere ancora per k, trovando infine la stima delle batch means (con un C L del 95.4%):
=
Questa espressione sottointende la validit&del Teorema Centrale Limite per la distribuzione di a! ed 6 dimostrabile, sotto le ipotesi del teorema 8.1, per
308
Caaitolo 8. A~dicazionidel metodo Monte Carlo
Fig. 8.9. Un reticolo di 4 x 4 atomi di un solido cristallino con i relativi momenti magnetici di spin (-1 colore scuro e 1 COlore chiaro) e l'interazione tra primi vicini, rappresentata dalla croce
gli algoritmi di Metropolis aperiodici, cioi: quando non esiste una partizione dello spazio degli stati i cui insiemi vengono visitati second0 una sequenza sempre uguale durante la simulazione. Per calcolare la stima delle batch means, una volta fissato il numero di iterazioni N, bisogna scegliere b. Questo i: un problema molto complesso e a tutt'oggi non i! possibile dare una regola pratica di uso immediato.
8.7 11 modello di lsing Vediamo ora un'applicazione dell'algoritmo di Metropolis a1 noto modello di Ising, utilizzato dal fisico tedesco per spiegare alcuni comportamenti osservati nella magnetizzazione dei materiali.4 L'immagine binaria formata da 4 x 4 pixel5 di figura 8.9, rappresenta una porzione bidimensionale di un solido cristallino, dove su ogni pixel risiede un atomo del solido con il suo campo magnetic0 di spin: a1 colore scuro associamo spin -1,mentre a1 colore chiaro associamo spin +l. Quando la temperatura lo consente, 17interazioneesistente tra gli spin nucleari a livello microscopico determina il comportamento del materiale a livello macroscopico, conferendogli proprieta ferromagnetiche o antiferromagnetiche. In figura 8.9 i:stato evidenziato il piii semplice modello di interazione microscopica, nel quale l'atomo a1 centro della croce ivi tracciata interagisce solo con i vicini pih prossimi in senso orizzontale e verticale. Il modello di Ising, con interazione diretta solo Questo modello ha importanti applicazioni anche in ambiti completamente diversi dalla fisica, perch6 descrive bene la evoluzione di sistemi in cui vi sono cambiamenti di stato a seguito di interazioni di contatto tra gli individui. Ad esempio, esso i: utilizzato per studiare l'impatto sociale di nuove idee e la dinamica delle opionioni in societii complesse [49] e per prevedere il comportamento dei mercati finanziari [81]. I1 termine pixel nasce dalla contrazione delle parole inglesi picture element ed indica la pi^ piccola unita omogenea che compone una immagine artificiale.
tra primi vicini, definisce l'energia di un materiale ferromagnetic0 con n x n atomi nel mod0 seguente:
dove x = (xl,.. . ,x,z), xi indica lo spin dell'atomo indicizzato da i e la somma B estesa ai soli primi vicini (i j ) . In assenza di un campo magnetico esterno, a ciascuna configurazione viene associata una probabilita che dipende dall'energia del sistema e d d l a temperatura T :
-
H(X)
P(X>=
exp (-7 h ( r) ) --
z
La formula evidenzia che le configurazioni a bassa energia, cioit quelle con atomi vicini con lo stesso spin, hanno probabilith pih elevata. L.Onsager nel 1944 ha risolto il problema della trattazione analitica esat-ta del modello di Ising in due dimensioni, come ad esempio quello del calcolo del numero atteso di atomi con spin 1 a una data temperatura, utile per determinare il momento magnetico totale del materiale. Tuttavia il pic real i s t i c ~modello in tre dimensioni non k stato risolto e bisogna ricorrere d l a simulazione, che per semplicith illustriamo nel caso bidimensionale. Le configurazioni ammissibili di tutti gli spin nel caso bidimensionale sono 2n2, quindi non k possibile, se non per n molto ridotto, calcolare tutte le p(x) e procedere alla simulazione diretta come nella sezione 7.4. Ricorriamo pertanto all'algoritmo di Metropolis nel quale scegliamo una distribuzione ausiliaria che ad,ogni passo scelga un atomo a caso e che ne proponga il cambio di spin. E abbastanza facile convincersi che la formula per questa distribuzione t: la seguente: 1 n(x, Y) = ;;Z se x e y differiscono per lo spin di un solo atomo, mentre q(x, y) = 0 in tutti gli altri casi. Per calcolare facilmente il rapporto di accettazione, possiamo osservare che l'energia del sistema k esprimibile cosi: H ( x ) = P(n-(x) - nf (2)) dove n+ ed n- indicano rispettivamente il numero di coppie di atomi primi vicini con segno concorde e discorde. Allora, essendo q(x, y ) = q(y, x), il rapporto di accettazione k semplicemente
Ora, se la distribuzione ausiliaria ha scelto l'atomo i, le differenze all'esponente dipendono esclusivamente dai segni dei primi vicini di quell'atomo.
310 . r
.E
Q
Capitolo 8. Applicazioni del rnetodo Monte Carlo 0 LO
cu
V)
2
E 3
z
-o 0 0
Oe+00
4e+04
8e+04
lterazioni
Fig. 8.10. Tracciato della simulazione di Metropolis per il modello di Ising: sono rap~resentatiil numero di spin 1 (linea tratteggiata) e la media campionaria di tale numero a1 crescere delle iterazioni (linea continua)
Indicando rispettivamente con n+(xi) e con n W ( x i )il numero di primi vicini con lo stesso segno di xi e con segno opposto, e tenendo conto che n- (xi) = 4 - n+(xi), il rapport0 di accettazione diviene semplicemente
Fissata dunque una configurazione iniziale qualunque (per esempio scegliendo a caso lo spin di ciascun atomo), per procedere con l'algoritmo basta con-. trollare i segni dell'atomo interessato dal cambiamento e dei suoi vicini. Se g(xii)) 6 il numero di atomi con spin 1 a1 passo i dell'algoritmo, il termine successivo~g ( ~ ( ~ + 'per ) ) il calcolo della media (8.30) k invariato se l'atomo prescelto non cambia spin o si ottiene facilmente aggiungendo 1 o -1 in caso contrario. Dal punto di vista algoritmico, l'indice dell'atomo da cambiare si ottiene generando una variabile uniforme in (0'1) e prendendo il piir piccolo intero i che supera &n2.Dato i, se una seconda variabile uniforme Jz risulta minore della probabiliti. di accettazione
c1
esegue questo algoritmo. si procede a1 cambio di spin. I1 programm di Ising con N = 100 000 Abbiamo eseguito una simulazione del iterazioni, /3 = 0.3 e T = 1, partendo dalla configurazione di tutti spin -1 in un reticolo n x n con n = 20. Supponiamo che ci interessi il numero atteso di atomi con spin 1, quindi g(x) s a d questo numero nella configurazione x . In figura 8.10 abbiamo riportato in linea tratteggiata il tracciato della successione {g(x(i))}. In linea continua compare il tracciato della media campionaria (g(x)) calcolata con un numero crescente di iterazioni. Possiamo notare alcune cose: 1) Dopo qualche migliaio di iterazioni il tracciato { g ( ~ ( ~ )si) )stabilizza e inizia ad oscillare attorno a1 suo presumibile valore atteso.
8.8 Calcolo di integrali definiti
311
2) I1 tracciato della media campionaria tende invece a convergere a un valore costante, che second0 il teorema 8.1 k (g(X)). 3) I1 fatto di essere partiti da una zona di evidente bassa probabilitA (in quanto viene rapidamente abbandonata dall'algoritmo), induce una distorsione nella stima della media, poichk durante una simulazione di lunghezza finita la configurazione di tutti spin -1 non verrh mai raggiunta spontaneamente. L'averla inclusa significa averle assegnato un peso superiore a quello che le compete. Possiamo allora scartare un numero iniziale di iterazioni (per esempio le prime 10 000) per raggiungere una zona di alt a probabilith e iniziare ad accumulare dati da questo punto per il calcolo di M x ) ) . 4) La quantita di dati da accumulare pub essere decisa attraverso il trac, ciato della media campionaria, fermandosi quando quest'ultimo presenta oscillazioni di ampiezza inferiore a una certa soglia (che k soggettiva e dipende dalla precisione che desideriamo raggiungere). 5) La dimensione b dei gruppi per il metodo delle batch means va incrementata sino a quando la autocorrelazione della serie { ( g ( ~ ) ( ~ ) ) i non >l diventi trascurabile. (Per la rappresentazione grafica della autocorrelazione si veda un libro sulle serie storiche, come [4]). Questo pub a sua volta richiedere di aumentare il numero di iterazioni per non avere un numero di gruppi troppo piccolo. 11 nostro esempio possiede proprio queste caratteristiche. Nel caso della figura 8.10, scartando le prime 10 000 iterazioni e tenendo le successive 90000 la stima intervallare (8.31), con b = 4500 (cioi?20 gruppi), 5
Concludiamo con un'importante avvertenza. Potete provare, usando il a fare nuove simulazioni con temperature T inferiori a 1. Trocodice verete ndo la temperatura i? tale che PIT > 0.44 il tracciato di g(x) andrh abbastanza rapidamente verso una delle due mode della sua distribuzione (cioi: g(x) = 0 o g(x) = 400), senza riuscire a passare dall'una all'altra. In situazioni di questo tipo, sebbene il teorema 8.1 continui a valere, non k praticamente possibile effettuare il numero di iterazioni necessarie per visitare le zone di maggior probabilita dello spazio degli stati, e quindi la media campionaria del tracciato non i? affatto una buona stima di quella Vera.
8.8 Calcolo di integrali definiti
'
I1 calcolo numeric0 del valore di un integrale definito, oltre ad essere una delle applicazioni piu note e diffuse del metodo MC, i: anche un tipico esempio di uso delle tecniche di simulazione per problemi che a prima vista sembrerebbero non ammettere un approccio statistico. Come vedremo tra poco, con il
312
Capitolo 8. Applicazioni del metodo Monte Carlo
Fig. 8.11. Rappresentazione grafica del metodo "vinci o perdi": per valutare l'integrale (8.32) si conta quante volte B "colpita" la zona tratteggiata generando a caso punti distribuiti uniformemente nel rettangolo ABCD di base (b - a) e altezza h 2 al valore massimo assunto d a f (x)
metodo MC Q conveniente risolvere integrali multidimensionali, dove gli altri metodi numerici presentano diversi problemi di applicazione. Nel seguito, tuttavia, per snellire e semplificare la notazione, considereremo solo le funzioni di una sola variabile, tenendo presente che tutta la trattazione pub venire molto facilmente estesa a1 caso di funzioni multidimensionali. Vi sono due diversi approcci fondamentali che possono essere utilizzati per calcolare 17integraledefinito I:
utilizzando numeri casuali. I1 primo metodo, detto "vinci o perdi" (in inglese hit o r miss), si basa sull'interpretazione geometrica del valore di un integrale definito come misura dell'area sottesa da f (x) e dall'asse delle ascisse nell'intervallo di integrazione [a, b] (zona tratteggiata di Fig. 8.11). Sfruttando da un diverso punto di vista le proprieta che stanno alla base del metodo del rigetto, possiamo infatti determinare I moltiplicando l'area di un rettangolo che racchiude f (x) per la probabilitA che un punto P qualsiasi a117internodel rettangolo si trovi anche all'interno dell'area sottesa da f (x) Ricordando la relazione (7.37) abbiamo:
I area tratteggiata = area rettangolo ABCD h . (b - a)
(8.33)
da cui: I=pA,
con A = h - ( b - a ) .
(8.34)
Se generiamo all'interno del rettangolo ABCD N punti casuali uniformemente distribuiti (XI,yl), (x2,yz), . . . , (xN,yN), e contiamo il numero Ns di "successi", vale a dire il numero di volte in cui yi 5 <(xi), attraverso il rapporto N s / N otteniamo una valutazione approssimata di p (vedere Fig. 8.11)
8.8 Calcolo di integrali definiti
313
e la stima dell'integrale (8.32) diventa:
Questo valore va considerato come la realizzazione di nuova variabile statistica I ; ~ .Per ricavare l'errore ad essa associato, basta osservare che Ns segue una distribuzione binomiale di media N p = N I I A e varianza Np(1 - p); otteniamo quindi:
I1 second0 metodo di integrazione MC, detto metodo della media o metodo grezzo (in inglese crude Monte Carlo), considera invece x come una variabile aleatoria uniformemente distribuita nell'intervallo di integrazione [a, b]. Sfruttando la definizione (2.67) di valore atteso di una funzione di variabile aleatoria, possiamo scrivere I'identitk
con (f (x)) pari alla media dei valori che la funzione d a integrare assume in [a, bl. Uno dei modi per valutare approssimativamente (f (x)) i3 quello di calcolare la media di N valori f (xl), f (x2),. . . , f (xN), con X I , xz, . . . , X N scelti casualmente ed in maniera uniforme entro [a, b]:
INM
La varianza della variabile statistica viene facilmente ricavata sfruttando le proprietb dell'operatore varianza introdotte nel par. 2.9:
Poich6 f ( X i )ora i3 vista come una funzione della variabile casuale X i , tenendo presente la (8.37) e la (2.48) di pagina 56 otteniarno:
I1 termine all'interno delle parentesi quadrate i? una misura di quanto f(x) si discosta dal suo valor medio nella regione di integrazione, per cui Var[I$] dipende fortemente dalla larghezza del codominio di f (3).
314
Capitolo 8. Applicazioni del metodo Monte Carlo
Esercizio 8.1 IMI'UI."*B.I U~I7:s. X I BXI Calcolare con il metodo
(8.41) Risposta. Nonostante l'apparente semplicith, questo integrale non 2 risolubile analiticamente. La soluzione, ricavabile per via numerics, vale:
Applichiamo i due metodi di integrazione M C presentati i n precedenza , reperibile nelle nostre pagine web [64]. utilizzando la routin a) metodo della media seeondo Ee equazioni (8.38, 8.40) Generando 1000 punti casuali abbiamo ottenuto il risultato I = 1.199 f 1.2. 10W2, riportato anche nella prima riga della tab. 8.3. Come abbiamo gih notato in precedenza, se si vuole ottenere una soluzione molto precisa (per esempio entro qualche per mille) occorre generare u n grande numero di punti, data la bassa velocitci di convergenza del risultato MC ad I . b) metodo "vinci o perdi" (eqq. 8.35,8.36) In questo caso abbiamo h = 1, (b - a ) = 1r/2 e generando sempre 1000 punti, abbiamo ottenuto I = 1.202 f 2.1. risultato con u n errore quasi doppio rispetto a quello precedente. Nella terminologia del metodo MC, si definisce come eficienza programma di simulazione la quantitci:
r]
di u n
in cui SN 6 la stima fornita dal programma e tN il tempo necessario per calcolarla. Nel nostro esempio, dato che il t~ dei due algoritmi utilizzati 2 Tabella 8.3. Confronto tra le stime dell'integrale (8.41) ottenute generando 1 000 punti casuali col codic ed utilizzando i diversi algoritmi MC spiegati
nel testo Algoritmo
IN
Metodo della media Metodo "vinci o perdi" Campion. importanza Camp. stratificato a)proporzionale b)ot timale
1.199 1.202 1.1987
1.2 . lo-" 2.1 . lop2 2.5 . lop3
1.1981 1.19785
1.0 . lop3 6.8 .
OIN
8.9 Camoionamento ad i m ~ o r t a n z a
315
all'incirca uguale , con il metodo "vinci o perdi" abbiamo quindi diminuito di circa 4 volte Z'eSJicienza del programma di integrazione numerics. Tale drfferenza dipende ovuiamente dal particolare zntegrale considerato, m a b facile dimostrare (si veda, ad esempio, [45]) che con l'algoritmo "vinci o perdz" sz ottiene sempre un risultato m e n o preczso rispetto a quello della media. Questo fatto pui, essere compreso zntuitrvamente osservando che, con il metodo "vinci o per&" per ogni punto generato x,, invece di addizionare il corrispondente valore f ( x , ) , viene sommato il valore 1 con probabilztd f ( x , ) . S i sostztuisce cosi una stima a quello che i: il ualore esatto e, per questo, si introduce u n errore supplementare.
8.9 Campionamento ad importanza I1 metodo della media vieme denominato "grezzo", in contrapposizione a tecniche piG raffinate, attraverso le quali si riesce a migliorare, a parit& di N , la precisione del risultato, in accordo con la (7.7), riducendo la vaxianza aT associata alla distribuzione della variabile casuale simulata Ti. Nel caso dell'integrazione, questa operazione viene'relativamente facilitata in quanto aT coincide con la deviazione standard della funzione da integrare (vedere eq. 8.39) ed ogni sua manipolazione B in genere abbastanza semplice. Ad esempio, commentando la (8.40) abbiamo notato che quanto piti grande i: la variazione di f ( x ) nella regione di integrazione, tanto piu elevato s a d anche l'errore sul risultato mentre, a1 contrario, esso diventa piu precis0 quando i valori generati di f (x) non sono troppo dissimili tra loro. Si pub quindi rendere piu precisa la stima di MC di I quando si riesce a trovare una funzione g ( x ) integrabile tale che g(x) T f (z), in mod0 tale da riscrivere I come:
Se supponiamo che g ( x ) sia anche normalizzata entro [a,b], 12 facile concludere che l'eq. (8.44) non rappresenta altro che la media della funzione di variabile casuale f ( X ) / g ( X ), dove X B una variabile aleatoria di densit&g ( x ), in accordo con la (2.67). Possiamo quindi scrivere I come
Denotando con XI, X2, . . . ,X N una campione generato casualmente secondo la densiti di probabilita g ( x ) otteniamo:
'
316
C a ~ i t o l o8. A ~ ~ l i c a z i odel n i metodo Monte Carlo
Invece di generare uniformemente x per integrare f (x), si genera una variabile aleatoria distribuita come g(x) per integrare f (x)/g(z), dando cosi piG peso a quelle parti piG "importanti" di f(x), da cui il nome di campionamento per importanza, dato a questo algoritmo. La varianza finale dipende ora dal rapporto f (x)/g(x) e, richiamando la (8.40), essa risulta:
oppure, in maniera approssimata, come nella (8.40)
Ricordiamo che in queste formule x & campionato.dalla densit2 g(x). Dalla (8.48) si nota immediatamente come la varianza diventi nulla se g(x) = f (x)/I. Sfortunatamente, nei problemi reali, non potremo per6 mai utilizzare tale equazione poichi! occorre conoscere I , che & esattamente il problema da cui eravamo partiti. Tuttavia la (8.48) dimostra quantitativamente come g(x) debba essere scelta il pib possibile uguale ad f (x), per fare in mod0 che il rapporto tra le due funzioni vari in maniera molto limitata nella regione di integrazione e per massimizzare cosi il guadagno in precisione raggiungibile.
8.10 Campionamento stratificato L'idea che sta alla base del campionamento stratificato (stratified sampling), tecnica molto nota ed usata in statistica, i: simile a quella che abbiamo appena descritto: si concentra un maggior numero di punti in quelle zone che sono piG importanti dal punto di vista del calcolo, ma con la differenza che, invece di cambiare la funzione da integrare, si suddivide la regione di integrazione in vari sottointervalli, generando poi punti in maniera uniforme ma con densit2 differenti a seconda del sottointervallo considerato. Dividiamo l'intervallo [a,b] in k segmenti definiti dai punti a = a0 < a1 < a2 < . . . < a k = b e denotiamo con Aj = (aj - aj-1) ed N j la larghezza ed il numero di punti da generare nel generic0 j-esimo sottointervallo. Per le note proprieta di somma dell'integrale, possiamo inoltre scrivere:
8.10 Campionamento stratificato
317
Nel campionamento stratificato, ciascuno degli integrali I j che compaiono nel termine di destra dell'equazione precedente viene approssimato con il metodo della media:
(xijrappresenta l'i-esimo punto generato dalla distribuzione uniforme nel j-esimo sottointervallo) e la stima di I diventa cosi :
in cui con il simbolo ( f j ( X ) )abbiamo rappresentato il valor medio di f (X) nel j-esimo sottointervallo. La varianza globale, che non B altro che la somma delle varianze dei singoli Ij presi separatamente, risulta in base alla (8.40):
(8.53) (a; rappresenta la varianza di $(x) nel j-esimo sottointervallo), oppure, in maniera approssimata:
L'errore sul risultato finale dipende ora, oltre che dall'andamento di f (x), sia dal mod0 in cui si suddivide il dominio di integrazione sia da come si distribuiscono i punti all'interno di ogni sottointervallo. Una volta fissati i vari sottointervalli A j , dalla (8.53) con un procedimento dedurre che la migliore scelta per Nj non molto complicato ma noioso,. si pub si ha quando [I%]:
Questa equazione indica, come era logico attendersi, di concentrare la generazione casuale nei sottointervalli pih Iarghi ed in quelli in cui f (x)presenta le maggiori variazioni. Anche in questo caso per6 tale risultato non B direttamente applicabile in quanto i valori aj non sono ovviamente noti a priori. Per utilizzare la formula precedente, si effettua di solito un breve test preliminare
318
Capitolo 8. Applicazioni del rnetodo Monte Carlo
per ottenere una stima abbastanza corretta di o;. da cui ricavare poi un valore opportuno per N j . Nel fare questo occorre operare un ragionevole compromesso tra il maggior tempo di calcolo necessario e l'aumento in precisione che si riesce ad ottenere sul risultato finale. Quando B troppo lungo o complicato utilizzare questo procedimento, B possibile dimostare (vedere di nuovo [18]) che il miglior mod0 di procedere b quello di generare un numero di punti proporzionale alla lunghezza di ciascun sottointervallo: A. N3. NL ( b - a) ' Questa proprieti pub essere cornpresa intuitivamente se osserviamo che con il campionamento stratificato proporzionale si migliora, rispetto a1 metodo della media, l'uniformitii di generazione dei punti casuali riducendo cosi le fluttuazioni statistiche dovute a loro addensamenti in zone particolari dell'intervallo di integrazione. La lunghezza dei sottointervalli pub invece essere ottimizzata solo quando i punti N j vengono scelti in base all'eq. (8.55) e il dominio di integrazione B contemporanemente suddiviso in un gran numero di strati (vedere sempre [18]), condizioni che non sempre sono in pratica soddisfatte. In caso contrario l solito, per semplificare i non ci sono regole precise di comportamento; d prograrnmi, i sottointervalli A j vengono presi tutti della stessa lunghezza:
. . 8.2 - -=-=xzsqq~.s-~=:~ S-WY - -==--~.zm.=.c--~e--a~~~ Eserclzlo =--% t ~ = a Calcolare l'integrale 8.41 utzlzzzando al campzonamento per zmportanza e quello stratificato. Risposta. a) campionamento per importanza. Dato che i n u n intorno dello zero della funzione senx si ha:
possiamo tentare di approssimare la funzione da integrare (G) con h(x) = fi e di scegliere quindi questa forma per g(x), come mostrato in Fig. 8.12. Abbiamo quindi la densitd nomalzzzata
cui corrisponde la funzione cumulativa:
8.10 Cam~ionamentostratificato
/2
319
Fig. 8.12. confront0 tra le funzionif(x) = + e h ( x ) = fi nell'intervallo [O, 7r/2].
e l'eq. (7.14) di pagina 256 dd come risultato:
Le variabili x generate con questa formula sono utilizzate per il calcolo rule secondo la (8.47). Il calcolo b eseguito dalla nostra routine ato ottenuto con N = 1 000, riportato nella terza riga della tab. 8.3, si nota chiaramente u n miglioramento di quasi u n ordine di grandezza della precisione rzspetto a1 metodo della media. Dato che, pure i n questo caso, il tempo di calcolo b all'incirca uguale per i due algoritmi, il corrispondente guadagno in eficienza risulta essere di u n fattore quasi 100 !P e r applicare questo metodo, g(x) deve avere u n a forma abbastanza semplice (6 necessario conoscere analiticamente la sua primitiva), pur dovendo riprodurre abbastanza bene l'andamento, che pud essere molto complicate, di f (x).Nel caso multidimensionale, per minimizzare il tempo di calcolo, 2: decisamente preferibile che G(xl,2 2 , . . . ,x,) sia u n a funzione separabile:
Le classi di funzioni che soddisfano a queste condizioni sono poche: essenzzalmente, le trigonometriche, le esponenziali, i polinomi di ordine n o n molto elevato e qualche loro combinazione. 6 ) campionamento stratificato. E f e t t u i a m o questo calcolo utilizzando la tecnica di campionamento stratificato uniforme, prendendo sottointerwallz uguali e generando i n ognuno di essi lo stesso numero di punti. Suddividendo il dominio di integrazione i n 20 sottointervalli e generando 1 000 punti abbiamo ottenuto il valore riportato nella quarta riga della tab. 8.38. Rispetto a1 metodo della media, notiamo u n miglioramento
320
Capitolo 8. Applicazioni del rnetodo Monte Carlo
nella deviazione standard di u n fattore 2: 12, il che, tenendo conto di circa un 30% di tempo di calcolo in pi4, si traduce pur sempre in un aumento di eficienza di oltre 2 ordini di grandezza. C o n 10 000 punti e 100 strati abbiamo ottenuto u n risultato notevolmente accurato: I = 1.198154 f 0.000023 .
A paritd di punti e di strati, la precisione pui, essere ulteriormente incrementata se il numero di punti i n ogni sottointervallo viene determinato con il metodo ottimale (eq. (8.55)), come 12 mostrato nell'ultima riga della
Oltre a quelli che vi abbiamo appena presentato, vi sono diversi altri metodi con cui si riesce ad ottenere una riduzione della varianza; chi fosse interessato pub consultare 1501, [51], [71], [68]).
8.11 lntegrali multidimensionali Abbiamo mostrato come attraverso l'uso delle tecniche di riduzione della varianza, si riesce a migliorare, anche in maniera notevole, la precisione sulla stima MC del valore di un integrale definito. Perb, nonostante questi progressi, per funzioni ad una dimensione questo metodo risulta sempre meno efficiente degli altri procedimenti di approssimazione numerica la cui velocith di convergenza va come N P k con k 2 2 La situazione perb cambia quando passiamo a1 caso multidimensionale, poich4 l'errore del metodo MC k indipendente dalla dimensionalith d dell'integrale mentre la precisione delle altre tecniche numeriche varia come ~~~l~ con k 2 (un procedimento che richiede N punti in una dimensione, ne richiederii, a parit& di precisione, N2 in due dimensioni, N 3 in tre dimensioni e cosi via). Inoltre tutti gli altri metodi assumono un andamento polinomiale della funzione da integrare per cui presentano problemi di applicazione in caso di discontinuiti. Per tutte queste ragioni, il metodo MC inizia ad essere conveniente per integrali a 5 dimensioni, diventando l'unico in concreto utilizzabile a 10 o piu dimensioni. Nel caso in cui dobbiate affrontare per la prima volta il problema di calcolare l'integrale multidimensionale:
>
mediante il metodo MC, vi consigliamo innanzitutto di utilizzare dei programmi gi& pronti piuttosto che iniziare a scrivere un vostro codice personale. Sul mercato sono disponibili diversi codici affidabili che sfruttano le tecniche di riduzione della varianza precedentemente introdotte (vedere, ad
8.12 Problemi
321
esempio, [66]). In questi codici, per semplificare e rendere piu affidabile l'algoritmo di calcolo, l'integrazione viene effettuata su un ,domini0 avente limiti di integrazione indipendenti (un ipercubo o u n iper-rettangolo) ottenuto effettuando un opportuno cambiamento di cocrdinate. Se l a trasformazione di coordinate risulta troppo complessa, k preferibile considerare geometricamente l'integrale (8.62) come il volume di u n solido W nello spazio a d l dimensioni ( X I ,. . . , zd, y) ed applicare il metodo "vinci o perdi" che abbiamo introdotto nel par.8.8.
+
8.12 Problemi 8.1. Spesso nei controlli di qualitb si usa lo scarto massimo: si sceglie un parametro caratteristico X, lo si considera come variabile aleatoria normale e si fa la differenza tra i valori massimi e minimi di X riscontrati in un lotto di controllo di n pezzi. Sapendo che lo scarto quadratic0 medio della produzione di X B a = 0.5, scrivere - x,i, a1 di sopra del quale un codice di simulazione per trovare il valore A = x,, scartare la produzione con C L = 99% per un lotto di controllo di n = 100 pezzi. 8.2. Una macchina si compone di cinque pezzi, secondo lo schema di flusso in figura.
I1 sistema funziona se il "flusso di funzionarnento" passa da A a B, cioh se funzionano almeno i pezzi (1,3,5), (2,3,4), (1'4) e (2,5). Sapendo che ogni pezzo pub guastarsi con tempi dati dalla legge esponenziale negativa con valori medi rispettivamente di (tl) , ( t 2 ) , (t4) , ( t 5 )= 3 giorni e (t3) = 5 giorni, determinare con una simulazione il tempo di funzionamento medio dell'apparecchio. 8.3. Modificare la routine di integrazione (utilizzata negli esercizi 8.1 e 8.2) adattandola a1 calcolo dell'integrale della gaussiana standard
(I/&)
lx
exp(-t2/z) dt
e confrontare i dati con quelli di tab. D.l per vari valori di x. Escludere il campionamento ad importanza. 8.4. Utilizzando tutti i metodi di risoluzione discussi nel testo, calcolare con il metodo MC, eventualmente modificando la routine l'integrale
8.5. Calcolare con il metodo MC l'integrale: J:,
J!, J!, ( z : + x ~ + x ~ )dzl dxz dxa .
322
Capitolo 8. Applicazioni del rnetodo Monte Carlo
8.6. Calcolare, col metodo vinci o perdi, l'area dell'ellisse
8.7. Costruite un algoritmo di Metropolis per stimare la media e la varianza di una distribuzione gaussiana standard, usando una simulazione di lunghezza N. Usate come distribuzione ausiliaria una U(-a, a). Estr i un campione di dimensione N da una gaussiana standard con la routine di SCILAB. Confrontate le 2. Ripetete gli esperimenti traiettorie degli stimatori a1 crescere di N c cambiando il valore di a: la velocitk di convergenza delle traiettorie degli stimatori di media e varianza 6 influenzata d a a? E ragionevole usare a > 3? 8.8. Calcolare l'efficienza geometrica del rivelatore in figura, avente una finestra di ingress0 di raggio & = 3 cm, considerando una sorgente piana di lati (22 - - X I )= 4 cm e (ya - yl) = 6 cm, posta ad una distanza h = 5 cm dal rivelatore. La sorgente B radioattiva ed emette particelle in mod0 isotropo second0 gli angoli (0,$) da punti (x, y) distribuiti in mod0 uniforme. Utilizzare la geometria suggerita in figura. particella
del rivelatore I
8.9. La distribuzione di von Mises ha densita
dove Io(c) i: la funzione di Bessel modificata del primo tip0 e di ordine zero. Utilizzare l'algoritmo di Metropolis per generare un campione da questa distribuzione senza calcolare I0 (c).
8.10. Generare diversi campioni dal modello di Ising con /3 = 0.3 e T = 1, accrescendo di volta in volta la dimensione n x n del reticolo. Sulla base del tracciato del numero di atomi con spin 1 e tenendo fisso a 100 000 il numero N di iterazioni, qua1 i: a vostro parere il massimo valore di n per il quale l'algoritmo pub dirsi "funzionante" ?
9. lnferenza statistica e verosimiglianza
" Parlando delIa conseguenza piu probabile, bisogna tener presente che, in reaIt8, la probabilith di passaggio i n stati con entropia maggiore & talmente pi^ grande rispetto alla probabilith di una sua diminuzione piu o meno percettibile, che questa ultima non pub praticamente essere osservata in natura." L.D. Landau, E.M. Lifchitz e L.P. Pitaevskij "FISICASTATISTICA" .
9.1 lntroduzione Nel capitol0 6 vi abbiamo presentato la teoria della stima e la verifica delle ipotesi nell'ambito della statistica elementare: da un insieme di dati si effettua la stima di una quantita (media, probabilita o coefficiente di correlazione) con il relativo errore e il relativo intervallo di confidenza. Successivamente, se necessario, si verifica, attraverso il test X 2 o altri test, la compatibilitb di questa stima con un modello, denominato generalmente ipotesi nulla Ho. In questo schema, che potremmo definire "statico", il modello da verificare i: dato a priori e non & modificato dalle informazioni provenienti dal campione raccolto per effettuare la stima. Si pub perb adottare un approccio piu 'Ldinamico"ed efficiente, che consiste nel determinare, in base ai dati raccolti, il modello di popolazione pid verosimile, nel modificare conseguentemente gli intervalli di stima (che, come sappiamo, possono dipendere dal modello di popolazione assunta) e nell'eseguire quindi il test di compatibilita tra dati e modello. Lo schema k quello di Fig. 9.1, dove la frecce in grassetto indicano le differenze rispetto a1 modello statico, considerato finora. I metodi che consentono di determinare da un insieme di dati il modello di popolazione pih verosimile migliorando la stima dei parametri si chiamano metodi di adattamento ottimale, oppure, second0 la denominazione inglese, metodi di best fit. Nel seguito useremo liberamente questo termine inglese, che i? di uso corrente. L'ottimizzazione del modello sulla base dei dati avviene in pratica quasi sempre assumendo nota la forma della funzione densit2 (binomiale, gaussiana, poissoniana, uniforme o altro) e considerando i parametri caratteristici della
324
Cawitolo 9. lnferenza statistica e verosiminlianza
modello piu' verosimile (ipotesi H )
Fig. 9.1. Stima di parametri e verifica di ipotesi. Le frecce in grassetto indicano le fasi di ottimizzazione del modello
distribuzione quali la media, la varianza o i limiti di esistenza, come parametri
liberi. Nel corso del capitol0 useremo la notazione seguente: se X i: un vettore di variabili aleatorie, ognuna di esse pub dare luogo ad un campione, secondo la def. 2.12 di pagina 61. Diremo quindi che
sono i valori osservati di X = ( X I ,Xz, . . . , X,)
in una prova e che
sono i valori assunti da X nell'i-esima prova. Introdurremo inoltre una nuova notazione, che distingue tra la variabile X ed un campione di dimensione n:
I valori assunti dal campione dopo l'esperimento (dato da n prove) saranno:
Considereremo dunque uno spazio di probabilita (S,F,Po) dipendente da uno o pih parametri, secondo la (6.1) di pagina 172. La densitb da ottimizzare i: pertanto del tip0 p(z; 8), dove 8 = (4,&, . . . ,OP) 6 un parametro p-dimensionale. Ottimizzare la densit&significa allora determinare i valori dei parametri 8 che, fissata a priori una forma funzionale, meglio si adattano a1 campione di dati raccolto. Consideriamo per cominciare una sola variabile aleatoria X e siano z = ( X I , 2 2 , . . . , x,) i valori osservati in n prove indipendenti. Se p(x; 8) & la densit& di X (dipendente da un parametro 8), applicando la legge delle probabilith composte a1 caso di n prove indipendenti effettuate sulla stessa variabile ed il teorema 4.1 di pagina 114, possiamo associare all'osservazione la densitii di probabilitb:
9.2 ll metodo della rnassima verosirniglianza
325
Questo prodotto, visto come funzione di 8, viene detto funzione di verosimiglianza (likelihood function) e, per ogni 8 fissato, rappresenta la probabilitA, a meno dei fattori differenziali sui quali eventualmente integrare, di ottenere i valori g. Nel caso di m variabili, la funzione di verosimiglianza si generalizza in mod0 ovvio tramite le (9.1-9.3):
dove la produttoria si intende estesa a tutti gli n valori sperimentali ottenuti per ognuna delle m variabili X. La definizione generale della funzione di verosimiglianza comprende anche il caso di prove non indipendenti, tuttavia non viene riportata, visto che non prenderemo in considerazione questa eventualita Come vedremo, le proprieta matematiche della funzione di verosimiglianza che interessano in statistica sono le stesse del suo logaritmo. E allora possibile eliminare la produttoria nelle (9.4, 9.5) definendo 1a.nuova funzione
dove va notato il segno - davanti a1 logaritmo. Se si adotta questa convenzione, ad un massimo di L corrisponde un minimo di L. Nel seguito, per semplificare i calcoli, utilizzeremo spesso, invece della funzione di verosimiglianza L, il suo logaritmo negativo L.
9.2 11 metodo della massima verosimiglianza I1 metodo della massima verosimiglianza per la stima di 8 , che nel seguito verr.5 abbreviato con la notazione inglese ML (da Maximum Likelihood), fu introdotto da R.A. Fisher nel 1912. Esso pub essere enunciato nel mod0 seguente:
Definizione 9.1 (Metodo della massima verosimiglianza (ML)). Dat o u n insieme di valori osservati = XI,2 2 , . . . ,x n da u n campione casuale X = (XI, X Z ,. . . , X,) di densitb ipotizzata p(x;8), dove 8 & u n parametro che varia i n u n insieme 6, la stima di massima verosirniglianza 8 di 8 b ik punto di massimo (se esiste) della funzione di verosimigEianza (9.5). Sinteticamente:
326
Capitolo 9. lnferenza statistica e verosimie;Iianza
In alternativa, il principio richiede di minimizzare la funzione logaritmica L della (9.6). In questo caso, il punto di estremo della funzione si ottiene facilmente risolvendo rispetto a 8 le equazioni di verosimiglianza:
Affinchk il principio risulti chiaro, vanno dette subito tre cose:
* prima della prova, la funzione di verosimiglianza L(6; X)i: proporzionale alla densita di probabilitb di (XI,X z , . . . X,). Si ha in generale proporzionalitA e non coincidenza perch6 nella massimizzazione della funzione di verosimiglianza vengono talvolta omessi fattori costanti ininfluenti sul punto di massimo 8; nella massimizzazione della verosimiglianza dopo la prova, si utilizzano i valori osservati a: delle variabili X.Le : sono pertanto parametri fissati e non pih variabili; dopo la prova la funzione di verosimiglianza dipende allora solo dai valori 8 che rappresentano le variabili rispetto alle quali massimizzare (o minimizzare). I1 punto di massimo (o di rninimo) 0 mppresenta la stima ML del parametro che si pub effettuare dai dati. Vediamo ora come funziona il principio. Esercizio 9.1
bilitci p. Risposta. Assegniamo alla popolazione la densitci binomiale (2.30), che per comodith riscriviamo:
Poiche' i n questo caso abbiamo un solo valore, la funzione di verosimiglianza coincide con la binomiale, che va massimizzata rispetto a p, essendo noti e fissati dalla prova eflettuata i valori di x ed n. Poiche' il termine contenente i fattoriali n o n contiene p, esso pub essere trascurato nella fuse di massimizzazione. Minimizziamo per semplicitd la verosimiglianza logaritmica (9.6), che in questo caso diventa:
Il minimo rispetto a p si trova annullando la derivata: dL x - --+-
n-x
dp
1-P
P
=o,
da cui risulta, utilizzando la notazione della (9.7):
9.2 11 metodo della massima verosirniglianza
327
I1 risultato mostra che la stima ML della probabilit&coincide con la fiequenza osservata. All'inizio del libro abbiamo postulato l'esistenza della probabilitb e la convergenza ad essa della frequenza empirica, come indicato nella (1.3). Alternativamente, avremmo potuto assumere come punto di partenza la stima ML e da questa dedurre la (1.3). In eEetti, la (9.9) i:un caso particolare di questo principio: gli stimatori fondamentali della statistica possono essere dedotti assumendo come punto di partenza il metodo ML. Nel seguito vedremo presto altri esempi di questo fatto. I due esempi che seguono vi mostreranno una funzione di verosimiglianza prodotto di densita. Esercizio 9.2 ~~ Due esperimenti hanno fornzto rispettzvamente X I successi su nl tentativi e xz successi su n2 tentativi. Trovare la stzma ML di p. Risposta. Operando come nell'esercizio precedente, possiamo scrivere, a meno di fattori costanti inessenziali, la funzione ML come il prodotto di due binomialz aventi la stessa probabilitb pr
Operando con i logaritmi otteniamo:
da cui:
Risposta. Dato che abbiamo a che fare con n misure, la funzione di verosimiglianza b il prodotto di n gaussiane aventi tutte gli stessi parametri p e f7 :
328
Capitol0 9. lnferenza statistica e verosirniglianza
La verosimiglianza logaritmica (9.6) i: pertanto:
la quale fornisce, tramite l'annullamento delle derivate, le stime richieste:
dove nella stima della varianza sz b dovuta sostituzre alla medza p la soluzzoq e del szstema fi = m. E interessante notare che la stzma ML della media coincide con la media m usata zn statistica, mentre la stima ML dz a2fornasce lo stimatore (6.49) che b corretto solo aszntoticamente. dAm&:-y=-zc<~*m~~*--s=y-t-~~*&--==r-----~~-+*-S--=-*P-~-&E--~* --
: -" -
Quando la funzione di verosimiglianza F: derivabile rispetto alle componenti di 8, il metodo ML si riduce ad un problema di analisi differenziale. Tuttavia, le componenti di 8 possono essere discrete oppure, pur essendo continue, possono non ammettere derivate continue. Bisogna allora ricorrere a metodi alle differenze finite o a considerazioni di estremo che dipendono dal tip0 di problema. L'esercizio seguente ne B un esempio
1
per a < x < b , per
% < a ,x>b .
ha dato glz n valori
Trovare la stima ML degli estremi a e b.
.
Risposta. Avendo ordinato i valori i n ordine crescente, deve valere la condizione: a<xl, b>zn.
La funzione di verosimiglianza (9.5) ha 17espressione:
9.2 11 metodo della massima verosimiglianza
ipotesi
329
1r-- Osservazione
\..__.___.
___-.._..I
osservazione x
Fig. 9.2. Giustificazione intuitiva del metodo della massima verosimiglianza: la densit&migliore B quella in grassetto, rispetto alla quale il prodotto delle ordinate B massimo
I n questo caso, pur avendo a che fare conparametri continui, il rnassimo della funzione n o n pud essere trovato per digerenziazione. Dato che la funzione di verosimiglianzu in questo caso i: massima quando 2 minimo il denominatore, la stima ML di a e b coincide rzspettivamente col pi&.piccolo e col pi& grande dei valori osservati: 6=x1, b=xn.
E importante notare che la parte rimanente dei valori osservati:
n o n fornisce alcuna informanone alla stima dz a e b. Dato che gli estremi zl e xn contengono tutta l'znformazione per la stima, essi formano una statistica
sufficiente per (a, b) . I1 concetto di statistica suficzente surd svaluppato in maggiore dettaglio nel prosszmo paragrafo. *qhrd srA,j i#vpt 8rdjr- j j r - +yrn r,,-7 . r = , b l r F,,I~--?~q~==-,,rr,m=qq-~=r+ b@
-
-v~::-,
W~--,~:V~*--~.~-
Abbiamo mostrato in cosa consiste il metodo ML e quali risultati fornisce. Riteniamo per6 utile suggerirvi un argomento intuitivo che spiega, come risulta dagli esercizi precedenti, perch6 il metodo funziona, cioB come mai esso fornisce delle stime ragionevoli dei parametri. Osservate la Fig. 9.2, dove il process0 di massimizzazione della funzione di verosimiglianza viene schematizzato come uno scorrimento della densit& sull'asse delle ascisse (variazione dei parametri legati alla media) e come un suo allargamento o restringimento (variazione dei parametri di dispersione). I valori osservati sono sull'asse delle ascisse, rappresentati dai punti in grassetto; essi si addenseranno in una o piu regioni, con qualche valore disperso nelle d t r e zone. La funzione di verosimiglianza B data dal prodotto delle ordinate dei dati osservati calcolate attraverso la finzione di densitci. Come si vede dalla f i p r a , il massimo di
330
Cawitolo 9. lnferenza statistica e verosirnidianza
verosimiglianza si ottiene quando la densith & "aggiustata a1 meglio" sui dati. A questo massimo corrisponde la stima ML dei parametri. E ora arrivato il momento di compiere un piccolo sforzo di astrazione e studiare i risultati fondamentali della teoria degli stimatori. Dopo questo passaggio, che faremo nei prossimi due paragrafi, la teoria della stima vi apparira piti chiara e probabilmente anche piti interessante.
9.3 Propriet5 degli stimatori In questa sezione, le definizioni sono date per 8 scalare, ma la 9.2, la 9.3 e la 9.4 valgono senza modifiche anche per parametri multidimensionali. Per cominciare, torniarno alla definizione di stimatore, cui avevarno accennato brevemente nel par. 2.11. Definizione 9.2 (Stimatore). Dato u n campione X di dimensione n da una variabile aleatoria m-dimensionale X con densitb p ( X ;B ) , 0 E O , si dice stimatore del parametro 8 m a statistica (secondo la definizione di pug. 62):
Tn(X) con valori i n O .
-
L(X)
(9.10)
Lo stimatore B quindi definito come una funzione T : S + O che porta dallo spazio campionario S a110 spazio O dei parametri, utilizzata per stimare 8. Come sappiamo, la media M e la varianza S2di un campione sono stimatori dei parametri p e c2.Le convenzioni che useremo per stimatori e statistiche sono le seguenti: Tn (oppure T) Q una variabile aleatoria data dalla (9.10), tn(. . .) 6 la forma funzionale in esame, t, (oppure t) Q un valore assunto da T, (o T) dopo una prova. Uno stimatore ragionevole dovrebbe avvicinarsi sempre piti a1 vero valore del parametro con l'aumentare delle osservazioni. Una proprietk desiderabile in questo senso 6 la consistenza: Definizione 9.3 (Stimatore eonsistente). Uno stimatore Tn del parametro 8 4 detto consistente se converge in prohabilztci verso 8 secondo la (2.72) : lim P{IT,-81<e)=1, Ve>O. (9.11) n+cc
Come si vede, la consistenza dello stimatore richiede solo la convergenza in probabilith, anche se, per i casi considerati in questo testo, vale anche la convergenza quasi certa della (2.73). L'insieme delle soluzioni delle equazioni di verosimiglianza (se si ha un massimo), che abbiamo indicato come 8, costituisce una famiglia di stimatori del parametro 8. Utilizzando il valore atteso di uno stimatore (si veda il par. 2.11 per questo importante concetto), dalla disuguaglianza di Tchebychev (3.90) B facile mostrare che una condizione sufficiente perch6 valga la (9.11) B
9.3 Proprieta degli stimatori
lirn (T,)
n+co
(9.12)
= 0
lim Var [T,] =
n+co
331
lim ((T: ) - ( T , ) ~ )= 0 .
n+co
(9.13)
Se n rimane finito, & lecito attendersi che anche la media Vera della distribuzione degli stimatori Tn sia pari a 8. Tuttavia, non sempre questa condizione si verifica: un esempio che abbiamo gi8 discusso pic volte 6 quello della varianza carnpionaria non corretta (6.49). E quindi necessario introdurre la
Definizione 9.4 (Stimatore corretto o non distorto (unbiased)). Uno stimatore T, di u n parametro 0 k corretto quando
I n caso contrario lo stimatore k detto distorto (biased) e si ha (Tn)=
+ bn ,
(9.15)
dove b, viene detto errore sistematico (bias). Qualora non valga la (9.14) m a la (9.12) resti valida, allora lim b, = 0
n-+w
e lo stimatore si dice asintoticamente corretto. La varianza (6.49) & uno stimatore consistente, distorto e asintoticamente corretto. Dopo la consistenza e la correttezza, la terza proprieth importante di uno stimatore it l'efficienza.
Definizione 9.5 (Stimatore pih efficiente). Dati due stimatori corretti Tn e Q , di uno stesso parametro 8, si dice che T, b pi& eficiente di Q, se vale la relazione: Vx[T,]
Definizione 9.6 (Statistica sufficiente). La statistica S, si dice sufJiciente se la funzione di verosimiglianza (9.5) pud essere fattorizzata nel prodotto di due funzioni h ed g tali che:
332
Capitol0 9. lnferenza statistica e verosimiglianza
dove la funzione h(:)
n o n dipende da 8.
Nel caso di un parametro multidimensionale, la funzione g si scriue come g (s,(:), q,(g), . . . , 8 ) e si dice che le statistiche S,, Q,, . . . sono congiuntamente suficienti per 0. Su alcuni testi, la 9.17 b riportata come teorema di fattorizzazione. Infatti, la definizione di sufficienza viene talvolta espressa in termini molto generali e successivamente la (9.17) viene dimostrata essere una condizione necessaria e sufficiente per la validit& della sufficienza. In questo testo noi adottiamo il teorema di fattorizzazione come definizione di sufficienza. In pratica, la statistica sufficiente contiene tutte le informazioni sul parametro che si vuole stimare. Infatti, derivando la (9.17) rispetto a % per ottenere il massimo di verosimiglianza, la funzione h(:) gioca il ruolo di una semplice costante, ed b pertanto ininfluente nella stima di 8.Risulta altresi chiaro che, se S i: una statistica sufficiente, una statistica Q = f (S),dove f 6 una funzione invertibile di S, i: anch'essa sufficiente, poichR la funzione di . verosimiglianza pub essere scritta nella forma
Un buon esempio di statistica sufficiente, discusso nell'esercizio 9.4, i: dato dai valori estremi di un campione estratto dalla densit&uniforme. Un esempio di statistiche congiuntamente sufficienti i! dato invece dagli stimatori di media e varianza per campionamenti gaussiani:
Infatti, dall'esercizio 9.3 si ha:
da cui:
con h che in questo caso i! una costante. Questa trattazione formale corrisponde a1 fatto pratico, ormai a voi ben noto, che per stimare media e varianza di un campione basta calcolare la media dei quadrati e il quadrat0 della media.
9.4 Teoremi sugli stimatori
333
9.4 Teoremi sugli stimatori In questo paragrafo abbiamo raccolto tutti i risultati importanti della teoria degIi stimatori ML ed il teorema sul limite inferiore di Cram&-Rao, valido anche per altri stimatori. Considereremo per semplicita popolazioni con densit2 di probabilith p(x;0 ) dipendente da un parametro scalare 0. Tuttavia le formule restano valide anche nel caso di un vettore di parametri, se si sostituisce a 8 il vettore 8 e alla derivata parziale 8 / 8 6 quella d/8Ok rispetto a un qualunque elemento k-esimo del vettore 19.La generalizzazione a piil parametri sarh discussa solo nei casi in cui essa non 6 del tutto ovvia. I1 primo teorema collega gli stimatori ML alle statistiche sufficienti, mostrando che la statistica sufficiente B quella che condensa nel mod0 migliore le informazioni su 9 contenute nei dati. Teorema 9.1 (Statistiche sufficienti). Se S , = s,(.X) 6 una statistica suficiente per 8, lo stimatore ML 8, se esiste, 6 sempre funzione di S,. Dimostrazione. Dalla (9.17) risulta che L(0;): ha il massimo 8 nel punto i n cui g (s),(: 0 ) ha il suo massimo e questo punto evidentemente pud dipendere da : solo attraverso s,. I1 teorema si estende facilmente ad u n insieme di statistiche congiuntamente suficienti. 0
Teorema 9.2 (Riparametrizzazioni).Se 7 E H k u n parametro funzione di u n altro parametro 9 attraverso una funzione biunivoca g : O + H
la stima ML di q 12 data da: 7j =
dove
6
,
k la stima ML di 9.
Dimostrazione. Dimostriamo innanzi tutto che 7 e 0 hanno la stessa funzione di verosimiglianza. Infatti, dato che g k invertibile abbiamo:
dove si 6 evidenziato il fatto che l'uguaglianza si realizza attraverso due forme funzionali diverse, Le ed L,. Ad esempio, se 7 = In B e 0 6 la media di una gaussiana, si ha: 1 (x- e,)2 Notiamo pure che questa trasformazione n o n dh luogo aEle complicazioni viste nel caso delle variabili aleatoric, dove occorreva anche cambiare gli elementi diferenziali attraverso i determinunti jacobiani, perch6 cid che si trasforma sono i parametri, non le variabili.
334
C a ~ i t o l o9. lnferenza statistics e verosiminlianza
Poichk, per definizione: per ogni 6
~ ~ )(: 8 2; Lo(@; ):
,
e O 6 i n corrispondenza biunivoca con H tramite g , applicando la (9.21) ad entrambi i membri della dzsuguaglianza, si ha:
e quindi fj = g(e)
.
Questo teorema i: molto utile: ad esempio, tutte le quantitb funzioni della media campionaria possono essere considerate come risultato di stime ML. Supporremo ora che valgano le seguenti propriet8, dette di regolarit8: 0 B un punto interno di O ; la funzione p(x; 8) i! una densit&di probabilitb per ogni 0 E O; l'insieme {x : p(x; 8) > 0), (il supporto della densit8) non dipende da 0; # &, allora esiste almeno un insieme B E .F per il quale JB p(x; 81) dx # 0 se JB P ( X ; '2) dx; p(x; 8) i: derivabile per ogni 0 E O ; a le operazioni di integrazione o somma in x e di derivazione rispetto a 6 possono essere scambiate due volte. 0
Trattando in termini di verosimiglianza, per mantenere le idee chiare occorre sempre chiedersi se il ragionamento i:svolto considerando L(6; X)come funzione aleatoria di X essendo 8 fisso o come funzione del parametro 8 per una osservazione particolare g. Se utilizzerete questo accorgimento, facendo attenzione alla notazione maiuscola o minuscola, la lettura di cib che segue vi risulter8 pic facile. Ad esempio, tutte le medie del tip0
x)
con un certo 8 si riferiscono alle funzioni delle variabili aleatorie In L(8; fissato, mentre il metodo ML si applica all'insieme di valori osservati : e considera la verosimiglianza funzione di 8. I1 teorema piti importante sulla varianza di uno stimatore i! quello formulato dagli statistici Cram& e Rao negli anni 1944-45, che ne stabilisce un limite inferiore. I1 teorema non B difficile, se si tengono presenti alcune relazioni fondamentali. La prima relazione utile si basa sul fatto che, se valgono le condizioni di regolarith, la densit& di probabilitA B normalizzata indipendentemente da 6:
9.4 Teoremi sugli stimatori
335
e quindi:
Da questa relazione si pub poi dimostrare che:
Infatti:
Ovviamente vale anche la relazione:
La (9.23) mostra che la derivata rispetto a 6 del logaritmo di una densith, detta score function, i: sempre una funzione di X a media nulla. La varianza della "score function", che viene chiamata inforrnazione attesa di Fisher per 8 contenuta nella distribuzione di X, e viene generalmente indicata con I ( B ) , in base alla (2.66) di pagina 59, B data da:
Si noti che vale la relazione notevole:
Infatti:
dove si i: usata la (9.24). Va ben tenuto presente che le fondamentali relazioni (9.22 - 9.26), sono valzde per qualunque densitci che soddisfa le condizioni di regolarith indicate
336
C a ~ i t o l o9. lnferenza statistics e verosimidianza
a pag. 334. Vi consigliamo di fare qualche esercizio e verificarle per alcune delle densitb note, come la binomiale e la gaussiana. Fatto pure importante, queste relazioni valgono anche per la funzione di verosimiglianza, che, come sappiamo, a parte un fattore costante, B la densitb di probabilitb di un campione di dimensione n di una o pih variabili aleatorie. Per esempio, l'informazione di Fisher su 0 contenuta nella verosimiglianza B legata a quella contenuta in p(xi;0 ) dalla cruciale relazione, analoga alla (9.25):
dove si sono utilizzate le (5.81, 9.5, 9.25) e si B tenuto conto che il campione consiste di n realizzazioni indipendenti della variabile X. Un'ultima relazione utile riguarda un qualunque stimatore (corretto o distorto) Tn di 0:
dove r ( 0 ) = (T,) e ~ ( 0 si) suppone derivabile rispetto a 0 . Osservate che ~ ( 0= ) 0 se lo stimatore B corretto e che l'ultimo membro della (9.28) in questo caso vale 1. Dall'equivalenza tra funzione di densit& del campione e funzione di verosimiglianza e dalle condizioni di regolaritb, si ha:
Siamo ora in grado di dimostrare il
Teorema 9.3 (Limite di Cram&-Rao). Sia p(x;0 ) la densitd di probabilitd di X e sia Tn u n o stimatore di 0 di varianza finita basato sul campione X . S e 7 ( B ) = (Tn) i derivabile e l'informazione I ( 0 ) (9.25) della densit6 p rests finita per ogni 0 , la varianza dell0 stimatore n o n pub m a i essere minore di ~ ' ( 0 ) ~ / { n I ( 0 ) ) :
9.4 Teoremi sugli stimatori
331
Dimostrazione. Dalle (9.29, 9.28) risulta:
Elevando al quadrato questa espressione ed applzcando la disuguaglianza (4.2) di Cauchy-Schwarz, si ottiene:
Dalla (9.27) si ottiene allora:
( ( T , - Q ) ~z) Var[T,] 2
T' (0)
----- .
nI(Q)
Se Tn e uno stimatore corretto di 0, il limite inferiore di Cram&-Rao diventa l / { n I ( Q ) ) .I1 teorema di Cram&-Rao, stabilendo un limite inferiore alla varianza di uno stimatore, permette di valutarne l'efficienza in mod0 quantitativamente preciso. Infatti lo stimatore corretto ideale, in base alla definizione 9.5, sarB quello a varianza minima, ovvero lo stimatore per il quale vale la relazione:
Questo stimatore, tra quelli ~orretti,viene considerato come il pic efficiente o come i1 miglior stimatore. E anche ovvio definire l'efficienza di un generic0 stimatore corretto come: E
( T )= Var [T,] n1 ( 8 ) .
(9.33)
Per il miglior stimatore corretto vale la condizione E ( T )= 1. Uno stimatore che non sia il piti efficiente viene anche detto non ammissibile. Se l'informazione i:grande, allora la varianza dello stimatore piti efficiente, ovvero l'zntervallo di confidenza ottimale di 8 , risulta piccolo. Questo spiega la denominazione di inforrnazione data ad I . Nel caso di un parametro pdimensionale 0, stimato da T,(X) in mod0 corretto, la generalizzazione della (9.32) fornisce la matrice delle varianze e covarianze di T,, il cui elemento ( i ,j ) 5 dato da:
dove Ti, i = 1,.. . ,p, ii la i-esima componente di T,
338
Capitol0 9. lnferenza statistica e verosimiglianza
Esercizio 9.5
Trovare 17informazione sulla probabilitd contenuta nella miale e quella sulla media nel caso delle distribuzioni di Poisson e di Gauss. Che considerazioni vi suggeriscono i risultati ottenuti? Risposta. Indicando con b(x;p ) , p ( x ; p ) e g ( x ; p, a ) rispettivamente le densitd binomiale, poissoniana e gaussiana, dalle (2.30, 3.14, 3.28) si ottiene facilmente:
Notate che queste funzioni sono vam'abili aleatorie, perch6 funzioni di X (indicato con lettera maiuscola). Derivando rispetto ai parametri di interesse si ottiene:
Poiche' a1 numeratore di tutte queste derivate compare la diflerenza X - p, esse hanno media nulla, i n accord0 con la (9.23). L'informazione pub ora essere calcolata applicando la (9.26) alle (9.35), utilizzando il quadrat0 della derivata prima o la derivata seconda, come 6 pi& conveniente:
dove si b usata la solita relazione a2 = ( ( X - P)~)e l'espressione esplicit a della varianza per le tre distribuzioni considerate (si veda ad esempio la Tab. 3.1 di pagina 103). Quali considerazioni suggeriscono ora questi risultati? P e r prima cosa, vediamo che i n genere l'informazione C proporzionale all'inverso della varianza: u n a densitci "stretta", con valori poco dispersi intorno alla media, avra informazione elevata, come C intuitivo. Inoltre, se introduciamo lo stimatore "frequenza"
9.4 Teoremi suali stimatori
339
che stima la probabilith sulla base di u n solo valore del numero di successi X e lo stimatore '(media campionaria"
che stima la media p sulla base di di n ualori X , vediamo che per questi stimatori il limite di Cram&-Rao coincide con I'errore statistic0 ricavato per questi stimatori nel cap. 6:
Questo errore viene ualutato, per grandi campioni, con l'approssimazione p ri f e a2 -. s 2 , la quale dd luogo agli intervalli di stima (6.23, 6-40), ormaz a voi ben noti. N e deduczamo che la frequenza b lo stimatore mzgliore della probabilitd che compare come parametro nella densitd binomiale e che la media campionaria i? lo stzmatore migliore della medza delle dzstmbunoni poissonzana e gausszanu. #dl-71&r- ~ B , , Y-:!OW-
:JF=-~
-
R -d.m---a~~~h~r-=-.,~,---A9 r ~
-+;r-Tc+-L%
Tm--Te~Tw~--~Tap---~~p-q8~--~~l~
Veniamo ora a1 teorema cardine, quello che assegna a1 metodo ML il ruolo fondamentale nella stima dei parametri. Teorema 9.4 (Stimatore piiz efficiente). S e T, 6 u n o stimatore n o n di-
storto di r ( 0 ) a varianza m i n i m a (il miglior stimatore), esso coincide con lo stimatore di massima verosimiglianza, se questo esiste:
Dimostrazione. Per il miglior stimatore vale il limite di Cramkr-Rao, che b dato dal limite inferzore della (9.29):
Questa relazione
t?
soddisfatta se e solo se
340
Capitoto 9. lnferenza statistica e verosimiglianza
Infatti, elevando a1 quadrat0 la (9.38), passando a1 valore atteso e ricorrendo alla (9.27) si ottiene facilmente la (9.37). Viceversa, se vale la (9.371, vale anche la disuguaglianza di Cauchy-Schwarz ] qualche (9.31) come uguaglianza stretta, per cui d In Ll80 = c [Tn- ~ ( 0 )per costante c. Tenendo conto anche della (9.30) possiamo scriuere:
da cui c = n I ( 8 ) / ~ ' ( 0e) la (9.38). Se ora fissiamo le x e consideriamo 0 variabile, la stima ML si ottiene annullando la (9.38): d l n L - n1(8) -- -[T, 80
~ ( e " ) ]= 0 ,
da cui
T, = 7(0) .
In
[7'(8)]2
Passiamo ora alle proprietb ashtotiche degli stimatori ML, la prima delle quali B la consistenza. Mostriamo che questa sussiste con un'argomentazione euristica; una dimostrazione rigorosa pub essere trovata in [22] o anche in [I, 281. Le (9.23, 9.26) mostrano che, per la legge dei grandi numeri (si veda a pagina 203), 1 dlnL 1 dlnp(zi;0) -n
86'
=-C n
i=l
80
converge in probabilitb (e anche quasi certamente) a
e che
converge in probabilitd (e anche quasi certamente) a
se 6' i3 il vero valore del parametro. Questo indica che, a1 crescere di n, la derivata prima della funzione di verosimiglianza nel punto B tende in probabilitb a zero e che la derivata seconda B negativa in probabilit8. Siamo quindi indotti a pensare che la distanza tra 0 e il punto di massimo della logverosimiglianza 8 tenda in probabilith a zero, il che corrisponde appunto alla consistenza dello stimatore ML.
9.4 Teoremi sunli stimatori
341
Consideriamo ora una serie di esperimenti, in ognuno dei quali si ottiene un valore x e si m_assimizza la funzione di verosimiglianza rispetto a 8. L'insieme delle stime Bi cosi ottenute forma un campione della uariabile aleatoria 0. Se eseguiamo una serie infinita di esperimenti, otterremo la distribuzione di 8. Avri una densiti gaussiana? I1 teorema di normaliti asintotica, assicura che, se la dimensione n del carnpione i: sufficientemente grande, la risposta i? affermativa. Della dimostrazione diamo solo un accenno, evitando in particolare di trattare con precisione i termini trascurabili (secondo la convergenza in probabilith) negli sviluppi in serie di Taylor. Sviluppiamo la derivata del logaritmo di L nell'intorno del valore vero 0, considerando per semplicit2 una sola variabile aleatoria X:
Se n i! la dimensione del campione, possiarno scrivere:
Poichk vale l'ipotesi di consistenza dello stimatore ML, per n sufficientemente grande (8 - 0) diventerh piccolo e nella (9.40), se i valori medi delle derivate restano limitati (condizione di regolariti), si possono trascurare..i termini di ordine superiore a1 primo. Inoltre, considerando che per 8 = B la derivata prima di In L si annulla, la (9.40) diventa:
La precedente relazione pub essere riscritta come segue:
Per il teorema Limite Centrale, il numeratore al primo membro converge in distribuzione ad una gaussiana standard, mentre, per la legge dei grandi numeri, il denominatore converge quasi certamente a 1. Si pub poi mostrare che da cib discende la convergenza in distribuzione ad una gaussiana per l'intero rapport0 a1 primo membro, e quindi cib vale anche per il secondo membro, che consideriamo identico a meno di termini trascurabili. Scriveremo dunque che, per n grande, si ha approssimativarnente
342
Capitolo 9. Inferenza statistica e verosimiglianza
Possiamo enunciare finalmente l'importante Teorema 9.5 (Normalith asintotica). S e valgono le condizioni di regolarith enunciate a pug. 334, gli stimatori ML sono asintoticamente normali con valore atteso pari a1 vero valore del parametro e hanno eficienza asintotica pari a 1.
Dimostrazione. La (9.41) mostra che lo stirnutore 8, per n grande, si distribuisce in mod0 normale, con media 0 e varianza data dal limite di Cram&0 Rao (9.29). In pratica, i valori di n per cui vale l'approssimazione gaussiana della distribuzione di 8 dipendono dal tip0 di densitb campionaria p ( z ; 0) e dal tipo di stimatore. Nel caso della media campionaria la normalit2 viene raggiunta, come sappiamo, molto rapidamente (n > 10). Per altri stimatori, come la varianza carnpionaria, la convergenza verso la normale 8 molto pih lenta. Gli argomenti appena visti mostrano che il metodo ML fornisce stimatori consistenti, asintoticamente corretti (con un fattore di distorsione O(l/n), come nell'esercizio 9.3), asintoticamente normali con varianza data dal limite di Cram& -Rao. Stimatori di questo tip0 sono detti BAN ( B e s t Asimptotically Normal). Queste proprietb fanno della massima verosimiglianza il metodo pi& usato in statistica per la stima puntuale dei parametri, in tutti quei casi in cui 6 nota a priori la densitci p ( x ; 8 ) .
9.5 lntervalli di confidenza La stima puntuale dei parametri attraverso la massimizzazione della verosimiglianza fornisce anche gli elementi per effettuare la stima per intervalli. Infatti, come abbiamo visto: a) dal teorema 9.5, (0 - 6 ) B asintoticamente normale con media nulla e varianza l/[nI(O)]; b) nel dimostrare il teorema 9.5, si i! visto che ( a h L / N ) ha media nulla, varianza nI(0) e distribuzione approssimativamente normale per n grande. Questi due metodi danno in pratica gli stessi risultati. Se si utilizza l'informazione stimata 1(0) invece di quella attesa (che corrisponde a porre, in statistica elementare, s 2 v), si trovano in genere gli intervalli di confidenza gib visti nel cap. 6. La distorsione dell'intervallo introdotta da questa approssimazione B studiata in dettaglio in [28] ed i: dell'ordine di l / n . Potete approfondire un pol questi aspetti risolvendo il problema 9.8. Vediamo ora in dettaglio un terzo metodo per la determinazione degli intervalli di confidenza, che B di fondamentale importanza nei casi multidimensionali. Vi anticipiamo la conclusione, che 6:
9.5 lntervalli di confidenza
343
c) la variabile 2[ln L( 8) - In L(8)] si distribuisce asintoticamente come x2(p), dove p 6 la dimensione di 8. Per sernpliciti, consideriamo un'approssimazione asintotica di 211n ~ ( e-) In L(0)] nel caso monodimensionale, espandendo il logaritmo negativo di L(0) attorno a 8, quando 0 i: il vero valore del parametro, fino a1 secondo ordine. Evitando ancora di trattare dettagliatamente i termini trascurabili secondo la convergenza in probabiliti, si ha:
L (6)
21
1 2
L (8) + CI(0) (6 - e) + - CII(e)(0 - @2
I1 termine d'errore nella prima riga, che 6 0(8 - 8)" viene trascurato grazie alla consistenza di 8, la quale giustifica anche la sostituzione di 8 con 8 nell'argomento di C"; per l'ultimo passaggio si i: invece utilizzata la legge dei grandi numeri. Possiamo quindi scrivere 2[1n ~ ( 8 -) ln ~ ( 0 )E ] n1(0) (6 - 0)2
(9.42)
Operiamo ora una riparametrizzazione tramite una funzione invertibile q(0) tale che si abbia nIq(q) = 1;la funzione q(.) che possiede questo requisito B una qualunque primitiva di Jnl(e). La (9.42), riformulata in termini di diventa: lnL,(ij) - ln L,(q)
1
E
(fj - qI2 .
In virtii del teorema 9.5 e della riparametrizzazione effettuata, sappiamo che, approssimativamente, f j N(q, I), percib, gli intervalli di confidenza per di semiampiezza pari a una o due deviazioni standard sono rispettivamente 7j % 1 ed f j 3~2, con un livello di confidenza (approssimato) del 68.3% e del 95.4%. Grazie alla (9.43), gli estremi di intervalli con lo stesso liveilo di confidenza si trovano risolvendo rispetto a q le equazioni
I1 medesimo risultato si ricava osservando che (fj - q)' X2(1), poich6 (fj - q) ha distribuzione gaussiana standard. Allora, se 1- a = CL i: il livello di confidenza, gli estremi dell'intervallo corrispondente saranno dati da quei valori q tali che: (9.44) , 2 (lnL,(fj) - In L,(d) =
x m
dove xi(1) B il quantile di ordine a della distribuzione x2 con un grado di liberti. Se a = 0.683, x t ( 1 ) = 1.00, il che ci riporta a risolvere rispetto a q l'equazione [In L,(7j) - In L,(q)] = 0.5.
344
C a ~ i t o l o9. lnferenza statistics e verosimiglianza
Fig. 9.3. Determinazione degli intervalli di confidenza nella stima ML di un parametro
Abbiamo dunque trovato una riparametrizzazione che produce intervalli simmetrici attorno a fj con livelli di confidenza propri della distribuzione gaussiana. Ora perb viene il bello del ragionamento: non 6 necessario effettuare la riparametrizzazione, basta sapere che esiste. Infatti, grazie a1 teorema 9.2, sappiamo che numericamente le verosimiglianze Ls ed L, sono uguali; basta allora utilizzare la verosimiglianza originale Lo e trovare i valori 81 e 62 per i quali (9.45) 24111L ] 2 (In L(@ - ln ~ ( 6 )=) x i ( l ) ,
-
ed ottenere cosi l'intervallo di stima di 6
Per determinare ad esempio gli intervalli con CL = 68.3% e C L = 95.4%, si trovano gli estremi che danno 2A[lnL] = 1 oppure 2A[ln L] = 4. Per una applicazione di questo metodo, si veda il problema 9.8. E quindi possibile, se la funzione di verosirniglianza 6 sufficientemente regolare, trovare gli intervalli ed i relativi livelli di confidenza. I livelli di confidenza sono gaussiani ma n o n corrispondono ad intervalli gaussiani, poichB in generale risultano asimmetrici rispetto alla stima puntuale 6. Gli intervalli che si avvicinano maggiormente a quelli gaussiani sono quelli del parametro trasformato 7 della (9.19), della cui esistenza sappiamo e di cui ci siamo serviti per determinare la variazione della verosimiglianza in funzione dei livelli di confidenza. La situazione i:schematizzata in Fig. 9.3. La consistenza di 8 assicura comunque che, aumentando n, anche l'intervallo di stima (9.46) tende ad essere simmetrico rispetto a 6. Nel caso di un parametro pdimensionale 0, la frontiera dell'insieme di confidenza si trova utilizzando la condizione equivalente alla (9.45):
dove Xi6 il quantile corrispondente a1 live110 di confidenza CL assegnato e la distribuzione asintotica 2A[lnL] i: X 2 ( p ) . I valori Xi,in funzione dei
9.6 11 metodo dei minirni auadrati e la massima verosirninlianza
345
gradi di libertA, si leggono in Tab. D.4 di pagina 484. Dalla tabella si vede ad esempio che, con due gradi di liberta, le regioni racchiuse dai contorni 2A[ln L] r! 2.4 ed 2A[h L] E 6.0, corrispondenti rispettivamente a CL -. 68% e CL E 9576, sono equivalenti ai valori di 2A[ln L] 1 e 2A[ln L] E 4 per il caso monodimensionale. La (9.47) richiede la esplorazione numerica delle ipersuperfici X2 ed k in genere di difficile applicazione. In pratica, quasi sempre si determinano p intervalli di confidenza monodimensionali, ciascuno di livello a, sempre per via numerica, facendo variare, secondo una griglia di valori, un parametro Oi alla volta e massimizzando la verosimiglianza rispetto agli altri pararnetri per ogni valore di Oi. L'intervallo (Oil, Biz) si ottiene risolvendo un'equazione analoga alla (9.45) rispetto a 154:
dove L(Bi,6(8i)) k la verosimiglianza massimizzata rispetto a tutte le altre componenti di 8 avendo fissato Bi e ~ ( 8 t:) il valore di best fit ottenuto massimizzando con tutti i parametri liberi. La procedura i! giustificata considerando la seguente eguaglianza:
11primo membro ha distribuzione asintotica X2 (p), mentre il secondo addendo del secondo membro ha distribuzione asintotica x2(p - I), essendo di fatto 2A[h L] quando Bi t: noto. Questo suggerisce, per analogia col teorema 3.4 di additivitb del X2 discusso nell'appendice B, che il primo termine a1 secondo membro abbia distribuzione asintotica X2 (1). Gli errori trovati con la (9.47) e la (9.48) hanno un significato diverso, come mostrato a suo tempo nella Fig. 4.8 di pagina 140, la cui corrispondente interpretazione statistica, nel caso di due parametri, i! mostrata in Fig. 9.4. I1 contorno della regione piu scura corrisponde alla (9.47) per una variazione di una unitb del x2: in base alla Tab. D.4, con due gradi di liberth, questo contorno ha un livello di confidenza di quasi il40% (il valore precis0 k 39.3%, come si vede dalla (4.81) di pagina 138). La (9.48) corrisponde invece a1 livello di confidenza gaussiano in una dimensione per &, dato dalla regione chiara della figura. Gli errori forniti dai programmi di minimizzazione, se non vengono richiesti i contorni delle regioni x2, sono calcolati con la (9.48) co X i ( l ) e si riferiscono a un CL = 0.68 per ogni singolo parametro, indipendentemente dagli altri.
9.6 11 metodo dei minimi quadrati e la massima verosimiglianza Consideriarno l'osservazione di n variabili gaussiane indipendenti, provenienti da n distribuzioni gaussiane differenti. La funzione di verosimiglianza k in
346
Ca~itolo9. lnferenza statistica e verosiminlianza
e2
A +
s(e2)
'2
Fig. 9.4. Forme assunte dalle regioni di confidenza risultanti dalla (9.47) (regione piii scura) e dalla (9.45) (fascia pi^ chiara). La regione scura va associata all'intervallo aleatorio che contiene il valore vero della coppia (&, &) con una probabilitii del 39.3%; la fascia chiara, ottenuta proiettando la regione scura sull'asse delle ascisse, i: la realizzazione dell'intervallo aleatorio che ha una probabilith delA68.3%c$ contenere il valore vero di O2 (o di 81, se si proietta sull'altro asse)
questo caso:
dove in generale i parametri /I e a possono dipendere a lor0 volta d a un parametro multidimensionale 8. Si noti che qui B stata generalizzata la (9.4), dove le n misure provenivano dalla stessa popolazione. Nella (9.49), infatti, le n popolazioni sono diverse, pur avendo tutte la medesima densith gaussiana. Poichk anche in questo caso la verosimiglianza rappresenta la densith di probabilith del campione, ad essa si pub senz'altro applicare tutta la teoria svolta fino a questo punto. I1 metodo ML permette allora la determinazione dei parametri a e /I attraverso la massimizzazione della (9.49) o la minimizzazione del suo logaritmo negativo:
e il primo termine i:inessenziale perch6 costante, trascurando anche il fattore moltiplicativo comune 112, la (9.50) equivale alla ricerca del minimo della funzione:
Se supponiamo che le deviazioni standard ni siano note, oppure approssimabili con le si stimate in precedenti esperimenti, il primo termine della (9.50)
9.7 Adattamento di densiti (best fit) ad istogrammi
347
i: costante, ed il metodo ML si riduce alla ricerca del minimo della funzione
attraverso l'annullamento delle derivate:
La (9.53) rappresenta il metodo dei minimi quadrati, detto anche metodo LS (dall'inglese Least Squares), che sarh discusso in dettaglio nel cap. 10. Qui il principio appare come una conseguenza del metodo ML quando i dati provengono da popolazioni aventi densitci gaussiane di vam'anza nota e media incognita da determinure. La caratteristica importante del metodo LS 15 che esso, per venire impiegato, richiede soltanto la conoscenza del valore atteso e della varianza delle variabili osservate. Inoltre, dopo il process0 di minimizzazione, B comunque possibile calcolare il x2 utilizzando i dati di minimo (best fit) ,LA(@:
e procedere, in alcuni casi, a1 test x2, in mod0 simile a quanto gici discusso nei parr. 6.17, 6.18. Sebbene le quantitB Ji sono delle stime e non i valori veri, sotto certe ipotesi, cui accenneremo nel cap. 10, quando la dimensione n del campione k grande la variabile (9.54) tende effettivamente alla densitb X 2 con (n - p) gradi di libertb, dove p B sempre la dimensione di 0 [75]. E possibile in quest0 mod0 verificare se le forme funzionali assunte per le medie pi, sono compatibili con i dati. E importante notare che, mentre la p a t e matematica di minimizzazione o massimizzazione pub essere sempre eseguita, la verifica delle ipotesi tramite il test del x2 B significativa solo se le variabili coinvolte sono gaussiane. Il metodo LS, ricavato ancora una volta come conseguenza del metodo ML, trova una importante applicazione nello studio degli istogrammi, come vi mostriamo subito nel prossimo paragrafo.
9.7 Adattamento di densit5 (best fit) ad istogrammi Qui riprendiamo e completiamo gli argomenti che abbiamo gi&trattato nei parr. 6.16 e 6.17, ovvero la stima della densitb della popolazione attraverso l'istograrnma e la verifica di compatibilith tra campione e modello di popolazione.
348
Capitol0 9. Inferenza statistica e verosimiglianza
In questo caso la variabile aleatoria definita nella (9.51) B il numero Ii di eventi caduti nel canale i-esimo di ampiezza Ai dell'istogramma (che viene osservato come Ii = ni), mentre pi B il numero atteso o teorico di eventi, che in base alla (6.103) B dato da:
dove la densita ipotizzata pi(xoi, 8) i: calcolata nel punto centrale xoi del canale e N 6 la dimensione del campione. Qui la variabile x della (9.55), a differenza del paragrafo precedente, rappresenta i valori dello spettro di X, cioB la variabile lungo l'ascissa dell'istogramma. La funzione di verosimiglianza B proporzionale alla probabilita multinomiale (4.87) di avere, dati k canali, ni eventi nel canale i-esimo. Ornettendo i fattori indipendenti da 8 abbiamo:
Per effettuare la stima ML del parametro p-dimensionale 8, possiamo massimizzare la (9.56) oppure minimizzare la (9.57). In genere, poichk si usano codici di minimizzazione, considereremo solo la minimizzazione delle verosimiglianze logaritmiche. E interessante vedere che la minimizzazione della (9.56) contiene in s6 il metodo dei minimi quadrati che i! quello usato pic comunemente. Deriviamo infatti la (9.57) rispetto alla componente j-esima di 8 , O j . Cambiando segno, si ottiene
dove l'uguaglianza deriva dal vincolo z i p i ( @ ) = 1, che cornporta l'annullamento della somma delle derivate parziali. E facile accorgersi che il second0 membro dell'uguaglianza coincide, a meno di una costante moltiplicativa, con la derivata parziale del termine:
quando i2 denominatore viene considerato costante: I pararnetri di best fit 8 possono essere dunque trovati minimizzando la (9.58) rispetto a1 numeratore. Si riconosce facilmente che questa procedura non k altro che una applicazione del metodo LS dei minimi quadrati rappresentato dalla (9.54). Poich6 in questa approssimazione il denominatore del
9.7 Adattarnento di densit; (best fit) ad istogrammi
349
x2 deve essere considerato costante, nel process0 di minimizzazione a volte si utilizza il X 2 modificato:
dove gli errori statistici sono stati stimati con la approssimazione cp = Npi E ni. Abbiamo quindi a disposizione, per la stima di 8, la (9.57 e la (9.59). I due metodi danno risultati equivalenti, se il campione B grande. Tuttavia, la (9.57) i: la piG generale, perch6 vale sempre, anche per campioni piccoli. La (9.59), invece, vale a rigore se tutti i c a d i hanno piii di una decina di eventi. In pratica spesso si B meno restrittivi, e si considera grande un campione che ha pi< di 5 eventi per canale. Se cib non si verifica, i canali con pochi eventi si possono raggruppare in un solo canale con quelli adiacenti prima di effettuare la minirnizzazione del X 2 . Una volta effettuata la minimizzazione, si pub procedere a1 test del x2 calcolato con la (9.58). I1 numero di gradi di liberta B pari a (v - p), dove v vale k oppure k - 1 a seconda che la dimensione del campione N sia rispettivamente variabile o costante. Con questa procedura si realizza in pieno lo schema di Fig. 9.1: si formula un modello di popolazione di densita p ( x ; 8) e dai dati si determina la densitb pih verosirnile, data dal valore 8 del parametro di best fit con relativo errore; si esegue poi il test x2 per verificare l'ipotesi sulla forrna funzionale scelta per la densitb. Vediamo ora come vanno in pratica le cose riprendendo alcuni casi gi8 trattati nell'ambito della statistica di base. -- - -EK=-+-&-Esercizio 9.6 SE~F ..---x --- --= - - Z ~ ~ = & ~ & ~ - - ~ - ~ = S ~ - ~ - ~ & ~ ~ - ~ ~ Eseguire il best fit dell'istogramma (6.101) ottenuto artificialmente a1 calcolatore simulando l'estrazione dz 1000 datz da una gaussiana dz parametri veri
Risposta. Supponendo che l'istograrnma provenga da una gaussiana di parametri incogniti (come succederebbe per dati reali e non sirnulati), eseguiamo il best fit dei dati con una gaussiana. La (9.55) diventa allora:
350
CapitoIo 9. lnferenza statistica e verosimiglianza
poiche' N = 1000 e Ai= 5. che utilizPer eseguire il best fit abbiamo usato la nostra routin ostro sito, za la funzione di minimizzazione tici utilizzati nella stima e nella la descrizione del codice e dei m determinazione degli errori sui parametri. Il programma esegue la minimizzazione di u n a funzione data dall'utente, supponendo che essa rappresenti una funzione X 2 dipendente da p parametri. Se si utilizza la verosimiglianza della (9.57), si minimizza la funzione -2 In L. Alla fine della minimizzazione, si calcola il x2 finale (9.58) ed 17utente pud eseguire il test x2. Poiche' per la funzione X 2 (sia i n fase di minimizzazione che i n fase di test) si richiede u n contenuto di eventi per canale superiore a 5 , nell'applicazione delle formule (9.59, 9.58) si calcola il x2 raggruppando i primi due canali. Ad esempio, la (9.58) diventa (nl = 1 , n 2 = 4):
I risultati sono riportati nella Tab. (9.61), che contiene nell'ordine: la formula usata nella minimizzazione, il valore dei parametri di best fit con errore, il valore di g2, ottenuto dalla (9.58), utilizzato nel test ed il livello di significativit6 S L osservato ('value) (6.117) per il test ad una coda, ottenuto dalla Tab. 0 . 3 con (v - k ) gradi di libertci. Poiche' N i: costante e si sono raggruppati i primi due canali, v = (13 - 1 - 1) = 11; dato che si i: minimizzato rispetto a due parametri, k = 2 e quindi (v - k) = 9.
I Eauazione I
ii
B
IxL I
SL
I
La tabella mostra che z due metodi usatz hanno portato a rzsultatz equivalenti, anche se zl campzone utilizzato n o n era partzcolarmente numeroso. La stzma con la formula approssimata (9.59) sembra tuttavza sottostzmare leggermente 21 valore di a. S i pud notare anche u n buon accordo dez dati col modello vero uti2izzato nella simulazzone (p = 7 0 , a = 10) e u n a dzflerenza trascurabile tra z valorz dz best fit e quelli calcolatz direttamente dai dati nel par. 6.16. Riprendiarno ora una nostra vecchia conoscenza, l'esperimento delle 10 monete, che avevamo trattato per l'ultima volta nell'esercizio 6.12 a pagina 228.
9.7 Adattamento di densit5 (best fit) ad istogrammi
351
Esercizio 9.7 a== Determinare la probabilita p di ottenere testa con il Eanczo di una moneta eseguendo z1 best fit, con una densztb binomiale, dell'zstogramma dell'esperimento delle 10 monete di Tab. 2.2 (che per comoditb riportiamo):
Risposta. I n questo caso la popolazione di riferimento ha densitci binomiale (2.30) e la (9.55) si scrive:
dove N = 100 t il numero delle prove e manca l'intervallo Ai perch6 qui siamo i n presenza di una variabile discreta. La probabilita p 6 il parametro incognito da determinare attraverso il best fit. La procedura da utilizzare t la stessa dell'esercizio precedente. La sola diflerenza t che, nel calcolo del X 2 , si devono raggruppare i przmi e gli ultimi tre canali (nl = 0 , n z = 1,n3 = 5) e (n9 = 6, n ~ o= 1,rill = 0 ) per avere u n numero dz eventi > 5. I1 numeratore della funzione X 2 diuenta allora:
I canali dell'istogramma sono pertanto pari a 7 ed i gradi di liberth della suddiuisione sono v = 7 - 1 = 6 perch6 il numero totale N dz prove 6 Jissato. U n ulteriore grado di libertci viene perso perch6 la probabilita p viene determinata dai dati ( k = 1). I gradi di liberth effettivi sono pertanto (v - k) = 5 . I risultati ottenuti con il nostro codic n o riportati in Tab. 9.63, che b analoga a quella descritta nell Equazione P x2 (9.57) 0.522 1 0.015 4.34 0.528 & 0.017 4.84 (9.59)
--
SL 50% 45%
(9.63)
Anche i n questo caso, i due metodi forniscono risultati simili. Tuttauia, nel caso di piccoli campioni come questo vi consigliamo, come regola generale, dz usare la 19.57). L'ultima volta che ci siamo occupati delle 10 monete nell'ambito della stat i s t i c ~elementare, nel17esercizio 6.12, abbiamo stimato la probabzlitd direttamente dai dati, notando che E7esperzmento forniva complessivamente 521 teste s u 1000 lanci. Dalla (6.23) avevamo ottenuto: %
,
352
Capitolo 9. lnferenza statistica e verosimiglianza
50
Fig. 9.5. Dati sperimentali con barra d'errore e curve di best fit a) per una densith binomiale (esercizio 9.7) e b) gaussiana (esercizio 9.6). Per facilitare il confronto, i punti discreti (quadrati vuoti) della binomiale diFig. a) sono stati uniti da tratti di retta
I n questo caso l'ottzmizzazione del parametro n o n h a portato a rzsultati diuersi da quellz della stzrna diretta della probabilitd p daz dati. -~~~*~~~~=*~~-=~-=~--~~~~m=&---x~z-a*-~~-*~=~+=*s~
I dati sperimentali e le curve di best fit ottenute negli ultimi due esercizi sono rappresentati in Fig. 9.5.
9.8 La media pesata Un'importante applicazione del metodo dei minimi quadrati consiste nel trovare la media di variabili gaussiane aventi tutte la stessa media Vera p ma varianza diversa. Questo k un caso comune nell'attivit& di laboratorio, dove spesso i: necessario combinare tra lor0 i risultati di misure di una stessa grandezza (stessa media vera) eseguite con apparati diversi (diverso errore di misura). Come nel paragrafo precedente, deriviamo il risultato a partire dalla stima di massima verosimiglianza sotto l'ipotesi di osservazioni gaussiane, per poi verificare questo i: ottenibile pih generalmente come conseguenza del metodo dei minimi quadrati. Per farvi capire meglio il problema, vi proponiamo prima un quesito interessante. Supponete di avere un campione di n osservazioni indipendenti e con la stessa media p e deviazione standard a; raggruppateli ora in due campioni rispettivamente di 5 e n - k osservazioni. Dato che per le medie vere vale la relazione p = (PI +p2)/2, intuitivamente siamo portati a pensare che la media delle n osservazioni dovrebbe essere equivalente alla meta della somma delle due medie parziali, m = (ml m2)/2. Questa 6 perb una conclusione sbagliata. Infatti,come i: facile verificare, si ha: 1 n. n - k i=k+l z=1 i= 1
+
9.8 La media wesata
353
L'uguaglianza i! valida solo se k = n - k, cioh se i due sottocampioni hanno lo stesso numero di eventi. La spiegazione di questo paradosso B sottile e concettualmente importante: it sbagliato mediare le due medie parziali, perch6, se i due sottocampioni sono diversi, esse hanno varianze a2/k e 02/(n - k ) diflerenti. Possiamo pensare allora di "pesare" le due medie in mod0 da avere comunque il risultato corretto. Se definiamo come peso l'inverso della varianza, allora pl = (a2/k)-I e p2 = [m2/(n - k)]-' e si avrh
Questa B la soluzione giusta, come vi mostreremo ora in mod0 generale, derivando la formula della media pesata. Specializziamo la (9.50) a1 caso di n osservazioni gaussiane indipendenti ni = n ) , aventi suddivise in k sottogruppi di dimensione ni ciascuno tutte media p ma varianza op second0 il sottogruppo. I1 logaritmo negativo della funzione di verosimiglianza B
(c:=,
dove xij i: l'osservazione j-esima nel sottogruppo i-esimo. Considerando le mi note, il primo termine di questa espressione non dipende da alcun parametro e pub pertanto essere trascurato nella ricerca del minimo di L,che diviene una funzione dipendente dal solo parametro p. La condizione di minimo, indicando con mi la media del sottogruppo i-esimo, it data allora da:
ovvero:
che it la famosa formula della media pesata. Con questa formula si trova il "baricentro" dei dati, pesando ognuno di essi con un fattore pari a:
Se i dati sono tutti estratti dalla stessa popolazione, allora ai = a, e la (9.66) si trasforma nella solita formula della media campionaria:
354
Capitolo 9. lnferenza statistica e verosimiglianza
Per trovare l'errore statistic0 della media pesata basta applicare alla (9.66), come nel caso della media campionaria, la legge di trasformazione (5.74) per variabili indipendenti:
Poich4 Var[Mi] = o,2/ni, si ottiene:
La formula completa ad una deviazione standard della media pesata 6 data allora da: k
C %Pi p
i=;
ni
(9.69)
C pi i=l
Se tutti i dati provengono dalla stessa popolazione, allora ai = a e la formula si trasforma nella (6.40). I livelli di confidenza da assegnare all'intervallo di errore sono gaussiani (cioi: seguono la legge 3o), perchi, si riferiscono a variabili gaussiane combinate linearmente. Se le variabili non sono gaussiane, anche in questo caso il teorema Limite Centrale assicura che la normalit& verrii raggiunta per n maggiore di una decina. In pratica spesso le varianze non sono note e vengono stimate dai dati sperimentali ponendo ai E si. E possibile mostrare che anche in questo caso i livelli di confidenza attribuibili all'intervallo (9.69) sono gaussiani quando n & elevato. La dimostrazione fa leva sulla consistenza delle si come stimatori delle ai, sul teorema Limite Centrale per la convergenza in distribuzione delle Mie sull'indipendenza tra le osservazioni. Un'ipotesi necessaria alla dimostrazione & che il peso d i ciascun sottogruppo di osservazioni non diventi trascurabile rispetto agli altri, il che si esprime richiedendo che ni/n tenda a una costante per n t oo. Possiamo ora mettere a frutto la nostra conoscenza sulla teoria degli stimatori chiedendoci se la media pesata 6 uno stimatore efficiente. Dato che essa B uno stimatore ML, sulla base del teorema 9.4 deduciamo che o essa B lo stimatore piii efficiente oppure non esiste lo stimatore ottimale di Cram&Rao per le somme pesate di dati. Applicando la (9.27) alla (9.65) & immediato vedere perb che la media pesata B lo stimatore piii efficiente, perch&soddisfa a1 limite di Cramdr-Rao del teorema 9.3:
9.8 La media pesata
355
che i: proprio I'inverso della varianza della (9.69). (Qui Ii(p) indica I'informazione di Fisher per p contenuta nella distribuzione di X i j ) .
Esercizio 9.8 ~ = - p ~ ~ ~ ~ $ s & @-- ~ ~= gF = ~ ;~ z + ~ Utilzzzando la routine random dz u n calcolatore, sono stati estratti dalla densitd u n i f o m e 20 numeri 0 5 zi 5 1. Essi sono riportati nella tabella seguente:
Eseguire la media dell'intero campione, la media pesata delle medie parziali dei primi 15 e degli ultimi 5 dati (le prime 3 colonne e l'ultima colonna della tabella) e confrontare i risultati. Risposta. La media e deviazione standard dei tre campioni m'chiesti sono date, con ovvia notazione, da:
Questi dati, i n base alle (3.80), sono i valori assunti da una variabile uniform e di media Vera p = 0.5 e deviazione standard Vera a = l/.\/iZ = 0.289. Applicando la (6.40) ai tre campioni otteniamo:
La media pesata delle due medie parziali, che sono indipendenti poiche' provengono da campioni che non hanno dati i n comune, 6 data dalla (9.69):
dove p15 = 15/s& = 168.7 e p5 = 51s; = 41.6 sono i pesi. Come si vede, il rzsultato t. praticamente identico a quello della grande media mzo. Se n o n sapessimo la formula della media pesata, avremmo potuto applicare uno stimatore diverso, e precisamente quello dato dalla media aritmetica delle due medie parziali col relativo errore ottenuto dalla legge (5.67, 5.74):
- ~ - - ~
336
Capitolo 9. lnferenza statistics e verosimiglianza
E accettabile questo stimatore? S e indichiamo con Mp ed M, la media pesata e la media aritmetica possiamo verificare che questi stimatori sono n o n distorti. Infatti, applicando la (9.14) otteniamo:
La diferenza cruciale sta nel fatto che Mp, essendo u n o stimatore ML, i: il pi& eficiente. S i vede infatti che l'errore statistico di M8 2 maggiore di circa il 20% di quello di Mp. Lo stimatore Ms i: pertanto n o n ammissibile. I n parole povere, anche Ms stima un intervallo che contiene la media vera ( i n senso frequentista), m a la Earghezza di questo intervallo i: maggiore di quella di Adp.
9.9 Verifica delle ipotesi I
I
I I I I
I
In questo e nei prossimi paragrafi completiamo l'importante argomento della verifica (o test) delle ipotesi, che abbiarno introdotto per la prima volta a live110 un po' intuitive negli esercizi 3.13-3.17 (pagine 104-108) e nel par. 6.14 a pagina 210, senza specificare esattamente le alternative rispetto alla quale l'ipotesi nulla veniva verificata. Avendo definito la funzione di verosimiglianza, siamo ora in grado di affrontare l'argomento con maggior precisione, specificando una ipotesi nulla e una ipotesi alternativa e introducendo un criterio di ottimalita per la scelta tra le due ipotesi. L'argomento B per0 molto piu vasto, perch6 si riescono a trattare casi in cui sia l'ipotesi nulla sia quella alternativa sono in realth insiemi di ipotesi. Noi qui ci limiteremo a dare le idee di base, che perb consentono gi& di definire una serie di metodi che sono applicabili in mod0 semplice e diretto a molti casi concreti. Supporremo d'ora in poi che la funzione di verosimiglianza L(0; x) non sia semplicemente proporzionale, ma sia coincidente con la funzione di densitd. Se l'osservazione consiste di una sola misura, allora L(0; x) = p(x; 8), dove p B la densit&della variabile aleatoria X. Di solito l'ipotesi viene verificata controllando se il valore di uno stimatore di @ (spesso funzione di una statistica sufficiente per 8) appartiene ad un "insieme critico". La funzione di verosimiglianza considerata s a r i allora la densita di probabiliti della distribuzione campionaria dello stimatore.
9.9 Verifica delle ipotesi
357
Fig. 9.6. Rappresentazione grafica delle quan-
tith coinvolte nel test tra due ipotesi Sia data una osservazione x e si formulino due ipotesi Ho (la principale, detta ipotesi nulla) ed HI, che rappresenta una possibile alternativa ad Ho. Se le due ipotesi hanno come unico effetto un valore diverso dei parametri nella funzione di densitb, in corrispondenza a queste due ipotesi si possono costruire, con notazione ovvia, due funzioni di verosimiglianza: L(Bo;x) relativamente ad Ho : 0 = 190 e L(&; x) relativamente ad HI : d = &. Per non appesantire il formalismo, considereremo qui solo il 'caso monodimensionale, ma tutte le conclusioni che trarremo valgono anche per una osservazione a: e/o un insieme di parametri 8 . Nella verifica di pii3 ipotesi, la situazione i: quella di Fig. 9.6 ed il linguaggio quello delle Tabb. 9.1 e 9.2, dove compaiono, oltre ai termini a voi gia noti, alcuni termini nuovi. Se p(x(Ho)6 la densita dello stimatore corrispondente all'ipotesi nulla, si accetta questa ipotesi se q 5 x 5 c2, la si rifiuta se x & nella regione critica, definita da x < cl, x > c2. L'area sottesa dalla regione critica & il livello di significativita SL, corrispondente alla probabilith di sbagliare rifiutando l'ipotesi Ho quando b Vera (errore di I tipo). Nel caso del test a due code il livello di significativita 8 la somma delle due aree delle code indicate con a1 e a 2 in Fig. 9.6. Se invece Ho i: sbagliata e l'ipotesi giusta 15 data dalla densita p(xlHl), l'area della coda, indicata come ,B sempre in Fig. 9.6, corrisponde alla probabilith di rifiutare l'ipotesi giusta, perch6 in questo caso l'ipotesi nulla Ho viene accettata (errore di I1 tipo). L7area.ir = 1 - ,B viene detta potenza del test, e corrisponde alla probabilith di scartare Ho se & Vera H I . La densita p(xIH2) di Fig. 9.6 indica la situazione simmetrica ad HI quando il massimo della densita relativa alla ipotesi alternativa si trova a destra del massimo dell'ipotesi nulla. Se si fissa a priori un livello di significativith a, detto livello del test, , accetta l'ipotesi nulla Ho quando relativo a due valori di coda cl e ~ 2 si x E [el, c2] con probabilita pari a:
358
Capitolo 9. lnferenza statistica e verosimiglianza
Tabella 9.1. La terminologia dei test statistici
Nome ipotesi nulla Ho ipotesi alternativa H I errore del I tip0 a! errore del I1 tip0 P livello di significativith SL area P live110 del test a regione critica o di rifiuto potenza del test .rr = 1 - /3 test pih potente test a una coda test a due code
Significato modello di riferimento modello alternativo scartare Ho quando i: Vera accettare Ho quando 6 Vera Hl probabilith dell'errore del I tip0 probabilita dell'errore del I1 tip0 valore SL fissato a priori intervallo (x < cl o x > c Z ) di Fig. 9.6 scartare Ho quando 6 Vera HI quello che, fissato a, ha 1- P ma,ssimo una sola coda a sinistra o a destra due code a destra e sinistra
dove A indica l'intervallo di accettazione [el, cz] nel caso monodimensionale e un sottoinsieme del supporto della densita di X nel caso multidimensionale. La potenza del test k la probabilitb di scartare Ho essendo Vera H I , ciok la probabilita di ottenere valori nella regione critica quando i: Vera HI :
dove /3 i: la probabilitb dell'errore del I1 tipo, ovvero accettare Ho quando it vera H1 :
P{X€AIH,}=
1:
L(&;x)dx=P.
(9.73)
Per un test ideale, in cui le densitb corrispondenti ad Ho ed HI hanno supporto disgiunto, ,8 = 0 e la potenza 1- /3 = 1 k massima. Tabella 9.2. Verifica tra due ipotesi: terminologia e corrispondenti livelli di probabilita Decisione
HI
Decisione corretta
Errore di I specie
Errore di I1 specie
Decisione corretta 1-P
Queste sono le definizioni legate alla verifica delle ipotesi nel caso pih generale di un test a due code, essendo ovvia la modifica necessaria per il test ad una coda, dove la regione di rifiuto ha forma (-m, c) oppure (c, +oo).
359
9.10 Test di potenza massima
9.10 Test di potenza massima Quando si effettuano test statistici, in genere si fissa a priori il livello di significativita a richiesto dal problema, si costruisce uno stimatore T = T,(&) (la media, la varianza, il chi-quadrato, ecc.), si trova la distribuzione campionaria dello stimatore e si determinano d a questa i valori quantili t , o tl-, dello stimatore corrispondenti alla probabilith a. Cambiando lo stimatore, per uno stesso valore di a , e fissata una ipotesi alternativa H I , la potenza del test risulta dipendere dallo stimatore prescelto. Poniamoci allora la fondamentale domanda: data una osservazione di una variabile X, quale 5 il test di potenza massima, cioi? quello che ha la miglzore regione critica? La questione pub avere in alcuni casi notevole interesse pratico, perch6 i test statistici spesso hanno un costo economico e/o gestionale elevato (si pensi ai test di controllo di qualith in ambito industriale) ed i: quindi importante scegliere, dato un campione di dimensione fissata, il test piu potente, per il quale l'errore di I1 tip0 risulta minimo e di conseguenza il criterio di decisione pic affidabile. Una risposta alla domanda i: data dal teorema di Neyman-Pearson: Teorema 9.6 (di Neyman-Pearson). Si conside~i,sui parametri 13 di u n a funzione di verosimiglianza, l'ipotesi nulla Ho e l'ipotesi alternativa H I :
Il rapport0 di verosimiglianza:
assume valori grandi se d Vera Ho e valori piccoli se ?I vera H I . Il test di potenza massima tra tutti quelli dz livello a 2: allora dato da: si rigetta
Ho se
(9.75)
dove r, d il valore di R ( X ) di Fig. 9.7, tale che P { R ( X ) 5 r, (Ho}= a. Dimostrazione. Chiamiamo R (di livello a) la regione di r i f i t o del test NP e fl (di livello a') u n a regione di m'fiuto di Ho attraverso un qualsiasi altro test diverso da quello NP. I1 teorema vale se si dimostra che, a parita di livello, la probabilitd dell'errore di 11 tipo d m i n i m a per il test NP:
P e r ipotesi si ha :
360
Capitolo 9. lnferenza statistica e verosimiglianza
r
Se
Fig. 9.7. Utilizzando il rapporto R di verosimiglianza, I'ipotesi nulla viene rifiutata se il valore del rapport0 risulta minore del limite r,, che determina il livello di significativit&dato dall'area ombreggiata
p' # /3 possiamo scrivere (si veda la Fig. 9.6):
Se x E 0,allora la (9.75) vale sempre:
mentre, se x E (0'- 62):
Sostituendo queste due ultime relazioni nella (9.77) e considerando che gli integrali su 0 n 0' coincidono, otteniamo la (9.76):
dimostrando cosi il teorema.
0
Applichiamo il teorema alla verifica dell'ipotesi di due medie diverse Ho : ,u = po contro HI : ,u = ,ul con campioni estratti da popolazioni di densit2 gaussiane di uguale varianza 02.In questo caso si ottiene facilmente:
e quindi, passando ai logaritmi:
361
9.10 Test di potenza massirna
Dividendo per 2 n ( m - P I ) , se (PO - p1)
> 0 si ottiene:
In questo caso il test di Neyman-Pearson col calcolo esplicito di r , B equivalente al test sulla media campionaria: si scarta Ho se { M , < m o } . I1 valore mo B determinato dalla condizione sull'errore di I tip0 sotto Ho:
che B soddisfatta quando mo verifica l'eguaglianza
con t , pari al quantile di ordine a della gaussiana standard. Se PO < p1, occorre cambiare segno alla disuguaglianza (9.78) e si scarta Ho :e > mo = Po ( a / f i >t1-,I. E facile vedere che il test sulla media campionaria B il pih potente anche nel caso di test su medie di distribuzioni esponenziali e poissoniane 1401.
{w'
+
-
=m ~ , m p - ~w, ~ ~ + c - , r 7 - ~ ; _ 1 i * l 1 - 13 +~~ ; . ~ r ~ / ~~ ; ~, + -\ yn. L )~ ~~j i - 3 ~ ~ b - e ~ ~ - r ESercizio 9.9 -#ii Si assume come zpotesi nulla Ho che m a variabile X sia gaussiana di media po = 10 e deviazione standard a = 10. 13-ovare la dimensione del campione e la regione critica ottimali per accettare HO con a = 0.05 e potenza 1-/3 = 0.95 rispetto alZ7zpotesi alternativa H I che la gaussiana sia di parametri ,u1 = 20 e stessa a = 10. gp--i-
i-pnp i i
i d .
i
i..
I
ria-.
Risposta. Dalla (9.79) sappiamo che il test sulla media k quello di potenza massima, che ottimizza la regione critica. Se a = 0.05 e /3 = 0.05, dalla Tab. D.l otteniamo:
I1 valore mo k l'estremo della regione critica. Risolvendo nelle incognite mo ed n otteniamo:
Il test richiesto deve quindz campzonare n = 11 valori di X , calcolare la media campionaria M , accettare Ho se { M 5 151, accettare HI se { M > 15). r I , & I , 7 I I " " ,I , ,* : %
A
I
8-
b
(8
362
Capitolo 9. lnferenza statistica e verosimiglianza
pub approssimare con una variabile di distribuzione normale N ( p , a 2 ) = N ( n p , n p ) . Si assume come ipotesi nulla Ho che p = 0.01. Trovare la dimensione del campione e la regione critica ottimali per accettare Ho con a = 0.05 e potenza 1 - p = 0.80 rispetto all'ipotesi alternativa HI che p = 0.02. Risposta. Ripetendo il procedimento dell'esercizio precedente abbiamo:
dove i valori 1.645 e 0.842 si ricavano inteqolando da Tab. D.1. Sottraendo la prima equaxione dalla seconda si trova facilmente n: 0.01n = &(0.1191+
0.1645)
,
da cui n = 804
9.11 Funzioni test Il test di Neyman-Pearson richiede la conoscenza della densit2 p(r) del rapporto di verosimiglianza R , il che, pur essendo sempre possibile in linea di principio con le tecniche sviluppate nel cap. 5 sulle funzioni di variabili aleatorie, in pratica si rivela quasi sempre un'impresa piuttosto difficile e laboriosa. Fortunatamente, come avete appena visto nella (9.79), il problema si semplifica drasticamente se R pub essere espresso nella forma
dove T i: una statistica di distribuzione nota. Infatti, un test attraverso l'operatore T determina i limiti t, corrispondenti a1 livello di significativitA prescelto; trarnite la (9.80) si pu6 quindi determinare il limite r , ed applicare il teorema 9.6. Tuttavia, questa operazione non deve necessariamente essere fatta in pratica: basta sapere che, se vale la (9.80), il test R ( X ) pub essere sostituito da u n test T ( X ) . Anche questo test gode della propriet2 di avere potenza massima. Attraverso la (9.80) il test ad una coda della (9.75) R ( X ) 5 r , pub trasformarsi in un test ad una coda a destra o a sinistra, in un test a due code, oppure in un test con una regione critica piG complicata a seconda del legame funzionale tra R e T, come mostrato in Fig. 9.8. Ad esempio, dalla (9.79) si vede che R i! funzione della media campionaria. Ne segue che lo stimatore della media T = C X i / n , i: la funzione test della media pid potente per campioni estratti da popolazioni aventi densith gaussiane, ciok quello che rnmsimizza 1- ,B una volta scelto il livello del test a.
,,/
=a
------
t,
.- -
-
a)
t
--
. . .
r:i- \ :I- /\)
9.11 Funzioni test
b,
ta
t
I
8
I
I
fa
t'a
t
363
#
, $
I
I
,
j
(
I
t,
t i
th
t
Fig. 9.8. Quando il rapporto di verosimiglinza 8 esprimibile come funzione di un'altra statistica, al17intervallo R 5 r, relativo ad R pub corrispondere un intervallo T 5 t, a), T 2 t, b), t, L T L t: c), T I t,, th 5 T 5 d), che dipende dal tip0 di funzione R = $(T)
Esercizio 9.11 h ~ # # ~ b ~ ? Y $ ~ # $ ~ f l ~rxwt~:!* @ L"d -~ ~1 7T ~ ~ ~ . ~ ~ G ~ ~ ~ P -w&=wm=+% P - : B ~ - ~ P ~ Una ditta wince una gara d7appalto per la fornitura di u n componente elettronico affermando che la percentuale di pezzi difettosi all'origine k minore dell'l%. Trovare il limite a1 di sotto del quale deve restare il numero di pezzi difettosi riscontrati in u n lotto di controllo di 1000'pezzi perch6 si possa affermare, ad u n livello a! del 5%' che la dichiarazione della ditta 6 corretta. Trovare inoltre la potenza di questo test rispetto alle zpotesi alternative di una probabilitlt di difetto del 2% e del 3% e dire se il test 6 di potenza massima.
Risposta. Se l'afidabilitlt 6 dell'1%, il numero di scarti su u n lotto di 1000 pezzi b una variabile binomiale dz valore atteso (media vera) pari a 10. Dato che la probabiliti 6 piccola (1%) ed il valore della media 6 grande, 6 lecito utilizzare l'approssimazione gaussiana della distribuzione di Poisson. Siamo ricondotti a1 caso dell'esercizio 9.10, con la differenza che qui n 6 fisso e /3 incognito. Poiche' il problema richiede u n livello di significativitci del5%, dalla tabella D.l e dalle (3.43,3.44) vediamo che il test a una coda
6 soddisfatto per u n valore della variabile standard T = tl-, il numero degli scarti, dalla (3.37) abbiamo: S-,u - S - 1 0 > 1.645 a -
m
, da cui :
S
1.645. Se S b
> 15.2 .
Dato che la variabile considerata 6 discreta, non esiste u n valore critico che coincide col valore S L assegnato. Potremmo a questo punto randomizzare il test ponendo nella (6.92) a~ = 0.05 e
364
Capitolo 9. lnferenza statistica e verosimiglianza
dove si i: utilizzata la Tab. D.1. Come mostrato nel problema 9.15, il test randomizzato accetta il lotto 1 volta s u 4 quando S = 16. Qui preferiamo procedere in mod0 pi4 semplice (anche se approssimato), adottando come regola di decisione la accettazione del lotto se S 15 ed il rijiuto se si trouano pi4 di 1 5 pezzi difettosi. La potenza del test t. data dalla probabilitd 1- P di scartare Ho (afidabilitd dell'1%) quando b vera l'ipotesi alternativa H I . Ricordiamo che anche pi, come a1 solito, ,L3 P. l'area di Fig. 9.6, che indica la probabilith dell'errore di I I tipo. Considerando come H I un'afidabilitd del 2%, dalla (3.43) e dalla Tab. D.1 otteniamo:
<
La potenza del test i: di circa 1'80% e la probabiliti di accettare H o essendo vera H I 6 di circa il 20%. Ripetendo il conto considerando HI corrispondente ad un'afidabilitd del 3% otteniamo: l-p=l-@(s) ~0.995, (9.82) da cui si vede che le ipotesi Ho : 1%e HI : 3% danno luogo a distribuzioni con supporto praticamente disgiunto. In pratica, l'errore di I1 tipo viene commesso con probabilita apprezzabile per l'ipotesi alternativa di u n a afidabilith dell'ordine del 2%. Questo test b di potenza massima, in base alla (9.79). Verijichiamolo anche considerando come funzione di verosimiglianza la distribuzione di Poisson, i n approssimazione alla distribuzione binomiale, (3.14) e come ipotesi alternativa H l u n a afidabilitd del 2%, troviamo il rapport0 di verosimiglianza (9.74): S 10' e-lo R(S)= = el0 +(s), 20S e-20
(f)
da cui si vede che vale la (9.80). Poiche' il fattore esponenziale t. costante, il legame tra R ed S 6 di tipo monotono decrescente, come i n Fig. 9.8 b). La funzione inversa S = +-l(R) vale:
A1 live110 del test prescelto corrisponde un intervallo S 2 15.5 (valore intermedio tra i valori limite discreti trovatz s u S ) ed un intervallo s u R all'incirca pari a R E r , 5 e ' O ( 0 . 5 ) ' ~ . ~= 0.47 , per il rigetto dell'ipotesi nulla. I1 test in esame b pertanto quello di potenza massima tra tutti i test possibili
9.12 Test seauenziali
365
Fino a questo momento abbiamo considerato ipotesi alternative del tip0 Hl : O = 01, dette puntuali o semplici. Consideriamo ora il caso di ipotesi alternative, dette composte, che considerano un insieme di valori, come HI : O > $1. In questi casi occorre esplorare la potenza del test per tutto l'insieme dei valori dei parametri dell'ipotesi alternativa, in mod0 da trovare il test uniformemente pih potente . Non affrontiamo l'argomento, alquanto complesso, ma ci limitiamo ad osservare che il test del rapporto di verosimiglianza di solito si comporta bene da questo punto di vista. Nei casi (in verith non molti) in cui la potenza i: calcolabile esplicitamente, si pub comunque determinare per quali ipotesi alternative un test scelto risulta sufficientemente potente esaminando la funzione di potenza, definita, in funzione dei parametri della ipotesi alternativa, come:
dove A i! la regione di accettazione di Ho,cioi! l'insieme complementare della regione critica.
Risposta. I1 criterio di decisione ottenuto consisteva nel rifiuto dell'ipotesi Ho per u n numero di difetti S 2 16 su un lotto di 1000. Utilizzando l'approssimazione di Gauss (9.81) della densitci di Poisson, la funzione di potenza (9.85) risulta:
dove p i! il valore atteso del numero di pezzi difettosi. La funzione, riportat a in Fig. 9.9, mostra che il supporto della distribuzzone campionaria sotto Ho (1% di difettz) diventa disgiunto da quello sotto Hl quando si richiede in alternativa u n a percentuale di difetti superiore a1 2 3%. Alla stessa conclusione eravamo gici arrivati, in mod0 pih intuitive, gih nell'esercizio 9.11. ~
w
~
-
-
+
~
~
m--3s?=a
~ ~ - - ~ - - = - ~ " - y -
-a
zp=--#w
-=x-*
9.12 Test sequenziali La difficolth nel trovare la distribuzione della variabile R di Neyman-Pearson pub essere superata, oltre che con la trasformazione (9.80), anche in un altro modo, molto elegante ma approssimato. Siano date due ipotesi Ho ed HI e le corrispondenti funzioni di verosimiglianza L(Oo;x) Lo(x) e L(O1; x) Ll(x). I1 rapporto:
=
=
366
Capitol0 9. Inferenza statistica e verosimiglianza
1
0.8
0.6
0.4
0.2
'0
10
20
30
difetti attesi p
40
,
Fig. 9.9. Funzione di potenza nel caso dell'esercizio 9.11
tende ad assumere valori grandi se & Vera Ho, valori piccoli se B Vera H I . Definiamo allora il test delle due ipotesi come segue: si accetta Ho se ( L o / L 1 )> rH si accetta Hl se ( L o / L 1 )< rh non si decide se rh < ( L o / L 1 )< rH
* Lo > rHLl &
Lo < rhLl
(9.88)
Le aree corrispondenti alle probabilita dell'errore di I e I1 tip0 a e ,b sono mostrate in Fig. 9.10. Per una osservazione data di dimensione n, lo spettro della variabile R viene quindi suddiviso in tre regioni disgiunte, Ro, R1 ed R,, corrispondenti rispettivamente alle decisione di accettare Ho, accettare HI e di non prendere nessuna decisione. L'intervallo Ro corrisponde allora alla condizione R > rH mentre R1 i: l'intervallo R < r h Dall'esame della Fig. 9.10 e dalle (9.88) risulta chiaro che le probabilita di prendere decisioni corrette sono date da:
dove, come a1 solito, a e ,b sono le probabilita assegnate di compiere errori di I e di I1 specie. Da queste disuguaglianze & immediato ricavare il limite inferiore di rh e quell0 superiore di r ~ :
In conclusione, possiamo enunciare la (9.88) come segue: in un test tra due ipotesi alternative Ho ed HI, jissati a przori i livellz a e ,8, se
9.12 Test sequenziali
367
"'A Fig. 9.10. In un test tra due
r~
'h
R 5a
-<
1-P
R
ipotesi tramite il rapporto di verosimiglianza r , si accetta Ho se R > r x ; si accetta H I se R < r h ; si rimane indecisi se rh < R < T H
a
< rh
<-
P
(9.92)
non si prende alcuna decisione, (9.93)
P
1-a
R 2-
,
si accetta HI
1-p 1-a
> 7-H si accetta Ho .
(9.94)
-
Questo test & approssimato, ma prescinde dalla conoscenza della distribuzione di probabilitci del rapporto di verosimiglianza (9.74). Quali errori di primo e second0 tip0 a' e p' sono effettivamente associati a1 test (9.92-9.94)? A questo quesito si pub rispondere facilmente, anche se in mod0 parziale, poichb si dimostra che si ha sempre a' + P' 5 a P. Infatti, dalle (9.89-9.91) si ha facilmente:
+
da cui: a'
1-p'
<-
1-a'
a
- 1-p
'
P'
1-a
2-
P
,
a'
+ P'
e quindi: a'(1 - P ) + P'(1 - a ) 5 a ( l - p ' )
+ P(1 - a ' ) ==+
5 a + ,b' . (9.95)
4 Esercizio 9.13 --se-w--~ Eseguire il test approssimato del rapporto di verosimiglianza sui dati dell'esercizio 9.11, assumendo u n errore di I specie del5% ed u n errore di II specie del 20%.
Tlli
Risposta. Nell'esercizio 9.11 avevamo trovato, studiando la funzione di probabilitci della variabile somma, collegata alla variabile R di Neyman-Pearson dalla (9.84), che l'ipotesi Ho di afidabilitci ~11'1%andava scartata, ad u n live110 di significativitci a del 5%, per u n numero di pezzi difettosi maggiore
368
Capitolo 9. lnferenza statistica e verosimiglianza
di 1 5 su u n lotto di 1000 pezzi. Avevamo anche trovato u n a probabilitd P di circa 2120% per l'errore di II specie rispetto all'ipotesi HI di u n a afidabilitd del 2%. Anche in questo caso si chiede a = 0.05 e P = 0.20. Dalle (9.92-9.94) otteniamo: si accetta Ho se R 2 4.75 non si decide se 0.0625 < R < 4.75 si accetta HI se R 5 0.0625 Dalla (9.84) risulta che ai valori r~ = 4.75 ed rh = 0.0625 corrispondono rispettivamente i valori:
L'ipotesi nulla di u n a afidabilitd minore dell'l% (Ho) va quzndi mantenuta se il numero dei pezzi difettosi resta a1 di sotto di 12, mentre se questo valore supera 18 ua accettata l'ipotesi H I , relatzua ad u n a afidabilitd maggiore del 2%. VaEori tra 1 2 e 1 8 si rzferiscono ad u n a afidabilitd stimata tra 1'1 e zl 2% e rappresentano pertanto u n a zona di incertezza nella quale b bene n o n prendere alcuna decisione. ---- - -" ----- .m-- -t ' - +w----T - - - d - - k
ah
'
'Fa
I1 fatto che i limiti nelle (9.92-9.94) non dipendano dalla dimensione n del campione suggerisce una applicazione del metodo del rapporto di verosimiglianza da effettuarsi ripetutamente nel corso di un esperimento, man mano che n aumenta, finch6 ci si trova nella zona di indecisione. Pih precisamente, si continua a campionare finch6
e ci si ferma la prima volta che la (9.96) non i: verificata. I limiti dell'intervallo di indecisione sono da specificare in funzione del livello del test e dell'errore di I1 tipo. Si noti che sia la dimensione del campione N sia il valore finale del rapporto di verosimiglianza
a1 momento in cui si esce dalla zona di indecisione, sono ora variabili aleatorie. Questi test sono detti sequenziali. Se supponiamo di aver determinato rh ed rH in mod0 che le probabilitA di errore di I e I1 tip0 siano a e ,B, anche in questo caso valgono le (9.91), percib un test sequenziale di livello approssimato, che i: quello che si i: in grado di condurre in pratica, avrh come zona di indecisione
9.12 Test sequenziali
369
Anche in questo caso per i livelli effettivi del test vale la (9.95): a'+@'5 a+,B. I1 test sequenziale i: dunque approssimato ma, a parit$ di potenza richiesta, richiede in media, rispetto ai test con dimensione n fissa, una dimensione minore, consentendo un risparmio medio notevole nelle operazioni di campionamento, anche del 50%. Intuitivamente, questo accade perch6 spesso si hanno sequenze di casi favorevoli (o sfavorevoli) che fanno assumere rapidamente ad RN valori a1 di fuori dell'intervallo di indecisione (9.98) e consentono quindi di scegliere subito I'ipotesi Ho (od H I ) . Sotto condizioni molto generali, i: possibile dare una dimostrazione di questa proprieta molto utile dei test sequenziali [58, 651, che noi omettiamo. Vi presenteremo invece, nel prossimo esercizio, un approccio diverso che fa uso di tecniche di simulazione. Esercizio 9.14 Applzcare il test sequenzaale per a = 0.05 e ,8 = 0.20, con N variabile, a1 caso dell'esercizio 9.11, assumendo che i pezzi dzfettosi szano 11% (ipotesi Ho) o il 2% (ipotesi alternativa H I ) . Stimare, con metodi di simulazaone, le distrzbuzioni dez dzfettz rzlevatz SN e dez pezzi campionata N .
Risposta. Se N d variabile, possiamo scrivere la (9.83) come:
dove SN d il numero di pezzi difettosi. Passando ai logaritmi otteniamo:
e la (9.98) diventa:
Cambiando i segni ed inserendo i valori a = 0.05 e ,B = 0.20 l'intervallo di indecisione, entro il quale continuare a campionare, diventa:
Per valori di SN a sinistra di questo intervallo si accetta Ho, per valori a destra si accetta H I . Nella (9.99) compaiono le due variabili aleatorie discrete SN ed N, la cui distribuzione d molto dificile da determinare con metodi analitici. Possiamo per6 aiutarci con una simulazione, procedendo come segue: si considera u n numero 0 5 E 5 1 fornito dalla routine rndm e si incrementa N di uno; se ( 5 0.01 (ipotesi H o ) si incrementa di uno anche S N ;se SN ed N soddisfano la (9.99) si procede ad u n ulteriore passo, se SN 2 3.99 + 0.0144N si sceglie H I , se SN -2.25 + 0.0144 N si accetta H o . La stesso test pu6 essere
<
370
Capitolo 9. lnferenza statistica e verosimiglianza
4000
innnn
N (ipotesi H,)
S, (ipotesi %)
N
Fig. 9.11. Risultati della simulazione di 100 000 test sequenziali dell'esercizio 9.14. Istogramma del numero N di pezzi da campionare se la probabilita di difetto i! dell'l% (ipotesi Ho) a); lo stesso se la probabilita di difetto & del 2% (ipotesi HI) b); istogramma del numero degli scarti SN sotto Ho c); punti nel piano (N, S N )corrispondenti all'accettazione delle due ipotesi d)
simulato sotto l'ipotesi alternatiua H I , incrementando SN se 5 5 0.02. I1 risultato, ottenuto ripetendo il test al calcolatore per 100 000 volte, col nostro codic riportato in Fig. 9.1 1. La simulazione mostra, in Fig. 9.1 1 a) e b), ero medio di pezzi campionati b 451 & 1 sotto Ho e 570 + 1 sotto H I , circa la met6 di quelli necessari per il test a campione fisso, che, come mostrato nell'esercizio 9.10, b di circa 800, a paritci dei livelli a = 0.05 e /3 = 0.20. Si vede inoltre che N ha una distribuzione con una coda di tipo esponenziale a destra, con u n piccolo ( m a n o n trascurabile) numero di test in cui si raggiungono valori superiori a quello del test a N fisso. La densitd di SN sotto H o , riportata in Fig. 9.11 c), b di tipo esponenziale, con u n valor medio di circa 5 pezzi. Sopra gli istogrammi di Fig. a) e b) b riportata anche una stima dei valori dei livelli 1- a' e 1- P' "sperimentali", ciob il numero di test i n cui si k accettata H o quando 2 uera (Fig. a)) e H I quando k vera (Fig. 9.11 b). Dai dati si ricauano i ualori a' E (3.8 fO.3)% e p' E (l9.3f O.3)% (verificate l'errore statistic0 come esercizio). Essi n o n coincidono con i ualori fissati a priori perch2 il test coinuolge variabili discrete. La somma ai+/3' E (23.1&0.4)% k minore del valore a+P = 25%, in accordo con la (9.95). I n Fig. 9.11 d) sono riportati, nel piano (N,SN) i valori ottenuti nei 100 000 test, sotto le due ipotesi. I punti si dispongono appena a1 di sopra o a1 di sotto delle due rette limite della (9.99). Questa curua permette la determinazione per via grafica dell'intervallo di indecisione; ad esempio, quando N = 500, se SN< 5 si sceglie H o , se SN> 11 si sceglie H I . V a anche notato come i n ogni istogramma compaia euidente la struttura discreta del problems. 3s+ .
==
9.13 Problemi
371
9.13 Problemi 9.1. Un'urna contiene biglie bianche e nere in proporzione di 2 : 1 o di 1 : 2 (non si sa a favore di quale colore). Se in un esperimento si fanno 4 estrazioni con reimmissione, trovare la stima ML della proporzione in funzione dei risultati possibili di biglie nere estratte (x = 0,1,2,3,4). 9.2. Utilizzando il metodo del problema precedente, trovare la stima ML della probabilith p in funzione dei successi x ottenuti in n = 3 tentativi, considerando i 9 valori possibili: p = 0.1,0.2,0.3,. ..,0.9. 9.3. Se fi e B sono stime ML di p e a , trovare la stima ML del quantile F(x,) = a.
9.4. Avendo osservato n tempi ti da una popolazione avente densit&esponenziale Xexp[-At], fare la stima ML di A. 9.5. Un metodo per stimare il numero N di elementi di una popolazione finita consiste nell'estrarre un campione casuale d l n elementi, marchiarli e reimmetterli nella popolazione. Si estrae poi un second0 campione di n elementi e si determina il numero x di elementi marchiati. Se in un esperimento si fissa n = 150 e si trova x = 37, fare la stima ML di N, a) in mod0 esatto e b) nell'approssimazione N >> n. Suggerimento: utilizzare la legge ipergeometrica (1.32) di pagina 25. Che metodi si potrebbero usare per determinare in mod0 approssimato la stima per intervallo di N, cioi: N E N & u [ m ? 9.6. Se X B una variabile di Bernoulli di densit&b(z) = p x ( l - p)l-x, verificare se le statistiche S = XI X2 e P = XlX2 sono sufficienti.
+
xi
9.7. Si ottiene da un campione di dimensione n la somma w = sf.Sapendo che la variabile ha distribuzione normale N(0, u2), con media nulla nota e varianza da determinare, applicate i metodi a) e b) del par. 9.5 per determinare l'intervallo di confidenza di u2.
9.8. Campionando da una popolazione normale N ( p = 0 , a 2 ) si sono ottenuti i valori: xi = 1.499,5.087,0.983,2.289,1.045, -1.886. Trovare la stima ML puntuale e per intervallo della varianza a 2 , per CL = 95.4%. Fate ora la stima con la (6.66) di pagina 201. Questo risultato B pih corretto del precedente?
-
9.9. Da 100 valori simulati di X N(0, a 2 ) si B ottenuto w = Stimate la varianza con i metodi dei due problemi precedenti.
xix: = 1044.
9.10. Due carnpioni dei diametri (in cm) di cuscinetti a sfere prodotti dalla stessa macchina in due settimane differenti hanno numero di eventi, media e deviazione standard rispettivamente pari a nl = 100, rnl = 2.08, s l = 0.16 e n2 = 200, mz = 2.05, s2 = 0.15. Fare la stima ML e per intervallo del diametro medio. 9.11. Un monitor di radioattivita rileva o meno la presenza di particelle nucleari senza contarne il numero. Esaminando 50 campioni casuali omogenei della stessa quantita di sostanza nella stessa unit&di tempo, 45 sono risultati positivi al monitor. Fare la stima ML del numero medio di particelle emesse dalla quantith di sostanza nell'unita di tempo.
372
Capitolo 9. lnferenza statistica e verosimiglianza
9.12. La registrazione di N = 1000 tempi di arrivo ha fornito l'istogramma:
d a cui risulta che tra 0 e 2 secondi si sono registrati 472 intertempi, tra 2 e 4 secondi 276 intertempi e cosi via. Eseguire il best fit utilizzando la densit2 esponenziale e(t) = Xexp(-At) determinando la stima ML di A. Verificare la bontb dell'ipotesi col test X 2 . 9.13. Secondo l'ipotesi nulla Ho, una variabile binaria X assume i valori 0 e 1 con probabilita 1- e ed e rispettivamente: P { X = 0 , l ; Ho} = (1 - E),E . Sia 0 < E << 1 una quantita piccola e positiva. Si consideri l'ipotesi alternativa P { X = 0 , l ; H I } = E , (1-E). Si calcoli il livello di significativitA e la potenza del test seguente: si accetta Ho se in una prova {X = 0), si accetta H I se {X = 1). 9.14. Nella situazione del problema precedente, si consideri il risultato di due prove indipendenti ed il test seguente: si accetta Ho se { X I = 0, X2 = 0); si sceglie H I se { X I = 1, Xz = 1); si lancia una moneta per scegliere a caso tra Ho ed H I quando { X I Xz = 1). Trovare il livello di significativita e la potenza di questo test e confrontare il risultato con quello del problema precedente.
+
9.15. Come si esegue il test randomizzato nel caso dell'esercizio 9.11? 9.16. Una ditta di automobili utilizza delle sospensioni che resistono in media 100 ore ad un test estremo di fatica (ipotesi Ho). Un fornitore propone un tip0 di sospensione che a suo dire resiste in media 110 ore (ipotesi alternativa H I ) . Sapendo che la distribuzione dei tempi i: esponenziale negativa, progettare un test sul nuovo tipo di sospensione. a) Tenere la dimensione del campione fissa, utilizzare l'approssimazione normale per la media, e fare in mod0 che la probabilita di sbagliarsi se le nuove sospensioni sono uguali alle vecchie sia 1'1% e la probabilita di accettare sospensioni buone sia il 95%. b) Risolvere ora il problema con un test sequenziale e valutare, con un codice di simulazione, le distribuzioni della media dei tempi e del numero di pezzi necessari a1 test. Conviene utilizzare il carnpione a dimensione fissa o il test sequenziale? Quale strategia adottereste? 9.17. Trovare la funzione di potenza nel caso del problema 9.16. Suggerimento: confrontare la (3.55) di pagina 88 con la (3.65) di pagina 92. 9.18. Si vuole verificare l'ipotesi nulla che la probabilita di avere testa nel lancio di una certa moneta sia p = 0.5 contro l'ipotesi alternativa p = 0.3. Qua1 i! il numero n di lanci necessario per decidere tra queste due ipotesi, supponendo un livello del 10% e una potenza del 90%, cioi, a = 0.10 e /3 = 0.10 ? Si utilizzi l'approssimazione normale. 9.19. Con gli stessi valori di a e del problema precedente, trovare il numero di successi x in funzione del numero dei lanci n che permetta di scegliere tra le due ipotesi con un test sequenziale. Determinare, lanciando una moneta o con un codice di simulazione, il numero medio di lanci n necessario per decidere tra le due ipotesi. Si confronti il risultato con quello del problema precedente. 9.20. Se X ha densit&p ( x ) = (1
+ 6 ) x e , 0 5 x 5 1, si trovi, con un campione di
n = 100 eventi, la miglior regione critica per il test di -9 = Bo = 1 contro 6 = -91 = 2 ad un livello a = 0.05. Determinare la potenza del test e la funzione di potenza.
10. Minimi quadrati
"E infine necessario, dopo che tutte le condizioni del problema sono espresse in mod0 opportuno, determinare i coefficientiin mod0 da rendere gIi errori iI pi^ possibile piccoli. A tal fine, il metodo che mi 6 parso pic semp k e e piii generale consiste nel minimizzaxe la somma dei quadrati degIi errori." Adrian Legendre, "Nuov~ METODI P E R LA DETERMINAZIONE DELLE ORBITE DELLE
COMETE"
.
10.1 lntroduzione Nel par. 9.6 abbiamo mostrato che il metodo dei minimi quadrati (metodo LS, Least Squares) discende dal principio di massima verosimiglianza (metodo ML, Maximum Likelihood) quando le variabili sono gaussiane. Storicarnente le cose sono andate perb in mod0 diverso. Infatti, mentre la massima verosimiglianza fu introdotta da Fisher agli inizi del 1900, il metodo dei minimi quadrati fu applicato per la prima volta dal matematico francese Legendre fin dal 1803, come indicato nell'epigrafe di questo capitolo. Successivamente Laplace, nel suo famoso trattato "Thhorie Analitique des Probabilit6sn del 1812, dimostrb che il metodo LS produce stime non distorte anche nel caso di variabili non gaussiane. I1 passo decisivo per la collocazione corretta del metodo LS nell'ambito della statistica fu poi compiuto da Gauss nel 1821, con la dimostrazione che gli stimatori LS, quando i valori attesi delle vaxiabili aleatorie sono funzioni lineari dei parametri da determinare, sono stimatori non distorti ed efficienti (a varianza minima). Questo fondamentale teorema fu esteso e meglio formalizzato da Markov nel 1912, ed 6 oggi noto come teorema di Gauss-Markov. In base a questi risultati possiamo dire che, quando non sono note a, priori le densiti. delle popolazioni campionarie, in alternativa a1 metodo della massima verosimiglianza pub essere usato il metodo dei minimi quadrati in tutti quei casi in cui si possono esprimere i valori attesi come combinazioni lineari dei parametri. I1 principio LS non 6 solo quindi una conseguenza, ma anche un complemento a1 metodo ML, relativamente alla classe degli stimatori non distorti a vaxianza minima. Se i valori attesi sono una combinazione non
374
Capitolo 10. Minirni quadrati
lineare dei parametri, il metodo LS i: ancora utilizzabile, ma a prezzo della perdita delle propriet& di non distorsione e minima varianza. Accenneremo brevemente, nel corso di questo capitolo, anche a1 caso non lineare. I1 metodo LS, come illustrato nel par. 9.6, consiste nel trovare il minimo di una espressione di tip0 X 2 , come la (9.52). Generalizzando, possiamo definire il metodo come:
Definizione 10.1 (Metodo dei Minimi Quadrati (LS)). S'tan0 Y I , Y Z , . . . , y, i valori osservati u n a variabile aleatoria Y (detta "variabile risposta") tali che (Y,)= ,ui(xi, 8) ,ui(8). Nella funzione ,ui(xi, 8), 8 E O i: un vettore di parametri di dimensione p + 1 e X I ,. . . , x, sono gli n valori osservati di u n a variabile X detta "redittore". Le varianze Var[Y,] = a! sono note. La stirna 8 dei minimi quadrati di 8 b quella che rende m i n i m a la quantitii:
=
I1 predittore pui, essere anche un vettore X . I n tal caso scriveremo ,ui(xi, 8), in corrispondenza dell'i-esimo valore osservato di X . Dalla definizione si comprende che le funzioni pi(@),a1 variare di 8, costituiscono una classe di modelli che mettono in relazione la variabile (aleatoria o deterministica) X con (Y); in virtb di tale relazione, che permette di valutare (E) senza aver osservato yi, la X viene chiamata predittore, mentre la Y viene chiamata risposta. La minimizzazione della (10.1) rispetto a 8 h a lo scopo di identificare il miglior modello in questa classe. Notiamo che, a differenza del metodo ML, qui non i: necessario conoscere la distribuzione delle variabili per stimare 8, ma solo il lor0 valore atteso e la varianza. Un'altra caratteristica del metodo i! che le varianze a3 non dipendono da 8. Dopo aver stimato 8, se non si B sicuri del modello, B opportuno eseguire sono note, k lecito utilizzare un test di adattamento ai dati. Se le varianze il test X2 di adattamento, in mod0 simile a quanto fatto nei paragrafi 6.17 e 6.18. Per evitare equivoci, ricordiamo che:
022
il procedimento di minimizzazione k puramente matematico e non statistico, e consiste nel trovare il minimo della quantith "tipo x2" (10.1); la cluantit&
h a distribuzione X2(n - p - I ) se le sono gaussiane indipendenti con valore atteso pi($), a sua volta funzione lineare di 8 .
10.1 lntroduzione
375
Con questa precisazione, pensiamo che indicare sempre come X 2 la quantith da minimizzare, anche se essa pub non avere distribuzione X 2 ( n- p - 11, non porti a confusionel. Se il test di adattamento non rifiuta l'ipotesi nulla o se si 6 gi&sicuri del modello adottato, pub essere utile dare degli intervalli di confidenza per 8 oppure per ~ ( 8 )Vedremo . come effettuare tale operazione nel caso lineare gaussiano. Gli intervalli di confidenza per p ( 0 ) servono a prevedere (Y,) in corrispondenza di valori di x, per i quali non sono stati fatti esperimenti. Nel par. 9.7 abbiamo presentato un esempio del metodo LS per l'adattamento di funzioni di densitb ad istogrammi, come conseguenza del principio della massima verosimiglianza. Tuttavia l'applicazione pic importante, che B l'oggetto di questo capitolo, riguarda la ricerca di forme funzionali, contenute 8 ) . che ci proponiamo B quello di darvi un metonelle funzioni ~ ~ ( L'obiettivo do (anche se non necessariamente il migliore in tutti i casi) per la stima e la verifica dell'adattamento utilizzabile in ogni situazione e di mettervi in grado, per ogni tip0 di problema, di scegliere l'algoritmo giusto e di utilizzare in mod0 appropriato i codici di minimizzazione, interpretandone correttamente i risultati dal punto di vista statistico. Non descriveremo in dettaglio gli algoritmi di questi codici, perch4 questo un aspetto essenzialmente di calcolo numerico, piii che di statistica. Per maggiori dettagli, si possono consultare i testi [a], [66], oppure direttamente i manuali d'uso dei codici di minimizzazione, come [47]. Nelle nostre paper eseguire gine web [64] troverete anche le routine 3S< e %>i-nfi~: minimi quadrati lineari e non lineari ed ulteriori informazioni di caratterre tecnico-numerico. Nel seguito del capitolo useremo qualche volta, oltre ai termini italiani corretti, anche i termini inglesi fit e best fit che fanno parte ormai del gergo comune a molti ricercatori. Per evitare equivoci, riportiamo qui sotto la corrispondenza tra i termini utilizzati: = fit adattamento miglior adattamento = best fit = parametri di best fit 8 stime LS dei parametri 6 curva di regressione o curva dei - curva di best fit minimi quadrati Cominciamo ora col discutere due dei tipi di dipendenza tra variabili che si possono presentare e sui quali ci concentreremo per la maggior parte di questo capitolo.
I gradi di liberti ora sono n-p- 1 e non n-p perch6 nella def. 10.1 la dimensione di0bp+l
376
Cawitolo 10. Minirni auadrati
t I
I
I
I
I
I
Fig. 10.1. Carnpionamento di una variabile aleatoria y funzione di una variabile non aleatoria z; campionamenti ripetuti a) e rappresentazione convenzionale nel caso di un solo campionamento b).
10.2 Predittori osservati senza errore In statistica un caso molto frequente 6 dato da una variabile aleatoria Y espressa come: (10.3) Y = f (x) + Z, f (z) f ( x , 6 ) , dove f (x) B una funzione nota (a meno del parametro 8) del predittore non aleatorio x. Osservate che si pub sempre porre (Y) = f(x) e (2) = 0, perch6 se fosse (2)= zo basterebbe ridefinire f come f(x) zo e si ricadrebbe ancora nella (10.3). Questo accorgimento permette di rappresentare Y come somma di una componente deterministica (il suo valore atteso), che coglie la parte essenziale della reIazione col predittore x, e di una parte aleatoria, che rappresenta le fluttuazioni attorno alla media. Nel caso di un insieme di valori xi fissati e osseruabili senza errore, un campionamento della Y ripetuto pih volte per ciascun valore xi fornisce un grafico come quello di Fig. 10.1 a), con le xi fisse e le Y , che fluttuano intorno ai lor0 valori medi; se si effettua una sola prova e la deviazione standard delle Zi 6 nota, il grafico si disegna come in Fig. 10.1 b), con Ie barre d'errore, calcolate a partire dalle deviazioni standard ai delle Zi,, centrate sui valori misurati yi. I1 compito del metodo dei minimi quadrati B determinare la forma funzionale f (x) che lega (Y) alla variabile deterministica x. In altre parole, occorre determinare, per ogni x, la media f (x, 8) come la curva rispetto alla quale le fluttuazioni di Y sono casuali, dove "casuali" significa che la dipendenza tra (Y) e x 6 interamente compresa in f , e che quanto rimane 6 un puro termine d'errore. Se nella (10.1) pi(@)= f (xi, 8), il X 2 i: dato da:
=
+
dove a1 denominatore compare la varianza di Y che, in base alla (10.3), 6 data da:
10.2 Predittori osservati senza errore
377
Fig. 10.2. Campionamento di coppie di variabili aleatorie correlate a) e rappresentazione della densit5 congiunta corrispondente b) .
+
Se la relazione k lineare, si ha ad esempio f (z, 8 ) = Q1 &x. La ricerca di una densit&a partire da un istogramma, ottenuta minimizzando la (9.59)' k riconducibile a1 caso del predittore non aleatorio. Infatti, la funzione f (xi, 8) = Npi(0) coincide con il valore atheso di = Ii,le variabiIi x sono i valori predeterminati dello spettro nel caso di spettro discreto, o il punto medio dello spettro entro il canale predeterminato Ax nel caso di spettro continuo e non vi i: errore su x. L'errore i: solo su Y ed B quello statistico, dato dalle fluttuazioni nel numero di osservazioni cadute durante il campionamento nei diversi canali dell'istogramma. Un'altra situazione molto frequente viene dalle misure di grandezze fisiche, una misurata con errore trascurabile e sostanzialmente sotto il controllo dello sperimentatore (la x), I'altra determinata con meno precisione (la Y). In questo caso la funzione y = f (x, 0) rappresenta la legge fisica che lega le due variabili. Veniamo ora a1 second0 caso di dipendenza tra variabili:
= 0. Poich6 a differenza della (10.3), dove X e Z sono variabili aleatorie e (2) X k ora una variabile aleatoria, tra X ed Y esiste una correlazione statistica in generale non nulla. In un campionamento ripetuto con n prove indipendenti, Yi), che indichiamo noi osserviarno altrettanti valori del vettore aleatorio (Xi, con le coppie (xi, yi), i = 1,.. . ,n. Ponendole su un grafico, si ottiene una nuvola di punti come quella di Fig. 10.2 a). La densit&congiunta di (X,Y), la cui forma i: quella della (4.3), i: rappresentabile come in Fig. 10.2 b), indicando con sfumature di colore diverso i valori degli integrali della densita nelle varie regioni del piano. Come nella (10.3), assumiamo che l'argomento di f nella relazione funzionale che definisce Y venga osservato esattamente. Se siarno interessati non tanto a1 meccanismo aleatorio che genera X quanto alla relazione tra
378
Capitolo
10. Minimi quadrati
X e Y, possiamo ricondurci alla (10.4) fissando un valore x e utilizzando la distribuzione di Y condizionata a {X = x) per il calcolo del X 2 :
dove abbiamo sostituito le a: con le varianze condizionate Var [Klxi] e il valore atteso delle Y , con i rispettivi valori attesi condizionati f (xi, 0 ) = (Y,jzi). Dunque, avendo fissato XI,. . . ,x,, otteniamo 8 minimizzando la (10.6). Per come i! stato costruito il modello, (Ylx) i: dato da f (x) qualunque sia la distribuzione di (X, 2).A1 contrario, quest'ultima influenza Var [Y1x1, essendo Var[Y1x] = Var[f (X)lx] Var[Zlx] = Var[Zlx] .
+
Se X e Z sono indipendenti, allora Var [YI x] = Var [ZI x] = Var [Z], e
Var [Y] = Var [f (X)1 + Var [Z] (10.7)
e il denominatore della (10.6) diventa costante, mentre se X e Z non sono indipendenti non si pub garantire che Var[Zlx] = Var[Z]. I1 legame della (10.5) B molto comune ed il c'aso di Tab. 6.6 i: uno di questi. Infatti, il perimetro toracico di un certo soldato sara correlato non a1 valore medio della statura, ma alla statura d2 quello stesso soldato. Possiamo anche pensare ad uno studio finanziario che cerchi di correlare l'andamento dell'indice di borsa di Milano con quello della borsa di New York: l'indice di Milano sar2 correlato a1 valore corrente della borsa di New York; a questa correlazione si aggiungeranno altre variabili casuali e che conterranno le altre fonti di variazione dell'indice di Milano. Le formule (10.3) e (10.5) sono formalmente le stesse, tuttavia, il significat0 della funzione f i: diverso: nel primo caso x B una variabile non aleatoria e f (x) rappresenta una relazione funzionale analitica tra x e (Y), mentre nel second0 caso f (X) induce la correlazione statistica tra di esse. In questo senso, facendo riferimento alla (10.5), possiamo chiamare f (X) funzione di correlazione tra X e Y. Per chiarire meglio il concetto, quando X e Z sono indipendenti, Var[Z] = Var[Z/x], e dalla (10.7) abbiamo: a:
r Var[Y] = Var[f (X)] + Var[Zlx] .
(10.8)
Siccome Var[Y(x]= Var[Zlz], la (10.8) pub essere riscritta come
Confrontiamo questa. equazione con la (4.55) di pag. 130, che rappresenta la varianza di Y condizionatamente a X = x nel caso in cui (X,Y) sia gaussiana bivariata e che per comodita riportiamo:
10.3 Rette dei minimi quadrati
379
Per analogia tra questa espressione e la (10.9), siamo portati a definire una forma pih generale del coefficiente di correlazione tra X e Y:
dove il segno B quello della covarianza tra X e Y, Cov[X, Y]. Si noti che dalla (10.7) e dalla (10.10) segue che p = f1 quando Var[Z] = 0 e che p = 0 quando f (X) k costante. E anche facile rnostrare (si veda il problema 10.1) che, se f (X) = a + bX, il coefficiente di correlazione B pari alla covarianza tra X e Y diviso il prodotto tra le deviazioni standard:
Riassumendo, se si impone che due variabili abbiano distribuzione congiuntamente gaussiana, allora nel cap. 4 abbiamo mostrato che la funzione di correlazione tra di esse n o n pui, che essere di tip0 lineare. Vale infatti l'equazione (4.54) della retta di regressione per (Ylx):
Questa situazione qui appare come un caso particolare della (10.5) per il quale la funzione di correlazione f (X) pub essere qualunque, ed il coefficiente di correlazione viene definito in generale second0 la (10.10).
10.3 Rette dei minimi quadrati In questa sezione esaminiamo un caso particolarmente semplice della relazione (10.3), alla quale riconduciamo anche la (10.5), considerando X e Z indipendenti e condizionandoci ai valori osservati di X. Percib scriveremo sempre la x in minuscolo. Quando la funzione che lega (Ylx)a x B una retta, cioB f (x, 8) = a bx, con 0 = (a, b ) , la relazione tra x e Y diviene
+
02
indipendentedove assumiamo anche che Var[Y] = Var[Z] = Var[Zlx] = mente dal valore di x. La varianza 02 raramente i: nota. Avendo osservato il campione casuale (xl, yl), . . . , (x,, y,), i1 X 2 da minimizzare si pub scrivere come:
380
Capitolo 10. Minimi quadrati
La minimizzazione della (10.13) non dipende da a: e richiede l'annullamento delle derivate parziali:
Per semplificare la notazione, poniamo
Usando questa convenzione, le (10.14) danno allora luogo a1 sistema di equazioni:
ovvero, in forma matricide
dove i parametri a e b rappresentano le incognite le medie campionarie sono coefficienti numerici noti. Con i metodi dell'analisi matriciale si ottiene subito la stima dei minimi quadrati dei parametri:
dove
D=nSxx-s:, rappresenta il determinante del sistema (10.18). I pararnetri ottenuti sono soprassegnati dal simbolo per indicare che si tratta di valori stimati dai dati, non dei valori veri a e b. Utilizzando la relazione (4.23), dopo un po' di algebra, la (10.20) pub essere scritta come: 6 - S x ~- S x ~SY --r - SY , (10.22) 5: sxsys, s, "^"
dove r i: la stima sperimentale (6.134) del coefficiente di co~~relaxione lineare p della (10.11). Dalla (10.16) ricaviamo ii = (y) - b (x). Con i coefficienti cosi ,. riespressi, la retta dei minimi quadrati stimata, $(x) = 6 bx, risulta essere
+
10.3 Rette dei minirni auadrati
381
una stima della retta di regressione (4.54), che abbiamo riportato alla fine della sezione precedente:
Dunque concludiamo che la retta di regressione rappresenta il luogo dei punti della media della distribuzione condizionata per variabili gaussiane oppure la retta dei minimi quadrati per variabili anche non gaussiane. L'errore sulle stime dei parametri, che verra indicato come a1 solito col simbolo s, si ottiene applicando la legge (5.65) sulla varianza di funzioni di variabili aleatorie, la quale permette di valutare l'effetto di propagazione delle Auttuazioni delle variabili Y (cioi! della parte casuale e) sui parametri ii e i attraverso le (10.19, 10.20):
La covarianza Cov[Y,,Y j ] non compare perch6 si suppone che le osservazioni Y , siano tra lor0 indipendenti. Tenendo presente che
si ottiene:
Applicando la (10.24) e tenendo presente la (10.21) B ora facile vedere che:
Queste sono espressioni esatte delle varianze degli stimatori, perch6 B e dipendono linearmente ddle yi. Ci domandiamo se questi errori si comportano come I/*, cioB come l'errore della stima della media di un campione casuale. Indicata con 32 la varianza campionaria di (XI,.. . ,x,) con denominatore n anzichk n - 1:
S,x
s,"
n
n2'
, g 2 = - -
con qualche passaggio algebrico si trova che k effettivamente cosi:
(10.28)
382
Capitolo 10. Minimi quadrati
Se (xl, . . . ,x,) si comporta come un campione casuale, 3: e (x)2 convergono quasi certamente a valori costanti e dunque gli errori convergono a zero con velocith llfi. Abbiamo gib avuto mod0 di notare piG volte come questo sia un comportamento comune a moltissimi stimatori statistici. Per quanto riguarda il calcolo degli errori, questo non B possibile se a: B incognita. Per stimare a:, riscriviamo la (10.12): Z = Y - (a + bx). Dunque, essendo uz = Var[Z], una sua stima t: ricavabile dalla varianza campionaria dei residui dalla retta dei minimi quadrati,
La media dei residui B zero: infatti abbiamo (1) = (y) - 2 - 6 (x). Ma la (10.23) mostra che la retta dei minimi quadrati passa per il punto ((x) , (y)), dunque (y) = 2 6 ( s ) e (2) = 0. Allora la varianza campionaria dei residui B
+
dove il denominatore (n - 2) fa si che lo stimatore della varianza sia non distorto. Le stime della varianza di 2 e 6 sono percib
's2 (b)
=
s,2 1 n sg
-
Ora abbiamo gli elementi per calcolare degli intervalli di confidenza per i parametri della retta di regressione, quando le Yisono assunte gaussiane indipendenti con media (a bxi) e varianza a:. Partiamo dal fatto che se sapessimo che b = 0, il problema dei minimi quadrati coinciderebbe con quello della stima della media del campione (yl,.. . ,y,). Questo i: stato risolto 2 indipendenti e nella sezione 6.11, mostrando che M (cioi: 2) e S 2 / ~sono hanno rispettivamente distribuzione gaussiana e x2 ridotto con n - 1gradi di liberth. Percib f i ( M - p ) / S aveva distribuzione t di Student con n - 1gradi di liberth. Un simile risultato continua a valere quando dobbiamo stimare anche b: infatti sia 2 sia 6 sono combinazioni lineari di variabili gaussiane indipendenti, mentre s2 (k)/a2(8) e s2(6)/a2 (6) hanno distribuxione X2 ridotto con n - 2 gradi di libert8. Allora, si dimostra che (2 - a)/s(2) e (6 - b)/s(6) hanno entrambe distribuzione t di Student con n-2 gradi di liberth e dunque, gli intervalli di confidenza per a e b con CL= 1 - a sono:
+
10.3 Rette dei minimi auadrati
383
L'unico mod0 non tedioso di dimostrare per bene questi risultati B quello che fa uso del teorema di Cochran e delle proprietg dei proiettori ortogonali su spazi lineari. Rimandiarno gli interessati a [2]. Una volta stimato il modello, questo pub essere utilizzato per valutare (Ylx) in corrispondenza di un punto x (anche non incluso tra i punti sperimentali) (xl,. . . ,x,), oppure per prevedere il valore che osserveremmo per Y in corrispondenza di x. Per prevedere (Ylz) i:naturale utilizzare la stima c(x) = ii+&(x).L'errore ad essa associato dipende dalla covarianza tra d e 6. Infatti applicando la (5.65) e le (10.26, 10.27) otteniamo la stima:
dove compare appunto la stima della covarianza s(G,g). Con la solita notazione AX = X - (X), applicando la (5.83) e sviluppando a1 primo ordine 8 e 6 nelle variabili yt, possiamo calcolare la covarianza Cov[ii,&I:
dove alle derivate non si applica il valore atteso perch6 sono costanti nei valori misurati yi. Con l'aiuto delle 10.25) e con la notazione (10.15) si ottiene in definitiva:
da cui, con la (10.28), la stima
Sostituendo questa stima e le (10.31, 10.32) nella (10.34) troviamo infine:
Poiche $(x) B combinazione lineare di gaussiane indipendenti e s2($) i:un multiplo di s2, B di nuovo possibile diiostrare che
384
C a ~ i t o l o10. Minimi auadrati
Fig. 10.3. Fascia di confidenza
9
3~
tl-a12s(tj) della retta dei minimi quadrati. s(6) i: stimato con la (10.36) per (x) = (9)= 1, S O = 1 e s / n = 0.5
it distribuita come una variabile di Student con n - 2 gradi di liberth e quindi un intervallo di confidenza con un CL= 1 - a per y(x) = a bx it dato da
+
La (10.36) 5 piuttosto istruttiva, perch6 segnala il pericolo di fare estrapolazioni: l'errore di previsione infatti cresce all'incirca come (x - (x)) man mano che x si allontana dal baricentro dei punti sperimentali, rappresentato d a (x). E questo assumendo che a1 di fuori dello spettro sperimentale la relazione tra x e (Ylx)continui a essere lineare, cosa che non possiamo affermare o smentire basandoci solo sul campione osservato. Se non lo &,la (10.36)non 5 neppure pih una stima appropriata della varianza. Di questa osservazione si trova conferma disegnando gli intervalli (10.37)a1 variare di x,ed utilizzando come ordinata $(x). I1 risultato k una fascia attorno alla retta dei minimi quadrati come mostrato in Fig. 10.3. Ricordate perb che questa non d un insieme di confidenza simultaneo con CL= 1 - a , ma solo l'unione di tanti intervalli univariati. Una nuova osservazione Y per un dato valore X = x ha sempre valore atteso a bx; useremo percio y(x) come stimatore di Y. Tuttavia, nella previsione, si deve tener conto anche della varianza della parte casuale e di Y, oltre a quella di y(x). Pertanto, l'errore associato alla stima it questa volta dato da
+
+
+
+
Var [y(x) Z 1 x] = Var [y(x)] Var [ Z1x] = Var [y(x)] a :
(10.38)
dove abbiamo potuto sommare le varianze perch6 la nuova e Q indipendente dalle fluttuazioni d a cui dipendono gli stimatori ii e 6. Sostituendo nella (10.38)lo stimatore ottenuto nella (10.36)e inserendo sg a1 posto di a; abbiamo che l'errore it
10.4 Minirni quadrati lineari: caso generale
385
In definitiva, l'intervallo di stima di Y in corrispondenza di un z fissato e per un certo live110 di confidenza 1 - a, diventa:
dove, come per la stima di a + bx, tl-+ Student con n - 2 gradi di libert8.
6 il quantile della distribuzione di
Esercizio 10.1 ~ s ~ i ~ ~ ~ ~ ~ -ZVJ ~ ~ -A:-.-w ~ ~ IN~ Riprendere l'esercizio 6.16 di pagina 243 e ricalcolare l'intervallo di stima per il perimetro toracico di u n soldato alto 170 cm. - 4 ~ 1
Risposta. La soluzione trovata a suo tempo n o n teneva conto del17incertezza dovuta al fatto di aver usato medie, varianze e coeficiente di correlazione campionari invece di quelli veri. Se ora ricordiamo il risultato dell'esercixio 6.16, t E r n ( t ) s )f s ( t ) s )= 86.9 f4.3 'cm
e facciamo uso della (10.40), possiamo tenere conto di questo fatto ed eseguire la stima corretta:
IZ risultato, anche dopo la correzione, resta praticamente invariato. I livella di confidenza si calcolano con la densiti di Student con (1665 - 2) gradi di libertci e si possono considerare a tutti gli effetti gaussiani. Pertanto, il 68% dei soldati alti 170 c m ha il perimetro toracico compreso tra 82.6 e 91.2 cm. L'intervallo di confidenza (10.36) che contiene la media vera (in senso frequentista) con C L 68% per x = 170 em, vale invece:
-
10.4 Minimi quadrati lineari: caso generale In questo paragrafo generalizziamo a1 caso multidimensionale la discussione fatta nella sezione 10.3. Un problema piti generale di minimizzazione lineare si ha quando abbiamo p predittori raccolti in un vettore x e l'equazione corrispondente alla (10.12) B espressa da
j
~
386
Capitolo 10. Minimi quadrati
dove z j i: l'elemento j-esimo di x. Come nella sezione 10.3, poniamo (Zlx) = 0 e Var[Zlx] = 0;.Percib
Le componenti di a: possono essere variabili differenti o funzioni della stessa variabile, o un insieme delle due cose, second0 la convenienza. Per esempio potremmo avere che la risposta dipende d a un solo predittore tramite un polinomio di grado p P
con xt = (x, x2,.. . ,xP), oppure, pih in generale:
con zt = (fi (z), fi (z),. . . , f , (z)). Se p = 1 nella (lo.&), ricadiamo nel caso particolare della retta dei minimi quadrati. I1 problema di partenza i: ancora quello di stimare 6 a partire da un campione casuale (xl, yl), . . . , (x,, y,), conp+l
se le dimensioni delle matrici sono compatibili. Se A i:una matrice quadrata, la matrice inversa i: quella matrice Apl tale che AApl = I, dove I i: la matrice identitb. Se esiste la matrice inversa, si dice che A ha rango pari a1 numero delle sue righe, o anche che ha "rango pieno". Se B 6 una matrice quadrata a sua volta invertibile, valgono inoltre le proprieta
Se A k una matrice con m righe e k colonne, con k matrice k x k A~A = (A+A)~
5 m e di rango k, la (10.46)
10.4 M i n i m i quadrati lineari: caso generale
387
B una matrice simmetrica e definita positiva. CioB, dato un qualunque vettore c non nullo e di dimensioni compatibili: ct At Ac > 0 . Oltre a ricordare queste formule, vale la pena di rileggere il par. 4.5. Torniamo ora a1 nostro problema. Indicando con xij il valore del j-esimo elemento di x i , definiamo la matrice dei predittori:
Indichiamo poi con y il vettore colonna delle risposte (yl, . . . ,yn) e con 8 il vettore colonna dei pammetri (go,dl, . . . ,0,). La colonna di uni nella matrice X serve a tener conto della parte costante del modello, che 6 bene includere sempre, a meno che non si sia certi che fI0 = 0. In questo mod0 possiamo esprimere la (10.41) per tutti i punti sperimentali con una sola equazione matriciale: Y=X(e+Z (10.48) dove Z 6 il vettore colonna (Z1, . . . ,2,) delle fluttuazioni casuali a media nulla, incorrelate, con varianze marginali costanti: Kax[Zi] = 02. I1 X 2 da minimizzare per stimare 8 , che ricaviamo dalla (10.1)' ii
e il suo punto di minimo dipende solo dal numeratore, che possiarno riscrivere in forma matricide
E facile vedere che la condizione di minimo della (10.49)
implica le cosiddette equazioni normali:
avendo l'accortezza di porre xi0 = 1 per l'equazione con 5 = 0. La condizione di minimo espressa dalle equazioni normali (10.51) assume ora la forma compatta: xt = ( x t x ) (e oppure ,3 = a 6 , (10.52)
388
Caaitolo 10. Minimi auadrati
dove abbiamo introdotto le matrici ,6 = xt y e a = X ~ X second0 , una notazione abbastanza diffusa [8, 661. Questa equazione, risolta nelle incognite 0, invertendo X t X , che assumiamo di rango p+ 1,fornisce le stime LS dei parametri e rappresenta finalmente la soluzione del problema dei minimi quadrati lineari con pih predittori (o dei minimi quadrati generali o della regressione multipla): 8 = (x+x)-I X +y a-' p . (10.53) Potete vedere queste equazioni fondamentali codificate in SCILAB con la . nostra routine Nel caso (Y (x)= a bz i: facile vedere che le equazioni normali (10.52) corrispondono proprio alle (10.18). Veniamo ora a110 studio degli errori sulle stime ottenute. usando il formalismo matriciale e tenendo presente che la (10.53) non i! che un caso particolare della (5.75). Infatti possiamo scrivere la (10.53) come
+
dove ogni funzione f j i:una. combinazione lineare degli elementi di y , e applicare quindi la trasformazione delle varianze (5.77)..In questa trasformazione, l'elemento di posizione ji della matrice del trasporto, dato da dfj/dyi, non i! altro che l'elemento di posto ji della matrice ( x ~ x ) - ' x ~ . Applicando questa legge alla (10.53) si ottiene dunque la matrice delle covarianze di 8:
dove si sono utilizzate le (10.44, 10.45), la simmetria di ( x ~ x ) e il fatto che V ( Y )= aZ1, ciok la matrice diagonale con elementi diagonali tutti pari a 02. Questa importante relazione mostra che l'inverso della matrice a = x ~ X contiene tutte le informazioni sugli errori nelle stime dei parametri. Infatti in questa matrice, detta matrice degli errori, 6 una matrice quadrata di dimensione (p 1) x (p l ) , data dal numero di parametri liberi del fit, ed k simmetrica e definita positiva. Gli elementi diagonali sono le varianze delle stime LS dei parametri 8, gli elementi non diagonali rappresentano le covarianze tra tutte le coppie di stime (&, 6,). Un'utile verifica di questa affermazione si pub fare applicando la (10.54) a1 caso bidimensionale (retta dei minimi quadrati); si ottiene infatti:
+
+
in accord0 con le (10.18, 10.26, 10.27, 10.35). La valutazione di ( Y l x ) in corrispondenza di un punto x , come nella sezione 10.3, avviene tramite la trasformazione lineare $(z)= x t 8, dove
10.4 Minimi quadrati lineari: caso generale
389
possiamo pensare a x t come a una riga della matrice X o a un nuovo insieme di valori dei predittori. Applicando ancora la (5.75) e la (5.77) a questo nuovo caso particolare di trasformazione di variabili, si ottiene immediatamente la varianza di $(x): (10.55) Var[$(x)] = x t v ( 8)x , che rappresenta la generalizzazione della (10.34). La stima corretta dell'errore o,, analogamente alla (10.30) si ricava da:
Osservate che i gradi di liberth al denominatore sono sempre dati dal n meno il numero di parametri stimati. Nel caso in cui le Yisiano gaussiane indipendenti possiamo ricavare gli intervalli di confidenza per ogni Bj analoghi a quelli che compaiono nelle (10.33): (10.57) dj E %jf tl-a/2 s(ej) A
dove ~ ( 8 B~ricavabile ) dalla (10.54), sostituendo s, a a,:
Questa formula it utilizzata nella nostra routine L b f i t . L'intervallo di confidenza di livello 1 - a per y(x) = (Ylx) assume la forma (analoga alla (10.37))
dove tl_,lz 6 il percentile della mriabile di Student con n - p - 1 gradi di libertk. Per quanto riguarda l'intervallo di confidenza per Y (simile alla (10.40)) in corrispondenza di un dato valore x , esso B identico a quello della (10.59) dopo aver sommato I al termine sotto radice quadrata:
Spesso la procedura di fit B resa complicata e di difficile interpretazione dalle correlazioni tra le stime LS dei parametri, i cui valori cambiano da un fit all'altro se decidiamo di aggiungere altri predittori a quelli usati nel primo fit, aumentando p nella (10.41). Per ottenere stime incorrelate si deve diagonalizzare la matrice (x~x)-' ricorrendo a sofisticate tecniche di calcolo matricide oppure ortogonalizzando la matrice X in mod0 che soddisfi la condizione
390
Capitolo 10. Minirni quadrati
In questo mod0 x ~ iX :diagonale e anche la matrice degli errori, che ne i:l'inversa, risulta diagonale, le covarianze sono tutte nulle e i parametri risultano tra lor0 incorrelati. Anche se importanti nella pratica, non discuteremo qui i metodi di diagonalizzazione, che sono piuttosto laboriosi e che si possono trovare sui testi dedicati alle tecniche di calcolo numerico, come [66]. Esercizio 10.2 ~ ~ ~ - ~ ~ + ~ - - m w ~ = . .-* --- = - .% ~ ~ ~ ~ Ricavare le equaxionz normali nel caso di u n a relazione quadratica - A -
Risposta. C o n la notazione (10.15) la (10.52) diventa:
Il confront0 di queste equazioni con Ee (10.18) vi suggerisce immedzatament e la generalizzazzone delle equazioni normali ad un polinomio dz qualunque grado. .,,--~l,#lllli~d!~l~i~!%'~:* -,, , r Slfi#ji
10.5 Minimi quadrati lineari pesati Nelle sezioni 10.3 e 10.4 abbiamo considerato le diverse osservazioni della variabile risposta come incorrelate e con varianza costante. Una prima deviazione da questa ipotesi i: che le varianze non siano costanti, ciok che
ovvero Var[K] = a: per ogni i e Cov[Y,, Y j ] = 0, per i # j . Pih in generale, anche le covarianze potrebbero essere non nulle, con una matrice V non diagonale. Se tutti gli elementi di V fossero ignoti, si porrebbe un difficile problema di stima. Per il caso della (10.62), assumiamo di conoscere i rapporti cri/aj, ciok quanto la risposta della prova i k pic (o meno) variabile rispetto a quella della prova j. Allora potremo scrivere la matrice delIe covarianze come V = a; W-I, dove
10.5 Minimi quadrati lineari pesati
391
I pesi (wl, . . . ,w,) sono tutti noti: in tal mod0 0; = a:/wi e anche i rapporti ai/aj sono tutti noti e pari a wj/wi. Se vale la (10.63), allora il X 2 da minimizzare, che scriviamo direttamente per il problema della regressione rnultipla con sf = (1, s i r , . . . , sip),i:
dove abbiarno posto Gi = & y i e Zi = f i x i . Passando alla notazione matriciale, indichiamo con W ; la matrice diagonale con le radici quadrate dei pesi sulla diagonale e poniamo jj = W $ y e x = W ~ XIl. modello lineare che stiarno considerando nelle variabili trasformate & percib
dove Z ii lo stesso del modello (10.48). Risulta immediatamente che minimiz' zare il x2 della (10.64) equivale a minimizzare
Questo X 2 6 formalmente identico a quello della (10.50), percib abbiamo, tenendo conto che W + W = ~ W, della simmetria di W e delle (10.44):
dove le matrici definite nella (10.52) ora diventano a = (xiW X ) e ,k? = x t Wy. Per quanto riguarda gli errori delle stime, si ha subito, dalla (10.54),
mentre la stima di a:, guardando la (10.56), risulta
Se le osservazioni Y, della risposta sono gaussiane indipendenti, per trovare gli intervalli di confidenza per le O,, bastera dunque applicare la (10.57) con
-4
l'errore della (10.58) sostituito da s,
--,, -
= s,
@.Nella routine
_ ~ j j l ~ d troverete 8$ codificate le equazioni (10.64-10.69) per i minimi quadrati pesati. La "previsionen di y(x) in corrispondenza di un valore x non e probabilmente di molto interesse, dunque non conviene applicare direttamente la
392
Capitolo 10. Minirni quadrati
(10.59) a 9. Basta osservare che continua a valere $(x) = x t 8 per la variabile risposta non trasformata e dunque la stima della varianza di +(x) it s ~ x t ( ~ t ~ X ) come - ~ xnella , (10.55). L'intervallo di confidenza di Iivello 1 - a B percib come quello della (10.59):
L'intervallo di previsione per Y(x) si ricava da questo aggiungendo alla stima della varianza di $(x) quella della parte casuale del modello per Y in corrispondenza di x: Z Y ( z )= x + e+ -
fi
cioB V a r [ z / m = s:/w. Qui w B o un nuovo peso, se x non i: un punto sperimentale, o uno dei vecchi pesi in caso contrario. Risulta infine, come per la (10.60)'
Quanto detto fin qui b valido se W B una matrice diagonale. Ma osserviaassieme alla ovvia fattorizzazione di V, cioit mo la trasformazione y = ~3 V = 1r2 W-l = 0: W-4 W-i. Se V non i: diagonale e poniamo V = o:W-', con W matrice nota, riusciarno ad ottenere una fattorizzazione analoga applicando la (4.69): W-I = H H?. Qui H gioca lo stesso ruolo di W-4. Rileggendo la sezione 4.5, si comprende che la trasformazione Y = H-'Y rende Y un vettore gaussiano con matrice delle covarianze pari a a21 e vettore delle medie 2 0 = H - l X 8 , riconducendoci alle ipotesi utilizzate nella sezione precedente per ricavare tutti gli intervalli di confidenza. Dunque i risultati dalla (10.66) alla (10.70) valgono per una qualunque matrice delle covarianze a2W-I senza modifiche; Anche la (10.71) continua a valere inserendo a1 posto di llw l'elemento di posto i sulla diagonale di W-I se si prende in considerazione un punto sperimentale xi, oppure un nuovo coefficiente in caso contrario.
10.6 Proprieti delle stime dei minimi quadrati Qui vi illustriamo i due teoremi fondamentali (tra cui quello di GaussMarkov) su cui si basano le stime dei minimi quadrati lineari. Se non vi piacciono le gioie della matematica, potete leggere solo l'enunciato dei teoremi (e le lor0 conseguenze!) e passare a1 prossimo paragrafo. Teorema 10.1 (Stime corrette). Nel caso di dipendenza lineare dai parametri, le stime dei minimi quadrati (LS) sono non distorte ("unbiased").
10.6 Proprieta delle stime dei minimi quadrati
393
Dimostrazione. Applicando l'operatore media alla (10.53) e tenendo presente la (10.48) si ha immediatamente:
( 6 ) = (x+x)-'xt (Y) = (x'x)-' x'x 8 = O , in accord0 con la (9.14).
0
Teorema 10.2 (di Gauss-Markov). Con riferimento a1 modello (10.48),
tra tutti gli stimatori di 8 lineari in Y e non distorti lo stimatore LS C quello a varianza minima, ovvero lo stimatore pi& eficiente. Dimostrazione. Dobbiamo dimostrare che, se 8* 2 una stima lineare i n Y e non distorta dei parametri, si ha;
dove a C u n qualsiasi vettore di dimensione p. In particolare, se a contiene tutti zeri e 1 nella posizione i-esima, la (10.72) comprende anche i casi
Considem'amo pertanto una generzca stima lineare i n Y e non distorta dei parametri 8: 8*=UY. Nel caso dello stimatore dei minimi quadrati, U = (x+x)-~ Xt.Dato che la stima C per ipotesi non distorta, dalla (10.48) si ha: (O*) = U ( Y ) = U X 8 = O ,
da cui:
ux = I , (ux)' = I
E cruciale notare che questa proprietd non implica affatto U = X - l , perch6 U ed X non sono matrici quadrate. I n base alla (10.54) abbiamo:
Vale ora 1 'identit;:
dove C b la matrice LS degli errom' divisa per a:,
Questa identitb si pub verijicare facilmente utilizzando la (10.74) e il fatto che C , V e le loro inverse sono matrici simmetriche coincidenti con le corrispondenti trasposte:
394
Capitolo 10. Minimi auadrati
Tenendo presente la (10.54) possiamo scrivere la (10.75) come:
la quale mostra che la matrice delle covarianze di 8" 13 uguale alla matrice delle covarianze delle stime LS 8 pi& u n a matrice simmetrica definita positiua, in quanto essa B scritta nella forma H H ~come nella (4.69). Questo dimostra il teorema. Ovviamente, l'uguaglianza V ( 8 * ) = ~ ( 8 si) ha quando U = C X ~= ( x ~ xx*, ) - come ~ d facile verificare. E importante notare come questo teorema n o n implichi alcuna assunzione ne' sulla distribuzione delle popolazioni ne' sulla dimensione del campione y. Cib che viene richiesto B soltanto che i valori medi (Y) siano funzioni lineari dei 17 parametri. Nel caso dei minimi quadrati pesati della sezione 10.5, i teoremi appena dimostrati continuano a valere sostituendo rispettivamente 2 a X e Y a Y. Abbiamo visto che, nel caso di variabili gaussiane e modelli lineari, le stime fornite dal metodo LS forniscono anche intervalli di confidenza per i parametri, per (Ylx)e per Y stessa.
10.7 Verifica del modello e determinazione di forme funzionali I risultati che abbiamo esposto finora, sono validi se il modello ipotizzato per il valore atteso della risposta B corretto. Quando non si conosce a priori la forma funzionale del modello lineare, si comincia a stimarne uno ipotetico scegliendolo nella classe definita dalla (10.41). Consideriamo ad esempio una sottoclasse interessante di modelli di regressione nella quale ciascuno dei p predittori i: funzione della stessa variabile x:
da adattare ad n punti sperimentali con errore a, ignoto. Ricordiamo che il problema consiste nel trovare le curva rispetto alla quale le fluttuazioni dei punti sono casuali, ovvero la curva che rappresenta la relazione funzionale tra x e il valore medio di Y. Questa curva n o n deve passare esattamente per i punti (interpolazione) e pertanto deve avere un numero
10.7 Verifica del modello e determinazione di forme funzionali
395
di parametri inferiore alla dimensione del campione; per questo motivo essa i! detta anche curva di regressione (anche se storicamente questo termine B stato introdotto in un contest0 diverso). La scelta iniziale della curva nella sottoclasse (10.76) avviene in base alla conoscenza del problema in esame e in base all'andamento dei grafici delle coppie (xi, gi), quando cib e possibile, come nelle figure 10.1 e 10.2. Ottenuta la stima dalla minimizzazione del x2, la prima cosa da fare B controllare che i residui 2.z (10.77) - Pi - G(xi) = Yi - $i , che di fatto costituiscono una stima delle fluttuazioni casuali zi, si comportino appunto come fluttuazioni casuali. I1 grafico delle coppie (&, .&) B molto informativo in questo senso. Infatti i residui hanno sempre media nulla e si dimostra che, se il modello include il termine costante 00,la correlazione campionaria tra i valori previsti e i residui Zi B nulla e non sussiste tra essi relazione lineare. Se le ipotesi fatte su f (x, 13)e su media (nulla) e varianza (costante) delle fluttuazioni casuali zi sono compatibili coi dati, dovremmo dunque osservare nel grafico una nuvola di punti racchiusa in una fascia di arnpiezza costante2 e collocata attorno a110 zero. In particolare, se i residui sono anche gaussiani, la fascia risulterh approssimativamente simmetrica attorno a110 zero. Nel caso pesato si devono rappresentare i residui standard (cioi! divisi per l'errore), calcolati per ogni predittore xi:
L'andamento deve apparire casuale ed i valori a1 di fuori della fascia Iti(< 3 devono essere rari, in accord0 con la legge 3a. (Questa B una verifica approssimativa, infatti la varianza di zii! quella della nota 2, con 2 al posto di X). Se 02 non B nota i residui vanno comunque pesati e nel grafko si rappresentano le coppie ($(xi), &&). La Fig. 10.4 mostra tre possibili casi. Nel caso a) il fit B soddisfacente, nel caso b) i punti indicano un andamento che descrive una curva che viola la legge 3g, ad indicazione di una inadeguata forma funzionale introdotta nel fit; il caso c) invece si verifica quando gli errori sui valori grandi di y sono stati sottostimati. Frequentemente questo avviene quando si esegue un fitnon pesato, con errori assoluti tenuti costanti, di dati che invece hanno errore relativo costante. L'errore assoluto cresce allora con y e il grafico dei residui i! come nella Fig. 1 0 . 4 ~ )i ;matematici chiamano questo comportamento col nome di eteroschedasticitd. Tuttavia, diversi modelli possono produrre un grafico dei residui visivamente soddisfacente. Lo si affianca allora a dei metodi iterativi, con i quali Attenzione perb che ~ a r [ &= ] (~2(1- lii), dove lii sta tra 0 e 1 ed B l'elemento di post0 ii della matrice x ( x t x ) - ' x t . P u b accadere che, per certe matrici X, alcuni lii siano sensibilmente diversi dalla maggioranza degli altri.
396
?
-
-
o-3
Ca~itolo10. Minimi auadrati
c)
A v ~ v
-
Fig. 10.4. Possibiii grafici dei residui a seguito di un best fit: fit buono a); forma funzionale insoddisfacente b);
eteroschedasticit&(si veda il testo) c) si confrontano in successione coppie di modelli diversi, ottenuti l'uno dall'altro aggiungendo o togliendo predittori. Nel caso del polinomio della (10.76), potremmo aumentarne il grado di un'unit8 per volta, minimizzare il x2 e decidere quando fermarci. I1 metodo si basa sul fit dei modelli e sulla risposta alla domanda: "I1 peggioramento del fit che otterlgo togliendo determinati predittori f k (x) i: statisticamente significativo o no?" Per rispondere, partiamo dall'esame della figura 10.5, che rappresenta i vettori coinvolti nel nostro problema dei minimi quadrati nello spazio Rn. Per capirne il senso, notiamo che la stima della risposta in corrispondenza di ciascuna riga di X , cioB il vettore delle jj(xi), corrisponde a
Si dimostra che la matrice P non fa altro che attuare la proiezione ortogonale di y sullo spazio vettoriale generato dalle colonne di X , cioB 8 B quel vettore di parametri che avvicina il pih possibile y ai vettori generati da combinazioni lineari delle colonne di X . Consideriamo ora la matrice Xo, ottenuta da X eliminando un certo numero di colonne e tenendo po predittori (quindi Xo ha dimensione n x (po 1)). La stima della risposta con questo modello ridotto sar&naturalmente jjO = Peg, con Po = x ~ ( x ~ x ~ ) - ~matrice x ~ , di proiezione sullo spazio delle colonne di Xo. Cib equivale ad aver posto p - po coefficienti Bi pari a zero. Applicando il teorema di Pitagora a1 triangolo rettangolo tratteggiato in figura 10.5, otteniamo un'importante relazione che interessa i residui della regressione con il modello completo e con quello ridotto. Ricordando che 2; = 11,2112 = Ci(yi - $(xi))2 i: il quadrat0 della norma del vettore 2 , abbiamo (10.80) 114011~ = 112- 2011~+ 1 1 ~ 1 1 ~
+
xi
Se y(x) i: dato dalla prima delle (10.76) e le funzioni fk(x) soddisfano alla proprietii di ortogonalitb (10.61), scrivendo esplicitamente i residui si pub verificare facilmente che la (10.80) equivale alla condizione
10.7 Verifica del modello e deterrninazione di forrne funzionali
397
Fig. 10.5. Rappresentazione vettoriale nello spazio Rn. Regressione con tutti i predittori (matrice X) e con un sottoinsieme di predittori (matrice Xo). La stima della risposta $(X) G y in corrispondenza di ciascuna riga di X i! la proiezione ortogonale di y sullo spazio lineare generato dalla colonne di X. Up discorso simile vale per 5,. E dunque immediato ricavare i vettori dei residui delle due regressioni e la relazione tra essi.
la quale B verificata grazie alle equazioni normali (10.51). Dalla (10.29) B chiaro che gli elementi dei vettori dei residui sono combinazioni lineari delle risposte yi. Se la risposta ha distribuzione gaussiana, le due norme a1 second0 membro, sono relative a vettori ortogonali (quindi incorrelati) che, essendo a loro volta combinazione lineare di vettori gaussiani, sono indipendenti. Inoltre, se vale il modello ridotto con po predittori, si dimostra che
Questi risultati sull'indipendenza e la distribuzione delle norme a1 quad r a t ~ci , danno la risposta alla domanda che ci siamo posti poco fa, perch6, se d valido il modello ridotto, allora
segue la densit&F di Snedecor con ( p - po, n -p - 1) gradi di liberta definita dalla (5.46) e gig utilizzata nell'esercizio 6.11. Questa statistica B infatti il rapport0 tra due distribuzioni x2 ridotto indipendenti. Spesso la (10.83) B scritta con una notazione &versa
e RSS = 1(2(12 i! l'acronimo di residual sum of squares. La statistica (10.84) misura il peggioramento del fit (aumento della somma dei quadrati dei residui) del modello ridotto rispetto a quello del modello completo. Se F i!
398
Capitolo 10. Minimi quadrati
significativamentegrande vuol dire che i predittori eliminati dal modello completo erano importanti, dunque rifiuteremo a1 live110 a l'ipotesi che i relativi coefficienti siano nulli se
Un caso particolare B quello nel quale il modello ridotto si ottiene eliminando un solo predittore, ad esempio ponendo 8, = 0 in una delle (10.76), cosi po = p - 1. La F allora, sotto l'ipotesi Ho : 8, = 0, ha distribuzione F(1, n - p - 1) e non B difficile vedere che sussiste l'uguaglianza Fl-,(l, n - p - 1) = t:-,,2(n - p - I), il percentile della t di Student con (n - p - 1) gradi di liberta. In realta anche F B il quadrat0 di
dove s(8,) i!come nella (10.57), e T ha distribuzione t di Student con (n-p-1) gradi di libertb. Potete verificarlo leggendo la discussione che precede gli intervalli di confidenza per i pararnetri della retta dei minimi quadrati (10.33), dove p = 1, a = 80 e b = 81.Detto cib, rifiuteremo Ho accettando il nuovo parametro (po 1)-esimo se T supera tlPffl2(n- p - 1). Visto in altro modo, un valore grande di T indica un errore relativo piccolo e quindi l'importanza del parametro. Con riferimento a1 problema della scelta del grado del polinomio nella (10.76), potremmo ad esempio partire dal modello con il solo O0 e verificare l'ipotesi Ho : 131 = 0. Se questa viene rifiutata, aggiungeremo il termine di secondo grado e verifichieremo l'ipotesi Ho : 82 = 0 e cosi via. Se k B l'indice del primo test che non porta a rifiutare Ho, porremo p = k - 1. Questo B solo uno dei possibili procedimenti. Se per caso il termine di secondo grado non risultasse significative, ma lo fosse quello di terzo grado, con questo procedimento non ce ne accorgeremmo. T ~ t t oquello che abbiamo visto finora non basta ad assicurare che la determinazione della forma funzionale sia avvenuta correttamente, poich6 sono condizioni necessarie ma non sufficienti. In altre parole, vi sono molte forme funzionali (non solo quella %eran) che soddisfano ai criteri di buon fit sopra elencati. Questa & una ambiguita di fondo, non risolvibile solo per via statistica, della quale occorre sempre essere consci. E quindi molto importante introdurre, nel modello di fit, tutte le informazioni a priori che si hanno del problema e cercare di ridurre gli errori sui dati per quanto possibile. Esemplifichiamo questi concetti simulando un caso realistico. Partendo dal polinomio
+
generiarno dei dati sirnulati di tip0 gaussiano con una deviazione standard relativa piuttosto grande, di f15%:
399
10.7 Verifica del rnodello e determinazione di forme funzionali
+
Tabella 10.1. Risultati di una serie di best fit con polinomi del tipo y(x) = 00 82x2 + 83x3 per i dati della (10.88). SL i: il livello di significativita relativo a1 X 2 ,ottenuto con le 6.118
&x
+
do 01
FIT1 -5.1 f 1.5 12.5 f 0.9
82 93 13.2
= 2.20 X2/v 6 SL 8%
FIT2 -14.8 f 3.4 23.0 f3.4 -1.4dr0.5 3.2 - - 0.64 5
FIT3 -7.0 f 7.6 12.0 f 10.0 2.1 f3.1 -0.3 i0.3 1.9
- = 0.47
50%
4
40%
FIT4
FIT5 1.9 f 1.2
2.8 f 1.7 4.8* 1.0 -0.5 f 0.1
5 . 8 f 0.6 -0.6 f0.1
2.8 5
34 -= 0.67 5
- = 0.55
50%
70%
dove gi B un numero casuale estratto dalla gaussiana standard, secondo le tecniche illustrate nel cap. 7.. I dati ottenuti sono riportati nella (10.88):
dove sy = 0.15 y. I polinomi di regressione dl vario grado ricavati da questi dati sono mostrati nella Tab. 10 he no stati ottenuti col nostro codice fa uso della routine Y(X)= 6 0
+ 01s ,
detto FITl in Tab. 10.1, fornisce un X 2 accettabile, anche se il livello di sigpificativith piuttosto basso invita ad aumentare l'ordine dello sviluppo. Il risultato FIT2 6 ottenuto col polinomio
e porta ad un buon x2. I1 rapport0 (10.83) per il test F tra FIT2 e FITl vale:
Consultando la Tab. D.5 per i livelli a1 5% e all'l%, otteniamo 15.6 > F0.95(1,5) = 6.61 , 15.6 < f0.99(1,5)= 16.3 . I1 test mostra che l'ipotesi nulla (ciob la inutilith di FIT2) pub essere rifiutata a1 livello del 5%, ma non a quello dell'l%. Se consideriamo che la soluzione
400
Capitolo 10. Minirni quadrati
Fig. 10.6. a) Punti sperimentali della (10.88) e polinomi di fit ottenuti in Tab. 10.1; Iinea tratto-punto: FIT1; linea a tratti: FIT2; linea a punti: FIT4; linea piena: FLT5. A parte FIT1, tutti i polinomi hanno 3 parametri liberi e forniscono un buon X2.b) Residui (10.77) tra i dati e la curva piena FITS; si confronti con la Fig. 10.4
i: a1 limite del live110 all'l% e che il x2 di FIT2 B migliore, i: lecito ritenere significativa la soluzione a 3 parametri di FIT2. A questo punto potremmo fermarci, ma vediamo cosa succede con FITS, in cui si utilizza la cubica con 4 parametri
In questo caso il x2 non migliora sensibilmente, 1'F test mostra che il quarto parametro B inutile e tutti i 4 parametri di FIT3 presentano un piccolo valore (10.86) di T e sono pertanto compatibili con lo zero. Tutto questo ci dice che quattro parametri liberi sono eccessivi. In FIT4 e FIT5 si ritenta allora il fit con delle cubiche, ma sopprimendo i parametri O0 e B1 rispettivamente. I fit risultanti sono anch'essi accettabili, soddisfano i criteri a)-c) appena discussi e sono in pratica equivalenti a FIT2. I risultati FIT2, FIT4 e FIT5 di Tab. 10.1 sono dunque tutti egualmente compatibili, anche se noi sappiamo (ma solo perch6 i dati sono stati simulati dalla (10.87)) che la soluzione piu vicina a quella Vera 6 quella di FIT5. La conclusione corretta 6 quindi che gli 8 valori di Tab. 10.88, affetti da un errore considerevole di &15%, sono compatibili con una forma funzionale quadratica o cubica, avente non piu di tre parametri. Tra questa classe di soluzioni rientra la funzione Vera (10.87). L'uso di funzioni ortogonali con--.....-la proprieth (10.61) ottimizza notevolmente la procedura di minimizzazione, perch6 i parametri sono indipendenti e quelli gih trovati non cambiano valore aggiungendone dei nuovi, ma in genere non aiuta a risolvere le ambiguita. La situazione k riassunta in mod0 efficace in Fig. 10.6, dove si vede immediatamente che polinomi di second0 o terzo grado sono statisticamente compatibili con le fluttuazioni dei dati. La figura mostra anche come l'estrapolazzone delle curve a1 di fuori della zona di esistenza dei dati sia estremamente pericolosa: il valore estrapolato corretto, per x = 10, k quello di FIT5,
10.8 Ricerca delle correlazioni
40 1
che & la curva piena; risultati completamente diversi si ottengono con le altre curve, che pure rappresentano bene i dati entro i valori di x misurati.
10.8 Ricerca delle correlazioni I1 metodo per la ricerca del modello (con l'esempio specific0 della ricerca delle forrne funzionali) della sezione precedente si fonda sul confront0 tra coppie di rnodelli annidati I'uno nell'altro. Se confrontassimo ciascun modello con uno stesso modello base di rifermento, potremmo associare a ciascuno di essi una "cifra di merito" che ne riflette il fit ai dati. Una tecnica per far questo e che ora illustreremo prende il nome di ricerca delle correlazioni. Prendiamo in esame la decomposizione dei quadrati dei residui dal modello ridotto (10.80) con p~ = 0, ovvero quello con il solo termine costante Bo e la matrice Xo coincidente col vettore colonna di tutti uni. Dalla (10.53) ricaviamo 80 = (y) = jjOie quindi 2 0 ~= yi - (y). Pertanto
IIc
- Go 11. La decornInoltre, dalla figura (10.5), vediamo che 112 - iolj= posizione (10.80) diviene in questo caso una decomposizione della varianza campionaria di Y e assume la forma:
che viene detta a parole come: devianza totale = devianza spiegata + devianza residua .
(10.90)
Questa eguaglianza, che i: la pih semplice forma di analisi della uarianza, ha un'interpretazione molto interessante, cioi: che la dispersione delle y i attorno a (y) & decomposta in due parti tra lor0 10x0 incorrelate: la prima 6 quella colta dal modello di regressione lineare conp predittori, la seconda i: il residuo, cio&quello che il modello non pub spiegare della variazione presente nei dati. Se il modello interpolasse i dati, si avrebbe che yi - gi = 0 per ogni i e la componente residua sarebbe nulla. Dividend0 la devianza spiegata della (10.90) per la devianza totale otteniamo il coeficiente di determinazzone :
= 1-
RSS Cy=d~i - $iI2 = 1 (n - 1)s; C ~ = J-Y (y)I2 ~
(10.92) *
402
Capitolo 10. Minirni quadrati
<
Vista la (10.89), 0 5 R2 1, raggiunge I nel caso in cui il modello interpola = 0, il che accade se y non i dati e vale zero solo se 01 = O2 = . . . = dipende linearmente d a nessuno dei predittori inseriti nel modello e le sue fluttuazioni sono esclusivamente "residue". In pratica non accade mai che R2 sia esattamente zero, ma pub accadere che sia molto vicino a zero. Ancora grazie alla figura 10.5, si mostra che R2 6 il quadrato del coefficiente di correlazione campionario tra le yi e le &. Tale coefficiente, si dice coeficiente di correlaxione multipla e pub essere visto come una misura deiia correlazione campionaria tra le y i e le righe xi della matrice X, in quanto ciascun jji 6 la previsione di Y in corrispondenza di xi.Nel caso specific0 della retta dei minimi quadrati (con p = 1)' sostituendo la (10.23) a1 numeratore della (10.91) si ha A
e si vede immediatamente che R2 = r2, ciok il quadrato del coefficiente di correlazione lineare tra le xi e le yi. Per completare l'analisi della decomposizione (10.89) menzioniamo il coefficiente di determinazione corretto con i gradi di liberth, se non altro perch6 compare nell'output di molti programmi di stima dei minimi quadrati. Esso 6 definito da :
La ricerca delle correlazioni ha come obiettivo trovare la funzione f (x) che rnassimizza R2, cioe la funzione che massimizza la devianza spiegata e minimizza quella residua. Schematizziamo la procedura per forme funzionali del tip0 (10.76), tenendo presente che resta valida per qualunque modello di regressione lineare multipla: data una funzione f (2,6), lineare nei parametri, si trova la stima dei minimi quadrati 8, minimizzando la quantita
Una volta eseguita la stima, si calcolano la devianza spiegata e il coefficiente di determinazione R2. Tra tutte le forme funzionali ipotizzate a1 punto a), si cerca quella che ha il massimo R2. Se vi sono due soluzioni perssochC equivalenti, si sceglie quella col minor numero di parametri. Non dimenticate di verificare che il grafico dei residui della soluzione scelta abbia un andamento casuale, senza strutture evidentemente attribuibili ad una relazione funzionale non colta da f (x, 6).
10.8 Ricerca delle correlazioni
403
Applichiamo queste regole ad un insieme di dati simulati con l'algoritmo:
dove gl e g2 sono valori estratti da curve gaussiane standard. La variabile X 6 dunque di tip0 normale con p, = 10, cr, = 2, mentre la Y non 6 di tip0 normale perch6 la correlazione f (X) non i! lineare; tuttavia, le fluttuazioni intorno alla funzione di correlazione sono gaussiane, con o, = 5. Si sono cosi ottenute le venti coppie ( x i ,yi) riportate nella (10.95).
I risultati ottenuti con la nostra routine
minirnizzando il x2
rispetto a polinomi fino a1 terzo grado sono riportati Gli errori dei parametri sono calcolati dalla routine 10.69). Se ora applichiamo le regole a)-d) appena discusse, arriviamo a scegliere come migliore soluzione la FITS:
f (x) = 0.95 + 1.03 x2 . Tabella 10.2. Risultati di una serie di best fit con polinomi del tip0 y(x) = Oo 012 0 2 2 ' &x3 per i dati della (10.95)
+
+
+
404
C a ~ i t o l o10. Minirni auadrati
10
'......;:.
. -10 6
8
10
12
Fig. 10.7. a) Punti sperimentali della (10.95) e polinomi di fit ottenuti in Tab. 10.2; linea a tratti: FIT1; linea piena: FITS; linea a punti: FIT4. La soluzione FIT2 fornisce risultati graficamente indistinguibili da quelli di FIT3. b) Residui (10.77) corrispondenti alle tre soluzioni riportate in Fig. a)
Questa soluzione massimizza la varianza spiegata a1 99.1% e minimizza la fluttuazione gaussiana intorno alla curva di regressione a1 valore s$ = 4.4. La soluzione FIT2 fornisce gli stessi risultati, ma con un parametro libero in pih e con errori dei parametri troppo grandi, ciok 'con valori T della (10.86) troppo piccoli. La conclusione piu probabile i: quindi che i dati abbiano una funzione di correlazione di tip0 parabolic0 f (x) 21 x2, con un termine costante piccolo rispetto alla media dei valori di y o forse trascurabile, dato che I'errore sul parametro B grande (80 E -1.02 & 2.45). Le fluttuazioni assolute intorno a questa curva sono E 4.4. Come vedete, questa conclusione i: abbastanza vicina alla "verith" rappresentata dalle (10.94). Anche il grafico dei residui, riportato in Fig. 10.7b), mostra che la soluzione FIT3 ha un grafico dei residui con fluttuazioni pi6 regolari rispetto alle altre soluzioni. Notiamo infine che, se aumentassimo di molto il numero dei parametri, ad un certo punto troveremmo certamente valori di R2 ancora piu grandi e valori di s: ancora pih piccoli. A1 limite, con venti parametri passeremmo esattamente attraverso tutti i punti, ottenendo R2 = 1 e S$ = O! Tuttavia, questi fit di ricerca delle correlazioni vanno fatti con funzioni lontane dal limite dell'interpolazione, rispetto alle quali le fluttuazioni dei dati devono apparire come statistiche. Le forme funzionali da provare, come ad esempio il grado massimo dei polinomi, vanno quindi decise a priori sulla base delle informazioni che si hanno sul problema. A conclusione di questa sezione, rileviamo la relazione tra i1 test F per verificare l'ipotesi nulla Ho : O1 = . . . = 8, = 0 e 1'R2. Confrontando la (10.89) e la (10.91), troviamo che ~2
=
RSSo - R S S - (RSSo - R S S ) / R S S RSSo (RSSo-RSS)/RSS+l
-
-
PF pF+(n-p-1)
dove F F(p, n - p - 1).Poich6 R2 i: funzione crescente di F , scegliere la forma funzionale tra quelle con i piu elevati valori di R2 significa cercarla tra
10.9 Test di adattamento del modello
405
quelle che, sottoposte alla verifica di Ho, portano a rifiutarla con i piG piccoli p-value.
10.9 Test di adattamento del modello Consideriamo, per generalith, i minimi quadrati pesati, che comprendono anche gli altri casi quando gli errori sono costanti. Se le precedenti stime sono considerate affidabili e la risposta 6 gaussiana, si ha, degli errori quando il modello ipotizzato it corretto
03
Dunque it lecito eseguire i1 test X2 di adattamento. In genere la bontA del fit it controllata col test a una coda della (6.117), che scarta il modello se il livello di significativith osservato SL (o p-value) per la coda a destra it piii piccolo del livello del test a:
Meno usato, ma piii sicuro, it il test a due code delle (6.118), che come sapete dalla discussione del cap. 6 (pagine 223 e seguenti), tutela anche dall'uso di modelli con troppi parametri, che tendono ad interpolare i dati (s~vraparametrizz~zioni) . Se gli errori sono affidabili ma le variabili osservate non sono gaussiane, si ottengono in genere valori del X2 elevati, perch6 di solito i punti sono piii dispersi di quanto previsto dalla curva normale. In questo caso alcune volte si accettano valori del X2 corrispondenti a livelli di significativith piccoli dal punto di vista puramente statistic0 (anche del per mille o meno), ma giustificabili dal punto di vista pratico (ovvero: si attribuisce il X2 cattivo piii ai dati non gaussiani che alla forma del modello utilizzato). Una visione approssimata ma immediata del risultato la si pub anche vedere ad occhio prima di effettuare il test x2: se i punti "toccano" la curva y = f (z, 8) entro una, due o tre barre d'errore in accord0 con la legge 30, allora il x2 probabilmente sarh buono. La Fig. 10.8 esemplifica la situazione; ricordate sempre che, per convenzione, la barra d'errore & sempre pari ad una 0. La maggior parte dei codici di minimizzazione, se gli errori non vengono specificati, assume tacitamente che essi siano tutti uguali e che a, = 1, senza comunicare all'utente ... i rischi che corre! Se ci troviamo effettivamente nella condizione di poter assumere a: = 02 per ogni i , senza conoscere CT;, dovremo poi fornire una stima s, tramite la (10.56) per poter calcolare gli errori delle stime. Questo procedimento si chiama riaggiustamento dell'errore. Ricordiamo che questo procedimento it valido solo se non vi sono
406
Caoitolo 10. Minimi auadrati
I
I
I
I
I
I
Fig. 10.8. Esempio di fit cattivo a) e di fit buono b); nel second0 caso il 68% circa dei punti tocca la curva di regressione entro una barra d'errore
dubbi nk sul fatto che gli errori siano costanti, ni: sul modello funzionale pi(xi, 8) = zi8 utilizzato. Inoltre, non ha senso fare, alla fine del fit, il test x2, perchQ, inserendo s: nell'espressione del x2(8) a1 posto di a:, avremo sempre x 2, ~ = , ~( 8 ) = n - p - 1 (una costante!) per qualunque modello funzionale. Se non ci accorgessimo dell'errore, potremmo valutare come buono un fit che non lo 6: il valore atteso (n - p - 1) del X2(n - p - 1) si trova infatti ben a1 di sotto del valore critico. Per visualizzare il problema ricorriamo alla Fig. 10.9, dove supponiamo che i dati provengano d a una parabola e che abbiano errore costante, come in Fig. 10.9 a). Un fit che utilizzi la retta e che operi il riaggiustamento dell'errore fornirb un risultato come in Fig. 10.9 b), dove il x2 finale sarb ovviamente buono, ma solo perch6 avremo usato un errore pih grande di quello vero. I1 risultato giusto lo si ottiene solo rappresentando f (x, 8) come una parabola O0 812 &x2, il che presuppone naturalmente la conoscenza a priori della forma funzionale del modello. Un altro grossolano errore it quello di fornire ai programmi solo i dati senza gli errori anche nel caso di errori variabili; il pih delle volte questa procedura fornisce risultati sbagliati, come mostrato in Fig. 10.9 c).
+ +
10.10 Errori sui predittori Un caso particolare ma importante che riguarda lo studio di una relazione funzionale tra (Y) ed (X) si ha quando
dove X R ed Z sono indipendenti e con valore atteso nullo. La relazione che determina Y it identica alla (10.3), solo che $0 it osservata a meno di fiuttuazioni statistiche, che ii un mod0 per dire che il predittore xo it ignoto ed i: la variabile aleatoria X ad essere osservata. Un campionamento ripetuto di (X, Y), in corrispondenza di n valori veri x i = ( ~ 1 ,. .. ,%on),d&luogo ad un grafico come quello di Fig. 10.10 a), con le xi e le yi che fluttuano intorno ai lor0 valori medi xoi e f (xoi); se si effettua una sola prova e le deviazioni standard delle fluttuazioni XRi ed Zi sono note,
10.10 Errori sui predittori
407
Fig. 10.9. Se i dati fluttuano intorno ad una parabola con errore costante come in a), un fit che assume come curva la retta e opera il riaggiustamento degli errori
trove& un X 2 buono sovrastimando scorrettamente l'errore come in b). In c) si mostra un fit lineare pesato di punti con errori diversi, che fornisce come risultato la retta in linea piena; la soluzione di un fit non pesato, che suppone errori tutti uguali, attribuisce la stessa irnportanza a tutti i punti e fornisce un risultato errato, dato dalla linea tratteggiata il grafico si disegna come in Fig. 10.10 b), con le deviazioni standard di XRi e Zi disegnate come barre d'errore sui valori misurati xi e yi. Questo caso capita spesso nelle misure di laboratorio, quando si misurano con errori rilevanti due grandezze legate da una legge fisica di tip0 deterministico. Anche qui il compito dei minimi quadrati i: quello di trovare la legge fisica come curva di regressione o best fit, depurando il risultato dalle incertezze introdotte dalla misura. Dalla definizione 10.1 risulta che il X 2 da minimizzare i: in questo caso:
Infatti, le variabili osservate sono le coppie (xi, yi), mentre i parametri liberi sono ora i p parametri 8 e gli n parametri xoi, che rappresentano i valori medi delle Xi. I1 punto cruciale i: che, in accord0 con la (10.97), f 6 funzione delle variabili medie xo,non di quelle misurate. I parametri liberi da stimare sono n p, cio&la somma delle dimensioni di xo e di 8. La minimizzazione della (10.98) non presenta difficoltA se si dispone di un programma di minimizzazione non lineare del x2, come la nostra routine Tuttavia, il numero dei valori sperimentali raddoppiato e il numero di parametri liberi (n +p) possono causare non pochi problemi se si ha a che fare con grandi campioni. Approssimiamo percib il punto di minimo della (10.98) ponendo xoi = xi nella prima sommatoria, che cod & sempre zero, e cerchiamo di calcolare gli errori ayi sviluppando f (X) attorno ad xo in serie di Taylor arrestata a1 primo ordine:
+
408
Capitolo 10. Minimi quadrati
Fig. 10.10. Campionamento di una variabile aleatoria Y funzione del valor medio di un'altra variabile aleatoria X; campionamenti ripetuti a) e rappresentazione convenzionale nel caso di un solo campionamento b) .
f ( X ) = f (xo) + ( X - xo)fl(xo) + o(X - x d 2 .
(10.99)
Se Var[XR] i: sufficientemente piccola d a poter trascurare i termini di ordine superiore al primo (anche se aleatori), possiamo applicare l'operatore varianza alla (10.99) per ottenere
Siccome ft2(xo) dipende dal valore ignoto xo, lo sostituiamo con il vdore osservabile x, per ottenere la cosiddetta varianza eflettiva &:
dove abbiamo anche usato l'ipotesi di indipendenza tra X R e 2. Usando percib i termini (pi - f (xi, 0)) a1 numeratore del x2 e la varianza effettiva a1 denominatore, si ottiene il semplice risultato
dove compaiono solo i valori misurati (xi, y i ) e le varianze delle lor0 distribuzioni di provenienza attraverso la varianza effettiva. Nella (10.101) i parametri liberi tornano di nuovo ad essere solo i p parametri 0. Se i valori di f12(xi,0) sono ignoti, la minimizzazione della (10.101) non ricade pih nella definizione 10.1 e, anche se f 6 una funzione lineare nei parametri 0, la minimizzazione del X 2 d& luogo a equazioni non lineari a causa della derivata di f a1 denominatore. Tuttavia, se si dispone solo di programmi di minimizzazione 1inea.resi vuole ridurre il tempo di calcolo, si e nel ciclo pub utilizzare un metodo iterativo, ponendo all'inizio ugi = f12(xi, 0('-'))~:~, utilizzando le stime del ciclo k-esirno agi = precedente. In questo mod0 il denominatore torna ad essere indipendente dai parametri in corso di minimizzazione nel ciclo corrente e si ripristina la linearit& [62]. Si pub mostrare perb che questa procedura produce stimatori
aii +
aii
10.11 Minimizzazione non lineare
409
Fig. 10.11. Interpretazione geome-
trica della varianza effettiva non consistenti (anche se pih vicini al valore vero del parametro rispetto ai metodi che ignorano gli errori su X) [56], per cui, se si dispone di un codice di minimizzazione non lineare, conviene senz'altro usare la (10.101), che fornisce risultati praticamente coincidenti con la formula generale (10.98). La varianza effettiva si presta ad una intuitiva interpretazione geometrica, mostrata in Fig. 10.11: il termine ft2cr;, che viene aggiunto alla varianza iniziale cri, non & altro che l'effetto delle fluttuazioni in x riportato, attraverso la tangente dell'angolo a! (cioi: la derivata fl(x)), sull'asse delle y. Se le variabili Xie Y , avessero covarianza Cov[Xi, E] non nulla, allora, tramite la (5.65) si pub ulteriormente generalizzare la (10.101) come segue:
10.11 Minimizzazione non lineare Come abbiamo visto nel paragrafo precedente, a volte la funzione che si introduce nel X 2 non B lineare nei parametri. Ne abbiamo avuto un esempio anche negli esercizi 9.6 e 9.7, dove il modello introdotto nella funzione da minimizzare (10.2) era rappresentato dalle densit& gaussiana e binomiale. Abbiamo a suo tempo gi8 risolto questi esercizi, utilizzando la nostra roucommentandone dal punto di tine di minimizzazione non lineare vista statistic0 i risultati. In questo paragrafo intendiamo descrivere sommariamente gli algoritmi utilizzati in questo codice per trovare il minimo della funzione x2(8)in uno spazio a pdimensioni, senza perb entrare in eccessivi dettagli di calcolo numerico, che sono trattati in altri testi come [8] o [66] ed anche nelle nostre pagine web [64]. Gli algoritmi piG efficienti sono basati sul metodo del gradiente negativo, perch6 l'opposto del gradiente i: u n vettore che punta sempre verso il minimo. Operando quindi per passi successivi, si va in un punto dove la derivata seconda 15 positiva; si continua cosi finch6 la funzione non riprende a crescere. Nell'intorno del minimo il X 2 viene sviluppato in approssimazione parabolica:
410
Capitolo 10. Minimi quadrati
Pe rfissare le idee, supponiamo che la funzione x2 sia del tip0 della (10.6):
dove l'indice i si riferisce ai punti misurati; le derivate seconde assumono la forma:
Se si trascura il secondo termine, si ottiene l'approssimazione:
L'esperienza ha mostrato che con questa approssimazione vi sono molti vantaggi: I'algoritmo risulta pi^ rapido, accurato quanto gli algoritmi che ricorrono a sviluppi di ordine superiore e la matrice delle derivate seconde 2: sempre definita positiva [28, 471. E importante notare che annullare le derivate seconde rispetto ai parametri 0 della funzione Yi - f(xi,e) Hi(8) = ni corrisponde a supporre che le derivate seconde della funzione f(x,8 ) siano nulle, ovvero che f sia esprimibile, nell'intorno di un valore di partenza 8*, con uno sviluppo di Taylor a1 primo ordine Eineare nei parametri:
dove A8 = (8-O*). In questo caso la (10.103) i:una relazione esatta, in quanto le derivate di X 2 di ordine superiore a1 secondo sono nulle. Se ora teniamo presente le formule viste nel paragrafo 10.4 e operiamo nelle (10.48-10.51) le sostituzioni:
vediamo che le equazioni risolutive, passo per passo, sono identiche alle (10.5010.53). La matrice X della (10.47) contiene ora le p derivate prime di f (x, 8)
10.12 Problemi
411
calcolate nel punto 8* e negli n punti sperimentali xi, e la matrice ( X ~ W X ) della (10.52), che in questo caso viene detta matrice di curvatura, contiene le derivate seconde del x2 espresse come prodotti delle derivate prime di f e dei pesi l/a:. Una volta trovato il minimo rispetto ai valori A&, il fit si sposta . punto di minimo, gli errori sui parametri vengono nel nuovo punto 1 3 ~Nel ottenuti attraverso la matrice degli errori e nel case lineare. Per ulteriori dettagli, potete guardare la routin le pagine di cornmento ad essa collegate. Quando il X 2 da minimizzare proviene da una funzione di verosimiglianza dalla (9.45) risulta:
La ripetizione del calcolo appena fatto mostra che, linearizzando la funzione f , la derivata seconda del X 2 vale:
Si pub mostrare che anche in questo caso la matrice delle derivate seconde B definita positiva [28, 471. Abbiamo visto come ottenere 8 nel caso non lineare. Ci chiediarno ora quali siano le proprietA statistiche delle stime: in quali condizioni B possibile applicare i risultati dei minimi quadrati lineari? Come per gli stimatori di massima verosimiglianza, dobbiamo accontenterci di risultati asintotici, la cui applicazione 6 pih sicura nel caso dei campionamenti ripetuti di figura 10.la. In sostanza, fissiamo (XI,. . . ,z k ) punti sperimentali e otteniamo m misure (yil, . . . ,yim) di Y in corrispondenza di ciascun xi, cosicch6 n = mk. Se m (e quindi anche n) tende a infinito, 6 ragionevole aspettarsi uno stimatore consistente e asintoticamente normale della retta dei minimi quadrati per 8) ogni xi, poich6 le Kj sono un campione casuale con media costante f (xi, e varianza costante. In pratica possiamo applicare le (10.56-10.60) a1 caso non lineare sostituendo ovunque f (z, 8) a x t 8, e il vettore delle derivate
a ciascuna riga zf di X, quando X non i: moltiplicata per 8. Queste approssimazioni, perb, non vanno applicate acriticamente. Conviene prima approfondire l'argomento su testi dedicati come [3, 741.
10.12 Problerni 10.1. Trovare il coefficiente di correlazione lineare (4.31) quando f (X) = a X ed Z sono indipendenti.
+b X ,
412
Capitolo 10. Minirni quadrati
10.2. Due grandezze X e Y, tra le quali esiste una relazione lineare, sono misurate con uno strumento di accuratezza pari al 10%:
Intendendo l'accuratezza come un intervallo che contiene il valore vero con CL = 100% e probabilita date dalla densita uniforme, determinare la retta di regressione utilizzando la routine delle nostre pagine web. Calcolare il valore del X 2 e commentare. 10.3. Due grandezze X e Y sono affette da un errore gaussiano :
Calcolare il valore del Determinare la retta di regressione con la routine \X commentare. 10.4. I1 problema del vertice: determinare col metodo dei minimi quadrati, da un insieme di rette dei minimi quadrati y = ai bix, il vertice comune (xo, yo). (Suggerimento: considerare l'equazione di un fascio di .rette passanti per un punto: (Y- yo)/(x - XO)= b ) . 10.5. Una vaxiabile gaussiana Y, misurata in funzione di X ha fornito i valori:
+
$1
1.0 1.1 1.4 1.5 1.8 2.0 ~ 1 5 . 1 6 5.96 6.29 7.41 7.31 8.26
I
I
2.2 9.15
2.3 2.4 9.51 9.96
2.5 9.03
Sapendo che Y ha deviazione standard costante, determinare se B statisticamente e polinomiale fino a1 second0 grado tra X e Y. Si pub utilizzaxe ento di due variabili gaussiane X e Y ha dato il risultato:
Utilizzando nella routine un polinomio fino a1 second0 grado, determinaxe la funzione di correlazio 10.7. Sono date le seguenti 5 misure yi in funzione dei valori esatti xi: x i 2 y 1 7.9
4 11.9
6 17.0
8 25.5
10 23.8
I valori di Y sono affetti da un errore relativo gaussiano pari a f10%. Determinare i coefficienti della relazione funzionale Y = a + bX e studiare il risultato ottenuto simulando il jit 20 000 volte. 10.8. Sono date le seguenti 5 misure yi in funzione dei valori xi: x y
1 1.85 1 8.87
3.77 5.74 13.90 17.70
7.56 22.91
9.66 23.59
I valori di X e Y sono affetti da fluttuazioni relative di tip0 uniforme di f10%. Determinare i coefficienti a e b della relazione funzionale Y = a bX e studiare il risultato ottenuto simulando il fit 20 000 volte.
+
11. Analisi dei dati sperimentali
"Difatti, le conclusioni poggiavano su d o r i corrispondenti a uno o due punti situati in fondo alla curva, mentre esiste il principio secondo cui gli ultimi punti in fondo - l'ultimo in particolare - non valgono molto, altrimenti sarebbero seguiti da altri punti." Richard P. Feynman, "STASCHERZANDO, M R . FEYNMAN!" .
11.1 lntroduzione La parte tecnica e pih estesa di questo capitol0 riguarda l'applicazione delle nozioni di statistica e calcolo delle probabilitd ai vari tipi di misure e di esperienze che vengono effettuate nei laboratori scientifici. Lo scopo principale che ci proponiamo 6 quello di mettere in grado il ricercatore o il tecnico di laboratorio di riconoscere il tip0 di misura che sta eseguendo e di calcolarne in mod0 appropriato l'accuratezza e la precisione. Non affronteremo qui l'importante problema della ricerca di leggi fisiche tramite le tecniche di best fit dei dati, perch6 questo importante aspetto B stato ampiamente trattato nel cap. 10. Accanto agli argomenti tecnici, affronteremo anche alcuni aspetti concettuali e metodologici molto importanti, che riguardano i fondamenti del metodo scientifico, ciok del metodo che h a permesso la nascita e lo sviluppo della scienza moderna. Questo metodo B basato sull'osservazione dei fenomeni naturali, ovvero sulla raccolta e sulla analisi dei dati second0 quei principi e procedure che sono stati per la prima volta adottati in mod0 sistematico da Galileo Galilei e che si sono poi consolidati e perfezionati nel corso degli ultimi quattro secoli. L'analisi matematica e l'analisi statistica dei dati rivestono, in questo contesto, un ruolo di primaria importanza. Oggi discipline come la fisica e la medicina sono considerate scienze, in quanto basate sui fatti sperimentali, mentre cib non B pi6 vero per l'astrologia, perchi: quest'ultima i: basata sulle aspettative delle persone ed 6 totalmente smentita dai fatti quando questi vengono analizzati, come nell'esercizio 3.17, col metodo scientifico.
414
C a ~ i t o l o11. Analisi dei dati s~erirnentali
Piii sottile B la distinzione tra le scienze in senso lato, come la medicina, e le cosiddette scienze esatte, come la fisica. Pih correttamente, la distinzione dovrebbe essere fatta tra scienze totalmente o parzialmente quantitative. Una buona definizione di scienza esatta, se proprio vogliamo usare questo termine, potrebbe essere la seguente: Affermazione 11.1 (Scienza esatta). Una scienza si dice esatta quando
4. sempre in grado di associare un errore alle proprie previsioni e risultati. In sostanza, il termine "esatto" non implica che i risultati debbano essere affetti da errore nu110 o trascurabile; esso B invece sinonimo del termine "quantitative", che sta ad indicare un metodo che fornisce risultati prevedibili con certezza o con livelli di confidenza afidabili. Come gib sapete, per la determinazione dei livelli di confidenza il calcolo dell'incertezza di misura B di fondamentale importanza. Dal punto di vista teorico, gli errori sono talvolta presenti quando si utilizzano modelli semplificati del fenomeno che si sta studiando oppure si eseguono i calcoli con metodi numerici approssimati; tuttavia, qui non approfondiremo questo aspetto della questione. Dal punto di vista sperimentale, che i: invece quello di cui vogliamo occuparci, gli errori derivano dagli effetti casuali o sistematici legati alle operazioni di misura. Spesso la parte piii difficile e laboriosa di un esperimento k proprio la valutazione degli errori. In questa fase lo sperimentatore non & guidato tanto da teoremi o regole precise, quanto piuttosto dall'esperienza e da una serie di assunzioni, a volte anche un po' arbitrarie. Esiste tuttavia un vincolo importante: queste assunzioni e regole pratiche devono sempre essere in accordo con le leggi fondamentali del calcolo delle probabilitci e della statistzca. Notiamo anche che alcune delle assunzioni soggettive e arbitrarie che faremo riguardano la forma delle distribuzzoni statistiche da associare a priori a1 comportamento degli strumenti o alle operazioni di misura che vengono fatte. Per un approfondimento delle conseguenze legate a queste scelte si pub leggere [24]. Ricordiamo infine che in questo capitol0 useremo, per gli intervalli di confidenza, la notazione (6.16) di pagina 179, e che il significato dei livelli di confidenza associati a questi intervalli B quello frequentista ampiamente discusso nel par. 6.2 a pagina 173. Queste sono le convenzioni attualmente usate nella letteratura scientifica internazionale per i risultati di esperimenti di laboratorio.
L'operazione di misura di una grandezza con un apparato pub essere schematizzata come in Fig. 11.1 Come si vede, le incertezze che caratterizzano la misura possono essere riferite all'oggetto, all0 strumento oppure all'interazione tra oggetto e strumento. Attualmente non esiste una terminologia
11.3 Grandezze fisiche costanti e variabili
Oggetto
j
Misura
costante o e r ri s e a c i
j
415
Strumento
1
accumem
1
Fig. 11.1. Descrizione
schernatica dell'operazione di misura
unica per la descrizione di tali incertezze. Le raccomandazioni IS0 [39] sono di classificarle in due tipi: quelle che si possono trattare con metodi solamente statistici e quelle (dette sistematiche) che vanno trattate con altri metodi. La nomenclatura di uso corrente fa uso dei sinonimi: incertezza /I
incertezza statistica, errore statistico, errore casuale incertezza sistematica, errore sistematico, errore strumentale
Noi operiamo la scelta seguente, alla quale ci manterremo fedeli per tutto il capitolo: p errore statislico , incertezza , errore sistematico Esamineremo ora in dettaglio tutti i casi che si possono presentare.
11.3 Grandezze fisiche costanti e variabili Quando si inizia un esperimento, prima di tutto occorre chiedersi se la grandezza che si vuole misurare Q una costante oppure se i: una variabile aleatoria. Nel primo caso, se durante I'esperimento si osservano delle fluttuazioni (risultati diversi ad ogni prova, pur mantenendo costanti le condizioni sperimentali), esse sono da attribuire alle operazioni di misura oppure a1 funzionamento degli strumenti impiegati. Nel second0 caso, le fluttuazioni osservate conterranno anche quelle dell'oggetto in misura. Questa componente delle fluttuazioni contiene le informazioni fisiche sulla legge statistica (2.7) della grandezza che si sta misurando. La situazione si riassume nelle due definizioni operative: Affermazione 11.2 (Grandezza fisica costante). Una grandezza fisica
viene detta costante quando essa 6 u n a costante fisica universale, ciok u n a grandezza che ha lo stesso valore i n tutti i sistemi di riferimento (costante di Planck, carica del17elettrone, massa a riposo di una particella stabile), oppure una grandezza che ragionevolmente si pub considerare costante e stabile rispetto alle operazioni della misura che s i sta eflettuando.
.
Affermazione 11.3 (Grandezza fisica variabile) Una grandezza fisica
si dice variabile quando essa presenta delle fluttuazioni e variazioni misurabili
416
Capitolo 11. Analisi dei dati sperimentali
che sono intrinseche a1 processo fisico che si sta studiando. Molto spesso le fluttuazioni sono puramente statistiche, ed allora la grandezza 6 u n a variabile aleatoria che possiede u n a certa distribuzione. Scopo della misura 2 proprio la determinazione di questa distribuzione. Alcuni esempi di variabili fisiche di tip0 aleatorio sono: la velocith della molecola di un gas (densith X 2 con 3 gradi di liberth, detta anche densita di Maxwell) (si veda l'esercizio 3.10); - il numero di raggi cosmici a1 second0 (circa cento) che attraversano il vostro corpo mentre state leggendo questa pagina (legge di Poisson); - il numero di elettroni che attraversano, entro un tempo prefissato, la sezione di un filo percorso da corrente; - in genere, tutte le grandezze oggetto di studio della meccanica e della fisica statistics. -
11.4 Sensibilita e accuratezza degli strumenti I1 comportamento di uno strumento B definito da ,due importanti caratteristiche, la sensibilita (detta anche risoluzione) e l'accuratezza. Affermazione 11.4 (Sensibilith (risoluzione) di uno strumento). S e u n o strumento fornisce il valore x nella misura di u n a grandezza, si definisce come intervallo di sensibilitri o risoluzione e si indica con Ax, la minima quantith necessaria per spostare il risultato della misura dal valore x ad u n o contiguo. Si dice sensibilitci dello strumento il rapporto
In uno strumento ideale, ad alta sensibilith, Ax -. 0 ed S >> 1. Se Ay k la variazione nella lettura in corrispondenza di una variazione Ax della quantith da misuraxe, la sensibilita si pub definire anche come S = Ay/Az. Negli strumenti digitali l'intervallo di sensibilita i: definibile chiararnente, poich6 in questo caso esso non B altro che un errore di arrotondamento. Ad esempio, se un multimetro digitale costruito a regola d'arte indica una tensione di 2.15V, il valore vero sara compreso tra 2.145 e 2.155 V (vedi Fig. 11.2a), poich6 i: lecito presumere che le operazioni di arrotondamento vengano effettuate correttamente. L'intervallo di sensibilith i: in questo caso A = (2.155 - 2.145) V = 10mV. Poich6 in genere non c'i: correlazione tra l'intervallo di sensibilita e la localizzazione del valore vero all'interno di questo intervallo, possiamo dire che, se x k il valore letto e Ax B l'intervallo di sensibilith, il valore vero sarh compreso, con legge di probabilith uniforme, nell'intervallo x k Ax/2, con un live110 di confidenza del 100%. In sintesi, si suppone che il valore vero sia localizzato in mod0 equiprobabile entro l'intervallo:
11.4 Sensibilit2 e accuratezza degli strumenti
417
Fig. 11.2. a) Negli strumenti digital; l'intervallo di sensibilitii diventa un erroie di arrotondamento. b) Negli strumenti analogici l'intervallo di sensibilit&& dato
dall'arnpiezza della tacca minima sulla scala. I1 valore misurato viene assunto come il punto medio della tacca entro cui cade la misura
An:
valore vero = x f - , 2
(CL = 100%) .
Nel caso di Fig. 11.2a), diremo che il valore vero sta nell'intervallo:
che l'intervallo di sensibilita 6 di lOmV e che la sensibilitii i, S = 100 V - l , cioi! che 1V sposta la lettura di 100 posizioni. Negli strumenti analogici ad ago, l'intervallo di sensibilita ha una definizione meno chiara: l'ago si sposta in mod0 continuo, ma lo spessore stesso dell'ago e la larghezza delle tacche di misura, disegnate sul quadrante dello strumento, definiscono un intervallo minimo di lettura al di sotto del quale non ha senso procedere. Generalmente il risultato viene ancora riportato nella forma (11.2), dove il valore della misura b il punto medio delle tacca entro cui si legge il valore e l'errore i! la ampiezza della tacca minima, centrata sul valore letto (vedere Fig. 11.2b). Spesso si tende ad interpolare ad occhio la lettura, ed a ridurre cosi l'errore. La procedura b lecita, ma in questo caso si deve essere consci che si sostituisce, alla scala dello strumento, una scala soggettiva (pih fine) ottenuta interpolando visivamente tra le tacche segnate sul quadrante dello strumento. In questo caso si pub associare all'intervallo (11.2) non la legge uniforme, ma quella trimgolare (5.35), centrata sul valore letto e di larghezza pari all'intervallo della tacca minima "ideale" trovata ad occhio. A1 posto della interpolazione visiva, 6 comunque meglio in questi casi cercare di utilizzare, se disponibile, uno strumento digitale a pih alta sensibilith. Oltre alla sensibilith, l'altro parametro fondamentale che caratterizza uno strumento B l'accuratezza. Essa i, definita come:
Affermazione 11.5 (Accuratezza o errore sistematico). Per u n o strumento di sensibilitd ideale, si definisce accuratezza, o errore sistematico, lo scostamento tra il valore misurato dallo strumento ed il valore vero. Questo efletto n o n d d i tipo casuale ed ha origine da una taratura imperfetta dello strumento. Nel seguito esso verra indicato con 6. Veniamo ora ad un punto importante: come si combinano, in uno strumento, gli errori dovuti alla sensibilita e quelli di accuratezza?
418
Capitolo 11. Analisi dei dati sperimentali
Se il multimetro digitale immaginato in Fig. 11.2a) avesse una taratura perfetta, se ciob fosse 6 << dz, il valore vero sarebbe certamente localizzato nell'intervallo (11.2). Se invece vi fosse un difetto di taratura (errore di accuratezza), poniamo di 30mV, allora 6 >> Ax e I'intervallo (11.2) sarebbe privo di significato. In genere, negli strumenti scientifici professionali in buono stato e prodotti a regola d'arte, si fa in mod0 che l'intervallo di accuratezza sia sempre minore o al pih dello stesso ordine di quello di sensibilita. Questi strumenti sono corredati da una tavola di accuratezza (table of accuracy), dove vengono date le norme per definire un intervallo globale A, comprensivo degli errori di sensibilitti e accuratezza, per il quale B valida I'equazione (11.2). In questo caso A indica un intervallo globale
che viene chiamato errore strumentale o errore sistematico (systematic error). Questo tip0 di errore non pub essere eliminato a priori dalla misura, come in genere avviene per gli errori sistematici di altro tipo, che discuteremo nel prossirno paragrafo. Se vi sono errori di sensibilit8, B ragionevole supporre il valore vero localizzato in mod0 equiprobabile nell'intervallo (11.2); se invece B presente anche una componente di accuratezza, questo a rigore non i: pih vero, perch6 il difetto di taratura provoca in genere uno scostamento costante e correlato tra il valore vero e quello rnisurato. Tuttavia, in mancanza di informazioni piil dettagliate, all'errore sistematico (11.3) si associa in genere la densit& uniforme. In sede internazionale gli strumenti sono stati divisi in classi di accuratezza, definite in base all'errore sistematico relativo: CLASSE
Classi di A c c u r a t e m a 0.2 0.5 1 1.5
2.5
Diremo quindi che uno strumento B di classe 1 se il suo errore sistematico totale non supera 1'1%.
11.5 lncertezza nelle operazioni di misura Proseguendo nell'analisi dello schema di Fig. 11.1, ci occupiamo ora dell'analisi delle operazioni di misura. In questa fase, che riguarda l'interazione tra tutto I'apparato sperimentale (che pub comprendere anche l'osservatore) e le grandezze che si stanno misurando, intervengono due tipi di errori, statistici e sistematici. Gli errori statistici sono stati ampiamente trattati nel cap. 6; nelle misure di laboratorio essi si presentano quando vengono impiegati strumenti di
11.5 lncertezza nelle o~erazionidi misura
419
sensibilita molto elevata, tali da rendere critica la stabilizzazione delle operazioni sperimentali o le operazioni stesse di misura. Se si misura la lunghezza di un banco da officina con un metro da falegname si ottiene, ripetendo piil volte la misura, sempre il medesimo valore e non vi sono errori statistici. Se invece si usano strumenti ottici ad altissima sensibilita, la sovrapposizione di numerose fluttuazioni (nel posizionamento, nella taratura od altro) fa si che ad ogni misura si ottenga un valore leggermente diverso. Abbiamo in questo caso uno spettro di valori sperimentali, ed il valore della lunghezza misurata diventa una variabile aleatoria. Se le fluttuazioni che influenzano il process0 di misura sono numerose, si sovrappongono linearmente e nessuna di esse k preponderante sulle altre, allora valgono le condizioni del teorema Limite Centrale 3.1 e le misure tendono a distribuirsi secondo la curva di Gauss. Solitamente si suppone che, in presenza dei soli errori statistici, la m e dia delle misure debba tendere al valore vero (badate bene: questa & una assunzione!). L'errore statistico che, come sappiamo, B la stima della deviazione standard della distribuzione delle misure, caratterizza la precisione della misura. Gli errori sistematici sono invece dovuti in questo caso ad operazioni errate oppure ad ipotesi sbagliate sul modello fisico su cui si basa la misura (ad esempio, trattare le grandi oscillazioni del pendolo con un modello lineare). L'effetto degli errori sistematici i: quello di introdurre uno scostamento non casuale tra valore misurato e valore vero. In linea di principio, tutte le possibili fonti di errore sistematico devono essere eliminate prima di iniziare la misura. Se questo non i:possibile, allafine della misura, ma prima di effettuare l'eventuale analisi statistica dei dati, si devono apportare le correzioni sistematiche ai valori osservati, ricorrendo ad equazioni basate su modelli fisici o ad altri metodi. Se, ad esempio, ci siamo accorti, alla fine di una misura, che gli strumenti hanno avuto effetti di deriva dovuti alla temperatura, dovremo studiare quantitativamente questi effetti ed elaborare delle equazioni con le quali correggere tutti i dati osservati, oppure dovremo ripetere l'esperimento stabilizzando termicamente tutto I'apparato. La distinzione tra errori statistici e sistematici non i: netta; se leggiamo uno strumento ad ago e cerchiamo correttamente d i minimizzare l'errore di parallasse, otterremo una serie di letture diverse, la cui media s a r i piii o meno coincidente, per grandi campioni, col valore vero della misura. In questo caso l'errore di parallasse B di tip0 statistico. Se invece leggiamo sempre lo strumento di sbieco, la media delle misure si discostera sempre dal valore vero, dando luogo alla presenza di un errore sistematico. Tutta questa discussione sugli errori statistici e sistematici pub essere condensata in una serie di definizioni fondamentali:
Affermazione 11.6 (Errore statistico). E quel tip0 di errore, dovuto alle operazioni di misura, che fa variare i risultati secondo una certa distribuzione statistica. La media di qaesta distribuzione (media vera) coincide col valore
420
Capitolo 11. Analisi dei dati sperimentali
vero della grandexza fisica che si misura. La deviazione standard della distribuzione b l'errore di misura. Queste due grandezze sono stzmate dalla media e dalla deviazione standard del campione spem'mentale delle misure. Affermazione 11.7 (Precisione). La precisione i: determinata dall'errore statistzco della misura, che b dato dalla deviazione standard stimata dal campione delle misure eflettuate. Una misura 2: tanto pid precisa quanto pid k piccolo l'errore statistico. Affermazione 11.8 (Errore sisternatico). E quel tipo di errore che fa scostare la media dei valori misurati dal valore vero, indipendentemente dal numero di misure che si eflettuano. I n altre parole, gli errori sistematici provocano uno scostamento tra la media della distribuzione delle rnisure e il valore vero della grandezza.
.
Affermazione 11.9 (Accuratezza) L 'accuratezza b determinata dagli errori sistematici della misura. Una rnisura b tanto pi& accurata quanto pid sono piccoli gli errori sistematici. Precisione e accuratezza si possono rappresentare in modo schematic0 ma efficace indicando, come in Fig. 11.3, l'esperimento come un bersaglio il cui centro rappresenta il valore vero della misura. I risultati delle misure si possono allora rappresentare come dei punti caduti sul bersaglio. Una misura n6 precisa n6 accurata si pub rappresentare come un insieme di punti dispersi, con un baricentro (media) differente dal valore vero (il centro del bersaglio); una misura precisa ma poco accurata vede i risultati della misura addensarsi intorno ad un valore, che tuttavia pub differire di molto dal valore vero; una misura accurata ma poco precisa presenta un insieme di dati notevolmente dispersi ma aventi la media vicina a1 valore vero; infine, una misura precisa e accurata presenta poca dispersione nei dati, e questi si raggruppano intorno a1 valore vero. E evidente che solo una misura accurata (precisa o rneno) k u n a buona misura, in quanto il valor medio dei dati 6 una stima corretta della media Vera. In questo caso, come mostreremo tra poco nel par. 11.9, l'errore sulla media pub essere ridotto aumentando il numero di misure. L'accuratezza i: definibile anche per una sola misura come la differenza tra il singolo valore misurato e quello vero, mentre la precisione, che i: data dalla dispersione tra misure ripetute, perde in questo caso di significato. Pertanto, una singola misura sark accurata se, nell'unitk di misura scelta, risulta vicina a1 valore vero, non accurata se ne i: distante. Un buon esempio per distinguere tra accuratezza e precisione i: quello dell'orologio a1 quarzo: se l'orologio viene regolato con "l'ora esatta", nei giorni seguenti differirk di poco d a questo valore ed avremo una misura del tempo precisa ed accurata. Se invece regoliamo l'orologio cinque minuti pih avanti dell'ora esatta, avremo una misura precisa ma non accurata. Supponete ora di non conoscere 1'01-a esatta oppure, il che 6 lo stesso, di togliere gli anelli concentrici centrati sul valore vero in Fig. 11.3. In questo
11.6 Misure indirette e propagazione degli errori
ne' precisa ne' accurata
421
precisa ma poco accurata
precisa e accurata accurata ma poco precisa Fig. 11.3. Rappresentazione degli effetti degli errori sistematici (accuratezza) e statistici (precisione) in una misura. I1 valore vero B rappresentato dal centro del bersaglio, mentre le misure sono rappresentate dai punti
caso siamo in grado di giudicare se la misura B precisa, m a non se d accurata; in altri termini, le situazioni della prima e della seconda riga di Fig. 11.3 ci appariranno indistinguibili. Sapere quanto una misura 6 accurata richiede la conoscenza del valore vero, che per6 B lo scopo della misura! Questa, come ben sanno tutti gli sperimentatori, 6 la difficolta pih grande che si incontra nelle misure di laboratorio. Occorre quindi conoscere bene il proprio apparato ed i metodi di trattarnento dei dati che si utilizzano, in mod0 da essere ragionevolemente certi di aver eliminato a priorz gli errori sistematici, oppure di saperli valutare. Nel corso del capitol0 daremo alcuni esempi ed approfondiremo ulteriormente questi importanti aspetti.
11.6 Misure indirette e propagazione degli errori Una grandezza si dice misurata in mod0 indiretto quando 6 una funzione z = f (z, y, w,. ..) di una o piii grandezze misurate direttamente e afTette da incertezza. La determinazione dell'incertezza su z a partire da quella delle grandezze misurate si chiama propagazione degli errori. Nel seguito partiremo il caso semplice z = f (z, y) che si pub estendere senza difficolta ad un numero qualunque di variabili.
422
Capitolo 11. Analisi dei dati sperimentali
Se x e y sono afTette solo da errori statistici e sono indipendenti, per effettuare la propagazione degli errori basta utilizzare la formula (5.65) o la sua generalizzazione in n variabili (5.72), sostituendo alle deviazioni standard gli errori di misura s, e s y , come indicato nell'affermazione 11.7:
Ovviamente, con n misure tra lor0 indipendenti, si ha: 2
s2(xi).
i=l
Questa equazione, che 6 la famosa legge di propagazione degli errori di misura, & valida solo in approssimazione lineare, come ampiamente discusso nel cap. 5 e, in particolare, nel par. 5.4. Inoltre, la stima della deviazione standard risultante definisce un intervallo di confidenza gaussiano solo se tutte le variabili sono gaussiane, come i: stato mostrato nell'esercizio 5.3. Tuttavia, gli intervalli tendono ad essere approssimativamente gaussiani anche quando la funzione f dipende da un numero grande (> 5110) di variabili aleatorie qualunque. Veniamo ora alle incertezze strumentali, alle quali spesso si attribuisce, come mostrato nella (11.2), la densith uniforme. In questo caso a volte si usa, come legge di propagazione degli errori di due misure lo sviluppo di Taylor a1 primo ordine con le derivate prese in valore assoluto:
La generalizzazione a1 caso di n misure i: ovviamente:
Queste formule non rappresentano la deviazione standard della distribuzione risultante, ma la sua larghezza totale quando la composizione delle misure i: lineare. Per questo motivo esse in genere vengono usate per una stima del limite superiore dell'errore, il che pub essere utile nel caso di grandezze correlate in mod0 complicato. I1 valore assoluto delle derivate assicura che l'effetto della propagazione venga sempre preso nel mod0 pih "sfavorevole", quello corrispondente ad un increment0 positivo dell'errore di misura. Se le variabili non sono correlate, allora un mod0 pih corretto di procedere & quello di applicare le (11.4, 11.5) a1 caso della densitb uniforme, la cui varianza, in base alla (3.80), vale A2/12. Per due ed n variabili si ha rispettivamente:
11.6 Misure indirette e ~ r o ~ a g a z i o ndegli e errori
423
da cui si vede che, per ottenere la varianza totale, basta sommare quadraticamente gli errori sistematici e poi dividere per 12. La varianza b stata qui indicata con lettere latine, in quanto si tratta pur sempre di una quantita stimata dai dati nell'assunzione che sia valida l'ipotesi a priom' della densitli uniforme per gli errori sistematici. Queste varianze non vanno perb associate alla densith gaussiana, anche nel caso che la funzione f (x, y) combini Iinearmente le variabili. Infatti, mentre la combinazione lineare di errori gaussiani mantiene intervalli di confidenza gaussiani, in questo caso la somma di due o piii errori sistematici, ciob di due o piG variabili uniformi, dB luogo a densit&differenti, che dipendono dal numero di errori sommati. Sappiamo perb, dal teorema Limite Centrale 3.1, che questa densith tende rapidamente ad una gaussiana. Si pone ora il problema pratico di stabilire a partire da quale numero di misure combinate linearmente sia lecito usare l'approssimazione gaussiana:Il risultato che troveremo probabilmente vi sorprenderh. Affrontiamo il problema trattando in mod0 completo i1 caso istruttivo della somma di due errori sistematici di pari valore. La semplice generalizzazione dell'esercizio 5.2 di pagina 151 indica che la somma di due errori sistematici uguali definiti in [O, A121 segue la densit& triangolare in [O , A]:
o
altrimenti,
Essa B rappresentata in Fig. 11.4 per A/2 = 1. Se i due errori sistematici che si sommano sono definiti in [ O , l ] , la (11.6) fornisce il valore
che b proprio la larghezza totale della distribuzione. Invece, dalla (11.8) abbiamo: 1 1
424
Capitolo 11. Analisi dei dati sperimentali
-
Fig. 11.4. Densitb triangolare della somma di due misure d e t t e da errori sistematici uguali compresi in [O, 11. L'area ombreggiata k il live110 di confidenza corrispondente all'intervallo u 3r u e vale
che i!un risultato esatto in accord0 con la (11.11), perch6 stiamo considerando la somma di due errori. L'area corrispondente all'intervallo )x- p) 5 K a , con K numero reale, pub essere trovata in mod0 elementare dalla Fig. 11.4, oppure, in mod0 piii formale:
Ka(2 - K a ) per ={I per
KO KO
0.649 per 0.966 per per
K=1 K =2 K =3
--
dove nell'ultimo passaggio si i! utilizzato il valore della (11.12)' o sf = 0.408. Questi valori sono molto vicini agli intervalli di probabilita gaussiani della (3.35). I1 fatto sorprendente che vi avevamo preannunciato i! che in genere gli sperimentatori, sulla base di questo risultato, considerano intervalli di confidenza gaussiani gici a partire da errori ottenuti dalla combinazione lineare di dae soli errori sistematici. Questo risultato giustifica anche l'assunzione di una densitb triangolare, che tdvolta viene fatta per certi tipi di errori sistematici, che provengono da test sperimentali o simulazioni che combinano tra lor0 pochi errori sistematici. In questo caso, in base alla (11.11), nelle (11.8, 11.9) si deve porre y = 1/24. Veniamo ora a1 caso della combinazione di errori statistici e sistematici. Per trovare la densita di probabilitb del risultato, nel caso piG semplice dato d d l a sovrapposizione lineare di due misure, una con errore gaussiano e l'altra con errore sistematico uniforme entro un intervallo, basta rifarsi alla formula (5.34) ottenuta nell'esercizio 5.1. Se immaginiamo l'errore sistematico come un intervallo ( a = -A/2, b = +A/2), ed introduciamo la variabile standard t = ( z - p ) / c , dove a 6 in questo caso l'errore statistic0 vero, tenendo conto che dz = a d t , la formula (5.34) diventa:
11.6 Misure indirette e propagazione degli errori
425
Tabella 11.1. Probabilita degli intervalli di confidenza per misure con errori statistici combinati linearmente con errori sistematici. Gli intervalli sono parametrizzati in funzione del rapport0 A/(T e della deviazione standard CT, = d m ,dove a b l'errore statistic0 e A b la larghezza totale dell'errore sistematico della misura
In base alle (3.40, 3.44) possiarno anche scrivere:
Questa densit% i: una funzione pari rispetto all'origine, poich6 i: la convoluzione di due funzioni pari. Essa ha una deviazione standard che vale:
I livelli di probabilita si possono trovare integr riporta i risultati ottenuti con la nostra routine calcola con la regola trapezoidale
11.1 che
La tabella mostra che i risultati, per o = A, cioi: per CJ > A/-, coincidono con i livelli gaussiani (prima riga), mentre, per o << A essi tendono a quelli della distribuzione uniforme (ultima riga). Per i casi intermedi, tutto sommato il rzsultato non si discosta molto dai livelli standard gaussiani. I risultati calcolati con le (11.13,11.14) possono essere ottenuti con semplici codici di simulazione, come nel caso della nostra routin function Sigdel(sigma,delta)
// Studio della legge 3-sigma nel caso della s o m a di / / errori statistici gaussiani di deviazione standard 'sigma' // e di errori sistematici di ampiezza totale 'delta'
/ / misure w somma di una misura gaussiana y e una uniforme z Nev=50000; y=rand(l ,Nev,'norm')*sigma; z=-0.5*delta + delta*rand(1,Nev,'unifJ); w=y+z; // display dell'istogrma xbasc () ; Histplote (20,w,stat=l) ;
426
Capitolo 11. Analisi dei dati sperimentali
// conteggio misure entro i sigma-intervalli stot = sqrt(sigma-2+deltaA2/12); cumi=O; cum2=0; cum3=0; for j=l:Nev, if (- stot<w(j) & w(j)< stot) then cuml=l+cumi; end; if(-2*stot<w(j) & w(j)<2*stot) then cum2=1+cum2; end; if (-3*stot<w( j) & w(j)<3*stot) then cum3=l+cum3; end; end ; // stampa dei risultati con errore statistico write(%io(2), 'dev. standard calcolata = '+string(stot)) ; write(%io(2), 'entro 1 sigma = ('+string(cuml*lOO/Nev)+'+-' .. +part (string(sqrt(cuml*(l-cuml/Nev))*IO~/Nev) ,1:4)+')%') ; write(%io(2), 'entro 2 sigma = ('+string(cum2*100/~ev)+'+-' +part (string(sqrt (cum2*(1-cum2/Nev)) *lOO/Nev), 1 :4)+') % ' ); write(%io(2),'entro 3 sigma = ('+string(cum3*100/~ev)+'+-'.. +part (string(sqrt (cum3* (1-cum3/~ev))*IOO/Nev) , I :4)+')%') ; endfunction
..
I risultati che si ottengono coincidono, entro I'errore statistico, con quelli di Tab. 11.1. In genere il metodo della propagazione lineare fornisce buoni risultati anche nel caso di prodotti o rapporti di misure. In questo caso la (11.5) dB luogo alla propagazione lineare degli errori percentuali, che viene sovente utilizzata. Infatti, ricordando la (5.68)' se sostituiamo alle deviazioni standard vere gli errori statistici, possiamo scrivere, con ovvia notazione:
la quale pub anche essere agevolmente ricavata dalla (11.4), ed B imrnediatamente generalizzabile a1 caso di n variabili. In sostanza, nel prodotto e nella divisione si sommano le varianze percentuali o relative. La stessa proprietii, come k facile dimostrare dalla (11.6)) vale anche per gli errori massimi:
Tuttavia, la propagazione quadratica degli errori statistici relativi (11.16) e quella lineare degli errori massimi sistematici (11.17) vanno usate con cautela, perch6 sono valide solo nel caso in cui le misure xl e x2 siano indipendenti. Ad esempio, nella propagazione dell'errore nel rapporto x/(x y), k facile vedere che la (11.4) e la (11.16) danno risultati diversi. In questo caso solo la (11.4) & corretta, perch6 la presenza della variabile x sia a1 numeratore sia a1 denominatore crea, pur essendo le misure x e y indipendenti, una correlazione nel rapporto. Per verificare la bontii della (11.16) in un caso particolare, consideriamo la variabile Z = X Y prodotto di due variabili uniformi 0 _< X, Y _< 1. In questo caso, ponendo p = x = y = 1/2 e o2 = s: = sz = 1/12 la (11.16) fornisce il risultato:
+
11.6 Misure indirette e propagazione degli errori
427
Si ha pertanto:
Si pub subito notare come il modello gaussiano sia in questo caso approssimato, perch6 la media non & a1 centro dell'intervallo di definizione di z e a sinistra della media esso i! largo poco pih di una deviazione standard. Per procedere in mod0 rigoroso, occorre utilizzare la soluzione del problema 5.7 di pagina 170, dalla quale risulta che la variabile Z = XY ha densitb logaritmica pz(z) = - In z, di media e deviazione standard pari a:
In termini numerici, questo risultato i! molto simile alle (11.18, 11.19). I livelli di confidenza si possono trovare integrando la densitb negli intervalli (pfK O ) , dove K 6 un numero reale. Definendo
si ottiene:
0.689 per K = l 0.946 per K = 2 per K = 3 . = { l Anche questo risultato i! numericamente vicino ai livelli di confidenza gaussiani. Tuttavia, esso si riferisce ad una densitb asimmetrica completamente differente dalla curva normale. Il buon accord0 tra i valori numerici giustifica per6, almeno ad una deviazione standard, l'uso diffuso della approssimazione ione degli errori nel prodotto di due misure. consente di ottenere l'istogramma di Fig. 11.5, a analitica. verifica della t
-
Esercizio 11.1 ~ ~ = ~ ~ ~ ~ + ; ~ ~ ~ ~ ~ - A~ La misura dei lati di u n a piastrina metallica con un metro commerciale con tacca millimetrica ha fornito i valori:
Trovare il valore dell'area della piastrina.
~
q
-
~
428
Capitolo 11. Analisi dei dati sperimentali
Fig. 11.5. Simulazione a1 calcolatore di 20 000 variabili aleatorie prodotto di due variabili uniformi standard. La curva rappresenta il fit con la (11.20): n ( z ) = -alogz (con a parametro di normalizzazione)
Risposta. Alle misure dei lati b stato giustamente assegnato un errore sistematico di 1 mm, centrato sul valore medio dell'zntervallo entro il quale 6 caduta la misura. Poiche' in questo caso, in accord0 con la (11.2), si assume che il valore vero delle misure sia entro l'intervallo rzportato con u n CL=fOO% e probabilztd uniforme di larghezza 2 .0.5 = 1. mm, la deviazione standard da assegnare alle misure s a d :
Le deviazioni percentuali valgono allora:
I n base alla (11.16) l'errore percentuale sull'area A = bh vale:
Poiche' l'area vale ovviamente A = bh = 25.5.34.5 = 879.75 mm2, il risultato richiesto 6 A = 880 f 0.014.880 = 880 f 12 mm2 .
Vi sarete accorti che la propagazione degli errori con metodi analitici, gih nei casi semplici che abbiamo sviluppato in dettaglio, k molto laboriosa; vi sarete pure resi conto di come essa possa venire sostituita, pih semplicemente, dalla simulazione diretta a1 calcolatore, come nel caso di Fig. 11.5. La tecnica pih
11.6 Misure indirette e propagazione degli errori
429
diffusa B quella approssimata descritta nel par. 7.10 come metodo bootstrap: si assumono come valori centrali e deviazioni standard i valori misurati ed i lor0 errori, si estraggono a caso delle variabili aleatorie, che vengono combinate come prescritto dalla misura, per ottenere I'istogramma simulato delle grandezze finali (o gli istogrammi nel caso di misure complesse). La forma dell'istogramma fornisce un'idea della densita di probabilita della grandezza misurata, mentre gli errori di misura vengono ricavati direttamente come limiti delle aree corrispondenti, sull'istogramma, ai livelli di confidenza assegnati. I valori centrali in genere coincidono o sono molto vicini, entro I'errore statistico, ai valori misurati e quindi non forniscono nuove informazioni. Per quanto riguarda i valori centrali (cioi: le medie) risultanti dalla simulazione, va notato che, se gli istogrammi simulati provengono da densiti asimmetriche, il valor medio simulato differisce dal valore misurato. Come dare allora il risultat0 della misura? I1 mod0 corretto di procedere i:quello di rzferirsi comunque a1 valore misurato e di calcolare l'errore di misura centrandosi sempre s u di esso. Nei casi piG complicati, che coinvolgono densit&(in genere multidimensionali) di forma non invariante rispetto ai parametri, 6 necessario abbandonare il metodo bootstrap, approssimato, ed utilizzare il metodo rigoroso, che prevede la generazione di dati simulati per tutti i possibil? valori dei parametri e la valutazione delle regioni di confidenza secondo quanto descritto nel par. 7.10. Queste tecniche sono discusse in dettaglio in [33, 481. L'esempio che segue ha in s6 tutti gli elementi per capire bene la tecnica Monte Carlo applicata alla propagazione degli errori. I1 fatto che il caso trattato sia semplice non & affatto limitativo, poich6 la tecnica di simulazione ha il grande pregio di mantenere pi^ o meno lo stesso live110 di complessitb, indipendentemente dalla difficoltii del problema affrontato.
Esercizio 11 2 a = -vq = y = =v-+=y-,--~-~-+i-zy q~ i~*?-=:* ;~=~T~+~*-~--~~~w-=>~=~ U n o sperimentatore getta u n sasso in u n pozzo e con u n cronometro manuale misura il tempo di caduta, che risulta di 3 secondi. Attribuendo alla misura manuale del tempo un'incertezza di k0.25 secondi, determinare la profonditd del pozzo. W
~
~
~
~
Z
~
P
Risposta. I1 valore centrale della profonditd del pozzo si trova con la nota legge della caduta dei gravi:
dove g = 9.81 m / s 2 i: la accelerazione di gravitci. Poiche' l'errore che si fa con un cronometro manuale b di tipo sistematico, un'incertezza di f0.25 secondi corrisponde ad u n a deviazione standard da associare alla densitci uniforme secondo la legge
430
Capitolo 11. Analisi dei dati sperimentali
L'errore di misura si pub trovare allora con la (11.4) applicata a1 caso di una sola variabile:
Secondo la propagazione analitica degli errori il valore della profonditb del pozzo sta percib nell'intervallo: 1 = (39.90,48.38) = 44.1 f4.2
metri.
(11.23)
Qua1 b live110 di confidenza associare a questa misura? Se indichiamo con r il valore vero del tempo di caduta, avendo misurato t = 3 s con A = 0.5s' sappiamo che 2.75 5 r 5 3.25 s. Questo valore C legato alla lunghezza Vera X dalla relazione:
Questo intervallo rappresenta l'insieme di valori del parametro X da esplorare per risolvere gli integrali (6.7), che forniscono i lzrniti ( X I , X2), dell'intervallo di confidenza. Se cerchiamo l'intervallo simmetrico. con C L = 68.3%' le (6.7) diventano:
dove to = 3 s b il tempo misurato. Questi integrali possono essere facilmente risolti se si indzvidua la cumulativa 6 pt (t).Supponendo le misure dei tempi T U ( T - 0.25, T + 0.25)' otteniamo subito: N
Esplicitando questa relazione rispetto a A, possiamo riso2vere gli integrali (11.24) ponendo semplicemente:
dove i valori a! = 0.158 e a! = 0.841 danno gli estremi dell'intervallo ( X I , Xz) con CL = 68.3%. Indicando il valore vero della lunghezza con 1 (come si fa in laboratorio) otteniamo quindi l'intervallo:
sensibilmente pi& ampio dell'intervallo approssimato (11.23). E anche utile il corzfronto con il risultato che si ottiene dalla simulazione.
11.6 Misure indirette e propagazione degli errori
distanza (metri)
431
Fig. 11.6. Simulazione a1 calcolatore di N = 20 000 lunghezze I = ( 1 / 2 ) ~ dove t ~ g = 9.81 m/s2 e t i! un tempo misurato pari a 3 secondi, disperso secondo la densiti. uniforme con A = 0.5 secondi. L'area tra le due linee tratteggiate, a destra e a sinistra del valore misurato contiene il 68% degli eventi (lunghezze) dell'istogramma. L'andamento (11.28) della densit& i! ben approssimato da una retta di best fit f (1) = 343 - 2.5 1 indicata come linea continua. Dividendo questa funzione per il passo dell'istogramma A1 = 0.17, si ottiene la densit& puntuale Np(1) = 2018 - 14.70 1, che permette di calcolare le aree sottese dalla curva
Se si usa il metodo bootstrap, si estraggono a c a s ~dei tempi dalla densitci uniforme avente come valor medio quello misurato e si genera u n istogramma delle lunghezze misurate (11.22), che b mostrato in Fig. 11.6. I n questo semplice caso la simulazione n o n sarebbe necessaria, perch4 b facile, dalla cumulativa dei tempi, passare a quella delEe Eunghezze:
e trovare poi, per derivazione, la densitct di probabilitct di 1:
La forma di questa funzione dipende da 7 attraverso i limiti dell'intervallo di definizione. Procediamo ora ad analizzare i risultati della simulaxione. Dato ehe l'istogramma contiene 20 000 eventi, dalla (6.40) e dai dati riportati i n figura otteniamo l'intervallo di stima della media:
che 6 u n risultato i n accordo col valore misurato di 44.14 metri. Data l'asimmetria della densitci di Fig. 11.6 e la n o n linearitci della legge oraria utilizzata,
432
Capitolo 11. Analisi dei dati s~erimentali
6 ragzonevole cornunque aspettarsi uno scostamento, anche piccolo, tra il valor medio e quello misurato. Se ci si centra sul valore misurato e si analizzano le aree dell'istogramma, risulta che il68.3% delle profonditd, come mostrato i n jigura, 6 compreso tra i limiti: 1 = [39.24,49.24] cz 44.12::;
metri
(CL = 0.68)
,
che 6 u n rzsultato praticamente coinczdente col risultato corretto (11.26). La Fig. 11.6 mostra che i livellz di confidenza non sono aflatto gaussiani. Potremmo dzre in questo caso che, pz4 che dalla (11.29), zl risultato della misura d rappresentato proprio dalla Fzg. 11.6.
.
1 $ ~ ~ ~ s " ~ d 3~4 ~~~ ~i -~~ -t9 ~ # 1 1 f 1 4 ~ e . 7 ~ f 4 p 8 ~ @ T~3 r m ,pp===Tsq:lpr
T~T:IJ FL
b q : &
$s==:-=~;
JljrP--,V ' hi.C "
.
t',l
La lunga discussione di questo paragrafo pub essere dunque riassunta nei punti seguenti: nel caso di errori statistici occorre stimare le deviazioni standard dai campioni sperimentali ed applicare la (11.5). Se tutti gli errori di partenza sono gaussiani, il risultato fornisce la deviazione standard della densit& gaussiana risultante (poich6 abbiamo supposto che gli effetti si combinino linearmente) e vale ancora la legge 3c (3.35); a nel caso di errori sistematici, va applicata la (11.9) e la deviazione standard risultante quasi sempre definisce livelli di confidenza approssimativamente gaussiani. La formula (11.7) definisce invece un errore massimo, che non va combinato con altre grandezze che rappresentano stime di deviazioni standard; la combinazione lineare di errori statistici e sistematici va fatta sempre in quadratura, tramite la (11.5), dove la varianza degli effetti strumentali va calcolata con la (11.9) (non dimenticatevi i fattori 1/12 oppure 1/24). La deviazione standard risultante non segue la legge 30, perch6 la densit& coinvolta non 6 gaussiana (si veda la 11.14). Tuttavia, spesso in pratica si assumono i livelli di confidenza gaussiani. Questa assunzione e in genere tanto pih Vera quanto pih i: elevato il numero degli errori combinati; * i casi in cui vi siano errori grandi, correlati, oppure da combinarsi non linearmente, la procedura analitica pub portare a notevoli imprecisioni. Si ricorre allora ai metodi di simulazione, che in genere permettono di risolvere in mod0 cornpleto e soddisfacente qualunque problema di propagazione degli errori. Grazie ai metodi di simulazione, negli anni recenti i risultati forniti dalla jisica sperimentale hanno compiuto u n notevole salto di qualitd i n precisione, accuratezza ed afidabilitci. 0
11.7 Definizione dei tipi di misura Lo schema di Fig. 11.1 suggerisce di classificare i vari tipi di misura second0 la notazione illustrata in Fig. 11.7. Questa i:una nostra notazione personale, non
11.8 Misure del t b o M ( 0 , 0,A)
O=assenti
433
o= presenti
Mtgrandezza, errori statistici, errori sistematici)
f=variabile
A= presenti
Fig. 11.7. Classificazione dei vari tipi di misura possibili
la troverete su altri testi. Gli esempi che seguono ne chiariscono il significato:
- M ( 0 , v, 0) = misura di una grandezza fisica costante con errori statistici; - M(0, 0, A) = misura di una grandezza fisica costmte con errori sistematici; - M (f, CT, A) = misura di una grandezza fisica variabile in presenza di errori sia statistici sia sistematici. Poich6 ognuno dei tre simboli della notazione pub assumere due valori, in totale si hanno (2 x 2 x 2 = 8) tipi differenti di misura. Tuttavia, il caso M(0, 0, O), che si riferisce alla misura senza errori di una grandezza fissa, rappresenta un caso ideale privo di interesse. Pertanto, in pratica vanno considerati sette tipi diflerenti di misura, che andiamo ad analizzare in dettaglio nei prossimi paragrd.
11.8 Misure del tip0 M ( 0 , 0,A) In questo caso si misura una grandezza costante e gli errori statistici non appaiono, perch6 assenti oppure molto minori dell'errore sistematico A. La misura non presenta fluttuazioni e misure ripetute forniscono tutte lo stesso valore x. I1 risultato della misura va presentato nella forma (11.2):
4%) (CL = 100%) . x f --2
'
(11.30)
L'errore ha qui il significato di errore massirno, ed il valore vero B compreso nell'intervallo con probabilith. del 100 %, cioB con certezza. Spesso, in base agli argomenti che vi abbiamo illustrato nel par. 11.4, agli errori sistematici si attribuisce una densith uniforme. In questo caso la varianza della misura B data dalla (3.80):
434
Capitolo 11. Analisi dei dati sperimentali
mentre la deviazione standard viene solitamente scritta come:
dove U = A/2 viene talvolta chiamata incertezza della misura. L'errore derivante dalla combinazione lineare di pih misure di questo tipo va propagato con le (11.8, 11.9), e gli intervalli di confidenza tendono rapidamente a diventare gaussiani all'aumentare del numero di misure. Esercizio 11.3
La misura di una resistenza co
Inoltre, sulla ('table of accuracy" allegata a110 strumento, si legge che, per le misure di resistenza, l'accuratezza 2:
+ (0.1% rdg + 1 dgt) .
'
Determinare il valore della resistenza. Risposta. Questa B una misura i n cui B presente solo l'errore sistematico poiche' le jluttuazioni statistiche relative alle variazioni della resistenza nel tempo sono a1 di sotto della sensibilitci del multimetro digitale. L'accuratezza dello strumento i: pari a110 0.1% del valore letto (('reading", ovvero rdg) con l'aggiunta di una unit6 dell'ultima cifra a destra evidenziata dal display ("last digit", ovoero dgt), che nel nostro caso vale 0.1 0. Abbiamo pertanto:
I1 valore della resistenza 2 allora:
con u n live110 di confidenza del 100 %.
l i i , ~ ~ = - ~ . m l i ~ ~ ~ ~ ~ = ~ . ~ ~ fl,.~*>~~-*9.~2L;j,,';li~pttF*";-";-~;Y-r"i,f1 , ~ ~ ~ ~ ~ ~ - ~ ~ = ~:;"j-p==?> < . ~ ~ ~ ~ ~ l l ~ ~ .
11.9 Misure del tipo M ( 0 , u,0 ) In questo caso si misura ancora una grandezza fisica costante, ma con un apparato di sensibilit& molto elevata rispetto agli errori statistici in gioco: s >> A.
11.9 Misure del tipo M ( 0 , a,0)
435
Misure ripetute danno valori diversi, che in genere, ma non sempre, si distribuiscono secondo la densitb gaussiana. Si ottiene pertanto un campione di N misure, di cui si calcola la media m e la deviazione standard s. Poich6 si assume che il valore vero della grandezza fisica coincida con la media della distribuzione delle misure (media vera), in base alla (6.40) il risultato della misura va presentato nella forma:
a cui va associato un intervallo di confidenza gaussiano se N > 10. Per N -+ oo una misura di questo tip0 tende ad avere errore nullo. L'ipotesi di partenza i: per6 che lo strumento sia perfetto, cioi: che A = 0. In pratica, i risultati vengono presentati nella forma (11.33) quando la dimensione del campione non i: sufficiente ad ottenere una precisione che possa competere con l'accuratezza dell'apparato, cioi: quando
Vogliamo insistere su un punto importante: l'intervallo (11.33) non va mai confuso con l'intervallo m f s , il quale i: una stima dell'intervallo p f o, che dh la probabilith di localizzazione di una singola misura entro lo spettro dei valori misurati. Ricordiamo ancora che, in base alla definizione 11.7, la deviazione standard s B una stima della precisione di una singola misura (errore di misura), mentre la quantitb s / f i rappresenta la precisione della misura globale. Dalla (11.33) risulta anche che se due misure MI ed M2 hanno errori diversi e possibile ottenere la stessa precisione finale da entrambe le misure se NI ed N2 soddisfano la relazione:
Se ad esempio sl > s2, allora deve essere Nl > N2, cioi! il numero di misure dell'esperimento con errore piii grande deve essere piii grande (si veda ancora la Fig. 11.3). Se le xi misure di cui si deve fare la media provengono da esperimenti diversi, esse avranno precisioni si differenti, ed allora si deve utilizzare la formula della media pesata (9.69) di pagina 354 con mi = xi, ni = 1. In pratica, qui si deve considerare una funzione di verosimiglianzaprodotto di N misure gaussiane, che hanno fornito i risultati xi fsi. Con la approssimazione si E oi possiamo scrivere la probabilitb di ottenere il risultato osservato secondo la verosimiglianza (9.49):
436
C a ~ i t o l o11. Analisi dei dati s~erimentali
La massimizzazione di questa verosimiglianza equivale alla minimizazione della verosimiglianza logaritmica (9.6), di pagina 325, che in questo caso coincide col metodo dei minimi quadrati:
Per trovare il minimo ,Ll rispetto alla media generale (pesata) p si pone dC(p)/dp = dX2/dp = 0 e, ripetendo la procedura di pagina 354, si ottiene il risultato:
Giova ricordare che questa formula, vale a rigore solo per misure gaussiane, dove l'intervallo (11.36) ?I un intervallo con copertura del68%. Tuttavia, anche se i dati non fossero gaussiani, per N > 10 vale il .teorema Limite Centrale, come nel caso della (11.33). Esercizio 11.4
---~-7-p.& -x~. wp = ..--z-=&--*~=-~:=~~a@*----
Una s e n e di misure della uelocitd della luce da parte di varz sperimentatori ha fornzto le seguentz medie:
Determinure, a partire da questi dati, la miglior stima della uelocitci della luce. Risposta. Poiche' il quinto dato P: incompatibile con i primi tre, l'ipotesi pid probabile i che lo sperimentutore abbia commesso u n errore e che soltanto i primi 4 dati siano corretti. Alle prime 4 misure corrispondono i pesi
11.10 Misure del tip0 M ( 0 , a,A)
437
Notate l'elevato valore dei pesi associati ai dati p i i precisi. Applicando la ( I 1.%) otteniamo:
Qui vale la pena notare u n fatto generale: l'errore della media pesata b sempre minore dell'errore p i i piccolo presente nei dati. I1 risultato pub anche essere presentato nella forma arrotondata:
che b identica a1 risultato c2 della seconda misura. S e n o n auessimo usato la media pesata, avremmo potuto usare (sbagliando) la formula (11.33) della media normale. Poiche' la deviazione standard dei primi 4 dati, in base alla seconda delle (6.44), vale:
avremmo ottenuto:
che i: un risultato completamente diverso da quello corretto (11.37).
11.10 Misure del tipo M ( 0 , a,A ) Qui una grandezza fisica costante viene misurata con un apparato in cui sono rilevanti sia gli errori statistici sia sistematici. Misure ripetute forniscono valori diversi ed il campione dei dati viene in genere presentato in forma di istogramma. Per ovvie ragioni, non ha senso scegliere il passo dell'istogramma inferiore all'errore sistematico A. Gli istogrammi possono avere tanti o pochi canali, a seconda che sia s >> A, s A oppure s << A, dove s B la deviazione standard associata agli effetti casual1 (Fig. 11.8). In questa classe di misure rientrano anche quelle del tip0 M(0, a, 0) quando i dati sono riportati in un istogramma con passo A. Supponiamo di aver raccolto un carnpione di N misure e di aver calcolato m ed s . La varianza del campione osservato i: ora la somma di due varianze, quella dovuta agli errori statistici, che chiamiamo stat), e quella dovuta agli errori sistematici di intervallo massimo A(syst). In base alla (11.15) possiamo scrivere la relazione A2(syst) s2 = s2 (stat) 12 '
-
+
438
Capitolo 11. Analisi dei dati sperimentali
Fig. 11.8. Tipi di istogrammi che si possono
presentare in presenza sia di errori sistematici sia statistici da cui 6 possibile estrarre la parte delle fluttuazioni dovuta ai soli effetti casuali:
Questa formula b nota come correzione di Sheppard. Essa dB buoni risultati nel caso di misure M ( 0 , o,0) istogrammate con passo A. In questo caso infatti la misura osservata B la somma di due fluttuazioni, quella dovuta agli effetti casuali e quella dovuta alla discretizzazione delle misure, che consiste nell'attribuire ad ogni misura il punto medio del canale dove essa B andata a cadere. In questo caso, come mostrato in Fig. 11.9, la varianza dei dati i! sovrastimata e la (11.39) tende a correggere questa sovrastima. Effetti di istogrammazione a parte, nel caso di esperimenti affetti d a errori sia statistici sia sistematici, non c'k tra i ricercatori completo accord0 sull'uso o meno della correzione di Sheppard (anzi, crediamo che molti ne ignorino addirittura l'esistenza . . .). Infatti, in molte misure gli effetti casuali e strumentali si combinano in mod0 non lineare, ed in genere la correzione di Sheppard tende a sottostimare gli errori statistici quando s 21 A. Essa dB invece buoni risultati quando s >> A, ma in questi casi la correzione i: poco importante. Per questi motivi nella letteratura scientifica recente le misure M(O , I T , A) vengono riportate nella forma: S
z = m f -(stat) f - (syst)
JN
2
,
dove gli errori sistematici e statistici vengono mantenuti ben separati. La deviazione standard s viene stimata dai dati direttamente oppure con la correzione di Sheppard (11.39). Per trovare s(stat) e A a volte vengono utilizzati metodi pib sofisticati, quali quelli di simulazione, appena descritti nel par. 11.6. Nella (11.40) l'intervallo di confidenza non B ben determinato, perch6 gli errori sistematici sono presentati con un CL = loo%, quelli statistici con CL = 68% (se sono gaussiani). I1 mod0 di combinare i due errori B in qualche misura arbitrario e viene lasciato a chi deve utilizzare il risultato. In linea di massima, sono possibili due scelte. La prima B di definire un errore massimo globale, moltiplicando per tre gli errori statistici e sommandoli a
11.10 Misure del tioo M ( 0 . a. A)
439
Fig. 11.9. L'istograrnmazione di misure a spettro continuo sovrastima la dispersione dei dati quando la popolazione ha densit&di tip0 regolare come in figura. Infatti a tutti i dati contenuti nella zona ombreggiata (che sono la maggioranza all'interno del canale) viene attribuita l'ascissa del punto medio del canale, che ha una distanza dalla media maggiore di quella effettiva
quelli sistematici: x=mf
(h3 3-+-
(CL
= 100%).
La seconda scelta G quella di attribuire agli effetti strumentali una densita uniforme e utilizzare la (11.15):
In questo caso gli intervalli di confidenza sono approssimativamente gaussiani e sono dati dalla (11.14) e dalla Tab. 11.1. Come vedete, la procedura per combinare gli errori statistici con quelli sistematici non 6 univoca n6 esente da ambiguit8. Tuttavia, vi sono casi in cui la situazione non presenta difficolth. Un buon esempio B costituito dalla scoperta dell particella nucleare ZO,che fruttb ad alcuni suoi scopritori il premio Nobel per la fisica nel 1984. I due esperimenti (denominati UA1 e UA2), che scoprirono contemporaneamente la particella presso i laboratori europei del CERN di Ginevra, trovarono i seguenti valori di massa, espressi in Giga elettron-volt (GeV) [79], [80]:
Mz MZ
=
95.2 & 2.5 (stat) f 2.8 (syst) GeV = 91.9 1.3 (stat) f 1.4 (syst) GeV
+
(UA1) (UA2) ,
dove, in entrambi i casi, l'errore sistematico derivava dalla incertezza nella calibrazione assoluta in energia dell'apparato. D'altro canto, la teoria prevedeva il valore 92.3 0.7 GeV ,
+
dove l'errore dipendeva in questo caso dalle approssimazioni utilizzate nei calcoli. E evidente in questo caso l'ottimo accord0 tra teoria ed esperimenti, indipendentemente dalle tecniche di analisi dei dati e trattamento degli errori.
440
C a ~ i t o l o11. Analisi dei dati merimentali
11.11 Misure del tipo M ( f , 0, 0) Qui ci si riferisce al caso di una variabile aleatoria misurata senza errore alcuno. Lo scopo della misura i: in questo caso la determinazione della distribuzione o legge statistica che determina il fenomeno fisico. A volte pub essere sufficiente la determinazione delle medie e dei parametri di dispersione di questa distribuzione, altre volte i: fondamentale conoscerne la forma funzionale precisa. Si pensi, per quest'ultimo caso, alle densitb di Maxwell e Boltzmann, che stanno alla base della meccanica statistica. A questa classe di misure ed osservazioni appartengono in pratica tutti i fenomeni stocastici discussi nei capitoli precedenti, ed i metodi per la determinazione di medie, varianze, forme funzionali sono proprio quelli che abbiamo ampiamente discusso fino ad ora. Come esempio significativo, basta ricordare l'esperimento delle 10 monete, la cui analisi finale i: stata effettuata nell'esercizio 9.7. Nel campo della fisica, rientrano in questo tip0 di misure tutti gli esperimenti di conteggio, per i quali, come discusso nel par. 3.8, la distribuzione di Poisson riveste un ruolo fondamentale. Spesso capita di avere contato Ns+b eventi da una sorgente entro un tempo t,; rimossa la sorgente, vengono registrati Na eventi di fondo per un tempo in genere pic lungo t b . Il rapport0 segnale/fondo si pub stimare come numero nu di deviazioni standard del segnale sul fondo (cioi: come variabile standard), riportando i conteggi di fondo all'intervallo di tempo t,. In questo = fits/tb, passaggio bisogna fare attenzione d calcolo dell'errore: o[Nb] cioB prima si deve trovare l'errore poissoniano dei conteggi originali e poi si deve moltiplicare per la costante t,/tb,come prescrive la propagazione degli errori. Si ottiene quindi:
Nella ricerca di nuovi fenomeni, se nu E 3 i fisici parlano di "forte evidenza", mentre se n, > 5 si ritiene avvenuta la scoperta. Per una applicazione di questa formula si veda il problema 11.3. Discuteremo ora un tipico esperimento di conteggio di fisica nucleare. ESercizio 11.5 x ~ s ~ ~ - c - + ~ ~ = = : ~ - ~ - g ~ ~ = ~ = ~ = - - = ~ ~ ~ = * ~ - =- = ~ q ~ ~ = Nel1930 $1 fiszco L.F. Curtiss esegui u n espertmento per determinare la legge statistica dz emzssione delle particelle nel decadimento di u n nucleo radzoattiuo. Eglz registrd con u n contatore Geiger il numero dz partzcelle a emesse da una sottzle pellicola di polonzo. Durante l'esperimento fu regzstrato il numero di particelle contate in 3455 zntervalli di tempo tutti uguali e della durata dz alcuni rnznuti. Se definiamo
x = numero di particelle emesse (conteggi Geiger) n, = numero di intervalli con x conteggi
11.11 Misure del tipo M(f, 0,0)
441
i risultati dell'esperimento, riportati i n [32], possono essere riassunti nella tabella:
dalla quale risulta che ci furono 8 intervalli senza conteggi, 59 intervalli con u n solo conteggio, I77 interualli con 2 conteggi e cosi via, fino ad un limite di 3 intervalli con 15 conteggi. Eseguire l'analisi completa dell'esperimento. Risposta. I1 tempo di dimezzamento del polonio t di circa 4 mesi, per cui l'intensitci di emissione della sorgente si pub ritenere costante durante l'esecuzione dell'esperimento. I1 contatore Geiger t u n tuba a gas sotto tensione, nel quale avviene una scam'ca in corrispondenza del passaggio di una particella a ionizzante. I1 tempo di ricarica del tubo, necessario afinche' la tensione tra gli elettrodi risalga ad u n valore suficiente per una nuova scarica, d dell'ordine del millesimo di secondo. Poiche' l'esperimento ha registrato meno di una ventina di conteggi nell'arco di alcuni minuti, gli efletti di alterazione dei conteggi dovuti a particelle a: penetrate nel Geiger durante il tempo di ricarica (tempo morto) t assolutamente trascurabile. I n questo caso, se la strumentazione t ben funzionante, nella Eettura dei conteggi ovviamente n o n vi sono errori. Siamo pertanto nel caso di u n esperimento M ( f , 0,O), che conta il numero di particelle emesse senza errori nelle operazioni di misura. Supponendo quindz che l'intensitci della sorgente di polonio resti costante, e che tutti i nuclei del campione emettano particelle a! i n modo indipendente e con la stessa probabilit; elementare costante nel tempo (ipotesi che stanno alla base del modello nucleare del decadimento radioattivo), la legge statistics dei conteggi deve essere di Poisson. Verijichiamo dunque questa ipotesi. Per prima cosa notiamo che, avendo raggruppato i dati come in Tab. (11.44), lo spettro della variabile aleatoria i n esame 2 dato dai valori di x, ciot dal numero di conteggi registrati, mentre le frequenze degli eventi sono date dal numero di intervalli di tempo con u n dato numero di conteggi. Le frequenze dello spettro sono pertanto date da:
Utilizzando le (2.52, 2.54, 2.57), possiamo allora calcolare media varianza e momento del quart'ordzne dai dati (potete utilzzzare la vostra calcolatrzce tascabile, meglio se programmabile):
442
Capitolo
11. Analisi dei dati sperimentali
Appare subito evidente, i n accordo con la proprietd (3.16) della distribuzione di Poisson, l'uguaglianza tra media e varianza. Infatti, la stima statistica della media b data dalla (6.40):
mentre quella sulla varianza b data dalla (6.53):
Per la varianza abbiamo usato la formula generale, i n quanto la media dei conteggi, essendo < 10, non permette a rigore l?uso della formula (6.68), valida per variabili gaussiane (si veda la Tab.6.3 di pug. 202). Tuttavia, anche la (6.56) (o la (6.68)) forniscono u n risultato statisticamente identico:
Gli intervalli di confidenza per media e varianza possono essere associati a livelli di probabilitd gaussiani, perch6 N = 3455 >> 100. Utilizzando la (6.93) possiamo allora procedere a1 test della diflerenza:
consistente con l'ipotesi p = n2 entro 0.12 unit; di errore. Da questa analisi preliminare abbiamo ottenuto una prima prova importante a favore della distribuzione di Poisson. Possiamo quindi procedere oltre, ed introdurre i dati in u n programma di minimizzazione rispetto a p della funzione x2 data dalla (6.119):
dove
k la densitd di Poisson di media p da determinare. Abbiamo usato la routine N l i n f i t , che impiega il metodo del gradiente negativo, ottenendo per la stima della media e per il X 2 di minzmo i valori:
11.11 Misure del tip0 M ( f , 0, 0) 650
1
;zero
delle
4
600
100 50
443
1 Fig. 11.10. Confront0 tra dati (punti con barra d'errore) e densita di Poisson (istogramma con lirimento nea continua) del decadimento per l'espe-
conteggi
0
1
2
3
4
5
6 7
8
radioattivo del polonio
9101112131415
Veniamo ora alla stima dei gradi di libertd. L'istogramma ha 16 canali, ed b stato ottenuto con un numero totale N = 3455 di eventi predeterminato, poiche' questo n o n 2 altro che il numero di prove di conteggio eflettuate da Curtiss. Questo diminuisce di u n a unitd i gradi di libertd (se avete dei dubbi, rileggete i paragraji 6.16, 6.17). Inoltre, dai dati si 2 stimato il parametro p, il che diminuisce di un'altra unitd i gradi del sistema, che sono pertanto pari vale allora: a u = 16 - 2 = 14. I1 chi quadrato ridotto
Xz
Dalla Tab. 0 . 3 risulta u n livello di significativitd di circa il 1 5 %, il che rivela un buon accordo tra l'esperimento e la distribuzione di Poisson. I dati finali possono essere condensati i n u n a tabella oppure, i n modo pi& sintetico, in u n grafico, riportando, per ogni valore di x, il valore di n,, il suo errore statistic0 (la barra d'errore) e la predizione della legge di Poisson. Ad esempio, per il valore x = 5, dalle (3.14, 6.110) si ottiene:
I1 risultato del fit i: rzportato i n Fig. 11.10, dove si vede u n ottzmo accordo globule tra dati e teoria. Il valor medio trovato dall'esperimento, u n a volta normalizzato per unitd dz tempo e divrso per il numero dez nuclez radzoattzvi presenti, fornisce la costante dz decadimento per radiazrone a del nucleo di polonio (con il relativo errore). Questa costante, indicata solitamente come A, i: una caratteristica fisfca zntmnseca fondamentale del nucleo di polonzo, che ha un raggio dell'ordzne di 10-l2 cm. -
-
-
liB-*ri;tp--
YPVm.IX-i-pJIC--
<,
7 ----i
#y,
- -8, .&=
rr"
-4'*x
,.-
---m-
T,rri- -Sm =-%w -'"8-
444
Capitolo 11. Analisi dei dati sperimentali
Esercizio 11.6 D u e esperiment vamente 92 conteggi in 100 secondi e 1025 conteggi i n 1000 secondi. Fare la media pesata dei due risultati. Risposta. N o n si pud fare la media pesata dei dati grezzi, perch6 essi hanno media diversa. Tuttavia, poiche' i conteggi provengono dalla stessa sorgente e difleriscono per il tempo di conteggio, che nella seconda misura b 10 uolte pi3 grande, si pud procedere alla normalzzzazione dei dati come segue:
dove si i: utilizzata la (6.110) e si b normalizzata la seconda misura (col relativo errore) alla prima. Notate che la seconda misura fornisce u n risultato pi3 preciso, perch&, per eventi poissoniani, l'errore statistico relativo, come dovreste sapere avendo letto il par. 6.16, va come f i l n e tende ad annullarsi per grandz campioni. Le variabili, essendo poissoniane di media >> 10, vide che l'ordine di grandezza dei conteggi registrati b maggiore di 200, si possono considerare gaussiane. Possiamo pertanto applicare la formula della media pesata. I pesi di ml ed ma sono dati da:
e la stima pesata della media Vera vale:
=
101.4 f 3.0
conteggi in 100 secondi.
Per concludere, vale la pena di notare due fatti del tutto generali: il dat o finale t pi3 vicino alla misura pi& precisa (la seconda, che ha un peso 1 0 uolte maggiore della prima); l'inclusione della prima misura, anche se molto meno precisa, riduce comunque l'errore, anche se dz poco.
11.12 Misure del tipo M(f, a, 0), M(f, 0, A), M ( f , a, A> In questa classe di esperimenti, molto complicata da analizzare, le fluttuazioni dei valori assunti dall'oggetto fisico si combinano con le fluttuazioni e le incertezze dovute alla misura. L'obiettivo della analisi & quello di determinare la funzione f (x), dipendente da una o piti variabili, che rappresenta la Iegge
11.12 Misure del tipo M ( f , a, 0 ) , M ( f , 0 , A), M ( f , a, A)
Y = h(z,x)
445
Fig. 11.11. Effetto di folding: la grandezza fisica x e l'effetto dell'apparato z si combinano in una funzione h, per dare un valore y misurato funzione di queste due variabili
statistica della grandezza fisica in esame. Tuttavia, cib che viene osservato i! una densita g che risente delle fluttuazioni fisiche come di quelle di misura. E indispensabile allora misurare, in via preliminare, la risposta dell'apparato di misura, detta funzione dell'apparato (instrumental function o apparatus function), che ha il seguente significato:
Definizione 11.10 (F'unzione dell'apparato). Si dice funzione dell'apparato o funzione strumentale, e si indica in genere con 6(x, y), la funzione che dci la probabibitci 6(x, y) dxdy di misurare un valore in [y,y + dy] quando il valore della variabile b in [x' a: + dx]. In sostanza, la funzione dell'apparato fa conoscere la probabilita che lo strumento risponda con y quando il valore di ingress0 k z. La funzione osservata g(y) dipende quindi da due variabili (2,X) (apparato e fisica), e i valori misurati di Y sono legati a queste variabili dalla relazione (schematizzata anche in Fig. 11.11):
dove la funzione h rappresenta il legame tra z e x creato dall'operazione di misura (una somma x z, un prodotto x - z, od altro). f (x) sono le densit& di probabilitk associate Se ora pz(z) e px(x) rispettivamente all'apparato e a1 processo fisico, Z ed X sono indipendenti, perch6 B ragionevole supporre che la fisica dell'apparato sia indipendente da quella del processo fisico e vale la (5.28) di pagina 149, che per comodita riscriviamo con la nuova notazione data alle variabili:
+
La funzione dell'apparato B ora identificabile con la quantita
che non B altro che la densit&dell'apparato pz(z) valutata per z = h-'(y,x) legata a x e y dall'operazione di misura. La derivata dh-l,/dy B lo jacobiano della trasformazione.
446
Capitolo 11. Analisi dei dati sperimentali
Riassumendo possiamo dire che, in base alle leggi delle probabilith composte e totali, riassunte nella (5.28), le tre funzioni f(x) (fisica), g(y) (osservazione) e 6(y, x) (apparato) sono legate dalla relazione:
che si pub interpretare come segue: la probabilith di osservare un valore y it data dalla probabilith che la variabile fisica assuma un valore x, per la probabilith che lo strumento, in presenza di un valore x, fornisca un valore y. Queste probabilitii vanno sommate (integrate) su tutti i valori veri x dello spettro che possono mere y come valore osservato. La relazione (11.45) B detta integrale di folding, viene talvolta indicata col simbolo dell'asterisco ed it di notevole importanza sia in fisica sia in ingegneria. Poich6 g(y) i: misurata e S(x, y) deve essere nota, l'esperimento deve determinare la funzione f (x) che it, per cosi dire, intrappolata o avvolta (in inglese folded) nell'integrale di folding. Se, come succede spesso, la risposta dell'apparato i! lineare,
l'integrale di folding si trasforma nell'integrale di convoluzione (5.27):
che pub essere schematizzato graficamente come in Fig. 11.12. Le tecniche che estraggono f (x) dagli integrali (11.45, 11.46) prendono il nome di tecniche di unfolding e deconvoluzione. In linea di principio, la tecnica delle trasformate di Fourier o Laplace consente di trasformare questi integrali in equazioni algebriche facilmente risolubili. Tuttavia, la necessitk di propagare gli errori attraverso questi algoritmi crea sovente notevoli difficolth. Spesso si usa la tecnica iterativa che it schematizzata in Fig. 11.13. Una funzione f (x, p) dipendente da uno o piii parametri p viene "iniettata" nell'integrale di folding, che viene risolto con metodi numerici o di simulazione;
11.12 Misure del tip0 M ( f , a, 0), M ( f , 0, A), M ( f , u, A )
447
nuovo set di
Fig. 11.13. I1 metodo iterativo per la risoluzione dell'integrale di folding
la soluzione g(x, p ) che si ottiene, dipendente anch'essa dallo stesso insieme di parametri, viene confrontata con la funzione g(x) effettivamente osservata. Se si usano i metodi di best fit (come quelli usati nella routine mlnfi%) che consistono nel metodo del gradiente negativo per la determinazione dei parametri p di minimo e nel test per la determinazione del grado di accord0 con le osservazioni, alla fine del ciclo si ottiene la funzione cercata f (a, /-lo), con i valori ottimali dei parametri e relativo errore. Questo metodo, sebbene piuttosto dispendioso dal punto di vista del calcolo, ha il pregio di essere abbastanza flessibile e generale. Non intendiamo qui entrare in ulteriore dettaglio in questi argomenti, sui quali esiste una letteratura tecnica specializzata molto vasta (vedere, ad esempio, [9]). A nostro avviso 6 sufficiente che siate consci del problema e che sappiate che esistono dei modi per risolverlo. Se intraprenderete la strada della ricerca scientifica sperimentale, allora c'i: di certo un integrale di folding o convoluzione che vi sta aspettando. Quando lo incontrerete, non scoraggiatevi e cercate nella letteratura il metodo migliore per risolvere quel problema specifico: quasi sicuramente esiste. Se il calcolo degli errori o della stabilith della soluzione ii importante, ricordatevi di essere particolarmente attenti a1 tip0 di algoritmo da usare; nella scelta, un po' di nozioni imparate sul nostro libro vi saranno probabilmente di aiuto. Vi abbiamo mostrato che la determinazione completa e affidabile della densit& f (x) B in genere complicata a causa della presenza della funzione dell'apparato 6(y, x), che tiene conto degli effetti strumentali (A) e/o casuali ( 0 ) presenti nell'operazione di misura. Nel caso della convoluzione, dove
x2
osservazione = fisica
+
apparato
==+y = x + (y - x) ==+y = x + d
448
Capitolo 11. Analisi dei dati sperimentali
se non la struttura completa, almeno la media (X) e la varianza Var[X] (0 la deviazione standard) possono essere stimate dalle quantith m(x) e s2(x) deducibili dai dati con le note regole (5.67, 6.55, 6.58). Notiamo prima di tutto che la deviazione media m(d) e la dispersione causata dalle operazioni di misura, (quest'ultima caratterizzata dalla deviazione standard s2(d) e/o dall'errore sistematico A), devono essere quantith note con errore trascurabile, altrimenti l'esperimento non i: fattibile. Inoltre, anche m(y) e s(y) sono quantith note con errore, perchi: si ottengono dal campione dei dati osservati. Allora, per le misure M ( f , G,0) abbiamo: s2(x) = s ' ( ~ )- s2(d) 4 x 1 = m(?l)-m(d)
Nel caso invece delle misure M ( f , 0, A) abbiamo:.
Infine, per le misure M ( f ,
0,
s2(x)
A) si ha: =
A2 s2(y) - s2(d) - 12
4 x 1 = m(y) -4
4
e per p e n valgono ancora le (11.48).
11.13 Studio di un caso: gli esperimenti di Millikan Riteniamo ora abbastanza istruttivo applicare alcuni dei concetti fin qui introdotti alla analisi dei famosi esperimenti di Millikan sulla carica dell'elettrone. Questi esperimenti hanno recentemente attirato l'attenzione di alcuni storici e critici della scienza, aprendo alcune polemiche sul mod0 di operare degli scienziati. Vediamo di che si tratta.
11.13 Studio di un caso: gli esperimenti di Millikan manometso
449
alla pompa
Q A
Fig. 11.14. L'apparato di Millikan per la misura della carica elementare. A = flusso d'aria, -C = condensatore, M = microscopio, P = generatore di tensione, 0 = ampolla d'olio
Robert Millikan fu un fisico americano divenuto famoso per le sue misure sulla carica dell'elettrone. Per queste ricerche ottenne il premio Nobel nel 1923 ed altri numerosi riconoscimenti, tra cui 20 lauree ad honorem. Nel 1910, quando era professore all'universita di Chicago, Millikan pubblicb i primi risultati dei suoi esperimenti, ottenuti studiando la caduta di goccioline di olio in un campo elettrico. L'apparato utilizzato 2 mostrato in Fig. 11.14. Un flusso d'aria A cattura per effetto Venturi delle minuscole goccioline dalla ampolla d'olio 0; queste goccioline cadono per gravita entro un for0 praticato in un condensatore C, ove trovano un campo elettrico statico prodotto dal generatore P. L'apparato i: tenuto in depressione e controllato d a un manometro. Le goccioline si elettrizzano negativamente per contatto col flusso d'aria, ed il lor0 mot0 6 quindi influenzato dalla presenza del campo elettrico del condensatore, la cui polaritb i, tale da rallentare il mot0 della goccia, essendo il piatto inferiore a potenziale negativo. E noto che la caduta di un grave in un fluido viscoso (l'aria) k a regime un mot0 di tip0 uniforme, con velocita costante, quando la forza di attrito viscoso, che second0 la legge di Stokes dipende linearmente dalla velocita, diventa uguale alla forza peso. Questo k il mot0 delle gocce di pioggia, oppure quello di un paracadutista, sia in caduta libera sia col paracadute aperto. Utilizzando dunque la legge di Stokes e l'equazione del campo elettrico di un condensatore, Millikan scrisse le equazioni del mot0 della goccia con e senza campo come: 4 6 ~ q v o r = -nr3pg (senza campo elettrico) , 3 4 6.irqvr = ~ - -qr (con ~ campo ~ elettrico) ~ , 3 h
v
(11.49) (11.50)
dove q k il coefficiente di viscosita dell'aria, v e vo le velocita di caduta della goccia con e senza campo rispettivamente, r il raggio della goccia, p la densit2 dell'olio, g l'accelerazione di gravitb, V la tensione del generatore, h la distanza tra i piatti del condensatore e q la carica della goccia, che i: l'oggetto della misura.
450
Capitolo 11. Analisi dei dati sperimentali
Eseguendo due misure della velocita di caduta v e vo con e senza campo, dalle equazioni (11.49, 11.50) & possibile ricavare le incognite r e q. La misura della velocita veniva effettuata misurando col microscopio, guardando attraverso una lente munita di tacche, il tempo di caduta di ogni goccia. Questo poteva essere regolato a piacere cambiando la tensione V o la pressione dell'aria. Era anche possibile fermare le goccioline in sospensione nell'aria (v = 0) applicando un opportuno potenziale negativo a1 piatto inferiore del generatore. In questo mod0 Millikan notb che la carica q assumeva sempre un valore minimo qo oppure un multiplo di questo valore. Egli scrisse tutte le sue osservazioni in un registro che 6 disponibile ancora oggi. L'errore di misura era assunto di tip0 puramente statistico, derivante dall'incertezza nella determinazione manuale dei tempi di caduta con il microscopio e un orologio. Siamo pertanto in presenza di una misura del tip0 M(0, 0,0). Millikan effettub la media di un primo gruppo di 23 misure, calcolb l'errore della media come prescritto nella (11.33) e pubblicb nel 1913 il valore della carica elementare dell'elettrone: 40
E e = 4.778 f 0.002 10-lo
esu .
Una polemica riguardante la stabilitk della misura ed il piccolo errore assegnato a1 valore di e, spinse Millikan a pubblicare, nel 1923, un nuovo studio della caduta di 58 gocce, nel quale sottolineava che i dati non erano relativi "a un gruppo selezionato di cadute, ma rappresentavano tutte le cadute verificate in 60 giorni consecutivi". I1 valore di questa seconda misura era: e = 4.780 f 0.002 10-lo
esu .
(11.52)
Dagli appunti di Millikan, recentemente riesaminati, risulta perb che nella prima misura (quella delle 23 gocce), egli escluse dalla pubblicazione 7 misure giudicate "cattive" , mentre nella seconda misura, (quella delle 58 gocce), ne escluse addirittura 82. Sulla base di queste vicende, spesso Millikan 6 citato come un esempio negativo di disonesth scientifica. Tuttavia, poichi: egli riposa in pace ormai da molti anni, non ci & dato sapere se le gocce furono scartate sulla base di buoni motivi (misure non effettuate a regola d'arte da lui o dai suoi assistenti) o solo con l'intenzione di minimizzare l'errore. I1 riesame dei dati di Millikan ha tuttavia dimostrato che le gocce scartate non modificano il risultato pubblicato in mod0 statisticamente significative [6]. A questo punto vi sarete gi8 chiesti qua1 & il valore vero della carica dell'elettrone. Ovviamente, non conosciamo il valore vero, ma la media pesata di tutte le misure effettuate fino ad oggi, che risulta essere e = 4.803 206 8 i0.000 001 5 10-lo
esu .
Questo valore & noto con un errore relativo di 3 . 10V7 (0.3 parti per milione) e nella nostra discussione pub essere considerato come valore "vero" di riferimento. I1 confront0 tra questo valore e quello di Millikan (11.51) pub essere
11.13 Studio di un caso: gli esperimenti di Millikan
451
fatto in termini di variabile standard: lvalore di Millikan - valore vero) - 14.778 - 4.8031 = 12.5 errore di Millikan 0.002 I1 valore di Millikan dista di 12.5 unit& di errore da quello vero, in assoluta violazione della legge 3a. Da un punto di vista formale e metodologico, Millikan ha pertanto sbagliato la misura, perch6 il valore vero non 6 compreso con legge 3r~nell'intervallo (11.51). Tuttavia va notato, a favore dello scienziato, che Millikan dimostrb per la prima volta che la carica elettrica 6 quantizzata, determinandone il valore con un errore relativo
il quale ci sembra un risultato di tutto rispetto, considerando anche l'epoca, lloriginalit&della misura ed il tip0 di apparato usato. Resta comunque da chiarire la differenza anomala, molto maggiore dell'errore stati~t~ico, tra risultati di Millikan (sia di quelli originali che di quelli corretti) ed il valore vero. La ragione sta nel modello fisico usato per la misura, rappresentato dalle equazioni (11.49, 11.50): fu utilizzato un coefficiente q di viscosit&dell'aria approssimato e, nella determinazione del valore finale, Millikan non tenne conto dell'errore sistematico derivante da questa approssimazione. Concludiamo con le parole di un altro premio Nobel per la fisica, Richard Feynman, che cita [36] le misure di Millikan a proposito del cosiddetto effetto di trascinamento, di cui parleremo nel prossimo paragrafo: 'Z'esperienza ci ha insegnato come evitare di autoingannarci. Faccio un esempio: Millikan ha misurato la carica di un elettrone con un esperimento in cui cadevano delle gocce d'olio, ed ha ottenuto una risposta che ora noi sappiamo essere Ron del tutto esatta. Non I? i! perch6 Millikan non aveva i dati esatti della viscositA dell'aria. E molto interessante studiare la storia delle misure della carica dell'elettrone, dopo Millikan. Se riportaste quelle misure su una curva temporale, vi accorgereste che la prima B leggermente superiore a quella di Millikan, la successiva ancora di poco superiore e cosi via fino a raggiungere una cifra parecchio pih grande. Perch6 mai non si B trovata subito la cifra pih alta? E una storia di cui gli scienziati si vergognano, eppure il motivo 6 chiaro. Ogni volta che uno scienziato otteneva un valore molto superiore a quello di Millikan, pensava di aver sbagliato e cercava l'errore. Se la misura era pih vicina a quella di -Millikan, non tentava cosi accuratamente di rintracciare l'errore: eliminava i valori troppo discordanti. Ci B servito da lezione, non soffriamo piG di questa malattia. "
452
C a ~ i t o l o11. Analisi dei dati s~erimentali
11.14 Alcune note sul metodo scientifico
I I I I
Dopo aver illustrato i contenuti tecnici delle operazioni di misura, vogliamo concludere il capitol0 (e il libro) con alcune osservazioni di metodo e di principio. Come abbiamo gih detto all'inizio, il metodo scientifico 8 basato sull'osservazione della natura, ovvero sulla misura delle osservabili fisiche con i metodi e le tecniche descritte nei paragrafi precedenti. Alla base di questo approccio sta un principio senza il quale l'intera scienza moderna non potrebbe esistere: il postulato dz oggettivit& In altre parole, la natura esiste di per s6, con sue proprie leggi, e non B una proiezione della mente dell'uomo. Non i: lecito quindi attribuire alla natura finalit& e scopi propri del mondo soggettivo e culturale dello sperimentatore. L'oggettivith va considerata come un postulato, dato che non pub essere dimostrata sulla base di assunzioni pih ovvie od elementari. Tuttavia, quando questo principio non i: valido, come succede in alcune sperimentazioni mediche, gli scienziati sono in grado dz accorgersene. Ci riferiamo a1 cosiddetto efletto placebo, che consiste nella guarigione spontanea di pazienti ai quali viene fatto credere di essere curati con un farmaco efficace, mentre in realtb viene somministrata loro una sostanza (come acqua o zucchero), detta placebo, priva di effetto terapeutico. Si pub verificare sperimentalmente che nei pazienti fiduciosi si determinano condizioni psicologiche che portano, per alcune patologie, ad una percentuale di guarigioni per nulla trascurabile [12]. Come si fa allora a verificare l'efficienza di un farmaco? I1 metodo B proprio quello delle tabelle di contingenza illustrato nell'esercizio 6.13 di pagina 233: a1 campione A di ammalati si somministra un placebo, a1 campione B il farmaco; il test x2 dirh se l'azione del farmaco d& effetti statisticamente diversi dal placebo. Questo tip0 di esperimenti 8 detto a doppio cieco, perch6 ne il medico n6 il paziente sanno se fanno parte del gruppo che sta sperimentando il farmaco o il placebo. Tra le pratiche alla moda che non hanno mai superato il test a doppio cieco ricordiamo l'omeopatia e la pranoterapia. E quindi corretto affermare che queste Literapie"guariscono; tuttavia si dovrebbe sempre ricordare che in questi casi non si sono mai misurati effetti terapeutici diversi in mod0 significative da quelli del placebo. A parte questi problemi legati alla sperimentazione biomedica, i risultati scientifici sono assolutamente indipendenti dai voleri consci od inconsci di chi sperimenta. Non B escluso che un giorno possa accadere di trovarsi di fronte ad una situazione differente, ma fino a questo momento, in tutte le misure nel campo della chimica, della fisica e della biologia condotte a regola d'arte, cib non B mai avvenuto. In linguaggio non tecnico, comprensibile a tutte le persone di buon senso, potremmo dire che il metodo scientifico puh essere condensato in due principi equivalenti, del tutto ovvi anche se purtroppo poco utilizzati: sono le teorie che crollano davanti ai fatti (e non viceversa); oppure: bisogna analizzare la realtA cosi com'8 e non come si vorrebbe che fosse.
11.14 Alcune note sul metodo scientific0
453
Tecnicamente, questa metodologia corrisponde a quella che nella scienza B nota come procedura di falsificazione: se avete una teoria, dovete in tutti i modi cercare di dimostrare che B falsa; se anche un solo fatto sperimentale B in disaccordo con essa la teoria va rivista; se tutti i risultati sperimentali sono in accordo, la teoria va (temporaneamente) accettata. Non esistono pertanto teorie vere, ma solo teorie errate (o valide Iimitatamente ad un ambito ristretto di fenomeni), in quanto falsificate da uno o pih esperimenti, e teorie valide, ovvero non ancora falsificate. Queste ultime, come la teoria della relativith e la meccanica quantistica, fanno parte del patrimonio scientifico corrente. A questo punto dovrebbe esservi del tutto chiaro che il confront0 statistico tra un risultato sperimentale ed un modello, attraverso il calcolo del livello di significativitA e la valutazione della probabilita di sbagliare rigettando (falsificando) l'ipotesi (errore del I tipo) i! u n aspetto tecnico particolare m a fondamentale del procedimento generale di falsificazione della scienza moderna. A titolo di esempio, potete rivedere gli esercizi 3.17, 6.10 e 11.5. Caratteristica del process0 di falsificazione, ovvero di chi possiede una mentalit&e una cultura scientifica, 6 quella di porre l'attenzione sui fallimenti, sui rigetti e sugli insuccessi piuttosto che sui successi di una teoria o di una ipotesi. Questo punto & fondamentale e non i: per niente ovvio. Supponete di fare un oroscopo e di predire ai nati di un dato segno che entro una certa settimana foreranno una gomma dell'auto; su (poniamo) 5000 persone che vi leggono questo capitera per caso (diciamo) a 10 persone. Se queste 10 persone non hanno una mentalit& scientifica esse saranno impressionate dalla vostra predizione, diventeranno vostri seguaci e diffonderanno ad altri la lor0 positiva esperienza. Continuando a fare oroscopi, le vostre predizioni saranno sempre coronate da success0 (in senso statistico); in questo mod0 a poco a poco accumulerete un numero ragguardevole di fan e potrete magari diventare un astrologo famoso (e ricco). I1 procedimento di falsificazione non va inteso in senso rigido e schematico: se un esperimento falsifica una teoria che ha resistito a centinaia o migliaia di esperimenti precedenti, i: forse piil probabile che l'esperimento sia sbagliato e la teoria valida che non il contrario. Periodicamente scienziati dilettanti comunicano clamorose scoperte, come quella del mot0 perpetuo o della non conservazione della carica elettrica; se questi esperimenti fossero veri, l'intero edificio della fisica moderna crollerebbe. Occorre pertanto una certa prudenza nel giudicare e valutare risultati scientifici nuovi e clamorosi. Affinchd il procedere della scienza possa avvenire second0 lo schema che vi abbiamo illustrato, occorre quindi che negli scienziati vi sia buona fede e controllo reciproco e che vi siano meccanismi di verifica dell'informazione scientifica. Le regole che a questo proposito la cornunit& degli scienziati si 6 data prevedono che i risultati scientifici, per essere considerati tali, debbano essere pubblicati su riviste "serie", cioi: gestite da alcuni tra i massimi esperti mondiali della materia (ogni addetto ai lavori sa quali sono quelle del campo in cui opera). Le teorie possono cosi essere controllate e gli esperimenti ripetu-
454
Capitolo 11. Analisi dei dati sperimentali
Bagley e Luther (1996)
------e----
-A
Fitzgerald (1 995)
Karagioz e altri (1987) Luther e Towler (1982)
-t-
-
Sagitov e altri (1979)
Pontikis (1 972)
+
Fig. 11.15. Alcune misure
della costante di gravitazione universale G col metodo del pendolo a torsione. Le barre d'errore sono riportate a tre deviazioni standard, per evidenziare I'incompatibilita tra le due misure piil recenti
ti: si innesca allora a live110 internazionale una fase transitoria, che potremmo definire di validazione, alla fine della quale il risultato scientifico, teorico o sperimentale, si pub considerare acquisito. L'analisi statistica dei dati e dei risultati di esperimenti differenti gioca a questo punto quasi sempre un ruolo di primo piano. Gli scienziati operano dunque in una sorta di zona franca, autogestendo l'informazione scientifica in assoluta autonomia. Questo, a nostro avviso, 6 una delle caratteristiche positive pih significative dei nostri tempi. 6 allora molto importante, per salvaguardare questa autonomia che la scienza ha saputo conquistarsi, che ogni ricercatore sia conscio di quanto sia importante pubblicare su una rivista o comunicare ad un congress0 un risultato scientifico, e che operi pertanto con scrupolo e correttezza. Dopo aver descritto la fisiologia del sistema, vogliamo ora illustrarne alcune possibili patologie. Essenzialmente, per quanto riguarda l'esecuzione degli esperimenti, esse sono di tre tipi: 0 0
0
utilizzare la frode; trattare i dati in mod0 scorretto (cooking, trimming); subire l'effetto di trascinamento (effetto bandwagon).
Passeremo ora brevemente in rassegna queste tre patologie. L'utilizzo della frode nella scienza, ciob l'esistenza di scienziati imbroglioni, si ii fino ad ora rivelato un aspetto fortunatamente secondario. I meccanismi di selezione nelle universit2 ed il controllo incrociato tra scienziati, che si realizza nei congressi e sulle riviste scientifiche, hanno finora consentito di rivelare tempestivamente frodi e trucchi. Essi si sono verificati principalmente nel settore biomedico, dove piG spesso si verifica uno stretto intreccio tra scienza e interessi economici. Spesso viene citato come caso limite quello di W.T. Summerlin, che a met2 degli anni '70 dipinse chiazze nere sul pel0 di topi bianchi per simulare innesti [26]. Nel carnpo della fisica i! farnoso il caso di E. Rupp che, come successivamente ammise h i stesso, si inventb letteralmente, all'inizio degli anni '30, alcuni risultati sulla polarizzazione nella doppia diffusione di elettroni. E d a notare che i risultati di Rupp falsificavano
11.14 Alcune note sul metodo scientific0
I
1948
1952
1956
I
1960
I
1964
455
Fig. 11.16. Misure del parametro p di Michel riportate in corrispondenza dell'anno in cui sono state effettuate. Ogni misura, entro gli errori, i: in accord0 con la precedente
senza ombra di dubbio la teoria relativistica dell'elettrone di Dirac, che era gib ricca di conferme. Tuttavia la comunitb dei fisici, allora gib particolarmente attiva e vivace, scopri in breve tempo l'imbroglio, costringendo Rupp a ritrattare i suoi risultati. La seconda patologia, il trattamento scorretto dei dati, consiste in operazioni di ripulitura (tm'mming) e manipolazione (cooking) dei risultati, ed B molto pih insidiosa della precedente, in quanto molto pih difficile da scoprire. Essa non 6 dovuta tanto alla malafede di chi opera quanto all'ignoranza di tecniche di analisi e trattamento dei dati. I casi pi^ frequenti riguardano la mancata correzione di effetti sistematici, oppure E'uso scorretto della statistica e delle tecniche di calcolo e propagazione degli errom' di misura. Gli esperimenti di Millikan, trattati nel paragrafo precedente, rientrano proprio in questa casistica. Non sappiamo infatti se NIillikan scartb alcune misure perch6 in malafede; certo B che non tenne in considerazione effetti sistematici import anti. Un altro aspetto di questa patologia B la esagerazione degli errori di misura, a conferma di teorie alla moda. In questo mod0 possibili discrepanze significative tra teoria ed esperimento vengono nascoste, vanificando totalmente il principio di falsificazione. Anche questo dimostra, ancora una volta, quanto sia importante per uno sperimentatore super calcolare bene le incertezze di misura. La ripetizione degli esperimenti ed il controllo tra scienziati sono le armi utilizzate con successo dalla comunita scientifica per individuare esperimenti compiuti non correttamente o teorie tecnicamente sbagliate. Talvolta per6 esse non sono sufficienti. A titolo di esempio, esaminate le varie determinazioni della costante di gravitazione universale G, tratte da da [41] e riportate in Fig. 11.15; qui le barre d'errore, a differenza della convenzione standard, sono disegnate a tre deviazioni standard invece che ad una, per mostrare l'incompatibilitb delle due misure piti recenti. Si tratta di errori mal calcolati o di una dipendenza di G dal tip0 di materiale usato negli esperimenti? Questo B un punto tuttora aperto, legato alla possibile esistenza, nella forza gravitazio-
456
Capitolo 11. Analisi dei dati sperimentali
Fig. 11.17. Misure del paraprim de1 I973
dopo ill973
metro Q+- in ordine di data di pubblicazione
nde, di una componente sconosciuta di intensita molto debole (la cosiddetta "quinta forza"), che priverebbe G del carattere di universalita. E veniamo ora dl'effetto piG subdolo e pericoloso di tutti, l'effetto di trascinamento, spesso nella letteratura inglese citato come effetto bandwagon, che si pub forse tradurre efficacemente anche come "effetto diligenza". Questo effetto 6 gi8 stato chiaramente descritt'o nella citazione di Feynman che abbiamo riportato a pagina 451. Come avrete capito, si tratta dell'influenza psicologica sullo sperimentatore della situazione scientifica preesistente. Infatti, se un esperimento fornisce risultati in netto contrast0 con teorie accettate o esperimenti precedenti, lo sperimentatore si affanna a ricercare possibili cause di queste discrepanze, finch6 non arriva ad ottenere un risultato vicino a quello atteso; a questo punto si ritiene soddisfatto e diventa meno attento. In questo modo, perb, si possono generare situazioni che vedono i risultati sperimentali tutti in accordo tra lor0 e tutti sbagliati. Un buon esempio i: costituito dalla Fig. 11.16, tratta da [60], che riporta le misure successive del parametro p di Michel, che caratterizza la distribuzione in energia degli elettroni emessi in certi decadimenti nucleari. Ogni misura B in accordo con la precedente, ma le prime sono incompatibili col valore di 0.75, che b il valore teorico atteso, verso il quale le misure si avvicinano in modo monotono crescente. Con tutta probabilita qui si sono verificati effetti di trascinamento. Un altro esempio, riportato in [6],6 la misura del parametro q+-, che B un rapport0 tra i decadimenti di alcune particelle nucleari instabili, i mesoni K. Essendo questo un parametro molto difficile da determinare ma di cruciale importanza per la fisica delle particelle, esso B stato oggetto di numerose misure succedutesi nel corso degli anni. Esse sono riportate in Fig. 11.17: le medie prima e dopo il 1973 sono incompatibili. Sembra anche qui evidente un effetto di trascinamento nei due gruppi di misure. Il valore ufficiale (2000) b la media pesata del second0 gruppo di misure:
11.15 Problemi
457
A differenza degli altri effetti, quello di trascinarnento non implica la malafede o l'ignoranza dello sperimentatore. A1 contrario, si t r a t t a di un effetto psicologico del quale possono cadere vittime ottimi ricercatori, ben preparati tecnicamente e molto esperti. Probabilmente il rimedio migliore contro questo effetto 6, come sottolinea Feynman nella citazione di pagina 451, sapere che esso esiste. Crediamo con questa discussione di avervi mostrato che gli scienziati, a differenza di quanto si crede, non sono infallibili, n6 si ritengono tali. Tuttavia, pur consci che stiamo per fare una dermazione molto impegnativa, ci sentiamo di dire che il metodo scientifico, cosi come ve lo abbiamo descritto nei suoi aspetti tecnici e di principio, alla lunga B infallibile e riesce ad essere immune dagli errori che i singoli scienziati possono commettere.
11.15 Problemi 11.1. Se la massa m e l'accelerazione a sono misurate indipendentemente con un errore statistico del 4% e del 5% rispettivamente, qua1 6 l'errore statistico relativo della forza F = ma? 11.2. Una sorgente radioattiva di vita media T = 5 giorni, avente inizialmente una attivitk di I0 = 1000 decadimentils, di incertezza trascurabile, ha una attivitk residua di I = 10 decadimentils, con una incertezza di sl = f1 decadimentols. Sapendo che la legge del decadimento 6 I l I o = exp(-tlr), determinare il tempo trascorso con il relativo errore. 11.3. Un monitor di radiazione registra I = 157 conteggi/s in presenza di una sorgente e F = 620 conteggi di fondo in 10 secondi in assenza di sorgente. Determinare il numero di conteggi a fondo sottratto con il relativo errore ed il rapport0 segnale/fondo.
11.4. Un risultato scientifico viene riportato come 5.05 f0.04, con la specifica che si tratta della media di 4 misure e che all'intervallo va associato un CL = 95%. Trovare la precisione della singola misura. 11.5. I1 volume di un cilindro V = ( r R 2 )B ~ ottenuto misurando il raggio di base R e l'altezza L. Per la precisione della misura indiretta di V, B pi2 importante ridurre l'errore percentuale su R o su L? 11.6. La misura di un angolo fornisce il valore B = (30 f2)'. Calcolare sen B con il relativo errore. 11.7. Un fascio polarizzato di particelle viene fatto diffondere su un bersaglio e la polarizzazione viene misurata come P = (N+ - N-)/(N+ + N-), dove N+ i: il numero di particelle deviate "in su", N- il numero di quelle deviate "in gih" ed N = N+ N- B il numero totale di particelle diffuse. E ben noto ai fisici che la polarizzazione misurata va scritta come P f s ( P ) = P f d m . Verificate la formula dell'errore, sia nel caso di N fisso che variabile. Utilizzate i risultati del par. 6.16 di pagina 217.
+
458
Caoitolo 11. Analisi dei dati soerimentali
11.8. Una tensione B misurata con uno strumento di classe 1come V = 10.00f 0.05 V, dove l'errore B l'intervallo di sensibilitii. Determinare il valore della funzione f (V) = exp(O.lV) col relativo errore. Quali sono i livelli di confidenza? 11.9. La tensione di uscita Ez di un partitore con due resistenze R1 ed R2 e tensione di ingress0 El B data d a Ez = El RI /(R1+Rz). Se Ri = Rz = 1000f 50 fl ed El B misurato all'l% come E = 10.00 & 0.05 V, calcolare E2. Verificare con una simulazione i livelli di confidenza. La misura all'l% della tensione di uscita B E2 = 4.91 f 0.02 V. Dire se la misura B in accord0 con le previsioni. Nota: tutte le incertezze sono errori massimi di sensibilitb (CL = 100%). 11.10. La velocith costante di una slitta a cuscino d'aria su un piano orizzontale & misurata come v = s / t . Lo spazio percorso & s = 2 m, con una incertezza dovuta alla sensibilith del metro usato stimata in &1 mm. I1 tempo t , misurato ripetendo la prova 20 volte, risulta variare in mod0 aleatorio; l'istogramma dei tempi ha parametri mt = 5.35 ed st = 0.05 s. Determinare la velocith e commentare. 11.11. L'energia dei fotoni provenienti da una transizione atomica viene trasformata in impulsi elettrici, la cui tensione di picco viene misurata con un analizzatore multicanale. La riga spettrale appare sul display con un profilo gaussiano di a -. 20 canali. Tarando I'apparato con un generatore di impulsi elettrici di tensione rigorosamente costante, si ottiene sull'analizzatore una curva gaussiana di ao 5 canali, che rappresenta la dispersione introdotta dalla misurq. Determinare la larghezza effettiva ur della riga.
--
Appendice A. Tabella dei simboli
Simbolo
Significato numeri reali n-ple reali varipbili aleatorie prima di una prova valore assunto dalle variabili dopo una prova campione casuale di dimensione n di X: X = (X1,X2, ... Xn) vettore di m variabili aleatorie: X = (XI, Xz, . . .X,) campione casuale di dimensione n di X: X = ( X 1 , X 2 ,...X n ) osservazione di un campione casuale operatore media o valore atteso di X valore dell'operatore (X) operatore varianza di X valore dell'operatore Var[X] deviazione standard di X: 1/Var[X] r o[X] valore dell'operatore a[X] operatore covarianza di X e Y valore dell'operatore Cov[X, Y] media campionaria valore di M dopo una prova varianza campionaria valore di S2dopo una prova deviazione standard c&npionaria valore della deviazione standard stimata dopo una prova o errore statistic0 (a volte detto scarto quadratic0 medio) valore di Cov[X, Y] dopo una prova valore vero del coefficiente di correlazione valore campionario del coefficiente di correlazione approssimativamente uguale distribuito come implica
460
Simbolo px(x) Fx (2) f (x) f (-) N(P, a2) d x ;P, a ) @(x)
to, U ( a ,b)
x2(v) Q (v)
x22 Xo,
x;
(v) QR(v)
x;2
X R ~ L(@; ):
e
Appendice A. Tabella dei simboli
Significato funzione di densit2 di probabilith di X funzione cumulativa o h i ripartizione di X espressione matematica contenente x forma funzionale di una variabile distribuzione normale di parametri ,u e (T funzione densith di X N ( p ,a 2 ) funzione cumulativa di X N(p, a 2 ) quantile della densit&di Gauss o di Student distribuzione uniforme in [a,b] distribuzione chi-quadrat0 (o chi-quadro) con v gradi di liberta variabile distribuita come X2 (v) valori assunti da Q(v) dopo una prova quantile della densith di x2 distribuzione chi-quadrat0 ridotto con v gradi di libertb variabile distribuita come x;(v); QR(v) = Q(u) / u valori assunti da QE1(v)dopo una prova quantile della densith di X; funzione di verosimiglianza stima puntuale di massima verosimiglianza (ML) o dei minimi quadrati (LS) del parametro 0.
--
Appendice B. Funzioni generatrici
In questa appendice accenniamo brevemente ad uno dei metodi di analisi piu importanti del calcolo delle probabilith, il metodo delle funzioni generatrici, che consente di risolvere in mod0 sintetico ed elegante molti problemi, senza ricorrere a complicate somme od integrazioni. I1 metodo associa alla variabile aleatoria X una nuova variabile, definita dalla funzione etx, dove t it una variabile reale che non ha un particolare significato statistico. I1 valor medio ( e t x ) it una funzione G x ( t ) che prende il nome di funzione generatrice dei momenti o Mgf (Moment generating function):
xipietxi
variabili discrete
G x ( t )= ( e t x ) =
P.1)
J etxp(x)d z variabili continue Per t = 0 la somma e l'integrale sono ovviamente sempre convergenti. Per t # 0 le (B.l) possono non risultare convergenti. Qui tratteremo alcuni casi, relativi alle distribuzioni piil importanti, in cui si ha la convergenza per valori (tl < M, dove M it un numero positivo arbitrario. Per variabili continue la funzione generatrice, a meno di un segno nell'esponente che compare nella seconda delle (B.l), it la trasformata di Laplace della densit2 di X. Sviluppando in serie Gx e sfruttando le proprieth di linearit2 della media
e quindi l'importante relazione:
che lega la derivata n-esima di G calcolata nell'origine al momento di ordine n di X. Risolvendo gli integrali o le somme della (B.1)' si possono ottenere abbastanza facilmente le funzioni generatrici delle distribuzioni di probabilith pih importanti. Alcune di queste sono riportate in Tab. B.1. L'importanza della funzione generatrice sta nella proprieta seguente: se Y = XI Xz e le variabili aleatorie XI e Xz sono indipendenti, dalla (4.9) di pagina 113 segue che la Mgf di Y
+
462
Appendice B. Funzioni generatrici
(
W t ) = et(X1+X2))= (etxl) (etX2) = GXl (t)GX2(t)
,
(B-4)
i! il prodotto delle Mgf di X1 e X2. Tabella B.1. Funzioni generatrici (Mgf) di alcune distribuzioni di probabilita funzione aeneratrice G-a (t'l , [pet (1 - p)ln expb(et - I)] X/(X -t) , t < X exp (pt v2t2/2) (1 - 2 t ) - ' j 2
densit binomiale b(x; n, p) poissoniana p(x; p ) esponenziale e(z; A) gaussiana g(x; p, a) chi-quadrat0 X2(v)
+
c 2
\
+
Utilizzando la Mgf, si pub dimostrare facilmente il teorema Limite Centrale (3.1) di pagina 82 per una somma di n variabili Xiindipendenti aventi tutte la stessa densith di parametri u , e a. Infatti, se
dalla (B.4) si ottiene:
=0e Dato che (2)
(z2)= 1, passando a1 limite si trova il risultato t2/2
l i m G y ( t ) = lim
n-00
12-00
che mostra come, per n grande, la Mgf di Y tenda a quella di una densit& gaussiana standard (si veda la Tab. B.l). Dimostriamo anche, facendo uso della Mgf, il teorema di additivith (3.4) delle variabili X2 di pagina 94. Se
-
Y = Q(v1) + Q(v2)
e Q(vl) X2 (vl), Q(u2) G y ( t )e quindi
N
X2 (v2)
Gy (t) = (1 - 2t)-("1+U2)/2
(B-8)
sono indipendenti, allora G,, (t)G, ( t ) =
=+ Y ~
-
~ ~ ( u U 3~ =) U
-
I + V ~
03-91
dalla Tab. B.1. Se invece Q ( q ) x2(v1) e Q(v2) x2(VZ),i3 facile mostrare, invertendo la (B.4), che se Y e Q(v2) sono indipendenti, vale la proprietk Q(v1) = Y + Q ( m )
=+
Y - x 2 ( v l - ~ 2 )-
(B.10)
Appendice C. Soluzioni dei problemi
Capitolo 1.
1.1. Se C 5 il carnbio di porta, A l'auto dietro la prima porta scelta e C e gli eventi complementarj, dalla partizione dell'evento certo si ha: P ( C ) = P(CIA)P(A) P ( c ~ ) P ( A ) = 0.113 1 .2/3 = 213, P ( c ) = P(CJA)P(A) P(CIA)P(A) = 1 . 113 0 . 2 1 3 = 113. Conviene cambiare porta.
A
+
+
+
+
1.2. Dalla (1.30) si ricava che il numero di possibili partite i: (4!-53!)/(13!)~ 2. 1.287-lo3'. Poichd il numero di partite giocate 5 5.475.1014, P 4 . 2 5 . 1 0 ~ ~ ~ .
---
--
1.4. a) Gli elementi 1e 2 sono in parallelo, in serie col parallelo degli elementi 3 e 4. b) P = [l - (1 - p ) 2 ] 2 = 0.922.
1.7. Delineiamo la non semplice soluzione: si pub immaginare l'arrivo di uno dei due amici come un punto x o y localizzato a caso entro un intervallo lungo 60 minuti. X e Y non si incontrano se accade l'evento {X @ [y, y 121, Y @ [x,x 101). Quindi P = 1- (48/60)(50/60) = 1- 213 = 113.
+
+
1.8. Dalla formula delle probabilith totali: P(T) = 0.14. Dal teorema di Bayes: P ( B J T )= 0.678. Si pub usare anche il metodo g r a f ~ odi Fig. 1.6. 1.9. P{X 5 Y } = 1 / 2 . Infatti, B ragionevole assumere la probabilith come il rapport0 tra l'area sopra la diagonale e l'area totale di un quadrat0 di lato unitario. 1.10. Con ovvia notazione:
--
--
1.12. Si ottiene P(H1) P(H2) 0, P(H3) = 0.03, P(H4) = 0.22, P(H5) = 0.47, P(&) = 0.28. Confrontate i risultati con quelli della tab 1.2. 1.13. Dalla (1.38), se Vn 5 l'evento in cui l'amico vince n volte consecutive (VI f V), definendo le ipotesi B =bar0 e 0 =onesto, assumendo P ( B ) = P ( 0 ) = 0.5, e P ( V ( 0 ) = 0.5, P(V1B) = 1, si ottiene la formula 0.5(1 - P(BIVn-I))]. Si ottiericorsiva: P(BIK) = P(BIV,-l)/[P(BIVn-1) ne P(BIV6) = 0.97, P(BIVlo) = 0.999, P(Blv15) = 0.99997. Verificate come cambiano i risultati cambiando P ( B ) e P ( 0 ) .
+
464
Appendice C. Soluzioni dei problemi
Capitolo 2.
2.2. I1 numero di casi favorevoli B 10!/(3!7!) = 120, quello dei casi possibili 2'' = 1024. La probabilitk vale 72011024 = 0.117, in accord0 con la densitk binomiale. 2.3. Dalla densitii binomiale: 1 - b(0; 10,O.l) - b(1; 10,O.l) - b(2; 10,O.l) = 0.0702, pari a circa il 7%.
+
+
+
+
2.4. ( X Y )= (X) (Y)=100 000.18/37 0.19137 360 000.1/37 t 0 . 36/37 = 58 378. Se si immagina un insieme molto grande (al limite infinito) di N giocatori, ognuno con un capitale iniziale di 60 000 lire, dopo una puntata il capitale medio di questo insieme sar& sceso a 58 378 lire, con un guadagno medio per giocatore a favore del banco di 1622 lire.
2.5. (X) = 6, u[X] = 2.83, (Y) = 13, a[Y] = 5.66. 2.6.
1
T
p(r)
0
1 6/720
1 126/720
2 378/720
3 210/720
= 0.7. Si noti che la densit2 B normalizzata. (R)= 0.9, u[R] 2.7. p(x) = 2z, F(x) = x2, (X) = 213,
2.8. F(x0.25) = xi,25 = 0.25, da cui valori 0.5 B pari a1 25%.
<
a[X] = 1/.(3&).
20.25
= 0.5. La probabilita di osservare
2.9. I1 viaggio dura 6 ore, 4 in andata e 2 a1 ritorno. Se si considera la velocitk
V come una variabile a due valori, si ha: (V) = 25.4/6+50.2/6 = 20016 = 33.3 Km/h. Si noti che il risultato (V)= (50 + 25)/2 = 37.5 Km/h 6 errato. 2.10. Le prove sono 1000 (invece che 100) e i valori dello spettro sono due x = 0 , l (testa o croce, appunto, invece degli 11 valori x = 0,1, ...10). Dalla Tab. 2.2, sommando i prodotti della prima colonna per la seconda (0 . 0 1 . 0 2 . 5 3 . 13 . . .), otteniamo 521 teste, e, ovviamente, 479 croci, a fronte di un valore atteso di 1000 . b(l,0.5,0) = 1000. b(l,0.5,1) = 1000 .0.5 = 500.
+
+
+
+
Capitolo 3.
3.2. La densit2 di
a[X] =d
X B binomiale (gaussiana), quindi (X)= 500. 0.5
= 250,
m = 11.18. Vale la legge 3-sigma.
3.3. Dopo n passi, il percorso X ha uno spettro X = n , n - 2,. . . ,-n di valori discreti che differiscono tra lor0 di 2 unitk. La variabile Y = (X n)/2 B allora binomiale e assume valori interi nell'intervallo [0,n]. Si ha quindi: (Y)= ((X) n)/2 = np = n/2 e Var[Y] = Var[X]/4 = np(1 - p) = 125. Risulta allora: (X) = 0 e a[X] =2 m = 22.36. Vale la legge %sigma.
+
+
3.5. p = 200 . 0.2 = 40, a = 6200 . 0 . 2 . 0.8 = 5.66. Utilizzando l'approssimazione gaussiana e la Tab. D.l si ha P{-1.77 < t < 1.77) = 0.923.
465
A ~ ~ e n d i cC.e Soluzioni dei ~roblemi
Basta notare che InY i: gaussiana e tenere presente che d l n y = dy/y. Una distribuzione avente questa densita i: detta logonormale.
3.8. a) 0.0695 precedenti.
-- 7% ; b) 0.7165
2:
70%, indipendentemente dagli 8 mesi
3.9. X 2 / ~ = 7/10 = 0.7, corrispondente ad una probabilit& (live110 di significativit8) 28010, dalla Tab. D.3.
--
3.10. (8500 - 8100)/-
= 4.34. La riduzione & significativa.
3.12. Dalla densita di Poisson: P{X = 0) = exp(-1012) = 0.0067. La probabilita di sbagliarsi & allora 2. 7%.
+
3.13. Se {XI X2 = n} & la somma dei conteggi registrati in intervalli di tempo disgiunti, utilizzando la formula del binomio di Newton si dimostra facilmente che P { X I + X2 = n } = C,[P{XI = k)'P{X2 = n - k}] quando le probabilita sono calcolate con la densita di Poisson (3.47).
3.14. [-0.675,0.675], interpolando linearmente dalla Tab. D.l 3.15. Dalla tabella D.1 si ottiene interpolando: P{t > 0.806) = 0.21 e P{t > 1.55) = 0.06: Dalle relazioni (4.41 - p)/a = 0.806 e (6.66 - p)/u = 1.55 si ottiene poi p = 2 e a = 3. Potete fare anche qualche verifica numerica con la funzione cdfnor di SCILAB.
3.16. Assumendo I'ora come unitb di misura, At = 100/120 = 0.8333 e quindi, dalla distribuzione di Poisson: p(4) = (At)4 exp(-At)/4! = 0.00873. I1 tempo in ore i: dato d a 1/0.00873=114.5 ore pari a 4.77 5 giorni.
--
+
3.17. La funzione cumnlativa & F(x) = J:(2x - 2) dx = x2 - 2% 1. D d teorema 3.5, x2- 2X 1 = R dove R U(0,l). L'equazione di secondo grado, Per generare X secondo la per 1 5 x 5 2, fornisce la soluzione X = 1 densita assegnata basta l'istruzione X = 1 4Random dove 0
+
+ a. +
Capitolo 4.
< +
4.1- P(X,9) da: dy = P{x 5 X x dx, y 5 Y 5 x 5 a, 0 5 y 5 b, p ( x , y) = 0 altrimenti.
0
5 y + dy)
= d z dy/(ab) per
4.2. a) (XI - p1)2/n: = 2.71; b) Z;=!=,(X~- ~ i ) ~ /=~ 4.61; i " c) pi)2/u: = 6.25. I valori si ricavano dalla Tab. D.4 di pagina 484.
xi -
4.3. L'uguaglianza & valida, in base a1 teorema 4.1 ed alle (4.14, 4.16).
4.4. Si tracciano le tangenti come in Fig. 4.5 e si individuano i punti di intersezione (22, y2) e (XI,91). Dalla (4.55) si ha poi (uz/ay) (92 - YI)/(XZ21) = p.
466
Appendice C. Soluzioni dei problerni
+
+
+
4.5. Cov[Z, U ] = ( Z U )- (2) ( U ) = ((ax b ) ( c Y + d ) ) - ( a ( X ) b ) ( c ( Y ) d ) = a c ( ( X Y ) - ( X ) ( Y ) ) .Dato che a [ Z ] = a a [ X ] e a[U] = c u [ Y ] , si ha P[-% Ul = - ( X )( Y ) ) / ( a [ X l f l [ Y I = ) P[X, Yl.
4.6. Basta rifarsi alla (4.77) cambiando i limiti: P { X 2 180, Y 2 170) = [0.5- E(0.625)].[0.5 - E(0.833)] = 0.266.0.202 = 0.0537 2 5.4%. I valori della funzione E(. . .) si ricavano dalla Tab. D.1. 4.7. Occorrerebbe integrare per via numerica la (4.40) nella regione X E [180,+m), Y E [170,+m). Si noti anche che I'ellisse di concentrazione non fornisce in questo caso la soluzione giusta. Per una soluzione col metodo Monte Carlo si veda anche il problema 7.11 a pagina 284. 4.8. La densit&p x y
B data dalla tabella
Le densitb marginali p x e pu valgono:
d a cui risulta che la variabile X , corrispondente al primo dado, i: uniformemente distribuita, mentre la Y , che i: correlata alla X , ha una densitb diversa. Dalle (4.17, 4.18) B possibile ricavare i valori delle medie e delle deviazioni standard: p. = 3.5, p, = 3 . 2 5 , ~=~1 . 7 0 8 , ~=~ 1.726. Calcolando infine la covarianza tramite la (4.21) e i valori della tabella di p x y , otteniamo il valore aZy= 1.458.
Capitolo 5. 5.1. F z ( z ) = P{-lnX p ~ ( z= ) e-', z 0.
>
5 z } = P { X 2 e-')
5.2. Per x 2 0 c'B una sola radice x = 2 ( 1 - &)/(2+) = I/+ - 1, 0 < z 1.
<
&.
= 1
- e-*,
da cui dF/dz =
Si ottiene pertanto: p z ( z ) =
5.3. Definendo la variabile ausiliaria W = Y , si ha X = ZW e Y = W; le derivate d f ; ' / d Z = W, a f ; ' / d ~ = z , d f g l / d Z = 0 , d f c l / d w = 1, permettono di calcolare la jacobiano IJI = IWI. I1 risultato 5 quindi p z = .f lwl p x y ( z w , w)dw. 5.4. Dalla (5.32) si ha p z ( z ) = PY ( Z - x) PX (z) dx, con x 0 , da cui pz ( z ) = p y ( z - x)p~ (x)dz = z e q - z ] .
2 0,
( z - z)
2
5.5. Si deve estendere per induzione la procedura del problema precedente e si trova la distribuzione di Erlang o gamma r ( n ,A), avente densitk: e k ( t ) = X ( ~ t ) " - ' e - ' ~ / ( n - I)!.
Appendice C. Soluzioni dei problemi
467
>
5.6. Valgono le condizioni 0 5 Z 5 1, W 0, e le funzioni inverse sono: X = Z W e Y = W ( l - 2 ) . Lo jacobiano vale IJI = ITVI = W e la densit& cercata b: pzw (z, w) dz dw = w exp[-w] dz dw. In base al teorema 4.1, Z e W sono indipendenti e Z k una variabile uniforme. 5.7. Dalla (5.27), tenendo presente che z = f ( x , y) = xy, f-'(2, y ) = zly, af-'/az = l l y e che nel rapport0 z = z/y si deve avere y z per assicu1 rare i limiti 0 5 x 5 1, otteniamo: p z (z) = JZ ( l l y ) dy = - In z , 0 5 z 1. Dall'integrale notevole zn In z dz = In z zn+'/ (n+ 1) - z n + l / ( n + 1)' si ottiene poi facilmente ( 2 ) = 114 = 0.25 e Var[q = (2') - (2)' = (119) - (1116) F! 0.049.
>
<
5.8. Se TI e T2sono i tempi di guasto, il sistema cessa di funzionare ad un tempo T = TI +Tz. La densit&di probabilita B quindi data dalla convoluzione delle due densith. Si ha pertanto X2 exp[-X(t - u)] exp(-Xu) du = X2texp(-At), che B la densit&gamma (3.55). I1 tempo medio di vita del sistema i. (T) = 2/X. Si confronti il risultato con quello dell'esercizio 4.1.
1
5.9. Caso a): (21)= 0, (Z2) = 0, Var[Zl] = 13 e, dalla (5.69), Var[Zz] = 1. Si noti che in approssimazione lineare si avrebbe, dalla (5.66), Var[Zz] = 0. Utilizzando il metodo della (5.84) si ottiene facilmente Cov[Zl,Zz] = 0. La covarianza e il coefficiente di correlazione lineare sono nulli, pur esistendo una relazione di dipendenza tra le variabili. Caso b): (21) = 5, (22) = 1, Var[Zl] = 13, Var[Zz] = 3, Cov[Zi,Z2] = 5, p[Z1, 2 2 1 = 0.8. .
5.10. Dato che X e Y sono gaussiane, in base all'esercizio 5.3 lo i: anche Y - X . Dalla (5.66) risulta a[Y - X] = d . 0 2 0 ~ 0.0202 = 0.0283. Utilizzando il metodo della vaxiabile standard otteniamo i valori t l = (0.050 - 0.100)/0.0283 = -1.768, t2 = (0.150 - 0.100)/0.0283 = 1.768, corrispondenti ad un intervallo di probabilith di P(0.050 5 (Y - X ) 5 0.150) = 2 .0.4614 = 0.923, interpolando dalla Tab. D.1. La percentuale richiesta B pertanto: 1 - 0.923 = 0.077 7.7%.
+
5.11. In base all'esercizio 5.4, la densitb del numero totale di veicoli B poissoniana di media p A. Dalla densitb binomiale si ha poi: P(k) = n!/[k!(n ~!)I[P/(P+ Allk P / ( P + 41("-".
+
Capitolo 6. 6.1. a) 13
< R 5 120, b) 26 < R 2 133, c) 17 < R 5 116.
6.2. La soluzione B il valore p che soddisfa p quindi p = 26.6.
-
1.28& - 20 = 0 con p
> 20,
6.3. I1 valore atteso dello scarto quadratic0 medio (deviazione standard) coincide col valore vero: ( S ) = 12 Kg. Si ha invece: a[S] = a / m = 0.6 Kg. 6.4. Dalla relazione N p = 215 f d215(1 - 0.2) = 215 zt 13 segue N = 21510.2 f 1.65 .13/0.2 = 1075 f 108, CL = 90%.
6.5. I1 risultato segue dal teorema 6.1, dato che la varianza campionaria S2 B funzione dello scarto, e dal teorema 4.3. Si pub anche mostrare direttamente che Cov[M, ( X i - M)] = (x:) / N - ( M ~=) a 2 /-~a 2 / N = 0, poichk in un campione casuale le estrazioni sono indipendenti: ( X i X j )= 0 se i # j.
--
6.6. a) 9.8 & 0.2; b) (x - 245)/5 1.645, da cui x = 253.2, pari ad un limite superiore di 10.13 per la media. Si puob anche scrivere (p - 9.8)IO.Z 1.645 da cui p < 10.13, CL = 95%.
468
Appendice C. Soluzioni dei problemi
6.7. Occorre applicare la (6.99), con s l = s2 = 0 . 0 5 m = 0.16. Risulta
t, = 2.12 con 18 gradi di liberth, corrispondente, dalla Tab. D.2, ad un SL osservato ( p - v a k e ) N 2.5%. Questo valore piuttosto piccolo autorizza a nutrire qualche dubbio sulla omogeneith delle due macchine, che andrebbero tenute sotto controllo. Confrontare il risultato col test gaussiano delle medie. 6.8. Supponendo che le differenze siano dovute a1 caso (ipotesi nulla), le (6.126, 6.127) forniscono il valore X g ( l ) = 0.993, corrispondente, interpolando dalla Tab. D.3, ad un SL -. 34%. Non k lecito scartare l'ipotesi, quindi non si pub affermare che il farmaco k efficace. 6.9. Si applica la (6.115), dove N p i = 100mxi exp[-m]/x;!
ed m = 4.58
B il valore della media campionaria ricavata dai dati. Occorre raggruppare i primi due e gli ultimi tre canali, per avere Npi > 5. Si trova X 2 = 2.925 con 6 gradi di liberti, pari a ~ g ( 6 )= 0.49. Interpolando da Tab. D.3 si trova P{QR 2 0.49) ci 0.82, pari a un p-value di 2(1 - 0.82) r 0.36. Risulta che in media axrivano 4.6 autobus in 5 minuti e che i dati sono compatibili con la distribuzione di Poisson, perch6 se scartiamo questa ipotesi abbiamo un' alta probabilith (36%) di sbagliare.
+
6.10. x2(1) = (356 - 375)'/375 (144 - 125)'/125 = 3.85. P{Q 0.05 d a Tab. D.3. I1 modello i: quindi rifiutato.
> 3.85) <
6.11. a) I1 metodo non parametric0 delle tabelle di contingenza fornisce, con 5 gradi di liberti, = ~ ~ ( 5 )= / 50.8415 N 0.2, P { Q R 1 N 0.96 dalla Tab. D.3. I1 test di compatibilith k superato, ma i dati vanno guardati con sospetto, per via del X2 troppo piccolo. b) Applicando la (6.115) con N p i = 100 per tutti i 12 canali, si ottiene X 2 = 2.52. Ogni dado contribuisce con 5 gradi di liberti, per cui xg(10) = 2.52110 = 0.252, P{QR 2 &) N 0.99. Se affermiamo che i dadi o i lanci sono truccati, abbiamo una probabilith di sbagliarci 5 1%.In effetti, con 100 eventi attesi per canale, le fluttuazioni statistiche a la valgono N 100 f = 100 f 10, e i 12 valori osservati sono tutti entro la. E quindi ragionevole scartare l'ipotesi, perchb i dati "fluttuano troppo poco".
Xi
6.12. p E [-0.013,0.305]. Dalla formula approssimata (6.139) si ottiene p E [-0.011,0.311].
60 + 33 = 2.8, da P . --
6.13. Dal test della differenza si ottiene t = (60 - 33 cui, in approsimazione gaussiana, P{T > 2.8) = 2.6 10-
Capitolo 7.' 7.1. No. 7.2. I1 valore vero della probabilitk i: 213. 7.3. Occorre generare due variabili uniformi X = 60 * rndm, Y = 60 * rndm e contare il numero di volte che -10 X -Y 12. I1 risultato deve essere statisticamente compatibile col valore di 113.
<
<
7.4. I1 risultato esatto, che si pub ricavare con considerazioni geometriche non banali, 6: 1 - 3 & / ( 4 ~ ) = 0.586503. Utilizzando il metodo del problema 7.9 abbiarno ottenuto una frazione di coppie pari a 3 614 28916 164 195, corrispondente a una probabilith di 0.58634 i0.00020.
I valori che il lettore ottiene con codici di simulazione devono essere statisticamente compatibili con le soluzioni qui riportate. La compatibilztci va verificata con i test statistici descritti in particolare n e i pas-agrafi 6.12, 6.14 e 6.15.
Appendice C. Soluzioni dei problemi
469
7.5. La massima efficienza di generazione (21 78%) viene ottenuta in corrispondenza del minimo valore di k che soddisfa la relazione kex p(x) Vx 2 0, che 6 verificata per k 2 @. Per ottenere una variabile Z .N(O,l) 6 necessario utilizzare un nuovo numero t e porre z = -x se 0 t 5 0.5; z = x se 0.5 < [ 5 1. In alternativa, si pub anche utilizzare il metodo descritto in [59].
>
<
N
7.6. Si esegue un ciclo di n = 5 tentativi in cui si ottiene la frequenza f = x l n , dove x i! il numero di volte che si verifica la condizione 0 rndrn 5 0.25. Si incrementano di 1 i contatori t l , tq, t3 quando p B contenuto nell'intervallo della 6.21, calcolato col valore trovato per f e con t = 1,2,3 rispettivarnente. Questo ciclo va ripetuto per un numero grande N di volte e i valori finali di t l / N , tz/N e t3/N forniscono i livelli cercati. Con N = 10000 abbiamo ottenuto: t l = 6570, tz = 9852, t3 = 9994. Calcolate le frequenze risultanti col relativo errore e confrontatele con i livelli di probabilitL della legge 3-sigma.
<
7.7. Per variabili uniformi p = 0.5 e la media campionaria ha incertezza a = 1 / m . Se N = 12 si ottiene il valore standard t = Ciz, & - 6. Questo algoritmo B usato dalla routine Gauss1 presente sul nostro sito.
+
7.8. Y = p X J ~ Y R con la routine gauss2 (0,l).
,dove
X e YR sono variabili standard generate
7.9. Si estraggono a caso in mod0 uniforme -R m 5 R. accettano le coordinate quando d
< X 5 R, -R
5 Y < R, e si
7.10. L'istogramma proviene d a una popolazione di densitb p ~ ( z = ) detta di Cauchy, che non possiede media ed ha varianza infinita.
T(1:22),
7.11. Bisogna generare due variabili gaussiane di media, deviazione standard e correlazione assegnata: X = 8 . gl 175, Y = (p . gl g2) . 6 165, dove gl e g2 sono valori normali standard dati dalle routine gauss o gauss2. Si trova poi, tra le coppie generate, la percentuale di quelle in cui X 180 e Y 2 170. Con 10 milioni di coppie abbiamo ottenuto (10.71 10.01)%.
+
+ JV. + >
7.12. I risultati devono essere compatibili con la soluzione 5.9 di pagina 467. 7.13. Si generano due numeri x = J1 e q5 = 2 ~ 5 2 Si . registra il numero n di successi x cos(q5) < 0 oppure x cos(q5) > 1 su un totale di N tentativi. La stima di .ir 6 2N/n f ( 2 ~ l n ' ) J m . Si veda la routine
+
+
7.14. Una possibile soluzione B la nostra routine As5m . Si ricordi che l'errore sulla deviazione standard di N, eventi vale (r/a (capitol0 6).
--
--
7.15. P{r* > 0) 6% (r = coefficiente di correlazione campionario). I1 model10 (anche se per poco) va rifiutato Capitolo 8. 8.1. Una soluzione B il nostro codice che genera n = 100 valori gaussiani e calcola la differenza A = in tra il valore massimo e minimo. I1 procedimento viene ripetuto un numero N molto grande di volte per ottenere, alla fine del ciclo, l'istograrnma della variabile A. Appare un istogramma asimmetrico, proveniente d a una popolazione di densitb di forma analitica non nota. Con N = 50000, abbiamo ottenuto, per n = 100, un campione di media e deviazione standard m = 2.508 i0.001, s = 0.302 i0.001. Dallo studio grafico dell'istogramma abbiamo poi determinato il valore quantile Ao.99 = 3.32. I1 controllo deve scartare i1 lotto quando A > 3.32. Si noti che il metodo 6 insensibile a110 spostamento della media (X).
470
Aaaendice C. Soluzioni dei ~roblerni
8.2. Si estraggono a caso i 5 tempi con legge esponenziale e si determinano m l = m i n ( t ~ , t st,5 ) , m2 = min(t2, ts,t4), ms = min(tl,t4), m4 = min(t2,ts). La macchina si ferma dopo un tempo t = max(ml, m2, ms, m4).Ripetendo il ciclo 10 000 volte abbiamo ottenuto un istogramma asimmetrico di parametri m = 2.52 f 0.02 e s = 1.70 f 0.01 giorni. L'istogramma contiene nell'intervallo m f s il 73% circa dei tempi di funzionamento.
8.3. Occorre modificare la funzione Funint della routin escludere il campionamento ad importanza. ile i 2 che va modificata a1 valore voluto. La s el nostro sito. 8.4. I1 valore esatto di I, calcolabile analiticamente, 6 I = 210g 2 - 1 = 0.38629.. .. Per N = 1000, con il metodo della media si ottiene a = 6.25 . l o p 3 ; con il metodo "vinci o perdi" o 2: 1.1 . l o P 2 ; con il campionamento ad importanza (scegliendo g(z) = x) CT 2: 1 . loP3; con il campionamento stratificato (k = 20 strati) a -. 0.3. 8.5. I1 risultato deve essere statisticamente compatibile con il valore I = 8. Con il metodo della media ed N = 1000 abbiamo ottenuto, ad esempio, I = 8.01f0.13. Con il metodo "vinci o perdi" e delimitando la funzione da integrare 1, 0 5 entro l'iper-parallelepipedo definito daIle condizioni -1 5 xl,zz, 2 3 y 3, abbiamo invece ottenuto (semprc con N = 1000) I = 7.89 f 0.36.
<
<
8.6. L'equazione ra presenta una ellisse con centro nell'origine e semiassi lungo x e y di valore 2 e 1 rispettivamente. I1 rettangolo che circoscrive l'ellisse ha un'area A = 4 4 . Occorre scrivere un codice che estragga a caso un punto entro il rettangolo e lo accetti se z2/2+ y2 1. I1 rapport0 tra i punti accettati Ns e quelli generati N fornisce l'area dell'ellisse con errore secondo le (8.35, e 100 000 punti abbiamo ottenuto un'area pari 8.36). Col programm a 4.433 f 0.007.
4
<
Generando 8.7. Le prove possono essere fatte con la nostra routine = 0.029 f 10000 variabili ed utilizzando le ultime 5000 abbiamo ott 0.018, s = 0.875 f 0.010 con a = 2 e m = 0.017 f 0.024, s = 1.002 f 0.016 con a = 3. Si vede che con a = 3 l'errore aumenta, ma la stima distorta di a viene corretta. I risultati non cambiano sostanzialmente con a > 3, necessarie sequenze pi3 lunghe per stabilizzare il risultato. I1 valore sembra ottimale. Con 5000 variabili standard ottenute con la routine abbiamo ottenuto m = 0.023 f0.014, s = 0.994 f 0.010, che & un risul accurato di quello otenuto con Metropolis con a = 3. 8.8. Con riferimento alla figura, si deve scrivere un codice che estrae il punto di emissione con le formule x = -2 4[, y = -3 66 e la direzione di volo come cos0 = 1 - 2(, 4 = 2n(. Si h a poi a = htg0, r = R = Jr2 a 2 - 2racos 4. Se R k minore del raggio della finestra R d , la particella b contata dal rivelatore.. Se n B il numero di particelle contate su N generate, l'efficienza B data da E: = n / N f dn(l - n / N ) / h r . Con i dati del problema e la nostra routin bbiamo ottenuto E = 0.059 f 0.002.
+
+
8.9. Una possibile soluzione B la nostra routin uniformemente in -T 5 x 5 n. I valori di c sono i
+
d m ,
che campiona erminale.
8.10. La soluzione dipende dalla valutazione soggettiva del tracciato. I1 lettore dovrebbe essere in grado di verificare che, per n troppo elevato, l'algoritmo non b affidabile nel predire il numero atteso di atomi con spin 1.
Appendice C. Soluzioni dei problemi
471
Capitolo 9. 9.1. La probabilitd di estrarre una biglia nera vale 113 o 213. Dalla densita binomiale si ottiene la tabella:
La stima ML di p vale pertanto: 6 = 1/3 se 0 5 x L: 1, p = 2/3 se 3 5 x 5 4. Se x = 2 la funzione di verosimiglianza (densit5 binomiale) non ha massimo, pertanto lo stimatore ML non B definito in questo caso.
9.3. 2, B tale che J!;
p(z; fi, 5)d z = a , dal teorema 9.2.
9.5. a) Dalla (1.32) di pag. 25 risulta P ( x ; N) = A(x)[(N-n)!I2/[~!(N-2n+ x)!], dove A(%)contiene fattori indipendenti da N. Dato che P ( x ; N) L(N), lo studio della funzione per valori discreti di N mostra che L(N $. 1) 2 L ( N ) finch6 N 5 n2/x - 1. I1 massimo di L(N) si ha quindi per N = 1+int (n2/x - 1), dove int & la p a t e intera dell'argomento. Dai dati si ottiene k = 609. b) Utilizzando l'approssimazione di Stirling e la (3.21) di pag. 73, si ottiene dL/dN = -dIn L(N)/dN = I ~ [ N ( N - ~ ~ + x ) / ( N - ~ dacui ) ~ ] , N = n2/x = 608. Dato che N B una variabile discreta, il limite di Cram&-Rao non B utilizzabile. Anche con l'approssimazione di Stirling, supponendo N variabile continua, la (9.29) B di difficile applicazione. Si pub sirnulare il processo, generando da N = 600 una serie di valori z e studiando l'istogramma degli N stimati. Ripetendo per 5000 volte l'esperimento, si ottiene un istogramma asimmetrico (con una lunga coda a destra) di parametri rn = 618 i 1, s = 80.0 m 0.8. I1 valore massimo 6 ad fi = 600. Nell'intervallo 608 i 80 B contenuto il 72% dei valori. Una stima ragionevole B pertanto: N E 608 & 80, CL = 72%. Dato che x ha densitk binomiale, in approssimazione gaussiana (x > 10, n-x > 10) si pub anche usare la (5.57) di pag. 161, che dB il risultato: Varlfi] = Var[n2/z] 2. (n4/z3)[(1 x/n) (212) (1 - ~ / n ) ~(si ] noti che il secondo termine 6 trascurabile). Si ottiene N E 608 i 88, in buon accordo con la simulazione.
+
9.6. La funzione di verosimiglianza di due prove vale L = p x 1 + x 2 (1 p)2-(xl+xz) = L (p;S). S B sufficiente, P non lo B. Infatti, p pub essere stimato solo dalla somma dei successi, non dal prodotto.
9.7. Tralasciando i fattori costanti, 1nL = -(n/2)[lnc2
+ s2/a2], dove
a2E s2 = w/n (la media k nota). Si noti che (s2)= cr2 e che w B una statistica
sufficiente. Calcolando la derivata prima e seconda di In L si trova che l'informazione attesa vale nI(6) = n/(2u4). Applicando i metodi a) e b) suggeriti, da [I ln L J / ~5 ]t,J e [Is2 - u 2 ) / t , ) , dove t, 6 il quantile, si trova lo stesso risultato, identico alla 6.57 dl pagina 198.
J(T<1
472
Appendice C. Soluzioni dei problemi
xi
9.8. Se w = xf ed n = 6, il logaritmo della verosimiglianza che si ottiene dalIa gaussiana con media nulla vale ln ~ ( a ' w) ; = -(n/2) l n a 2 - w/(202). I1 massimo si ha per 8' = w/n = 39.016 = 6.5, che rappresenta la stima ML di a 2 . Per applicare la (9.45) occorre ridefinire L, in mod0 che A[ln ~ ( 8 ' ;x)] = 0. Si ha pertanto: A[ln L(u'; w)] = +(n/2) [ln a2+ w/(na2) - (n/Z)[ln(w/n) 11. I1 valore C L = 95.4% si ha quando 2 ~ [ l L(u'; n x)] = 4. Lo studio numeric0 della funzione fornisce i valori: a2 E [2.5,27.1] = 6.5r:0.6. Dato che la media & supposta nota, nella (6.66) i gradi di liberta di XL sono 6. Interpolando da t a b (D.3) si ottengono i valori: Xi0.023(6)= 2.46 e X&0.977(6)= 0.20. L'intervallo di confidenza con C L = 95.4% vale: a2 E [2.6,32.6]. Questa stima b migliore della precedente, che vale solo asintoticamente. I dati dell'esercizio sono stati estratti da una gaussiana con a2= 9
+
9.9. I due metodi forniscono numericamente lo stesso risultato: a2 E [8.0,14.0]. Anche questi dati sono stati estratti d a una gaussiana con a2 = 9. 9.10. La stima per intervallo delle due medie vale: p l E 2.08&0.016 cm, p2 E 2.O5f 0.011 cm. Le medie sono compatibili, perch&il test della differenza (6.96) dB un valore standard t = 1.58. La stima ML & la media pesata: ji = 2.0596. La stima per intervallo i: data dalla (9.69): p E 2.0596 f0.0091. 9.11. Se la variabile aleatoria X rappresenta il numero di campioni negativi su un numero di N carnpioni esaminati fissato a priori, la funzione di verosimiglianza 6 binomiale: L(p; x) = N!/[x!(N - x)!] [exp(-p)]" [l- e ~ ~ ( - - p ) ] ~ - " , dove exp(-p) & la probabilith poissoniana di non osservare eventi quando la media b p. La stima ML di p fornisce exp(-ji) = x l N , d a cui ji = 1n(N/x) = ln(50/5) = 2.3. Si confronti il risultato con la Tab. 6.2 di pag. 192 e con le (6.37). 9.12. Occorre raggruppare gli ultimi 3 canali per avere n(t) 2 5 : 10 tempi tra 14 e 20 secondi. I valori di probabilitii attesi entro ogni canale At = (ti, tz) sono dati d a pi(0) pi(X) = J,, e(t) dt = exp(-Xtl) - exp(-Xt2). Utilizzando la (9.57) ed un pro rarnma di fit non lineare si ottiene: X E O.337f 0.011, X g = 9.5517 = 1.36. I1 x Bva diviso per 7 gradi di liberta: 8 canali meno un parametro stimato (A). I1 livello SL osservato 6 E 24%, interpolando dalla Tab. D.3. Utilizzando la (9.59) si ottiene invece: X E 0.339 f0.011, = 10.3217 = 1.47, S L -. 19%. I dati sono stati campionati dalla densita esponenziale con X = 113.
=
9.13. Livello del test: a = P{X = 1; Ho) = 1-P{X=O;H~)=P{X=l,H~)=l-E.
E.
Potenza del test: 1 -
+
=
+
9.14. Livello del test: a = P{X1 = 1,Xz = 1; Ho) (1/2)P{X1 Xa = 1;Ho} = E. Potenza del test: 1-/3 = 1- P I X I = 0, X2 = 0; H i ) - (1/2)P{X1+ Xz = 1;Hi) = 1- E. I1 risultato & identico a1 test con una sola prova. Tuttavia, conviene effettuare due prove se & possibile, perch6 nei casi estremi il livello di significativita osservato e la corrispondente potenza assumono valori pih favorevoli. Ad esempio: a = P{X1 = 1,X2 = 1; Ho) = c2, 1- P = 1- P I X 1 = O,XI = o ; H I ) = 1-e2. 9.15. Dato che p = (0.050 - 0.029)/0.057 - 0.029) = 0.750, se S = 16 si estrae un numero 0 5 random 5 1 e si accetta l'ipotesi se 0.75 5 random 5 1. In pratica si accetta un lotto su 4.
473
Appendice C. Soluzioni dei problemi
9.16. I livelli del test richiesti sono a = 0.01 e P = 0.05. a) Se Xo = 1/100, XI = 1/110 e t, = (C;" t,)/n B la media dei tempi osservati, dalle equazioni (t, - 100)/(100/&) = 2.326 e (t, - 110)/(110/J;ii) = -1.645 si ricavano i valori n = 1710 e t, = 105.6. Occorre quindi sacrificare un carnpione di ben 1710 sospensioni, calcolare la media dei tempi di guasto e accettare la dichiarazione del fornitore se la media supera 105.6 ore. b) Dal rapporto Lo/L1 = [Xo exp(-Xotn)]/[X1 exp(-Xlt,)] ed utilizzando i logaritmi si pub scrivere l'intervallo di indecisione (9.98) come -4.55/n ln(Xo/Xl) < (XI - Xo)t, < 2.98/n - ln(Xo/Xl). Si sceglie HI (Ho) quando la condizione non 6 soddisfatta a sinistra (destra). La simulazione mostra che, se le sospensioni sono effettivamente migliori, basta in media un campione di n E 934 f 6 sospensioni e una media osservata di t , E 112.7 f 0.1 ore per confermare l'affermazione del costruttore. Se le nuove sospensioni sono come le vecchie, per la decisione giusta basta in media un campione di n = 670 sospensioni e una media di t, € 97.1 & 0.1 ore. Attenzione: questi sono valori medi e pub capitare, con un solo test, di superare il valore n = 1710 ottenuto in precedenza con il campione di dimensione fissa e I'approssimazione normale. La regione di indecisione i: compresa, nel piano (n, t,), tra due iperboli. Vi consigliamo di esaminare con attenzione gli istogrammi simulati! Sembrerebbe conveniente iniziare col test sequenziale e utilizzare il metodo a) quando il numero dei pezzi supera 1710. Tuttavia, questa procedura B scorretta, perch6 decidere il tip0 di test da usare dopo avere visto (in tutto o in parte) i dati altera i livelli di probabilita stabiliti a priori. I1 tip0 di test a) o b) va quindi deciso prima della prova. 9.17. La variabile Qx, = 2XlnTn, dove T, k la media di n tempi esponenziali, ha una distribuzione X2(2n . Si ha pertanto: 1 - P(X1) = 1 - P{Q 5 qx,), dove Q ha distribuzione x (2n). Dato che n B molto grande, si pub usare l'approssimazione normale e ricondursi a1 test sulla media: 1 - P(X1) = 1 @[(qiI - 2 n ) / ( 2 d 4 ] = 1-@[(tn - l / ~ ~ ) / ( l / ( ~ l f i ) ) l .
2
9.18. Si guardi la Fig. 9.6, supponendo che alle ipotesi Ho : p = 0.5 e HI : p = 0.3 corrispondano densita gaussiane. Dato che dalla Tab. D.l risulta P{t 5 -(0.5 - a ) = -0.4) = -1.28, P{t 2 (0.5 - P ) = 0.4) = +1.28 ed il test B a una coda, valgono i limiti: ( x - 0 . 5 n ) / d m 5 = -1.28 e ~ & ox~ /.-()Z~T? =
1.28. Le equazioni forniscono i valori, arrotondati agli interi, x = 15 e n = 38. Occorre un campione di 38 elementi, se x 5 15 si accetta H I , altrimenti si accetta Ho. 9.19. I1 rapporto (9.87) vale: R = Lo/L1 = (0.5" . 0.5"-")/(0.3" . 0.7"-"). Dalle (9.92, 9.94), dato che (1 - a ) / P = 9 e a / ( l - P ) = 119, passando ai logaritmi si ottiene il risultato seguente: si accetta p = 0.5 se x 2 0.397n+2.593, si scglie p = 0.3 se x 5 0.397n - 2.593. La fascia di piano compresa tra queste due rette B la regione di incertezza. Con un codice di simulazione che ha ripetuto per 10 000 volte il test, con una moneta non truccata ( p = 0.5), si B ottenuto un istogramma dei valori di n di tipo esponenziale, con i seguenti parametri: m E 23.3 f0.2, a E 17.3 f0.1. In 786 casi su 10 000 B stata scelta l'ipotesi sbagliata. I1 numero medio di tentativi (23) k minore di quello che risulta dal problema 9.18 (38). Tuttavia, in 1484 casi il test sequenziale simulato ha richiesto un numero di tentativi > 38.
9.20. Si trovafacilmente (X) = (Q+1)/(0+2), Var[X] = (Q+1)/[(Q+2)2(8$ 3)], e la funzione di ripartizione Fx(x) = xe+l. I1 rapporto di Neyman-Pearson n In[(l Qo)/(l el)])/ individua la miglior regione critica come {- In r, (81 - 00) 5 C i l n x i 5 0. Se Z = l n X , F,(z) = P{Z 5 z) = P{X 5 e " } =
+
+
+
474
Appendice C. Soluzioni dei problemi
+
e('+')". La densitk di Z 6 allora dF,/dz = p ~ ( z = ) (1 t B) exp[(l 0)z] e 0), Var[Ci In Xi] = n / ( l + 0)'. Dato che n = 100, quindi (CiIn Xi) = -n/(l possiamo usare l'approssimazione normale; per a! = 0.05, tl-,12 = 1.64 e, se 0 = 00 = 1, il rigetto dell'ipotesi nulla si ha per lnxi - (-n/2)]/(&/2) 2 1.64, cio6 xi 2 -41.8. Questo test su Inxi b di potenza massima per a = 0.05. Segue pure che r, = 3.49, ma questo valore non k necessario per il test, in approssimazione normale. La curva di potenza k 1- p = 1-@[(-41.8+ :/(I B l ) ) / ( f i / ( l +&))I, $1 > 00. Per n = 100 e 01 = 2 si ha 1- p = 0.996. E utile verificare che il test sulla somma C x c fornisce, in approssimazione normale, una potenza solo di poco inferiore, 1- ,b' = 0.989.
+
xi [xi
xi
+
Capitolo 10.
+
10.1. Dalla (5.65) e dall'ipotesi Cov[X, Z] = 0 otteniamo: a; = b2Var[X] Var[Z] 2b Cov[X, Z] = b2Var[X] + Var[Z] . Definendo AX = X - p, e AY = Y - p,, dalla (5.83) possiamo calcolare anche la covarianza tra le variabili come nell'esercizio 4.3: Cov[X, Y] = (AX AY) = b (A2X) = bu;. Otteniamo pertanto il risultato: p = fu[f (X)]/a[Y] = ba,/u, = bu;la, a, = ax,l(o;, 0,).
+
10.2. DalIa relazione s, = 0 . 1 0 x l m (e analogamente per y) e utilizzando la formula della va,rianza effettiva per il calcolo di s ~si ,ottiene la tabella:
La minimizzazione della (10.101), dove f (x; a , b) = a+bx e la varianza effettiva a1 denominatore vale s i b2s& fornisce i valori a E -0.13 & 1.15, b E 2.04 f 0.05. Con un fit lineare iterato due volte si ottiene invece: a E 0.23 f 1.12, b E 2.02 f 0.05. I dati sono stati generati con una simulazione artendo d a Y = 1 2X. Si ottiene anche X2(u)/u = 28.015 = 5.6. I1 test x Pnon k perb significativo, perch6 i dati non sono gaussiani.
+
+
10.3. Un fit non Iineare con la retta f (x;a, b) = a + bx e varianza effettiva s i b2s: fornisce i valori: a E -0.64 & 1.14, b = 2.10 i 0.05. Con un fit lineare iterato in due passi si ottiene: a E -0.62 f 1.12; b E 2.10 f0.05. I dati sono stati generati con una simulazione partendo d a Y = 1+ 2X. I1 test X2 i: significativo, perch5 i dati sono gaussiani. Si ottiene: X2(u)/u = 2.0515 = 0.41, corrispondente nella Tab. D.3 a SL 20% nella coda a sinistra, che qualifica la retta come un buon modello di relazione funzionale.
+
--
10.4. Le rette passanti per (xo, yo) devono soddisfare il vincolo yo = ai tbixo. Se ai e bi sono noti, si considera il piano duale, dove una retta b rappresentata d a un punto di coordinate (b, a), e si pub fare il fit dei punti (bi, ai) con una retta yo, determinando il vertice (xo, yo) con errore. Questo metodo a = (-xo)b b usato in fisica per determinare il vertice di tracce di particelIe nucleari nei rivelatori. Se le tracce sono curve, si pub procedere per passi, utilizzando tratti di rette tangenti alle tracce.
+
10.5. I dati sono stati ottenuti da una simulazione ponendo Y = 5 YR, dove ~ [ Y B= ] 0.5.
+ 0 . 8 ~ +'
10.6. X e Y hanno entrarnbe u = 0.5 e tra loro b stata simulata una correlazione f (X) = 5 X 0 . 2 ~ ~ .
+
475
Amendice C. Soluzioni dei wroblemi
10.7. L'errore o[Y]si stima come s(yi) = 0.10 . yi. Si ottengono in questo mod0 i valori:
Questi dati sono passati a1 codice di minimizzazione lineare che determina i coefficienti 8 e 6 della relazione funzionale y = 8 6% . I1 programma fornisce il risultato i & s(6) = 3.31 zt 1.08, 6 i s(6) = 2.26 0.24, r(8,6) = -0.845, X 2 = 3.66. Le stime LS sono compatibili con i valori veri a = 5 e b = 2, che sono quelli utilizzati per generare i dati artificiali con una simulazione. I1 X2 ridotto xg(3) = 1.22, corrisponde, in Tab. D.3, ad un live110 di significativith ad una coda di circa il 30%. La covarianza vale s(86) = r(8,6)s(8) s(6) = -0.845.1.08.0.24 = -0.22 . Verifichiamo il risultato del fit con una simulazione, attraverso il metodo descritto nel par. 7.10. Utilizzando le stime LS 8 e b e i dati sperimentali xi possiamo generare dati artificiali yi ed errori s(yi) secondo l'algoritmo: yi = (1 0.10 . ti) (8 6xi), s(yi) = 0.10 - yi, dove ( 5 estratto d a una gaussiana standard. Notate che la retta B calcolata coi valori stimati e che l'errore & sempre calcolato in mod0 approssimato in percentuale sui dati osservati, come nel caso di un esperimento reale. Ripetendo 20000 volte il fit si ottengono gli istogrammi di 8, 6, s(8), s(6) e di X2. Le larghezze degli istogrammi, permettono di verificare direttamente che gli errori s(6) e s(6) ottenuti dal fit coincidono entro 3 cifre decimali 'con le deviazioni standard degli istogrammi di 8 e 6 ottenuti con la simulazione. Le densith delle stime di a e b sono gaussiane praticamente perfette, come era lecito attendersi. Anche i 20 000 X2 si distribuiscono perfettamente come la densit&di X2 con tre gradi di libert8.
+
+
+
+
I
(~/m)~i
10.8. Per prima cosa & necessario valutare gli errori s(yi) = = 2(0.10/3.46)yi = 0.058yi e in mod0 analog0 s(xi) = 0 . 0 5 8 ~ Anche ~. in questo caso la stima B approssimata, perch4 i: ottenuta come percentuale dei valori osservati, non di quelli veri. Fornendo i valori xi, yi e la varianza effettiva s & = b2s2(xi)+ ~ ' ( ~ iad ) un codice di fit non lineare otteniamo: 8*s(8) = 5.07&0.78, 6dz s(6) = 2.17 f 0.19, r(h,6) = -0.841, X2 = 3.26. I1 X 2 ridotto x2/3 = 1.09 mostra un buon accord0 tra dati e modello. Le stime sono compatibili con i valori veri a = 5 e b = 2, che sono quelli utilizzati per generare i dati simulati. Come nell'esercizio precedente, ripetiamo ora il fit per 20 000 volte. Utilizzando i dati sperimentali xi e le stime LS dei parametri, possiamo generare dati artificiali xi, yied errori s(xi) e ~ ( ~secondo i ) l'algoritmo: y: = [1 0.10 (12ti)] (8 6xi), X: = xi 0.10 (1 - 2&) xi, ~ ( 2 : )= 0.058 xi, s(y:) = 0.058 y:. Ad ogni iterazione, si calcola la varianza s i e si esegue il fit. Dalla simulazione si vede che le deviaxioni standard degli istogrammi di a e b coincidono con i valori stimati col metodo LS, fatto che accresce la nostra fiducia negli algoritmi dei minimi quadrati, anche con dati non gaussiani. La simulazione ci mostra un fatto importante: gC scostamenti dal modello gaussiano sono piccoli. In definitiva, si commette un errore trascurabile applicando gli intervalli della legge 30 ai risultati della regressione.
+
+
+
Capitolo 11. 11.1. u[F]/F
N
+
d 0 . 0 4 ~ 0.05a = 0.064, pari al 6.4%.
11.2. Passando ai logaritmi si ha: t = -71n(I/Io) = 23 giorni. Propagando l'errore su I si ottiene: st = fTSI/I = f0.5 giorni.
476
Appendice C. Soluzioni dei problemi
11.3. Dato che il fenomeno k poissoniano, il valore del conteggio b una stima della varianza. Dalla legge di propagazione dell'errore il valore del fondo vale F = 620/10 = 62 conteggils e o[F] = a 1 1 0 = 2.5 conteggils. Allora (I - F) f o[I - F] 2: (157 - 62) f 4 5 7 3 620/100 = 95 f 13, conteggils, C L 68%. I1 rapporto segnale fondo vale "7 sigma": n, = 95/13 2: 7.3.
--
11.4. Con 4 valori si devono utilizzare i quantiIi di Student con 3 gradi di liberth; dalla Tab. D.2 (per una probabiliti, di 0.975) si deduce che l'errore statistic0 della media b 0.04/3.18 = 0.012. La precisione vale 0 . 0 1 2 4 -. 0.02. 11.5. L'errore percentuale di R si propaga su quello di V in misura doppia dell'errore percentuale di L. Occorre pertanto ottimizzare la misura di R. 11.6. Var[sen 01 -. (cos2 0) s:, da cui sen 0 = 0.50 f 0.03. Gli angoli vanno trasformati in radianti! 11.7. E immediato vedere che (1 - p 2 ) / N = ( ~ N + N - ) I N 3 .Se N b aleatorio e poissoniano, N* sono valori di variabili poissoniane indipendenti, s2(N+) = N* e quindi, dato che (dP/dN*) = f2 N ~ / N propagando ~, l'errore si ha s 2 ( p ) = ( ~ N + N - ) / N ~Se . N k fissato prima della misura, Nh sono valori di variabili binomiali correlate. Dato che N- = N - N+, si ha P = 2(N+/N) - 1, BP/dN+ = 2/N, s2(N+) = N+(1 - N+/N) e quindi s 2 ( p ) = 4(N+/N2)(1 N+/N) = ~ N + N - / N ~ In. conclusione, l'incertezza s ( P ) = vale per qualunque condizione sperimentale.
,
11.8. f (V) = 2.718 f 0.008, dove l'errore i: la deviazione standard. La distribuzione di f (V) k praticamente uniforme, come b facile verificare sia analiticamente sia con una simulazione. E lecito quindi scrivere: f (V) = 2.718 f 0.008 m / 2 = 2.718 i0.013, C L = 100%. 11.9. Dato che s2(E2) = ( O . O ~ ) ~ ( ~ E ~ / ~( ~ E oI o) ~ / -+) ~ ( ~ E ~ / ~ R I ) ~ + ( 1 0 0 / m ) ~( d ~ z l d ~ = 2 )(0.103)~, ~ si ha E2 = 5.00 & 0.10 V. La simulazione genera a caso valori di El, R1, R2 dalla distribuzione uniforme (ad es. R1 = 1000 (2 rndm - 1) 50) e fornisce l'istogramma di Ez. Appare una forma vicina a quella triangolare, con deviazione standard s = 0.103, coincidente con quella calcolata. Nell'intervallo m & s i:contenuto il 65% dei valori. I1 C L = 68% si raggiunge per s = 0.110. La misura diretta di E z i: in accordo col calcolo.
+
11.10. v = 2.00/5.35 = 0.3738 m/s. st = 0 . 0 5 / a = 0.011 s; sl = m. Dato che s: = v2[s?/l2 + s ? / t 2 ] = 6 . 2 1 0 - ~si ot0 . 0 0 2 / m = 5.8 tiene v = 0.3738 f 0.0008 m/s. L'errore b dominato dall'incertezza sui tempi. Dato che v k espressa come rapporto t r a i valori di una variabile uniforme ed una gaussiana, conviene verificare il C L con una simulazione. Appare un istogramma di forma gaussiana, di deviazione standard coincidente con quella calcolata. A1 risultato si pub quindi associare un GL -. 68%. 11.11. or
-. Jn -. 19 canali, per
le proprietk della convoluzione.
Appendice D. Tabelle
D . l lntegrale della densit5 gaussiana La densit& di probabilit&gaussiana g(x;p, a ) di media p e deviazione standard a segue l'espressione (vedere par. 3.4):
Quando x viene espressa in mod0 standard:
l'equazione precedente viene sostituita dalla densith gaussiana standard, discussa nel par. 3.6:
I valori della probabilith integrale:
di ottenere, in un campionamento casuale, un valore compreso nell'intervallo [0,t] sono riportati nella Tab. D.l per t compreso nell'intervallo [0.0,3.99] con incrementi di 0.01. Le prime due cifre di t si leggono nelle righe in grassetto a sinistra, la terza cifra nella colonna in grassetto in alto. I valori dell'integrale (D.4) si leggono all'incrocio delle righe con le colonne. Sfruttando la simmetria di E(t) attorno a1 valore t = 0 (vedere eq. 3.40) e servendosi di questa tavola, B possibile trovare l'area compresa in un intervallo qualsiasi. L'integrale della densith con sette cifre decimali pub anche essere ottenuto, per qualunque valore di t, con I'istruzione SCILAB 0.5
*
erf (t/sqrt(2))
478
Appendice D. Tabelle
dove a t 6 stato precedentememte assegnato il valore richiesto. I valori del quantile tl-,/2 si ottengono aggiungendo 0.5 ai valori della tabella e ricavando il corrispondente valore di t. Ad esempio, ad 1- tr = C L = 0.99% corrisponde 1 - 0112 = 0.995 e quindi t T 2.57, in corrispondenza del valore integrale 0.4949 Y 0.495.
D.2 Valori quantili della densita di Student La densit& di probabilitb della variabile T di Student con u gradi di libertb viene data dall'espressione ricavata nell'esercizio 5.5:
I valori quantili t p della variabile T corrispondenti ai differenti valori della probabilit& integrale:
di non superare un dato valore di t p sono riportati nella Tab. D.2 per differenti valori di v. L'ultima riga della tabella, dove v = oo,fornisce i valori quantili esatti della densith gaussiana. I valori quantili corrispondenti ad una probabilitA p per df gradi di liberth possono anche essere ottenuti, con sette cifre decimali, con l'istruzione SCILAB
D.3 lntegrale della densita
x2 ridotto
La densit& di probabilith della variabile Q ( v ) con v gradi di liberta segue l'espressione (3.65):
I valori della variabile Q R ( v ) = Q ( v ) / v corrispondenti ai differenti valori della probabilith integrale:
di superare un valore dato di X 2 ridotto sono riportati nella Tab. D.3 per valori di u compresi t r a 0 e 100. Quando u > 100, P , ( X 2 ) tende a diventare una gaussiana di parametri p = 1, a =
m.
Appendice D. Tabelle
479
I valori quantili corrispondenti ad una probabilitb p per df gradi di liberta possono anche essere ottenuti' con sette cifre decimali, con l'istruzione SCILAB
D.4 Valori quantili di
X2
non ridotto
La Tab. D.4, che riporta i valori quantili di x2 non ridotto tali che:
perrnette di effettuare il test x2in luogo della Tab. D.3. L'uso della Tab. D.3 di x2 ridotto corrispondente a certi livelli di significativitb k equivalente all'uso della Tab. D.4 dei valori quantili di X2 non ridotto. Dipende dai "gusti" del lettore o dal tip0 di problema la scelta dell'una o dell'altra. Quando v > 100, la densit2 x2(v) tende ad assumere una forrna gaussiana di parametri p = v ea=&. I valori quantili della tavola (D.4) sono pih indicati ad essere usati per calcolare il live110 di confidenza corrispondente a1 valore di AX2 dell'equazione: x2 = kin + Ax2 , (D.9) dove k il X2 calcolato con i valori veri (o stimati con il best fit) dei parametri della popolazione modello. In questo caso i gradi di libertb v rappresentano il numero di parametri presenti nel x2. Ad esempio, se il X2 ha dieci parametri liberi, I'ellissoide di concentrazione che ha per contorno AX2 2 16 contiene il 90% dei punti, ovvero comprende il 90% dell'iperspazio, corrispondente a CL = 0.90. I valori quantili corrispondenti ad una probabilitb p per df gradi di liberth possono anche essere ottenuti, con sette cifre decimali, con l'istruzione SCILAB
XLi,
0 . 5 Valori quantili della densita F La densitb di probabilitb della variabile F di Snedecor viene data dall'espressione ottenuta nell'esercizio 5.6:
'
480
Appendice D. Tabelle
La probabilith di ottenere un valore {F 5 Fa) in un campione casuale con y e v2 gradi di Iiberth viene data dall'integrale:
I valori di Fa corrispondenti ai livelli di significativith del 5% ( a = 0.95) e dell'l% ( a = 0.99) a destra della media sono rispettivamente riportati nelle Tabb. D.5 e D.6 per differenti valori di y e u2. I corrispondenti valori FI-, per la coda a sinistra della media possono essere ricavati dalla relazione (5.49):
I valori quantili corrispondenti ad una probabilith p per df 1 e df 2 gradi di liberth possono anche essere ottenuti, con sette cifre decimali, con l'istruzione SCILAB cdff ('F',dfl,df2,p,l-p)
Appendice D. Tabelle
Tabella D. 1. Integrale della densit& gaussiana g ( t ; 0 , l ) in funzione della variabile standard t
0
t
481
482
Appendice D. Tabelle
Tabella D.2. Valori quantili t p della variabile di Student per v gradi di liberta
Appendice
Tabella D .3. Valori della variabile X2/v aventi probabilitb P di essere superati in un campionamento
0
x2
D. Tabelle
483
484
Amendice D. Tabelle
per v gadi di liberth
Appendice D. Tabelle
Tabella D.5. Valori quantili a1 95% della variabile F(v1, v2) di Snedecor 0
F
485
486
Appendice D. Tabelle
Tabella D.6. Valori quantili a1 99% della variabile F(v1, vz) di Snedecor
Bibliografia
1. A. Azzalini. Inferenza Statistzca. Springer-Verlag Italia, Milano, 2001. 2. P. Baldi. Calcolo delle Probabilitii e Statistica. McGraw Hill Italia, Milano, 1998. 3. D. M. Bates and D. G. Watts. Nonlinear regression analysis and its applications. Wiley, New York, 1988. 4. E. Bee Dagum. Analisi delle serie storiche: modellistica, previsione e scomposizzone. Springer-Verlag Italia, Milano, 2002. 5. M. Berblinger and C. Schlier. Monte carlo integration with quasi-random numbers: some experience. Computer Physics Communications, 66:157166, 1991. 6. C. Bernardini. L'onesta degli scienziati. Sapere, 1/2:45-46, 1985. 7. C. S. Bertuglia and F. Vaio. Non linearitii, caos, complessitic. Bollati Boringhieri, 2003. 8. P.R. Bevington and D.K. Robinson. Data reduction and error analysis for the physical sciences. McGraw-Hill, New York, 1992. 9. V. Blobel. Unfolding methods in high-energy physics experiments. Technical Report DESY 84-118, DESY, Amburgo, 1984. 10. M. Boldrini. Statistica (Teoria e Metodi). A. Giuffrk, 1962. 11. P. Bratley, B.L. Fox, and L.E Schrage. A Guide to Simulation. Academic Press, New York, second edition, 1987. 12. W.A. Brown. L'effetto placebo. Le Scienze, 335:84-89, 1998. 13. S.T. Buckland. Monte carlo confidence intervals. Biometrzcs, 40:811-817, 1984. 14. B.D. Bunday. Basic Queueing Theoyy. Edward Arnold, London, 1986. 15. J. Carlson. A double blind test for astrology. Nature, 318:419-425,1985. 16. G. Casella and R.L. Berger. Statistical Inference. Wadsworth & Brook/Cole, Pacific Grove, 1990. 17. G.J. Chaitin. CasuditB e dimostrazione matematica. Le Scienze, 85:3035, settembre 1975. 18. W.G. Cochran. Sampling techniques. J.Wiley and Sons, New York, third edition, 1977. 19. A. Compagner. Definitions of randomness. American Journal of Physics, 59:700-705, 1991.
488
Bi bliografia
20. R.D. Cousins. Why isn't every physicist a bayesian? American Journal of Physics, 63:398-410, 1995. 21. D.R. Cox and W.C. Smith. Queues. Chapman and Hall, London, 1961. 22. H. Cramer. Mathematical Methods of Statistics. Princeton University Press, Princeton, 1951. 23. L. Daboni, P. Malesani, P. Manca, G. Ottaviani, F. Ricci, and G. Sommi. Ricerca Operativa. Zanichelli, Bologna, 1975. 24. G. D'Agostini. Bayesian reasoning in high-energy physics: Principles and applications. Technical Report CERN 99-03, CERN, Ginevra, 1999. 25. A.C. Davison and D.V. Hinkley. Bootstrap Methods and their Applications. Cambridge University Press, Cambridge, 1999. 26. F. Di Trocchio. Le Bugie della Scienza. Mondadori, Milano, 1995. 27. P. Diaconis and B. Efron. Statistica a1 calcolatore. Le Scienze, 179:116123, 1983. 28. W.T. Eadie, D. Drijard, F. James, M. Roos, and B. Sadoulet. Statistical Methods in experimental Physics. North Holland, Amsterdam, 1971. 29. B. Efron. Bootstrap methods: another look at the jackknife. The Annals of Statistics, 7:l-26, 1979. 30. B. Efron. The Jackknife, the Bootstrap and Other Resampling plans. SAM, Filadelfia, 1982. 31. B. Efron and R.J. Tibshirani. A n introduction to the bootstrap. Chapman and Hall, London, 1993. 32. R.D. Evans. The Atomic Nucleus. Mc Graw-Hill, New York, 1955. 33. G.J. Feldman and R.D. Cousins. A unified approach to the classic statistical analysis of small signals. Physical Review D, 57:5873-5889, 1998. 34. W. Feller. A n Introduction to Probability Theory and Its Applications, volume 1. John Wiley and Sons, New York, second edition, 1947. 35. A.M. Ferrenberg, D.P. Landau, and Y. Joanna Wong. Monte carlo simulation: hidden errors from "good" random numbers generators. Physical Review Letters, 69:3382-3384, 1992. 36. R.P. Feynman. Sta scherzando, Mr Feynman! Zanichelli, Bologna, 1992. 37. R.A. Fisher. Statistical Methods for Research Workers. Eighth, London, 1941. 38. G.S. Fishman. Monte Carlo. Concepts, Algorithms, and Applications. Springer-Verlag, New York, 1996. 39. International Organization for Standardization (ISO). Guide to the expression of uncertainty in measurement. Technical report, ISO, Ginevra, 1993. 40. P. Galeotti. Probabilitci e Statistica. Levrotto e Bella, Torino, 1984. 41. G.T. Gillies. The newtonian gravitational constant: recent mesurement and related studies. Reports on Progress in Physics, 60:151-225, 1997. 42. B.V Gnedenko. The Theory of Probability. Mir, Mosca, 1976.
..
Bibliografia
489
43. G.R. Grimmet and D.R. Stirzaker. Probability and Random Processes. Clarendon Press, Oxford, 1992. 44. J.M. Hammersley and D.C. Handscomb. Monte Carlo Methods. Chapman and Hall, London, 1964. 45. F. James. Monte carlo theory and practice. Reports on Progress in Physics, 43:1145-1189, 1980. 46. F. James. A review of pseudorandom number generators. Computer Physics Communications, 60:329-344, 1990. 47. F. James. Minuit reference manual. Technical Report CERN D506, CERN, Ginevra, 1992. 48. F. James, Lyons L., and Y. Perrin (editori). Atti del "Workshop on confidence limits". Technical Report CERN 2000-005, CERN, Ginevra, 2000. 49. K. Kacperski and A. Holyst. Phase transition and hysteresis in a cellular automata-based model of opinion formation. Journal of Statistical Physics, 84:168-189, 1996. 50. H. Kahn. Use of different monte carlo sampling techniques. In H A . Meyer, editor, Symposium on Monte Carlo Methods, pages 146-190. J.Wiley and Sons, New York, 1956. 51. M.H. Kalos and P. Whitlock. Monte Carlo Methods, volume One : Basics. J.Wiley and Sons, New York, 1986. 52. M. G. Kendall and A. Stuart. The Advanced Theory of Statistics, volume 11. Griffin, London, 1973. 53. B.W. Kernighan and D.M. Ritchie. Linguaggio C. Jackson Libri, Milano, 1989. 54. D.E. Knuth. The Art of Computer Programming, volume 2: Seminumerical Algorithms, chapter 2. Addison-Wesley, Reading, second edition, 1981. 55. J.R. Lamarsh. Nuclear Reactor Theory. Addison-Wesley, Reading (Mass.), 1966. 56. M. Lybanon. Comment on "least squares when both variables have uncertainties". American Journal of Physics, 52:276-278, 1984. 57. G Marsaglia, B. Narashimhan, and A. Zaman. A random number generator for pc's. Computer Physics Communications, 60:345-349,1990. 58. A.M. Mood, F.A. Graybill, and D.C. Boes. Introduzione alla Statistica. McGraw-Hill Italia, Milano, 1991. 59. B.J.T. Morgan. Elements of Simulations. Chapman and Hall, London, 1984. 60. G. Morpurgo. Introduzione alla Fisica delle Partzcelle. Zanichelli, Bologna, 1992. 61. J. Neyman. Outline of a theory of statistical estimation based on the classical theory of probability. Phil. Trans. Royal Society London, 236:333-380,1937.
,
490
Bibliografia
62. J. Orear. Least squares when both variables have uncertainties. American Journal of Physics, 50:912-916, 1982. 63. A. Papoulis. Probabilztb, Variabili Aleatorie e Processi Stocastici. Boringhieri, Torino, 1977. 64. P. Pedroni, A. Pievatolo, and A. Rotondi. Sito web del testo: http://www.springer.it/librilibro.asp?id=242. 2004. 65. L. Piccinato. Metodi per le decision2 statistiche. Springer-Verlag Italia, Milano, 1996. 66. W.H. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Wetterling. Numerical Recipes: The Art of Scientific Computing. Cambridge University Press, Cambridge, second edition, 1992. 67. R.D. Richmeyer and J. von Neumann. Statistical methods in neutron difision. In A.H. Taub, editor, John von Neumann collected works, volume V, pages 751-767. Pergamon Press, Oxford, 1963. 68. B. Ripley. Stochastic Simulation. J.Wiley and Sons, New York, 1986. 69. C. P. Robert and G. Casella. Monte Carlo statistical methods. Springer Verlag, New York, 1999. 70. S.B. Ross. Simulation. Academic Press, Londra, second edition, 1996. 71. R.Y. Rubinstein. Simulation and Monte Carlo Method. J.Wiley and Sons, New York, 1981. 72. D. Ruelle. Caso e caos. Boringhieri, Torino, 1987. 73. Consorzio SCILAB. http://www.scilab.org. 74. A. I?. Seber and C. J:. Wild. Nonlinear regression. Wiley, New York, 2003. 75. G.A.F. Seber and C.J. Wild. Nonlinear Regression. Wiley Interscience, New York, 1989. 76. M.R. Spiegel. Statistica. ETAS Libri, Milano, 1976. 77. I. Stewart. Dio gioca a dadi? Boringhieri, Torino, 1993. 78. R. Toral and A. Chakrabarti. Generation of gaussian distributed random numbers by using a numerical inversion method. Computer Physics Communications, 74:327-334, 1993. 79. Collaborazione UA1. Experimental observations of lepton pairs of invariant mass around 95 gev/c at the cern sps collider. Physics Letters B, 126:398410, 1983. 80. Collaborazione UA2. Evidence of z0 + e+e- at the cern collider. Physics Letters B, 129:130-140,1983. 81. J. Voit. The Statistical Mechanics of Financial Markets. Springer-Verlag, Berlin, second edition, 2003.
lndice analitico
accuratezza, 417, 420 classi di, 418 - tavola di, 418, 434 aleatorio - sistema o processo, 2 algebra-u, 13, 14 algoritmo - del rigetto elementare, 261, 265 - del rigetto ottimizzato, 262, 265 - del rigetto pesato, 264, 266 - della trasf. inversa, 256 - di Box e Muller, 268 - di generazione, 253 - di generazione gaussiana, 270 - di generazione poissoniana, 272 - di Metropolis, 306 - di ricerca lineare, 267 approccio - bayesiano, 12, 31 - frequentista, 12, 176 astrologia, 108 -
batch means, metodo delle, 297, 307 Bernoulli, J., 6, vedi distribuzione di best fit, 323, 376 bias, 196, 238, 331 bin, 42 Boltzmann, H. - costante di, 96 - distribuzione di, 96 - equazione di, 286 bootstrap - bzus, 282 - non parametrico, 280 - parametrico, 278, 429, 431 Buffon, conte di, 247 campionamento con reimmissione, 208 - definizione di, 9 - per importanza, 316 -
stratificato, 316 tecniche di, 183 campione - analisi del, 217 - definizione di, 9, 61 caos, 2 caotico, fenomeno, 2 carta di controllo, 207 catene di Markov, 305 centro di massa, 288 coefficiente ' - R~ corretto, 402 - di determinazione, 401 - di variazione, 163 combinazioni, 24 confidenza - fascia di, 174 - intervallo di, 175 convergenza - in legge, 63 - in probabilit8, 63 - quasi certa, 63 convoluzione, 150, 446 copertura, 175 correlazione, 119, 377 - coefficiente di, 120, 134, 167, 238, 244, 280, 379 - definizione di, 120 - funzione di, 378 - lineare, 380 - ricerca della, 401 correlazione multipla - coefficiente di, 402 correzione di Sheppard, 438 coseni direttori, 289 covarianza, 113, 116, 119, 162, 222 - campionaria, 238, 239 - tra parametri LS, 383 coverage, 175 Curtiss, L.F., 440 -
-
492
lndice analitico
curva di regressione (o di best fit), 376, 395 dati epidemiologici, 29 decile, 41 densitii, vedi distribuzione - condizionata, 113 - congiunta, 112 - definizione di, 45, 51 - gaussiana bivariata, 137 - gaussiana condizionata, 129 - gaussiana standard, 78, 477 - marginale, 113 - stabile, 153 determinazione, coefficiente di, 401 devianza - totale, 401 deviazione standard - definizione di, 53, 55 - stima della, 197 diagnosi automatica, 31 diffusione - di neutroni, 286 - di particelle, 285 - elastics, 287 - lunghezza di, 292 disposizioni, 24 distribuzione, 37 - NP, a2),80 - X2,90, 197, 478 - binomiale o di Bernoulli, 46, 67, 105, 219, 326 - campionaria, 211 - del coefficiente di correlazione, 240 - di Boltzmann, 96 - di Cauchy, 469 - di Erlang, vedi esponenziale negativa - di Maxwell, 95 - di Rayleigh, 138 - di Snedecor, 157, 216, 397, 479 - di Student, 155, 200, 478 - di von Mises, 322 - di Weibull, 88 - esponenziale negativa, 85 - gamma, 88, 147, 466 - gaussiana bivariata, 123, 137, 269 - gaussiana multivariata, 135, 141 - gaussiana o di Gauss, 72 - geometrica, 69, 86 - logaritmica, 427, 467 - logonormale, 465 - multinomiale, 140, 169, 219 - normale, vedi gaussiana
poissoniana o di Poisson, 70, 84, 364, 440 - semi-gaussiana, 284 - studio Monte Carlo di una, 273 - triangolare, 152, 417, 425 - uniforme, 96, 433 disuguaglianza - di Cauchy-Schwarz, 119, 337 - di Tchebychev, 100, 203 -
effetto di trascinamento, 456 - farfalla, 4 - placebo, 452 efficienza - di generazione, 262 - di simulazione, 314 ellissi di concentrazione, 126, 136 energia delle molecole, 95 equazione - del bilancio dettagliato, 305 - del trasporto, 286 - di Boltzmann, 286 errore - barra di, 225, 376, 443 - casuale, vedi statistico - cifre significative dell', 180 - di I tipo, 210, 227, 357, 366, 453 - di I1 tipo, 211, 358, 364, 366 - di misura, 435 - di parallasse, 419 - massimo, 433 - percentuale, 426 - propagazione dell', 277, 422 - riaggiustamento dell', 405 - simulazione dell', 429, 432 - sistematico, 417, 418 - statistico, 171, 419, 432 - strumentale, vedi sistematico - sulla polarizzazione, 457 esperimenti indipendenti, 22 esperimento - definizione di, 9 - delle monete, 42, 50, 60, 69, 76, 228, 250, 256, 350 - di Millikan, 449 estrapolazione, 400 eteroschedasticitii, 395 eventi - incompatibili, 20 - indipendenti, 19 evento, definizione di, 8 -
falsificazione, 453
lndice analitico
falso allarme, 207 fascia di confidenza, 174 fattore di distorsione, 196 Feigenbaum, M., 3 fenomeni - di attesa, 293 stocastici, 84 Fermat, P., 6 Fermi, E., 248 Feynman, R., 451 Fisher, R.A., 325 trasformazione di, 241 fluttuazione statistica, 49, 103, 211, 220, 406 formula della media pesata, 353 di partizione dell'evento certo, 26 - di Stirling, 72 frequenza, 43, 180 - analisi della, 236 cumulativa, 43 - di arrivo, 87 - di decadimento, 441 di emissione, 84 - di una malattia, 233 - in un canale, 142 - limite della, 13 - misurata, 182, 194, 229 - osservata, 327 - sperimentale, 53 - test della, 232 - test di confronto, 213 funzione - cumulativa, 40, 80, 87 - degli errori, 80 - dell'apparato, 445 - di potenza, 365 - di ripartizione, vedi funz. cumulativa - di variabile aleatoria, 39 - d l verosimiglianza, 325 - generatrice (Mgf), 461 - test, 362 -
-
-
-
-
Galilei, G., 413 Gauss, K., vedi distribuzione di gradi di liberth, 196, 235, 347 grandezza - costante, 415 - vaxiabile, 415 incertezza, 415, vedi errore sistematica. 415 - statistica, 171 -
493
indice di rifrazione, 278 indipendenza - di eventi, 19 - di variabili, 39, 112, 113 - di variabili gaussiane, 126 - e correlazione, 120 - stocastica, 39 inferenza statistica, 9 informazione, 335 integrale - con metodo "vinci o perdi", 312 - con metodo della media (o grezzo), 313 - di convoluzione, 150, 446 - di folding, 445 - multidimensionale, 320 interpolazione - lineare, 267 intervallo - di probabiliti , 103 - di confidenza, 173, 276 - di sensibilitk, 416 ipotesi . - alternativa, 357 - composte, 365 - nulla, 105, 210, 357 - semplice, 365 Ising, modello di, 308 isotropia, 258 istogramma, 42 - best fit di un, 347 - canale dell', 42, 44, 219 - delle frequenze, 43 - delle frequenze cumulative, 44 - normalizzato, 43 Kolmogorov - probabilitk di, 13, 15 - disuguaglianza di, 64, 203
Laplace, P.S., 6, 373 Legendre, A., 373 legge, 37, 45 - 3-sigma (3a), 78, 100, 138, 182, 225, 432, 451 - dei grandi numeri, 13, 203 - di propagazione degli errori, 422 - empirica del caso, 13 - esponenziale negativa, 85 - ipergeometrica, 24 - logistics, 3 limite - di CramCr-Rao, 342
494
lndice analitico
- frequentista, 12, 62
- in probabilitb, 63
inferiore (stima del), 176 poissoniano, 191 quasi certo, 63 superiore (stima del), 176 live110 - del test, 210, 357 - di significativiti, 405 - di probabilitlt , 78, 136 - di confidenza. 173 -
definizione di, 9 del decadimento radioattivo, 440 del parametro di Michel, 456 del tempo di caduta, 429 - della carica, 449 - della vel. della luce, 436 errore di, 419 indiretta, 421 - operazioni di, 414 precisione della, 419 - tipi di, 433 momenti, 56, 196 Monte Carlo, metodo, 6, 98, 247 -
-
-
-
-
-
-
lotto di controllo, 363 mappa logistics, 3 Markov - catene di, 305 matrice - dei pesi, 391 - del trasporto, 164, 165, 168 - delle covarianze, 133, 164, 165, 168 - delle derivate seconde, 410 - di correlazione, 134, 168 - di curvatura, 411 - positiva definita, 134 media - campionaria, 53, 61, 205 - campionaria (popolazione finita), 208 - come operatore, 58 - condizionata, 115 - definizione di, 53, 55 - di distribuzioni, 57 - di istogrammi, 54 - pesata, 353, 436 - stima della, 193, 198 - stimatore della, 62, 65 metodo - "vinci o perdin, 312 - dei minimi quadrati, 347, 374 - del gradiente, 409 - della griglia, 277 - della massima verosimiglianza, 325 - dello scarto massimo, 321 - di best fit, 323 - Monte Carlo, 247 - scientifico, 452 Millikan, R., 448 minimi quadrati - generali, 388 - metodo dei, 374 - pesati, 390 misura
neutroni termici, 286 assorbimento dei, 287 difisione elastica dei, 287 Neyman, J., 176 normalizzazione, 43 -
omeopatia, 452 ortogonalizzazione, 389 p-value, 211; 227, 405, 468 pararnetri campionari, 53 - veri, 53 partizione dell'evento certo, 26 passeggiata a caso, 109 Pearson, K., 93 teorema di, 93, 136 percentile, 41, 157, 220 percezione extrasensoriale, 214 perimetro toracico, 244, 385 pivot, quantitb, 178 Poincarh, H., 2 Poisson, vedi distribuzione di - processo di, 84 polarizzazione misura della, 457 popolazione - definizione di, 9 - di un campione, 61 - tipi di, vedi densitlt, distribuzioni postulato di oggettivit8, 452 potenza del test, 357 - funzione di, 365 pranoterapia, 452 precisione, 420 predittore, 374 - non osservato, 406 osservato, 376 probabilita -
-
-
-
-
lndice analitico
- a priori, 12 - assiomatica, 13
composta, 17 condizionata, 18 - definizione di, 9 - frequentista, 12 - limite in, 63 - soggettiva, 11 - spazio di, 15 - stima della, 180, 184 - totali, 26 problema - dell'incontro, 34, 284 - di Monty, 33, 283 processo - di urto, 288 - stocastico, 288 processo di Poisson, 84 prova - definizione di, 9 - ripetuta, 20 -
-
quantile, 41, 158, 217, 359, 478, 479 quantita pivotale, 178, 182, 200 regione critica, 210, 357-359 regressione - curva dl,376 - lineare, 130 - multipla, 388 residui, 382, 395 - pesati, 395 resistenze elettriche, 205 retta - dei minimi quadrati stimata, 380 - di regressione, 130, 379 - di regressione, prevista, 384 ricerca - binaria, vedi dicotomica - dicotomica, 254 - operativa, 293 - sequenziale, 254 risoluzione, vedi sensibilita risultati elettorali, 182 routine - Asimm, 469 - Bayes, 32 - Bootcor, 280 - Bootcor20, 282 - Bootrif, 279 - Buffon, 469 - Chisq, 228, 237 - Conguf, 150
495
Corcov, 117, 123 Covardat, 134, 240 Dadi, 255 Detector, 470 Ellisse, 470 Gaussl, 469 Gauss2, 270 Gaussfit, 350 Gridrif, 279 HistSd, 131 Histfreqe, 44, 255 Histplote, 44 - Linfit, 375, 388, 389, 391, 399, 403 - Logiplot, 4 - Logist, 4 - Mcinteg, 314, 319, 321 - Mcintegl, 470 - MCmoneta, 249 - Metrop, 470 - Monetafit, 351 - Nlinfit, 350, 375, 407, 409, 411, 442 - Optasinc, 303, 304 - Optsinc, 298 - per la simulazione sincrona, 299 - Poiss, 272 - Pol2fit, 412 - PolSfit, 403 - Pol4fit, 399 - Prodxy, 427 - Rettamq, 412 - Rifraz, 274 - Scarti, 469 - Sequen, 370 - Sigdel, 426 - Simpoiss, 272 - Stasys, 425 - Stimvs, 203, 205 - Stiprob, 185 - Tabcont, 236 - TestZv, 217 - Vonmises, 470 routine SCILAB - binomial, 48 - cdfbin, 77, 185 - cdfchi, 94, 479 - cdff, 158, 217, 480 - cdfpoi, 107, 192 - cdft, 155, 478 - convol, 150 - correl, 244 - covar, 117, 244 - dsearch, 254 - erf, 80, 477 -
496
lndice analitico
- grand, 248, 268, 322 -
-
-
histplote, 44 mean, 57 meanf, 57 nand2med, 216 rand, 248 sum, 237 variance, 57 variancef, 57 xbasc, 45
scarto, 54 scarto quadratic0 medio, vedz deviazione standard scienza esatta, 414 SCILAB, 35 score function, 335 sensibilitb, 416 - intervallo di, 416 sezione d'urto macroscopica, 287 Sheppard, correzione di, 438 simulazione - asincrona, 294 - discreta, 294 - sincrona, 294 somme aleatorie, 292 spazio - campionario, 8 - di probabilitb, 15 speranza matematica, vedz valore atteso spettro - continuo, 39 - definizione di, 8, 40 - discreto, 39 statistics - definizione di, 62 - sufficiente, 331 statistiche congiuntamente sufficienti, 332 statura, 244 stima, 62 - per intervalli, 342 stimatore, 62, 65, 172 - asintoticamente corretto, 196 - BAN, 342 - consistente, 330 - corretto, 66, 331 - della media, 65 - della varianza, 65 - distorto, 195 - non ammissibile, 337 - pih efficiente, 331 stocastico
sistema o processo, 2 stocastico, caso o fenomeno, 1 strumento - accuratezza di uno, 417 - analogico, 417 digitale, 416 - sensibilitb di uno, 416 -
-
tabella di contingenza, 232, 234 Tchebychev, P.L., disuguaglianza di, 100 tempo di arrivo, 85 - di caduta, 429 morto, 85, 441 teorema - della z di Fisher, 240 della media, 219 - della somma di Pearson, 141 - delle probabilit& composte, 18 di additivitb, 16 di additivitb del X 2 ,94 - di Bayes, .25, 27, 30 - di Cauchy-Schwarz, 119 di Cram&-Rao, 336 - di DeMoivre-Laplace, 74 di efficienza, 339 - di fattorizzazione, 332 di Gauss-Markov, 393 di indipendenza stocastica, 90 di indipendenza tra media e varianza, 198 di Leibnitz, 145 - di Neyman-Pearson, 359 di normalitb asintotica, 342 di Pearson, 93, 226 - Limite Centrale, 82, 153 sul cambiamento di variabile, 148 - sul campione di Metropolis, 306 sull'indipendenza di variabili, 114, 126 - sulla varianza campionaria, 199 sulle forme quadratiche, 136 - sulle funzioni di parametri, 333 - sulle statistiche sufficienti, 333 - sulle stime corrette, 392 sulle variabili cumulative, 97 test X 2 ,127, 142, 225, 226, 230, 232, 235 - a doppio cieco, 452 - a due code, 106, 211, 227, 405 a una coda, 106, 211, 227, 405 - della differenza, 212, 442 -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
lndice analitico
-
-
-
-
delle cinghie, 237 delle resistenze, 205 di X2,349 di Neyman-Pearson, 359 diagnostici, 27 F di Snedecor, 217 non parametrici, 231 pih potente, 362 potenza del, 357, 359 randomizzato, 212, 363 sequenziale, 368 sui vaccini, 233 uniformemente pih potente, 365
Ulam, S., 248 valore atteso, 26, 50, 59, 68, 182, 221, 251 - campionario, 53 - sperimentale, 171 - vero, 53, 171 variabile - N ( p , a 2 ) ,80 Z di Fisher, 240 - 6, 249 x2 ridotto, 201 - aleatoria, 5, 36 casuale, vedi v. aleatoria - continua, 40, 49 cumulativa, 98, 253 - di Student, 154 differenza, 212 discreta, 40 - F di Snedecor, 156, 397 - indicatrice, 38 - poissoniana, 221 prodotto, 163, 426 standard, 79, 213, 451 - uniforme, 98, 256 variabili indipendenti, 39, 112, 113 stocasticamente indipendenti, 39 - vincolate, 136 varianza analisi della, 401 - campionaria, 53, 62 - definizione di, 53, 55 - del prodotto, 163 - della media, 193 - della media (popolazione finita), 209 - di distribuzioni. 57 - di istogrammi. 54 -
-
-
-
-
-
-
-
-
-
-
497
- nel campionamento per importanza,
316 - nel campionamento stratificato, 317 - percentuale o relativa, 163, 426 - stima della, 194, 198
stimatore della, 61, 65 verifica - di ipotesi, 9 - di piti ipotesi, 356 - di una ipotesi, 210 verosimiglianza - funzione di, 325 - logaritmo della, 325 - massima, 325 - rapport0 di, 359 vertice, determinazione del, 412 von Mises - distribuzione di, 322 - probabilitb di, 1 2 Von Neumann, J., 248, 263 -
Unitext - Collana di statistica
Adelchi Azzalini Francesco Battaglia Michele Cifarelli Klaus Haagen Ludovico Piccinato Elvezio Ronchetti
Volumi pubblicati C. Rossi, G. Serio La metodologia statistica nelle applicazioni biomediche 1990,354 pp, ISBN 3-540-52797-4
L. Piccinato Metodi per le decisioni statistiche 1996,492 pp, ISBN 3-540-75027-4 A. Azzalini Inferenza statistica: una presentazione basata sul concetto di verosimiglianza 2a edizione 2000,382 pp, ISBN 88-470-0130-7
E. Bee Dagum Analisi delle serie storiche: modellistica, previsione e scomposizione 2002,312 pp, ISBN 88-470-0146-3
B. Luderer, V. Nollau, K. Vetters
er le scienze economiche 2003,222 pp, ISBN 88-470-0224-9
2004,242 pp, ISBN 88-470-0272-9
edroni, A. Pievatolo ilit$ statistics e simulazione 2a edizione N 88-470-0262-1 ,ISBN 88-470-0081-5)