Neven Elezovi´c VJEROJATNOST I STATISTIKA 3. Matematiˇcka statistika Stohastiˇcki procesi
ISBN 953-197-542-6
Neve...
213 downloads
1424 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Neven Elezovi´c VJEROJATNOST I STATISTIKA 3. Matematiˇcka statistika Stohastiˇcki procesi
ISBN 953-197-542-6
Neven Elezovi´c Redoviti profesor Fakulteta elektrotehnike i raˇcunarstva Zavod za primijenjenu matematiku
VJEROJATNOST I STATISTIKA Matematiˇcka statistika Stohastiˇcki procesi
0. izdanje
Zagreb, 2007
c Prof. dr. sc. Neven Elezovi´c, 2007.
Urednik Sandra Graˇcan, dipl. inˇz.
Nakladnik Element, Zagreb
Dizajn ovitka Edo Kadi´c
Tisak Element, Zagreb
Nijedan dio ove knjige ne smije se preslikavati niti umnaˇzati na bilo koji naˇcin, bez pismenog dopuˇstenja nakladnika
ˇ SADRZAJ
10. Matematiˇcka statistike . . . . . . . . . . 10.1. Toˇckaste procjene parametara . 10.2. Kriterij najve´ce izglednosti . . . Zadatci za vjeˇzbu . . . . . . . . . .
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
. . . .
1 1 12 20
11. Intervalne procjene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Intervali povjerenja . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Intervalne procjene za parametre normalne razdiobe . . 11.3. Intervalne procjene za razdiobe razliˇcite od normalne . Zadatci za vjeˇzbu . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. .. .. .. ..
.. .. .. .. ..
.. .. .. .. ..
. . . . .
21 21 24 36 42
12. Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . 12.1. Hipoteze. Kriteriji i pogreˇske odluˇcivanja . 12.2. Testiranje parametarskih hipoteza . . . . . . . 12.3. Usporedbe dviju populacija . . . . . . . . . . . 12.4. Testovi prilagodbe razdiobama . . . . . . . . . Zadatci za vjeˇzbu . . . . . . . . . . . . . . . . . . .
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
. . . . . .
43 43 48 62 66 75
13. Stohastiˇcki procesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1. Stohastiˇcki procesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3. Markovljevi lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77 77 85
14. Poissonov proces . . . . . . . . . . . . . 14.1. Poissonov proces . . . . . . . . 14.2. Kolmogorovljeve jednadˇzbe 14.3. Procesi radanja i umiranja .
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
. . . .
. . . .
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. .. .. ..
.. .. .. ..
.. .. .. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
. 98 . 98 . 108 . 116
Odgovori i rjeˇsenja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Tablice
................................ Tablica normalne razdiobe, funkcija Φ∗ . . Kvantili hi-kvadrat razdiobe χp2 . . . . . . . . Kvantili Studentove razdiobe t1−α /2 . . . . Kvantili standardne normalne razdiobe up . Kvantili razdiobe Kolmogorova λ1−α . . .
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
. . . . . .
121 122 124 126 128 128
10.
Matematicˇ ka statistika
1. Toˇckaste procjene parametara . . . . . . . . . . . . . . . . . 1 2. Kriterij najve´ce izglednosti . . . . . . . . . . . . . . . . . . . 12 Zadatci za vjeˇzbu . . . . . . . . . . . . . . . . . . . . . . . . . 20
Novˇci´c je baˇcen stotinu puta, pri cˇemu se pismo pojavilo 40 puta. Je li naˇcin bacanja bio korektan? Ako se pri 100 bacanja kocke sˇ estica pojavi 10 puta, je li ta kocka ispravna? Pri ponavljanju identiˇcnog pokusa sluˇcajna varijabla poprimila je vrijednosti 6.1, 6.3, 6.4, 6.8, 7.2. Ako je njezina razdioba normalna, a parametri te razdiobe nepoznati, koji c´emo broj uzeti za oˇcekivanje a koji za disperziju te varijable? Sluˇcajna varijabla poprima vrijednosti unutar intervala [0, 1] . Biljeˇzenje rezultata dalo je podatke: 0.11, 0.14, 0.28, 0.44, 0.48, 0.68, 0.76. O razdiobi ove varijable nemamo nikakvu informaciju. S kojom sigurnoˇsc´u moˇzemo tvrditi da je rijeˇc o jednolikoj razdiobi? Na ova, i sliˇcna pitanja, odgovor daje matematiˇcka statistika.
10.1. Tocˇ kaste procjene parametara Uvod
Predmet svakog statistiˇckog prouˇcavanja jest neki (masovni) skup, kojeg nazivamo populacija ili generalni skup. Populaciju mogu cˇiniti na primjer • stanovnici drˇzave, op´cine, mjesta; • privredni potencijali drˇzave, regije, grada; • proizvodnja neke tvornice u jednom danu, mjesecu ili godini i sliˇcno. Podatak koji prouˇcavamo u danoj populaciji nazivamo obiljeˇzje. Kod iste populacije moˇzemo promatrati viˇse obiljeˇzja. Npr. ako je u pitanju stanovniˇstvo, moˇzemo se zanimati za, recimo • promjenu brojˇcanog stanja stanovniˇstva tijekom godina; • broj stanovnika prema starosnom dobu; • zaposlenost po vrstama zanimanja; 1
2
ˇ 10. MATEMATICKA STATISTIKA
• sˇ kolsku spremu i za stotinjak drugih podataka. Promatramo li proizvodnju, obiljeˇzja mogu biti • broj (koliˇcina) proizvedenih dobara u nekom vremenu; • proizvodnja po vrstama proizvoda; • profit; • broj (postotak) sˇ kartnih proizvoda u ukupnoj proizvodnji. Statistiˇcki se mogu pratiti i mnoge druge pojave. Tako na primjer, analiziraju se • meterooloˇske prilike, • uˇcestalost i vrsta bolesti, • ispitivanje kupovne mo´ci, trˇziˇsta i sliˇcno. U modelu matematiˇcke statistike, populacija cˇini skup Ω . Obiljeˇzje je opisano vrijednoˇsc´u sluˇcajne varijable X . Osnovni problem matematiˇcke statistike je u odredivanju razdiobe varijable X , ili pak nekih njezinih numeriˇckih karakteristika. Statistika se moˇze baviti prouˇcavanjem podataka koji toˇcno opisuju stanje u svakoj populaciji. Ti se podaci dobivaju uglavnom popisom, redovitim evidencijama i pra´cenjima. Tako na primjer, svake desete godine se organiziraju popisi cjelokupnog stanovniˇstva drˇzave. Analiziranjem i prikazivanjem takvih podataka bavi se tzv. deskriptivna statistika. Vrlo cˇesto je nemogu´ce (i nepotrebno!) statistiˇcki obraditi cˇitavu populaciju. Djelom zbog toga sˇ to je ona prevelika da bi se taj postupak mogao sprovesti ili da bi bio isplativ. Drugi mogu´ci razlog jest sˇ to se u nekim postupcima ispitivanja (recimo u kontroli kvalitete proizvodnje) u samom postupku ispitivanja uniˇstava taj element populacije. Zamislimo na primjer ispitivanje duljine zˇ ivota zˇ arulje! U tom sluˇcaju se prouˇcava samo jedan mali dio populacije koji nazivamo uzorak. Na osnovu tog uzorka, donosimo potom sud o cˇitavoj populaciji. Predmet matematiˇcke statistike jest statistiˇcka obrada uzorka: naˇcin odabira uzorka (da bi on dobro predstavljao cˇitavu populaciju) analiza obiljeˇzja u uzorku i procjena u kojoj su mjeri ti rezultati vjerodostojni za cˇitavu populaciju. Kako zakljuˇcci u ovom sluˇcaju ne mogu nikad biti apsolutno sigurni (oni se donose uvijek s nekim stupnjem vjerojatnosti), matematiˇcka statistika se izraˇzava i koristi metodama teorije vjerojatnosti. Primjer 10.1. Rezultati op´cih izbora postaju poznati (i sluˇzbeni) kad se zna za glas svakog biraˇca, tj. tek nakon sˇ to se obradi cˇitava populacija. Medutim, mnogo prije toga se rezultati mogu predvidjeti (s velikom dozom sigurnosti) na osnovu glasanja nekog dobro izabranog uzorka, koji moˇze biti po veliˇcini i 10 000 puta manji od cˇitave populacije! Primjer 10.2. Jedna proizvodna traka proizvodi otpornike. Dozvoljena granica sˇ karta je 2%. Kako c´ emo kontrolirati je li proizvodnja ispravna, t.j. je li postotak sˇ karta unutar tih granica? Bilo bi nerazumno, i skoro nemogu´ce za ovakav tip proizvoda, kontrolirati cˇitavu proizvodnju. Umjesto toga, uzimamo relativno maleni uzorak, odabran na pogodan naˇcin: recimo, svaki stoti proizvod. Ako je broj sˇ kartnih proizvoda u tom uzorku ve´ci od odredene granice, uz veliku dozu sigurnosti moˇzemo zakljuˇciti da je broj sˇ kartova u cˇitavoj populaciji ve´ci od 2%, tj. da je doˇslo do greˇsaka u proizvodnji koje treba ispraviti. Kolika je ta dozvoljena granica sˇ kartnih proizvoda u uzorku i kolika je sigurnost u naˇsem zakljuˇcku, to je predmet izuˇcavanja metematiˇcke statistike.
ˇ 10.1. TO CKASTE PROCJENE PARAMETARA
Populacija. Uzorak
Upoznajmo se s oznakama i temeljnim pojmovima matematiˇcke statistike. Sa X c´emo oznaˇciti sluˇcajnu varijablu koja c´e biti predmet prouˇcavanja. Nju c´emo zvati populacija. Njezinu funkciju distribucije oznaˇcavat c´emo sa F , funkciju gusto´ce (ako postoji) sa f , oˇcekivanje s a i disperziju sa σ 2 . U ovisnosti o problemu koji promatramo, neki parametri ϑ1 , ϑ2 ,. . . u ovoj razdiobi mogu biti nepoznati. Najˇceˇsc´i zadatak matematiˇcke statistike jest dati odgovaraju´cu procjenu za te parametre. Ta se procjena postiˇze na temelju poznatih realizacija x1 , x2 , . . . , xn sluˇcajne varijable X . Informacije o nepoznatoj razdiobi populacije X dobivamo samo na temelju realizacija te sluˇcajne varijable. Uzorak
Neka je X sluˇcajna varijabla s razdiobom F . Za sluˇcajne varijable X1 , . . . , Xn kaˇzemo da su nezavisne kopije sluˇcajne varijable X , ako one imaju svojstva: 1. medusobno su nezavisne, 2. imaju razdiobu identiˇcnu razdiobi sluˇcajne varijable X . Tako dobivenu n -torku sluˇcajnih varijabli (X1 , . . . , Xn ) nazivamo uzorak. Ako je x1 je realizacija varijable X1 , x2 realizacija varijable X2 i t.d., tada se (x1 , . . . , xn ) naziva vrijednost ili realizacija uzorka (X1 , . . . , Xn ) . Broj n oznaˇcava veliˇcinu (dimenziju ili volumen) uzorka.
Moˇzemo zamisliti da varijable X1 , . . . , Xn opisuju ponaˇsanje sluˇcajne varijable X pri ponavljanju stohastiˇckog eksperimenta u nepromijenjenim uvjetima. Radi jednostavnosti, pretpostavimo za sada da je u razdiobi varijable X nepoznat jedan parametar ϑ . Funkciju gusto´ce varijable X oznaˇcavat c´emo s f ϑ (x) ili s f (ϑ , x) , jer ona ovisi o tom nepoznatom parametru ϑ . Vrijednost parametra ϑ trebamo procijeniti na temelju realizacija x1 , x2 , . . . , xn varijable X . Bit c´e definirana funkcija
ϑˆ = g(x1 , x2 , . . . , xn ) koja c´e dati procjenu ϑˆ parametra ϑ . Ta procjena ovisi, dakle, o realizacijama x1 , x2 , . . . , xn . Realizacije su sluˇcajne, pa je prirodno da c´e se pri ponavljanju pokusa pojaviti neka druga n -torka, a onda i druga vrijednost za procjenu ϑˆ . Zato je normalna situacija da procjena ϑˆ nije jednaka nepoznatom parametru ϑ . (Jedan od zadataka matematiˇcke statistike jest da pruˇzi mjeru sigurnosti za toˇcnost ove procjene.) Budu´ci da su x1 , x2 , . . . , xn realizacije sluˇcajnih varijabli X1 , X2 , . . . , Xn , onda c´e i ϑˆ biti realizacija sluˇcajne varijable Θ := g(X1 , X2 , . . . , Xn ).
3
4
ˇ 10. MATEMATICKA STATISTIKA
Statistika, procjenitelj i procjena
Sluˇcajna varijabla
Θ := g(X1 , X2 , . . . , Xn ).
(10.1)
naziva se statistika. Statistikom nazivamo svaku funkciju koja ovisi o uzorku X1 , X2 , . . . , Xn , a ne ovisi (eksplicitno) o nepoznatom parametru. Neka je ϑ nepoznati parametar u populaciji X . Za statistiku (10.1) kaˇzemo da je procjenitelj parametra ϑ . Vrijednost te statistike ϑˆ = g(x1 , x2 , . . . , xn ) (10.2) nazivamo procjenom parametra ϑ .
Prema tome, procjenitelj je sluˇcajna varijabla. Nakon realizacije uzorka, vrijednost procjenitelja daje nam procjenu nepoznatog parametra. Statistika za procjenu oˇcekivanja
ˇ Zelimo procijeniti nepoznato oˇcekivanje a populacije X . Prirodno je onda odabrati statistiku X1 + X2 + . . . + Xn X := . n Ona se naziva sredina uzorka. Oznaˇcimo nepoznato oˇcekivanje i disperziju populacije X : E(X) = a, D(X) = σ 2 . Varijabla X je sluˇcajna. Izraˇcunajmo njezino oˇcekivanje i disperziju! Prema svojstvima oˇcekivanja, vrijedi X1 + X2 + . . . + Xn E(X) = E n 1 = E(X1 ) + E(X2 ) + . . . + E(Xn ) = a. n Varijable X1 , . . . , Xn su nezavisne, pa je
X1 + X2 + . . . + Xn D(X) = D n σ2 1 = 2 D(X1 ) + D(X2) + . . . + D(Xn ) = . n n
ˇ 10.1. TO CKASTE PROCJENE PARAMETARA
5
Procjena ocˇ ekivanja
Nepoznato oˇcekivanje a populacije X procjenjujemo pomo´cu sredine uzorka: n 1 X= Xi . (10.3) n i=1
Za tu sluˇcajnu varijablu vrijedi E(X) = a,
D(X) =
σ2 , n
(10.4)
gdje je σ 2 varijanca (disperzija) populacije. Primje´cujemo da je disperzija statistike X obrnuto proporcionalna veliˇcini uzorka. Ako je uzorak dovoljno velik, vrijednosti varijable X bit c´e koncentrirane oko srednje vrijednosti E(X) = a . Zato je jasno da c´e X biti dobra procjena za a . O kvaliteti te procjene bit c´e viˇse rijeˇci u nastavku. Nepristrani procjenitelji
- svim statistikama zˇ elimo odabrati one koje su, po nekim kriterijima, bolje od Medu drugih. Zato c´emo izdvojiti neka poˇzeljna svojstva statistika te dati kriterij za usporedbu razliˇcitih statistika. U prethodnom primjeru, statistika X za parametar a imala je svojstvo: E(X) = a. Dakle, oˇcekivanje statistike podudara se s vrijednoˇsc´ u parametra. Statistike koje posjeduju to poˇzeljno svojstvo nazvat c´emo posebnim imenom. Nepristrani procjenitelji
Za statistiku Θ kaˇzemo da je nepristrani procjenitelj ili nepristrana statistika parametra ϑ , ukoliko vrijedi E(Θ) = ϑ .
Kriterij nepristranosti svakako je poˇzeljan, ali nije jedini odluˇcuju´ci za odabir statistike. Upoznat c´emo primjere kod kojih pristrani procjenitelji mogu bolja svojstva od nepristranih. (Na primjer, njihova disperzija moˇze biti manja.) Usporedba statistika Usporedba statistika
Neka je (X1 , . . . , Xn ) uzorak, ϑ nepoznati parametar te Θ1 (X1 , . . . , Xn ) , Θ2 (X1 , . . . , Xn ) dvije nepristrane statistike za ϑ . Kaˇzemo da je Θ1 bolja (efikasnija) od Θ2 ako je D(Θ1 ) < D(Θ2 ) .
6
ˇ 10. MATEMATICKA STATISTIKA
Joˇs je jedno poˇzeljno svojstvo koje bi dobra statistika trebala imati: pove´canjem uzorka statistika mora davati sve bolju aproksimaciju nepoznatog parametra. Valjane statistike
Statistiku Θn = Θ(X1 , X2 , . . . , Xn ) nazivamo valjanom procjenom parametra ϑ ako za svaki ε > 0 sluˇcajna varijabla Θn konvergira prema ϑ po vjerojatnosti: lim P (|Θn − ϑ | < ε ) → 1. n→∞
Teorem 10.1. Da bi nepristrana statistika bila valjana, dovoljno je da joj disperzija teˇzi u nulu (kad n teˇzi u beskonaˇcnost).
ˇ sevljeve nejednakosti: DOKAZ. Ta tvrdnja slijedi iz Cebiˇ P (|Θn − ϑ | < ε ) 1 −
E[(Θn − ϑ )2 ] D(Θn ) = 1− → 1. 2 ε ε2
Procjena disperzije, uz poznato oˇcekivanje
Pretpostavimo sad da nam je oˇcekivanje populacije poznato, a disperzija σ 2 nije. Za procjenu disperzije biramo statistiku n 1 D2 = (Xi − a)2 . n i=1 Oˇcekivanje ove statistike je: n n 1 1 E(Xi − a)2 = D(Xi ) = D(X) = σ 2 . E(D2 ) = n n i=1
i=1
Dakle, ova je statistika nepristrana. O kvaliteti procjene odluˇcivat c´e disperzija statistike. Zbog nezavisnosti i jednake distribuiranosti sluˇcajnih varijabli Xi bit c´e: n 1 1 D (Xi − a)2 = D (X − a)2 D(D2 ) = 2 n n i=1 2 1 1 = μ4 − σ 4 = E (X − a)4 − E(X − a)2 n n (10.5) Ovdje je μ4 = E (X − a)4 cˇetvrti centralni moment populacije X . Vidimo da disperzija statistike D2 opada obrnuto proporcionalno veliˇcini uzorka. Prema Teoremu 10.1, ova je statistika valjana.
ˇ 10.1. TO CKASTE PROCJENE PARAMETARA
7
Procjena disperzije, uz nepoznato oˇcekivanje
Ako je oˇcekivanje poznato, tada je statistika 1 (Xi − a)2 n n
D2 =
i=1
nepristrani procjenitelj za disperziju. Koju c´emo statistiku koristiti ako je i oˇcekivanje a nepoznato? Prirodno je zamijeniti ga u ovoj formuli s X . Tako dobivamo statistiku 1 Θ= (Xi − X)2 . n n
i=1
Provjerimo je li ona nepristrana. Njezino oˇcekivanje je n n 1 1 2 E(Θ) = E (Xi − X) = E(Xi − X)2 . n n i=1
i=1
Vrijedi E(Xi − X) = a − a = 0 , pa je E(Xi − X)2 = D(Xi − X) . Sada je, zbog nezavisnosti varijabli X1 , X2 , . . . , Xn , 1 D(Xi − X) n i=1 n n 1 1 D Xi − Xj n n i=1 j=1 n n−1 1 1 D Xj Xi − n n n i=1 j=i 2 n 1 n−1 1 D(Xi ) + 2 D(Xj ) n n n i=1 j=i 2 1 n−1 1 σ 2 + 2 · (n − 1)σ 2 ·n n n n n−1 2 σ . n n
E(Θ) = = = = = =
Prema tome, oˇcekivanje statistike Θ ne podudara se s parametrom σ 2 . Ovaj procjenitelj nije nepristran. Primjetimo ipak da se razlika oˇcekivanja procjenitelja i parametra smanjuje pove´cavanjem veliˇcine uzorka n . n Medutim, mnoˇzenjem s konstantnim faktorom ovaj se procjenitelj moˇze n−1 uˇciniti nepristranim:
8
ˇ 10. MATEMATICKA STATISTIKA
Procjene disperzije
Ako je oˇcekivanje a populacije X poznato, nepristrana procjena nepoznate disperzije σ 2 raˇcuna se formulom n 1 (Xi − a)2 . (10.6) D2 := n i=1 Ako su oˇcekivanje a i disperzija σ 2 populacije X nepoznati, onda se nepristrani procjenitelj za disperziju raˇcuna formulom n 1 S2 := (Xi − X)2 . (10.7) n−1 i=1
Statistika S2 je valjana, jer joj disperzija teˇzi k nuli. Vrijedi naime D(S2 ) = E[(S2 − σ 2 )2 ] = E(S4 ) − 2σ 2 E(S2) + σ 4 = E(S4 ) − σ 4 . Iz prikaza S2 =
n n 1 1 (Xi − a)2 − (Xi − a)(Xj − a) n i=1 n(n − 1) i,j=1 i=j
nakon kvadriranja ovog izraza i raˇcunanja oˇcekivanja svakog cˇlana, dobivamo izraz sliˇcan (10.5): 1 n−3 4 2 D(S ) = μ4 − σ . (10.8) n n−1 - koji nema Primjer 10.3. Da bi se utvrdila preciznost mjernog geodetskog uredaja sistematske pogreˇske, naˇcinjeno je sˇ est mjerenja. Dobiveni su rezultati (u metrima): 3540, 3582, 3555, 3578, 3564, 3548. Odredi nepristranu procjenu za varijancu, u sluˇcajevima (a) ako je poznato da iznos mjerene veliˇcine iznosi 3560 m, (b) ako nije poznat iznos mjerene veliˇcine. (a) U ovom je sluˇcaju poznato oˇcekivanje sluˇcajne varijable, jer ono mora biti jednako mjerenoj vrijednosti (zbog odsustva sistematske pogreˇske): a = 3560 . Zato procjenu za varijancu raˇcunamo ovako: n 1 dˆ2 = (xi − a)2 = 232.17 m2 . n i=1
(b) Oˇcekivanje je nepoznato, pa ga raˇcunamo iz uzorka: 1 xi = 3561.17 m . n i=1 n
x=
ˇ 10.1. TO CKASTE PROCJENE PARAMETARA
9
Nepristranu procjenu varijance raˇcunamo ovako: 1 (xi − x)2 = 276.97 m2 . sˆ = n−1 n
2
i=1
Uporaba dˇzepnog raˇcunala
Formula
1 (xi − x)2 sˆ = n − 1 i=1 n
2
nije najprikladnija za raˇcun dˇzepnim raˇcunalom. Ona zahtjeva izvodenje toˇcno 5n + 1 operacija (za raˇcunala s inverznom notacijom, inaˇce je broj neznatno ve´ci). Pod operacijom se smatra svako unoˇsenje podataka ili njihov poziv iz memorije, te svaka funkcijska ili aritmetiˇcka operacija. Transformirajmo ovaj izraz na sljede´ci naˇcin: n n n 1 1 sˆ2 = x2i − 2x xi + nx2 = x2i − nx n−1 n−1 i=1
i=1
i=1
Sad je nuˇzno napraviti toˇcno 3n + 5 operacija. Zato c´emo procjenu disperzije raˇcunati ovom formulom. Praktiˇcki svi dˇzepni kalkulatori imaju ugradene elementarne statistiˇcke funkcije. - njima specijalizirani su upravo za rjeˇsavanje statistiˇckih zadataka. Na razNeki medu liˇcitim raˇcunalima mogu postojati razliˇciti naˇcini koriˇstenja tih funkcija, ali zajedniˇcki principi mogu se opisati ovako. Niz podataka x1 , x2 , . . . , xn unosi se posebnom tipkom, obiˇcno oznaˇcenom s Σ . Na koncu unosa, u posebnim registrima spremljeni su sljede´ci podatci: • volumen uzorka n ;
• zbroj elemenata uzorka, xi ;
2 • zbroj kvadrata elemenata uzorka, xi . U posebnim su registrima takoder spremljene izraˇcunate statistiˇcke funkcije. Na boljim raˇcunalima, pozivi tih registara nalaze se na posebnim tipkama oznaˇcenim s x , s i σ . Raˇcunanje s grupiranim podatcima
Podatci dani u uzorku vrlo su cˇesto grupirani u razrede. Uzorak tada ima ovakav oblik x1 x2 .. .
n1 n2 .. .
xr
nr
10
ˇ 10. MATEMATICKA STATISTIKA
Ovdje je n = n1 + . . . + nr volumen uzorka. Sredina i disperzija uzorka raˇcunaju se tada formulama r 1 x= ni xi , n i=1 r r 1 1 2 2 2 sˆ = ni (xi − x) = ni xi − nx . n − 1 i=1 n − 1 i=1 Primjer 10.4. Odredimo procjenu za oˇcekivanje i disperziju na temelju uzorka normalne populacije:
xi
2560
2600
2620
2650
2700
ni
2
3
10
4
1
Volumen uzorka je n = n1 + . . . + n5 = 20. Raˇcunanje oˇcekivanja i disperzije olakˇsano je ako vrijednosti sluˇcajne varijable translatiramo za isti iznos C . Tu je C po volji odabrani broj. Pri tom vrijedi E(X) = C + E(X − C), D(X) = D(X − C) (U raˇcunu koji slijedi koristit c´emo samo prvo svojstvo.) Za pogodnu konstantu u ovom primjeru moˇzemo uzeti C = 2620 : 1 ni (xi − 2620) n i=1 1 −60 · 2 + (−20) · 3 + 30 · 4 + 80 = 2620 + 1 = 2621. = 2620 + 20 5 1 sˆ2 = ni x2i − nx2 = 967.4 n − 1 i=1 5
x = 2620 +
Primjer 10.5. (Odredivanje varijance na temelju zadanog uzorka varijanci)
Pri kontroli kvalitete nekog proizvoda, ispituje se varijanca na kontrolnim uzorcima tijekom svakog dana. Dobivene su vrijednosti s21 , s22 , . . . , s2k , na temelju uzoraka veliˇcina n1 , n2 , . . . , nk . Kako c´emo odrediti procjenu varijance ove populacije? Trebamo odrediti nepristrani procjenitelj za nepoznatu varijancu σ 2 . Izabrat c´emo statistiku 2 2 2 ˆ = a1 S1 + a2 S2 + . . . + ak Sk Θ A gdje su a1 , a2 , . . . , ak i A konstante koje treba odrediti. Oˇcekivanje ove statistike je ˆ = E(Θ)
a1 E(S12 ) + . . . + ak E(Sk2 ) a1 + . . . + ak = · σ2 A A
ˇ 10.1. TO CKASTE PROCJENE PARAMETARA
11
Statistika c´e biti nepristrana ako je A = a1 + . . . + ak . Konstante a1 , . . . , ak moˇzemo birati po volji, ali je prirodno da one odgovaraju veliˇcinama pojedinih uzoraka. Tako c´e dnevne procjene temeljene na ve´cem uzorku imati ve´cu teˇzinu u konaˇcnoj procjeni. Prema tome, traˇzena procjena je n1 s21 + n2 s22 + . . . + nk s2k ϑˆ = . n1 + n2 + . . . + nk ∗
Nepristrana procjena standardnog odstupanja
Pokazali smo da je
1 (Xi − a)2 n n
D2 =
i=1
nepristrana procjena disperzije √ σ . Standardno odstupanje (devijacija) definira se kao korijen disperzije, σ = σ 2 . Logiˇcno je postaviti pitanje: je li veliˇcina 1/2 n √ 1 2 2 (Xi − a) D= D = n 2
i=1
nepristrana procjena za standardno odstupanje? Moˇze izgledati neobiˇcno, ali odgovor je negativan. Razlog tome je sˇ to funkcija drugog korijena “jaˇce skuplja” velike brojeve od malih. Za bilo koju nedegeneriranu pozitivnu sluˇcajnu varijablu Y op´cenito vrijedi E(Y) < E(Y 2). (Ova nejednakost slijedi iz Cauchy-Schwarz-Bunjakovskijeve nejednakosti.) Zato je √ E(D) < E(D2 ) = σ 2 = σ. Nepristranu procjenu za standardno odstupanje praktiˇcki je nemogu´ce utvrditi u op´cem sluˇcaju, za bilo koju distribuciju populacije X . Ako populacija ima normalnu razdiobu, onda se moˇze dokazati da nepristrana procjena glasi
n
1 D˜ = kn+1 (Xi − a)2 , (10.9) n i=1
pri cˇemu se koeficijent kn raˇcuna formulom
n − 1 n−1 Γ n2 . kn = (10.10) · 2 Γ 2 Na isti se naˇcin dobiva nepristrana procjena standardnog odstupanja ukoliko oˇcekivanje nije poznato:
n
˜S = kn 1 (Xi − X)2 , n − 1 i=1
12
ˇ 10. MATEMATICKA STATISTIKA
Za velike vrijednosti od n moˇze se koristiti jednostavnija formula:
n
1 S˜ = (Xi − X)2 , n − 1.45 i=1
Za male vrijednosti od n moˇze biti korisna sljede´ca tablica: n 3 4 5 6 7
kn 1.1284 1.0853 1.0640 1.0506 1.0423
n 10 12 15 20 25
kn 1.0280 1.0230 1.0181 1.0134 1.0104
n 30 35 40 45 50
kn 1.0087 1.0072 1.0064 1.0056 1.0051
Meduvrijednosti se mogu utvrditi interpolacijom. U ve´cini zadataka i teoriji koja slijedi, kao procjenu za odstupanje c´ emo ipak, jednostavnosti radi, koristiti korijen varijance. Izuzetak c´e biti zadatci u kojima se eksplicitno traˇzi nepristrana procjena standardnog odstupanja.
10.2. Kriterij najve´ce izglednosti Pretpostavimo da nam je u razdiobi sluˇcajne varijable X nepoznata vrijednost jednog parametra ϑ . Oznaˇcimo sa f (ϑ , x) zakon razdiobe te sluˇcajne varijable, x ∈ S, f (ϑ , x) = Pϑ ({X = x}), ako je X diskretnog tipa, odnosno, neka je f (ϑ , x) = f ϑ (x), funkcija gusto´ce, ako je X neprekinuta sluˇcajna varijabla. Indeks ϑ oznaˇcava da se - {X = x} i vrijednost funkcije gusto´ce f (x) varijable X raˇcunavjerojatnost dogadaja ju uz pretpostavku da je nepoznata vrijednost parametra, o kojem ovise te vrijednosti, jednaka ϑ . Tu nepoznatu vrijednost c´emo pokuˇsati procijeniti iz vrijednosti uzorka (x1 , . . . , xn ) . Kriterij najve´ce izglednosti
Neka je x1 , x2 , . . . , xn realizacija uzorka populacije X , cˇija funkcija gusto´ce f (ϑ , x) ovisi o nepoznatom parametru ϑ . Funkcija izglednosti1 definira se kao umnoˇzak L(ϑ , x1 , . . . , xn ) := f (ϑ , x1 )f (ϑ , x2 ) · · · f (ϑ , xn ). (10.11) ˆ Za procjenu parametra ϑ uzimamo onu vrijednost ϑ za koju funkcija izglednosti poprima globalni maksimum.
1
Likelihood function (engl.). U hrvatskoj literaturi, koristi se joˇs naziv funkcija vjerodostojnosti.
´ IZGLEDNOSTI 10.2. KRITERIJ NAJVE CE
13
Zaˇsto se ova funkcija naziva funkcija izglednosti? Za zadani x , vrijednost f (ϑ , x) opisuje vjerojatnost da sluˇcajna varijabla poprimi vjerojatnost u okoliˇsu broja x . Zato umnoˇzak (10.11) predstavlja vjerojatnost da uzorak (X1 , X2 , . . . , Xn ) poprimi vrijednost u okoliˇsu od (x1 , x2 , . . . , xn ) . Postavlja se pitanje: za koju c´e vrijednost parametra ϑ ta vjerojatnost biti najve´ca? Na taj naˇcin dobivamo kriterij za odabir procjene parametra ϑ . Za ϑ c´emo odabrati onaj parametar koji maksimizira funkciju izglednosti. Na taj naˇcin maksimiziramo vjerojatnost pojavljivanja uzorka koji se ostvario! Opravdanje ovog uvjeta je intuitivna pretpostavka da onom uzorku koji se stvarno realizira trebamo dati prednost u odnosu na one koji se nisu ostvarili. Nakon sˇ to nam je poznata vrijednost uzorka (x1 , . . . , xn ) , uzimamo onu vrijednost parametra ϑ za koju ta realizacija ima najve´cu vjerojatnost pojavljivanja, ve´cu nego bilo koja druga realizacija. Primjer 10.6. (Procjena parametra eksponencijalne razdiobe) Vrijeme X isp- kojem se karakteristike ne mijenjaju vremenom, dobro je opisano ravnog rada uredaja eksponencijalnom razdiobom, s gusto´com
f (x) = λ e−λ x , x > 0. Ovdje je λ nepoznati parametar razdiobe. Biljeˇzeni su rezultati na probnom uzorku i dobiven niz x1 , x2 , . . . , xn . Na temelju tih rezultata, korise´ci se kriterijem najve´ce izglednosti, treba procijeniti oˇcekivanje varijable X . U ovom je primjeru L(λ , x1 , . . . , xn ) = f (λ , x1 )f (λ , x2 ) · · · f (λ , xn ) = λ e−λ x1 · λ e−λ x2 · · · λ e−λ xn Tu smo oznaˇcili z =
n
= λ n e−λ z .
i=1 xi .
Izraˇcunajmo maksimum ove funkcije: ∂L = λ n−1 e−λ z (−λ z + n). ∂λ Ova se derivacija poniˇstava kad je λ = 0 ili kad je −λ z + n = 0 . Prva je mogu´cnost besmislena, a iz druge slijedi n 1 n λˆ = = = . z x1 + x2 + . . . + xn x Za eksponencijalnu funkciju je poznato da vrijedi E(X) = 1/λ . zato je procjena za oˇcekivanje 1 x1 + x2 + . . . + xn x= = . ˆλ n Ovaj je rezultat u skladu sa standardnom procjenom za oˇcekivanje sluˇcajne varijable. ∗∗∗ Korisno je primjetiti da je funkcija izglednosti L uvijek pozitivna, pa je stoga definirana i funkcija ln L . S obzirom da vrijedi L (ln L) = , L
14
ˇ 10. MATEMATICKA STATISTIKA
ova funkcija poprima maksimum u istim toˇckama kao i L . Vrlo je cˇesto nju praktiˇcnije derivirati nego funkciju L . U prethodnom primjeru je ln L = n ln λ − λ
n
xi ,
i=1
∂ ln L n = − xi = 0, ∂λ λ i=1 n
pa slijedi isti zakljuˇcak kao prije. Procjena vjerojatnosti dogadaja
- A ima nepoznatu vjerojatnost realiziranja p . Kako c´emo procijeniti tu Dogadaj vjerojatnost? Viˇse je mogu´cih odgovora. Navedimo dva najjednostavnija. Primjer 10.7. (Procjena vjerojatnosti koriˇstenjem relativne frekvencije) Pokus - A moˇze ostvariti ponavljamo n puta, pri nepromijenjenim uvjetima. u kojem se dogadaj - zbio ili nije. Na taj je naˇcin dobiven U svakom ponavljanju biljeˇzimo je li se dogadaj uzorak x1 , x2 , . . . , xn , pri cˇemu je xk = 0 ako se A nije ostvario, a xk = 1 ako se A ostvario. Na temelju tog uzorka treba procijeniti vjerojatnost p .
Rezultat pokusa prate indikatorske sluˇcajne varijable koje su nezavisne kopije sluˇcajne varijable 0 1 . X∼ q p Ova je razdioba zadana vjerojatnostima (ovisnim o nepoznatom parametru p ): f (p, x) = px (1 − p)1−x ,
x = 0 ili 1.
Funkcija izglednosti je L(p, x1 , . . . , xn ) =
n
pxk (1 − p)1−xk .
k=1
Zato je ln L =
n xk ln p + (1 − xk ) ln(1 − p) , k=1
∂ ln L = ∂p Tu smo s m oznaˇcili
n xk k=1
p
−
1 − xk 1−p
=
m n−m − = 0. p 1−p
m = x1 + . . . + xn , - A u n pokusa. a taj je zbroj jednak broju pojavljivanja dogadaja m Sredivanjem jednakosti (10.12) dobivamo p = . n
(10.12)
´ IZGLEDNOSTI 10.2. KRITERIJ NAJVE CE
15
Primjer 10.8. (Procjena vjerojatnosti koriˇstenjem geometrijske razdiobe) Po- A moˇze ostvariti navljamo pri nepromijenjenim uvjetima pokus u kojem se dogadaj ˇ i biljeˇzimo broj pokusa kad se to dogodilo. Citav se postupak ponavlja n puta. Na taj je naˇcin dobiven uzorak x1 , x2 , . . . , xn . Na temelju tog uzorka treba procijeniti vjerojatnost p .
Sluˇcajna varijabla koja opisuje pojavljivanje dogadaja A ima geometrijsku razdiobu s parametrom p . Ona je zadana vjerojatnostima f (p, x) = p(1 − p)x−1 ,
x = 1, 2, 3, . . . .
Funkcija izglednosti je (nepoznati parametar i dalje oznaˇcavamo s p ): L(p, x1 , . . . , xn ) = pn (1 − p)x1 −1 · · · (1 − p)xn −1 . Sada imamo ln L = n ln p + ln(1 − p)
n
xi − n ,
i=1
xi − n ∂ ln L n = − = 0. ∂p p 1−p Iz posljednje jednakosti, nakon sredivanja, dobivamo
pˆ =
1 n = . x1 + x2 + . . . + xn x
Primjer 10.9. Postotak bijelih kuglica u kutiji je nepoznat. Zagrabili smo n kuglica i pobrojali m bijelih. Kolika je procjena za postotak bijelih kuglica?
Taj postotak jednak je vjerojatnosti da izvuˇcena kuglica iz kutije bude bijela. Neka je p ta vjerojatnost. Sluˇcajna varijabla X koju promatramo je broj bijelih kuglica u uzorku veliˇcine n . Njezina je razdioba X ∼ B(n, p) . Zato vrijedi n x f (p, x) = p (1 − p)n−x , x = 0, 1, . . . , n. x Odavde je ∂ ∂ ln f (p, x) = x ln p + (n − x) ln(1 − p)] ∂p ∂p x n−x x = − = 0 =⇒ pˆ = p 1−p n Ako se u uzorku pojavilo m bijelih kuglica, onda je najbolja procjena pˆ =
m . n
16
ˇ 10. MATEMATICKA STATISTIKA
Primjer 10.10. (Procjena parametra Poissonove razdiobe) Neka X ima Poissonovu razdiobu, X ∼ P(λ ) , λ nepoznat. Procijenimo vrijednost od λ .
Sada je f (λ , x) = P (X = x) =
λ x −λ e . x!
Funkcija izglednosti je
λ x1 +...+xn −nλ e , x1 ! · · · xn !
ln L(λ , x1 , . . . , xn ) = −nλ + (x1 + . . . + xn ) ln λ − ln(xi !), ∂ ln L x1 + . . . + xn = −n + = 0, ∂λ λ x1 + . . . + xn λˆ = = x. n L(λ , x1 , . . . , xn ) =
∗∗∗ Kriterijom najve´ce izglednosti moˇzemo odrediti i viˇse od jednog nepoznatog parametra. Ako funkcija izglednosti ima oblik L(ϑ1 , . . . , ϑs , x1 , . . . , xn ) = f (ϑ1 , . . . , ϑs , x1 ) · · · f (ϑ1 , . . . , ϑs , xn ) onda nepoznate parametre ϑ1 , . . . , ϑs dobivamo iz uvjeta ∂L(ϑ1 , . . . , ϑs , x1 , . . . , xn ) = 0, ∂ ϑi
i = 1, 2, . . . , s.
(10.13)
Primjer 10.11. Sluˇcajna varijabla X ima normalnu razdiobu N (a, σ 2 ) s nepoz-
natim i oˇcekivanjem a i disperzijom σ 2 . Odredimo procjenu tih parametara koriste´ci kriterij najve´ce izglednosti. Pripadna funkcija izglednosti je L(a, σ ) = L(a, σ, x1 , . . . , xn ) =
n 1 1 exp − (xi − a)2 . 2 2 n/2 2σ (2πσ ) i=1
Logaritam ove funkcije je n n 1 ln L(a, σ ) = − ln(2πσ 2 ) − (xi − a)2 . 2 2σ 2 i=1
Ekstrem dobivamo ako vrijedi: ∂ 1 ·2 (xi − a) = 0 ln L(a, σ ) = 2 ∂a 2σ i=1 n
i odavde
´ IZGLEDNOSTI 10.2. KRITERIJ NAJVE CE
17
1 xi , n n
aˆ =
i=1
n ∂ n 2 1 ln L(a, σ ) = − · + 3 (xi − a)2 = 0 ∂σ 2 σ σ i=1
i odavde 1 (xi − aˆ )2 . n n
σˆ 2 =
i=1
Primjer 10.12. Zadana je jednolika razdioba na intervalu [0, c] , c nepoznat. Vrijednost od c trebali bismo procijeniti na osnovu uzorka: nekoliko na sre´cu odabranih brojeva iz tog intervala. Koju statistiku je prikladno upotrebiti?
Recimo, zbog jednostavnijeg razmatranja, da je uzorak dao sljede´ce vrijednosti 3, 5, 8, 1, 3, 2, 6, 2. Neka je X sluˇcajna varijabla: vrijednost na sre´cu odabranog broja iz intervala [0, c] . Njezina je funkcija gusto´ce 1/c, 0 x c, f (c, x) = 0, inaˇce. c c2 , D(X) = . 2 12 Odaberimo statistiku pomo´cu koje moˇzemo odrediti c . Budu´ci je E(X) = a/2 , a znamo statistiku pomo´cu koje odredujemo E(X) , onda moˇzemo izabrati statistiku n 2 Θ1 = 2X = Xk . n
Pri tom vrijedi E(X) =
k=1
Vrijedi
2 2 c E(Xk ) = · · n = c n n 2 n
E(Θ1) =
k=1
pa je ova statistika nepristrana. Medutim, ona nije baˇs najsretnije odabrana. Ukoliko uzorak poprimi opisanu vrijednost, onda dobivamo sljede´cu procjenu za c 2 cˆ = (3 + 5 + 8 + 1 + 3 + 2 + 6 + 2) = 7.5 8 sˇ to je apsurd, budu´ci se pojavila realizacija 8 . Pokuˇsajmo odrediti prikladniju statistiku. Pogledajmo sˇ to c´e dati kriterij najve´ce izglednosti. Imamo ⎧ ⎨ 1 n , xk c, ∀k, L(c, x1 , . . . , xn ) = c ⎩ 0, inaˇce. Maksimum se postiˇze ako je c najmanji mogu´c, a to je za cˆ = max1kn xk .
18
ˇ 10. MATEMATICKA STATISTIKA
Time se name´ce statistika Y = max{X1 , . . . , Xn }. U zadanom uzorku, dobili bismo procjenu cˆ = 8 . Oˇcevidno je da niti ona nije posve zadovoljavaju´ca: ako je zaista c = 8 , nevjerovatno je da se baˇs ta maksimalna vrijednost i izabere. Pogledajmo je li ova statistika nepristrana. Odredimo njezinu razdiobu: FY (y) = P (Y < x) = P (X1 < x, . . . , Xn < x) x n , 0 < x c. = P (X < x)n = c Funkcija gusto´ce je (u ovisnosti o parametru c ) n f (c, x) = n xn−1 , 0 < x < c. c Odavde dobivamo oˇcekivanje n c n E(Y) = n x · xn−1 dx = c. c 0 n+1 Statistika nije nepristrana. Stoga cˇinimo korekciju i promatramo drugu statistiku n+1 n+1 Y= max{X1 , . . . , Xn } n n koja daje nepristranu procjenu za c . Θ2 =
∗∗∗ Usporedimo statistike Θ1 i Θ2 iz ovog primjera. Vrijedi X1 + . . . + Xn D(X) c2 D(Θ1 ) = D(2X) = 4D = 4· = . n n 3n Izraˇcunajmo disperziju statistike Y : E(Y 2 ) =
n cn
0
c
x2 · xn−1 dx =
i odavde
D(Y) = E(Y 2 ) − E(Y)2 = =
n c2 . (n + 2)(n + 1)2
n 2 c n+2
n n2 c2 − n + 2 (n + 1)2
Sada je D(Θ2 ) = D
n + 1 (n + 1)2 n c2 2 · c = Y = . n n2 (n + 2)(n + 1)2 n(n + 2)
ˇ je n 2 , statistika Θ2 je efikasnija od statistike Θ1 . Cim
´ IZGLEDNOSTI 10.2. KRITERIJ NAJVE CE
19
Primjer 10.13. Kao procjenu za nepoznato oˇcekivanje a = E(X) moˇzemo uzeti
statistike
Θ1 = X =
X1 + X2 + . . . + Xn , n
Θ2 = X 1 . - njima je valjana? Provjerimo da su obje procjene nepristrane. Koja medu Za statistiku Θ1 znamo da je nepristrana. Isto vrijedi i za Θ2 : E(Θ2 ) = E(X1 ) = a. Provjerimo da je H1 valjana. Iz poznatog svojstva n σ2 1 D(Xi ) = D(Θ1 ) = 2 n i=1 n ˇ sevljeve nejednakosti dobivamo s pomo´cu Cebiˇ
σ2 D(Θ1 ) = 2 →0 2 ε ε n kad n → ∞ . Dakle, Θ1 = X je valjana procjena za oˇcekivanje. Za statistiku Θ2 vrijedi pak P (|Θ2 − ϑ | < ε ) = P (|X1 − ϑ | < ε ) > 0 cˇim je razdioba od X1 netrivijalna. Zato Θ2 nije valjana statistika. P (|Θ1 − a| > ε )
20
ˇ 10. MATEMATICKA STATISTIKA
§ 10. Zadatci za vjeˇzbu
1. Rezultati mjerenja su 4.3, 4.5, 4.2, 4.6, 4.5, 4.4, 4.5, 4.4. Odredi procjene oˇcekivanja i varijance. 2. Procjena disperzije varijable s poznatim oˇcekivanjem a raˇcuna se iz uzorka formulom n 1X Dˆ 2 = (xi − a)2 . n i=1
Dˇzepna raˇcunala programirana su na raˇcunanje disperzije ukoliko oˇcekivanje nije poznato:
σˆ 2 =
n 1X (xi − x)2 . n i=1
Dokaˇzi sljede´cu korisnu formulu: Dˆ 2 = σˆ 2 + (x − a)2 . 3. Visina tornja je 164.32 m. U deset nezavisnih mjerenja visine tog tornja, uredajem koji nema sistematske pogreˇske, dobiveni su sljede´ci rezultati: 164.16, 164.33, 164.38, 164.44, 164.12, 164.30, 164.56, 164.47, 164.55, 164.22. Uz pretpostavku da je pogreˇska distribuirana po normalnom zakonu, odredi nepristranu procjenu za odstupanje 4. Pretpostavimo da u mjerenjima iz prethodnog zadatka stvarna veliˇcina nije poznata. Uz pretpostavku da je pogreˇska distribuirana po normalnom zakonu, odredi nepristranu procjenu za odstupanje. 5. Mjerenje kapaciteta kondenzatora (u μ F ) u probnom uzorku dalo je sljede´ce rezultate: nk interval 21.0–21.3 2 21.3–21.6 8 21.6–21.9 15 21.9–22.2 26 22.2–22.5 43 22.5–22.8 38 22.8–23.1 24 23.1–23.4 15 23.4–23.7 6 23.7–24.1 3 Izraˇcunaj sredinu i varijancu uzorka. 6. Naˇcinjeno je n nezavisnih pokusa da bi se utvr- A . Kolika je dila frekvencija pojavljivanja dogadaja disperzija te frekvencije? Za koju vrijednost vjerojatnosti p = P (A) c´e ta disperzija biti maksimalna?
7. Nepoznata veliˇcina mjerena je u n navrata mjerenjima razliˇcitih preciznosti. Neka su pri tom dobivene vrijednosti x1 , . . . , xn , uz standardne devijacije σ1 , . . . , σn . Procjenu mjerene veliˇcine traˇzimo u obliku n X ti xi , xˆ = i=1
gdje su ti teˇzinski koeficijenti, kojima je zbroj jednak 1. kako treba odrediti te koeficijente, da bi disperzija veliˇcine xˆ bila minimalna? 8. n brojeva odabrano je na sre´cu iz nepoznatog intervala [a, b] i dobivene su vrijednosti x1 , . . . , xn . Da bismo procjenili sredinu c tog intervala, odabrali smo vrijednosti xm = min{x1 , . . . , xn }, xM = max{x1 , . . . , xn } i stavili xm + xM cˆ = . 2 (a) Dokaˇzi da je cˆ nepristrana procjena za c . (b) Dokaˇzi da je ta procjena valjana. - A je nepoznata. Pokus 9. Vjerojatnost p dogadaja je ponovljen pet puta i A se dogodio triput. Nakon toga, pokus je ponovljen sˇ est puta i A se dogodio u cˇetiri navrata. Koriste´ci kriterij najve´ce izglednosti, odredi procjenu za p . 10. Sluˇcajna varijabla ima eksponencijalnu razdiobu X ∼ E(λ ) . Ona je poprimila vrijednost x1 . Koriste´ci kriterij najve´ce izglednosti, koja je procjena za parametar λ ? 11. Registrirana su vremena (u minutama) izmedu uzastopnih poziva u telefonskoj centrali: 8, 12, 7, 10, 5. Kolika je vjerojatnost da c´e se na sljede´ci poziv cˇekati viˇse od 5 minuta? 12. Poissonova sluˇcajna varijabla X ∼ P(λ ) u tri nezavisna pokusa poprimila je vrijednosti x1 = 5 , x2 = 7 , x3 = 3 . Koriste´ci kriterij najve´ce izglednosti, odredi procjenu parametra λ . 13. Uzorak x1 , . . . , xn izvuˇcen je iz populacije koja ima gusto´cu razdiobe 0 < x < 1. f (x) = λ xλ −1 , Pomo´cu kriterija najve´ce izglednosti, odredi procjenu za parametar λ .
11.
Intervalne procjene
1. Intervali povjerenja . . . . . . . . . . . . . . . . . . . . . . 2. Intervalne procjene za parametre normalne razdiobe . 3. Intervalne procjene za razdiobe razliˇcite od normalne Zadatci za vjeˇzbu . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. 21 . 24 . 36 . 42
11.1. Intervali povjerenja Kvantili
Zbog primjena koje c´e uslijediti, upoznajmo detaljnije neke karakteristiˇcne toˇcke vezane uz funkciju razdiobe i funkciju gusto´ce sluˇcajne varijable X . Neka je F funkcija razdiobe, a f gusto´ca te varijable. Da bismo izbjegli nepotrebnu sloˇzenost, pretpostavit c´emo da postoji interval a, b takav da je f (x) pozitivan broj u svakoj toˇcki x tog intervala, a jednak nuli za x < a i za x > b . Ovakav se interval naziva nosaˇc funkcije gusto´ce. Vrijednosti a = −∞ ili b = +∞ su dopuˇstene. Tamo gdje je gusto´ca pozitivna, funkcija razdiobe je rastu´ca. Dakle, za nju vrijedi F(a) = 0 , F(b) = 1 i F je rastu´ca na intervalu a, b . Izaberimo realan broj p , 0 < p < 1 . Onda jednadˇzba F(x) = p ima jedincato rjeˇsenje. Kvantil
Relan broj xp za koji vrijedi F(xp ) = p to jest
xp
−∞
f (t)dt = p
naziva se kvantil reda p .
21
22
11. INTERVALNE PROCJENE
Sl. 11.1. Kvantil reda p .
U primjenama u statistici vrlo se cˇesto postavlja pitanje odredivanja kvantila xp za neke specifiˇcne vrijednosti od p ; npr. za 0.001 , 0.01 , 0.05 , 0.95 , 0.99 ili pak 0.999 . Za neke posebne vrijednosti od p kvantili dobivaju posebna imena. Tako, na primjer, za p = 0.25 , 0.50 i 0.75 zovemo ih kvartilima, za p = 0.1 , 0.2 ,. . . , 0.9 zovemo ih decilima, a za p = 0.01 , 0.02 ,. . . , 0.99 zovemo ih percentilima. Intervali povjerenja sluˇcajne varijable
Razdioba sluˇcajne varijable u problemima matematiˇcke statistike najˇceˇsc´e nije potpuno poznata, jer ovisi o jednom ili viˇse nepoznatih parametara. U prethodnom smo poglavlju nauˇcili kako na temelju realizacija dobivenih iz uzorka moˇzemo odrediti toˇckastu procjenu nepoznatog parametra. Ta je procjena viˇse ili manje pouzdana. Poznavanje razdiobe traˇzenog parametra omogu´cava nam da utvrdimo interval povjerenja oko dobivene procjene. Veliˇcina tog intervala govori o pouzdanosti dobivene procjene. ∗∗∗ Radi jednostavnosti, najprije c´emo promotriti problematiku intervala povjerenja za sluˇcajnu varijablu X kojoj je razdioba poznata. Interval povjerenja sluˇcajne varijable
Neka je 0 < p < 1 . Interval [c1 , c2 ] za koji vrijedi P (c1 < X < c2 ) = p naziva se interval povjerenja reda p za sluˇcajnu varijablu X . Ako je p zadan, odredivanje intervala povjerenja nije uvijek jednostavan posao. Ukoliko je lijevi rub intervala c1 = −∞ , onda za desni rub moˇzemo uzeti kvantil c2 = xp . Analogno, ako za desni rub odaberemo c2 = ∞ , onda je lijevi rub odreden kvantilom c1 = x1−p . U statistici najˇceˇsc´e zˇ elimo odrediti interval povjerenja najmanje duljine. Time se zadatak svodi na problem minimizacije: c2 − c1 −→ min c2 f (t) dt = p. c1
11.1. INTERVALI POVJERENJA
23
Ova se zada´ca ne moˇze uvijek rijeˇsiti eksplicitnim formulama. Pretpostavimo da funkcija f ima dodatno svojstvo, koje je u primjenama vrlo cˇesto ispunjeno: f posjeduje samo jednu toˇcku lokalnog maksimuma. Takvu funkciju gusto´ce nazivamo unimodalna. Lako je onda pokazati da zada´ca minimizacije ima jednoznaˇcno rjeˇsenje, te da za rub intervala povjerenja vrijedi f (c1) = f (c2 ).
(11.1)
Sl. 11.2. Interval povjerenja za unimodalnu funkciju gusto´ce.
ˇ niti s tim dodatnim uvjetom problem odredivanja Cak rubnih toˇcaka nije olakˇsan. Zato se najˇceˇsc´e zadovoljavamo bilo kojim intervalom povjerenja reda p , ili pak njegove rubove odredujemo pomo´cu odabranih kvantila. Na primjer rubne toˇcke moˇzemo odabrati ovako: c1 = x 12 (1−p), c2 = x 12 (1+p) (11.2) Zaista, u tom sluˇcaju vrijedi 1 1 (1 + p) − (1 − p) = p. 2 2 U ve´cini literature koristi se sljede´ca standardna oznaka: P (c1 X c2 ) =
Nivo znaˇcajnosti
Za zadani broj p , 0 < p < 1 koji odreduje interval povjerenja, veliˇcina α = 1 − p naziva se nivo znaˇcajnosti (signifikantnosti). Pri tom za jednostrane kvantile vrijedi: xp = x1−α , x1−p = xα , a za dvostrane: x 12 (1−p) = xα /2 , x 12 (1+p) = x1−α /2.
Sl. 11.3. Jedan od naˇcina odredivanja intervala povjerenja.
24
11. INTERVALNE PROCJENE
∗∗∗ Ukoliko funkcija gusto´ce posjeduje svojstvo simetrije (s obzirom na pravac x = m ): f (m − x) = f (m + x), za sve x ∈ R, (11.3) tada c´e za odabir (11.2) biti ispunjen uvjet (11.1).
Sl. 11.4. Interval povjerenja za simetriˇcnu funkciju gusto´ce.
Interval povjerenja za nepoznati parametar
Neka je sad razdioba varijable X ovisna o nepoznatom parametru ϑ . Taj c´emo parametar procjeniti pomo´cu neke toˇckovne procjene. Pokaˇzimo sad kako se odreduje kvaliteta te procjene. Ona c´e biti iskazana duljinom intervala povjerenja za nepoznati parametar. Interval povjerenja za nepoznati parametar
Pretpostavimo da postoje funkcije Θ(X1 , . . . , Xn ) i Θ(X1 , . . . , Xn ) takve da za sve realizacije x1 , . . . , xn uzorka vrijedi P Θ(x1 , . . . , xn ) < ϑ < Θ(x1 , . . . , xn ) = p. Interval Θ, Θ se zove interval povjerenja za parametar ϑ reda p .
Ovdje valja napomenuti da je interval Θ, Θ sluˇcajan, jer njegovi rubovi ovise o realizaciji uzorka. Medutim, vjerojatnost da parametar ϑ padne unutar tog intervala jednaka je p i ne ovisi o tim realizacijama.
11.2. Intervalne procjene za parametre normalne razdiobe Pretpostavimo da X ima normalnu razdiobu N (a, σ 2 ) kod koje su neki od parametara, a mogu´ce i oba, nepoznati.
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
25
1. Intervalna procjena oˇcekivanja uz poznatu disperziju σ2
Statistika za oˇcekivanje je X1 + . . . + Xn . n Ova statistika nam daje toˇckastu procjenu oˇcekivanja. Sluˇcajna varijabla X je zbroj nezavisnih normalnih varijabli, pa zato i sama ima normalu razdiobu. Njezini su parametri 1 E(X) = [E(X1) + . . . + E(Xn)] = E(X) = a, n σ2 1 D(X) D(X) = 2 [D(X1 ) + . . . + D(Xn )] = = . n n n X=
σ2 ). n Istaknimo i zapamtimo ovaj vaˇzni rezultat. Dakle, X ∼ N (a,
Razdioba sredine uzorka Teorem 11.1. Ako populacija X ima normalnu razdiobu N (a, σ 2 ) , onda za
sredinu uzorka vrijedi
X=
σ2 X1 + . . . + Xn ∼ N (a, ). n n
(11.4)
ˇ je n ve´ci, to c´e Ovdje je vaˇzno uoˇciti efekt pove´canja volumena uzorka. Sto disperzija sredine X biti manja.
Sl. 11.5. Funkcija gusto´ce populacije i pripadne sredine, za dva razliˇcita volumena uzorka.
26
11. INTERVALNE PROCJENE
Prema zakonu velikih brojeva, znamo da c´e sluˇcajna varijabla X teˇziti k oˇcekivanju a . Sad smo u mogu´cnosti precizno opisati kvalitetu i brzinu te konvergencije. ∗∗∗ S obzirom da poznajemo toˇcnu razdiobu statistike X , moˇzemo lako odrediti interval povjerenja za oˇcekivanje a . U tu svrhu, oznaˇcimo s U=
X−a √ σ/ n
pripadnu jediniˇcnu normalnu razdiobu. Neka je sad zadan p , 0 < p < 1 . Oznaˇcimo α = 1 − p i promotrimo uvjet P (|U| < c) = p. Broj c , dobiven kao rjeˇsenje ove jednadˇzbe, dat c´e interval povjerenja [−c, c] za varijablu U . Odaberimo za c kvantil normalne razdiobe. Uobiˇcajeno je taj kvantil oznaˇcavati slovom u : c = u1−α /2 . Onda je P (|U| < u1−α /2) = 1 − α = p.
Sl. 11.6. Kvantili jediniˇcne normalne razdiobe
Sad dobivamo
X −a P √ < u1−α /2 = 1 − α , σ/ n
t.j. σ σ P X − √ u1−α /2 < a < X + √ u1−α /2 = 1 − α . n n Algoritam za odredivanje intervala povjerenja napisat c´emo u sljede´cem obliku:
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
27
Intervali povjerenja za oˇcekivanje normalne razdiobe, uz poznati σ 2
1. Zadaje se nivo pouzdanosti p i odredi α = 1 − p . 2. Iz tablica kvantila normalne razdiobe, odredi se kvantil u1−α /2 . Najˇceˇsc´e vrijednosti su: p
0.9
0.95
0.99
0.999
u1−α /2
1.645
1.960
2.576
3.291
3. Izraˇcuna se sredina x uzorka x1 , . . . , xn . σ 4. Izraˇcuna se u1−α /2 √ . n Interval povjerenja je σ σ P x − u1−α /2 √ a x + u1−α /2 √ = p. n n
(11.5)
Primjer 11.1. Iz populacije N (a, 4) izvuˇcen je uzorak
xj nj
0 1
1 4
2 6
3 12
4 2
Odredi procjenu i 90% -tni interval za oˇcekivanje a . 4 Imamo X ∼ N (a, 25 ) . Iz uzorka raˇcunamo procjenu sredine:
0 · 1 + 1 · 4 + 2 · 6 + 3 · 12 + 4 · 2 = 2.40. 25 Sad je α = 1 − p = 0.1 . Iz tablica proˇcitamo vrijednost kvantila u1−α /2 = u0.95 = 1.645. Dalje je σ 2 u1−α /2 √ = 1.645 · = 0.658. 5 n x=
Dakle, P (1.742 < a < 3.058) = 0.9 . 2. Intervalna procjena za disperziju, uz poznato oˇcekivanje a
Statistika za nepoznatu disperziju, uz poznatu vrijednost oˇcekivanja a je 2 n n σ 2 Xk − a 1 2 2 (Xk − a) = . D = n n σ k=1
k=1
Xk − a ima jediniˇcnu normalnu razdiobu. Kvadrat te sluˇcajne varijable σ ima gama razdiobu s parametrima ( 12 , 12 ) . Varijabla
28
11. INTERVALNE PROCJENE
Zbroj n nezavisnih jediniˇcnih razdioba ima gama razdiobu s parametrima ( 12 n, 12 ) . Tu razdiobu nazivamo hi kvadrat razdioba s n stupnjeva slobode. Oznaˇcavamo je s χn2 . Njezina je gusto´ca 1 1 1 f χn2 (x) = n/2 1 x 2 n−1 e− 2 x . 2 Γ( 2 n) Oˇcekivanje i disperzija su E(χn2 ) = n,
D(χn2 ) = 2n.
Eksplicitna formula za nekoliko poˇcetnih vrijednosti indeksa n i graf te gusto´ce dani su u poglavlju §8.3 . ∗∗∗ Vratimo se na poˇcetni problem. Promatramo statistiku 2 n σ 2 Xk − a 2 D = . n σ k=1
nD2 Prema dokazanom, sluˇcajna varijabla ima hi hvadrat razdiobu s n stupnjeva σ2 slobode. Odavde moˇzemo odrediti interval povjerenja za disperziju. ∗∗∗ Disperzija je veliˇcina koja je uvijek pozitivna. Zato interval povjerenja moˇzemo traˇziti bilo kao jednostrani (u kojem je lijeva granica fiksna, jednaka nuli, a desna nepoznata), bilo kao dvostrani, u kojima traˇzimo i lijevu i desnu granicu. Jednostrani interval povjerenja. To je interval [0, t] takav da vrijedi P (σ 2 t) = p, za zadanu vrrijednost p (obiˇcno blisku jedinici). Krenimo od uvjeta P χn2 < x1−p = 1 − p i potraˇzimo kvantil x1−p za koji je ovaj uvjet ispunjen. Taj kvantil se za interesantne vrijednosti od p cˇita iz tablica hi kvadrat razdiobe. U tim tablicama on je najˇceˇsc´e 2 oznaˇcen sa χn,1 −p . Dakle, vrijedi 2 P χn2 χn,1 −p = p
Sl. 11.7. Kvantil hi kvadrat razdiobe za jednostrani interval povjerenja.
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
Varijabla
t.j.
nD2 ima χn2 razdiobu. Zato vrijedi σ2 2 nD 2 χ P n,1−p = p, σ2
nD2 P σ 2 χn,1−p 2
= p.
Jednostrani interval povjerenja za disperziju, uz poznato ocˇ ekivanje a
1. Zadaje se nivo pouzdanosti p . 2. Iz tablica kvantila hi kvadrat razdiobe s n stupnjeva slobode, odredi se 2 odgovaraju´ci kvantil χn,1 −p . 3. Izraˇcuna se procjena disperzija dˆ2 iz uzorka x1 , . . . , xn . ndˆ2 . 4. Izraˇcuna se 2 χn,1−p Jednostrani interval povjerenja je ndˆ2 P 0 σ2 2 = p. (11.6) χn,1−p
Dvostrani interval povjerenja. Odredimo sad dvostrani interval povjerenja za disperziju σ 2 , dakle, interval [β1 , β2 ] sa svojstvom P (β1 < σ 2 < β2 ) = p . Postupit c´emo na sljede´ci naˇcin.
Sl. 11.8. Kvantili hi kvadrat razdiobe za dvostrani interval povjerenja. 2 Oznaˇcimo α = 1 − p i odredimo kvantile c1 = χn,2 α /2 i c2 = χn,1 −α /2 . Sad imamo P (χn2 < c1 ) = α /2, P (χn2 < c2 ) = 1 − α /2,
pa je
P (c1 χn2 c2 ) = 1 − α /2 − α /2 = 1 − α = p. - ovih kvantila, jednaka je p . Dakle, povrˇsina ispod funkcije gusto´ce, a izmedu
29
30
11. INTERVALNE PROCJENE
Sluˇcajna varijabla
nD2 ima χn2 razdiobu. Tako dobivamo σ2 P (c1
odnosno
P
nD2 c2 ) = p σ2
nD2 nD2 < σ2 < c2 c1
= p.
Dvostrani interval povjerenja za disperziju, uz poznato ocˇ ekivanje a
1. Zadaje se nivo pouzdanosti p = 1 − α . 2. Iz tablica kvantila hi kvadrat razdiobe s n stupnjeva slobode, odrede se 2 kvantili c1 = χn,2 α /2 , i c2 = χn,1 −α /2 . 2 3. Izraˇcuna se disperzija dˆ uzorka x1 , . . . , xn . ndˆ2 ndˆ2 , β2 = . 4. Izraˇcunaju se β1 = c2 c1 Dvostrani interval povjerenja je P (β1 σ 2 β2 ) = p.
Svojstva hi kvadrat razdioba
Sad c´emo promotriti najˇceˇsc´i sluˇcaj. Za populaciju nam je poznato samo da se ravna po normalnoj razdiobi, ali nam nisu poznati niti oˇcekivanje niti disperzija te razdiobe. Te veliˇcine raˇcunamo iz uzorka pomo´cu njihovih nepristranih statistika: X=
X1 + . . . + Xn , n
1 (Xk − X)2 . n−1 n
S2 =
k=1
Medutim, sada nije jednostavno objasniti koju razdiobu ima sluˇcajna varijabla S2 . Sluˇcajne varijable Xk − X su normalno distribuirane, zato sˇ to i Xk i X imaju normalnu razdiobu, medutim, one nisu nezavisne za razliˇcite vrijednosti od k ! Vrijedi naime (X1 − X) + . . . + (Xn − X) = X1 + . . . + Xn − nX = 0, - njima postoji linearna zavisnost. Pokazat c´emo da (n − 1)S2 ima χ 2 -razdiobu, te medu - njezinim pribrojnicima, broj stupnjeva slomedutim, zbog te linearne zavisnosti medu bode c´e se smanjiti za jedan; bit c´e rijeˇc o χn2−1 razdiobi!
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
31
Teorem 11.2. Neka su X1 , . . . , Xn nezavisne s N (a, σ 2 ) razdiobom. Tada su X i
S nezavisne sluˇcajne varijable! Pri tom (n − 1)S2 ima χn2−1 razdiobu. 2
Dokaz. Definirajmo 1 1 Y1 = √ X1 + . . . + √ Xn , n n Y2 = c21 X1 + . . . + c2n Xn , .. . Yn = cn1 X1 + . . . + cnn Xn . Vektore ck = (ck1 , . . . , ckn ) moˇzemo izabrati tako da budu jediniˇcni te da c1 , . . . , cn cˇine ortonormiranu bazu. Tada je matrica ⎞ ⎛ 1 √ . . . √1 n n ⎜ c21 . . . c2n ⎟ ⎟ A=⎜ ⎠ ⎝ .. . cn1 . . . cnn ortogonalna. ∗∗∗ - njezinim svojstvima izdvojimo Retke ove matrice cˇine vektori c1 , . . . , cn . Medu sljede´ca 1. A−1 = A . Zaista, ⎡ ⎤ c 1 ⎢ ⎥ cj ] = [δij ] = I. A · A = ⎣ ... ⎦ [c1 , . . . , cn ] = [c i c n 2. Po prvom svojstvu, 1 = det(A A) = det(A ) det(A) = det(A)2 te je det(A) = ±1 , odnosno | det(A)| = 1 3. Ortogonalno preslikavanje cˇuva normu: ako je y = Ax , tada imamo
y 2 = yy = x A Ax = xx = x 2 . ∗∗∗ . Imamo Odredimo gusto´cu vektora Y = AX 1 | det(A)| = f (x1 , . . . , xn ) = f X1 (x1 ) · · · f Xn (xn ) n 1 1 = exp − (xk − a)2 . 2 2 n/2 2σ (2πσ ) k=1
g(y1 , . . . , yn ) = f (x1 , . . . , xn ) ·
(11.7)
32
11. INTERVALNE PROCJENE
Transformirajmo zbroj u eksponentu, koriste´ci svojstvo 3 i definiciju za y1 :: n
(xk − a)2 =
k=1
n
x2k − 2a
k=1
n
xk + na2 =
k=1
= (y1 −
√
n a)2 +
n
√ y2k − 2a ny1 + na2
k=1 n
y2k
k=2
Tako dobivamo
√ ) ) n 1 1 (y1 − na)2 y2k √ exp − 2 . g(y1 , . . . , yn ) = √ exp − · 2σ 2 2σ σ 2π σ 2π k=2
Funkcija √ gusto´ce g se faktorizira, pa su Y1 , . . . , Yn nezavisne. Pri tom je Y1 ∼ N (a n, σ 2 ) , te Yk ∼ N (0, σ 2 ) , k = 2, . . . , n . Nadalje, vrijedi (n − 1)S2 =
n
(Xk − X)2 =
k=1
=
n
Xk2 − n(X)2
k=1
Yk2 − Y12 =
k=1
Dakle, (n − 1)S2 =
n
n
Yk2 .
k=2
n
1 Yk2 i X = √ Y1 su nezavisne. Pri tom vrijedi i n k=2 2 n (n − 1)S2 Yk = ∼ χn2−1 σ2 σ k=2
budu´ci su varijable Yk /σ , k = 2, . . . , n nezavisne s jediniˇcnom normalnom razdiobom. Studentova razdioba
Neka su X, X1 , . . . , Xn nezavisne jediniˇcne normalne varijable. Tada kaˇzemo da sluˇcajna varijabla X X t := * =* (X1 + . . . + Xn )/n χn2 /n ima Studentovu razdiobu 1 (ili t -razdiobu) s n stupnjeva slobode. Kad je to vaˇzno, navodimo stupanj slobode u indeksu razdiobe: tn . Gusto´ca tn -razdiobe iznosi − n+1 2 x2 . f (x) = Cn 1 + n gdje je Cn neka konstanta normiranja. 1
William S. Gosset (1876.–1937.), engleski matematiˇcar, objavljivao je radove pod pseudonimom Student.
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
Sl. 11.9. Graf gusto´ce Studentove razdiobe.
Ova se razdioba javlja pri odredivanju intervala povjerenja, kako za oˇcekivanje a , tako i za disperziju σ 2 , ukoliko su obje veliˇcine nepoznate. Da bismo to dokazali, napiˇsimo izraz X−a √ √ X−a σ/ n n= ∼ tn−1 . S (n − 1)S2 /(n − 1) σ2 (n − 1)S2 Naime, brojnik ima N (0, 1) razdiobu, po Teoremu ima χn2−1 -razdiobu i σ2 uz to su brojnik i nazivnik nezavisni. Odatle slijedi tvrdnja. 3. Intervalne procjene za oˇcekivanje uz nepoznatu disperziju
Intervale povjerenja za oˇcekivanje odredujemo na potpuno analogan naˇcin kao u sluˇcaju poznate disperzije. Umjesto kvantila normalne razdiobe, koristit c´emo kvantile Studentove razdiobe. Ti se kvantili uobiˇcajeno oznaˇcuju slovom t . Razdioba je simetriˇcna, pa c´e za odredivanje intervala povjerenja biti dovoljan jedan kvantil. Neka je α = 1 − p i P |tn−1 | t1−α /2 = p. (S lijeve strane nejednakosti nalazi se sluˇcajna varijabla tn−1 , a s desne strane kvantil t1−α /2 .) Sada vrijedi X − a√ P n t1−α /2 = p S i odavde
S S P X − t1−α /2 √ a X + t1−α /2 √ n n
= p.
33
34
11. INTERVALNE PROCJENE
Sl. 11.10. Kvantili tn razdiobe Intervali povjerenja za oˇcekivanje normalne razdiobe, uz nepoznati σ 2
1. Zadaje se nivo pouzdanosti p = 1 − α . 2. Iz tablica kvantila Studentove razdiobe s n − 1 stupnjeva slobode, odredi se odgovaraju´ci kvantil t1−α /2 . 3. Izraˇcuna se procjena sredine x iz uzorka x1 , . . . , xn . 4. Izraˇcuna se procjena disperzije sˆ2 iz uzorka x1 , . . . , xn . sˆ 5. Izraˇcuna se t1−α /2 √ . n Interval povjerenja je sˆ sˆ P x − t1−α /2 √ a x + t1−α /2 √ = p. n n
Primjer 11.2. Sluˇcajna varijabla X ima normalnu razdiobu s nepoznatim parametrima. Odredi toˇckaste procjene za oˇcekivanje i disperziju, te 90%-tni interval povjerenja za oˇcekivanje, na osnovu vrijednosti iz uzorka xj 110 115 120 125 130 135 nj 2 3 6 5 2 2
Izraˇcunajmo sredinu: x = 120 + Takoder,
−20 − 15 + 25 + 20 + 30 = 122. 20
1 970 (2 · 122 + 3 · 72 + 6 · 22 + 5 · 32 + 2 · 82 + 2 · 132 ) = = 51.05. 19 19 Odredimo interval povjerenja za matematiˇcko oˇcekivanje. Vrijedi α = 1−p = 0.1 i 1 − α /2 = 0.95 . Odgovaraju´ci kvantil je (tablice Studentove razdiobe s 19 stupnjeva slobode): t1−α /2 = t0.95 = 1.729 . Odavde sˆ t1−α /2 √ = 2.76 . n Prema tome, 90% -tni interval povjerenja za oˇcekivanje je 122 ± 2.76 . sˆ2 =
11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE
∗∗∗ Pretpostavimo za trenutak da je disperzija populacije bila poznata te da se podudara s ovom izraˇcunatom iz uzorka: σ 2 = 51.05 . U tom bismo sluˇcaju kvantil x1−α /2 dobili iz tablica normalne razdiobe: u0.95 = 1.645 i granica intervala povjerenja bila bi odredena brojem
σ u0.95 √ = 2.63 . n U ovom bi sluˇcaju interval povjerenja bio 122 ± 2.63 . Interval povjerenja uz nepoznatu disperziju uvijek je sˇ iri u odnosu na sluˇcaj poznate disperzije, jer nam je poznato manje informacija o razdiobi populacije. 4. Intervalne procjene za disperziju uz nepoznato oˇcekivanje
Intervale povjerenja za disperziju odredujemo iz statistike n 1 S2 = (X − X)2 . n−1 k=1
U Teoremu 11.1 je dokazano da sluˇcajna varijabla razdiobu s n − 1 stupnjeva slobode.
(n − 1)S2 ima hi kvadrat σ2
Intervali povjerenja za disperziju normalne razdiobe, uz nepoznato oˇcekivanje a
1. Zadaje se nivo pouzdanosti p i odredi α = 1 − p . 2a. Za jednostrani interval, iz tablica kvantila hi kvadrat razdiobe s n − 1 stupnjeva slobode, odredi se odgovaraju´ci kvantil c = xα . 2b. Za dvostrani interval, iz tablica kvantila hi kvadrat razdiobe s n − 1 stupnjeva slobode, odrede se kvantili c1 = χn2−1,α /2 , i c2 = χn2−1,1−α /2 . 3. Izraˇcuna nepristrana procjena disperzije sˆ2 uzorka x1 , . . . , xn . (n − 1)ˆs2 . 4a. Izraˇcuna se β = c (n − 1)ˆs2 (n − 1)ˆs2 4b. Izraˇcunaju se β1 = , β2 = . c2 c1 Jednostrani interval povjerenja je P (0 σ 2 β ) = p. Dvostrani interval povjerenja je P (β1 σ 2 β2 ) = p.
35
36
11. INTERVALNE PROCJENE
11.3. Intervalne procjene za razdiobe razliˇcite od normalne Ukoliko razdioba populacije X nije normalna, tada je praktiˇcki nemogu´ce utvrditi toˇcnu distribuciju za statistike X i S2 . Ipak, tehnike opisane u ovom poglavlju mogu se primjeniti, ukoliko uzorak ima dovoljnu dimenziju. Tu cˇinjenicu treba zahvaliti centralnom graniˇcnom teoremu. Prisjetimo se iskaza tog teorema, danog u § 9.7: Teorem 11.3. Neka je (Xn ) niz identiˇcki distribuiranih nezavisnih sluˇcajnih varijabla s oˇcekivanjem a i disperzijom σ 2 . Oznaˇcimo Zn = X1 + . . . + Xn . Onda vrijedi Zn − na D √ −→ N (0, 1). σ n
To znaˇci da se upute iz ovog poglavlja mogu primjenjivati i u ovom sluˇcaju, s tim da je toˇcnost raˇcuna to bolja sˇ to je ova aproksimacija toˇcnija. Iskustvo pokazuje da je prikladna minimalna veliˇcina uzorka n = 20 za interval povjerenja za oˇcekivanje, te n = 50 za interval povjerenja za varijancu. Primjer 11.3. Neka je veliˇcina izmjerena 25 puta mjernim instrumentom koji nema sistematske pogreˇske, a sluˇcajna pogreˇska je normalna varijabla s odstupanjem σ = 10 μ m . Srednja vrijednost uzorka mjerene veliˇcine je x = 100 μ m . Odredi interval u kojem se s vjerojatnoˇsc´u 0.99 nalazi ta veliˇcina.
Prirodno je pretpostaviti da pogreˇska mjerenja ima normalnu razdiobu, ali je volumen uzorka dovoljno velik da raˇcun ne´ce ovisiti o tome. Ovdje je α = 1 − p = 1 − 0.99 = 0.01 pa je dovoljno odrediti kvantil u1−α /2 = u0.995 = 2.58 . Sada raˇcunamo σ 10 = 5.16 . u1−α /2 √ = 2.58 · 5 n 99%-tni interval povjerenja je [94.84, 105.16] . Interval povjerenja za vjerojatnost dogadaja
U Primjeru 10.7 odredili smo toˇckastu procjenu za vjerojatnost p nekog dogadaja A . Ovaj pokus prati indikatorska sluˇcajna varijabla 0 1 X∼ q p Pokazali smo da je veliˇcina x1 + . . . + xn m = n n nepristrana procjena za vjerojatnost p . Ovdje je m broj realizacija dogadaja A u n ponavljanja pokusa. pˆ =
ˇ 11.3. INTERVALNE PROCJENE ZA RAZDIOBE RAZLICITE
OD NORMALNE
Odredimo sad interval povjerenja za vjerojatnost p . Sluˇcajna varijabla X ima binomnu razdiobu B(1, p) pa zbroj n nezavisnih kopija - binomnu razdiobu: te varijable ima takoder X1 + X2 + . . . + Xn ∼ B(n, p) Ovu razdiobu moˇzemo aproksimirati normalnom razdiobom, s parametrima a = np , σ 2 = npq . Zato je pq 1 . pˆ = (X1 + . . . + Xn ) ≈ N p, n n Definirajmo sad statistiku n pˆ − p Θ= = (pˆ − p). pq pq n Ona ima pribliˇzno jediniˇcnu normalnu razdiobu. Sad moˇzemo odrediti interval povjerenja reda 1 − α za tu razdiobu: P (−u1−α /2 < Θ < u1−α /2) = 1 − α . Radi jednostavnosti zapisivanja u nastavku, oznaˇcit c´emo ovaj kvantil s c = u1−α /2 . Dakle: n P −c < (pˆ − p) < c = 1 − α . p(1 − p) Da bismo odavde dobili interval povjerenja za vjerojatnost p , moramo ove nejednakosti razrijeˇsiti po p : n |pˆ − p| < c. p(1 − p) Nejednakost ekvivalentna ovoj je n(pˆ − p)2 < c2 p(1 − p). Sve toˇcke u ravnini koje zadovoljavaju ovu nejednakost leˇze unutar elipse nacrtane na sljede´coj slici. Primjetite da ta elipsa prolazi toˇckama (0, 0) i (1, 1) .
Sl. 11.11. Interval povjerenja za vjerojatnost p , u ovisnosti o sredini x .
37
38
11. INTERVALNE PROCJENE
Nakon sredivanja, dobivamo kvadratnu jednadˇzbu s pozitivnim vode´cim koeficijentom: (n + c2 )p2 − (2npˆ + c2 )p + npˆ2 < 0. Ako su p1 < p2 rjeˇsenja odgovaraju´ce jednadˇzbe, onda je [p1 , p2 ] interval povjerenja za veliˇcinu p . Rjeˇsavaju´ci kvadratnu jednadˇzbu dobivamo ˆ − p) ˆ p(1 c2 c2 pˆ + ∓c + 2 2n n 4n p1,2 = (11.8) c2 1+ n Ova se formula moˇze zamjeniti jednostavnijom ukoliko je c2 zanemariv prema broju n . Ta je uvjet prihvatljiv ukoliko je n ve´ci od 100, jer za kvantil c obiˇcno vrijedi c 2. Zanemarimo li cˇlanove u prethodnom izrazu u kojima se pribraja cˇlan c2 , dobivamo jednostavni izraz ˆ − p) ˆ p(1 p1,2 = pˆ ∓ c . n Intervalna procjena za vjerojatnost p dogadaja
- A raˇcuna se pomo´cu relativne frekvencije Procjena vjerojatnosti p dogadaja pojavljivanja tog dogadaja: m pˆ = . n Interval povjerenja za vjerojatnost reda 1 − α jest P (p1 p p2 ) = 1 − α pri cˇemu se rubovi raˇcunaju formulom ˆ − p) ˆ p(1 p1,2 = pˆ ∓ u1−α /2 . (11.9) n Ve´ca se toˇcnost postiˇze koriˇstenjem formule (11.8).
- njima Primjer 11.4. Anketa radena na uzorku od 300 osoba utvrila je da 210 medu
ne podrˇzava trenutnu vladinu mirovinsku politiku. Odredite 90% interval povjerenja za postotak populacije koja ne podrˇzava tu politiku. Vjerojatnost izraˇcunata iz uzorka je 210 pˆ = = 0.7 300 sˇ to daje toˇckovnu procjenu od 70% . Interval povjerenja raˇcunat c´emo formulom (11.9). Odgovaraju´ci kvantil je u1−α /2 = u0.95 = 1.64 pa dobivamo 0.7 · 0.3 β1,2 = 0.7 ∓ 1.64 · = 0.7 ∓ 0.04339 . 300
ˇ 11.3. INTERVALNE PROCJENE ZA RAZDIOBE RAZLICITE
Dakle,
OD NORMALNE
P (0.657 < p < 0.743) = 0.9 .
Prema formulama (11.8) dobili bismo P (0.655 < p < 0.741) = 0.9 . Primjer 11.5. Deset na sre´cu odabranih studenata prve godine rjeˇsavalo je probni test i sˇ estorica su ga poloˇzila. Koliki je postotak svih studenata te godine koji bi s pouzdanoˇsc´u od 95% rjeˇsilo taj test?
Uzorak je premalog volumena da bismo koristili jednostavniju formulu (11.9). Procjena postotka: m 6 pˆ = = = 0.6, n 10 Za kvantil vrijedi α = 1 − 0.95 = 0.05 pa je 1 − α /2 = 0.975 i u0.975 = 1.96 . Sad dobivamo, prema formuli (11.8) β1,2 = 0.57225 ∓ 0.25958 pa je traˇzeni interval P (0.313 < p < 0.832). Raˇcunaju´ci prema (11.9) dobili bismo: P (0.296 < p < 904). Vidimo da su intervalne procjene vrlo neprecizne za malene volumene uzorka. Intervalna procjena parametra eksponencijalne razdiobe
Sluˇcajna varijabla X ima eksponencijalnu razdiobu, X ∼ E(λ ) . Njezina je gusto´ca f (x) = λ e−λ x , Znamo da vrijedi E(X) =
1 , λ
x > 0. D(X) =
1 . λ2
Pretpostavimo da je parametar λ nepoznat. Pokazali smo da je njegova toˇckasta procjena 1 λˆ = . x Odredimo sad interval povjerenja za tu procjenu. U ovom sluˇcaju moˇzemo odrediti toˇcnu razdiobu za statistiku X . Naime, sluˇcajne varijable X1 , . . . , Xn su nezavisne, s eksponencijalnom razdiobom E(λ ) , zato zbroj X1 + . . . + Xn ima gama razdiobu s parametrima n i λ . (Vidi §8.2.) Tu razdiobu nazivamo Erlangova razdioba, a njezina je gusto´ca h(x) =
λ n xn−1 −λ x e , (n − 1)!
x > 0.
39
40
11. INTERVALNE PROCJENE
Zato sredina X ima gusto´cu nn λ n xn−1 −λ nx , x > 0. e (n − 1)! Teorijski, odavde bismo mogli izraˇcunati interval povjerenja, na temelju poznate realizacije x = x . Ovakav bi raˇcun imao smisla za maleni volumen uzorka. Medutim, ako je n dovoljno velik, mnogo je jednostavnije aproksimirati zbroj X1 + . . . + Xn normalnom n n razdiobom s parametrima i . Tako sredina ima pribliˇzno razdiobu λ λ2 1 1 X≈N , 2 . λ nλ g(x) =
Neka je p zadani nivo pouzdanosti, α = 1−p i u1−α /2 kvantil normalne razdiobe. Onda je 1 1 1 1 P − u1−α /2 √ < x < + u1−α /2 √ = p. λ λ λ n λ n Odavde slijedi
P
√ √ 1 − u1−α /2/ n 1 + u1−α /2/ n <λ < = p. x x
Primjer 11.6. Trajanje zˇ arne niti je sluˇcajna varijabla s eksponencijalnom razdiobom. Uzorak od 100 zˇ arnih niti je promatran, i on je dao srednju vrijednost 260 sati. Koliki je 95%-tni interval povjerenja za oˇcekivano vrijeme zˇ ivota zˇ arne niti?
Ovdje je α = 1 − p = 0.05 , u1−α /2 = u0.975 = 1.96 . To nam daje sljede´ci interval povjerenja reda 0.95 : 1 + 1.96/10 1 − 1.96/10 <λ < 260 260 0.00309 < λ < 0.00460 Zato za oˇcekivanje vrijedi 217.4 < E(X) < 323.4 , s vjerojatnoˇsc´u 0.95. Interval povjerenja za parametar Poissonove razdiobe
Neka sluˇcajna varijabla X ima Poissonovu razdiobu s nepoznatim parametrom λ :
λ k −λ k = 0, 1, . . . e , k! Znamo da vrijedi E(X) = λ , D(X) = λ . Zato je razdioba sredine X za veliki broj n λ . Odatle slijedi pribliˇzno normalna, X ∼ N λ , n λ P |X − λ | < u1−α /2 = p. n Za zadanu vrijednost x sredine, iz ove nejednakosti moramo odrediti interval za λ . P (X = k) =
ˇ 11.3. INTERVALNE PROCJENE ZA RAZDIOBE RAZLICITE
41
OD NORMALNE
Skup svih toˇcaka u ravnini koje zadovoljavaju nejednakost (λ − x)2 <
u21−α /2
n leˇze unutar parabole skicirane na sljede´coj slici:
λ
(11.10)
Sl. 11.12. Interval povjerenja za parametar Poissonove razdiobe.
Za sadanu vrijednost x , rubovi intervala λ1 i λ2 odrede se rjeˇsavanjem kvadratne nejednadˇzbe (11.10). Primjer 11.7. Broj poziva na centrali je Poissonova sluˇcajna varijabla. Biljeˇzeni su pozivi u svakoj minuti jednog sata i dobivena je srednja vrijednost x = 5.8 . Odredimo 95%-tni interval povjerenja za parametar λ .
Volumen uzorka je dovoljno velik i aproksimacija normalnom razdiobom c´e biti odliˇcna. Raˇcunamo u21−α /2 = 0.064 n pa trebamo rijeˇsiti kvadratnu nejednadˇzbu Njezina su rjeˇsenja λ1,2 λ < 6.44 .
(λ − 5.8)2 < 0.064 λ . = 5.832 ∓ 0.61 . tako dobivamo interval povjerenja 5.22 <
42
11. INTERVALNE PROCJENE § 11. Zadatci za vjeˇzbu
1. Rezultati mjerenja normalne sluˇcajne varijable X dani su u tablici: xj 20 21 22 23 24 25 nj
2
1
3
2
1
1
Odredi interval unutar kojeg se s vjerojatnoˇsc´u 0.95 nalazi oˇcekivana vrijednost sluˇcajne varijable X . 2. Zabiljeˇzene su sljede´ce realizacije normalne slucˇajne varijable X : −2 −1 0 1 2 3 4 5 xj nj
2
1
2
3
2
2
2
1
Izraˇcunaj interval unutar kojeg se s vjerojatnoˇsc´u 0.95 nalazi oˇcekivanje sluˇcajne varijable X . 3. Iz populacije koja se podvrgava normalnom zakonu N(m, 4) izvuˇcen je sljede´ci uzorak: xj
0
1
2
3
4
nj
1
4
6
12
2
Odredi 90 % interval za matematiˇcko oˇcekivanje a . 4. Rezultati 11 mjerenja neke veliˇcine dani su u tablici: 6.0 9.2 9.8 9.9 10,3 10,3 10,9 11.6 11.8 12.5 14.0 Greˇska pri mjerenju je normalna varijabla bez sistematske pogreˇske. Odredi procjenu za matematiˇcko oˇcekivanje i disperziju, kao i 95 % interval za matematiˇcko oˇcekivanje. 5. Iz generalnog skupa koji ima normalnu razdiobu sa devijacijom σ = 0.5 i nepoznatim oˇcekivanjem, izvuˇcen je uzorak volumena 8 : 16 , 16 , 16 , 16.2 , 16.2 , 16.2 , 16.5 , 16.5 Odredi procjenu i 90 % interval za matematiˇcko oˇcekivanje a .
6. Rezultati nekog mjerenja dani su u tablici. Greˇska pri mjerenju je normalna varijabla, s oˇcekivanjem 0 i nepoznatom devijacijom σ . Odredi procjenu za mjerenu veliˇcinu, kao i 95 % interval unutar kojeg se ona nalazi. 64 65 66 67 68 xj nj
3
4
8
5
2
7. Iz populacije koja se podvrgava normalnom zakonu izvuˇcen je sljede´ci uzorak: 110 115 120 125 130 135 xj nj
2
3
6
5
2
2
Izraˇcunaj procjenu i 90 % interval za matematiˇcko oˇcekivanje i disperziju. 8. Iz populacije koja se podvrgava normalnom zakonu N(a, 4) izvuˇcen je sljede´ci uzorak: xj 0 1 2 3 4 5 nj
1
4
6
10
5
2
Odredi procjenu i 90 % interval za matematiˇcko oˇcekivanje a . 9. Iz populacije koja se podvrgava normalnom zakonu N(a, σ 2 = 3) izvuˇcen je sljede´ci uzorak xj 0 1 2 3 4 nj
1
5
8
10
3
Odredi 90 % interval za matematiˇcko oˇcekivanje a . 10. Na izlaznoj anketi, od 200 glasaˇca za kandidata A svoj je glas dalo 110 glasaˇca. Odredi (a) 95%, (b) 99% interval pouzdanosti za postotak glasova za tog kandidata. (c) S kojom vjerojatnoˇsc´u c´e taj kandidat biti izabran? (d) Koliko velik uzorak treba biti da bi taj izbor bio siguran uz nivo znaˇcajnosti 5%?
12.
Testiranje hipoteza
1. 2. 3. 4.
Hipoteze. Kriteriji i pogreˇske odluˇcivanja Testiranje parametarskih hipoteza . . . . . Usporedbe dviju populacija . . . . . . . . . Testovi prilagodbe razdiobama . . . . . . . Zadatci za vjeˇzbu . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. 43 . 48 . 62 . 66 . 75
12.1. Hipoteze. Kriteriji i pogreˇske odlucˇ ivanja Razmatranje u ovom poglavlju zapoˇcet c´emo sljede´cim primjerom Primjer 12.1. U specifikacijama pisaˇca navodi se brzina ispisa od 50 stranica u minuti. Pisaˇc je testiran na ispisu razliˇcitih materijala. Vrijeme ispisa u minutama podijeljeno je s brojem stranica, da se dobije prosjeˇcan ispis u minuti. Na uzorku od 30 ispisa, dobivena je srednja vrijednost 46 stranica, uz standardnu devijaciju s = 6 . Odgovaraju li svojstva pisaˇca specifikaciji?
- ca bismo prihvatili ako Ovdje se radi o provjeri hipoteze. Tvrdnju proizvodaˇ mjerenja pokaˇzu da za srednju brzinu ispisa vrijedi a = 50 (ili viˇse). Na temelju rezultata dobivenih u uzorku ne moˇzemo nikad biti sasvim sigurni je li ponudena hipoteza ispravna ili ne. Svaki naˇs zakljuˇcak moˇze biti donesen samo s odredenom vjerojatnoˇsc´u, koja je iskazana kroz nivo pouzdanosti. Pravilo je sljede´ce: da bismo odbacili neku hipotezu, vjerojatnost pogreˇsne odluke mora bili malena. Obiˇcno se kao prag tolerancije za pogreˇsku uzima α = 0.05 ili cˇak α = 0.01 . U uvodnom primjeru, dobivena srednja vrijednost 46 razlikuje se od specifikacije za 46 − 50 = −4 . Je li ta razlika zanemariva posljedica sluˇcajnosti, ili je ona statistiˇcki znaˇcajna (signifikantna)? Odgovorimo na ovo pitanje. Da bismo donijeli kriterij odluˇcivanja, nuˇzno nam je definirati test. 43
44
12. TESTIRANJE HIPOTEZA
U tu svrhu promotrit c´emo sluˇcajnu varijablu T=
X−a √ . S/ n
Ona ima Studentovu razdiobu s n − 1 stupnjeva slobode. Graf gusto´ce te funkcije dan je na sljede´coj slici
Sl. 12.1. Gusto´ca Studentove razdiobe s naznaˇcenim kritiˇcnim podruˇcjem.
Izaberimo nivo pouzdanosti α = 0.01 . Studentova razdioba je simetriˇcna, pa za kvantil x0.01 vrijedi x0.01 = −x0.99 . Iz tablica Studentove razdiobe iˇscˇitava se vrijednost ovog kvantila, za 29 stupnjeva slobode: x0.99 = 2.46 . To znaˇci da za sluˇcajnu varijablu T vrijedi P (T > −2.46) = 0.99 , ukoliko je hipoteza a = 50 istinita. U konkretnom primjeru dobivamo sljede´cu vrijednost varijable T : t=
x−a 46 − 50 √ √ = = −3.65 sˆ/ n 6/ 30
Ova je razlika ve´ca (po apsolutnom iznosu) od dopuˇstene vrijednosti x0.01 = −2.46 . Dobivena realizacija varijable T nalazi se izvan 99% -tnog intervala povjerenja. Zato je razumno odbaciti hipotezu a 50 . Vjerojatnost pogreˇske koju smo pri tom moˇzda naˇcinili manja je od nivoa signifikantnosti α = 0.01 . Da se sluˇcajno zbilo t > x0.01 tad hipotezu o brzini ispisa a = 50 ne bismo mogli odbaciti (uz taj nivo znaˇcajnosti). Snaga testa
Neka je Λ skup svih mogu´cih parametara ϑ . Hipoteza se najop´cenitije definira kao podskup od Λ . Prava vrijednost parametra nije nam poznata. Zato ne moˇzemo sa sigurnoˇsc´u utvrditi je li hipoteza o vrijednosti tog parametra istinita ili ne. Test c´e pruˇziti kriterij odluˇcivanja. Idealan test bi utvrdio da je hipoteza istinita onda i samo onda kad parametar zaista pripada podruˇcju pokrivenom tom hipotezom.
ˇ ˇ 12.1. HIPOTEZE . KRITERIJI I POGRE SKE ODLU CIVANJA
Snaga testa
Snaga testa je funkcija S : Λ → [0, 1] definirana ovako: S(ϑ ) = P ({prihva´cena je alternativa H1 })
Da bismo objasnili znaˇcenje ovog pojma, ilustrirajmo ga na primjerima. - cˇija je vjerojatnost p nepoznata. (Nepoznati parametar ϑ Neka je A dogadaj ovdje je oznaˇcen s p .) Postavili smo hipotezu: H0
...
vjerojatnost p manja je od 0.2 .
Alternativa ovoj hipotezi moˇze biti npr. 1.
H1
...
vrijedi p 0.2 .
Alternativa ne mora biti komplementna hipotezi. Tako npr., ona moˇze glasiti 2.
H1
...
vrijedi p 0.5 ,
ili cˇak se moˇze “preklapati” s hipotezom: 3.
H1
...
vrijedi p 0.1 ,
Prava vrijednost parametra p nije nam poznata. Mogu´ce vrijednosti su svi brojevi iz intervala [0, 1] . Zato je Λ = [0, 1] Idealan test u ovoj situaciji imao bi sljede´cu snagu: 0, p ∈ H0 , S(p) = 1, p ∈ H1 U sluˇcaju 1. snaga idealnog test bila bila bi stepenasta funkcija. U sluˇcaju 2. idealni test ne postoji, jer se hipotreze dijelom preklapaju. U sluˇcaju 2., primjer snage idealnog testa dan je na sljede´coj slici:
Sl. 12.2. Snaga idealnog testa
U praksi, ovakav je test nemogu´ce uspostaviti. U odnosu na njihovu snagu, ponekad je mogu´ce usporedivati kvalitetu testova.
45
46
12. TESTIRANJE HIPOTEZA
Sl. 12.3. Usporedba kvalitete testova pomo´cu njihove snage
Na slici lijevo prikazane su snage dvaju testova od kojih je prvi bolji od drugog. Naime, funkcija snage manja je na podruˇcju prihva´canja hipoteze H0 a ve´ca je na podruˇcju prihva´canja alternative H1 . Testovi cˇije su snage prikazane na slici desno nisu usporedljivi. Snaga testa odreduje i pogreˇske koje se mogu naˇciniti prihva´canjem pogreˇsne odluke. Pogreˇska prve i druge vrste
Definirajmo
α = sup S(ϑ ). ϑ ∈H0
Ovaj broj oznaˇcava maksimalnu vjerojatnost da je prihva´cena alternativa H1 , iako je istinita H0 . Broj α naziva se pogreˇska prve vrste. Na isti naˇcin, broj β = sup 1 − S(ϑ ) ϑ ∈H1
definira pogreˇsku druge vrste. Ona daje maksimalnu vjerojatnost da je prihva´cena hipoteza H0 , iako je istinita H1 . Pogreˇska prve vrste nastoji se ograniˇciti. U praktiˇcnim primjerima, zadaje se obiˇcno α = 0.05 . Primjer 12.2. (Snaga testa) Populacija se sastoji od velikog broja istovjetnih proizvoda. Svaki od njih moˇze biti loˇs, s vjerojatnoˇsc´u p , ili dobar, s vjerojatnoˇsc´u 1 − p . Ta nam je vjerojatnost nepoznata. Postavljamo hipotezu: H0 . . . p 0.2 . Neka njoj alternativa bude H1 . . . p 0.6 .
Da bismo provjerili je li nulta hipoteza istinita, moramo definirati test. Izbor razliˇcitih testova praktiˇcki je neograniˇcen. Opredijelili smo se za ovaj:
ˇ ˇ 12.1. HIPOTEZE . KRITERIJI I POGRE SKE ODLU CIVANJA
Test 1. Izaberemo dva proizvoda iz populacije. Ako su oba dobra, prihva´ca se hipoteza H0 . Ako su oba loˇsa, odbacuje se H0 (t.j. prihva´ca se alternativa H1 ). Ako je jedan dobar i jedan loˇs, izabire se novi proizvod i prihva´ca H0 ukoliko je on dobar. U protivnom se prihva´ca H1 . Odredi snagu ovog testa i pogreˇske prve i druge vrste. Snaga testa jednaka je vjerojatnosti da c´emo prihvatiti alternativu H1 , ukoliko je vrijednost parametra jednaka p . Situacija u kojima c´e se to dogoditi je sljede´ca: oba proizvoda su loˇsa, ili je jedan - njima loˇs i onda i tre´ci izabrani ponovo loˇs. Vjerojatnost da se to dogodi je: medu S(p) = p2 + 2 · p(1 − p) · p = p2 (3 − 2p). Nacrtajmo graf ove funkcije. Promatramo je samo na intervalu [0, 1] . Na tom je intervalu to rastu´ca funkcija. Njezini su ekstremi u toˇckama x = 0 (minimum) m(0, 0) i p = 1 (maksimum) M(1, 1) . Toˇcka infleksije je ( 12 , 12 ) . Od bitne vaˇznosti je i toˇcka A(0.2, 0.104) . Podruˇcje na kojim bi morala biti prihva´cena hipoteza H0 je interval [0, 0.2] . Maksimum funkcije S na tom intervalu postiˇze se upravo u toˇcki A . Zato je pogreˇska prve vrste α = 0.104 . Pogreˇska druge vrste jednaka je β = 1 − S(0.6) = 0.352. Izbor testa mora voditi raˇcuna o veliˇcini ovih pogreˇsaka. U ovom je testu pogreˇska druge vrste neprihvatljivo velika. Medutim, smanjenje jedne pogreˇske najˇceˇsc´e ima za posljedicu pove´canje druge. Primjer 12.3. Za situaciju opisanu u prethodnom primjeru, predloˇzeni se test moˇze napisati na ovaj naˇcin: - tri izabrana proizvoda bude najviˇse Test 1. Prihva´ca se hipoteza H0 ako medu jedan loˇs. U protivnom, prihva´ca se alternativa H1 . Poop´cimo taj test na sljede´ci: - n izabranih proizvoda bude najviˇse Test 2. Prihva´ca se hipoteza H0 ako medu jedan loˇs. U protivnom, prihva´ca se alternativa H1 . Odredimo n tako da odnos pogreˇski prve i druge vrste bude optimalan.
Vjerojatnost prihva´canja hipoteze H0 je: (1 − p)n + n(1 − p)n−1p = (1 − p)n−1 (1 + (n − 1)p). Zato je
S(p) = 1 − (1 − p)n−1(1 + (n − 1)p).
Derivacija ove funkcije je pozitivna na intervalu [0, 1] , pa je ondje ta funkcija rastu´ca. Vrijedi S(0) = 0 i S(1) = 1 . Kritiˇcne vrijednosti za pogreˇsku prve i druge vrste dobivaju se u toˇckama p = 0.2 i p = 0.6 :
α = S(0.2) = 1 − 0.8n−1 (1 + 0.2(n − 1)), β = 1 − S(0.6) = 0.4n−1 (1 + 0.6(n − 1)).
47
48
12. TESTIRANJE HIPOTEZA
Iznosi tih pogreˇsaka za nekoliko poˇcetnih vrijednosti broja n dane su u ovoj tablici: n 2 3 4 5 6
α 0.040 0.104 0.181 0.263 0.345
β 0.640 0.352 0.179 0.087 0.041
Za test ovog tipa, izbor n = 4 daje najuravnoteˇzenije pogreˇske prve i druge vrste. Na sljede´coj slici nacrtan je graf funkcije snage testa za n = 4 i naznaˇcene pogreˇske prve i druge vrste.
Sl. 12.4. Snage testa za hipotezu H0 i njezinu alternativu, i pogreˇske obiju vrsta.
Nakon sˇ to upoznamo tehniku odluˇcivanja, u nastavku c´emo se ponovo vratiti na ovaj problem i ponuditi povoljniji test.
12.2. Testiranje parametarskih hipoteza Pretpostavit c´emo da razdioba sluˇcajne varijable ovisi o nepoznatom parametru ϑ . O tom parametru mogu postojati neke pretpostavke. Sa H0 oznaˇcit c´emo primarnu hipotezu H0 . . . ϑ = ϑ0 . Njoj opreˇcna je alternativa, na primjer: H1
...
ϑ = ϑ1 .
Funkcija gusto´ce varijable X ovisi o tome koja je od ovih pretpostavki istinita. Ilustrirajmo to slikom.
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
Sl. 12.5. Gusto´ca razdioba za svaku od hipoteza.
U ovisnosti o izabranom testu, treba prihvatiti neku od hipoteza. Mogu se zbiti cˇetiri situacije: 1. Prihva´cena je istinita hipoteza H0 . 2. Odbaˇcena je istinita hipoteza H0 (a prihva´cena neistinita alternativa H1 .) 3. Prihva´cena je neistinita hipoteza H0 . 4. Prihva´cena je istinita hipoteza H1 . Sluˇcajevi 2. i 3. predstavljaju pogreˇske koje smo ve´c analizirali. Iskazat c´emo ih s naglaskom na hipotezu H0 . Pogreˇska I. vrste: Odbaˇcena je istinita hipoteza H0 . Pogreˇska II. vrste: Prihva´cena je neistinita hipoteza H0
Sl. 12.6. Gusto´ca razdioba za svaku od hipoteza i pogreˇske prve odnosno druge vrste.
∗∗∗ Odabir testa kod parametarskih hipoteza iznimno je jednostavan. U situaciji s prethodne slike test glasi ovako: Test
Izabere se kritiˇcna vrijednost xα . Ukoliko je realizacija statistike ve´ca od xα , prihva´ca se hipoteza H0 . (Pri tom je moˇzda uˇcinjena greˇska II. vrste maksimalnog iznosa β .) Ukoliko je realizacija statistike manja od xα , odbacuje se hipoteza H0 . (Pri tom je moˇzda uˇcinjena greˇska I. vrste maksimalnog iznosa α .) O naˇcinu izbora kritiˇcne vrijednosti xα bit c´e rijeˇci u nastavku.
49
50
12. TESTIRANJE HIPOTEZA Primjer 12.4. Prosjeˇcna masa jabuka prve kvalitete iznosi a0 = 30 dag, uz standardnu devijaciju s0 = 3 dag. Prosjeˇcna masa jabuka druge kvalitete je a1 = 26 dag, uz standardnu devijaciju s1 = 4 dag. Izabrana je jabuka iz nasumce odabrane skupine. Njezina je masa a = 28 dag. Pripada li ona jabukama prve kvalitete? Kolike su vjerojatnosti pogreˇsaka I. i II. vrste?
Hipoteza i njezina alternativa su: H0 = {jabuka je prve kvalitete}, H1 = {jabuka je druge kvalitete}.
Sl. 12.7. Gusto´ca razdioba za svaku od hipoteza.
Prirodno je pretpostaviti da je razdioba populacije normalna. Ukoliko je hippoteza H0 istinita, rijeˇc je o razdiobi N (30, 9) . Ako je istinita alternativa, rijeˇc je o razdiobi N (26, 16) . Sad je potrebno izraˇcunati vjerojatnosti α = P (X 28 | H0 ) i β = P (X 28 | H1 ) . Raˇcun daje X − 30 28 − 30 1 1 α=P = − Φ∗ (0.666) = 0.253 , 3 3 2 2 X − 26 28 − 26 1 1 β =P = − Φ∗ (0.5) = 0.309 . 4 4 2 2 Prema ovim brojevima, treba prihvatiti hipotezu H1 , jer je pripadna vjerojatnost ve´ca. Dakako, hipoteza H0 joˇs uvijek moˇze biti istinita. Pogreˇska prve vrste iznosi 0.253. Izbori alternative. Utjecaj na greˇsku II. vrste
U parametarskim hipotezama zadana nam je vrijednost parametra koja odgovara temeljnoj hipotezi H0 : H0 ... h = ϑ0 . Postoje tri uobiˇcajena naˇcina za odabir alternative: ϑ = ϑ1 > ϑ0 , 1. ϑ = ϑ1 < ϑ0 , 2. ϑ = ϑ1 = ϑ0 . 3. Alternative 1. i 2. su jednostrane alternative, a 3. je dvostrana alternativa. U testovima ovog tipa mogu´ce je utvrditi pogreˇsku I. i II. vrste. Ukoliko vrijednost parametra koja odgovara alternativi nije odredena, tada alternativa npr. glasi ϑ > ϑ0
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
i pogreˇsku druge vrste nije mogu´ce jednostavno utvrditi. U testovima s ovakvim alterbativama zadaje se samo pogreˇska prve vrste. ∗∗∗ Prihva´canje odnosno odbacivanje hipoteze H0 temelji se na sljede´cem testu:
Testiranje parametarskih hipoteza — jednostrani testovi
Zadaje se nivo znaˇcajnosti α . Na temelju poznate razdiobe uz pretpostavljenu istinitost hipoteze H0 odrede se 1. Kvantil x1−α (za jednostranu alternativu ϑ > ϑ0 ), ili 2. Kvantil xα za jednostranu alternativu ϑ < ϑ0 , Hipoteza H0 se odbacuje ukoliko vrijednost xˆ varijable izraˇcunate iz uzorka padne van intervala povjerenja reda 1 − α : xˆ > x1−α , u prvom sluˇcaju, odnosno xˆ < xα , u drugom sluˇcaju. U protivnom se hipoteza ne moˇze odbaciti (t.j. prihva´ca se).
Za dvostrane hipoteze, naˇcin izbora kvantila se podruˇcje odbacivanja se mijenja:
Testiranje parametarskih hipoteza — dvostrani test
Zadaje se nivo znaˇcajnosti α . Na temelju poznate razdiobe uz pretpostavljenu istinitost hipoteze H0 odrede se kvantili xα /2 i x1−α /2 . za dvostranu alternativu ϑ = ϑ0 . Hipoteza H0 se odbacuje, ukoliko vrijednost xˆ varijable izraˇcunate iz uzorka padne van intervala povjerenja reda 1 − α : ili xˆ < xα /2. xˆ > x1−α /2 U protivnom se hipoteza ne moˇze odbaciti (t.j. prihva´ca se).
Ove su situacije ilustrirane na sljede´coj slici:
51
52
12. TESTIRANJE HIPOTEZA
Sl. 12.8. Podruˇcje prihva´canja hipoteze H0 .
∗∗∗ Raˇcun koji treba naˇciniti pri provjeri hipoteza nalikuje onom u odredivanju intervala povjerenja. Uvjerimo se u to na primjeru testova koji slijede. U -test: nepoznato oˇcekivanje i poznata disperzija
Razdioba populacije je normalna, s poznatom disperzijom σ 2 . Hipoteza se odnosi na vrijednost oˇcekivanja: H0 ... a = a0 Statistika na temelju koje c´e se napraviti test je X − a0 √ σ/ n Ako je hipoteza H0 istinita, onda je razdioba ove statistike normalna, U ∼ N (0, 1) . U=
U -test
Zadaje se nivo znaˇcajnosti α . Na temelju njega, odredi se kvantil 1. u1−α , u sluˇcaju jednostranih alternativa, te 2. u1−α /2 , u sluˇcaju dvostranih alternativa. Izraˇcuna se vrijednost uˆ statistike dobivena iz uzorka. Test glasi: 1. Ako je uˆ > u1−α (za desnu alternativu), ili uˆ < −u1−α (za lijevu alternativu), hipoteza H0 se odbacuje. ˆ > u1−α /2 (za dvostranu alternativu), hipoteza H0 se odbacuje. 2. Ako je |u| U protivnom se ta hipoteza ne moˇze odbaciti.
Primjer 12.5. Gradska je uprava dobila ponudu za nabavu jeftinijih zˇ arulja za javnu rasvjetu. Srednji vijek trajanja postoje´cih zˇ arulja je 1200 sati, uz standardnu devijaciju od 150 sati. Gradska uprava c´e odabrati na novi tip zˇ arulja, osim ako se uz nivo znaˇcajnosti α = 0.05 pokaˇze da su loˇsije kvalitete. Testirano je 100 zˇ arulja i dobivena je srednja vrijednost xˆ = 1160 . Pretpostavla se da je standardna devijacija nepromijenjena. Ho´ce li se uprava odluˇciti za kupovinu novih zˇ arulja?
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
Hipoteza koju testiramo je ... H0 Njoj je alternativa ... H1
53
a = a0 = 1200. a = a1 < a0 .
Rijeˇc je o jednostranom testu sa zadanom pogreˇskom prve vrste α = 0.05 . Razdioba koja odgovara hipotezi H0 je N (1200, 1502 ) . U tom sluˇcaju, sluˇcajna varijabla X − a0 √ σ/ n ima jedniˇcnu normalnu razdiobu. Za vrijednost dobivenu iz uzorka je xˆ − a0 1160 − 1200 √ √ = u= 100 = −2.67 . 150 σ/ n Kritiˇcna vrijednost za zadani nivo znaˇcajnosti je uα = −u1−a = −u0.95 = −1.645 . Dobivena vrijednost je ispod kritiˇcne, pa se hipoteza H0 treba odbaciti. Nove su zˇ arulje loˇsije kvalitete. - za pakiranje sˇ e´cera radi sa standardnom devijacijom 2 graPrimjer 12.6. Uredaj
- ukoliko neto sadrˇzaj ne ma. Povremeno se obavlja kontrola s ciljem korekcije uredaja odgovara nominali. Uzorak od 100 paketa dao je srednju vrijednost x = 999 grama. Provjeri uz α = 0.01 hipotezu o ispravnosti uredaja. Hipoteza o ispravnosti je ... a = a0 = 1000. H0 Alternativa je dvostrana: ... a = a0 . H1 Zato raˇcunamo kritiˇcni kvantil u1−α /2 = u0.995 = 2.58 . Vrijednost statistike je x − a0 999 − 1000 √ √ = 100 = −5 < uα /2. 2 σ/ n Hipoteza o ispravnosti mora se odbaciti. U=
T -test: nepoznato oˇcekivanje i nepoznata disperzija
Razdioba populacije je normalna, s nepoznatom disperzijom σ 2 . Hipoteza se odnosi na vrijednost oˇcekivanja: H0 ... a = a0 Statistika na temelju koje c´e se napraviti test je T=
X − a0 √ S/ n
54
12. TESTIRANJE HIPOTEZA
Ako je hipoteza H0 istinita, onda je razdioba ove statistike Studentova, s n−1 stupnjem slobode. Studentova je razdioba simetriˇcna, pa su i kvantili simetriˇcni: tα = −t1−α . Zato je oblik testa identiˇcan onom za normalnu razdiobu, s tim da se kvantili uα normalne razdiobe zamijene s kvantilima tα Studentove razdiobe s n − 1 stupnjem slobode. Primjer 12.7. Centar za medicinska istraˇzivanja najavio je da raspolaˇze s takvim naˇcinom lijeˇcenja visokog krvnog pritiska kojim se ovaj moˇze smanjiti za 20 jedinica. Lijeˇcnik je isprobao postupak na 10 pacijenata i ustanovio da je prosjeˇcno smanjenje pritiska x = 18 jedinica, uz odstupanje sˆ = 4.2 . Provjeri uz nivo znaˇcajnosti α = 0.05 je li tvrdnja o postupku istinita.
Radi se o jednostranoj hipotezi uz nepoznatu disperziju. Temeljna je hipoteza H0 . . . a = a0 = 20, a njezina alternativa H1 . . . a < a0 . Sluˇcajna varijabla T=
X − a0 √ n S
ima Studentovu razdiobu s 9 stupnjeva slobode. Odgovaraju´ci kvantil je t0.05 = −t0.95 = −1.83. Vrijednost dobivena iz uzorka, uz istinitost hipoteze H0 , je x − a0 √ 18 − 20 √ tˆ = n= 10 = −1.51 . 4.2 sˆ Ova je vrijednost ve´ca od kritiˇcne. Zato se hipoteza ne moˇze odbaciti. Ako bismo odbacili hipotezu, uˇcinjena pogreˇska mogla bi biti ve´ca od 0.05 . Hipoteza o proporciji
Nepoznata vjerojatnost p nekog svojstva populacije pokuˇsava se odrediti na temelju uzorka. Ako u uzorku od n elemenata m od njih ima to svojstvo, tada za p uzimamo vrijednost m/n . Osnovna hipoteza je H0 ... p = p0 a alternative biramo, na primjer, u obliku H1 ... p = p1 > p0 (desna) jednostrana alternativa. Vrijednost m ima binomnu razdiobu B(n, pq p) ≈ N (np, npq) . Zato sluˇcajna m varijabla X = ima razdiobu X ≈ N p, . n n
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
Pretpostavimo da je H0 istinita i odaberimo statistiku m − p0 m X − p0 n n √ = U= . − p0 = n p0 q0 σ/ n p0 q0 n Ukoliko je H0 istinita, ova statistika ima pribliˇzno razdiobu N (0, 1) . Hipotezu H0 c´emo odbaciti, ukoliko se ostvari uˆ > u1−α . Za sluˇcaj lijeve jednostrane hipoteze, ili dvostrane hipoteze, ovaj se test korigira na istovjetan naˇcin kao u U -testu. Primjer 12.8. Uprava velike pivovare razmatra prijedlog da se na trˇziˇste plasira veleboca piva sadrˇzine 2.5 L. U proizvodnju c´ e se krenuti ako najmanje 60% potroˇsaˇca to - 200 potroˇsaˇca, od kojih se 95 izjasnilo u prilog novoj zˇ eli. Napravljena je anketa medu ambalaˇzi. Uz nivo znaˇcajnosti α = 0.05 utvrdite ho´ce li se pokrenuti ta proizvodnja.
Ovdje je n = 200 , m = 95 , p0 = 0.6 . Alternativa je lijeva jednostrana, p < p0 . Statistika poprima vrijednost: m n U= = −3.61. − p0 n p0 q0 Kritiˇcna vrijednost kvantila je uα = −u1 − α = −u0.95 = −1.645 . Hipoteza H0 mora se odbaciti. Veleboca c´e priˇcekati. ∗
Snaga U -testa
Ponovimo osnovne pretpostavke o U -testu. Osnovna populacija ima normalnu razdiobu N (a, σ 2 ) , disperzija σ 2 je poznata. Osnovna hipoteza je H0 ... a = a0 . Statistika testa: U=
X − a0 √ . σ/ n
Razdioba statistike je N (0, 1) , ukoliko je hipoteza H0 istinita. Za alternativu ... a > a0 H1 podruˇcje odbacivanja hipoteze H0 glasi: uˆ > u1−α , gdje je α zadana pogreˇska prve vrste. Odredimo snagu ovog jednostranog testa. Ona ovisi o nepoznatom parametru a . Prema definiciji snage testa, S(a) = P ({prihva´ca se H1 , ako je oˇcekivanje jednako a}) = P (U > u1−α | a) S je oˇcito rastu´ca funkcija. Za a < a0 vrijedi stoga S(a) < S(a0 ) pa za pogreˇsku prve vrste α vrijedi α = sup S(a) = S(a0 ). a∈H0
55
56
12. TESTIRANJE HIPOTEZA
Pretpostavimo sad da je prava vrijednost oˇcekivanja jednaka a . Oˇcekivanje statistike U u ovom sluˇcaju je E(U) = E
X − a0 √ σ/ n
=
a − a0 √ . σ/ n
Oznaˇcimo broj zdesna sa z , E(U) = z . razdioba statistike je sada U=
X − a0 √ ∼ N (z, 1). σ/ n
Alternativa H1 bit c´e prihva´cena ako statistika poprimi vrijednost ve´cu od kritiˇcne u1−α . Na sljede´coj slici nacrtane su gusto´ce razdioba N (0, 1) , koja odgovara hipotezi H0 , i razdiobe N (z, 1) , koja odgovara alterantivi E(X) = a .
Sl. 12.9. Gusto´ca razdioba statistike za vrijednost a = a0 i bilo koji a .
Vjerojatnost dogadaja {U > u1−α } , uz uvjet E(X) = a vidi se iz grafa gusto´ce razdiobe N (z, 1) . To je naznaˇceno podruˇcje ispod grafa te funkcije, desno od u1−α . Tom podruˇcju odgovara istovjetno isod grafa gusto´ce razdiobe N (0, 1) , desno od u1−α − z . To c´emo koristiti u sljede´cem raˇcunu: S(a) = P (U > u1−α ) = P (U − z = u1−α − z) = P (N (0, 1) > u1−α − z) a − a0 √ ). = 1 − Φ(u1−α − z) = 1 − Φ(u1−α − σ/ n Ovdje je Φ funkcija razdiobe jediniˇcne normalne sluˇcajne varijable. Na primjer, za a = a0 dobivamo: S(a0 ) = 1 − Φ(u1−α ) = 1 − (1 − α ) = α , sˇ to je u skladu s prije izvedenim. Graf ove snage dan je na sljede´coj slici:
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
57
Sl. 12.10. Snaga U -testa.
∗∗∗
Snaga dvostranog U -testa moˇze se izraˇcunati ovako: S(a) = P (|U| > u1−α /2 | a) = P (U < uα /2 | a) + P (U > u1−α /2 | a). Posljednju vjerojatnost znamo: P (U > u1−α /2 | a) = 1 − Φ(u1−α /2 −
a − a0 √ ) σ/ n
Zbog svojstva simetrije normalne razdiobe, prvu pribrojnik dobivamo zrcaljenjem ove funkcije oko pravca a = a0 :
Sl. 12.11. Simetrija doprinosa snage dvostranog testa.
Zbrajanjem ove dvije funkcije dobiva se snaga za dvostrani U -test.
58
12. TESTIRANJE HIPOTEZA
Sl. 12.12. Snaga dvostranog U -testa.
∗
Pogreˇske prve i druge vrste i veliˇcina uzorka
U statistiˇckim testovima obiˇcno se zadaje maksimalna veliˇcina pogreˇske prve vrste α . To moˇze imati za posljedicu veliku pogreˇsku druge vrste β . Ova situacija vidi se na sljede´coj slici:
Sl. 12.13. Pogreˇske prve i druge vrste u sluˇcaju bliskih hipoteza.
Pretpostavimo da se radi o uzorku iz normalne populacije. Pove´canje volumena uzorka ima za posljedicu smanjenje odgovaraju´ce disperzije. Standardna devijacija smanjuje se proporcionalno korijenu veliˇcine uzorka. Prema tome, pove´canje volumena ima za posljedicu jaˇce razgraniˇcenje odgovaraju´cih gusto´ca pojedinih hipoteza.
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
Sl. 12.14. Utjecaj pove´canja volumena uzorka.
Promotrimo dvije situacije u kojima se pojavljuje ovo pitanje.
Primjer 12.9. U uzorku iz normalne populacije pretpostavljena vrijednost sredine je H0 . . . a = a0 . Alternativa ovome je H1 . . . a = a1 > a0 . Vjerojatnosti pogreˇsaka prve i druge vrste su zadane i iznose α i β . Koliko velik mora biti uzorak da bi se te pogreˇske mogle poˇstovati? Kako c´e glasiti test, ukoliko je a0 = 50 , a1 = 52 , σ = 5 te α = 0.01 i β = 0.05 ?
Ukoliko vrijedi hipoteza a = a0 , sredina uzorka X ima normalnu razdiobu N (a0 , σ 2 /n) . To znaˇci da statistika Θ=
X − a0 √ σ/ n
ima jediniˇcnu normalnu razdiobu. Medutim, ako je istinita alternativa a = a1 , onda je razdioba te statistike takoder normalna s istom disperzijom, ali joj je oˇcekivanje E(Θ | a = a1 ) =
E(X | a = a1 ) − a0 a1 − a0 √ √ . = σ/ n σ/ n
Grafovi gusto´ca ovih dviju razdoba dani su na slici. Graf desno, koji odgovara alternativi H1 , dobiven je iz grafa koji odgovara hipotezi H0 translacijom za iznos a1 − a0 √ . σ/ n
59
60
12. TESTIRANJE HIPOTEZA
Sl. 12.15. Gusto´ce vjerojatnosti za hipotezu i alternativu.
- kvantilima sljede´ca: Sa slike vidimo da je veza medu a1 − a0 √ = −u1−β . u1−α − σ/ n Odavde dobivamo minimalnu vrijednost za volumen n : 2 u1−α + u1−β n= ·σ , a1 − a0
(12.1)
koju treba zaokruˇziti na ve´ci prirodni broj. U zadanom primjeru, vrijednosti kvantila su u1−α = u0.99 = 2.33 i u1−β = u0.95 = 1.64 pa vrijedi 2 2.33 + 1.64 · 5 = 98.5 . n 52 − 20 Minimalan broj pokusa mora biti 99. Hipoteza H0 c´e se prihvatiti ukoliko bude x − a0 √ < u1−α σ/ n t.j.
σ x < a0 + √ · u1−α = 51.17 . n
ˇ Primjer 12.10. Zelimo testirati ispravnost bacanja novˇci´ca. Temeljna hipoteza je da je naˇcin bacanja ispravan: p = 0.5 . 1. Vjerojatnost odbacivanja te hipoteza, kad je ona ispravna, mora biti najviˇse 0.05. 2. Formiramo alternativu: |p − 0.5| > 0.1 . Vjerojatnost prihva´canja temeljne hipoteze, kad je alternativa istinita, mora biti najviˇse 0.05. Koliki je minimalni broj bacanja potreban da bi se poˇstivali ovi uvjeti? Kako c´e glasiti test?
12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA
Ovdje se radi o dvostranom testu. Neka je X broj pisama koji c´e se pojaviti u n bacanja. Onda je X ∼ B(np, npq) . Vjerojatnost c´emo raˇcunati pomo´cu relativne frekvencije X pˆ = . n pq . Ova varijabla ima pribliˇzno normalnu razdiobu pˆ ∼ N p, n Neka je p0 vjerojatnost koja odgovara hipotezi H0 , a p1 ona koja odgovara alternativi. p q 0 0 . Ako je istinita H1 , onda je Ako je istinita H0 , onda vrijedi pˆ ∼ N p0 , n p q 1 1 . pˆ ∼ N p1 , n Nacrtajmo grafove gusto´ca ovih razdioba:
Sl. 12.16. Gusto´ce vjerojatnosti za hipotezu i alternativu.
Sa slike vidimo:
x−p x−p 0 = u1−α /2, 1 = −u1−β . p0 q0 p1 q1 n n Eliminacijom varijable x dobivamo vezu: p0 q0 p1 q1 x = p0 + u1−α /2 = p1 − u1/β . n n Odavde je √ √ u1−α /2 p0 q0 + u1−β p1 q1 2 n= p1 − p0 U konkretnom je primjeru p0 = 0.5 , p1 = 0.6 , u1−α /2 = u0.975 = 1.96 , u1−β = u0.95 = 1.64 . Uvrˇstavanjem dobivamo n = 318.06 . Minimalni broj bacanja je n = 319 . Za taj broj dobivamo p0 q0 ˆ p = p0 ± u1−α /2 = 0.5 ± 0.0549 . n Sada je npˆ = 159.5 ± 17.5 . Prema tome, prihvatit c´emo hipotezu ako broj pisama bude - 142 i 177. izmedu
61
62
12. TESTIRANJE HIPOTEZA
12.3. Usporedbe dviju populacija Preciznim uredajem mjerena su svojstva nekog elementa. Radi vaˇznosti ispitivanja, ta su ista svojstva mjerena drugim uredajem. Tako su dobivena dva niza podataka. Kako c´emo analizirati te podatke? Na primjer, kako c´emo odrediti sredinu i disperziju populacije? Ako se pojavila razlika u sredinama pri ta dva mjerenja, je li ona ukazuje na razliˇcita svojstva mjernih uredaja, ili je posljedica sluˇcajnosti koja se treba tolerirati? Na ta i na joˇs neka pitanja odgovorit c´emo u ovom poglavlju. Hipoteza o sredinama, uz poznatu disperziju
Teorijski c´emo model postaviti ovako. Zadane su dvije sluˇcajne varijable, X s razdiobom F1 i Y s razdiobom F2 . Pretpostavljat c´emo da su te varijable nezavisne. Te varijable generiraju uzorke: X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym ,
s razdiobom F1 , s razdiobom F2 .
Prvo pitanje na koje c´emo djelomiˇcno odgovoriti jest: kako se moˇze provjeriti jesu li neki parametri razdioba F1 i F2 identiˇcni? Promotrit c´emo sljede´cu situaciju: X ∼ N (μ , σX2 ) , Y ∼ N (ν, σY2 ) . Osnovna hipoteza je: H0 ... μ = ν. U postupku analize koristit c´emo statistiku X − Y . σ2 - Y ima normalnu Znamo da X ima normalnu razdiobu ∼ N μ , X . Takoder, n σ2 razdiobu ∼ N ν, Y . Sluˇcajne varijable X1 , . . . , Xn i Y1 , . . . , Ym su nezavisne, pa m vrijedi E(X − Y) = E(X) − E(Y) = μ − ν, D(X − Y) = D(X) + D(Y) =
σX2 σ2 + Y. n m
Oznaˇcimo zbog kratko´ce ovu zajedniˇcku disperziju s
σX2 σ2 + Y. n m Zbroj nezavisnih normalnih varijabla ima normalnu razdiobu. Zato vrijedi: σz2 =
X − Y ∼ N (μ − ν, σz2 ). U testu c´emo koristiti statistiku U=
X−Y . σz
12.3. USPOREDBE DVIJU
63
POPULACIJA
Njezina je teorijska razdioba
μ −ν ,1 U∼N σz
Ako je hipoteza H0 istinita, tada je U ∼ N (0, 1) . Zato se u testu moˇze primjenjivati uobiˇcajeni U -test. Za mogu´ce alternative, kriterij za odbacivanje hipoteze glasi: H1 H1 H1
ν<μ ν>μ ν>μ
... ... ...
(desna) (lijeva) (obostrana)
uˆ > u1−α , uˆ < −u1−α , ˆ > u1−α /2, |u|
Da bi rezultati bili smisleni, oba uzorka moraju biti istog reda veliˇcine. - ca A imao je srednju Primjer 12.11. Uzorak od m = 40 cˇ eliˇcnih zˇ ica proizvodaˇ
- ca B dao cˇvrsto´cu na kidanje x = 1190 kg. Uzorak od m = 50 cˇeliˇcnih zˇ ica proizvodaˇ je srednju cˇvrsto´cu y = 1220 kg. Standardna devijacija za oba uzorka je poznata i iznosi 90 kg. Postoji li razlika u cˇvrsto´ci ovih zˇ ica? Ocjenu treba dati uz nivo znaˇcajnosti α = 0.05 . Postupimo prema uputama. Primjenit c´emo test o dvostranoj alternativi, zanemaruju´ci rezultate dobivene uzorkom. 1 Standardno odstupanje zajedniˇckog uzorka je 1 1 σz = σ + = 19.09 n m Vrijednost statistike, uz pretpostavljenu uspravnost hipoteze o jednakim oˇcekivanjem, je x−y = −1.57 . uˆ = σz ˆ < 1.96 , Kritiˇcna vrijednost kvantila je u1−α /2 = u0.975 = 1.96 Budu´ci da je |u| hipoteza o jednakosti ne moˇze se odbaciti. Hipoteza o sredinama, uz nepoznatu disperziju
Pretpostavimo sad da su uzorci X1 , . . . , Xn i Y1 , . . . , Ym nezavisni s normalnom razdiobom uz jednaku disperziju cˇiji iznos nije poznat. U tom sluˇcaju raˇcunamo procjenu disperziju iz uzorka: n m 1 1 SX2 = (Xi − X)2 , SY2 = (Yj − Y)2 . n−1 m−1 i=1
j=1
Zajedniˇcka disperzija uzorka raˇcuna se kao teˇzinska sredina ovih disperzija: 1 (n − 1)SX2 + (m − 1)SY2 . SZ2 = n+m−2 1 Ova je strategija jedina ispravna, jer rezultat dobiven uzorkom ne smije modificirati izricanje hipoteza. Iz istog razloga u principu unaprijed zadajemo nivo znaˇcajnosti, a ne prilagodavamo ga dobivenim rezultatima.
64
12. TESTIRANJE HIPOTEZA
Sluˇcajna varijabla U=
(X − μ ) − (Y − ν ) 1 1 σ + n m
ima jediniˇcnu normalnu varijablu. Sluˇcajna varijabla W2 =
(n − 1)SX2 + (m − 1)SY2 σ2
ima hi kvadrat razdiobu s m + n − 2 stupnjeva slobode. Zato sluˇcajna varijabla √ U n+m−2 W ima Studentovu razdiobu s m + n − 2 stupnjeva slobode. Time smo pokazali da je distribucija sluˇcajne varijable (X − Y) − (μ − ν ) nm(n + m − 2) * 2 2 n+m (n − 1)SX + (m − 1)SY Studentova razdioba s m + n − 2 stupnjeva slobode. Pretpostavimo da je hipoteza H0 o jednakosti oˇcekivanja istinita. U tom sluˇcaju moˇzemo koristiti statistiku X−Y nm T= . SZ n+m Njezina je razdioba Studentova, s n + m − 2 stupnjeva slobode. Hipoteza o jednakosti proporcija
U uzorcima veliˇcina n1 i n2 broj objekata s danim svojstvima iznosi m1 odnosno m2 . Time dobivamo relativne frekvencije m1 m2 , pˆ2 = . pˆ1 = n1 n2 ˇ Zelimo odrediti test za hipotezu o jednakosti ovih proporcija. Varijabla m1 ima binomnu razdiobu B(n1 , p ) , varijabla m2 ima binomnu razdiobu B(n2 , p ) . Temeljna hipoteza jest da je vjerojatnost realizacije u oba uzorka jednaka: ... p = p H0 Pretpostavimo da je ta hipoteza istinita i oznaˇcimo s p zajedniˇcku vjerojatnost. Neka je σ 2 = p(1 − p) . Sada imamo m1 σ2 1 ∼ B(n1 , p) ≈ N p, , n1 n1 n1 σ2 1 m2 ∼ B(n2 , p) ≈ N p, . n2 n2 n2
12.3. USPOREDBE DVIJU
65
POPULACIJA
Zato za razliku proporcija vrijedi
σ2 σ2 + . pˆ1 − pˆ2 ∼ N 0, n1 n2 Time moˇzemo definirati statistiku pˆ1 − pˆ2 U=+ . σ2 σ2 + n1 n2
Njezina je distribucija N (0, 1) . Vrijednost disperzije σ 2 nije poznata, pa je aproksimiramo pomo´cu cjelokupnog uzorka: m1 + m2 p= , σ 2 = p(1 − p). n1 + n2 Primjer 12.12. Od 100 anketiranih muˇskaraca 30 je gledalo televizijsku emisiju. Tu istu emisiju gledalo je 45 od 120 anketiranih zˇ ena. Uz nivo znaˇcajnosti α = 0.05 provjerite hipotezu da je jednak postotak muˇskaraca i zˇ ena koji su gledali tu emisiju.
Izraˇcunajmo potrebne veliˇcine. Zadano je m1 = 30 , n1 = 100 , m2 = 45 , n2 = 120 pa je pˆ1 = 0.3 i pˆ2 = 0.375 . Nadalje * 75 m1 + m2 = σ = p(1 − p) = 0.474 . p= = 0.34, n1 + n2 220 Vrijednost statistike je pˆ1 − pˆ2 0.3 − 0.375 U= = = −1.16 . 1 1 1 1 σ + 0.474 + n1 n2 100 120 Kritiˇcna vrijednost kvantila za dvostrani test je u1−α /2 = u0.975 = 1.96 . Hipoteza o jednakosti proporcija ne moˇze se odbaciti. Primjer 12.13. Poljoprivredni institut ispituje utjecaj gnojiva na novi nasad. U tu - njima prinos je bio svrhu, 150 parcela od 400 ostalo je nezagnojeno. Na 77 medu zadovoljavaju´ci. Preostalih 250 je gnojeno, a zadovoljavaju´ci prinos se dobio na 158 parcela. Uz nivo znaˇcajnosti α = 0.05 testirajmo hipotezu da gnojenje ne utjeˇce na prinos te kulture.
Sada je m1 = 77 , n1 = 150 , m2 = 158 , n2 = 250 . Raˇcunamo: pˆ2 = 0.632, p = 0.588, σ = 0.492. pˆ1 = 0.513, Vrijednost statistike je n1 n2 pˆ1 − pˆ2 uˆ = = −2.34 σ n1 + n2 Rijeˇc je o jednostranoj (lijevoj) hipotezi, jer se pretpostavlja da gnojenje pove´cava prinos. Zato je kvantil uα = −u1−α = −u0.95 = −1.645 . Rezultat pokazuje da se hipoteza mora odbaciti.
66
12. TESTIRANJE HIPOTEZA
12.4. Testovi prilagodbe razdiobama U svim dosadaˇsnjim razmatranjima odredivali smo procjene ili intervale povjerenja za nepoznate parametre poznate razdiobe. Ako razdioba sluˇcajne varijable nije poznata, moˇzemo li na temelju vrijednosti uzorka otkriti o kojoj se razdiobi radi? Kolika je pouzdanost takvog zakljuˇcka? Na ta pitanja najbolji odgovor daje χ 2 -test (Pearsonov test). χ2 -test
Pretpostavimo da sluˇcajna varijabla X ima nepoznatu razdiobu F . Cilj hi kvadrat testa jest provjeriti hipotezu o vrsti te razdiobe. Ideja testa temelji se na sljede´cem. Podruˇcje vrijednosti sluˇcajne varijable X razbije se na disjunktne intervale Ak , k = 1, . . . , m . Uz pretpostavku da je hipoteza o razdiobi istinita, odrede se teorijske vjerojatnosti pk = P (X ∈ Ak ). Zbroj ovih vjerojatnosti iznosi p1 + . . . + pm = 1. Na temelju realizacija sluˇcajne varijable X , odredi se broj realizacija nk koji pripada pojedinom razredu. Zbroj svih tih realizacija jednak je volumenu uzorka: n1 + . . . + nm = n. Oznaˇcimo s Yk sluˇcajnu varijablu koja mjeri broj realizacija unutar razreda Ak . To je binomna sluˇcajna varijabla Yk ∼ B(n, pk ) . Njezina oˇcekivana vrijednost je npk . na taj naˇcin moˇzemo usporedivati dvije vjerojatnosti: pk teorijska vjerojatnost k-tog razreda, nk vjerojatnost k-tog razreda dobivena iz uzorka. n nk Ukoliko je hipoteza o razdiobi toˇcna, tada razlike − pk moraju biti malene. n Zato je prirodno uzeti kao mjeru odstupanja od teorijske razdiobe sljede´cu teˇzinsku varijantu zbroja najmanjih kvadrata: 2 m nk tk − pk . n k=1
Teˇzinske faktore c´emo odabrati tako da bude tk = n/pk . Razlog za ovaj odabir jest sˇ to c´e ova suma dobiti oblik. m (nk − npk )2 . npk k=1
Pearson 1 je pokazao da ova sluˇcajna varijabla (vrijednosti brojeva nk ovise o realizaciji uzorka) ima pribliˇzno χ 2 -razdiobu, s n − 1 stupnjeva slobode. 1
Karl Pearson (1857.–1936.), engleski matematiˇcar
12.4. TESTOVI PRILAGODBE RAZDIOBAMA
67
Dokaz te tvrdnje moˇze se naslutiti iz oblika pribrojnika. Sluˇcajna varijabla Y − npk * k npk (1 − pk ) ima oˇcekivanje 0 i disperziju 1 , pa se moˇze aproksimirati razdiobom U ∼ N (0, 1) . To znaˇci da kvadrat te varijable ima pribliˇzno U 2 razdiobu, pa je onda i (nk − npk )2 ≈ U2. npk Zbroj ovakvih sluˇcajnih varijabli ima χ 2 razdiobu. Broj stupnjeva slobode smanjen je za 1, jer varijable Y1 , . . . , Ym nisu nezavisne, njihov zbroj iznosi n . Nazivnik npk (1 − pk ) zamijenjen je s npk da bi se dobila bolja aproksimacija. Dokaz ovog teorema o aproksimaciji ne moˇzemo navesti na ovom mjestu. Umjesto toga, izvest c´emo transformaciju u najjednostavnijem sluˇcaju m = 2 . Tu je n = n1 +n2 i 1 = p1 + p2 pa imamo (n1 − np1 )2 [n − n1 − n(1 − p1 )]2 (n1 − np1 )2 (n2 − np2 )2 + = + np1 np2 np1 np2 2 (n1 − np1 ) 1 (n1 − np1 )2 1 = + = . n p1 p2 np1 (1 − p1 ) Dobivena sluˇcajna varijabla ima pribliˇzno razdiobu U 2 , sˇ to je i trebalo pokazati u ovom sluˇcaju. ∗∗∗ U primjenama vrlo cˇesto poznajemo samo tip razdiobe, ali ne i sve njezine parametre. Tada nepoznate parametre raˇcunamo iz uzorka. To ima za posljedicu smanjenje stupnjeva slobode odgovaraju´ce χ 2 razdiobe. Opiˇsimo sad algoritam. Hi kvadrat test
1. Uzorak {x1 , x2 , . . . , xn } podijelimo u m razreda. Neka je nk broj realizacija u pojedinom razredu, te pk teorijska vjerojatnost pojedinog razreda. Minimalni volumen pojedinog razreda treba biti 5, razrede za koje je nj < 5 spajamo s njima susjednim. 2. Statistika χ 2 -testa dana je s m (nj − npj )2 χq2 = npj k=1
χq2
Sluˇcajna varijabla ima pribliˇzno χ 2 razdiobu s f = m − r − 1 stupnjeva slobode. Tu je r broj parametara razdiobe izraˇcunatih iz uzorka. 2 3. U tablicama proˇcitamo kvantil χkrit = χf2,1−α , za zadani nivo znaˇcajnosti α i broj stupnjeva slobode f . 2 , prihva´ca se hipoteza da se razdioba varijable X 4. Ako je χq2 < χkrit podvrgava dotiˇcnom zakonu. U protivnom, ta se hipoteza odbacuje.
68
12. TESTIRANJE HIPOTEZA
Primjer 12.14. Na jednom streliˇstu gadano je u 100 meta, u svaku s po 10 metaka.
Biljeˇzen je broj pogodaka u svaku od meta: j
0 1 2
nj
0 2 4 10 22 26 18 12 4 2
3
4
5
6
7
8 9 10 0
S kojom vjerojatnoˇsc´u se moˇze tvrditi da se on ravna po binomnom zakonu? Spojit c´emo prva tri i posljednja tri razreda. Prvi parametar binomne razdiobe je 10 . Nepoznati parametar p binomne razdiobe odredit c´emo iz uzorka. U tu svrhu, iskoristit c´emo vezu parametra s oˇcekivanjem: E(X) = 10p . Vrijedi 1 nj · j = 5.0 . n j=0 10
x= Zato je p =
x 10
= 0.5 .
Prema tome, hipoteza koju testiramo glasi X ∼ B(10, 12 ) . Teorijske frekvencije pojedinog razreda su 1 j 1 10−j 1 10 10 pj = = . j j 210 2 2 Sad moˇzemo popuniti tablicu: j 0 1 2 3 4 5 6 7 8 9 10
nj 0) 2 4 10 22 26 18 12 4) 2 0 100
pj
nj − npj
(nj −npj )2 npj
0.0546
0.540
0.053
0.1172 0.2051 0.2466 0.2051 0.1172
−1, 720 1, 490 1.340 −2.510 0.280
0.252 0.108 0.073 0.307 0.007
0.0546
0.540
0.053
χq2 = 0.854
S obzirom da je u ovoj tablici preostalo 7 razreda, a jedan parametar je dobiven iz uzorka, broj stupnjeva slobode je k = 7 − 1 − 1 = 5 . Uvidom u tablicu kvantila hi kvadrat razdiobe s 5 stupnjeva slobode cˇitamo: 2 2 χ0.02 = 0.75 , χ0.05 = 1.14 . Prema tome X se ravna po binomnoj razdiobi uz nivo znaˇcajnosti α = 0.95 .
12.4. TESTOVI PRILAGODBE RAZDIOBAMA
69
Primjer 12.15. Provjeravaju se dimenzije iz uzorka naˇcinjenog na preciznom tokarskom automatu, s toˇcnoˇsc´u od 1 μ m . U tablici su dana odstupanja od nominalne vrijednosti, svrstani u intervale [aj , aj+1 ] zadanih duljina. Provjeri hipotezu da se odstupanja ravnaju po normalnoj razdiobi, uz nivo znaˇcajnosti 5% .
aj −∞ −15 −10 −5 0 5 10 15 20 25
aj+1 −15 −10 −5 0 5 10 15 20 25 +∞
nj 9 12 14 17 43 45 23 15 14 8
Volumen uzorka iznosi n = 200 . Svi razredi su dovoljne veliˇcine, pa je m = 10 . Parametre razdiobe izraˇcunat c´emo iz uzorka. S obzirom da je varijabla neprekinutog tipa (razbijena u razrede), svaki c´emo razred predstaviti reprezentantom, brojem xj koji leˇzi u sredini intervala. Za prvi i posljednji interval uzet c´emo ekvidistantne brojeve x1 = −17.5 i x10 = 27.5 . 1 x= nj xj = 5.375 n Na isti naˇcin raˇcunamo i disperziju uzorka: 1 2 m2 = nj xj = 148.25 n Odavde je σˆ 2 = m2 − x2 = 119.36, pa je nepristrana procjena za disperziju n σˆ 2 = 119.96 . sˆ2 = n−1 Odavde je sˆ = 10.95 . Prema tome, testiramo hipotezu X ∼ N (5.375, 10.952 ) . Da bismo odredili teorijske frekvencije razreda, izraˇcunat c´emo i upisati u tablicu iznos brojeva zj , koji odgovaraju granicama intervala aj , ali za odgovaraju´cu jediniˇcnu normalnu razdiobu Z : aj − x zj = . sˆ Zatim se u tablicama potraˇze vrijednosti normalne razdiobe u tim toˇckama. te se vrijednosti upiˇsu u sljede´ci stupac tablice. One su potrebne da bi se izraˇcunale teorijske vjerojatnosti: 1 pj = P (aj X aj+1 ) = P (zj Z zj+1 ) = [Φ∗ (zj+1 ) − Φ∗ (zj )] 2
70
12. TESTIRANJE HIPOTEZA
Ostali stupci tablice popune se odgovaraju´cim vrijednostima. aj −∞ −15 −10 −5 0 5 10 15 20 25 +∞
nj
xj
9 12 14 17 43 45 23 15 14 8 200
−17.5 −12.5 −7.5 −2.5 2.5 7.5 12.5 17.5 22.5 27.5
zj −∞ −1.86 −1.40 −0.947 −0.491 −0.034 0.422 0.879 1.34 1.79 +∞
Φ∗ (zj ) −1 −0.937 −0.840 −0.657 −0.376 −0.027 0.327 0.620 0.818 0.927 1
pj
(nj −npj )2 npj
0.031 0.049 0.092 0.140 0.175 0.177 0.147 0.099 0.054 0.037 1
1, 17 0.52 1.02 4.33 1.88 2.57 1.37 1.15 0.91 0.06 14.97
U ovoj tablici rub prvog intervala a0 = −20 zamijenjen je s −∞ , a rub posljednjeg intervala a10 zamijenjen je s +∞ . Tako je vrijednost funkcije Φ∗ u tim toˇckama jenaka −1 odnosno 1 . To je uˇcinjeno da bi zbroj svih teorijskih vjerojatnosti iznosio 1. Broj stupnjeva slobode je k = m − r − 1 = 7 . Kritiˇcna vrijednost kvantila χ 2 2 razdiobe je χ0.95 = 14.1 . Dobivena vrijednost je ve´ca od graniˇcne, pa se hipoteza o normalnoj razdiobi mora odbaciti. Raˇcun u ovoj tablici naˇcinjen je programom Excell. Ve´cina statistiˇckih izraˇcuna moˇze se vrlo jednostavno raˇcunati uporabom tog programa. To se pogotovo odnosi na programe specijalizirane za primjenu u matematiˇckoj statistici. Relativne frekvencije i rekonstrukcija funkcije razdiobe
Pretpostavimo da nam je nepoznata funkcija razdiobe populacije X . Moˇzemo li tu funkciju odrediti na temelju vrijednosti koje sluˇcajna varijabla poprima? Neka je x bilo koji realni broj. Definirajmo funkciju μn (x) Fn (x) = n pri cˇemu je μn (x) = broj elemenata uzorka {X1 , . . . , Xn } koji su manji od x. Primjer 12.16. Nacrtajmo graf funkcije Fn , ako je uzorak poprimio vrijednosti
−2, 3, −1.5, 0.4, 2, 5, −1, 2.2, −0.3, 1.7 . Volumen uzorka n iznosi 10. Vrijednosti u uzorku poredamo u rastu´cem poretku: −2, −1.5, −1, −0.3, 0.4, 1.7, 2, 2.2, 3, 5 . Prema definiciji funkcije Fn , ona c´e biti stepenasta funkcija sa skokovima iznosa 1 1 = u ovim toˇckama. n 10
12.4. TESTOVI PRILAGODBE RAZDIOBAMA
71
Sl. 12.17. Funkcija razdiobe uzorka (skokovi ne odgovaraju podatcima iz primjera).
∗∗∗ Vrijednosti funkcije Fn ovise o realizaciji uzorka. Ona je sluˇcajna varijabla tog uzorka. Teorem 12.1. Statistika Fn (x) je nepristrana i valjana procjena za vrijednost slucˇ ajne varijable F(x) .
Dokaz. Oznaˇcimo, za svaki k iz skupa {1, . . . , n} : p = P (Xk < x) = F(x), q = P (Xk x) = 1 − F(x). Tada sluˇcajna varijabla μn (x) ima binomnu razdiobu B(n, p) . Stoga vrijedi 1 1 E(Fn (x)) = E(μn (x)) = · np = p = F(x). n n Nadalje, prema slabom zakonu velikih brojeva, vrijedi B(n, p) − np P −→ 0 n pa dobivamo P
|Fn (x) − F(x)| −→ 0. Dakle, Fn (x) je valjana procjena za F(x) . Iskoristimo li jaki zakon velikih brojeva, zakljuˇcit c´emo da u ovom sluˇcaju vrijedi i mnogo jaˇca tvrdnja: Teorem Glivenko-Cantellija Teorem 12.2. Neka su (Xn ) nezavisne kopije sluˇcajne varijable X s razdiobom
F . tada vrijedi
Dakle,
μn (x) lim P sup − F(x) = 0 = 1. n→∞ n x
μn (x) konvergira ka F(x) skoro sigurno. n
72
12. TESTIRANJE HIPOTEZA Kolmogorovljev kriterij
Ovim testom provjeravamo hipotezu o ravnanju podataka dobivenih uzorkom prema nekoj razdiobi s poznatom funkcijom razdiobe F . Kriterij se temelji na teoremu Glivenko-Cantellija prema kojem niz (Fn (x)) funkcija razdioba dobivenih iz uzorka konvergira prema funkciji razdiobe F(x) . To znaˇci da c´e maksimum razlike tih dviju funkcija teˇziti u nulu, ukoliko je F(x) zaista funkcija razdiobe koja odgovara uzorku. Definirajmo sluˇcajnu varijablu √ λ := n · sup |F(x) − Fn (x)|. x
Kolmogorov je odredio zakon razdiobe ove sluˇcajne varijable. Njezini kvantili su izraˇcunati i zapisani u tablicama. Za zadani nivo pouzdanosti p , kvantil ove razdiobe λp proˇcita se u tablicama. Hipotezu o ravnanju uzorka prema teorijskoj razdiobi c´emo odbaciti, ukoliko je dobivena vrijednost ve´ca od kritiˇcne: λ > λp . U protivnom, hipotezu prihva´camo (ili je ne moˇzemo odbaciti). - prvih 800 decimala broja π pojavljuju Primjer 12.17. Znamenke 0,1,2,. . . ,9 medu
se 74-92-83-79-80-73-77-75-76-91 puta. Kad bi te znamenke bile sluˇcajne, s kojom - njima moˇze pojaviti na vjerojatnoˇsc´u bi mogli prihvatiti tvrdnju da se svaka medu nekom mjestu decimalnog zapisa s jednakom vjerojatnoˇsc´u? Funkcije Fn (x) i F(x) su stepenaste, sa skokovima u toˇckama 0, 1, 2, . . . , 9 , Iznos skoka funkcije F iznosi 0.1 , a iznos skoka funkcije Fn omjer je broja realizacija pojedine znamenke i ukupnog broja znamenaka. Eksplicitne formule su: j+1 F(x) = , j x < j + 1, 10 1 ni , j x < j + 1. Fn (x) = n ij+1
Vrijednosti tih funkcija iˇscˇitavaju se iz ove tablice: xj 0 1 2 3 4 5 6 7 8 9
nj 74 92 83 79 80 73 77 75 76 91
Fn (x) 0.093 0.208 0.311 0.410 0.510 0.601 0.698 0.791 0.886 1.000
F(x) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
12.4. TESTOVI PRILAGODBE RAZDIOBAMA
73
Za ovu realizaciju, sluˇcajna varijabla λ poprima vrijednost √ √ λ = n · max |F(x) − Fn (x)| = 800 · 0.014 = 0.396 . x
Iz tablica se oˇcitavaju kvantili:
λ0.001 = 0.38,
λ0.005 = 0.42.
Dakle, vjerojatnost prihva´canja hipoteze po ovom kriteriju je ve´ca od 0.995 . Ispitivanje nezavisnosti sluˇcajnih varijabla
Pretpostavit c´emo da su sluˇcajne varijable X i Y diskretnog tipa, ili je podruˇcje njihovih vrijednosti razbijeno u disjunktne razrede, i to: • vrijednosti varijable X u r razreda, • vrijednosti varijable Y u s razreda. Sluˇcajne varijable definirane su na istom vjerojatnosnom prostoru i poprimaju istovremeno vrijednosti na svakom elementarnom dogadaju. Oznaˇcimo: kij = broj realizacija za koje je X = xi , Y = yj Marginalne frekvencije dobivamo zbrajanjem. Ukupan broj realizacija za koje je X = xi oznaˇcavamo s: s ki0 = kij. j=1
Analogno, ukupan broj realizacija za koje je Y = yj oznaˇcavamo s: k0j =
r
kij .
i=1
Ako su sluˇcajne varijable nezavisne, tad bi frekvencija kij trebala biti proporcionalna s ki0 · k0j . Zato je prirodno kao mjeru za odstupanje od nezavisnosti definirati sumu r s (kij − nij )2 χq2 = . nij i=1 j=1 Tu je nij =
ki0 k0j , N
N=
kij .
i,j
Sluˇcajna varijabla χq2 ima pribliˇzno χ 2 razdiobu s k = (r − 1)(s − 1) stupnjeva slobode. Hipoteza o nezavisnosti c´e se prihvatiti ukoliko je izraˇcunata vrijednost χq2 manja od kritiˇcnog kvantila za tu hi kvadrat razdiobu.
74
12. TESTIRANJE HIPOTEZA Primjer 12.18. Izmjereno je 600 detalja, pri cˇ emu su za svaki od njih provjeravane dimenzije, duˇzina X i sˇ irina Y .
podbaˇcaj u granicama prebaˇcaj
podbaˇcaj 6 52 6
u granicama 48 402 38
prebaˇcaj 8 36 4
Pomo´cu χ 2 -testa provjerimo da li su otkloni dimenzija X i Y medusobno nezavisni, uz nivo znaˇcajnosti α = 0.1 . Postupak raˇcunanja pratimo u sljede´cim tablicama: podbaˇcaj u granicama prebaˇcaj k0j
podbaˇcaj 6 52 6 64 nij i=1 i=2 i=3 (kij −nij )2 nij
i=1 i=2 i=3
u granicama 48 402 38 488
j=1 6.61 52.27 5.12 j=1 0.06 0.00 0.15
prebaˇcaj 8 36 4 48
j=2 50.43 398.53 39.04
j=3 4.96 39.20 3.84
j=2 0.12 0.03 0.03
j=3 1.86 0.26 0.01
ki0 62 490 48 600
Zbroj elemenata u ovoj tablici daje χq2 = 2.52 . Kritiˇcna vrijednost hi kvadrat 2 razdiobe za k = (r − 1)(s − 1) = 4 stupnja slobode je χ0.9 = 7.78 . Prema tome, hipoteza o nezavisnosti ne moˇze se odbaciti.
ˇ 12. ZADATCI ZA VJE ZBU
75
§ 12. Zadatci za vjeˇzbu
1. Sluˇcajna varijabla X je normalno distribuirana s nepoznatim oˇcekivanjem i disperzijom σ 2 = 6 . Uzorak od n = 100 mjerenja dao je srednju vrijednost x = 16.2 . Uz nivo znaˇcajnosti α = 0.05 testirajte hipotezu H0 . . . a = 15 , uz alternativu H1 . . . a = 15 . 2. Sluˇcajna varijabla X je normalno distribuirana s nepoznatim oˇcekivanjem i nepoznatom disperzijom. Uzorak od n = 50 mjerenja dao je srednju vrijednost x = 24.2 i sˆ2 = 4.8 . Uz nivo znaˇcajnosti α = 0.05 testirajte hipotezu H0 . . . a = 25 , uz alternativu H1 . . . a < 25 . 3. Pseudosluˇcajnim generatorom simulirano je bacanje novˇci´ca 10000 puta. Pismo je registrirano 5120 puta. S kojim nivoom znaˇcajnosti moˇzemo potvrditi hipotezu o ispravnosti generatora? 4. Pri proizvodnji u normalnim uvjetima, stroj daje 2% sˇ karta. Na uzorku od 500 proizvoda primjec´eno je 16 sˇ kartnih proizvoda. Provjeri hipotezu o ispravnosti deklaracije, uz nivo znaˇcajnosti 5%. 5. Srednja vrijednost uzorka volumena 50 iznosi x = 12.6 , uz devijaciju sˆ = .53 . provjeri hipotezu H0 . . . a = 12 , uz nivo znaˇcajnosti α = 0.05 . 6. U tablici su dana odstupanja promjera valjaka obradivanih na preciznom tokarskom stroju u μ m od nominale μ m 0–5 5–10 10–15 15–20 +20 nj
15
75
100
50
10
2
Pomo´cu χ –testa, uz nivo znaˇcajnosti α = 0.2 , provjeri suglasnost ovih podataka sa normalnom razdiobom. - c tvrdi da je vrijeme rada nekog uredaja 7. Proizvodaˇ barem 200 dana. Izabran je uzorak od 8 proizvoda koji je dao rezultate: 165 , 170 , 182 , 185 , 193 , 200 , 203 , 210 - ca uz nivo znaProvjeri ispravnost tvrdnje proizvodaˇ cˇajnosti α = 0.05 . 8. Rezultati nekog mjerenja dani su u tablici: j mj
0
1
2
3
4
5
6
7 8
12 62 129 172 150 80 28 5 2
Pomo´cu χ 2 –testa provjeri hipotezu da se ovi podaci pokoravaju binomnom zakonu B(8, 0.4) uz nivo znaˇcajnosti α = 0.90 .
9. Rezultati mjerenja sluˇcajne varijable X dani su u tablici: xj 0 1 2 3 4 mj
132
48
20
3
2
2
S pomo´cu χ –testa provjeri hipotezu da se ovi podaci ravnaju po Poissonovoj razdiobi, uz nivo znacˇajnosti 0.05 . 10. Uzastopnim ponavljanjem nekog pokusa dobivene su sljede´ce vrijednosti neprekidne sluˇcajne varijable X [a, b]
0–5 5–10
mj
15
60
10–15
15–20
20–25
90
50
10
2
Pomo´cu χ –testa provjeri suglasnost ovih podataka sa normalnom razdiobom, uz nivo znaˇcajnosti α = 0.8 . - c tvrdi da je tvorniˇcka teˇzina nekog 11. Proizvodaˇ proizvoda 100 p. Uzorak od 20 proizvoda dao je rezultate: 98 99 100 101 102 teˇzina broj uzoraka 4 6 6 3 1 - ca uz nivo znaProvjeri ispravnost tvrdnje proizvodaˇ cˇajnosti α = 0.05 . 12. Rezultati mjerenja sluˇcajne varijable X dani su u tablici: 0 1 2 3 4 5 xj mj
505
336
125
24
8
2
Provjeri, uz nivo znaˇcajnosti α = 0.05 , hipotezu da sluˇcajna varijabla X ima Poissonov zakon razdiobe. 13. Ispitaj suglasnost podataka u tablici xj 0 1 2 3 4 5 6 7 nj
21 62 50 40 22 0 5 0
s Poissonovom razdiobom, uz nivo znaˇcajnosti 0.05 . 14. Realizacije sluˇcajne varijable X zadane su tablicom: xj 0 1 2 3 4 5 mj
6 2
10
20
10
6
0
Pomo´cu χ –testa, uz nivo znaˇcajnosti 0.05 , provjeri suglasnost tih podataka s Poissonovom razdiobom.
76
12. TESTIRANJE HIPOTEZA
15. Rezultati mjerenja sluˇcajne varijable X dani su u tablici: xj 0 1 2 3 4 mj
130
52
18
4
1
2
Pomo´cu χ –texta provjeri hipotezu da se ovi podaci ravnaju po Poissonovoj razdiobi, uz nivo znaˇcajnosti 0.05 . 16. Rezultati nekog pokusa u kojem se u 1000 ispitivanja biljeˇzio broj xj pojavljivanja nekog dogadaja, dani su u tablici: xj 0 1 2 3 4 5 nj
505
336
125
24
8
2
Provjeri pomo´cu χ 2 –testa, uz nivo znaˇcajnosti 0.05 , suglasnost ovih podataka s Poissonovom razdiobom. 17. 100 puta su baˇcena cˇetiri novˇci´ca i biljeˇzen je broj X pojavljivanja grbova: 0 1 2 3 4 xi ni
8
20
42
22
8
2
Pomo´cu χ –testa provjeri hipotezu da X ima binomnu razdiobu s parametrom p = 0.5 , uz nivo znaˇcajnosti α = 0.05 . 18. Rezultati mjerenja sluˇcajne varijable X dani su u tablici xj 0 1 2 3 4 nj
120
56
18
4
2
Pomo´cu χ 2 –testa provjeri hipotezu da se ovi podaci ravnaju po Poissonovoj razdiobi, uz nivo znaˇcajnosti 0,05 . 19. 220 puta je baˇceno 5 novˇci´ca i biljeˇzen je broj X pojavljivanja grbova: 0 1 2 3 4 5 xi ni
6
32
71
69
35
7
Pomo´cu χ 2 –testa provjeri hipotezu da X ima binomnu razdiobu s parametrom p = 12 , uz nivo znaˇcajnosti 0.95 . 20. U 320 obitelji sa petoro djece izbrojena su muˇska odnosno zˇ enska djeca, i dobiven je rezultat prema tabeli 5 4 3 2 1 0 muˇska dj. zˇ enska dj.
0
1
2
3
4
5
broj obitelji
18 56 110 88 40 8
S nivoom znaˇcajnosti 5 % testiraj hipotezu da su muˇska i zˇ enska djeca jednako vjerojatna! 21. U Mendeljejevim eksperimentima sa graˇskom ispitano je 560 zrna i dobiveno je 317 109 102 32
okruglih i zˇ utih okruglih i zelenih smeˇzuranih i zˇ utih smeˇzurana i zelena Prema njegovoj teoriji o naslijedivanju, ovi brojevi bi morali biti u omjeru 9 : 3 : 3 : 1 . S nivoom znacˇ ajnosti 5 % odgovori treba li prihvatiti ili odbaciti ovu pretpostavku. 22. 4 kovana novˇcica baˇcena su istovremeno 96 puta i svaki put je zabiljeˇzen broj grbova: i
0
1
2
3
4
fi
5
26
34
24
7
S nivoom znaˇcajnosti 5 % provjeri da li se dobiveni rezultati slaˇzu s hipotezom o ispravnosti svih novˇcica. 23. Igra´ca kocka baˇcena je 180 puta i dobiveni su sljede´ci rezultati: broj nj
1
2
3
4
5
6
34
28
26
32
27
33
2
Pomo´cu χ –testa provjeri da li se ovi podaci ravnaju po jednolikoj razdiobi, uz nivo znaˇcajnosti α = 0.90 . 24. Ispitaj suglasnost podataka u tablici xj
0
1
2
3
4
5
nj
20
55
48
35
18
10
s Poissonovom razdiobom, uz nivo znaˇcajnosti 0.05 . 25. Kocka je baˇcena 180 puta i dobiveni su sljede´ci rezultati 1 2 3 4 5 6 34
28
26
32
27
33
2
Pomo´cu χ –testa provjeri da li se ovi podaci ravnaju po jednolikoj razdiobi, uz nivo znaˇcajnosti 0.1 . 26. U prvih 800 znamenaka decimalnog prikaza broja π znamenke 0, 1, . . . , 9 pojavljuju se 74, 92, 83, 79, 80, 73, 77, 75, 76, 91 put. Provjeri χ 2 –testom hipotezu da je pojava svih znamenaka u tom prikazu jednako vjerojatna, uz nivo znaˇcajnosti α = 0.1 .
13.
Stohastiˇcki procesi
1. Stohastiˇcki procesi . . . . . . . . . . . . . . . . . . . . 77 2. Markovljevi lanci . . . . . . . . . . . . . . . . . . . . . 85
13.1. Stohastiˇcki procesi Uvod
Sluˇcajna varijabla je preslikavanje X : Ω → R . Za svaku realizaciju elementarnog dogadaja ω ona poprima vrijednost X(ω ) u skupu realnih brojueva. Pri tom zahtijevamo da skup {ω ∈ Ω : X(ω ) < a} - za svaki izbor realnog broja a . Tad je odredena bude dogadaj, njegova vjerojatnost i time je definirana funkcija F(a) := P (X < a) koju nazivamo funkcija razdiobe sluˇcajne varijable X . Pojam sluˇcajne varijable neovisan je o vremenu. Medutim, mnogi procesi cˇiji je ishod neizvjestan a koji se odvijaju u vremenu zahtijevaju da se koncept sluˇcajne varijable poop´ci tako da ukljuˇcuje i vremensku komponentu. Na taj naˇcin, promatraju´ci familiju sluˇcajnih varijabli koja ovisi o vremenu, do´ci c´emo do pojma stohastiˇckog procesa. Neka je T ⊂ R skup vremena u kojima promatramo stohastiˇcki proces. Za svako vrijeme t ∈ T odredena je sluˇcajna varijabla koju c´emo oznaˇcavati s Xt ili pak s X(t) . Familija tih sluˇcajnih varijabli definira stohastiˇcki proces X : X = {Xt , t ∈ T}. Stohastiˇcki proces moˇzemo shvatiti kao funkciju dviju varijabli X : T × Ω → S. 77
78
ˇ 13. STOHASTICKI PROCESI
Ovdje je S skup stanja, skup unutar kojeg proces poprima vrijednosti. Kod nas c´ e biti uvijek S ⊂ Z , ili S ⊂ R ili, najop´cenitije, S ⊂ C . Za izabrano vrijeme t i elementarni - ω , X(t, ω ) jest realizacija procesa. dogadaj Fiksiramo li vrijeme t ∈ T , tada je ω → X(t, ω ) sluˇcajna varijabla, koja opisuje mogu´ce realizacije procesa u budu´cem trenutku t . Da bismo poznavali proces, moramo poznavati ne samo razdiobu svih tih sluˇcajnih varijabli, ve´c i njihovu meduovisnost. Ako izaberemo fiksni ω ∈ Ω , tada preslikavanje t → X(t, ω ) opisuje realizacije procesa X tijekom vremena. Tu funkciju realne varijable T nazivamo trajektorija. Izgled trajektorije mijenja se za svaku drugu realizaciju elementarnog dogadaja. ω
Xt (ω)
t
Xt (ω)
t
Sl. 13.1. Trajektorije procesa realne su funkcije definirane na skupu T ⊂ R . Za fiksno vrijeme t , mogu´ce realizacije procesa opisane su sluˇcajnim varijablama Xt
Podjela procesa
Pri prouˇcavanju procesa obiˇcno ih dijelimo po njihovim svojstvima u razliˇcite skupine. Jednu podjelu moˇzemo naˇciniti po prirodi skupova T i S . Ukoliko je skup T diskretan, T = {t1 , t2 , . . .} , tad je primjerenije govoriti o nizu sluˇcajnih varijabli. Teorija Markovljevih lanaca prouˇcava tekve nizove sluˇcajnih varijabli kod kojih je i skup stanja S diskretan. Kod ostalih stohastiˇckih procesa vrijeme T je kontinuirano. Skup stanja S moˇze biti bilo diskretan bilo kontinuiran. Tako npr., Poissonov proces, koji mjeri broj realizacija negog dogadaja, primjer je procesa s kontinuiranim vremenom T i diskretnim skupom stanja S . Tipiˇcna trajektorija Poissonovog procesa prikazana je na slici 13.2.
3 2 1 t
- koji se Sl. 13.2. Trajektorija Poissonovog procesa. U trenutcima u kojima se realizirao dogadaj promatra, trajektorija procesa ima skok iznosa 1
∗∗∗
ˇ 13.1. STOHASTICKI PROCESI
79
Drugi je vaˇzni primjer stohastiˇckog procesa Brownowo gibanje 1 . Godine 1827. Brown je promatrao kaotiˇcno gibanje zrnaca peludi u teku´coj otopini. Uslijed termiˇckog gibanja molekula dolazi do njihova sudaranja sa zrncem peludi koje se giba po vrlo nepravilnim putanjama. Gibanje je to kaotiˇcnije sˇ to je temperatura ve´ca. Zbog jednostavnijeg prikaza, u poˇcetku je bolje promatrati jednodimenzionalni model, u kojem zamiˇsljamo da cˇestica u svakom trenutku moˇze krenuti bilo lijevo, bilo desno — sˇ to nalikuje na sluˇcajno pomicanje po pravcu. Trajektorija jednodimenzionalnog Brownovog gibanja neprekinuta je funkcija.
Sl. 13.3. Trajektorija Brownovog gibanja neprekinuta je funkciuja
Konaˇcnodimenzionalne razdiobe
Sluˇcajna je varijabla odredena svojim jednodimenzionalnim razdiobama. Neka je t1 ∈ T , funkcija razdiobe sluˇcajne varijable Xt1 je Ft1 (x1 ) := P (Xt1 < x1 ). Familiju {Ft , t ∈ T} nazivamo familija jednodimenzionalnih razdioba. Ako poznajemo sve jednodimenzionalne razdiobe, ipak ne poznajemo proces X jer moramo znati i meduovisnosti sluˇcajnih varijabli. Za poznavanje procesa X moramo znati razdiobe sluˇcajnih vektora (Xt1 , Xt2 , . . . , Xtn ) za svaki izbor vremena t1 , t2 , . . . , tn ∈ T . Funkcija koja opisuje razdiobu nekog ovakvog vektora naziva se n -dimenzionalna razdioba. Ft1 ,...,tn (x1 , . . . , xn ) := P (Xt1 < x1 , . . . , Xtn < xn ). - ako poznajemo familiju svih njegovih n -dimenzionalProces je jednoznaˇcno odreden nih razdioba, za svaki n ∈ N i svaki mogu´ci izbor t1 , . . . , tn ∈ T . Kaˇzemo da tad poznajemo familiju konaˇcnodimenzionalnih razdioba. Konaˇcnodimenzionalne razdiobe mogu biti odredene i svojim gusto´cama: n ∂ f t1 ,...,tn (x1 , . . . , xn ) = Ft ,...,t (x1 , . . . , xn ). ∂x1 · · · ∂xn 1 n ∗∗∗ Poznavanje familije konaˇcnodimenzionalnih razdioba je u praksi vrlo zahtjevan uvjet. Mi c´emo uglavnom prouˇcavati one klase procesa kod kojih je dovoljno poznavati samo jednodimenzionalne i dvodimenzionalne razdiobe, jer im neka dodatna svojstva 1
ˇ Robert Brown (1773–1858), Skotski botaniˇcar
80
ˇ 13. STOHASTICKI PROCESI
osiguravaju da se iz tih podataka moˇze odrediti familija konaˇcnodimenzionalnih razdioba. Dvije velike klase stohastiˇckih procesa koje se posebno izuˇcavaju su Markovljevi procesi i stacionarni procesi. Markovljevi procesi
X je Markovljev proces ako za sve t1 < t2 < . . . < tn < t vrijedi P (a < Xt < b | Xt1 =x1 , Xt2 = x2 , . . . , xtn = xn ) = P (a < Xt < b | Xtn = xn ).
(13.1)
Kaˇzemo da Markovljevi procesi nemaju pam´cenje. Vjerojatnost nekog dogadaja koji c´e se zbiti u budu´cnosti (u trenutku t ) ne ovisi o proˇslosti (trenutcima t1 , t2 , . . . , tn−1 ) ve´c samo o sadaˇsnjosti (trenutku tn ). b
a
t1
t2
tn
τ
t
Sl. 13.4. Markovljevo svojstvo odsustva pam´cenja: vjerojatnost da trajektorija procesa prode kroz okvir [a, b] u budu´cem trenutku t ovisi samo o poloˇzaju xn u sadaˇsnjosti, a ne i o naˇcinu kako je proces stigao u tu toˇcku.
Mnogi procesi interesantni u primjenama zadovoljavaju sljede´ce jaˇce svojstvo: Procesi s nezavisnim prirastima
Za proces X kaˇzemo da je proces s nezavisnim prirastima ako su za sve t1 < t2 < . . . < tn sluˇcajne varijable X(t2 ) − X(t1 ) , X(t3 ) − X(t2) ,. . . , X(tn ) − X(tn−1) nezavisne. Sljede´ca vaˇzna klasa stohastiˇckih procesa definirana je sljede´cim uvjetom: Staconarni procesi
X je stacionaran (u uˇzem smislu) ako za svaki h sluˇcajni vektori (X(t1 ), . . . , X(tn )) i (X(t1 + h), . . . , X(tn + h)) imaju istu distribuciju. To su procesi cˇ ije su konaˇcnodimenzionalne razdiobe invarijantne na pomake u vremenu. Uvjet stacionarnosti jaki je uvjet. U mnogim je sluˇcajevima dovoljno zahti jevati izvjesnu mjeru vremenske invarijantnosti ali ne za sve konaˇcnodimenzionalne razdiobe,
ˇ 13.1. STOHASTICKI PROCESI
81
ve´c samo za dvije funkcije koje ovise samo o jedno i dvodimenzionalnim razdiobama. Te su dvije funkcije oˇcekivanje i korelacijska funkcija. Moment prvog reda definiramo ovako: ∞ m(t) := E[X(t)] = xf t (x)dx. −∞
Znaju´ci dvodimenzionalne razdiobe procesa moˇzemo raˇcunati korelacijsku funkciju ∞ ∞ R(t, s) := E[X(t)X(s)] = x1 x2 f t,s (x1 , x2 )dx1 dx2 . −∞
−∞
Ako je X stacionaran u uˇzem smislu, onda vrijedi ∞ ∞ m(t+h) = E[X(t+h)] = xf t+h (x)dx = xf t (x)dx = E[X(t)] = m(t), −∞
−∞
∀h.
Stoga je oˇcekivanje stacionarnog procesa (ukoliko postoji) konstantno. Sliˇcno, vrijedi za sve t , s i h : R(t + h, s + h) = E[X(t + h)X(s + h)] = E[X(t)X(s)] = R(t, s). Funkcija dviju varijabli s ovim svojstvom ovisi zapravo samo o razlici argumenata t i s . Neka je t > s . Onda imamo, stavljaju´ci h = −s , R(t, s) = R(t − s, s − s) = R(t − s, 0) = E[X(t − s)X(0)]. Zato smijemo pisati, koriste´ci isto slovo za funkciju razlike argumenata: R(t − s) := E[X(t)X(s)]. Tu c´emo formulu cˇeˇsc´e pisati ovako: R(h) = E[X(t)X(t + h)] jer desna strana ne ovisi o trenutku t ve´c samo o razlici vremena h . Stacionarni procesi
Kaˇzemo da je proces X stacionaran (u sˇ irem smislu) ako vrijedi (1) oˇcekivanje je konstantno: m(t) = const, (2) korelacijska funkcija R(t, s) ovisi samo o razlici vremena t − s . Osim korelacijske funkcije, ponekad se promatra i kovarijacijska funkcija C(t, s) definirana s C(t, s) := E[(X(t) − m(t))(X(s) − m(s))]. Zbog linearnosti oˇcekivanja, desnu stranu moˇzemo napisati i ovako: C(t, s) = E[X(t)X(s)] − m(t)m(s) = R(t, s) − m(t)m(s). Vidimo da se kovarijacijska funkcija podudara s korelacijskom kod centriranih procesa, cˇije je oˇcekivanje jednako nuli. Medutim, mi moˇzemo svaki proces vrlo jednostavno centrirati. Dovoljno je da mu oduzmemo deterministiˇcku funkciju m(t) . Stavimo X ◦ (t) := X(t) − m(t) . Za ovakav proces vrijedi E[X ◦ (t)] = 0 , ali CX ◦ X ◦ (t, s) = RX ◦ X ◦ (t, s) = CXX (t, s).
82
ˇ 13. STOHASTICKI PROCESI
Ovdje je CX ◦ X ◦ kovarijacijska funkcija procesa X ◦ , a CXX kovarijacijska funkcija procesa X . Napomenimo joˇs da se iz korelacijske funkcije i oˇcekivanja disperzija sluˇcajne varijable X(t) raˇcuna ovako: D[X(t)] = E[X(t)2] − m(t)2 = R(t, t) − m(t)2 . ∗∗∗ Poznavaju´ci momente prvog i drugog reda, moˇzemo neˇsto viˇse kazati o samom procesu. Funkcija m(t) opisuje trend rasta ili pada oˇcekivanja.
t
Sl. 13.5. Oˇcekivanje procesa je usrednjenje po svim trajektorijama.
t
Sl. 13.6. Kod stacionarnog procesa oˇcekivanje je konstantno. Proces u vremenu ne pokazuje tendencije niti rasta niti pada
Kako momenti drugog reda utjeˇcu na ponaˇsanje procesa? Opiˇsimo nekoliko razlicˇitih situacija. Promotrimo pri tom procese s konstantnim oˇcekivanjem, da bismo bolje vidjeli utjecaj samih momenata drugoga reda.
ˇ 13.1. STOHASTICKI PROCESI
83
t
t
Sl. 13.7. U procesu cˇ ija su trajektorije naznaˇcene na slici lijevo, disperzija raste vremenom. U procesu s trajektorijama desno, ona opada vremenom.
Skicirajmo sad trajektorije procesa koji ima jednako oˇcekivanje (konstantno) i jednaku disperziju. Njihove c´e se trajektorije razlikovati jer im se razlikuju korelacijske (kovarijacijske) funkcije.
t
t
Sl. 13.8. Kod procesa lijevo korelacija R(t, s) je velika za bliske t i s . Radi toga se trajektorije ne mijenjaju mnogo u kratkim vremenskim intervalima. Kod procesa desno korelacija je manja, stoga se trajektorije brˇze mijenjaju.
Primijetimo da procesi na slici 13.8 nisu stacionarni, jer im disperzija nije konstantna. Grafiˇcki prikaz trajektorija nekog stacionarnog procesa dan je na slici 13.9.
t
Sl. 13.9. Trajektorije stacionarnog procesa. Oˇcekivanje i disperzija konstantne su u vremenu.
∗∗∗
84
ˇ 13. STOHASTICKI PROCESI
Primjer 13.1. Neka je X(t) = A1 + A2 t pri cˇ emu su A1 i A2 nezavisne sluˇcajne varijable, E[Ai ] = ai , D[Ai ] = σi2 . Odredimo kovarijacijsku funkciju ovog procesa.
m(t) = E[X(t)] = E[A1 ] + E[A2 ] · t = a1 + a2 t, R(t, s) = E[X(t)X(s)] = E[(A1 + A2 t)(A1 + A2 s)] = E[A21 + A1 A2 s + A1 A2 t + A22 ts] = E[A21 ] + E[A1 A2 ](t + s) + E[A22 ]ts = σ12 + a21 + a1 a2 (t + s) + (σ22 + a22 )ts, C(t, s) = R(t, s) − (a1 + a2 t)(a1 + a2 s) = σ12 + σ22 ts.
Primjer 13.2. Neka je X(t) = A cos(ut + Φ) , gdje su A i Φ nezavisne sluˇcajne varijable i Φ ∼ U[0, 2π ] . Pokaˇzimo da je ovaj proces stacionaran.
- je sluˇcajnom Sl. 13.10. Trajektorije procesa X(t) = A cos(ut + Φ) . Iznos amplitude odreden varijablom A . Fazni pomak je sluˇcajan, s jednolikom razdiobom unutar intervala [0, 2π ] . Nakon realizacije tih dviju varijabli, trajektorija je procesa sinusoida, koja je u potpunosti odredena
Vrijedi m(t) = E[X(t)] = E[A] · E[cos(ut + Φ)] = E[A] R(t, t + h) = E[X(t)X(t + h)] = E[A2 ]
0
2π
0
2π
cos(ut + ϕ )
1 dϕ = 0, 2π
cos(ut + ϕ ) cos(ut + uh + ϕ )
1 dϕ 2π
E[A2 ] 2π 1 = [cos(uh) + cos(2ut + uh + ϕ ]dϕ 2π 2 0 1 = E[A2 ] cos uh. 2 Vidimo da ova funkcija ovisi samo o razlici argumenata, te je proces stacionaran (u sˇ irem smislu).
13.2. MARKOVLJEVI LANCI
85
13.2. Markovljevi lanci Definicija Markovljevog lanca
Niz diskretnih sluˇcajnih varijabli X0 , X1 , . . . zvat c´emo stohastiˇcki lanac. Moˇzemo zamisliti da te varijable opisuju stanje nekog sistema u vremenima t0 , t1 ,. . . . U teoriji markovljevih lanaca vaˇzno nam je samo razlikovati stanja u kojima se sistem moˇze nalaziti. Zato, jednostavnosti radi i bez smanjenja op´cenitosti, moˇzemo pretpostaviti da je skup svih stanja S = {0, 1, 2, . . .},
ili
S = {1, 2, 3 . . .}.
Ovaj skup moˇze biti konaˇcan ili beskonaˇcan. Pretpostavit c´emo da je on konaˇcan, iako c´e ve´cina izvoda u nastavku vrijediti i za beskonaˇcan skup stanja. Dakle, X0 , X1 ,. . . su sluˇcajne varijable koje uzimaju vrijednosti u konaˇcnom skupu S . Te su varijable medusobno povezane, stanje sistema u trenutku tn ima utjecaja na stanje u trenutku tn+1 . Definicija markovljevog procesa dana u (13.1) se u sluˇcaju diskretnog vremena i diskretnih sluˇcajnih varijabli svodi na sljede´cu definiciju: Markovljev lanac
Lanac X1 , X2 , . . . je markovljev, ukoliko za sve izbore stanja i1 , . . . , in vrijedi: P (Xn+1 =in+1 | Xn =in , . . . , X0 =i0 ) = P (Xn+1 =in+1 | Xn =in ) (13.2)
Ovdje trenutak tn+1 predstavlja budu´cnost, tn sadaˇsnjost, a t0 , . . . , tn−1 proˇslost. Dakle, stanje u budu´cnosti ovisi samo o sadaˇsnjem stanju, ali ne i o naˇcinu na koji je proces dospio u sadaˇsnje stanje. Primjer 13.3. (Sluˇcajno pomicanje) Sluˇcajna varijabla Yn ima zakon razdiobe
Yn =
−1 1 q p
.
Ako su Yn nezavisne, onda se niz (Xn ) definiran formulom X0 = 0, Xn = Y1 + . . . + Yn ,
n 1,
naziva sluˇcajno pomicanje. Ovaj je niz markovljev lanac. On opisuje gibanje cˇestice koja starta u toˇcki 0 , a zatim u svakom sljede´cem trenutku kre´ce bilo desno (s vjerojatnoˇsc´u p ) bilo lijevo (s vjerojatnoˇsc´u q = 1 − p ). Spojimo li realizacije sluˇcajnih varijabli Xn , dobit c´emo grafiˇcki prikaz sluˇcajnog pomicanja poput ovog na slici.
86
ˇ 13. STOHASTICKI PROCESI
Sl. 13.11. Dvije trajektorije sluˇcajnog pomicanja.
Ako je poznat poloˇzaj cˇestice u trenutku tn , tada njezin budu´ci poloˇzaj ne ovisi o naˇcinu na koji je cˇestica stigla u tu toˇcku. Zato je ovaj lanac markovljev. Prijelazne vjerojatnosti
- sluˇcajnih varijabli Xn i Xn+1 zadana je prijelaznim vjerojatnostima. Veza izmedu Vjerojatnost prijelaza iz stanja i u stanje j je P (Xn+1 = j | Xn = i). Pretpostavit c´emo da lanac X1 , X2 , . . . posjeduje svojstvo homogenosti. To znaˇci da ove prelazne vjerojatnosti ovise samo o stanjima i i j , ali ne o trenutku u kojem se - Onda su definirani brojevi prijelaz dogada. pij := P (Xn+1 = j | Xn = i) = P (X1 = j | X0 = i). (13.3)
Sl. 13.12. Prijelazne vjerojatnosti markovljevog lanca.
Matrica s elementima pij oznaˇcava se s Π i naziva matrica prijelaznih vjerojatnosti. Π := (pij ).
13.2. MARKOVLJEVI LANCI
87
Elemenati ove matrice su nenegativni, pij 0 , a zbroj elemenata u svakom njezinom retku jednak je jedinici: pij = )jP (X1 = j | X0 = i) = 1. j
Takva se matrica naziva stohastiˇcka. Svojstva matrice prijelaznih vjerojatnosti
Matrica Π daje vjerojatnosti prijelaza iz jednog stanja u drugo, u jednom koraku markovljevog lanca, iz stanja u trenutku tn u stanje tn+1 . Moˇzemo li na temelju toga odrediti vjerojatnosti prijelaza iz stanja tn u stanje tn+m , za m > 1 ? Oznaˇcimo pij (m) = P (Xn+m = j | Xn = i). - u stanje j u m koraka. PriOvi brojevi daju vjerojatnosti da sistem iz stanja i prede mjetimo da zbog homogenost procesa, ove vjerojatnosti ne ovise o broju n . Sa Π(m) c´emo oznaˇciti odgovaraju´cu matricu. Pri tom je pij (1) = pij i Π(1) = Π . Odgovor na postavljeno pitanje daje sljede´ci vaˇzni teorem. Chapman–Kolmogorovljeve jednadˇzbe Teorem 13.1. Prijelazne vjerojatnosti markovljevog homogenog lanca zadovoljavaju Chapman–Kolmogorovljeve jednadˇzbe pik (r)pkj (m − r), (13.4) pij (m) = k
za svaki r = 1, 2, . . . , m − 1 . U matriˇcnom zapisu, vrijedi Π(m) = Π(r)Π(m − r), Π(m) = Πm .
(13.5) (13.6)
Dokaz. Relacije (13.4) i (13.5) su ekvivalentne, druga je matriˇcni zapis prve. Promotrimo najprije vjerojatnosti prijelaza u dva susjedna koraka: P (Xm = j, X0 = i) pij (m) = P (Xm = j | X0 = i) = P (X0 = i) P (Xm = j, Xm−1 = k, X0 = i) = P (X0 = i) k P (Xm−1 = k, X0 = i) P (Xm = j, Xm−1 = k, X0 = i) = · P (X0 = i) P (Xm−1 = k, X0 = i) k P (Xm−1 = k | X0 = i) · P (Xm = j | X0 = i, Xm−1 = k) = k
Zbog markovljevog svojstva, ovaj je izraz jednak
88
ˇ 13. STOHASTICKI PROCESI
pij (m) =
P (Xm−1 = k | X0 = i) · P (Xm = j | Xm−1 = k)
k
=
pik (m − 1)pkj .
k
Dakle, vrijedi
Π(m) = Π(m − 1)Π.
Uzastopnom primjenom ove jednakosti dobivamo: Π(m) = Π(m − 1)Π = Π(m − 2)Π2 = . . . = Πm . Sada moˇzemo napisati Π(m) = Πm = Πr · Πm−r = Π(r)Π(m − r). Time je dokazana relacija (13.5), pa onda i teorem. Razdioba sluˇcajnih varijabla Xn
Neka je X0 , X1 , X2 , . . . markovljev lanac. Oznaˇcimo s p(n) razdiobu sluˇcajne varijable Xn : pi (n) := P (Xn = i). p(n) := (p1 (n), p2 (n), . . .) Markovljev lanac je potpuno opisan ako poznajemo matricu Π i razdiobu sluˇcajne varijable X0 . Tu razdiobu nazivamo joˇs vektor poˇcetnih vjerojatnosti: p(0) = (p1 (0), p2 (0), . . .) Time je opisano stanje sistema u trenutku t0 : pi (0) := P (X0 = i). Jednadˇzba markovljevog lanca Teorem 13.2. Stanje sistema u trenutku tn moˇze se opisati jednadˇzbom
p(n) = p(0)Πn . Veza razdioba u dva uzastopna vremena dana je s p(n) = p(n − 1)Π
(13.7) (13.8)
Dokaz. Poveˇzimo stanje u trenutku tk sa stanjem u prethodnom trenutku: pj (k) = P (Xk = j) P (Xk−1 = i)P (Xk = j | Xk−1 = i) = i
=
pi (k − 1)pij .
i
Dobili smo, u matriˇcnom zapisu, jednadˇzbu p(k) = p(k − 1)Π.
13.2. MARKOVLJEVI LANCI
89
Ponavljanjem ovog postupka zakljuˇcujemo da vrijedi p(n) = p(n − 1)Π = p(n − 2)Π · Π = . . . = p(0)Πn . Time je tvrdnja dokazana. Ergodiˇcki teorem. Stacionarne vjerojatnosti
Sljede´ci teorem je jedan od temeljnih u teoriji markovljevih lanaca. Ne´cemo ga dokazati na ovome mjestu. Ergodiˇcki teorem Teorem 13.3. Ako postoji broj n takav da su svi elementi matrice Πn strogo
pozitivni (ˇsto znaˇci da se kroz n koraka iz svakog stanja moˇze pre´ci u bilo koje drugo), tada za svaki j postoji (i ne ovisi o i ) πj = lim pij (n). (13.9) n→∞
Vjerojatnosti πj nazivamo stacionarnim vjerojatnostima. Iz jednakosti (13.7) slijedi p(n) = p(0)Πn = p(0)Π(n) Za j -tu komponentu ovog vektora vrijedi pi (0)pij (n). pj (n) = i
Ako postoje stacionarne vjerojatnosti, onda c´e biti pi (0)pij (n) = pi (0)πj = πj lim pj (n) = lim n→∞
n→∞
i
(13.10)
i
- vjerojatnost da c´e u nekom dalekom trenutku (kad Stacionarne vjerojatnosti odreduju se izgubi utjecaj poˇcetnog stanja) sistem nalaziti u stanju j . Ta se vjerojatnost moˇze interpretirati i kao prosjeˇcni dio vremena koje sistem provodi u stanju j . Markovljev lanac za kojeg postoji limes u (13.9) naziva se ergodiˇcki ili regularan. Primjer 13.4. Matrica prijelaznih vjerojatnosti Π markovljevog lanca sa dva stanja
{1, 2} glasi
Π=
3 4 1 4
1 4 3 4
.
a) Ako je sistem u poˇcetnom trenutku bio u stanju 1, odredi vjerojatnosti za stanja sistema nakon nekoliko koraka. b) Odredi matricu prijelaznih vjerojatnosti nakon nekoliko koraka. c) Postoji li limn→∞ Πn ? Kolike su stacionarne vjerojatnosti?
90
ˇ 13. STOHASTICKI PROCESI
a) U trenutku t0 sistem je bio u stanju 1. To znaˇci da je razdioba sluˇcajne varijable X0 jednaka p(0) = (1, 0) . Po formuli (13.8) vjerojatnost stanja u slijede´cim trenucima su 3 1 p(1) = p(0)Π = (1, 0) 14 43 = ( 34 , 14 ), 4
p(2) = p(1)Π = ( 34 , 14 )
3
p(3) = p(2)Π =
( 58 , 38 )
4 1 4 3 4 1 4
4 1 4 3 4 1 4 3 4
= ( 58 , 38 ), 9 7 , 16 ). = ( 16
Ako je u trenutku t0 poˇcetno stanje bilo 2, tj. p(0) = (0, 1) , tada bismo na isti naˇcin dobili p(1) = ( 14 , 34 ),
p(2) = ( 38 , 58 ),
7 9 p(3) = ( 16 , 16 ), . . .
Vidimo da se vremenom gubi utjecaj poˇcetnog stanja. b) Raˇcunajmo potencije matrice Π . 3 1 5 3 9 2 3 8 8 4 4 Π= 1 3 , Π = 3 5 , Π = 16 7 4
4
8
7 16 9 16 16
8
c) Indukcijom se lako provjerava da vrijedi , n n n
Π =
2 +1 2n+1 2 n −1 2n+1
Zato postoji lim Πn =
n→∞
2 −1 2n+1 2n +1 2n+1
1
1 2 2 1 1 2 2
,...
. .
Svaki redak ove matrice pretstavlja vektor stacionarnih vjerojatnosti.
πj = lim pij (n) = 12 , n→∞
j = 1, 2.
Markovljev lanac s dva stanja
Markovljev lanac s dva stanja: {1, 2} zadan je s prijelaznim vjerojatnostima
α = P (X1 = 1 | X0 = 1),
β = P (X1 = 2 | X0 = 2),
(0 < α , β < 1).
Onda je 1 − α = P (X1 = 2 | X0 = 1),
1 − β = P (X1 = 1 | X0 = 2).
13.2. MARKOVLJEVI LANCI
91
Sl. 13.13. Prijelazne vjerojatnosti homogenog lanca s dva stanja.
Matrica prijelaznih vjerojatnosti ovog lanca je α 1−α Π= . 1−β β Ispunjen je uvjet ergodiˇckog teorema. Odredimo prijelazne vjerojatnosti nakon n koraka te stacionarne vjerojatnosti. Matricu Πn nije jednostavno raˇcunati. Jedan je naˇcin da napravimo njenu dijagonalizaciju s pomo´cu svojstvenih vektora. Potrebno je odrediti matricu S takvu da Π ima prikaz: Π = SDS−1 Tu je S matrica svojstvenih vektora, a D dijagonalna matrica svojstvenih vrijednosti. Onda c´e biti Πn = SDn S−1 Izraˇcunajmo svojstvene vrijednosti i vektore matrice Π . λ − α −1 + α = λ 2 − (α + β )λ − 1 + α + β det(λ I − Π) = −1 + β λ − β
1 te je λ1 = 1 , λ2 = α + β − 1 . Svojstveni vektori su redom (provjeri!) i 1 α −1 . Zato je 1−β −1 1 α−1 1 0 1 α −1 n Π = 0 (α + β − 1)n 1 1−β 1 1−β 1 1 (α − 1)(α + β − 1)n 1−β 1−α = · 1 (1 − β )(α + β − 1)n −1 1 2−α −β n 1 (1−β )+(1−α )(α +β −1) (1−α )−(1−α )(α +β −1)n = n n 2 − α − β (1−β )−(1−β )(α +β −1) (1−α )+(1−β )(α +β −1) Budu´ci je |α + β − 1| < 1 , onda postoji limes ove matrice: 1 1−β 1−α n lim Π = . n→∞ 2−α −β 1−β 1−α Zato stacionarne vjerojatnosti glase 1−β π1 = , 2−α −β
π2 =
1−α . 2−α −β
92
ˇ 13. STOHASTICKI PROCESI
Primjer 13.5. (Gluhi telefon ili prijenosni kanal sa sˇ umom) Kanal saˇcinjava n serijski spojenih prenosnika od kojih svaki prenosi dvije mogu´ce poruke. Vjerojatnost toˇcne interpretacije svakog znaka u svakom prijenosniku je α = β = 0.995 . a) Koliko prijenosnika taj kanal smije imati da bi pouzdanost ispravnog prijema bila ve´ca od 95%? b) Ako kanal ima 5 prijenosnika, kolika smije biti vjerojatnost pogreˇsnog prijema svakog znaka da bi dobili istu pouzdanost cijelog sustava? - kad broj prenosnika postaje neograniˇcen? ˇ se dogada c) Sto
a) Prijenos znaka opisan je markovljevim lancom s dva stanja {0, 1} i matricom prijelaznih vjerojatnosti 0.995 0.005 . Π= 0.005 0.995 Po prethodnom zadatku, vjerojatnost pogreˇsne interpretacije nakon n koraka je (1 − α ) − (1 − α )(α + β − 1)n 1 1 p01 (n) = = (1 − (2α − 1)n ) = (1 − 0.99n ) 2−α −β 2 2 (1 − β ) − (1 − β )(α + β − 1)n 1 p10 (n) = = (1 − 0.99n ) 2−α −β 2 Primijetimo da su to rastu´ce funkcije od n : vjerojatnost pogreˇske raste s brojem prijenosnika. Po uvjetima zadatka, moramo odrediti n iz vjerojatnosti 1 (1 − 0.995n ) < 0.05 2 sˇ to daje n 10 . b) Trebamo razrijeˇsiti nejednadˇzbu 1 p01 (n) = p10 (n) = (1 − (2α − 1)n ) < 1 − p 2 odakle dobivamo * 1 α> 1 + n 1 − 2(1 − p) . 2 Za p = 0.95 i n = 5 dobivamo α > 0.9896 . c) Kad n → ∞ , tada se pouzdanost gubi, pij (n) →
1 2
za sve i, j .
Raˇcunanje stacionarnih vjerojatnosti
Oˇcigledno, za markovljev lanac sa ve´cim brojem stanja biti c´e vrlo teˇsko raˇcunati potenciju Πn . Sre´com, stacionarne vjerojatnosti za ergodiˇcke lance mogu se nalaziti direktno iz matrice Π . Krenimo od jednadˇzbe p(n) = p(n − 1)Π. Za j -tu komponentu vrijedi pj (n) =
k
pk (n − 1)pkj .
13.2. MARKOVLJEVI LANCI
93
Ako postoje stacionarne vjerojatnosti, onda u limesu dobivamo πj = πk pkj , ∀j. k
Ovo je homogeni sustav jednadˇzbi koji nema jednoznaˇcno rjeˇsenje. Tim jednadˇzbama treba dodati joˇs jednu: π1 + . . . + πn = 1 . Racˇ unanje stacionarnih vjerojatnosti
Stacionarne vjerojatnosti dobivaju se rjeˇsavanjem sustava πj = πk pkj , ∀j,
(13.11)
k
πk = 1.
(13.12)
k
Matriˇcni zapis sustava (13.11) je Π π = π ,
πj = 1.
(13.13)
j
∗∗∗ Ponekad je prikladniji sljede´ci postupak. Neka je Mjj (λ ) (glavni) minor elementa λ − pjj u matrici λ I − Π ⎤ ⎡ λ − p11 −p12 . . . −p1m ⎢ −p21 λ − p22 . . . −p2m ⎥ ⎥ λI − Π = ⎢ .. ... ⎦ ⎣ . −pm1 −pm2 . . . λ − pmm tada se stacionarne vjerojatnosti raˇcunaju formulom Mjj (1) . (13.14) πj = m k=1 Mkk (1) Primjer 13.6. Tri bijele i tri crne kuglice rasporedene su u dvije urne, po tri kuglice
u svakoj. Stanje sistema opisano je brojem bijelih kuglica u prvoj urni. U svakom koraku biramo na sre´cu po jednu kuglicu iz obje urne i zamijenimo im mjesta. Odredi matricu prijelaznih vjerojatnosti i stacionarne vjerojatnosti. - u prvoj Postoje cˇetiri mogu´ca stanja, S = {0, 1, 2, 3} . Oznaˇcimo sa Aj dogadaj: urni ima j bijelih kuglica (tj. sistem se nalazi u stanju j ). Prijelazne vjerojatnosti su j(3 − j) pjj = P {izvuˇcene su raznobojne kuglice | Aj } = 2 · , 9 (3 − j)2 pj,j+1 = P {izvuˇcena je crna iz prve i bijela iz druge | Aj } = , 9 j2 pj,j−1 = P {izvuˇcena je bijela iz prve i crna iz druge | Aj } = . 9
94
ˇ 13. STOHASTICKI PROCESI
Sve su ostale vjerojatnosti 0. Matrica prijelaznih vjerojatnosti glasi ⎡ ⎤ 0 1 0 0 1 4 4 0⎥ ⎢ Π = ⎣ 9 94 94 1 ⎦ 0 9 9 9 0 0 1 0 Kroz tri koraka mogu´ce je iz bilo kojeg stanja pre´ci u bilo koje drugo. Zato matrica Π3 ima samo pozitivne elemente i moˇzemo primjeniti ergodiˇcki teorem. Stacionarne vjerojatnosti postoje. Izraˇcunati c´emo ih po formuli (13.14). Vrijedi ⎡ ⎤ λ −1 0 0 1 4 4 0 ⎥ ⎢ − λ − 9 −9 λI − Π = ⎣ 9 ⎦ 0 − 49 λ − 49 − 19 0 0 −1 λ Minori su
5 −4 0 9 9 4 M00 (1) = − 4 5 − 1 = = M33 (1), 9 9 9 0 −1 1 81 1 0 0 36 M11 (1) = 0 59 − 59 = = M22 (1). 0 −1 1 81
Zato je
π0 =
2·
4 81
4 81
+2·
36 81
=
1 = π3 , 20
π1 =
2·
4 81
36 81
+2·
36 81
=
9 = π2 . 20
ˇ Primjer 13.7. Sluˇcajno pomicanje kao Markovljev lanac. Cestica kre´ce iz jedne
od toˇcaka {0, 1, 2, . . . , m} , udesno s vjerojatnoˇsc´u p , ulijevo s vjerojatnoˇsc´u q = 1−p . Ako dospije do rubnih toˇcaka, tada ostaje trajno u njima. Napiˇsi matricu prijelaznih vjerojatnosti. Da li je lanac ergodiˇcki? Kolike su stacionarne vjerojatnosti? q
-h
p
h
Sl. 13.14.
Lanac je homogen i markovljev; prijelazne vjerojatnosti ne ovise o trenutku ve´c samo o poloˇzaju cˇestice. Vrijedi p00 pmm pi,i+1 pi,i−1
= P {Xn = P {Xn = P {Xn = P {Xn
= 0 | Xn−1 = 0} = 1, = m | Xn−1 = m} = 1, = i + 1 | Xn−1 = i} = p, = i − 1 | Xn−1 = i} = q,
1 i m − 1, 1 i m − 1,
13.2. MARKOVLJEVI LANCI
95
te pij = 0 za sve ostale i, j . Zato je matrica prijelaznih vjerojatnosti ⎤ ⎡ 1 0 0 0 0 ... 0 0 0 ⎢p 0 q 0 0 ... 0 0 0⎥ ⎢0 p 0 q 0 ... 0 0 0⎥ ⎥ ⎢ ⎥ ⎢ Π = ⎢0 0 p 0 q ... 0 0 0⎥ ⎥ ⎢ .. ⎥ ⎢. ⎦ ⎣ 0 0 0 0 0 ... p 0 q 0 0 0 0 0 ... 0 0 1 Primje´cujemo da svaka potencija Πn ima isti prvi i posljednji redak i stoga ergodiˇcki teorem nije primjenjiv. Stacionarne vjerojatnosti ne postoje. Zaista, prije ili kasnije, cˇestica c´e zavrˇsiti u jednoj od rubnih toˇcaka, tako da c´e limn→∞ p(n) biti oblika (α , 0, . . . , 0, 1 − α ) . Medutim, α ovisi o poˇcetnom stanju. Tako npr, ako cˇestica starta iz 0 , tada u njoj i trajno ostaje, te je α = 1 . Ako starta iz toˇcke k , moˇze se dokazati da tada vrijedi
α=
(q/p)k − (q/p)m . 1 − (q/p)m
ˇ Primjer 13.8. Primjer sluˇcajnog pomicanja. Cestica se moˇze nalaziti u jednom od stanja {1, 2, . . . , m} . Ako se nalazi u stanju i , i > 1 , tada se s vjerojatnoˇsc´u 1 vra´ca u stanje i − 1 . Iz stanja 1 prelazi s jednakom vjerojatnoˇsc´u u bilo koje stanje 1, 2, . . . , m . Napiˇsi matricu prijelaznih vjerojatnosti. Da li je lanac ergodiˇcan? Odredi stacionarne vjerojatnosti. Po uvjetima zadatka moˇzemo odmah napisati matricu prijelaznih vjerojatnosti ⎡1 1 1 1 ⎤ m m ... m m ⎢ 1 0 ... 0 0 ⎥ ⎢ ⎥ Π = ⎢ 0 1 ... 0 0 ⎥. . ⎣ . ⎦ ... . 0 0 ... 1 0 Matrica Πm ima sve elemente pozitivne! Zaista, u m koraka mogu´ce je iz bilo kojeg stanja oti´ci u bilo koje drugo, te je pij (m) > 0 . Zato je markovljev lanac ergodiˇcan i postoje stacionarne vjerojatnosti. Odrediti c´emo ih iz jednadˇzbi (13.11) ⎡1 ⎤ ⎡ π ⎤ ⎡ π ⎤ 1 0 . . . 0 m 1 1 1 ⎢ ⎥ ⎢ π2 ⎥ ⎢ m 0 0 . . . 0 ⎥ ⎢ π2 ⎥ ⎢ .. ⎥ ⎢ . ⎥ ⎢ .. ⎥ ⎢ . ⎥ = ⎢ .. ⎥⎢ . ⎥ ⎥⎣ ⎣ ⎦ ⎢1 ⎦ ⎣ 0 0 . . . 1 ⎦ πm−1 πm−1 m 1 πm πm m 0 0 ... 0
96
ˇ 13. STOHASTICKI PROCESI
Odavde 1 π1 + π2 , m 1 π2 = π1 + π3 , m .. .
π1 =
1 π1 + πm , m 1 πm = π1 . m
πm−1 =
Rjeˇsavaju´ci unatrag dobivamo πm−1 = 2πm , Kako je π1 + πm = 1 , to slijedi
πm−2 = 3πm ,
, π1 = mπm .
[m + (m − 1) + . . . + 2 + 1]πm = 1 =⇒ πm = Stacionarne vjerojatnosti su πj =
2(m − j + 1) , m(m + 1)
2 . m(m + 1)
j = 1, . . . , m.
ˇ Primjer 13.9. Sluˇcajno pomicanje s refleksijom na rubu. Cestica kre´ce iz jedne od toˇcaka {0, 1, 2, . . . , m} , udesno s vjerojatnoˇsc´u p , ulijevo s vjerojatnoˇsc´u q = 1−p . Ako dospije do lijeve rubne toˇcke, ostaje u njoj s vjerojatnoˇsc´u q a u desnoj rubnoj toˇcki ostaje s vjerojatnoˇsc´u p . Napiˇsi matricu prijelaznih vjerojatnosti. Da li je lanac ergodiˇcki? Kolike su stacionarne vjerojatnosti? Matrica prijelaznih vjerojatnosti ispisujemo prema zadanim uvjetima: ⎤ ⎡ q p 0 0 ... ⎥ ⎢q 0 p 0 ... ⎥ ⎢0 q 0 p ... ⎥ ⎢ ⎥ ⎢ .. ⎢. ... q 0 p 0⎥ ⎦ ⎣ ... 0 q 0 p ... 0 0 q p Lako vidimo da i sada za veliki n , nakon n koraka iz svakog stanja moˇzemo do´ci u svako drugo stanje. To znaˇci da matrica Πn ima pozitivne elemente za dovoljno veliki n , te je lanac ergodiˇcan. Sustav (13.13) glasi qπ1 + qπ2 = π1 pπ1 + qπ3 = π2 pπ2 + qπ4 = π3 .. . pπn−2 + qπn = πn−1 pπn−1 + qπn = πn
13.2. MARKOVLJEVI LANCI
p π1 . Uvrˇstavaju´ci ovu vrijednost za π1 u drugu q p 2 p π1 . Sada lako vidimo da za svaki j vrijedi jednadˇzbu, dobivamo π3 = π2 = q q j −1 p πj = π1 . q
Nadalje je πj = 1 , pa vrijednost za π1 nalazimo iz uvjeta m−1 2 p p p π1 + π2 + . . . + πm = 1 =⇒ π1 1 + + + ... + = 1. q q q Odavde je j−1 1 − (p/q) 1 − (p/q) p π1 = =⇒ πj = . 1 − (p/q)m 1 − (p/q)m q
Iz prve jednadˇzbe slijedi π2 =
97
14.
Poissonov proces
1. Poissonov proces . . . . . . . . . . . . . . . . . . . . . 98 2. Kolmogorovljeve jednadˇzbe . . . . . . . . . . . 108 3. Procesi radanja i umiranja . . . . . . . . . . . . . 116
14.1. Poissonov proces Fizikalna definicija Poissonovog procesa
- A koji se moˇze viˇsekratno Poissonov proces registrira pojavu izvjesnog dogadaja ostvarivati tijekom vremena. Bit c´e zabiljeˇzen broj realizacija tog dogadaja, kao i trenutci u kojima se dogadaj zbio. - A unutar Oznaˇcimo s N(s, t) sluˇcajnu varijablu koja mjeri broj realizacija dogadaja vremenskog intervala [s, t] . Zahtijevamo sljede´ca tri svojstva: Svojstva Poissonovog procesa
1. Odsustvo pam´cenja. N(s, t) ne ovisi o pojavljivanju dogadaja A prije trenutka s . 2. Homogenost u vremenu. N(s, t) ovisi samo o duljini intervala t − s . 3. Regularnost. U intervalu infinitezimalne duljine h , vjerojatnost pojave - je λ h + o(h) , a viˇse od jednog dogadaja - o(h) . samo jednog dogadaja - ne moˇze ostvariti u istom Uvjet regularnosti znaˇci da se viˇse od jednog dogadaja trenutku. - A . Ovdje je o(h) beskonaˇcno Parametar λ opisuje gusto´cu realizacija dogadaja o(h) mala veliˇcina, neka funkcija sa svojstvom lim = 0. h →0 h 98
14.1. POISSONOV PROCES
99
∗∗∗ Radi svojstva homogenosti razdioba sluˇcajne varijable N(s, t) podudara se s razdiobom sluˇcajne varijable N(s + h, t + h) za svaki h . Posebno je, za h = −s ispunjeno N(s, t) ∼ N(0, t − s) (ove dvije sluˇcajne varijable imaju istu razdiobu). Oznaˇcimo istim slovom proces N(t) definiran s - unutar intervala duljine t N(t) := N(0, t) = broj realizacija dogadaja Tada je ispunjeno za t > s N(t) − N(s) = N(0, t) − N(0, s) ∼ N(0, s) + N(s, t) − N(0, s) = N(s, t). Proces N(t) naziva se Poissonov proces. Parametar λ definiran u svojstvu regularnosti naziva se intenzitet Poissonovog procesa. On opisuje gusto´cu pojavljivanja - A kojim je proces odreden. dogadaja Trajektorije procesa
Opiˇsimo trajektorije procesa. Poissonov proces starta iz nule i zadrˇzava tu vrijed- A . nakon toga, skaˇce u vrijednost 1. nost do prve pojave dogadaja Ako se dogadaj A ostvario u trenucima t1 , t2 ,. . . itd., tad trajektorija procesa ima izgled:
Sl. 14.1. Trajektorija Poissonovog procesa stepenasta je funkcija. U toˇckama prekida ima skok iznosa 1. Po dogovoru, smatramo da je neprekinuta slijeva
Svaka druga trajektorija imat c´e sliˇcan izgled, s drugim vremenima skokova t1 , t2 ,. . . ∗∗∗ - u potpunosti njegove Tri svojstva kojima je Poissonov proces definiran, odreduju konaˇcnodimenzionalne razdiobe. Pokaˇzimo kako se najprije mogu odrediti jednodimenzionalne razdiobe pn (t) = P (N(t) = n).
100
14. POISSONOV
PROCES
Jednodimenzionalne razdiobe Poissonovog procesa Teorem 14.1. Vrijedi
pn (t) =
(λ t)n −λ t e , n!
n = 0, 1, 2, . . . .
Sl. 14.2. Razdioba sluˇcajne varijable N(t) je Poissonova, s parametrom λ t . Na slici su prikazane apriorne razdiobe vjerojatnosti za mogu´ca stanja procesa u trenutcima s i t .
sati:
Dokaz. Prema svojstvima Poissonovog procesa, za maleni h > 0 moˇzemo napi⎫ p1 (h) = λ h + o(h)⎪ ⎪ ⎪ ⎪ ∞ ⎪ ⎪ ⎬ pk (h) = o(h) ⎪ =⇒ p0 (h) = 1 − λ h + o(h). k=2 ⎪ ⎪ ∞ ⎪ ⎪ ⎪ ⎪ pn (h) = 1 ⎪ ⎭ n=0
- A realizira unutar intervala [0, h] . Naime, p1 (h) predstavlja vjerojatnost da se dogadaj Ta je vjerojatnost, prema svojstvu 3., za infinitezimalno maleni h proporcionalna duljini intervala. Drugo svojstvo slijedi iz regularnosti procesa, a tre´ce jer niz (pn (h)) - razdiobu sluˇcajne varijable N(h) . odreduje Kao posljedicu, odredili smo p0 (h) . - unutar intervala (0, t + h) moˇze Promotrimo sada pn (t + h) za n > 0 . n dogadaja se dogoditi na sljede´ce medusobno disjunktne naˇcine: - se je zbilo do momenta t i niti jedan poslije: • A0 : n dogadaja - se je zbio do momenta t a jedan dogadaj - poslije tog momenta. • A1 : n−1 dogadaj - poslije tog • Ak , k 2 : n − k dogadaja zbilo se do momenta t i k dogadaja momenta. Vrijedi n pn (t + h) = P (A0 ) + P (A1 ) + P (Ak ). k=2
14.1. POISSONOV PROCES
101
Odredimo vjerojatnosti ovih dogadaja, koriste´ci svojstva Poissonovog procesa. P (A0 ) = P (N(t) = n, N(t + h) = n) = P (N(t) = n)P (N(t + h) = n | N(t) = n) = P (N(t) = n)P (N(t + h) − N(t) = 0 | N(t) = n) = P (N(t) = n)P (N(t + h) − N(t) = 0) = pn (t)p0 (h) = pn (t)(1 − λ h) + o(h) Sliˇcno, za dogadaj A1 te Ak ( k 2 ) imamo: P (A1 ) = P (N(t) = n − 1)P (N(t + h) − N(t) = 1 | N(t) = n − 1) = pn−1 (t)p1 (h) = pn−1 (t)(λ h) + o(h). P (Ak ) = P (N(t) = n − k)P (N(h) = k) = Pn−k (t)o(h) = o(h). Odavde pn (t + h) = pn (t)(1 − λ h) + pn−1 (t)(λ h) + o(h), n 1 pn (t + h) − pn (t) o(h) = −λ pn (t) + λ pn−1 (t) + h h U limesu, kad h → 0 pn (t) = −λ [pn (t) − pn−1 (t)], n 1 Za n = 0 vrijedi pak
(14.1)
p0 (t + h) = p0 (t)p0 (h) = p0 (t)(1 − λ h) + o(h) p0 (t + h) − p0 (t) o(h) = −λ p0 (t) + h h Zato
p0 (t) = −λ p0 (t)
(14.2)
Poˇcetni uvjeti za ove jednadˇzbe su : pn (0) = 0, n 1. (14.3) p0 (0) = 1, Ove c´emo diferencijalno–rekurzivne jednadˇzbe rijeˇsiti s pomo´cu Laplaceove transformacije. Neka je Pn (s) = L(pn (t)) Laplaceov transformat, L(pn (t)) = sPn (s) − pn (0) = sPn (s) Iz (14.2): sPn (s) = −λ [Pn (s) − Pn−1 (s)] te je
λ Pn−1 (s) Pn (s) = = s+λ
λ s+λ
n
Takoder sP0 (s) − 1 = −λ P0 (s) 1 P0 (s) = . s+λ
P0 (s).
102
14. POISSONOV
Dakle: Pn (s) =
PROCES
λn . (s + λ )n+1
Odavde pn (t) = λ n
t n −λ t ·e . n!
Definicija i konaˇcno-dimenzionalne razdiobe Poissonovog procesa
Standardna definicija Poissonovog procesa je ovakva Poissonov proces
Poissonov proces {Nt , t 0} zadan uvjetima: (1) N0 = 0 (2) N ima nezavisne priraste (3) Sluˇcajna varijabla Nt − Ns , 0 s < t , ima Poissonovu razdiobu s parametrom λ (t − s) , tj. P {Nt − Ns = k} =
[λ (t − s)]k −λ (t−s) e k!
Sl. 14.3. Prirast N(t) − N(s) Poissonovog procesa ima Poissonovu razdiobu s parametrom λ (t − s) . Razdioba prikazana na slici jest (uvjetna) razdioba nakon trenutka s , u kojem je proces poprimio vrijednost k = 3
Prema uvjetu (3), sluˇcajne varijable Nt − Ns i Nt−s imaju istu razdiobu! S tim u vezi je i sljede´ci rezultat.
14.1. POISSONOV PROCES
103
Uvjetne vjerojatnosti za Poissonov proces Teorem 14.2. Neka je s < t . Za Poissonov proces vrijedi
P (Nt = j | Ns = i) =
[λ (t − s)]j−i −λ (t−s) e (j − i)!
Dokaz. Iskoristit c´ emo svojstvo nezavisnih prirasta Poissonovog procesa: sluˇcajne varijable Nt − Ns i Ns − N0 su nezavisne. Kako je N0 jednak nuli, dobit c´emo za j > i: P (Nt = j | Ns = i) = P (Nt − Ns = j − i | Ns = i) [λ (t − s)]j−i −λ (t−s) = P (Nt − Ns = j − i) = e (j − i)! Time je tvrdnja dokazana. Primjetimo da je se i ova uvjetna razdioba podudara s razdiobom sluˇcajne varijable N t −s . Pitanje je, dakako, postoji li proces koji zadovoljava uvjete (1)–(3). Odgovoriti c´emo potvrdno time sˇ to c´emo odrediti njegove konaˇcno-dimenzionalne razdiobe. Za k1 k2 · · · kn i t1 < t2 < . . . < tn vrijedi P (Nt1 = k1 ,Nt2 = k2 , . . . , Ntn = kn ) = P (Nt1 = k1 , Nt2 − Nt1 = k2 − k1 , . . . , Ntn − Ntn−1 = kn − kn−1 ) = P (Nt1 = k1 )P (Nt2 − Nt1 = k2 − k1 ) · · · P (Ntn − Ntn−1 = kn − kn−1 ) =
(λ t1 )k1 −λ t1 [λ (t2 − t1 )]k2 −k1 −λ (t2 −t1 ) · × ··· e e k1 ! (k2 − k1 )! [λ (tn − tn−1 )]kn −kn−1 −λ (tn −tn−1 ) × e (kn − kn−1 )!
= λ kn
t1k1 (t2 − t1 )k2 −k1 · · · (tn − tn−1 )kn −kn−1 −λ tn e k1 !(k2 − k1 )! · · · (kn − kn−1 )!
Primjer 14.1. Poissonov proces registrira broj poziva u telefonskoj centrali. Ako je oˇcekivani broj poziva u jednoj minuti jednak 1.2, kolika je vjerojatnost dogadaja {N2 = 2, N4 = 3} ?
Za sluˇcajnu varijablu Nt vrijedi E(Nt ) = λ t . Prema uvjetima, za t = 1 ovo oˇcekivanje jednako je 1.2 . Dakle, λ = 1.2 . Traˇzenu vjerojatnost izraˇcunat c´emo na temelju dvodimenzionalne razdiobe: t1k1 (t2 − t1 )k2 −k1 −λ t2 e k1 !(k2 − k1 )! Uvrstimo t1 = 2 , t2 = 4 , k1 = 2 , k2 = 3 . Dobivamo 22 (4 − 2)3−2 −4λ P (N2 = 2, N4 = 3) = λ 3 = 4λ 3 e−4λ = 0.0569 . e 2!(3 − 2)! P (Nt1 = k1 , Nt2 = k2 ) = λ k2
104
14. POISSONOV
PROCES
Konstrukcija Poissonovog procesa
Poissonov je proces usko povezan s eksponencijalnom razdiobom. Naime, vrije- dvaju uzastopnih skokova kod Poissonovog procesa ima eksponencijalnu me izmedu razdiobu. Dokazat c´emo to svojstvo. Ono se moˇze koristiti za generiranje Poissonovog procesa. - cˇija c´e se realizacija u vremenu ravnati po eksponencijalnoj Neka je A dogadaj razdiobi s parametrom λ . Time je odredena sluˇcajna varijabla ξ koja mjeri vrijeme - A . Njezina je funkcija razdiobe do pojave dogadaja Fξ (t) = P (ξ t) = 1 − e−λ t . Parametar λ reciproˇcna je vrijednost oˇcekivanja E[ξ ] . - A poˇcinjemo mjeriti vrijeme do ponovnog ostvaNakon neke realizacije dogadaja - A . Oˇcekujemo da se uvjeti realizacije tog dogadaja - tijekom vremena ne renja dogadaja mijenjaju. Stoga c´e ξ imati ponovo eksponencijalnu razdiobu s parametrom λ . Zbog jasno´ce, oznaˇcimo sa ξ1 vrijeme do prve pojave dogadaja A , sa ξ2 : vrijeme izmedu - A itd. prvog i drugog pojavljivanja dogadaja
Sl. 14.4. Niz eksponencijalnih razdioba generira trajektoriju Poissonovog procesa.
- upravo Tvrdimo da je proces koji mjeri broj pojavljivanja ovako zadanih dogadaja Poissonov proces N . On poprima vrijednost k ako je ispunjeno: {N(t) = k} = {ξ1 + . . . + ξk < t, ξ1 + . . . + ξk + ξk+1 t}, odnosno {N(t) k} = {ξ1 + . . . + ξk+1 t}. Konstrukcija Poissonovog procesa pomo´cu eksponencijalnih razdioba Teorem 14.3. Neka je (ξn ) niz nezavisnih sluˇcajnih varijabli s eksponencijal- izmedu - uzastopnih pojavljivanja nom razdiobom E(λ ) , koje biljeˇze vrijeme izmedu dogadaja A . Tad brojaˇc N(t) pojavljivanja dogadaja A cˇ ini Poissonov proces s parametrom λ .
Dokaz. Zbroj Wn = ξ1 + . . . + ξn predstavlja vrijeme cˇekanja do n–te pojave do- A . Ta varijabla, kao zbroj eksponencijalnih, ima gama razdiobu s parametrima gadaja
14.1. POISSONOV PROCES
105
λ , n . Njezina je gusto´ca λ n xn−1 e−λ x , x > 0. Γ(n) Vrijedi {N(t) < n} = {Wn t} . Zato FWn (t) = P (Wn < t) = 1 − P (Wn t) = 1 − P (N(t) < n) = 1 − FN(t) (n). Odavde imamo FN(t) (n) = 1 − FWn (t) t n n −1 −λ x λ x e =1− dx Γ(n) 0 λt 1 yn−1 e−y dy =1− Γ(n) 0 ∞ 1 = yn−1 e−y dy (n − 1)! λ t n −1 −λ t e (λ t)j = . j! g(x) =
j=0
Sada je pn (t) = P (N(t) = n) = FN(t) (n + 1) − FN(t)(n) =
n e−λ t (λ t)j j=0
j!
−
n −1 −λ t e (λ t)j j=0
j!
e−λ t (λ t)n , n = 0, 1, 2, . . . n! Time smo potvrdili da su jednodimenzionalne razdiobe od N(t) upravo razdiobe Poissonovog procesa. Trebalo bi joˇs provjeriti nezavisnost prirasta, sˇ to je posljedica nezavisnosti niza sluˇcajnih varijabli (ξn) . U detalje dokaza se ovdje ne´cemo upuˇstati =
Jako Markovljevo svojstvo
- dviju uzastopnih pojava dogadaja Vrijeme izmedu A ima eksponencijalnu razdiobu s parametrom λ . Pretpostavimo sada da je to vrijeme mjereno od bilo kojeg trenutka ti + γ ( γ po volji odabran, i moˇze biti sluˇcajan). Tad ti+1 − (ti + γ ) ima - eksponencijalnu razdiobu. takoder Dakle kako vrijeme protiˇce, tako se obnavlja duljina oˇcekivanog vremena do pojave - A. dogadaja Primjer 14.2. Neka N(t) oznaˇcava broja riba 1 koje ribiˇc uhvati u vremenu [0, t] .
Pretpostavljamo 1
riba= poisson (franc.)
106
14. POISSONOV
PROCES
(i) broj riba je vrlo velik; (ii) riba ima jednaku mogu´cnost za bude uhva´cena u svakom trenutku vremena jednake duljine. Tad je N(t) Poissonov proces. - svaka dva ulova ima eksponencijalnu Vrijeme do prvog ulova kao i vrijeme izmedu razdiobu s istim parametrom. Istu razdiobu ima, po jakom markovljevom svojstvu, i vrijeme do ulova sljede´ce ribe, bez obzira na vrijeme koje je proteklo od ulova prethodne. Vrijeme cˇekanja bez ulova nema nikakvog utjecaja na eventualni raniji ulov sljede´ce ribe. To je posljedica svojstva eksponencijalne razdiobe koja nema memorije. Zbroj Poissonovih procesa
Teorem 14.4. Zbroj dvaju nezavisnih Poissonovih procesa N1 i N2 s parametrima λ1 , λ2 je Poissonov proces s parametrom λ1 + λ2 .
Dokaz. Neka je N = N1 + N2 . Zadovoljit c´emo se time da izraˇcunamo jednodimenzionalne razdiobe ovog procesa: P (N(t) = n) = =
n r=0 n
P (N1 (t) = r, N2 (t) = n − r) P (N1 (t) = r)P (N2(t) = n − r)
r=0
=
n e−λ1 t (λ1 t)r r=0
=
r!
·
e−λ2 t (λ2 t)n−r (n − r)!
r e−(λ1 +λ2 )t tn n r n−r λ λ r 1 2 n! n=0
[t(λ1 + λ2 )]n −(λ1 +λ2 )t = ·e n! sˇ to je i trebalo pokazati. Razna svojstva Poissonovog procesa
Poznata nam je vrijednost Poissonovog procesa u trenutku t . Koju vrijednost je on poprimio u nekom ranijem trenutku s < t ? Pokaˇzimo da je uvjetna razdioba Ns | Nt binomna!
14.1. POISSONOV PROCES
107
Teorem 14.5. ( Poissonov proces i binomna razdioba ) Ako je N Poissonov proces i s < t , onda je n k P (N(s) = k | N(t) = n) = p (1 − p)n−k , k = 0, 1, . . . , n, k
pri cˇ emu je p = s/t . Dokaz. Tvrdnja se provjerava sljede´cim raˇcunom: P {N(s) = k, N(t) = n} P {N(t) = n} P {N(s) = k, N(t − s) = n − k} = P {N(t) = n} P {N(s) = k}P {N(t − s) = n − k} = P {N(t) = n} 2 −λ t −λ s k e (λ t)n e (λ s) e−λ (t−s) [λ (t − s)]n−k = · k! (n − k)! n! k n −k n! s (t − s) = · k!(n − k)! tn n −k s k s n = . 1− k t t
P {N(s) = k | N(t) = n} =
∗∗∗ Telefonska centrala ima dva ulazna broja. Ako je poznat ukupan broj poziva koji je stigao do trenutka t , koliki je broj poziva upu´cen na prvi telefonski broj? Odgovor na to pitanje dan je u sljede´cem teoremu. Teorem 14.6. Ako su N1 i N2 nezavisni Poissonovi procesi s parametrima λ1 i
λ2 , onda je
P (N1 (t) = k | N1 (t) + N2 (t) = n) =
n k p (1 − p)n−k k
pri cˇ emu je p = λ1 /(λ1 + λ2 ) . Dokaz. P {N1 (t) = k, N1 (t) + N2 (t) = n} P {N1 (t) + N2 (t) = n} P {N1 (t) = k, N2 (t) = n − k} = P {N1 (t) + N2 (t) = n}
P {N1 (t) = k | N1 (t) + N2 (t) = n} =
Zbroj nezavisnih procesa N1 i N2 je Poissonov proces s parametrom λ1 + λ2 :
108
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
P {N1 (t) = k}P {N2 (t) = n − k} P {N1 (t) + N2 (t) = n} 2 −(λ1 +λ2 )t −λ 1 t e (λ1 t)k e−λ2 t (λ2 t)n−k [(λ1 + λ2 )t]n e = · k! (n − k)! n! =
λ k λ n −k n! · 1 2 n k!(n − k)! (λ1 + λ2 ) k n −k λ λ2 n 1 = . k λ1 + λ2 λ1 + λ2 =
Koliko je poziva stiglo na prvi broj telefonske centrale u vremenskom intervalu - dva poziva na drugi broj te centrale? Odgovor na ovo pitanje daje sljede´ci izmedu primjer. Primjer 14.3. (Poissonov proces i geometrijska razdioba) Promatrajmo dva nezavisna niza dogadaja, A i B koji se pojavljuju u skladu s Poissonovim procesima s - dvije parametrima at odnosno bt . Neka je N broj pojavljivanja dogadaja A izmedu - B . Onda N ima geometrijsku razdiobu. uzastopne realizacije dogadaja
- dviju uzastopnih realizacija dogadaja Vrijeme ξ izmedu B ima eksponenci−bx jalnu razdiobu s gusto´com f (x) = be . Vjerojatnost da se unutar intervala [0, t] - A pojavi k puta je dogadaj e−at (at)k . k! Zato je
∞ −at e (at)k −bt P (N = k | ξ = t)f (t)dt = be dt k! 0 0 bak ∞ k −(a+b)t bak = te dt = k! 0 (a + b)k+1 k b a = , k = 0, 1, 2, 3, . . . a+b a+b
P (N = k) =
∞
14.2. Kolmogorovljeve jednadˇzbe Markovljevi procesi
U ovom c´emo poglavlju promatrati procese s vrijednostima u diskretnom skupu S . Promatrat c´emo ponovo klasu markovljevih procesa. Op´ca definicija se za procese s vrijednostima u diskretnom skupu svodi na sljede´cu:
ˇ 14.2. KOLMOGOROVLJEVE JEDNAD ZBE
109
Za sluˇcajan proces X s vrijednostima u diskretnom skupu S kaˇzemo da je Markovljev proces, ako za sve t0 < t1 < . . . < tn on ima svojstvo P (Xtn+1 = xn+1 | Xtn =xn , Xtn−1 = xn−1 , . . . , Xt0 = x0 ) = P (Xtn+1 = xn+1 | Xtn = xn ). Teorem 14.7. Ako proces X ima nezavisne priraste, onda je on Markovljev proces.
Dokaz. Provjerimo markovljevo svojstvo: P (Xtn+1 = xn+1 | Xtn = xn , . . . , Xt0 = x0 ) = P (Xtn+1 − Xtn = xn+1 − xn | Xtn − Xtn−1 = xn − xn−1 , . . . , Xt1 − Xt0 = x1 − x0 , Xt0 = x0 ) = P (Xtn+1 − Xtn = xn+1 − xn ) = P (Xtn+1 − Xtn = xn+1 − xn | Xtn = xn ) = P (Xtn+1 = xn+1 | Xtn = xn ) Na primjer, Poissonov proces je Markovljev, jer ima nezavisne priraste. ∗∗∗ Osnovni pojam u prouˇcavanju markovljevih procesa jest vjerojatnost prijelaza. Pojam koji smo definirali za markovljeve lance, sad c´emo iskazati u punoj op´cenitosti. Neka je t > s . Traˇzimo vjerojatnost da proces, koji je u trenutku s imao vrijednost xi , nakon vremenskog intervala [s, t] poprimi vrijednost xj . Zato c´e vjerojatnost prijelaza ovisiti o cˇetiri varijable 1 [s,t]
P (Xt = xj | Xs = xi ) =: p(s, xi , t, xj ) =: pij
xj xn
Pij
s
[s, t]
t
t
[s,t]
- u stanju Sl. 14.5. Prijelazna vjerojatnost. pij je vjerojatnost da se cˇ estica u trenutku t nade xj , ako je u trenutku s bila u stanju xi .
Matricu
[s,t] P[s,t] := pij
nazivamo matrica prijelaznih vjerojatnosti ili kra´ce, matrica prijelaza. 1 Za razliku od markovljevih lanaca u kojima nam je vaˇzno samo razlikovati stanja, kod op´cih markovljevih procesa vaˇzno nam je znati i iznos procesa.
110
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
Prirodno je zahtijevati da matrica prijelaznih vjerojatnosti ima svojstvo [t,t]
pij = δij .
(14.4)
(Proces se u trenutku t moˇze nalaziti samo u jednom stanju.) - pretpostavljat c´emo da je proces konzervativan, tj. da vrijedi Takoder, ∞
[s,t]
pij
=1,
∀i.
(14.5)
j=1
Ova relacija znaˇci da se proces ne moˇze “izgubiti” ve´c se uvijek mora nalaziti u jednom od predvidenih stanja. Chapman–Kolmogorovljeva jednadˇzba
Dokaˇzimo sad temeljnu jednadˇzbu markovljevih procesa. Chapman–Kolmogorovljeva jednadˇzba Teorem 14.8. Neka je P[s,t] matrica prijelaznih vjerojatnosti Markovljevog pro-
cesa. Tada ona zadovoljava Chapman-Kolmogorovljevu jednadˇzbu P[s,u] = P[s,t] P[t,u] ,
s t u.
Dokaz. Definirajmo dogadaje A = {Xu = xj }, C = {Xs = xi }, Bk = {Xt = xk }, ∀k. Dogadaji Bk cˇine particiju od Ω . Nadalje, zbog Markovljevog svojstva imamo P (A | Bk ) P (Bk | C) = P (A | Bk ∩ C) P (Bk | C) P (A ∩ Bk ∩ C) P (Bk ∩ C) = = P (A ∩ Bk | C) P (Bk ∩ C) P (C) Odavde ∞ ∞ P (A | Bk ) P (Bk | C) = P (A ∩ Bk | C) k=1
k=1
= P (A ∩ (
∞ 3
Bk ) | C) = P (A | C)
k=1
t.j. P (Xu = xj | Xs = xi ) =
∞
P (Xu = xj | Xt = xk ) P (Xt = xk | Xs = xi )
k=1
i zato slijedi [s,u]
pij
=
∞
k=1
[s,t] [t,u]
pik pkj .
ˇ 14.2. KOLMOGOROVLJEVE JEDNAD ZBE
111
Primjer 14.4. (Matrica prijelaza Poissonovog procesa) Ovdje je S = {0, 1, 2, . . .} . Neka je t > s . Prema Teoremu 14.2, vrijedi: [λ (t − s)]j−i −λ (t−s) P (Nt = j | Ns = i) = e (j − i)! Dakle, matrica prijelaznih vjerojatnosti izgleda: ⎡ ⎤ e−λ (t−s) λ (t−s)e−λ (t−s) 2!1 [λ (t−s)]2 e−λ (t−s) · · · ⎢ ⎥ λ (t−s)e−λ (t−s) · · · ⎥ 0 e−λ (t−s) ⎢ P[s,t] = ⎢ ⎥ ···⎦ 0 0 e−λ (t−s) ⎣ .. .. .. ... . . .
(na sporednim dijagonalama nalaze se isti elementi). Vidimo da matrica prijelaza ovisi samo o razlici vremena t − s . Procese sa tim svojstvom nazivamo homogeni procesi. Dakle, Poissonov proces je homogen nesta- c´emo cionarni proces. To formalno obiljeˇzavamo piˇsu´ci P[s,t] =: P(t − s) . Takoder [0,t] oznaˇcavati pij (t) umjesto pij . Nas c´e zanimati uglavnom homogeni Markovljevi procesi. Familija {P(t)} zadovoljavat c´e sljede´cu relaciju: P(t + s) = P[0,t+s] = P[0,t] · P[t,t+s] = P(t) P(t + s − t) = P(t) P(s) Ovo se svojstvo naziva polugrupno svojstvo 1 . Dakle, u sluˇcaju Markovljevog homogenog procesa matrice prijelaznih vjerojatnosti P(t) cˇine polugrupu. Kolmogorovljeve jednadˇzbe
Chapman-Kolmogorovljeve jednadˇzbe omogu´cavaju jednostavnu fizikalnu interpretaciju Markovljevog procesa. Pokazat c´emo da se familija matrica prijelaznih vjerojatnosti {P(t), t 0} moˇze rekonstruirati iz jedne matrice. Krenimo od Chapman-Kolmogorovljeve jednadˇzbe za homogeni Markovljev proces X : P(t + s) = P(t)P(s). Za elemente ovih matrica onda vrijedi pij (t + s) =
pik (t)pkj (s).
(14.6)
k
Oznaˇcimo aij := pij (0) , te definirajmo matricu A := (aij ) . Ako se operacije deriviranja i sumiranja mogu zamijeniti 2 . Dobivamo ∂ d pik (t) pkj (s). pij (t + s) = ∂s ds k
1 Polugrupa je skup na kojem je definirana algebarska operacija koja ima svojstvo asocijativnosti. Familija matrica prijelaza je polugrupa uz operaciju matriˇcnog mnoˇzenja. 2 To se ne moˇze uvijek naporaviti. Medutim, ako je u sumi zdesna samo konaˇcno mnogo elemenata razliˇcitih od nule, tada c´e to biti mogu´ce napraviti. U svim primjerima koji slijede, taj je uvjet ispunjen.
112
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
Uvrstimo ovdje s = 0 : pij (t) =
pik (t) pkj (0) =
k
pik (t) akj .
k
Time smo dobili matriˇcnu jednadˇzbu P (t) = P(t)A koju nazivamo Kolmogorovljeva jednadˇzba unaprijed. Analogno, deriviravˇsi (14.6) po t , dobivamo sliˇcnu jednadˇzbu P (t) = A P(t). To je Kolmogorovljeva jednadˇzba unazad.
(14.7)
(14.8)
∗∗∗ Matrica A naziva se matrica gusto´ca prijelaza 1 . Opiˇsimo pobliˇze tu matricu. Iskoristimo pritom relacije P(0) = I , tj. pii (0) = 1 , pij (0) = 0 za i = j . 1) Vrijedi, za i = j : pij (Δt) − pij (0) pij (Δt) aij = lim = lim Δt→0 Δt→0 Δt Δt i odavde pij (Δt) = aij Δt + o(Δt), i = j. (14.9) 2) U sluˇcaju i = j dobivamo, raˇcunaju´ci na isti naˇcin: pii (Δt) = 1 + aii Δt + o(Δt). (14.10)
Odavde zakljuˇcujemo da vrijedi aij 0 za i = j , kao i aii < 0 . Nadalje, iz j pij = 1 slijedi aij = pij (0) = 0. (14.11) j
j
Primjer 14.5. (Prijelazne gusto´ce Poissonovog procesa) Za Poissonov proces
vrijedi
pij (t) =
(λ t)j−i −λ t e . (j − i)!
Stoga dobivamo, raˇcunaju´ci po aij = pij (0) : aii = −λ ai,i+1 = λ aij = 0 za j = i, i + 1 te je
1
⎡
−λ λ 0 ⎢ 0 −λ λ A=⎢ ⎣ 0 0 −λ .. .. .. . . .
⎤ ··· ···⎥ ···⎥ ⎦ ...
Ta se matrica u literaturi naziva joˇs infinitezimalni generator polugrupe P(t) .
ˇ 14.2. KOLMOGOROVLJEVE JEDNAD ZBE
113
Vaˇznost Kolmogorovljevih jednadˇzbi je u obratnom postupku. Vrijednosti aij matrice prijelaznih gusto´ca mogu se odrediti na osnovu poznavanja fizikalnog ponaˇsanja procesa, jer su one odredene ponaˇsanjem procesa unutar vrlo kratkog vremenskog intervala Δt . Zatim se, znaju´ci matricu A , na temelju Chapman-Kolmogorovljevih jednadˇzbi mogu odrediti pirjelazne vjerojatnosti P(t) , odnosno predskazati stanje procesa u bilo kojem trenutku t . Primjer 14.6. (Prijelazne gusto´ce Poissonovog procesa, ponovno) Za Poissonov
proces vrijedi
p0 (h) = 1 − λ h + o(h), p1 (h) = λ h + o(h), k 2. pk (h) = o(h), No, ove su vrijednosti upravo prijelazne vjerojatnosti za maleni trenutak h . Naime, vrijedi pii (Δt) = P (N(t + Δt) = i | N(t) = i) = P (N(Δt) = 0) = p0 (Δt) = 1 − λ h + o(h) - vrijednosti elemenata matrice A . i sliˇcno za pij (Δt) . Odavde se direktno odreduju
- moˇze nalaziti u dva stanja: Primjer 14.7. (Proces s dva stanja) Neki se uredaj
ispravnom stanju (oznaˇcenom s 1) i neispravnom stanju (oznaˇcenom s 0). Vrijeme provedeno u ispravnom stanju ima eksponencijalnu razdiobu s zakonom E(μ ) . Nakon kvara, on prelazi u neispravno stanje i u njemu provodi vrijeme distribuirano po eksponencijalnom zakonu E(λ ) . Tada vrijedi p01 (Δt) := P (X(Δt) = 1 | X(0) = 0) = λ Δt + o(t), p10 (Δt) := P (X(Δt) = 0 | X(0) = 1) = μ Δt + o(t). Zato je a01 = λ , a10 = μ i zato a00 = −λ , a11 = −μ . Dakle, matrica prijelaznih gusto´ca je −λ λ A= . μ −μ Kolmogorovljeve jednadˇzbe glase (za i = 0, 1 ): pi0 (t) = −λ pi0 (t) + μ pi1 (t), pi1 (t) = λ pi0 (t) − μ pi1 (t). Odavde, s pomo´cu relacija p00 (t) + p01 (t) = 1,
p10 (t) + p11 (t) = 1,
dobivamo p00 (t) + (λ + μ )p00 (t) = μ , p11 (t) + (λ + μ )p11 (t) = λ .
114
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
Rjeˇsenja ovih jednadˇzbi su
μ λ + e−(μ +λ )t , μ +λ μ +λ λ λ p01 (t) = − e−(μ +λ )t , μ +λ μ +λ μ μ p10 (t) = − e−(μ +λ )t , μ +λ μ +λ λ μ p11 (t) = + e−(μ +λ )t . μ +λ μ +λ Neka je pj (t) vjerojatnost da je sistem u stanju j u trenutku t . Da bismo odredili tu vjerojatnost, moramo joˇs znati u kakvom je stanju sistem bio u poˇcetnom trenutku. To stanje moˇze biti potpuno odredeno (deterministiˇcko) ali isto tako i sluˇcajno. Neka je p0 (0) = p , p1 (0) = q . (Proces se u trenutku 0 s vjerojatnoˇsc´u p nalazi u stanju 0 .) Sada je, na primjer p1 (t) = P (X(t) = 1) = P (X(0) = 0) · P (X(t) = 1 | X(0) = 0) + P (X(0) = 1) · P (X(t) = 1 | X(0) = 1) λ qμ − pλ −(μ +λ )t = p · p01 (t) + q · p11 (t) = + e μ +λ μ+λ λ → kad t → ∞. μ+λ Sliˇcno bi se dobilo μ kad t → ∞. p0 (t) → μ+λ p00 (t) =
To znaˇci da u dovoljno dalekom trenutku t stanje sustava ne´ce ovisiti o njegovom pocˇetnom stanju. Nadalje, vidimo da je omjer vjerojatnosti da c´e sustav biti u ispravnom 1 1 stanju prema vjerojatnosti da c´e on biti u neispravnom stanju jednak λ : μ = : , μ λ a ovo je upravo omjer oˇcekivanih vremena koje sustav provodi u ispravnom odnosno neispravnom stanju. Rekonstrukcija prijelaznih vjerojatnosti
- polugrupa P(t) ? Kako se u op´cem sluˇcaju iz matrice A odreduje Matriˇcna jednadˇzba P (t) = AP(t), P(0) = I
(14.12)
moˇze se rjeˇsavati tehnikom Laplaceove transformacije. U donjem podruˇcju, ona glasi sP∗ (s) − I = AP∗ (s) odnosno (sI − A)P∗ (s) = I =⇒ P∗ (s) = (sI − A)−1 . Poteˇsko´ce u ovom pristupu su u invertiranju ove matrice koja ovisi o parametru s te se za ve´ci broj stanja njezin inverz teˇsko nalazi.
ˇ 14.2. KOLMOGOROVLJEVE JEDNAD ZBE
115
Jednadˇzba (14.12) ima eksplicitno rjeˇsenje P(t) = etA . Tu je eksponencijalna funkcija definirana sumom apsolutno konvergentnog reda ∞ n n t A . (14.13) etA = n! n=0
Ova se matrica moˇze raˇcunati primjenom operatorskog raˇcuna. Neka je broj stanja sustava konaˇcan. 1) Pretpostavimo da su svojstvene vrijednosti matrice A razliˇcite. Tad postoji matrica S takva da je A = SDS−1 , gdje je D dijagonalna matrica. Tada je i An = SDn S−1 i vrijedi ∞ n n t D tA e =S S−1 = S etD S−1 . n! n=0 Medutim, etD moˇzemo lagano izraˇcunati. ⎡ ⎡ n ⎤ ⎤ d1 0 · · · 0 d1 0 · · · 0 ⎢ 0 d2 · · · 0 ⎥ ⎢ 0 dn · · · 0 ⎥ ⎥ =⇒ Dn = ⎢ . 2 ⎥ D=⎢ . ... ⎣ .. ⎣ . ⎦ ⎦ ... . n 0 · · · 0 dk 0 · · · 0 dk te je ⎡ d ⎤ e 1 0 ··· 0 ⎢ 0 ed2 0 · · · ⎥ ⎥. etD = ⎢ ⎣ ... ⎦ 0 · · · 0 edk
Konaˇcno je
⎡
⎤ ed1 0 · · · 0 ⎢ 0 ed2 0 · · · ⎥ −1 ⎥S . etA = S ⎢ ⎣ ... ⎦ dk 0 ··· 0 e ∗∗∗
2) Ako matrica A nije sliˇcna dijagonalnoj, onda je najjednostavnija forma na koji se ona moˇze svesti Jordanova. Matrica je sliˇcna dijagonalnoj blok matrici kojoj svaki blok ima oblik poput ⎤ ⎡ d 1 0 0 ⎢0 d 1 0⎥ . D=⎣ 0 0 d 1⎦ 0 0 0 d Neka je f bilo koja funkcija, analitiˇcka u toˇcki d . Funkcija f (D) matrice D definira se ovako: ⎡ ⎤ f (d) f (d) 12 f (d) 3!1 f (d) ⎢ 0 f (d) f (d) 1 f (d) ⎥ ⎥. 2 f (D) = ⎢ ⎣ 0 0 f (d) f (d) ⎦ 0 0 0 f (d)
116
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
∗∗∗ Primjer 14.8. U prethodnom primjeru procesa s dva stanja matrica A ima svojstvene vrijednosti 0 i −(μ + λ ) , sa svojstvenim vektorima (1, 1) i (λ , −μ ) , redom. Stupci matrice S su svojstveni vektori 1 1 λ μ λ −1 S= . =⇒ S = 1 −μ μ + λ 1 −1 Kako je 1 0 tD e = . 0 e−(μ +λ )
to dobivamo
1 p00 (t) p01 (t) 1 λ 1 0 μ λ · = . 0 e−(μ +λ ) p10 (t) p11 (t) 1 −1 μ + λ 1 −μ
14.3. Procesi radanja i umiranja Poissonov proces bio je karakteriziran relacijom ⎧ k = 1, ⎨ λ h + o(h), pn,n+k (h) = P (N(t + h) = n + k | N(t) = n) = o(h), k 2, ⎩ k = 0, 1 − λ h + o(h), iz koje moˇzemo odmah oˇcitati elemente matrice prijelaznih gusto´ca A . Uoˇcimo da je pn,n+k (h) neovisan i o vremenu t kao i broju n . Pretpostavimo sada da λ moˇze ovisiti o nekoj od ovih dviju veliˇcina, ili pak o obje. Dobiveni proces c´e i dalje biti Markovljev. Proces radanja
Tu je λ = λn : parametar procesa ovisi o stanju populacije u danom momentu. Zadajmo ⎧ k = 1, ⎨ λn h + o(h), pn,n+k (h) = P (X(t + h) = n + k | X(t) = n) = o(h), k 2, ⎩ k = 0. 1 − λn h + o(h), Sad lako dobivamo pn (t + h) = pn (t)(1 − λn h) + pn−1 (t)λn−1h + o(h), i odavde pn (t) = −λn pn (t) + λn−1 pn−1 (t), p0 (t) = −λ0 p0 (t).
n 1.
14.3. PROCESI RA -DANJA I UMIRANJA
Pripadna matrica gusto´ce prijelaza glasi ⎡ ⎤ −λ0 λ0 0 ... ⎢ 0 −λ1 λ1 0 . . . ⎥ ⎢ . ⎥ ⎢ . ⎥ A=⎢ . ⎥ ⎢ . . . 0 −λ λ 0 . . . ⎥ n n ⎣ ⎦ .. . Primjer 14.9. Yule–Furryjev proces. Za λn = nλ odgovaraju´ci proces se naziva jednostavni proces radanja ili Yule-Furryjev proces. Pripadna matrica gusto´ce prijelaza glasi ⎤ ⎡ 0 0 0 0 ... 0 0 ...⎥ ⎢ 0 −λ λ ⎢ 0 0 −2λ 2λ 0 . . . ⎥ A=⎢ ⎥ ⎣0 0 0 −3λ 3λ . . . ⎦ .. .
Iz Kolmogorovljevih jednadˇzbi unaprijed: P (t) = P(t)A dobit c´emo ekvivalentni sustav diferencijalnih jednadˇzbi pomo´cu kojeg nalazimo prijelazne vjerojatnosti: n 1, pn (t) = −nλ pn (t) + (n − 1)λ pn−1 (t), p0 (t) = 0. Pretpostavimo da su poˇcetni uvjeti: p1 (0) = 1, pi (0) = 0, i = 1. (U poˇcetnom trenutku imamo toˇcno jednu jedinku.) Odredimo uz te pretpostavke pn (t) . Iz p0 (t) = 0 slijedi p0 (t) = const , te zbog poˇcetnog uvjeta p0 (t) = 0 . To je oˇcigledno, jer se broj jedinki ne moˇze smanjivati. Za n = 1 dobivamo jednadˇzbu p1 (t) = −λ p1 (t) =⇒ p1 (t) = Ce−λ t te je zbog poˇcetnog uvjeta p1 (t) = e−λ t . Za n = 2 jednadˇzba glasi p2 (t) = −2λ p2 (t) + λ p1 (t) sˇ to se moˇze svesti na oblik d 2λ t e p2 (t) = λ eλ t dt odakle nakon integriranja i uvrˇstavanja poˇcetnog uvjeta slijedi p2 (t) = e−λ t (1 − e−λ t ). Indukcijom se dobiva op´cenito rjeˇsenje: pn (t) = e−λ t (1 − e−λ t )n−1 .
117
118
ˇ 14. KOLMOGOROVLJEVE JEDNAD ZBE . PROCESI RA -DANJA I UMIRANJA
Odatle se moˇze predskazati oˇcekivano stanje populacije u trenutku t : ∞ ∞ m(t) = E[X(t)] = n · P (X(t) = n) = npn (t) n=1
=
∞
n=1
ne−λ t (1 − e−λ t )n−1 = eλ t .
n=1
Proces radanja i umiranja
Dozvolimo sada mogu´cnost vjerojatnosti ⎧ ⎪ ⎪ ⎨ pij (h) = p(j, t + h, i, t) = ⎪ ⎪ ⎩
umiranja; proces c´ e biti opisan matricom prijelaznih
λi h + o(h), o(h), μi (h) + o(h), 1 − (λi + μi )h + o(h),
j = i + 1, j i + 2, j i − 2, j = i − 1, j = i.
uz poˇcetni uvjet μ0 = 0 . Po uzoru na proces radanja moˇzemo odmah izvesti matricu prijelaznih gusto´ca: ⎡ ⎤ λ0 0 ... −λ0 0 ... ⎢ μ1 −λ1 −μ1 λ1 ⎥ ⎢ . ⎥ ⎢ . ⎥ A=⎢ . ⎥ ⎢ ... 0 μn −λn −μn λn 0 . . . ⎥ ⎣ ⎦ .. . Ova je matrica ekvivalentna sljede´coj rekurzivnoj relaciji: pn (t + h) = pn (t){1 − (λn + μn )h} + pn−1 (t)λn−1h + pn+1 (t)μn+1h + o(h), ili pak sistemu Kolmogorovljevih jednadˇzbi pn (t) = −(λn + μn )pn (t) + λn−1 pn−1 (t) + μn+1 pn+1 (t) p0 (t) = −λ0 p0 (t) + μ1 p1 (t) pm (0) = 1 Poˇcetni uvjet pretpostavlja da u trenutku 0 postoji m zˇ ivu´cih individua.
ˇ ODGOVORI I RJE SENJA
119
Odgovori i rjeˇsenja
§ 10. Matematiˇcka statistika 1. x = 4.425 , sˆx = 0.128 . 3. x = 164.353 , σˆ 2 = 0.021624 , dˆ2 = σˆ 2 + (x − m)2 = 0.02271 . Nepristrana korekcija je d˜ = k11 dˆ = 1.025 · 0.1507 = 0.1545 .
11. Na temelju vrijednosti uzorka, izraˇcuna se x = 8.4 . Vrijeme do sljede´ceg poziva ima eksponencijalnu razdiobu. Procjena parametra je λ = 1/x = 0.119 . Traˇzena je vjerojatnost jednaka 1 − F(5) = e−λ 5 = 0.55 . , Pn 13. λ = n i=1 ln xi .
4. x = 164.353 , sˆ = 0.15499 . Nepristrana korekcija je s˜ = k10 sˆ = 0.15933 . 5. U raˇcunu koristi za xk vrijednosti sredina intervala, i zatim pomakni podatke za C = 22.5 . x = 22.487 , sˆ2 = .298 . - ima razdiobu m ∼ 6. Broj pojavljivanja dogadaja B(np, npq) Zato je disperzija frekvencija m/n jednaka pq/n . Maksimalna disperzija 1/4n dobiva se za p = 0.5 . P 7. Za disperziju vrijedi D(ˆx) = ni=1 ti2 σi2 . Treba minimizirati ovu funkciju, uz uvjet t1 +. . .+tn = 1 . Minimum se postiˇze ako je ti = λ /s2i za svaki i , a P λ = 1/( 1/σj2 ) . 8. X ima jednoliku razdiobu na [a, b] pa je njezina fnkcija razdiobe jednaka x−a . F(x) = b−a Razdiobe varijabli xm i xM su: FXm (x) = 1 − (1 − F(x))n , FXM (x) = F(x)n Odavde se izraˇcunaju oˇcekivanja i disperzije varib−a jabli xm i xM . Dobivamo: E(xm ) = a + n+1 a+b b−a ˆ = , pa je E(c) = c i proE(xM ) = b− n+1 2 ˆ = 14 D(xm ) + cjena je nepristrana. Nadalje, D(c) (b − a)2 1 4 D(xM ) + 2E(xm xM ) = 2(n + 1)(n + 2) . Disperzija teˇzi k nuli pa je procjena valjana. 9. Funkcija izglednosti je f (p) = 10p3 (1 − p)2 · 7 . 15p4 (1 − p)2 . Najizgledniji p je p = 11
§ 11. Intervalne procjene 1. 2. 3. 4. 5. 6. 7. 8. 9.
21,04 a 23,36 0.2 a 2.6 1.742 < a < 3.058 χ 2 = 7.54 , χα2 = 11.07 , ne moˇze se odbaciti x = 16.2 , 15.91 < a < 16.49 x = 65.955 , 65.434 < a < 66.475 x = 122 ; 118.7 < a < 125.3 x = 2.714 , [2.092 , 3.336] 1.79 a 2.88
§ 12. Testiranje hipoteza
6. χ 2 = 0.73 , χα2 = 3.22 ; ne moˇze se odbaciti 7. t = −2.04 , tα = 1.89 ; ne prihva´ca se 8. χ 2 = 1.44 , χα2 = 2.83 , prihva´ca se 9. χ 2 = 6.36 , χα2 = 5.99 , ne prihva´ca se 10. χ 2 = 0.2553 , Hipoteza se prihva´ca 11. t = −1.76 , tα /2 = 2.09 , prihva´ca se 12. χ 2 = 4.54 , χα2 = 7.8 , ne moˇze se odbaciti 13. χ 2 = 7.02 , χα2 = 9.49 , ne moˇze se odbaciti 14. χ 2 = 4.14 , χα2 = 7.82 , ne moˇze se odbaciti
120
ˇ ODGOVORI I RJE SENJA
15. χ 2 = 3.64 , χα2 = 6 , ne moˇze se odbaciti 16. χ 2 = 4.44 , χα2 = 7.8 , ne moˇze se odbaciti 17. χ 2 = 2.88 , χα2 = 9.5 , ne moˇze se odbaciti 18. χ 2 = 2.46 , χα2 = 5.99 , odbacuje se 19. prihva´ca se 20. χ 2 = 11.96 , χα2 = 11.07 , hipoteza se odbacuje 21. 22. 23. 24. 25. 26.
χ 2 = 0.5079 , prihva´ca se prihva´ca se Prihva´ca se Ne prihva´ca se Hipoteza se prihva´ca Hipoteza se prihva´ca
Tablica
Tablica 1. Tablica jediniˇcne normalne razdiobe. Dane su vrijednosti funkcije Φ∗ .
Za zadani argument u , broj u tablici je decimalni dio vjerojatnosti za dogadaj: P (|X| u) = P (−u X u). Pokrata D oznaˇcava slog 99, pokrata T slog 999, a pokrata Cˇ slog 9999.
Tablica 2. Kvantili χ 2 -razdiobe. Razdioba nije simetriˇcna pa su kvantili dani na standardni naˇcin. Pokrate D, T i Cˇ oznaˇcavaju slogove 00, 000 i 0000. Za broj stupnjeva slobode ve´ci od 30, kvantili se mogu raˇcunati preko odgovarajuc´ih kvantila jediniˇcne razdiobe aproksimativnom formulom 2 1 √ ξp2 = 2n − 1 + up . 2 Tu je up kvantil standardne normalne razdiobe, koji je napisan u posljednjem retku tablice. Tablica 3. Kvantili Studentove ( t -) razdiobe. Studentova razdioba je nalik jedinicˇnoj normalnoj. Simetriˇcna je pa su dani pozitivni kvantili. Zbog toga sˇ to se razdioba koristi uglavnom pri testiranju obostranih hipoteza, u tablici su dani kvantili t1−α /2 koji odgovaraju nivou znaˇcajnosti α . Ukoliko se treba izraˇcunati kvantil tp , onda za zadani p > 0.5 u tablici treba potraˇziti kvantil koji odgovara broju α = 2(p − 1) . Za p < 0.5 koristi se veza tp = −t1−p . Tablica 4. Kvantili standardne normalne razdiobe. Dana je vrijednost kvantila za vjerojatnosti ve´ce od 0.5. Radi simetrije, ako je p < 0.5 , onda vrijedi up = −u1−p . Ukoliko je zadan nivo znaˇcajnosti α , vrijednost kvantila se potraˇzi za p = 1 − α kod jednostranih testova, odnosno za p = 1 − α /2 kod dvostranih testova. Tablica 5. Kvantili razdiobe Kolmogorova. U prvoj tablici dani su kvantili za velike vrijednosti od n i ve´ci izbor nivoa znaˇcajnosti α . U drugoj tablici dani su kvantili za malene volumene n i nekoliko najvaˇznijih nivoa znaˇcajnosti. Meduvrijednosti se mogu odrediti interpolacijom.
Tablica 1. Normalne razdioba, funkcija Φ∗
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64
0
1
2
3
4
5
6
7
8
9
00000 00798 01596 02393 03191 03988 04784 05581 06376 07171 07966 08759 09552 10343 11134 11924 12712 13499 14285 15069 15852 16633 17413 18191 18967 19741 20514 21284 22052 22818 23582 24344 25103 25860 26614 27366 28115 28862 29605 30346 31084 31819 32551 33280 34006 34729 35448 36164 36877 37587 38292 38995 39694 40389 41080 41768 42452 43132 43809 44481 45149 45814 46474 47131 47783
00080 00878 01675 02473 03270 04067 04864 05660 06456 07251 08045 08838 09631 10422 11213 12002 12791 13578 14363 15147 15930 16711 17491 18269 19044 19819 20591 21361 22129 22895 23659 24420 25179 25936 26690 27441 28190 28936 29680 30420 31158 31893 32624 33353 34079 34801 35520 36236 36948 37657 38363 39065 39763 40458 41149 41837 42520 43200 43876 44548 45216 45880 46540 47196 47848
00160 00957 01755 02553 03350 04147 04944 05740 06535 07330 08124 08918 09710 10502 11292 12081 12869 13656 14442 15226 16008 16789 17569 18346 19122 19896 20668 21438 22206 22971 23735 24496 25255 26011 26765 27516 28265 29011 29754 30494 31232 31966 32697 33426 34151 34873 35592 36307 37019 37728 38433 39135 39833 40527 41218 41905 42588 43268 43943 44615 45283 45946 46606 47261 47913
00239 01037 01835 02633 03430 04227 05023 05819 06615 07410 08204 08977 09789 10581 11371 12160 12948 13735 14520 15304 16086 16867 17646 18424 19199 19973 20745 21515 22282 23048 23811 24572 25330 26087 26840 27591 28340 29085 29828 30568 31305 32039 32770 33499 34223 34945 35664 36379 37090 37799 38504 39205 39903 40587 41287 41974 42657 43336 44011 44682 45349 46012 46672 47327 47978
00319 01117 01915 02712 03510 04306 05103 05899 06694 07489 08283 09076 09868 10660 11450 12239 13027 13813 14599 15382 16165 16945 17724 18502 19277 20050 20822 21592 22359 23124 23887 24648 25406 26162 26915 27666 28414 29160 29902 30642 31379 32113 32843 33571 34296 35017 35735 36450 37161 37869 38574 39275 39972 40666 41356 42042 42725 43403 44078 44749 45416 46078 46737 47392 48042
00399 01197 01995 02792 03589 04386 05183 05979 06774 07569 08362 09155 09948 10739 11529 12318 13106 13892 14677 15461 16243 17023 17802 18579 19354 20128 20899 21668 22436 23201 23963 24724 25482 26237 26991 27741 28489 29234 29976 30716 31452 32186 32916 33644 34368 35089 35807 36521 37232 37940 38644 39345 40042 40735 41425 42111 42793 43471 44145 44816 45482 46145 46803 47457 48107
00479 01277 02074 02872 03669 04466 05262 06058 06853 07648 08442 09235 10027 10818 11608 12397 13184 13971 14756 15539 16321 17101 17880 18657 19432 20205 20976 21745 22512 23277 24040 24800 25558 26313 27066 27816 28563 29308 30050 30789 31526 32259 32989 33716 34440 35161 35878 36593 37303 38011 38714 39415 40111 40804 41493 42179 42861 43538 44212 44882 45549 46211 46869 47522 48172
00559 01356 02154 02951 03749 04545 05342 06138 06933 07727 08521 09314 10106 10897 11687 12476 13263 14049 14834 15617 16399 17179 17958 18734 19509 20282 21053 21822 22589 23353 24116 24876 25633 26388 27141 27891 28638 29383 30124 30863 31599 32332 33062 33789 34512 35233 35950 36664 37374 38081 38785 39484 40181 40873 41562 42247 42929 43606 44280 44949 45615 46277 46934 47588 48237
00638 01436 02234 03031 03828 04625 05421 06217 07012 07807 08600 09393 10185 10976 11766 12554 13342 14128 14912 15695 16477 17257 18035 18812 19587 20359 21130 21899 22665 23430 24192 24952 25709 26464 27216 27966 28713 29457 30198 30937 31673 32405 33135 33861 34585 35305 36022 36735 37445 38152 38855 39554 40250 40942 41631 42316 42997 43674 44347 45016 45681 46342 47000 47653 48302
00718 01516 02314 03111 03908 04705 05501 06279 07092 07886 08680 09472 10264 11055 11845 12633 13420 14206 14991 15774 16555 17335 18113 18889 19664 20436 21207 21976 22742 23506 24268 25027 25784 26539 27291 28040 28787 29531 30272 31011 31746 32478 33208 33934 34657 35377 36093 36806 37516 38222 38925 39624 40319 41011 41699 42384 43064 43741 44414 45083 45748 46408 47065 47718 48366
Tablica 1. Normalne razdioba, funkcija Φ∗
0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
0
1
2
3
4
5
6
7
8
9
48431 49075 49714 50350 50981 51607 52230 52848 53461 54070 54675 55275 55870 56461 57047 57629 58206 58778 59346 59909 60467 61021 61570 62114 62653 63188 63718 64243 64763 65278 65789 66294 66795 67291 67783 68269 72867 76986 80640 83849 86639 89040 91087 92814 94257 95450 96427 97217 97855 98360 98758 D0678 D3066 D4890 D6268 D7300 D8065 D8626 T0332 T3261 T5347 T6818 T7844 T8553 ˇ C0381 ˇ C3666
48495 49139 49778 50413 51043 51670 52292 52909 53522 54131 54735 55334 55929 56520 57106 57687 58263 58835 59403 59965 60523 61076 61625 62168 62707 63241 63770 64295 64815 65330 65840 66345 66845 67341 67831 68750 73300 77372 80980 84146 86896 89260 91273 92970 94387 95557 96514 97289 97911 98405 98793 D0946 D3272 D5046 D6386 D7388 D8129 D8673 T0670 T3504 T5519 T6938 T7927 T8610 ˇ C0770 ˇ C3928
48560 49203 49842 50476 51106 51732 52354 52971 53583 54191 54795 55394 55989 56579 57164 57745 58321 58892 59459 60021 60579 61131 61679 62222 62761 63294 63823 64347 64866 65381 65890 66395 66895 67390 67880 69227 73729 77754 81316 84439 87149 89477 91457 93124 94514 95662 96599 97358 97966 98448 98826 D1207 D3472 D5198 D6500 D7472 D8191 D8718 T0998 T3738 T5685 T7054 T8008 T8665 ˇ C1145 ˇ C4180
48624 49267 49905 50539 51169 51794 52415 53032 53644 54252 54855 55454 56048 56637 57222 57803 58378 58949 59516 60077 60634 61186 61734 62276 62814 63347 63876 64399 64918 65432 65941 66445 66945 67439 67929 69699 74152 78130 81648 84728 87398 89690 91637 93275 94639 95764 96683 97425 98019 98490 98859 D1462 D3667 D5345 D6610 D7554 D8252 D8762 T1315 T3964 T5844 T7166 T8085 T8719 ˇ C1505 ˇ C4422
48689 49331 49969 50602 51232 51857 52477 53093 53705 54312 54915 55513 56107 56696 57280 57860 58436 59006 59572 60133 60690 61241 61788 62330 62868 63400 63928 64451 64970 65483 65992 66495 66994 67488 67978 70166 74571 78502 81975 85013 87644 89899 91814 93423 94762 95865 96765 97491 98072 98531 98891 D1709 D3856 D5489 D6718 D7634 D8311 D8805 T1622 T4183 T5999 T7274 T8160 T8770 ˇ C1852 ˇ C4655
48753 49395 50032 50666 51294 51919 52539 53155 53766 54373 54975 55573 56166 56755 57339 57918 58493 59063 59628 60189 60745 61296 61843 62384 62921 63453 63981 64503 65021 65534 66042 66546 67044 67538 68026 70628 74986 78870 82298 85294 87886 90106 91988 93596 94882 95964 96844 97555 98123 98571 98923 D1951 D4040 D5628 D6822 D7712 D8367 D8846 T1919 T4394 T6148 T7378 T8232 T8819 ˇ C2185 ˇ C4878
48818 49459 50096 50729 51357 51981 52601 53216 53827 54433 55035 55632 56225 56813 57397 57976 58550 59120 59685 60245 60800 61351 61893 62438 62975 63506 64033 64555 65073 65585 66093 66596 67094 67587 68075 71086 75395 79233 82617 85571 88124 90309 92159 93711 95000 96060 96923 97618 98173 98611 98953 D2186 D4220 D5764 D6924 D7787 D8422 D8886 T2206 T4598 T6291 T7478 T8301 T8866 ˇ C2505 ˇ C5093
48882 49523 50159 50792 51420 52043 52663 53277 53888 54494 55095 55692 56284 56872 57455 58033 58607 59176 59741 60300 60856 61406 61951 62492 63028 63559 64086 64607 65124 65636 66143 66646 67143 67636 68124 71538 75800 79592 82931 85844 88358 90508 92327 93852 95116 96155 96999 97679 98221 98649 98983 D2415 D4394 D5895 D7022 D7859 D8476 D8925 T2483 T4795 T6430 T7574 T8368 T8912 ˇ C2813 ˇ C5299
48946 49587 50223 50855 51482 52105 52724 53339 53947 54554 55155 55751 56343 56930 57513 58091 58664 59233 59797 60356 60911 61461 62006 62546 63081 63612 64138 64659 65176 65687 66194 66696 67193 67685 68172 71986 76200 79945 83241 86113 88589 90704 92492 93989 95230 96247 97074 97739 98269 98686 99012 D2638 D4564 D6023 D7118 D7930 D8527 D8962 T2751 T4986 T6564 T7668 T8432 T8955 ˇ C3108 ˇ C5496
49010 49650 50286 50918 51545 52168 52786 53400 54009 54614 55215 55811 56402 56989 57571 58148 58721 59290 59853 60412 60966 61515 62060 62600 63135 63665 64190 64711 65227 65738 66244 66745 67242 67734 68221 72429 76595 80295 83547 86370 88817 90897 92655 94124 95341 96338 97148 97798 98315 98723 99040 D2855 D4729 D6148 D7210 D7998 D8577 D8998 T3011 T5170 T6693 T7757 T8494 T8998 ˇ C3393 ˇ C5686
Tablica 2. Kvantili hi-kvadrat razdiobe χp2
p
0.005
0.01
0.02
0.05
0.10
0.20
0.25
0.30
ˇ ˇ 1 0.0C157 0.C393
0.001
0.T157
0.T628
0.T982 0.D393
0.025
0.0158
0.0642
0.102
0.148
2
0.T200
0.0100
0.0201
0.0404
0.0506
0.103
0.211
0.446
0.575
0.713
3
0.0243
0.0717
0.115
0.185
1.216
0.352
0.584
1.005
1.213
1.424
4
0.0908
0.207
0.297
0.429
0.484
0.711
1.064
1.649
1.923
2.195
5
0.210
0.412
0.554
0.752
0.831
1.145
1.610
2.343
2.675
3.000
6
0.381
0.676
0.872
1.134
1.237
1.635
2.204
3.070
3.455
3.828
7
0.598
0.989
1.239
1.564
1.690
2.167
2.833
3.822
4.255
4.671
8
0.857
1.344
1.646
2.032
2.180
2.733
3.490
4.594
5.071
5.527
9
1.152
1.735
2.088
2.532
2.700
3.325
4.168
5.380
5.899
6.393
10
1.479
2.156
2.558
3.059
3.247
3.940
4.865
6.179
6.737
7.267
11
1.834
2.603
3.053
3.609
3.816
4.575
5.578
6.989
7.584
8.148
12
2.214
3.074
3.571
4.178
4.404
5.226
6.304
7.807
8.438
9.034
13
2.617
3.565
4.107
4.765
5.009
5.892
7.042
8.634
9.299
9.926
14
3.041
4.075
4.660
5.368
5.629
6.571
7.790
9.467
10.165
10.821
15
3.483
4.601
5.229
5.985
6.262
7.261
8.547
10.307
11.036
11.721
16
3.942
5.142
5.812
6.614
6.908
7.962
9.312
11.152
11.912
12.624
17
4.416
5.697
6.408
7.255
7.564
8.672
10.085
12.002
12.792
13.531
18
4.905
6.265
7.015
7.906
8.231
9.390
10.865
12.857
13.675
14.440
19
5.407
6.844
7.633
8.567
8.907
10.117
11.651
13.716
14.562
15.352
20
5.921
7.434
8.260
9.237
9.591
10.851
12.443
14.578
15.452
16.266
21
6.447
8.034
8.897
9.915
10.283
11.591
13.240
15.445
16.344
17.182
22
6.983
8.643
9.542
10.600
10.982
12.338
14.041
16.314
17.240
18.101
23
7.529
9.260
10.196
11.293
11.688
13.091
14.848
17.187
18.137
19.021
24
8.085
9.886
10.856
11.992
12.401
13.848
15.659
18.062
19.037
19.943
25
8.649
10.520
11.524
12.697
13.120
14.611
16.473
18.940
19.939
20.867
26
9.222
11.160
12.198
13.409
13.844
15.379
17.292
19.820
20.843
21.792
27
9.803
11.808
12.879
14.125
14.573
16.151
18.114
20.703
21.749
22.719
28
10.391
12.461
13.565
14.847
15.308
16.928
18.939
21.588
22.657
23.647
29
10.986
13.121
14.256
15.574
14.047
17.708
19.768
22.475
23.567
24.577
30
11.588
13.787
14.953
16.306
16.791
18.493
20.599
23.364
24.478
25.508
up -3.09023 -2.57583 -2.32635 -2.05375 -1.95996 -1.64485 -1.28155 -0.84162 -0.67449 -0.52440
Tablica 2. Kvantili hi-kvadrat razdiobe χp2
p
0.50
0.70
0.75
0.80
0.90
0.95
0.975
0.98
0.99
0.995
0.999
1
0.455
1.074
1.323
1.642
2.706
3.841
5.024
5.412
6.635
7.879
10.827
2
1.386
2.408
2.773
3.219
4.605
5.991
7.378
7.824
9.210
10.597
13.815
3
2.366
3.665
4.108
4.642
6.251
7.815
9.348
9.837
11.345
12.838
16.268
4
3.357
4.878
5.385
5.989
7.779
9.488
11.143
11.668
13.277
14.860
18.465
5
4.351
6.064
6.626
7.289
9.236
11.070
12.832
13.388
15.086
16.750
20.517
6
5.348
7.231
7.841
8.558
10.645
12.592
14.449
15.033
16.812
18.548
22.457
7
6.346
8.383
9.037
9.803
12.017
14.067
16.013
16.622
18.475
20.278
24.322
8
7.344
9.524
10.219
11.030
13.362
15.507
17.535
18.168
20.090
21.955
26.125 27.877
9
8.343
10.656
11.389
12.242
14.684
16.919
19.023
19.679
21.666
23.589
10
9.342
11.781
12.549
13.442
15.987
18.307
20.483
21.161
23.209
25.188
29.588
11
10.341
12.899
13.701
14.631
17.275
19.675
21.920
22.618
24.725
26.757
31.264
12
11.340
14.011
14.845
15.812
18.549
21.026
23.337
24.054
26.217
28.300
32.909
13
12.340
15.119
15.984
16.985
19.812
22.362
24.736
25.472
27.688
29.819
34.528
14
13.339
16.222
17.117
18.151
21.064
23.685
26.119
26.873
29.141
31.319
36.123
15
14.339
17.322
18.245
19.311
22.307
24.996
27.488
28.259
30.578
32.801
37.697
16
15.338
18.418
19.369
20.465
23.542
26.296
28.845
29.633
32.000
34.267
39.252
17
16.338
19.511
20.489
21.615
24.769
27.587
30.191
30.995
33.409
35.718
40.790
18
17.338
20.601
21.605
22.760
25.989
28.869
31.526
32.346
34.805
37.156
42.312
19
18.338
21.689
22.718
23.900
27.204
30.144
32.852
33.687
36.191
38.582
43.820
20
19.337
22.775
23.828
25.038
28.412
31.410
34.170
35.020
37.566
39.997
45.315
21
20.337
23.858
24.935
26.171
29.615
32.671
35.479
36.343
38.932
41.401
46.797
22
21.337
24.939
26.039
27.301
30.813
33.924
36.781
37.659
40.289
42.796
48.268
23
22.337
26.018
27.141
28.429
32.007
35.172
38.076
38.968
41.638
44.181
49.728
24
23.337
27.096
28.241
29.553
33.196
36.415
39.364
40.270
42.980
45.558
51.179
25
24.337
28.172
29.339
30.675
34.382
37.652
40.646
41.566
44.314
46.928
52.620
26
25.336
29.246
30.434
31.795
35.563
38.885
41.923
42.856
45.642
48.290
54.052
27
26.336
30.319
31.528
32.912
36.741
40.113
43.194
44.140
46.963
49.645
55.476
28
27.336
31.391
32.620
34.027
37.916
41.337
44.461
45.419
48.278
50.993
56.893
29
28.336
32.461
33.711
35.139
39.087
42.557
45.722
46.693
49.588
52.336
58.302
30
29.336
33.530
34.800
36.250
40.256
43.773
46.979
47.962
50.892
53.672
59.703
up 0.00000 0.52440 0.67449 0.84162 1.28155 1.64485 1.95996 2.05375 2.32635 2.57583 3.08023
Tablica 3. Kvantili Studentove razdiobe t1−α /2
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 u1−α /2
0.90 0.158 0.142 0.137 0.134 0.132 0.131 0.130 0.130 0.129 0.129 0.129 0.128 0.128 0.128 0.128 0.128 0.128 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.126 0.126 0.126 0.126
0.8 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.253
nivo znaˇcajnosti 0.70 0.60 0.510 0.727 0.445 0.617 0.424 0.584 0.414 0.569 0.408 0.559 0.404 0.553 0.402 0.549 0.399 0.546 0.398 0.543 0.397 0.542 0.396 0.540 0.395 0.539 0.394 0.538 0.393 0.537 0.393 0.536 0.392 0.535 0.392 0.534 0.392 0.534 0.391 0.533 0.391 0.533 0.391 0.532 0.390 0.532 0.390 0.532 0.390 0.531 0.390 0.531 0.390 0.531 0.389 0.531 0.389 0.530 0.389 0.530 0.389 0.530 0.388 0.529 0.387 0.527 0.386 0.526 0.385 0.524
α 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674
0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.855 0.855 0.855 0.854 0.854 0.851 0.848 0.845 0.842
0.30 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.050 1.046 1.041 1.036
Tablica 3. Kvantili Studentove razdiobe t1−α /2
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 u1−α /2
0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
nivo znaˇcajnosti α 0.05 0.02 0.01 12.706 31.821 63.657 4.303 6.965 9.925 3.182 4.541 5.841 2.776 3.747 4.604 2.571 3.365 4.032 2.447 3.143 3.707 2.365 2.998 3.499 2.306 2.896 3.355 2.262 2.821 3.250 2.228 2.764 3.169 2.201 2.718 3.106 2.179 2.681 3.055 2.160 2.650 3.012 2.145 2.624 2.977 2.131 2.602 2.947 2.120 2.583 2.921 2.110 2.567 2.898 2.101 2.552 2.878 2.093 2.539 2.861 2.086 2.528 2.845 2.080 2.518 2.831 2.074 2.508 2.819 2.069 2.500 2.807 2.064 2.492 2.797 2.060 2.485 2.787 2.056 2.479 2.779 2.052 2.473 2.771 2.048 2.467 2.763 2.045 2.462 2.756 2.042 2.457 2.750 2.021 2.423 2.704 2.000 2.390 2.660 1.980 2.358 2.617 1.960 2.326 2.576
0.005 127.32 14.09 7.45 5.60 4.77 4.32 4.03 3.83 3.69 3.58 3.50 3.43 3.37 3.33 3.29 3.25 3.22 3.20 3.17 3.15 3.14 3.12 3.10 3.09 3.08 3.07 3.06 3.05 3.04 3.03 2.97 2.91 2.86 2.81
0.001 639.619 31.598 12.941 8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291
Tablica 4. Kvantili standardne normalne razdiobe up
p
up
p
up
p
up
0.55
0.12566
0.92
1.40507
0.994
2.51214
0.60
0.25335
0.93
1.47579
0.995
2.57583
0.65
0.38532
0.94
1.55477
0.996
2.65207
0.70
0.52440
0.95
1.64485
0.997
2.74778
0.75
0.67449
0.96
1.75069
0.9975
2.80703
0.80
0.84162
0.97
1.88079
0.998
2.87816
0.82
0.91537
0.975
1.95996
0.999
3.09023
0.84
0.99446
0.98
2.05375
0.9995
3.29053
0.86
1.08032
0.99
2.32635
0.9999
3.71901
0.88
1.17499
0.991
2.36562
0.99995
3.89059
0.90
1.28155
0.992
2.40892
0.99999
4.26489
0.91
0.34076
0.993
2.45726
0.999999
4.75342
Tablica 5. Kvantili razdiobe Kolmogorova λ1−α
α
λ1−α
α
λ1−α
α
λ1−α
1.000
0.32
0.80
0.64
0.20
1.07
0.999
0.38
0.75
0.68
0.10
1.22
0.995
0.42
0.70
0.71
0.05
1.36
0.99
0.44
0.60
0.77
0.02
1.52
0.98
0.47
0.50
0.83
0.01
1.63
0.95
0.52
0.40
0.89
0.005
1.73
0.90
0.57
0.30
0.97
0.001
1.95
Kvantili razdiobe Kolmogorova λ1−α za malene volumene n
n
.20
.10
.05
0.01
5
1.01
1.14
1.25
1.50
10
1.03
1.17
1.30
1.55
15
1.04
1.19
1.32
1.58
20
1.05
1.20
1.33
1.60
25
1.05
1.20
1.34
1.61
30
1.06
1.21
1.35
1.62
∞
1.07
1.22
1.36
1.63