V. VYBRANÉ METODY MATEMATICKÉ STATISTIKY Neo ciální uèební text pro Matematiku V, FS, FM TUL, { èást 2. P. Volf, bøezen 1999 Dá se øíci, ¾e pøedmìtem teorie pravdìpodobnosti je tvorba a studium matematických modelù pro náhodné dìje (èi pro popis neurèitosti vùbec), zatímco matematická statistika se zabývá analýzou výsledkù náhodných dìjù. K tomu si vybudovala a stále roz¹iøuje matematický aparát i matematickou teorii k pou¾ití tohoto aparátu, teorii induktivního uva¾ování (inference). Neboli úkolem metod matematické statistiky je umo¾nit závìry (a zdùvodnit je) o nìjakém systému i v pøípadì, ¾e na¹e informace o nìm je znaènì neúplná, je výsledkem nìjakého náhodného dìje. Proto¾e tuto informaci (èi její èást) vìt¹inou obdr¾íme ve formì dat (t.j. pozorovaných údajù), je matematická statistika pova¾ována za vìdu o analýze dat. Mù¾eme ji v¹ak pova¾ovat za vìdu o analýze informace vùbec.
1 Opakování základních pojmù teorie pravdìpodobnosti Pøedstavme si dìj, jeho¾ výsledek nemù¾eme pøedem jednoznaènì urèit (velièinu, její¾ hodnotu neznáme a víme jen, z jaké mno¾iny ona hodnota mù¾e být). V¹echny mo¾né výsledky èi mo¾né hodnoty (oznaème je f!g) tvoøí prostor elementárních jevù . Zajímáme se buï o pravdìpodobnost jednotlivých výsledkù (jevù) ! (- je-li jich koneènì èi nanejvý¹ spoèetnì mnoho) èi o pravdìpodobnost nìkterých jejich mno¾in. Za tím úèelem si zvolíme -algebru A jako systém podmno¾in A . Je-li P0 pravdìpodobnostní míra na A, tak ( ; A; P0) nazýváme pravdìpodobnostní prostor. Pokud tuto konstrukci transformujeme mìøitelnou funkcí X (!) na reálnou pøímku, X = X (!) nazýváme náhodná velièina. Náhodná velièina tedy urèuje pravdìpodobnostní prostor na R, se systémem podmno¾in B (borelovské mno¾iny) a s pravdìpodobnostní mírou P (B ) = P0 (X ;1(B )) pro B 2 B. Míra P se nazývá zákon rozdìlení náhodné velièiny X . Mù¾e být diskrétního typu, tj. máme pro urèité hodnoty xj ; j = 1; 2; : : : pravdìpodobnosti P (X = xj ). Distribuèní funkce je pro jakékoli rozdìlení de nována jako F (x) = P (X < x). Pro diskrétní rozdìlení je to tedy schodovitá, po èástech konstantníR funkce, neklesající, spojitá zleva. Pokud existuje x f (s) ds, f (x) se nazývá hustota a rozdìlení je funkce f (x) 0 taková, ¾e F (x) = ;1 spojitého typu. Samozøejmì, je mo¾né si pøedstavit rozdìlení smí¹eného typu. Nìkolik náhodných velièin tvoøí náhodný vektor X = (X1; : : : ; Xn). Informaci pro statistickou analýzu obdr¾íme ve formì dat, která pova¾ujeme za realizace zkoumaných náhodných velièin. Náhodným výbìrem rozumíme vektor slo¾ený z nezávislých a stejnì rozdìlených náhodných velièin (pou¾ívá se anglické zkratky i. i. d. =independent, identically distributed). Èíslo n je rozsah výbìru. Náhodný výbìr je model pro situace, kdy pozorujeme n nezávislých, \stejných" objektù, nebo opakujeme nezávisle n krát tentý¾ pokus. Náhodná velièina Xi je modelem pro onu velièinu, kterou na daných objektech zkoumáme. Slovo "výbìr" má svùj pùvod a význam v tom, ¾e bì¾nì pøi zkoumání velkých souborù objektù (výrobkù, pacientù, obyvatel, opakujících se jevù) jsme za rozumnou dobu a s rozumnými náklady schopni zjistit údaje jen o n vybraných objektech. A tedy na 1
základì výbìru dìláme závìry o charakteristikách celého souboru. Pøíklady jsou nasnadì: namátková èi výbìrová kontrola výrobkù, výzkumy veøejného mínìní, testování léèebných postupù. Dùle¾itou praktickou otázkou je tedy i zaji¹tìní reprezentativního (skuteènì náhodného) výbìru zkoumaných objektù z celého souboru. Tak¾e je nutné zkoumat i otázky pøípravy získávání dat (t.zv. "design"), pokud jsme schopni situaci ovlivnit tak aby výsledek pøinesl co nejvíce informace. Èasto se pøedpokládá, ¾e pozorované náhodné velièiny mají zákon rozdìlení z urèité tøídy rozdìlení s distribuèní funkcí F (x), kde 2 Rk je neznámý parametr. Úkolem je pak pøedev¹ím odhad tohoto parametru, pøípadnì testování hypotéz o nìm. Sám odhad je funkcí pozorovaných náhodných velièin, je to nìjaká mìøitelná funkce T(X) z Rn to Rk (pro mìøitelnou funkci náhodných velièin se nìkdy pou¾ívá výrazu statistika). Odhad je tedy opìt náhodná velièina (èi vektor), konkrétní \odhad" aktuální hodnoty parametru je hodnota T(x), kdy¾ x je realizace X.
Uspoøádaný náhodný výbìr je výbìr vzniklý permutací poøadí velièin náhodného výbìru tak, aby X(1) X(2) X(n) . Nech» F (x) je distribuèní funkce rozdìlení Xi, oznaème Pj (x) = nj F (x)j (1 ; F (x))n;j , je to pravdìpodobnost (v souladu s binomickým
zákonem rozdìlení), ¾e právì j z n náhodných velièin je men¹ích ne¾ x. Pak rozdìlení X(r) Pn (r-té poøádkové statistiky) má distribuèní funkci Fr (x) = j=r Pj (x). Je obèas dobré znát aspoò rozdìlení minima a maxima z (X1; :::; Xn). První zákonitostí, které si lidé v¹imli, kdy¾ se zabývali analýzou náhodných dìjù (by» tøeba jen v souvislosti s hazardními hrami), byl zákon velkých èísel. Na nìm jsou zalo¾eny nejjednodu¹¹í odhady pravdìpodobností jevù. ZVÈ v situaci náhodného výbìru øíká, ¾e pøi rùstu rozsahu výbìruPn ! 1, s pravdìpodobností 1P(tj. skoro jistì, pro skoro v¹echny realizace) X n = n1 Xi ;! E X1 , ale také napø. n1 Xi2 ;! E X12 (pokud E X1, resp. E X12 existují). Tedy výbìrový prùmìr je silnì konzistentním odhadem P 1 2 støední hodnoty, i proto se jako odhad pro var X1 u¾ívá (mimo jiné) n = n (Xi ; X n)2. P Zároveò, v a = X n se dosáhne mina (Xi ; a)2, neboli X n lze pova¾ovat za odhad metodou nejmen¹ích ètvercù pro EX . To je dal¹í idea pro odhadování parametrù, vyu¾ívaná zejména v analýze regrese. Dal¹í zákonitost je vyjádøena v centrální limitní vìtì - CLV. V situaci p náhodného 2 výbìru, pokud EXi = ; varXi = jsou koneèné, platí, ¾e rozdìlení velièiny n Xn; se blí¾í N (0; 1), tj. standardnímu normálnímu, pøi n ! 1. Obdobné vlastnosti se projevují i za obecnìj¹ích podmínek ne¾ je situace náhodného výbìru. CLV nám ukazuje na urèité výsadní postavení normálního rozdìlení jak v modelech, tak v aplikacích, tj., jak uvidíme, v statistické analýze dat.
2 Odhady základních charakteristik rozdìlení pravdìpodobnosti
Pøedstavme si náhodný výbìr X = (X1; :::Xn), tj. nezávislé stejnì rozdìlené velièiny (pøípadnì jejich realizace { data). Mù¾eme si je také pøedstavit jako nezávislé kopie nìjaké náhodné velièiny X . Chceme se z jejich hodnot dozvìdìt nìco o pøíslu¹ném rozdìlení pravdìpodobnosti. 2
Odhad støední hodnoty: Pøirozeným odhadem støední hodnoty EX je aritmetický prùmìr P Xn = n1 ni=1 Xi.
Odhad rozptylu (výbìrový rozptyl): Rozptyl varX se odhaduje velièinou Pn Pn 1 1 2 2 2 s = n;1 i=1(Xi ; Xn) = n;1 ( i=1 Xi ; nXn2; )
pøípadnì P ^ 2 = n1 ni=1(Xi ; Xn)2. Rozdíl mezi obìma odhady je nepatrný, ale jak uvidíme, s2 je nestranný a proto se mu dává pøednost. Velièinu s pak nazýváme (výbìrová) smìrodatná odchylka, neboli slou¾í jako odhad smìrodatné odchylky.
Dal¹í výbìrové charakteristiky , tj. charakteristiky spoètené z dat, kterými se od-
hadují pøíslu¹né charakteristiky rozdìlení náhodné velièiny X : výbìrový medián { uspoøádáme-li náhodný výbìr podle velikosti, tj. X(1) X(2) ::: X(n) , pak, v pøípadì lichého n je výbìrový medián roven X( n+1 , tj."prostøední" 2 ) poøádkové statistice, v pøípadì sudého n pak vezmeme prùmìr mezi n2 -tou a n2 +1-tou ^ = 12 (X( n2 ) + X( n2 +1) ): poøádkovou statistikou, med výbìrový -kvantil pro 2 (0; 1) { je de nován analogicky. Je to takový bod q^ , ¾e X([n]) < q^ < X([n]+1) , kde [a] oznaèuje celou èást z èísla a. Kromì mediánu, co¾ je kvantil pro = 0:5, se èasto u¾ívají i kvartily, q^0:25 a q^0:75 . Mezikvartilové rozpìtí q^0:75 ; q^0:25 je pak u¾íváno jako pomocná charakteristika rozptýlenosti dat. modální hodnota (modus) { je de nován jako hodnota, která se vyskytuje mezi daty èastìji ne¾ ostatní hodnoty. Proto¾e odhady charakteristik (parametrù) rozdìlení pravdìpodobnosti jsou de novány jako funkce náhodných velièin, jsou samy také náhodnými velièinami. Teprve v momentì, kdy máme k dispozici realizace { data, dostaneme i konkrétní hodnoty odhadù.
2.1 Teorie bodového odhadu parametrù
Uva¾ujme náhodný vektor X = (X1 ; :::; Xn), jeho¾ distribuce závisí na parametru . Jak jsme øekli, nejèastìj¹í pøípad
FX(x; ) =
n Y i=1
F (xi; )
odpovídá náhodnému výbìru, kdy slo¾ky Xi jsou nezávislými kopiemi té¾e náhodné velièiny X1, F je její distribuèní funkce. Nech» pøitom 2 Rk
3
Formulace problému: Pøedstavme si, ¾e známe sice tvar funkce F , ale neznáme správnou hodnotu parametru . Proto chceme na základì pozorování náhodných velièin X = (X1; X2; : : : ; Xn) vytvoøit odhad, tj. vybrat jejich funkci (statistiku) Tn(X), která by \co nejlépe" neznámý parametr odhadla.
Oznaème E ; var støední hodnotu, rozptyl v situaci, kdy je skuteèná hodnota parametru. Slovo "skuteèný" samozøejmì znamená jen ná¹ (pravdìpodobnostní) model reality, ne pøímo realitu. Nìkteré "¾ádoucí" vlastnosti odhadù: 1. Nestrannost (nevychýlenost): Kdy¾ pro ka¾dé 2 platí
E fTn(X)g = : Napøíklad prùmìrPz náhodného výbìru X n je nestranný odhad pro E X1 , zrovna tak, je-li s2n = n;1 1 ni=1(Xi ; X )2; tak Es2n = var(X1), neboli s2n je nestranný odhad pro var(X1). 2. Silná konzistence: Je-li skuteèná hodnota parametru,tak limn!1 Tn (X) = s pravdìpodobností 1. P -konzistence: Tn(X) ;! v pravdìpodobnosti. 3. E cience (vydatnost): Odhad (estimátor) Tn(x) je e cientní, kdy¾ pro ka¾dý jiný odhad Tn(X) mající koneèný druhý moment platí
E f(Tn(X) ; )2g E f(Tn(X) ; )2 g tj. pro nestranné odhady var (Tn(X)) var (Tn(X)) pro ka¾dé 2 .
4. Asymptotická normalita: Dík CLV víme ji¾, ¾e (za urèitých podmínek) se rozdìlení velièiny pn X ; EX s blí¾í standardnímu normálnímu rozdìlení, pøi n ! 1. Této vlastnosti se øíká asymptotická normalita (normalita v limitì). Tak¾e prùmìr X je asymptoticky normálním odhadem støední hodnoty EX . Podobná vlastnost platí i pro mnoho dal¹ích odhadù, napøíklad pro nìkteré odhady poèítané metodou maxima vìrohodnosti. Problém s asymptotickými vlastnostmi (takovou vlastností je i konzistence) je ten, ¾e v praxi v¾dy pracujeme s koneènými poèty velièin (dat) a tì¾ko se odhaduje chyba, které se dopou¹tíme pøi pou¾ití aproximace normálním rozdìlením.
4
2.2 Odhady z tøídìných dat
Pomìrnì èasto (zvlá¹» je-li pozorování mnoho) se mù¾e stát, ¾e místo N úplných pozorování velièiny X máme k dispozici jen èetnosti výskytu napozorovaných hodnot v urèitých intervalech. Jinými slovy, obor mo¾ných hodnot velièiny X (øeknìme, interval ha; bi) je rozdìlen do M intervalù a = a0 < a1 < a2 < ::: < aM ;1 < aM = b a známe pouze poèty Nm, kolik pozorování padlo do intervalu ham;1 ; am); m = 1; 2; :::; M . Jak nyní odhadneme EX a varX ? Nejjeddnodu¹eji tak, ¾e pro ka¾dý interval si zvolíme "reprezentativní" hodnotu Zm , a pøedstavíme si, ¾e právì ona nastala Nm-krát. Pak, pochopitelnì, odhadneme EX a varX jako M M X X Nm Zm; ~ 2 = N1 Nm (Zm ; X~ )2: X~ = N1 m=1
m=1
Takovéto odhady ji¾ zpravidla nejsou nestranné. Konzistentní mohou být, pokud pøi zvìt¹ování poètu dat N zvìt¹ujeme i poèet tøíd M (a tøídy "zu¾ujeme"). Nejjednodu¹¹í volba "zástupcù" tøíd jsou prostì støedy tøíd. Potí¾e mohou nastat s krajními tøídami, které jsou nìkdy znaènì ¹ir¹í ne¾ ostatní (pokrývají ¹iroké oblasti nepøíli¹ pravdìpodobných hodnot). Volíme pak pro nì nìjakou rozumnou zastupující hodnotu, tøeba Z1 = a1 ; (Z2 ; a1 ); ZM = aM ;1 + (aM ;1 ; ZM ;1), a pod.
2.3 Metoda maximální vìrohodnosti
Vìrohodnostní funkce je, zhruba øeèeno, pravdìpodobnost pozorovaných dat x =
x1 ; :::; xn, pøi dané hodnotì parametru . Pro spojitý pøípad je vìrohodnostní funkce de nována jako L (x) = fX(x; ): Je to tedy hustota odpovídající realizované hodnotì náhodného vektoru X pøi hodnotì parametru . Obdobnì L (x) = P fX1 = x1 ; X2 = x2 ; : : : ; Xn = xng = P (X = x; ) pro diskrétní pøípad. V pøípadì náhodného výbìru je tedy L (x) = Qni=1 f (xi; ) pro spojité, resp. Q P (Xi = xi; ) pro diskrétní rozlo¾ení pravdìpodobnosti. Uva¾ujme náhodný výbìr z rozdìlení pravdìpodobnosti, které má distribuèní funkci F (x; ), 2 je neznámý parametr.
MAXIMÁLNÌ VÌROHODNÝ ODHAD.
Jde o jednu z neju¾ívanìj¹ích metod odhadu parametru. Za maximálnì vìrohodný odhad parametru v rámci rozdìlení s distribuèní funkcí fFX (x; )g pøi namìøených hodnotách x = x1 ; x2 ; : : : ; xn prohlásím tu hodnotu 0 2 , pro kterou je vìrohodnostní funkce L (x) maximální, tj. L (x) L0 (x) pro v¹echna 2 , neboli ^ = Tn(x) = argmax fL (x)g: Proto¾e log L má maximum v tém¾e bodì jako L, bod maxima se prakticky hledá øe¹ením vìrohodnostní rovnice d log L (x) = d = 0. V pøípadì vícerozmìrného parametru jde 5
tedy o soustavu rovnic @ log L (x) = @j = 0, èasto je nutné je øe¹it iterativnì, napø. Newtonovým algoritmem. Jde tedy o úlohu optimalizace, ve slo¾itìj¹ích pøípadech mù¾e být více lokálních maxim (tj. více øe¹ení vìrohodnostních rovnic), cílem je najít maximum globální.
Vlastnosti maximálnì vìrohodných odhadù 1. Existuje-li e cientní odhad parametru , pak je jediným øe¹ením vìrohodnostní rovnice. 2. Jestli¾e mno¾ina fx : f (x; ) > 0g nezávisí na , pak maximálnì vìrohodný odhad je a) silnì konzistentní, b) invariantní, tj. g(Tn(x)) je rovnì¾ maximálnì vìrohodný odhad pro parametrickou funkci g(), je-li tato jednoznaèná. p c) Asymptoticky normální { rozdìlení náhodné velièiny n(Tn(X) ; ) konverguje pøi n ! 1 k rozdìlení N (0; 2 ), kde 2 = f=()g;1; =() je tak zvaná Fisherova informace, (
)2 @f ( X; ) =() = E @ =f (X; ) : n 2
o
L (x) je matice druhých Jako odhad =() se u¾ívá ; n1 D, kde D = @ @logj @ k derivací logaritmu vìrohodnostní funkce, do které navíc dosazujeme odhad .
Pøíklady 1. Normální rozlo¾ení. Vìrohodnostní funkce n-rozmìrného náhodného výbìru je (
)
2 p 1 exp ; (xi2;2) : i=1 2 n Y
Potom log L; (X) ;n log ; Pni=1 (X2i ;2) . Chceme spoèíst odhady a . Vidíme, ¾e øe¹ení maximalizace pøes nezávisí na a je toto¾né s øe¹ením metodou P \nejmen¹ích ètvercù", tj. min (Xi ; )2 , ^n = X n (výbìrový prùmìr). P L = ; n + (Xi ;)2 , neboli ^ 2 = 1 P(X ; )2 , pokud známe. Pokud Dále, @ log i n @ 3 n ne, dosadíme ^n a dostaneme ^n2 = n1 P(Xi ; X n)2 = n;n 1 s2n (tj. není to odhad zcela toto¾ný s nestranným odhadem s2n). 2. Binomické rozlo¾ení je vlastnì souèet n i.i.d. náhodných velièin Xi s rozdìlením Bernoulliho (neboli alternativním) s P (Xi = 1) = p; P (Xi = 0) = 1 ; p. 2
!
Lp(y) = P (Y = y) = ny py (1 ; p)n;y ; ! n log Lp(y) = log y + y log p + (n ; y) log(1 ; p): 6
L y n;y y Øe¹ení vìrohodnostní rovnice @ log @p = p ; 1;p = 0 je zøejmì p^n (y ) = n . Lehce ovìøíme, ¾e jde o nestranný odhad p, nebo» víme, ¾e náhodná velièina Y má EY = np a tedy E p^n(Y ) = np=n = p: Pokud jde o asymptotickou normalitu, známe ji u¾ z aplikace CLV: platí, ¾e rozdìlení p n pp^pn(1;;pp) konverguje k N (0; 1) rozdìlení pøi n ! 1.
2.4 Odhad distribuèní funkce a hustoty
Distribuèní funkce n. v. X je de nována jako pravdìpodobnost jevu X < x, F (x) = P (X < x). Mìjme náhodný výbìr X1 ; : : : ; Xn z rozdìlení, které má distribuèní funkci F . Pro ka¾dé pevné x je F (x) vlastnì parametrem binomického rozdìlení výskytu jevu X < x v n pokusech. Maximálnì vìrohodným odhadem F (x) je proto relativní èetnost výskytu jevu fXi < xg, Fn(x) = n1 Pni=1 1[Xi < x], kde 1[] je indikátorová funkce (tj. =1 pokud Xi < x, =0 jinak). Tomuto odhadu se øíká empirická distribuèní funkce { je to vlastnì distribuèní funkce pro "empirické" (napozorované) rozdìlení, které by ka¾dé realizované hodnotì (z n realizovaných dat) pøiøadilo "pravdìpodobnost" 1=n. Jak je vidìt, tato funkce je schodovitá, po èástech konstatní, spojitá zleva, neklesající. Samozøejmì, proto¾e je sestrojena z náhodných velièin, je (pro ka¾dé pevné x) Fn(x) náhodná velièina, a proto¾e vyjadøuje relativní èetnost, je to velièina binomická, Fn(x) Bi(n; p = F (x)). Nejen¾e má (pro ka¾dé pevné x) tyté¾ dobré vlastnosti jako odhad parametru p v binomickém rozdìlení, ale navíc (pro spojitá rozdìlení) platí:
Dn = sup jFn(x) ; F (x)j ;! 0 s pravdìpodobností 1: x Této vlastnosti lze vyu¾ít k testu hypotézy o tom, ¾e výbìr pochází z rozdìlení s danou distribuèní funkcí. Tento postup je znám jako test Kolmogorova{Smirnova (viz dále), kritické hodnoty jsou tabelovány, test je bì¾nì souèástí statistických programù. Dá se nìjak \empiricky" odhadnout i hustota spojitého rozdìlení pravdìpodobnosti? Mìjme a < b reálná, hustota (f ) rozdìlení n. v. X udává pravdìpodobnost P (X 2 (a; b)) = Rb a f (x) dx. Kdy¾ X1 ; : : : ; Xn je náhodný výbìr, tj. nezávislé kopie velièiny X , tuto pravdìpodobnost samozøejmì nejlépe odhadneme opìt relativní èetností výskytu fXig v (a; b). Odhadnìme si \reprezentativní" hodnotu hustoty v (a; P b), tj. spokojme se s tím, ¾e odhad 1 bude konstanta v (a; b). Pak to tedy bude f^a;b (x) = n 1[Xb;i2a(a;b)] . Pokud rozdìlíme celý obor hodnot n. v. X na disjunktní intervaly a v ka¾dém z nich odhadneme pravdìpodobnost tímto zpùsobem, dostaneme tzv. histogram, funkci po èástech konstantní, se skoky na krajích zvolených intervalù. Po normování (aby plocha pod touto funkcí byla dohromady 1) histogram pova¾ujeme za odhad hustoty rozdìlení pravdìpodobnosti. Pokud takto získané "sloupeèky" budeme kumulovat (tj. sèítat) zleva doprava, získáme kumulativní histogram, který (je-li normován a tedy roste od 0 do 1) je odhadem distribuèní funkce. Bì¾nìji se u¾ívá pro odhad hustoty tzv. jádrového odhadu R 1, který dává u¾ spojitý odhad. Nech» jádro W (x) je symetrická, nezáporná funkce s ;1 W (x) dx = 1. Nech» je W (x) > 0 jen na omezeném intervalu, èi alespoò je \malá" pro vysoké hodnoty x, Pn 1 X ; x i limx!1 x W (x) ;! 0. Jádrový odhad hustoty f v bodì x je fn(x) = bn i=1 W b . Parametrem b volíme \¹íøku okna" kolem bodu x. U¾ívají se napøíklad jádra W (x) = 21 na 7
(;1; 1); = 0 jinde, nebo W (2x) = j1 ; xj na (;1; 1); = 0 jinde, èi standardní gaussovská hustota W (x) = p12 exp(; x2 ). Pøi n ! 1; b = bn ! 0 tak, aby bn n ! 1, je tento odhad konzistentním odhadem f (x) v bodì x. Napøíklad se volí bn = c=sqrt(n). Pro dostateènì hladkou fR(x) a jádrovou 1 E (f (x) ; funkci s omezeným nosièem dostaneme zpravidla i globální konzistenci, ;1 n f (x))2 dx ;! 0. V praxi nìkdy b mìníme pro rùzné body x, abychom v \oknì" [x ; b; x + b] mìli v¾dy zhruba stejný poèet (øeknìme M ) pozorování. Tomu se pak øíká pøístup s M -nejbli¾¹ími sousedy.
Bayesovská metoda odhadu
Tato metoda je zalo¾ena na trochu jiném pøístupu k informaci, kterou máme k dispozici. Základ informace stále tvoøí data x-realizace n. v. X, a pøedpokládaná znalost typu distribuce F (x), a¾ na hodnotu 2 . Ale mù¾eme se na základì zku¹enosti, nìjaké informace \odjinud", pokusit ohodnotit vìrohodnost rùzných hodnot . Pokud této pøedstavì o vìrohodnosti dáme formu rozdìlení pravdìpodobnosti, máme apriorní rozdìlení pravdìpodobnosti pro v . Tak¾e, aè parametr svou podstatou není náhodná velièina, my jej tak interpretujeme. Samozøejmì bychom si dokázali pøedstavit situaci, kdy parametr nìjakého systému závisí na výstupu z jiného systému, tj. kdy je hodnota parametru i objektivnì výsledkem nìjakého náhodného dìje. Jsme tedy v situaci, kdy nìkteré n. v. jsou pozorovatelné (X), jiné nepozorovatelné (), a je mezi nimi urèitý vztah. Vìt¹inou známe tvar podmínìného rozdìlení X pøi daném , daný distribuèní funkcí F (x). Uva¾ujme spojitý pøípad, hustotu k F (x) budeme znaèit f (xj), zvolenou hustotu apriorního rozdìlení oznaème g0 (). Pak sdru¾ené rozdìlení (X; ) má hustotu h(x; ) = f (xj) g0(). Informace získaná daty x vede k aposteriornímu rozdìlení pro , které má hustotu g(jx) = f (xfj ()xg0)() = hf(x(;x)) : R
1 h(x; ) d je marginální rozdìlení X, vzorec pro aposteriorní hustotu Zde f (x) = ;1 není nic jiného ne¾ Bayesùv vztah známý z teorie pravdìpodobnosti. Je jasnì vidìt i dynamický prvek této procedury: Dal¹í \pøísun" dat opìt poopraví aposteriorní rozdìlení, kdy¾ staré aposteriorní se objeví ve vzorci na místì apriorního. Pøitom zpravidla s pøibýváním dat vliv dat na aposteriorní rozdìlení roste, vliv volby apriorního rozdìlení klesá. Pokud chceme bodový odhad parametru , mù¾eme vzít tøeba E (jX = x), nebo modus (maximum hustoty) rozdìlení pøi x. Bayesovský intervalový odhad je takový, R ¾e pro zvolené 2 (0; 1) jeho dolní a horní meze a; b splòují ab g(jx) d = 1 ; . Meze mù¾eme tedy vzít jako dolní a horní 2 - kvantil aposteriorního rozdìlení. Zdálo by se, ¾e pøepoèítávání hustot z apriorní na aposteriorní je numericky nesnadný úkol. Ale pøi nìkteré volbì typu rozdìlení staèí pøepoèítat jen hodnoty urèitých parametrù. Uva¾ujme nìjaký systém G = fg(); 2 Ag hustot pro , jako apriorní zvolme g0 () { pro nìkterou hodnotu 0 2 A. Jestli¾e je aposteriorní hustota opìt z G (s nìjakým = (x) 2 A), pak øekneme, ¾e systém G je konjugovaný se systémem F = ff (xj); 2 g. Takto se zachovává typ, je-li napøíklad G systém gaussovských hustot a F je také systém gaussovských distribucí N (; 2) s 2 známým.
8
V poslední dobì se v rámci Bayesova pøístupu pou¾ívá metodika, která aposteriorní rozdìlení nepoèítá, ale místo toho na základì Bayesova vztahu poèítaèovì simuluje realizace velièiny, která má (aspoò pøibli¾nì) ¾ádané rozdìlení. Tyto metody byly pùvodnì vyvinuty v statistické fyzice a v oblasti rekonstrukce "za¹umìných" obrazových i jiných signálù. Dnes se jim dohromady øíká metody MCMC (od "Markov chain Monte Carlo", tj. simulované Markovovy øetìzce), z konkrétních algoritmù jmenujme Gibbsùv a Metropolisùv{Hastingsùv.
3 Intervalové odhady, základ pro testy hypotéz Náhodná velièina X nech» má rozlo¾ení pradìpodobnosti s distribuèní funkcí F (x; ). Opìt pøedpokládejme, ¾e typ distribuèní funkce je znám, ale neznámá je hodnota parametru 2 R1 .
De nice: Intervalový odhad pro s koe cientem spolehlivosti 1 ; ( 2 (0; 1)) je interval I (X ) = huD (X ); uH (X )i takový, ¾e pro ka¾dé 2 je P fuD (X ) uH (X )g 1 ; : Jinými slovy, I (X ) je interval náhodný, který s pravdìpodobností aspoò 1 ; pokryje kon-
stantní, danou, ale nám neznámou hodnotu parametru . Oznaèíme-li x realizaci náhodné velièiny X , je I (x) interval { realizace náhodného intervalu I (X ).
Interval spolehlivosti (kon denèní interval) je intervalový odhad konstruovaný pro
testování hypotéz o hodnotì parametru . Je opìt sestrojený pomocí nìjaké statistiky T (X ), tj. transformace náhodné velièiny X , napøíklad T (X ) mù¾e být bodový odhad. Nìkdy mno¾ina s tìmito vlastnostmi není intervalem, zejména je-li parametr vícerozmìrný, pak mluvíme o oboru spolehlivosti.
Pøíklad: Sestrojme kon denèní interval s koe cientem spolehlivosti 1 ; pro parametr na základì n-tice nezávislých náhodných velièin X = (X1; X2; : : : ; Xn) se stejným normálním rozlo¾ením N (; 2). Jako bodový odhad pro pou¾ijeme výbìrový prùmìr n X Xn = n1 Xi: i=1
p
Víme, ¾e náhodná velièina Z = n Xn; má standardní normální rozlo¾ení N (0; 1). Nech» u(=2) je horní =2-kvantil tohoto rozlo¾ení, to znamená, ¾e P fZ < ;u(=2)g = P fZ > u(=2)g = =2. Po dosazení za Z zjistíme, ¾e (
)
(
)
2) = ; P < X ; p u(=2) = : P > Xn + up(= n n 2 n 2
Tak¾e I (X) = Xn ; pn u(=2); Xn + pn u(=2) je hledaný kon denèní interval pro . Takový interval samozøejmì není jediný, ale je zvykem u¾ívat takovýto \symetrický". 9
V pøíkladu jsme vidìli, ¾e kon denèní interval vznikl prùnikem dvou intervalù, levostranného a pravostranného. Levostranným 1 { intervalem spolehlivosti pro nazveme náhodný interval (s koe cientem spolehlivosti 1 ; 1, IL(X ) = (uD (X ); 1) takový, ¾e P f 2 IL(X )g 1 ; 1. Pravostranným 2 { intervalem spolehlivosti pro nazveme náhodný interval IP (X ) = (;1; uH (X )) takový, ¾e P f 2 IP (X )g 1 ; 2. Oboustranným 1 ; 2 { intervalem spolehlivosti nazvu náhodný interval
I (X ) = IP (X ) \ IL(X ): Koe cient spolehlivosti je nyní 1 ; 1 ; 2. Jak jsme vidìli i v pøíkladì, vìt¹inou se ale oboustranný IS sestrojuje "symetricky", tj. chceme-li dosáhnout koef. spolehlivosti 1 ; , kombinujeme 2 jednostranné IS, ka¾dý s koef. spolehlivosti 1 ; =2. V rámci pøedchozího pøíkladu si teï pøedveïme postup testování hypotézy o støední hodnotì s pomocí pøíslu¹ného intervalu spolehlivosti. Pøedstavme si, ¾e známe, a o se domníváme, ¾e by mohlo mít hodnotu 0. Test této na¹í hypotézy H0 : = 0, proti alternativní hypotéze (alternativì) H1 : 6= 0 je zalo¾en právì na intervalu spolehlivosti I (X). Ten je sestrojen tak, aby pravdìpodobnost, ¾e 0 2 I (X), pokud 0 je "správné", byla rovna 1 ; . Zvolíme velmi malé (0.05., 0.01 apod.). Nech» x = x1 ; :::; xn jsou data, realizace n. velièin X1; :::; Xn, I (x) je pak "realizace" náhodného intervalu I (X). Pøedstavme si, ¾e 0 le¾í mimo tento interval I (x). Neboli, kdyby platila hypotéza H0, nastal jev, jeho¾ pravdìpodobnost (pøi 0 skuteèném) je nanejvý¹ , tj. jev, který je velice málo pravdìpodobný. Jinými slovy, data neodpovídají hypotéze H0. To je dùvod k zamítnutí H0 . V opaèném pøípadì hypotézu nezamítáme (nikoliv \pøijímáme"). Pro testování té¾e hypotézy H0 proti jednostranné alternativì (napø. proti > 0) je test zalo¾en na jednostranném intervalu spolehlivosti (zde na IL(X)). Èíslo je hladina významnosti testu. Prakticky test provádíme tak, ¾e nezkoumáme,p zda 0 je mimo interval spolehlivosti, ale zda testová statistika (testová velièina) Z = n X n;0 padla do kritického oboru, v na¹em pøípadì tedy zda jZ j > u(=2) { pak H0 zamítneme. Podobnì, pro test H0 proti > 0 je kritickým oborem pro Z interval (u(); 1), H0 zamítneme na hladinì významnosti ve prospìch alternativy > 0, padne-li Z do tohoto kritického oboru, tj. je-li Z > u(). Jak jsme vidìli v kapitole o bodových odhadech, i mnohé dal¹í odhady (napøíklad maximálnì vìrohodné) bývají po urèité transformaci alespoò asymptoticky (pøi n ! 1) rozdìlené jako standardní gaussovská velièina. Toho se dá s výhodou vyu¾ít právì pro konstrukci (asymptotických, tj. pøibli¾ných) intervalù spolehlivosti pro neznámé parametry a tedy i k testùm hypotéz o nich. Kromì normálního rozdìlení se v této oblasti statistické analýzy uplatòují i dal¹í typy distribucí, vzniklých transformací normální distribuce. V pozadí je skryta samozøejmì centrální limitní vìta. A dùvodem ke konstrukci oblastí spolehlivosti je pøedev¹ím mo¾nost jejich vyu¾ití k testování hypotéz. Standardním metodám testování hypotéz bude vìnována celá dal¹í kapitola. Zde jsme chtìli na pøíkladì ukázat podstatu postupu. Pro test se sna¾íme najít vhodnou statistiku 10
T (x) (zde to byl odhad parametru ), a pak najít takový kritický obor K, aby pøi platnosti testované hypotézy H0 : bylo P (T (X) 2 Kj0 ) . Tím omezujeme pravdìpodobnost chyby 1. druhu, chyby, ¾e zamítneme správnou hypotézu. Pøitom se sna¾íme udìlat co nejmen¹í i pravdìpodobnost chyby 2. druhu, tj. toho, ¾e nezamítneme H0, kdy¾ správná není. Silou testu nazveme funkci B () = P (T (X) 2 Kj), èili pravdìpodobnost zamítnutí hypotézy (0), je-li skuteèná hodnota parametru . Zøejmì tedy B (0) , úèelem je, aby B () rychle rostlo k 1 se vzdáleností od hypotetického 0 .
4 Neju¾ívanìj¹í statistické testy hypotéz
Nech» X1 Xn je náhodný výbìr (tj. vzájemnì nezávislé a stejnì rozdìlené náhodné velièiny), pøedpokládejme, ¾e jednotlivé Xi mají N (; 2) rozdìlení. Budeme pou¾ívat zápisu Xi N (; 2 ). 1. Test o støední hodnotì , pøi 2 známém { tento pøípad jsme ji¾ popsali v pøedchozí kapitole. Testovací velièina (testovací statistika, tj. funkce X1 ; : : : ; Xn pomocí které se testuje) p X je U (X; ) = n n; , kde X n = n1 Pni=1 Xi . a) Testujme hypotézu H0 : = 0 proti alternativní hypotéze (alternativì) H1 : 6= 0, na hladinì - volíme malé, nejèastìji 0:05, tj. 5%. Pøi H0 je U (X; 0) N (0; 1), proto nezamítám H0, je-li ;u( 2 ) U (X; 0) u( 2 ) (zamítám v opaèném pøípadì), kde u( ) tedy oznaèuje horní -kvantil standardního normálního rozdìlení N (0; 1): b) Testujeme-li hypotézu H0 : 0 proti H1 : > 0 , zamítám H0 (na hladinì ), je-li U (X; 0) > u(). Je to tak proto, ¾e skuteèná hodnota se projeví v hodnotì Xn, tak¾e > 0 vede k velké hodnotì U . c) Obdobnì, pøi testu H0 : 0 proti H1 : < 0 hypotézu H0 zamítám (na hladinì ), je-li U (X; 0) < ;u(). Hodnoty kvantilù u (které zde tedy pøedstavují kritické hodnoty pro testy) je tøeba vyhledat v statistických tabulkách (nebo spoèítat). 2. t-testy, Studentovo rozdìlení pro test o , kdy¾ neznáme 2. Opìt pøedpokládáme Xi N (; 2 ). p 2 Nyní pou¾ijeme T = n X ns;n 0 , kde s2n = (Xni ;;X1 n) je odhad (nestranný) neznámého 2. Pøi H0 : ( = 0) je pak velièina T rozdìlena podle rozdìlení t(n;1) { tak znaèíme Studentovo rozdìlení s n ; 1 stupni volnosti. a) H0 zamítám na hladinì významnosti , je-li T > tn;1 ( 2 ) nebo < ;tn;1 ( 2 ). Zde tn;1( ) znaèí horní -kvantil Studentova rozdìlení s n ; 1 stupni volnosti. Tyto kvantily je také potøeba najít v statistických tabulkách nebo je spoèítat. POZOR: nìkdy je tm () oznaèeno a tabelováno tak, ¾e P (jT j > tm ()) = , (tak¾e vlastnì ve skuteènosti jde o tm ( 2 ). V tabulkách (èi ve výstupech z poèítaèových procedur) je v¾dy napsáno, jaké hladiny se pøíslu¹ný test týká. 11
b) H0 : ( 0 ) zamítám proti H1 : ( > 0), je-li T > tn;1(). Pro test 0 proti < 0 obdobnì. Pozn. Pokud je n velké (alespoò nìkolik desítek), pak ji¾ je tento test blízký testu 1., dík konzistenci odhadu s2n pro 2. Lze jej pak také pou¾ít (dík C. L. V.) pøibli¾nì i bez pøedpokladu normality n. v. Xi, napøíklad v následující situaci: 3. Test o parametru p binomického rozdìlení Nech» n.v. X je rozdìlena podle Bi(n,p) rozdìlení, tj. popisuje napø. poèet uspì¹ných pokusù z n nezávisle opakovaných pokusù, kdy¾ pravdìpodobnost úspìchu pro 1 pokus je p. Test H0 : p = p0 proti H1 : p 6= p0 : Platí-li H0, tak dík C.L.V. má velièina U = pnpX ;0(1np;0p0) pøibli¾nì (asymptoticky, t.zn. v limitì pøi n ! 1) N (0; 1) rozdìlení. Pro "pøibli¾nost" budeme pou¾ívat zápisu U N (0; 1). Znamená to, ¾e test mohu pou¾ít v pøípadì, ¾e n je dostateènì velké (aspoò nìkolik desítek). Z dat tedy spoètu hodnotu velièiny U a pak hypotézu H0 zamítám na hladinì (pøibli¾nì) , jakmile je jU j > u( 2 ). Pøi jednostranném testu H0 : p p0 proti H1 : p < p0 zamítám H0 na hladinì , kdy¾ U < ;u(). Obdobnì, pøi testu H0 : p p0 proti H1 : p > p0 zamítám H0 na hladinì , kdy¾ U > u().
4.1 Porovnání dvou výbìrù
Mìjme 2 náhodné výbìry, chceme porovnat pøíslu¹né støední hodnoty. 4. Párový test. Mìjme 2 výbìry stejného rozsahu, X1 ; : : : ; Xn z rozdìlení N (X ; X2 ), Y1; : : : ; Yn z rozdìlení N (Y ; Y2 ), není nutná nezávislost Xi na Yi. Naopak, èasto se takto testuje významnost zmìny støední hodnoty nìjaké velièiny u tìch¾e objektù, pøed a po nìjakém zásahu. Chceme otestovat, zda je X = Y , pøípadnì zda X = Y + . K tomu vytvoøíme velièiny Zi = Xi ; Yi, které odpovídají rozdìlení N (Z = X ; Y ; Z2 ) (Z zpravidla neznáme). A vlastnì je na¹ím úkolem testovat hypotézu H0: Z = 0 , nejèastìji pro 0 = 0. Postupujeme dále zcela podle pøípadu 2., tj. q P 1 Z ; 2 0 pou¾ijeme t-test a testovací velièinu T = (n) s , kde s = n;1 (Zi ; Z)2.
5. Dvouvýbìrový test Nech» je nyní X1; : : : ; Xn N (X ; 2); Y1; : : : ; Ym N (Y ; 2), oznaème = X ; Y . Dùle¾itým pøedpokladem je vzájemná nezávislost i Xi na Yi. Dal¹ím pøedpokladem je alespoò pøibli¾ná stejnost rozptylù v obou skupinách. Platnost tohoto pøedpokladu lze otestovat F-testem (viz dále). h i1 X n ;Y m ; n m 2 sn;m n+m
Testovací statistika je nyní T = tn+m;2 (tedy je rozdìlena podle Studentova rozdìlení s n + m ; 2 stupni volnosti), kde 2 + (Yi ; Y m )2 s2n;m = (Xi ; Xnn+) m : ;2
12
Zase testujeme buï = 0 proti 6= 0 nebo 0 proti > 0 apod., nejèastìji pro 0 = 0. Kritickými hodnotami pro test jsou tedy opìt pøíslu¹né kvantily Studentova rozdìlení, tentokrát s n + m ; 2 stupni volnosti. Není-li splnìn pøedpoklad o stejném rozptylu, je nutno k testování stejné 'polohy' obou rozdìlení pou¾ít jiné testy, napø. test Wilcoxona, anebo pou¾ít nìkteré z pøibli¾ných procedur, napøíklad následující: 6. Pøibli¾ný dvouvýbìrový t-test. Spoètìme nejdøíve velièinu s = (s2X =n + s2Y =m) 21 ; kde s2X = (n;1 1) P(Xi ; Xn)2, s2Y = (m1;1) P(Yj ; Ym )2. K testu pou¾ijeme velièinu T = jXns;Ymj , kterou porovnáme m;1)tm;1 ( ) 2 . s t = (n;1)tn;1 ( m2 )+( +n;2 Hypotézu H0:X = Y nyní zamítneme na hladinì (pøibli¾nì) , kdy¾ bude T > t. 7. Chi{kvadrát (2) testy pro testování hypotéz o velikosti rozptylu 2. Proto¾e velikost rozptylu je vlastnì mírou pro pøesnost a spolehlivost závìrù o zji¹»ované velièinì, je dùle¾ité mít k dispozici procedury pro takovéto testování. Je-li Xi N (; 2), pak velièina Pn 2 2 Cn(X; ) = i=1(Xi2; Xn) = sn2 (n ; 1) má 2n;1 (chi-kvadrát s n ; 1 stupni volnosti) rozdìlení. To je opìt tabelované. Tak¾e napøíklad v testu H0 : 0 proti H1 : > 0 hypotézu H0 zamítám na hladinì , je-li Cn(X; 0) > n;1() { horní kvantil 2n;1 rozdìlení (proto¾e platí-li H1, má s2n-odhadnuté z dat { tendenci být vìt¹í ne¾ hypotetické 2 ). Obdobnì, v testu H0 : = 0 proti H1 : 6= 0 H0 zamítám na hladinì , je-li Cn(X; 0 ) < n;1(=2) (kde je dolní kvantil) nebo je-li Cn(X; 0 ) > n;1(=:2) { horní =2 kvantil 2n;1 rozdìlení. 8. F -testy, Fisherovo rozdìlení. Mìjme, jako v situaci 5., 2 nezávislé náhodné výbìry X1; : : : ; Xn N(X ; X2 ); Y1; : : : ; Ym N(Y ; Y2 ). Pn Pm 2 2 Oznaème s2X = i=1 (nX;i1;X n) ; s2Y = i=1m(Y;i ;1 Y m ) . 2 Pak, pokud X = Y , je náhodná velièina F (X; Y) = ssX2Y rozdìlena jako Fn;1;m;1 tj. F - rozdìlení s n ; 1 a m ; 1 stupni volnosti. Proto (mimo jiné) se F -testy pou¾ívají na test o rovnosti rozptylù: Testujme tedy hypotézu H0(X = Y ) proti H1(X 6= Y ). H0 na hladinì nezamítáme, je-li Fn;1;m;1(=2) s2X = s2Y Fn;1;m;1 (=2), kde F(n;1;m;1) () je dolní kvantil Fn;1;m;1 rozdìlení, F () je horní kvantil. V opaèném pøípadì H0 zamítneme. Platí Fr;s() = 1 = Fs;r (1 ; ), proto tabulky bývají jen pro 0:5 a dolní kvantily si z nich mù¾eme lehce odvodit. 13
Prakticky se test provede tak, ¾e vìt¹í z odhadù rozptylù se dá do èitatele, dostaneme tak hodnotu velièiny F 1 a porovnáváme ji u¾ jen s pøíslu¹ným horním kvantilem F rozdìlení. Musíme pøitom dát pozor na správné poøadí stupòù vol2 nosti. Pou¾ijeme-li kriteria F = s2Y =s2X , musíme je prorvnávat s kvantily rozdìlení Fm;1;n;1.
4.2 Testy pro kategoriální velièiny V následujících bodech 9. a 10. mohou "hodnoty" velièin X; Y znamenat i oznaèení pro kategorie, tj. mohou mít i kvalitativní (a ne kvantitativní) význam. 9. Chi-kvadrát testy dobré shody | Multinomické rozdìlení: Nech» n. v. X mù¾e nabýt hodnot 1; 2; : : : ; K s pravdìpodobnostmi p1; p2; : : : ; pK ; P pj = 1. (Jde tedy o diskrétní rozdìlení, ale mù¾eme k nìmu dojít sèítáním výsledkù spojitého rozdìlení ve zvolených intervalech I1; I2; : : : ; IK ). Mìjme náhodný výbìr X1 ; : : : ; Xn, tj. nezávislé kopie velièiny X . Pak je pravdìpodobnost toho, ¾e hodnota j nastane nj krát P (j = 1; 2; : : : ; K ); nj = n P (n1; n2; : : : ; nK ) = n ! n !n! n ! pn1 1 pn2 2 pnKK : 1 2 K Pro K = 2 se tedy jedná o binomické rozdìlení. | Pokud náhodná velièina X skuteènì odpovídá multinomickému rozdìlení s K 2 pravdìpodobnostmi p1; p2 ; :::; pK , tak velièina C = P (nj ;npnpj j ) má asymptoj =1 ticky (tj. v limitì pøi n ! 1) 2K ;1 rozdìlení. S její pomocí testujeme hypotézu o tom, ¾e zvolené pravdìpodobnosti p1 ; : : : ; pK jsou \ty pravé" pro popis rozdìlení n. v. X . Velièina C se tedy poèítá pomocí pozorovaných èetností nj . Hypotézu zamítáme na hladinì , pokud C > K ;1(), kde K ;1() je horní -kvantil rozdìlení chi-kvadrát s K ; 1 stupni volnosti.
Pøíklad: Pøedstavme si, ¾e chceme testem shody otestovat shodu dat s urèitým
spojitým rozdìlením s hustotou f (x). Máme n dat, ale proto¾e test dobré shody pracuje s èetnostmi v urèitých tøídách, kategoriích èi intervalech hodnot, na¹e data (pokud ji¾ nejsou 'tøídìná') roztøídíme do K intervalù Ij = (aj;1; aj ); j = 1; :::; K . Pak známe èetnosti nj dat v jednotlivých intervalech. Musíme ale také spoèíst oèekávané pravdìpodobnosti Z aj pj = f (x)dx; aj;1
a ty nyní pou¾ijeme v testovací velièinì C .
Test dobré shody v pøípadì, ¾e pj závisejí na parametrech, které musíme nejdøíve odhadnout. Kdyby v pøedchozím pøípadì testované rozdìlení
dat (pravdìpodobnosti pj , nebo hustota f (x) napøíklad) záviselo je¹tì na dal¹ím 14
parametru , øeknìme, s hodnotou nám neznámou, museli bychom nejprve onu hodnotu parametru odhadnout. Pak u¾ bychom mohli postupovat podle pøedchozího, s jediným rozdílem: Velièina C , do které bychom vlastnì dosadili pravdìpodobnosti p^j = pj (^), by nyní mìla pøibli¾nì chi-kvadrát rozdìlení s K ; 1 ; m stupni volnosti, kde m je dimenze odhadovaného parametru . Napøíklad, mohlo by jít o test, zda na¹e data odpovídají normálnímu rozdìlení. Pøitom bychom parametry a pøedem nespeci kovali a sna¾ili se najít ty, které na¹im datùm odpovídají nejlépe. Proto bychom oba parametry odhadli (z tìch¾e dat, která pak pou¾ijeme k testu), a v testu bychom polo¾ili m = 2. Nebo v pøípadì, ¾e testujeme, ¾e data jsou z (nìjakého) Poissonova rozdìlení, tj. s neznámým parametrem . Ten bychom odhadli a pak bychom v testu dobré shody polo¾ili m = 1. Pravdìpodobnosti pj pro test bychom tedy spoèetli z Poissonova rozdìlení s parametrem (právì odhadnutým) ^, tj. napøíklad takto: pj = e;^ ^jj! ; j = 0; 1; :::; J , pJ +1 = 1 ; PJj=0 pj de nují pravdìpodobnosti K = J + 2 tøíd, a ty bychom pou¾ili v testu dobré shody. 10. Analýza v kontingenèní tabulce Nech» na daných objektech sledujeme 2 znaky, popsané diskrétními náhodnými velièinami X; Y . Pøitom X mù¾e nabýt hodnot 1; 2; : : : ; J; Y nabývá hodnot 1; 2; : : : ; K (mù¾e tedy jít o oznaèení kategorií). Mìjme n objektù, tj. uva¾ujme náhodný výbìr (Xi; Yi); i = 1; : : : ; n. Pro j = 1; :::; J; k = 1; :::; K oznaème pjk = P (X = j; Y = k), a také pj: = P (X = j ); p:k = P (Y = k). Pøedstavme si, ¾e jsme napozorovali èetnosti njk , tj. ¾e z pozorovaných n objektù jich njk mìlo hodnoty X = j a PK PJ Y = k. SpoètemePmarginální èetnosti nj: = k=1 njk ; n:k = j=1 njk . Samozøejmì, P P P p = 1 a n = n . Data mù¾eme zapsat do tabulky j k jk j k jk
Yi
K P n 1:
Xi 1 2 1 n11 n12 2 n21 ... ... J P n:1
njk n:k n:K
n 2: nj: nJ: n
Máme testovat hypotézu H0, ¾e oba znaky jsou vzájemnì nezávislé. Tato hypotéza je ekvivalentní s tím, ¾e pjk = pj: p:k ; j = 1; : : : ; J; k = 1; : : : ; K . Na¹e kritérium bude tedy porovnávat odhady p^jk = nnjk s p^j: p^:k = nnj: nn:k . Po vhodném normování dospìjeme k velièinì
C=
J X K X j =1 k=1
(njk ; nj:n:k =n)2 = n X X n2jk ; n; nj: n:k n n j: :k
n
která má asymptoticky 2 rozdìlení, s r = (J ; 1) (K ; 1) stupni volnosti. Opìt, kritické pro hypotézu jsou pøíli¹ vysoké hodnoty velièiny C . H0 zamítneme, je-li C > r (). Nevýhodou je, ¾e pou¾ití tohoto testu vy¾aduje v ka¾dém poli dostateènì 15
vysokou oèekávanou èetnost nj: n:k =n ( 5). Není-li tomu tak, musíme nìkteré tøídy slouèit { zmen¹it poèet polí tabulky. Èasto znak X = j pøedstavuje èíslo souboru, testujeme homogenitu (stejnorodost) J souborù (nj: jsou pak dané rozsahy výbìrù). Nejèastìji tak porovnáváme jen soubory dva, pak J = 2. Èasto se také setkáme jen se ètyøpolní tabulkou ( znaky X i Y nabývají jen dvou hodnot). Pro nì jsou vyvinuty i dal¹í metody testování, i pro malé èetnosti (Fisherùv test, McNemarùv test). Tvar na¹í testovací velièiny se zjednodu¹í na 2 C = n (n11nn22n;nn12nn21 ) ; :1 :2 1: 2: která má pøi platnost hypotézy nezávislosti obou znakù pøibli¾nì (asymptoticky, tj. pøi n ! 1) rozdìlení 2(1) - tj. s 1 stupnìm volnosti.
4.3 Testy Kolmogorova{Smirnova
| 1-výbìrový { test dobré shody Jak víme, distribuèní funkce n. v. X je de nována jako pravdìpodobnost jevu X < x; F (x) = P (X < x). Mìjme náhodný výbìr X1 ; : : : ; Xn z rozdìlení, které má distribuèní funkci F . Pro ka¾dé pevné x je maximálnì vìrohodným odhadem pro Pn 1 F (x) relativní èetnost výskytu jevu fXi < xg; Fn(x) = n i=1 1[Xi < x], kde 1[] je indikátorová funkce. S tímto odhadem jsme se ji¾ setkali, øíká se mu empirická (výbìrová) distribuèní funkce. Je to skoková funkce, spojitá zleva, neklesající. Platí: 1. Dn = supx jFn(x) ; F (x)j ;! 0 s pravdìpodobností 1, pøi n ! 1. 2. Je-li F (x) spojitá, pak proPz > 0 je p k 2 2 limn!1 P ( n Dn < z) = 1 k=;1(;1) exp(;2k z ). ; 3. Podobnì pro statistiku Dn+ = supp x (Fn (x) ; F (x)) èi pro Dnp= inf x (Fn (x) ; F (x)), a pro z > 0, je limn!1 P ( n Dn+ > z) = limn!1 P ( n Dn; < ;z) = exp(;2z2 ). Vlastnosti 2. a 3. lze vyu¾ít k testu hypotézy o tom, ¾e výbìr pochází z rozdìlení s danou distribuèní funkcí. Tento postup je znám jako test Kolmogorova{Smirnova. Kritické hodnoty pro Dn èi pro Dn+ jsou tabelovány. Pøibli¾nì je kritická hodnota 1= 2 dn() = 21n log 2 , tj. P (Dn > dn()) =: , pro velká n (aspoò nìkolik desítek). Test je také mo¾né provést pøímo na základì vzorcù v 2. èi v 3. Napøíklad, chceme otestovat hypotézu H0 , ¾e pozorovaná velièina X odpovídá distribuèní funkci F0 (x), proti alternativì H1, ¾e skuteèná distr. funkce je vìt¹í (taková alternativa by odpovídala situaci, ¾e hodnoty n.v. pX jsou men¹í ne¾ jaké by vyplývaly z rozdìlení F0). Spoèteme hodnoty Dn+, z = nDn+ a p = exp(;2z2 ). Pokud je p < 0:05, pak hypotézu H0 zamítneme, ve prospìch H1 . | 2-výbìrový { test homogenity Mìjme 2 náhodné výbìry X1; : : : ; Xn a Y1; : : : ; Ym, pøíslu¹né empirické distribuèní funkce FnX (x) a FmY (x), oznaème N = nnm +m . Pøi platnosti hypotézy H0 , ¾e oba 16
výbìry jsou z rozdìlení s touté¾ p(neznámou) spojitou distribuèní funkcí F , velièiny p N supx jFmY (x) ; FnX (x)j resp. pN supx(FmY (xp) ; FnX (x)) mají toté¾ asymptotické rozdìlení (pøi m; n ! 1) jako N DN resp. N DN+ shora. Proto se pro test H0 (proti alternativì ¾e rozdìlení jsou rùzná, resp. ¾e jedno má vìt¹í distribuèní funkci ne¾ druhé) pou¾ívají tyté¾ tabulky kritických hodnot jako pro 1-výbìrový test.
4.4 Testy o korelaèním koe cientu
Jak víme, korelaèní koe cient, charakterizující míru lineární závislosti mezi dvìma náhodnými velièinami, je de nován jako cov(X; Y ) : (X; Y ) = (varX varY )1=2 Logickým odhadem na základì dat { realizace náhodného výbìru X1; Y1; :::; Xn; Yn je
výbìrový korelaèní koe cient
Pn X Y : r(X; Y ) = (P(X ;i=1XX)2i(YPi ;(Yn; i i Y )2 )1=2 Tuto velièinu mù¾eme pou¾ít k testu hypotézy, ¾e normálnì rozdìlené náhodné velièiny X a Y pjsou nekorelované, tj. H0 : (X; Y ) = 0. Pøi platnosti H0 má toti¾ velièina T = p r 2 n ; 2 Studentovo rozdìlení tn;2 : Pøi testu tedy H0 zamítnu na hladinì , jakmile 1;r bude jT j > tn;2( 2 ). Dal¹í mo¾nost testu (opìt pro normální n.v. X a Y ) je zalo¾ena na tzv. Fisherovì r 0 proti 6= 0 , spoèteme z Z {transformaci Z = 21 ln 1+ 1;r : Chceme=li testovat H0 : = 1+ 1 dat velièinu Z a dále spoèteme kritickou hodnotu z0 = 2 ln 1;00 . Platí-li H0 , má velièina p U = n ; 3(Z ; z0) pøibli¾nì (asymptoticky pro n ! 1) standardní N (0; 1) rozdìlení. Hypotézu H0 proto zamítám, na hladinì (pøibli¾nì) , je-li jU j > u( 2 ).
5 Analýza regrese
Pojem regrese se pou¾ívá pro model, který se sna¾í vysvìtlit a funkcionálnì popsat, modelovat, závislost nìjaké velièiny Y na známých (pozorovaných) vlivech, kovariátách X = (X1; X2; : : : ; XK . Nejèastìji se uva¾uje model, v nìm¾ E (Y jX = x) = g(x; ), se známou funkcí g a neznámým parametrem = 1 ; 2; :::; K . Pøitom máme k dispozici pozorování, data fx1 ; y1; : : : ; xn; yng rozsahu n. Model mù¾eme zapsat také takto:
Yi = g(Xi; ) + "i; kde "i jsou nìjaké vzájemnì nezávislé náhodné velièiny, E "i = 0, var "i = 2 . Tak¾e vlastnì Yi jsou podmínìnì nezávislé pøi daných hodnotách Xi, tj. kdy¾ Xi známe bez chyby. K odhadu parametru se bì¾nì pou¾ívá metoda nejmen¹ích ètvercù, ^ = argmin
n X i=1
(Yi ; g(Xi; ))2 :
17
Takovéto úloze se øíká úloha nelineární regrese, øe¹í se tak, ¾e hledáme øe¹ení rovnic P @ ( (Yi ; g(Xi; ))2 = @k = 0. Pou¾ívají se rùzné iterativní algoritmy, napø. Newtonùv{ Raphsonùv. Pro ka¾dý typ funkce g je potøeba jej znovu pøizpùsobit. Pro èasto pou¾ívané regresní funkce je vìt¹inou k dispozici typizovaný algoritmus. Pokud víme, jaké je (máme model pro) rozdìlení n. v. "i, mù¾eme pou¾ít i metody maxima vìrohodnosti pro odhadování . "Nejmen¹í ètverce" jsou vlastnì maximálnì vìrohodným odhadem pro pøípad normálního rozdìlení.
5.1 Lineární regrese
Model Y = X + " je model lineární regrese. Metoda nejmen¹ích ètvercù vede na odhady ^ = (X0 X);1 X0 Y. Zde X je matice Xik , i = 1; : : : ; n; k = 1; : : : ; K . Pokud je její první sloupec (1; 1; : : : ; 1)0, tak 1 je \absolutní èlen". Onìm nejmen¹ím ètvercùm Se2 = Pn ^ )2 se øíká reziduální souèet ètvercù, ^ 2 = Se2 =(n ; K ) je nestranný odhad i=1 (Yi ; Xi 2 . Dùle¾ité je, ¾e odhad metodou nejmen¹ích ètvercù i MVO jsou odhady parametrù ve smyslu kapitolyp2 tohoto textu, a proto pro nì zpravidla platí i ona asymptotická normalita velièiny n(^ ; ). Toho se samozøejmì hojnì vyu¾ívá k testování hypotéz o hodnotì tìchto parametrù. Nech» v modelu lineární regrese je rozdìlení "i stejné a normální N (0; 2). Potom platí pøímo: 1. Odhad ^ a velièina ^ 2 jsou nezávislé. p 2. Oznaème Vij prvky matice (X0 X);1. Velièina ( ^` ; ` ) 2 V`` má rozdìlení N (0; 1). 3. Velièina Se2=2 má rozdìlení 2n;K . p 4. Velièina T` = ( ^` ; ` ) = ^ 2 V`` má rozdìlení tn;K . Pou¾íváme ji k testování hypotéz o `. Nejèastìji testujeme hypotézu H0 : ` = 0, která, pokud ji nezamítneme, øíká, ¾e `-tá slo¾ka, X`, vlastnì nemá významný vliv na Y (nebo jen zdvojuje vliv nìjaké jiné slo¾ky) a mù¾eme ji vypustit. Obdobnì se mù¾eme zabývat rozdìlením pro více slo¾ek ^ naráz. Polo¾me !
!
V V = U W kde 1 má p slo¾ek, 2 má q = K ; p slo¾ek, V je (p p), W je (q q ) matice. 5. Velièina q1^2 ( ^ 2 ; 2)0 W ;1( ^ 2 ; 2 ) má F rozdìlení s q a n ; K stupni volnosti. 1 ; (XT X);1 = 2
6. Z tohoto hlediska je zajímavé testovat hypotézu j = 0 pro v¹echna j = 2; :::; K , tj. testovat, zda zavedení lineárního regresního modelu vùbec nìco pøineslo. Je mo¾né pou¾ít test zalo¾ený na F rozdìlení z pøedchozího bodu 5), ke stejnému testu se dá dojít cestou analýzy rozptylu: Pøedpokládejme, ¾e 1 je absolutní èlen, modelPtedy obsahuje K ; 1 regresních parametrù Pn 1 2; :::; K . Oznaème Yn = n 1 Yi; SY2 = n1 (Yi ; Yn)2. Zavedení regresního modelu vedlo ke sní¾ení souètu kvadrátù reziduálních odchylek z SY2 na Se2 , pøièem¾ se poèet 18
stupòù volnosti zmen¹il (dík tomu, ¾e pøibylo K ; 1 parametrù) z n ; 1 na n ; K . Pokud je pøínos regresního modelu nevýznamný (co¾ je ekvivalentní tomu, ¾e ve skuteènosti 2 = 3 = K = 0), mìla by velièina 2 2 F = ((KSY;;1)Se^)2 mít F rozdìlení s K ;1 a n;K stupni volnosti. Tak¾e naopak, pokud je F > FK ;1;n;K () tj. vìt¹í ne¾ horní -kvantil Fisherova rozdìlení s K ;1 a n;K stupni volnosti, pova¾ujeme regresi za prokázanou. Obecnìji, pro testy o mnohorozmìrných parametrech je mo¾né pou¾ít napøíklad náslep ^ dující vlastnosti: Má-li v dùsledku MVO velièina n( ; ) asymptoticky vícerozmìrné normální rozdìlení N (0; ), tak velièina n (^ ; )0 ;1(^ ; ) má asymptotické rozdìlení 2n;K , K je hodnost matice . Pøitom kovarianèní matice se dá zpravidla konzistentnì odhadnout z druhých derivací logaritmu vìrohodnostní funkce (jak jsme vidìli v kapitole o maximálnì vìrohodných odhadech).
Regresní pøímka
Pøedstavme si, ¾e zkoumáme závislost Y jen na jedné velièinì X 2 R1 a pøedpokládáme, ¾e se závislost dá vyjádøit modelem
y = + X + ": Máme=li k dispozici data (xi ; yi); i = 1; :::n, metoda nejmen¹ích ètvercù vede na odhady Pn xi yi ; nxy ^ = y ; ^ x; ^ = Pi=1 n x2 ; nx2 ; i=1 i kde x; y jsou prùmìry. Zde mù¾eme hypotézu H0 : =q 0 ; proti 6= 0, testovat pomocí testové velièiny odvozené pøímo z 4., a to T = ^;^ 0 P x2i ; nx2 : Ta má pøi platnosti H0 Studentovo tn;2 rozdìlení. Opìt, testuje se nejèastìji, zda = 0, aby se pøípadnì prokázalo, zda vùbec Y na X významnì závisí. Nìkdy se jako míra toho, ¾e lineární regresní model "vysvìtluje" závislost, u¾ívá ko2 S e e cient determinace. Ten je de nován jako CD = 1 ; SY2 . Pro dobrý model se tedy blí¾í k 1, naopak, pro pøípad, ¾e model nepøiná¹í významnou redukci SY2 , mù¾e být CD blízký k 0. Pøi bli¾¹ím zkoumání zjistíme, ¾e CD = r2(X; Y ), kde r(X; Y ) je výbìrový koe cient korelace.
Polynomiální regrese. Pøedpokládejme, ¾e hledaná regresní funkce g(x) je polynom
(urèitého stupnì M ), tj. v nejjednodu¹¹ím pøípadì chceme daty prolo¾it napøíklad parabolu. Polynom je vlastnì funkce vzniklá lineární kombinací jednoduchých funkcí. Tak¾e parametry pro nejlep¹í (z hlediska nejmen¹ích ètvercù reziduí) polynom prolo¾ený na¹imi daty získáme øe¹ením úlohy M -rozmìrné lineární regrese, kdy za vstupní velièiny (kovariáty) bereme x; x2 ; :::; xM . Pøirozenì, první informaci o vhodném modelu regrese získáme z grafu dat xi ; yi.
19
5.2 Neparametrická regresní funkce a jádrový odhad
Uva¾ujme regresní model Y = g(X ) + ", ve kterém je E " = 0 a g(x) je spojitá, ale nám neznámá regresní funkce. Její tvar musíme teprve zjistit (odhadnout). Pro jednoduchost, nech» je X z R1 . Proto¾e g(x) = E (Y jX = x), je rozumné zkusit odhadnout g v bodì x jako prùmìr z hodnot Yi takových, ¾e jim pøíslu¹ná Xi jsou v blízkém okolí x. ©íøku okolí opìt zvolme jako nìjaké b, pøi metodì M -nejbli¾¹ích sousedù ji pøizpùsobíme \hustotì" realizací fxi g v okolí x. Je-li w(x) jádrová funkce (nezáporná, symetrická, ohranièená, nejlépe s omezeným nosièem), pak jádrový odhad hodnoty regresní funkce v bodì x je vlastnì vá¾ený prùmìr hodnot Yi z okolí x:
gn(x) =
Pn Xi ;x Y w i i=1 b : Pn Xi ;x i=1 w b
Opìt platí, pøi rozsahu rostoucím do nekoneèna, n ! 1: 1. Jestli¾e bn ! 0 a bn n ! 1, pak gn(x) ! g(x) s. j., v ka¾dém x. 2. Kdy¾ navíc je¹tì b2n n= log n ! 1 a G je nìjaká ohranièená mno¾ina v R1 , tak supx2G jgn(x) ; g(x)j ;! 0 s. j. Jestli¾e vysvìtlující velièina X je vícerozmìrná, X 2 RK ; K > 1, pak teoreticky mù¾eme uva¾ovat vícerozmìrné jádro w(x), ale v praxi u¾ pøi K > 2 narazíme na problém. Prostor RK u¾ je pak vyplnìn daty - hodnotami fxig velmi øídce, v okolí bodu x bude málo dat, tak¾e odhad ztrácí na pøesnosti. Stojí pak za pokus uva¾ovat aditivní regresní funkci g(x) = PKk=1 gk (xk ), kterou mù¾eme odhadovat postupnì, slo¾ku za slo¾kou. Je mo¾né nejdøív kovariátu transformovat, kdy¾ máme dùvod se domnívat, ¾e pro slo¾ky transformované kovariáty je aditivní model realistiètìj¹í. Metody modelování (nìkdy se øíká té¾ "vyrovnávání") regresních køivek, a» u¾ jádrovými odhady èi pomocí souètù nìjakých elementárních polynomù (spliny), goniometrických funkcí apod., jsou velmi ilustrativní, jakmile je mù¾eme zobrazit. A to i v pøípadì vícerozmìrné kovariáty, kdy mù¾eme pozorovat projekce odhadu regresní funkce do jednotlivých slo¾ek X.
Vìrohodnostní regresní modely
Mù¾eme si pøedstavit i jiný popis závislosti jedné velièiny Y na nìjakých vysvìtlujících velièinách X = (X1; : : : ; Xk ). Nech» Y má rozdìlení s distribuèní funkcí F (y; ) a parametr se mìní v závislosti na hodnotách X, tedy = (X). Pak se tedy v závislosti na X mìní distribuce n. v. Y . Pokud je parametr rozumnì odhadnutelný metodou maxima vìrohodnosti, mù¾eme podobnì odhadnout i \regresní funkci" (x). Buï postupným lokálním (tj. v okolí urèitého x) øe¹ením vìrohodnostních rovnic. Nebo funkci (x) \reparametrizujeme", tj. hledáme ji napøíklad ve tvaru lineární kombinace elementárních goniometrických funkcí a polynomù, nebo ji aproximujeme pomocí splinù { co¾ je vlastnì taky lineární komPm binace urèité base polynomù. Tak¾e pøedpokládáme, ¾e (x) = i=1 ai ci(x), kde ci(x) jsou známé funkce. Pak místo parametru odhadujeme metodou maxima vìrohodnosti parametry ai této lineární kombinace.
20
6 Analýza rozptylu
Výchozí situace je tato: Provedli jsme K ( 2) nezávislých pokusných sérií, pøi kterých jsme mìøili nìjakou velièinu, oznaème ji Xk pro k-tou sérii. Pøitom jsme obmìòovali podmínky pokusù pro ka¾dou sérii. Obdr¾eli jsme K náhodných výbìrù s rozsahy P n1; : : : ; nK ; n = nk . Máme rozhodnout, jestli kolísání výsledkù pøi porovnání výbìrù mezi sebou je náhodné, èi zda rùzné podmínky pokusù výsledky významnì ovlivnily. Budeme tedy testovat hypotézu H0, ¾e náhodné velièiny X1; : : : ; XK jsou stejnì rozdìlené. Takovéto situaci øíkáme experiment s jednoduchým tøídìním. Spoètìme odhady prùmìrù, X k , a souèty ètvercù odchylek od prùmìrù, Sk2, uvnitø ka¾dého výbìru. Spoètìme také prùmìr X ze v¹ech n dat a také souèet ètvercù odchylek v¹ech mìøení od nìj, S 2 = Pni=1 (Xi ; X )2. Rozdíl S02 = S 2 ; PKk=1 Sk2 pova¾ujeme za souèet kvadrátù odchylek, které padají na vrub rozdílùm výsledkù mezi jednotlivými sériemi pokusù. Skuteènì S02 = PKk=1 nk (X k ; X )2. Nyní je tøeba porovnat pomìr mezi velikostí obou èástí souètu kvadrátù odchylek. Test se provádí pomocí F rozdìlení. Platí-li H0, má statistika
2 F (X) = PKS0 2 ((nK;;K1)) k=1 Sk pøibli¾nì F -rozdìlení, s K ; 1 a n ; K stupni volnosti. V èásti vìnované regresi jsme uvedli variantu analýzy rozptylu pro pøípad lineární regrese, tj. pro pøípad, kdy je závislost na tøídící velièinì popsána funkcionálnì. Slo¾itìj¹í je pøípad vícenásobného tøídìní, kdy obmìòujeme M (> 1) rùzných faktorù, které by mohly výsledky pokusu ovlivnit (napø. zároveò druh pùdy, typ hnojiva, zpùsob obdìlání, kdy¾ sledovaným výsledkem je výnos z pole). A chceme rozli¹it, které z faktorù mají významný vliv na výsledek. Nech» pro ka¾dý faktor obmìníme mj jeho hodnot, pak PM bychom celkovì mìli provést K = j=1 mj sérií pokusù (napø. mít K pokusných políèek). Navíc je¹tì mù¾eme pøipustit, ¾e vliv na výsledek mají i nìkteré interakce podmínek. Z praktických dùvodù se experimenty organizují tak, aby se nemusely vyzkou¹et v¹echny mo¾né kombinace pùsobících faktorù. Úloha s vícenásobným tøídìním se nám vlastnì rozpadá na nìkolik úloh, které se øe¹í principiálnì stejnì jako pro jednoduché tøídìní. Zkoumáme buï marginální vliv urèitého faktoru (pøi rùzných kombinacích ostatních), nebo podmínìný vliv faktoru pøi urèité hodnotì (èi kvalitì) faktoru jiného.
6 Neparametrické testování Neparametrické metody jsou takové, které pro studované náhodné velièiny nepøedpokládají speci cký zákon rozdìlení (ani pøibli¾nì). Pou¾ívají se buï k analýze základních vlastností souboru (dat), nebo jde prostì o metody univerzální, jejich¾ závìry jsou platné pro ¹irokou paletu rozdìlení. S jejich univerzálností pochopitelnì souvisí jejich mnohdy men¹í síla (v porovnání se speci ckými parametrickými metodami, jako je t{test, F {test a pod. { tìm tedy dáváme pøednost, pokud jsou splnìny potøebné podmínky pro jejich pou¾ití, co¾ nejèastìji bývá - alespoò pøibli¾ná - normalita rozdìlení). Pøíkladem neparametrických testù je tøeba i pou¾ití metody Kolmogorova{Smirnova, a» u¾ k testùm dobré shody, nebo k testùm homogenity dvou výbìrù. 21
6.1 Testy nezávislosti a náhodnosti, poøadové testy
Pøedstavme si, ¾e pozorujeme koneènou posloupnost náhodných velièin X1; : : : ; XN . V prvé øadì nás zajímá, zda tato posloupnost je náhodným výbìrem (tj. \i. i. d."). Kdy¾ velièiny pozorujeme v urèitém poøadí, zároveò testujeme, zda se v jejich posloupnosti neprojevuje nìjaký trend. Pøedpokládáme, ¾e Xi mají distribuci spojitého typu, aby alespoò teoreticky jejich hodnoty byly skoro jistì vzájemnì rùzné. V praxi samozøejmì máme v datech èasto nìkteré hodnoty stejné, podstatné je, aby tento jev nepøevládl. Uveïme nyní nìkteré metody znaménkových testù hypotézy H0 o nezávislosti a stejném rozdìlení n. v. X1; : : : ; XN . Z namìøených hodnot x1; : : : ; xN spoèteme medián x~ a vytvoøíme posloupnost znamének si = sign(xi ; x~). Pokud jsou v ní nuly, vynecháme je (teoreticky by tam s pravdìpodobností 1 pøi sudém N být nemìly vùbec, pøi lichém N právì jedna). Dostaneme tak posloupnost délky M N , v ní¾ je m èísel +1 a n èísel ;1. Spoèteme P = poèet souvislých sérií, tj. skupin stejných znamének. Napø. v posloupnosti 1; ;1; ;1; 1; 1; 1; ;1; 1; 1 (2mn;M ) je P = 5 skupin (sérií). Pokud H0 platí, tak E P = 2Mmn + 1; var P = 2mn M 2 (M ;1) , a samozøejmì Mm i Mn ! 12 s. j. Naopak, neplatí-li H0, dá se èekat P buï hodnì velké èi hodnì malé. Kritické hodnoty P (m; n) jsou tabelovány. P ;EP pM MP ; 1 Pøi vìt¹ím rozsahu výbìru (M > 20) má pøi H0 velièina Z = (var 1 = 2 2mn P) pøibli¾nì (asymptoticky) N (0; 1) rozdìlení. Test pak provedeme tak, ¾e H0 zamítneme na hladinì , kdy¾ bude buï Z < ;u( 2 ) èi Z > u( 2 ), kde u( 2 ) je horní 2 -kvantil N (0; 1) rozdìlení. Série "nahoru a dolù". Tento test vyu¾ije porovnání dvou sousedních realizací. Spoèteme zi = sign(xi+1 ; xi ), i = 1; : : : ; N ; 1. Nech» opìt P je poèet sérií v posloupnosti z1 ; : : : ; zM (M N ; 1, po vynechání nul). Platí, ¾e pøi H0 je E P = (2N ; 1)=3; var P = (16N ; 29)=90, pro N > 20 u¾ mù¾eme víceménì pøesnì aproximovat rozdìlení P normálním rozdìlením. K testu pak pou¾ijeme velièinu Z = pP ;varEPP N (0; 1). Pro test hypotézy H0 zejména proti regresní alternativì (pøítomnost trendu) je mo¾né vyu¾ít i Spearmanùv test (- viz dále) pro nezávislost dvou výbìrù, kdy za první výbìr vezmeme posloupnost 1; 2; : : : ; N , èili testujeme nezávislost Xi na i.
6.2 Testy o parametru polohy
Mìjme k dispozici náhodný výbìr X1 ; : : : ; Xn (nezávislé \kopie" spojitì rozdìlené n. v. X ). Zcela jednoduchý test je opìt znaménkový test pro hypotézu H0 : medián X = x0 (dané èíslo). Oznaème N1 poèet Xi > x0 . Platí-li H0 , má N1 binomické rozdìlení s parametrem p = 21 , rozsah výbìru je N . Platí tedy (pøi H0), ¾e E = N2 , var N1 = N4 . H0 zamítneme (pøi testu proti alternativì H1 : med X 6= x0 ), je-li N1 pøíli¹ malé nebo velké, kritické hodnoty pøi malých rozsazích výbìru N je mo¾né spoèíst pøímo. Pøi vìt¹ích N ( 20) u¾ mù¾eme pøibli¾nì pou¾ít dùsledek C. L. V., a to, ¾e velièina Z = 2Np1 ; N má asymptotické rozdìlení N (0; 1). N Tak¾e test provedeme porovnáním zji¹tìné hodnoty Z s kvantily N (0; 1) rozdìlení. 22
Wilcoxonùv test pro 1 výbìr také testuje, zda medián je roven zvolené hodnotì
x0 , zároveò testuje i symetrii rozdìlení n. v. X kolem tohoto mediánu (pak by vlastnì medX EX ). Polo¾me Yi = Xi ; x0, seøadíme je podle absolutní hodnoty jY j(1) jY j(2) jY j(N ) (pøípadné Yi = 0 vynecháme a pøílu¹nì se zmen¹í N ). Oznaème Rj poøadí jY j(j) v této seøazené posloupnosti, dále S+ =
X
Yi >0
Ri; S ; =
X
Yi <0
Ri:
Pro kontrolu, mìlo by platit N (N +1)=2 = S + + S ;. Je-li min(S +; S ;) men¹í ne¾ kritická hodnota (kterou lze nalézt v tabulkách), H0 zamítneme. Alternativou je buï ¾e med X 6= x0 , nebo ¾e rozdìlení je výraznì nesymetrické. Opìt, pro vìt¹í N (aspoò nìkolik desítek) mù¾eme u¾ pou¾ít Gaussovskép aproximace s E S + = n(n4+1) ; var S + = n(n+1)24(2n+1) , tj. hodnotu velièiny (S + ; ES +)= varS + porovnat s kvantily standardního normálního rozdìlení.
6.3 Testy pro porovnání dvou výbìrù
Nech» X1 ; : : : ; Xm a Y1; : : : ; Yn jsou dva nezávislé náhodné výbìry ze dvou spojitých rozdìlení. Chceme testovat hypotézu H0, ¾e rozdìlení obou výbìrù je toto¾né { tzv. test homogenity (na to u¾ známe test Kolmogorova{Smirnova), èi ¾e aspoò 'poloha' obou rozdìlení je stejná (t.j. ¾e není jedno výraznì posunuté vùèi druhému). Neparametrické poøadové testy k tomu vyu¾ívají jen porovnání poøadí napozorovaných hodnot, tj. nemusíme pøímo znát hodnoty dat.
Dvouvýbìrový Wilcoxonùv test testuje, zda se výraznì neli¹í mediány dvou sou-
borù. Celý výbìr m + n hodnot srovnáme vzestupnì podle velikosti. Zjistíme poøadí hodnot X1; : : : ; Xm v tomto celém výbìru. Oznaème je R1 ; : : : ; Rm (pokud se v datech objeví shody, pøiøaïme urèité hodnotì prùmìrné poøadí v¹ech shodných hodnot. Napøíklad v poPm sloupnosti 1; 2; 4; 4; 7 má hodnota 4 poøadí 3.5). Nech» T1 = i=1 Ri ; U1 = m n + m(m2+1) ; T1, obdobnì T2 ; U2 pro výbìr Y. V tabulkách jsou kritické hodnoty pro min(U1; U2 ), pøitom U1 + U2 = m n. Pøi vìt¹ích m a n u¾ mù¾eme pou¾ít gaussovské aproximace, ipøi1 h ;2 mn platnosti H0 (tj. jsou-li mediány stejné) má velièina Z = U1 ; mn 2 12 (m + n + 1) asymptoticky N (0; 1) rozdìlení. Tak¾e napøíklad na hladinì 5 % hypotézu ve prospìch jednostranné alternativy X Y zamítneme, je-li T1 relativnì velké, èili U1 men¹í ne¾ pøíslu¹ná kritická hodnota: pro zvolenou hladinu významnosti testu, neboli kdy¾ je Z < ;u(0:05), kde ;u(0:05) = ;1:645 je dolní 5% kvantil N (0; 1) rozdìlení.
Spearmanùv test testuje (ne)korelovanost dvou náhodných velièin. Je zalo¾en na od-
hadu korelace z pouhé znalosti poøadí hodnot. Sledujme náhodný výbìr (X1; Y1); : : : ; (Xn; Yn), chceme testovat H0 , ¾e velièiny Xi a Yi jsou nezávislé. Uspoøádáme výbìr vzestupnì podle velikosti velièin Xi, jednotlivým Xi pøiøadíme jejich poøadí v (X1 ; : : : ; Xn), Ri . (Zpravidla to tak máme uspoøádané ji¾ od zaèátku analýzy, Ri = i). Pak se stanoví poøadí jednotlivých Yi v (Y1; : : : ; Yn), Qi . Spearmanùv korelaèní koe cient je
rS = 1 ; n(n26; 1) 23
n X i=1
(Ri ; Qi )2:
Má skuteènì vlastnosti korelaèního koe cientu, tj. nabývá hodnot od ;1 do +1 podle \záporné" èi \kladné" závislosti X a Y . Opìt, pro test H0: X a Y jsou p nekorelované, jsou kritické hodnoty v tabulkách. Pøi n > 30 pou¾ijeme aproximace U = n ; 1rS N (0; 1), neboli H0 zamítneme (na hladinì ), jakmile jU j pøesáhne kritickou hodnotu - horní kvantil standardního normálního rozdìlìní u( 2 ): Jak jsme ji¾ øekli, Spearmanùv test se dá také pou¾ít na testování pøítomnosti trendu v datech Y , kdy¾ za velièiny X vezmeme prostì indexy velièin Y .
Kruskal{Wallisùv test homogenity pro více souborù je pøímým zobecnìním testu Wilcoxonova. Mìjme K (> 2) nezávislých výbìrù, rozsahù n1 ; : : : ; nK . V¹ech n = PKk=1 nk velièin se vzestupnì seøadí a urèí se poøadí. Oznaème Tk souèet poøadí velièin z k-tého výbìru. Platí, ¾e velièina K X W = n(n12+ 1) Tk2=nk ; 3(n + 1) k=1
má asymptoticky 2(K ;1) rozdìlení, pokud v¹echny výbìry pocházejí z tého¾ (spojitého) rozdìlení. Tuto hypotézu homogenity tedy zamítneme (na hladinì ), bude-li W > K ;1() - horní -kvantil chi-kvadrát rozdìlení s K ; 1 stupni volnosti. Zamítneme-li hypotézu homogenity, musíme se zabývat podrobnìj¹í analýzou rozdílnosti jednotlivých výbìrù. Na to lze znovu pou¾ít testy homogenity pro 2 výbìry.
7 Struènì o nìkterých metodách mnohorozmìrné analýzy Tato èást má za úkol jen upozornit na dal¹í okruhy úloh, které se èasto øe¹í v rámci pravdìpodobnostního modelování a statistické analýzy dat. Podrobnìj¹í popis by v¹ak vy¾adoval daleko více místa a èasu, zde zùstaneme jen u struèné informace. Úkolem mnohorozmìrné statistické analýzy je analyzovat slo¾itìji strukturovaná data z hlediska jejich informativnosti, navrhnout redukci èi transformaci dat, jejich zpøehlednìní. Dal¹í metody se zabývají tøídìním objektù podle napozorovaných údajù. Kromì teorie pravdìpodobnosti se pou¾ívá pøedev¹ím matematický aparát teorie matic, ale také funkcionální analýza v metrických prostorech.
7.1 Hlavní komponenty
Mìjme náhodný vektor X = (X1; : : : ; Xm)0 , s kovarianèní maticí V = (vij ). Je mo¾né, ¾e hodnost matice je r < m a ¾e tedy slo¾ky X jsou vyjádøitelné pomocí r jiných velièin Z = (Z1; : : : ; Zr )0 (jako jejich lineární kombinace). Navíc lze najít Z (i) tak, aby byly vzájemnì nekorelované. Neboli v tomto \lineárním" smyslu, informace skrytá v X je obsa¾ena také v Z, které je "men¹í" a navíc má vzájemnì ortogonální slo¾ky. Nech» 1 > 2 > > r > 0 jsou vlastní èísla matice V, cj ; j = 1; : : : ; r pøíslu¹né normované vlastní vektory. Platí, ¾e var c01X = 1 = maxa var a0X pro v¹echny lineární kombinace X takové, ¾e a0 a = 1. 24
Tím máme první hlavní komponentu U1 = c01X, dal¹í jsou obdobnì Z = c0j X, jsou Pr Pn j vzájemnì nekorelované (ortogonální). Platí dále, ¾e j=1 var Zj = k=1 var Xk . Pokud kladná vlastní èísla nejsou rùzná, nejsou hlavní komponenty urèeny jednoznaènì. V praxi pracujeme s realizacemi vektoru X (øeknìme s n i. i. d. kopiemi) a s V^ nodhadem matice V. Ten zpravidla má plnou hodnost m, ale i nyní øe¹íme úlohu najít r < m vzájemnì ortogonálních lineárních transformací X, které vyèerpají podstatnou Pm 2 èást variability X. Mírou celkové variability pro nás je = k=1 var Xk , resp. odhad ^n2 . Spoèteme Ptedy vlastní èísla a vlastní vektory k matici V^ n, pou¾ijeme z nich r nejvìt¹ích tak, aby rj=1 j =^n2 bylo blízké k 1. Tyto hlavní komponenty nemají v¾dy zøejmou interpretaci (jako ji napøíklad mají \faktory" ve faktorové analýze). U¾iteèné je hledání hlavních komponent mimo jiné i pro analýzu a redukci kovariát v analýze regrese nìjaké velièiny Y na X. Zmìna mìøítka jednotlivých velièin (pøevod na jiné jednotky) vede ke zmìnì hlavních komponent. Proto je dùle¾ité si toho být vìdom, pøípadnì pùvodní velièiny \standardizo;E Xi . vat", pracovat s velièinami Xi = Xpivar Xi V analýze regrese se pou¾ívá metoda mající obdobný cíl z hlediska oddìlení závislosti Y na jednotlivých transformovaných kovariátách. Projection Pursuit (projekèní sledování) lineárnì transformuje matici dat pro kovariáty (Z = X B, X je zde n m datová matice, B je matice m m), a v gra ckých projekcích Y vers. Zj sleduje, zda pøi vhodné transformaci Pm je mo¾né pou¾ít aditivní model Y = j=1 fj (Zj ) + ".
7.2 Faktorová analýza
Pøedstavme si, ¾e pro n objektù bylo namìøeno po m údajích (tøeba výsledky m rùzných testù), výsledky shrneme do matice X (n m). Výsledky pro ka¾dý údaj standardiPn 1 2 zujeme (opìt, pro eliminaci závislosti na jednotkách mìøení): Je-li x = j i=1 xij ; sj = n P 1 n 2 n i=1 (xij ; xj ) , pak standardní skóry jsou yij = (xij ; xj )=sj ; i = 1; : : : ; n; j = 1; : : : ; m. Faktorovu analýzu provádíme v pøípadì, kdy oèekáváme, ¾e namìøené hodnoty (sledované údaje { výsledky testù) lze vysvìtlit pomocí urèitého poètu faktorù. Tyto faktory mají obvykle nìjakou interpretaci, popisují buï schopnosti, vlastnosti, prostøedí apod., nelze je v¹ak mìøit pøímo. Pøedpokládáme, ¾e lze vyjádøit
yji =
p X k=1
fjk zki + "ji;
kde fjk je koe cient vlivu k-tého faktoru (je jich p) na j -tý údaj, zki udává velikost k-tého faktoru u i-tého objektu, vektor zi tedy charakterizuje míru vlastností objektu. Hodnoty "ji jsou náhodné odchylky. Uva¾ujeme tedy vlastnì vektorový model y = F z + e a jeho realizace pro n objektù. Pøipomíná to model mnohorozmìrné lineární regrese, jen¾e zde je¹tì neznáme vstupující kovariáty { faktory zk . Ideální pøípad by byl, kdyby varianèní matice náhodného vektoru z byla diagonální (a normovaná, tj. s jednièkami na diagonále). Tím pøedpokládáme, ¾e jednotlivé faktory nejsou vzájemnì korelovány (ne v¾dy je to realistický pøedpoklad). Dále pøedpokládáme diagonální varianèní matici vektoru odchylek e. Máme tedy najít m p matici F tak, aby F F0 = var(y) ; var(e). Pøitom var(y) je odhadnuta výbìrovou varianèní maticí (oznaème ji R), odhady prvkù matice var(e) postupnì iterativnì zpøesòujeme. Zaèíná se zpravidla øe¹ením F F0 = R (není to jednoznaèné). Nìkteré postupy pro odhad matice F 25
jsou zalo¾eny na metodì maxima vìrohodnosti, u¾ívá se i modi kovaná metoda hlavních komponent: Jak hledáme k dané pozitivnì semide nitní matici R (m m)pmatici F(m p) splòující F F0 R? Její sloupce f1; : : : ; fp nejlépe zvolíme tak, ¾e fk = k ck , kde 1 2 m > 0 jsou charakteristická èísla matice R a ck jsou pøíslu¹né normované vlastní vektory. Pak pro aproximaci matice R platí, ¾e kR ; F F0k2 = kRk2 ; 21 ; ; 2p 0, 1 kde kAk = P P a2jk 2 je euklidovská norma matice. To nás opìt vede k my¹lence omezit se na takový poèet faktorù p, aby kR ; F F0 k2 u¾ bylo dostateènì malé. Neboli, smyslem faktorové analýzy je najít p takových faktorù, aby p < m a aby tyto fakory vysvìtlovaly co nejvìt¹í èást variability y. V dal¹ím kroku mù¾eme stejný postup opakovat s maticí R1, která je toto¾ná s maticí R, ale na diagonále má prvky z F F0 (je to vlastnì odhad pro R ; var e). Tím se pokusíme výsledek zpøesnit, mù¾eme tento krok provést nìkolikrát. Nakonec se odhadnou i hodnoty zki, zpravidla metodou nejmen¹ích ètvercù, prostou nebo vá¾enou odhadnutými variancemi ej . Tak¾e buï Z^ = F0R;1Y, nebo Z = (F0M F);1 F0 M;1 Y, kde odhadujeme Z = (zkj ); F je na¹e øe¹ení, Y = (yji), M je odhad var(e), diagonální matice s prvky z diagonály R ; F F0 .
7.3 Klasi kace a diskriminaèní analýza
Tyto metody jsou vyvinuty pro tøídìní objektù na základì dat na nich namìøených (údajù o nich zji¹tìných). Rozhodování o tom, do které z K skupin sledovaný objekt zaøadit, provádíme tedy na základì pozorování náhodného vektoru X = (X1; : : : ; Xm)0. V Rm potøebujeme zvolit rozklad { K mno¾in A1 ; : : : ; AK . Padne-li X do Ak , zaøadíme objekt do k-té skupiny. Optimální rozklad vìt¹inou konstruujeme pomocí souboru \uèících" objektù, tj. takových, o kterých víme, kam je zaøadit (èi které pøímo de nují jednotlivé tøídy objektù). Optimální rozhodování je takové, které minimalizuje støední hodnotu ztrát za ¹patné rozhodnutí, v nejjednodu¹¹ím pøípadì støední poèet ¹patnì zaøazených objektù. Ztrátovou matici oznaème Z (zij ; K K ), v onom nejjednodu¹¹ím pøípadì volíme zij = 1 pro i 6= j , zii = 0. K tomu, abychom zformulovali kritérium, musíme mít model rozdìlení pro vektor X za pøedpokladu, ¾e objekt patøí do k-té tøídy. Nech» pk (x) jsou hustoty tìchto rozlo¾ení vzhledem k nìjaké míøe . Také mìjme pøedstavu o pravdìpodobnosti výskytu objektù patøících do jednotlivých skupin, k ; k = 1; : : : ; K . Støední hodnota ztráty vzniklé tím, ¾e X Rpadne do nìkteré z Aj , patøí-li objekt ve skuteènosti PK do i-té skupiny, je LRi = j=1 zij Aj pi(x) d(x). Støední hodnota ztráty celkem je pak PK PK PK k=1 k Lk = j =1 Aj qj (x) d(x), kde qj = k=1 k zkj pk (x). Je vidìt, ¾e optimální by byl takový rozklad, který by zaruèoval, ¾e pokud padne x do Ak , tak pro toto x je qk (x) qj (x); j = 1; : : : ; K . Pro nejjednodu¹¹í pøípad s zij = 1 (j 6= i); zii = 0 z toho plyne: Nech» je zji¹tìn vektor X = x. Je-li k pk (x) j pj (x); j = 1; : : : ; K , optimálním rozhodnutím je zaøadit daný objekt do k-té skupiny. V tomto pøípadì vlastnì rozhodneme na základì maxima vìrohodnosti. Zajímavìj¹í jsou samozøejmì ony pøípady s netriviální ztrátovou funkcí. Tento postup se vyu¾ívá i k rozpoznávání { znakù abecedy, jednoduchých obrazcù a dal¹ích \objektù", které lze popsat nepøíli¹ rozmìrným (m 10) vektorem nìjakých 26
hodnot. Napøíklad i pro øeè, nebo» ka¾dou malou èást vysloveného slova lze popsat jako autoregresní náhodný proces pomocí 10 { 12 parametrù. Na podobném principu (a za podobným úèelem) je vyvinuta shluková analýza (Cluster Analysis). Prvoøadým úkolem shlukové analýzy je zjistit poèet a polohu (charakteristiku) významnì rùzných skupin objektù, t.j. i vhodnì vybrat centry shlukù { "atraktory" Aj . V Rm jsou tedy hledány ony centry (vlastnì reprezentativní objekty pro urèitou skupinu objektù) a rozklad Rm je udìlán na základì nìjaké vhodné vzdálenosti. Pro ka¾dý objekt jsou zji¹tìny (zmìøeny) hodnoty urèité velièiny x, na základì které je charakterizace provádìna, a objekt je pøiøazen k tomu centru Aj , od nìho¾ je namìøený vektor hodnot x nejblí¾e. Podobným úkolem jako je klasi kace se zabývá i úloha konstrukce regresního stromu, která vytváøí optimální rozklad prostoru kovariát (vysvìtlujících velièin X) pro popis jejich vlivu na vysvìtlovanou velièinu Y . Pokud je tato velièina Y kategoriální, jde tedy pøímo o úlohu klasi kace a o metodu klasi kaèního stromu.
Vybraná literatura: 1. Uèební texty:
Hátle J., Like¹ J.: Základy poètu pravdìpodobnosti a matematické statistiky, SNTL Praha, 1972. Like¹ J., Machek J.: Poèet pravdìpodobnosti. SNTL Praha, 1981. Like¹ J., Machek J.: Matematická statistika. SNTL Praha, 1988. Like¹, Cyhelský, Hindls: Úvod do statistiky a pravdìpodobnosti. Skripta V©E Praha, 1993. 2. Odborné publikace: Andìl J.: Matematická statistika, SNTL Praha, 1985. Andìl J.: Statistické metody, Matfyzpress Praha, 1993. Antoch J., Vorlíèková D.: Statistická analýza dat, Academia Praha, 1992. Meloun, Militký: Statistické zpracování experimentálních dat. Plus Praha, 1994. Rao C. R.: Lineární metody statistické indukce a jejich aplikace, Academia Praha, 1978. Wonnacot T.H., Wonnacot R.J.: Statistika pro obchod a hospodáøství, Victoria Publ. Praha, 1992. Zvára K.: Regresní analýza, Academia Praha, 1989. 3. Software: Koschin a kol. Statgraphics aneb statistika pro ka¾dého. Grada Praha, 1992. 27
Hanousek J. a kol.: FamStat { Statistická nadstavba systému Famulus, KMSP MFF UK Praha, 1992. Wolfram S.: MATHEMATICA. A System for Doing Mathematics by Computer. AddisonWesley, Redwood City, California, 1988. MATLAB (toolbox STATS), S-Plus a j.
28