10
V´ıcerozmˇ ern´ a data - kontingenˇ cn´ı tabulky, testy nez´ avislosti, regresn´ı anal´ yza
10.1
V´ıcerozmˇ ern´ a data a v´ıcerozmˇ ern´ a rozdˇ elen´ı
Pˇri zpracov´an´ı v´ıcerozmˇern´ ych dat, hled´ame souvislosti mezi dvˇema, pˇr´ıpadnˇe v´ıce n´ahodn´ ymi veliˇcinami. V praxi pracujeme s daty nomin´aln´ımi (nab´ yvaj´ı pouze dvou hodnot), kategori´aln´ımi (nab´ yvaj´ı v´ıce hodnot bez uspoˇr´ad´an´ı), ordin´aln´ımi (nab´ yvaj´ı v´ıce hodnot s uspoˇr´ad´an´ım) a kardin´aln´ımi (nab´ yvaj´ı v´ıce hodnot s uspoˇra´d´an´ım a lze mˇeˇrit rozd´ıly mezi hodnotami). Pro r˚ uzn´e typy dat je tˇreba pouˇz´ıvat ´ r˚ uzn´e matematick´e postupy vhodn´e pro zjiˇst’ov´an´ı souvislost´ı a z´avislost´ı. Ukolem statistiky je stanovit s´ılu a druh sledovan´ ych z´avislost´ı. S´ılu z´avislosti vyjadˇrujeme podle r˚ uzn´ ych mˇer statistick´ ych z´avislost´ı. Statistick´a z´avislost vˇsak nevypov´ıd´a pˇr´ımo o kauzalitˇe. Vysok´ y stupeˇ n z´avislosti m˚ uˇze ale nemus´ı odr´aˇzet pˇr´ıˇcinn´ y vztah mezi sledovan´ ymi statistick´ ymi veliˇcinami. Pˇr´ıˇcinn´e souvislosti ˇcistˇe empirick´ ymi prostˇredky neodhal´ıme. Ke statistick´ ym v´ ysledk˚ um je tˇreba pˇridat odborn´e znalosti, praktick´e zkuˇsenosti a u ´ˇcelnˇe kombinovat deduktivn´ı a induktivn´ı zp˚ usob uvaˇzov´an´ı. Existuj´ı i jednoznaˇcn´e funkˇcn´ı z´avislosti mezi n´ahodn´ ymi veliˇcinami, ty vˇsak obvykle nejsou hlavn´ım c´ılem naˇseho statistick´eho ˇsetˇren´ı (napˇr. z´avislosti zaloˇzen´e na fyzik´aln´ıch z´akonech - dod´avan´e teplo zvyˇsuje energii). Druh statistick´e z´avislosti odhadujeme obvykle na z´akladˇe grafick´e reprezentace dat. V pˇr´ıpadˇe z´avislosti dvou n´ahodn´ ych promˇenn´ ych je vyj´adˇren´ım druhu z´avislosti kˇrivka, kter´e se nejv´ıce hod´ı“ k ” napozorovan´ ym hodnot´am. Podle typu kˇrivky pak mluv´ıme o z´avislosti line´arn´ı, logaritmick´e, exponenci´aln´ı a podobnˇe. Typ Nomin´aln´ı promˇenn´e Nomin´aln´ı kontingenˇcn´ı tabulky 2x2, nez´avislost, homogenita v´ ybˇeru, symetrie, rezidua, grafick´a reprezentace, znam´enkov´a sch´emata, m´ıry asociace Ordin´aln´ı – Kardin´aln´ı –
10.2
Ordin´aln´ı
Kardin´aln´ı
kontingenˇcn´ı tabulky, probitov´a, logitov´a relogline´arn´ı modely grese, kontingenˇcn´ı tabulky, kontingenˇcn´ı koeficienty
Spearman˚ uv korelaˇcn´ı anal´ yza rozptylu koeficient, Kendallovo τ – korelace, korelaˇcn´ı koeficienty, regresn´ı anal´ yza
Kontingenˇ cn´ı tabulky
Kontingenˇcn´ı tabulka se uˇz´ıv´a k pˇrehledn´e vizualizaci vz´ajemn´eho vztahu dvou statistick´ ych znak˚ u. ˇ adky V praxi vznik´a kontingenˇcn´ı tabulka tak, ˇze se na statistick´ ych jednotk´ach sleduj´ı dva znaky. R´ kontingenˇcn´ı tabulky odpov´ıdaj´ı moˇzn´ ym hodnot´am prvn´ıho znaku, sloupce pak moˇzn´ ym hodnot´am druh´eho znaku. V pˇr´ısluˇsn´e buˇ nce kontingenˇcn´ı tabulky je pak zaˇrazen poˇcet pˇr´ıpad˚ u, kdy z´aroveˇ n mˇel prvn´ı znak hodnotu odpov´ıdaj´ıc´ı pˇr´ısluˇsn´emu ˇr´adku a druh´ y znak hodnotu odpov´ıdaj´ıc´ı pˇr´ısluˇsn´emu sloupci. 1
Je moˇzn´e, aby jeden ˇr´adek ˇci sloupec odpov´ıdal v´ıce moˇzn´ ym hodnot´am znaku. To se dˇeje v pˇr´ıpadˇe, kdy znak nab´ yv´a nˇekter´ ych hodnot pˇr´ıliˇs zˇr´ıdka, takˇze je vhodn´e spojit v´ıce moˇzn´ ych hodnot. Souˇcty (mezisouˇcty) vˇsech hodnot v kaˇzd´em ˇr´adku, resp. sloupci nesou informaci o poˇctu v´ yskyt˚ u jev˚ u, pˇri nichˇz nabyl prvn´ı (resp. druh´ y znak) pˇr´ısluˇsn´e hodnoty bez ohledu na hodnotu druh´eho (resp. prvn´ıho) znaku. Kromˇe prost´eho popisu ˇcetnost´ı kombinac´ı hodnot dvou znak˚ u nab´ız´ı kontingenˇcn´ı tabulka moˇznost testovat, zda mezi obˇema znaky existuje nˇejak´ y vztah. K tomu lze uˇz´ıt napˇr. test dobr´e shody. Znaky uˇzit´e k zobrazen´ı v kontingenˇcn´ı tabulce pak mus´ı pˇredstavovat diskr´etn´ı hodnoty (je moˇzn´e tedy vyuˇz´ıt kvalitativn´ı, diskr´etnˇe kvantitativn´ı ˇci spojitˇe kvantitativn´ı znaky, v posledn´ım pˇr´ıpadˇe vˇsak pouze s rozdˇelen´ım jednotliv´ ych znak˚ u do skupin – tzv. skupinov´e tˇr´ıdˇen´ı). Teoretick´ ym z´akladem kontingenˇcn´ıch tabulek jsou matice pravdˇepodobnost´ı pro dvourozmˇern´e n´ahodn´e vektory. Kontingenˇcn´ı tabulka 1 ... c Σ 1 n11 . . . n1c n1• 2 n21 . . . n2c n2• ... ... ... ... ... r nr1 . . . nrc nr• Σ n•1 n•2 n•c n Matice pravdˇepodobnost´ı 1 ... c Σ 1 p11 . . . p1c p1• 2 p21 . . . p2c p2• ... ... ... ... ... r pr1 . . . prc pr• Σ p•1 p•2 p•c 1 Necht’ n´ahodn´ y vektor X = (X1 , X2 ) m´a diskr´etn´ı rozdˇelen´ı, pˇriˇcemˇz veliˇcina X1 nab´ yv´a hodnot i = 1, 2, . . . , r a veliˇcina X2 nab´ yv´a hodnot j = 1, 2, . . . , s. Oznaˇcme X X pij = P (X1 = i, X2 = j) ; pi• = pij ; p•j = pij . j
i
Pˇredpokl´adejme, ˇze se uskuteˇcnil n´ahodn´ y v´ ybˇer rozsahu n z tohoto rozdˇelen´ı. Necht’ nij je poˇcet tˇech pˇr´ıpad˚ u, kdy se ve v´ ybˇeru vyskytla dvojice (i, j). N´ahodn´e veliˇciny nij maj´ı pak sdruˇzen´e multinomick´e rozdˇelen´ı s parametrem n a s pravdˇepodobnostmi pij . Matice (pij )i=1,2,...,r;j=1,2,...,s se naz´ yv´a matice pravdˇepodobnost´ı a matice (nij )i=1,2,...,r;j=1,2,...,s tvoˇr´ı z´aklad kontingenˇcn´ı tabulky. Oznaˇcme X X ni• = nij ; n•j = nij . j
i
ˇ ısl˚ C´ um pi• a p•j se ˇr´ık´a margin´aln´ı pravdˇepodobnosti a hodnot´am ni• a n•j margin´aln´ı ˇcetnosti. Nam´ısto dvou znak˚ u lze sledovat obecnˇe libovoln´e mnoˇzstv´ı znak˚ u. Kontingenˇcn´ı tabulka se pak tvoˇr´ı pomoc´ı stejn´eho principu (v kaˇzd´em pol´ıˇcku je poˇcet v´ yskyt˚ u kombinac´ı urˇcit´ ych hodnot jednotliv´ ych 2
znak˚ u), avˇsak nen´ı jiˇz moˇzn´e ji tak snadno zn´azornit. Ve v´ıcerozmˇern´e tabulce lze testovat mnohem v´ıc typ˚ u z´avislost´ı mezi jednotliv´ ymi znaky, testov´an´ı je vˇsak technicky mnohem komplikovanˇejˇs´ı neˇz u dvojrozmˇern´e tabulky.
.................................................................................................. V programu Excel m´ame moˇznost vytvoˇrit kontingenˇcn´ı tabulku pomoc´ı pˇr´ıkazu COUNTIFS(oblast1;podminka1;obl . ................................................................................................ .
10.2.1
Testy nez´ avislosti
Nejˇcastˇejˇs´ı u ´lohou pˇri anal´ yze kontingenˇcn´ıch tabulek, je probl´em testov´an´ı nez´avislosti. Vzhledem k tomu, ˇze dvˇe veliˇciny X, Y jsou nez´avisl´e pr´avˇe tehdy, kdyˇz plat´ı pij = pi• · p•j pro vˇsechna i, j, formulujeme nulovou hypot´ezy testu nez´avislosti v kontingenˇcn´ı tabulce ve tvaru H0 : pij = pi• · p•j , Testovac´ı krit´erium m´a tvar 2
χ =
i = 1, 2, . . . , r, j = 1, 2, . . . , s ni• n•j 2 n ni• n•j n
r X s X nij − i=1 j=1
a pˇri platnosti nulov´e hypot´ezy ma asymptoticky rozdˇelen´ı χ2 , jehoˇz poˇcet stupˇ n˚ u volnosti je roven ν = rs − (r + s − 2) = (r − 1)(s − 1). Pokud hodnota testovac´ıho krit´eria χ2 ≥ χ2(r−1)(s−1) (α). zam´ıt´ame hypot´ezu o nez´avislosti veliˇcin X a ni• n•j byly vˇetˇs´ı neˇz 5. Nen´ı-li Y . Ke shodˇe s limitn´ım rozdˇelen´ım se poˇzaduje, aby teoretick´e ˇcetnosti n tato podm´ınka splnˇena, je nutno slouˇcit nˇekter´e sloupce, pˇr´ıpadnˇe ˇr´adky v kontingenˇcn´ı tabulce. Analogicky postupu pro test nez´avislosti v kontingenˇcn´ı lze postupovat v pˇr´ıpadˇe testov´an´ı homogenity multinomick´eho rozdˇelen´ı. Tento pˇr´ıstup uplatn´ıme v okamˇziku, kdy margin´aln´ı ˇr´adkov´e ˇcetnosti jsou pevnˇe stanoveny a i − t ˇra´dek v kontingenˇcn´ı tabulce m´a multinomick´e rozdˇelen´ı s parametry ni• , qi1 , qi2 , . . . , qis , kde qi1 , qi2 , . . . jsou nˇejak´e pravdˇepodobnosti splˇ nuj´ıc´ı podm´ınku qi1 +qi2 +· · ·+qis = 1. Hypot´eza homogenity pak ˇr´ık´a, ˇze pravdˇepodobnosti qi1 , qi2 , . . . nez´avis´ı na ˇr´adkov´em indexu i. Testovac´ı krit´erium a kritick´e hodnoty jsou pro tento test identick´e s veliˇcinami pro test nez´avislosti.
10.3
Korelaˇ cn´ı koeficienty
Korelaˇcn´ı koeficienty se nejˇcastˇeji pouˇz´ıvaj´ı k mˇeˇren´ı s´ıly (tˇesnosti) z´avislosti dvou ˇc´ıseln´ ych promˇenn´ ych. Pearson˚ uv korelaˇcn´ı koeficient rxy je definov´an vztahem Spearman˚ uv korelaˇcn´ı koeficient rs mˇeˇr´ı z´avislost dvou poˇrad´ı.
10.4
Regresn´ı anal´ yza
Regrese je snad nejˇcastˇeji pouˇz´ıvan´a statistick´a metoda. Regrese se zab´ yv´a probl´emem vysvˇetlen´ı zmˇen jedn´e n´ahodn´e veliˇciny (vysvˇetlovan´a, z´avisl´a , endogenn´ı promˇenn´a, regresand) na jedn´e nebo v´ıce jin´ ych veliˇcin´ach (regresory, vysvˇetluj´ıc´ı promˇenn´e, exogenn´ı promˇenn´e). V pˇr´ıpadˇe, ˇze z´avislost je pops´ana line´arn´ımi vztahy, mluv´ıme o line´arn´ım regresn´ım modelu. Pokud modelujeme chov´an´ı
3
vysvˇetlovan´e promˇenn´e pomoc´ı jedn´e vysvˇetluj´ıc´ı promˇenn´e, mluv´ıme o jednoduch´e regresi, v opaˇcn´em pˇr´ıpadˇe se jedn´a o regresi v´ıcen´asobnou. Oznaˇcme X nez´avisle promˇenn´e a Y z´avislou promˇennou. Regresn´ı funkc´ı se pak rozum´ı µ(x) = E (Y |X = x) . Regresn´ı funkce tedy ud´av´a, jak´a je stˇredn´ı hodnota n´ahodn´e veliˇciny Y pˇri dan´e hodnotˇe x. 10.4.1
Jednorozmˇ ern´ y line´ arn´ı regresn´ı model y = β0 + β1 x + ε
Pˇredpokl´adejme, ˇze m´ame k dispozici xi , i = 1, 2, . . . , n pevn´ ych (nen´ahodn´ ych) hodnot promˇenn´e X. Pˇredpokl´adejme, ˇze plat´ı yi = f (xi , β0 , β1 , . . . , βk ) + εi kde • β0 , β1 . . . , βk jsou nezn´am´e parametry modelu; • εi jsou n´ahodn´e veliˇciny, kter´ y modeluj´ı nesystematick´e chyby mˇeˇren´ı; • yi jsou realizace n´ahodn´e veliˇciny Y s podm´ınkami X = xi . C´ılem regresn´ı anal´ yzy je odhadnout parametry β0 , β1 . . . , βk tak, aby f (xi , βb0 , βb1 , . . . , βbk ) co nejv´ıce ” odpov´ıdala k empiricky namˇeˇren´ ym hodnot´am yi“. Funkce yi = f (xi , β0 , β1 , . . . , βk ) se naz´ yv´a teoretick´a regresn´ı funkce z´avislosti promˇenn´e y na x, jej´ı grafick´e vyj´adˇren´ı se naz´ yv´a teoretick´a regresn´ı kˇrivka. Regresn´ı funkce, v n´ıˇz jsou nahrazeny nezn´am´e parametry β jejich odhady βb (resp. b) se naz´ yv´a empirick´a regresn´ı funkce a jej´ı grafick´e obraz je empirick´a regresn´ı kˇrivka. Pro hodnoty xi m˚ uˇzeme na z´akladˇe empirick´e regresn´ı kˇrivky urˇcit hodnotu ybi = f (xi , βb0 , βb1 , . . . , βbk ), tyto hodnoty naz´ yv´ame vyrovnan´ ymi hodnotami yi a rozd´ıl mezi yi − ybi naz´ yv´ame rezidua (znaˇc´ıme ei ). Regresn´ı funkce se naz´ yv´a line´arn´ı, je-li line´arn´ı funkc´ı nezn´am´ ych parametr˚ u, tj. pokud yi = β0 + β1 · ϕ1 (x) + β2 · ϕ2 (x) + · · · + βk · ϕk (x) kde ϕ1 (x), ϕ2 (x), . . . , ϕk (x) jsou funkce promˇenn´e x. Pˇr´ıkladem line´arn´ıch regresn´ıch model˚ u jsou pˇ r´ımkov´ a regrese tvaru yi = β0 + β1 · xi + εi kvadratick´ a regrese tvaru yi = β0 + β1 · xi + β2 · x2i + εi polynomick´ a regrese tvaru yi = β0 + β1 · xi + β2 · x2i + · · · + βk · xki + εi hyperbolick´ a regrese tvaru yi = β0 + β1 ·
1 + εi xi
4
10.4.2
Metoda nejmenˇ s´ıch ˇ ctverc˚ u
Princip metody nejmenˇs´ıch ˇctverc˚ u je zaloˇzen na jednoduch´em volbˇe optimalizaˇcn´ıho krit´eria, kdy minimalizuji kvadr´at odchylek namˇeˇren´ ych yi a vyrovnan´ ych hodnot ybi . Y
(xi , yi )
! !! ! ! !! ! !! !! ! • ! !! (x , yb ) ! i i • !!! ! ! !! ! !
•
•
X
Oznaˇcme funkci Q(β0 , β1 , β2 , . . . , βk ) =
n X
(yi − f (xi , β0 , β1 , β2 , . . . , βk ))2 .
i=1
ˇ LSQ) hled´ame hodnoty b0 , b1 , b2 , . . . , bk , ve kter´ Pˇri metodˇe nejmenˇs´ıch ˇctverc˚ u (MNC, ych je funkce Q minim´aln´ı, tj. b0 , b1 , . . . , bk = argmin Q (β0 , β1 , . . . , βk ) . β0 ,β1 ,...,βk
V pˇr´ıpadˇe line´arn´ı regresn´ı funkce m´a kriteri´aln´ı funkce Q tvar Q(β0 , β1 , . . . , βk ) =
n X
(yi − β0 − β1 · ϕ1 (xi ) − . . . − βk · ϕk (xi ))2
i=1
a tato funkce nab´ yv´a sv´eho minima v bodech, kdy derivace je rovna nule, tj. pˇri hled´an´ı minima ˇreˇs´ıme soustavu k + 1 line´arn´ıch rovnic tvaru ∂Q =0 pro j = 0, 1, 2, . . . , k ∂βj βj =bj Soustava norm´aln´ıch rovnic m´a tedy tvar n X +b1 · ϕ1 (xi )
b0 · n b0 ·
n X
ϕ1 (xi )
i=1 n X
+b1 ·
+ · · · + bk ·
ϕ1 (xi )ϕ1 (xi ) + · · · + bk ·
i=1
i=1
n X i=1 n X
ϕk (xi )
=
ϕ1 (xi )ϕk (xi ) =
i=1
n X i=1 n X
yi ϕ1 (xi )yi
i=1
... b0 ·
n X i=1
ϕk (xi )
n X +b1 · ϕk (xi )ϕ1 (xi ) + · · · + bk · i=1
n X
ϕk (xi )ϕk (xi ) =
i=1
n X i=1
5
ϕk (xi )yi
10.4.3
Pˇ r´ımkov´ a regrese
Uvaˇzujme tento z´akladn´ı jednoduch´ y model Yi = β0 + β1 xi + εi . n X Derivace funkce Q(β0 , β1 ) (yi − β0 − β1 · xi )2 maj´ı tvar i=1
b0 · b0 ·
+b1 ·
n n X
n X
xi
=
i=1
+b1 ·
xi
i=1
n X
n X
yi
i=1
(xi )
2
=
i=1
n X
xi y i
i=1
a ˇreˇsen´ım v´ yˇse uveden´ ych soustav dost´av´ame n P
b0 =
n P
yi
i=1
(xi )2 −
i=1
n
n P
n P i=1
2
(xi ) −
n P
xi y i −
i=1
b1 = n
n P
n P
xi
i=1 2
(xi ) −
i=1
10.4.4
n P
n P
xi y i
i=1 2
xi
i=1
i=1
n
xi
n P
yi 2 .
i=1 n P
xi
i=1
V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ε a jeho maticov´ y z´ apis
Pro v´ıcerozmˇern´ y line´arn´ı model je vhodn´e pouˇz´ıt maticov´ y z´apis modelu x(0)1 x(1)1 . . . x(k)1 β0 1 y1 y2 x(0)2 x(1)2 . . . x(k)2 β2 2 + . .. = .. . .. . . .. .. .. .. . . . yn
x(0)n x(1)n . . . x(k)n
βk
n
• y = (y1 , y2 , . . . , yn )T je vektor namˇeˇren´ ych hodnot vysvˇetlovan´e promˇenn´e • X = x(i)j j=1,...,n; i=0,...,k je matice typu n × (k + 1) namˇeˇren´ ych hodnot vysvˇetluj´ıc´ıch promˇenn´ ych • β = (β0 , β2 , . . . , βk )T je vektor hledan´ ych k + 1 nezn´am´ ych parametr˚ u • = (1 , 2 , . . . , n )T je vektor n´ahodn´e sloˇzky Stejnˇe jako v jednorozmˇern´em pˇr´ıpadˇe mus´ıme specifikovat pˇredpoklady ˇreˇsen´ı modelu pomoc´ı metody nejmenˇs´ıch ˇctverc˚ u • E () = 0
6
• E T = σ 2 I n • X je nestochastick´a matice, takˇze E X T = 0 • X m´a plnou hodnost k + 1 = p Za v´ yˇse uveden´ ych pˇredpoklad˚ u pak nezn´am´e parametry modelu β0 , β1 , . . . , βk , σ 2 odhadneme n´asledovnˇe −1 T • b = XT X X y eT e (y − Xb)T (y − Xb) 2 = • s = n−p n−p 10.4.5
Kvalita regresn´ı funkce a intenzita z´ avislosti
Jedn´ım z d˚ uleˇzit´ ych krok˚ u v regresn´ı anal´ yze je tzv. regresn´ı diagnostika. Ta slouˇz´ı k hodnocen´ı kvality regresn´ı funkce a k ovˇeˇrov´an´ı splnˇen´ı pˇredpoklad˚ u pouˇzit´e metody nejmenˇs´ıch ˇctverc˚ u. V r´amci metody nejmenˇs´ıch ˇctverc˚ u pracujeme s n´asleduj´ıc´ımi souˇcty ˇctverc˚ u, resp. rozptyly, kter´e v sobˇe zahrnuj´ı variabilitu empirick´ ych hodnot, odhadnut´ ych teoretick´ ych hodnot a residu´ı. • celkov´ y souˇcet ˇctverc˚ u ST2 =
n X
(yi − y)2
i=1
rozptyl empirick´ ych (skuteˇcnˇe zjiˇstˇen´ ych) hodnot s2y =
• vysvˇetlen´ y souˇcet ˇctverc˚ u
SV2
=
n X
ST2 n−1
(ybi − y)2
i=1
rozptyl vyrovnan´ ych (teoretick´ ych) hodnot
T
• residu´aln´ı souˇcet ˇctverc˚ u RSS = e e =
s2yb
n X
2
SV2 = n−1
e =
i=1
n X
(yi − ybi )2
i=1
rozptyl skuteˇcnˇe zjiˇstˇen´ ych hodnot kolem regresn´ı ˇca´ry, RSS residu´aln´ı rozptyl s2R = , kde p = k + 1 n−p Pˇri pouˇzit´ı metody nejmenˇs´ıch ˇctverc˚ u plat´ı ST2 = SV2 + RSS. 2 Pˇri pˇr´ımkov´e regresi (k = 1) plat´ı sy = s2yb + s2R Graficky jsou jednotliv´e odchylky zn´azornˇeny na obr´azku
7
Y
• • • yi − yb • yb − y • yi − y • • •
•
yb
y
• 10.4.6
X
x
Koeficient (index) determinace pro v´ıcen´ asobnou regresi s absolutn´ım ˇ clenem
Ze vztahu jednotliv´ ych souˇct˚ u ˇctverc˚ u je odvozen koeficient R2 . Tento koeficient vyjadˇruje z kolika ” procent se n´am podaˇrilo vysvˇetlit veliˇcinu y pomoc´ı veliˇcin x1 , x2 , . . . “. R2 =
SV2 RSS (n − p) s2R = 1 − = 1 − ST2 ST2 (n − 1) s2y
Pro koeficient determinace plat´ı n´asleduj´ıc´ı vlastnosti • R2 ∈ h0; 1i • pokud x a y jsou deterministicky z´avisl´e, pak yi = ybi a s2R = 0, s2y = s2yb, tedy R2 = 1 • pokud x a y jsou nez´avisl´e, pak s2V = 0, s2y = s2R , tedy R2 = 0 √ • koeficient (index) korelace R = R2 – pro pˇr´ımkovou regresi plat´ı ybi = y + b1 (xi − x), kde b1 = R2 =
s2yb s2y
1 n−1
=
n P i=1
(ybi − y)2 s2y
b1 =
1 n−1
n P
(xi − x)2
i=1
s2y
=
sxy , pak s2x
s2xy s2x s2xy = s2x s2x s2y s2x s2y
– tedy koeficient korelace R = |rx y | odpov´ıd´a v´ ybˇerov´emu korelaˇcn´ımu koeficientu n´ahodn´eho vektoru (x, y) .................................................................................................. Regresn´ı anal´yza v Excelu
8
• funkce LINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT), kde DATA-Y je z´ avisl´ a promˇenn´a DATA-X1;DATA-X2;. . . ;DATA-XN jsou nez´avisl´e promˇenn´e, B =PRAVDA - parametr β0 se odhaduje, NEPRAVDA - parametr β0 se neodhaduje (rovnice proch´az´ı nulou), STAT=PRAVDA - poˇc´ıtaj´ı se doplˇ nuj´ıc´ı charakteristiky modelu (SEi ;R2 ;SEy ;F;df;ss(reg);ss(resid)) • funkce LINTREND (DATA-Y;DATA-X;DATA-X-NOVA;B), kde DATA-Y je z´avisl´a promˇenn´a, DATAX jsou nez´avisl´e promˇenn´e, DATA-X-NOVA je nez´avisl´a promˇenn´a, nov´a ( napˇr´ıklad pokraˇcov´ an´ı data-x) B =PRAVDA - parametr β0 se odhaduje, NEPRAVDA - parametr β0 se neodhaduje • funkce FORECAST (X;DATA-Y;DATA-X) pro odhad y(X) na z´akladˇe znalost´ı DATA-X a DATA-Y • funkce INTERCEPT (DATA-Y;DATA-X) pro odhad β0 na z´akladˇe znalost´ı DATA-X a DATA-Y • funkce SLOPE (DATA-Y;DATA-X) pro odhad parametru beta1 line´arn´ı regrese • funkce STEYX (DATA-Y;DATA-X) pro standardn´ı chybu odhadu y • funkce LOGLINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT) pro logaritmick´y regresn´ı model • z grafu : vytvoˇrit XY graf a pˇridat spojnici trendu ´ ´ • pomoc´ı NASTROJE=>ANAL YZA DAT=>REGRESE Dalˇs´ı v´ıcerozmˇern´e metody a grafy lze v Excelu naprogramovat. . ................................................................................................ .
.................................................................................................. Zpracov´an´ı v´ıcerozmˇern´ych statistick´ych dat v MATLABu • Grafick´e zpracov´an´ı a z´akladn´ı deskriptivn´ı statistiky – boxplot – v´ıcerozmˇern´y histogram hist3 – plotmatrix – gscatter – gplotmatrix – souhrnn´e statistiky [means,sem,counts,name]=grpstats(data,data(:,2)) – korelace a kovariance corr, corrcoef, cov • Regresn´ı anal´yza – maticovˇe b = X T X
−1
X T y, atd
– funkce [b,bint,r,rint,stats] = regress(y,X,alpha) – regresn´ı diagnostika a grafy - rcoplot – robusn´ı odhady - robustfit 9
Lze vyuˇz´ıt t´eˇz dalˇs´ı n´astroje pro v´ıcerozmˇernou anal´yzu -ANOVA, MANOVA, shlukov´a anal´yza - cluster analysis, metoda hlavn´ıch komponent, faktorov´a anal´yza atd. . ................................................................................................ . Upraven´ y koeficient determinace (adjusted R2 ) • definice Ra2 = 1 −
s2R s2T
• pro bˇeˇzn´e situace plat´ı Ra2 ≤ R2 • pro pˇr´ımkovou regresi (resp. pro regresi se dvˇema nezn´am´ ymi koeficienty) plat´ı R2 = Ra2 • pro hodnoty R2 <
10.5
k vyjde hodnota Ra2 < 0 n−1
Pˇ r´ıklady
1. Chceme testovat, zda hrac´ı kostka je korektn´ı. Provedli jsme 600x hod kostkou a z´ıskali jsme n´asleduj´ıc´ı ˇcetnosti: ˇ ıslo 1 C´ 2 3 4 5 6 ni 122 61 98 115 79 125 Pokud je kostka korektn´ı, mˇely by se oˇcek´avan´e ˇcetnosti ˇr´ıdit diskr´etn´ım rovnomˇern´ ym rozdˇelen´ım. Budeme tedy testovat shodu z´ıskan´ ych hodnot s diskr´etn´ım rovnomˇern´ ym rozdˇelen´ım na hladinˇe v´ yznamnosti 5%. ˇ sen´ı: Reˇ H0 : Kostka je korektn´ı H1 : Kostka nen´ı korektn´ı Budeme se ˇr´ıdit postupem uveden´ ym v prvn´ı ˇca´sti tohoto cviˇcen´ı: • Obor hodnot je jiˇz rozdˇelen na 6 nepˇrekr´ yvaj´ıc´ıch se tˇr´ıd, tedy k = 6. • Poˇcty prvk˚ u ni jsou uvedeny jiˇz v zad´an´ı. • Nen´ı potˇreba odhadovat parametry, tj. m = 0. 1 • Spoˇcteme oˇcek´avan´e hodnoty v jednotliv´ ych tˇr´ıd´ach oi = npi = 600 · = 100 pro i = 6 1, 2, ..., 6 • V ˇz´adn´e tˇr´ıdˇe nen´ı oi < 5, nebudeme tedy ˇza´dn´e tˇr´ıdy sluˇcovat. • Vypoˇcteme hodnotu testovac´ı statistiky: 2
χ =
k X (ni − oi )2 i=1
oi
2
=χ =
6 X (ni − 100)2 i=1
10
100
= 33
• Kritick´ y obor je d´an χ2 -rozdˇelen´ım s ν = k − 1 = 5 stupni volnosti: W = (χ20.95 (5), +∞) = (11.1, +∞) • Jelikoˇz χ2 ∈ W , tak hypot´ezu o tom, ˇze kostka je korektn´ı zam´ıt´ame (na hladinˇe v´ yznamnosti α = 5%. 2. Po proveden´ı 60 pokus˚ u s diskr´etn´ı n´ahodnou veliˇcinou X, kter´a m˚ uˇze nab´ yvat hodnot 0 aˇz 4 (tj. v kaˇzd´em z pokus˚ u nastane bud’ 0, 1, 2, 3 nebo 4kr´at sledovan´ y jev) jsou z´ısk´any n´asleduj´ıc´ı ˇcetnosti.
Hodnota 0 1 2 3 4 ni 3 12 21 20 4 Tedy napˇr´ıklad hodnota 12 znamen´a, ˇze pˇri 12 pokusech z 60 nabyla n´ahodn´a veliˇcina X hodnoty 1. Otestujte na hladinˇe v´ yznamnosti α = 2.5%, zda se n´ahodn´a veliˇcina X ˇr´ıd´ı binomick´ ym rozdˇelen´ım. ˇ sen´ı: Reˇ H0 : N´ahodn´a veliˇcina se ˇr´ıd´ı binomick´ ym rozdˇelen´ım H1 : N´ahodn´a veliˇcina se neˇr´ıd´ı binomick´ ym rozdˇelen´ım Budeme se ˇr´ıdit postupem uveden´ ym v prvn´ı ˇca´sti tohoto cviˇcen´ı: • Obor hodnot je jiˇz rozdˇelen na 5 nepˇrekr´ yvaj´ıc´ıch se tˇr´ıd, tedy k = 5. • Poˇcty prvk˚ u ni jsou uvedeny jiˇz v zad´an´ı. • Ze zad´an´ı v´ıme, ˇze parametr n binomick´eho rozdˇelen´ı je 4, ten tedy odhadovat nemus´ıme. Je ale potˇreba odhadnout parametr p binomick´eho rozdˇelen´ı. Ten lze odhadnout pˇres stˇredn´ı hodnotu. U binomick´eho rozdˇelen´ı v´ıme, ˇze E(X) = np. n zn´ame, stˇredn´ı hodnotu lze odhadnout pomoc´ı pr˚ umˇeru a pak jiˇz jen vyj´adˇr´ıme nezn´am´ y parametr p: x¯ =
3 · 0 + 12 · 1 + 21 · 2 + 20 · 3 + 4 · 4 = 2.1667 60
Dosad´ıme: 2.1667 = 4 · pˆ A odtud: pˆ = 0.5417 Pˇredpokl´ad´ame, ˇze n´ahodn´a veliˇcina se ˇr´ıd´ı rozdˇelen´ım Bi(4, 0.5417). Odhadovali jsme jeden parametr, takˇze m = 1. • Spoˇcteme oˇcek´avan´e pravdˇepodobnosti pi a n´aslednˇe oˇcek´avan´e hodnoty v jednotliv´ ych tˇr´ıd´ach oi = npi pro i = 0, 1, ..., 4: Hodnota 0 1 2 3 4 pi 0.0441 0.2086 0.3698 0.2914 0.0861 oi 2.65 12.51 22.19 17.48 5.17 11
• V prvn´ı tˇr´ıdˇe je oi < 5, slouˇc´ıme tedy tuto tˇr´ıdu se sousedn´ı. V posledn´ı tˇr´ıdˇe je sice ni < 5, ale oˇcek´avan´a hodnota splˇ nuje podm´ınku a sluˇcovat tedy nebudeme. Po slouˇcen´ı obdrˇz´ıme: Hodnota 0 a 1 2 3 4 ni 15 21 20 4 oi 15.16 22.19 17.48 5.17 Stejn´ ym zp˚ usobem mus´ı b´ yt slouˇceny i namˇeˇren´e hodnoty. • Vypoˇcteme hodnotu testovac´ı statistiky: 2
χ =
k X (ni − oi )2 i=1
oi
= 0.6936
• Kritick´ y obor je d´an χ2 -rozdˇelen´ım s ν = k − 1 − m = 2 stupni volnosti: W = (χ20.975 (2), +∞) = (7.38, +∞) • Jelikoˇz χ2 6∈ W , tak hypot´ezu o tom, ˇze n´ahodn´a veliˇcina se ˇr´ıd´ı rozdˇelen´ım Bi(4, 0.5417) (na hladinˇe v´ yznamnosti α = 2.5%) nezam´ıt´ame. 3. Z pr˚ uzkumu proveden´eho u 1 000 osob, kter´ y mˇel zjistit efektivnost oˇckov´an´ı proti chˇripce, byly z´ısk´any tyto v´ ysledky:
Chˇripka Bez chˇripky Celkem
Bez oˇckov´an´ı Jedno oˇckov´an´ı Dvˇe oˇckov´an´ı Celkem 24 9 13 46 289 100 565 954 313 109 578 1 000
ˇ sen´ı: Na hladinˇe v´ yznamnosti α = 5% testujte, zda m´a oˇckov´an´ı vliv na v´ yskyt chˇripky. Reˇ H0 : Oˇckov´an´ı vliv nem´a (veliˇciny jsou nez´avisl´e) H1 : Oˇckov´an´ı vliv m´a (mezi veliˇcinami existuje z´avislost) Pouˇzijeme tedy test nez´avislosti: Hodnoty n, ni. a n.j jsou uvedeny jiˇz v tabulce. Pomoc´ı tˇechto hodnot vypoˇcteme oˇcek´avan´e hodnoty: ni. n.j oij = n Napˇr.: n1. n.2 46 · 109 o12 = = = 5.014 n 1000 Cel´a tabulka s oˇcek´avan´ ymi hodnotami:
Chˇripka Bez chˇripky
Bez oˇckov´an´ı Jedno oˇckov´an´ı Dvˇe oˇckov´an´ı 14.40 5.01 26.59 298.60 103.99 551.41 12
Ve vˇsech kategori´ıch plat´ı oij ≥ 5. Testovac´ı statistika:
2 X 3 X (nij − oij )2 χ = = 17.32 oij i=1 j=1 2
Obor kritick´ ych hodnot W : W = (χ20.95 (1 · 2), +∞) = (5.99; +∞) Protoˇze χ2 ∈ W , tak hypot´ezu o nez´avislosti (na hladinˇe v´ yznamnosti α = 5%) zam´ıt´ame a oˇckov´an´ı m´a tedy vliv.
4. Chceme otestovat vliv nov´e technologie. M´ame k dispozici n´asleduj´ıc´ı v´ ysledky:
I. jakost II. jakost III. jakost Zmetek Celkem Star´a technologie 503 105 33 7 648 Nov´a technologie 553 95 35 3 686 Celkem 1 056 200 68 10 1334 ˇ sen´ı: Na hladinˇe v´ yznamnosti α = 5% testujte, zda m´a nov´a technologie vliv na v´ yrobu. Reˇ H0 : Technologie nem´a vliv (veliˇciny jsou nez´avisl´e) H1 : Technologie m´a vliv (mezi veliˇcinami existuje z´avislost) Pouˇzijeme tedy test nez´avislosti v dvourozmˇern´e kontingenˇcn´ı tabulce: Hodnoty n, ni. a n.j jsou uvedeny jiˇz v tabulce. Pomoc´ı tˇechto hodnot vypoˇcteme oˇcek´avan´e hodnoty: I. jakost II. jakost III. jakost Zmetek Star´a technologie 512.96 97.15 33.03 4.86 Nov´a technologie 543.03 102.85 34.97 5.14 Jelikoˇz o14 < 5, tak mus´ıme slouˇcit posledn´ı dva sloupce (ˇra´dky sluˇcovat nem˚ uˇzeme, mus´ı platit I, J ≥ 2). M´ame tedy:
I. jakost II. jakost III. jakost + Zmetek Star´a technologie 512.96 97.15 37.89 Nov´a technologie 543.03 102.85 40.11 Stejn´ ym zp˚ usobem mus´ı b´ yt slouˇceny i namˇeˇren´e hodnoty. Testovac´ı statistika: 2 X 3 X (nij − oij )2 2 χ = = 1.84 oij i=1 j=1
13
Obor kritick´ ych hodnot W : W = (χ20.95 (1 · 2), +∞) = (5.99; +∞) Protoˇze χ2 6∈ W , tak hypot´ezu o nez´avislosti (na hladinˇe v´ yznamnosti α = 5%) nezam´ıt´ame a nov´a technologie tedy nem´a vliv. 5. U 5 lid´ı byla zjiˇst’ov´ana v´aha (ozn. X) a v´ yˇska (ozn. Y ). V´ ysledky jsou n´asleduj´ıc´ı: V´ yˇska 170 183 192 164 196 V´aha 70 72 88 60 82 Pˇredpokl´ad´ame, ˇze dvourozmˇern´a n´ahodn´a veliˇcina (X, Y ) m´a dvourozmˇern´e norm´aln´ı rozdˇelen´ı. ˇ sen´ı: Otestujte na hladinˇe v´ yznamnosti α = 10%, zda jsou X a Y nez´avisl´e. Reˇ Jelikoˇz se jedn´a o dvourozmˇern´e norm´aln´ı rozdˇelen´ı, tak staˇc´ı testovat nulovost korelaˇcn´ıho koeficientu. Testujeme tedy: H0 : ρ = 0 H1 : ρ 6= 0 Mus´ıme vypoˇc´ıtat pr˚ umˇery, v´ ybˇerov´e rozptyly, hodnotu v´ ybˇerov´e kovariance a n´aslednˇe v´ ybˇerov´e korelace: n
1X xi = 181 x¯ = n i=1 n
1X y¯ = yi = 74.4 n i=1 Sx2 =
n X (xi − x¯)2 = 190 i=1
Sy2 =
n X
(yi − y¯)2 = 118.8
i=1
SXY =
1 n−1
n X i=1
xi y i −
1 5 n x¯y¯ = · 67884 − · 181 · 74.4 = 138 n−1 4 4
SXY 138 p rXY = p =√ √ = 0.9185 190 118.8 S 2 (X) S 2 (Y ) Testovac´ı statistika m´a tvar: T =√
√ √ r 0.9185 n−2= √ 5 − 2 = 4.0242 1 − r2 1 − 0.91852
Obor kritick´ ych hodnot pro test na hladinˇe v´ yznamnosti α = 10% je: W = (−∞, −2.353) ∪ (2.353, +∞) Hypot´ezu o nez´avislosti lze zam´ıtnout na hladinˇe v´ yznamnosti α = 10%, protoˇze T ∈ W . Pˇrijmeme tedy alternativn´ı hypot´ezu, ˇze veliˇciny jsou z´avisl´e. 14
6. Pro n´asleduj´ıc´ı data odhadnˇete koeficienty regresn´ı pˇr´ımky y = β0 +β1 x, vypoˇctˇete pˇres soustavu norm´aln´ıch rovnic. x -5 -3 -1 1 3 5 y -2 -1 1 2 2 3
1 7. Pro n´asleduj´ıc´ı data odhadnˇete koeficienty regresn´ı funkce y = β0 +β1 , vypoˇctˇete pˇres soustavu x norm´aln´ıch rovnic. x 0.5 1 2 3 4 y 5.0 3.3 1.7 1.6 1.3
15
8. Pro data z pˇredchoz´ıho pˇr´ıkladu odhadnˇete koeficienty regresn´ı funkce y = β0 + β1 x + β2 x2
16
9. Pro pˇredchoz´ı pˇr´ıklady spoˇctˇete SV2 , ST2 , SSE a R2 . Z´ıskan´e v´ ysledky interpretujte.
17