9
V´ıcerozmˇ ern´ a data a jejich zpracov´ an´ı
9.1
V´ıcerozmˇ ern´ a data a v´ıcerozmˇ ern´ a rozdˇ elen´ı
Pˇri zpracov´an´ı v´ıcerozmˇern´ ych dat, hled´ame souvislosti mezi dvˇemi, pˇr´ıpadnˇe v´ıce n´ahodn´ ymi veliˇcinami. V praxi pracujeme s daty nomin´aln´ımi (nab´ yvaj´ı pouze dvou hodnot), kategori´aln´ımi (nab´ yvaj´ı v´ıce hodnot bez uspoˇr´ad´an´ı), ordin´aln´ımi (nab´ yvaj´ı v´ıce hodnot s uspoˇr´ad´an´ım) a kardin´aln´ımi (nab´ yvaj´ı v´ıce hodnot s uspoˇra´d´an´ım a lze mˇeˇrit rozd´ıly mezi hodnotami). Pro r˚ uzn´e typy dat je tˇreba pouˇz´ıvat ´ r˚ uzn´e matematick´e postupy vhodn´e pro zjiˇst’ov´an´ı souvislost´ı a z´avislost´ı. Ukolem statistiky je stanovit s´ılu a druh sledovan´ ych z´avislost´ı. S´ılu z´avislosti vyjadˇrujeme podle r˚ uzn´ ych mˇer statistick´ ych z´avislost´ı. Statistick´a z´avislost vˇsak nevypov´ıd´a pˇr´ımo o kauzalitˇe. Vysok´ y stupeˇ n z´avislosti m˚ uˇze ale nemus´ı odr´aˇzet pˇr´ıˇcinn´ y vztah mezi sledovan´ ymi statistick´ ymi veliˇcinami. Pˇr´ıˇcinn´e souvislosti ˇcistˇe empirick´ ymi prostˇredky neodhal´ıme. Ke statistick´ ym v´ ysledk˚ um je tˇreba pˇridat odborn´e znalosti, praktick´e zkuˇsenosti a u ´ˇcelnˇe kombinovat deduktivn´ı a induktivn´ı zp˚ usob uvaˇzov´an´ı. Existuj´ı i jednoznaˇcn´e funkˇcn´ı z´avislosti mezi n´ahodn´ ymi veliˇcinami, ty vˇsak obvykle nejsou hlavn´ım c´ılem naˇseho statistick´eho ˇsetˇren´ı (napˇr. z´avislosti zaloˇzen´e na fyzik´aln´ıch z´akonech - dod´avan´e teplo zvyˇsuje energii). Druh statistick´e z´avislosti odhadujeme obvykle na z´akladˇe grafick´e reprezentace dat. V pˇr´ıpadˇe z´avislosti dvou n´ahodn´ ych promˇenn´ ych je vyj´adˇren´ım druhu z´avislosti kˇrivka, kter´e se nejv´ıce hod´ı“ ” k napozorovan´ ym hodnot´am. Podle typu kˇrivky pak mluv´ıme o z´avislosti line´arn´ı, logaritmick´e, exponenci´aln´ı a podobnˇe. Typ pro- Nomin´aln´ı mˇenn´e Nomin´aln´ı kontingenˇcn´ı tabulky 2x2, nez´avislost, homogenita v´ ybˇeru, symetrie, rezidua, grafick´a reprezentace, znam´enkov´a sch´emata, m´ıry asociace Ordin´aln´ı – Kardin´aln´ı –
9.2
Ordin´aln´ı
Kardin´aln´ı
kontingenˇcn´ı tabulky, logline´arn´ı modely
probitov´a, logitov´a regrese, kontingenˇcn´ı tabulky, kontingenˇcn´ı koeficienty
Spearman˚ uv korelaˇcn´ı anal´ yza rozptylu koeficient, Kendallovo τ – korelace, korelaˇcn´ı koeficienty, regresn´ı anal´ yza
Kontingenˇ cn´ı tabulky
Kontingenˇcn´ı tabulka se uˇz´ıv´a k pˇrehledn´e vizualizaci vz´ajemn´eho vztahu dvou statistick´ ych znak˚ u. ˇ V praxi vznik´a kontingenˇcn´ı tabulka tak, ˇze se na statistick´ ych jednotk´ach sleduj´ı dva znaky. R´adky kontingenˇcn´ı tabulky odpov´ıdaj´ı moˇzn´ ym hodnot´am prvn´ıho znaku, sloupce pak moˇzn´ ym hodnot´am druh´eho znaku. V pˇr´ısluˇsn´e buˇ nce kontingenˇcn´ı tabulky je pak zaˇrazen poˇcet pˇr´ıpad˚ u, kdy z´aroveˇ n mˇel prvn´ı znak hodnotu odpov´ıdaj´ıc´ı pˇr´ısluˇsn´emu ˇr´adku a druh´ y znak hodnotu odpov´ıdaj´ıc´ı pˇr´ısluˇsn´emu sloupci. 1
Je moˇzn´e, aby jeden ˇr´adek ˇci sloupec odpov´ıdal v´ıce moˇzn´ ym hodnot´am znaku. To se dˇeje v pˇr´ıpadˇe, kdy znak nab´ yv´a nˇekter´ ych hodnot pˇr´ıliˇs zˇr´ıdka, takˇze je vhodn´e spojit v´ıce moˇzn´ ych hodnot. Souˇcty (mezisouˇcty) vˇsech hodnot v kaˇzd´em ˇra´dku, resp. sloupci nesou informaci o poˇctu v´ yskyt˚ u jev˚ u, pˇri nichˇz nabyl prvn´ı (resp. druh´ y znak) pˇr´ısluˇsn´e hodnoty bez ohledu na hodnotu druh´eho (resp. prvn´ıho) znaku. Kromˇe prost´eho popisu ˇcetnost´ı kombinac´ı hodnot dvou znak˚ u nab´ız´ı kontingenˇcn´ı tabulka moˇznost testovat, zda mezi obˇema znaky existuje nˇejak´ y vztah. K tomu lze uˇz´ıt napˇr. test dobr´e shody. Znaky uˇzit´e k zobrazen´ı v kontingenˇcn´ı tabulce pak mus´ı pˇredstavovat diskr´etn´ı hodnoty (je moˇzn´e tedy vyuˇz´ıt kvalitativn´ı, diskr´etnˇe kvantitativn´ı ˇci spojitˇe kvantitativn´ı znaky, v posledn´ım pˇr´ıpadˇe vˇsak pouze s rozdˇelen´ım jednotliv´ ych znak˚ u do skupin – tzv. skupinov´e tˇr´ıdˇen´ı). Teoretick´ ym z´akladem kontingenˇcn´ıch tabulek jsou matice pravdˇepodobnost´ı pro dvourozmˇern´e n´ahodn´e vektory. Kontingenˇcn´ı tabulka 1 ... c Σ 1 n11 . . . n1c n1• 2 n21 . . . n2c n2• ... ... ... ... ... r nr1 . . . nrc nr• Σ n•1 n•2 n•c n Matice pravdˇepodobnost´ı 1 ... c Σ 1 p11 . . . p1c p1• 2 p21 . . . p2c p2• ... ... ... ... ... r pr1 . . . prc pr• Σ p•1 p•2 p•c 1 Necht’ n´ahodn´ y vektor X = (X1 , X2 ) m´a diskr´etn´ı rozdˇelen´ı, pˇriˇcemˇz veliˇcina X1 nab´ yv´a hodnot i = 1, 2, . . . , r a veliˇcina X2 nab´ yv´a hodnot j = 1, 2, . . . , s. Oznaˇcme X X pij = P (X1 = i, X2 = j) ; pi• = pij ; p•j = pij . j
i
Pˇredpokl´adejme, ˇze se uskuteˇcnil n´ahodn´ y v´ ybˇer rozsahu n z tohoto rozdˇelen´ı. Necht’ nij je poˇcet tˇech pˇr´ıpad˚ u, kdy se ve v´ ybˇeru vyskytla dvojice (i, j). N´ahodn´e veliˇciny nij maj´ı pak sdruˇzen´e multinomick´e rozdˇelen´ı s parametrem n a s pravdˇepodobnostmi pij . Matice (pij )i=1,2,...,r;j=1,2,...,s se naz´ yv´a matice pravdˇepodobnost´ı a matice (nij )i=1,2,...,r;j=1,2,...,s tvoˇr´ı z´aklad kontingenˇcn´ı tabulky. Oznaˇcme X X ni• = nij ; n•j = nij . j
i
ˇ ısl˚ C´ um pi• a p•j se ˇr´ık´a margin´aln´ı pravdˇepodobnosti a hodnot´am ni• a n•j margin´aln´ı ˇcetnosti. 2
Nam´ısto dvou znak˚ u lze sledovat obecnˇe libovoln´e mnoˇzstv´ı znak˚ u. Kontingenˇcn´ı tabulka se pak tvoˇr´ı pomoc´ı stejn´eho principu (v kaˇzd´em pol´ıˇcku je poˇcet v´ yskyt˚ u kombinac´ı urˇcit´ ych hodnot jednotliv´ ych znak˚ u), avˇsak nen´ı jiˇz moˇzn´e ji tak snadno zn´azornit. Ve v´ıcerozmˇern´e tabulce lze testovat mnohem v´ıc typ˚ u z´avislost´ı mezi jednotliv´ ymi znaky, testov´an´ı je vˇsak technicky mnohem komplikovanˇejˇs´ı neˇz u dvojrozmˇern´e tabulky. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V programu Excel m´ame moˇznost vytvoˇrit kontingenˇcn´ı tabulku pomoc´ı pˇr´ıkazu . ................................................................................................ .
9.2.1
Testy nez´ avislosti
Nejˇcastejˇs´ı u ´lohou pˇri anal´ yze kontingenˇcn´ıch tabulek, je probl´em testov´an´ı nez´avislosti. Vzhledem k tomu, ˇze dvˇe veliˇciny X, Y jsou nez´avisl´e pr´avˇe tehdy, kdyˇz plat´ı pij = pi• · p•j pro vˇsechna i, j, formulujeme nulovou hypot´ezy testu nez´avislosti v kontingenˇcn´ı tabulce ve tvaru H0 : pij = pi• · p•j , Testovac´ı krit´erium m´a tvar 2
χ =
i = 1, 2, . . . , r, j = 1, 2, . . . , s ni• n•j 2 n ni• n•j n
r X s X nij − i=1 j=1
a pˇri platnosti nulov´e hypot´ezy ma asymptoticky rozdˇelen´ı χ2 , jehoˇz poˇcet stupˇ n˚ u volnosti je roven ν = rs − (r + s − 2) = (r − 1)(s − 1). Pokud hodnota testovac´ıho krit´eria χ2 ≥ χ2(r−1)(s−1) (α). zam´ıt´ame hypot´ezu o nez´avislosti veliˇcin ni• n•j X a Y . Ke shodˇe s limitn´ım rozdˇelen´ım se poˇzaduje, aby teoretick´e ˇcetnosti byly vˇetˇs´ı neˇz n 5. Nen´ı-li tato podm´ınka splnˇena, je nutno slouˇcit nˇekter´e sloupce, pˇr´ıpadnˇe ˇr´adky v kontingenˇcn´ı tabulce. Analogicky postupu pro test nez´avislosti v kontingenˇcn´ı lze postupovat v pˇr´ıpadˇe testov´an´ı homogenity multinomick´eho rozdˇelen´ı. Tento pˇr´ıstup uplatn´ıme v okamˇziku, kdy margin´aln´ı ˇra´dkov´e ˇcetnosti jsou pevnˇe stanoveny a i − t ˇra´dek v kontingenˇcn´ı tabulce m´a multinomick´e rozdˇelen´ı s parametry ni• , qi1 , qi2 , . . . , qis , kde qi1 , qi2 , . . . jsou nˇejak´e pravdˇepodobnosti splˇ nuj´ıc´ı podm´ınku qi1 +qi2 +· · ·+qis = 1. Hypot´eza homogenity pak ˇr´ık´a, ˇze pravdˇepodobnosti qi1 , qi2 , . . . nez´avis´ı na ˇr´adkov´em indexu i. Testovac´ı krit´erium a kritick´e hodnoty jsou pro tento test identick´e s veliˇcinami pro test nez´avislosti.
9.3
ˇ rpoln´ı tabulky Ctyˇ
je-li r = s = 2 dost´av´ame ˇctyˇrpoln´ı kontingenˇcn´ı tabulku n´asleduj´ıc´ıho tvaru n11 n21 n•1
n12 n22 n•2
3
n1• n2• n
Testovac´ı krit´erium pro test nez´avislosti a test homogenity v t´eto ˇctyˇrpoln´ı tabulce m´a tvar χ2 = n
(n11 n22 − n12 n21 )2 n•1 n•2 n1• n2•
a pro ovˇeˇren´ı platnosti nulov´e hypot´ezy ji porovn´av´ame s kritickou hodnotou χ2ν=1 (α) chi kvadr´at rozdˇelen´ı se stupni volnosti 1. n11 Jin´ y pohled na ˇctyˇrpoln´ı kontingenˇcn´ı tabulku je zaloˇzen na pomˇeru ˇsanc´ı. Oznaˇcme s1 = n12 n21 ˇsanci mezi Y = y1 a Y = y2 pˇri platnosti X = x1 a s2 = ˇsanci mezi Y = y1 a Y = y2 pˇri platnosti n22 s1 oznaˇc´ıme b a plat´ı X = x2 , pak pomˇer tˇechto ˇsanc´ı s2 b= Protoˇze
n11 n22 . n12 n21
nij je odhadem pravdˇepodobnosti pij je pomˇer ˇsanc´ı b odhadem teoretick´eho pomˇeru ˇsanc´ı n p11 p22 β= . p12 p21
Ve ˇctyˇrpoln´ı tabulce je β = 1 pr´avˇe tehdy, kdyˇz pij = pi• · p•j a z´avislost znak˚ u X a Y bude t´ım vˇetˇs´ı, ˇc´ım v´ıce se bude vzd´alen od 1. Dˇr´ıve se pro pomˇer ˇsanc´ı b resp. teoretick´ y pomˇer ˇsanc´ı β pouˇz´ıval t´eˇz term´ın interakce, dnes je tento term´ın pouˇz´ıv´an v logaritmicko-line´arn´ıch modelech v jin´em v´ yznamu. Nesymetrie hodnot β kolem bodu jedna vedla zˇrejmˇe k tomu, ˇze se t´emˇeˇr v´ yhradnˇe pouˇz´ıv´a logaritmick´a transformace hodnot b a β, kter´a se obvykle oznaˇcuje d = ln b
δ = ln β.
Pro testy pouˇz´ıv´ame veliˇcinu kter´a m´a pˇri platnosti nez´avislosti asymptoticky normovan´e norm´aln´ı rozdˇelen´ı N (0; 1). Tato vlastnost n´am umoˇzn ˇuje testovat t´eˇz jednostrann´e alternativn´ı hypot´ezy typu δ < 0, resp. δ > 0. 9.3.1
Fisher˚ uv faktori´ alov´ y test
9.3.2
McNemar˚ uv test
9.4
ˇ Ctvercov´ a kontingenˇ cn´ı tabulka
9.4.1
Testy symetrie
9.4.2
Testy homogenity margin´ aln´ıch pravdˇ epodobnost´ı
9.5
Kontingenˇ cn´ı koeficienty
Kontingenˇcn´ı koeficienty mˇeˇr´ı s´ılu (tˇesnost, intenzitu) z´avislosti dvou ordin´aln´ıch promˇenn´ ych. Nejuˇz´ıvanˇejˇs´ı kontingenˇcn´ı koeficienty jsou zaloˇzeny na porovn´an´ı sdruˇzen´ ych ˇcetnost´ı nij s hypotetick´ ymi 4
(oˇcek´avan´ ymi) sdruˇzen´ ymi ˇcetnostmi oij = pij · n , odr´aˇzej´ıc´ımi pˇredstavu o nez´avislosti obou promˇenn´ ych. Analogicky jako v kontingenˇcn´ıch tabulk´ach, pokud jsou rozd´ıly skuteˇcn´ ych a oˇcek´avan´ ych sdruˇzen´ ych ˇcetnost´ı relativnˇe mal´e, naznaˇcuj´ı slabou z´avislost obou promˇenn´ ych. Z relativnˇe velk´ ych rozd´ıl˚ u lze naopak usuzovat na z´avislost silnou. K mˇeˇren´ı s´ıly z´avislosti se nejˇcastˇeji uˇz´ıvaj´ı Cram´er˚ uv kontingenˇcn´ı koeficient a Pearson˚ uv kontingenˇcn´ı koeficient.
9.6
Korelaˇ cn´ı koeficienty
Korelaˇcn´ı koeficienty se nejˇcastˇeji pouˇz´ıvaj´ı k mˇeˇren´ı s´ıly (tˇesnosti) z´avislosti dvou ˇc´ıseln´ ych promˇenn´ ych. Pearson˚ uv korelaˇcn´ı koeficient rxy je definov´am vztahem Spearman˚ uv korelaˇcn´ı koeficient rs mˇeˇr´ı z´avislost dvou poˇrad´ı.
9.7
Regresn´ı anal´ yza
Regrese je snad neˇcastˇeji pouˇz´ıvan´a statistick´a metoda. Regrese se zab´ yv´a probl´emem vysvˇetlen´ı zmˇen jedn´e n´ahodn´e veliˇciny (vysvˇetlovan´a, z´avisl´a , endogenn´ı promˇenn´a, regresand) na jedn´e nebo v´ıce jin´ ych veliˇcin´ach (regresory, vysvˇetluj´ıc´ı promˇenn´e, exogenn´ı promˇenn´e). V pˇr´ıpadˇe, ˇze z´avislost je pops´ana line´arn´ımi vztahy, mluv´ıme o line´arn´ım regresn´ım modelu. Pokud modelujeme chov´an´ı vysvˇetloven´e promˇenn´e pomoc´ı jedn´e vysvˇetluj´ıc´ı promˇenn´e, mluv´ıme o jednoduch´e regresi, v opaˇcn´em pˇr´ıpadˇe se jedn´a o regresi v´ıcen´asobnou. Oznaˇcme X nez´avisle promˇenn´e a Y z´avislou promˇennou. Regresn´ı funkc´ı se pak rozum´ı µ(x) = E (Y |X = x) . Regresn´ı funkce tedy ud´av´a, jak´a je stˇredn´ı hodnota n´ahodn´e veliˇciny Y pˇri dan´e hodnotˇe x. 9.7.1
Jednorozmˇ ern´ y line´ arn´ı regresn´ı model y = β0 + β1 x + ε
Pˇredpokl´adejme, ˇze m´ame k dispozici xi , i = 1, 2, . . . , n pevn´ ych (nen´ahodn´ ych) hodnot promˇenn´e X. Pˇredpokl´adejme, ˇze plat´ı yi = f (xi , β0 , β1 , . . . , βk ) + εi kde • β0 , β1 . . . , βk jsou nezn´am´e parametry modelu; • εi jsou n´ahodn´e veliˇciny, kter´ y modeluj´ı nesystematick´e chyby mˇeˇren´ı; • yi jsou realizace n´ahodn´e veliˇciny Y s podm´ınkami X = xi . C´ılem regresn´ı anal´ yzy je odhadnout parametry β0 , β1 . . . , βk tak, aby f (xi , βb0 , βb1 , . . . , βbk ) co nej” v´ıce odpov´ıdala k empiricky namˇeˇren´ ym hodnot´am yi“. Funkce yi = f (xi , β0 , β1 , . . . , βk ) se naz´ yv´a teoretick´a regresn´ı funkce z´avislosti promˇenn´e y na x, jej´ı grafick´e vyj´adˇren´ı se naz´ yv´a teoretick´a regresn´ı kˇrivka. Regresn´ı funkce, v n´ıˇz jsou nahrazeny nezn´am´e parametry β jejich odhady βb (resp. b) se naz´ yv´a empirick´a regresn´ı funkce a jej´ı grafick´e obraz je empirick´a regresn´ı kˇrivka. 5
Pro hodnoty xi m˚ uˇzeme na z´akladˇe empirick´e regresn´ı kˇrivky urˇcit hodnotu ybi = f (xi , βb0 , βb1 , . . . , βbk ), tyto hodnoty naz´ yv´ame vyrovnan´ ymi hodnotami yi a rozd´ıl mezi yi − ybi naz´ yv´ame rezidua (znaˇc´ıme ei ). Regresn´ı funkce se naz´ yv´a line´arn´ı, je-li line´arn´ı funkc´ı nezn´am´ ych parametr˚ u, tj. pokud yi = β0 + β1 · ϕ1 (x) + β2 · ϕ2 (x) + · · · + βk · ϕk (x) kde ϕ1 (x), ϕ2 (x), . . . , ϕk (x) jsou funkce promˇenn´e x. Pˇr´ıkladem line´arn´ıch regresn´ıch model˚ u jsou pˇ r´ımkov´ a regrese tvaru yi = β0 + β1 · xi + εi kvadratick´ a regrese tvaru yi = β0 + β1 · xi + β2 · x2i + εi polynomick´ a regrese tvaru yi = β0 + β1 · xi + β2 · x2i + · · · + βk · xki + εi hyperbolick´ a regrese tvaru yi = β0 + β1 · 9.7.2
1 + εi xi
Metoda nejmenˇ s´ıch ˇ ctverc˚ u
Princip metody nejmenˇs´ıch ˇctverc˚ u je zaloˇzen na jednoduch´em volbˇe optimalizaˇcn´ıho krit´eria, kdy minimalizuji kvadr´at odchylek namˇeˇren´ ych yi a vyrovnan´ ych hodnot ybi . Y
(xi , yi )
! !! ! ! !! ! ! !! ! ! • !! ! (x , y b ) ! i i • !!! ! ! !! !!
•
•
X
Oznaˇcme funkci Q(β0 , β1 , β2 , . . . , βk ) =
n X
(yi − f (xi , β0 , β1 , β2 , . . . , βk ))2 .
i=1
ˇ LSQ) hled´ame hodnoty b0 , b1 , b2 , . . . , bk , ve kter´ Pˇri metodˇe nejmenˇs´ıch ˇctverc˚ u (MNC, ych je funkce argmin Q minim´aln´ı, tj. b0 , b1 , . . . , bk = Q (β0 , β1 , . . . , βk ) . β0 ,β1 ,...,βk
V pˇr´ıpadˇe line´arn´ı regresn´ı funkce m´a kriteri´aln´ı funkce Q tvar Q(β0 , β1 , . . . , βk ) =
n X
(yi − β0 − β1 · ϕ1 (xi ) − · · · − βk · ϕk (xi ))2
i=1
6
a tato funkce nab´ yv´a sv´eho minima v bodech, kdy derivace je rovna nule, tj. pˇri hled´an´ı minima ˇreˇs´ıme soustavu k + 1 line´arn´ıch rovnic tvaru ∂Q =0 pro j = 0, 1, 2, . . . , k ∂βj βj =bj Soustava norm´aln´ıch rovnic m´a tedy tvar n X +b1 · ϕ1 (xi )
b0 · n b0 ·
n X
ϕ1 (xi )
i=1
i=1 n X
+b1 ·
n X
+ · · · + bk ·
i=1 n X
ϕ1 (xi )ϕ1 (xi ) + · · · + bk ·
i=1
ϕk (xi )
=
ϕ1 (xi )ϕk (xi ) =
n X i=1 n X
i=1
yi ϕ1 (xi )yi
i=1
... b0 ·
n X i=1
9.7.3
ϕk (xi )
n X +b1 · ϕk (xi )ϕ1 (xi ) + · · · + bk ·
n X
i=1
ϕk (xi )ϕk (xi ) =
n X
i=1
ϕk (xi )yi
i=1
Pˇ r´ımkov´ a regrese
Uvaˇzujme tento z´akladn´ı jednoduch´ y model Yi = β0 + β1 xi + εi . n X Derivace funkce Q(β0 , β1 ) (yi − β0 − β1 · xi )2 maj´ı tvar i=1
b0 · n b0 ·
n X
+b1 ·
n X
i=1 n X
+b1 ·
xi
i=1
xi
=
(xi )2
=
i=1
n X i=1 n X
yi xi y i
i=1
a ˇreˇsen´ım v´ yˇse uveden´ ych soustav dost´av´ame n P
b0 =
n P
yi
i=1
(xi )2 −
i=1
n
n P
n P i=1
2
(xi ) −
i=1
n
n P
n
n P
n P
n P
xi y i
i=1 2
xi
i=1
xi y i −
i=1
b1 =
xi
n P
xi
i=1 2
(xi ) −
i=1
n P
yi 2 .
i=1 n P
xi
i=1
Nyn´ı uvedeme nˇekolik vlastnost´ı empirick´e regresn´ı pˇr´ımky odhadnut´e metodou nejmenˇs´ıch ˇctverc˚ u. 1. Jestliˇze ch´apeme pevnˇe namˇeˇren´e hodnoty xi jako realizace n´ahodn´e veliˇciny X, lze koeficient b1 vyj´adˇrit jako pod´ıl v´ ybˇerov´e kovariance sx y a v´ ybˇerov´eho rozptylu nez´avisle promˇenn´e s2x
7
n P
−
i=1
sx y b1 = 2 = sx
n n P
n P
xi yi
2
(xi )
i=1
n
xi
i=1
n n
P
n P
yi
i=1
n xi
2
− i=1n
kde n
• sxy
n
•
s2x
n
1X 1X = (xi − x) (yi − y) = xi yi − x y = xy − x y n i=1 n i=1 n
1X 1X = (xi − x)2 = (xi )2 − (x)2 n i=1 n i=1
2. Koeficient b0 lze vyj´adˇrit jako b0 = (y − b1 x) 3. Pro empirickou regresn´ı pˇr´ımku plat´ı yb = b0 + b1 x = (y − b1 x) + b1 x = y + b1 (x − x) sxy yb = y + 2 (x − x) xx tj. empirick´a regresn´ı pˇr´ımka proch´az´ı bodem [x; y] 4. Pˇredpokl´adejme, ˇze pro vˇsechna i plat´ı xi 6= x pak P (xi − x) (yi − y) X (xi − x)2 (yi − y) X = = wi tgαi b1 = i P P 2 2 (x − x) (x − x) (x − x) i j j j j i i kde (xi − x)2 • v´aha wi je P 2; j (xj − x) • u ´hel αi je u ´hel, kter´ y s vodorovnou osou sv´ır´a pˇr´ımka spojuj´ıc´ı body (xi , yi ) a (x, y) Tedy koeficient smˇernice regresn´ı pˇr´ımky je v´aˇzen´ y pr˚ umˇerem smˇernic pˇr´ımek, kter´e proch´az´ı bodem (xi , yi ) a teˇziˇstem bod˚ u (x, y) . 5. Sdruˇzen´ı regresn´ı pˇr´ımky jsou pˇr´ımky tvaru yi = b0 + b1 xi a xi = a0 + a1 yi , tyto regresn´ı pˇr´ımky se prot´ınaj´ı v bodˇe [x; y] a jejich smˇernice sdruˇzen´ ych regresn´ıch pˇr´ımek m´a stejn´e znam´enko
8
Y
•
x b = a0 + a1 y
aa • aa aa a• aa a• • • aa aa • aa • aa • a
yb = b0 + b1 x
• X
Odhady parametr˚ u regresn´ı pˇr´ımky a sdruˇzen´e regresn´ı pˇr´ımky z´ısk´ame podle pˇredch´azej´ıc´ıch vztah˚ u sxy b0 = y − b 1 x b1 = 2 sx a1 =
sxy s2y
a0 = x − a1 y
´ Uhel, kter´ y sv´ıraj´ı sdruˇzen´e regresn´ı pˇr´ımky • pokud X a Y jsou line´arnˇe nez´avisl´e, pak sxy = 0 b=x – regresn´ı pˇr´ımky maj´ı tvar yb = y a x π – a sv´ıraj´ı u ´hel α = 2 • pokud X a Y jsou deterministicky line´arnˇe z´avisl´e (Y = AX + B), pak s2y = A2 s2x , sxy = As2x – regresn´ı pˇr´ımky maj´ı tvar yb = y + A (x − x) a x b=x+
1 (y − y) A
– a sv´ıraj´ı u ´hel α = 0, tj. pˇr´ımky spl´ yvaj´ı • pokud X a Y jsou stochasticky line´arnˇ e z´avisl´e, pak regresn´ı pˇr´ımky sv´ıraj´ı b1 − a1 u ´hel α takov´ y, ˇze tg(α) = 1 − a1 · b1 9.7.4
V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ε a jeho maticov´ y z´ apis
Pro v´ıcerozmˇern´ y line´arn´ı model je vhodn´e pouˇz´ıt maticov´ y z´apis modelu y1 x(0)1 x(1)1 . . . x(k)1 β0 1 y2 x(0)2 x(1)2 . . . x(k)2 β2 2 .. = .. .. .. .. + .. . . . . . . . . . yn
x(0)n x(1)n . . . x(k)n 9
βk
n
• y = (y1 , y2 , . . . , yn )T je vektor namˇeˇren´ ych hodnot vysvˇetlovan´e promˇenn´e • X = x(i)j j=1,...,n; i=0,...,k je matice typu n × (k + 1) namˇeˇren´ ych hodnot vysvˇetluj´ıc´ıch promˇenn´ ych • β = (β0 , β2 , . . . , βk )T je vektor hledan´ ych k + 1 nezn´am´ ych parametr˚ u • = (1 , 2 , . . . , n )T je vektor n´ahodn´e sloˇzky Stejnˇe jako v jednorozmˇern´em pˇr´ıpadˇe mus´ıme specifikovat pˇredpoklady ˇreˇsen´ı modelu pomoc´ı metody nejmenˇs´ıch ˇctverc˚ u • E () = 0 • E T = σ 2 I n • X je nestochastick´a matice, takˇze E X T = 0 • X m´a plnou hodnost k + 1 = p Za v´ yˇse uveden´ ych pˇredpoklad˚ u pak nezn´am´e parametry modelu β0 , β1 , . . . , βk , σ 2 odhadneme n´asledovnˇe −1 T • b = XT X X y eT e (y − Xb)T (y − Xb) 2 = • s = n−p n−p 9.7.5
Kvalita regresn´ı funkce a intenzita z´ avislosti
Jedn´ım z d˚ uleˇzit´ ych krok˚ u v regresn´ı anal´ yze je tzv. regresn´ı diagnostika. Ta slouˇz´ı k hodnocen´ı kvality regresn´ı funkce a k ovˇeˇrov´an´ı splnˇen´ı pˇredpoklad˚ u pouˇzit´e metody nejmenˇs´ıch ˇctverc˚ u. V r´amci metody nejmenˇs´ıch ˇctverc˚ u pracujeme s n´asleduj´ıc´ımi souˇcty ˇctverc˚ u, resp. rozptyly, kter´e v sobˇe zahrnuj´ı variabilitu empirick´ ych hodnot, odhadnut´ ych teoretick´ ych hodnot a residu´ı. • celkov´ y souˇcet ˇctverc˚ u ST2 =
n X
(yi − y)2
i=1
rozptyl empirick´ ych (skuteˇcnˇe zjiˇstˇen´ ych) hodnot s2y =
• vysvˇetlen´ y souˇcet ˇctverc˚ u
SV2
=
n X
(ybi − y)2
i=1
rozptyl vyrovnan´ ych (teoretick´ ych) hodnot s2yb =
10
SV2 n−1
ST2 n−1
T
• residu´aln´ı souˇcet ˇctverc˚ u RSS = e e =
n X
2
e =
i=1
n X
(yi − ybi )2
i=1
rozptyl skuteˇcnˇe zjiˇstˇen´ ych hodnot kolem regresn´ı ˇca´ry, RSS 2 , kde p = k + 1 residu´aln´ı rozptyl sR = n−p Pˇri pouˇzit´ı metody nejmenˇs´ıch ˇctverc˚ u plat´ı ST2 = SV2 + RSS. Pˇri pˇr´ımkov´e regresi (k = 1) plat´ı s2y = s2yb + s2R Graficky jsou jednotliv´e odchylky zn´azornˇeny na obr´azku Y
• yb
y
• • • yi − yb • yb − y • yi − y • • •
• 9.7.6
X
x
Koeficient (index) determinace pro v´ıcen´ asobnou regresi s absolutn´ım ˇ clenem
Ze vztahu jednotliv´ ych souˇct˚ u ˇctverc˚ u je odvozen koeficient R2 . Tento koeficient vyjadˇruje z kolika ” procent se n´am podaˇrilo vysvˇetlit veliˇcinu y pomoc´ı veliˇcin x1 , x2 , . . .“. R2 =
SV2 RSS (n − p) s2R = 1 − = 1 − ST2 ST2 (n − 1) s2y
Pro koeficient determinace plat´ı n´asleduj´ıc´ı vlastnosti • R2 ∈ h0; 1i • pokud x a y jsou deterministicky z´avisl´e, pak yi = ybi a s2R = 0, s2y = s2yb, tedy R2 = 1 • pokud x a y jsou nez´avisl´e, pak s2V = 0, s2y = s2R , tedy R2 = 0 √ • koeficient (index) korelace R = R2
11
– pro pˇr´ımkovou regresi plat´ı ybi = y + b1 (xi − x), kde b1 = s2yb R2 = 2 = sy
1 n−1
n P i=1
(ybi − y)2 s2y
b1 =
1 n−1
n P
(xi − x)2
i=1
s2y
=
sxy , pak s2x
s2xy s2x s2xy = s2x s2x s2y s2x s2y
– tedy koeficient korelace R = |rx y | odpov´ıd´a v´ ybˇerov´emu korelaˇcn´ımu koeficientu n´ahodn´eho vektoru (x, y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Regresn´ı anal´yza v Excelu • funkce LINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT), kde DATA-Y je z´ avisl´a promˇenn´a DATA-X1;DATA-X2;. . . ;DATA-XN jsou nez´avisl´e promˇenn´e, B =PRAVDA - parametr β − 0 se odhaduje, NEPRAVDA - parametr β − 0 se neodhaduje (rovnice proch´az´ı nulou), STAT=PRAVDA - poˇc´ıtaj´ı se doplˇ nuj´ıc´ı charakteristiky modelu (SE − i;R2 ;SE − y;F;df;ss(reg);ss(resid)) • funkce LINTREND (DATA-Y;DATA-X;DATA-X-NOVA;B), kde DATA-Y je z´avisl´a promˇenn´a, DATAX jsou nez´avisl´e promˇenn´e, DATA-X-NOVA je nez´avisl´a promˇenn´a, nov´a ( napˇr´ıklad pokraˇcov´an´ı data-x) B =PRAVDA - parametr β − 0 se odhaduje, NEPRAVDA - parametr β − 0 se neodhaduje • funkce FORECAST (X;DATA-Y;DATA-X) pro odhad y(X) na z´akladˇe znalost´ı DATA-X a DATA-Y • funkce INTERCEPT (DATA-Y;DATA-X) pro odhad β − 0 na z´akladˇe znalost´ı DATA-X a DATA-Y • funkce SLOPE (DATA-Y;DATA-X) pro odhad parametru beta − 1 line´arn´ı regrese • funkce STEYX (DATA-Y;DATA-X) pro standardn´ı chybu odhadu y • funkce LOGLINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT) pro logaritmick´y regresn´ı model • z grafu : vytvoˇrit XY graf a pˇridat spojnici trendu ´ ´ • pomoc´ı NASTROJE=>ANAL YZA DAT=>REGRESE Dalˇs´ı v´ıcerozmˇern´e metody a grafy lze v Excelu naprogramovat. . ................................................................................................ .
12
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Zpracov´an´ı v´ıcerozmˇern´ych statistick´ych dat v MATLABu • Grafick´e zpracov´an´ı a z´akladn´ı deskriptivn´ı statistiky – boxplot – v´ıcerozmˇern´y histogram hist3 – plotmatrix – gscatter – gplotmatrix – souhrnn´e statistiky [means,sem,counts,name]=grpstats(data,data(:,2)) – korelace a kovariance corr, corrcoef, cov • Regresn´ı anal´yza – maticovˇe b = X T X
−1
X T y, atd
– funkce [b,bint,r,rint,stats] = regress(y,X,alpha) – regresn´ı diagnostika a grafy - rcoplot – robusn´ı odhady - robustfit Lze vyuˇz´ıt t´eˇz dalˇs´ı n´astroje pro v´ıcerozmˇernou anal´yzu -ANOVA, MANOVA, shlukov´a anal´yza - cluster analysis, metoda hlavn´ıch komponent, faktorov´a anal´yza atd. . ................................................................................................ .
13