Prost´ a regresn´ı a korelaˇ cn´ı anal´ yza
1
ˇ ˇc´ıslo 1145/2004. Tyto materi´ aly byly vytvoˇreny za pomoci grantu FRVS
1
Problematika z´ avislosti V podstatˇe lze rozliˇsovat mezi z´avislost´ı nepodstatnou, ˇcili n´ahodnou a z´avislosti pˇr´ıˇcinnou ˇcili kauz´aln´ı. V pˇr´ıpadˇe kauz´aln´ı z´avislosti lze odliˇsit z´avislost jednostrannou a z´avislost oboustrannou. Dle sloˇzitosti m˚ uˇzeme rozliˇsovat jednoduˇsˇs´ı formy pˇr´ıˇcinn´e, tedy kauz´aln´ı z´avislosti a sloˇzitˇejˇs´ı formy kauz´aln´ı z´avislosti. Z hlediska statistick´a teorie pak rozliˇsujeme dva typy z´avislost´ı. Prvn´ım z nich je tzv. statistick´a z´avislost. Tu lze popsat n´asleduj´ıc´ım zp˚ usobem.Sledujemeli statistick´e znaky y, x1 , x2 , · · · , xp a mˇen´ı-li se urˇcit´ ym zp˚ usobem podm´ınˇen´e rozdˇelen´ı znaku y pˇri zmˇen´ach x1 , x2 , · · · , xp , pak mluv´ıme o statistick´ e z´ avislosti znaku y na x1 , x2 , · · · , xp . Speci´aln´ım typem t´eto statistick´e z´avislosti je tzv. korelaˇ cn´ı z´ avislost, pˇri kter´e se mˇen´ı podm´ınˇen´e stˇredn´ı hodnoty znaku y.
C´ıle regresn´ı a korelaˇ cn´ı anal´ yzy C´ıle regresn´ı a korelaˇcn´ı anal´ yzy lze spatˇrovat ve dvou hlavn´ıch bodech: • ve vystiˇzen´ı smˇeru korelaˇcn´ı z´avislosti. T´ım odpov´ıd´ame na ot´azku, jak se zmˇen´ı z´avisle promˇenn´a, jestliˇze zmˇen´ıme nez´avisle promˇennou o jednotku. Smˇer korelaˇcn´ı z´avislosti vyjadˇrujeme pomoc´ı regresn´ı ˇc´ary. Ta je spojnic´ı vyrovnan´ ych hodnot z´avisle promˇenn´e, odpov´ıdaj´ıc´ım hodnot´am nez´avisle promˇenn´e. Statistick´e metody, kter´e ˇreˇs´ı tento u ´kol, shrnujeme pod spoleˇcn´ y n´azev regresn´ı anal´ yza. • v posouzen´ı toho, do jak´e m´ıry jsou pozorovan´e hodnoty v bl´ızk´em okol´ı regresn´ı ˇc´ary, ˇci zda se pozorovan´e hodnoty od regresn´ı ˇc´ary znaˇcnˇe vzdaluj´ı. ˇ ım jsou pozorovan´e hodnoty bl´ıˇze k regresn´ı ˇc´aˇre, t´ım dan´a regresn´ı C´ ˇc´ara poskytuje hodnotnˇejˇs´ı odhad, a naopak, ˇc´ım se pozorovan´e hodnoty v´ıce odchyluj´ı od regresn´ı ˇc´ary, t´ım je mezi promˇenn´ ymi menˇs´ı statistick´a z´avislost. Odhady poˇr´ızen´e na z´akladˇe takov´eto regresn´ı ˇc´ary jsou pak m´enˇe hodnotn´e. Shrneme-li v´ yˇse uveden´e, lze ˇr´ıci, ˇze dalˇs´ım u ´kolem korelaˇcn´ı a regresn´ı anal´ yzy je posouzen´ı tˇesnosti korelaˇcn´ı z´avislosti. Podstatou je tedy posouzen´ı variability pozorovan´ ych hodnot kolem regresn´ı ˇc´ary. Tento probl´em ˇreˇs´ı korelaˇcn´ı anal´ yza.
Z´ avisle promˇ enn´ a × nez´ avisle promˇ enn´ a Znak y naz´ yv´ame vysvˇetlovanou nebo z´avisle promˇennou, znaky x1 , x2 , · · · , xp vysvˇetluj´ıc´ımi nebo nez´avisle promˇenn´ ymi.
Prost´ a line´ arn´ı regrese Nejjednoduˇsˇs´ım modelem se kter´ ym se lze v regresn´ı anal´ yze setkat je prost´a line´arn´ı regrese. Jej´ım parametrick´ ym vyj´adˇren´ım je funkce y = α + βx, tedy rovnice pˇr´ımky. Zab´ yvejme se t´ımto modelem bl´ıˇze.
1
Pˇri regresn´ı anal´ yze se snaˇz´ıme naj´ıt nezn´am´e parametry α a β tak, aby v´ ysledn´ y (odhadnut´ y) model yˆ = a + bx co nejl´epe vystihoval n´ami pozorovan´e data. K odhadu nezn´am´ ych parametr˚ u, tzv. regresn´ıch koeficient˚ u zpravidla pouˇz´ıv´ame metodu nejmenˇs´ıch ˇctverc˚ u. Podstatou t´eto metody je minimalizace souˇctu ˇctverc˚ u rezidu´ı, tedy: n X S= (yi − yˆi )2 → min . (1) i=1
Pˇ redpoklady modelu • Stˇredn´ı hodnota rezidu´ı je nulov´a. Nebo-li E(²i ) = 0 • Rozptyl rezidu´ı je konstantn´ı pro vˇsechny pozorov´an´ı, tedy V ar(²i ) = σ 2 • Rezidua sleduj´ı norm´aln´ı rozdˇelen´ı ²i ∼ N (0, σ 2 ) • Jednotliv´e pozorov´an´ı z´avisl´e promˇenn´e yi jsou navz´ajem nez´avisl´e. V d˚ usledku toho pak i jednotliv´e ²i • Jednotliv´e u ´rovnˇe -hodnoty regresor˚ u jsou pevn´e, pokud jsou n´ahodn´e, pak jsou navz´ajem nez´avisl´e. • Funkce je line´arn´ı kombinac´ı regresn´ıch koeficient˚ u. Odhady a a b nezn´am´ ych regresn´ıch koeficient˚ u α a β jsou tedy urˇceny z podm´ınky: n X S= (yi − yˆi )2 → min , (2) i=1
kde po dosazen´ı za yˆi z´ısk´ame v pˇr´ıpadˇe fitov´an´ı modelu prost´e line´arn´ı regrese: n X
(yi − a − bxi )2 → min.
(3)
i=1
Nal´ezt minimum t´eto kvadratick´e funkce znamen´a poloˇzit parci´aln´ı derivace podle a a b nule a ˇreˇsit vzniklou soustavu rovnic. Po nˇekolika u ´prav´ach z´ısk´ame tzv. norm´aln´ı rovnice: Pn Pn naP+ b i=1 xP = Pi=1 yi i (4) n n n a i=1 xi + b i=1 x2i = i=1 xi yi . ˇ sen´ım soustavy rovnic lze z´ıskat vzorce pro v´ Reˇ ypoˇcet regresn´ıch koeficient˚ u: Pn Pn Pn Pn xi yi xi − i=1 yi i=1 x2i Pn a = i=1 Pn i=1 2 (5) ( i=1 x) − n i=1 x2i a b=
n
Pn Pn Pn x y − i=1 xi i=1 yi i=1 Pn i i 2 Pn . n i=1 xi − ( i=1 xi )2
(6)
Interpretace regresn´ıho koeficientu plyne pˇredevˇs´ım z toho, ˇze odhadnut´ y regresn´ı koeficient b je form´alnˇe smˇernic´ı regresn´ı pˇr´ımky. Ud´av´a tedy, jak velk´a bude zmˇena z´avisl´e y, zmˇen´ı-li se nez´avisle promˇenn´a x o jednotku. Kladn´a hodnota regresn´ıho koeficentu (b > 0) znamen´a, ˇze s r˚ ustem nez´avisle promˇenn´e poroste i hodnota z´avisle promˇenn´e. Z´aporn´a hodnota pak vyjadˇruje pokles z´avisle promˇenn´e pˇri r˚ ustu hodnot nez´avisle promˇenn´e. 2
Volba regresn´ı funkce Pˇri volbˇe regresn´ı funkce je nutn´e zn´at jej´ı z´akladn´ı vlastnosti, tj. zn´at jednotliv´e funkce, jejich analytick´e vyj´adˇren´ı, jejich pr˚ ubˇeh, definiˇcn´ı obor a obor hodnot. V prv´ e ˇ radˇ e m´ a regresn´ı model co nejl´ epe zobrazit re´ aln´ e vztahy mezi jevy a odr´ aˇ zet je v jejich podstatn´ ych rysech. Z tohoto d˚ uvodu je tˇreba vych´azet z posouzen´ı vˇecn´e podstaty zkouman´ ych jev˚ u a jejich souvislost´ı. V mnoha pˇr´ıpadech vˇsak nen´ı moˇzno volit regresn´ı funkci apriornˇe. Pak vol´ıme regresn´ı funkci na z´akladˇe posouzen´ı z´avislosti v pozorovan´ ych datech. Tento pˇr´ıstup vˇsak nemus´ı v´est k nalezen´ı regresn´ı funkce (probl´em mal´eho poˇctu pozorov´an´ı) vhodn´e pro popis z´avislosti v z´akladn´ım souboru. Pro empirick´e posouzen´ı z´avislosti je moˇzno pouˇz´ıt bodov´ y diagram nebo ˇc´aru podm´ınˇen´ ych pr˚ umˇer˚ u. Obvykle se vˇsak postupuje takto: • Vymez´ıme mnoˇzinu regresn´ıch funkc´ı - pokud moˇzno jednoduch´ ych • Urˇc´ıme odhady jednotliv´ ych regresn´ıch parametr˚ u pro jednotliv´e typy regresn´ıch funkc´ı • Na z´akladˇe r˚ uzn´ ych krit´eri´ı zkoum´ame kter´a z regresn´ıch funkc´ı nejl´epe vyhovuje empirick´ ym dat˚ um.
Regresn´ı modely Dle tvaru regresn´ı funkce lze rozliˇsovat r˚ uzn´e typy regresn´ıch model˚ u: • Modely line´arn´ı z hlediska parametr˚ u maj´ı regresn´ı funkci tvaru: yˆ = β0 + β1 f1 + β2 f2 + · · · + βp fp ,
(7)
kde regersory f jsou libovoln´e zn´am´e funkce vysvˇetluj´ıc´ıch promˇenn´ ych. Speci´aln´ım pˇr´ıpadem jsou modely typu: yˆ = β0 + β1 x1 + β2 x2 + · · · + βp xp ,
(8)
kde regresory jsou pˇr´ımo vysvˇetluj´ıc´ı promˇenn´e, tj. modely line´arn´ı z hlediska parametr˚ u i z hlediska vysvˇetluj´ıc´ıch promˇenn´ ych. Pˇr´ıkladem m˚ uˇzou b´ yt tyto modely: yˆ = β0 + β1 x (9) nebo hyperbolick´ y regresn´ı model yˆ = β0 + β1
1 x
(10)
yˆ = β0 + β1 log10 x
(11)
yˆ = β0 + β1 loge x
(12) 2
yˆ = β0 + β1 x + β2 x a samozˇrejmˇe mnoh´e dalˇs´ı . . . 3
(13)
• Modely neline´arn´ı jak v parametrech, tak vzhledem k vysvˇetluj´ıc´ım promˇenn´ ym, kter´e se vˇsak transformac´ı daj´ı pˇrev´est na line´arn´ı tvar z hlediska regresn´ıch parametr˚ u. Pˇr´ıkladem m˚ uˇze b´ yt mocninn´a funkce
nebo exponenci´aln´ı funkce
yˆ = αxβ
(14)
yˆ = αβ x
(15)
• Neline´arn´ı modely kter´e se nedaj´ı jednoduˇse transformovat na line´arn´ı tvar napˇr: yˆ = αβ x + γ (16)
Ot´ azka vhodnosti modelu Jedn´ım ze z´akladn´ıch krit´eri´ı pro posouzen´ı kvality regresn´ı funkce je tzv. souˇcet ˇctverc˚ u rezidu´ı, definovan´ y jako S=
n X
(yi − yˆi )2
(17)
i=1
Na z´akladˇe tohoto krit´eria d´av´ame pˇrednost tomu regresn´ımu modelu pro nˇejˇz nab´ yv´a tato statistika niˇzˇs´ı hodnoty. V pˇr´ıpadˇe, ˇze porovn´av´ame regresn´ı modely s r˚ uzn´ ym poˇctem regresn´ıch parametr˚ u, mus´ıme si uvˇedomit, ˇze u regresn´ı funkce s vˇetˇs´ım poˇctem parametr˚ u bude rezidu´aln´ı souˇcet ˇctverc˚ u niˇzˇs´ı neˇz u regresn´ı funkce s menˇs´ım poˇctem regresn´ıch parametr˚ u. Z tohoto d˚ uvodu vyuˇz´ıv´ame pro srovn´an´ı tzv. rezidu´aln´ı rozptyl definovan´ y jako S s2e = (18) n−p
Index determinace Dalˇs´ı velice d˚ uleˇzitou charakteristikou vhodnosti regresn´ı funkce je tzv. index determinace. Jeho konstrukce vych´az´ı z rozkladu souˇctu ˇctvercov´ ych odchylek hodnot vysvˇetlovan´e promˇenn´e od jejich aritmetick´eho pr˚ umˇeru n X (yi − y¯)2
(19)
i=1
na dvˇe sloˇzky. A to na souˇcet ˇctverc˚ u rezidu´ı: n X
(yi − yˆi )2
(20)
i=1
a na souˇcet ˇctvercov´ ych odchylek teoretick´ ych hodnot od aritmetick´eho pr˚ umˇeru n X (ˆ yi − y¯)2 i=1
4
(21)
Souˇcet ˇctvercov´ ych odchylek teoretick´ ych hodnot od pr˚ umˇeru pˇredstavuje tu ˇca´st souˇctu ˇctverc˚ u , kterou je moˇzno vysvˇetlit zvolenou regresn´ı funkc´ı. Pod´ıl Pn (ˆ yi − y¯)2 I 2 = Pi=1 (22) n ¯)2 i=1 (yi − y se naz´ yv´a index determinace. Tato m´ıra nab´ yv´a hodnot z uzavˇren´eho intervalu h0, 1i. Index determinace n´ am ud´ av´ a z kolika procent variabilita nez´ avisle promˇ enn´ e vysvˇ etluje variabilitu z´ avisle promˇ enn´ e.
Korelaˇ cn´ı koeficient Pro posuzov´an´ı vhodnosti regresn´ı funkce a tˇesnosti z´avislosti vysvˇetlovan´e promˇenn´e y na uvaˇzovan´ ych vysvˇetluj´ıc´ıch promˇenn´ ych se pouˇz´ıv´a tak´e druh´a odmocnina indexu determinace. Ta se naz´ yv´a index korelace (koeficient korelace). V pˇr´ıpadˇe prost´e line´arn´ı regrese jej lze definovat napˇr´ıklad takto: ryx =
cov(x, y) σx σy
(23)
Tato statistika vyjadˇruje stupeˇ n line´arn´ı statistick´e z´avislosti. Symbol cov(x, y) v ˇcitateli pˇredstavuje kovarianci promˇenn´ ych x a y. Ve jmenovateli pak vystupuje souˇcin smˇerodatn´ ych odchylek nez´avisle a z´avisle promˇenn´e.
5