9 REGRESE A KORELACE Slovo regrese obecně znamená pohyb zpět, ústup, návrat (regresivní = ustupující). Opačným termínem je progrese – pokrok, postup, šíření, růst. Pojem regrese byl do statistiky zaveden koncem 19. století britským učencem Francisem Galtonem v rámci spojení „regrese k průměru“. Tím označil fakt, že synové vysokých otců jsou obvykle nižší než jejich otcové, zatímco synové malých otců bývají vyšší. Z Galtonova výzkumu přenosu vlastností mezi generacemi se pak tento název rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza. Ta dnes patří k nejvýznamnějším metodám matematické statistiky a samostatně či ve spojení s jinými metodami se používá prakticky v každé oblasti empirické a aplikované vědy. Pod pojmem regrese tedy budeme rozumět vystižení charakteru závislosti mezi dvěma nebo více náhodnými veličinami (v případě více než dvou náhodných veličin jde o vícenásobnou regresi, tou se však v této kapitole zabývat nebudeme). Míru (intenzitu) takovéto závislosti pak určuje korelace. V praxi rozlišujeme dva typy závislostí mezi kvantitativními veličinami – funkční a stochastickou (volnou). Funkční závislost jsme z matematiky zvyklí zapisovat ve tvaru y f (x) , kde proměnná x bývá označována jako nezávislá (nebo taky vysvětlující) a proměnná y jako závislá (vysvětlovaná). Jako příklad funkční závislosti můžeme uvést vztah mezi poloměrem kruhu a jeho obsahem, kde po dosazení konkrétní hodnoty nezávislé proměnné (poloměru) do vzorečku, který máme k dispozici, dostaneme přesnou hodnotu závislé proměnné (obsahu). Častěji se však setkáváme s jiným typem závislostí. Víme například, že spotřeba automobilu závisí (mimo jiné) na rychlosti, jakou automobil jede. Nemáme však vzoreček, ze kterého bychom po dosazení konkrétní rychlosti (při jinak neměnných podmínkách) tuto spotřebu vypočetli. Můžeme se pokusit na základě naměřených hodnot takovýto vztah najít, nikdy však nebude platit úplně přesně. Takovéto závislosti se nazývají stochastické a právě ony jsou předmětem zkoumání regresní analýzy.
9.1 Aproximace metodou nejmenších čtverců Předpokládejme, že je dán soubor dvojic ( xi , yi ), i 1, 2, ..., n , představujících statistický soubor se dvěma statistickými znaky, jejichž vzájemnou závislost zkoumáme. Hodnoty yi si můžeme představit jako hodnoty, jejichž závislost na hodnotách xi lze vyjádřit vztahem yi Yi vi , kde Yi označuje determinovanou složku (tzn. tu, která je jednoznačně určená hodnotou xi) a vi náhodnou složku (kterou může být například chyba měření nebo méně podstatný vliv jiných veličin na proměnnou y). Hodnoty yi tedy můžeme považovat za jednotlivé realizace náhodné veličiny y Y ( x) v . Úkolem regrese (vyrovnání) argumentu y je nalézt vhodnou regresní funkci Y f (x) pro vyjádření determinované složky veličiny y. Konkrétní typ regresní funkce (lineární, kvadratická, …) zvolíme na základě grafického zobrazení dvojrozměrné náhodné veličiny (tzv. korelačního pole) a případných zkušeností z praxe, koeficienty zvolené regresní funkce pak určíme metodou nejmenších čtverců odchylek, kterou si nyní přiblížíme. Nechť zvolený typ regresní funkce obsahuje k koeficientů a1, a2, …, ak. Potom můžeme tuto funkci zapsat ve tvaru Y f ( x, a1 , a2 , ..., ak ) . Našim cílem je určit koeficienty a1, a2, …, ak
1
tak, aby se původní a vyrovnané hodnoty znaku y lišily co nejméně, přesněji, aby byl co nejmenší součet čtverců (tzn. druhých mocnin) odchylek vi yi Yi původních a vyrovnaných hodnot (odtud název metody). Velikost součtu čtverců odchylek závisí na koeficientech a1, a2, …, ak, je tedy jejich funkcí. Označme tuto funkci : n
n
i 1
i 1
n
(a1 ,..., ak ) vi2 yi Yi yi f ( xi , a1 ,..., ak ) 2 2
i 1
Tato funkce se nazývá kriteriální funkce a naším cílem je najít její minimum. Existence minima je zaručena, neboť funkce je nezáporná. Při jeho hledání postupujeme standardním způsobem. Položíme parciální derivace této funkce podle všech proměnných rovny nule, čímž dostáváme soustavu k rovnic o k neznámých a1, a2, …, ak: 0 a1 ……….
0 ak
Takovéto soustavě říkáme soustava normálních rovnic. Jejím řešením je stacionární bod funkce , který je zároveň jejím minimem. Toto řešení představuje nejvhodnější volbu konstant pro zvolený typ regresní funkce. Pro posouzení vhodnosti vypočtené regresní funkce můžeme použít buď součet čtverců n
odchylek
v i 1
2 i
(čím je menší, tím je aproximující funkce lepší) nebo charakteristiku zvanou
index korelace, definovanou vztahem 2
n n 2 n. Yi Yi i 1 i 1 I 2 n n 2 n. yi yi i 1 i 1 Hodnoty indexu korelace se pohybují v intervalu 0,1 , přičemž hodnoty blízké 1 znamenají, že daná regresní funkce „vystihuje“ skutečnou závislost mezi oběma znaky velice dobře, hodnoty blízké 0 naopak naznačují, že regresní funkce není vhodnou aproximací vztahu mezi argumenty. Jestliže za regresní funkci volíme funkci lineární, potom I | rxy | , kde rxy značí koeficient korelace definovaný v Kapitole 8. Druhé mocnině indexu korelace říkáme index determinace. Značí se 𝑅2 a udává, kolik procent rozptylu vysvětlované proměnné je vysvětleno regresním modelem (číslo 1 R 2 udává, jaký podíl na rozptylu y má náhodná složka v). Tento index rovněž nabývá hodnot od nuly do jedné, přičemž hodnoty blízké nule značí špatnou kvalitu regresního modelu, hodnoty blízké jedné dobrou.
9.2 Lineární regrese O lineární regresi hovoříme tehdy, je-li uvažovaná regresní funkce lineární vzhledem k parametrům a1, a2, …, ak. Může se tak jednat o funkci lineární, kvadratickou, hyperbolickou atd., pro názornost uvedeme odvození soustavy normálních rovnic u těch nejpoužívanějších.
2
Místo označení a1, a2, a3, … budeme pro koeficienty lineární kombinace používat běžnější označení a, b, c, …
Lineární funkce
Lineární funkce je velmi často používanou regresní funkcí. Použijeme ji v případě, kdy předpokládáme, že přírůstek závislé proměnné je přímo úměrný přírůstku nezávislé proměnné (jednotlivé body korelačního pole leží přibližně v přímce, viz Obr. 9.2.1). Obr. 9.2.1:
Těmito body se snažíme „proložit“ přímku tak, aby ze všech možných přímek tyto body „vyrovnávala“ co nejlépe (ve smyslu metody nejmenších čtverců), to znamená, aby jí příslušel co nejmenší součet čtverců odchylek původních a vyrovnaných hodnot, jak je znázorňuje Obr. 9.2.2. Obr. 9.2.2:
Regresní funkci tedy hledáme ve tvaru Y a bx . Kriteriální funkce má potom tvar: n
n
i 1
i 1
n
n
i 1
i 1
(a, b) vi2 yi Yi yi ( a bxi ) 2 ( yi a bxi ) 2 2
a soustavu normálních rovnic dostanu jejím derivováním podle proměnných a a b: n 0 2.( yi a bxi ).(1) a i1 n 0 2.( yi a bxi ).( xi ) b i1 Po úpravě dostáváme soustavu normálních rovnic ve tvaru:
3
n
n
yi a.n b xi i 1
i 1
n
yx
n
i 1
i 1
a xi b xi
i i
i 1
n
2
Do tohoto tvaru dosadíme za známé hodnoty xi a yi a vypočteme koeficienty a a b, čímž získáme rovnici hledané regresní přímky.
Kvadratická funkce
Důvodem pro volbu kvadratické funkce za regresní funkci bývá často existence extrému v oboru zkoumaných hodnot. V tomto případě vypadají regresní funkce, kriteriální funkce a soustava normálních rovnic takto:
Y a bx cx 2 , n
n
n
(a, b, c) vi2 [ yi Yi ]2 yi a bxi cxi2 i 1
i 1
i 1
( y n
2
i 1
i
a bxi cxi2 ) 2 ,
2. yi a bxi cxi2 . 1 a i1 n 0 2.yi a bxi cxi2 .( xi ) b i1 n 0 2. yi a bxi cxi2 .( xi2 ) , c i1 n
0
n
y i 1
n
i
n
a.n b xi c xi2 i 1
i 1
n
n
n
n
i 1 n
i 1 n
i 1 n
i 1 n
yi xi a xi b xi2 c xi3 yx i 1
2 i i
a xi2 b xi3 c xi4 i 1
i 1
i 1
Hyperbolická funkce
Hyperbolickou funkci používáme jako regresní funkci tehdy, pozorujeme-li asymptotické přibližování hodnot y k určité konstantě. Pro regresní funkci, kriteriální funkci a soustavu normálních rovnic zde platí tyto vztahy: Y a b/ x, n
n
n
n
(a, b) v [ yi Yi ] yi a b / xi ( yi a b / xi ) 2 , i 1 n
2 i
2
i 1
2
i 1
i 1
2.( yi a b / xi ).(1) a i1 n 0 2.( yi a b / xi ).(1 / xi ) , b i1
0
4
n
n
yi a.n b1 / xi i 1
i 1
n
n
n
i 1
i 1
i 1
yi / xi a1 / xi b1 / xi2
Logaritmická funkce
Logaritmickou funkci volíme v případě, že proměnná y s rostoucím x stále pomaleji, ale neustále roste (při b > 0), eventuálně klesá (při b < 0). Regresní funkce, kriteriální funkce a soustava normálních rovnic zde vypadají takto:
Y a b log x , n
n
n
n
i 1 n
i 1
i 1
i 1
(a, b) vi2 [ yi Yi ]2 yi a b log xi 2 ( yi a b log xi ) 2 ,
2.( yi a b log xi ).(1) a i1 n 0 2.( yi a b log xi ).( log xi ) , b i1
0
n
n
yi a.n b log xi i 1
i 1
n
n
n
i 1
i 1
i 1
yi log xi a log xi b (log xi ) 2 Příklad 9.2.1: Metodou nejmenších čtverců vypočti koeficienty regresní přímky Y a bx pro soustavu bodů zadanou tabulkou: x 5 15 25 35 45 55 65 y 3,5 5,2 5,5 6,1 5,9 6,4 7,8 Řešení: Jak již víme, soustava normálních rovnic pro výpočet koeficientů regresní přímky má tento tvar: n
n
yi a.n b xi i 1
i 1
n
yx i 1
i i
n
n
i 1
i 1
a xi b xi
2
Vypočteme-li všechny potřebné sumy (z hodnot daných tabulkou), dostáváme soustavu 40,4 7a 245b 1571 245a 11375b
s řešením a 3,809 ; b 0,056 . Hledaná regresní funkce má tedy rovnici Y 3,809 0,056 x . Přímka s touto rovnicí „vyrovnává“ body zadané tabulkou nejlépe ze všech možných přímek (ve smyslu metody nejmenších čtverců odchylek). Tento příklad lze snadno vyřešit v Excelu pomocí nástroje „Spojnice trendu“. Nejprve označíme celou tabulku s daty, poté na záložce „Vložení“ v sekci „Grafy“ vybereme „Bodový“ a dostaneme grafické zobrazení bodů zadaných tabulkou – korelační pole (Obr.
5
9.2.3). Podle rozmístění bodů vidíme, že lineární funkce byla zvolena pro jejich „vyrovnání“ příhodně (body leží přibližně v přímce). Obr. 9.2.3:
V dalším kroku vybereme v sekci „Nástroje grafu“ položku „Rozložení“ a rozklikneme ikonku „Spojnice trendu“. Klikneme-li dále na položku „Další možnosti spojnice trendu“, rozbalí se dialogové okno, ve kterém si vybereme typ regresní funkce (v našem případě volíme typ „lineární“) a zaškrtneme předposlední položku – „Zobrazit rovnici v grafu“. Po zavření tohoto okna se v grafu vypíše rovnice regresní přímky. Pokud zaškrtneme i poslední položku – „Zobrazit hodnotu spolehlivosti R“, objeví se v grafu rovněž hodnota indexu determinace, který nám umožní posoudit kvalitu vypočtené regresní funkce. Řešení našeho příkladu získané v Excelu znázorňuje Obr. 9.2.4. Index determinace je R 2 0,8635 , (index korelace I R 2 0,9292 ), z čehož vyplývá, že vypočtená regresního funkce vystihuje závislost y na x velice dobře. Obr. 9.2.4:
V případě lineární regresní funkce máme v Excelu ještě další možnost, jak vypočíst její koeficienty a index korelace (u jiných typů regresních funkcí tento postup není možný!). Regresní koeficienty lineární regresní funkce vypočteme pomocí funkce LINREGRESE, která má čtyři parametry. Prvním parametrem je oblast, ve které leží hodnoty argumentu y, jako druhý parametr se zadává oblast, ve které leží hodnoty argumentu x, za třetí parametr volíme hodnotu 1 a za čtvrtý 0. Pro data zadaná v Excelu tak, jak je vidíme na Obr. 9.2.5, by tedy volání funkce mělo tvar LINREGRESE(C3:C9;B3:B9;1;0). Je nutné mít na paměti, že výsledkem této funkce budou dvě hodnoty, proto musíme vzorec správně zadat. Po jeho vložení do jedné buňky vybereme tuto buňku a buňku, která s ní sousedí vpravo, stiskneme klávesu F2 a poté kombinaci kláves CTRL+SHIFT+ENTER.
6
Index korelace je v případě lineární regresní funkce roven absolutní hodnotě koeficientu korelace, k jehož výpočtu slouží funkce CORREL. Jejím prvním parametrem je oblast, ve které leží hodnoty argumentu x, druhým parametr je oblast, ve které leží hodnoty argumentu y. Pro náš příklad by tedy její volání mělo tvar CORREL(B3:B9;C3:C9). Obr. 9.2.5:
9.3 Nelineární regrese Metoda nejmenších čtverců je vhodná pro funkce, které jsou lineární v neznámých parametrech. Potíže vznikají při řešení soustavy normálních rovnic u regresních funkcí, které lineární nejsou. Pokud chceme metodu nejmenších čtverců použít i v těchto případech, snažíme se regresní funkci linearizovat pomocí vhodné transformace. Postup si ukážeme na regresní funkci tvaru Y ax b :
Y ax b … logaritmujeme, ln Y ln ax b … použijeme známá pravidla pro počítání s logaritmy: ln Y ln a ln xb , ln Y ln a b ln x … zavedeme substituci: Z ln Y , A ln a , u ln x a dostáváme: Z A bu , kde Z je funkce lineární v neznámých parametrech A a b, můžeme tedy postupovat podle výše uvedeného postupu: n
n
i 1
i 1
hledáme minimum funkce ( A, b) ( zi Z i ) 2 zi ( A bui ) 2 , tzn. řešíme soustavu: n 0 2 ( zi A bui ).(1) A i 1 n 0 2 ( zi A bui ).(ui ) b i 1
n
n
n
i 1 n
i 1
0 zi A bui i 1
n
n
i 1
i 1
0 ziui Aui bui2 i 1
n
z i 1
n
i
nA b ui i 1
7
n
n
n
i 1
i 1
i 1
ziui A ui b ui2 Po návratu k původním proměnným pak dostáváme soustavu normálních rovnic ve tvaru: n
n
i 1 n
i 1 n
n
i 1
i 1
i 1
ln yi n.A b ln xi ln yi ln xi A. ln xi b ln 2 xi , ze které vypočteme neznámé b a A, regresní koeficient a pak vypočteme ze vztahu a e A . Index korelace v případě nelineární regrese musíme počítat pro transformovanou proměnnou Z ln Y , tzn. podle vzorce: 2
n n. (ln Yi ) ln Yi i 1 i 1 . 2 n n 2 n. ln yi ln yi i 1 i 1 n
2
I
Příklad 9.3.1: Měřením závislosti součinitele tření f na teplotě t byly získány údaje v tabulce. Vyrovnejte je exponenciálou a přímkou a určete, která z těchto regresních funkcí je lepší. t 60 70 80 90 100 110 120 f 0,0148 0,0124 0,0102 0,0085 0,0071 0,0059 0,0051 Řešení: V prvním případě hledáme regresní funkci ve tvaru Y a.ebx (roli nezávislé proměnné x má zde teplota t, roli závislé proměnné y součinitel tření f). Tato funkce není lineární v neznámých parametrech a a b, proto přistoupíme k logaritmování a úpravám vedoucím k linearizaci: ln Y ln a.ebx , ln Y ln a ln ebx , ln Y ln a bx . Dále zavedeme substituci: Z ln Y , A ln a , po které dostáváme Z A bx n
a hledáme minimum funkce ( A, b) zi ( A bxi ) 2 , tzn. řešíme soustavu: i 1
2 ( zi A bxi ).(1) A i 1 n 0 2 ( zi A bxi ).( xi ) b i 1 n
0
n
n
zi nA b xi i 1 n
i 1
z x i 1
i i
n
n
i 1
i 1
A xi b xi2
Po návratu k původním proměnným dostáváme soustavu normálních rovnic: n
n
i 1
i 1
ln yi n.A b xi 8
n
n
n
i 1
i 1
i 1
xi . ln yi A. xi b xi , 2
která má po výpočtu potřebných sum tento tvar: 33,32 7 A 630b 3048,81 630 A 59500b Řešením soustavy dostaneme neznámé A a b: A 3,1381; b 0,0180 , koeficient a pak vypočteme ze vztahu a e A 0,0434 . Rovnice vypočtené regresní exponenciály je tedy Y 0,0434.e0,0180x . Pro tuto funkci ještě vypočteme index korelace a součet čtverců odchylek: 2
n n n. (ln Yi ) 2 ln Yi i 1 i1 0,999 , I 2 n n 2 n. ln yi ln yi i 1 i1
n
n
i 1
i 1
vi2 [ yi Yi ]2 4,97.108 . Ve druhém případě hledáme regresní funkci ve tvaru Y a bx . Jedná se o lineární regresní funkci se soustavou normálních rovnic: n
n
yi a.n b xi i 1
i 1
n
n
n
i 1
i 1
i 1
yi xi a xi b xi
2
Po výpočtu všech potřebných sum má soustava tvar: 0,064 7a 630b 5,308 630a 59500b
a řešení a 0,0237 ; b -0,0002 . Druhá regresní funkce má tedy rovnici Y 0,0237 0,0002 x . Dále vypočteme index korelace: 2
n n. Yi Yi i 1 i1 0,985 , I 2 n n 2 n. yi yi i 1 i1 a součet čtverců odchylek: n
n
n
i 1
i 1
2
vi2 [ yi Yi ]2 2,21.106 . Je vidět, že obě funkce vystihují závislost y na x velice dobře (index korelace je u obou funkcí blízký hodnotě 1 a součet čtverců odchylek je v obou případech velmi malý), exponenciální funkce se však podle obou těchto kritérií jeví jako lepší. Pro ilustraci ještě uvádíme výpis řešení získaného v Excelu pomocí nástroje „Spojnice trendu“ (regresní exponenciálu na Obr. 9.3.1 a regresní přímku na Obr. 9.3.2):
9
Obr. 9.3.1:
Obr. 9.3.2:
10
Příklady k procvičení: 1. Charakterizujte závislost proměnné y na x regresní funkcí tvaru: a) Y a b / x , b) Y ax 2 bx c a u obou funkcí určete index korelace. x 1 1 3 4 6 y 0 1 4 5 5 2. Při seskoku parašutisty byla měřena závislost mezi rychlostí v a tlakem p na povrchu padáku. Výsledky vyrovnejte parabolou p a bv 2 a vypočtěte index korelace. v 2,4 3,5 5 6,89 10 p 0,0141 0,0281 0,0562 0,1125 0,2250 3. Charakterizujte těsnost zvolené závislosti ve tvaru Y a b. log x mezi proměnnými x a y. Vypočtěte index korelace. x 1 1 3 3 5 6 7 7 y 70 104 162 210 200 250 240 260 4. Při zjišťování závislosti veličin x a y byly naměřeny hodnoty uvedené v tabulce. Určete pro tyto veličiny vhodnou regresní funkci. x 55 55 55 65 65 65 75 75 75 85 85 95 95 95 y 3 3,6 4,2 1,8 2,4 3 1,8 2,4 3 1,8 2,4 1,8 2,4 3 5. Zjišťovalo se, zda u souboru chlapců existuje závislost v počtu provedených shybů a kliků. Výsledky jsou zaznamenány v tabulce. Určete, zda je mezi počtem shybů a kliků silná lineární závislost, určete její míru. Chlapec 1 2 3 4 Počet 1 3 2 0 shybů Počet 10 15 15 0 kliků
5
6
7
8
9
10 11 12 13 14 15
5
6
1
4
3
5
40 25 7
1
1
8
31 30 35 41 10 14
9
64
11
6
2