Matematická statistika II přednášky Ing. Pavla Hošková, Ph.D. Pef 3. Patro č. 419
[email protected] Konzultační hodiny: út
11-12
14:30-15:30
Předmět je zakončen zápočtem a zkouškou Podmínky pro udělení zápočtu: - Řádná účast an cvičení (s tolerancí 3 absencí) - 2 kontrolní testy – výsledky jsou započítávány do výsledné známky u zkoušky - Vypracování projektu s využitím statistického programu SAS (projekt je oznámkován a známka se započítává do známky u zkoušky) Studenti kteří si zvol bakalářskou práci na katedře statistiky, mohou projekt zpracovávat v rámci své bakalářské práce. Ostatní studenti si sami navrhnou téma, které jim msí vyučující schválit Zkouška - Písemná a ústní - Součástí konečného hodnocení, tzn. Do výsledné známky, jsou započítávány také dílčí známky a to: o Z předmětu MSI o Z kontrolních testů o Z projektu Cíl předmětu Prohloubit znalosti ze základního kurzu matematické statistiky, zvládnout samostatné používání metodického aparátu analýzy datových souborů s využitím statistického softwaru Obsah předmětu - Regresní a korelační analýza - Analýza kategoriálních dat - Metody analýzy časových řad Doporučená literatura Statistika – Kába, Svatošová
Regresní a korelační analýza Analýza závislostí Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina – následek. Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy proti sobě stojí vysvětlující (nezávisle) proměnná v úloze „příčin“ a vysvětlovaná (závisle) proměnná v úloze „následků“. Dává odpovědi na otázky typu: jaký vztah existuje mezi proměnnými X a Y (lineární, kvadratický atd.), lze proměnnou Y odhadnout pormocí proměnné X a s jakou chybou? Statistická analýza má v těchto souvislostech následující cíle: - Poskytnout číselné míry vztahu dvou proměnných podobným způsobem, jako průměr a směrodatná odchylka popisjící chování jedné proměnné - Najít vzorce pro optimální predikci proměnné, kterou považujeme za závisle proměnnou - Ohodnotit chybu predikce - Ověřovat různé hypotézy o zkoumaném vztahu
Dvourozměrná analýza dat Základní postup dvourozměrné analýzy je podobný jako v jednorozměrném případě: - Nejdříve se pokusíme zobrazit data graficky - Hledáme základní konfigurace a tendence v datech - Přidáváme numerické charakteristiky různých aspektů dat - Často se nám podaří vystihnout stručným způsobem základní konfiguraci dat pomocí pravděpodobnostního modelu
-1-
Christy
Matematická statistika II přednášky
Bodový graf pro posouzení závislosti Y na X Hodnoty proměnné Y
200 195 190 185 180 175 170 165 160 160
165
170
175
180
185
190
195
200
205
Hodnoty proměnné X
Korelační tabulka pro znaky X a Y Y
y1
y2
…
yj
…
ym
ni.
x1
n11
n12
…
n1j
…
n1m
n1.
x2
n21
n22
…
n2j
…
n2m
n2.
nim
. . . ni.
X
. . . xi
…
ni1
…
ni2 …
…
…
nij
… …
…
…
…
…
. . . xk
…
nk1
nk2
…
nkj
…
nkm
. . . nk.
n.j
n.1
n.2
…
n.j
…
n.m
n..
Cílem regresní a korelační analýzy je popis statistických vlastností vztahu dvou nebo více proměnných. Dvojrozměrný bodový graf nebo korelační tabulka dávají první představu o rozdělení sledovaných proměnných. Graf často indikuje překvapivé vlastnosti dat jako nelinearitu vztahu, nehomogenitu nebo přítomnost odlehlých hodnot.
Korelační analýza Korelace obecně označuje míru stupně závislosti dvou proměnných. Říká se, že dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Míra této tendence může sahat od neexistence korelace (všechny hodnoty proměné Y se vyskytují stejně pravděpodobně s každou hodnotou proměnné X) až po absolutní korelaci (s danou hodnotou proměnné X se vyskytuje právě jedna hodnota proměnné Y). Při zkoumání korelačních vzathů má rozhodující význam kvalitativní rozbor podkladových výdajů. Nemá smysl měřit závislot tam, kde na základě logické úvahy nemůže existovat. -2-
Christy
Matematická statistika II přednášky Často je zbytečné měřit závislost v případech, když je korelace způsobena: - Formálními vztahy mezi proměnnými - Nehomogenitou studovaného základního materiálu - Působením společné příčiny Formální korelace vzniká např. tehdy, když se zjišťuje korelace procentuálních charakteristik, jež se navzájem doplňují do 100% (např. korelace procentního zastoupení bílkovin a tuku v potravinách) Jestliže populace, kterou studujeme, obsahuje subpopulace, pro něž se průměrné hodnoty proměnných X a Y liší, vypočtené korelační vztahy jsou touto nehomogenitou silěn ovlivněny a jejich hodntoy nepopisují skutečný vztah mezi uvažovanými proměnnými. Nehomogenita materiálu se projeví na bodovém grafu tak, že shluky bodů pro subpopulace se budou nacházet v různých oblastech souřadnicového systému.
Příkladem korelací způsobených společnou příčinou jsou vztahy mezi něterými mírami těla, např. mezi délkou pravé a levé ruky. Zdánlivé korelace – jsou způsobené časovým faktorem nebo faktorem modernizace u dvou řad údajů. Příklad zdánlivé korelace Počet televizních přístrojů na osobu koreluje s očekávanou délkou života. Ve státech, kde je mnoho televizních přístrojů, dosahují obyvatelé vysokého věku. Je možné změnou počtu televizních přístrojů dosáhnout prodloužení věku v oblastech světa, kde je nižší očekávaná délka života? Podobným korelacím se někdy říká „nesmyslné“ korelace. Hodnota korelace je vysoká. Nesmyslný by byl závěr o příčinném působení. Korelační závislost je zdůvodněna proměnnou „národní důchod“, jež je společnou příčinou obou proměnných. Kromě působení proměnné jako „společné příčiny“ mohou působit matoucí (rušivé) proměnné, které korelují jak s cílovou proměnnou, tak s proměnnou ovlivňující. Proměnná v tomto případě znesnadňuje interpretaci, protože nelze rozlišit vliv matoucí a sledované ovlivňující proměnné na cílovou proměnnou. Postup pro ověřování kauzálního vztahu Formální korelace? ANO NE Nehomogenita? ANO NE Působení třetí veličiny? (zdánlivá korelace) ANO NE Kauzální vztah Závislost příčinná (kauzální) Při této závislosti jeden jev (příčina) vyvolává existenci (vznik, změnu, zánik apod.) jevu druhého. Jeden jev (příčina) podmiňuje jev jiný (účinek, následek). Příčinná závislost jevů má všeobecný charakter, neboť každý jev je příčinou a současně účinkem jevů jiných, takže existuje všeobecné zřetězení příčin a účinků. Příčinou souvislostí mezi např. dvěma jevy se rozumí situace, kdy výskyt určiéh jevu souvisí (má za následek, vyvolává) existenci jiného jevu. Pearsonův korelační koeficient - nejdůležitější íra síly vztahu dvou náhodných spojitých proměnných X a Y Korelační koeficient r počítáme pomocí tzv. Kovariance syx a směrodatných odchylek sx a sy obou proměnných:
-3-
Christy
Matematická statistika II přednášky n
r=
s xy sx s y
=
cov( x, y ) , kde s xy = sx s y
∑ (x − x )( y i =1
i
n
i
− y) .
Důležité vlastnosti korelačního koeficientu 1. Platí -1 ≤ r ≤ +1 2. Jestliže |r| = 1, leží všechny body na nějaké přímce. 3. Jestliže r = 0, nazýváme X a Y nekorelované proměnné. Dvě náhodné proměnné jsou tím více korelovány, čím blíže je hodnota r k číslům +1 nebo -1. V tom případě lze vztah obou proměnných dobře vyjádřit přímkou. 4. Jesltiže r < 0, resp. r > 0, tak se Y v průměru zmenšuje, resp. zvětšuje při zvětšování proměnné X. Říkáme, že je korelace záporná, resp. kladná. 5. Pearsonův korelační koeficient vyjadřuje pouze sílu lieárního vztahu. Špatně měří jiné vztahy, ať jsou jakkoli silné. 6. Korelační koeficient se nezmění, když změníme jednotky měrení proměnných X a Y. 7. Podobně jako průměr nebo směrodatná odchylka, je korelační koeficient r velmi ovlivněn odlehlými hodnotami. 8. Korelační koeficient r nerozlišuje mezi závisle a nezávisle porměnnou. 9. Korelační koeficient r není úplnými popisem dat i při velmi silném lineárním vztahu. Pro úplnější popis potřebujeme znát rovnici přímky, která vyjadřuje tvar vztahu. 10. Pokud jedna z proměnných nemá náhodný charakter (její hodnoty jsou pevně určeny), není vhodné korelační koeficient použit. 11. Korelace, ať je jakkoli silná, neznamená sama o sobě průkaz příčinného vztahu, tedy toho, že změny proměnné X skutečně působí změny proměnné Y. Těsnost závislosti lze podrobně hodnotit zhruba takto: r < 0,3 těsnost nízká 0,3 ≤ r ≤ 0,5 těsnost mírná 0,5 ≤ r ≤ 0,7 těsnost význačná 0,7 ≤ r < 0,7 těsnost velká 0,9 ≤ r ≤ 1,0 těsnost velmi vysoká Interpretace hodnot korelačního koeficientu není tak přímočará, jako je tomu u většiny jednorozměrných charakteristik. Proto se doporučuje dopočítat další charakteristiky, jako jsou parametry proložené přímky nebo směrodatná chyba odhadu při regresi. Druhou mocninou koeficientu korelace je koeficient determinace, který udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretičkých hodnot závisle proměnné odhadnutých na základě regresní přímky. Stupnice těsnosti závislosti podle koeficientu determinace je zhruba tato: r2 < 10 % těsnost nízká 10 % ≤ r2 < 25 % těsnost mírná 25 % ≤ r2 < 50 % těsnost význačná 50 % ≤ r2 < 80 % těsnost velká 80 % ≤ r2 těsnost velmi vysoká Koeficient determinace lze také vyjádřit jako poměr vysvětlené vyriability k celkové variabilitě Y:
∑ ( y′ − y ) ∑ (y − y)
2
r2 =
i
2
.
i
Poznámka: rozptyl vyrovnaných hodnot (teoretický rozptyl) – vysvětlená variabilita
s y2′ =
1 ( yi′ − y ) 2 ∑ n
rozptyl empirických (skutečně zjištěných) hodnot y – celková variabilita
s y2 =
1 ( yi − y )2 ∑ n -4-
Christy
Matematická statistika II přednášky Příklad Hodnotíme závislost výšky (cm) a váhy (kg) u 10 studentů. Student č. 1 2 3 4 5 6 7 8 9 10 součet
x 187 170 180 184 178 180 172 176 186 177 1790
(x − x )(y − y)
y− y 2 -10 3 4 2 0 -8 0 10 -3 0
x−x 8 -9 1 5 -1 1 -7 -3 7 -2 0
y 72 60 73 74 72 70 62 70 80 67 700
16 90 3 20 -2 0 56 0 70 6 259
Dále jsme zjistili:
x = 179
y = 70
s x = 5,329165
s y = 5,53172667
n
s xy = r=
∑ (x − x )( y i
i =1
i
− y)
n
=
259 = 25,9 10
25,9 = 0,878577 5,329165 * 5,53172667
r 2 = 0,771898 = 77,19 % Význam exploračního zobrazení dvourozměrných dat x1 10 8 13 9 11 14 6 4 12 7 5
y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68
x2 10 8 13 9 11 14 6 4 12 7 5
y2 9,14 8,14 8,74 8,77 9,26 8,1 6,13 3,1 9,13 7,26 4,74
x3 10 8 13 9 11 14 6 4 12 7 5
y3 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73
x4 8 8 8 8 8 8 8 19 8 8 8
y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,5 5,56 7,91 6,89
Základní statistické charakteristiky jsou pro všechny série dat stejné:
x = 9; s x = 3,31; y = 7,5; s y = 2,03 a r = 0,816. Druhá série
První série 11,5
10,5
10,5
9,5
9,5
8,5
8,5
7,5
7,5
6,5
6,5
5,5
5,5
4,5
4,5
3,5
3,5
2,5 3
5
7
9
11
13
15
3
-5-
5
7
9
11
13
15
Christy
Matematická statistika II přednášky Třetí série
Čtvrtá série 13,5
13
12,5
12
11,5
11
10,5
10
9,5
9
8,5
8
7,5
7
6,5
6
5,5
5
4,5
3
5
7
9
11
13
15
7
9
11
13
15
17
19
Spearmanův korelační koeficient pořadí Používá se u méně rozsáhlých souborů nebo v případě, že chceme získat rychlou představu o intenzitě závislosti. Koeficient zachycuje monotónní vztahy (ne pouze lineární, ale obecně rostoucí nebo klesající); je rezistentní vůči odlehlým hodnotám. Tímto koeficientem měříme sílu vztahu X a Y, když nemůžeme předpokládat linearitu očekávaného vztahu nebo normální rozdělení proměnných X a Y. Jestliže rs = 1, resp. rs = -1, párové hodnoty (xi, yi) leží na nějaké vzestupné, resp. klesající funkci. Koeficient korelace pořadových čísel rs (-1 ≤ rs ≤ 1) se vypočte podle vztahu n
rs = 1 −
6 * ∑ d i2 i =1
n(n 2 − 1)
,
kde di jsou rozdíly pořadí Rx a Ry hodnot xi a yi vzhledem k ostatním hodnotám seřazeného výběru podle velikosti. Spearmanův koeficient rs se někdy používá pro odhad Pearsonova korelačního koeficientu r. Pro dvourozměrně normálně rozdělené proměnné Y a Y platí přibližný vztah ρ = 2 sin (0,523 ρs). Spearmanův koeficient korelace lze s výhodou uplatnit v situacích, kdy - potřebujeme rychlý a rezistentní odhad korelačního koeficientu r - testujeme schopnost zkoumané osoby správně řadit objekty nebo vlastnosti podle určitých hledisek tak, že ji necháme seřadit tyto objekty nebo vlastnosti a toto seřazení pak srovnáme se standardem, - testujeme možnost přítomnosti monotónního trendu v časové řadě měření.
Příklad postupu při výpočtu Spearmanova korelačního koeficientu pořadí
x 187 170 180 184 178 180 172 176 186 177 Součet
2
y
Rx
Ry
di = Rx - Ry
di
72 60 73 74 72 70 62 70 80 67
10 1 6,5 8 5 6,5 2 3 9 4
6,5 1 8 9 6,5 4,5 2 4,5 10 3
3,5 0 -1,5 -1 -1,5 2 0 -1,5 -1 1
12,25 0 2,25 1 2,25 4 0 2,25 1 1 26
rs = 1 −
První série
11,5
6 * 26 = 0,84 10 (100 − 1)
Druhá série 10,5
10,5
9,5
9,5
8,5
8,5
7,5
7,5
6,5
6,5
5,5
5,5
4,5
4,5
3,5 2,5
3,5 3
5
r = 0,82; rs = 0,82
7
9
11
13
3
15
5
7
9
11
13
15
r = 0,82; rs = 0,69
-6-
Christy
Matematická statistika II přednášky Třetí série
Čtvrtá série 13,5
13
12,5
12
11,5
11
10,5
10
9,5
9 8
8,5
7
7,5
6
6,5 5,5
5 3
5
7
9
11
13
15
4,5 7
r = 0,82; rs = 0,99
9
11
13
15
17
19
r = 0,82; rs = 0,5
Pátá série
Šestá série
10,5 10
9,5 8,5
8
7,5
6
6,5 4 5,5 2
4,5 3,5
0 1,5
3,5
5,5
7,5
9,5
11,5
13,5
15,5
3
r = 0; rs = 0
5
7
9
11
13
15
r = -0,77; rs = -1 monotónní vztah
Odhad a testování korelačního koeficientu Provádí se za předpokladu, že společné rozdělení obou proměnných lze modelovat dvourozměrným normálním rozdělením nebo – jinak vyjádřeno – rozdělení obou proměnných je normální a jejich vztah je přibližně lineární. Testuje se hypotéza o nulové hodnotě korelačního koeficientu základního souboru, tedy H0: ρyx = 0. Hypotéza předpokládá, že korelace neexistuje, tzn. veličiny X a Y jsou nezávislé. Alternativní hypotéza je postavena na existenci korelace, tedy H1: ρyx ≠ 0. Test hypotézy se provádí pomocí testového kritéria
t=
r 1− r2
* n − 2,
které má za platnosti H0 Studentovo t-rozdělení f = n – 2 stupních volnosti. V případě, že vypočtená hodnota testového kritéria padne do kritického oboru, zamítá se nulová hypotéza a existence lineární korelační závislosti se považuje za prokázanou.
t f tα ( n −2) ⇒ H 0 se zamítá Intervalový odhad korelačního koeficientu V případě, že výběrový soubor má dostatečně velký rozsah (n > 100), lze rozdělení výběrového korelačního koeficientu aproximovat normálním rozdělením. Oboustranný interval spolehlivosti je v daném případě možno psát:
P (r − uα * sr ≤ ρ ≤ r + uα * sr ) = 1 − α ,
přičemž
sr =
1− r2 . n
Ve většině případů (především, kdy n < 100) se však využívá Fisherovy transformace, neboť výběrový koeficient korelace neodpovídá kritériím bodového odhadu. Místo výběrového koeficientu korelace r se zavádí transformovaná veličina zr.
r → z r = arctan h(r ) =
1 1+ r ln 2 1− r
-7-
Christy
Matematická statistika II přednášky Touto transformací se rozšířil interval hodnot –1 ≤ r ≤ +1 na interval -∞ ≤ zr ≤ +∞. Nová proměnná má přibližně průměr µzr a směrodatnou odchylku szr
1 1+ r , 2 1− r
s zr =
µ z = ln r
1 . n −3
Dvoustranný interval spolehlivosti pro transformovanou veličinu základního souboru má vyjádření:
(
)
P z r − tα ( n− 2) * s z r ≤ µ z r ≤ z r + tα ( n −2 ) * s zr = 1 − α , Zpět do měřítka korelačního koeficientu převedeme oba krajní body intervalu pomocí inverzní transformace zr-1:
e2 z − 1 r = 2z e +1
Získáme tak interval spolehlivosti pro korelační koeficient ρ. Příklad n = 30; r = 0,717078; t0,05(28) = 2,048 H0: ρyx = 0
t=
H1: ρyx ≠ 0
0,717078
* 30 − 2 = 5,44399 1 − 0,717078 2 t f tα ⇒ H 0 se zamítá 1 1 + 0,717 ln = 0,9016 2 1 − 0,717 1 1 s zr = = = 0,19245 n−3 30 − 3 zr =
0,9016 − 2,048 * 0,19245 ≤ µ z r ≤ 0,9016 + 2,048 * 0,19245
(
)
P 0,468 ≤ µ zr ≤ 1,29574 = 0,95 P(0,4680 ≤ ρ ≤ 0,8606) = 0,95
Regresní analýza Jde o přesnější popis tvaru vztahu mezi proměnnými X a Y a charakterizování jeho vhodnosti pro predikci hodnot závisle proměnné pomocí hodnot nezávisle proměnné. Může jít např. o následující situace: - Korelační koeficient i graf prokazují lineární vztah mezi spotřebou zemního plynu v bytě v závislosti na venkovní teplotě. Otázka zní, jak přesně můžeme predikovat spotřebu pomocí teploty. - Ve sportovním výzkumu máme např. data o rychlosti skokanů na hraně můstku a dosažené délce skoku. Zajímá nás, jaký je mezi nimi vztah: lze pomocí rychlosti predikovat délku skoku, s jakou přesností, je vztah lineární? V regresní analýze obecně analyzujeme vztah mezi jednou proměnnou zvanou cílová nebo závislá proměnná (Y) a několika dalšími, které nazýváme nezávislé nebo ovlivňující proměnné (X). Vztah reprezentujeme matematickým modelem, což je rovnice, jež svazuje závisle s nezávisle proměnnou a pravděpodobnostní předpoklady, které by měl vztah splňovat. Závisle proměnná se spojena s nezávisle proměnnými funkcí nazývanou regresní funkcí, jež obsahuje několik neznámých parametrů. Jestliže tato funkce je lineární v těchto parametrech (nemusí být lineární v proměnných), mluvíme o lineárním regresním modelu. Statistické problémy, která nás zajímají v regresní analýze, jsou: - získání statistických odhadů neznámých parametrů regresní funkce, - testování hypotéz o těchto parametrech, - ověřování předpokladů regresního modelu.
-8-
Christy
Matematická statistika II přednášky Prokládání dat přímkou Máme k dispozici uspořádané dvojice číselných údajů (x1, y1), (x2, y2), …, (xn, yn) pro proměnné X a Y. Jestliže graf ukáže lineární vztah mezi proměnnými, usilujeme o zachycení vztahu tím, že body proložíme přímku. Hledáme přímku, jež je experimentálním bodům co možná nejblíže (žádná přímka neprotne všechny body). Snažíme se určit takovou přímku, která bude co nejlépe predikovat y-hodnoty pomocí x-hodnot. Základní model regresní závislosti s jednou nezávisle proměnnou X vyjadřuje libovolnou hodnotu závisle proměnné Y jako: ′
yi = f ( xi ) + ei ,
kde f(xi) je tzv. regresní funkce a ei je náhodná (reziduální) odchylka i-tého pozorování proměnné Y. Reziduální odchylka (chyba predikce) – rozdíl mezi naměřenou a očekávanou hodnotou.
Dobře proložená přímka y = a + b*x minimalizuje velikosti reziduálních hodnot pro hodnoty (xi, yi), kterými přímku prokládáme. Pro stanovení parametrů se nejčastěji používá metoda nejmenších čtverců. Hodnoty parametrů a, b přímky y = a + b*x získáme touto metodou tak, aby součet druhých mocnin reziduálních hodnot byl minimální vzhledem k parametrům a, b.
sr2 = ∑ ei2 = ∑ ( yi − a − bxi )
2
Minimalizuje sečtené čtverce úseček, které vyznačují vzdálenost bodu od proložené přímky ve směru osy Y. Výpočet tohoto minima vede k optimálním hodnotám
b = r*
sy sx
a = y − bx ,
,
kde r je korelace obou proměnných a sx, sy jsou směrodatné odchylky naměřených hodnot proměnných X a Y. Hodnota yi` je odhad cílové proměnné pomocí regresního vztahu (yi` = a + bxi): reziduální hodnota = naměřená hodnota y – predikovaná hodnota y`. Rozptýlenost bodů kolem přímky je charakterizována zbytkovým (reziduálním) rozptylem, případně směrodatnou chybou odhadu při regresi (lze také posoudit přesnost provedených regresních odhadů jako míru chyby)
s
2 y. x
∑e =
2 i
n−2
∑ (y =
i
− y′i ) 2
n−2
.
Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná. Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá.
yi′ = a yx + byx xi xi′ = a xy + bxy yi Vztahy pro regresi X na Y získáme vhodnou záměnou ve vzorcích (např. bxy = r*sx/sy, kde r je korelační koeficient). Mezi směrnicemi obou regresních přímek byx a bxy existuje vztah
r = byx * bxy .
-9-
Christy
Matematická statistika II přednášky Můžeme tedy nalézt dvě regresní přímky, které se budou protínat v bodě a tvoří jakési nůžky. Čím větší je korelace, tím více jsou nůžky stisknuty.
13,5
x; y 11,5 9,5 7,5 5,5 3,5 3,5
5,5
7,5
9,5
11,5
13,5
Metoda nejmenších čtverců – postup stanovení parametrů u jednoduché lineární závislosti yi′ = a + bxi n
∑(y i =1
i
− yi′ ) 2 = min
Z podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze kterých se jejich řešením vypočtou neznámé parametry a a b. 2 n
f (a, b) = ∑ [ yi − (a + bxi )] = min i =1
Má-li tato funkce f(a,b) minimum, musejí se její první parciální derivace podle konstant a a b rovnat nule. n ∂ f ( a, b) n = ∑ 2( yi − a − bxi )(0 − 1 − 0) = −2∑ ( yi − a − bxi ) ∂a i =1 i =1 n ∂f (a , b) n = ∑ 2( y i − a − bx i )(0 − 0 − x i ) = −2∑ (y i − a − bx i ) x i ∂b i =1 i =1
Tedy platí n
− 2∑ ( yi − a − bxi ) = 0 i =1 n
− 2∑ ( yi − a − bxi ) xi = 0 i =1
Vynásobením každé z rovnic –1/2, rozvedením součtů a osamostatněním součtů obsahujících yi se získá soustava normálních rovnic. n
n
∑ yi = na + b∑ xi i =1
i =1
n
n
n
i =1
i =1
i =1
∑ xi yi = a∑ xi + b∑ xi2 Řešením soustavy normálních rovnic obdržíme: n
b=
n
n
n∑ xi yi − ∑ xi ∑ yi i =1
i =1
i =1
n∑ x − ∑ xi i =1 i =1 n
n
2
a = y −b* x
2 i
- 10 -
Christy
Matematická statistika II přednášky Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná. Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá (sdružené přímky).
yi′ = a yx + byx xi
xi′ = a xy + bxy yi Vztahy pro regresi X na Y získáme vhodnou záměnou ve vzorcích (např. bxy = r*sx/sy, kde r je korelační koeficient). Mezi směrnicemi obou regresních přímek byx a bxy existuje vztah
r = byx * bxy . Můžeme tedy nalézt dvě regresní přímky, které se budou protínat v bodě a tvoří jakési nůžky. Čím větší je korelace, tím více jsou nůžky stisknuty.
13,5
x; y 11,5 9,5 7,5 5,5 3,5 3,5
5,5
7,5
9,5
11,5
13,5
Maticové vyjádření regresního problému Lineární (teoretický) model lze zapsat jako y = Xβ + ε, ve kterém: y – n-členný náhodný vektor napozorovaných (zjištěných) hodnot vysvětlované proměnné Y, X – nenáhodná matice typu n x (k+1) zvolených n kombinací hodnot vysvětlujících proměnných, β – je (k+1)členný vektor neznámých parametrů modelu, ε – n-členný vektor nepozorovatelné rušivé (náhodné) složky. Pro lepší představu
y1 y y = 2 M yn
1 x11 L x1k 1 x L x2 k 21 X= M M M M 1 xn1 L xnk
β0 β β = 1 M β k
ε1 ε ε = 2 M ε n
Z uvedeného zápisu je vidět, že v n lineárních rovnicích je p = k+1 neznámých regresních parametrů a n hodnot náhodné složky. Soustavu normálních rovnic pro hledanou funkci y = Xb + ε lze pak v maticovém tvaru vyjádřit takto:
X′Xb = X′y Za předpokladu, že k matici X`X existuje matice inverzní, dostaneme vektor odhadovaných parametrů podle vztahu
b = (X′X ) X′y. −1
- 11 -
Christy
Matematická statistika II přednášky Maticově lze stanovit i hodnotu korelačního indexu.
1 ( yi )2 ∑ n 1 2 y′y − ∑ ( yi ) n
b′X′y −
I=
Předpoklady metody nejmenších čtverců Regresní parametry β mohou nabývat libovolných hodnot. V technické praxi však často existují omezení parametrů, která vycházejí z jejich fyzikálního smyslu. Regresní model je lineární v parametrech a platí aditivní vztah y = Xβ + ε. Vysvětlující proměnné X1, X2, …, Xk jsou nenáhodné a neexistuje mezi nimi funkční lineární závislost. Pro danou kombinaci hodnot vysvětlujících proměnných jsou hodnoty nepozorovatelné rušivé složky εi normálně rozdělené, nezávislé náhodné veličiny s nulovými středními hodnotami a se stejným (konstantním) rozptylem σ2. Neboli vektor hodnot rušivé složky ε má n-rozměrné normální rozdělení N(0, σ2) s vektorem středních hodnot E(ε) = 0 a s kovarianční maticí σ2 E, kde E je jednotková matice. Náhodné chyby εi mají nulovou střední hodnotu E(εi) = 0, konstantní a konečný rozptyl E(εi2) = σ2. Také podmíněný rozptyl D(y/x) = σ2 je konstantní a jde o homoskedastický případ. Náhodné chyby εi jsou vzájemně nekorelované a platí cov (εi, εj) = E(εi, εj) = 0. Pokud mají chyby normální rozdělení, jsou nezávislé.
cov(ε 1ε 2 ) L cov(ε 1ε n ) σ 2 0 L 0 D(ε 1 ) cov(ε ε ) D(ε 2 ) L cov(ε 2ε n ) 0 σ 2 L 0 2 1 cov(ε iε i ) = = M M M M M M M M D(ε n ) 0 0 L σ 2 cov(ε nε 1 ) cov(ε nε 2 ) L Odhady v regresní analýze Interpolace – předmětem zájmu je některá z použitých kombinací vysvětlujících proměnných Extrapolace – pozornost je upřena na hodnotu proměnné Y pro předpokládané budoucí nebo výzkumně zajímavé kombinace hodnot proměnné Y. Je nutné odlišit dva významově zásadně odlišné případy: Odhad průměrné hodnoty Y neboli odhad podmíněné střední (očekávané) proměnné Y vzhledem ke zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné. Odhad konkrétní hodnoty y`i neboli předpověď y`i = a + bxi hodnoty proměnné Y vzhledem ke zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné. Pás spolehlivosti kolem regresní přímky Z rovnice regresní přímky zkoumaného souboru lze určovat teoretickou hodnotu závisle proměnné příslušející určité skutečné hodnotě nezávisle proměnné. Avšak skutečné konkrétní hodnoty závisle proměnné jsou více méně rozptýleny kolem stanovené regresní přímky. Se zvolenou pravděpodobností je možno určit tzv. pás spolehlivosti, v němž se tyto skutečné (empirické) hodnoty nacházejí jako
yi′ ± t
1−
α
• s y.x .
2
sy.x je směrodatná chyba, která je rovna n
s y. x =
∑ ei2 i =1
n−2
n
=
∑ ( yi − yi′) 2 i =1
n−2
n
=
n
∑ yi2 − ∑ yi yi′ i =1
i =1
,
n−2
přičemž
∑ yi yi′ = ∑ yi (a yx + byx xi ) = a yx ∑ yi + byx ∑ xi yi . n
n
n
n
i =1
i =1
i =1
i =1
t
1−
α
jsou 100 (1-α/2)% kvantily Studentova t-rozdělení s (n-2) stupni volnosti
2
- 12 -
Christy
Matematická statistika II přednášky Příklad Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru y`i = 4,375 + 0,01994 xi a pomocné výpočty
∑y
i
∑y
= 117,1
s y. x =
2 i
= 1162,35
∑x y i
i
= 32005,4
1162,35 − (4,375 • 117,1 + 0,01998 • 32005,4 ) = 1,082 12 − 2
n = 12 t1-α/2 (10) = 2,228 yi (min, max) = 4,375 + 0,01994 xi ± 2,228 * 1,082 Znamená to, že dolní mez pro skutečné hodnoty je yi (min) = 1,96456 + 0,01994 xi a horní mez yi (max) = 6,78626 + 0,01994 xi
14 13 12 11 10 9 8 7 6 5 190
210
230
250
270
290
310
330
350
Test významnosti regresního koeficientu Nulová hypotéza předpokládá, že výběrový koeficient regrese je odhadem regresního koeficientu ZS, o němž se předpokládá, že má nulovou hodnotu, tzn. že platí H0: βyx = 0. Testové kritérium má tvar
t=
byx sbyx
, kde
sbyx =
sy sx
*
1− r 2 . n−2
t f tα ( n − 2) ⇒ H 0 se zamítá V případě, že se zamítá H0, je existence lineární závislosti prokázána a odvozenou regresní funkci lze použít k provádění regresních odhadů.
Intervalový odhad regresního koeficientu Oboustranný interval spolehlivosti pro regresní koeficient je vymezen následujícím způsobem:
(
)
P byx − tα ( n − 2 ) * sbyx ≤ β yx ≤ byx + tα ( n − 2) * sbyx = 1 − α . Příklad - y`i = 4,375 + 0,01994 xi H0: βyx = 0
sbyx
t0,05(10) = 2,228
1,33652 1 − 0,635697 2 = * = 0,0076581 42,6027 12 − 2 - 13 -
Christy
Matematická statistika II přednášky
t=
0,0199429 = 2,60416 0,0076581
t f tα ⇒ H 0 se zamítá
P (0,01994 − 2,228 * 0,0076581 ≤ β yx ≤ 0,01994 + 2,228 * 0,0076581) = 0,95
P (0,00288 ≤ β yx ≤ 0,037 ) = 0,95
Test významnosti regresní přímky K testování lze použít upravený model analýzy rozptylu.
p – počet parametrů ověřované funkce Jestliže F > Fα [(p-1); (n-p)], zamítáme H0. Příslušné součty čtverců se stanoví následujícím způsobem: 2
n
pro variabilitu regrese
S1 = ∑ ( yi′ − y ) i =1
pro variabilitu kolem regrese
2
n
S r = ∑ ( yi − yi′ ) i =1
pro celkovou variabilitu
n
2
S = ∑ ( yi − y ) i =1
Příklad Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru y`i = 4,375 + 0,01994 xi.
xi 268 312 223 203 248 328 303 325 275 218 248 288 celkem
yi 8,7 11,1 8,8 9,3 8,7 10,2 9,3 12,2 11,4 7,6 10,5 9,3 --
y`i 9,720109 10,5976 8,822679 8,423821 9,321251 10,91668 10,41811 10,85685 9,85971 8,722964 9,321251 10,11897 --
yi′ − y
yi - y`i
0,0015 0,7044 0,8754 1,7809 0,1910 1,3418 0,4353 1,2067 0,0103 1,0720 0,1910 0,1301 7,9404
1,0406 0,2524 0,0005 0,7677 0,3860 0,5136 1,2502 1,8040 2,3725 1,2610 1,3894 0,6707 11,7087
- 14 -
Christy
Matematická statistika II přednášky
y = 9,75833 S1 = 7,9404 Sr = 11,7087 S = 19,6492
F=
s12 =
S1 7,9404 = = 7,9404 p −1 2 −1
sr2 =
Sr 11,7087 = = 1,17087 n − p 12 − 2
s12 7,9404 = = 6,7816 sr2 1,17087
F0,05 [(2-1); (12-2)] = 4,96 F > Fα [(p-1); (n-p)] ⇒ zamítáme H0
Intervalový odhad regresní přímky Interval spolehlivosti, který s danou pravděpodobností pokrývá hledanou regresní přímku základního souboru y`j = αyx + βyxxj, je určen na základě regresní přímky výběrového souboru y`i = ayx + byxxi a je vyjádřen takto:
(x − x )2 ≤ y′ ≤ y′ + u • s 1 + (xi − x )2 P yi′ − u α • s y 1 + i 2 α j i y 1− 1− sx s x2 2 2 y′j ( H , D ) = yi′ ± t
1−
sy =
sy n
α 2
• sy 1+
(xi − x )2 s x2
sx2 – rozptyl proměnné X sy – směrodatná odchylka proměnné Y
x = 269,92 s x = 42,6027 s y = 1,33652 s y = y′j ( H , D ) = 4,3754 + 0,1994 xi ± 2,228 • 0,38582
xi 268 312 223 203 248 328 303 325 275 218 248 288
= 1−α.
y`i 9,720 10,598 8,823 8,424 9,321 10,917 10,418 10,857 9,860 8,723 9,321 10,119
1,33652 = 0,38582 12
2 ( xi − 269,92 ) 1+
1814,9924
y`j(H) 8,860 9,389 7,544 6,823 8,355 9,463 9,330 9,452 8,994 7,368 8,355 9,185 - 15 -
y`j(D) 10,581 11,806 10,101 10,024 10,288 12,370 11,506 12,262 10,725 10,078 10,288 11,053 Christy
Matematická statistika II přednášky
Standardním výstupem většiny programů regresní analýzy je závěr Fisherova-Snedecorova F-testu o významnosti regresní přímky a výsledky Studentova t-testu o významnosti jednotlivých parametrů vektoru β (vektor regresních parametrů modelu). F-test určuje zároveň simultánní významnost všech složek vektoru β kromě absolutního členu. Mohou tedy nastat tyto případy: - F-test vychází nevýznamný, všechny t-testy vychází rovněž jako nevýznamné. Model se pak považuje za nevhodný, protože nevystihuje variabilitu proměnné y. - F-test i všechny t-testy vychází významné. Model se považuje za vhodný k vystižení variability proměnné y. To však ještě neznamená, že je model navržen správně. - F-test vychází významný, ale t-testy nevýznamné u některých regresních parametrů. Model je považován za vhodný a provádí se případné vypouštění těch vysvětlujících proměnných xi, pro které jsou parametry βi nevýznamně odlišné od nuly. - F-test sice vychází významný, ale t-testy parametrů β indikují nevýznamnost všech vysvětlujících proměnných. To je paradox, protože formálně sice model jako celek vyhovuje, ale žádná z vysvětlujících proměnných není sama o sobě významná. Jde o důsledek multikolinearity.
- 16 -
Christy
Matematická statistika II přednášky
Hodnocení kvality regresního modelu Pro hodnocení kvality každého modelu je vždy rozhodujícím kritériem cíl analýzy, a tím i použitelnost výsledků. Vážné důsledky má nejen volba špatného typu regresního modelu a nedostatky použitých statistických údajů, jakož i výběr nevhodné metody odhadu parametrů, ale i neoprávněnost některých (někdy nevědomě učiněných) předpokladů a podmínek. Potíž je v tom, že nejrůznější vyskytující se narušení modelu, dat, metody či předpokladů bývají vzájemně natolik propojená, že izolovaný nebo postupný způsob hodnocení různých aspektů úlohy nemusí být dostatečný ani prospěšný. V této souvislosti nás mohou zajímat různé otázky, např.: - Jaké máme věcné nebo empirické informace. - Jakým způsobem byla data pořízena a jaká je jejich kvalita. - Které jsou rozhodující a méně důležité vysvětlující proměněné. - Doporučený nebo vyzkoušený typ modelu a regresní funkce. - Jak jsou splněné podmínky a předpoklady lineárního modelu. - Jaká je přesnost regresních odhadů. - Jaké jsou důvody případné nedostatečné přesnosti odhadu.
Regresní diagnostika Provádí se v případě, kdy nejsou splněny předpoklady o datech a regresním modelu a kdy není metoda nejmenších čtverců vhodná ke stanovení regresních parametrů. Regresní diagnostika obsahuje postupy k identifikaci: - kvality dat pro navržený model, - kvality modelu pro daná data, - splnění základních předpokladů metody nejmenších čtverců. V rámci zvolených postupů lze do regresní diagnostiky zahrnout metody pro průzkumovou analýzu jednotlivých proměnných, metody pro analýzu vlivných bodů a metody pro odhalení porušení předpokladů MNČ. Základní rozdíl mezi regresní diagnostikou a klasickými testy spočívá v tom, že u regresní diagnostiky není třeba přesně formulovat alternativní hypotézu a jsou přitom odhaleny typy odchylek od ideální situace.
- 17 -
Christy
Matematická statistika II přednášky Využití průzkumové analýzy V regresní analýze se využívá těchto metod: - pro určení statistických zvláštností jednotlivých proměnných nebo reziduí, - k posouzení „párových“ vztahů mezi všemi sledovanými proměnnými, - k ověření předpokladů o rozdělení proměnných nebo reziduí. Mezi základní techniky průzkumové analýzy patří i stanovení volby rozsahu a rozmezí dat, jejich variability a přítomnosti vybočujících pozorování. Přes svoji jednoduchost umožňuje průzkumová analýza identifikovat před vlastní regresní analýzou: - nevhodnost dat (malé rozmezí nebo přítomnost vybočujících bodů), - nesprávnost navrženého modelu (skryté proměnné – často souvisí s časem nebo pořadím měření), - multikolinearitu, - nenormalitu v případě, kdy jsou vysvětlující proměnné náhodné veličiny.
Posouzení kvality dat - úzce souvisí s užitým regresním modelem Při posuzování se sleduje především výskyt vlivných bodů, které jsou hlavním zdrojem problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů (ve zvláštních případech však zlepšují predikční schopnosti modelů). Vlivné body silně ovlivňují většinu výsledků regrese a lze je rozdělit do tří základních skupin: - Hrubé chyby, které jsou způsobeny měřenou veličinou – vybočující pozorování – nebo nevhodným nastavením vysvětlujících proměnných – extrémy. Jsou obyčejně důsledkem chyb při manipulaci s daty. - Body s vysokým vlivem jsou speciálně vybrané body, které byly přesně změřeny a které obvykle rozšiřují predikční schopnosti modelu. - Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu. Podle toho, kde se vlivné body vyskytují, lze provést dělení na:
- vybočující pozorování, které se na ose y výrazně liší od ostatních, tzn. takové vysoké či nízké hodnoty yi, které se zásadně liší od ostatních hodnot vysvětlované proměnné Y - extrémy, které se liší v hodnotách na ose x nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů – představují zásadně odlišnou kombinaci hodnot vysvětlujících proměnných. Vyskytují se však i body, které jsou jak vybočující, tak i extrémní. O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy. K identifikaci vlivných bodů typu vybočujícího pozorování se využívá zejména analýza reziduí a k identifikaci extrémů pak diagonálních prvků tzv. projekční matice.
Statistická analýza reziduí Rezidua jsou základní diagnostickým nástrojem, a to nejen při hodnocení kvality regresní funkce a dat, ale i obecněji při posuzování oprávněnosti předpokladů zvoleného lineárního regresního modelu. Rezidua lze zjednodušeně charakterizovat jako lineární kombinaci všech chyb. Lze říci, že jakákoli systematičnost (nenáhodnost) zjištěná u reziduí indikuje nějaký (zatím neidentifikovaný) nedostatek odhadnutého regresního modelu. Může to být chybně zvolený typ regresní funkce, nevhodný plán experimentu, nenáhodný výběr, nesprávně zvolené vysvětlující proměnné, nesplnění předpokladů modelu, špatné představy o modelu, chybná nebo příliš vlivná pozorování, silná vzájemná závislost vysvětlujících proměnných, ale i jiná narušení regresní úlohy. Není tak podstatné, zda jde o vybočující pozorování nebo extrémy, ale každopádně obecně velkým problémem odhadů pořízených MNČ je jejich nesmírná citlivost na pozorování, která se od jiných v něčem důležitém výrazně liší.
- 18 -
Christy
Matematická statistika II přednášky Typy reziduí a jejich vlastnosti Klasická rezidua Jsou rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované proměnné Y (yi – y`i). Klasická rezidua jsou korelovaná, s nekonstantním rozptylem, jeví se normálnější a nemusí indikovat silně odchýlené body. Predikovaná rezidua Rezidua počítaná bez i-tého pozorování jsou zbavena vlivu tohoto pozorování. y`i(-i) je vyrovnaná hodnota získaná na základě n-1 pozorování při vypuštění i-tého pozorování. Odpovídající predikované reziduum je vypočteno jako rozdíl skutečné hodnoty yi a takto odhadnuté hodnoty y`i(-i) ei(-i) = yi - y`i(-i). Predikovaná rezidua jsou korelovaná, mají normální rozdělení s nulovou střední hodnotou a s nestejným rozptylem.
Normovaná rezidua Soudí se o nich, že jsou to normálně rozdělené veličiny s nulovou střední hodnotou a jednotkovým rozptylem. K ocenění jejich vlivu se používá pravidla 3σ, tj. hodnoty větší než ± 3σ jsou brány za vybočující. Rozhodně je však nelze doporučit pro identifikaci odlehlých pozorování (silně vlivné extrémní body), protože snadno může dojít k vyloučení správných pozorování a zachování chybných značně odlehlých hodnot. Standardizovaná rezidua Mají konstantní rozptyl a vzniknou dělením reziduí jejich směrodatnou odchylkou, tzn. mají nulovou střední hodnotu a jednotkový rozptyl. Jackknife rezidua Jsou alternativou ke standardizovaným reziduím. Jejich výpočet je podobný jako u standardizovaných reziduí, místo směrodatné odchylky reziduí se však použije směrodatná odchylka získaná při vynechání i-tého bodu. Tato rezidua mají za předpokladu normality chyb Studentovo rozdělení s n – m – 1 stupni volnosti. Tato rezidua se využívají pro odhalení neznámých příliš vlivných či podezřelých pozorování (vybočujících bodů), nemusí však být spolehlivá v případě extrémů. Nekorelovaná rezidua V konkrétní regresní úloze je možné sestavit jen n – p nekorelovaných reziduí, která vždy existují. Nekorelovaná rezidua jsou lineární transformací klasických reziduí se stejným reziduálním součtem čtverců. Rekurzivní rezidua (dopředná nebo zpětná) Jsou typem nekorelovaných reziduí při využití rekurzivní MNČ, jejímž principem je opakovaný iterativní odhad parametrů regresního modelu MNČ s tím, že v každé iteraci se postupně přidává do výpočtu jeden bod (řádek xi matice X a hodnota yi). Odpovídající rekurzivní rezidua umožňují identifikovat nestabilitu modelu, např. v čase. Grafická analýza reziduálních hodnot Pomáhá ověřit kvalitu proložení dat přímkou a odhalit neobvyklé hodnoty (vybočující pozorování, extrém, vlivné body). Patří sem tři základní typy grafů: Typ I: Graf závislosti reziduí ei na indexu i Typ II: Graf závislosti reziduí ei na proměnné xi Typ III: Graf závislosti reziduí ei na predikci y`i Nedoporučuje se konstruovat graf závislosti reziduí ei na naměřených hodnotách yi, protože jde o korelované veličiny. Lze tvrdit, že předpoklad lineárního vztahu je dobře splněn.
- 19 -
Christy
Matematická statistika II přednášky
Obrázek indikuje, že rozptyl bodů kolem regresní přímky se zvyšuje s rostoucím X.
Konfigurace naznačuje nutnost použití některé nelineární regresní křivky.
Při zobrazení párových hodnot (ti, ei), kde ti je časový okamžik i-tého měření, můžeme dostat konfiguraci, která upozorňuje na to, že časový faktor by měl být součástí regresního modelu.
Graf obsahuje dva neobvyklé body, jež mohou být klasifikovány jako odlehlá hodnota.
- 20 -
Christy
Matematická statistika II přednášky Odlehlý bod je takový, který leží mimo základní konfiguraci bodů v grafu. Údaj může být odlehlý ve směru Y, ve směru X nebo v obou směrech. Odlehlý údaj ve směru nezávisle proměnné se nazývá vybočující. Bod nazýváme vlivný, pokud se po jeho odstranění podstatně změní poloha regresní přímky. Body, jež jsou odlehlé ve směru X, jsou často vlivné. Na obrázku je takovým bodem bod b. Bod a představuje pak vybočující pozorování. Vlivná pozorování Vlivné body jsou takové body, jejichž vynecháním dochází k zásadní změně regresních charakteristik (odhadu parametrů, vyrovnaných hodnot, odhadů kovarianční matice či dalších). Tyto body je nutné identifikovat, protože jsou-li chybné, dochází ke značnému zkreslení regresních výsledků. Pro identifikaci vlivných bodů jsou nejvhodnější techniky, které jsou založené na hodnocení důsledků vypuštění i-tého bodu na regresní charakteristiky (např. grafické znázornění predikovaných reziduí). Postup při lineární regresní analýze Postup při vyšetřování a konstrukci lineárního regresního modelu se skládá z těchto fází: - Návrh modelu – začíná se od nejjednoduššího modelu, kde se nevyskytují žádné interakční členy (vztahy mezi proměnnými). V případě, kdy je předem známé, že model má obsahovat funkce vysvětlujících proměnných, může být výchozí model patřičně upraven dle těchto požadavků. - Předběžná analýza dat – sleduje se proměnlivost jednotlivých proměnných a možné párové vztahy. - Odhadování parametrů – provádí se klasickou MNČ, stejně jako i určení základních statistických charakteristik. Následuje test významnosti jednotlivých parametrů pomocí Studentova t-testu a koeficientu korelace. - Regresní diagnostika – je prováděna identifikace vlivných bodů a ověření, jsou-li splněny předpoklady metody nejmenších čtverců. Na základě nalezených vlivných bodů se rozhoduje, zda je nutné tyto body z dat eliminovat, nebo je možné tyto body v datech ponechat. Pokud dojde k úpravě dat, je třeba provést znovu regresní diagnostiku se zaměřením na porušení předpokladů MNČ. - Konstrukce zpřesněného modelu – např. využitím metody vážených nejmenších čtverců, metody zobecněných nejmenších čtverců, metody podmínkových nejmenších čtverců, metody rozšířených nejmenších čtverců, robustních metod pro jiná rozdělení dat než normální a data s vybočujícími hodnotami a extrémy. - Zhodnocení kvality modelu – využitím klasických testů, postupů regresní diagnostiky a doplňkových informací se provede zhodnocení kvality navrženého lineárního regresního modelu. - Testování různých hypotéz – ve zvláštních případech, jako je porovnání několika přímek atd., se provádí testování pomocí dalších testů k ověřování rozličných typů hypotéz.
Nelineární regresní modely V některých případech vyplyne z úvahy nebo grafického znázornění bodů (xi, yi), že regresní vztah proměnných X a Y nelze popsat přímkou. Potom hledáme jiné jednoduché regresní křivky, které dokáží popsat sledovanou závislost. V některých případech předběžná znalost a teoretický rozbor situace vede k několika možným nelineárním vztahům, mezi kterými je třeba na základě pozorovaných hodnot vybrat. Na druhé straně v případě empirických modelů, konstruovaných pouze na základě pozorovaných dat, je vhodné uvážit možnost použití lineárního modelu, který umožňuje pracovat s postupy známými z lineární regrese a vyhnout se problémům spojených s aplikací nelineárního modelu. Jde hlavně o případy nedostatečné představy o vhodném modelu nebo velkého počtu vysvětlujících proměnných. Je třeba si uvědomit, že na rozdíl od lineárních parametrů mají v modelech vznikajících v nejrůznějších oblastech technických, chemických či ekonomických aplikací parametry jasný význam a přesnou interpretaci – určují rychlostní konstanty, materiálové charakteristiky, rychlosti růstu apod. Vzhledem k průběhu regresních funkcí, kterými je závislost popsána, mohou mít parametry význam pro určení tvaru regresní funkce – jsou to např. asymptoty, směrnice, inflexní body. Proto jsou často cílem analýzy hodnoty parametrů (v případě regresního modelu ovšem jejich bodový odhad). Na druhé straně je třeba při interpretaci odhadů modelových parametrů brát v úvahu, že jde o náhodné veličiny, které mají nejenom svůj rozptyl, ale bývají často i silně korelované. Jednoduché nelineární modely tak mohou při zpracování přinášet řadu problémů, a to jak z hlediska správnosti odhadů parametrů, tak i jejich interpretace. Často se lze setkat s přeceňováním možností nelineárních modelů. Modely bývají používány i mimo rozsah své platnosti a předpokládá se, že mohou doplňovat chybějící informace v datech. Výsledek nelineární regrese závisí na kvalitě regresního tripletu data – model – kritérium regrese. Jejich správné zadání vede k odhadům parametrů vyhovujícím po stránce formální, fyzikální i statistické (příp. jiné).
- 21 -
Christy
Matematická statistika II přednášky Nejpoužívanější typy jednorovnicových regresních modelů Zcela lineární model Je určitě správný v případě vícerozměrného normálního rozdělení uvažovaných náhodných veličin, ale lineární zjednodušení bývá úspěšné ve všech úlohách s větším počtem vysvětlujících proměnných, nenabízí-li teorie daného vědního oboru jiné rozumné alternativy. Ve zcela lineárním modelu se předpokládá součtový vliv všech činitelů a regresní funkcí je rovnice nadroviny Y = β0 + β1X1 + … + βkXk + ε, ve které β0 je absolutní člen a β1, β2, …, βk jsou strukturní parametry nebo též (dílčí) regresní koeficienty. Například parametr β1 je interpretován jako očekávaná změna veličiny Y při jednotkovém růstu veličiny X1 za předpokladu už uvažovaného, a tudíž statisticky konstantního vlivu vysvětlujících proměnných X2, X3, …, Xk (analogicky je hodnocen význam ostatních dílčích regresních koeficientů). Model regresní přímky Y = β0 + β1X1 + ε je speciální případ pro jednu vysvětlující proměnnou a model regresní roviny Y = β0 + β1X1 + β2X2 + ε je speciální případ pro dvě vysvětlující proměnné.
Racionální celistvé a lomené funkce Velmi často se používá regresní model, který je lineární z hlediska všech parametrů, ale nelineární z hlediska vysvětlujících proměnných. Oblíbené jsou především modely s jednou vysvětlující proměnnou. V této skupině je asi nejznámější model regresní paraboly s-tého stupně Y = β0 + β1X1 + β2X2 + … + βsXs + ε a zvláště regresní parabola druhého stupně, kdy s = 2. Častý je i model regresní hyperboly s-tého stupně Y = β0 + β1X-1 + β2X-2 + … + βsX-s + ε a její speciální případ, kdy s = 1. Model lineární v parametrech Zobecněním předchozích dvou a dalších případů je model, který je lineární z hlediska všech parametrů Y = β0 + β1f1 + … + βRfr + ε, ve kterém f1 = f1(X1, X2, …, Xk), f2 = f2(X1, X2, …, Xk), …, fR = fR(X1, X2, …, Xk) jsou libovolné, ale známé funkce (tzv. regresory) vysvětlujících proměnných, neobsahující žádné další neznámé parametry. Předpokládá se, že každá z k vysvětlujících proměnných je v regresním modelu zastoupená aspoň jedním z R regresorů, takže R ≥ k. Používání pojmu regresor místo již zavedeného pojmu vysvětlující proměnná není formálně nutná, ale je to výhodné pro odlišení souboru původních (zvolených nebo zjištěných) hodnot proměnných od uměle vytvořených (vypočtených) hodnot regresorů. Ve zcela lineárním modelu je každá vysvětlující proměnná zastoupena právě jedním regresorem (R = k) a pro racionální celistvou nebo lomenou funkci s jednou vysvětlující proměnnou je k = 1, ale R = s.
Modely převoditelné transformací na lineární model Pro exponenciální, mocninné, různě kombinované a další regresní funkce je rozumnější předpokládat obecně součinový (multiplikativní) typ regresního modelu ve tvaru Y = εη, ve kterém η je regresní funkce (hypotetická) a ε rušivá složka. Časté je použití lineární exponenciální regresní funkce η = β0β1X nebo zapsané jako η = exp(β0 + β1X), modelu kvadratické exponenciály ve tvaru η = exp(β0 + β1X + β2X2 + ε), jakož i obecného lineárně-exponenciálního regresního modelu s k vysvětlujícími proměnnými zapsaného ve tvaru exp(β0 + β1X + … + βkXk + ε). Oblíbené jsou rovněž různé typy mocninných regresních funkcí nebo další kombinace uvedených i jiných typů. Modely nelineární z hlediska parametrů Lineární modely jsou pro svou jednoduchost velmi oblíbené, ale skutečné vztahy mezi veličinami různých vědních oborů bývají většinou nelineární. Nelineární modely je možné třídit podle odlišných kritérií a tak dojít k velkému počtu rozmanitých typů, se kterými se lze setkat v přírodních, technických, společenských či ekonomických vědách (např. nelineární produkční funkce, funkce poptávky, investic). Nelineární modely je možné třídit např. podle stupně a formy nelinearity. Pro jednu vysvětlující proměnnou bývá zvykem nelineární regresní funkce třídit podle tvaru křivky. Jednou z možností je vyjít z geometrických vlastností funkcí získaných různou volbou konstant A, B, C v rovnici Y = XC(β1 + β2B)A. Jednotlivé typy se odlišují např. tím, zda jsou rostoucí nebo klesající, bez omezení nebo do určitého bodu, konvexní nebo konkávní, mají nebo nemají lokální extrémy či inflexní body atd.
- 22 -
Christy
Matematická statistika II přednášky Nelineární regresní model Budeme uvažovat regresní model popsaný nelineární regresní funkcí f(x, β ) v aditivním tvaru Y = f(x, β ) + ε, kde x je k-členný vektor vysvětlujících proměnných a β je p-členný vektor neznámých regresních parametrů. Na náhodné chyby εi (i = 1, 2, …, n) budeme klást předpoklady klasického regresního modelu, tedy E(εi) = 0 a D(εi) = σ2, kde εi jsou normálně rozdělené náhodné veličiny. V nelineární regresi je však často nutné uvažovat modely s náhodnými chybami v multiplikativním tvaru či smíšený model obsahující náhodné vlivy v aditivním i multiplikativním tvaru a předpokládat obecné pravděpodobnostní rozdělení náhodných chyb. Nelineární regresní modely, které lze vhodnou transformací nebo reparametrizací převést na lineární, nazveme vnitřně lineárními. Takovým je například model y = eθx + ε, který je zavedením nového parametru α = exp (θ) možné převést na lineární model bez absolutního členu y = αx+ε, nebo model y = θ1θ2x eε, který je lineární po logaritmické transformaci modelu a lze jej po reparametrizaci α = ln(θ1), β = ln(θ2) zapsat ve tvaru ln(y) = α + βx + ε. Uvedené modely se považují za linearizovatelné a patří sem i takové nelineární modely, u kterých lze převést na lineární jen regresní funkci f(x, β ) a model při zanedbání náhodné složky přibližně zapsat ve formě y ≈ f(x, β ). Příkladem jsou aditivní modely s regresními funkcemi
αx β ;
α + βx ;
(α + βx )−1 ,
které jsou při vynechání ε linearizovatelné logaritmem, druhou mocninnou či reciproční funkcí na lineární modely
ln ( y ) ≈ ln (α ) + β ln ( x ),
y 2 ≈ α + β x,
y −1 ≈ α + β x.
Tyto linearizační transformace sice neberou v úvahu náhodnou složku, ale poskytují jednoduchou možnost, jak využít lineární regresní odhady i v případě nelineárního modelu. Avšak pro nezanedbatelné chyby ε nejsou uvedené transformace správné a dochází ke vzniku heteroskedasticity. Při linearizaci je nejdříve třeba odhadnout parametry linearizovaného modelu a z jejich hodnot zpětnou transformací určit odhady parametrů původního modelu. Na základě odhadnutých rozptylů odhadů parametrů linearizovaného modelu (případně kovariancí odhadů) lze získat také odhady těchto charakteristik pro parametry původního nelineárního modelu. Takto získané odhady však nemají vlastnosti známé z lineárních regresních modelů (nejsou například nezkreslené). Přestože se tento postup často využívá, je lepší odhady parametrů z linearizovaných modelů vnímat jen jako první užitečnou informaci a používat je jako nultý odhad při dalších optimalizačních algoritmech.
Typy jednoduchých nelineárních regresních funkcí Nejčastěji se při vyjádření nelineární regrese používají poměrně jednoduché typy křivek. Aditivní typ funkcí Kvadratická (parabola 2. stupně) 2 Kubická (parabola 3. st.) Lineární lomená (hyperbola 1. st.)
Kvadratická lomená (hyperbola 2. st.)
yi′ = a + bxi + cxi yi′ = a + bxi + cxi2 + dxi3 b yi′ = a + xi b c yi′ = a + + 2 xi xi
Iracionální
yi′ = a + bxi + cxi
Logaritmická
yi′ = a + b log xi
Multiplikativní typ funkcí Exponenciální
yi′ = a • b xi
Mocninná
yi′ = a • xib - 23 -
Christy
Matematická statistika II přednášky Při výběru typu funkce je třeba vycházet nejen z formálního hlediska, podle něhož nejvýstižněji prokládá empirické hodnoty regresní funkce s nejmenším součtem čtverců odchylek teoretických od empirických hodnot závisle proměnné (nejvyšší hodnota indexu korelace), ale i z hlediska věcně logického, podle věcné podstaty zkoumané závislosti. Při odhadu neznámých parametrů v nelineárním modelu lze použít opět metodu nejmenších čtverců, i když se často volí i jiná kritéria či postupy (někdy se na základě předpokladu o typu rozdělení náhodných chyb hledají maximálně věrohodné odhady). V případě nelineární regrese vnímáme reziduální součet čtverců především jako funkci neznámých parametrů β a minimalizovaný výraz zapíšeme ve tvaru n
n
i =1
i =1
2
∑ ei2 = ∑ [yi − f (xi , β )]
vzhledem k vektoru neznámých parametrů β . Je-li bod minima vnitřním bodem parametrického prostoru, ze kterého neznámé parametry vybíráme, je možné minimum funkce parametrů nalézt jako bod, ve které jsou parciální derivace podle parametrů nulové. Derivováním postupně podle parametrů βj (j = 1, 2, …, p) a jejich anulováním dostáváme soustavu p normálních rovnic. V případě nelineárních modelů je však nelineární vzhledem k parametrům i tato soustava a řešení (až na výjimky) nelze zapsat v explicitním maticovém tvaru tak, jak je to možné v případě modelu lineárního. Rovnice mají i pro jednoduché regresní funkce relativně složitý tvar, takže při řešení normálních rovnic je třeba použít nějakou vhodnou numerickou metodu (iterace). Navíc nemusí být řešení soustav rovnic jediné a nulovost parciálních derivací ještě nezaručuje, že v daném bodě existuje minimum. Případně nalezený extrém funkce nemusí být globální minimum, může to dokonce být i lokální maximum nebo sedlový bod. Některé statistické programy nabízí postupy založené na derivačních metodách pro metodu nejmenších čtverců. Jejich algoritmy vyžadují buď analytický výpočet derivací (prvních, případně druhých) regresní funkce, nebo v každém kroku používají relativní přírůstky funkce, a tedy numerické odhady hodnoty derivace. Samotné metody používají pak iterace, které konstruují posloupnost přiblížení tak, aby konvergovala k hledanému bodu minima. Na rozdíl od lineárních regresních modelů je třeba u nelineárních modelů počítat s řadou komplikací: - neodhadnutelností některých parametrů, - existencí minima funkce jen pro některé regresní modely, - výskytem lokálních minim a sedlových bodů, - špatnou podmíněností parametrů v regresním modelu, - smalým rozmezím experimentálních dat (zejména u parametrů vyjadřujících limitní chování modelu). Metoda nejmenších čtverců pro vybrané nelineární funkce Výpočet parametrů vychází z podmínky minimálnosti čtverců n
∑(y i =1
i
− yi′ ) 2 = min
Dosazením do výrazu za y`i a derivováním podle jednotlivých parametrů funkce lze dospět k soustavě normálních rovnic, ze kterých se parametry vypočítají. Normální rovnice lze sestavovat mechanicky, aniž by jejich vyvození muselo být praktikováno prostřednictvím parciálních derivací. Sestavují se tak, že se každý člen rovnice postupně násobí příslušnou simultánní funkcí nezávisle proměnné u jednotlivých parametrů regresní rovnice a vždy po vynásobení jednotlivými simultánními funkcemi se provede součet. Předpokladem však je, aby regresní rovnice byla aditivního typu a simultánní funkce nezávisle proměnné bez neznámých parametrů. U závisle proměnné se uvádějí empirické hodnoty. Tak první normální rovnice pro funkci
yi′ = a +
b xi
se získá vynásobením jedničkou, neboť při parametru a je simultánní funkce rovna 1 (= x0), a součtem, tedy n
n
i =1
i =1
∑ yi = na + b∑
1 . xi - 24 -
Christy
Matematická statistika II přednášky Druhá normální rovnice se obdrží vynásobením a následným součtem, tedy n
n n yi 1 1 = a + b . ∑ ∑ ∑ 2 i =1 xi i =1 xi i =1 xi
Podobným způsobem lze vytvořit soustavu normálních rovnic pro všechny ostatní regresní funkce aditivního tvaru. n
∑y i =1
yi′ = a + b log xi
n
i
= na + b ∑ log xi i =1
n
∑ y log x i
i =1
i
n
n
i =1
i =1
= a ∑ log xi + b∑ log 2 xi
∑ y = na + b∑ x + c∑ x ∑ x y = a ∑ x + b∑ x + c∑ x ∑ x y = a ∑ x + b∑ x + c ∑ x
yi′ = a + bxi + cxi2
i
i
2 i
2 i
i
i
2 i
i
2 i
i
3 i
3 i
4 i
Polynomická regrese
∑ y = nb + b ∑ x + K + b ∑ x ∑ x y = b ∑ x + b ∑ x +K+ b ∑ x i
i
0
i
0
1
i
i
p i
p
2 i
1
p +1 i
p
....................................................................
∑x
p i
yi = b0 ∑ xip + b1 ∑ xip +1 + K + b p ∑ xi2 p
y′i = a + bx 3i + c x i +
d x i2
∑y
i
= na + b ∑ x 3i + c∑ x i + d ∑
∑x y 3 i
∑
i
1 x i2
= a ∑ x 3i + b∑ x 6i + c∑ x 3i x i + d ∑ x i
x i y i = a x i + b∑ x 3i x i + c∑ x i + d ∑ yi
∑x
2 i
= a∑
xi x i2
x 1 1 + b ∑ x i + c∑ 2 i + d ∑ 4 2 xi xi xi
Exponenciální funkce Odhad parametrů, které nejsou lineární v parametrech, neprovádíme MNČ přímo, protože její použití vede k soustavě nelineárních rovnic, z nichž zpravidla nedokážeme odhadnout přímo parametry ve formě vhodných výpočetních vzorců. Proto se při odhadu parametrů nelineárních regresních funkcí většinou postupuje tak, že se najde jejich vhodný počáteční odhad a postupným zlepšováním řešení nalezneme odhad s požadovanou přesností. Používá se tedy způsob, kdy určitou regresní funkci, která je nelineární z hlediska parametrů, převedeme pomocí linearizující transformace na funkci lineární v parametrech. Transformace spočívá vtom, že pomocí logaritmů, převrácením hodnot apod. dojdeme k takovému tvaru regresní funkce, že její parametry bude už možné odhadovat MNČ.
log yi′ = log a + xi log b
yi′ = a • b xi
∑ log y = n log a + log b∑ x ∑ x log y = log a∑ x + log b∑ x i
i
i
i
i
2 i
Řešením jsou parametry ve tvaru log a a log b. Pokud chceme exponenciální funkci vyjádřit v původním tvaru, je potřeba provést odlogaritmování funkcí 10x.
- 25 -
Christy
Matematická statistika II přednášky
Kvadratická regresní funkce 8,5 8 7,5
Y
7 6,5 6 5,5 5 30
50
70
90
110
130
150
X
Exponenciální funkce 90000 80000 70000
Y
60000 50000 40000 30000 20000 10000 0 0
2
4
6
8
10
12
14
16
X
Logaritmická funkce 600000 500000
Y
400000 300000 200000 100000 0 0
2
4
6
8
10
12
14
X - 26 -
Christy
Matematická statistika II přednášky
Mocninná funkce 120,00 110,00
Y
100,00 90,00 80,00 70,00 60,00 0
2
4
6
8
10
12
14
16
X
Lomená funkce 75 70 65
Y
60 55 50 45 40 35 0
2
4
6
8
10
12
14
16
X
Charakteristiky korelace u nelineární regrese Pomáhají nám při posouzení kvality regresní funkce a ke zjištění síly závislosti. Posuzovaný vztah je tím silnější a regresní funkce tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou empirické hodnoty vzdáleny hodnotám vyrovnaným. Umožňuje také posoudit přesnost regresních odhadů – čím více se jednotlivé napozorované hodnoty soustřeďují kolem zvolené regresní čáry, tím je závislost těsnější a odhad přesnější. Při konstrukci míry ukazující na sílu závislosti vycházíme ze vztahu empirických a vyrovnaných hodnot, kdy pomocí těchto hodnot můžeme konstruovat tři rozptyly s různou vypovídací schopností: - rozptyl empirických (skutečně zjištěných) hodnot y
s y2 =
1 ( yi − y )2 , ∑ n
- rozptyl vyrovnaných hodnot (teoretický rozptyl)
s y2′ =
1 ( yi′ − y ) 2 , ∑ n
- rozptyl skutečně zjištěných hodnot kolem regresní čáry, tj. rozptyl empirických hodnot od hodnot vyrovnaných (reziduální rozptyl)
- 27 -
Christy
Matematická statistika II přednášky
(
1 ∑ yi − yi′ − y − y′ n
s(2y − y′) =
)
2
=
1 ( yi − yi′ ) 2 . ∑ n
Lze dokázat, že při použití metody nejmenších čtverců mezi uvedenými rozptyly platí vztah
s y2 = s y2′ + s(2y − y′ ). Rozptyl empirických hodnot lze tedy rozložit na rozptyl vyrovnaných hodnot a rozptyl reziduálních hodnot.
Podíl složek na empirickém rozptylu - teoretický rozptyl s 2 = 0, takže y′
s y2 = s(2y − y′ )
Jde o krajní případ, kdy je y`i nezávislé na xi, kdy jde vlastně o regresní přímku rovnoběžnou s osou x. v daném případě jde o nezávislost. - reziduální rozptyl s 2 = 0, takže s 2 = s 2 ( y − y′)
y
y′
Druhý krajní případ, kdy je každé y`i shodné s yi. Všechna empirická pozorování vyhovují teoretickým hodnotám na regresní přímce. Jde o pevnou závislost. - teoretický rozptyl s 2′ ≠ 0, s 2 ′ ≠ 0, takže s 2 = s 2′ + s 2 ′ ( y− y )
y
y
y
( y− y )
Závislost proměnné Y na proměnné X bude zřejmě tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu, a tím slabší, čím bude podíl tohoto rozptylu menší. Sílu závislosti je tedy možné měřit poměrem V daném případě jde o volnou závislost.
I = 2 yx
s 2y′ s 2y
.
Tento poměr se nazývá index determinace. V případě funkční závislosti nabude hodnoty 1, v případě nezávislosti hodnoty 0. Čím více se bude blížit jedné, tím se závislost považuje za silnější, a tedy dobře vystiženou zvolenou regresní funkcí. Index determinace v procentickém vyjádření udává, jaké procento rozptýlení empirických hodnot závisle proměnné je důsledkem rozptylu teoretických hodnot závisle proměnné odhadnutých na základě příslušné regresní funkce. Kvalitu regresní funkce a intenzitu závislosti můžeme hodnotit podle toho, jak se podílí na rozptylu skutečně zjištěných hodnot rozptyl vyrovnaných hodnot, příp. rozptyl odchylek kolem regresní čáry. Je třeba mít na zřeteli, že velikost indexu determinace je zcela ovlivněna tím, zda se podařilo nalézt vhodný typ regresní funkce pro popis dané závislosti. Nízká hodnota indexu determinace nemusí ještě znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu regresní funkce. Index determinace lze také konstruovat nepřímo, tj. ve tvaru
I yx2 =
s 2y′ s 2y
= 1−
s(2y − y ′) s 2y
.
K měření těsnosti závislosti se v praxi častěji používá odmocnina indexu determinace, která se nazývá index korelace.
I yx =
s y2′ s y2
Index korelace poskytuje stejné informace o těsnosti závislosti jako index determinace, jinak však má menší vypovídací schopnost. Dosadíme-li do vzorce indexu korelace za oba rozptyly, dostaneme výpočetní vzorec ve formě
∑ ( y′ − y ) ∑ (y − y )
2
I yx =
i
2
.
i
Index korelace se používá k měření těsnosti závislosti pro libovolnou regresní funkcí, jejíž parametry byly odhadnuty metodou nejmenších čtverců. Pro dosazení do uvedených vzorců indexu korelace je potřebné vypočítat pro každou hodnotu xi podle konkrétní regresní funkce teoretické hodnoty y`i a pak teprve počítat příslušné součty čtverců pro teoretický či lépe reziduální rozptyl.
- 28 -
Christy
Matematická statistika II přednášky Snadnější a výhodnější je následující postup výpočtu
s 2y′
I yx =
2 ∑ (y′i − y ) 2 ∑ (y i − y )
=
s 2y
=
2 1 ( yi ) ∑ n , 2 1 2 ∑ yi − n (∑ yi )
∑ y′
2
i
−
∑ y′ = ∑ y y′. 2
přičemž
i
i
i
Např. v případě kvadratické funkce lze psát
∑ y′ = ∑ y (a + bx + cx ) = a∑ y + b∑ x y 2
i
i
2 i
i
i
i
i
+ c∑ xi2 yi .
Korelační poměr Pokud nelze z jakýchkoliv důvodů určit konkrétní tvar vyrovnávající regresní funkce, používá se k určení těsnosti závislosti míry, která se nazývá korelační poměr. V určitém smyslu je to obecnější míra závislosti než index či koeficient korelace, protože na rozdíl od nich nezávisí na tvaru regresní funkce. Z definice korelační závislosti vyplývá, že se změnami hodnot vysvětlující proměnné se systematicky mění podmíněné průměry závisle proměnné. V takovém případě se v podmíněných průměrech projevuje určitá variabilita, kterou lze měřit rozptylem podmíněných průměrů Vliv ostatních činitelů na závisle proměnnou se pak projevuje tím, že v podmíněných rozděleních závisle proměnné dochází ke kolísání jednotlivých hodnot závisle proměnné okolo podmíněných průměrů. Toto kolísání se měří průměrem z podmíněných rozptylů . Závislost Y na X lze tedy zřejmě považovat za tím silnější, čím větší je variabilita podmíněných průměrů ve srovnání s variabilitou hodnot v podmíněných rozděleních.
s y2 = s y2 + s 2 ,
Protože platí
je zřejmé, že lze tuto míru těsnosti závislosti konstruovat jako poměr
s 2y s 2y
=
s y2 − s 2 s 2y
s2 = 1− 2 . sy
Tento poměr udávaný v % se nazývá poměr determinace a udává, jaké % rozptylu závisle proměnné lze vysvětlit vlivem nezávisle proměnné X. Doplněk do 100 % pak udává vliv blíže nespecifikovaných činitelů. Čím více se blíží poměr determinace jedné, tím je závislost proměnné Y na proměnné X silnější. V případě, že variabilita hodnot v podmíněných rozděleních je nulová, je poměr determinace roven 1 a jde tedy o úplnou závislost mezi oběma proměnnými. Naopak v případě, že jsou všechny podmíněné průměry stejné, je poměr determinace nulový a jde tedy o korelační nezávislost Y na X. K měření těsnosti závislosti se pak používá odmocnina z poměru determinace, která se nazývá korelační poměr
η yx =
s 2y s 2y
.
Korelační poměr lze také vypočítat nepřímo ve tvaru:
η yx =
s 2y − s 2 s y2
= 1−
s2 . s y2
Za předpokladu, že závislost mezi proměnnými byla zkoumána na dostatečně velkém počtu pozorování, kdy podmíněné průměry závisle proměnné Y nemohou být výrazněji ovlivňovány nahodilými vlivy, lze pak pozorováním velikosti korelačního poměru a indexu korelace (příp. koeficientu) usuzovat na vhodnost použité funkce. Čím více se budou hodnoty obou měr k sobě přibližovat, tím se bude použitá regresní funkce považovat za vhodnější zobrazení dané závislosti. Maticový způsob stanovení parametrů nelineárních funkcí −1 b = (X′X ) X′y.
- 29 -
Christy
Matematická statistika II přednášky
y1 y y = 2 M yn
b0 b b = 1 M bk
Kvadratická funkce
1 x1 1 x2 X= M M 1 xn
x12 x22 M xn2
Logaritmická funkce
1 log x1 1 log x 2 X= M M 1 log xn
ε1 ε ε = 2 M ε n Hyperbola (lomená)
Odmocninná funkce
1 1 1 x 1 1 X= 1 M 1 X = x2 1 M M 1 1 funkce Exponenciální 1 xxn log y1 1 1 x log y 2 2 X= y= M M M 1 xn log yn
x1 x2 M xn
x1 x2 M xn
log a b= log b
Maticově lze stanovit i hodnotu korelačního indexu.
I=
1 ( yi )2 ∑ n 1 2 y′y − ∑ ( yi ) n
b′X′y −
Statistická analýza v nelineárním modelu Intervalové odhady parametrů Bodové odhady b regresních parametrů β jsou ze statistického hlediska bezcenné, protože nic neuvádějí o tom, v jakých mezích lze očekávat výskyt skutečných hodnot β . Odhady b jsou náhodné veličiny určené na základě výběru dat o velikosti n. U nelineárních regresních modelů se při konstrukci intervalů spolehlivosti používá převážně linearizace, která je však použitelná pouze v případech, kdy model není silně lineární a míry nelinearity, asymetrie a vychýlení odhadů jsou malé. Postup pro stanovení intervalových odhadů jednotlivých parametrů je analogický intervalovému odhadu regresního koeficientu v případě lineárních modelů. Zanedbává se zde vliv ostatních parametrů. Protože jsou však většinou prvky vektoru b (vektor regresních parametrů) vzájemně korelované, bývají intervaly takto stanovené podceněné, tj. příliš úzké. Pro nelineární modely je možné také stanovit intervaly spolehlivosti predikce, vyčíslené v celém rozmezí hodnot nezávisle proměnné, tzn. stanovit pásy spolehlivosti.
Testy hypotéz o odhadech parametrů Testování hypotéz souvisí úzce s konstrukcí oblastí spolehlivosti. Pokud parametry β0 leží v 95% oblasti spolehlivosti kolem b, lze na hladině významnosti α = 0,05 považovat rozdíly (β - β0) za statisticky nevýznamné. Samotné testy pak lze konstruovat stejně jako v lineárním modelu (za předpokladu alespoň přibližné normality odhadu metodou nejmenších čtverců). Individuální testy o nulových hodnotách parametrů však nemají v nelineární regresní analýze dobrý význam, protože známe-li vhodnou regresní funkci, jsou případné zjednodušené modely těžko interpretovatelné. V jiných případech je třeba testovat jiné hodnoty parametrů než nulové.
- 30 -
Christy
Matematická statistika II přednášky Těsnost proložení regresní křivky U lineárních regresních modelů slouží analýza reziduí k ověřování některých předpokladů o chybách ε, u nelineárních modelů pak především k posouzení dosažené těsnosti proložení vypočtené regresní křivky danými experimentálními body. Analýzou vlivných bodů se identifikují body, které silně ovlivňují odhadované regresní parametry v modelu, což umožňuje určit vybočující pozorování nebo extrémy. Statistická analýza reziduí Pro aditivní modely měření a užívanou NMČ jsou rezidua definována vztahem ei = yi – f(xi, b). K analýze reziduí se užívá jednak názorného grafického zobrazení vektoru reziduí a jednak numerické analýzy směřující ke statistickému testování. Grafická analýza reziduí Grafickou (předběžnou) analýzou reziduí spočívající v prostém zobrazení vektoru reziduí, lze snadno odhalit: - odlehlé (extrémní) hodnoty v souboru reziduí, - trend v reziduích, - nedostatečné střídání znaménka u reziduí, - chybný model nebo vzájemnou závislost reziduí, - heteroskedasticitu (nekonstantnost rozptylu) závisle proměnné veličiny Y, - náhlou změnu podmínek při měření hodnoty y.
Statistická (numerická) analýza reziduí Analýza reziduí je hlavní diagnostickou pomůckou při hledání a rozlišení regresního modelu a navíc těsnost dosaženého proložení experimentálními body je mírou věrohodnosti nalezených odhadů. Mezi nejčastěji užívané statistiky patří především střední hodnota reziduí E(e), která by se měla rovnat nule, dále průměrné reziduum, směrodatná odchylka střední hodnoty reziduí a konečně koeficient šikmosti a koeficient špičatosti reziduí. Pro normální rozdělení reziduí by se měl koeficient šikmosti rovnat nule a koeficient špičatosti třem. Pozn. Diagnostické metody nejsou vždy spolehlivé, protože rezidua nemají nulovou střední hodnotu, jsou vychýlená, jsou přibližně lineární kombinací chyb a navíc závisejí na skutečných hodnotách parametrů β (které jsou uživateli neznámé). Příklad
Proměnná X 3
5
6
5
8
3
7
4
6
5
7
2
Proměnná Y 6
2,5
2
3
1,5
4,5
2
5,5
3
3,5
2,5
7
- 31 -
Christy
Matematická statistika II přednášky
Černá čára – regresní funkce, červené čáry – intervalový odhad regresní funkce, fialová čára – pás spolehlivosti.
- 32 -
Christy
Matematická statistika II přednášky
Vícenásobná regrese a korelace Kromě posouzení jednoduchých vztahů mezi dvěma proměnnými je mnohdy účelné vystihnout vliv více proměnných na jednu proměnnou. V tom případě tedy zkoumáme, jak závisí proměnná y nejen na vysvětlující proměnné x1, ale též na dalších proměnných x2, …, xk. Metody zkoumání tohoto typu se nazývají vícenásobnou (mnohonásobnou) korelační závislostí. Dílčí vliv každé ze zúčastněných nezávisle proměnných pak lze posoudit tzv. dílčí korelační závislostí. Obdobně jako u jednoduché korelační závislosti je možno rovněž u vícenásobné a dílčí korelační závislosti charakterizovat prostřednictvím regrese očekávanou úroveň, resp. změnu závisle proměnné podle úrovní, resp. změn nezávisle proměnných a prostřednictvím korelace stupeň (těsnost) vztahu. Mnohonásobná regrese je prostředkem zkoumání statistické závislosti pomocí modelu, jenž zahrnuje jednu závisle proměnnou a několik nezávislých proměnných. Data získáme tak, že u prvků výběru zjistíme hodnoty všech uvažovaných proměnných. Rozlišujeme tři druhy úlohy, pro jejichž řešení je vhodné aplikovat mnohonásobnou regresní analýzu: - Chceme poznat efekt, který má na cílovou proměnnou Y souhrn změn ovlivňujících parametrů X1, X2, …, Xk. - Chceme predikovat hodnotu závisle proměnné Y pro budoucí hodnoty proměnných X1, X2, …, Xk. - V rámci explorační statistické analýzy chceme vyhledat statistické vztahy mezi závisle proměnnou a několika nezávisle proměnnými. Vícenásobnou regresi lze vyjádřit jednak podmíněnými průměry závisle proměnné, jednak vícenásobnou regresní funkcí, která je častější. Je potřeba vždy zvolit takovou funkci, která co nejpřesněji vystihuje danou skutečnost z věcného přístupu a přitom která splňuje formální podmínky z přístupu matematicko-statistického a jejíž řešení je relativně nejjednodušší. Volba vhodného typu vícenásobné regresní funkce je v tomto případě obtížná (systém pokus – omyl). Odpadá zde totiž možnost zachycení grafického průběhu závislosti i logického posouzení vhodnosti určitého typu regresní funkce. Při hledání vhodného typu vícenásobné regresní funkce se proto opíráme hlavně o matematicko-statistická kritéria (míry těsnosti, směrodatné chyby regresních koeficientů, různé testy apod.), která nám zpravidla z velkého okruhu různých typů regresních funkcí umožní vybrat tu nejvhodnější. Velmi často se při hledání vhodného typu mnohonásobné regresní funkce postupuje tak, že se analyzuje zvlášť závislost mezi závisle proměnnou y a jednotlivými vysvětlujícími proměnnými x1, x2, …, xk a výslednou regresní funkci pak konstruujeme jako součet jednoduchých regresních funkcí. Vícenásobné funkce mohou být stanoveny buď jako lineární nebo jako nelineární. Data zachycujeme tabulkou, kde pro každý objekt uvádíme hodnoty nezávislých proměnných a závisle proměnné. Např. zjišťujeme u n žáků hodnoty k nezávisle proměnných X1, X2, …, Xk a závisle proměnnou Y. Matice měření X má pak tvar:
žák 1 : ( x11 ,
x12 , L x1k ,
y1 )
žák 2 : ( x21 ,
x22 , L x2 k ,
y2 )
M
M
M
M
M
žák n : ( xn1 , xn 2 , L xnk ,
M yn )
Řádku v matici se říká vektor měření.
Jestliže je závisle proměnná y lineárně závislá na každé z vysvětlujících proměnných x1, x2, …, xk (jednoduché závislosti jsou lineární) a jsou-li zároveň tyto vysvětlující proměnné vzájemně nezávislé (nebo alespoň ovlivňují změny závisle proměnné všechny jedním směrem), používáme pro vystižení vývoje závisle proměnnou vícenásobnou lineární funkci proměnných x1, x2, …, xk. Předpokládejme tedy v souladu s úvahami o jednoduché regresi, že závislost lze charakterizovat rovnicí y = Y + ε, kde ε jsou opět reziduální (nahodilé) odchylky, které lze interpretovat jako důsledek působení nahodilých vlivů včetně eventuální nedokonalosti zvolené funkce. Regresní funkci Y lze pak vyjádřit ve tvaru Y = β0 + β1x1 + β2x2 + … + βkxk, kde β0, β1, β2, …, βk jsou neznámé parametry a x1, …, xk jsou vysvětlující proměnné. Odhadnutou regresní funkci lze zapsat ve tvaru
- 33 -
Christy
Matematická statistika II přednášky k
yi′ = b0 + ∑ br xri
k = počet nezávisle proměnných
r =1
nebo jako y`i = b0 + b1x1 + b2x2 + … + bkxk, příp. ve snáze interpretovatelném tvaru
yi′ = b0 + byx1 . x2 x3 Kxk x1 + byx2 . x1x3 Kxk x2 + K + byxk . x1x2 Kxk −1 xk Neznámé parametry v regresní funkci lze získat pomocí MNČ, kdy řešíme soustavu k +1 normálních rovnic. n
∑y i =1
n
i
n
n
= nb0 + b1 ∑ x1i + b2 ∑ x2i + K bk ∑ xki i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
∑ x1i yi = b0 ∑ x1i + b1 ∑ x12i + b2 ∑ x1i x2i + Kbk ∑ x1i xki i =1
∑ x2i yi = b0 ∑ x2i + b1 ∑ x1i x2i + b2 ∑ x22i + K + bk ∑ x2i xki M
∑ xki yi = b0 ∑ xki + b1 ∑ x1i xki + b2 ∑ x2i xki + K + bk ∑ xki2 Parametry byx1.x2x3…xk, byx2.x1x3…xk, byxk.x1x2…xk-1 (nebo obecně br) se nazývají dílčí regresní koeficienty a udávají odhad toho, jak by se změnila v průměru vysvětlovaná (závisle) proměnná y při jednotkové změně vysvětlující proměnné před tečkou, za předpokladu konstantní úrovně proměnných uvedených za tečkou. Např. dílčí regresní koeficient byx2.x1x3 udává, jak se změní v průměru závisle proměnná y při jednotkové změně vysvětlující proměnné x2 za předpokladu, že proměnné x1 a x3 zůstanou konstantní. V případě, že jsou známy koeficienty dílčí regrese a průměrné hodnoty jednotlivých nezávisle proměnných, lze určit vícenásobnou lineární funkci prostřednictvím transformovaného tvaru.
yi′ = y + byx1 . x2 x3Kxk ( x1i − x1 ) + byx2 . x1 x3 Kxk ( x2i − x2 ) + K
K + byxk . x1 x2 Kxk −1 ( xki − xk ) Podrobněji se podíváme na nejjednodušší případ vícenásobné regrese, tzv. dvojnásobné regrese, kdy předpokládáme, že na změny závisle proměnné y působí dvě vysvětlující proměnné x1 a x2, tj. že platí Y = β0 + β1x1 + β2x2, jejímž odhadem je
y′i = b 0 + b yx1 .x 2 x1 + b yx 2 .x1 x 2 .
Protože se jedná o klasickou lineární regresi, je možné parametry funkcí s více vysvětlujícími proměnnými odhadovat metodou nejmenších čtverců. Dosadíme-li do základní podmínky, dostaneme
∑ε
2 i
(
= ∑ yi − β 0 − β yx1 . x2 x1i − β yx2 . x1 x2i
)
2
= min .
Následně dostaneme normální rovnice ve tvaru n
n
n
∑ yi = nb0 + b1 ∑ x1i + b2 ∑ x2i i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
∑ x1i yi = b0 ∑ x1i + b1 ∑ x12i + b2 ∑ x1i x2i ∑ x2i yi = b0 ∑ x2i + b1 ∑ x1i x2i + b2 ∑ x22i Vydělíme-li první normální rovnici v soustavě n, dostaneme
∑y n
i
=
n • b0 + byx1 . x2 n
∑x
1i
n
+ byx2 . xn
∑x n
2i
,
- 34 -
Christy
Matematická statistika II přednášky
b0 = y − byx1 . x2 • x1 − byx2 . x1 • x2 . Dosadíme-li za b0, dostaneme regresní funkci ve výpočtovém tvaru
yi′ = y + byx1 . x2 ( x1 − x1 ) + byx2 . x1 ( x2 − x2 ). Při zkoumání závislosti prostřednictvím jednoduché regrese a korelace se vliv nezávisle proměnné na závisle proměnnou neprojevuje v „čisté“ formě, nýbrž odráží v sobě kladné i záporné vlivy ostatních jevů, jež rovněž na závisle proměnlivý jev působí. Často je však třeba objasnit závislost dvou jevů tak, aby vliv ostatních faktorů byl vyloučen. To je úkolem dílčí regrese a korelace. Průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné x1 za předpokladu, že ostatní sledované nezávisle proměnné x2, x3, …, xk jsou konstantní (je tedy vyloučen vliv jejich různých úrovní), udává koeficient dílčí regrese, jehož rekurentní vzorec je
b yx1 • x 2 x 3 Kx k =
b yx1 • x 2 x 3 Kx k−1 − b yx k • x 2 x 3 Kx k−1 b x k x1 • x 2 x 3 Kx k−1 1 − b x1x k • x 2 x 3 Kx k−1 b x k x1 • x 2 x 3 Kx k−1
.
Rekurentní vzorce představují postup, ve kterém se vždy dílčí regresní koeficient určitého řádu vyjadřuje pomocí několika koeficientů o řád nižších. Pro případ dvounásobné regresní funkce lze dílčí regresní koeficienty vyjadřovat pomocí koeficientů prvního řádu.
byx1 • x2 =
byx1 − byx2 bx2 x1
byx2 • x1 =
1 − bx1 x2 bx2 x1
byx2 − byx1 bx1 x2 1 − bx1 x2 bx2 x1
Při výpočtu dílčí regrese je třeba mít na paměti, že je vyloučen vliv zbývajících zúčastněných proměnných (jsou uvedeny v indexu za tečkou), že však spolupůsobí další nezúčastněné zjistitelné i prakticky nezjistitelné faktory. Jde-li nám tedy o postihnutí skutečného vlivu kteréhokoliv nezávisle proměnlivého jevu, měly by být do výpočtu vzaty všechny nezávisle proměnné (koeficient vícenásobné korelace se bud v daném případě blížit jedné). V indexu koeficientu dílčí regrese jsou před tečkou uvedeny dvě proměnné, přičemž na prvním místě vždy závisle proměnná, jejíž změnu koeficient vyjadřuje, a na druhém místě nezávisle proměnná, u níž je uvažována změna o příslušnou měrnou jednotku. Za tečkou jsou uváděny další zúčastněné nezávisle proměnné, jejichž vliv je vyloučen, přičemž nezáleží na pořadí. Např. dvěma regresním koeficientům jednoduché závislosti pro proměnné y a x2 odpovídají obdobné regresní koeficienty dílčí závislosti bx2y → bx2y.x1x3x4…xk. byx2 → byx2.x1x3x4…xk Stanovení regresních koeficientů pomocí rekurentních vzorců je náročnou prací, zvláště na numerické výpočty, které musí být prováděno s vysokou přesností, takže tento postup se příliš často nepoužívá. Ke stanovení regresních koeficientů lze využít také postup založený na znalosti charakteristik korelace.
byx1 . x2 =
sy s x1
•
ryx1 − ryx2 rx1 x2
byx2 . x1 =
1− r
2 x1 x2
sy s x2
•
ryx2 − ryx1 rx1 x2 1 − rx21x2
b0 = y − byx1 . x2 • x1 − byx2 . x1 • x2
Vedle dalších charakteristik používáme pro účely srovnání a posouzení individuálního vlivu jednotlivých vysvětlujících proměnných na závisle proměnnou rovněž normalizované regresní koeficienty, tzv. β -koeficienty. Jestliže provedeme následující transformace (s využitím směrodatných odchylek proměnných y, xi, i = 1, 2, …, k)
y′ =
yi′ − y x − xi , xi′ = k , i = 1, 2,..., k , sy s xi
lze konkrétně regresní funkci zapsat pro k =2 ve tvaru
yi′ = β yx1 . x2 x1′ + β yx2 . x1 x2′ .
Regresní koeficienty v této funkci se nazývají právě β-koeficienty a mohli bychom je odhadnout pomocí metody nejmenších čtverců. Lze je však rovněž vypočítat z dílčích regresních koeficientů, přičemž platí následující vztah
β yx . x = 1
2
s x1 sy
byx1 . x2 ; β yx2 . x1 =
s x2 sy
byx2 . x1 . β-koeficienty vypočítat následujícím způsobem
Známe-li jednoduché korelační koeficienty, můžeme
β yx . x = 1
2
ryx1 − ryx2 rx1x2 1− r
2 x1 x2
; β yx2 . x1 =
ryx2 − ryx1 rx1 x2 1 − rx21 x2
.
- 35 -
Christy
Matematická statistika II přednášky Velikost dílčích regresních koeficientů je ovlivněna volbou měrné jednotky. Většinou jsou regresní koeficienty uváděny v jednotkách závisle proměnné y připadající na jednotku vysvětlující proměnné xk. Tím, že provedeme standardizaci, dostaneme bezrozměrné β-koeficienty v tom smyslu, že jsou nezávislé na měrných jednotkách, v nichž jsou jednotlivé proměnné uvažovány. Tím je možné jejich vzájemné srovnání, které u regresních koeficientů dosti dobře provést nelze. Toto srovnání slouží především k určení intenzity vlivů jednotlivých vysvětlujících proměnných na závisle proměnnou (posuzujeme relativní přínos proměnných X k predikci proměnné Y). Numerické výpočty u vícenásobné regrese jsou poměrně náročné. K řešení lze i tady použít maticový počet. Obecné řešení je zcela totožné s maticovým vyjádřením u jednoduché lineární regrese, stačí konkretizovat pro případ vícenásobné regresní funkce matici X`X a vektor X`y.
∑x ∑x ∑x x
n X′X = ∑ x1i ∑ x2 i
∑x ∑x x ∑x
1i 2 i 2 2i
1i 2 1i
2i
1i 2 i
Vektor odhadovaných parametrů pak dostaneme obdobně jako v případě jednoduché lineární regrese.
Vícenásobná a dílčí lineární korelace Zatímco prostřednictvím regrese byl charakterizován vliv změn nezávisle proměnných na teoretickou úroveň závisle proměnné, pomocí korelace je hodnocen stupeň (těsnost) závislosti, a to jak pro případ společného vlivu všech zúčastněných proměnných, tak i pro případ jejich dílčího vlivu. Společný vliv nezávisle proměnných x1, x2, …, xk na závisle proměnnou y z hlediska síly vztahu udává koeficient vícenásobné korelace, tzn. měří těsnost závisle proměnné y na všech vysvětlujících proměnných. Měří jednak těsnost závislosti mezi proměnnými a umožňuje tím posoudit kvalitu regresního odhadu zkonstruovaného na základě vícenásobné regresní funkce, jednak jej lze použít při hodnocení volby vysvětlujících proměnných. V případě, že jeho hodnota je malá, znamená to, že vybrané vysvětlující proměnné nepostačují vysvětlit změny analyzované závisle proměnné. V případě, že měříme těsnost závislosti proměnné y na dvou vysvětlujících proměnných x1 a x2, lze stanovit koeficient vícenásobné korelace (někdy se označuje symbolem R) pomocí jednoduchého vzorce
ry . x1 x2 =
ryx2 1 − 2ryx1 ryx2 rx1x2 + ryx2 2 1 − rx21 x2
V případě, že známe korelační koeficienty, lze koeficient vícenásobné korelace vyjádřit nepřímo ve formě rekurentního vzorce
(1 − r ) = (1 − r )(1 − r ). 2 y . x1 x2
2 yx1
2 yx2 . x1
Z uvedeného rekurentního vzorce vyplývá, že koeficient vícenásobné korelace je vyjadřován jako součin jednoduchého a dílčího koeficientu korelace. Uvedený rekurentní vzorec se dá zobecnit i pro k vysvětlujících proměnných.
(1 − r ) = (1 − r )(1 − r = (1 − r )(1 − r )(1 − r )K (1 − r 2 y . x1 x2 ... x k 2 yx1
2 y . x1 x2 ... xk −1
2 yx2 . x1
2 yx3 . x1 x2
2 yxk . x1 x2 ... xk −1
)=
2 yxk . x1 x2 ... xk −1
)
Koeficient vícenásobné korelace vždy leží v intervalu
0 ≤ ry . x1 x2 ... xk ≤ 1 a je vždy větší než největší z jednoduchých korelačních koeficientů.
Maticové vyjádření Máme matici korelačních koeficientů mezi vysvětlujícími proměnnými, kde na hlavní diagonále leží korelační koeficienty rii = 1, a vektor korelačních koeficientů mezi vysvětlujícími proměnnými a závisle proměnnou:
1 r x x R= 21 M rxk x1
rx1x2 1 M rxk x 2
L rx1xk L rx2 xk L M L 1 - 36 -
Christy
Matematická statistika II přednášky Pak čtverec koeficientu vícenásobné korelace vypočítáme podle vzorce
ry2. x1 x2 ... xk = r ′R −1r.
K výpočtu lze také použít případ, kdy se vychází z rozkladu rozptylu závisle proměnné.
ry . x1 x2 ...xk =
s y2′ s y2
Koeficient dílčí (parciální) korelace ryx1.x2…xk měří intenzitu lineární závislosti proměnné y na vysvětlující proměnné x1 (obecně na proměnné uvedené před tečkou) za předpokladu, že všechny ostatní proměnné za tečkou, tj. x2, x3, …, xk jsou konstantní. Podobně jako u jednoduché regrese lze koeficient dílčí korelace vyjádřit jako odmocninu ze součinu sdružených regresních koeficientů. Pro dvě vysvětlující proměnné pak platí
ryx1 . x2 = byx1 . x2 • bx1 y . x2 . Dosadíme-li do vzorců dílčích regresních koeficientů, pak po úpravě dostaneme rekurentní vzorec pro výpočet dílčího korelačního koeficientu.
ryx1 . x2 =
ryx1 − ryx2 • rx1 x2
(1 − r )(1 − r ) 2 yx2
2 x1 x2
Koeficient ryx1.x2 měří tedy těsnost závislosti mezi závisle proměnnou y a vysvětlující proměnnou x1 oproštěnou od vlivu druhé vysvětlující proměnné x2. Analogicky lze zkonstruovat i druhý dílčí korelační koeficient, který měří těsnost závisle proměnné y na vysvětlující proměnné x2 a předpokladu vyloučení vlivu proměnné x1.
ryx2 . x1 =
ryx2 − ryx1 • rx1 x2
(1 − r )(1 − r ) 2 yx1
2 x1 x2
Uvedené vzorce jsou zvláštním případem obecného rekurentního vzorce pro výpočet koeficientu dílčí korelace libovolného řádu.
ryx1 . x2 x3 ... xk =
ryx1 . x2 x3 ... xk −1 − ryxk . x2 x3 ... xk −1 • rx1 xk . x2 x3 ... xk −1
(1 − r
2 yxk . x2 x3 ... xk −1
)(1 − r
2 x1 xk . x2 x3 ... xk −1
)
Pro sdružené vícenásobné regresní funkce pak také platí, že hodnoty dílčích korelačních koeficientů jsou shodné.
ryx1 . x2 ... xk = rx1 y . x2 ...xk Parciální korelační koeficienty nám také pomáhají při řešení tzv. problému třetí proměnné, tedy problému možného efektu rušivých proměnných. Při závislosti musíme zohlednit, že korelace dvou proměnných může být ovlivněna několika dalšími proměnnými. Mnoho atributů – jako např. výška, váha, síla, mentální schopnost, slovní zásoba, dovednost číst atd. – roste v rozmezí 6 až 18 let s věkem. Korelace těchto proměnných budou určitě pozitivní. Když z nich však vyloučíme působení věku, pravděpodobně klesnou k nule. Vliv rušivého faktoru „věk“ kontrolujeme dvěma způsoby - buď měříme vztah proměnných pouze pro vybranou věkovou kategorii nebo použijeme parciální korelační koeficient. Předpokládáme lineární závislost mezi proměnnými X, Y a Z zachycenou korelačními koeficienty ryx, ryz a rxz. Hodnoty jednotlivých koeficientů stanovíme pomocí naměřených hodnot (xi, yi, zi). Následně stanovíme hodnoty parciálních korelačních koeficientů ryx.z, ryz.x a rxz.y. Při testování nulové hodnoty parciálního korelačního koeficientu postupujeme stejně jako v případě jednoduchého korelačního koeficientu. Abychom však nalezli správnou kritickou mez, použijeme počet stupňů volnosti n – 3, kde n je počet trojic dat ve výběru.
- 37 -
Christy
Matematická statistika II přednášky Příklad V rámci screeningové akce bylo vyšetřeno 142 starších žen, u kterých byly také zaznamenávány parametry věk (v), krevní tlak (t) a koncentrace cholesterolu v krvi (c). Pro ně se vypočítaly korelační koeficienty rvt = 0,33; rvc = 0,5; rtc = 0,25. Protože zvýšené hodnoty krevního tlaku by mohly souviset se zvýšeným množstvím cholesterolu na stěnách cév, byla tato otázka důkladněji statisticky zkoumána. Parametry t a c s věkem rostou, tážeme se proto, zda jejich poměrně slabší korelace není způsobena efektem parametru věk. Vliv věku jako rušivého parametru se eliminuje zjištěním parciálního korelačního koeficientu rtc.v:
rtc .v =
0,25 − 0,33 • 0,50
(1 − 0,33 )(1 − 0,50 ) 2
2
= 0,1
Pro 139 = (142 – 3) stupňů volnosti se nedá na hladině významnosti 5 % prokázat významnost tohoto korelačního koeficientu. Tímto statistickým zkoumáním jsme neukázali, že pro každou věkovou kategorii je krevní tlak pozitivně korelován s hladinou cholesterolu v krvi. Výpočet parciálního korelačního koeficientu provádíme ve studiích, v nichž nás zajímá hlubší analýza vztahu mezi proměnnými a ověřování hypotéz o příčinných vztazích. V této souvislosti je možné nalézt různé konfigurace korelačních vztahů proměnných X, Y a Z, přičemž je nutné uvažovat i o směru možné kauzality. Varianta A X, Y, Z jsou nekorelovány rxy = 0 ryz = 0 rxz = 0 Varianta B X a Y jsou dvě nekorelované příčiny pro proměnnou Z rxy = 0 ryz ≠ 0 rxz ≠ 0 Varianta C Z je společná příčina X a Y rxy ≠ 0 ryz ≠ 0 rxz ≠ 0 ale rxy.z = 0 Varianta D Vztah X a Y je zprostředkován Z rxz ≠ 0 ryz ≠ 0 rxy = rxz ryz ale rxy.z = 0 Uvedená schémata implikují hodnoty korelačních koeficientů (v praxi ovšem předpokládáme rovnost nule pouze přibližnou). Naopak to jednoznačně neplatí. Například X → Z → Y má stejné koeficienty jako Y → Z → X. Stejně tak situace C a D jsou empiricky neodlišitelné. V těchto případech interpretujeme vztahy na základě dosavadních teoretických poznatků a pomocí základních kritérií pro ověřování kauzálního vztahu: a) silná závislost mezi proměnnými, b) prokázání této závislosti v různých podmínkách, c) prokázání změny hodnoty jedné proměnné při změně hodnoty druhé proměnné, d) působení proměnné klasifikované jako příčina předchází efektu v čase, e) existence věrohodného teoretického modelu působení. Vliv třetí proměnné lze prokázat i z grafu reziduí. Jestliže zobrazení párových hodnot (zi; ei) odhalí závislost regrese na třetí proměnné Z, můžeme si toto tvrzení ověřit vypočtením příslušného vícenásobného korelačního koeficientu a testem významnosti zlepšení predikce F-testem. Testovací F-statistika má tvar - 38 -
Christy
Matematická statistika II
F=
(r
2 y . xz
přednášky
)
− ryx2 (n − 3)
(1 − r ) 2 y . xz
,
přičemž F-testovací hodnotu srovnáme s kritickou mezí F-rozdělení se stupni volnosti 1 a n-3.
Testování průkaznosti koeficientu vícenásobné a dílčí korelace a vícenásobné regresní funkce Statistická průkaznost koeficientu vícenásobné korelace se ověřuje testováním nulové hypotézy H0: ρy.x1x2…xk = 0. Alternativní hypotéza předpokládá, že H1: ρy.x1x2…xk ≠ 0, tzn. že výběrový koeficient vícenásobné korelace ry.x1x2…xk je odhadem koeficientu vícenásobné korelace základního souboru ρy.x1x2…xk, který má hodnotu rozdílnou od nuly, a tím je tedy korelace prokázána. Za předpokladu, že jde o výběr z (k+1)-rozměrného normálního rozdělení, má při platnosti nulové hypotézy statistika
F=
ry2. x1 x2 ... xk • (n − k − 1)
(1 − r
2 y . x1 x2 ... xk
)• k
rozdělení F o k a (n – k – 1) stupních volnosti. H0 se zamítá, jestliže hodnota testového kritéria je větší než tabulková hodnota F-rozdělení. V případě zamítnutí H0 je koeficient vícenásobné korelace ry.x1x2…xk statisticky průkazný, závislost tedy byla prokázána (lze se přiklonit k hypotéze, že alespoň jeden regresní koeficient je různý od nuly). Při testování průkaznosti koeficientu dílčí korelace se testuje nulová hypotéza H0: ρyxr . x1x2…xr-1xr+1…xk = 0. Testové kritérium je v případě alternativní hypotézy H1: ρyxr . x1x2…xr-1xr+1…xk ≠ 0 rovno výrazu
t(n− k −1) = ryxr . x1 x2 ... xr −1 xr+1 ...xk •
n − k −1 1− r
2 yxr . x1 x2 ... xr −1 xr +1 ... xk
.
Kritická hodnota testového kritéria, která je veličinou Studentova rozdělení, se hledá pro stanovenou pravděpodobnost a stupně volnosti (n – k – 1). Zamítnutím H0 je průkaznost koeficientu dílčí korelace prokázána. Statistická průkaznost vícenásobné regresní funkce je ověřována pomocí analýzy rozptylu. H0 předpokládá, že testovaná regresní funkce je statisticky neprůkazná. Testové kritérium F je podílem teoretického rozptylu (rozptylu regrese) k reziduálnímu rozptylu (rozptylu kolem regrese)
F(k ;n− k −1) =
s12 , sr2
přičemž kritická hodnota se hledá při stanové pravděpodobnosti pro stupně volnosti (k; n – k – 1). Regrese vystihnutá testovanou regresní funkcí je staticky průkazná na uvažované hladině významnosti, pokud vypočtená hodnota F je větší než hodnota F tabulková. Výpočet testového kritéria F vychází z tabulky analýzy rozptylu.
Zdroj variability Regrese
Stupně
Součet čtverců
volnosti
S1 = Sc – Sr
k
n
n–k–
i =1
1
2 Reziduum S r = ∑ (y i − y ′i )
n
Celkem
S c = ∑ (y i − y )
2
Rozptyl
s 12 = s 2r =
S1 k
Sr n − k −1
n–1
i =1
- 39 -
Christy
Matematická statistika II přednášky Vícenásobná nelineární regrese a korelace Při zkoumání vícenásobných funkcí, kdy vztahy nelze aproximovat jako lineární, se využívají různé typy vícenásobných nelineárních funkcí. Po formální stránce lze těchto funkcí zkonstruovat celou řadu, velmi obtížně se však hledají věcně-ekonomická kritéria zdůvodňující volbu takových typů funkcí. Jako příklad je možné uvést funkci kvadratickou, lomenou, exponenciální, logaritmickou apod. Např. tvar vícenásobné lomené funkce lze zapsat k
yi′ = b0 + ∑ r =1
br , xr i
v rozepsaném tvaru
b1 b2 b + +K k . x1i x2i xk i
yi′ = b0 +
Vícenásobná exponenciální funkce k
yi′ = b0 ∏ br r i x
r =1
y′i = b 0 • b1x1i • b 2x 2 i • ... • b kx ki y′i = log b 0 + x1i log b1 + x 2i log b 2 + ... + x ki log b k V některých případech se také uvažuje o násobení proměnných X mezi sebou, tzn. uvažuje se o možnosti interakce vysvětlujících proměnných. k
k
r =1
r =1
k −1 k
y′i = a + ∑ b r x r i + ∑ c r x 2r i + ∑∑ d r s x r i x s i r =1 s =1
(kde r p s )
yi′ = a + b1 x1i + b2 x2i + ... + bk xki + c1 x12i + c2 x22i + ... + + ck xki2 + d1, 2 x1i x2i + d1,3 x1i x3i + ... + d k −1,k x( k −1)i xki Ve všech případech se při výpočtu parametrů funkcí využívá metody nejmenších čtverců pro stanovení soustavy normálních rovnic: n
u aditivních tvarů
∑ ( y − y′ ) i =1
2
i
i
= min,
n
u multiplikativních tvarů
∑ (log y i =1
− log yi′ ) = min . 2
i
Těsnost závislosti závisle proměnné na k nezávisle proměnných je charakterizována indexem korelace nebo korelačním poměrem. Největšího praktického použití doznaly vícenásobné nelineární regresní funkce při charakterizování reprodukčního procesu – tzv. produkční funkce. Ty charakterizují a zároveň kvantifikují vztah mezi výrobou (produkcí) a příslušnými produkčními faktory. Produkční funkce dělíme na jednofaktorové, tj. takové, kde jde o vtah mezi produkcí (y) a jedním produkčním faktorem (x1), a vícefaktorové, tj. takové, kde jde o vztah mezi produkcí (y) a x1, x2, …, xk produkčními faktory, které byly vzaty v úvahu při analýze reprodukčního procesu. Při volbě příslušného tvaru produkční funkce je třeba znát vztahy uvnitř modelovaného procesu nebo mít o těchto vztazích alespoň učiněnou určitou ekonomickou teorii.
Předpoklady lineárního modelu Na začátku je zapotřebí zjistit scházející údaje v matici dat a zkoumat přítomnost extrémních hodnot u jednotlivých proměnných. V průběhu tvorby a ověřování vhodnosti vytvořeného modelu je nutné ověřit pět specifických předpokladů: - Reziduální hodnoty ei = yi – y`i mají normální rozdělení s nulovou střední hodnotou. - Rozptyl reziduálních hodnot je stejný pro uvažované rozsahy nezávislých proměnných. - Hodnoty predikované proměnné jsou na sobě nezávislé. - Vztahy mezi prediktory (X) a závisle proměnnou jsou lineární. - Neexistuje multikolinearita mezi prediktory (X).
- 40 -
Christy
Matematická statistika II přednášky Provedení většiny kontrol – viz. jednoduchá regrese. Abychom ověřili tyto předpoklady, musíme specificky provést následující kontroly: - Zobrazíme reziduální hodnoty pomocí grafu stonku a listu nebo pomocí normálního grafu a zkontrolujeme normalitu jejich rozdělení. - Zobrazíme vztah mezi reziduálními hodnotami a prediktory a zkontrolujeme, zda rozptýlenost reziduálních hodnot je homogenní. - Někdy je závislost mezi měřeními závisle proměnné způsobena efektem pořadí, v němž byly objekty měřeny. Zobrazíme reziduální hodnoty proti pořadí měření a kontrolujeme přítomnost rozlišitelné konfigurace nebo cyklu. - Zobrazujeme bodové dvourozměrné grafy závisle a nezávisle proměnné. - Multikolinearita znamená, že nezávisle proměnné nebo jejich podmnožina jsou vzájemně silně korelovány. Odhady regresních koeficientů jsou pak velice nestabilní – když změníme několik málo hodnot měření, odhady regresních koeficientů se mohou dramaticky změnit. Také zjišťujeme tzv. vybočující a odlehlá pozorování při regresi, zda mají charakter vlivných bodů. Vlivné body jsou takové, jež podstatně ovlivňují odhady regresních koeficientů. Vybočující pozorování jsou nezvyklé konfigurace hodnot týkající se společného rozdělení nezávislých proměnných. Odlehlé hodnoty při regresi jsou nápadně velké reziduální hodnoty, upozorňující na špatnou predikci závisle proměnné.
Multikolinearita Vysvětlující proměnné regresního modelu mohou být vzájemně nezávislé nebo mezi nimi může existovat závislost. Pojem multikolinearity je velmi úzce svázán se silnou vzájemnou lineární závislosti vysvětlujících proměnných, jejímž důsledkem je špatně podmíněná matice X (tzn. úzce souvisí s vlastnostmi matice X, takže v tomto smyslu jde o spíše datový problém). Lze ji také předpokládat v případě, kdy F-test vícenásobné regresní funkce je významný a všechny t-testy jednotlivých parametrů jsou nevýznamné (svědčí to o silné multikolinearitě mezi sloupci matice X). Přesnou multikolinearitou se tedy rozumí případ, kdy jednotlivé sloupce xj (j = 1, 2, …, k) matice X jsou lineárně závislé, takže pro alespoň jednu nenulovou konstantu cj platí c1x1 + c2x2 + … + ckxk = 0n a vektory hodnot vysvětlujících proměnných lze vyjádřit jako lineární kombinace vektorů hodnot jiných vysvětlujících proměnných. Průvodním znakem multikolinearity je tedy přibližná rovnoběžnost vektorů xj a xk (j ≠ k), které jsou ve sloupci matice X. Tato situace může vzniknout z toho důvodu, že některé vysvětlující proměnné jsou zbytečné, protože je lze nahradit lineární funkcí některých ostatních nebo všech vysvětlujících proměnných. K tomuto případu může dojít špatnou volbou kombinací hodnot vysvětlujících proměnných, ale i shodou okolností nebo náhodou při malém rozsahu výběru. V přítomnosti multikolinearity nelze odděleně sledovat vliv jednotlivých vysvětlujících proměnných. Multikolinearita se často vyskytuje i u modelů dobře popisujících data. Problémem tedy není běžně se vyskytující vzájemná závislost vysvětlujících proměnných, ale její síla. Právě silné (avšak nikoli funkční) vzájemné lineární závislosti všech nebo některých vysvětlujících proměnných se říká multikolinearita. Vzájemná lineární závislost je dána povahou zkoumaných veličin a většinou ji nelze mechanicky eliminovat pouhou opravou některých chybných údajů anebo vyloučením některých vysvětlujících proměnných z regresní funkce.
Kritéria pro identifikaci multikolinearity - Jednoduché korelační koeficienty dvojic vysvětlujících proměnných Hodnoty blízké ±1 jednoduchých korelačních koeficientů r(xj, xj`), j ≠ j` = 1, 2, …, k naznačují možnost existence multikolinearity. Obecně platí, že multikolinearita je škodlivá (identifikována), když některý z korelačních koeficientů překročí hodnotu 0,7 (0,8). - Determinant korelační matice R Jsou-li všechny dvojice vysvětlujících proměnných párově nekorelované, tj. všechny korelační koeficienty jsou rovny nule a multikolinearita neexistuje, pak má matice R podobu jednotkové matice a její determinant je roven 1. Jakmile jsou korelační koeficienty různé od nuly, hovoříme o multikolinearitě. Determinant korelační matice vysvětlujících proměnných je potom menší než jedna a s narůstající multikolinearitou se přibližuje nule. Rovná-li se nule, hovoříme někdy o úplné multikolinearitě (prakticky jde o vzácný jev, kdy nejde použít MNČ).
- 41 -
Christy
Matematická statistika II přednášky
1 r x x R= 21 M rxk x1
rx1x2 1 M rxk x 2
L rx1xk L rx2 xk L M L 1
- Použití kritéria M To se opírá o skutečnost, že při silné multikolinearitě vzniká (zdánlivý) rozpor mezi výsledky individuálních t-testů o regresních parametrech a celkovým F-testem. Kritérium M má tvar
F
−1
k
∑t M=
j =1
2 j
,
F
+1
k
∑t j =1
2 j
ve kterém tj = bj/sbj jsou testová kritéria pro individuální testy a F je testové kritérium pro celkový test. Při nezávislosti vysvětlujících proměnných se rovná nule. Čím větší jsou hodnoty kritéria M, tím silnější je multikolinearita. Orientačně pro M větší než 0,8 se lineární závislost vysvětlujících proměnných označuje za silnou. Test pomocí kritéria M je vhodný především tam, kde je zapotřebí stanovit ty vysvětlující proměnné, které významně přispívají k objasnění variability proměnné y. - Farrarův – Glauberův test Jeho testovým kritériem je výraz
1 B = − (n − 1) − (2k + 5) • ln R , 6 n – rozsah výběru, k – počet vysvětlujících proměnných zařazených do modelu, |R| - determinant korelační matice. Testovaná nulová hypotéza H0 zní na nezávislost vysvětlujících proměnných. Testové kritérium má při platnosti hypotézy H0 rozdělení χ2 s k(k-1)/2 stupni volnosti. Kritickým oborem jsou ty hodnoty testového kritéria B, kdy B překročí příslušný kvantil χ2 – rozdělení, tj.
B ≥ χ2
k(k −1) 1−α 2
V tomto případě již multikolinearitu považujeme za statisticky významnou.
Shrnutí důsledků multikolinearity - Multikolinearita má za následek nadhodnocení součtu čtverců regresních koeficientů, takže se pak lze mylně domnívat, že některé vysvětlující proměnné jsou důležitější než ve skutečnosti jsou. - Multikolinearita zvyšuje rozptyly odhadů, což má za následek: - snížení přesnosti odhadů ve smyslu delších individuálních intervalů spolehlivosti, - nízké hodnoty tj pro individuální t-testy, při kterých se některé (nebo dokonce všechny) regresní koeficienty ukazují jako statisticky nevýznamně odlišné od nuly i v případě jinak velmi kvalitního regresního modelu. - zdánlivý rozpor mezi nevýznamnými výsledky t-testů a významným výsledkem celkového F-testu, - nestabilní odhady regresních koeficientů. - Multikolinearita komplikuje a často úplně znemožňuje rozumnou interpretaci individuálního vlivu jednotlivých proměnných na vysvětlovanou proměnnou. - Multikolinearita způsobuje numerické obtíže, které úzce souvisí s malou stabilitou některých regresních odhadů. Možnosti odstranění multikolinearity - Je možné ji odstranit v případě přeurčeného regresního modelu, neboli v případě výskytu zbytečných vysvětlujících proměnných, jejich identifikací a vypuštěním z regresní rovnice. V takové situaci mohou být prospěšné metody hledající nejlepší podmnožinu vysvětlujících proměnných, regresní grafy apod. - Je-li způsobena nevhodnou volbou kombinací hodnot vysvětlujících proměnných (tj. nevhodným plánem experimentu), je možné nedostatky napravit a pořídit si kvalitnější, nová data.
- 42 -
Christy
Matematická statistika II přednášky - Nejkomplikovanějším, ale zároveň asi nejčastějším případem, je věcně zdůvodněná závislost vzájemně propojených veličin. V takovém případě vypuštění proměnných z modelu může vést k systematickým chybám a ani pořízení nových dat většinou nepomůže. Jedinou rozumnou možností je maximálně využít všechny věcné a empirické informace o regresním modelu a jeho parametrech, což většinou vede ke zvýšení kvality modelu i ke zlepšení vlastností regresních odhadů. Extrémní či jinak příliš vlivné hodnoty mohou zkomplikovat nebo dokonce znemožnit správnou identifikaci multikolinearity. Vlivná pozorování mohou způsobit, že některé nebo dokonce všechny charakteristiky neumožňují multikolinearitu odhalit a popsat. V tomto smyslu mohou vlivná pozorování maskovat nebo zakrýt existenci multikolinearity. V takovém případě je třeba nejdříve identifikovat a případně vyloučit příliš vlivná pozorování a teprve pak se zabývat problémem případné multikolinearity. Na druhé straně ale může být multikolinearita také žádoucí a to v případě, kdy koeficient determinace vychází vysoký a regresní model dobře popisuje experimentální data. Pro účely aproximace dat a konstrukce modelů, které mají „vyhladit“ experimentální závislosti, není multikolinearita na obtíž. Podobně je tomu i v případě, kdy provádíme odhady závisle proměnné na základě hodnot vysvětlujících proměnných.
Hledání optimální množiny vysvětlujících proměnných Jednou z nejdůležitějších podmínek klasického lineárního modelu je předpoklad, že vysvětlovanou proměnnou Y lze vysvětlit jako součet lineární funkce k vysvětlujících proměnných X1, X2, …, Xk a nepozorovatelné náhodné složky. Souběžně s tím se předpokládá, že jiné proměnné, které (i když možná ovlivňují Y) nebyly zařazeny do regresního modelu, jsou nezávislé na proměnných X1, X2, …, Xk a jsou tedy součástí náhodné složky ε. Je běžné, že nelze jednoznačně rozdělit v úvahu přicházející vysvětlující proměnné na podstatné a nedůležité. V regresních úlohách máme často k dispozici velký počet kandidujících vysvětlujících proměnných, o kterých se předpokládá, že nějakým způsobem ovlivňují či vysvětlují variabilitu proměnné Y. Úkolem je vybrat ze všech v úvahu přicházejících vysvětlujících proměnných X1, X2, …, Xk jejich vhodnou (vyhovující, nejlepší) podmnožinu, která vychází zejména z obsahové znalosti zkoumané problematiky (statistická analýza se zaměřuje jen na možnost snížení počtu vysvětlujících proměnných ve smyslu vypuštění nedůležitých proměnných z modelu či na možnost vyloučit předem vliv silné vzájemné závislosti mezi vysvětlujícími proměnnými). Z metod volby podmnožiny vysvětlujících proměnných lze využít metodu postupného přidávání vysvětlujících proměnných do modelu, pokud způsobují na zvolené hladině významnosti statisticky významný růst součtu čtverců Nejdříve se vypočítají korelační koeficienty mezi závisle proměnnou a jednotlivými vysvětlujícími proměnnými ryx1, ryx2, …, ryxk a do regresní funkce se zařadí jako první ta proměnná, jejíž korelační koeficient je nejvyšší. Pak vypočítáme dílčí koeficient korelace závisle proměnné vůči zbylým vysvětlujícím proměnným za předpokladu, že vysvětlující proměnná zařazená do regresní funkce v prvním kroku je konstantní. Pomocí F-testu ověříme, zda přínos nezávisle proměnné s nejvyšším dílčím korelačním koeficientem je statisticky významný. Postup opakujeme tak dlouho, pokud zařazení další vysvětlující proměnné již nevede k významnému zlepšení predikce a velikosti teoretického součtu čtverců. V popsaném algoritmu se využívá statistický test nulového efektu dodatečné proměnné nebo nulového efektu skupiny dodatečných proměnných na závisle proměnnou. Opírá se o testovací F-statistiku, jež má tvar
(n − k − 1)(ry2. x x ...x − ry2. x x ...x F= (k − r )(1 − ry2. x x ...x ) 1 2
k
1 2
1 2
r
).
k
Dodatečná je množina prediktorů Xr+1, …, Xk, kterou přidáváme k množině prediktorů X1, X2, …, Xr. Uvedená statistika má za předpokladu nulového přídavného efektu F-rozdělení se stupni volnosti (k – r) a (n – k – 1). Algoritmus postupné regrese vybírá nejlepší podskupinu prediktorů následujícím způsobem: - V prvním kroku vybere jako nejlepší prediktor proměnnou s největším korelačním koeficientem s Y a zařadí ji do vytvořené množiny prediktorů. - V následujícím kroku se přibere proměnná, která nejlépe zlepšuje predikční mohutnost těch proměnných, které již byly do predikce zařazeny (má největší parciální korelační koeficient s Y). - Z predikce je odstraněna ta proměnná, jejíž příspěvek pro predikci Y klesl pod určitou úroveň (její parciální korelační koeficient s Y klesl pod mez významnosti). Přejde se k předchozímu kroku. Proces přibírání prediktorů skončí, když již žádný další prediktor významně nezlepší predikci.
- 43 -
Christy
Matematická statistika II přednášky Tento algoritmus však nevede nutně k nejlepší skupině prediktorů. Tímto postupem se obvykle „podaří“ seřadit prediktory podle velikosti jejich predikční schopnosti. Při použití této metody existuje jisté nebezpečí v tom, že hodnocení vhodnosti zařazení jednotlivých prediktorů do regresní funkce je ovlivněno pořadím, ve kterém prediktory do regresní funkce vstoupily. Rozlišujeme regresi - dopřednou (forward)– proměnné se do modelu postupně přidávají, - zpětnou (backward) – proměnné se z modelu postupně odebírají.
Stepwisse regrese (stupňovitá regrese) Při této se metodě se na každém kroku sleduje, co by se stalo, kdyby vysvětlující proměnné byly vybírány do regresní funkce v jiném pořadí. Nejprve se vypočte odhad regresní funkce obsahující tu vysvětlující proměnnou, která má nejvyšší koeficient korelace ryxi , i = 1, 2, …, k. Pak se určí rezidua yi – y`i = ei, která se považují za novou závisle proměnnou, a hledá se další vysvětlující proměnná s nejvyšším koeficientem korelace mezi novou závisle proměnnou ei a některou ze zbývajících vysvětlujících proměnných xj, tedy rexj. Vypočítané rovnice se postupně slučují, tzn. že se opět určí nová rezidua, která se dále považují za novou závisle proměnnou, a hledá se další vysvětlující proměnná stejným způsobem. Postup končí, když již žádná závislost rezidua proti zbývajícím vysvětlujícím proměnným není statisticky významná. Výsledný model pak představuje „optimální“ podmnožinu vysvětlujících proměnných za předpokladu, že tvar modelu je správný, žádná podstatná vysvětlující proměnná nebyla opomenuta, stupeň multikolinearity je únosný a data mají dobrou vypovídací schopnost.
- 44 -
Christy
Matematická statistika II přednášky
- 45 -
Christy
Matematická statistika II přednášky
Mnohonásobná regrese a analýza rozptylu Zatím jsme vždy předpokládali, že všechny proměnné jsou spojité a mají metrický charakter. Od poloviny šedesátých let 20. století se začaly objevovat stále častěji aplikace regresní úlohy při řešení úloh analýzy rozptylu, v nichž vystupují jako nezávisle proměnné kvalitativní diskrétní proměnné. Podstata těžkostí je zřejmá již v situaci jednoduché analýzy rozptylu, kdy faktor má více hladin (např. když porovnáváme pět nebo více intervencí). Nestačí totiž přiřadit úrovním faktoru A např. hodnoty 1, 2, …, 6 a použít takto definovanou nezávisle proměnnou v jednoduché lineární regresní analýze, protože mezi úrovněmi faktoru nemůžeme obvykle definovat nějaké přirozené řazení. Interpretace výsledků provedené analýzy by nevedla k jasným závěrům (obtížná či spíše nemožná interpretace). Řešení představují speciální kódovací postupy. Zavedení vícehodnotových kvalitativních proměnných do regresního vztahu se provádí zvláštním obratem přes binární proměnné. Využívá se přitom skutečnosti, že každou kvalitativní proměnnou o s hladinách lze jednoznačně reprezentovat pomocí s – 1 alternativních proměnných. Tyto nové proměnné, kterým se říká obecně kódovací nebo také zástupné, příp. indikátorové proměnné, pak použijeme v regresním modelu.
Příklad – zavedení kvalitativního znaku „typ temperamentu“ do regresního vztahu Reprezentaci této proměnné pomocí zástupných proměnných X1, X2, X3 vyjadřuje tabulka. Zástupné proměnné X1, X2, X3 v tomto příkladu jednoznačně popisují kvalitativní znak Z („temperamentový typ“), který nabývá čtyř hladin. Na rozdíl od něho však mají tu výhodu, že je lze použít v modelu mnohonásobné lineární regresní analýzy. Před analýzou doplníme jejich hodnoty do matice pozorování X. Lze pak např. zkoumat, jak předpovídat stupeň neurotičnosti Y
- 46 -
Christy
Matematická statistika II přednášky (měříme ho na spojité škále) pomocí váženého součtu hodnot zástupných proměnných znaku „typ temperamentu“. Regresní rovnice bude obecně vypadat: y = a + bx1 + cx2 + dx3. Odhad stupně neurotičnosti pro cholerika má pak tvar stupeň neurotičnosti a, apod.
y = a + d; jestliže osoba je melancholik, pak je v průměru její
Temperament Z
Zástupné proměnné X
1
X
2
X
3
sangvinik
1
0
1
flegmatik
0
1
0
cholerik
0
0
1
melancholik
0
0
0
Pro popsanou regresi lze vypočítat mnohonásobný koeficient korelace pro posouzení stupně neurotičnosti na kvalitativním znaku Z a testovat jeho statistickou významnost. Jestliže ji prokážeme, tak alespoň pro jeden typ temperamentu platí, že je při něm průměrná hladina neurotičnosti jiná než u ostatních typů. Tento postup odpovídá jednoduché analýze rozptylu. Platí totiž, že F-statistika jednoduché analýzy rozptylu se rovná pro tento případ F-statistice testu významnosti mnohonásobného korelačního koeficientu:
F=
(n − k − 1) ry2. x1 x2 ... xk
(
k 1 − ry2. x1x2 ... xk
)
.
Způsob kódování faktorů v případě dvoufaktorové analýzy rozptylu Máme zkoumat problém 3 x 4 faktorové analýzy rozptylu. Dvě indikátorové proměnné U1 a U2 budou sloužit pro kódování faktoru A a tři indikátorové proměnné V1, V2 a V3 pro kódování čtyř úrovní faktoru B. musíme však do analýzy zahrnout i interakce obou faktorů. V tomto případě se vyjádří vzájemné ovlivňování nezávislých proměnných v působení na závisle proměnnou tak, že pronásobíme mezi sebou obě množiny indikátorových proměnných. Získáme tak proměnné U1V1, U1V2, U1V3, U2V1, U2V2 a U2V3. Ty jsou také binárního typu a můžeme s nimi tedy pracovat jako s dalšími 6 nezávisle proměnnými. Probraná situace je tedy popsána pomocí 2 + 3 + 6 indikátorových proměnných. Je snadné odhadnout, že s tím, jak roste složitost schématu výzkumu, zvyšuje se také počet indikátorových proměnných. Bez počítače by příslušné vyhledání optimálního lineárního prediktoru a vypočítání testovací statistiky nebylo vůbec možné. Způsob kódování kvalitativních proměnných závisí na úloze, která je řešena. Při kódování efektů přiřazujeme všem kódovaným proměnným, které reprezentují jednotlivé úrovně faktoru A, číslo 1 pro danou úroveň a jinak nulu až na jednu vybranou úroveň, jíž je pro všechny kódovací proměnné přiřazena hodnota – 1. Například pro čtyři skupiny (úrovně) ukazuje kódování tří kódovacích proměnných Vi v následující tabulce.
- 47 -
Christy
Matematická statistika II přednášky
V
V
1
V
2
Skupina
3
1
0
0
první
0
1
0
druhá
0
0
1
třetí
-1
-1
-1
čtvrtá
Tento systém má tu výhodu, že výsledné regresní koeficienty reprezentují jednotlivé efekty ošetření
x1 − x , x2 − x , x3 − x. V obecnějším systému kódování kontrastů se používá za hodnoty jedné kódovací proměnné jakákoli množina čísel, jejíž součet dává nulu, s další podmínkou, že žádný sloupec (obsahující hodnoty pro kódovací proměnnou) nesmí být možné vyjádřit jako kombinaci ostatních sloupců (přesněji lineární kombinaci ostatních sloupců).
I
II
III
IV
V
VI
Skupina 1
3
0
0
1
0
1
Skupina 2
-1
2
0
-1
1
0
Skupina 3
-1
-1
1
-1
0
-1
Skupina 4
-1
-1
-1
1
-1
0
Takže první tři sloupce v tabulce jsou povolenými hodnotami kódovacích proměnných určených pro výpočet kontrastů, kdežto poslední tři nikoliv, protože platí VI = IV + V. Každá kontrastová kódovací proměnná zodpovídá jinou otázku. Například proměnná I se ptá, zda se liší statisticky významně od průměru hodnot x2 , x3 , x4 ; proměnná II se ptá, zda se
x2 liší statisticky významně od průměru hodnot x3 , x4 .
Hlavní výhodou přístupu k problémům analýzy rozptylu pomocí mnohonásobné regresní analýzy je okolnost, že díky vhodně zvoleným kódovacím proměnným lze přímo testovat specifické otázky dané úlohy. Další výhoda spočívá v možnosti míchat různé typy proměnných (spojité a kategoriální), kdežto vlastní analýza rozptylu používá pouze kategoriální nezávisle proměnné. Také je možné pružněji zařazovat nezávisle proměnné do analýzy. Statistickým testem významnosti přírůstku mnohonásobného korelačního koeficientu zodpovídáme otázku, zda nová proměnná ovlivňuje závisle proměnnou ještě jiným způsobem než ostatní proměnné, které jsou již v regresní funkci přítomny. Užití mnohonásobné regrese v analýze rozptylu nezjednodušuje výpočetní složitost analýzy, ale zprůhledňuje celkový přístup k analýze rozptylu, protože není nutné se odkazovat pro každé výzkumné schéma na jiné výpočetní vzorce. Modelu lineární regresní analýzy rozšířenému o indikátorové kódovací proměnné a příslušné interakční členy se říká obecný lineární model, pomocí něhož lze analyzovat i problémy analýzy kovariance.
- 48 -
Christy
Matematická statistika II přednášky Poznámka Analýza rozptylu poskytuje správné výsledky jen za předpokladu, že jednotlivé hodnoty yij jsou vzájemně nezávislé a že chyby eij mají normální rozdělení s konstantním rozptylem. Tyto předpoklady je nutno v praxi ověřit. Pro tyto účely je výhodné převést model analýzy rozptylu na model lineární regrese a využít k testování předpokladů o chybách postupů regresní diagnostiky. Model yij = µi + εij lze vyjádřit ve tvaru lineárního regresního modelu yij = µ1w1 + µ2w2 + … + µkwk + εij, kde wi jsou indikátorové proměnné, pro které platí - jde o i-tý efekt, - nejde o i-tý efekt. Průměry µ1, µ2, …, µk jsou chápány jako regresní parametry. Pokud platí uvedené předpoklady o chybách, lze odhady parametrů získat metodou nejmenších čtverců. V případě analýzy reziduí a vlivných bodů mají důležitou roli diagonální prvky projekční matice H (zaměřuje se na hledání odlehlých hodnot v množině X). Pro ověření normality reziduí pak lze použít grafů reziduí – klasických, predikovaných či standardizovaných (QQ). Podobně jako v regresních modelech mají také v modelech analýzy rozptylu důležitou roli vybočující hodnoty, které mohou silně zkreslit výsledky analýzy. Pro účely identifikace vybočujících hodnot je výhodné použít studentizovaná rezidua (zaměřují na na odlehlé hodnoty v množině Y) či Cookovu vzdálenost (vlivné body). Lze analyzovat i vzájemnou závislost faktorů pomocí metod pro odhalení existence multikolinearity.
Analýza kovariance Analýza kovariance je statistická metoda, která kombinuje vlastnosti a principy analýzy rozptylu a rozšiřuje některé možnosti využití lineárních regresních modelů. Základní myšlenkou kovarianční analýzy je rozšíření nebo též modifikace modelu analýzy rozptylu s jedním nebo více kategoriálními faktory na model, který navíc obsahuje kontrolovatelné (nejlépe kvantitativní spojité, ale případně i další kategoriální) proměnné, které rovněž mají vliv na hodnoty vysvětlované či vysvětlovaných proměnných. Původním cílem analýzy kovariance je očištění studované závislosti vysvětlovaných proměnných na zvolených faktorech od zavádějícího působení doprovodných vlivů (označovaných za covariates). Působení doprovodných proměnných na vysvětlované proměnné je sice podstatné, ale není v dané úloze přímým předmětem zájmu. Společné působení anebo smíchání vlivů Regresní analýza má dva zásadně odlišné cíle. Prvním je předpověď průměrných nebo konkrétních hodnot vysvětlované proměnné pomocí skupiny vysvětlujících proměnných, zatímco druhým je kvantifikace individuálního vlivu vysvětlujících proměnných na vysvětlovanou proměnnou. Dobrá předpověď vyžaduje najít stabilní model, který odráží obecné rysy zkoumané závislosti a dobře vyhovuje výchozím pozorováním. Proti tomu úspěšná kvantifikace individuálního vlivu se opírá o kvalitní odhady regresní koeficientů nebo o jiné podobně interpretovatelné charakteristiky. Závislost dvou či více proměnných bývá zvykem posuzovat pomocí vhodných charakteristik, např. v regresní úloze to jsou především regresní koeficienty, ale mohou to být i jiné míry. Při snaze posuzovat význam dříve neuvažovaných proměnných (v souvislosti s analýzou kovariance se jim často říká doprovodné nebo kontrolní) je otázkou, jak je do analýzy zařadit a hodnotit. Pokud se hrubé charakteristiky (jednoduché regresní či korelační koeficienty), které neuvažují existenci mimo stojících (tedy dosud neuvažovaných) proměnných, z věcných hledisek velikostí zásadně liší od čistých charakteristik (dílčí regresní nebo korelační koeficienty), uvažujících vliv dříve neuvažovaných proměnných, pak dochází k interpretačním potížím. Je zřejmé, že některá z těchto proměnných chybí a musí být do analýzy zařazena. V této situaci, kdy dochází k určitému promíchání vlivu, je obtížné až nemožné význam jednotlivých proměnných rozložit a smysluplně tak kvantifikovat podíl těchto proměnných na změnách hodnot vysvětlované nebo vysvětlovaných proměnných. Ve směsi významem nerozeznatelných vlivů je obtížné rozhodnout, které proměnné jsou rozhodující a které je vhodné vypustit jako nepodstatné nebo duplicitní. Závažný je i jiný případ, kdy vztahy mezi vysvětlujícími a vysvětlovanými proměnnými se mění v závislosti na změnách hodnot nebo při různých úrovních (ne)uvažovaných proměnných (interakce dvou faktorů). Přitom předpoklad neexistence interakce mezi kvalitativními faktory a kvantitativními doprovodnými proměnnými má v analýze zásadní význam.
- 49 -
Christy
Matematická statistika II přednášky Testovat existenci interakce proměnných je možné např. zařazením součinových regresorů uvažovaných vysvětlujících proměnných. Třeba do lineární regresní rovnice se dvěma vysvětlujícími proměnnými ve formě β 0 + β1X1 + β 2X2 stačí přidat součinový člen β 3X1X2 a po získání patřičných MNČ odhadů parametrů testovat hypotézu, že parametr β 3 je nulový. Zamítnutí této hypotézy lze považovat na zvolené hladině významnosti za statistický důkaz interakce, neboli za prokázání existence společného působení proměnných X1 a X2 na posuzovanou vysvětlovanou proměnnou.
Potřeba kontroly a modifikace nepřímých vlivů Předchozí část naznačila důvody potřeby kontrolovat (hlídat) proměnné, které přímo nesouvisí s danou úlohou, ale jejichž vliv na vysvětlované proměnné je zjištěn, i když v dané úloze není hlavním předmětem zájmu. Prvním důvodem je snaha identifikovat a hodnotit případnou interakci vlivů; druhým důvodem je hledání možností, jak řešit problém obtížné či nemožné separace vzájemně závislých vlivů, a třetím důvodem je obecný požadavek co největší přesnosti odhadů všech relevantních charakteristik zkoumané závislosti. V regresních úlohách se potřeba kontroly řeší přidáním sporných vysvětlujících proměnných k nesporným (přímo vyplývají ze zadání úlohy). Pozornost je pak soustředěná na modifikaci hodnot odhadnutých regresních koeficientů po zařazení nových proměnných a na změny, ke kterým došlo. Modifikace pomocí kovarianční analýzy se při použití regresního přístupu zabezpečuje současným zařazením jak studovaných faktorů (dominálních proměnných) ve formě umělých nula-jedničkových veličin, tak i kontrolovaných doprovodných proměnných. Při tomto postupu se předpokládá, že z hlediska jejich simultánního působení na vysvětlovanou proměnnou neexistuje interakce mezi nominálními a doprovodnými proměnnými.
Příklad Vysvětlovaná proměnná Y – systolický krevní tlak Vysvětlující proměnná – věk náhodně vybraných mužů a žen Předpokládá se, že dobrým modelem závislosti krevního tlaku na věku je přímka. Nejprve uvažujme dvě otázky: - Vyjadřuje závislost krevního tlaku na věku pro muže a ženy stejná regresní rovnice přímky? - Je průměrný krevní tlak mužů a žen stejný, vezmeme-li v úvahu (neboli po modifikaci, resp. kontrolujeme-li) možné zavádějící důsledky rozdílných věkových rozdělení mužů a žen? Pro odpovědi na tyto otázky nemůžeme použít stejné statistické nástroje. Odpověď na první otázku vyžaduje porovnat dvě regresní přímky, zatímco druhá musí zhodnotit rozdíly mezi průměry ve skupinách. První otázku lze řešit pomocí regresního modelu β0 + β 1X + β2A + β 3XA + ε, kde X je věk a A je pohlaví (a1 = 0 pro muže, a2 = 1 pro ženy). Podle provedených testů o parametrech regresní přímky výsledků výpočtů je možné učinit některý z následujících závěrů: - Přímky jsou shodné (koincidentní), neboli β2 = β3 = 0. β2 ≠ 0, ale β3 = 0. - Přímky jsou rovnoběžné (paralelní), neboli - Přímky nejsou rovnoběžné ani shodné, neboli β2 ≠ 0, β3 ≠ 0. Tyto závěry úzce souvisí i s odpovědí na druhou otázku. Jsou-li shodné přímky, pak se ani neliší průměrný krevní tlak mužů a žen. Jsou-li přímky rovnoběžné, pak přímka s vyšší hodnotou absolutního členu má (při stejné směrnici přímky) i vyšší průměr. Nejsou-li přímky rovnoběžné, je třeba se jimi důkladněji zabývat. Mají-li průsečík mimo zajímavou oblast věku, nic se nemění proti předchozímu případu. Mají-li průsečík v zajímavé oblasti věku, pak lze říci, že existuje interakce mezi věkem a pohlavím, takže do určitého věku má jedna skupina nižší průměrný tlak a od tohoto věku má tato skupina vyšší průměrný tlak. Pochopitelně pro vyšší kvalitu těchto úsudků bychom provedli patřičné výpočty a testy o shodě dvou přímek, resp. o shodě dvou průměrů na základě údajů pocházejících ze dvou nezávislých výběrů.
Typy proměnných v analýze kovariance Analýzu kovariance lze považovat za rozšíření metod analýzy rozptylu a regresní analýzy. Jde o zkoumání závislosti v poměrně složitém souboru proměnných. Uplatňují se v něm: - Jedna nebo několik vysvětlujících proměnných – faktorů A1, A2, …, As, přičemž stejně jako v analýze rozptylu jde o obvykle o nominální nebo alternativní proměnné, ale mohou to být i jiné kategoriální proměnné.
- 50 -
Christy
Matematická statistika II přednášky - Jedna nebo více vysvětlovaných proměnných Y1, Y2, …, Yp, na něž je při analýze soustředěna pozornost v tom smyslu, že chceme prokázat jejich závislost na faktoru či faktorech. Jedna nebo více doprovodných proměnných (kontrolovaných proměnných) X1, X2, …, Xq, které zahrnujeme do modelu a počítáme s nimi zejména proto, abychom závislost vysvětlovaných proměnných na faktorech očistili od jejich vlivu.
Předpoklady analýzy kovariance Obvyklé algoritmy v analýze kovariance lze uplatnit při splnění řady podmínek, z nichž některé jsou stejné jako v analýze rozptylu: - Náhodnost výběru - Nezávislost výběrů (skupin), do nichž se výběrový soubor rozpadá. Obecně se nezávislé výběry většinou týkají různých skupin (účelově definovaných částí) sledované populace, ale též to mohou být výběry z různých porovnávaných (nezávislých) populací. - Normální rozdělení Y, popř. vícerozměrné normální rozdělení y, ve všech populacích (skupinách populace). - Homoskedasticita, tedy stejné rozptyly, popř. kovarianční matice, ve všech populacích (skupinách populace). - Lineární závislost Y na X, popř. Y1, Y2, …, Yp na X1, X2, …, Xq, ve všech populacích (skupinách populace). - Shoda regresních koeficientů, neboli rovnoběžnost regresních přímek, popř. rovin nebo nadrovin, ve všech populacích (skupinách populace). Jako další podmínky se někdy uvádí nenáhodný charakter doprovodné proměnné X, popř. doprovodných veličin X1, X2, …, Xq, a nepřítomnost interakce mezi doprovodnou proměnnou X a faktorem A, popř. mezi q doprovodnými proměnnými a několika faktory. Tyto požadavky lze však těžko striktně dodržet. Modelový příklad – komparace účinku dvou intervenčních postupů Ptáme se, zda se liší efekt terapie zachycený hodnotu testu úzkosti (Y) u dvou náhodně sestavených skupin jedinců, které jsou léčeny dvěma odlišnými postupy. Proměnná Y se měří součtem skórů z vhodného psychologického dotazníku. Pro lepší kontrolu výsledů experimentu se zaznamenávaly také počáteční úzkosti (X1) před experimentem a obecná vegetativní labilita (X2). Předpokládáme, že kovarianty (rušivé nezávisle proměnné) mají v obou skupinách stejný vliv na závisle proměnnou. Proměnná Z – indikátorová proměnná – měření patří osobě z experimentální nebo kontrolní skupiny.
Osoby 1 2 3 4 5 6 7 8 9 10
Y 6 4 4 7 5 4 7 5 3 3
X1 7 4 5 8 3 3 6 6 5 4
X2 5 1 1 5 1 4 4 1 2 1
X3 = Z Osoby 0 11 0 12 0 13 0 14 0 15 0 16 0 17 0 18 0 19 0 20
Y 2 5 3 1 6 4 5 3 2 3
X1 4 6 6 3 9 5 8 4 7 8
X2 1 2 2 1 4 2 5 3 3 2
X3 = Z 1 1 1 1 1 1 1 1 1 1
1. skupina 2. skupina Dohromady Průměr Odchylka s Průměr m Odchylka s Průměr m Odchylka s
m Y X1 X2
4,80 5,10 2,50
1,47573 1,66333 1,77951
3,40 6,00 2,50
1,57762 2,00000 1,26930
- 51 -
4,10 5,55 2,50
1,65116 1,84890 1,50438
Christy
Matematická statistika II přednášky Zkoumáme-li velikost rozdílů průměrů
y0 = 4,8 a y1 = 3,4
odrážející odlišnost působení obou postupů, pak t-testem zjistíme, že není důvodu přiklonit se k alternativní hypotéze: terapie působní rozdílně. Ekvivalentní výsledek indikuje jednoduchá analýza rozptylu. T-testy Proměnná
Metoda
Rozptyl
DF
t hodnota
Pr > |t|
body body
Pooled Satterthwaite
Equal Unequal
18 17.9
2.05 2.05
0.0553 0.0554
Rovnost variancí
Proměnná
Metoda
body
Folded F
DF čit
DF jmen
F hodnota
Pr > F
9
9
1.14
0.8456
Jestliže však vezmeme v úvahu okolnost, že na začátku experimentu měla první skupina menší průměrnou úzkostnost a zároveň že obě proměnné mohou uvnitř skupin navzájem korelovat, pak bychom při rovnosti účinku spíše očekávali, že první skupina bude mít svůj průměr po experimentu také menší než druhá skupina. Naopak rozdíl v průměrech proměnné Y by byl pravděpodobně větší, kdyby ve skupinách byly průměry proměnné X1 stejné. Dosavadním postupem jsme ale nerespektovali informaci obsaženou v X1. Na základě vztahu mezi Y a X1 by se pravděpodobně část rozdílnosti mezi skupinami pro proměnnou Y dala předpovědět pomocí X1 a tak eliminovat z pozorovaných hodnot. Pro zbytkové hodnoty by pak analýza rozptylu byla relevantnější. Totéž platí i pro proměnnou X2. Uvedený problém analýzy kovariance se dá také zpracovat pomocí regresní analýzy. K tomu je zapotřebí vytvořit jednu kódovací proměnnou (X3), která popisuje zařazení jedinců do obou skupin. Její hodnoty jsou doplněny do matice měření X. Zkoumáme nyní ovlivnění Y proměnnou X3. Chceme zodpovědět otázku, zda zavedení proměnné X3 do regresní rovnice, jež zachycuje vztah mezi Y a X1, X2, povede ke statisticky významnému zlepšení predikce Y. Použijeme tedy kritérium F pro hodnocení významného zlepšení mnohonásobného korelačního koeficientu:
F=
(n − k − 1)(ry2. x x x − ry2. x x (k − 2)(1 − ry2. x x x ) 1 2 3
1 2
1 2 3
) = (20 − 4)(0,6368 − 0,3771) = 11,4386 1 − 0,6368
Toto F srovnáme s kritickou hodnotou F-rozdělení o (1; 16) stupních volnosti, která má na 1% hladině významnosti hodnotu 8,53. Prokázali jsme, že při uvážení vlivu doprovodných proměnných X1 a X2 je účinek obou terapií odlišný. Rovnice pro odhad cílové proměnné má tvar: y = 1,99 + 0,36 x1 + 0,39 x2 – 1,73 x3. Ovlivnění cílové proměnné proměnnými X1 a X2 se modeluje v použitém regresním modelu stejně v obou skupinách. Provedení regrese uvnitř obou skupin však může prokázat, že ve skutečnosti tomu tak není: působení proměnných X1 a X2 je při uvážení rozdílnosti terapií jiné. Tuto okolnost zkoumáme tak, že do regrese na proměnných X1, X2 a X3 přidáme proměnné X4 = X2X1 a X5 = X3X2, které odpovídají interakci doprovodných proměnných s intervencemi v obou skupinách. Příspěvek nových proměnných k regresi testujeme opět pomocí F kritéria. Jestliže testovací statistika F není významná, nemůžeme zamítnout hypotézu homogenity regresní uvnitř skupin. Pozn.: koeficient determinace R2 = 0,638 není nestranným odhadem teoretické hodnoty – má systematicky větší hodnotu, protože nezohledňuje počet proměnných a počet měřených objektů. Vhodnější je tedy použití korigované hodnoty adjusted R2.
- 52 -
Christy
Matematická statistika II přednášky
- 53 -
Christy
Matematická statistika II přednášky Analýza kategoriálních dat Kategoriální data – jedná se především o znaky kvalitativní, např. zaměstnání, pohlaví, typ automobilu, vkus zákazníka. Získaná data zachycujeme pomocí jedno-, dvou- nebo vícerozměrných tabulek četností nebo relativních četností. Každý rozměr (dimenze) tabulky odpovídá klasifikaci do kategorií podle určité proměnné. Některé proměnné mají podle úlohy charakter závisle proměnné (cílové proměnné), jiné považujeme za nezávislé. Proměnné jsou často nominálního, resp. kvalitativního typu. Také však mohou mít nějaké přirozené řazení (např. vedlejší reakce na lék mohou být žádné, mírné nebo silné) – jsou ordinálního typu. Četnostní tabulky vznikají i zařazením jinak spojitých metrických údajů do kategorií, který byly navrženy jako intervaly pokrývající rozsah hodnot sledované proměnné. Při zkoumání četností dat stojíme před podobnými úkoly jako v případě dat metrických. Porovnáváme náhodné chování proměnné s pravděpodobnostním rozdělením, jež je předem přesně specifikované, nebo srovnáváme rozdělení sledované proměnné ve dvou nebo více populacích, aniž bychom předem specifikovali tvar jejich rozdělení. Také nás zajímá síla asociace jednotlivých proměnných mezi sebou.
Porovnání relativní četnosti s teoretickou hodnotou Posuzujeme relativní četnost přítomnosti určité vlastnosti v ZS pomocí náhodného výběru o rozsahu n. Předpokládejme hodnotu relativní četnosti výskytu sledované vlastnosti p0. Testujem nulovou hypotézu H0: p = p0 proti alternativní hypotéze H1: p ≠ p0. Testové kritérium má tvar:
u=
m − p0 n . p 0 (1 − p 0 ) n
Kritický obor pro zamítnutí H0 je vymezen následovně: Alternativa Kritický obor H 1: p ≠ p 0 K = {u> uα} H 1: p > p 0 K = {u > u2α} H 1: p < p 0 K = {u < -u2α} Je možné v rámci hodnocení stanovit také intervalový odhad relativní četnosti, kdy dvoustranný interval spolehlivosti pro spolehlivost 1 - α má tvar:
P f i − uα
f i (1 − f i ) p p p f i + uα n
f i (1 − f i ) = 1−α n
Uvedené vztahy lze ale použít za předpokladu normální aproximace rozdělení relativní četnosti a jsou vhodné pouze pro větší rozsahy výběru.
Porovnání dvou relativních četností Zajímá nás porovnání dvou pravděpodobností p1 a p2 výskytu nějaké vlastnosti ve dvou ZS. Na základě náhodných výběrů o velkých rozsazích n1 a n2 (n1 > 100; n2 > 100) je třeba ověřit hypotézu H0: p1 = p2. Test je založen na statistice
u=
m1 m2 + n1 n2 1 1 p • (1 − p ) • + n1 n2
,
Pokud |u| > uα ⇒ H0 zamítáme. Cílem analýzy může také být testovat a odhadovat velikost jejich rozdílu ∆ = p1 – p2. Testová statistika se opírá o standardizovanou odchylku rozdílu empirických četností p1 a p2 od předpokládané hodnoty ∆. - 54 -
Christy
Matematická statistika II přednášky Počet prvků se sledovanou vlastností ve výběrových souborech o rozsahu n1 a n2 je m1 a m2. Teoretické hodnoty pi potom odhadujeme pomocí relativních četností fi = m/n. Nulovou a alternativní hypotézu lze zapsat jako: H0: (p1 – p2) = ∆, příp. = 0 H1: (p1 – p2) ≠ ∆, příp. ≠ 0 Testové kritérium má tvar:
u=
( p1 − p2 ) − ∆ . s( p1 − p2 )
Výpočet odhadu směrodatné odchylky s(p1 – p2) závisí na hodnotě ∆. Jestliže ∆ ≠ 0, pak
s( p1 − p2 ) =
f1 (1 − f1 ) f 2 (1 − f 2 ) + n1 n2
Nulová hypotéza se zamítá, pokud |u| > uα ⇒ H0. V případě, že ∆ = 0, má s(p1 – p2) hodnotu
1 1 pq + , n1 n2 m + m2 p= 1 n1 + n2
s( p1 − p2 ) =
je spojený odhad teoretické relativní četnosti q = 1- p. Rozsahy obou výběrů musí být dostatečně veliké, abychom mohli pro výběrové rozdělení rozdílu hodnot uplatnit centrální limitní teorém.
p1 – p2
Dvoustranný interval spolehlivosti má tvar:
( p1 − p2 ) ∈ ( f1 − f 2 ) ± uα • s( p − p ) 1
2
Jestliže podmínka o rozsazích výběru není splněna, ale počty jsou větší než 20, uplatňuje se arcussinová transformace na druhou mocninu odhadů pravděpodobností:
ϕ ( p) = arcsin p Hypotézu o rovnosti pravděpodobností pak testujeme pomocí statistiky
z=
ϕ ( p1 ) − ϕ ( p2 )
1 1 28,648 + n1 n2
.
Příklad U 500 náhodně vybraných domácností bylo prováděno v roce 1997 zjišťování, zda mají ve svém jídelníčku zařazenu cereální výživu. Kladně odpovědělo 67 domácností. U stejného počtu domácností bylo provedeno zjišťování v roce 1998. V tomto roce kladně odpovědělo 202 domácností. Vypočtěte 95 % interval spolehlivosti pro změnu podílu domácností. n1 = 500 m1 = 67 f1 = 67/500 = 0,134 n2 = 500 m2 = 202 f2 = 202/500 = 0,404
0,134 • 0,866 0,404 • 0,596 + = 0,0267 500 500 ( p1 − p2 ) ∈ (0,134 − 0,404) ± 1,96 • 0,0267 s( p1 − p2 ) =
( p1 − p2 ) = (−0,3224; − 0,21764)
- 55 -
Christy
Matematická statistika II přednášky Protože daný interval nepokrývá 0, můžeme na hladině významnosti 0,05 zamítnout nulovou hypotézu, že v obou skupinách domácností mají zařazeny v jídelníčku cereální potraviny. Chceme testovat hypotézu, že podíl domácností v roce 1998 není větší o více než 30 % ve srovnání s podílem domácností v roce 1997. Použijeme jednostranný test na 5% hladině významnosti (kritická hodnota je 1,6448)
u=
(0,134 − 0,404) − 0,3 = −21,334 0,0267
Výsledek svědčí ve prospěch alternativní hypotézy. χ2 - test dobré shody Přezkušujeme, zda tvar pravděpodobnostního rozdělení kategoriální proměnné X má specifickou podobu. Při pozorování proměnné X se zjistily četnosti nj jednotlivých kategorií. Předpokládáme, že pravděpodobnostní rozdělení proměnné je určené pravděpodobností pj. Testem dobré shody testujeme hypotézu: H0: F(x) = F0(x) proti alternativě H1: F(x) ≠ F0(x). Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry. Nulová hypotéza udává pouze typ rozdělení, nikoli jeho parametry. Rozdíl mezi pozorovanými a očekávanými četnostmi zachycuje testovací statistika, která má tvar: k
χ =∑ 2
j =1
(n
− np j )
2
j
np j
,
kde k = počet možných hodnot kategoriální proměnné, nj = empirické (skutečné) četnosti v intervalu j, npj = teoretické (očekávané) četnosti v intervalu j vypočítané za předpokladu platnosti H0, přičemž n označuje rozsah výběru a pj teoretickou pravděpodobnost kategorie j. Za platnosti H0 má statistika asymptoticky χ2 - rozdělení o k-1 stupních volnosti. 2 Jestliže hodnota statistiky χ překročí kritickou mez, signalizuje to špatnou shodu dat s teoretickým rozdělením.
Příklad V n nezávislých náhodných pokusech očekáváme, že četnosti náhodných jevů A1, A2, A3, které v pokusu vůbec mohou nastat, jsou v poměru 1 : 2 : 1. V 80 pokusech jsme získali jejich četnosti 14, 50 a 16. Máme naši hypotézu zamítnout? Pro vypočtení testovací statistiky vytvoříme následující tabulku.
(nj - npj)2 (nj - npj)2/npj
nj
npj
nj - npj
14
20
-6
36
1,8
50
40
10
100
2,5
16
20
-4
16
0,8
80
80
χ2 = 5,10
χ2α pro 2 stupně volnosti má kritickou hodnotu 5,991. Protože 5,1 < 5,991, nemůžeme nulovou hypotézu zamítnout.
Závislost kategoriálních proměnných Zabývá se statistickou analýzou četnostních tabulek, které vznikají, když popisujeme a analyzujeme vztah kategoriálních proměnných. Jedná se o analogii korelační analýzy spojitých proměnných nebo o podobnost s analýzou rozptylu. Rozdíl mezi oběma metodami spočívá v tom, že v případě analýzy četnostních tabulek obě kategoriální proměnné považujeme za náhodné, zatímco v analýze rozptylu posuzujeme vliv faktoru (kategoriální proměnné) s určitým počtem hladin jako nezávisle proměnné na chování náhodné závisle proměnné, jež má kvantitativní charakter.
- 56 -
Christy
Matematická statistika II přednášky Příklad V roce 1912 se na své první plavbě srazil luxusní zámořský parník Titanic s plovoucí ledovou krou a potopil se. Někteří cestující se dostali na záchranné čluny, ostatní zemřeli. Představme si, že zkáza Titaniku je experimentem, jak se lidé chovají tváří v tvář smrti, když jenom někteří mohou uniknout. Předpokládáme, že pasažéři jsou nestranným vzorkem z populace stratifikované podle majetkových poměrů. V následující tabulce uvádíme data zvlášť pro muže a ženy (Lord, 1998 – nejsou zachyceni cestující, u nichž není znám jejich sociální status). Při popisné analýze takovýchto dat se doporučuje uvést údaje v tabulkách jako procenta z řádkových nebo sloupcových součtů. Tím se lépe prezentují rozdílnosti rozdělení v jednotlivých kategoriích. Procenta nebo absolutní četnosti také zobrazujeme pomocí sloupcových grafů. Pro jednoduchou inferenční analýzu lze použít metody pro srovnání procent. Snadno lze spočítat, že celkově zemřelo 680 mužů a 168 se jich zachránilo. Žen zemřelo 126, uniknout smrti se podařilo 317. Existuje evidence, že muži v této situaci více umírají? Jaké jsou pro to důvody? Můžeme se však také zeptat, zda existují statisticky významné rozdíly v procentuálních podílech zemřelých žen mezi jednotlivými třídami. Nechceme však srovnávat páry tříd, ale vyhodnotit globální hypotézu, zda vůbec existuje nějaký rozdíl. Stejné hodnocení můžeme provést pro muže. Zajímáme se, zda existuje stochastický vztah mezi proměnnou třída cestujícího a proměnnou, která popisuje status přežití cestujícího (ANO, NE). Jinak řečeno, ptáme se, zda ovlivňuje proměnná třída cestujícího pravděpodobnost přežití cestujícího. Pozn.: tento příklad pracuje dohromady se třemi proměnnými (pohlaví, třída cestujícího a status přežití). Data o cestujících při ztroskotání Titaniku
Status I. třída II. třída III. třída
Muži zemřeli přežili 111 61 150 22 419 85
Ženy zemřely přežily 6 126 13 90 107 101
Muži Status I. třída II. třída III. třída
Ženy
zemřeli
přežili
64,5 % 84,7 %
35,5 % 15,3 %
počet celkem 172 177
83,1 %
16,9 %
504
zemřely
přežily
4,4 % 12,6 %
95,6 % 87,4 %
počet celkem 135 103
51,4 %
48,6 %
208
Kontingence Kontingence se zabývá zkoumáním vztahu mezi množnými znaky, které mají větší počet obměn. V tomto případě hodnotíme tabulky dvoudimenzionální, což jsou tabulky vzniklé tříděním podle dvou proměnných – jde o tzv. kontingenční tabulky. Předpokládáme přitom, že každá jednotka může být klasifikována podle dvou proměnných (kritérií) A a B. proměnná A má r kategorií (úrovní) a proměnná B má s kategorií (úrovní). Označme nij počet prvků z výběru o rozsahu n, které podle proměnné A patří do kategorie Ai a podle proměnné B do kategorie Bj. Dále označme ni. počet prvků z výběru, které patří do kategorie Ai (bez ohledu na hodnotu proměnné B), a podobně n.j počet prvků patřících do kategorie Bj. Platí tedy vztahy: r
∑n i =1
ij
= n. j
- 57 -
Christy
Matematická statistika II přednášky s
∑n j =1
.j
s
∑n j =1
ij
r
∑n i =1
i.
=n = ni. =n
celkem
Znak A a1 a2
n11 n21
n12 n22
….. …..
n1j n2j
….. …..
n1s n2s
n1. n2.
……
…..
nr1 n.1
…..
nr2 n.2
….. …..
nis
ni.
…..
…..
ar celkem
nij
…..
ni2
…..
ni1
…..
ai
…..
bs
…..
…..
…..
bj
…..
…..
…..
b2
…..
b1
…..
Znak B
…..
Kontingenční tabulka typu r x s pak vypadá následovně:
nrj n.j
….. …..
nrs n.s
nr. n
Po vytvoření tabulky začínáme zkoumat vzájemný vztah obou proměnných A a B – nejdříve pomocí vhodného zobrazení, později lze testovat různé hypotézy. Hypotézy pro kontingenční tabulky se obvykle definují v pojmech stochastické nezávislosti, a to pomocí určitých podmínek. V kontextu stochastické nezávislosti proměnných A a B tyto podmínky indukují, že čísla nij/ni., resp. nij/n.j (řádkové, resp. sloupcové relativní četnosti) jsou pro všechna čísla i, resp. j až na náhodné odchylky konstantní. Jestliže jednu z proměnných kontrolujeme během výběru – třeba proměnnou A, nazýváme ji faktor. Tato proměnná vlastně určuje r disjunktních subpopulací W1, W2, …, Wr z populace W. V tomto případě se může hypotéza nezávislosti popsat jako hypotéza homogenity chování proměnné B vzhledem k faktoru A.
Hypotéza homogenity Tato hypotéza předpokládá, že pravděpodobnostní rozdělení kategoriální proměnné B je stejné v různých populacích, které jsou identifikovány faktorem A. Příslušné statistické testy nazýváme někdy testy dobré shody, kdy nám jde o shodu rozdělení kategoriální proměnné. Úrovně faktoru A stratifikují v tomto případě celou populaci W do r disjunktních subpopulací W1, W2, …, Wr a každý prvek z Wi je klasifikován do jedné z kategorií proměnné B. Nechť Pij je relativní četnost prvků subpopulace Wi, jež jsou v j-té kategorii proměnné B. Potom se hypotéza homogenity může vyjádřit jako P1j = P2j = … = Prj pro všechna j = 1, 2, …, s, což znamená, že pro každou kategorii má být relativní četnost prvků v dané subpopulaci stejná pro všechny subpopulace. Hypotézu homogenity můžeme provádět tehdy, jestliže mám k dispozici prostý náhodný výběr z každé subpopulace určené faktorem A nebo jsme provedli přiřazení objektů do jednotlivých skupin namátkově.
- 58 -
Christy
Matematická statistika II přednášky Příklad Populace W studentů je stratifikována podle pohlaví a proměnná B je určena tím, zda má student zájem o účast ve školním sportovním oddíle. Je zřejmé, že proměnná B je kategoriální. Dotazování se provádí tak, že zvlášť se provede náhodný výběr 66 chlapců a 74 dívek. Z chlapců, resp. dívek mělo zájem 30, resp. 11 jedinců. Zařazením osob podle zájmu dostaneme tabulku typu 2 x 2.
Zájem o sport ano ne 30 36 11 63 41 99
Chlapci Dívky Celkem
Celkem
66 74 140
Jestliže P11 je relativní část chlapců se zájmem o sport a P21 je relativní část dívek se zájmem o sport, pak hypotéza homogenity má tvar P11 = P21 (z toho plyne také P12 = P22). V pojmech nezávislosti H0 vyjadřuje, že relativní četnost jedinců zajímajících se o účast ve sportovním oddíle je nezávislá na pohlaví.
Hypotéza nezávislosti V hypotéze nezávislosti se považují obě proměnné A a B za náhodné proměnné, přičemž předpokládáme jejich úplnou nezávislost. To znamená, že hodnota proměnné A neovlivňuje podmíněné rozdělení proměnné B a naopak. Uvažujeme populaci W, přičemž každý prvek této populace je klasifikován podle dvou kategoriálních proměnných A a B. Zkoumáme, zda hodnoty proměnné A neovlivňují rozdělení proměnné B a naopak. Nulová hypotéza zní, že obě proměnné jsou na sobě stochasticky nezávislé. Tuto hypotézu lze vyjádřit podmínkami pro pravděpodobnosti pij, což jsou pravděpodobnosti, že na osobě zjistíme hodnotu proměnné A v kategorii i a hodnotu proměnné B v kategorii j. Nechť pi., resp. p.j je pravděpodobnost v populaci W, že proměnná A nabude hodnoty i, resp. proměnná B nabude hodnoty j. Pak hypotézu nezávislosti obou proměnných můžeme vyjádřit rovnicemi s
pi. = ∑ pij .
pij = pi. • p. j ,
j =1
r
p. j = ∑ pij . i =1
které platí pro všechna i = 1, 2, …, r a j = 1, 2, …, s. Uvedené vyjádření vyplývá ze vzorce pro výpočet pravděpodobnosti současného výskytu dvou nezávislých jevů. Pozn. Má-li platit nezávislost, pak pro všechna i a j musí být splněna podmínka
nij =
ni. • n. j
.
n
Posuzování závislosti v kontingenčních tabulkách Budeme se zabývat tabulkou typu r x s, která popisuje rozdělení dvou kvalitativních znaků množných. Analýza této tabulky spočívá v provedení testu nezávislosti a ve stanovení síly (těsnosti) závislosti. Pro testování hypotéz homogenity i nezávislosti používáme stejný postup. Nejdříve vypočítáme tzv. očekávané četnosti noj v políčku (i, j) za předpokladu platnosti H0, která říká, že znaky A a B jsou nezávislé.
noj =
ni. • n. j n
Empirické četnosti nij se mohou od očekávaných četností noj lišit buď náhodně (platí-li H0) nebo významně (neplatí-li H0). Pro posouzení velikosti rozdílů těchto četností použijeme χ2 – testu dobré shody. r
s
χ = ∑∑ 2
i =1 j =1
(n
ij
− noj )
2
noj
- 59 -
Christy
Matematická statistika II přednášky Dosadíme-li do vzorce symboliku z kontingenční tabulky, dostaneme po úpravě: r
r
χ 2 = ∑∑ i =1 j =1
n(nij )
2
ni.n. j
− n.
Hodnotu χ2 srovnáme s kritickou hodnotou χ2 – rozdělení o stupních volnosti (r-1)(s-1). Jestliže hodnota χ2 je větší než tabulková hodnota, hypotézu o nezávislosti mezi sledovanými kvalitativními znaky zamítáme. χ2 test pro kontingenční tabulku r x s nelze použít, je-li více než 20 % teoretických četností menších než 5, příp. je-li alespoň v jednom políčku kontingenční tabulky očekávaná četnost menší než 1. V takových případech je nutno některé sousedící skupiny spojit. Jestliže zamítneme hypotézu nezávislosti nebo homogenity, lze tabulku dále analyzovat a hledat důvody, proč je H0 porušena. K tomu nám slouží tzv. normalizované reziduální hodnoty
nij − noj noj
,
které vyneseme do tabulky opět
typu r x s. Příčinu nehomogenity můžeme zjistit tak, že zopakujeme χ2 – test pro tabulku, jež je zredukována o sloupce nebo řádky, které představují kandidáty nehomogenity. Jestliže tento χ2 – test již nesignalizuje závislost (χ2 – statistika nepřekročí kritickou mez), je podezření potvrzeno. Nebo vybereme čtyři symetricky od sebe položená políčka, jež vždy po dvou leží v jedné řádce nebo sloupci, a vzniklou tabulku 2 x 2 opět testujeme. Významnost výsledku testu indikuje zdroj poruchy modelu nezávislosti.
Koeficienty závislosti (míry těsnosti) pro kontingenci Ověříme-li uvedeným testovacím postupem, že mezi sledovanými znaky existuje závislost, zajímá nás, jak těstná je tato závislost. K měření těsnosti závislosti mezi kvalitativními množnými znaky byly konstruovány speciální charakteristiky, které jsou obdobou korelačního koeficientu. Interpretovat jejich číselné hodnoty je však dosti obtížné vzhledem ke všem možným kombinacím vztahů mezi kvalitativními údaji. Pro kontingenční tabulku r x s často používáme ke změření těsnosti závislosti koeficient průměrné čtvercové kontingence C (Pearsonův koeficient kontingence), který vypočteme takto:
C=
χ2 . n+ χ2
Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula. Maximální hodnota, dosažená při úplné závislosti, je však menší než 1 a mění se podle toho, do kolika tříd byly zkoumané znaky rozděleny. Při různých počtech obměn (variant) znaků dosahuje tento koeficient různých maximálních hodnot, což je jeho značnou nevýhodou. Proto tyto koeficienty, počítané pro různé typy kontingenčních tabulek, nejsou vzájemně srovnatelné. Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru se používá normalizovaný koeficient kontingence Cn:
Cn =
C , Cmax
kde Cmax lze vypočítat ze vztahu
Cmax =
r −1 r
r je počet podskupin (obměn) toho znaku, který má méně obměn. Hodnoty Cmax jsou také tabelovány. Sílu závislosti lze též změřit pomocí Cramerova koeficientu V (tzv. Cramerovo V)
V=
χ2 n(h − 1)
pro h = min (r, s).
- 60 -
Christy
Matematická statistika II přednášky Sílu závislosti popisuje také Čuprovův koeficient kontingence, který lze vyjádřit jako
K=
χ2
n
(r − 1)(s − 1)
V případě, že oba znaky mají stejný počet obměn (r = s), pohybuje se hodnota K od 0 do 1. Není-li stejný počet obměn (r ≠ s), hodnoty 1 nedosahuje ani při úplné kontingenci.
Tabulka 2 x 2 – asociační tabulka Uvažujeme dvě náhodné proměnné X a Y, které nabývají jenom dvě hodnoty: 0 a 1. Asociace tedy zkoumá vztah mezi alternativními znaky, jež mají pouze dvě obměny. Symbolika kvalitativních znaků Jednotlivé kvalitativní znaky jsou značeny velkými písmeny latinské abecedy A, B, C, D, …. Výskyt (přítomnost) dané vlastnosti u příslušné statistické jednotky je značena malými písmeny latinské abecedy a, b, c, d, … V případě, že statistická jednotka danou vlastnost nemá, je použito odpovídajících písmen řecké abecedy α, β, γ, δ, … Přítomnost či nepřítomnost více kvalitativních znaků u statistické jednotky lze označit kombinací příslušných symbolů. Např. αbc – značí nepřítomnost znaku A a přítomnost znaků B a C nabc – počet (četnost) jednotek s danou kombinací přítomnosti či nepřítomnosti znaku.
Znak B b Znak A a a c α a+c celkem
β
celkem
b d b+d
a+b c+d n
Při zkoumání závislosti mezi alternativními znaky A a B ověřujeme stejnou nulovou hypotézu jako u množných znaků, tzn. že znaky A a B jsou nezávislé. Jako testovací kritérium použijeme opět veličinu χ2. Empirické četnosti jsou v tomto případě označeny a, b, c a d. očekávané četnosti pak značíme a0, b0, c0, d0 a vypočteme je takto:
(a + b)(a + c) (a + b)(b + d ) b0 = n n (c + d )(a + c) (c + d )(b + d ) c0 = d0 = n n a0 =
Vzhledem k odlišné symbolice dostává veličina χ2 tento tvar:
χ2 =
(a − a0 )2 + (b − b0 )2 + (c − c0 )2 + (d − d 0 )2 a0
b0
c0
d0
Za předpokladu, že nepotřebujeme znát teoretické četnosti, použijeme pro výpočet testovacího kritéria vztah:
χ2 =
n(ad − bc ) . (a + b )(a + c )(b + d )(c + d ) 2
Při platnosti H0 má toto testovací kritérium rozdělení χ2 o (2-1)(2-1) = 1 stupni volnosti. Pokud χ2 > χ2α ⇒ H0 se zamítá a závislost mezi znaky je prokázána i pro základní soubor.
- 61 -
Christy
Matematická statistika II přednášky Při používání χ2 testu pro asociační tabulku je potřeba mít na zřeteli předpoklady jeho použití. χ2 test v tomto případě dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru n, prakticky pro n > 40. Pro 20 < n ≤ 40 lze ověřovat nezávislost dvou alternativních znaků jen tehdy, není-li žádná očekávaná četnost menší než 5. Pro n ≤ 20 se nemá používat χ2 testu nikdy. Zvláštností tabulky typu 2 x 2 je, že v ní lze uvažovat směr poruchy H0, a proto musíme rozhodnout, zda použijeme jednostranný nebo dvoustranný test. V případě, že nejsou splněny podmínky pro použití χ2 testu, používáme pro testování závislosti v asociační tabulce
Fisherův test. Fisherův test nezávislosti v asociační tabulce patří k přesným testům nezávislosti náhodných proměnných a používá se při malých rozsazích výběrů (pokud n ≤ 20 nebo pokud 20 < n ≤ 40 a některá z teoretických četností je menší než 5). Nulová hypotéza opět předpokládá nezávislost mezi sledovanými alternativními znaky. Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce, nebo jakékoliv jiné uspořádání četností, jež je H0 méně příznivé. Pro ověření platnosti H0 je nutno vypočítat součet všech dílčích pravděpodobností
p = ∑ pi .
Přitom dílčími pravděpodobnostmi jsou právě pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c), (d) ve výběru o n prvních, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při zachování velikosti všech okrajových četností Jestliže tento součet pravděpodobností bude menší než zvolená hladina významnosti (p ≤ α), nulovou hypotézu zamítáme a soudíme, že byla prokázána významnost vztahu mezi sledovanými znaky A a B. Pravděpodobnosti pi (seskupení empirických četností) lze při zachování okrajových četností vyjádřit takto:
pi =
(a + b )! (c + d )! (a + c )! (b + d )! . n! a! b! c! d !
Celý postup testu je následující: - Zvolíme hladinu významnosti α. - V dané asociační tabulce vyhledáme nejnižší četnost a sestavíme další pomocné tabulky s tím, že nejmenší četnost zmenšujeme po jedné tak dlouho, až dosáhneme tabulkového uspořádání asociační tabulky, ve kterém tato minimální četnost bude nulová. Přitom okrajové četnosti zůstávají konstantní. - Vypočítáme pravděpodobnosti pi pro původní tabulku a pro každou pomocnou tabulku. - Stanovíme celkovou pravděpodobnost
p = ∑ pi .
- Srovnáme vypočtenou pravděpodobnost p se zvolenou hladinou významnosti α. Je-li p ≤ α, H0 můžeme zamítnout. V případě, že p > α, nelze považovat vztah mezi oběma znaky za prokázaný. V případě prokázané závislosti je možné dále asociační tabulku analyzovat, kdy lze - určit průběh závislosti, tedy regresi, která umožní odhady relativního počtu jednotek s výskytem jednoho znaku na základě daného relativního počtu jednotek s výskytem druhého znaku, - změřit sílu závislosti, tedy korelaci, mezi sledovanými kvalitativními znaky. Průběh závislosti dvou alternativních kvalitativních znaků může být vzhledem k počtu obměn (ano, ne) pouze lineární. Při určování rovnice asociační přímky se postupuje stejně jako u jednoduché kvantitativní závislosti. Asociační přímka vyjadřuje závislost podílu prvků s jedním znakem na podílu prvků s druhým znakem. V případě, že závislou proměnnou bude znak B a nezávisle proměnnou znak A, má rovnice asociační přímky následující podobu:
(a + c ) = A n
BA
+ BBA
(a + b ) , n
kde ABA je absolutní člen, BBA je regresní koeficient. Parametry asociační přímky lze určit po zjednodušení ze vztahů:
n • a − [(a + b )(a + c )] , (a + b )(c + d ) (a + c ) − B • (a + b ) . ABA = BA n n
BBA =
- 62 -
Christy
Matematická statistika II přednášky V případě, že závisle proměnnou bude znak A a nezávisle proměnnou znak B, je třeba určit sdruženou rovnici asociační přímky:
(a + b ) = A
AB
n
+ BAB
(a + c ) , n
n • a − [(a + b )(a + c )] , (a + c )(b + d ) (a + b ) − B • (a + c ) . = AB n n
BAB = AAB
Vzhledem k tomu, že se jedná o lineární regresi, jsou BBA a BAB směrnice přímek a udávají změnu podílu resp.
(a + b ) n
odpovídající jednotkovému zvýšení
(a + b ) n
, resp.
(a + c ) n
(a + c ) n
,
.
Dalším úkolem v asociační tabulce je změřit těsnost závislosti mezi znaky A a B. Při měření stupně asociační závislosti lze použít řadu charakteristik. Koeficient asociace (V) je svým výpočtem shodný s korelačním koeficientem v případě jednoduché lineární závislosti. Přednáška není úplně dokončena, tak s tím počítejte. Intenzita asociace se měří koeficientem asociace, kdy jde o jednostrannou sdruženost nějakého kvalitativního znaku s jiným kvalitativním znakem, nebo se využívá vzorce koeficientu korelace (přizpůsobenému kvalitativním znakům), kdy jde o oboustrannou sdruženost znaků. Existují ještě další méně používané ukazatele, jako např. Yuleův koeficient koligace, Giniho koeficient podobnosti apod. Hodnoty obou uvedených ukazatelů se pohybují v rozmezí od –1 do +1. Hodnocení je jako u klasického koeficientu korelace kvantitativních znaků. Koeficient asociace oproti „koeficientu korelace“ nadhodnocuje stupeň závislosti. Qab se rovná jedné (plus, resp. minus), když jen jedna četnost je rovna nule. Jestliže by např. všechny ošetřené stromy měly zdravé ovoce, jednalo by se o úplnou asociaci, třebaže je i mnoho neošetřených stromů, které mají rovněž zdravé ovoce. Naproti tomu rab se rovná jedné, když se vyskytují případy pouze v kombinacích ab a αβ, resp. aβ a αb. V daném případě jde o absolutní asociaci.
- 63 -
Christy