ANALÝZA ZÁVISLOSTÍ -
zkoumání závislosti dvou event. více proměnných, měření síly této závislosti, atd. cílem je hlubší vniknutí do podstaty sledovaných jevů a procesů, přiblížení k tzv. příčinným souvislostem.
Dvourozměrná tabulka rozdělení četností -
je elementární metodou popisu závislosti rozlišujeme různé typy tabulek.
Korelační tabulka: obě proměnné jsou numerické. Kontingenční tabulka: alespoň jedna proměnná je slovní. Asociační tabulka: obě proměnné jsou alternativní. Čtyřpolní tabulka: obě proměnné nabývají pouze dvou obměn.
Dvourozměrná tabulka rozdělení četností i 1, 2, , r xi
j 1, 2, , s yj
Součty četností
ni
y1
y2
...
ys
x1
n11
n12
...
n1s
n1
x2
n21
n22
...
n2 s
n 2
. . .
. . .
. . .
. . .
. . .
. . .
xr Součty četností
n j
nr1
nr 2
...
nrs
nr
n1
n 2
...
n s
n
Symbolika: sdružené (simultánní) absolutní četnosti
n ij
ni , n j okrajové (marginální) absolutní četnosti sdružené relativní četnosti
pij
p i , p j marginální relativní četnosti. s
r
ni n ij ; j 1
r
n j nij ; i 1
s
r
pi
ni ; n
p j
s
ni n j nij n i 1
j 1
i 1 j 1
1
n j n
;
pij
nij n
Podmíněné rozdělení četností: Rozdělení četností jedné proměnné, které odpovídá určité obměně druhé proměnné (tj. za podmínky, že druhá proměnná nabyla určité obměny). p j /i
Podmíněné relativní četnosti:
n ij n i
s
yi
j 1
y s yi2
y
ni s
Podmíněný rozptyl:
nij n j
s
y j nij Podmíněný průměr:
; pi / j
ij
j 1
ni s
y i nij
y
2
j
j 1
ni
yi
2
ij
j 1
ni
Pro výpočty je často používána také jiná forma tabulky, která umožňuje třídění hodnot proměnné y podle proměnné x do k skupin.
Tabulka třídění proměnné y podle proměnné x
i 1, 2, , k
j 1, 2, , ni
xi
yij
ni
yi
s yi2
x1
y11 , y12 , y13
n1
y1
s 2y1
x2 . . .
y 21 , y 22 , y 23 , y 24 , y 25 . . .
n2 . . .
y2 . . .
s y22 . . .
xk
y k1 , y k 2 , y k 3 , y k 4
nk
yk
2 s yk
Celkem
n
y
s 2y
ni
y Podmíněný průměr:
yi
ij
j 1
ni ni
y Podmíněný rozptyl:
s yi2
yi
2
ij
j 1
ni
2
Grafické znázornění dvourozměrného rozdělení četností -
je další formou popisu závislosti lze použít různé typy grafů.
čára podmíněných průměrů čára podmíněných rozptylů bodový graf (diagram).
Rozklad rozptylu Princip: celkový rozptyl proměnné y ( s 2y ) lze vyjádřit jako součet rozptylu podmíněných průměrů ( s y2.m ) a průměru podmíněných rozptylů ( s y2.v ). Vzorec pro rozklad rozptylu:
s y2 s 2y.m s 2y.v
Celkový rozptyl ( s 2y ) ni
k
y 2 y
s
k
y
2
ij
i 1 j 1
n
Sy n
ni
y ;
y
ij
i 1 j 1
n
y ij jednotlivé hodnoty sledované proměnné
y celkový průměr n rozsah výběru S y celkový součet čtverců.
1. Rozptyl podmíněných průměrů ( s y2.m ) - meziskupinový rozptyl - odráží variabilitu mezi skupinami - kolísání podmíněných průměrů je důsledkem závislosti y na x - meziskupinová variabilita je vysvětlitelná faktorem x. k
s y2.m
y
2
i
y ni
i 1
n
S y.m n
yi podmíněný průměr S y.m meziskupinový součet čtverců.
3
2. Průměr podmíněných rozptylů ( s y2.v ) - vnitroskupinový rozptyl - odráží variabilitu uvnitř skupin - kolísání je důsledkem závislosti y na jiných faktorech než na x. k
s
2 y .v
s
2 i
i 1
n
ni
S y .v n
s i2 podmíněný rozptyl S y .v vnitroskupinový (reziduální) součet čtverců.
Poznámka: Za účelem zjednodušení výpočtů lze používat pouze čitatele vzorců, tzv. součty čtverců, neboť jestliže platí s y2 s 2y.m s 2y.v , platí také S y S y.m S y .v .
Analýza rozptylu -
jednofaktorová analýza, faktorem je proměnná x (číselná nebo slovní) je to test, který zkoumá, zda změny hodnot numerické proměnné y lze vysvětlit změnami faktoru x slouží k ověření významnosti rozdílu výběrových průměrů více náhodných výběrů.
Předpoklady testu: -
ze základního souboru s normálním rozdělením N ; 2 je pořízeno k nezávislých náhodných výběrů každý z výběrů má normální rozdělení s neznámou střední hodnotou 1 , 2 , ..., k a s neznámým rozptylem 12 , 22 , ..., k2
-
rozptyly všech skupin jsou stejné, tj. 12 22 ..... k2 (tzv. homoskedasticita) shodu rozptylů je třeba ověřit vhodným testem, např. Bartlettovým počet pozorování musí být větší než počet skupin, tj. n > k.
Testovací postup: 1) H 0 : 1 2 ..... k (tj. y nezávisí na x; rozdělení proměnné y mají na různých úrovních faktoru x stejné střední hodnoty) H 1 : non H 0 2) Testové kritérium: S y.m F k 1 ; S y .v
Statistika F má při platnosti H0 rozdělení F k 1; n k
nk
4
3) Kritický obor: W F ; F F1 k 1; n k 4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 , tedy prokázali jsme hypotézu H 1 o závislosti proměnné y na faktoru x.
Měření síly (intenzity, těsnosti) závislosti proměnné y na faktoru x: Poměr determinace: P 2
S y .m Sy
P P2 ;
Poměr korelace:
;
P 2 0;1
P 0;1
χ2 – test o nezávislosti v kontingenční tabulce -
kontingenční tabulka: dvourozměrná tabulka, kde alespoň jedna proměnná je slovní podstatou testu je porovnání empirických četností s teoretickými četnostmi teoretické četnosti = četnosti očekávané v případě nezávislosti ( n ij ).
Vzorec pro výpočet teoretických četností: nij
ni n j n
Předpoklady testu: -
všechna políčka kontingenční tabulky musí být dostatečně obsazena ( nij 5 ) pokud podmínka není splněna, musíme některé třídy sloučit nebo zvětšit rozsah výběru.
Testovací postup: 1) H 0 : proměnné x a y jsou nezávislé H 1 : non H 0 2) Testové kritérium: r
s
G i 1 j 1
n
nij
2
ij
nij
;
Statistika G má při platnosti H0 rozdělení 2 r 1s 1
5
3) Kritický obor:
W G; G 12 r 1s 1
4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 , tedy prokázali jsme hypotézu H 1 o závislosti proměnných x a y.
Měření síly (intenzity, těsnosti) závislosti v kontingenční tabulce:
Cramérův koeficient kontingence:
CCr
G ; nh
CCr 0,1 h = min (r-1; s-1)
Pearsonův koeficient kontingence:
CP
G ; Gn
C P 0,1
χ2 – test o nezávislosti v asociační tabulce -
asociační tabulka: dvourozměrná čtyřpolní tabulka v podstatě jde o speciální případ kontingenční tabulky znaky A a B jsou alternativní při zkoumání asociace sledujeme, jak často jevy A a B nastaly či nenastaly současně, a jak často nastal pouze jeden z nich.
Testovací postup: 1) H 0 : znaky (jevy) A a B jsou nezávislé H 1 : non H 0 2) Testové kritérium: Gn
n11 n 22 n12 n 21 2 n1 n2 n1 n 2
;
Statistika G má při platnosti H0 rozdělení 2 1
3) Kritický obor:
W G; G 12 1
4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 , tedy prokázali jsme hypotézu H 1 o závislosti (asociaci) proměnných A a B. 6
Měření síly (intenzity, těsnosti) závislosti v asociační tabulce:
Koeficient asociace:
rAB
n11 n 22 n12 n 21 n1 n 2 n1 n 2
rAB 1;1
;
Interpretace koeficientu asociace: 1. znaménko (+/–) udává směr asociace:
rAB > 0 kladná (přímá) asociace (jevy častěji nastávají či nenastávají společně a méně často nastává jen jeden z nich). rAB < 0 záporná (nepřímá) asociace (jevy méně často nastávají či nenastávají společně a častěji nastává jen jeden z nich). 2. rAB udává sílu asociace:
rAB 0 rAB 1
úplná nepřímá asociace (kterýkoli z jevů pouze když nenastává jev druhý)
rxy 0
slabá asociace
rxy 1
silná asociace
úplná kladná asociace (jevy nastávají pouze společně)
Regresní a korelační analýza Regresní analýza - zkoumání jednostranné závislosti numerické proměnné y (závislá, vysvětlovaná) na numerické proměnné x (nezávislá, vysvětlující) - nezávislá proměnná = příčina, závislá proměnná = důsledek - důležitý je přitom směr závislosti (která proměnná je závislá a která nezávislá) - závislost většinou modelujeme nějakou matematickou funkcí (tzv. regresní funkce). Korelační analýza - zabývá se především intenzitou vzájemného vztahu numerických proměnných - na intenzitu závislosti je kladen větší důraz než na její směr - zahrnuje míry intenzity závislosti - „correlatió“ = vzájemná souvislost (z lat.) - z výpočetních a interpretačních hledisek se regresní a korelační analýza prolínají.
Regresní modely -
matematické modely, které vyjadřují představu o průběhu závislosti proměnných umožňují odhady neznámých hodnot závisle proměnné ze známých hodnot nezávisle proměnné.
7
Obecný tvar modelu: y i i i xi i ,
i 1, 2, , n.
Symbolika: i deterministická složka i náhodná (rušivá) složka.
Typy modelů: aditivní (součtový) – jeho složky se skládají sčítáním, je nejběžnější multiplikativní (součinový) – jeho složky se skládají násobením. Teoretická regresní funkce: x -
existují různé typy regresních funkcí nejčastější jsou lineární regresní funkce linearita se může hodnotit jak z hlediska proměnných, tak z hlediska parametrů každá regresní funkce má určitý počet parametrů (jejich počet značíme p).
Parametry regresní funkce: - neznámé konstanty; symbolicky je značíme řeckými písmeny 0 , 1 , , m - jejich hodnoty lze odhadnout z výběrových dat - je třeba k jejich odhadu zvolit takovou metodu, aby odhady měly co nejlepší vlastnosti.
1) Funkce lineární z hlediska parametrů přímka rovina nadrovina
0 1 x 0 1 x1 2 x 2 0 1 x1 2 x 2 m x m
parabola
0 1 x 2 x 2
0 1 x 1 logaritmická funkce 0 1 ln x hyperbola polynom
0 1 x 2 x 2 m x m
2) Funkce nelineární z hlediska parametrů exponenciální funkce
0 1x
mocninná funkce
0 x 1 x 0 x 1
Tőrnquistova křivka
8
Jednoduchá lineární regrese -
regresní funkce je lineární z hlediska parametrů má jednu vysvětlující proměnnou (regresor) x.
0 1 x
Teoretická (hypotetická) regresní funkce: -
0 , 1 parametry; x regresor nutno provést odhad neznámých parametrů 0 , 1 odhad parametrů lineární regresní funkce provádíme metodou nejmenších čtverců když odhadneme parametry, získáme tzv. výběrovou regresní funkci.
Empirická (výběrová) regresní funkce: -
ˆ Y b0 b1 x
b 0 ,b1 odhady parametrů; b0 ˆ0 ; b1 ˆ1
Metoda nejmenších čtverců -
lze ji použít pouze k odhadu parametrů funkcí lineárních v parametrech (v lineární regresi) princip: parametry odhadujeme tak, aby pro ně byl minimální součet čtverců reziduí. i 1, 2, , n
y i i i 0 1 xi i , yi Yi ˆ i b0 b1 xi ˆi
Reziduum: ˆi y i Yi y i b0 b1 xi ei n
n
i 1
i 1
S ei2 y i b0 b1 xi
2
minimalizovat
1. stanovíme parciální derivace a položíme je rovny 0 2. vznikne soustava dvou rovnic o dvou neznámých (tzv. normální rovnice) 3. vyřešíme ji a získáme vzorce pro výpočet b 0 a b1 . Vzorce pro výpočet parametrů výběrové regresní přímky: b1
xy x y s xy 2 s x2 sx
b0 y b1 x
b1 výběrový regresní koeficient (směrnice výběrové regresní přímky) udává průměrnou změnu proměnné y odpovídající zvýšení proměnné x o jednotku. s xy kovariance
symetrická míra, tzn. s xy s yx .
9
Sdružené regresní přímky Y a yx b yx x
popisuje závislost y na x
X a xy b xy y
popisuje závislost x na y
1. b yx b xy 0 -
x a y jsou korelačně nezávislé sdružené regresní přímky svírají pravý úhel. 1 2. b yx bxy -
x a y jsou perfektně závislé sdružené regresní přímky svírají nulový úhel, tedy splývají.
Míry těsnosti lineární závislosti s xy s xy s xy2 Koeficient determinace: r r b yx bxy 2 2 2 2 ; sx s y sx sy 2 yx
Koeficient korelace:
-
rxy2 0;1
2 xy
ryx rxy ryx2
s xy sx sy
xy x y
x
2
parametrická míra těsnosti závislosti dvou proměnných vyžaduje splnění předpokladu normality dat je velmi citlivý vůči odlehlým hodnotám měří pouze sílu lineární závislosti, nikoli závislosti obecně tento koeficient je symetrický.
Interpretace koeficientu korelace: 1. znaménko (+/–) udává směr závislosti: r xy > 0 přímá závislost r xy < 0 nepřímá závislost
2. rxy udává sílu závislosti: rxy 0
lineární nezávislost
rxy 1
funkční (perfektní) závislost
rxy 0
slabá lineární závislost
rxy 1
silná lineární závislost
10
x2 y2 y2
;
rxy 1;1
Test hypotézy o nulové hodnotě korelačního koeficientu 1) H 0 : yx 0 (lineární nezávislost x a y) H 1 : non H 0 2) Testové kritérium:
t
ryx n 2 1 ryx2
; Statistika t má při platnosti H0 rozdělení t n 2
3) Kritický obor: W t ; t t n 2 a t t n 2 1 2 2
4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 , tedy prokázali jsme hypotézu o lineární závislosti proměnných x a y.
n
6 ai bi Spearmanův koeficient pořadové korelace: rs 1 -
i 1
n n2 1
2
;
rs 1;1
neparametrická varianta korelačního koeficientu vychází pouze z pořadí naměřených hodnot nevyžaduje proto splnění předpokladu normality rozdělení dat a je robustní vůči odlehlým hodnotám neodráží pouze lineární závislost (jako klasický koeficient korelace), ale měří, jak dobře popisuje vhodná monotónní (tedy i nelineární) funkce závislost proměnných interpretace a test hypotézy o nulové hodnotě: stejné jako u korelačního koeficientu.
Míry těsnosti závislosti -
obecné míry, nezávislé na typu regresní funkce lze použít i pro měření nelineární závislosti tyto míry nejsou symetrické.
Index determinace: I 2 -
ST ; Sy
I 2 0;1
udává, jaký podíl variability proměnné y lze vysvětlit zvolenou regresní funkcí lze ho vyjádřit v %
Index korelace:
I I2 ;
I 1;1
11
Rozklad celkového součtu čtverců S y ST S R S y celkový součet čtverců
S T teoretický součet čtverců část variability, kterou lze vysvětlit zvolenou regresní funkcí
S R reziduální součet čtverců část variability, kterou nelze vysvětlit zvolenou regresní funkcí. n
2
S y y i y i 1
n
2
n
S T Yi y ;
2
S R y i Yi .
i 1
i 1
Testování vhodnosti regresního modelu Celkový F – test -
testuje vhodnost modelu jako celku analýza rozptylu.
1) H 0 : 0 c, 1 , 2 , ......, m 0 (regresní funkce nemá žádný význam, tj. není vhodná) H 1 : non H 0 2) Testové kritérium:
F
ST p 1 ; SR n p
Statistika F má při platnosti H0 rozdělení F p 1; n p .
3) Kritický obor: W F ; F F1 p 1; n p 4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 . Model lze na dané hladině významnosti považovat za vhodný.
12
Dílčí t – testy -
testy o nulové hodnotě jednotlivých regresních parametrů počet testů je roven počtu parametrů modelu.
1) H 0 : h 0, h 1, 2, , m H 1 : non H 0 2) Testové kritérium:
th
bh , h 1, 2, , m. sbh
Statistika t h má při platnosti H0 rozdělení t n p .
3) Kritický obor: W t h ; t h t n p a t h t n p 1 2 2
4) Závěr testu: Pokud leží hodnota testového kritéria v kritickém oboru, zamítáme H 0 a přijímáme H 1 . Testovaný parametr lze na dané hladině významnosti považovat v regresní funkci za přínosný.
Jednoduchá nelineární regrese -
není-li regresní funkce lineární v parametrech, nelze její parametry odhadnout metodou nejmenších čtverců pro odhad parametrů se používá řada různých metod, například metoda linearizující transformace (logaritmická apod.) nebo metoda částečných součtů většinou následují další metody pro zlepšení vlastností odhadů výpočetně značně náročné (využití statistických programů).
Vícenásobná lineární regrese -
zkoumáme závislost proměnné y na dvou či více vysvětlujících proměnných x1 , x 2 , , x m , tzv. regresorech volba typu regresní funkce je obtížná, nelze znázornit ani graficky vhodné použití statistických programů z důvodu jednoduchosti a schopnosti interpretovat výsledky nejčastěji volíme lineární regresní funkci.
Teoretická vícenásobná lineární regresní funkce:
0 1 x1 2 x 2 m x m .
13
Volba vhodného typu regresní funkce -
volba by se měla v prvé řadě opírat o věcný rozbor vztahů proměnných při volbě nejvhodnější regresní funkce lze uplatnit různá kritéria, která lze vzájemně kombinovat vždy se snažíme o jednoduchost modelu (ne příliš mnoho parametrů) úspěšnost modelu je nezbytné ověřit vhodným testem dále je třeba změřit přilnavost regresní funkce k datům vhodnou mírou.
1. Index determinace -
za vhodnější je považována ta regresní funkce, u které je hodnota I2 vyšší.
Při srovnávání funkcí s nestejným počtem parametrů je třeba hodnotu I2 upravit (penalizovat), neboť u funkcí s vyšším počtem parametrů vychází hodnota I2 automaticky vyšší. Existují různé formy penalizace, například:
2 I adj 1 1 I 2
n 1S R n 1 1 n p S y n p
Pozn.: adjusted = upravený.
2. Testové kritérium F -
testové kritérium celkového F-testu vhodnosti modelu za vhodnější je považována funkce, u níž je hodnota statistiky F vyšší toto kritérium lze použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce.
F
ST p 1 SR n p
2. Reziduální součet čtverců a reziduální rozptyl n
Reziduální součet čtverců:
S R y i Yi
2
i 1
-
za vhodnější je považována funkce, která má reziduální součet čtverců nižší reziduální součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů.
Reziduální rozptyl: -
S R2
SR n p
za vhodnější je považována funkce, která má reziduální rozptyl nižší reziduální rozptyl lze použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. 14
3. Testové kritérium F
F -
ST p 1 SR n p
testové kritérium celkového F-testu vhodnosti modelu za vhodnější je považována funkce, u níž je hodnota statistiky F vyšší toto kritérium lze použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce.
15