Obecné principy
Měření statistické závislosti, korelace, regrese
závislost …… vzájemná souvislost měřených znaků
• funkč funkční závislost
x
statistická statistická závislost
• nástroje pro měřen ěřeníí závislosti – lineá lineární rní regrese
Prof. RNDr. Jana Zvárová, DrSc.
– korelace
}
kvantitativní znaky
1
MĚŘENÍ ZÁVISLOSTI Cílem statistické analýzy v epidemiologii bývá nejen stanovit, zda onemocnění závisí na výskytu rizikového faktoru, ale rovněž vyjádřit STUPEŇ STUPEŇ ZÁVISLOSTI. VISLOSTI Stupeň závislosti však stanovujeme i mezi příznaky a nemocí či mezi příznaky samotnými. STUPEŇ ZÁVISLOSTI (KORELACI) vyjadřujeme pomocí různých MĚR STATISTICKÉ ZÁVISLOSTI, ke kterým patří i KORELAČ KORELAČNÍ KOEFICIENTY. KOEFICIENTY Obecně požadujeme:
< 0< = |míra statistické závislosti | = NEZÁVISLOST
1
FUNKČNÍ ZÁVISLOST
3
Korelace a regrese • síla (tě (těsnost) zá závislosti dvou ná náhodných velič č in: korelace veli – symetrický vztah obou velič veličin – neslouž neslouží k př předpově edpovědi
• způ způsob (tvar) zá závislosti ná náhodné hodné velič veličiny na jiné jiné velič veličině ině: regrese – mož možnost př předpově edpovědi
• příklad: výš výška otce, výš výška jeho syna (v dospě dospělosti) – korelace: jak tě těsně sně spolu souvisejí souvisejí ? populace - všechny dvojice (otec, syn) – regrese: regrese: lze z výš výšky otce odhadnout výš výšku syna ? řada populací populací - synové synové otců otců vysokých 170 cm, 171 cm ... 4
Měření závislosti pro kvantitativní znaky
Korelace - kvantifikace síly lineární závislosti mezi dvěma kvantitativnímu veličinami
Kromě stupně závislosti, který vyjadřuje korelač korelační koeficient, se často snaž snažíme zjistit i typ zá závislosti. vislosti. Orientač Orientačně můžeme ůžeme typ zá závislosti posoudit z bodové bodového grafu. grafu. Typ zá eme závislosti urč určuje křivka, ivka, kterou můž můžeme empirickými body proložit.
(Pearsonův) korelační koeficient: n
r=
s xy s 2xs 2y
∑ (x
=
i =1
i
− x )(y i − y )
n
n
i =1
i =1
2 2 ∑ (xi − x ) ∑ (yi − y )
• důležité je znaménko a velikost korelačního koeficientu • korelace neznamená příčinnost. • hodnoty posuzujte kriticky
5
7
Korelace
Příklady r=0,45 0,45
8000
hmotnost
160
7000
140 120
6000
100
mortality mort
180
9000
200
220
10000
r=-0,82
30
35
40
latitude lat
45
65
70 delka
75
6
8
Pearsonův korelační koeficient
Lineární regrese
• měří ěří sílu lineá lineární rní závislosti spojitých velič veličin • vždy platí -1 ≤ ρX,Y ≤ 1 platí: • v př případě padě normá normální lního rozdě rozdělení lení platí platí: nezá nezávislost X, Y ⇔ ρX,Y = 0 • odhad pomocí pomocí ∑ ( x − x )( y − y ) rX ,Y =
i
- kvalifikace lineárního vztahu mezi dvěma kvantitativnímu veličinami
Př.: Analyzujeme data o počtu pracovních hodin za měsíc v anesteziologické službě v závislosti na velikosti Počet Spádová spádové oblasti.
i
∑ ( xi − x ) 2 ∑ ( y i − y ) 2
• nezá nezávislost zamí zamítáme, pokud | t | ≥ t1-α/2(n-2), kde t=
r 1 − rX2 ,Y
n−2
9
Nemocnice 1 2 3 4 5 6 7 8 9 10 11 12
pracovních hodin 304,37 2616,32 1139,12 285,43 1413,77 1555,68 383,78 2174,27 845,30 1125,28 3462,60 3682,33
populace (v tis.) 25,50 294,30 83,70 30,70 129,80 180,80 43,40 165,20 74,30 60,80 319,20 376,20
11
Lineá Lineární rní regrese - motivač motivační příklad
Grafy
10
12
Lineá Lineární rní regrese - výpoč výpočet odhadů odhadů α a β
Lineá Lineární rní regrese - regresní regresní přímka
Odhady parametrů α a β :
Regresní přímka:
yi = α + β xi + ε i ,
a = y −bx
i = 1,..., n
a …… absolutní člen (intercept) b …… směrnice (slope) e …… náhodná chyba
b=
s xy s 2x
Pomocné výpočty 1 n x = ∑ xi n i =1
Př. (pokr.):
s xy =
pracovní doba = α + β velikost populace + ε
2
1 n y = ∑ yi n i =1
s2x =
1 n ∑ (x i − x ) n − 1 i =1
2
s2y =
1 n ∑ (yi − y ) n − 1 i =1
1 n ∑ (xi − x )(yi − y ) n − 1 i =1
(sxy je odhad kovariance veličin X a Y) 13
Lineá Lineární rní regrese - odhad parametrů parametrů
Lineá Lineární rní regrese - interpretace výsledků výsledků
Odhady hodnot parametrů α a β se určují metodou nejmenších čtverců.
Př.: Obdrželi jsme rovnici pracovní doba = 180,658 + 9,429 * velikost populace
Princip metody nejmenších čtverců: Za odhad parametrů α a β se berou taková čísla a a b, pro která výraz n
15
- výsledek je třeba interpretovat pouze v rozsahu pozorovaných dat - odhadnuté parametry závisejí na použitých datech - můžeme zjistit intervalové odhady skutečných parametrů
S e = ∑ (y i − yˆ i )
2
i=1
nabývá minimální hodnoty. Zde yˆ i = a + b x i je vyhlazená hodnota yi. Rozdíl y i − yˆ i se nazývá i-té reziduum. Tzv. reziduální rozptyl je pak zaveden jako Se 2
s =
n−2
14
16
Graf odhadnuté odhadnuté regresní regresní pří mky
17
Koeficient determinace
Koeficient determinace:
R2 = r 2 - měření síly závislosti mezi proměnnými X a Y - míra vhodnosti modelu - určuje část variability Y vysvětlenou pomocí modelu lineární regrese
!
(1-R2) ⋅ 100 % variability Y nelze vysvětlit variabilitou X
18