Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky
[email protected] konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
Přednáška 6 – závislost veličin, závěrečné poznámky • Kontingenční tabulka • Dvouvýběrový t-test (a analýza rozptylu) • Prezentace statistických výsledků
Vztah dvou veličin – popisná statistika • Obě diskrétní kategoriální – četnosti (kontingenční tabulka) • Jedna metrická, jedna kategoriální – tabulky charakteristik podle hodnot kategoriální veličiny – krabicové grafy
Data po předzpracování (výsek) pohlavi m m z m z z z z m z m z m m m z
odd CH INT INT INT INT INT G CH CH CH INT INT INT INT INT INT
den_vtydnu ST CT ST PO UT UT PA SO NE UT PO PO PO PO PO UT
vek 89 81 60 65 88 96 27 75 80 91 28 28 28 85 85 96
dny_hosp 14 14 11 11 9 9 8 8 8 8 8 8 8 6 6 6
Závislost dvou diskrétních nemetrických veličin – kontingenční tabulka - četnosti
odd CH G INT Total
pohlavi m 116 0 194 310
z 80 58 166 304
Total 196 58 360 614
Závislost dvou diskrétních nemetrických veličin – kontingenční tabulka – četnosti - grafické znázornění
200 180 160 140 120 100 80 60 40 20
z
0
CH
m G
INT
Jedna metrická, jedna kategoriální 100 90 80 70
vek
60 50 40 30 20 10 0
m
z
• Popisná statistika těmito výsledky končí, více nemůže poskytnout • Induktivní statistika poskytne více – ukážeme na příkladech
Kontingenční tabulky – test nezávislosti dvou kategoriálních veličin X
Y
C
ni • = ∑ nij j =1
y1 y2 : yi : yR
x1 n11 n21 : ni1 : nR1 n.1
x2 n12 n22 : : nR2 n.2 R
n• j = ∑ nij i =1
...
xj n1j
...
: nij : nRj n.j R
xC n1C n2C niC nRC n.C
C
ni. n1. n2. : ni. : nR. n.. = n
R
C
i =1
j =1
n = ∑ ∑ nij = ∑ ni • = ∑ n• j i =1 j =1
Pro nezávislé veličiny X,Y platí:
[
]
P (Y = yi ) ∩( X = x j ) = P(Y = yi ).P( X = x j ) •
zavedeme zkratky
[
pij = P (Y = yi ) ∩ ( X = x j )
pi• = P(Y = y i )
]
p• j = P( X = x j )
pij = pi • .p• j
H0: X, Y nezávislé • Odhady marginálních pravděpodobností: ni • p i • = n
p • j =
n• j n
• Očekávané četnosti při nezávislosti: ni • n• j ni • n• j eij = n p ij = n = n n n • Testové kriterium 2 R
C
χ = ∑∑ 2
i =1 j =1
(n
ij
− eij
eij
)
~
χ (2R −1) ( C −1)
Kdy zamítnout H0? • kritický obor pro testové kriterium: 2 W = χ(R −1) (C −1)(1 − α ), +∞ n=4
f(x)
n=10
0.15
0.000
)
0
2
4
7
9
11
x
13
16
18
20
Když zamítneme H0: • standardizovaná residua
(n
ij
− eij ) / eij
• mají přibližně normované normální rozdělení, tj. pokud je absolutní hodnota standardizovaného residua > 2, je odchylka pozorované četnosti od očekávané významná
Míry těsnosti závislosti X,Y • Koeficient Φ • Cramerovo V
Φ=
V =
n
Φ2 min( R, C )
• Pearsonův koeficient kontingence • Čuprovův koeficient kontingence
χ2
C=
T=
χ2 χ2 + n
Φ2 ( R − 1)(C − 1)
Výsledky pro odd, pohlavi Counts Section pohlavi odd m CH 116 G 0 INT 194 Total 310
z 80 58 166 304
Total 196 58 360 614
Expected Counts Assuming Independence Se pohlavi odd m z Total CH 99 97 196 G 29.3 28.7 58 INT 181.8 178.2 360 Total 310 304 614
Chi-Square Degrees of Freedom Probability Level Phi Cramer's V Pearson's Cont. Coeff Tschuprow's T
66.737764 2 0.000000 0.329687 0.329687 0.313109 0.277232
Standardized Residual Section pohlavi odd m z CH 1.71 -1.73 G -5.41 5.46 INT 0.91 -0.92 Total 0 0
Total 0 0 0 0
V tabulce je strukturální nula, dopředu jsme věděli, že počet pacientů-mužů na gynekologii je roven 0 • vynecháme odd = “G” Chi-Square Statistics Section Chi-Square Degrees of Freedom Probability Level Phi Cramer's V Pearson's Contingency Coefficient Tschuprow's T
1.442225 1 0.22978 0.050931 0.050931 0.050865 0.050931
Standardized Residual Section pohlavi odd m z CH 0.64 -0.72 INT -0.47 0.53
Dvouvýběrový t-test • dvě populace, normálně rozdělené N ( µ2 , σ 22 ) N ( µ1 , σ 12 ) • když jsou rozptyly shodné, pak T =
X1 − X 2 − (µ1 − µ2 ) 2 2 n − 1 s + n − 1 s ( 1 )1 ( 2 )2 n1 + n 2 − 2
1 1 + n1 n 2
~ t n1 +n2 −2
H0: µ1 = µ2
H1: µ1 ≠ µ2
• musíme rozhodnout, zda jsou rozptyly shodné, tj. testovat hypotézu 2 2 2 σ1 = σ 2 = σ
• testové kriterium
F=
s1
2
s2
2
~ Fn1 −1, n2 −1
• pokud nezamítneme shodu rozptylů, Teq =
X1 − X 2
(n1 − 1) s12 + (n2 − 1) s22 n1 + n 2 − 2
1 1 + n1 n 2
• pokud zamítneme, tak jiné testové kritérium: Tnoneq =
x1 − x 2 s12 s22 + n1 n2
Příklad – věk hospitalizovaných mužů a žen pohlavi=m pohlavi=z
n 310 304
prum sm.odch. 60.74 19.03 59.37 17.9
• F = 1.13 , p = 0.287 nezamítáme, že rozptyly jsou shodné • T = 0.914, p = 0.361 nezamítáme H0, že střední hodnoty věku jsou shodné
Dvouvýběrový test vyšel podle očekávání, věk hospitalizovaných mužů a žen se neliší 100 90 80 70
vek
60 50 40 30 20 10 0
m
z
Jak prezentovat výsledky statistických analýz? • Užívat zdravý rozum, myslet na čtenáře Gerald van Belle: Statistical Rules of Thumb, John Wiley & Sons, 2002 Kap. 7 – Words, Tables, and Graphs
• The blood type in the population of the United States is approximately 40%, 11%, 4% and 45% A, B, AB, and O, respectively. • The blood type in the population of the United States is approximately 40% A, 11% B, 4% AB and 45% O. • The blood type in the population of the United States is approximately, O A B AB
45% 40% 11% 4%.
Table 1: Number of Active Health Professionals in 1980 (from National Center for Health Statistics, 2000) Occupation Chiropractors Dentists Nutritionists/Dieticians Nurses, registered
1980 25 600 121 240 32 000 1 272 900
Occupational Therapists
25 000
Optometrists
22 330
Pharmacists
142 780
Physical Therapists
50 000
Physicians
427 122
Podiatrists
7 000
Speech Therapists
50 000
Table 2: Table 1 Rearranged by Number in Category and Rounded to the Nearest 1000. Occupation Nurses, registered
1980 in 1000's 1273
Physicians
427
Pharmacists
143
Dentists
121
Physical Therapists
50
Speech Therapists
50
Nutritionists/Dieticians
32
Chiropractors
26
Occupational Therapists
25
Optometrists
22
Podiatrists
7
Užívat rozumný počet významných číslic! • „efektivní číslice“ – mění hodnoty • např. čísla 354691, 357234, 356991 mají jen 4 efektivní číslice, ne 6 • v tabulkách max. 2 efektivní číslice, tři a více člověk vnímá obtížně
Neužívat výsečové grafy ! • čtenář musí propojovat legendu s výsečemi • ignorují strukturu dat • spotřebuje se moc inkoustu
„Jediná
věc je horší než výsečový graf – několik výsečových grafů“
Četnost krevních skupin a Rh faktoru – populace USA
Blood Type
O+
A+
B+
AB+
O-
A-
B-
AB-
Rh+
Rh-
Total
O
38
7
45
A
34
6
40
B
9
2
11
AB
3
1
4
Total
84
16
100
Neužívat sloupcové skládané (stackbar) grafy • jsou hůře čitelné než obyčejné sloupcové • většinou se najde efektivnější možnost, jak nahlédnout do struktury dat
Počet aktivit v průběhu dvou týdnů četnosti v % Počet aktivit ženy
muži
70-74
75-79
1
1.3
2.1
3.1
1-2
6.8
10.5
11.9
19.2
3-4
26.8
27.5
32.5
38.3
5-7
65.4
60.7
53.5
39.4
0
1.9
1.7
2.9
5.3
1-2
10.5
13.3
15.9
23
3-4
26.3
30.3
36.7
35.9
5-7
61.2
54.7
44.5
35.9
0
80-84 85 a více
STACKBAR graph Kramarov et al., National Center for Health Statistics, 1999 0
1-2
3-4
5-7
100% 80% 60% 40% 20% 0% 70-74
75-79
80-84
ženy
85 a vice
70-74
75-79
80-84
muži
85 a vice
Přirozené otázky: • Mají více aktivit muži nebo ženy? • Jak mění počet aktivit s věkem? • Liší se tyto změny u mužů a žen?
Prům ěrný počet aktivit
5.50 5.00 4.50
ženy muži
4.00 3.50 3.00 70
75
80 Věk
85
90
Výběr z chyb v korespondenčních úlohách studentů předmětu Analýza dat v LS 2007
500
Cetnost
400 300 200 100 0 1
2
3
4
5
6
7
Trida cislo
8
9
10
11
sloupec 13 400 350 300 250 200 150 100 50 0
Teq =
x1 − x2
578 = = 3.108108438 2 2 ( n1 − 1) s1 + ( n2 − 1) s2 1 + 1 186.0938933 n1 + n2 − 2 n n 2 1
H0: µ = 6 průměr x = 5,959409417 s = 0,99046792 hodnota testového kritéria: -1,29593994
Počet narozených 250 000 200 000 150 000 100 000 50 000
19 63 19 68 19 73 19 78 19 83 19 88 19 93 19 98 20 03
0
Počet narozených
Přístupy prostřednictvím majoritních prohlížečů 1 400 000 000 1 200 000 000
800 000 000 600 000 000 400 000 000 200 000 000
In t
prohlížeč
an ý zn po
ne
ro z
ra
fa ri Sa
ca et s
O pe
pe
7 N
lo
re r
6 er ne
tE xp
tE xp
lo
st a
er ne
5 In t
re r lo In t
er ne
tE xp
re r
ar š
illa M oz
fo x
í
0 Fi re
počet přístupů
1 000 000 000
Rozložení souboru dle výroku: "Pijete alkohol?" a typu školy 120
četnost v %
100 80
ano
60
ne
40 20 0 gymnázium
učiliště
průmyslovka
1992
měření
1987
1982
1977
1972
1967
1962
1957
1952
1947
1942
1937
1932
1927
1922
1917
1912
1907
1902
1897
Ú h rn sráž ek (m m ) 450 rekonstrukce
400
350
300
250
200
150
Závěrečné poznámky: • Ze 6 přednášek a cvičení není možné naučit se statistiku, ale lze pochopit základní myšlenky • Data jsou obrazem zkoumaného světa, „garbage in, garbage out“ • Aplikaci statistiky ve výzkumu včas konzultujte se statistikem (Třísku si vyndám sám, se slepým střevem jdu na chirurgii)