Biostatisztika VIII Mátyus László
19 October 2010
1
Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben. A standard normális eloszlás nem kezeli ezt a további bizonytalanságot, ezért egy módosított standard normális eloszlást, a t eloszlást vezetjük be. 2
Student t eloszás • William Sealy Gosset
(1876-1937) fedezte fel • Gosset a Guinness Sörgyárban dolgozott és nem publikálhatta tudományos eredményét. • Student álnéven közölte munkáját (a statisztika „diákja” volt).
3
Ha n nagyon nagy, akkor s jó becslést szolgáltat σ–ra és az ahhoz tartozó t eloszlások nagyon közel vannak a standard normális eloszláshoz. A t eloszlás kisebb minta nagyság esetén szélesebb, ami azt tükrözi, hogy a σ becslése s alapján kevésbe pontos.
4
t eloszlás • A t hasonlít a standard
normális eloszlásra, de szélesebb. • Sok t eloszlás van (egy család). • Mindegyik t eloszláshoz különböző szabadságfok (df) tartozik. • Ahogy df nő, t egyre inkább hasonlít a standard normális eloszlásra.
5
t táblázat • A t táblázatok különböznek a standard normális
eloszlás táblázatától • Mindegyik sorhoz egy szabadságságfok (df) tartozik. • Az oszlopokban a kumulált valószínűségeket találjuk.
6
t táblázat • A t táblázatban a
97,5 percentilishez 9 df esetén a 2,26 érték található • Grafikusan lásd jobbra • Jelölés: tdf,kum. val.
t9,.975 = 2,26
7
Egy példa: diabéteszes betegek súlya • •
•
Kérdés: Milyen mértékben túlsúlyosak a cukorbetegek? Mérjük meg az ideális testsúly %-ában” 18 diabéteszes testsúlyát. Az adatpontok (aktuális testsúly) ÷ (ideális testsúly) × 100%
•
Adatok {107, 119, 99, 114, 120, 104, 88, 114, 124, 116, 101, 121, 152, 100, 125, 114, 95, 117}
•
Számítás
Minta átlag (xvonás) = 112,778 Minta standard deviációja (s) = 14,424
8
Egy mintás t próba Feltételek: • Egyszerű véletlen minta • Normális eloszlású populáció vagy nagy elemszám (n). • s -t s alapján becsüljük.
9
A folyamat (lépések) (A) Null hipotézis és alternatív hipotézisek (B) a (előre meghatározott szint) (C) Teszt statisztika tstat (D) A tstat értéket p valószínűség értékké alakítjuk t táblázat vagy számítógép segítségével.
10
Példa: diabéteszes betegek súlya
• Állítás “a cukorbetegek túlsúlyosak” • Az adatok “az ideális testsúly %-ban”
n = 18 Minta átlag (xvonás) = 112,778 A minta standard deviációja (s) = 14,424
11
A: “Diabéteszes súly” • Állítás “a cukorbetegek túlsúlyosak” • Konvertáljuk az állítást null hipotézissé
“A cukorbetegek nem túlsúlyosak” Nem túlsúlyos = 100 ideális testsúly Ezért, H0: µ = 100 Keressünk érveket H0 ellen
• Alternatív hipotézis lehet
H1: µ 100 (két oldalú) H1: µ > 100 (egy oldalú, jobb) H1: µ < 100 (egy oldalú, bal)
12
A P-érték annak a valószínűsége, ha H0 igaz, akkor egy véletlenszerűen vett minta olyan eredményt hoz, ami a Ha irányába mutat.
A P-értéket a megfelelő görbe alatti terület kiszámításával kapjuk meg, egy vagy két oldalas esetben a Ha-tól függően.
Egy oldali
x 0 t s n
Két oldali
13
B: “Diabéteszes súly” • a értékét rögzítjük. • A gyakorlatban általában dinamikusan értelmezzük.
14
C: “Diabéteszes súly” Az x átlag értékét (xvonás) tstat–tá konvertáljuk x 0 tstat ahol df n 1 SEM 0 a populáció átlaga, ha a null hipotézis igaz s SEM a középérték közepes hibája n tstat megmondja, hogy hány standard hibányira van a mintaátlag a populáció feltételezett átlagától.
15
C (“Diabéteszes súly”) s 14, 424 SEM 3, 400 n 18 x 0 112, 778 100 tstat 3, 76 SEM 3, 400 df n 1 18 1 17 tstat megmondja, hogy a mintaátlag 3,76 standard hibányira van a populáció feltételezett átlagától (t17)
16
D: Konvertáljuk tstat–ot p értékké • Számítógépes program • t táblázat (közelítés)
tn-1 az x átlag standardizált hibája Határozzuk meg a valószínűségeket Fejezzük ki p-t egyenlőtlenség formájában
17
D: “Diabéteszes súly” • Rajzoljunk egy t függvényt és jelöljük be a µ-t és a SEM-et • Jelöljük xátlag–ot és a tstat–ot a görbén • Használjuk a t táblázatot a terület meghatározására • Példa: tstat = 3,76 a t17 soron a 3,65 (t17,.999) és a 3,97 (t17,.9995) közés esik
Egy oldalú p kisebb mint 0,001 és több mint 0,0005 Két oldalú p kisebb mint 0,002 és több mint 0,001
• A pontos érték (p) két oldalú
próbára 0,0016 (számítógép)
18
A p érték értelmezése • Kis p érv H0 ellen • Az előző példa alapján, p =0,0016 szignifikáns érv H0 ellen.
A konklúzió: a cukorbetegek túlsúlyosak.
19
Kétféle két mintás probléma • Önkontrollos
Az egyik minta minden adatához tartozik egy adat a másik mintában.
• Független minták
Az egyik minta elemei nem kapcsolódnak a másik minta elemeihez. Két független csoport
20
Példák önkontrollos mintára • Teszt előtti - teszt utáni párok • Azonos párok
21
Független minták
22
Egy példa: oatbran.sav személy CORNFLK
• Adatok: low density lipoprotein • • • •
(“rossz cholesterol”) mg/dl Két hét cornflake diéta LDL cholesterol Kimosási periódus Két hét oatbran diéta LDL cholesterol Randomizálás, a minta fele CORNFLK-kel kezd, a másik fele OATBRAN-nal
utána “cross-over”
• Mindegyik CORNFLK pontnak van egy OATBRAN megfelelője
ÖNKONTROLLOS MINTA
----
-------
OATBRAN -------
1
4,61
3,84
2
6,42
5,57
3
5,40
5,85
4
4,54
4,80
5
3,98
3,68
6
3,82
2,96
7
5,01
4,41
8
4,34
3,72
9
3,80
3,49
10
4,56
3,84
11
5,35
5,26
12
3,89
3,73
13
2,25
1,84
14
4,24
4,14
Minta átlagok • Számítsuk ki a statisztikákat
Kézzel TI-30XIIS számológéppel SPSS-sel
• A fenti példa
Mean LDL, CORNFLK (xvonás1) = 4,444 Mean LDL, OATBRAN (xvonás2) = 4,081
24
Számítsuk ki az átlagos eltérést “DELTA” • Legyen DELTA = CORNFLK - OATBRAN • A kivonás sorrendje nem befolyásolja az
eredményt (de következetesnek kell lenni) ID CORNFLK OATBRAN ---- ------- ------1 4,61 3,84 2 6,42 5,57 3 5,40 5,85 … … … 14 4,24 4,14
DELTA ----0,77 0,85 -0,45 … 0,10
A pozitív érték csökkenést jelent oatbran esetén
25
DELTA statisztikája • DELTA értékek: 0,77, 0,85, -0,45, -0,26, 0,30, 0,86, 0,60, 0,62, 0,31, 0,72, 0,09, 0,16, 0,41, 0,10
• Leíró statisztika
n = 14 Xátlag,d = 0,3629 sd = 0,4060
oatbran diéta esetén az LDL csökkenés átlagosan 0,363 mg/dl, a standard deviáció 0,406 mg/dl.
26
Szignifikancia teszt Ugyanaz mint az átlagra vonatkozó teszt, csak itt a különbség, DELTA, a teszt alapja.
• Az átlagos különbség“szignifikáns”? • H0: µd = µ0 vs. H1: µd µ0 • megjegyzés: a p értékek a gyakorlatban majdnem mindig két oldalasak µ0 az önkontrollos tesztben általában 0 ( “nincs különbség”) H0: µd = 0 vs. H1: µd 0
27
Teszt statisztika tstat
tstat
xd 0 , df n 1 SEM
xbar,d = 0,3629 (számított) SEMd = 0,1085 (számított) µ0 = 0 (a null hipotézisből) n = 14
xd 0 0,3629 0 3,34 SEM d 0,1085
df n 1 14 1 13 A tstat érték megmondja, hogy a megfigyelt minta 3,34 standard hibányival tér el a feltételezett átlagtól.
28
Konvertáljuk a tstat–ot p értékké & értelmezzük • tstat = 3,34 13 df mellett t
táblázat két oldalú p 0,01 és 0,002 között van
• tstat = 3,34 with 13 df komputer
p = 0,005
•
Ha H0 igaz, akkor 0,005 (0,5%) a valószínűsége, hogy ilyen értéket kapjunk így érvünk van H0 ellen és Ha mellett.
• A megfigyelt
különbség“szignifikáns”
29
F- próba Lehetséges két populáció szórását is összehasonlítani Ha s12 és s22 két független minta szórásnégyzete, ahol n1 és n2 a minta elemszáma akkor az F statisztika
F = s12 / s22 F eloszlást követ n1 − 1 és n2 − 1 szabadságfokkal, ha H0: σ1 = σ2 igaz.
30
F eloszlás Az F eloszlás nem szimmetrikus és negatív értékek esetén nem értelmezhető.
F
Az F sűrűségfüggvénye 1-nél vesz fel maximális értéket, amikor a két populáció standard deviációja azonos. Az 1-től távoli F értékek bármely irányban arra utalnak, hogy a két standard deviáció nem azonos.
Df számláló : n1 1 Df nevező : n2 I
31
dfszám = n1 − 1
p
dfnev = n2 − 1
F