Biostatisztika Összefoglalás
A biostatisztika vizsga
A biostatisztika vizsga az „Orvosi fizika és statisztika I.” fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 20 kérdésre kell válaszolni számítógéppel. Kézi számológépet és képletgyűjteményt lehet használni. A végleges jegy megállapítása a vizsgán szerzett pontok alapján történik az alábbi táblázat szerint:
0 - 9 pont: elégtelen 10 - 11 pont: elégséges 12 - 14 pont: közepes 15 - 17 pont: jó 18 - 20 pont: jeles
Sikertelen biostatisztika vizsga esetén a teljes tantárgy vizsgája is sikertelen. A sikeres biostatisztika vizsga összpontszáma hozzáadódik az „Orvosi fizika és statisztika I.” tárgy vizsga összpontszámához, a végleges jegy megállapításához a biostatisztika 1/3 és fizika 2/3 részben járul hozzá. Alapvető ismeretek (ezek nem tudása esetén a vizsga sikertelen, függetlenül az egyéb teljesítménytől): Átlag, standard deviáció, medián számolás konkrét (kevés számú) adatból. Nullhipotézisek és alternatív hipotézisek megfogalmazása az egyes próbáknál. A szignifikancia megállapítása táblázat alapján. A szignifikancia megállapítása p-érték alapján.
2
Konzultációk
Minden kedden a 26-os teremben. 2012. 12. 11, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika
2012. 12. 18, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika
2013.01.08, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika
2013.01.15, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika
2013.01.22, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika
2013.01.29, kedd 13:00-14:00: fizika, 14:00-15:00 biostatisztika 3
Összefoglalás Leíró statisztika Hipotézisvizsgálatok
4
Leíró statisztika I.
Leíró statisztika Adattípus Diszkrét
Folytonos
Adatok (változók) jellemzése Eloszlás, eloszlásfüggvény Sűrűségfüggvény, eloszlásfüggvény Gyakoriságok, relatív gyakoriságok Hisztogram, kumulatív hisztogram Mintabeli jellemzők: Centrális: átlag, medián, módusz Szóródás: min-max, percentilis, kvartilis, standard deviáció Speciális eloszlások Binomiális (n.p) Egyenletes Normális ->tulajdonságok!! Poisson(np=) Egyenletes (t, F, 2 eloszlás) Centrális határeloszlás tétel, standard error of mean Becslések: statisztika, konfidencia intervallum Konfidencia intervallum normális eloszlás átlagára ismeretlen és ismert szórás esetén
5
Átlag, szórás, medián, terjedelem számítás néhány adatból
A következő kisminta alapján adja meg a gyakorisági hisztogramot: X: 4 ; 1 ; 5 ; 4 ; 1 , Megoldás:
6
Átlag, szórás, medián, terjedelem számítás néhány adatból
A következő kisminta alapján adja meg az átlagot, mediánt, terjedelmet, standard deviációt: X: 4 ; 1 ; 5 ; 4 ; 1 , Megoldás. Átlag=(4+1+5+4+1)/5=15/5=3
7
Átlag, szórás, medián, terjedelem számítás néhány adatból
A következő kisminta alapján adja meg az átlagot, mediánt, terjedelmet, standard deviációt: X: 4 ; 1 ; 5 ; 4 ; 1 Medián. Először rendezzük az adatokat: 1 1 Medián: a rendezett sorban a középső elem (vagy ha két középső 4 van (páros elemszám), akkor a két középső átlagát vesszük) 4 5 Terjedelem: maximum – minimum=5-1=4 8
Átlag, szórás, medián, terjedelem számítás néhány adatból n
Standard deviáció.
SD
( x x) i 1
i
n 1
2
var iancia
Az átlag 3. A számlálót az alábbi táblázat szerint lehet számolni:
xi 4 1 5 4 1 Összesen
xi x
1 -2 2 1 -2 0
( xi x) 2
1 4 4 1 4 14
n
SD
( x x) i 1
i
n 1
2
14 3.5 1.87 4
9
Hipotézisvizsgálatok Hipotézis: állítás a populációról A mintaadatok alapján az egész jelenségre (populációra) következtetünk Azt vizsgáljuk, hogy az általunk tapasztalt különbség nagyobb-e, mint amit a véletlen önmagában okoz.
10
A hipotézisvizsgálat lépései
Step 1-2. A H0 nullhipotézis és a Ha alternatív hipotézis felállítása Step 3. Az első fajta hiba valószínűségének rögzítése. Leggyakrabban α =0.05 vagy α =0.01. Step 4. A minta elemszámának meghatározása (n) Step 5. Mintavétel. Step 6. Döntési szabály kiszámítása –függ a kísérleti elrendezéstől, az adatoktól, feltételektől, stb... Átlagok összehasonlítása – t-próbák, ANOVA Varianciák összehasonlítása: F-próba Gyakoriságok összehasonlítása: khi-négyzet próbák
Step 7. Döntés. a) Elvetjük a nullhipotézist, azaz elfogadjuk Ha -t A különbség szignifikáns α100% szinten.
b) Nem vetjük el a nullhipotézist, elfogadjuk H0 -t A különbség nem szignifikáns α100% szinten.
11
A próba megválasztása függ az adatok típusától, a kísérleti elrendezéstől és az összehasonlítás céljától Ebben a félévben a következő próbákat tanultuk: Egy (folytonos) változó adott értékhez való hasonlítása: One-Sample t-test (egymintás t-próba) Két változó: 1) mindkettő folytonos (ugyanazokon az egyedeken mért értékek): a) az átlagok összehasonlítása ( a változás összehasonlítása): Paired t-test (egymintás t-próba a különbségekre) b) a változók közötti kapcsolat vizsgálata: korrelácó, regresszió 2) egy folytonos függő változó egy másik, kategorikus változó szerinti csoportjaiban az átlagok összehasonlítása: a) a csoportok száma=2: two-sample t-test (Independent t-test, kétmintás t-próba) b) a csoportok száma>2: One-way ANOVA (variancia analízis) 3) mindkettő kategorikus: kontingencia táblázatok értékelése chi-square test 1) és 2) esetén feltétel, hogy a minták normális eloszlású populációból származnak. 2) esetén még az is, hogy a varianciák azonosak az egyes csoportokban. Ha ezek a feltételek nem teljesülnek, vagy az adataink nem is folytonosak, de legalább ordinális skálán mérhetők, akkor a fenti próbák helyett rangszámokon alapuló ún. nemparaméteres próbákat alkalmazhatunk. 12
A szignifikancia megállapítása, páros t-próba
Adott két összetartozó minta (tipikusan kezelés előtt és után mért adatok). H0: diff=0. A nullhipotézis azt állítja, hogy a populációban nincs változás, vagyis az átlagos különbség 0 populációban. Ki tudjuk számolni a t-értéket a következő formulával: x t
y=student(x;49)
p=
0.5
1.0
0.4
0.8
0.3
0.6
0.2
0.4
0.1
0.2
SE
Ha igaz a nullhipotézis, akkor ismerjük a számított t-érték (próbastatisztika) eloszlását (t-eloszlás n-1 szabadságfokkal). Tehát meg tudjuk mondani, hogy a számított t-érték mely intervallumba esik (1-) valószínűséggel: ez az elfogadási tartomány, melynek határait a táblázatbeli kritikus értékek adják.
0.0
0.0 -3
-2
-1
0
1
2
3
-3
Elfogadási tartomány
-ttábla
ttábla 13
-2
Döntés t-érték alapján y=student(x;49)
p=2*(1-istudent(abs(x);49)) y=student(x;49)
p=2*(
0.5
1.0
0.5
1.0
0.4
0.8
0.4
0.8
0.3
0.6
0.3
0.6
0.2
0.4
0.2
0.4
0.1
0.2
0.1
0.2
0.0
0.0 -3
-2
-1
0
1
2
3
0.0 -3
Ha |t|
-2
0.0 -1 -3
0 -2
1 -1
2
0
3
1
2
3
-3
-2
Ha |t|>ttábla, vagyis a számított t az elfogadási tartományon kívül esik, elvetjük H0-t és azt mondjuk, hogy a különbség szignifikáns szinten (ebben az esetben t nagy (abszolút értékben), nagyobb, mint a kritikus érték)
14
Döntés p-érték alapján
p-érték: az általunk számított próbastatisztika (t-érték) által a H0-nak megfelelő eloszlás két széléből levágott terület nagysága. Annak valószínűsége, hogy ha igaz a nullhipotézis, akkor legalább ekkora eltérést kapjunk.
p>, a különbség nem szignifikáns szinten
p<, a különbség szignifikáns szinten 15
A szignifikancia megállapítása
Próbastatisztika alapján (t-érték, F-érték, 2 érték) – szükség van a statisztikai táblázatra, hogy a kritikus értéket megtaláljuk a szabadságfok és függvényében. Ha |t|
p-érték alapján nincs szükség táblázatra, a p-értéket elegendő -val összehasonlítani .
Ha p> [|t|< ttábla],
Ha |t|>ttábla,
A különbség nem szignifikáns szinten Nem vetjük el H0–t (elfogadjuk H0-t)
A különbség nem szignifikáns szinten Nem vetjük el H0–t (elfogadjuk H0-t)
A különbség szignifikáns szinten Elvetjük H0–t (elfogadjuk HA-t)
Ha p< [|t|>ttábla],
A különbség szignifikáns szinten Elvetjük H0–t (elfogadjuk HA-t)
16
Páros t-próba, példa
Egy vizsgálat során egy speciális diéta hatását tesztelték. Szeretnénk ellenőrizni, vajon a diéta hatásos volt-e. A különbség-átlag =4 kg. Ez nagy vagy kis különbség? Véletlenül kaptunk-e ekkora eltérést (azaz, akár nulla is lehetne), vagy ekkora eltérést már nem minősíthetünk véletlen hatásnak?
Átlag SD
Előtt 85 95 75 110 81 92 83 94 88 105 90.8 10.79
Után 86 90 72 100 75 88 83 93 82 99 86.8 9.25
Különbség -1 5 3 10 6 4 0 1 6 6 4. 3.333
17
Páros t-próba, példa (folytatás)
Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO: előtt= után or különbség= 0 (c=0)!! HA: előtt ≠ után or különbség ≠ 0 Legyen =0.05. A szabadságfok=10-1=9, ttáblázat=t0.05,9=2.262 átlag=4, SD=3.333 SE=3.333/10=1.054
18
Páros t-próba, példa (folytatás)
Döntés a konfidencia-intervallum alapján: 95%CI: (4-2.262*1.054, 4+2.262*1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidenciaintervallumban Most 0 nincs benne a 95%-os konfidencia-intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%os szinten, a kezelés hatásos volt Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel. 19
Páros t-próba, példa (folytatás)
Döntés a próbastatisztika alapján (t-érték: t
xc x0 4 3.795 SE SE 1.054
Azt hasonlítjuk a táblabeli kritikus értékhez. |t|=3.795>2.262(=t0.05,9), a különbség szignifikáns 5%os szinten
Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%os szinten
Elfogadási tartomány tszámított, próbastatisztika ttábla, kritikus érték 20
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Egymintás t-próba Cél: az átlagot egy adott c konstanshoz hasonlítjuk Feltétel: normalitás H0: μ=c, a populáció-átlag = c Ha: μc, a populáció-átlag c Próbastatisztika: t x c SE Szabadságfok=n-1 21
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Páros t-próba Cél: két összetartozó minta átlagának összehasonlítása (az átlagos különbség 0-hoz hasonlítása) Feltétel: a különbség-minta normális eloszlásból származik H0: μ1=μ2 vagy μdiff =0, a populáció-átlagok egyenlők Ha: μ1 μ2 vagy μdiff 0, a populáció-átlagok különbözők Próbastatisztika: t x , különbség átlag/különbség SE SE
Szabadságfok=n-1
22
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Kétmintás t-próba vagy független mintás t-próba Cél: két független minta átlagának összehasonlítása Feltételek: mindkét minta normális eloszlásból származik, a varianciák egyenlők H0: μ1=μ2 vagy μdiff =0, a populáció-átlagok egyenlők Ha: μ1 μ2 vagy μdiff 0, a populáció-átlagok különbözők Próbastatisztika egyenlő varianciák esetén t
SD p2
(n 1) SDx2 (m 1) SDy2 n m 2
szabadságfok=n+m-2 Próbastatisztika különböző varianciák esetén d
x y x y nm SD p n m 1 1 SD p n m
x y 2 SDx2 SDy n m
SDx2 n g 2 2 SDx SDy n m
( n 1) ( m 1) g ( m 1) (1 g 2 ) ( n 1)
szabadságfok= Varianciák összehasonlítása: F-próba 2
23
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Egyszempontos varianciaanalízis (one-way ANOVA) Cél: több független minta átlagának összehasonlítása Feltételek: mindegyik minta normális eloszlásból származik, a varianciák egyenlők H0: μ1=μ2 = …= μt, a populáció-átlagok egyenlők Ha: a populáció-átlagok között van különböző (legalább egy különbözik egy másiktól) A próbastatisztika az ANOVA táblázat F-értéke Szabadságfokok (két szabadságfok van!): h-1, N-1 Source of variation
Sum of squares
Degrees of freedom
h
Between groups
Qb ni ( x i x )
2
h-1
i 1
h
Within groups
Qw i 1
h
Total
Q i 1
ni
( x ij x i ) 2
N-h
j 1
ni
( x ij x ) 2
Variance
F
Qb h 1 Qw sw2 N h
F
sb2
sb2 sw2
N-1
j 1
24
X2
(Oi Ei )2 Ei
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Khi-négyzet próba, függetlenségvizsgálat Cél: két kategórikus változók eloszlásainak összehasonlítása kereszt-osztályozás alapján Feltétel: nagy elemszám, ami a várható gyakoriságokkal van kifejezve: 5-nél kisebb várt gyakoriság maximum a cellák 20%-ában lehet H0: függetlenség, a két változó független (az egyik változó kategóriái szerint a másik változó eloszlása ugyanaz) Ha: a két változó nem független (O E ) X Próbastatisztika: 2 eloszlású E szabadságfok=(sorok száma-1)(oszlopok száma-1) 2
2
i
i
i
25
A tanulmányozott statisztikai próbák, nullhipotéziseik és próbastatisztikák
Rangsoroláson alapuló nemparaméteres próbák Cél: olyan minták összehasonlítása, ahol a normalitás nem teljesül vagy nem ellenőrizhető, vagy az adatokat ordinális skálán mérték Feltétel: folytonos eloszlás H0: a két minta ugyanabból a populációból származik Ha: a két minta különböző a populációból származik Próbastatisztika: rangszámösszeg
26
Hol használjuk a biostatisztikát?
Tanulmányaik során találkozni fognak a biostatisztikával az egyes tantárgyakban Szakdolgozat készítésnél gyakran van rá szükség TDK munkák szinte elengedhetetlen része
Életük során találkozni fognak a biostatisztikával
A kutatásban Orvosi témájú cikkekben A gyógyszeriparban Napilapokban …..
27
Tehát ne felejtsék el, amit most megtanultak!
28