Biostatisztika Bevezetés
Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet
Krisztina Boda
Az orvosi, biológiai kutatások egyik jellemzője, hogy a vizsgálatok eredményeként rendszerint számszerű adatokhoz jutunk. Ezek összesítése, belőlük következtetések levonása a biostatisztika eszközeivel történhet. A biostatisztika a matematikai statisztika alkalmazása biológiai vizsgálati adatok értékelésére. Alapja a valószínűség-számítás és a matematikai statisztika.
Biostatisztika 1.
2
Orvosi fizika és statisztika I. AOK-K051, AOK-K052) ÁOK, I. évfolyam 1. félév Biostatisztika, heti 1 óra előadás
A Biostatisztika előadás oktatásának célja, hogy a klinikai és kutatóorvosi területen alkalmazható, emeltszintű, gyakorlatban alkalmazható statisztikai ismereteket nyújtson a hallgatóknak. Bevezetjük az adat, adatgyűjtés fogalmát, bemutatjuk az adatfeldolgozás, -ábrázolás, -értelmezés lehetőségeit. Megismertetjük a hallgatókat a trend analízis, hipotézis vizsgálat módszereivel, a leggyakrabban alkalmazott statisztikai próbákkal és azok alkalmazásával. Kollokvium. A számonkérés alapja az előadásokon elhangzottak és a gyakorlati segédanyagok. Elméleti kérdések és gyakorlati feladatok (számítások).
Letölthető anyagok: http://www3.szote.u-szeged.hu/dmi/
Gyakorlat: a heti 1 óra Biostatisztika előadás mellé a kötelezően választható heti 2 óra Biostatisztikai számítások gyakorlat felvételét javasoljuk.
Krisztina Boda
Biostatisztika 1.
3
Krisztina Boda
Biostatisztika 1.
4
Biostatisztikai számítások Kötelezően választható óra
Krisztina Boda
Kreditérték: 2 kreditpont Gyakorlat: heti 2 óra Vizsgaforma: gyakorlati jegy Évfolyam/félév: I. évfolyam. 1. félév A kurzus célja, hogy a biostatisztikában alkalmazott alapvető módszerek alkalmazásában a hallgatók készségi szintű ismereteket szerezzenek. A kurzus elvégzése nagymértékben megkönnyíti az orvosi fizika és statisztika tantárgy vizsgájának letételét, mivel az főleg gyakorlati problémák megoldásából áll majd. A számonkérés módja A kurzus során két dolgozatot kell írni, amelyben feladatokat kell megoldani. A dolgozathoz minden papír alapú segédeszköz használata megengedett. A két dolgozat alapján a kurzus értékelése ötfokozatú gyakorlati jeggyel történik.
Biostatisztika 1.
5
Ajánlott irodalom
Krisztina Boda
Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007.
Biostatisztika 1.
6
Ajánlott irodalom
Krisztina Boda
Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó
Biostatisztika 1.
7
Ajánlott irodalom
Krisztina Boda
Ketskeméty László - Izsó Lajos - Könyves Tóth Előd: Bevezetés az IBM SPSS Statistics programrendszerbe Módszertani útmutató és feladatgyűjtemény statisztikai elemzésekhez Artéria Studió 2011
Biostatisztika 1.
8
Ajánlott irodalom
Krisztina Boda
Hajtman Béla: A biometria alapjai Semmelweis Orvostudományi Egyetem, Budapest .
Biostatisztika 1.
9
Miért tanuljunk statisztikát?
Krisztina Boda
„Azért, hogy el tudjuk dönteni, elhiggyünke valamit, amit olvasunk, vagy hogy észrevegyük, hol van benne a hiba, vagyis hogy ne dőljünk be olyan könnyen a statisztikai bűvészkedéseknek, műtermékeknek és tévedéseknek” (Reiczigel J.)
Biostatisztika 1.
10
Véletlen vagy törvényszerű? H-P. Beck-Bornholdt és H-H Dubben: A tojást rakó kutya. Magyar könyvklub, 2001.
Egy közúti ellenőrzés során a rendőrség egy német nagyvárosban 600 autót állít meg. Közülük 9-et véralkohol-vizsgálatra küldenek. Összesen tehát az autóvezetők 9/600=0.015, azaz 1.5 %-a nézett túl mélyen a pohár fenekére. Két hónappal később, egy felvilágosító kampányt követő ellenőrzés során ugyanebben a városrészben 400 autós közül csak 2 esetben állapítottak meg alkoholos befolyásoltságot. 2/400=0.005, azaz 0.5 %. A háromszoros csökkenést óriási sikerként könyvelik el. I. II.
Krisztina Boda
Összes vizsgált 600 400
Ittas 9 2
Nem ittas
Ittas% 1.5% 0.5%
Statisztikusok: ez az eredmény 14 %-os valószínűséggel pusztán a véletlen műve.
Biostatisztika 1.
11
Példa „becsapós” ábrázolásra
http://www.stats.ox.ac.uk/~konis/talks/HtLwS.pdf
Krisztina Boda
Biostatisztika 1.
12
http://www.stats.ox.ac.uk/~konis/talks/HtLwS.pdf
Krisztina Boda
Biostatisztika 1.
13
Átlagos systolés vérnyomás változás kétféle skálán. A baloldali ábrán a növekedés jobban látszik. Mean and SD of systolic blood pressure
Mean of systolic blood pressure 180.00
150.00 148.00
160.00
146.89
146.00
140.00
144.00
140.00
138.89
139.74
140.26 140.61
Saline Lactate
138.00
Hgmm
Hgmm
120.00
142.05
142.00
100.00
Saline Lactate
80.00 60.00
136.00
40.00
134.00
20.00
132.00 130.00 N 19
19
0
19
19
10
19
20
18
0.00 Time (min)
N
19
0
19
19
10
19
20
Time (min)
Krisztina Boda
Biostatisztika 1.
14
Miért tanuljunk statisztikát? Azért, hogy jobban meg tudjuk ítélni, szerencsénk volt-e vagy pechünk – vagy éppen egyik sem Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit érdemes kockáztatni. Azért, hogy pontosan értsük a szakirodalmat (Reiczigel J).
Krisztina Boda
Biostatisztika 1.
15
A biostatisztika alkalmazásai
Krisztina Boda
Kutatás Klinikai kísérletek tervezése és elemzése Gyógyszerkutatás, egészségügy, epidemiológia, stb.
Biostatisztika 1.
16
Krisztina Boda
Biostatisztika 1.
17
Krisztina Boda
Biostatisztika 1.
18
Krisztina Boda
Biostatisztika 1.
19
Eredmények. A cikk első táblázata
Az eredmények reprodukálása Excellel N Mean SD Results Mean difference SE of mean difference Df t-value two-sided p
Krisztina Boda
Biostatisztika 1.
Group I 125 47.5 11.5
Group II 125 49.4 11 -1.9 1.423376 248 -1.33485 0.183148
20
TAHA EL HADJ OTHMANE és mtsai: A különböző érfali tágulékonysági paraméterek jelentősége a cardiovascularis mortalitás előrejelzésében hemodializált betegek között: prospektív kohorszvizsgálat. Orvosi Hetilap 2010. 151. évfolyam, 18. szám ■ 741–748.
Krisztina Boda
Biostatisztika 1.
21
Csoma Zsanett és mtsai: A festéksejtes anyajegyek előfordulása tinédzsereken.Orvosi Hetilap 2008 ■ 149. évfolyam, 46. szám ■ 2173–2182.
Krisztina Boda
Biostatisztika 1.
22
EL HADJ OTHMANE TAHA és mtsai: Osteoprotegerin: a regulátor, a protektor és a marker. Összefoglalás irodalmi adatok és saját eredményeink alapján. Orvosi Hetilap 2008 ■ 149. évfolyam, 42. szám ■ 1971–1980.
Krisztina Boda
Biostatisztika 1.
23
Biostatisztika az orvosi egyetemi tantárgyakban Közvetve a legtöbb tantárgy használja a biostatisztikai módszerek által adott eredményeket Tudományos diákköri előadásokban egyre gyakrabban alkalmazzák
Krisztina Boda
Biostatisztika 1.
24
Miért tanuljunk statisztikát?
Azért, hogy saját vizsgálataink tervezését illetve kiértékelését ügyesebben el tudjuk végezni Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó adatot? Érdekes, váratlan eredményt kaptam? Most felfedeztem valamit, vagy csak a véletlen játéka, amit látok?
Krisztina Boda
Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget kiemelve tudjuk közölni. (Reiczigel J.)
Biostatisztika 1.
25
Biostatisztikai módszerek Leíró statisztika Hipotézisvizsgálatok (statisztikai próbák)
Függnek:
Krisztina Boda
Az adatok típusától A probléma természetétől A statisztikai modelltől …
Biostatisztika 1.
26
Populáció (sokaság), minta
Krisztina Boda
Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztika 1.
27
Az adattábla szerkezete nem 1.egyed 2.egyed ... i.egyed ... n. egyed
kor
...
Xj
...
Xp
xij
Egyed: az adathalmazban szereplő objektumok, melyeket vizsgálunk (emberek, állatok, oldatok, stb.) Változó: az egyed egy jellemzője, amely különböző egyedek esetén különböző értékeket vehet fel. A statisztikai szoftverek (SPSS, Statistica, SigmaStat, SAS) általában ilyen elrendezésben várják az adatokat
Krisztina Boda
Biostatisztika 1.
28
A változók típusai
Aszerint, hogy hány értéket vehet fel
diszkrét (kategorikus): véges sok
folytonos: adott intervallumban végtelen sok
Krisztina Boda
Nem, vércsoport, lakhely, iskolai végzettség
Életkor, koncentráció
Biostatisztika 1.
29
Példák
Vérnyomás: folytonos
ha három kategóriát definiálunk (pl. alacsony, normális, magas), akkor kategorikus (ordinális) Színek: kategorikus (nominális-nem rangsorolható) ha a színeket a hozzájuk tartozó hullámhosszal jellemezzük, akkor folytonos ha két kategóriát definiálunk (pl. sötét, világos), akkor bináris
Krisztina Boda
Az alacsonyabb kategóriába sorolás információvesztés
Biostatisztika 1.
30
Diszkrét változók jellemzése Iskolai végzettség
Egy diszkrét változó eloszlása megadja, hogy milyen értékeket vesz fel a változó és milyen gyakorisággal. Az eloszlás jellemzése
8 általános 10.0%
középiskola 45.0%
Iskolai végzettség 10
8
Iskolai végzettség
6
Valid Perc ent 20. 0 10. 0 45. 0 25. 0 100.0
Cumulat iv e Percent 20. 0 30. 0 75. 0 100.0
4
Frequency
Valid
Percent 20. 0 10. 0 45. 0 25. 0 100.0
20.0%
25.0%
Táblázattal grafikonokkal: oszlopdiagram, kördiagram Frequency < 8 ált alános 4 8 általános 2 középiskola 9 f elsőf ok ú v égzet tség 5 Tot al 20
< 8 általános
felsőfokú végzettség
2
0 < 8 általános
középiskola 8 általános
felsőfokú végzettség
Iskolai végzettség
Krisztina Boda
Biostatisztika 1.
31
Folytonos változók jellemzése Egy folytonos változó eloszlása megadja, hogy melyek a lehetséges értékek, és ezek milyen gyakran esnek bizonyos intervallumokba. Jellemzése:
Frequency
Hisztogram Statisztikai jellemzők Krisztina Boda
SULY 10
8
6
4
2
0
10 - 30 10-29
30 - 50 30-49
50 - 70 70 - 90 90 - 110 50-69 70-89 90-109
A „Súly” változó hisztogramja. A testsúlyok eloszlása
Biostatisztika 1.
32
Folytonos változó eloszlása, példa 20.00 17.00 22.00 28.00 9.00 5.00 26.00 60.00 35.00 51.00 17.00 50.00 9.00 10.00 19.00 22.00 25.00 29.00 27.00 19.00
Krisztina Boda
Intervallum 0-10 11-20 21-30 31-40 41-50 51-60
Gyakoriság 4 5 7 1 1 2
8 7 6 Frequency
Érték
5 4 3 2 1 0 0-10
11-20
21-30
31-40
41-50
51-60
Age
Biostatisztika 1.
33
Az intervallumok hosszától függően más lehet a hisztogram alakja
8
10
7
9 8
6
7
count
count
5 4
6 5 4
3
3
2
2
1
1
0
0
0-10
11-20
21-30
31-40
41-50
51-60
age
Krisztina Boda
0-20
21-40
41-60
age
Biostatisztika 1.
34
Egy eloszlás alakjának jellemzése A középpontja, a szóródása és az alakja jellemezhet egy eloszlást. Némely eloszlás alakja szimmetrikus vagy ferde. Akkor mondunk egy eloszlást pl. jobbra ferdének, ha a jobb oldali része sokkal jobban kinyúlik, mint a bal oldali.
Krisztina Boda
Biostatisztika 1.
35
Testtömeg eloszlása (kg) Hisztogram Jelenlegi testsúlyok 300
200
100 Std. Dev = 8.74 Mean = 57.0 N = 1090.00
0 32.5
37.5
42.5
47.5
52.5
57.5
62.5
67.5
72.5
77.5
82.5
87.5
Jelenlegi testsúlya /kg/ Krisztina Boda
Biostatisztika 1.
36
Kigró értékek (outlier)
A kiugró értékek egy adatsor szélsőségesen nagy vagy feltűnően kicsi értéke, mely felkelti annak gyanúját, hogy “nem illik” a többi adat közé, “kilóg a sorból”. 10
8
6
4
2 Std. Dev = 13.79 Mean = 62.1 N = 43.00
0 40.0
50.0 45.0
60.0 55.0
70.0 65.0
80.0 75.0
90.0 85.0
100.0 95.0
110.0
105.0
Jelenlegi testsúlya
Krisztina Boda
Biostatisztika 1.
37
Eloszlások jellemzése számokkal, statisztikai jellemzők A közép jellemzése: átlag, medián, módusz A szóródás jellemzői : terjedelem, kvartilisek, variancia, standard deviáció Egyéb jellemzők:
variációs együttható egy egyed helyzetének jellemzése(rang, zérték)
Krisztina Boda
Biostatisztika 1.
38
Az eloszlás közepének jellemzése n
Átlag:
x x 2 ... x n x 1 n
x
i
i 1
n
Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga
Krisztina Boda
Példaadatok: 1 2 4 1 átlag=(1+2+4+1)/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: 1 1 2 4 Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5
Biostatisztika 1.
39
Példa
Krisztina Boda
11 diák írásbeli teszteredményei a következők: 100 100 100 63 62 60 12 12 6 2 0. Az egyik hallgató szerint szigorú volt a tanár, mert a 47-es átlagot alacsonynak találta. A tanár szerint több 100 pontos teszt volt, mint bármely más teszt. Végül a tanszékvezető megfelelőnek találta az eredményeket, mivel a közepes érték, 60 nem mondható rendkívülinek. Az átlag 517/11=47, a módusz 100, a medián 60. Biostatisztika 1.
40
Az átlag ( x ), a medián (M) és a módusz (Mo)helyzete az eloszlástól függően
Szimmetrikus eloszlás
x
=M=Mo
Jobbra ferde eloszlás Mo M
x
x
Balra ferde eloszlás
x Krisztina Boda
Biostatisztika 1.
M Mo
41
A szóródás mérőszámai
A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek: 25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb. A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat. A szóródás megadására használják a 25%-os és 75%-os kvartilist
A variancia
n
Variancia
i 1
i
x) 2
n 1
A standard deviáció: az adatok szóródása az átlag körül n
SD
Krisztina Boda
(x
(x i 1
i
x) 2
n 1
Variancia
Biostatisztika 1.
42
Példa. A szóródás jellemzői
Adatok: 1 2 4 1, rendezve: 1 1 2 4 Terjedelem: max-min=4-1=3 Kvartilisek: Weight ed Av erage(Def init ion 1) Tuk ey 's Hinges Standard deviáció:
xi
xi x
Percentil es Percentiles 25 50 1. 0000 1. 5000 1. 0000 1. 5000
75 3. 5000 3. 0000
( xi x) 2 n
1 1 2 4 Összeg Krisztina Boda
1-2=-1 1-2=-1 2-2=0 4-2=2 0
1 1 0 4 6
SD
Biostatisztika 1.
( x x) i 1
i
n 1
2
6 2 1.414 3
43
A standard deviáció jelentése
Az adatok szóródása az átlag körül. Normális eloszlás esetén (ld, később), az adatok középső kb. 95%-a az átlag ±2 SD intervallumban van
Átlag-2SD=154.184
Átlag=169.5
95%-a az adatoknak Krisztina Boda
Biostat 1.
Átlag+2SD=184.876
44
Kvartilisek
Négy részre osztják az eloszlást, minden részbe az adatok egynegyede esik. Minimum=150 P25=165 P50=Median=170 P75=173 Maximum=184 min
Krisztina Boda
Biostat 1.
P25
Med
P75
max
45
Kvartilisek
Minimum=40 P25=52.5 P50=Median=59 P75=67 Maximum=89
min
Krisztina Boda
P25
Biostat 1.
Med
P75
max
46
A j% os percentilis számítása Pj (j=1,2,..,99)
Először rendezzük az adatokat növekvő sorrendbe x1, ..., xn x[1] , ..., x[n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2
Krisztina Boda
Megjegyzés: ez a módszer Tukey-től származik. Vannak más számítási módszerek is, melyek eredménye ettől valamelyest eltérhet.
Biostat 1.
47
Példa 25%oss percentilis számításra P25 (=első kvartilis). j=25
Először rendezzük az adatokat növekvő sorrendbe x1, ..., xn x[1] , ..., x[n], Számítsuk ki: h = j n / 100
Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2
Krisztina Boda
Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x1,x2,x3,x4, x[1],x[2],x[3],x[4] Ekkor h = 25· 4 / 100 =1 h egész x[1] =1, x[2] =1, P25 =(1 + 1 )/2=1
Biostat 1.
48
Példa 75%os percentilis számítására P75 (=harmadik kvartilis) j=75
Először rendezzük az adatokat növekvő sorrendbe x1, ..., xn x[1] , ..., x[n], Számítsuk ki: h = j n / 100
Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2
Krisztina Boda
Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x1,x2,x3,x4, x[1],x[2],x[3],x[4] Ekkor h = 75· 4 / 100 =3 h egész, x[3] =2, x[4] =4, P75 =(2 + 4 )/2=3
Biostat 1.
49
Példa 25%-os percentilis számítására P25 (=első kvartilis) j=25
Először rendezzük az adatokat Adatok: 4,3,5,1,4 (n=5) növekvő sorrendbe 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x1, ..., xn x[1] , ..., x[n], x1,x2,x3,x4, x4 x[1],x[2],x[3],x[4] ,x[5] Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2
Krisztina Boda
Ekkor h = 25· 5 / 100 =1.25 h nem egész, a legközelebbi egész szám felfelé kerekítve 2 x[2] =3, P25 =3
Biostat 1.
50
Példa 75%-os percentilis számítására P75 (=harmadik kvartilis) j=75
Először rendezzük az adatokat Adatok: 4,3,5,1,4 (n=5) növekvő sorrendbe 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x1, ..., xn x[1] , ..., x[n], x1,x2,x3,x4, x4 x[1],x[2],x[3],x[4] ,x[5] Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2
Krisztina Boda
Ekkor h = 75· 5 / 100 =3.75 h nem egész, a legközelebbi egész szám felfelé kerekítve 4 x[4] =5, P75 =5
Biostat 1.
51
A közép és a szóródás jellemzőinek „párosítása” Közép
Szóródás
Közlés cikkekben
Átlag
Standard deviáció, Standard error
Medián
Min, max 5%-os, 95%-os percentilis 25 % , 75% (Kvartilisek)
Átlag (SD) Átlag SD Átlag SE Átlag SEM Med (min, max) Med(25%, 75%)
Krisztina Boda
Biostatisztika 1.
52
Az adatok transzformálása Összeadás, kivonás Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a közép mérőszámai jobbra (balra) eltolódnak a hozzáadott számnak megfelelően. Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a szóródás mérőszámai nem változnak.
Krisztina Boda
Biostatisztika 1.
53
Az adatok transzformálása Szorzás, osztás
Krisztina Boda
Az adatokat ugyanazzal a számmal szorozva (osztva) a közép és a szóródás mérőszámai is megszorzódnak (osztódnak) ugyanazzal a számmal.
Biostatisztika 1.
54
Bizonyítás Lineáris transzformációk hatása az átlagra és a standard deviációra Legyen a transzformáció x ->ax+b Átlag: ax b ax b ax b ... ax b a( x x ... x ) nb n
i 1
i
n
1
2
n
1
2
n
n
ax b
Standard deviáció: n
((axi b) (a x b))
n
2
i 1
n 1 n
a ( xi x) 2
Krisztina Boda
n
i 1
n 1
((axi b a x b)) i 1
n 1
n
2
2 ( ax a x ) i i 1
n 1
n
2
a
2 ( x x ) i i 1
n 1
a SD
Biostatisztika 1.
55
Példa: lineáris transzformációk hatása a mintabeli jellemzőkre Sample data (xi)
Addition (xi +10)
Subtraction (xi -10)
Multiplication (xi *10)
Division (xi /10)
1
11
-9
10
0.1
2
12
-8
20
0.2
4
14
-6
40
0.4
1
11
-9
10
0.1
Mean=2
12
-8
20
0.2
Median=1.5
11.5
-8.5
15
0.15
Range=3
3
3
30
0.3
St.dev.≈1.414
≈1 .414
≈ 1.414
≈ 14.14
≈ 0.1414
Krisztina Boda
Biostatisztika 1.
56
Ábratípusok
Kategorikus változók
Kördiagram Apja iskolai végzettsége
Oszlopdiagram 40
oszlopdiagram kördiagram
8 ált.-nal kevesebb
nincs válasz 30
8 ált.
felsőfokú végzettség
20
gimnáziumi érettségi P e rc e nt
10
szakmunkásképző szakközépiskolai ére
0 8 ált.-nal kevesebb 8 ált.
szakmunkásképző gimnáziumi érettségi nincs válasz szakközépiskolai ére felsőfokú végzettség
Apja legmagasabb iskolai végzettsége
Folytonos változók
10
8
6
Box Plot (kerd97 20v*43c) 100
No of obs
4
90
80
2
70
0 35 40 45 50 55 60 65 70 75 80 85 90 95 NEM: fiú SULY
35 40 45 60 50 55 60 65 70 75 80 85 90 95 SULY
hisztogram Doboz ábra (box-whisker plot Átlag-szórás ábra Pontábra (scatter plot)
Histogram (kerd97.STA 20v*43c) 12
NEM: lány 50
40 Median 25%-75% Min-Max Extremes
Mean Plot (kerd97 20v*43c)
30 fiú
85
80
lány NEM
75
70
65 SULY
60
55
Szóródási diagram 50
120
45 fiú
Mean Mean±SD
100
lány NEM
Jelenlegi testsúlya /kg/
80
60
40
20 0
40
60
Kivánatosnak tartott testsúlya /kg/
Krisztina Boda
Biostatisztika 1.
80
100
57
Ábratípusok a számolt jellemzők alapján Mean Plot (kerd97 20v*43c) 85
80
75
Átlag-szórás ábra
65
SULY
Átlag + SD Átlag + SE Átlag + 95% CI
70
60
55
50
45 fiú
lány
Mean Mean±SE
NEM
Átlag SE Mean Plot (kerd97 20v*43c) 85
Mean Plot (kerd97 20v*43c) 85
80 80 75 75 70 70 65
SULY
SULY
65
60
60 55 55 50 50 45 45 fiú
lány
fiú
Mean Mean±0.95 Conf. Interval
lány
Mean Mean±SD
NEM
NEM
Átlag 95% CI Krisztina Boda
Átlag SD Biostatisztika 1.
58
A testsúlyok eloszlása a lányoknál nem szimmetrikus Histogram (kerd97.STA 20v*43c) 12
10
8
6
No of obs
4
2
0 35 40 45 50 55 60 65 70 75 80 85 90 95
35 40 45 50 55 60 65 70 75 80 85 90 95
NEM: fiú
NEM: lány SULY
1. Leíró statisztika
Krisztina Boda
Biostatisztika 1.
59
Ábratípusok a számolt jellemzők alapján
Doboz-ábra (box diagram). A quartiliseken alapul (Min, P25,P50, P75, max). Box Plot (kerd97 20v*43c)
Box Plot (kerd97 20v*43c)
100
100 90
90 80
80 70
70
SULY
SULY
60
60
50
50 40
30 fiú
lány
Median 25%-75% Non-Outlier Range Extremes
40
30
NEM
fiú
lány
Median 25%-75% Min-Max Extremes
NEM
Krisztina Boda
Biostatisztika 1.
60
Box diagram
A kiugró értékeket gyakran speciális karakterrel jelzik (*, ) Box Plot (kerd97 20v*43c) Box Plot (kerd97 20v*43c)
100 100
90 90
80 80
70
70
SULY
SULY
60
50
60
50
40
40
30 fiú
lány
Median 25%-75% Non-Outlier Range Extremes
30
NEM
Krisztina Boda
fiú
lány
Median 25%-75% Min-Max Extremes
NEM
Biostatisztika 1.
61
Kvartilisek és box plot
Minimum=150 P25=165 P50=Medián=170 P75=173 Maximum=184
min
Krisztina Boda
P25
Med
P75
max
Box plot
Biostat 1.
62
Kvartilisek és box plot
Minimum=40 P25=52.5 P50=Medián=59 P75=67 Maximum=89
min
P25
Med
P75
max
Box plot
Krisztina Boda
Biostat 1.
63
Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Jane Joe Sue Pat Bob Tom
Krisztina Boda
Hány órát tanult 8 10 12 19 20 25
Grade 70 80 75 90 85 95
Biostatisztika 1.
64
Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Jane Joe Sue Pat Bob Tom
Krisztina Boda
Hány órát tanult 8 10 12 19 20 25
Grade 70 80 75 90 85 95
Biostatisztika 1.
65
Más példák a változók összefüggésére
Krisztina Boda
Biostatisztika 1.
66
Speciális transzformáció: standardizálás Az ún. z-érték azt méri, hogy egy adott elem az átlagtól hányszoros szórásnyi távolságra esik. Tehát minden egyes elemhez tartozó standardizált z-éréket úgy kapjuk meg, hogy kivonjuk belőle az átlagot és elosztjuk a szórással
zi
i=1,2,...,n. Az így kapott változó
Krisztina Boda
xi x , s
Átlaga=0 Standard deviációja =1 Unit standard deviation Nincs egysége
Biostatisztika 1.
67
Példa: standardizálás Sample data (xi) Standardised data (zi) 1
-1
2
0
4
2
1
1
Mean
2
0
St. deviation
≈1 .414
1
Krisztina Boda
Biostatisztika 1.
68
Egyéb statisztikai jellemzők
Krisztina Boda
Variációs együttható (coefficient of variation, CV, más néven relatív szórás, RSD) a szórás és az átlag hányadosa (Két mintát összehasonlíthatóvá tesz)
Biostatisztika 1.
69
Hasznos WEB oldalak Klinikai Biostatisztikai Társaság http://www.biostat.hu Rice Virtual Lab in Statistics http://onlinestatbook.com/rvls.html Statistics on the Web http://www.claviusweb.net/statistics.shtml Hisztogram alakjának változása – Old Faithful http://www.stat.sc.edu/~west/javahtml/Histogram.html Statisztikai bemutatók (Java) http://www-stat.stanford.edu/~naras/jsm http://www.math.csusb.edu/faculty/stanton/m262/index. html
Krisztina Boda
Biostatisztika 1.
70
Emlékeztető kérdések és feladatok
Mit nevezünk populációnak vagy alapsokaságnak? Mi a statisztikai minta? Statisztikai mintavételre vonatkozó két fő követelmény Mit nevezünk kategorikus adattípusnak? Mit nevezünk folytonos adattípusnak? Adjon 2 példát folytonos adatra Adjon 2 példát kategorikus adatra Adjon 2 példát bináris (dichotóm) adatra Hogy ábrázoljuk grafikusan a folytonos adatokra vett minta gyakorisági eloszlását? Hogy ábrázoljuk grafikusan a kategorikus adatokra vett minta gyakorisági eloszlását? Mi a különbség az abszolút és relatív gyakorisági eloszlás ábrázolása között? Mikor beszélünk jobbra ferde eloszlásról? Mit nevezünk kiugró adatnak?
Krisztina Boda
Biostatisztika 1.
71
Krisztina Boda
Mik az eloszlás közepét jellemző statisztikai mérőszámok? (felsorolás) Mik a szóródás mérőszámai? (felsorolás) Hogy számoljuk a minta átlagát? Medián definíciója Medián számítási módszere páros és páratlan mintaméret esetén Hogyan következtethetünk az eloszlás szimmetriájára ill. ferdeségére az átlag és a medián nagysága alapján? Mi az összefüggés a szórás (SD) és a variancia között? Mi a standard deviáció jelentése? Hogy számoljuk a minta terjedelmét? Mi az interkvartilis terjedelem? Hány percentilis van? Mi a j-edik percentilis definíciója? Hány kvartilis van? Mi a harmadik kvartilis definíciója? Fealadat: Az X: 4 ; 1 ; 5 ; 4 ; 3 kismintára végezzük el a következőket: a) Relatív gyakorisági diagram ábrázolása b) Átlag és szórás kiszámítása, átlag-szórás-diagram készítése c) Medián, módusz, terjedelem és interkvartilis terjedelem kiszámítása, box-diagram készítése
Biostatisztika 1.
72
Krisztina Boda
Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a szóródási mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemet ugyanazzal a konstanssal megszorzunk? Mi történik a szóródási mérőszámokkal, ha minden mintaelemet ugyanazzal a konstanssal megszorzunk? Mit ad meg a variációs együttható? Mit fejez ki a z-score? Milyen mérőszámokon alapszik a box-diagram? Milyen mérőszámokon alapszik az átlag–szórás-diagram, és mikor alkalmazzuk? A box-diagram és az átlag–szórás-diagram közül melyikből következtethetünk a mintaeloszlás szimmetriájára? Biostatisztika 1.
73