JEDNOROZMĚRNÁ POPISNÁ STATISTIKA Základní statistické pojmy Statistika -
tento pojem lze chápat v zásadě ve třech pojetích: 1) číselné nebo slovní údaje (data) a jejich souhrny o hromadných jevech 2) praktická činnost spočívající ve sběru, zpracování a vyhodnocování dat o hromadných jevech 3) teoretická disciplína (věda), která zkoumá zákonitosti hromadných jevů, resp. souhrn vědeckých metod sběru, zpracování a analyzování dat
-
v každé definici statistiky je uvedeno, že se zabývá hromadnými jevy.
Hromadné jevy -
takové skutečnosti, které se vyskytují mnohokrát a mohou se znovu opakovat jevy, které se vyskytují v masovém měřítku u velkého počtu prvků.
Statistický soubor -
množina prvků s přesně stanovenými shodnými vlastnostmi (např. množina osob, organizací, atd.).
Statistická jednotka -
prvek statistického souboru individuální nositel vlastností daného statistického souboru.
Rozsah statistického souboru -
počet jednotek statistického souboru (symbolické značení – n, N).
Existují dvě možnosti přístupu ke statistickému souboru – jejich chápání je relativní. 1) Základní soubor (populace): statistický soubor všech jednotek, které jsou předmětem zkoumání, obvykle velmi rozsáhlý, rozsah značíme N. Příklady cílové populace v biostatistice: populace pacientek s karcinomem prsu, populace mužů starších šedesáti let, populace kuřáků, populace zdravotnických zařízení v ČR, atd. 2) Výběrový soubor (výběr): vzorek ze základního souboru, pořízený tak, že se určitým způsobem vyberou pouze některé jednotky, rozsah značíme n. Výběr z cílové populace v biostatistice, tzv. experimentální vzorek: pořizujeme ho v případě, kdy zjišťování sledovaných znaků u celé cílové populace je nereálné, takže je nutno zkoumání omezit na její část.
1
Statistický znak -
označení (odraz) určité vlastnosti, kterou má v té či oné míře každá jednotka daného statistického souboru u souboru osob např. věk, váha, výška, atd.
Hodnota statistického znaku ( = pozorování) -
míra dané vlastnosti (statistického znaku) u každé jednotky statistického souboru.
Počet hodnot (pozorování) = rozsah souboru. Obměna ( = varianta) statistického znaku -
hodnota ve smyslu vyjádření různého stupně dané vlastnosti.
Počet variant ≤ rozsah souboru. Statistický znak shodný: v daném statistickém souboru nabývá pouze jedné varianty. Statistický znak proměnný: v daném statistickém souboru nabývá více než jedné varianty. Ekvivalentní označení = statistická proměnná.
Druhy proměnných -
klasifikace proměnných může být prováděna z různých hledisek správné určení druhu proměnných je nezbytné pro volbu adekvátních metod jejich zpracování a analýzy.
1) Způsob vyjádření hodnot proměnné - slovní (kategoriální, alfabetické, kvalitativní): jsou vyjádřeny slovy - číselné (numerické, kvantitativní): jsou vyjádřeny čísly.
2) Typ vztahů mezi obměnami a hodnotami proměnné -
nominální (jmenné, názvové): slovní proměnné, jejichž obměny nelze hierarchicky uspořádat, tzn., že nelze jednoznačně stanovit, která je nižší a která vyšší. O jejích obměnách lze pouze konstatovat, zda jdou stejné nebo různé. Např.: pohlaví, jméno, rodinný stav, přítomnost viru HIV v krvi, krevní skupina, atd.
-
ordinální (pořadové): slovní i číselné proměnné, jejichž obměny lze jednoznačně seřadit od nejnižší k nejvyšší nebo obráceně. Jejich obměny lze porovnávat rozdílem, ale ne podílem. Např.: nejvyšší dokončené vzdělání, stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV), atd.
-
metrické (měřitelné): vždy číselné, jsou udány v určitých měrných jednotkách – vyjadřují tedy velikost měřených vlastností. Nabývají jak kladných, tak nekladných hodnot. Lze změřit o kolik je jedna obměna větší (event. menší) než druhá. Obměny lze porovnávat
2
rozdílem, někdy také podílem (ne vždy – pokud jsou některé obměny záporné či nulové, není to možné). Např.: teplota vzduchu, zisk podniku, atd. -
kardinální (stěžejní): ty metrické proměnné, které nabývají pouze kladných hodnot, jejich obměny lze porovnávat jak rozdílem, tak podílem. Je tedy možno změřit, o kolik měrných jednotek je jedna obměna větší (event. menší) než druhá a také kolikrát je jedna obměna větší (event. menší) než druhá. Např.: věk, váha, výška, tělesná teplota atd.
3) Počet variant, kterých proměnné nabývají -
alternativní: nabývají pouze dvou obměn. Př. pohlaví, přítomnost diabetu, atd. množné: nabývají více než dvou obměn.
4) Počet hodnot, kterých proměnné nabývají -
-
diskrétní (nespojité): nabývají spočetně mnoha hodnot z konečného či nekonečného intervalu. Např. počet dětí v rodině, počet hospitalizací pro srdeční slabost, počet krevních buněk v 1 ml krve, atd. spojité (kontinuální): nabývají všech hodnot z konečného či nekonečného intervalu. Např.: výška osob, hmotnost osob, tělesná teplota, velikost nádoru, atd.
3
Zpracování dat -
ke statistickému zkoumání jsou třeba hodnoty proměnných = data = údaje získáme je statistickým šetřením, tato data pak jsou zpracována a vyhodnocena většinou jde o velké množství údajů, které jsou značně nepřehledné prvním krokem je proto zpřehlednění (setřídění) dat formou tabulek a grafů cílem je, aby vynikly charakteristické rysy a zákonitosti analyzovaného souboru.
Tabulka prostého rozdělení četností Četnost absolutní relativní ni pi
Obměna proměnné xi
Kumulativní četnost absolutní
relativní
x1 x2
n1 n2
p1 p2
n1 n1 n 2
p1 p1 p 2
. . . xk
. . . nk
. . . pk
. . . n
. . . 1
Celkem
n
1
pi
ni
k
n
ni ; n
k
k
ni n ;
p
i 1
i
1
i 1
i
i 1
-
takováto tabulka je výsledkem zpracování diskrétní proměnné s několika málo obměnami v případě zpracování diskrétní proměnné s mnoha obměnami nebo spojité proměnné není použitelná; pak je třeba sestavit tabulku intervalového rozdělení četností.
PŘÍKLAD: Sledujeme přítomnost diabetu u pacientů jistého zdravotnického zařízení v roce 2014, přičemž rozlišujeme tři varianty proměnné „Přítomnost diabetu“, a to „bez diabetu/diabetes 1. typu/diabetes 2. typu“. Celkový počet pacientů je 687. Tabulka rozdělení četností počtu pacientů zdravotnického zařízení podle přítomnosti diabetu Četnost Přítomnost diabetu xi n p i
i
Bez diabetu Diabetes 1. typu Diabetes 2. typu
621 8 58
0,904 0,012 0,084
Celkem
687
1 ,000
Rozsah souboru n = 687. Proměnná „Přítomnost diabetu“ je slovní, nominální. Má 3 varianty.
4
Tabulka intervalového rozdělení četností -
je třeba stanovit optimální počet intervalů (k), na které rozdělíme variační rozpětí (R) k tomu slouží různá pravidla (např. Sturgesovo pravidlo: k 1 3,3 log10 n ) každý interval lze při výpočtech zastoupit jeho středem (výsledky takovýchto výpočtů jsou přibližné).
Grafy Existuje mnoho druhů grafů, vždy je třeba vybrat takový, který odpovídá charakteru dat. Polygon četností -
graf vhodný pro znázornění prostého rozdělení četností spojnicový graf.
Histogram četností -
graf vhodný pro znázornění intervalového rozdělení četností sloupkový graf.
Výsečový graf (piechart) -
grafy vhodné pro znázornění rozdělení četností nominální proměnné.
Sloupkový graf (barchart) -
grafy vhodné pro znázornění rozdělení četností nominální proměnné.
Krabicový graf (Box-and-Whisker Plot) -
vhodný pro numerické proměnné, založen na kvartilech lze ho používat k identifikaci odlehlých hodnot (extrémů).
5
Statistické charakteristiky (míry) -
shrnují informaci, obsaženou v datech (vyjadřují ji v koncentrované formě) charakterizují základní rysy zkoumaného souboru dat umožňují porovnávání více souborů.
4 skupiny statistických charakteristik: 1. 2. 3. 4.
charakteristiky polohy (úrovně) charakteristiky variability charakteristiky šikmosti charakteristiky špičatosti.
Dva způsoby konstrukce statistických charakteristik: a) Charakteristiky, které jsou funkcí všech hodnot dané proměnné: -
jsou ovlivněny případnými extrémy výpočet podle určitého funkčního předpisu.
b) Charakteristiky, které nejsou funkcí všech hodnot dané proměnné: -
nejsou ovlivněny extrémy jsou to konkrétní hodnoty proměnné, vybrané podle určitého kritéria.
1. Charakteristiky polohy -
charakterizují střed, kolem něhož hodnoty kolísají charakterizují úroveň (velikost, hladinu) proměnné používá se pro ně rovněž pojem střední hodnoty.
a) Charakteristiky, které jsou funkcí všech hodnot - průměry
Aritmetický průměr n
k
x - prostý:
x
x n
i
i
i 1
- vážený:
n
x
i 1 k
n i 1
Používá se tam, kde má informační smysl součet hodnot proměnné.
6
i
i
Harmonický průměr k
- prostý:
xH
n
n n
- vážený:
1
x i 1
i 1 k
xH
ni
x i 1
i
i
i
Používá se tam, kde má smysl součet převrácených hodnot proměnné. Např. k výpočtu průměrné doby potřebné ke splnění úkolu, kdy jednotky plní úkoly současně.
Geometrický průměr n
- prostý:
xG n x1 x 2 ..... x n n
x
i
i 1
k
- vážený:
xG n x1n1 x 2n2 ... x knk n
x
ni i
i 1
Používá se tam, kde má smysl součin hodnot proměnné. Např. k výpočtu průměrného koeficientu růstu v časových řadách.
Kvadratický průměr k
n
xi2 - prostý:
xK
x
i 1
- vážený: x K
n
2 i
ni
i 1 k
n
i
i 1
Používá se tam, kde má smysl součet čtverců hodnot proměnné. Např. tehdy, jestliže jednotlivé hodnoty jsou již samy odchylkami původních hodnot od aritmetického průměru, odchylkami od normy apod.
Vztahy mezi průměry Jsou-li výše uvedené 4 typy průměrů vypočítány z týchž kladných hodnot proměnné, platí pro ně následující vztah: x H xG x x K
7
b) Charakteristiky, které nejsou funkcí všech hodnot - patří sem především modus a kvantily - jejich výhodou je, že nejsou ovlivněny odlehlými pozorováními.
Modus -
varianta s největší četností (tzv. typická hodnota) vrchol rozdělení označení symbolem x .
Kvantily -
lze je stanovit pouze pro numerické proměnné hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí hodnoty menší či stejné tvoří určitou stanovenou část rozsahu souboru (určitý podíl, určité procento).
Uspořádaný statistický soubor: hodnoty proměnné jsou seřazeny do neklesající řady. Obecné označení kvantilů: x p , kde p je relativní četnost ~ x100 p , kde 100 · p je relativní četnost vyjádřená v %.
Druhy kvantilů:
medián – ~ x,~ x50 , x 0,5 prostřední hodnota uspořádaného statistického souboru. člení statistický soubor na dvě stejně četné části, existuje tedy 50 % hodnot menších (nebo stejných) a 50 % hodnot větších (nebo stejných). Výpočet mediánu: a) rozsah souboru n je liché číslo; mediánem je konkrétní prvek. n 1 ~ x x n 1 , kde výraz udává pořadí mediánu v dané neklesající řadě hodnot. 2 2
b) rozsah souboru n je sudé číslo; mediánem je aritmetický průměr dvou prostředních hodnot.
x n x n 2 ~ x
2
2
2
8
Kvantily < ~ x se nazývají dolní kvantily, kvantily > ~ x se nazývají horní kvantily.
x33, 3 x0, 3 , ~ x66, 6 x0, 6 tercily – ~
2 kvantily, které rozdělují uspořádaný statistický soubor na 3 stejně četné části. kvartily – ~ x, ~ x 25 x 0 , 25 , ~ x 75 x 0 , 75
3 kvantily, které rozdělují uspořádaný statistický soubor na 4 stejně četné části. kvintily – ~ x 20 x 0, 2 , ~ x 40 x 0 , 4 , ~ x 60 x 0 , 6 , ~ x80 x 0 ,8
4 kvantily, které rozdělují uspořádaný statistický soubor na 5 stejně četných částí.
sextily – 5 kvantilů, 6 částí
septily – 6 kvantilů, 7 částí
oktávily – 7 kvantilů, 8 částí
nonily – 8 kvantilů, 9 částí
decily – 9 kvantilů, 10 částí
percentily – 99 kvantilů, 100 částí, atd.
Výpočet pořadového čísla kvantilu: n p mp n p 1
n .......... rozsah statistického souboru p .......... relativní četnost mp ....... pořadové číslo příslušného kvantilu.
PŘÍKLAD: Sledujeme hodnoty cholesterolu v souboru mužů (n=22). Naměřené hodnoty jsou uvedeny v mmol/l. Stanovte aritmetický průměr, modus, medián. 6,2 6,25
7,6 6,4
6,3 4,04
9,1 6,3
4,2 9,1
5,8 6,3
5,65 5,2
6,3 6,4
8,6 5,75
6,0
6,2
6,7
4,6
5,8 8,6
6,0 9,1
6,2 9,1
6,2
6,25
6,3
6,3
Hodnoty uspořádáme do neklesající řady: 4,04 6,3
4,2 6,3
4,6 6,4
5,2 6,4
5,65 6,7
5,75 7,6
n
x x
i 1
n
i
138,99 6,31773 22
9
x 6,3
obměna s největší četností (četnost je 4)
~ x 6,275
prostřední hodnota uspořádaného souboru; pořadové číslo je aritmetický průměr 11. a 12. členu, tedy
22 1 11,5 2
6,25 6,3 6,275 2
2. Charakteristiky variability -
udávají rozptýlení hodnot kolem zvoleného středu (např. kolem nějaké střední hodnoty) variabilita = měnlivost = kolísavost = odlišnost.
a) Míry absolutní variability
Variační rozpětí R x max x min
Kvantilová rozpětí - kvartilové rozpětí: Rq ~ x 75 ~ x 25
- decilové rozpětí: Rd ~ x90 ~ x10
Kvantilové odchylky
~ x75 ~ x 25 - kvartilová odchylka: Q 2
atd.
~ x90 ~ x10 - decilová odchylka: D atd. 8
Průměrná absolutní odchylka n
- prostá: d
k
x
xi x
i 1
- vážená: d
n
i
x ni
i 1 k
n
i
i 1
Rozptyl n
- prostý (klasický): s x2
k
x i x 2
- vážený (klasický): s x2
i 1
n
x
2
i
x ni
i 1 k
n i 1
10
i
Výpočtový tvar rozptylu n
n x xi 2 i 1 i 1 - prostý: s x n n 2 i
2
x2 x 2 2
k
k x n x i ni i 2 i 1 i 1k - vážený: s x k ni ni i 1 i 1
x2 x 2
2 i
Směrodatná odchylka -
kladná odmocnina z rozptylu, tj. s x s x2 udává, jak se v průměru liší jednotlivé hodnoty znaku od aritmetického průměru v obou směrech (±) vhodná pro interpretaci, je udána v daných měrných jednotkách.
Pokud pracujeme s výběrovým souborem, počítáme výběrový rozptyl a výběrovou směrodatnou odchylku: n
- prostý: s x2
k
x i x 2
- vážený: s x2
i 1
n 1
x
2
i
x ni
i 1
n 1
Rozklad rozptylu Jestliže se statistický soubor skládá z několika (k) dílčích podsouborů, v nichž známe jednotlivé dílčí rozptyly s i2 , dílčí průměry xi a četnosti ni , pak rozptyl celého souboru s x2 můžeme rozložit na součet 2 rozptylů, z nichž jeden charakterizuje variabilitu mezi skupinami a druhý variabilitu uvnitř skupin. s x2 s x2i s i2 . k
k xi x ni x ni xi ni i 1k i 1k Rozptyl skupinových průměrů: s x2i i 1 k n n ni i i i 1 i 1 i 1 2
k 2 i
Průměr skupinových rozptylů: s
s
2 i
ni
i 1 k
n
i
i 1
11
k
2 i
2
b) Míry relativní variability
Variační koeficient -
je to bezrozměrné číslo a proto umožňuje porovnávat variabilitu souborů s různou úrovní či různými měrnými jednotkami lze ji vyjádřit v % obecně může nabývat hodnot z intervalu , , pro kardinální proměnnou z intervalu 0, .
Vx
sx x
PŘÍKLAD: Sledujeme hodnoty cholesterolu v souboru mužů (n=22). Naměřené hodnoty jsou uvedeny v mmol/l. Stanovte rozptyl, směrodatnou odchylku a koeficient variace. 6,2 6,25
7,6 6,4
6,3 4,04
9,1 6,3
4,2 9,1
5,8 6,3
5,65 5,2
6,3 6,4
8,6 5,75
6,0
6,2
6,7
4,6
Použijeme výpočtový tvar rozptylu 2
n
n x xi 2 i 1 sx i 1 n n
2 x 2 x 2 915,639 138,99 1,70628 22 22
2 i
s x s x2 1,30625
Vx
s x 1,30625 0,20676 x 6,31773
Variabilita nominální proměnné = mutabilita Míra mutability M -
udává podíl dvojic jednotek s různou obměnou z celkového počtu všech možných dvojic jednotek lze ji vyjádřit v %. k
n 2 ni2 M
i 1
nn 1
,
M 0,1
12
Nominální variance -
používá se v případě, že jsou známy pouze relativní četnosti a není znám rozsah souboru skutečný stupeň variability podhodnocuje. k
NOMVAR 1 pi2 ,
NOMVAR 0,1
i 1
Variabilita ordinální proměnné -
pro její měření lze použít výše uvedené míry absolutní a relativní variability vypovídací schopnost a interpretace těchto měr je však vzhledem k charakteru proměnné problematická pro měření variability ordinálních proměnných existují speciální charakteristiky, nejčastěji je používán ordinální rozptyl.
Ordinální rozptyl (variance) dorvar
4 k Fi 1 Fi , k 1 i 1
dorvar 0,1
kde Fi jsou kumulativní relativní četnosti. -
hodnoty 0 nabývá v případě, kdy je zastoupena pouze jediná kategorie hodnoty 1 nabývá tehdy, kdy je každé z obou krajních kategorií přiřazena relativní četnost 0,5.
3. Charakteristiky šikmosti -
šikmost = asymetrie v symetrickém rozdělení platí vztah: x ~ x počet podprůměrných hodnot je tak stejný jako počet hodnot nadprůměrných a míry šikmosti jsou rovny 0.
Míra šikmosi n
k
xi x 3 - prostá:
x
i 1
- vážená:
ns x3
13
3
i
x ni
i 1
ns x3
Jednoduchá charakteristika šikmosti
= kde
n n n
n je počet podprůměrných hodnot n je počet nadprůměrných hodnot.
Interpretace měr šikmosti - v symetrickém rozdělení = 0 - v kladně sešikmeném rozdělení > 0 (více hodnot podprůměrných než nadprůměrných) - v záporně sešikmeném rozdělení < 0 (více hodnot nadprůměrných než podprůměrných)
4. Charakteristiky špičatosti - špičatost = exces - větší nahuštěnost hodnot prostřední velikosti ve srovnání s nahuštěností ostatních hodnot - špičatější rozdělení má výraznější vrchol (tzn., že vrchol více vystupuje).
Míra špičatosti n
k
x i x 4 - prostá:
i 1
ns x4
x - vážená:
3
4
i
x ni
i 1
ns x4
3
Interpretace měr špičatosti - vyšší hodnota míry znamená větší špičatost, tzn. špičatější je to rozdělení, které má míru vyšší - základem pro srovnání je normované normální rozdělení (viz. pravděpodobnost).
14