BIOMEDICÍNSKA ŠTATISTIKA ( Poznámky k problematike - nutný komentár prednášajúceho )
Úvod do biomedicínskej štatistiky Čo si myslíte o štatistike ?
Je to nuda ?...
Štatistika je dovtedy „nudná", kým sa nezačne týkať priamo nás...
Štatistika . . . ...presná interpretácia nepresných čísel Jedna z najkratších a najvýstižnejších definícií
Hmm,... teraz nepozerajte na kocky, tých bude ešte dosť, ale štatistika bude iba chvíľu...
Verím len tým štatistikám, ktoré si sfalšujem sám ( W.L.S.Churchill - britský politik, historik, žurnalista )
Základné štatistické pojmy Predmet štatistiky a významy pojmu štatistika: Termín štatistika (lat. status = stav, štát) Pozor, nemýliť si to s pojmom "štatista"... napr. vo filme! ...alebo niekedy aj vo firme :-)
Štatistika - vedná disciplína, ktorá sa zaoberá metódami zberu, usporiadania, vyhodnocovania a interpretácie údajov získaných z jednotlivých alebo hromadných pozorovaní a experimentov.
Štatistika a súčasnosť Využívajú sa všetky postupy a metódy, ktoré si štatistika behom svojho vývoja vytvorila alebo osvojila
(matematický aparát, software, počítačka kusov)
Použitie ďalších nástrojov
(diaľková čítačka čiarového kódu,
vysokofrekvenčná identifikácia – RFID pre tovar v obchodoch; i lieky)
Zbližovanie štatistiky a informatiky (využitie osobných počítačov, mikroprocesory vo výrobkoch i v tele človeka)
Počítač víťazí nad človekom pri triedení, vyhľadávaní a výpočtoch najmä pri veľkom množstve údajov Človek víťazí nad počítačom pri rozhodovaní a vytváraní záverov ("nevinný" počítač a štatistický softvér) S ktorým tvrdením máte viac skúseností ?
Štatistické programy - Veľký výber: Stats Direct, SPSS, SAS, Statistica, Minitab... - Často neúmerne vysoká cena ...u nás :-( - Dobrý a vyhovujúci kompromis: Microsoft Excel
Kto vykonáva praktickú štatistickú činnosť? Odkiaľ máme údaje o inflácii, HDP, výsledkov volieb, prieskume trhu, sociologickom výskume, účinnosti liekov...? Zber dát z terénu, laboratórií, cielených prieskumov,...
Štatistika
skúma hromadné javy
Teória pravdepodobnosti skúma individuálne javy Dva pohľady na rovnaký problém: hromadný jav – 52 % narodených detí sú dievčatá individuálny jav - pravdepodobnosť narodenia dievčaťa je 52 %
Hromadný jav sa vzťahuje k veľkému počtu prvkov, osôb, javov: hrubý mesačný príjem občanov SR počet kazových výrobkov vo výrobe hlasovanie v parlamentných voľbách priemerná denná teplota Skúste sami vymenovať ďalšie hromadné javy zo svojho okolia, z medicínskej teórie i praxe [ napr. morbidita pacientov pre určitú chorobu ]
Štatistický súbor: množina všetkých štatistických jednotiek, u ktorých skúmame príslušné štatistické znaky. Základný súbor (populácia): štatistický súbor všetkých jednotiek, ktorý je vlastným predmetom skúmania a o ktorom chceme robiť závery. Výberový súbor (výber, vzorka): štatistický súbor, ktorý vznikne zo základného súboru, ak sa z neho vyberú len niektoré prvky.
Indukcia: prenášanie záverov z výberu na celú populáciu (t.j. z časti na celok). Napr. ak je niekto malého vzrastu a má krátke končatiny, predpokladáme, že aj iní malí jedinci budú mať krátke ruky i nohy.
Dedukcia: zo všeobecných zákonitostí uskutočňujeme závery pre jednotlivé prípady (t.j. z celku na časť). Napr. ak máme skupinu vysokoškolákov, predpokladáme, že každý z nich predtým úspešne absolvoval strednú i základnú školu.
Štatistické zisťovanie: sledovanie znakov jednotlivých prvkov súboru. Úplné (vyčerpávajúce) zisťovanie: sledovanie znakov všetkých prvkov súboru, napr. umiestnenie pacientov (doma, v nemocnici a ...kde?). Výberové zisťovanie: požadované vlastnosti skúmame len u niektorých prvkov súboru, ktoré tak predstavujú výber (vzorku).
Štatistické znaky a ukazovatele Štatistické znaky podľa vyjadrenia hodnôt: kvalitatívne – vyjadrené slovne: nízky, vysoký,... kvantitatívne – vyjadrené číselne: 2, 17, 5,...
Štatistické znaky podľa spôsobu spracovania: nominálne - hodnoty majú rovnakú váhu: národnosť http://cs.wikipedia.org/wiki/Národnost
ordinálne - hodnoty je možné usporiadať: vek metrické - s hodnotami sa dá počítať: tlak krvi
Štatistické znaky podľa počtu hodnôt: alternatívne (dichotomické) - iba 2 možnosti, napr. áno/nie, muž/žena viackategoriálne – viac ako 2 možnosti, napr. vek, výška, hmotnosť
Analýza – interpretácia – prezentácia výsledkov Výsledkom štatistického zisťovania je spravidla veľké množstvo údajov. Aby sa tieto údaje stali prehľadnými, musíme ich zotriediť. Metódy popisnej štatistiky umožňujú prehľadné usporiadanie dát (štatistické triedenie) a výpočet potrebných ukazovateľov
Organizácia údajov (prakticky) Majme základný súbor ( populácia, celá množina) šk. známok: 11 Interval (trieda)
objekt (variant)
213|325|244|53
|
Rozsah výberu = počet vybraných objektov: 4 Početnosť (váha, frekvencia, výskyt, počet opakovaní) daného objektu (hodnoty, variantu) 2 je 3 ks. Variačné rozpätie radu: w=5-1=4 (Keby v základnom súbore namiesto 1-ky bola 2-ka a namiesto 5-ky 4-ka,
w=4-2=2
Organizácia údajov (teoreticky) Majme základný súbor ( populácia, celá množina) objektov: n Interval (trieda)
|
●●●|●●●|●●●|●●
objekt (variant)
Rozsah výberu = počet vybraných objektov: r Početnosť (váha, frekvencia, výskyt, počet opakovaní) daného objektu (hodnoty, variantu) xj je nj Variačné rozpätie radu: w = xmax - xmin
Nasledujúce vzorce a popisy niektorých najčastejších štatistických hodnôt a definícií sú väčšinou v zjednodušenej forme, ktorej úlohou je najmä priblížiť princíp výpočtu, príp. jeho aplikovanie pomocou programu Microsoft Excel.
Priemer aritmetický (platí pre malý súbor, kde n<30): n - počet objektov xj - hodnota objektu
Priemer aritmetický vážený (platí pre veľký súbor, kde n≥30) zj - hodnota objektu n - počet objektov nj - početnosť objektu Jéééžišmária, zasa matika . . .
Výpočet v Exceli Priemer aritmetický:
výpočet pomocou funkcie AVERAGE
súbor Statistika(priklady).xls, hárok PriemAritm Priemer aritmetický vážený:
výpočet pomocou funkcií SUMPRODUCT a SUM
súbor Statistika(priklady).xls, hárok PriemAritmVaz
Priemery - vlastnosti, popis Výhody majú uplatnenie pri riešení takmer všetkých úloh štatistiky Nevýhody – zakrývajú rozdiely, ktoré existujú medzi jednotlivými hodnotami – majú fiktívny charakter (vypočítaná priemerná hodnota sa nemusí vyskytovať u žiadnej štatistickej jednotky)
Vlastnosti priemeru aritmetického
• súčet jednotlivých odchýlok od priemeru je nulový • aritmetický priemer konštanty je rovný konštante • ak pripočítame k jednotlivým hodnotám znaku konštantu, zvýši sa o túto konštantu i aritmetický priemer
• ak násobíme jednotlivé hodnoty znaku konštantou, je touto konštantou násobený aj priemer
• ak násobíme váhy aritmetického priemeru konštantou, priemer sa nemení
Priemer geometrický (platí pre malý súbor, kde n<30): n - počet objektov xj - hodnota objektu Priemer geometrický vážený
(platí pre veľký súbor, kde n≥30): zj - hodnota objektu n - počet objektov nj - početnosť objektu
Výpočet v Exceli Priemer geometrický:
výpočet pomocou funkcie GEOMEAN
súbor Statistika(priklady).xls, hárok PriemGeom Priemer geometrický vážený:
výpočet pomocou funkcií ...
súbor Statistika(priklady).xls, hárok PriemGeomVaz
Priemer harmonický (platí pre malý súbor, kde n<30): n - počet objektov xj - hodnota objektu Priemer harmonický vážený (platí pre veľký súbor, kde n≥30): zj - hodnota objektu n - počet objektov nj - početnosť
Výpočet v Exceli Priemer harmonický:
výpočet pomocou funkcie HARMEAN
súbor Statistika(priklady).xls, hárok PriemHarm Priemer harmonický vážený:
výpočet pomocou funkcií ...
súbor Statistika(priklady).xls, hárok PriemHarmVaz
Priemer kvadratický (platí pre malý súbor, kde n<30): n - počet objektov xj - hodnota objektu Priemer kvadratický vážený (platí pre veľký súbor, kde n≥30): zj - hodnota objektu n - počet objektov nj - početnosť
Výpočet v Exceli Priemer kvadratický:
výpočet pomocou funkcie ...
súbor Statistika(priklady).xls, hárok PriemKvadr Priemer kvadratický vážený:
výpočet pomocou funkcií ...
súbor Statistika(priklady).xls, hárok PriemKvadrVaz
Vzťah medzi priemermi Aritmetický, geometrický, harmonický a kvadratický priemer tých istých hodnôt je v tomto vzájomnom vzťahu:
Ďalšie stredné hodnoty Modus - najpočetnejšia hodnota štatistického znaku Napr. pre štatistické údaje 3 2 65 9 1 4 2 153 17 2 je modus rovný hodnote 2
( vyskytuje sa najčastejšie... 3x )
Výpočet v Exceli Modus:
výpočet pomocou funkcie MODE
(pozor, nie MOD !)
Medián - prostredná hodnota usporiadaného štatistického súboru Napr. pre štatistické údaje 3 2 65 9 1 4 2 153 17 2 je medián rovný hodnote 3.5
(keďže jediná prostredná hodnota neexistuje,
považujeme za ňu aritmetický priemer dvoch prostredných hodnôt 3 a 4)
Výpočet v Exceli Medián:
výpočet pomocou funkcie MEDIAN
Charakteristiky variability Rozptyl • je najpoužívanejšou mierou variability
• indikuje, ako sa hodnoty líšia od priemeru • je definovaný ako priemer štvorcov odchýlok jednotlivých hodnôt znaku od ich aritmetického priemeru Pre rozptyl malého súboru platí:
Pre rozptyl veľkého súboru platí:
Výpočet v Exceli Rozptyl malého súboru:
výpočet pomocou funkcie VARP
súbor Statistika(priklady).xls, hárok Rozptyl Rozptyl veľkého súboru:
výpočet pomocou funkcií ...
súbor Statistika(priklady).xls, hárok Rozptyl
Smerodajná odchýlka Vyjadruje štatistické rozloženie údajov. Zjednodušene povedané, hovorí o tom, ako široko sú rozložené hodnoty v množine údajov.
Smerodajná odchýlka malého súboru:
Smerodajná odchýlka veľkého súboru:
Výpočet v Exceli Smerodajná odchýlka malého súboru:
výpočet pomocou STDEVP
súbor Statistika(priklady).xls, hárok SmerodOdchyl Smerodajná odchýlka veľkého súboru:
výpočet pomocou
... súbor Statistika(priklady).xls, hárok SmerodOdchyl
Priemerná absolútna odchýlka Vyjadruje aritmetický priemer absolútnych hodnôt rozdielov aritmetického priemeru štatistického základného súboru a hodnôt jednotlivých objektov. Priemerná absolútna odchýlka malého súboru: Priemerná absolútna odchýlka veľkého súboru:
Výpočet v Exceli Priemerná odchýlka malého súboru: výpočet pomocou AVEDEV súbor Statistika(priklady).xls, hárok PriemOdchyl Priemerná odchýlka veľkého súboru:
výpočet pomocou
... súbor Statistika(priklady).xls, hárok PriemOdchyl
Variačný koeficient Pomer smerodajnej odchýlky a aritmetického priemeru. Variabilita sa udáva obvykle v percentách. Ak je hodnota variačného koeficientu vyššia než 50%, možno uvažovať o značnej nesúrodosti štatistického súboru. Variačný koeficient:
Výpočet v Exceli Variačný koeficient: výpočet pomocou STDEVP a AVERAGE súbor Statistika(priklady).xls, hárok VariacKoef
Korelácia Korelácia je miera závislosti medzi dvoma alebo viacerými premennými. Korelačný koeficient môže dosahovať hodnoty od -1 do +1. Hodnota -1 reprezentuje najvyššiu negatívnu koreláciu Hodnota +1 reprezentuje najvyššiu pozitívnu koreláciu. Hodnota 0 vypovedá o žiadnej korelácii. Interpretácia nemá byť podložená len výpočtom, Odporúča sa urobiť aj vizuálnu kontrolu korelogramu.
Výpočet v Exceli Korelačný koeficient: výpočet pomocou CORREL alebo PEARSON
Vplyv extrémnych hodnôt na korelačnú krivku – pozri animované obrázky (*.gif)
Normálne (Gaussovo) rozdelenie V praxi najčastejšie sa vyskytujúce rozdelenie. ( Dvojparametrické: stredná hodnota a rozptyl ) Najpočetnejší výskyt znakov má hodnotu priemeru a početnosť výskytu nad- a podpriemerných hodnôt rovnakej odchýlky od priemeru je rovnaký (symetria). Až 70% premenných sa riadi touto frekvenčnou funkciou (vek, telesná výška,...).
Histogram početnosti Histogram znázorňuje pomocou stĺpcového grafu rozdelenie intervalovej premennej. Graf na osi y zobrazuje početnosti hodnôt premennej v intervaloch jej hodnôt na osi x. ( Podrobnosti v súbore "Statistika(priklady)...xls" )
Kontingenčná tabuľka ( Cvičný príklad pomocou súboru "Pacienti.xls" )
Student-ov T-test Vypočíta očakávané hodnoty a rozptyl hodnôt. V programe Excel sú funkcie T-testov už implementované.
( Meno "Student" je vymyslené - je to pseudonym skutočného autora, ktorý sa volal W.S.Gosset. Ako zamestnanec pivovaru Guinness na začiatku 20. storočia nesmel publikovať vedecké práce )
LITERATÚRA (so štatistickou problematikou): http://www.avozarm.sk
(niektoré kapitoly)
http://ipzass.modtut.net/download/1roc/leto/SkriptaStatisticke_metody.doc http://frcatel.fri.uniza.sk/users/pesko/STAT/peskoStatistika.pdf (niektoré kapitoly)