Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012
Tutoriál č. 4: Exploratorní analýza
Jan Kracík
[email protected]
Statistika ●
●
●
věda o získávání znalostí z empirických dat empirická data (získaná měřením, pozorováním) představují primární zdroj informace o zkoumaném jevu lze rozlišit statistiku matematickou a popisnou
Matematická statistika ●
●
teoretická disciplína, opírá se o aparát teorie pravděpodobnosti (data jako realizace náhodných veličin) návrh metod pro získávání a analýzu dat ● odhady parametrů rozdělení ● testy hypotéz ● plánování experimentů ● predikce ...
Popisná statistika ●
●
stručná charakteristika základních vlastností datového souboru využívá: ●
číselné charakteristiky
●
tabulky
●
grafy
Základní pojmy ●
● ●
●
Populace – množina sledovaných prvků (např. všichni státní zaměstnanci v ČR) Statistické jednotky - prvky populace Statistické znaky, proměnné, veličiny – sledované kvantitativní údaje (např. výše příjmu) Statistické zjišťování – proces získávání dat ●
šetření (vyčerpávající / výběrové)
●
pokus
Výběrové šetření ●
●
výběr by měl být reprezentativní – odrážet vlastnosti celé populace náhodný výběr – každá statistická jednotka má stejnou šanci dostat se do výběru prostý, systematický, skupinový, …
●
nenáhodný výběr ●
●
anketa (samovýběr, rozhodnutí respondenta), nelze definovat populaci záměrný výběr
Typy proměnných proměnná
kvalitativní (kategoriální, slovní)
nominální (nelze uspořádat, např. barva)
ordinální (lze uspořádat, např. míra spokojenosti)
kvantitativní (číselná)
diskrétní (např. počet dětí )
Od typu proměnné se odvíjí způsob zpracování dat a prezentace výsledků.
spojitá (např. tlak)
EDA pro kategoriální nominální veličinu Způsoby prezentace: ●
tabulka rozdělení četnosti – pro malý počet hodnot, číselná charakteristika
●
modus (nejčastější hodnota)
●
graf – sloupcový, koláčový
Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta
absolutní četnosti
relativní četnosti
A
n1
n1 / n
B
n2
n2 / n
C
n3
n3 / n
D
n4
n4 / n
celkem
n1+n2+n3+n4 = n
1
Grafické znázornění Sloupcový graf ●
●
pozor na vhodnou volbu výchozí hodnoty (zpravidla 0)
400
350
300
250
názvy, popisky atd.
200
stručné ale srozumitelné
150
Chrome Safari IE Firefox Ostatní
100
50
0 Počet návštěv webu dle prohlížečů
Grafické znázornění Výsečový (koláčový) graf ●
●
vždy uvádět i absolutní četnosti
42, 5% 185, 21%
názvy, popisky atd.
356, 40%
89, 10%
stručné ale srozumitelné ●
pouze pro menší počet hodnot
212, 24%
Chrome Safari IE Firefox Ostatní
EDA pro kategoriální ordinální veličinu Způsoby prezentace: ●
tabulka rozdělení četnosti – hodnoty seřazeny
●
modus (nejčastější hodnota)
●
graf – sloupcový, koláčový
Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta
absolutní četnosti
A
n1
n1 / n = p1
n1
p1
B
n2
n2 / n = p2
n1+n2
p1+p2
C
n3
n3 / n = p3
n1+n2+n3
p1+p2+p3
D
n4
n4 / n = p4
n1+n2+n3+n4
p1+p2+p3+p4
celkem
n1+n2+n3+n4 = n
1
relativní četnosti kumulativní četnosti
Varianty A, B, C, … jsou seřazeny (podle velikosti apod.).
kumul. rel. četnosti
EDA pro numerické veličiny
Číselné charakteristiky:
●
míry polohy
●
míry variability
Míry polohy – aritmetický průměr
harmonický průměr (např. pro rychlosti) ●geometrický průměr (např. tempo změny) ●citlivé na odlehlá pozorování ●
Míry polohy – výběrový p-kvantil Rozděluje seřazená data na části, jejichž velikosti jsou v poměru p : 1-p. Kvartily ● dolní kvartil – ● medián – ● horní kvartil –
●
Decily –
●
Percentily –
●
,
, ... ,
, ...
Stanovení výběrového kvantilu
Data uspořádáme podle velikosti od nejmenší hodnoty po největší ●p-kvantil (100p% kvantil) je hodnota s pořadím np+0.5, kde n je počet dat. ●Pokud np+0.5 není celé číslo, určíme p-kvantil jako průměr předchozího a následujícího prvku. ●
Příklad: 0.4-kvantil Ceny benzínu v Kč
Ceny benzínu v Kč
36.70
1.
36.60
37.20
2.
36.70
38.40
3.
36.80
36.60
4.
37.20
37.50
5.
37.50
36.80
6.
38.40
0.4 * 6 = 2.4, 0.4-kvantil je průměrem 2. a 3. hodnoty (36.70 Kč + 36.80 Kč)/2 = 36.75 Kč
Míry variability – výběrový rozptyl
Rozměr rozptylu odpovídá druhé mocnině rozměru proměnné
Míry variability – výběrová směrodatná odchylka
Pravidlo 3 sigma – pro normální rozdělení platí:
Odlehlá pozorování ● ●
●
pozorování, která se výrazně liší od ostatních mohou (ale nemusí !) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno
Odlehlá pozorování (outliers) ● ●
●
●
●
pozorování, která se výrazně liší od ostatních mohou (ale nemusí !) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno jde-li o zřejmou chybu (překlep, technická závada, ...), můžeme pozorování vyloučit v jiných případech bychom se vyloučením mohli připravit o cennou informaci
Identifikace odlehlých pozorování ●
Metoda vnitřních hradeb jestliže pro pak
platí
je odlehlým pozorováním
interkvartilové rozpětí: IQR =
Identifikace odlehlých pozorování ●
Z-souřadnice
je-li |z| > 3, pak
je odlehlým pozorováním
Automatické metody pro identifikaci odlehlých pozorování pouze vybírají „podezřelé hodnoty“! Vždy je ale nutné individuální posouzení.
Grafické znázornění numerické proměnné ●
Histogram zobrazuje (relativní) četnosti výskytu pozorování v předem zvolených intervalech stejné délky
●
Box plot (krabicový graf) znázorňuje meze vnitřních hradeb, kvartily, odlelá pozorování