Statistika Popisn´ e statistiky I.
Popisn´ e statistiky I.
Obsah cviˇ cen´ı
Obsah cviˇ cen´ı
Popisn´e statistiky I.
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Cviˇcen´ı z matematick´e statistiky na PˇrF
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
ˇarka Hudecov´a S´
na z´akladˇe dat umoˇzˇnuje odpov´ıdat na obecnˇejˇs´ı ot´azky ! z´avˇery lze zobecnit pˇredpoklady (pravdˇepodobnostn´ı model), znalost statistick´ych metod d˚ uleˇzit´a je interpretace
l´eto 2012
Obsah cviˇcen´ı
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
popis konkr´etn´ıch dat nˇekolika ˇc´ısly a obr´azky struˇcnˇe vystihnout d˚ uleˇzit´e aspekty z´avˇery pouze o dan´ych datech, nelze zobecˇnovat
induktivn´ı (konfirmatorn´ı) statistika
Katedra pravdˇ epodobnosti a matematick´ e statistiky Matematicko-fyzik´ aln´ı fakulta Univerzity Karlovy
Popisn´ e statistiky I.
Z´ akladn´ı dˇelen´ı popisn´ a (deskriptivn´ı) statistika
Program R Popisn´ e statistiky I.
Obsah cviˇ cen´ı popisn´a statistika popis konkr´etn´ıch datov´ych soubor˚ u
doplnˇen´ı pˇredn´aˇsky procviˇcen´ı prob´ıran´e l´atky ilustrace tvrzen´ı z pˇredn´aˇsky doplˇnuj´ıc´ı pˇr´ıklady
vybran´e metody matematick´e statistiky (induktivn´ı statistika) praktick´a aplikace konkr´etn´ıch metod kdy, proˇc a jak kterou metodu pouˇz´ıt interpretace a prezentace v´ysledk˚ u
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Pracovat budeme s programem R volnˇe a zdarma dostupn´y na http://www.r-project.org/ n´ adstavba R-commander (package Rcmdr) nab´ız´ı jak uˇzivatelsky sympatick´e prostˇred´ı, tak i dostateˇcnou flexibilitu (moˇznost psan´ı vlastn´ıch funkc´ı, otevˇren´y k´ od apod.)
Poˇzadavky k z´apoˇctu
Data
Popisn´ e statistiky I.
Popisn´ e statistiky I.
Obsah cviˇ cen´ı
Obsah cviˇ cen´ı
Popisn´ a statistika
Popisn´ a statistika
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
doch´azka (moˇznost 3 absence) vypracov´an´ı z´avˇereˇcn´eho dom´ac´ıho projektu praktick´e zpracov´an´ı konkr´etn´ıch dat od popisn´e statistiky pˇres odhady aˇz po testov´an´ı hypot´ez
v´ysledek pozorov´ an´ı (mˇeˇren´ı) pozorov´ an´ı prov´ ad´ıme na nez´ avisl´ych subjektech osoby, experimenty, st´aty, pacienti, rostliny, . . .
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
mˇeˇr´ıme (zjiˇst’ujeme) hodnoty znak˚ u (veliˇcin, vlastnost´ı) hmotnost, koncentrace urˇcit´e l´atky, politick´y n´azor, . . .
na jednom subjektu m˚ uˇzeme mˇeˇrit v´ıce znak˚ u na z´ akladˇe dat bychom r´ adi vypov´ıdali o obecn´ych vlastnostech populace, odkud subjekty poch´ az´ı ! induktivn´ı statistick´e metody popis konkr´etn´ıho datov´eho souboru je ned´ılnou souˇc´ ast´ı a statistika kaˇzd´e anal´yzy ! popisn´
Data Popisn´ e statistiky I.
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Pˇr´ıklad datov´eho souboru Popisn´ e statistiky I.
upravujeme do form´atu datov´e tabulky a uchov´av´ame v elektronick´e podobˇe jako poˇc´ıtaˇcov´y soubor pozorov´an´ı na jednotliv´ych subjektech jsou vˇetˇsinou v ˇr´adc´ıch, jednotliv´e mˇeˇren´e veliˇciny ve sloupc´ıch k zaznamen´av´an´ı dat a manipulac´ım s nimi se pouˇz´ıvaj´ı r˚ uzn´e druhy poˇc´ıtaˇcov´eho softwaru (napˇr. Excel, datab´azov´e syst´emy atd.) statistick´a anal´yza pomoc´ı specializovan´ych statistick´ych softwar˚ u (napˇr. program R)
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
ˇ ast dat sesb´ıran´ych na pˇredn´aˇsce Matematick´a statistika Tabulka: C´ v minul´ych letech (2006–2011)
id .. .
pohl .. .
vyska .. .
vaha .. .
n.sour .. .
v.ot .. .
v.mat .. .
bydliste .. .
23 24 25 26 .. .
1 1 1 0 .. .
183 192 178 168 .. .
70 85 90 55 .. .
3 2 1 1 .. .
49 51 45 53 .. .
50 53 41 53 .. .
Vysoˇcina Jiˇzn´ı Morava Karlovy Vary Praha .. .
Mˇeˇr´ıtka, na kter´ych mˇeˇr´ıme znaky Popisn´ e statistiky I.
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Popisn´ e statistiky I.
nomin´aln´ı hodnoty jsou pouze oznaˇcen´ı r˚ uzn´ych kategori´ı pohlav´ı, rasa, politick´y n´azor, barva vlas˚ u,. . .
Obsah cviˇ cen´ı
Jin´e dˇelen´ı mˇeˇr´ıtek
ordin´aln´ı uspoˇr´adan´e nomin´aln´ı hodnoty vzdˇel´an´ı, spokojenost v pr´aci (stupnice 1 aˇz 5), stupeˇn bolesti, . . .
kvalitativn´ı ! kategori´ aln´ı ! faktory Obsah cviˇ cen´ı
jen nˇekolik moˇzn´ych hodnot (kategori´ı) zaj´ımaj´ı n´as ˇcetnosti jednotliv´ych kategori´ı uvaˇzovat charakteristiky jako pr˚ umˇer nem´a smysl
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
kvantitativn´ı ! spojit´e hodnoty jsou ˇc´ısla zaj´ımaj´ı n´as charakteristiky jako pr˚ umˇer apod.
intervalov´e lze uvaˇzovat jejich rozd´ıly, ale nelze se pt´at kolikr´at“ ” napˇr. rok narozen´ı, teplota ve stupn´ıch Celsia, . . .
odliˇsn´e metody pro popis kvalitativn´ıch a kvantitativn´ıch veliˇcin
pomˇerov´e vˇetˇsina veliˇcin, kter´e mˇeˇr´ıme hmotnost, v´yˇska, ˇcas, suma v Kˇc, poˇcet obyvatel dan´e zemˇe,. . .
Pozn´ amka: Zaˇrazen´ı dan´eho znaku nemus´ı b´yt jednoznaˇcn´e (napˇr. poˇcet sourozenc˚ u)
Kvalitativn´ı veliˇciny
Kvalitativn´ı veliˇciny
Popisn´ e statistiky I.
Popisn´ e statistiky I.
Vhodn´e grafick´e zn´ azornˇen´ı
Vhodn´e popisn´e charakteristiky
sloupcov´y graf (obdeln´ıkov´y diagram, barplot)
tabulka relativn´ıch ˇcetnost´ı jednotliv´ych kategori´ı
Popisn´ a statistika
Pˇr´ıklad U cestuj´ıc´ıch v tramvaji pozorujeme barvu oˇc´ı: H, H, Z, M, H, Z, Z, M, H, Z, Z Tabulka ˇcetnost´ı H Z M celkem 4 5 2 11
Tabulka relat. ˇcetnost´ı H Z M celkem 0.364 0.455 0.181 1
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
5
barva
4
modus = nejˇcastˇejˇs´ı hodnota
H Frequency
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
kol´ aˇcov´y graf (v´yseˇcov´ a diagram, pieplot)
3
Popisn´ a statistika
M
2
Obsah cviˇ cen´ı
Z
1
tabulka ˇcetnost´ı jednotliv´ych kategori´ı
0
Obsah cviˇ cen´ı
H
M barva
Z
Kvantitativn´ı veliˇciny
Kvantitativn´ı veliˇciny — m´ıry polohy
Popisn´ e statistiky I.
Popisn´ e statistiky I.
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
pr˚ umˇer
Obsah cviˇ cen´ı
m´ıry polohy jak´ych zhruba hodnot veliˇcina nab´yv´a? pr˚ umˇer, minimum, maximu, . . . (jeˇstˇe si je uvedeme)
minimum, maximum z x1 , . . . , xn (v´ybˇerov´y) medi´ an
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
dˇel´ı data na dvˇe poloviny: polovina je menˇs´ı (nebo rovna) a polovina vˇetˇs´ı (nebo rovna)
(v´ybˇerov´e) kvantily ! percentily
jak velmi se liˇs´ı hodnoty znaku u jednotliv´ych subjekt˚ u?
α· 100% kvantil je hodnota takov´a, ˇze α· 100% hodnot v datech je ≤ a zbytek je ≥ doln´ı kvartil Q1 = 25% kvantil ˇctvrtina hodnot je menˇs´ıch (nebo rovn´ych) a tˇri ˇctvrtiny jsou vˇetˇs´ı (nebo stejn´e) horn´ı kvartil Q3 = 75% kvantil tˇri ˇctvrtiny hodnot jsou menˇs´ı (nebo rovn´e) a ˇctvrtina je vˇetˇs´ı (nebo stejn´a)
Kvantitativn´ı veliˇciny— m´ıry variability Popisn´ e statistiky I.
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Kvantitativn´ı veliˇciny— grafick´e zn´azornˇen´ı Popisn´ e statistiky I.
(v´ybˇerov´y) rozptyl
histogram
Obsah cviˇ cen´ı
n
1 X s = (xi − x)2 n−1 2
i =1
(v´ybˇerov´a) smˇerodatn´a odchylka v u n u 1 X s=t (xi − x)2 n−1 i =1
krabicov´y diagram (boxplot)
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny Odhad hustoty
Popisn´ a statistika
1X xi n i =1
Popisn´ a statistika
Pozorujeme hodnoty x1 , . . . , xn
m´ıry variability
Obsah cviˇ cen´ı
n
x=
0.05
200
200
0.04
190
190
0.03
180
180
0.02
170
170
0.01
160
160
150
0.00 150
mezikvartilov´e rozpˇet´ı R = Q3 − Q1
160
170
180
Vyska [cm]
190
200
150 Zena
Muz
Zima
Jaro
Leto
Histogram Popisn´ e statistiky I.
Obsah cviˇ cen´ı Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
Histogram
d´av´a nahl´ednout, jak jsou jednotliv´e hodnoty znaku v naˇsich datech rozloˇzeny (kter´e hodnoty se objevuj´ı ˇcasto a kter´e ojedinˇele) interval A = (a, bi pokr´yv´a cel´e rozmez´ı dat rozdˇel´ıme jej na K navazuj´ıc´ıch stejnˇe velk´ych podinterval˚ u Ak , k = 1, . . . , K , vˇsechny d´elky h = b−a K nk poˇcet pozorov´an´ı, kter´e padly do Ak grafick´e zn´azornˇen´ı tˇechto intervalov´ych ˇcetnost´ı nk v´yˇska obdeln´ıku rovna nk nebo nk /(n · h)
Popisn´ e statistiky I.
Histogram se m˚ uˇze liˇsit podle toho, kolik interval˚ u Ak uvaˇzujeme
Obsah cviˇ cen´ı
0.035
Popisn´ a statistika
0.030
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
0.04
0.025 0.03 0.020 0.015
0.02
0.010 0.01
0.05
0.005 Odhad hustoty
0.04
0.03
0.000
0.00
0.02
150
170
190
150
170
190
0.01
Vyska [cm]
0.00 150
160
170
180
190
Vyska [cm]
200
Vyska [cm]
Krabicov´y diagram Popisn´ e statistiky I.
Obsah cviˇ cen´ı
Obr´azek: Krabicov´y diagram v´yˇsky student˚ u podle pohlav´ı a podle roˇcn´ıho obdob´ı pˇri narozen´ı. 200
200
190
190
180
180
170
170
160
160
Popisn´ a statistika Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
70
80
90
horn´ı a doln´ı okraj urˇcuj´ı v´ybˇerov´e kvartily uprostˇred ˇc´ara urˇcuj´ıc´ı v´ybˇerov´y medi´an vousy“ ukazuj´ı rozmez´ı dat ! od kvartilu ” k minimu/maximu (nen´ı-li odlehl´e) odlehl´e pozorov´an´ı ! je d´al neˇz 3/2 · (Q3 − Q1 ) od bliˇzˇs´ıho kvartilu 60
Data Mˇ eˇr´ıtka Kvalitativn´ı veliˇ ciny Kvantitativn´ı veliˇ ciny
vek.matky
Popisn´ a statistika
50
Obsah cviˇ cen´ı
simult´ann´ı zobrazen´ı nˇekolika vybran´ych charakteristik nem´a z´avaznou definici konkr´etn´ı podoba se liˇs´ı podle konkr´etn´ıho softwaru a zadan´ych parametr˚ u obvykle zakreslen v´ybˇerov´y medi´an a kvartily (ale lze i pr˚ umˇer a smˇer. odchylka) svisle poloˇzen´a krabice
40
Popisn´ e statistiky I.
Krabicov´y diagram
150
150 Zena
Muz
Zima
Jaro
Leto