Statistick´ e metody v ekonomii Ing. Michael Rost, Ph.D. ˇ esk´ Jihoˇ cesk´ a univerzita v C ych Budˇ ejovic´ıch
V podstatn´ e m´ıˇ re ˇ cerp´ am z pˇ redn´ aˇ sek prof. Thomase Lumleyho z R Core Developement Team
c Rost 2007 °
Statistick´ y software
• V souˇ casn´ e dobˇ e existuje na trhu cel´ a ˇ rada statistick´ eho software. Asi nejrozˇ s´ıˇ renˇ ejˇ s´ım je statistick´ y software SAS, SPSS, STATISTICA, MATLAB pˇ r´ıpadnˇ e S-plus.
• Jde pˇ redevˇ s´ım o komerˇ cn´ı a monolitick´ e syst´ emy s relativnˇ e pˇ r´ atelsk´ ym prostˇ red´ım.
• Nev´ yhodou tˇ echto program˚ u je vˇ sak jejich vysok´ a poˇ rizovac´ı cena.
Alternativou m˚ uˇ ze b´ yt ”profesion´ aln´ı” programovac´ı prostˇ red´ı R. c Rost 2007 °
Co je to R a S-plus
• R je programovac´ı prostˇ red´ı. Lze jej oznaˇ cit za dialekt jazyka S kter´ y byl vyvinut Johnem Chambersem speci´ alnˇ e pro statistick´ e v´ ypoˇ cty a grafiku. Jazyk S (Bellovy laboratoˇ re USA) byl vˇ edomˇ e tvoˇ ren tak, aby se setˇ rel rozd´ıl mezi obyˇ cejn´ ymi uˇ zivateli a opravdov´ ymi program´ atory. S-plus je komerˇ cn´ı statistick´ y syst´ em zaloˇ zen´ y na jazyku S.
• S je syst´ em pro interaktivn´ı anal´ yzu dat. Vˇ zdy byl tento jazyk tvoˇ ren s viz´ı interaktivity. Z´ aroveˇ n je tak uˇ zivatel nucen vˇ edˇ et co dˇ el´ a.
c Rost 2007 °
Co je to R a S-plus • S je tzv. high-level programovac´ı jazyk. Obsahuje podobnosti s jazyky Scheme a Python. Je to velmi dobr´ y syst´ em pro rychl´ y v´ yvoj statistick´ ych a data miningov´ ych aplikac´ı.
c Rost 2007 °
Instalace programovac´ıho prostˇ red´ı R Prostˇ red´ı R str´ ank´ ach:
lze z´ıskat snadno prostˇ rednictv´ım Internetu na
http://www.r-project.org Zde je nutn´ e opatˇ rit si instalaˇ cn´ı soubor.
c Rost 2007 °
Proˇ c ne S-plus. Programovac´ı jazyky R a S jsou obviˇ nov´ any z toho, ˇ ze jsou pomal´ e, pamˇ et’ovˇ e n´ aroˇ cn´ eaˇ ze jsou schopny zpracov´ avat pouze mal´ e datov´ e soubory. To vˇ se je naprost´ a pravda. V souˇ casn´ e dobˇ e jsou vˇ sak poˇ c´ıtaˇ ce dostateˇ cnˇ e rychl´ e a obsahuj´ı rozs´ ahlou pamˇ et’. Nen´ı to tedy kritick´ e. Znaˇ cnˇ e rozs´ ahl´ a data se daj´ı zpracovat s 1 Gb pamˇ et’i. Pˇ redpisy a omezen´ı (FDA, 21 CFR 11, Basel 2, atd.). Rnem´ a GUI (nen´ı to ´ uplnˇ e pravda) narozd´ıl od S-plus.
c Rost 2007 °
Jak podobn´ e jsou si R a S-plus
• V pˇ r´ıkazech pro proveden´ı anal´ yzy dat jsou si velmi podobn´ e
• Spousta program˚ u napsan´ e v jednom dialektu m˚ uˇ ze b´ yt pˇ r´ımo pˇ renesena do druh´ eho.
• Spousta program˚ u bude potˇ rebovat urˇ cit´ y pˇ reklad
• R m´ a v´ ybornˇ e propracovan´ y syst´ em bal´ıˇ ck˚ u pro distribuci k´ odu a dat.
c Rost 2007 °
V´ yhody a nev´ yhody programovac´ıho prostˇ red´ı R
+ R je zdarma a rozv´ıj´ı se. V mnoha ohledech pˇ rekon´ av´ a (a to i o nˇ ekolik let) nˇ ekter´ e jin´ e komerˇ cn´ı programy.
+ Syst´ em n´ apovˇ edy ke kaˇ zd´ e funkci spolu s uk´ azkou pouˇ zit´ı pˇ r´ısluˇ sn´ e funkce. Existuje ˇ sirok´ a uˇ zivatelsk´ a obec - moˇ znost ˇ reˇ sit probl´ emy s pˇ redn´ımi odborn´ıky.
+ Velmi dobr´ a grafika, import a export dat a v´ ystup˚ u + (Sweave).
+ ”Uˇ cesan´ y jazyk”, vektorizace v´ ypoˇ ct˚ u, moˇ znost vyuˇ zit´ı objektovˇ e orientovan´ eho programov´ an´ı, komunikuje Tinn-R, GGobi, LATEX, Excel, . . . . . .
+ Dostupnost nejnovˇ ejˇ s´ıch statistick´ ych metod. c Rost 2007 °
V´ yhody a nev´ yhody programovac´ıho prostˇ red´ı R - Existence nˇ ekter´ ych duplicit.
- Mohou se vyskytovat chyby v k´ odu (to je probl´ em jak´ ehokoliv software).
± Neexistence GUI (nen´ı tak zcela pravda). A je to vlastnˇ e nev´ yhoda?
? Zkuˇ senosti s v´ yukou - studenti maj´ı strach z pˇ r´ıkazov´ eˇ r´ adky. Upˇ rednostˇ nuj´ı ”users friendly software”. Strm´ a kˇ rivka uˇ cen´ı.
• N´ avaznost na dalˇ s´ı projekty - Bioconductor
c Rost 2007 °
Inicializace R Erko lze inicializovat r˚ uzn´ ym zp˚ usobem.
• Windows GUI: Obvykl´ y zp˚ usob pˇ res Start – Vˇ sechny programy – R.
• Xemacs, Rterm, Rcmd, Tinn-R . . .
Ukonˇ cen´ı pr´ ace s programovac´ım prostˇ red´ım R, je velmi jednoduch´ e. Staˇ c´ı do pˇ r´ıkazov´ eho ˇ r´ adku zapsat za prompt q()
c Rost 2007 °
Princip pr´ ace s R Obvykle prob´ıh´ a pr´ ace s R interaktivnˇ e. Lze ji popsat modelem: ot´ azka — odpovˇ ed’:
• Zad´ ate pˇ r´ıkaz a stisknete kl´ avesu Enter.
• R vyhodnot´ı pˇ r´ıkaz (vytiskne jeho hodnotu pokud je nen´ı zaps´ ana do vnitˇ rn´ı pamˇ eti).
• Pak R ˇ cek´ a na dalˇ s´ı vstupn´ı pˇ r´ıkaz.
c Rost 2007 °
Nˇ ekolik mal´ ych pˇ r´ıklad˚ u
2 + 2 [1] 4 exp(-2) [1] 0.1353353 log(100, base = 10) [1] 2 rnorm(10) [1] 0.28561157 0.17790983 1.63946005 -0.46323635 [5] 0.70008063 -0.04786677 -0.98090075 -1.72214332 [9] -0.23604856 -0.85228894 data<-(rnorm(50,13,4)) mean(data) [1] 13.02051 var(data) [1] 18.60891 sqrt(var(data)) [1] 4.313805
c Rost 2007 °
Funkce exp(), log(), mean(), var(), sqrt(), rnorm() jsou funkce implementovan´ e v R. Vol´ an´ı funkc´ı je indikov´ ano prostˇ rednictv´ım jm´ ena funkce a z´ avorek
jm´ eno.funkce(argument1, argument2,argument3,...) v nichˇ z jsou obsaˇ zeny argumenty funkce. Naprost´ a vˇ etˇ sina pr´ ace v R se odehr´ av´ a pr´ avˇ e prostˇ rednictv´ım funkc´ı.
c Rost 2007 °
Pozn´ amka k funkc´ım Uˇ zivatel m´ a na v´ ybˇ er z nˇ ekolika moˇ znost´ı:
1.) Vyuˇ z´ıt jiˇ z napsan´ ych program˚ u ve Fortranu nebo C a dynamicky je pˇ ripojit prostˇ rednictv´ım vestavˇ en´ ych funkc´ı a doinstaloˇ´ van´ ych program˚ u, napˇ r gcc. C asteˇ cnˇ e lze vyuˇ z´ıt i programy psan´ e v Matlabu. K tomu je tˇ reba m´ıt nainstalov´ any speci´ aln´ı knihovny.
2.) Vyuˇ z´ıt Rkov´ e knihovny umoˇ zˇ nuj´ıc´ı prov´ adˇ et r˚ uzn´ e statistick´ e anal´ yzy.
3.) Definovat si vlastn´ı uˇ zivatelsk´ e funkce pˇ r´ımo v programovac´ım prostˇ red´ı R. c Rost 2007 °
Pˇ riˇ razov´ an´ı Z´ akladem vˇ seho je prostˇ e pˇ riˇ razov´ an´ı! St´ ale jenom pˇ riˇ razujeˇ s a pˇ riˇ razujeˇ s, aˇ z se v tom ´ uplnˇ e ztrat´ıˇ s ... V´ aclav N´ ydl V R se pˇ riˇ razuje prostˇ rednictv´ım symbolu <-. Napˇ r a<-3*x
c Rost 2007 °
N´ apovˇ eda v R V prostˇ red´ı R lze s v´ yhodou vyuˇ z´ıvat velmi dobˇ re koncipovanou n´ apovˇ edu. K jej´ı vyvol´ an´ı staˇ c´ı zadat jednoduch´ y pˇ r´ıkaz help() nebo jeˇ stˇ e jednoduˇ seji, vyuˇ z´ıt pˇ r´ıkaz ?. seme n´ azev funkce ke kter´ e hodl´ ame z´ıskat Za symbol ? nap´ıˇ n´ apovˇ edu. e t´ ema Jinou moˇ znost´ı je pouˇ z´ıt pˇ r´ıkaz help.search(). Hledan´ pak vep´ıˇ seme do uvozovek napˇ r. help.search("mean") a stiskneme enter. Pokud pˇ r´ıkaz sice zn´ ame, ale nev´ıme jak´ e argumenty obsahuje, m˚ uˇ zeme vyuˇ z´ıt pˇ r´ıkazu args(). Do z´ avorek opˇ et vep´ıˇ seme n´ azev funkce. c Rost 2007 °
Koncepce bal´ıˇ ck˚ u – package a jejich pˇ ripojen´ı Pro prov´ adˇ en´ı specifick´ ych statistick´ ych procedur, je nutn´ e si st´ ahnout z www str´ anek projektu potˇ rebn´ y bal´ıˇ cek - knihovnu. Ta v sobˇ e obsahuje pˇ r´ısluˇ sn´ e programy, kter´ e umoˇ zˇ nuj´ı prov´ adˇ et zam´ yˇ slenou proceduru. Postup je velmi jednoduch´ y. Po instalaci je tˇ reba knihovnu pouze pˇ ripojit. Pˇ r´ıklad: Potˇ rebuji prov´ adˇ et segmentaci trhu prostˇ rednictv´ım modern´ıch shlukovac´ıch metod. Ty jsou obsaˇ zeny v bal´ıˇ cku clust. Opatˇ r´ım si jej na www str´ ank´ ach projektu R a nainstaluji jej. Pak v pˇ r´ıkazov´ eˇ r´ adce nap´ıˇ si jen library(clust)
... a mohu pracovat .... c Rost 2007 °
Knihovny - library() R obsahuje velk´ e mnoˇ zstv´ı knihoven umoˇ zˇ nuj´ıc´ıch prov´ adˇ et r˚ uzn´ e statistick´ e anal´ yzy od trivi´ aln´ı popisn´ e statistiky aˇ z v´ıcerozmˇ ernou statistickou anal´ yzu dat. Za vˇ sechny lze jmenovat alespoˇ n n´ asleduj´ıc´ı: MASS mclust e1074 rpart cluster vcd kernlab stats ade4 vegan party nnet Nˇ ekter´ e funkce pro v´ıcerozmˇ ernou anal´ yzu dat: lda(), qda(), factanal(), princomp(), hclust(), svm(), rpart(), mclust(), bclust(), corrsesp()
c Rost 2007 °
Nastaven´ı pracovn´ıho adres´ aˇ re Velmi d˚ uleˇ zit´ e je nastaven´ı si pracovn´ıho adres´ aˇ re!!! Pˇ r´ıkaz pro zjiˇ stˇ en´ı souˇ casn´ eho pracovn´ıho adres´ aˇ re. getwd() [1] "C:/Documents and Settings/J´ a/Plocha"
V´ yˇ se uveden´ e mi nevyhovuje a chci to zmˇ enit tak, abych mohl naˇ c´ıtat data ze sloˇ zky Alldata, kter´ a je na m´ em USB kl´ıˇ ci a (v m´ em pˇ r´ıpadˇ e je to disk R:). Cestu zmˇ en´ım prostˇ rednictv´ım pˇ r´ıkazu setwd(): setwd("R:/Alldata") getwd() [1] "R:/Alldata"
c Rost 2007 °
Moˇ znosti z´ aznamu dat Do R lze data zaznamen´ avat r˚ uzn´ ymi zp˚ usoby. Asi nejjednoduˇ sˇ s´ı postup spoˇ c´ıv´ a ve vyuˇ zit´ı funkc´ı c() nebo scan(). Nebo vyuˇ z´ıt vestavˇ en´ y datov´ y editor pomoc´ı funkce edit(data.frame()). Import data bude zm´ınˇ en n´ asledovnˇ e. x<-c(1,2,3,4,8,12,3,4,6) x [1] 1 2 3 4 8 12 3 4 6
nebo x<-scan() 1: 1 2 3 4 8 12 3 4 6 10: Read 9 items x [1] 1 2 3 4 8 12 3 4 6
c Rost 2007 °
Pozn´ amka k syntaxi Vektor pozorov´ an´ı vytvoˇ r´ıme v R velmi snadno. Slouˇ z´ı k tomu funkce c(). Napˇ r´ıklad, uvaˇ zujme n´ asleduj´ıc´ı ceny v Kˇ c: 220, 0; 213, 0; 236, 0; 250, 0; 267.5; 356 ceny <- c(220, 213, 236, 250, 267.5, 356) ceny [1] 220.0 213.0 236.0 250.0 267.5 356.0
c Rost 2007 °
Naˇ c´ıt´ an´ı dat R um´ı ˇ c´ıst:
• Textov´ e soubory
• webov´ e str´ anky
• datab´ aze
• datov´ e soubory z SPSS, SAS,S-plus, Stata,MS Excel
Detaily jsou uvedeny v manu´ alu Data Import/Export na str´ ank´ ach http://www.r-project.org. c Rost 2007 °
Naˇ cten´ı dat z textov´ eho souboru Nejjednoduˇ sˇ s´ı form´ at obsahuje v prvn´ım ˇ r´ adku jm´ ena promˇ enn´ ych a hodnoty oddˇ elen´ e mezerou: case id gender deg yrdeg field startyr year rank 1 1 F Other 92 Other 95 95 Assist 0 2 2 M Other 91 Other 94 94 Assist 0 3 2 M Other 91 Other 94 95 Assist 0 4 4 M PhD 96 Other 95 95 Assist 0
admin
V R m˚ uˇ zeme pouˇ z´ıt k naˇ cten´ı jednoduch´ y pˇ r´ıkaz salary <- read.table("salary.txt", header=TRUE)
c Rost 2007 °
Pozn´ amky k syntaxi jazyka R
• Mezery v pˇ r´ıkazech nemaj´ı v´ yznam (mimo ˇ citelnost), ale rozliˇ suj´ı se mal´ a a velk´ a p´ısmena.
• TRUE a FALSE jsou logick´ ymi konstantami.
• Narozd´ıl od jin´ ych syst´ em˚ u programovac´ı prostˇ red´ı R nerozliˇ suje mezi pˇ r´ıkazy kter´ e ”nˇ eco dˇ elaj´ı” a pˇ r´ıkazy kter´ e poˇ c´ıtaj´ı nˇ ejakou hodnotu. Vˇ se je v prostˇ red´ı R funkc´ı, tj. v´ ysledkem je hodnota. salary <- read.table("salary.txt", header=TRUE) c Rost 2007 °
Pozn´ amky k syntaxi jazyka R • Argumenty funkc´ı mohou b´ yt pojmenovan´ e napˇ r. (header=TRUE) nebo nepojmenovan´ e ("salary.txt")
• cel´ a matice dat (v prostˇ red´ı R oznaˇ covan´ a jako data frame) a obrovskou v´ yhodu je uloˇ zen´ a do promˇ enn´ e salary. To m´ nebot’ m˚ uˇ zete pracovat s mnoha r˚ uzn´ ymi datov´ ymi soubory souˇ casnˇ e.
c Rost 2007 °
Naˇ c´ıt´ an´ı datov´ ych soubor˚ u Nˇ ekdy se m˚ uˇ zete setkat s t´ım, ˇ ze data m´ ate ve sloupc´ıch kter´ e jsou oddˇ eleny ˇ c´ arkou nebo tabel´ atorem. Napˇ r´ıklad takto: Ozone,Solar.R,Wind,Temp,Month,Day 41,190,7.4,67,5,1 36,118,8,72,5,2 12,149,12.6,74,5,3 18,313,11.5,62,5,4 NA,NA,14.3,56,5,5
V takov´ em pˇ r´ıpadˇ e lze data naˇ c´ıst do R n´ asleduj´ıc´ım pˇ r´ıkazem: ozone <- read.table("ozone.csv", header=TRUE, sep=",")
nebo ozone <- read.csv("ozone.csv")
c Rost 2007 °
Pozn´ amky k syntaxi
• Funkce maj´ı nepovinn´ e argumenty. Napˇ r. argument sep nebyl pouˇ zit v prvn´ım pˇ r´ıpadˇ e. Abychom zjistili o funkci read.table v´ıce, staˇ c´ı vyvolat n´ apovˇ edu ?read.table nebo help(read.table)
• Je v´ıce zp˚ usob˚ u jak z´ıskat n´ apovˇ edu.
• NA pˇ redstavuje chybˇ ej´ıc´ı hodnotu (”Not available”)
Pod´ıvejte se na funkci is.na() c Rost 2007 °
Nˇ ekdy se m˚ uˇ ze st´ at, ˇ ze data nemaj´ı n´ azvy promˇ enn´ ych: 1 2 3 4 5
0.2 0.7 0.2 0.2 0.2
115 193 58 5.1 8.5
90 90 90 80 90
1 3 1 2 1
3 1 3 3 2
a mi je potˇ rebujeme pojmenovat, pak staˇ c´ı: data <- read.table("psa.txt", col.names=c("cislo","X1", "X2", "X3","X4","X5"))
nebo data<- read.table("psa.txt") names(data) <- c("cislo","X1","X2", "X3","X4","X5")
c Rost 2007 °
Import dat z jin´ ych statistick´ ych program˚ u K importu je nutno vyuˇ z´ıt specifickou knihovnu s n´ azvem foreign
c Rost 2007 °
Import dat z Excelu V pˇ r´ıpadˇ e, ˇ ze hodl´ ame importovat data, napˇ r. z Excelu, lze vyuˇ z´ıt nˇ ekolika moˇ znost´ı.
• Asi nejjednoduˇ sˇ s´ı cestou je exportovat data z Excelu prostˇ rednictv´ım jeho nab´ıdky/ Postup je n´ asleduj´ıc´ı: Soubor – Uloˇ zit jako:mojedata Typ souboru: CSV (oddˇ elen´ y stˇ redn´ ıkem) Enter. Ve vaˇ sem pracovn´ım adres´ aˇ ri se objev´ı soubor mojedata.csv. Pak pokraˇ cujeme jiˇ z v R a nap´ıˇ seme: mojedata<-read.csv("mojedata.csv", header=TRUE, dec=",",sep=";") c Rost 2007 °
Import dat z Excelu • Druh´ a moˇ znost spoˇ c´ıv´ a ve vloˇ zen´ı kop´ırovan´ ych dat do schr´ anky a pak pouˇ zit´ı pˇ r´ıkazu: mojedata<-read.table(file("clipboard"),sep="\t",dec=",")
c Rost 2007 °
Export dat do Excelu Sv´ a data m˚ uˇ zeme tak´ e exportovat do Excelu. Pˇ redpokl´ adejme, ˇ ze hodl´ ame vytvoˇ rit n´ ahodn´ e poˇ rad´ı, ve kter´ em provedeme mˇ eˇ ren´ı. V´ ysledn´ e poˇ rad´ı uloˇ z´ım v R do objektu cislapokusu a vyexportuji do Excelu. Soubor obsahuj´ıc´ı vytvoˇ ren´ e poˇ rad´ı bude pojmenov´ an jako poradi.xls. cislapokusu<-sample(1:50,50,replace=F) write.table(cislapokusu,"poradi.xls",sep="\t",na="",row.names=F)
c Rost 2007 °
Import dat z webu Soubory obsahuj´ıc´ı data mohou, a dost ˇ casto jsou pˇ r´ıstupn´ e z webu. Napˇ r´ıklad data k n´ asleduj´ıc´ımu cviˇ cen´ı m˚ uˇ zete do R importovat n´ asleduj´ıc´ım postupem. porody<-read.table("http://www2.ef.jcu.cz/~rost/Alldata/porod2.txt", header=TRUE)
c Rost 2007 °
Vlastn´ı funkce - programov´ an´ı V prostˇ red´ı R je moˇ zn´ e velmi snadno tvoˇ rit vlastn´ı funkce. Z´ akladem je pˇ r´ıkaz: moje.funkce<-function(argumemty.moj´ ı.funkce,...){ vlastni.tˇ elo.moji.funkce }
Trivi´ aln´ı pˇ r´ıklad v´ ypoˇ ctu kovarianˇ cn´ı matice S: moje.S<-function(X){ xbar<-apply(X,2,mean) n<-dim(X)[1] mat<-t(X)%*%X - n*(xbar%*%t(xbar)) (1/(n-1))*mat }
To sam´ e lze z´ıskat jednoduˇ se pomoc´ı pˇ r´ıkazu cov().
c Rost 2007 °
Nˇ ekolik ´ uvodn´ıch pozn´ amek ke statistick´ e anal´ yze dat
c Rost 2007 °
Co je vlastnˇ e c´ılem statistick´ e anal´ yzy dat? C´ılem statistick´ eho zpracov´ an´ı dat je pod´ an´ı informace o vlastnostech, povaze a z´ akonitostech projevuj´ıc´ıch se na pozorovan´ ych datech. Statistika zahrnuje z´ısk´ av´ an´ı, anal´ yzu a objektivn´ı interpretaci z´ıskan´ ych dat. Tj. zaˇ c´ın´ a jiˇ z pˇ red samotn´ ym proveden´ım experimentu!
c Rost 2007 °
Nˇ ekolik doporuˇ cen´ı:
• Definujte sv˚ uj probl´ em, kter´ y hodl´ ate ˇ reˇ sit (a to co moˇ zn´ a nejjednoduˇ seji) a vytvoˇ rte si sv´ e pracovn´ı hypot´ ezy.
• Urˇ cete co budete mˇ eˇ rit a jak to budete mˇ eˇ rit.
• Vˇ enujte dostateˇ cnou pˇ r´ıpravu vaˇ semu experimentu. Je d˚ uleˇ zit´ a.
• Randomizujte, tj. zn´ ahodˇ nujte. M˚ uˇ zete se tak vyhnout systematick´ ym chyb´ am (napˇ r´ıklad pˇ ri odeˇ c´ıt´ an´ı hodnot z pˇ r´ıstroje).
c Rost 2007 °
Nˇ ekolik doporuˇ cen´ı: • Pˇ ri anal´ yze dat je nutno rozliˇ sovat s jak´ ymi typy dat pracujeme. Mˇ ejte na pamˇ eti, ˇ ze ne vˇ sechny metody jsou vhodn´ e pro vˇ sechny typy dat.
• Pokud vyuˇ z´ıv´ ate deskriptivn´ı statistiky k popisu analyzovan´ eho souboru, uvˇ edomte si, ˇ ze aritmetick´ y pr˚ umˇ er nemus´ı b´ yt vˇ zdy ”tou pravou” charakteristikou polohy. Ud´ avejte i dalˇ s´ı statistiky.
• Vizualizujte! Pokud to jde, pouˇ z´ıvejte spolu s ˇ c´ısly i grafickou reprezentaci, m˚ uˇ ze pomoci (pouˇ z´ıvejte vˇ sak vhodn´ e grafick´ e vyj´ adˇ ren´ı).
c Rost 2007 °
Nˇ ekolik doporuˇ cen´ı: • Uvˇ edomte si, ˇ ze pokud prov´ ad´ıte form´ aln´ı anal´ yzu ˇ ci statistick´ e testov´ an´ı pˇ ri kter´ em vyuˇ z´ıv´ ate p-value, vych´ az´ıte z´ aroveˇ n z jist´ ych pˇ redpoklad˚ u. Ty vˇ sak nemus´ı b´ yt splnˇ eny.
• Stupeˇ n validity z´ıskan´ eho p-value z´ aleˇ z´ı na tom jakou shodu vykazuj´ı naˇ se data s teoretick´ ymi rozdˇ elen´ımi.
• Proto kaˇ zdop´ adnˇ e ovˇ eˇ rujte pˇ redpoklady vaˇ sich model˚ u !
• Myslete!
c Rost 2007 °
Statistick´ e zhodnocen´ı ve 3 ´ urovn´ıch V pr˚ ubˇ ehu statistick´ e anal´ yzy dat postupujte v nˇ ekolika ´ urovn´ıch:
♣ Explorativn´ı ´ uroveˇ n (EDA). Popisn´ e statistiky a grafick´ e zhodnocen´ı.
♣ Form´ aln´ı statistick´ y pˇ r´ıstup. Testy a testov´ an´ı hypot´ ez ˇ ci r˚ uzn´ e statistick´ e metody.
♣ Diagnostika. Zhodnocen´ı, zda byly dodrˇ zeny pˇ redpoklady pro pouˇ zit´ı pouˇ zit´ ych metod. Pˇ r´ıpadnˇ e r˚ uzn´ a n´ apravn´ a opatˇ ren´ı.
c Rost 2007 °
Jak udˇ elat to z´ akladn´ı v R
c Rost 2007 °
Hodnoty F (x) = P(X ≤ x) a hodnoty uα; tα(n); χ2 α(n); Fα(n1; n2); . . . Hodnoty distribuˇ cn´ıch funkc´ı: pro pˇ r´ıpad, ˇ ze x = 2; m = 18, n = 20 F (x) pokud X ∼ N(0; 1) F (x) pokud X ∼ t(n) F (x) pokud X ∼ χ2(m) F (x) pokud X ∼ F (m, n) Kvantily nejˇ castˇ eji pouˇ z´ıvan´ ych rozdˇ elen´ı spojit´ ych n´ ahodn´ ych veliˇ cin: pro pˇ r´ıpad, ˇ ze α = 0, 05, m = 18, n = 20 z1−α t1− α2 (n−1) χ2α (n) F1−α(m − 1, n − 1)
pnorm(2,0,1) pt(2,20) pchisq(2,20) pf(2,18,20)
qnorm(0.95,0,1) qt(0.975,19) qchisq(0.05,20) qf(0.95,17,19)
c Rost 2007 °
Testov´ an´ı hypot´ ez (tˇ ech z´ akladn´ıch . . .)
Student˚ uv t-test(jeden v´ ybˇ er) HA : µ 6= µ0 = 140 HA : µ < µ0 = 140 HA : µ > µ0 = 140
t.test(x,mu=140) t.test(x,mu=140,alternative="less") t.test(x,mu=140,alternative="greater")
Test na shodu dvou rozptyl˚ u 2 2 HA : σA 6= σB
var.test(A,B)
Student˚ uv t-test(dva v´ ybˇ ery) HA : µA 6= µB H A : µA < µ B H A : µA > µ B
t.test(A,B) t.test(A,B,alternative="less") t.test(A,B,alternative="greater")
c Rost 2007 °
Dˇ ekuji za pozornost.
c Rost 2007 °