Norm´alis eloszl´as Grafikonok az R-ben
2012. m´arcius 7.
Vend´egel˝oad´as m´odos´ıtott ´es v´egleges id˝ opontja 2012. ´aprilis 10., 3 ´ora.
´ k¨onyv a tank¨onyvt´arban! Dalgaard, Peter (2008). Introductory Uj statistics with R. F˝oleg az 1.2 (R language essentials) fejezetet ´erdemes megn´ezni, nagyon j´ o ´es szisztematikus le´ır´as az R alapvet˝o m˝ uk¨od´es´er˝ol.
Korrel´aci´os egy¨utthat´ok: Kendall-f´ele τ (tau) Ordin´alis adatok m´er˝osz´ama, −1 ´es +1 k¨ oz¨ otti tartom´anyra esik. I
El˝ony: kis elemsz´am eset´en megb´ızhat´ obb, mint ρ.
I
H´atr´any: n´egyzete nem foghat´ o fel a determin´aci´os egy¨ utthat´ok´ent (l´asd ρ ´es r ).
Elj´ar´as: elemek sorrendj´enek j´ os´aga”, osztva a lehets´eges p´arok ” sz´am´aval. Proverzi´ o (P): y vektor elemeinek sz´ama, amelyek a v´art sorrendbe illeszkednek. Inverzi´ o (I): a v´art sorrendt˝ ol val´ o elt´er´es. K´et halmaz: a = [1, 2, 3, 4], b = [2, 1, 3, 4] proverzi´ok ´es inverzi´ok sz´ama: Pb1 = 2, Ib1 = 1, Pb2 = 2, Pb3 = 1
τ=
P−I n(n−1) 2
=
5−1 6
= 0, 66666666667
Norm´alis eloszl´as
A statisztikai tesztek el˝ ofelt´etele t¨ obbnyire unimod´alis eloszl´as (csak egy m´odusz). Parametrikus tesztek el˝ ofelt´etele gyakran norm´alis eloszl´as. I
Folytonos v´altoz´ok,
I
m´odusz kb. az eloszl´as k¨ ozep´en tal´alhat´ o, megegyezik a medi´annal ´es az ´atlaggal,
I
onnan mindk´et ir´anyban szimmetrikus cs¨ okken´es,
I
megk¨ozel´ıt˝oleg harang form´aj´ u (Gauß-g¨ orbe).
I
aszimptotikus (0-hoz k¨ ozel´ıt).
Norm´alis eloszl´as (N) F¨ ugg n-t˝ol – az elemsz´amt´ ol, ´es k-t´ ol – az oszt´alyok/kateg´ori´ak sz´am´at´ol. Itt: n = 100, 1000, 10000. rnorm(1000,0,1)
rnorm(10000,0,1)
−2
−1
0
1
N = 100 Bandwidth = 0.2888
2
3
0
0
0
5
50
500
10
100
1000
15
20
150
1500
25
200
2000
rnorm(100,0,1)
−3
−2
−1
0
1
N = 1000 Bandwidth = 0.224
2
3
−4
−2
0
2
N = 10000 Bandwidth = 0.1428
a = rnorm(100,0,1): 100 random sz´am h´ uz´asa norm´alis eloszl´asb´ol, x¯ = 0 ´atlaggal, s = 1 sz´ or´assal. hist(a): hisztogramm. plot(density(a)): s˝ ur˝ us´egf¨ uggv´eny.
4
N param´eterei µ: popul´aci´o felt´etelezett ´atlaga. σ: popul´aci´o felt´etelezett sz´ or´asa. x¯: minta ´atlaga. s: minta sz´or´asa. minta ´ atlaga: n P
x¯ =
x1 +x2 +x3 +···+xn n
=
i=1
n
xi
N param´eterei µ: popul´aci´o felt´etelezett ´atlaga. σ: popul´aci´o felt´etelezett sz´ or´asa. x¯: minta ´atlaga. s: minta sz´or´asa. minta ´ atlaga: n P
x¯ =
x1 +x2 +x3 +···+xn n
=
i=1
minta varianci´ aja: n P
s2 =
(xi −¯ x )2
i=1
n−1
n
xi
N param´eterei µ: popul´aci´o felt´etelezett ´atlaga. σ: popul´aci´o felt´etelezett sz´ or´asa. x¯: minta ´atlaga. s: minta sz´or´asa. minta ´ atlaga: n P
x¯ =
x1 +x2 +x3 +···+xn n
=
i=1
minta varianci´ aja: n P
s2 =
(xi −¯ x )2
i=1
n−1
minta sz´ or´ asa: s n P
s=
(xi −¯ x )2
i=1
n−1
n
xi
Norm´alis eloszl´as jelent˝os´ege
Felt´etelez´es: egy adott popul´aci´ ohoz tartoz´ o, n sz´am´ u minta ¯ a popul´aci´o µ ´atlaga k¨ ´atlagai X or¨ ul σ sz´ or´assal norm´alis eloszl´ast √ mutatnak. Ezek eloszl´asa N(µ, σ/ n), ahol a sz´or´as megegyezik a standard hib´aval: se =
√s n
z-transzform´aci´o
Sz´or´as f¨ ugg az elemsz´amt´ ol ´es az ´atlagt´ ol ⇒ elt´er˝o ´atlagok eloszl´asa nem ¨osszehasonl´ıthat´ o. Megold´as: standardiz´al´as z-´ert´ekre. Minden egyes elemre: zi =
xi −µ σ
azaz minden egyes elem m´er˝ osz´am´at kivonjuk a popul´aci´o (itt: minta) ´atlag´ab´ol, ´es elosztjuk a popul´aci´ o sz´ or´as´aval (teh´at a nevez˝oben itt n van, ´es nem n − 1).
Ez az elj´ar´as a z-transzform´aci´ o.
Standard norm´alis eloszl´as
Norm´alis eloszl´as jellemz˝ oi: N(µ, σ). ´atlag: xi = µ = x¯ z-transzform´aci´o: zi =
µ−µ σ
=0
sz´or´as: σ = µ + σ zi =
(µ+σ)−µ σ
=1
standard norm´alis eloszl´as jellemz´ese: N(0, 1)
Standard norm´alis eloszl´as s˝ ur˝ us´egf¨ uggv´eny: x-tengely: egys´egnyi sz´ or´as, tartom´any: σ = −∞ · · · + ∞.
0.2 0.1 0.0
Density
0.3
0.4
density.default(x = a)
−4
−2
0 egység: szórás
2
4
F¨uggv´eny jellemz˝oi
I
az x-tengely ´es az eloszl´asf¨ uggv´eny ´altal bez´art ter¨ ulet ¨osszege = 1.
I
Az esetek 50%-a az ´atlagt´ ol balra helyezkedik el.
I
σ = −1 · · · + 1 k¨oz¨ otti tartom´any az esetek 68,27%-´at tartalmazza.
I
σ = −2 · · · + 2 k¨oz¨ otti tartom´any az esetek 95,45%-´at tartalmazza.
I
σ = −3 · · · + 3 k¨oz¨ otti tartom´any az esetek 99,73%-´at tartalmazza.
Standard norm´alis eloszl´as
Intervallum
Mely hat´ar´ert´ekek k¨oz´e esik a kapott ´atlagok adott ar´anya, pl. 90%a? avagy Milyen ´atlagok esnek legal´abb 90%-os val´ osz´ın˝ us´eggel az adott popul´aci´oba? Elj´ar´as: standard norm´alis eloszl´as f¨ uggv´eny´enek 90%-´at lefed˝o ´ ekek szimmetrikus eloszl´as hat´ar´ert´ekeinek meg´allap´ıt´asa. Ert´ hagyom´anyosan megtal´alhat´ oak a f¨ uggv´enyt´abl´azatban.
R
R keres´esi u´tvonalai
Ha egy csomagot egy adott k¨ onyvt´arba akarunk telep´ıteni: install.packages("package-to-install","target.library") Be´all´ıtott keres´esi u ´tvonalak lek´erdez´ese: .libPaths()
H´azi feladat languageR k¨onyvt´ar ratings objektuma. names(ratings): v´altoz´ ok (oszlopok) neve. Hipot´ezis: A r¨ovidebb ´allat- ´es n¨ ov´enynevek gyakoribbak.
H´azi feladat languageR k¨onyvt´ar ratings objektuma. names(ratings): v´altoz´ ok (oszlopok) neve. Hipot´ezis: A r¨ovidebb ´allat- ´es n¨ ov´enynevek gyakoribbak. ´ azol´as: Abr´ plot(ratings$Length,ratings$Frequency) els˝o ´ert´ek: x-tengely, m´asodik ´ert´ek: y-tengely.
H´azi feladat languageR k¨onyvt´ar ratings objektuma. names(ratings): v´altoz´ ok (oszlopok) neve. Hipot´ezis: A r¨ovidebb ´allat- ´es n¨ ov´enynevek gyakoribbak. ´ azol´as: Abr´ plot(ratings$Length,ratings$Frequency) els˝o ´ert´ek: x-tengely, m´asodik ´ert´ek: y-tengely. Korrel´aci´os egy¨ utthat´ok: cor.test(ratings$Length,ratings$Frequency,method="pearson" alternat´ıv . . . method="spearman", method="kendall" r = −0.4281462 ρ = −0.4311981 τ = −0.316297
Grafikus param´eterek Rengeteg param´eteren lehet ´all´ıtani. Hogyan lehet ezekr˝ol tudni? I
grafikus parancs opcion´alis argumentumai. Lek´erdez´es: ?boxplot, ?plot, ?barplot stb.
I
parancsok s´ ug´oja gyakran utal tov´abbi hasznos parancsokra, pl. line(),title(),abline() stb.
I
par(): rengeteg param´eter, pl. tengelyek feliratoz´asa (felirat m´erete, elhelyez´ese, egys´egek m´erete), tengelyek ar´anya stb.
Els˝o l´ep´es s´ ug´o. Fel´ep´ıt´es: (1) k¨ otelez˝ o ´es opcion´alis argumentumok list´aja, (2) argumentumok r¨ ovid magyar´azata, (3) r´eszletek: t¨obbnyire innen der¨ ul ki a relev´ans inf´ o, ha m´eg nem ismerj¨ uk a parancsot, gyakran hivatkoz´asok is, (4) l´asd m´eg hasznos, esetenk´ent hasznosabb, tov´abbi parancsok, (5) p´eld´ak ezek ´altal´aban t´ ul bonyolultak, ez´ert nem t´ ul hasznosak.
N´eh´any hasznos param´eter ´ aban alkalmazhat´ Altal´ ok grafikus parancs argumentumak´ent: plot(x,y,xlim=c(0,length(x)),ylim=c(0,1),main="els} o ´ abr´ am 2012-ben",xlab="ez az x-tengely",ylab="ez az y-tengely",col=2,cex.main=1.7,cex.axis=1.3,cex.lab=1.3) I I
xlab=, ylab=: ”x-tengely felirata”, ”y-tengely felirata”. ´ main= ”Abra c´ıme”.
I
´ azolt ´ert´ekek t´ xlim, ylim: Abr´ ol-ig. F˝ oleg y-tengelyn´el fontos, ha ¨osszehasonl´ıthat´ o ´abr´akat akarunk. Pl sz´azal´ekos ´abr´azol´asn´al ylim = c(0,100), azaz 0–100%-ig. Egyenl˝os´egjel el˝otti sz´ ok¨ oz opcion´alis.
I
col: sz´ınek, vagy n´evvel, vagy sz´ammal. Pl. col=2 ´es col="red" azonosak.
I
cex: cex.main,cex.axis,cex.names,cex.lab stb. Default: cex=1, ehhez k´epest c´ım, m´er˝ osz´amok, c´ımk´ek bet˝ um´erete nagyobb (1.3, 1.7) vagy kisebb (0.7).
´ Abra ment´ese
Alapeset: ment´es pdf-k´ent vagy postscript f´ajl´ek´ent. pdf: LaTeX-felhaszn´al´ oknak hasznos, ha pdflatex-et haszn´alnak. eps: Word-ben ´es LaTeX-ben egyar´ant haszn´alhat´ o. dev.print("c´ elf´ ajl",device=pdf|postscript) postscript f´ajlok alap´ertelmez´ese: fektetett, horizontal=T ⇒ ment´es: horizontal=F vagy dev.copy2eps(). Ha nem adunk meg el´er´esi u ´tvonalat: ment´es aktu´alis k¨onyvt´arba (getwd() paranccsal megtudhat´ o).
Boxplotok ´ azol´as m´odja: y-tengely: f¨ Abr´ ugg˝ o v´altoz´ o interkvartilis eloszl´asa, x-tengely: csoportok, esetleg tov´abbi tagol´assal. boxplot(f¨ ugg¨ ov´ altoz´ o∼f¨ uggetlenv´ altoz´ o) Ha tov´abbi csoportos´ıt´as: boxplot(f¨ ugg¨ ov´ altoz´ o∼csoport*f¨ uggetlenv´ altoz´ o) P´eld´aul: boxplot(ratings$Frequency∼ratings$Class*ratings$Complex) Egyszer˝ u ´es ¨osszetett ´allat- ´es n¨ ov´enynevek gyakoris´aga. hasznos param´eterek boxplot() argumentumak´ent: col=c("red","blue") names=c("´ allat","n¨ ov´ eny") ha ism´etl˝odie kell: names=rep(c("´ allat","n¨ ov´ eny"),2) rep() ism´etl´es(mit,h´anyszor).
Feladatok
1. feladat: ratings f´ajlban tal´alhat´ o adatok alapj´an tetsz˝oleges pontdiagramm k´esz´ıt´ese ´es ment´ese. ratings f´ajlban szerepl˝ o adatok alapj´an tetsz˝ oleges pontdiagramm k´esz´ıt´ese ´es ment´ese. 2. feladat: ratings f´ajlban tal´alhat´ o adatok alapj´an tetsz˝oleges boxplot k´esz´ıt´ese. C´el´abra: c´ım, angol vagy magyar nyelv˝ u tengelyfelirat.