Val´osz´ın˝us´eg, pontbecsl´es, konfidencia-intervallum Logikai vektorok az R-ben
2012. m´arcius 14.
Norm´alis eloszl´as tesztje
Kolmogorov-Szmirnov vagy Wilk-Shapiro pr´ oba. R-funkci´o: shapiro.test(vektor) jobbra ferde eloszlás
balra ferde 1/x
0.008
0.010
0.012
0.014
0.016
0.018
0.02
Density
0
0.00
2
0.01
Density
4
200 100 0
Density
6
300
0.03
8
400
0.04
balra ferde eloszlás
1.8
1.9
2.0
2.1
60
80
100
120
140
Transzform´aci´ok
Unimod´alis, jobbra vagy balra ferde eloszl´asok gyakran ´atalak´ıthat´oak norm´alis eloszl´as´ uv´a. Szok´asos elj´ar´asok: I
x = log (x)
I I
x = 1/x √ x= x
I
...
Val´osz´ın˝us´eg a mindennapokban
K¨ oznyelvi jelent´ es: tapasztalat alap´ u becsl´es (n megfigyelt esetb˝ol h´anyszor t¨ort´ent meg egy adott esem´eny). Pl. val´osz´ın˝ uleg mindj´art elered az es˝ o” (mert ha ilyen bor´ us az ´eg, ” gyakran esik), val´osz´ın˝ uleg id´en sem lesz fizet´esemel´es” (mert t´ız ” ´eve nem volt). A val´osz´ın˝ us´eg soha nem jelent biztos tud´ast! N´eha m´egsem esik, ha bor´ us az ´eg, ´es n´eha m´egis van fizet´esemel´es. Intuit´ıv becsl´esnek kev´es fokozata van: nem t´ ul val´osz´ın˝ u, el´eg val´osz´ın˝ u, nagyon val´osz´ın˝ u, t¨ obb mint val´ osz´ın˝ u.
Val´osz´ın˝us´eg a szerencsej´at´ekban
Fej vagy ´ır´as egy ´erme feldob´asakor? Megfigyel´es: 10 dob´as, 20, 30 . . . Fejek sz´ama mindig jobban k¨ ozel´ıti a 0,5-¨ os ´ert´eket. Empirikus val´osz´ın˝ us´eg P defin´ıci´ oja: P = fej/¨osszes dob´as ahol a dob´asok sz´ama a v´egtelenhez k¨ ozel´ıt. ⇒ val´osz´ın˝ us´eg ´ert´eke mindig 0 (egy´altal´an nem val´osz´ın˝ u) ´es 1 (biztos) k¨oz¨ott mozog.
P´eld´ak
I
adott sz´am dob´asa kock´aval (adott sz´am/¨ osszes sz´am = 1/6),
P´eld´ak
I
adott sz´am dob´asa kock´aval (adott sz´am/¨ osszes sz´am = 1/6),
I
´asz h´ uz´asa egy k´artyapaklib´ ol (´aszok sz´ama/¨ osszes k´artya = 4/32),
P´eld´ak
I
adott sz´am dob´asa kock´aval (adott sz´am/¨ osszes sz´am = 1/6),
I
´asz h´ uz´asa egy k´artyapaklib´ ol (´aszok sz´ama/¨ osszes k´artya = 4/32),
I
egy v´eletlenszer˝ uen kiv´alasztott magyar ´allampolg´ar felekezeti hovatartoz´asa (ha ¨ osszes megk´erdezett k¨ oz¨ otti ar´any: katolikus 51 %, reform´atus 16 %, evang´elikus 3%, nem vall´asos 14,5% stb.),
P´eld´ak
I
adott sz´am dob´asa kock´aval (adott sz´am/¨ osszes sz´am = 1/6),
I
´asz h´ uz´asa egy k´artyapaklib´ ol (´aszok sz´ama/¨ osszes k´artya = 4/32),
I
egy v´eletlenszer˝ uen kiv´alasztott magyar ´allampolg´ar felekezeti hovatartoz´asa (ha ¨ osszes megk´erdezett k¨ oz¨ otti ar´any: katolikus 51 %, reform´atus 16 %, evang´elikus 3%, nem vall´asos 14,5% stb.),
I
k´etszer egym´as ut´an fej dob´asa: fej+fej/(fej+fej)+(fej+´ır´as)+(´ır´as+fej)+(´ır´as+´ır´as) = 1/4),
P´eld´ak
I
adott sz´am dob´asa kock´aval (adott sz´am/¨ osszes sz´am = 1/6),
I
´asz h´ uz´asa egy k´artyapaklib´ ol (´aszok sz´ama/¨ osszes k´artya = 4/32),
I
egy v´eletlenszer˝ uen kiv´alasztott magyar ´allampolg´ar felekezeti hovatartoz´asa (ha ¨ osszes megk´erdezett k¨ oz¨ otti ar´any: katolikus 51 %, reform´atus 16 %, evang´elikus 3%, nem vall´asos 14,5% stb.),
I
k´etszer egym´as ut´an fej dob´asa: fej+fej/(fej+fej)+(fej+´ır´as)+(´ır´as+fej)+(´ır´as+´ır´as) = 1/4),
I
v´eletlenszer˝ uen megk´erdezett szem´ely diplom´as n˝o: diplom´asok ar´anya 22,4%, n˝ ok ar´anya 50%: 0,224*0,5.
Becsl´es
Az empirikus kutat´asok sor´an szinte mindig egy adott minta alapj´an k¨ovetkeztet¨ unk a popul´aci´ ora. DE: a minta alapj´an a popul´aci´ora csak becsl´ eseket tehet¨ unk. K¨ ul¨onb¨oz˝o mint´ak k¨ ul¨ onb¨ oz˝ o ´atlagokat eredm´enyeznek, m´eg v´eletlenszer˝ u kiv´alaszt´as eset´en is. Adott sz´am´ u minta sz´ or´asa a popul´aci´ o µ ´atlaga k¨or¨ ul: standard hiba, azaz se =
√s . n
Pontbecsl´es
V´eletlen minta ´atlaga f¨ ugg a v´eletlent˝ ol, azaz egy becs¨ ult pont. Megm´erj¨ uk egy v´eletlenszer˝ uen kiv´alasztott, 300 f˝ os, f´erfi egyetemist´ab´ol ´all´o csoport testmagass´ag´at. s = 6,3 cm A minta r´eszmint´aib´ol sz´amolt ´atlagok sz´ or´asa f¨ ugg az elemsz´amt´ ol: a t´ız f˝os mint´ak sz´ or´asa a minta ´atlaga ul √ k¨or¨ √ otven f˝ os mint´a´e se = 6, 3/ 50 = 0, 89, se = 6, 3/ 10 = 1, 99, ¨ stb. ⇒ min´el nagyobb az elemsz´am, ann´al kisebb a sz´ or´as, azaz az egyes minta´atlagok ann´al jobban k¨ ozel´ıtik a popul´aci´o ´atlag´at.
Feladat Forr´as: www.biostatkonyv.hu kieg´esz´ıt˝o anyag > R k´ odok let¨ olt´ese biostat-R.zip Testmagass´ag adatai minta.txt nev˝ u f´ajlban. ´atlag: mean(minta) sz´or´as: sd(minta) gy¨ok: sqrt(x) Hogyan sz´amoljuk ki az els˝ o t´ız f˝ o testmagass´ag´anak ´atlag´at?
Feladat Forr´as: www.biostatkonyv.hu kieg´esz´ıt˝o anyag > R k´ odok let¨ olt´ese biostat-R.zip Testmagass´ag adatai minta.txt nev˝ u f´ajlban. ´atlag: mean(minta) sz´or´as: sd(minta) gy¨ok: sqrt(x) Hogyan sz´amoljuk ki az els˝ o t´ız f˝ o testmagass´ag´anak ´atlag´at? mean(minta$height[1:10]) Minta standard hib´aja?
Feladat Forr´as: www.biostatkonyv.hu kieg´esz´ıt˝o anyag > R k´ odok let¨ olt´ese biostat-R.zip Testmagass´ag adatai minta.txt nev˝ u f´ajlban. ´atlag: mean(minta) sz´or´as: sd(minta) gy¨ok: sqrt(x) Hogyan sz´amoljuk ki az els˝ o t´ız f˝ o testmagass´ag´anak ´atlag´at? mean(minta$height[1:10]) Minta standard hib´aja? sd(minta)/sqrt(300) 0,36
Konfidencia-intervallum
K´erd´es: igaz-e, hogy a v´eletlen minta ´atlaga beleesik az ismeretlen popul´aci´o-´atlag k¨or¨ ul sz´ or´ od´ o minta´atlagokba? Neh´ezs´eg: µ-t nem ismerj¨ uk, csak x¯-et. ⇒ d¨ont´es nem lehets´eges, csak egy adott val´ osz´ın˝ us´egi hat´aron, azaz konfidencia-intervallumon bel¨ uli val´ osz´ın˝ us´eg meg´allap´ıt´asa. K´erd´es: igaz-e, hogy x¯ 95%-os val´ osz´ın˝ us´eggel beleesik a µ k¨or¨ ul standard hib´aval sz´or´od´ o minta´atlagok tartom´any´aba? Konfidenciaszint ebben az esetben: p = 0, 95.
Kiindul´as
I I
I
V´eletlenszer˝ u mint´ak ´atlagai norm´alis eloszl´as´ uak. √ ´ Atlagok 95%-a ± 1,96*sz´ or´as (s), itt s/ n, azaz 1,96*standard hiba (se). Keresett µ a popul´aci´ o eloszl´as´anak k¨ oz´eppontja (szimmetria felt´etelez´ese miatt).
teh´at: p(−1, 96 ∗ se + µ < x¯ < µ + 1, 96 ∗ se) = 0, 95 C´el: a 95%-os konfidencia-intervallumon bel¨ uli hat´ar´ert´ekek meghat´aroz´asa negat´ıv ´es pozit´ıv ir´anyban.
Konfidencia-intervallum x¯ alapj´an p(−1, 96 ∗ se + µ < x¯ < µ + 1, 96 ∗ se) = 0, 95 −µ p(−1, 96 ∗ se < x¯ − µ < 1, 96 ∗ se) = 0, 95 ∗+1 p(1, 96 ∗ se > µ − x¯ > −1, 96 ∗ se) = 0, 95 +¯ x p(1, 96 ∗ se + x¯ > µ > x¯ − 1, 96 ∗ se) = 0, 95 p(−1, 96 ∗ se + x¯ < µ < x¯ + 1, 96 ∗ se) = 0, 95
Konfidenciaszint Konfidencia-intervallum: ´ert´ektartom´any, amely a becs¨ ulend˝o param´etert el˝ore r¨ogz´ıtett val´ osz´ın˝ us´eggel tartalmazza. Konfidencia-intervallumon k´ıv¨ uli tartom´any: α = 1 − p.
Ha x¯ esik a 95%-os konfidencia-intervallumba, akkor is tartozhat az adott popul´aci´ohoz! T´eved´es val´ osz´ın˝ us´ege 5%, ez az u ´n. alfa-hiba.
Kiindul´asi hipot´ezis tesztel´ese Hipot´ezis ´all´ıt´asa falszifik´aci´ on kereszt¨ ul, azaz az ´all´ıt´asunk ellenhipot´ ezis´ et tesztelj¨ uk. Az empirikus vizsg´alatokban ´altal´aban abban vagyunk ´erdekeltek, hogy vizsg´alt ´ert´ek 1 − p, azaz α tartom´anyba essen. ⇒ szignifikanciaszintet α ´ert´ek´evel szok´as megadni, azaz 0,05 vagy 5%. Ha azt akarjuk bizony´ıtani, hogy egy adott minta nem tartozik az adott p konfidencia-intervallumba, akkor a mint´anak negat´ıv ´es pozit´ıv ir´anyban az α/2 tartom´anyba kell tartoznia. Teh´at egy szimmetrikus, azaz k´etoldalas tesztn´el az azonoss´ag elutas´ıt´asa 2,5%-ra teljes¨ ul.
Feladat Sz´amoljuk ki a minta R-objektum els˝ o t´ız testmagass´ag´anak ´atlag´at. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallum´aba? Els˝o t´ız elem ´atlag´anak kisz´am´ıt´asa:
Feladat Sz´amoljuk ki a minta R-objektum els˝ o t´ız testmagass´ag´anak ´atlag´at. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallum´aba? Els˝o t´ız elem ´atlag´anak kisz´am´ıt´asa: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum hat´arai?
Feladat Sz´amoljuk ki a minta R-objektum els˝ o t´ız testmagass´ag´anak ´atlag´at. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallum´aba? Els˝o t´ız elem ´atlag´anak kisz´am´ıt´asa: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum hat´arai? A r´egi sz´ep id˝okben megn´ezt¨ uk az adott α/2 tartom´anyra megadott z-´ert´eket.
Feladat Sz´amoljuk ki a minta R-objektum els˝ o t´ız testmagass´ag´anak ´atlag´at. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallum´aba? Els˝o t´ız elem ´atlag´anak kisz´am´ıt´asa: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum hat´arai? A r´egi sz´ep id˝okben megn´ezt¨ uk az adott α/2 tartom´anyra megadott z-´ert´eket. Manaps´ag let¨oltj¨ uk a gmodels nev˝ u R-csomagot, ´es lek´erdezz¨ uk a hat´arokat a ci paranccsal. ci(minta$height) Estimate CI lower CI upper Std. Error 178.0349657 177.3166967 178.7532346 0.3649871
R
H´azi feladat 1
ratings f´ajlban tal´alhat´ o adatok alapj´an tetsz˝ oleges pontdiagramm k´esz´ıt´ese ´es ment´ese. P´eld´aul: plot(ratings$Frequency,ratings$meanFamiliarity, main="frequency and familiarity",sub="r = 0.48") dev.print("R-images/ratings corr.pdf",device=pdf)
H´azi feladat 2
ratings f´ajlban tal´alhat´ o adatok alapj´an tetsz˝ oleges boxplot k´esz´ıt´ese. boxplot(ratings$meanFamiliarity∼ratings$Class, col=c(4,2),cex.axis=1.3)
Logikai vektorok
Egy adatm´atrixon egy adott v´altoz´ on bel¨ uli csoportok defini´al´asa. oper´atorok: == != %in% <, > | &
azonos nem azonos tartalmazza a vektor egy elem´et kisebb, nagyobb vagy ´es
Logikai vektorok defin´ıci´oja z = ratings$Class == ”plant” z = minta$height < 170 felt´etelt teljes´ıt˝o sorok list´az´asa: ratings[z,] o¨sszes elem felt´etelt teljes´ıt˝ o elemei vektork´ent: ratings$Class[z] Melyik elemekre igaz: which(z) ¨ Osszes el˝ofordul´as: sum(z)
Feladatok
1. A fenti pontdiagramm elk´esz´ıt´ese az ´allatokra ´es a n¨ov´enyekre elt´er˝o sz´ınnel. A tengelyhosszok legyenek azonosak (xlim=c(), ylim=c()), ´es az ¨osszes pont egy ´abr´aban legyen, ezt az els˝o ´abra ut´an k¨ ul¨on paranccsal kell megadni: par(new=T). 2. Boxplot k´esz´ıt´ese adott csoportra (csak n¨ ov´enyek, csak egyszer˝ u szavak stb.). 3. A minta adatb´azisban h´any szem´ely magass´aga t´er el az ´ 2 σ-n´al nagyobb ´atlagt´ol 1 σ-n´al nagyobb m´ert´ekben? Es m´ert´ekben?