Psihologija FF UL, 1. st., Statistično zaključevanje
25.11.2011
Verjetnost pojavljanja vzorčne statistike Če poznamo parameter v populaciji, lahko: – določimo verjetnost pojavljanja določene vrednosti vzorčne statistike.
Ocenjevanje parametrov
𝑧= Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo Študij prve stopnje Psihologija 2. semester, predmet Statistično zaključevanje Izr. prof. dr. Anja Podlesek
𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎−𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 𝑆𝐸statistike
p
– določimo interval vrednosti statistike, ki jo pričakujemo v srednjih k % vzorcev.
V obratni smeri lahko določimo verjetnost, s katero se bo pričakovana vrednost nahajala v nekem intervalu vrednosti.
Teorija vzorčenja
2
Ocenjevanje parametrov
Verjetnost vrednosti parametra • Navadno populacije (parametra) ne poznamo. • Ocenjujemo ga na osnovi statistike vzorca. • Standardna napaka = koliko napake v povprečju obstaja med vzorčno statistiko in neznanim populacijskim parametrom. SEM
– SE kot mera zanesljivosti (kaj bi bilo v drugih vzorcih) – z večanjem vzorca se SE manjša
SEM SEM 3,72
SEM
Točkovna in intervalna ocena parametra
3,75 3
Ocenjevanje parametrov
4
Točkovna ocena parametra Vzorčna statistika je ocena populacijskega parametra.
Kdaj bo prišel poštar? • Točkovna ocena: ob 10.30 (ena sama vrednost) • Intervalna ocena: med 10. in 11. uro (razpon vrednosti)
nepristranska ocena (ni ne previsoka ne prenizka, sredina vzorčne porazdelitve statistike je enaka ocenjevanemu parametru)
pristranska mere razpršenosti SD 2
Na vzorcu najdemo M = 100. • Točkovna ocena m: m = 100 • Intervalna ocena m: 80 < m < 120
vse mere centralne tendence proporci korelacijski koeficienti 5
X X
2
N
X X
2
σ'2
N 1
(toda pri majhnih vzorcih E(s‘) ni enaka populacijski s, ampak je od nje manjša 6
1
Psihologija FF UL, 1. st., Statistično zaključevanje
25.11.2011
Intervalna ocena parametra
Intervalna ocena parametra
Ponavljajoče se vzorčenje iz iste populacije ne bo dajalo stalno istih vrednosti.
Z različnimi vzorci bi bila ocena parametra različna.
Razpon vrednosti + stopnja zaupanja (v %), da se bo parameter nahajal znotraj mej razpona. 7
8
Intervalna ocena parametra pri velikih vzorcih
Intervalna ocena parametra Interval zaupanja (IZ) je interval vrednosti spremenljivke, v katerem se parameter nahaja z določeno verjetnostjo. “S 95 % verjetnostjo se bo populacijska srednja vrednost nahajala v intervalu 3,75 +/- 0,50.”
Kako določimo interval zaupanja? 1. določimo točkovno oceno parametra, 2. konstruiramo predvideno vzorčno porazdelitev, 3. točkovni oceni prištejemo in od nje odštejemo določeno vrednost; tako dobimo spodnjo in zgornjo mejo intervala zaupanja.
Spodnja meja G
Točkovna ocena G
Zgornja meja G
9
10
Intervalna ocena aritmetične sredine pri velikih vzorcih Intervalno ocenjevanje M pri velikih vzorcih
μ zp SEM
SEG
Gpop
SEM
m
Gvz
vzorčna porazdelitev G je normalna
Gvz Gpop
p=/2
interval zaupanja za G (npr. 90-odstotni interval zaupanja pri = 0,10)
Splošno intervalno ocenjevanje parametrov pri velikih vzorcih
zp
1-
/2
SEG
Ocenjevanje parametra
G zp SEG
Vzorčna porazdelitev statistike G je normalna. SE‘G je nepristranska.
Dopustna meja napake
M
vzorčna porazdelitev M je N.D.
zp
N(0,1) 1
SEG
0
z
11
M μ SEM
N (0,1) 1
0
z
12
2
Psihologija FF UL, 1. st., Statistično zaključevanje
25.11.2011
Intervalna ocena aritmetične sredine pri velikih vzorcih
1- SEM · zp
/2
SEM · zp
m
mzg
m
p/2 vzorčna porazdelitev z μ μ zk k SEM
SEM
msp
p/2
mzg
SEM
σ' N
SEM
msp
1- /2
N = 400, M = 20, s’ = 5 SEM = 5 / 400 = 0,25 = 2p = 5% 95% IZ za m: 20 ± 0,25*1,96 = = 20±0,49 19,51-20,49
vzorčna porazdelitev M
zzg
1- SDz · zp
/2
μ zg μ zzg SEM μ zg μ SEM
p/2
SDz = 1
interval zaupanja 13
zsp
mz = 0
zzg
14
Intervalna ocena aritmetične sredine pri majhnih vzorcih Pri majhnih vzorcih Vzorčna porazdelitev M je N.D. le, če je frekvenčna porazdelitev spremenljivke normalna. preveriti!
SEM
m tp
Ocena SEM podcenjuje dejansko razpršenost vzorčne porazdelitve M. Statistika t je odvisna od stopenj prostosti.
Interval zaupanja za m: M tp SE ' M df = N - 1
Prikazi standardne napake (angl. standard error bar)
M μ SE ' M
Ob enaki SEM je interval zaupanja za m pri majhnih vzorcih (t) večji kot pri velikih (z).
1
0
15
Prikazi intervalov zaupanja (angl. confidence interval, CI)
16
Kaj nam torej pove kodstotni interval zaupanja?
Če bi iz populacije potegnili nešteto vzorcev in na vsakem vzorcu izdelali k-odstotni interval zaupanja za populacijski parameter, bi se pri k odstotkih vzorcev parameter v resnici nahajal izven tega intervala. 17
18
3
Psihologija FF UL, 1. st., Statistično zaključevanje
25.11.2011
Intervalna ocena deleža pri velikih vzorcih
Učinek velikosti vzorca na SEp
Če p ni preblizu 1 ali 0 (če je Np>5 ali Nq>5), potem lahko interval dovolj dobro ocenimo kot: p SE
p
1- /2
z
/2 SEp · z
SEp
p sp
SEp
p(1 p ) N
- ocena spodnje meje: np psp n p n n p 1Fsp df1 2n n p 1 df 2 2n p
- ocena zgornje meje: 1Fzg
p < 0,50
p = 0,50
p > 0,50
n n p n p 1Fzg
df1 2n p 1
df 2 2n n p
95% IZ: v Excelu Fsp in Fzg pri p(desno) 0,025 = FINV(0,025;…)
σ'X 2N σ'X SEσ z p
sp. meja IZ ( N 1)σ' X za varianco: χ2 2
SEσ
p
χ2
100 200 500 1000 2000
0.050 0.035 0.022 0.016 0.011
0.402 0.431 0.456 0.469 0.478
0.598 0.569 0.544 0.531 0.522
( N 1)σ'2X χ 12 p
20
• Pri vzorčenju z vračanjem je verjetnostna porazdelitev deležev binomska. • Pri vzorčenju brez vračanja je verjetnostna porazdelitev deležev hipergeometrična. • http://stattrek.com/Lesson4/ProportionSmall. aspx • Določimo lahko verjetnost pojavljanja nekega razpona deležev.
21
Intervalna ocena standardne deviacije
zg. meja IZ za varianco:
Zg. meja 95% IZ
Intervalna ocena deleža pri majhnih vzorcih
Clopper-Pearsonov interval zaupanja:
p
Sp. meja 95% IZ
19
Intervalna ocena deleža pri majhnih vzorcih
n
SE(p=0,50)
pzg
p interval zaupanja
pzg
N
(Grob) približek intervala zaupanja za s v primeru normalno porazdeljene spremenljivke in velikih vzorcev (N > 100)
22
Intervalna ocena korelacijskega koeficienta Vzorčna porazdelitev r ni normalna. Primer za: N = 12 r = 0,60
Primer za: N = 12 r = 0,90
( N 1)σ'2 σ2
df = N-1 c21-p
c2p
23
24
4
Psihologija FF UL, 1. st., Statistično zaključevanje
25.11.2011
Intervalna ocena korelacijskega koeficienta
Intervalna ocena razlik med aritmetičnima sredinama dveh vzorcev IZ : M 1 M 2 t SEM1 M 2
• Najprej s Fisherjevo z‘ transformacijo pretvorimo r v z‘-vrednosti: 𝑧 ′ = 0,5 ln [(1+r)/(1-r)] Excel: funkcija FISHER() • z‘ se normalno porazdeljuje, 1 𝑆𝐸𝑧′ = … N je št. parov podatkov
Pri velikih odvisnih vzorcih:
𝑁−3
SEz‘ 0,0
0,5
σ'12 σ'22 N1 N 2
SEM1 M 2 SEM2 1 SEM2 2 2r12 SEM1 SEM 2
Pri majhnih neodvisnih vzorcih:
𝑒 2𝑧 −1
• Pretvorimo meje nazaj v r: 𝑟 = 2𝑧 𝑒 +1 Excel: funkcija FISHERINV()
SEM1 M 2 SEM2 1 SEM2 2
Pri velikih neodvisnih vzorcih:
• Določimo meje intervala zaupanja za z‘: 𝑧 ′ ± 𝑆𝐸𝑧 ′ 𝑧𝑝
df = (N1 - 1) + (N2 – 1) = N1+ N2 - 2
N 1 σ'12 N 2 1 σ'22 N1 N 2 SE ' M1 M 2 1 N1 N 2 2 N 1 N 2
Pri majhnih odvisnih vzorcih izračunamo pri vsaki osebi razliko. Izračunamo M in s‘ razlik, nato pa ocenjujemo IZ za aritmetično sredino razlik: 𝑀razlik ± 𝑡 ∙ 𝑆𝐸′razlik
1,0
1,5
25
26
5