STATISTICKÝ ODHAD A TESTOVÁNÍ PRŮKAZNOSTI EKONOMETRICKÉHO MODELU Výběrové metody Výhody a nevýhody Využití při statistické indukci Rozsah výběru Výpočetní postup Grafický postup Bodový odhad Intervalový odhad Oboustranný a jednostranný interval spolehlivosti Interval spolehlivosti koeficientu korelace Interval spolehlivosti koeficientu regrese Interval spolehlivosti regresní přímky Pás spolehlivosti kolem ekonometrického modelu Testování statistických hypotéz Postup při testování Možnosti chybných rozhodnutí Test průkaznosti regresní funkce Test průkaznosti charakteristik korelace Test průkaznosti koeficientu regrese Test průkaznosti koeficientu dílčí regrese Testování linearity
VÝBĚROVÉ METODY založeny na výběrovém zjišťování výhody i nevýhody oproti úplnému zjišťování - výhody: finančně a časově méně náročné, vhodné při rozsáhlých souborech, nutné v případě destrukčních formách zjišťování - nevýhody: výsledky platí jen s určitou pravděpodobností, nejsou k dispozici informace o každé jednotce základního souboru využití při statistické indukci (úsudku z části na celek), resp. generalizaci (zevšeobecňování) STATISTICKÝ ODHAD - uplatnění, nejsou-li o základním souboru informace ♦ b o d o v ý - na základě výběrové charakteristiky (výběrového protějšku) bezprostřední odhad charakteristiky základního souboru (požadavky: nestrannost, konzistence, vydatnost) ♦ i n t e r v a l o v ý - odhad charakteristiky základního souboru prostřednictvím intervalu se stanovenou pravděpodobností TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ - uplatnění tehdy, kdy o základním souboru jsou formulovány hypotézy a na základě výběru je ověřována jejich platnost
ROZSAH VÝBĚRU Jediným kritériem je přesnost odhadu. Výpočetní postup: (Platí pro náhodný výběr s opakováním, ale lze jej použít i při praktičtějším výběru bez opakování, neboť je přísnější.)
∆=u
1−
∆=u
1−
∆ =u 2
2
1−
α
⋅ sx
2
α
⋅
σx n
2
α
⋅
2
σ
2 x
n
u 2 α ⋅ σ x2 n=
1−
2
∆2
kde: ∆ - přípustná chyba u - kvantil norm. rozdělení σx2- rozptyl zákl. souboru σx - směrodatná odchylka
sx
- směrodatná chyba průměru n - rozsah souboru
Rozsah výběru je tím větší, čím je větší stanovená pravděpodobnost výpočtu a variabilita základního souboru a čím je menší přípustná chyba.
Při praktickém výpočtu se obvykle vychází z předvýběru, takže vzorec má menší úpravu:
t 2 α ⋅ s x2 n=
1−
2
∆
2
kde: t - kvantil Student. rozdělení sx2 - rozptyl výběru
Výpočet je značně ovlivněn rozptylem stanoveným z předvýběru, je proto vhodný spíše pro jednorázové použití.
ROZSAH VÝBĚRU Jediným kritériem je přesnost odhadu. Grafický postup: Využívá se tehdy, kdy se výběrové šetření často opakuje (např. každodenní odebírání vzorků) a kdy záleží na tom, aby rozsah výběru byl co nejmenší a přitom reprezentativní. • ze základního souboru se odebere více předvýběrů o různém rozsahu • z každého předvýběru se vypočte směrodatná chyba • sestrojí se bodový graf, na vodorovné ose se vynáší rozsah předvýběrů a na svislé ose jejich směrodatné chyby • body se položí křivka • zlom na křivce představuje vhodný rozsah výběru
s⎯x směrodatná chyba
•
• •
•
• •
0
10
20
30
• • •
•
40
60
50
rozsah předvýběrů
• 70
• 80
• 90
n
BODOVÝ ODHAD ♦ Nestrannost
E (T ) = Θ
Střední hodnota výběrové charakteristiky je rovna odhadované charakteristice základního souboru. ♦ Konzistence
lim P ( / T − Θ / < ε ) = 1
n →∞
S rostoucím rozsahem výběru se odhad blíží hodnotě daného parametru. ♦ Vydatnost
D 2 (T * ) ≤ D 2 (T )
Výběrová charakteristika má ze všech odhadů nejmenší rozptyl. Míra vydatnosti:
D 2 (T * ) e (T ) = 2 D (T )
Asymptotická vydatnost
0 ≤ e (T ) ≤ 1
lim e(T ) = 1
n →∞
Pozn.: T* … vydatný odhad Θ T … jakýkoliv nestranný odhad Θ
INTERVALOVÝ ODHAD Oboustranný interval spolehlivosti:
⎡ ⎤ P ⎢ T − t α ⋅ D(T ) ≤ Θ ≤ T + t α ⋅ D(T )⎥ = 1 − α 1− 1− 2 2 ⎣ ⎦ α 2
α
1−α
2
Jednostranné intervaly spolehlivosti: - levostranný
P [ T − t1−α ⋅ D(T ) ≤ Θ] = 1 − α α
1−α
- pravostranný
P [Θ ≤ T + t1−α ⋅ D(T )] = 1 − α 1−α
α
INTERVAL SPOLEHLIVOSTI
KOEFICIENTU KORELACE Při podmínce: r < 0,5 a n > 100
P(r −t
1−
kde:
α
⋅ sr ≤ ρ ≤ r + t
1−
2
cov xy r= = var x ⋅ var y
α
⋅ sr ) = 1 − α
2
∑x y i
i
−nxy
n sx s y
1− r 2 sr = n Výběrový koeficient nesplňuje kritéria bodového odhadu, proto Fisherova transformace 1 1+ r z r = ln (tabelováno) 2 1− r
r
P ( zr − t
1−
kde:
ζr
szr =
α
⋅ s zr ≤ ζ r ≤ z r + t
1−
2
1 n−3
zpětná transformace
ρ
α 2
⋅ s zr ) = 1 − α
INTERVAL SPOLEHLIVOSTI
KOEFICIENTU REGRESE Pro regresní koeficient byx :
P ( byx − t
1−
kde:
α
⋅ sbyx ≤ β yx ≤ byx + t
1−
2
⋅ sbyx ) = 1 − α
2
∑x y −n x y ∑x −n x
cov xy byx = = var x sbyx
α
i
i 2
2
s y 1− r 2 = sx n
Pro regresní koeficient bxy :
P ( bxy − t
1−
kde:
α
⋅ sbxy ≤ β xy ≤ bxy + t
2
cov xy bxy = = var y
sbxy
1−
α 2
∑x y −n x y ∑ y −n y
s x 1− r 2 = sy n
i
i 2
2
⋅ sbxy ) = 1 − α
INTERVAL SPOLEHLIVOSTI
REGRESNÍ PŘÍMKY tj. jednoduchého lineárního ekonometrického modelu
yi′ = a + b xi y′j = α + β x j P ( yi′ − t
1−
α
základní soubor (j = 1,2,…,N)
⋅ s yi′ ≤ y′j ≤ yi′ + t
1−
2
kde:
s yi′ = s y Lze psát
výběrový soubor (i = 1,2,…,n)
α
⋅ s yi′ ) = 1 − α
2
( xi − x )2 1+ sx2
yi′( H ,D ) = a + b xi ± t
1−
y ′j
α
⋅ s yi′
2
y ′j ( H ) yi′
y ′j ( D )
y
x
PÁS SPOLEHLIVOSTI KOLEM EKONOMETRICKÉHO MODELU (REGRESNÍ FUNKCE)
- vymezuje s pravděpodobností 1-α plochu, v níž se nacházejí skutečné hodnoty závisle proměnné
⎛ ⎞ , P ⎜⎜ yi ( H ,D ) = yi ± t α ⋅ s y .x ⎟⎟ = 1 − α 1− 2 ⎝ ⎠ kde: s y.x =
∑ (y
i
−y
)
, 2 i
n − k −1
2 , y − y y ∑ i ∑ i i
=
n − k −1
Pro regresní přímku: ⎛ P ⎜ yi ( H ,D ) = a yx + byx xi ± t α ⋅ ⎜ 1− 2 ⎝
∑ y − ∑ y (a 2 i
+ byx xi ) ⎞⎟ =1−α ⎟ n −1 −1 ⎠ i
yx
yi ( H )
• • •
y
•
• •
x
• •
•
•
y i, yi ( D )
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Stanovení nulové hypotézy H0
a alternativní hypotézy H1 (oboustranná,jednostranná)
(volba H0 → při chybném zamítnutí větší chyba, proto negativní formulace)
Výpočet testového kritéria T normované veličiny různých typů rozdělení (např. u, t, χ 2, F, …)
Vyhledání kritické hodnoty testového kritéria (podle zvolené hladiny významnosti a stupňů volnosti)
Vyhodnocení
Tvyp
> <
Ttab
… H0 se zamítá … H0 se nezamítá
Možnosti chybných rozhodnutí: • chyba prvního druhu – chybné zamítnutí H0
Pravděpodobnost této chyby je tzv. hladina významnosti a značí se α (např. α = 0,05, α = 0,01)
• chyba druhého druhu – nezamítnutí nesprávné H0 Její pravděpodobnost se značí β (dána prostředím, počtem případů, …)
α a β jsou vzájemně nepřímo úměrné 1 - β je síla testu – pravděpodobnost zamítnutí nesprávné hypotézy
TEST STATISTICKÉ PRŮKAZNOSTI
REGRESNÍ FUNKCE H0 ≡ „Regresní funkce je statisticky neprůkazná.“
Testové kritérium:
F( k , n − k −1)
Tabulka analýzy variance Součet Zdroj čtverců variability
MS R = MS e
Stupně volnosti ν
S
S R = ∑ ( yi′ − y ) ν = k 2
Regrese
Průměrný čtverec MS MS R =
SR
νR Se
2 Reziduum S e = ∑ ( yi − yi′ ) ν = n − k − 1 MSe = ν e
S T = ∑ ( yi − y ) ν = n − 1 2
Celkem
ST = ∑ ( yi − y ) = ∑ yi2 − 2
1 n
S R = ∑ ( yi′ − y ) = ∑ yi yi′ − 2
(∑ y )
2
i
1 n
(∑ y )
S e = ST − S R
2
i
Vyhodnocení:
Fvyp
> <
Ftab
… H0 se zamítá ( EM je stat. průk.) … H0 se nezamítá
TEST STATISTICKÉ PRŮKAZNOSTI
KOEFICIENTU A INDEXU KORELACE H0 ≡ ρ = 0 r (resp.I)
„Závislost neexistuje.“ „Koeficient resp. index korelace je statisticky neprůkazný.“
Testové kritérium: ♦ pro test koeficientu jednoduché korelace
t( n.2 )
ryx
n−2 = / ryx / 1 − ryx2
♦ pro test vícenásobného koeficientu korelace ry⋅ x1 x2 ... xk
ry2.x1 x2 ...xk F( k , n − k −1 ) =
k
1 − ry2.x1 x2 ...xk n − k −1
k … počet nezávisle proměnných (je to zároveň počet parametrů mimo abs. člen)
♦ pro index korelace
I y2.x1 x2 ...xk F( k , n − k −1 ) =
k
1 − I y2.x1 x2 ...xk n − k −1
k … počet parametrů mimo abs. člen
TEST STATISTICKÉ PRŮKAZNOSTI
KOEFICIENTU REGRESE Testové kritérium:
t( n − k −1 ) =
bj sb y
⇒ tn−2 =
Regresní koeficient: bj
∑ ( x − x )( y − y ) = ∑( x − x ) 1 ∑ xy − n ∑ x∑ y = 1 (∑ x ) x − ∑
cov xy ⇒ byx = = var x
2
2
2
n
Směrodatná chyba:
sb j
⇒ sbyx =
s y⋅ x sx n
takže
kde:
s y⋅ x =
s y 1− r 2 → = sx n
2 ′ ( y − y ) ∑
n−2
→ sy 1 − r 2
byx sb yx
TEST STATISTICKÉ PRŮKAZNOSTI
KOEFICIENTU DÍLČÍ REGRESE Testové kritérium:
t( n −k −1 ) =
bj sby
⇒ tn −k −1 =
byxJ ⋅x1x2 Kx j −1x j +1Kxk sb yxJ ⋅x1x2Kx j −1x j +1Kxk
Koeficient dílčí regrese:
y′ = a + b1 x1 + b2 x2 + K + b j x j + K + bk xk y′ = a + byx1⋅x2 K xk x1 + byx2 ⋅x1x3 K xk x2 + K + + byx j ⋅x1 K x j −1x j +1 K xk x j + K + byxk ⋅x1 K xk −1 xk Směrodatná chyba:
sb j
⇒ sbyx ⋅ x K x j 1
kde:
s y⋅x1 K xk = K =
j −1 x j +1 K x k
=
2 ′ ( y − y ) ∑
n − k −1 1
1 − rx2j ⋅x1 K x j −1x j +1 K xk
s y⋅x1 K xk sx j n
⋅ K
opravný koeficient v důsledku multikolinearity
TESTOVÁNÍ LINEARITY Lze zkoumanou závislost považovat za lineární či nikoliv ? Nulová hypotéza:
H0 ≡ „Vztah je lineární.“ !!!
Testové kritérium:
F( k −2 ,n−k ) =
MS N MS e
Tab. analýzy variance: Zdroj variability
Součet čtverců S
ν
MS
S R = byx ∑∑ ( xij − x )( yij − y )
1
MSR
k–2
MSN
n–k
MSe
ni
k
Regrese
St.voln. Pr.čtv.
i =1 j =1
Nelinearita
SN = SC – ( SR + Se )
k
Se = ∑
Reziduum
i =1
k
Celkem
⎛ ni ⎞ ⎜ ∑ yij ⎟ ⎜ ⎟ ni j =1 ⎝ ⎠ 2 yij − ∑ ni j =1
2
ni
SC = ∑∑ ( yij − y )2 i =1 j =1
n–1
kde: n … rozsah souboru k … počet intervalů znaku X, ni …četnosti int. znaku X Vyhodnocení: Fvyp
> F < tab
… H0 se zamítá … H0 se nezamítá