Tartalom
Tartalomjegyzék 1. A standard lineáris regressziós modell és feltevései 1.1. A standard lineáris modell modellfeltevései . . . . . . . . . . . . . . . . . . . . . 1.2. A standard modellfeltevések értelme és jelentősége . . . . . . . . . . . . . . . . .
1 1 6
2. A mintavételi eloszlás és hasznosítása 2.1. A mintavételi eloszlás szemléltetése MC-szimulációval . . . . . . . . . . . . . . . 2.2. Mintavételi eloszlás hibanormalitás mellett és hasznosítása . . . . . . . . . . . . .
8 8 10
1. A standard lineáris regressziós modell és feltevései 1.1. A standard lineáris modell modellfeltevései Regresszió a sokaságban és a modellfeltevések értelme • A sokasági regressziót a következő formában fogjuk felírni (megfigyelési egységek szintjén): Yi = β1 + β2 Xi2 + . . . + βk Xik + Ui • E felírás leíró erejét megszorítjuk • A megszorítások tartalmilag kifejezik, hogy Ui modellezhetetlen zaj kell legyen („fehér zaj hiba”) • Ezek fennállása esetén tudjuk az OLS bizonyos előnyös tulajdonságait bizonyítani Az OLS standard modellfeltevési • Az ún. standard lineáris modell feltevései: 1. Linearitás 2. Nincs egzakt multikollinearitás 3. Erős (vagy szigorú) exogenitás 4. Homoszkedaszticitás 5. Autokorrelálatlanság • Most megvizsgáljuk ezeket egyesével Linearitás • A modell alakja tehát Yi = β1 + β2 Xi2 + . . . + βk Xik + Ui • Avagy mátrixosan: Y = Xβ + U
1
Nincs egzakt multikollinearitás • Egzakt multikollinearitásnak nevezzük, ha az adatmátrix nem teljes oszloprangú • Tehát: az oszlopok között lineáris kapcsolat van (valamelyik változó előállítható a többi lineáris kombinációjaként) • Érezhető, hogy nem túl szerencsés: minek használjuk egyáltalán azt a változót. . . ? (Úgyis lineáris kombinációt képezünk a többiből is!) → a hatások nem lesznek szétválaszthatóak • Sőt: az OLS becslőfüggvényéből az is látszik, hogy ilyenkor teljesen elakadunk: XT X szinguláris, ha X nem teljes oszloprangú, márpedig ezt invertálni kéne Nincs egzakt multikollinearitás • A feltétel tehát: az adatmátrix 1 valószínűséggel legyen teljes oszloprangú: P rank X = k = 1 • Ez implikálja, hogy n ≥ k (kevesebb mint k-dimenziós vektorból nincs k független) Érdemes megfigyelni, hogy a multikollinearitás egy mintában is elképzelhető jelenség (ezért is hivatkozhattunk rá úgy, hogy X nem teljes oszloprangú), de mi a tulajdonságot a sokaságban akarjuk kikötni, ezért az állítás az X-re kell vonatkozzon. Itt viszont csak annak van értelme, hogy „majdnem biztosan” (azaz 1 valószínűséggel) követeljük meg. A másik alapvető szemléletes példa a multikollinearitásra az, ha van konstans a modellben és valamelyik magyarázó változónak nincs szórása (az összes megfigyelés ugyanaz rá). Könnyű elképzelni (pl. két dimenzióban), hogy nem lehet semmilyen regressziós egyenest húzni akkor, ha minden pontunk egymás fölött van. Végezetül megjegyezzük, hogy gyakorlati jelentősége annak is lesz, ha ugyan nincs egzakt multikollinearitás, de van változó ami „elég jól” előállítható a többi lineáris kombinációjaként. Ezzel a kérdéskörrel fontossága miatt külön fogunk foglalkozni. Erős exogenitás • A feltétel azt köti ki, hogy E Ui | X E Ui | X 2 , X 2 , . . . , X k = 0
= 0 avagy (kissé közismertebb, szokásosabb jelöléssel)
• Tehát: a hibák feltételes várható értéke, feltéve valamennyi megfigyelést, nulla • Fae mintavételezésnél ez erre egyszerűsödik, hogy minden i = 1, 2, . . . , n-re E Ui | X i = konst, ez pedig – ha van tengelymetszet a modellben – azzal ekvivalens, hogy E Ui | X i = 0 minden i-re (ekkor ugyanis mindig elérhető, hogy a konstans a nulla legyen) • Tartalma: a hibák – bizonyos értelemben (ún. várható érték függetlenség) – függetlenek a magyarázó változóktól
2
Ahhoz, hogy az állandó E Ui | X i csak a 0 lehessen, annyi kell, hogy EUi = 0 teljesüljön (ezután már toronyszabállyal következik az állítás). Azért mondtuk, hogy ez konstans jelenléte esetén bizonyosan teljesül, mert ekkor, ha EUi = a lenne, akkor áttérhetnénk az eredeti β0 -ról β0 − a konstansra, így elérve, hogy EUi = 0 legyen. Az tehát, hogy az állandó feltételes várható érték szükségképp nulla, csak egy egyszerű technikai feltétel konstans jelenléte esetén. Megjegyezzük, hogy az OLS természetesen mindig olyan reziduumokat fog adni, melyek korrelálatlanok a magyarázó változókkal, de itt egyrészt egy sokasági feltételről van szó, másrészt – és ez a fontosabb – az E Ui | X i állandósága szigorúan erősebb követelmény mint a korrelálatlanság. (Ezt a fogalmat szokás várható érték függetlenségnek (mean independence) nevezni.) Lássuk is ezt be, a jelölés megkönnyítése végett hívjuk egyszerűen U -nak és X-nek a két változónkat (és megismételjük, a várható érték függetlenségi feltevésünk az, hogy E U | X állandó, és, mellesleg, így egyenlő EU -val). Ekkor egyik oldalról h h i i E (U X) = E E U X | X = E XE U | X = E XE (U ) = EXEU, így U és X korrelálatlanok (cov (U, X) = E (U X) − EU EX); ezzel bebizonyítottuk, hogy a várható érték függetlenség implikálja a korrelálatlanságot. Másik oldalról, tekintsük példaként 2 az X ∼ hN (0, 1) változót és egy olyan U változót melyre E U |X = X h i . hEkkor EX =i 0, i EU = E E U | X = E X 2 = D2 X = 1 és E (U X) = E E U X | X = E XE U | X = E X 3 = 0, így tehát a változók korrelálatlanok, de nyilván nem várható érték függetlenek. A várható érték függetlenség tehát szigorúan erősebb fogalom, mint a korrelálatlanság. Érdemes azt is megjegyezni, hogy viszont szigorúan gyengébb mint az igazi függetlenség! (Ez könnyen belátható. Függetlenség esetén minden feltételes eloszlás ugyanaz, márpedig ha két eloszlás egyezik, akkor nyilván a várható értékük is egyezik. Másik oldalról tekintsünk egy origó körüli 0 < r < R körgyűrűre koncentrált egyenletes eloszlást. Ez nyilván várható érték független (a feltételes várható érték konstans nulla), viszont természetesen nem független.) Lényegében arról van szó, hogy a függetlenség a feltételes eloszlások teljes egyezőségét követeli meg, míg a várható érték függetlenség csak annyit, hogy a feltételes eloszlások várható értéke legyen egyező. (A feltételes szórás már kapásból lehet eltérő.) A várható érték függetlenség tehát egyfajta „középút” a – könnyen ellenőrizhető, de keveset adó – korrelálatlanság és az – erős, de nehezen ellenőrizhető – függetlenség között. Nézzünk végezetül egy példát az erős exogenitásra és sérülésére, hogy világosabb legyen a tartalma. Tegyük fel, hogy emberek fizetését regresszáljuk ki az oktatásban töltött éveik számával (tehát az előbbi az eredmény-, az utóbbi az – egyetlen – magyarázó változó). Ekkor a hibába vélhetően olyan tényezők fognak beleszámítani, mint a nem-oktatással összefüggő munkaalkalmasság, a munkamorál, a szakmai tapasztalat stb. Az egyszerűség kedvéért mondjuk, hogy csak a legelső adja a hibát. Ekkor a szigorú exogenitás feltétele, a várható érték függetlenség azt fogalmazza meg, hogy a munkaalkalmasság feltételes várható értéke minden képzettség, mint feltétel mellett legyen ugyanakkora, tehát, hogy ne függjön a képzettségtől. (Amint mondtuk, konstans jelenléte esetén ez mellesleg azt jelenti, hogy nulla is legyen ez az állandó feltételes várható érték.) Baj akkor van, ha a képzettség különböző szintjei mellett a várható munkaalkalmasság nem állandó – tehát például a magasabb képzettségűeknek a munkaalkalmasságuk is nagyobb, azaz a nagyobb képzettséggel egyúttal a munkaalkalmasság is emelkedik. Ekkor megsérül a szigorú exogenitási feltétel. Épp innen kapta a feltétel a nevét: olyasmit fejez ki, hogy a magyarázó változókhoz képest exogén információ az, ami a hibákban össze van fogva. (Ez nyilván nem teljesül a fenti esetben.) E problémán nyilván segíthetünk azzal, ha valamilyen módon operacionalizáljuk a munkaalkalmasságot, és bevonjuk magyarázó változóként. (Ez már mutat a kihagyott változó problémájára, amit hamarosan említeni fogunk.) Sajnos azonban ez nem univerzális gyógyír, hiszen az ilyen 3
megoldás jellegéből adódóan azt igényli, hogy tudjuk azonosítani, hogy mely változók rontják el a szigorú exogenitást (és persze ezeket mérni, modellbe bevonni is tudjuk). Egyébként az ilyen változókat, különösen a biostatisztikában confounding (zavaró) változóknak is szokták nevezni. Általánosabb megoldást csak az nyújthat(na), ha kontrollált kísérletet tudunk végezni. A példánál maradva: kísérleti alanyokat – lehetőség szerint véletlenszerűen – két csoportba osztjuk, és mindegyik csoport különböző, általunk megszabott képzettséget kap, majd utána vizsgáljuk, hogy mekkora lesz a fizetésük. . . Amint ez a példa is jól illusztrálja, számos társadalmi-gazdasági kérdésben a kísérlet végzése lehetetlen (olyan apróságokról nem beszélve, hogy az optimális az lenne, ha az emberek nem tudnák, hogy melyik csoportba tartoznak, azaz mennyi képzésben részesültek stb.. . . ), így ilyenkor megfigyeléses adatokra kell támaszkodnunk. Az erős exogenitás következményei • Toronyszabály miatt a feltétel nélküli várható érték is nulla: " # E E Ui | X = EUi = E (0) = 0 • Minden magyarázó változó ortogonális minden hibára (vagyis nem csak a sajátjára): cov Xik , Uj = 0 vagy (ezzel egyenértékűen, hiszen EUi = 0) E Xik Uj = 0 (minden i, j-re) Az erős exogenitás sérülésének tipikus esetei • Van olyan változó, ami lényeges magyarázó változó lenne (tehát valódi (sokasági) β-ja nem nulla), de mégsem szerepel a modellben, miközben legalább egy magyarázó változóval korrelál (kihagyott változó esete, „omitted variable bias”) • Mérési hiba magyarázó változónál (tehát a mérési változók valódi értékét nem, csak valamilyen zajjal terhelve tudjuk mérni) • Szimultaneitás (többegyenletes modelleknél) Az első eset szolgáltatja a talán legjellemzőbb példákat a ’korreláció nem implikál kauzalitást’ statisztikai alapelvére. A második és harmadik kérdéskör boncolgatása meghaladja jelen kurzus kereteit. Végül megjegyezzük, hogy idősoros esetben ez nagyon erős feltétel (hiszen például azt jelenti, hogy a magyarázó változóknak a múltbeli, a jelenbeli és a jövőbeli hibákra is ortogonálisnak kell lenniük!), ami sokszor nem teljesül. (Példaként gondoljunk egy egyszerű késleltetett eredményváltozós modellre.) Az erős exogenitás sérülésének kezelése • A problémát orvosolhatjuk a megfelelő(bb) modellspecifikációval, függően attól, hogy pontosan mi a baj oka. . . • . . . illetve bizonyos statisztikai eszközök is a rendelkezésünkre állnak, ilyen az instrumentális változós (IV) becslés (kétfázisú legkisebb négyzetek módszere) stb. E kérdések meghaladják jelen kurzus kereteit.
4
Homoszkedaszticitás • A feltétel azt köti ki, hogy D Ui | X = σ 2 (i-től függetlenül!) vagy (ezzel egyenértékűen, 2 hiszen E Ui | X = 0) E Ui | X = σ 2 minden i = 1, 2, . . . , n-re 2
• Tartalma: a hibák különböző megfigyelésekhez tartozó szórása állandó (nem függ attól, hogy melyik megfigyelésről van szó) avagy – másként megfogalmazva ugyanez – a becsült értékek szóródása a tényleges körül állandó • Fae mintavételezésnél ez arra egyszerűsödik, hogy minden i = 1, 2, . . . , n-re σi2 = D2 Ui | X i = σ 2 • Jellemzően keresztmetszeti adatoknál felmerülő kérdés (hamarosan foglalkozunk is vele bővebben) Fae mintavételezésnél az automatikusan teljesül, hogy D2 Ui konstans, de ez kevés: nekünk a feltételes szórás állandósága is kell a standard modellfeltevések között. Autokorrelálatlanság • A feltétel azt köti ki, hogy cov Ui , Uj = 0 vagy (ezzel egyenértékűen, hiszen EUi = 0) E Ui Uj = 0 (minden i, j = 1, 2, . . . , n, i 6= j-re) • Tartalma: a különböző megfigyelésekhez tartozó hibák korrelálatlanok egymással • Fae mintavételezésnél ez automatikusan teljesül • Elsősorban idősoros adatok kérdésköre, most nem is foglalkozunk vele bővebben A gyakorlatban persze sokszor nem tekinthetőek a mintáink fae-nak. Egy nevezetes eset arra, amikor emiatt keresztmetszeti adatbázisnál is felléphet az autokorreláció, a térbeli autokorreláció jelensége. A homoszkedaszticitás és az autokorrelálatlanság jelentősége • Mindkettő felfogható úgy, mint az Ui hibák kovarianciamátrixára (ami nem más mint T E U U , hiszen EU = 0, ezt már a korábbiakból tudjuk) vonatkozó megkötés – Homoszkedaszticitás: a kovarianciamátrix főátlójában ugyanazok az elemek (σ 2 ) vannak (ugye itt vannak a szórásnégyzetek!) – Autokorrelálatlanság: a kovarianciamátrix főátlóján kívüli elemek nullák (a mátrix diagonális) • A kettő együtt: a kovarianciamátrix σ 2 I alakú (szokás az ilyet skalármátrixnak is nevezni) A „hibák kovarianciamátrixa” alatt az előbbi definíciók miatt elsődlegesen a feltételes kovarianciamátrixot értjük, de ebből – toronyszabállyal – természetesen következik, hogy az állítások a feltétel nélküli kovarianciamátrixra is fennállnak.
5
A hiba tartalma • A hibaváltozóban „tömörülő” hatások: – Kihagyott változók – Helytelen függvényforma (pl. nemlineáris hatások) – Mérési hibák – „Megmagyarázhatatlan” (előre nem látható, nem modellezhető) véletlen hatások • A jó (ld. mindjárt) tulajdonságait leírják a fenti standard modellfeltevések Mintavételileg rögzített magyarázó változók • Egyszerűbb tárgyalások azt feltételezik, hogy a magyarázó változók mintavételileg rögzítettek (mintha determinisztikusan megszabhatnánk az értéküket: Xi igazából xi ) • Ennek két baja van: 1. Nem annyira szép és elegáns (nyilván ez speciális esete a mi tárgyalásunknak!) 2. Megkérdőjelezhető az alkalmazása alapvetően nem-experimentális tudományokban (mint a közgazdaságtan. . . ) • Az előnye, hogy egyszerűsít: ekkor a hiba feltételes és feltétel nélküli eloszlása ugyanaz lesz, a ’| X’ jellegű feltételek elhagyhatóak. . . • . . . emiatt a modellfeltevések a következőkre egyszerűsödnek: – Erős exogenitás: EUi = 0 minden i = 1, 2, . . . , n-re – Homoszkedaszticitás: D2 Ui = σ 2 minden i = 1, 2, . . . , n-re – Autokorrelálatlanság: E Ui Uj = 0 minden i 6= j = 1, 2, . . . , n
1.2. A standard modellfeltevések értelme és jelentősége A mintavételi helyzet hatásai b • Az adatbázisunk alapján megkaptuk a regressziós egyenest (β) • De vigyázat: az adatbázis csak egy minta az eladásra kínált lakások sokkal bővebb sokaságából → a βbi paraméterek annak hatását is tükrözik, hogy konkrétan milyen mintát választottunk • Mintavételi ingadozás lép fel (még akkor is, ha tökéletes a mintavétel, ennek tehát semmi köze pl. a reprezentativitáshoz) • Tehát: az egyes βbi paraméterek „mintáról-mintára ingadoznak”: minden mintából más paramétereket kapnánk • (Természetesen reméljük, hogy az ingadozás „kellemes” tulajdonságokkal bír, például a valós érték körül történik, szorosan körülötte stb., erről később)
6
Az OLS mint becslőfüggvény • Ha ismernénk az egész sokaságot, akkor arra lefuttatva megkaphatnánk a tökéletes (azaz: sokasági) βi paramétereket (értsd: nem terheli őket mintavételi hiba) • Ezeket nevezzük elméleti (vagy sokasági) regressziós koefficienseknek (többváltozós normálisra láttuk is az értékeit) • Tehát: van egy sokasági paraméter, amit mi mintából próbálunk megsaccolni. . . nem ismerős? • Ez épp a becslés statisztikai feladata! • Az OLS tehát egy becslőfüggvény! (Mint az x csak kicsit bonyolultabb. . . ) → ezért a kalap • Vizsgálhatóak tehát a tulajdonságai, mint becslőfüggvény Gauss–Markov tétel • Amennyiben a standard modellfeltevések közül teljesül a: – Linearitás – Nincs egzakt multikollinearitás – Erős (vagy szigorú) exogenitás akkor az OLS szolgáltatatta becslések torzítatlanok és konzisztensek • Ha ezen felül teljesül a: – Homoszkedaszticitás – Autokorrelálatlanság akkor az OLS szolgáltatta becslések hatásosak (minimális varianciájuk) is BLUE-tulajdonság • Ezt röviden úgy szokták megfogalmazni, hogy ha valamennyi standard modellfeltétel teljesül, akkor az OLS szolgáltatta becslések BLUE-k: – Best (minimális varianciájú) – Linear (lineáris a mintaelemekben) – Unbiased (torzítatlan) • Ezért (is) szeretjük az OLS-t! Hibák normalitása • A hibák normalitása nem része a standard modellfeltevéseknek • Azaz: a BLUE-ság akkor is megvalósul, ha a hibák eloszlása nem normális • De néhány (BLUE-ságon felüli) dologhoz jól jön, például hipotézis-tesztelés (mi is mindjárt ki fogjuk használni) • (Miért épp a normalitás merül fel? Azért mert sok gyakorlati esetben a hibában számos, egymástól független hatás adódik össze → centrális határeloszlás-tétel!) 7
Hibák normalitása • Ha elfogadjuk a feltevést (precízen: U feltételes eloszlása feltéve X-et többváltozós normális), akkor azt kapjuk – természetesen a standard modellfeltevéseket is használva –, hogy U | X ∼ Nn 0, σ 2 I • Ez láthatóan nem függ X-től így persze a hibák feltétel nélküli eloszlása is Nn 0, σ 2 I
2. A mintavételi eloszlás és hasznosítása 2.1. A mintavételi eloszlás szemléltetése MC-szimulációval A mintavételi tulajdonságok szemléltetése Monte Carlo szimulációval • Számos konkrét véletlen mintát veszünk egy előre specifikált populációból (véletlenszámgenerátort használunk) • Lényegében: empirikusan vizsgálunk egy elméleti kérdést • Most a valódi sokasági eloszlás (ugye kivételesen most tudjuk!) (X, Y ) ∼ N
! 77 422 0,6 · 20 · 42 , 26 0,6 · 20 · 42 202
• Ezért a valódi regressziós egyenes, a már látottak szerint: 12 E Y |X = 4 + X ≈ 4 + 0,2857X 42 • Szimulációs paraméterek: n = 100 elemű minta a fenti sokaságból, 1000 ismétlés A szimuláció eredményei: 1. futtatás col2 versus col1 (with least squares fit) 80
Y = 0,444 + 0,345X
70 60 50
col2
40 30 20 10 0 -10 -20 -30
0
50 col1
8
100
150
A szimuláció eredményei: 2. futtatás col2 versus col1 (with least squares fit) 80
Y = 1,75 + 0,309X
70 60 50
col2
40 30 20 10 0 -10 -20 -30
0
50
100
150
col1
A szimuláció eredményei: 3. futtatás col2 versus col1 (with least squares fit) 100
Y = 1,33 + 0,303X
80 60
col2
40 20 0 -20 -40
0
50
100
150
200
col1
A szimuláció eredményei: 4. futtatás col2 versus col1 (with least squares fit) 70
Y = 5,55 + 0,261X
60 50 40
col2
30 20 10 0 -10 -20 -30
0
50
100 col1
A szimuláció eredményei: 5. futtatás
9
150
200
col2 versus col1 (with least squares fit) 80
Y = 5,15 + 0,284X
70 60 50
col2
40 30 20 10 0 -10 -20
0
50
100
150
200
col1
A szimuláció eredményei: konstans 0,14
Test statistic for normality: Chi-square(2) = 1,005 [0,6049]
beta_1 N(3,996 3,3149)
0,12
0,1
Density
0,08
0,06
0,04
0,02
0
-5
0
5
10
15
beta_1
A szimuláció eredményei: meredekség 12
Test statistic for normality: Chi-square(2) = 0,330 [0,8479]
beta_2 N(0,28569 0,038682)
10
Density
8
6
4
2
0
0,2
0,25
0,3
0,35
0,4
beta_2
A szimuláció eredményei: mindkét becsült paraméter együtt
10
0,45
0,4
beta_2
0,35
0,3
0,25
0,2
0,15
-5
0
5
10
15
beta_1
2.2. Mintavételi eloszlás hibanormalitás mellett és hasznosítása Változó relevanciája Definíció (Változó relevanciája). Egy változót relevánsnak nevezünk, ha a sokasági paramétere nem nulla: βi 6= 0. Elárulom, hogy a βbi becsült regressziós koefficiensek mintavételi ingadozását a következő összefüggés írja le: βbi − βi ∼ tn−k se b βbi Ez hibanormalitásnál egzakt, egyébként (aszimptotikus) közelítés a CHT miatt Hipotézisvizsgálat változó relevanciájára Ez alapján már konstruálhatunk próbát változó relevanciájának vizsgálatára: 1. H0 : βi = 0 2. Ekkor (azaz ha ez fennáll!) a temp,i =
βbi kifejezés n − k szabadságfokú t-eloszlást követ bi sbe β
(nulleloszlás) 3. Számítsuk ki a konkrét temp,i -t a mintánkból és döntsük el, hogy hihető-e, hogy tn−k -ból származik Hipotézisvizsgálat változó relevanciájára A hipotézisvizsgálat elvégzéséhez szükséges minden tudnivalót – a nullhipotézisen kívül – összefoglal tehát a következő kifejezés (a későbbiekben is ezt a sémát fogjuk használni hipotézisvizsgálatok megadására): βbi H temp,i = ∼0 tn−k . b se b βi E próba precíz neve: változó relevanciájára irányuló (parciális) t-próba
11
Példa változó relevanciájának vizsgálatára • Az alapterület példáján: hihető-e, hogy a
0,2964 0,0108
= 27,43 ebből az eloszlásból származik:
0.5
t(1398)
0.4
0.3
0.2
0.1
0 -5
-4
-3
-2
-1
0
1
2
3
4
5
• Jellemzés: kritikus érték, p-érték A gretl outputján
Konfidenciaintervallum a paraméterekre • Ez alapján könnyen szerkeszthető CI is, 1 − α megbízhatósági szintre: βbi ± t1−α/2 · se b βbi . • A gretl-ben (1 − α = 0,95):
12
• Mi az összefüggés a CI és a p-érték között? Modell egészének relevanciája • Az előbbi próba azért volt „parciális” mert egy változó irrelevanciáját vizsgálta • Felmerül a kérdés, hogy definiálható-e a modell egészének irrelevanciája • Igen, mégpedig úgy, hogy valamennyi magyarázó változó együttesen is irreleváns: H0 : β1 = β2 = . . . = βk = 0 • Rövid jelölés arra, hogy β1 = 0 és β2 = 0 stb. és βk = 0 (semmilyen más eset jelölésére ne használjuk az egyenlőségláncot!) • Figyelem: az „egyszerre nulla mindegyik” több mint, hogy „külön-külön nulla mindegyik”! Modell egészének relevanciája • A modell egészének irrelevanciájára magyarul azt jelenti, hogy a modell nem tér el lényegesen a nullmodelltől • Implikálja, hogy minden magyarázó változó külön-külön is irreleváns (tartalmazza ezeket a hipotéziseket) → előbb teszteljük a modell egészének irrelevanciáját, és csak ennek elvetése utána teszteljük a változókat parciálisan • A próba konkrét alakja: Femp =
RSS/ (k − 1) H0 ∼ Fk−1,n−k ESS/ (n − k)
Modell egészének relevanciája • A tesztstatisztika átírható mint RSS/ (k − 1) R2 / (k − 1) = ESS/ (n − k) (1 − R2 ) / (n − k) • Persze: a „nem tér el lényegesen a nullmodelltől” úgy is megfogalmazható, hogy az „R2 nem tér el lényegesen a nullától” (H0 : R2 = 0 is mondható lett volna)
13
Modell egészének relevanciája • A próba neve: a modell egészének relevanciájára irányuló (globális) F -próba • Szokás ANOVA-próbának is nevezni (a T SS = ESS + RSS variancia-felbontáson alapszik; számlálóban és nevezőben a fokszámmal normált szórásnégyzetek vannak) • Tipikus eredményközlés az ún. ANOVA-táblában:
14