Lekce 3
Odhady a testy hypotéz o regresních přímkách Ve druhé lekci jsme konstruovali konfidenční intervaly a formulovali testy hypotéz o korelačním koeficientu. Korelační koeficient je symetrickou charakteristikou intenzity závislosti, u které nezáleží na pořadí proměnných. Naproti tomu regresní přímky představují nesymetrické charakteristiky průběhu závislosti, u nichž záleží na pořadí proměnných. Jsou to poněkud netypické „charakteristiky“, neboť nejsou (jak jme byli až doposud zvyklí) jednočíselné, ale statistickou charakteristikou je tentokrát funkce. Tato skutečnost vede k dosud nepoznanému tvaru konfidenčního intervalu, kterým není úsečka (nebo polopřímka), ale část roviny náhodných proměnných. Zcela novým pojmem této lekce je také pás spolehlivosti kolem regresní přímky. Zato odhady a testy hypotéz o regresních koeficientech nijak nevybočují ze zavedených pravidel.
konfidenční interval pro regresní koeficient; konfidenční interval pro regresní přímku; pás spolehlivost; regresní koeficient; sdružené regresní přímky; testy hypotéz o regresním koeficientu
3.1 Odhady a testy hypotéz o regresním koeficientu Výběrový regresní koeficient B yx je výběrovou charakteristikou (statistikou) jejíž střední hodnota E ( B yx ) = β YX = ρ chyby je
VAR B yx =
σ σX a směrodatná chyba D ( B yx ) = Y σX σX
1− ρ 2 . Estimátorem směrodatné n
B yx − β YX (1 − R 2 )VAR Y 1 . Náhodná veličina t = má Studentovo roz(n − 2)VAR X VAR B yx
dělení s n − 2 stupni volnosti. Oboustranný konfidenční interval Oboustranný konfidenční interval při spolehlivosti odhadu 1 − α pro regresní koeficient β YX je
P B yx − t α [n − 2] VAR B yx ≤ β YX ≤ B yx + t α [n − 2] VAR B yx = 1 − α , přičemž jeho reali1− 1− 2 2 sy 1 − r2 sy 1 − r2 ≤ β YX ≤ b yx + t α [n − 2] zace z výběru o rozsahu n je b yx − t α [n − 2] . 1− 1− sx n − 2 sx n − 2 2 2 Příklad 3.1 Sestrojíme oboustranný konfidenční interval při riziku α = 0,05 pro regresní koeficient β YX z příkladu 1.4 (teplota a tlak vzduchu za turbodmychadlem). n = 120; r = 0,8439; b yx = 0,9455; s x = 33,47; s y = 37,50 . Vzhledem k velkém rozsahu výběru použijeme u0,975 = 1,96 .
1
Pozapomenutou „řádkovou“ symboliku užíváme proto, abychom se vyhnuli nepřehlednému dvojímu indexo-
vání, např.
VARB yx = S B yx apod.
17
37,50 1 − 0,8439 2 37,50 1 − 0,8439 2 ≤ β YX ≤ 0,9455 + 1,96 33,47 120 − 2 33,47 120 − 2 z čehož 0,837 ≤ β YX ≤ 1,054 . 0,9455 − 1,96
Test hypotézy β YX = c Testovým kritériem je Studentovo t o n – 2 stupních volnosti, jehož realizace je t =
b yx − c sy sx
Pro údaje z příkladu 3.1 ověřte na hladině s regresním koeficientem
α = 0,05
βYX = 1,000 (1,100) .
1 − r2 n−2
.
hypotézu, že výběr pochází z rozdělení
Porovnejte výsledky testu (vzhledem k velkému
rozsahu výběru vystačíme s kvantily veličiny U) s hodnotami oboustranného konfidenčního intervalu. (3–1)
Existují pochopitelně i varianty porovnávající dvojici regresních koeficientů, konkrétně konfidenční interval pro rozdíl β1 − β 2 a test hypotézy β1 − β 2 = 0 , ale tyto případy ponecháváme stranou.
3.2 Interval spolehlivosti pro regresní přímku Označíme E (Y | x ) = η ; regresní přímka z náhodného výběru je statistika Y ′ a její realizace pro konkrétní náhodný výběr je y′ . Směrodatná chyba statistiky Y ′ je
var y ′ =
VARY ′ =
( X − X )2 VARY 1+ i a její realizace n VARX
( x − x)2 var y 1+ i . n var x
Oboustranný konfidenční interval pro hodnoty η je část roviny náhodných proměnných ohraničená dvěma křivkami symetricky položenými kolem regresní přímky.
Jeho tvar je P Y ′ − t α [n − 2] VARY ′ ≤ η ≤ Y ′ + t α [n − 2] VARY ′ = 1 − α . 1− 1−
2
2
Oboustranný konfidenční interval je nejužší pro X i = X . Jeho realizaci získáme dosazením
y′ a
var y ′ .
Příklad 3.2 Sestrojíme oboustranný konfidenční interval pro η při riziku α = 0,05 (vzhledem k rozsahu výběru můžeme použít kvantil u0,975 = 1,96 ) na podkladě přímky z 1.4: y ′ = 128 + 0,9455( x − 154) .
( xi − 154) 2 1406 var y ′ = 1+ . Hodnotu realizace směrodatné chyby (eventuálně po vynáso120 1120 bení kvantilem u0,975 = 1,96 jako realizaci přípustné chyby) tabelujeme pro různé hodnoty xi . Hodnoty, z nichž byl vytvořen obr. 3.1 jsou shromážděny v tabulce 3.1.
18
Obr. 3.1 Interval spolehlivosti regresní přímky
Tab. 3.1 Tabelované hodnoty k obr. 3.1
yi′
xi 100 120 140 160 180 200
76,94 95,85 114,76 133,67 152,58 171,49
ηD
ηH
64,21 86,29 107,50 126,86 144,09 160,09
89,68 105,42 122,04 140,49 161,08 182,90
y i′
y
ηH
y
ηD
x
x
3.3 Pás spolehlivosti pro vysvětlovanou proměnnou ′
Náhodná veličina Yi − Yi′ , kde Yi je pozorovaná hodnota vysvětlované proměnné a Yi její hodnota ležící na regresní přímce (vyrovnaná, vypočtená hodnota), má směrodatnou chybu D ( e) , jejíž estimátor n
n
i =1
i =1
[
∑ Yi 2 − ∑ Yi Y + B yx ( X i − X )
estD ( e) =
]
n−2
= Se .
Oboustranný pás spolehlivosti kolem regresní přímky pro spolehlivost 1 − α je definován jako
P Yi′ − t α [n − 2]S e ≤ Yi ≤ Yi′ + t α [n − 2]S e = 1 − α a jeho realizace z náhodného výběru o roz1− 1− 2 2 sahu n je yi′ − t α [n − 2]se ≤ yi ≤ yi′ + t α [n − 2]se , kde 1−
1−
2
n
∑y se =
i =1
2 i
2
2 n − n y − b yx ∑ xi y i − n x y i =1 n−2
Tento interval vymezuje kolem regresní přímky symetricky položený pás, do kterého náhodná veličina Yi padne s pravděpodobností 1 − α . Mimo pás pak leží 100α % pozorovaných hodnot. Příklad 3.4 Sestrojíme 95% pás spolehlivosti kolem regresní přímky, jejíž realizace z výběru n = 120 je dána jako y ′ = 128 + 0,9455( x − 154) — regresní přímka z příkladu 1.4.
se =
2134800 − 1966080 − 0,9455(2492520 − 2365440) = 120 − 2
48565,86 = 20,29 . 118
Graficky je výsledek vyjádřen na obr. 3.2. Při stanovení pásu spolehlivosti jsme vzhledem k velkému rozsahu výběru využili kvantil u0,975 = 1,96 .
19
Obr. 3.2 Pás spolehlivosti kolem regresní přímky
Tab. 3.2 Tabelované hodnoty obr. 3.2
xi y
yH
100 120 140 160 180 200
yi′
yD
yH
76,94 95,85 114,76 133,67 152,58 171,49
37,14 56,05 74,96 93,87 112,78 131,69
116,74 135,65 154,56 173,47 192,38 211,29
y‘
yD x Např. pro xi = 160 (°C) je hodnota ležící na přímce yi′ = 133,67 kPa. Zároveň můžeme tvrdit, že skutečná naměřená hodnota tlaku nepřesáhne s pravděpodobností 0,975 hodnotu y H = 133,67 + 1,96 ⋅ 20,29 = 173,47 kPa a současně se stejnou pravděpodobností neklesne pod hodnotu y D = 133,67 − 1,96 ⋅ 20,29 = 93,87 kPa.
Σ
Stanovte šířku pásu spolehlivosti kolem regresní přímky y‘ pro
α = 0,10 (0,01) .
(3–2)
1. Na rozdíl od dosud probraných statistik nejsou sdružené regresní přímky skalární veličiny, ale mají tvar funkce. 2. Pro směrnice regresních přímek — regresní koeficienty — lze konstruovat konfidenční intervaly a testovat hypotézy, podobně jako tomu je u dalších statistik skalárního charakteru. 3. Pokud jde o regresní koeficienty, tentokrát jsme se omezili pouze na konfidenční intervaly a testy hypotéz o jednom koeficientu. 4. Pro podmíněnou střední hodnotu lze zkonstruovat oboustranný konfidenční interval, který na rozdíl od předchozích má tvar části roviny omezené dvěma křivkami, jejíž osa souměrnosti je odhadnutá přímka. 5. Pro pozorované hodnoty závisle proměnné lze konstruovat oboustranný tzv. pás spolehlivosti, což je část roviny omezená přímkami, kam pozorovaná hodnota závisle proměnné padá s předem zvolenou pravděpodobností.
20
(3–1)
Pro
β yx = 1,0 u = −0,98
a hypotézu tedy nelze zamítnout. Pro
β yx = 1,10
u = −2,79 a hypotézu zamítáme. Mezi realizací konfidenčního intervalu a výsledkem testu je nám již známý vztah: pokud konfidenční interval hodnotu obsahuje, hypotéza se nezamítá a naopak. (3–2)
S použitím příslušných kvantilů normovaného normálního rozdělení vypočteme šířky
66,8 a 104,5 kPa.
1.
Sestrojte 95% oboustranný konfidenční interval pro sdružený regresní koeficient β XY z příkladu 1.4.
2.
Pro stejná data ověřte hypotézu
3.
Sestrojte 95% oboustranný konfidenční interval pro sdruženou regresní přímku, kde ξ = E( X | y) .
4.
Sestrojte 95% oboustranný pás spolehlivosti pro pozorované hodnoty
β XY = 0,70 .
21
X.