TESTY ZALOZ ENE NA REGRESNICH POR ADOVY CH SKO RECH Jan PICEK TU Liberec, KPDM Abstract: In this paper we construct a class of regression rank scores tests in the linear mixed model where some of the predictors are nonstochastic and some are stochastic. The tests are based on regression rank scores, introduced by Gutenbrunner and Jureckova (1992) as dual variables to the regression quantiles of Koenker and Bassett (1978). Their properties are analogous to those of the corresponding rank tests in location model. Rezme: V to stat~e my konstruiruem klass kriteriev v lineno smexanno modeli, t. e. , nekotorye stolbce regressionno matricy sluqanye i nekotorye nesluqanye. Kriterii vyvedny na osnove regressionnyh rangovyh metok, kotorye vveli C. Gutenbrunner i . reqkova (1992) kak dvuhstvennye peremennye k regressyonnym kvantilam, kotorye vveli v 1978 godu R. Koenker i G. Bassett. Svostva tih kriteriev anlogiqny svostvam sootvetstvuxih rangovyh kriteriev v modeli sdviga.
1. U vod Budeme uvazovat nasledujc linearn regresn model Y = X + E ;
(1)
kde Y = (Y1 ; : : : ; Yn ) je vektor pozorovan, X je n 0 p rozmerna regresn matice vysvetlujcch promennych, = ( 1 ; : : : ; p ) 2 IRp je vektor neznamych parametru a E = (E1 ; : : : ; En ) je vektor chyb. Snaha po zobecnen L-odhadu parametru polohy na regresn model vedla k zaveden pojmu regresn -kvantil. R. Koenker a G. Basset [11] ho de novali v modelu (1) nasledovne: Regresnm -kvantilem b () (0 < < 1) v modelu linearn regrese (1) nazyvame kazdy vektor t 2 IRp , ktery je resenm n X i=1
kde
(Yi ; x0i t) := min; t
(x) = x (x); x 2 IR1
(2)
a
(x) = ; I[x<0] ;
x 2 IR1 :
Studiem asymptotickych vlastnost regresnch kvantilu a konstrukc odhadu na nich zalozenych se dale napr. zabyvali D. Ruppert a R. Carrol [13], Jureckova [7, 8] , Antoch a Jureckova [1], C. Gutenbrunner [2]. Koenker a Basset v [11] charakterizovali regresn - kvantil b () jako slozku b optimalnho resen ulohy parametrickeho linearnho programovan, ktera ma nasledujc tvar:
10n u+ + (1 ; )10n u; := min b + u+ ; u; = Y X b 2 IRp ; u+ ; u; 2 IR+n 0 < < 1
(3)
Autori tez uvazovali i dualn ulohu, ale jej resen vyuzvali jen k vypoctu regresnch kvantilu. Optimaln resen a^() = (^a1 (); : : : ; a^n ())0 2 IRn jej ekvivalentn verze dualn ulohy Y0 a^ := max X0 a^ = (1 ; )X0 1n a^ 2 [0; 1]n
(4)
nazvali Gutenbrunner a Jureckova [3] regresnmi poradovymi skory a ukazali, ze dualitu mezi poradkovymi statistikami a poradm v modelu polohy lze prirozene zobecnit na klasicky linearn regresn model (1). Motivac k zaveden regresnch poradovych skoru je, ze v prpade modelu polohy (tj. X = 1n ) 8 <
1 jestlize (Ri ; 1)=n a^i () a (Ri ; ) : Ri ; n jestlize (Ri ; 1)=n < Ri =n ; (5) 0 jestlize Ri =n < kde Ri je porad Yi mezi Y1 ; : : : ; Yn . Funkce a (j; ); j = 1; : : : ; n; 0 < < 1
je presne taz, kterou zavedl Hajek v r. 1965. Navrhl tehdy rozsren Kolmogorov-Smirnovova testu, jehoz kriterium je P funkcional procesu fTn() = ni=1 cni an (Ri ; ); 0 1g a ukazal, ze asymptoticke rozdelen tohoto kriteria je shodne s asymptotickym rozdelenm obycejneho Kolmogorov-Smirnovova testu. Nejen Kolmogorov-Smirnovuv test, ale i standardn (linearn) poradove testy mohou byt vyjadreny jako funkcionaly procesu Tn(). Prirozene se tedy naskytla otazka, zda lze konstruovat testy zalozene na regresnch poradovych skorech jako analogii poradovych testu. Prvn idea
se objevila v praci Gutenbrunnera a Jureckove v [3], teorie vsak byla aplikovatelna pouze na testy s useknutou skorovou funkc. Obecna trda testu zalozenych na regresnch poradovych skorech byla zkonstruovana v clanku Gutenbrunnera, Jureckove, Koenkera a Portnoye [4]. Hlavnm metodologickym nastrojem pro odvozen asymptotickych vlastnost testu je asymptoticka reprezentace regresnch kvantilu, stejnomerna v . Testy Kolmogorov{Smirnovova typu zalozenych na regresnch poradovych skorech odvodila Jureckova [9]. Algoritmus pro vypocet regresnch poradovych skoru popsali R. Koenker a V. d'Orey v [12]. V tomto prspevku se budeme zabyvat testy zalozenymi na regresnch poradovych skorech ve smsenem modelu, tj. za predpokladu, ze nektere sloupce regresn matice jsou nahodne.
2. Vlastnosti regresnch poradovych skoru Z duality mezi b () a a^() vyplyva
a^i () =
(
1 jestlize Ei > x0i ( b () ; ()) 0 jestlize Ei < x0i ( b () ; ())
a X
kde
i2M
a^i ()xi = (1 ; )
n X i=1
xi ;
n X i=1
(6)
I [Ei > x0i ( b () ; ())]xi ;
M = fi : Ei = x0i ( b () ; ())g:
Z vlastnost regresnch poradovych skoru pri konecnem n je patrne nejdulezitejs jejich invariance vzhledem k regresi s matic X, plynouc prmo z de nice (4): a^(; Y + Xb) = a^(; Y); 8 b 2 IRp ; (7) ktera je rozsrenm invariance porad (nebo poradovych skoru (5)) vzhledem k posunut v poloze. Na zaklade reprezentace regresnch kvantilu Gutenbrunner a kol. v [4] odvodili asymptotickou reprezentaci a rozdelen procesu regresnch poradovych skoru v modelu (1), pricemz uvazovali nasledujc predpoklady. Chyby E1 ; : : : ; En jsou nezavisle stejne rozdelene nahodne veliciny s distribucn funkc F a hustotou f , ktere splnuj tyto podmnky (A.1) jF ;1 ()j c((1 ; ));a pro 0 < 0 ; 1 ; 0 < 1; kde 0 < a 1=4 ; "; " > 0 a c > 0.
(A.2) f (F ;11()) c((1 ; ));1;a pro 0 < 0 ; 1 ; 0 < 1; c > 0. (A.3) Hustota f (x) je absolutne spojita, je kladna a omezena na na intervalu (A; B ) a klesajc pro x ! A+ a x ! B ;, kde ;1 A supfx : F (x) = 0g a 1 B inf fx : F (x) = 1g: Derivace f 0 je omezena.
0 (A.4) ff ((xx)) cjxj pro jxj K 0; c > 0.
Matice X vyhovuje temto pozadavkum (B.1.) xi1 = 1; i = 1; : : : ; n: (B.2.) limn!1 Dn = D, kde matice Dn = n;1 X0 X a D je pozitivne de nitn p p rozmerna matice. P (B.3.) n;1 ni=1 jjxi jj4 = O(1) pro n ! 1. ;
(B.4.) max1in jjxi jj = O n(2(b;a);)=(1+4b) pro nejake b > 0 a > 0 takove , ze 0 < b ; a < "=2 . Poznamenejme, ze vyse uvedene podmnky splnuje napr. normaln, logisticke a t rozdelen s peti a vce stupni volnosti. Veta 1 Necht' dn = (dn1 ; : : : ; dnn )0 je vektor splnujc nasledujc podmnky:
(C.1) X0 n dn = 0;
(C.2)
n;1 (C.3)
n X i=1
n 1X 2 2 2 n dni ! ; 0 < < 1 i=1
jdni j = O(1) pro n ! 1 3
max jdni j = O n(2(b;a);)=(1+4b) ; 1in
kde ; a; b jsou dany podmnkou (B.4). Dale necht' jsou v modelu (1) splneny podmnky (A.1)-(A.4) a (B.1)-(B.4). Potom plat
i)
( sup 01
)
n
X n;1=2 dni (^ani () ; a~i ())
kde
i=1
! 0 pro n ! 1; (8)
a~i () = I [Ei > ] i = 1; : : : ; n:
ii)
(
Proces
(9) )
n
X ;1 n;1=2 dni a^ni () : 0 1
i=1
(10)
konverguje k Brownovu m ustku v Prochorove topologii na C [0; 1].
3. Linearn regresn poradova statistika Protoze ve trde linearnch poradovych testu dulezitou roli zaujmaj linearn poradove statistiky, uvazovali Gutenbrunner a kol. [4] analogicky linearn regresn poradovou statistiku
Sn = n;1=2
n X i=1
dni^bni
(11)
se skory b^ n = (^bn1 ; : : : ; ^bnn )0 generovanymi neklesajc skorovou funkc
'(t) : (0; 1) ! IR ; 0 <
Z
1
1
0
'2 (t)dt < 1
(12)
a de novanymi jako integral ^bni = ;
Z
0
1
'(t)da^ni (t); i = 1; : : : ; n:
(13)
Odvodili tez asymptotickou reprezentaci statistiky Sn (11). Veta 2 Necht' '(t) je neklesajc funkce dana v (12) takova, ze jej derivace '0 (t) existuje pro 0 < t < 0 ; 1 ; 0 < t < 1 a splnuje k'0 (t)k c(t(1 ; t));1; (14) pro nejake , kde splnuje (B.4), a pro t 2 (0; 0 ) [ (1 ; 0 ; 1). Jestlize jsou splneny podmnky (A.1)-(A.4), (B.1)-(B.4) a (C.1)-(C.3) potom Sn ma reprezentaci n X (15) Sn = n;1=2 dni '(F (Ei )) + op (1): i=1
Tuto vetu rozsrme na situaci, kdy koe cienty v linearn regresn poradove statistice jsou nahodne. Oznacme-li koe cienty jako z1n : : : znn , potom msto podmnek (C.1)-(C.3) budeme uvazovat tyto predpoklady: (D.1) zn = (z1n ; : : : ; znn )0 je nezavisly nahodny vyber z rozdelen s distribucn funkc G, ktera ma spojitou hustotu g. (D.2) IE jz1 j3 < 1. (D.3) Vektory zn a En jsou nezavisle. Jako H oznacme sdruzenou distribucn funkci G F . Veta 3 Necht' '(t) je neklesajc funkce dana v (12) takova, ze jej derivace
'0 (t) existuje pro 0 < t < 0 ; 1 ; 0 < t < 1 a plat pro n j'0 (t)j c(t(1 ; t));1; (16) pro nejake < , kde splnuje (B.4), a pro t 2 (0; 0 ) [ (1 ; 0 ; 1). Potom za platnosti predpoklad u (A.1)-(A.4), (B.1)-(B.4), (D.1)-(D.3) ma statistika
Sn asymptotickou reprezentaci Sn = n;1=2 kde
n X i=1
(zni ; zbni )'(F (Ei )) + op (1);
(17)
zbni = Hnzni ; i = 1; : : : ; n a Hn = Xn (X0 n Xn );1 X0 n
D ukaz. Pro potreby d ukazu cme ri = n;1=2 (bbi ;'(F (Ei ))); i = 1; : : : ; n P ozna
a statistiku Sn = n;1=2 ni=1 (zni ; zbni )'(F (Ei )). Clem je tedy ukazat, ze Sn ; Sn = op (1). Z podmnky (D.3) plyne, ze r = (r1 ; : : : ; rn )0 a (zn ; bzn ) jsou nezavisle. Predpokladejme jeste, ze rozptyl z1n = 2 . Nejprve poctejme nasledujc podmneny moment
IEG (Sn ; Sn )2 E1 ; : : : ; En = IEG (zn ; bzn )0 r (zn ; bzn )0 r E1 ; : : : ; En
= r0 IEG (In ; Hn )zn z0n (In ; Hn )0 E1 ; : : : ; En r =
= r0 (In ; Hn)2 In (In ; Hn )r Stac si uvedomit, ze vzhledem k (B.1) plat (In ; Hn )1n = 0n , a tedy (In ; Hn )IE Zn = 0n . Dale vme, ze projekcn matice je idempotentn a symetricka.
Z de nice podmnene stredn hodnoty tak zskavame Z
B
(Sn ; Sn )2 dH (E1 ); : : : ; dH (En ) = =
kazde B 2 IRn .
Z 2
B
((I ; H)r)0 ((I ; H)r) dF (E1 ); : : : ; dF (En )
pro Tvrzen potom vyplyva z vety 2 ((In ; Hn)r = op (1)).
2
4. Testy ve smsenem modelu Uvazujme nyn linearn regresn model (1) ve tvaru Yn = Xn + Zn + En ;
(18)
kde a jsou r a q rozmerne nezname parametry, Xn je pevna n r rozmerna pevna matice, Zn je n q rozmerna nahodna matice, Y je n rozmerny vektor pozorovan a E je n rozmerny vektor nezavislych stejne rozdelenych chyb. Zajmat nas bude problem testu hypotezy
H0 : = 0;
je neurceno
(19)
proti Pitmanove alternative
Hn : = n;1=2 0 ;
( 0 2 IRq pevne):
(20)
Predmetem nasich uvah budou linearn testy zalozene na regresnch poradovych skorech, ktere jsou podobne jako obvykle poradove testy zalozeny na linearnch regresnch poradovych statistikach. Protoze za platnosti H0 regresn poradove skory odpovdaj submodelu Yn = Xn + En
(21)
pracujeme pri jejich vypoctu pouze s matic Xn , tj. tedy s nenahodnou matic. Lze tedy vyuzt vysledku z predchazejc casti. Budeme proto uvazovat, ze matice Zn splnuje nasledujc podmnky: (E.1) Matice Zn ma nezavisle stejne rozdelene radky zi ; i = 1; : : : ; n. Jde tedy o nezavisly nahodny vyber z rozdelen vektoru z = (z1 ; : : : ; zq )0 s q rozmernou distribucn funkc G, ktera ma spojitou hustotu g.
(E.2) IE kzk3 < 1. (E.3) Matice Zn a vektor En jsou nezavisle. Jako H oznacme sdruzenou distribucn funkci G F , resp. h jako sdruzenou hustotu g f . Zaved'me jeste nasledujc oznacen b n )0 (Zn ; Z b n ); Qn = n;1 (Zn ; Z (22) kde b n = Hn Zn a Hn = Xn (X0 n Xn );1 X0 n : Z (23) Tedy Zb n je projekce matice Zn do prostoru tvoreneho sloupci matice Xn . Jako testovou statistiku pro test hypotezy (19) uvazujeme 0 ;1
kde
Tn = SnAQ2 (n')Sn ; A (') =
Z
2
a
0
1
('(t) ; ') dt; ' =
(24) Z
2
^n; b n )0 b Sn = n;1=2 (Zn ; Z
0
1
'(t)dt
pricemz skory bn = (^bn1 ; : : : ; ^bnn )0 jsou vypocteny na zaklade regresnch poradovych skoru odpovdajcch submodelu (21). Test je zalozen na asymptotickem rozdelen Tn za platnosti H0 danem nasledujc vetou, ktera zaroven udava asymptoticke rozdelen Tn za lokaln alternativy Hn . Veta 4 Predpokladejme, ze matice Xn splnuje podmnky (B.1)-(B.4) a matice Zn podmnky (E.1)-(E.3). Dale predpokladejme, ze F splnuje (A.1)(A.4). Necht' Tn je statistika de novana v (24), pricemz skorova funkce ' dana v (12) splnuje (16). Predpokladejme, ze existuje limn!1 IEG Qn = Q a je to pozitivne de nitn matice. Potom i) za hypotezy H0 ma statistika Tn asymptoticky 2 s q stupni volnosti. ii) Za platnosti alternativy Hn ma Tn asymptoticky necentraln 2 rozdelen s q stupni volnosti a s parametrem necentrality 2 = 00 Q 0 2('; F )=A2 ('); (25) kde Z 1
2 ('; F ) = ; '(t)df (F ;1 (t)): (26) 0
D ukaz.(i) Z vety 3 plyne, ze za nulove hypotezy H0 ma statistika Sn asymp-
toticky stejne rozdelen jako statistika
b n )0 '(F (E)): Sn = n;1=2 (Zn ; Z
Asymptoticke rozdelen teto statistiky je podle centraln limitn vety q{ rozmerne normaln s nulovou stredn hodnotou (z podmnky B.1) a s variancn matic Q A2 ('). Tedy statistika Tn ma asymptoticky 2 s q stupni volnosti. (ii) Posloupnost lokalnch alternativ Hn je kontiguitn vzhledem k posloupQ nosti rozdelen s hustotami f ni=1 h(Yi ; x0i )g (rozdelen za nulove hypotezy). Potom veta 3 plat tez za Hn a statistika Sn ma tedy asymptoticky stejne rozdelen jako statistika Sn za Hn . Z faktu, ze asymptoticke rozdelen Sn je za Hn normaln se stredn hodnotou ('; F )Q 0 a s variancn matic QA2 ('), plyne pozadovane tvrzen. 2 Jako prklad volby ', muzeme vzhledem ke klasickym poradovym testum uvest '(t) =R t ; 1=2; 0 < t < 1 (coz odpovda Wilcoxonovu testu). Potom skory ^bni = a^ni (t)dt ; 1=2 a A2 (') = 1=12.
References [1] Antoch, J. and Jureckova, J. (1985). Trimmed LSE resistant to leverage points. Comp. Statist. Quarterly, 4, 329-339. [2] Gutenbrunner, C. (1986). Zur Asymptotik von Regressionquantileprozessen und daraus abgeleiten Statistiken. Ph.D. disertace, Universitat Freiburg. [3] Gutenbrunner, C. a Jureckova, J. (1992). Regression rank-scores and regression quantiles. Ann. Statist., 20, 305-330 [4] Gutenbrunner, C., Jureckova, J., Koenker, R. and Portnoy, S. (1993). Tests of linear hypotheses based on regression rank scores. Nonparametric Statistics, 2, 307-331. [5] Hajek, J. (1965). Extension of the Kolmogorov-Smirnov Test to the Regression Alternatives. Bernoulli-Bayes-Laplace, Proc. Intern. Research Seminar (J. Neyman and L. Le Cam, eds.), 45-60. Springer-Verlag., Berlin. [6] Hajek, J. a Sidak, Z. (1967). Theory of Rank Tests, Academia, Praha.
[7] Jureckova, J. (1983). Trimmed Polynomial Regression. Commentationes Mathematicae Universitatis Carolinae, 24, 4, 579-607. [8] Jureckova, J. (1984). Regression quantiles and trimmed least squares estimator under a general design. Kybernetika, 20, 345-357. [9] Jureckova, J. (1991). Tests of Kolmogorov-Smirnov type based on regression rank scores. Transactions of the 11th Prague Conf. on Information Theory, Statist. Decis. Functions and Random Processes, (J. A . Vsek, ed.), pp. 41-49. Academia, Prague. [10] Jureckova, J. (1996). Regression rank scores tests applied to heavy-tailed distributions., v recenznm rzen. [11] Koenker, R. a Bassett, G. (1978). Regression quantiles. Econometrica, 46, 33-50. [12] Koenker, R. a d'Orey, V. (1994). Remark on algorithm 229. Applied Statistics, 43, 410-414. [13] Ruppert, D. a Carroll, R. J. (1980) Trimmed least squares estimation in the linear model. J. Amer. Statist. Assoc., 75, 828-838