ROBUST’2004
c JČMF 2004
INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH Lucie Belzová Klíčová slova: Pořadí, sekvenční pořadí, Wilcoxonův test. Abstrakt: Tématem článku jsou „klasickáÿ a sekvenční pořadí. Jsou zde uvedeny jejich definice, základní vlastnosti a vztah mezi nimi. Dále je ukazáno, že testové statistiky založené na pořadích resp. na sekvenčních pořadích (tj. v testové statistice nahradíme „klasickéÿ pořadí sekvenčním) jsou za určitých předpokladů ekvivalentní.
1
Pořadí a sekvenční pořadí
Nechť X1 , . . . , Xn jsou nezávislé náhodné veličiny se spojitou distribuční funkcí F . Náhodné veličiny X1 , . . . , Xn uspořádáme podle velikosti a nejmenší z nich označíme X(1) , druhou nejmenší X(2) až největší X(n) . Platí tedy X(1) ≤ X(2) ≤ . . . ≤ X(n) . X(i) se nazývá i-tá pořádková statistika. Jestliže náhodná veličina Xi je j-tá co do velikosti mezi veličinami X1 , . . ., Xn , tj. (Xi = X(j) ), pak pořadí Rin této veličiny je rovno číslu j. Hodnota Rin je tedy rovna počtu těch veličin, které jsou menší nebo rovny Xi . Dále definujeme sekvenční pořadí Rii náhodné veličiny Xi jako pořadí Xi mezi veličinami X1 , . . . , Xi . Barndorff-Nielsen [1] dokázali, že náhodné veličiny R11 , R22 , . . . Rnn jsou nezávislé a platí P(Rii = ri ) =
1 , i
ri = 1, . . . , i;
i = 1, . . . , n.
Uvažujme lineární pořadovou statistiku následujícího tvaru: n X Rin Tn = cin Jn , n+1 i=1
(1)
i kde c1n , c2n , . . . cnn jsou známé regresní konstanty a Jn ( n+1 ) pro i = 1, . . . , n jsou skóry generované následujícím způsobem: i Jn = EJ(U(i) ), n+1
kde U(i) je i-tá pořádková statistika z n nezávislých rovnoměrně rozdělených náhodných veličin na intervalu (0, 1). Dále předpokládáme, že Z 1 J(u)du = 0, (2) 0
10
Lucie Belzová Z
0<
1
J 2 (u)du = A < ∞
0
a
n X
cin = 0.
(3)
(4)
i=1
Nyní uvažujme statistiku založenou na sekvenčních pořadích: n X Rii , Mn = (cin − c¯i−1,n )Ji i+1 i=1
kde
(5)
i−1
c¯i−1,n =
1 X cjn i − 1 j=1
a
c¯0,n = 0.
Tedy Mn je součtem nezávislých náhodných veličin. Mason [3] dokázal, že pokud platí max n 1≤i≤n P
j=1
c2in
= o(1)
(cjn − c¯nn )2
jsou statistiky Tn a Mn asymptoticky ekvivaletní podle kvadratického středu, tj. platí Tn − Mn n→∞ E −→ 0, (6) σn2 kde σn2 = varTn .
2
Dvouvýběrový Wilcoxonův test
Nechť X1 , . . . , Xm resp. Y1 , . . . , Yn je náhodný výběr z rozdělení s distribuční funkcí F resp. G. Dvouvýběrový Wilcoxonův test testuje hypotézu, že distribuční funkce F a G jsou stejné, tj. H0 : F = G, proti alternativě posunutí v poloze, tzn. H1 : G(x) = F (x − ∆), ∆ 6= 0. Veličiny X1 , . . . , Xm , Y1 , . . . , Yn (tzv. sdružený výběr) uspořádáme vzestupně podle velikosti a označíme RiN , i = 1, . . . N, (N = m + n) pořadí i-té veličiny ze sdruženého výběru. Pak Wilcoxonova statistika je rovna součtu pořadí druhého výběru, tedy WN =
N X
RiN .
i=m+1
Platí TN = WN pro volbu J(u) = u a ciN
= =
0 1
i = 1, . . . , m i = m + 1, . . . , N.
(7)
11
Inference založená na sekvenčních pořadích
Bohužel pro tuto skórovou funkci a tyto regresní konstanty neplatí podmínky (2) a (4), proto upravíme volbu následovně: J(u) = u − ciN
= =
n −N
1 2
i = 1, . . . , m i = m + 1, . . . , N.
m N
Potom pořadové statistiky TN a MN jsou rovny: TN = −
MN
m N RiN n X RiN 1 m X 1 − + − N i=1 N + 1 2 N i=m+1 N + 1 2
n =− N
N X 1 m Rii 1 R11 − + − , 2 i−1 i+1 2 i=m+1
(8)
(9)
protože ciN − c¯i−1,N
3 3.1
= = =
n −N 0 m i−1
i=1 i = 2, . . . , m i = m + 1, . . . , N.
Simulace Normální rozdělení
Uvažujme náhodné výběry X1 , . . . , Xm z N(0, 1) a Y1 , . . . , Ym z N(∆, 1), kde ∆ = 0, 0.25, 0.5, 0.75, 1, 1.5, 2, 2.5, 3. Pro rozsahy výběrů m = 15, n = 20 resp. m = n = 50 resp. m = n = 100 a různé velikosti posunutí (∆) byly spočteny testové statistiky Tn (Wilcoxonova) a Mn („sekvenční Wilcoxonovaÿ)a obě byly porovnány s kritickou hodnotu Wilcoxonova testu na hladině spolehlivosti α = 0.05. Pro každou kombinaci volby rozsahu a posunutí se provedlo 1000 simulací. procentuální zastoupení shodných rozhodnutí Wilcoxonova a „Wilcoxonova sekvenčníhoÿ testu pro jednotlivé situace. Je vidět, že s rostoucími rozsahy výběrů jsou rozhodnutí testů ve více případech stejná. Dále, jak bychom očekávali, počet shodných rozhodnutí roste s rostoucím posunutím od určité hodnoty posunutí p (závisí na rozsazích výběrů). A naopak, pokud posunutí ∆ je mezi 0 a p, počet stejných rozhodnutí klesá. Pro m = 15, n = 20 a ∆ = 0.75 jsou v tabulce (Tab. 2) a v grafu (Graf 2) uvedeny počty jednotlivých možností rozhodnutí obou testů. (Tato kombinace parametrů měla nejméně shodných rozhodnutí 79,5%.) Pro ostatní kombinace parametrů je situace obdobná, tj. sekvenční test je slabší než Wilcoxonův.
12
Lucie Belzová ∆ 0 0,25 0,5 0,75 1 1,5 2 2,5 3
m=15,n=20 95,0 92,6 88,0 79,5 84,8 97,3 99,8 100,0 100,0
m=n=50 98,3 94,9 93,5 97,4 100,0 100,0 100,0 100,0 100,0
m=n=100 98,4 94,6 98,3 100,0 100,0 100,0 100,0 100,0 100,0
Tabulka 1: Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro normální rozdělení (v procentech).
Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro normální rozdělení (v procentech)
procenta
100 95 90 85 80 75 0
0,25
0,5
0,75
1
1,5
2
2,5
posunutí m=15,n=20
m=n=50
m=n=100
Graf 1
Sekvenční zamítl nezamítl
Wilcoxon zamítl nezamítl 368 0 205 427
Tabulka 2: Normální rozdělení, m = 15, n = 20, ∆ = 1, 5.
3
13
Inference založená na sekvenčních pořadích
Sekven ní
X1 ,...X15 ~ N(0,1), Y1 ,...Y20 ~N(0.75,1)
nezamitl
205
zamitl
368
427
nezamitl
zamitl Wilcoxon
Graf 2
3.2
Logistické rozdělení
Vzhledem k tomu, že Wilcoxonuv test je lokálně nejsilnejší pořadový test (viz [2]) pro logistické rozdělení, byla obdobná simulace provedena i pro logistické rozdělení L(a, b), které má hustotu f (x) =
exp{− x−a b } 2 (1 + exp{− x−a b })
x, a ∈ R,
b > 0.
Analogicky jako u normálního rozdělení se nagerovaly náhodné výběry X1 , . . . , Xm z L(0, 1) a Y1 , . . . , Ym z L(∆, 1), kde ∆ = 0, 0.25, 0.5, 0.75, 1, 1.5, 2, 2.5, 3, 3.5, 4 a m = 15, n = 20 resp. m = n = 50 resp. m = n = 100. Výsledky jsou obdobné jako u normálního rozdělení. Dle tabulky (Tab. 3) a grafu (Graf 3) je patrné, že opět počet shodných rozhodnutí Wilcoxonova a sekvenčního testu roste s rozsahem výběrů a velikostí posunutí od určité hodnoty posunutí p. Při pevných rozsazích a když ∆ ∈ h0, pi, počet stejných rozhodnutí klesá. Jako v případě normálního rozdělení i pro logistické rozdělení je zde uveden graf (Graf 4) a tabulka (Tab. 4) se zastoupením jednotlivých rozhodnutí obou testů pro kombinaci parametrů, u které bylo nejméně shodných rozhodnutí. Tentokrát tato situace nastala opět pro rozsahy výběrů m = 15, n = 20, ale velikost posunutí je větší a to 1,5. Pro ostatní kombinace parametrů je rozložení rozhodnutí obdobné,tedy opět můžeme prohlásit, že Wilcoxonův test je silnější než-li sekvenční.
14
Lucie Belzová ∆ 0 0,25 0,5 0,75 1 1,5 2 2,5 3 3,5 4
m=15,n=20 95,6 94,4 93,6 87,1 86,1 84,0 88,8 96,7 98,8 99,6 100,0
m=n=50 98,5 96,0 94,1 91,1 94,5 99,4 100,0 100,0 100,0 100,0 100,0
m=n=100 98,8 97,5 95,2 96,3 99,3 100,0 100,0 100,0 100,0 100,0 100,0
Tabulka 3: Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro logistické rozdělení (v procentech).
Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro logistické rozdělení (v procentech) 100 procenta
95 90 85 80 75 0
0,25 0,5 0,75
1
1,5
2
2,5
3
3,5
posunutí m=15,n=20
m=n=50
m=n=100
Graf 3
Sekvenční zamítl nezamítl
Wilcoxon zamítl nezamítl 515 0 160 325
Tabulka 4: Logistické rozdělení, m = 15, n = 20, ∆ = 1, 5.
4
15
Inference založená na sekvenčních pořadích
Sekven ní
X1,...X15 ~ L(0,1), Y1 ,...Y20 ~L(1.5,1)
nezamitl
160
zamitl
515
325
zamitl nezamitl Wilcoxon
Graf 4
4
Závěr
Pro normální a logistické rozdělení jsme nevyvrátili platnost vztahu (6), tj. v testové statistiky Tn a Mn jsou asymptoticky ekvivaletní podle kvadratického středu. Dále se ukázalo, že Wilcoxonův test je silnější než jeho sekvenční analogie. A za třetí čím větší posunutí u druhého výběru uvažujeme, tím více je shodných rozhodnutí uvažovaných testů.
Reference [1] Barndorff-Nielsen O. (1963). On the limit behaviour of extreme order statistics. The Annals of Matematical Statistics 34, 992 – 1002. [2] Jurečková J. (1981). Pořadové testy. SPN Praha. [3] Mason David M. (1981). On the use of a statistic based on sequential ranks to prove limit theorems for simple linear rank statistics. The Annals of Statistics 9, 424 – 436. Poděkování: Tato práce je podporována výzkumným záměrem MSM 113200008. Adresa: L. Belzová, KPMS, MFF UK, Sokolovská 83, Praha 8 - Karlín E-mail :
[email protected]