INFERENSI VEKTOR RATA – RATA Disusun untuk memenuhi salah satu tugas mata kuliah multivariat
Disusun oleh: Asti Aulia Rahman
(0607196)
Khaerunnisa Mahmudah
(060910)
Lucky Heriyanti Jufri
(0607103)
Risa Nur Vauzyah
(060933)
Syifa Insani
(060116)
PROGRAM STUDI MATEMATIKA JURUSAN PENDIDIKAN MATEMATIKA FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PENDIDIKAN INDONESIA 2009
KATA PENGANTAR
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan karunianya sehingga penyusun dapat menyelesaikan makalah ini dengan baik. Salam dan salawat selalu tercurahkan kepada junjungan kita nabi besar Muhammad SAW. Pada makalah ini akan dibahas mengenai inferensi vektor rata – rata pada normal multivariat. Penyusun menyadari bahwa dalam makalah ini masih terdapat banyak kekurangan. Penyusun mengharapkan kritik dan saran demi kesempurnaan dalam penyusunan makalah selanjutnya. Akhir kata semoga makalah ini dapat bermanfaat bagi penyusun dan para pembaca pada umumnya.
Bandung,
Juni 2009
Penyusun
DAFTAR ISI KATA PENGANTAR DAFTAR ISI BAB I PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Permasalahan 1.3 Tujuan Penulisan 1.4 Metode Penulisan 1.5 Sistematika Penulisan BAB II LANDASAN TEORI 2.1 Matriks Dispersi 2.2 Distribusi Normal Multivariat 2.3 Beberapa Distribusi Statisitik BAB III ISI 3.1 Plausibility dari µ0 BAB IV PENUTUP 4.1 Kesimpulan ....................................................................................................25 4.2 Saran...............................................................................................................25 DAFTAR PUSTAKA...........................................................................................26
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Ketika kita menggunakan statistika untuk menguji hipotesis maka muncullah dua macam hipotesis berupa hipotesis penelitian dan hipotesis statistika. Tepatnya hipotesis penelitian kita rumuskan kembali menjadi hipotesis statistika yang sepadan. Hipotesis statistika harus mencerminkan dengan baik maksud dari hipotesis penelitian yang akan diuji. Pada hakikatnya ada dua jenis hipotesis statistika. Jenis pertama adalah apabila data kita berupa populasi yang kita peroleh melalui sensus. Dengan data populasi, hipotesis statistika cukup berbentuk H. Tidak diperlukan hipotesis H0. Misalnya dalam hal rerata, hipotesis statistika itu berbentuk H: µX > 6. Jika data populasi memiliki rerata di atas 6 maka hipotesis diterima dan jika tidak maka hipotesis ditolak. Karena seluruh populasi sudah dilihat maka keputusan ini menjadi kepastian. Jenis kedua adalah apabila data kita berupa sampel yang kita peroleh melalui penarikan sampel. Biasanya sampel itu berupa sampel acak, baik dengan cara pengembalian maupun dengan cara tanpa pengembalian. Dengan data sampel, hipotesis statistika menjadi H0 dan H1. Misalnya dalam rerata, hipotesis statistika itu berbentuk H0: µX = 6 dan H1: µX > 6. Syaratnya adalah tiadanya pilihan ketiga. Dalam hal data sampel, sering terjadi bahwa hipotesis penelitian dirumuskan kembali menjadi H1. Pengujian hipotesis dilakukan melalui penolakan H0. Selanjutnya dengan syarat tidak ada pilihan ketiga pada hipotesis, maka penolakan H0 dapat diartikan sebagai penerimaan H1. Jadi pengujian hipotesis penelitian dilakukan melalui cara tak langsung yakni melalui penolakan H0 dan melalui tiadanya pilihan ketiga pada hipotesis. Dalam makalah ini akan dibahas pengujian hipotesis tentang perbedaan antara vektor rata-rata dan vektor konstan. Mirip halnya dengan pengujian hipotesis pada situasi univariat. tentang perbedaan antara rata-rata dan konstan. Pada situasi multivariat juga diperlukan syarat-syarat agar rumus-rumus untuk pengujian hipotesis itu berlaku. Pada pengujian hipotesis untuk univariat disyaratkan bahwa populasi yang bersangkutan berdistribusi normal. Sesuai dengan itu, pada pengujian hipotesis untuk multivariat disyaratkan bahwa populasi yang bersangkutan berdistribusi normal multivariat.
Untuk memperoleh metode utama dalam menentukan inferensi dari sample, kita akan memperluas konsep interval kepercayaan univariat
menjadi daerah kepercayaan
multivariate. Berdasarkan penjelasan pada bab sebelumnya, telah dijelaskan inferensi sampel dengan menggunakan int erval − T 2 simultan. Namun seringkali kita jumpai interval yang lebih pendek untuk bilangan m yang kecil, yaitu ketika m = p . Dalam hal ini, akan lebih mudah untuk menggunakan dan menetapkan interval kepercayaan yang relatif pendek, yang dibutuhkan untuk membuat kesimpulan (inference). Ketika ukuran sampel besar, pengujian hipotesis dan daerah kepercayaan untuk µ dapat dikonstruksi tanpa anggapan normalitas. Untuk jumlah n besar, kita dapat membuat taksiran tentang rata-rata populasi meskipun distribusi awalnya adalah diskrit. Masalah lain yang timbul adalah ketika beberapa nilai observasi hilang. Pengestimasian terhadap nilai yang hilang perlu dilakukan untuk mempermudah pengolahan dan menemukan statiska cukupnya.
1.2 Permasalahan 1.2.1 Rumusan Masalah 1. Pada dasarnya pengujian hipotesis vektor rata-rata polpulasi multivariat membahas mengenai hubungan antara vektor rata-rata populasi multivariat dengan konsistensitas data. Oleh karena itu rumusan makalah yang dapat diambil adalah apakah suatu vektor rata-rata populasi multivariat akan selalu konsisten dengan data yang dimiliki? 2. Perbedaan
pengujian
hipotesis
dengan
menggunakan
maksimum
2
likelihood dan hotteling T pada normal multivariate. 3. Menetapkan interval kepercayaan yang lebih pendek dari hotelling T2, yaitu dengan metode banferroni. 4. Menentukan interval untuk sampel besar 5. Mengetahui cara estimasi dan prediksi dari beberapa observasi yang hilang.
1.2.2 Pembatasan masalah Dalam makalah ini, masalah yang dibahas akan membahas pengujian hipotesis vektor rata-rata populasi multivariat serta landasan teori yang mendukungnya.
1.3 Tujuan Penulisan Tujuan dari penulisan makalah ini adalah untuk mengetahui dengan melakukan pengujian hipotesis apakah vektor rata-rata populasi merupakan sebuah nilai plausible untuk rata-rata populasi normal. Perbedaan pengujian hipotesis dengan menggunakan maksimum likelihood dan hotteling T2 pada normal multivariate.Menetapkan interval kepercayaan yang lebih pendek dari hotelling T2, yaitu dengan metode banferroni. Menentukan interval untuk sampel besar. Mengetahui cara estimasi dan prediksi dari beberapa observasi yang hilang. 1.4 Metode Penulisan Metode yang digunakan dalam penulisan makalah ini yaitu studi pustaka yang yang dilakukan di perpustakaan dan internet. 1.5 Sistematika Penulisan Sistematika penulisan makalah ini yaitu : a. BAB I Pendahuluan terdiri dari latar belakang masalah, rumusan masalah dan pembatasan masalah, tujuan penulisan, metode penulisan dan sistematika penulisan; b. BAB II Landasan teori yang berisi matriks dispersi, distribusi normal multivariat, dan beberapa distribusi statisitik. c. BAB III Isi yang membahas mengenai pengujian hipotesis apakah vektor rata-rata populasi merupakan sebuah nilai plausible untuk rata-rata populasi normal. Perbedaan pengujian hipotesis dengan menggunakan maksimum likelihood dan hotteling T2 pada normal multivariate.Menetapkan interval kepercayaan yang lebih pendek dari hotelling T2, yaitu dengan metode banferroni. Menentukan interval untuk sampel besar. Mengetahui cara estimasi dan prediksi dari beberapa observasi yang hilang. d. BAB IV Penutup yang berisi kesimpulan dan saran.
BAB II LANDASAN TEORI
2.1 Matriks Dispersi Pada situasi univariat, jika variabel acak X mempunyai daerah harga (atau nilainilainya adalah)
X 1 , X 2 ,K , X n , maka rata-ratanya adalah µ x =
variansnya adalah σ x2 =
X 1 , X 2 ,K , X n N
dan
1 N 2 ( xi − µ x ) . ∑ n i =1
Jika dari nilai-nilai X yang mungkin itu hanya tersedia satu sampel acaknya saja, misalnya X 1 , X 2 ,K , X n , maka rata-rata dan varians yang dapat dihitung adalah rata-rata dan varians sampel saja, yang merupakan taksiran bagi rata-rata dan varians tersebut. Rata-rata sx2 =
sampel
adalah
X=
X 1 , X 2 ,K , X n n
dan
varians
sampelnya
adalah
2 1 n Xi − X ) . ( ∑ n − 1 i =1
Pada situasi multivariat yang melibatkan p variabel acak X 1 , X 2 ,K , X p ; misalkan X ij menyatakan nilai ke-j dari variabel X i , dimana 1 ≤ j ≤ N .
X 11 X 21 X = M X N1
X 12 X 22 M XN2
X1 p L X2p O M L X Np L
Jika µi menyatakan rata-rata dari variabel X i , maka dapat disusun matriks rata-rata berorde Nθ xθ p sesuai dengan X di atas, yaitu
µ1 µ1 µ M µ1
µ2 L µ p µ 2 L µ p M
µ2
O M L µ p
dimana µi = µ Xi =
X 1i , X 2i ,K , X Ni . N
Ukuran yang mirip dengan σ X2 adalah Σ yang disebut matriks dispersi atau matriks varians-kovarians, dengan rumus
Σ=
1 ( X − µ )′ ( X − µ ) n
Dapat dihitung:
σ 12 σ 12 σ 21 σ 22 Σ= M M σ p1 σ p 2
L σ1p L σ2p O M L σ p2
1 dimana σ = N
N
2 i
σ jk =
1 N
∑(x r =1
ri
− µi )
∑∑ ( x N
N
t =1 s =1
sj
2
− µ j ) ( xtk − µk ) .
Telah kita kenal bahwa σ i2 disebut varians dari X i sedang σ jk disebut kovarians antara X j dan X k . Itulah sebabnya maka Σ disebut matriks varians-kovarians dari X.
Seperti yang telah ditunjukkan dalam bab 2, Σ =
1 A , dimana A adalah matriks Jumlah N
Kuadrat dan Hasil Silang (JKHS) dari X, dan dapat ditunjukkan bahwa JKHS(X) = A = ( X − µ )′ ( X − µ )
Σx12 ΣΣx1 x2 Σx22 ΣΣx2 x1 M M ΣΣx x ΣΣx x p 1 p 2
L ΣΣx1 x p L ΣΣx2 x p O M L Σx 2p
N
dimana
∑ x = ∑( X 2 i
r =1
− µi )
2
∑∑ x j xk = ∑∑ ( X sj − µ j ) ( X tk − µk ) N
dan
ri
N
t =1 s =1
perlu diingat bahwa σ jk = ρσ j ρσ k ,
ρ = koefisien korelasi antara X j dan X k ; dimana
σ j = simpangan baku dari X j ; σ k = simpangan baku dari X k ; σ jk = kovarians antara X j dan X k .
Jika nilai-nilai dua variabel tersebut hanya tersedia sampel acak n nilai dari tiap-tiap variabel, maka terdapat matriks data X 11 X 21 X = M X n1
X 12 L X 1 p X 22 L X 2 p O M M X n 2 L X np
Taksiran untuk matriks rata-rata u adalah rata-rata sampel X, yaitu matriks berorde n x p.
X1 X1 X = M X 1
X2 L X p X2 L X p M O M X 2 L X p
dimana X i =
X 1i , X 2i ,K , X ni n
Adapun taksiran untuk matriks dispersi, Σ , adalah matriks dispersi sampel, S ,yaitu matriks berorde p x p berikut ini
1 X − X )′ ( X − X ) ( n −1 1 1 2 ΣΣx1 x2 n − 1 Σx1 n −1 1 1 ΣΣx x Σx22 2 1 θ = n −1 n −1 M M 1 1 ΣΣx p x1 ΣΣx p x2 n −1 n −1 S=
s12 s θ = 21 M s p1
L s1 p L s2 p O M L s 2p
s12 s22 M sp2
∑ xi2 = ∑ ( X ri − X i ) n
dimana
1 ΣΣx1 x p n −1 1 L ΣΣx2 x p n −1 O M 1 L Σx 2p n −1 L
2
r =1
∑∑ x x = ∑∑ ( X n
j k
n
t =1 s =1
sj
− X j ) ( X tk − X k )
sii = si2 = varians sampel untuk X i 1 Σ x i2 n-1 s jk = kovarians sampel antara X j dan X k =
=
1 ΣΣ x j . x k n-1
2.2 Distribusi Normal Multivariat Variabel acak X dikatakan berdistribusi Normal dengan rata-rata = µ, dan varians = τ2, diamana τ > 0 , jika fungsi kepadatan probabilitas dari X tertentu oleh rumus X −µ σ
−1 1 2 f (X ) = e σ 2π
2
, untuk −∞ < X < ∞
Grafik dari y = f(X) merupakan kurva atau garis lengkung, yang lazim dikatakan berbentuk lonceng (irisan bentuk lonceng).
Pada situasi mutivariat, terlibat lebih dari satu variabel. Sekelompok variabel
(X ,X 1
2
,K , X p ) dikatakan berdistribusi normal p-variat dengan vektor rata-
rata µ = ( µ1 , µ 2 ,K , µ p )′ dan matriks varians-kovarians atau matriks dispersi Σ , jika fungsi kerapatan probabilitas bersama dari p-variabel itu tertentu oleh rumus.
f ( X 1 , X 2 ,K , X p ) =
1 Σ
1
2
( 2π )
p
e
−1 K 2
dimana
K = ( X − µ )′ Σ −1 ( X − µ ) X 1 − µ1 X 2 − µ2 −1 ∞ = ( X 1 − µ1 , X 2 − µ2 ,K , X p − µ p ) Σ M X p − µp
Tampak adanya kemiripan antara rumus fungsi kerapatan probabilitas univariat dan multivariat.
Σ
Pada univariat :
sehingga
( 2π )
p
K = ( X − µ ) (σ 2 ) X −µ ∞= σ
1
2
= (σ 2 )
1
2
= 2π , dan −1
( X − µ)
2
Khususnya jika p = 2, terdapat
= σ , diketahui p = 1 ,
σ 12 σ 12 σ Σ = 11 = σ 21 σ 22 ρσ 2σ 1 Σ = (1 − ρ 2 ) σ 12σ 22 ;
ρσ 1σ 2 σ 22
σ 22 Σ = (1 − ρ 2 )σ 12σ 22 − ρσ 2σ 1
− ρσ 1σ 2 σ 12
1
−1
X − µ1 K = ( X 1 − µ1 , X 2 − µ 2 ) Σ −1 1 X 2 − µ2 ρ 1 σ2 σ 1σ 2 X 1 − µ1 1 1 ∞ = ( X 1 − µ1 , X 2 − µ 2 ) 2 X 2 − µ2 ρ 1 ρ 1 − σ σ 2 2 1 σ2 2 2 ( X 1 − µ1 )( X 2 − µ2 ) 1 X 1 − µ1 X 2 − µ 2 2 ∞= + − 2 σ 1σ 2 1 − ρ σ 1 σ 2 Fungsi kerapatan probabilitas Normal Bivariat, dan rumusnya adalah
f ( X1, X 2 ) =
dimana
1 2πσ 1σ 2 1 − ρ 2
1 Q= 1− ρ 2
e
−1 Q 2
X − µ 2 X − µ 2 ( X 1 − µ1 )( X 2 − µ2 ) 2 1 1 + 2 −2 σ 1σ 2 σ 1 σ 2
ρ = korelasi antara x1 dan x 2 ; µi = rata-rata dari X i ; σ i = simpangan baku dari Xi ; Grafik dari z = f ( X 1 , X 2 ) merupakan luasan lengkung, mirip permukaan suatu lonceng. Kalau luasan lengkung ini dipotong dengan bidang datar yang sejajar dengan bidang ( X 1 , X 2 ) maka irisannya adalah suatu elips. Elips itu tertentu oleh suatu persamaan berbentuk Q = k, atau
X 1 − µ1 X 2 − µ2 ( X 1 − µ1 )( X 2 − µ2 ) = k + −2 σ 1σ 2 σ1 σ 2 2
2
Elips demikian, untuk harga-harga k yang sesuai, merupakan batas daerah penolakan H0 pada pengujian hipotesis dalam Analisis Bivariat dan disebut elips kerapatan sama.
2.3 Beberapa Distribusi Statistik Pada Statistika Univariat sudah dikenal sifat bahwa apabila X berdiatribusi N ( µ , σ 2 ) , yaitu berdistribusi Normal dengan rata-rata = µ dan varians = σ 2 , maka rata-rata sampel,
τ2 yaitu X, berdistribusi N µ , jika sampel itu adalah sampel acak sebesar n. n
Dengan kata lain
X −µ σ n
berdistribusi Normal Baku jika syarat-syarat tersebut dipenuhi.
Salah satu sifat yang telah terbukti secara matematis ialah bahwa apabila variabel v berdistribusi Normal Baku, sedang w = v 2 , maka w berdistribusi χ 2 dengan derajat kebebasan 1. Berhubung dengan itu maka
(X − µ) σ
2
2
n
atau n ( X − µ ) (σ 2 )
−1
(X − µ)
berdistribusi χ 2 dengan derajat kebebasan 1 apabila syarat-syarat tersebut di atas terpenuhi. Pada situasi multivariat terdapat sifat yang mirip dengan sifat tersebut. Apabila X 1 , X 2 ,K , X p berdistribusi Normal Multivariat N ( µ , Σ ) , dimana
µ = ( µ1 , µ 2 ,K , µ p ) , sedang Σ adalah matriks dispersi, sedang X = ( X 1 , X 2 ,K , X p )′ , menyatakan vektor rata-rata dari sampel acak, dan apabila
X 1 − µ1 X 2 − µ2 −1 W = n ( X 1 − µ1 , X 2 − µ2 ,K , X p − µ p ) Σ M X p − µp maka W berdistribusi χ 2 dengan derajat kebebasan p: dimana n menyatakan besarnya sampel. Pada situasi univariat, apabila σ 2 tak diketahui maka distribusi X dapat ditinjau dalam hubungannya dengan varians sampel, yaitu bahwa
X −µ s n
berdistribusi t dengan derajat
kebebasan n − 1 . Juga telah dibuktikan bahwa apabila variabel v berdistribusi t dengan derajat kebebasan n − 1 , sedangkan w = v 2 , maka W berdistribusi F dengan derajat kebebasan
(1, n − 1) . Berhubung dengan itu maka
( X − µ)n S
2
atau n ( X − µ ) ( s 2 )
−1
(X − µ)
berdistribusi F dengan derajat kebebasan (1, n − 1) . Pada situasi multivariat terdapat pula sifat yang mirip dengan itu. Misalkan
(X ,X 1
2
,K , X p ) berdistribusi denganvektor rata-rata µ = ( µ1 , µ 2 ,K , µ p ) , sedang
X = ( X 1 , X 2 ,K , X p )′ menyatakan vektor rata-rata dari sampel acak sebesar n , dan
X 1 − µ1 X 2 − µ2 −1 apabila W = n ( X 1 − µ1 , X 2 − µ2 ,K , X p − µ p ) S maka W berdistribusi Hotelling M X p − µp T 2 dengan derajat kebebasan ( p, n − p ) . Dalam rumus tersebut S adalah matriks dispersi sampel. Hotelling telah membuktikan bahwa apabila variabel W berdistribusi T 2 , dengan derajat kebebasan ( p, n − p ) maka
( p, n − p ) .
n− p W berdistribusi F dengan derajat kebebasan p ( n − 1)
Sifat-sifat dari distribusi statistik multivariat W tersebut dapat dimanfaatkan untuk menguji signifikansi perbedaan antara vektor rata-rata suatu populasi dan vektor konstan, atau perbedaan antara vektor-vektor rata-rata dua populasi. Pada situasi univariat tentang selisih rata-rata dari dua sampel acak yang bebas, yaitu X 1 − X 2 , diketahui bahwa statistik
(X
1
− X 2 ) − ( µ1 − µ 2 )
( n1 − 1) s12 + ( n2 − 1) s22 1 + n1
n1 + n2 − 2
1 n2
berdistribusi t dengan derajat kebebasan n1 + n2 − 2 , apabila a) Sampel pertama berasal dari populasi yang berdistribusi Normal, dengan rata-rata =
µ1 ; b) Sampel kedua berasal dari populasi yang berdistribusi Normal, dengan rata-rata = µ2 ; c) Kedua distribusi normal itu memeiliki varians yang sama; d) n1 = besarnya sampel pertama; n2 = besarnya sampel kedua; e) s12 = varians sampel pertama; s22 = varians sampel kedua. Maka dapat dituliskan:
(X
t=
1
− X 2 ) − ( µ1 − µ 2 )
( n1 − 1) s12 + ( n2 − 1) s22 1 + n1
n1 + n2 − 2
t2 =
( n1 + n2 − 2 ) n1n2 n1 + n2
( X
1 n2
, atau
− X 2 ) − ( µ1 − µ2 ) ( n1 − 1) s12 + ( n2 − 1) s22 2
1
−1
Jika W = t 2 , maka W berdistribusi F dengan derajat kebebasan (1; n1 + n2 − 2 ) .
Apabila σ 12 dan σ 22 berturut-turut menyatakan varians dari populasi pertama dan populasi kedua, maka
(X
1
− X 2 ) − ( µ1 − µ 2 )
σ 12 n1
+
σ 22
berdistribusi Normal Baku;
n2
2 2 σ σ2 yang berarti bahwa ( X 1 − X 2 ) − ( µ1 − µ2 ) 1 + 2 berdistribusi χ 2 dengan derajat n1 n2
kebebasan 1. Hal ini berlaku untuk keadaan σ 12 = σ 22 maupun σ 12 ≠ σ 22 Pada situasi multivariat, distribusi statistik mirip dengan distribusi di atas juga ada, asal dipenuhi syarat-syarat yang mirip dengan situasi univariat tersebut, yaitu a) Populasi pertama berdistribusi Normal p-variat dengan vektor rata-rata
µ1 = ( µ11 , µ12 ,K , µ1 p )′ ; b) Populasi kedua berdistribusi Normal p-variat dengan vektor rata-rata
µ2 = ( µ21 , µ 22 ,K , µ 2 p )′ ; c) Kedua populasi memiliki matriks varians-kovarians yang sama. Jika syarat-syarat itu dipenuhi, dan sampel pertama mempunyai vektor rata-rata
X 1 = ( X 11 , X 12 ,K , X 1 p ) dan matriks varians-kovarians S1 , sedang sampel kedua mempunyai vektor rata-rata X 2 = ( X 21 , X 22 ,K , X 2 p ) dan matriks varians-kovarians S2 , dan jika W =
n1θ n2 ( X 1 − X 2 ) − ( µ1 − µ2 ) ′ S p−1 ( X 1 − X 2 ) − ( µ1 − µ 2 ) n1θ n2
maka W berdistribusi T 2 dengan derajat kebebasan ( p; n1 + n2 − p − 1) dimana
1 S p = ( n1 − 1) S1 + ( n2 − 1) S2 . n + n − 2 1 2
n + n − p −1 Hal ini berarti pula bahwa 1 2 berdistribusi T 2 dengan derajat kebebasan p ( n + n − 2 ) W 1 2
( p; n1 + n2 − p − 1) . Jika Σ1 dan Σ 2 , berturut-turut adalah matriks varians-kovarians dari populasi pertama dan populasi kedua, baik untuk keadaan Σ1 = Σ 2 maupun untuk keaadaan Σ1 ≠ Σ 2 , maka X 1 − X 2 berdistribusi Normal p-variat dengan vektor rata-rata µ = ( µ1 − µ2 )′ dan matriks varians-kovarians Σ =
1 1 Σ1 + Σ 2 . n1 n2
BAB III ISI Oleh : Khaerunnisa Mahmudah (060910) 3.1 Plausibility dari µ0 sebagai sebuah nilai untuk sebuah rata-rata populasi normal.
Kita memulai dengan mengingat kembali teori univariat untuk menentukan jika sebuah nilai tertentu µ0 adalah nilai plausible untuk rata-rata populasi µ . Dari segi pandang pengujian hipotesis, masalah ini dapat dirumuskan sebagai suatu uji bersaing hipotesis. H 0 : µ = µ0 melawan H1 : µ ≠ µ0 Jika X 1 , X 2 ,K , X n adalah sample acak dari sebuah populasi normal pengujian statistik yang sesuai adalah t=
( X − µ ) ,θ∞dimanaθ∞X = 1
∑( X n
0
s
n
n
j =1
− X ) θ∞danθ∞s 2 = 2
j
2 1 n Xj −X) ( ∑ n − 1 j =1`
Uji statistik adalah mempunyai sebuah distribusi-t student’s dengan derajat kebebasan n – 1. Kita tolak H 0 , bahwa µ0 adalah sebuah nilai plausible dari µ , jika diamati t melebihi sebuah titik persentase tertentu dari sebuah distribusi dengan derajat n – 1. Tolak H 0 ketika t bernilai besar yang ekuivalen dengan menolak H 0 jika kuadratnya,
t
2
(X −µ ) =
2
0
2
s n
= n ( X − µ0 ) ( s 2 )
−1
(X −µ ) 0
(3 - 1)
bernilai besar. Variabel t 2 adalah kuadrat jarak dari rata-rata sampel X dengan nilai uji
µ0 . Unit jarak yang dinyatakan dalam pernyataan dari s
n atau simpangan baku yang
diperkirakan dari X . Ketika X dan s 2 telah diamati, uji menjadi: Tolak H 0 menuju ke H1 , pada taraf signifikansi α , jika n ( x − µ0 ) ( s 2 )
−1
( x − µ0 ) > tn2−1 (α 2 )
(3 - 2)
dimana tn −1 (α 2 ) menandakan batas atas 100 (α 2 ) th persentil dari distribusi-t dengan derajat kebebasan n – 1.
Jika H 0 tidak ditolak, kita menyimpulkan µ0 adalah sebuah nilai plausible untuk ratarata populasi normal. Apakah nilai lain dari µ akan selalu konsisten dengan data? Jawabannya ya! Pada kenyataannya selalu sebuah himpunan dari nilai plausible untuk sebuah rata-rata populasi normal. Dari yang diketahui hubungan antara daerah penerimaan untuk uji H 0 : µ = µ0 melawan H1 : µ ≠ µ0 dan interval kepercayaan untuk µ adalah {Jangan menolak H 0 : µ = µ0 pada level α } atau
x − µ0 ≤ tn −1 (α 2 ) s n
equivalen dengan s µ0 terletak pada interval kepercayaan 100 (1 − α ) x ± t n-1 (α 2 ) n atau x − tn −1 (α 2 )
s s ≤ µ0 ≤ x + tn −1 (α 2 ) n n
(3 - 3)
Interval konfidensi memenuhi semua nilai µ0 bahwa tidak akan ditolak oleh uji dari H 0 : µ = µ0 . Sebelum sampel dipilih, interval konfidensi 100 (1 − α ) % pada (3 - 3) adalah sebuah interval acak karena titik akhir tergantung pada variabel acak, X dan s . Kemungkinan bahwa interval memenuhi µ adalah 1 − α ; antar bilangan besar seperti interval independen, 100 (1 − α ) % akan memenuhi µ . Sekarang pertimbangkan masalah yang menentukan jika sebuah p × 1 vektor µ0 adalah sebuah nilai plausible untuk rata-rata dari sebuah distribusi normal multivariat. Kita akan
berproses oleh analogi dari pengembangan univariat
Suatu generalisasi kuadrat jarak pada (3 - 1) adalah analog multivariat S T = ( X − µ0 )′ n 2
−1
( X − µ ) = n ( X − µ )′ S ( X − µ ) −1
0
0
(3 - 4)
0
dengan
µ10 1 n 1 n ′ , θ∞dan∞ µ = µ20 X = ∑ X j , θ∞ S = X − X X − X ∑ ( j )( j ) 0 ( p x 1) n j =1 ( p x p ) n − 1 j =1` ( p x 1) M µ p 0 Statistik T 2 dinamakan Hotelling’s T 2 sebagai penghormatan pada Harold Hotelling, seorang pelopor dalam analisis multivariat, yang pertama mengamati distribusi sampling. Disini (1 n ) S adalah penaksir matrik kovarians dari X . Hal ini sesuai dengan teorema akibat yang menyatakan ” Diberikan X 1 , X 2 ,K , X n adalah sebuah sampel acak dari distribusi gabungan yang mempunyai rata-rata vektor µ dan kovarians matriks Σ . Maka X adalah estimator takbias dari µ dan kovarians matriksnya adalah
1 Σ” n
Jika diamati umumnya jarak T 2 terlalu besar sehingga x terlalu jauh dari µ0 maka hipotesis H 0 : µ = µ0 akan ditolak. Pada langkah berikutnya tabel khusus dari persentase titik T 2 tidak diperlukan untuk uji formal hipotesis. Ini benar karena T 2 akan berdistribusi
dimana F
p ,n− p
( n − 1) p F ( n − p ) p ,n − p
(3 - 5)
merupakan sebuah variabel acak dengan derajat kebebasan p dan n-p.
Untuk meringkas, disajikan sebagai berikut:
Diberikan X1 , X 2 , K , X n sebuah sampel dari sebuah populasi N p ( µ ,Σ ) . Maka dengan X =
1 n
n
∑X
j
dan S =
j=1
α = P T 2 >
1 ( n − 1)
( n − 1) p (n − p)
∑ (X n
j=1
j
− X )( X j − X )′ ,
Fp, n - p (α )
( n − 1) p F = P n ( X − µ )′ S-1 ( X − µ ) > (3 - 6) p, n - p (α ) (n − p) apapun yang benar µ dan Σ. Disini Fp, n - p (α ) adalah batas atas (100α ) th persentil dari distribusi Fp, n - p .
Pernyataan (3 - 6) menunjukan sebuah uji untuk hipotesis H 0 : µ = µ0 melawan
H1 : µ ≠ µ0 . Pada taraf signifikansi α , tolak H 0 menuju H1 jika
( n − 1) p F T 2 = n ( X − µ0 )′ S −1 ( X − µ0 ) > (n − p)
p ,n − p
(α )
(3 - 7)
Pada bagian sebelumnya kita gambarkan cara dimana distribusi Wishart generalisasi distribusi Chi-kuadrat. Dapat ditulis
n ′ ∑ ( X j − X )( X j − X ) j =1 n ( X − µ0 ) T 2 = n ( X − µ0 )′ n −1 yang mana berbentuk −1 vektor acak ′ matrik acak Wishart vektor acak normal multivariat derajat kebebasan normal multivariat
Ini beranalogi pada t 2 = n ( X − µ0 ) ( s 2 ) atau
−1
n ( X − µ0 )
−1 variabel ′ variabel acak Chi-kuadrat variabel derajat kebebasan acak normal acak normal
untuk kasus univariat. Karena normal multivariat dan variabel acak Wishart berdistribusi independen, dengan fungsi densitas gabungannya dari produk normal marginal dan distribusi Wishart. Dengan menggunakan kalkulus, distribusi T 2 seperti tersebut diatas dapat diperoleh dalam bentuk distribusi gabungan. Adalah jarang, dalam keadaan multivariat, isi dengan sebuah uji H 0 : µ = µ0 , dimana semua komponen vektor rata-rata adalah tertentu dibawah hipotesis nol. Biasanya lebih baik mencari daerah dari nilai µ sehingga plausible untuk memecah data yang diamati. Contoh 3.1 Diberikan data matrik untuk sebuah sampel acak berukuran n = 3 dari sebuah populasi normal bivariat
6 10 8 X = 9 6 3 Evaluasi yang diamati T 2 untuk µ0′ = [9,5] dan α = 0.05 . Apakah distribusi sampling dari kasus ini? Solusi
6 + 10 + 8 8 x 3 x = 1 = = x2 9 + 6 + 3 6 3 dan
s11
( 6 − 8 ) + (10 − 8) + (8 − 8) =
s22
(9 − 6) + ( 6 − 6) + (3 − 6) =
2
2
2
=4 2 ( 6 − 8)( 9 − 6 ) + (10 − 8 )( 6 − 6 ) + (8 − 8 )( 3 − 6 ) = −3 s12 = 2 2
2
2
2
=9
jadi 4 −3 S= −3 9 sehingga 9 3 13 1 S = = ( 4 )( 9 ) − ( −3)( −3) 3 4 19 -1
1 9 4 27
dan 1 T 2 = 3 [8 − 9, 6 − 5] 13 9
8 − 9 92 7 = − 3 1,1 [ ] 1 = 4 27 6 − 5 27 9 1 9
Sebelum sampel dipilih, T 2 memiliki distribusi dari sebuah variabel acak
( 3 − 1) 2 F ( 0.05 ) = ( 3 − 2 ) 2 , 3− 2 Tolak H 0 jika T 2 >
( n − 1) p F (n − p)
p ,n− p
4 F2 , 1 ( 0.05) =4 (199.5 ) =798
(α ) . Karena T 2 = 0.778 < 798 =
( 3 − 1) 2 F ( 0.05 ) ( 3 − 2 ) 2 , 3− 2
maka H 0 diterima sehingga µ0′ = [9,5] adalah sebuah nilai plausible untuk rata-rata populasi normal. Contoh 3.2 Perspirasi dari 20 wanita sehat dianalisis. Tiga komponen, X1 = sweat rate, X2 = sodium content, dan X3 = potassium content, telah diukur dan dinilai. Uji hipotesis
H 0 : µ ′ = [ 4,50,10] melawan H1 : µ ′ ≠ [ 4,50,10] pada taraf signifikansi α = 0.10 . Untuk datanya diberikan pada tabel berikut:
TABEL 3.1 SWEAT DATA X1
X1
X3
Individual
( Sweat rate )
( Sodium )
( Potassium )
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
3.7 5.7 3.8 3.2 3.1 4.6 2.4 7.2 6.7 5.4 3.9 4.5 3.5 4.5 1.5 8.5 4.5 6.5 4.1 5.5
48.5 65.1 47.2 53.2 55.5 36.1 24.8 33.1 47.4 54.1 36.9 58.8 27.8 40.2 13.5 56.4 71.6 52.8 44.1 40.9
9.3 8 10.9 12 9.7 7.9 14 7.6 8.5 11.3 12.7 12.3 9.8 8.4 10.1 7.1 8.2 10.9 11.2 9.4
Sumber : Courtesy of Dr. Gerald Bargman
Dari hasil perhitungan komputer diperoleh:
4.640 x = 45.400 , 9.965 dan
2.879 10.002 - 1.810 S = 10.002 199.798 - 5.627 - 1.810 - 5.627 3.628 0.586 - 0.022 0.258 S = - 0.022 0.006 - 0.002 0.258 - 0,002 0.402 -1
Sehingga akan diperoleh 0.586 - 0.022 0,258 4.640 − 40 T 2 = 20 [ 4.640 − 4, 45.400 − 50,9.965 − 10] - 0.022 0.006 - 0.002 45.400 − 50 0.258 - 0.002 0.402 9,965 − 10 0.467 llp = 20 [ 0.640, - 4.600,- 0.035] - 0.042 0.160 llp = 9.74 Membandingkan yang diamati
( n − 1) p F (n − p)
p ,n − p
(α ) =
(19 ) 3 F 17
3,17
T 2 = 9.74 dengan nilai kritisnya
( 0.10 ) = 3.353 ( 2.44 ) = 8.18
karena T 2 = 9.74 > 8.18, maka H 0 ditolak pada taraf signifikansi 10%. Kesimpulannya µ ′ = [ 4,50,10] merupakan suatu nilai plausible untuk µ . Satu bentuk dari statistik- T 2 adalah invarians (tanpa perubahan) di bawah perubahan didalam unit pengukuran dari X dengan bentuk
Y = C
( p×1)
X
( p× p ) ( p×1)
+ d , ( p×1)
C nonsingular
(3 - 8)
Sebuah transformasi dari pengamatan sesama muncul ketika sebuah konstanta bi adalah yang dikurangidari variabel ke-i untuk membentuk X i − bi dan hasil dari perkalian dengan konstanta ai > 0 untuk mendapatkan ai ( X i − bi ) . Sebelum perkalian yang berpusat dan berskala jumlahnya ai ( X i − bi ) oleh setiap matrik nonsingular akan menghasilkan persamaan (3 - 8). Karena sebuah contoh, operasi yang melibatkan penggantian X i dengan
ai ( X i − bi ) yang bersesuaian pada proses mengubah suhu dari Fahrenheit ke Celcius. Diberikan pengamatan x1 , x2 ,K , xn dan transformasi pada (3 - 8), akan mengikuti suatu teorema akibat yaitu
”Kombinasi linier dalam AX pada
a11 X 1 + a12 X 2 + K + a1 p X p a11 a X + a X + K + a X a 2p p 21 21 1 22 2 = M M O M M aq1 X 1 + aq 2 X 2 + K + aqp X p aq1
a12 a22 M aq 2
K a1 p X 1 K a2 p X 2 = AX O M M K aqp X p
memiliki vektor rata-rata sampel Ax dan kovarians matriks ASA′ ” Sehingga
y = C x + d dan S y =
1 n ∑ ( yi − y )( yi − y )′ = CSC ′ n − 1 j =1
Selanjutnya, oleh persamaan E ( X + Y ) = E ( X ) + E (Y ) E ( AXB ) = AE ( X ) B
dan persamaan kombinasi linier dari Z = CX mempunyai
µ Z = E ( Z ) = E ( CX ) = C µ x
Σ Z = Cov ( Z ) = Cov ( CX ) = C Σ X C ′
maka akan dihasilkan
µ y = E (Y ) = E ( CX + d ) = E ( CX ) + E ( d ) = C µ + d Oleh karena itu, T 2 dihitung dengan y’s dan sebuah nilai hipotesis µY ,0 = C µ0 + d adalah T 2 = n ( y − µY ,0 )′ SY−1 ( y − µY ,0 ) −1 = n ( C ( x − µ0 ) )′ ( CSC ′ ) ( C ( x − µ0 ) ) −1 = n ( x − µ0 )′ C ′ ( CSC ′ ) C ( x − µ0 ) −1 = n ( x − µ0 )′ C ′ ( C ′ ) S −1C −1C ( x − µ0 )
= n ( x − µ0 )′ S −1 ( x − µ0 ) Persamaan yang terakhir dikenali sebagai nilai dari T 2 dihitung dengan x’s.
Oleh : Risa Nur vauzyah (060933) 3.2 Hotteling T 2 dan Uji Perbandingan Likelihood Kita perkenalkan statistik- T 2 analogi dengan jarak kuadrat univariat, t 2 . Ada sebuah prinsip umum untuk mengkontruksi langkah-langkah pengujian yang disebut metode perbandingan likelihood dan statistik- T 2 dapat diperoleh sebagai uji rasio
likelihood dengan H 0 : µ = µ0 . Uji rasio likelihood memiliki beberapa sifat optimal yang layak untuk sampel besar, dan terutama sekali untuk perumusan hipotesis dalam pernyataan parameter normal multivariat. Kita ketahui bahwa maksimum likelihood normal multivariat sebagai µ dan Σ adalah bervariasi nilai kemungkinannya diberikan oleh
max L ( µ , Σ ) = µ ,Σ
1
( 2π )
np 2
Σˆ
n2
e−n p 2
(3-9)
1 n 1 n dimana Σˆ = ∑ ( x j − x )( x j − x )′ dan µˆ = x = ∑ x j n j =1 n j =1 adalah penaksir maksimum likelihood. Sebagai pengingat bahwa penaksir maksimum likelihood µˆ dan Σˆ dipilih dari µ dan Σ yang merupakan alasan terbaik untuk nilai yang diamati dari sampal acak. Untuk hipotesis H 0 : µ = µ0 , normal likelihood mengkhususkan pada
L ( µ0 , Σ ) =
1
( 2π )
np 2
Σˆ
n2
1 n exp − ∑ ( x j − µ0 )′ Σ −1 ( x j − µ0 ) 2 j =1
(3-10)
Untuk menentukan apakah µ0 adalah nilai yang tak mungkin untuk µ , maksimum
L ( µ0 , Σ )
dibandingkan dengan maksimum
L ( µ, Σ)
yang diperbolehkan. Hasil
perbandingannya dinamakan statistik perbandingan likelihood. Dengan menggunakan persamaan (5-9) dan (5-10) diperoleh,
max L ( µ , Σ )
Σˆ Rasio Likelihood = ∧ = µ ,Σ = max L ( µ0 , Σ ) Σˆ 0 µ ,Σ
n 2
(3-11)
Padanan statistik untuk ∧ 2 n = Σˆ Σˆ 0 disebut Wilks' lamda. Jika nilai pengamatan perbandingan likelihood ini terlalu kecil, hipotesis H 0 : µ = µ0 tidak mungkin menjadi benar, oleh karena itu ditolak. Secara rinci, uji rasio likelihood untuk H 0 : µ = µ0 melawan H1 : µ ≠ µ0 , tolak H 0 jika
Λ=
Σˆ Σˆ 0
n 2
=
′ x − x x − x ( )( ) ∑ j j j =1 n ( x j − µ0 )( x j − µ0 )′ ∑ j =1 n
n2
< cα
dimana cα adalah batas bawah (100α ) th persentil dari distribusi
(3-13)
Λ. (Catatan bahwa
statistik uji rasio likelihood adalah sebuah kuasa perbandingan variansi yang diperumum). Akibat 3.1. Diberikan X 1 , X 2 ,K , X n adalah sampel acak dari populasi derdistribusi N p ( µ , Σ) . Maka uji pada (5-7) merupakan dasar dati T 2 yang ekivalen dengan uji rasio likelihood dari H 0 : µ = µ0 melawan H1 : µ ≠ µ0 , karena
T2 Λ = 1+ . n − 1 ( ) 2n
Metode Perbandingan Likelihood Umum Kita sekarang akan mempertimbangkan metode perbandingan likelihood umum. Diberikan
θ adalah sebuah vektor yang memenuhi semua parameter populasi yang diketahui, dan diberikan L (θ ) adalah fungsi likelihood yang diperoleh dengan mengevaluasi kepadatan densitas dari X 1 , X 2 ,K , X n pada nilai yang diamati x1 , x2 ,K , xn . Vektor parameter mengambil nilai dalam himpunan parameter Θ . Uji rasio likelihood untuk H 0 : θ ∈ Θ 0 menuju ke H1 : θ ∉ Θ0 jika
Λ=
max L (θ ) θ ∈Θ0
max L (θ ) θ ∈Θ
(bab 2-16)
θ
dimana c adalah konstanta tertentu yang dipilih. Secara intuitif, kita tolak H 0 jika maksimum dari likelihood yang diperoleh dengan mempertukarkan θ pada himpunan Θ0 yang lebih kecil dari maksimum likelihood yang dipenuhi oleh variasi θ untuk semua nilai pada Θ . Ketika maksimum pada pembilang dari persamaan (bab 2-16) lebih kecil dari maksimum penyebut, Θ0 tidak memenuhi nilai plausibel untuk θ . Pada setiap aplikasi dari metode perbandingan likelihood, kita akan memerlukan distribusi sampling dari statistik uji rasio likelihood Λ . Sehingga c dapat dipilih untuk menghasilkan sebuah uji dengan sebuah taraf signifikansi α tertentu. Bagaimanapun, ketika ukuran sampelnya besar dan kondisi keteraturan tertentu dipenuhi, distribusi sampling dari −2 ln Λ yang didekati oleh sebuah distribusi chi-kuadrat. Akibat 3.2 Ketika ukuran sampel n besar
−2 ln Λ = 2 ln Λ
max L (θ ) θ ∈Θ0
max L (θ )
2 adalah aproksimasi dari variabel acak χ v-v 0
θ ∈Θ
dengan derajat kebebasannya v − v0 = (dimensi dari Θ ) – (dimensi dari Θ0 ).
3.3 Daerah Kepercayaan dan Perbandingan Simultan dari Komponen Rata-rata Daerah yang ditentukan oleh sebuah data, untuk sementara, kita notasikan dengan R(X), dengan X = [ X 1 , X 2 ,K , X n ] adalah matriks data. Daerah R(X) dikatakana akan menjadi daerah kepercayaan 100 (1 − α ) % jika sebelum sample dipilih,
P [ R( X ) akan mencakup nilai θ yangsebenarnya ] = 1 − α Daerah kepercayaan untuk rata-rata µ dari dimensi-p yang berdistribusi normal diperoleh dari (2-6). Sebelum sampel dipilih,
' ( n − 1) p F P n ( X − µ ) S −1 ( X − µ ) ≤ p , n − p (α ) = 1 − α (n − p) Untuk sebarang nilai µ dan ∑ tidak diketahui.
Untuk
sample
khusus,
x
dan
S
dapat
dihitung
dan
ketaksamaan
n ( x − µ ) S −1 ( x − µ ) ≤ ( n − 1) pFp ,n − p (α ) /(n − p ) akan mendefinisikan daerah, R(X), '
dalam ruang dari semua nilai parameter yang mungkin. Dalam kasus ini, daerah akan menjadi ellipsoid dengan pusat x . Ellipsoid ini adalah daerah kepercayaan 100 (1 − α ) % untuk µ . Daerah kepercayaan 100 (1 − α ) % untuk rata-rata dari dimensi-p yang berdistribusi normal adalah himpunan yang ditentukan oleh semua µ sedemikian sehingga
n ( x − µ ) S −1 ( x − µ ) ≤ '
x=
dimana
( n − 1) p F (n − p )
p ,n− p
(α )
n ' 1 n 1 x , S = x j − x )( x j − x ) , dan ( ∑ ∑ j n j =1 (n − 1) j =1
x1 , x2 ,K , xn
adalah sample
pengamatan. Untuk p ≥ 4 , kita tidak dapat menggambarkan daerah kepercayaan untuk µ . Akan tetapi, kita dapat menghitung sumbu-x dari ellipsoid kepercayaan dan panjang relatifnya. Hal ini ditentukan dari nilai eigen λi dan vector eigen ei dari S. Seperti dalam persamaan
( x − µ ) Σ −1 ( x − µ ) = c 2 '
, arah dan panjang sumbu-x
n ( x − µ ) ' S −1 ( x − µ ) ≤ c 2 =
dari
p (n − 1) Fp ,n − p (α ) (n − p )
akan ditentukan oleh
λi c / n = λi p(n − 1) Fp , n− p (α ) / n(n − p) Unit sepanjang vector eigen ei . Berawal di pusat x , sumbu-x dari ellipsoid kepercayaan adalah
± λi
p (n − 1) Fp ,n − p (α ) ei dimana Sei = λi ei , i = 1, 2,K , p n( n − p )
Perbandingan dari λi ' s akan membantu dalam mengidentifikasi jumlah relatif dari pemanjangan sepanjang pasangan sumbu-x.
Oleh : Lucky Heriyanti Jufri (0607103) Pernyataan Kepercayaan Simultan Ketika daerah kepercayaan n ( x − µ ) S −1 ( x − µ ) ≤ c 2 , dengan c adalah konstanta, dapat '
dilihat dengan tepat hubungan mengenai nilai plausible untuk µ , apa saja inti dari kesimpulan yang biasa dimasukkan dalam pernyataan kepercayaan tentang rata-rata komponen tunggal. Selanjutnya, kita gunakan aturan bahwa pernyataan kepercayaan yang terpisah, sebaiknya mempertahankan kesimultanaan-nya dengan tingginya probabilitas yang ditentukan. Hal ini merupakan jaminan dalam menentukan probabilitas terhadap banyaknya pernyataan salah yang menyebabkan interval kepercayaan simultan. Kita awali dengan mengingat pernyataan kepercayaan simultan yang berhubungan dengan daerah kepercayaan bersama berdasarkan statistik T 2 . Misalkan X berdistribusi N p ( µ , Σ) dan bentuk kombinasi liniernya yaitu
Z = l1 X 1 + l 2 X 2 + K + l p X p = l ' X Sebagaimana yang kita ketahui bahwa µ z = E ( Z ) = l ' µ
dan σ z2 = Var ( Z ) = l 'Σl . Selain itu,
berdasarkan akibat 4.2, Z berdistribusi N (lµ , l 'Σl) . Jika sample acak X 1 , X 2 ,K , X n dari populasi berdistribusi N ( µ , Σ) adalah memungkinkan, maka sample Z ' s dapat ditulis dengan menggunakan kombinasi linier yaitu. Jadi,
Z j = l1 X 1 j + l 2 X 2 j + K + l p X pj = l ' X j
, j = 1, 2,K , n
Rata-rata dan variansi dari z1 , z2 ,K , zn adalah z = l ' x dan sz2 = l' S l , dimana x dan S adalah vektor rata-rata dan matriks kovarians sample dari x 'j s , berturut-turut. Interval kepercayaan simultan dapat dikembangkan dengan pertimbangan dari interval kepercayaan l' µ untuk sebarang l . Untuk l tertentu dan σ z2 tidak diketahui, interval kepercayaan 100 (1 − α ) % untuk
µ z = l ' µ adalah berdasarkan rasio-t student’s n ( l' x − l'µ ) z − µz t= = sx l' S l n
(3-14)
Sehingga diperoleh pernyataan
( 2 ) sn ≤ µ
z − tn −1 α
z
z
( 2 ) sn
≤ z + tn −1 α
z
atau
( 2)
( )
l' S l ≤ l' µ ≤ l' x + tn −1 α 2 n
l' x − tn −1 α
l' S l n
( 2 ) adalah batas atas 100 (1 − α ) % dari distribusi-t
dimana tn −1 α
(3-15)
dengan derajat kebebasan (n-
1). Ketidaksamaan (3-5) dapat dinyatakan sebagai pernyataan mengenai komponen dari vektor rata-rata µ . Sebagai contoh, dengan l' = [1, 0,K , 0] , l ' µ = µ1 dan ketidaksamaan (3-5) menghasilkan interval kepercayaan biasa untuk rata-rata dari populasi normal. Dalam kasus ini
l' S l = s11 , jelasnya, kita akan menentukan beberapa pernyataan kepercayaan mengenai komponen
µ , dengan menghubungkan koefisien kepercayaan 1 − α , dengan memilih koefisien vector l yang berbeda. Bagaimanapun, hubungan kepercayaan dengan semua pernyataan yang diambil bersama adalah bukan 1 − α . Berdasarkan intuisi, akan dihubungkan koefisien kepercayaan “kolektif” 1 − α dengan interval kepercayaan sehingga dihasilkan oleh semua pilihan l . Nilai tersebut harus mengganti koefisien kepercayaan yang besar dengan sebaik-baiknya. Nilai tersebut ada dalam bentuk interval yang lebih luas dibandingkan dengan interval pada ketidaksamaan (3-15) untuk pilihan l yang spesifik. Diberikan data himpunan x1 , x2 ,K , xn dan l tertentu, interval kepercayaan dalam ketidaksamaan (3-5) adalah himpunan dari nilai l' µ untuk
t =
n ( l' x − l' µ ) '
l Sl
≤ tn −1 (α ) 2
atau, ekivalen dengan
t2 =
n ( l ' x − l' µ )
l' S l
2
=
n ( l' ( x − µ ) )
l'S l
2
≤ tn −1 (α ) 2
(3-16)
Daerah kepercayaan simultan diberikan oleh himpunan nilai l' µ yaitu t 2 relatif kecil
( 2 ) dalam persamaan
untuk semua l . Nampaknya pantas untuk menduga bahwa konstanta tn2−1 α
(3-6) akan digantikan oleh nilai yang lebih besar yaitu c 2 , ketika pernyataan dikembangkan untuk sembarang l . Mengingat nilai l untuk t 2 ≤ c 2 , secara otomatis kita peroleh ketetapan :
max t = max 2
l
n ( l' ( x − µ ) )
2
l'S l
l
(x d ) max '
Dengan menggunakan
Maximization lemma :
x≠0
2
'
x Bx
= d ' B − 1d
x =l,
, dimana
d = ( x − µ ) , dan B = S , diperoleh :
max
n ( l' ( x − µ ) )
l
l' S l
2
2 n ( l' ( x − µ ) ) = n ( x − µ )' S −1 ( x − µ ) = T 2 (3-17) = n max ' l l Sl
Untuk l sepadan dengan S −1 ( x − µ ) . Akibat 3.3 Misalkan X 1 , X 2 ,K , X n sample random dari populasi berdistribusi N p ( µ , Σ) Dengan Σ definit positif. Maka, kesimultanan untuk semua l , interval
' p ( n − 1) p ( n − 1) l X − Fp ,n − p (α ) l ' S l .l ' X + Fp ,n − p (α ) l ' S l n(n − p) n (n − p) akan memuat l' µ dengan probabilitas 1 − α . Bukti :Dari persamaan (bab 5-23),
T = n( x − µ) S 2
'
−1
(x − µ) ≤ c
2
l' S l l'S l ' ' l x −c ≤lµ ≤l x +c n n '
termasuk
untuk
n ( l' x − l ' µ ) '
l Sl setiap
2
≤ c2
untuk
l.
setiap
Dengan
l,
atau
memilih
c 2 = p ( n − 1) Fp ,n − p (α ) / ( n − p ) memberikan interval yang akan memuat l' µ untuk semua l , dengan probabilitas 1 − α = P T 2 ≤ c 2 . Ini adalah tepat mengarahkan ke interval yang simultan dari akibat 3.3 sebagai interval-
T 2 , karena pencakupan probalbilitas ditentukan oleh distribusi T 2 . Berturut-turut kita pilih
l' = [1, 0,K , 0] , l ' = [ 0,1,K , 0] , membolehkan
x1 − x2 −
p ( n − 1)
(n − p)
p ( n − 1)
(n − p)
p ( n − 1)
(n − p)
l' = [ 0, 0,K ,1]
demikian
kita
Fp ,n − p (α )
s11 ≤ µ1 ≤ x1 + n
Fp , n − p (α )
s22 ≤ µ 2 ≤ x2 + n
M xp −
dengan
untuk
p ( n − 1)
(n − p)
Fp ,n − p (α )
p ( n − 1)
(n − p)
Fp , n − p (α )
M Fp , n − p (α )
s pp n
≤ µ p ≤ xp +
interval- T 2
untuk
menyimpulkan
s11 n s22 n
(3-18)
M p ( n − 1)
(n − p)
Fp ,n − p (α )
s pp n
semua memperoleh kesimultanan dengan koefisien kepercayaan 1 − α . Catatan bahwa, tanpa modifikasi koefisien 1 − α , kita dapat membuat pernyataan turunan dari
µi − µk sesuai dengan l' = [ 0,K , 0, l i , 0,K , 0, l k , 0,K , 0] , dimana l i = 1 dan l k = −1 . Dalam kasus ini l' S l = sii − 2 sik + skk , dan kita mempunyai pernyataan
xi − xk −
p ( n − 1) s − 2s + s F (α ) ii ik kk ≤ µi − µk ≤ xi − xk + n ( n − p ) p ,n− p
p ( n − 1) s − 2s + s F (α ) ii ik kk n (3-19) ( n − p ) p ,n − p
Kesimultanan Interval kepercayaan T 2 merupakan ide untuk “data snooping”. Koefisien kepercayaan 1 − α tetap tidak terganti untuk sebarang pemilihan l , sehingga kombinasi linier dari komponen µi yang manfaat pemeriksaannya berdasarkan pemeriksaan dari data dapat dihitung.
Perbandingan Interval Kepercayaan Simultan dengan Interval Pada Satu Waktu Sebagai alternatif, untuk meminimalisir terjadinya kesalahan dalam melakukan pendekatan untuk menentukan interval kepercayaan adalah dengan mempertimbangkan komponen µi pada ' satu waktu, seperti yang telah dijelaskan pada persamaan (3-5) dengan l = [ 0,K , 0, l i , 0,K , 0] ,
dimana l ' = 1 . Pendekatan ini mengabaikan struktur kovarian dari variable-p dan membawa kita ke interval
( 2)
s11 ≤ µ1 ≤ x1 + tn −1 α 2 n
( 2)
s22 ≤ µ 2 ≤ x2 + tn −1 α 2 n M M M
( 2)
s pp
x1 − tn −1 α
x2 − tn −1 α
x p − tn −1 α
( )
s11 n
( )
n
( 2)
≤ µ p ≤ x p + tn −1 α
s22 n
(3-20)
s pp n
Walaupun sebelum pengambilan sampling, interval ke-i di atas memiliki probabilitas 1 − α meliputi µi , kita tidak tahu apa yang menyatakan secara umum, mengenai kemungkinan semua interval memuat masing-masing µi' s . Untuk memberi pencerahan terhadap masalah ini, dengan mempertimbangkan kasus khusus dimana pengamatannya berdistribusi normal gabungan dan
σ 11 0 0 σ 22 Σ= M M 0 0
L 0 L 0 O M L σ pp
Karena pengamatan pada variable pertama adalah independent, begitupula untuk variable kedua, dan seterusnya. Aturan yang diperoleh yaitu untuk peristiwa independent dapat digunakan sebelum sampel dipilih,
P semua int erval − t pada ( 3 − 10 ) memuat µi' s = (1 − α )(1 − α )L (1 − α ) = (1 − α )
p
Untuk memastikan probabilitas 1 − α bahwa semua pernyataan mengenai komponen ratarata secara umum, interval tunggal harus lebih luas dari interval terpisah. Luas interval ini bergantung pada p dan n , sebagaimana dalam 1 − α .
Oleh : Asti Aulia Rahman (0607196)
3.4 Perbandingan Interval T 2 Simultan Dan Interval Bonferroni Dari Komponen Rata - Rata Untuk memperoleh metode utama dalam menentukan inferensi dari sample, kita akan memperluas konsep interval kepercayaan univariat
menjadi daerah kepercayaan
multivariate. Berdasarkan penjelasan pada bab sebelumnya, telah dijelaskan inferensi sampel dengan menggunakan int erval − T 2 simultan. Namun seringkali kita jumpai interval yang lebih pendek untuk bilangan m yang kecil, yaitu ketika m = p . Dalam hal ini, akan lebih mudah untuk menggunakan dan menetapkan interval kepercayaan yang relatif pendek, yang dibutuhkan untuk membuat kesimpulan (inference). Sehingga kita dapat menetapkan nilai interval yang lebih pendek dari int erval − T 2 . Metode seperti ini akan dibahas pada pembahasan berikut ini disertai dengan studi kasusnya.
Metode Bonferroni untuk Perbandingan Berganda Seringkali perhatian kita terbatas pada bilangan yang kecil dari pernyataan kepercayaan tunggal. Dalam situasi seperti ini memungkinkan untuk melakukan sesuatu yang lebih baik dari kesimultanan interval dari akibat 3.3. Jika bilangan m dari komponen rata-rata khusus µi , atau kombinasi linier l' µ = l1µ1 + l 2 µ2 + K + l p µ p , adalah kecil, interval kepercayaan simultan dapat dikembangkan menjadi lebih pendek (lebih tepat) dari pada interval- T 2 simultan. Metode alternatif untuk perbandingan berganda dinamakan “Metode Bonferroni” , karena ini dikembangkan dari kemungkinan yang membawa nama ketidaksamaan tersebut. Andaikata, sebelum ke kumpulan data, pernyataan kepercayaan mengenai kombinasi linier m yaitu l1' µ , l'2 µ ,K , l 'm µ adalah yang diharuskan. Misalkan Ci notasi
dari
pernyataan
P Ci benar = 1 − α i
kepercayaan
, i = 1, 2,K , m .
mengenai
nilai
dari
l 'i µ
dengan
P semua Ci benar = 1 − P [ paling sedikit satu Ci salah ] m
m
i =1
i =1
≥ 1 − ∑ P ( Ci salah ) = 1 − ∑ (1 − P ( Ci benar ) ) = 1 − (α 1 + α 2 + K + α m )
(3-21)
Ketidaksamaan (3-21), kasus khusus dari ketidaksamaan Bonferroni, memenuhi pemeriksaan untuk mengontrol keseluruhan nilai kesalahan α1 + α 2 + K + α m , tanpa memperhatikan struktur korelasi di belakang pernyataan kepercayaan. Hal ini juga fleksibel dalam mengontrol nilai kesalahan untuk kelompok dari pernyataan penting dan seimbang dengan pilihan lain untuk pernyataan penting yang kurang. Misalkan kita kembangkan estimasi interval kepercayaan untuk himpunan terbatas yang terdiri dari komponen µi dari µ . Tak cukup informasi dalam kepentingan yang relative
dari
komponen
α s xi ± tn −1 i ii 2 n
(
P X i ± tn −1 α 2m
ini,
kita
mempertimbangkan
, i = 1, 2,K , m
)
sii
dengan
interval
αi = α m .
t-tunggal Karena
memuat µi = 1 − α , i = 1, 2,K , m , kita peroleh dari persamaan n m
(3-11) α α sii α α P X i ± tn −1 memuat µi , semua i ≥ 1 − + + L + n m 4 m2444 m3 2m 144 (3-22) bentuk m
= 1−α Untuk itu, dengan keseluruhan tingkat kepercayaan lebih besar dari atau sama dengan 1 − α , kita dapat membuat pernyataan m = p :
α s11 α s11 x1 − tn −1 ≤ µ1 ≤ x1 + tn −1 2p n 2p n α s22 α s22 x2 − tn −1 ≤ µ 2 ≤ x2 + tn −1 2p n 2p n M M M α s pp α s pp x p − tn −1 ≤ µ p ≤ x p + tn −1 2p n 2p n
(3-23)
Pernyataan dalam ketidaksamaan (3-13) dapat dibandingkan dengan ketidaksamaan
( 2 p ) menggantikan
dalam (3-8). Nilai persentase tn −1 α
( n − 1) pFp ,n − p (α ) / ( n − p ) , tapi
sebaliknya intervalnya masih dalam struktur yang sama. 3.5. Inferensi Vektor Mean Populasi Untuk Sampel Besar Ketika ukuran sampel besar, pengujian hipotesis dan daerah kepercayaan untuk µ dapat dikonstruksi tanpa anggapan normalitas. Untuk jumlah n besar, kita dapat membuat taksiran tentang rata-rata populasi meskipun distribusi awalnya adalah diskrit. Keuntungan berasosiasi dengan sample besar yaitu kemungkinan kehilangan informasi dari statistic cukup x dan S adalah kecil. Selain itu, x dan S yang merupakan statistic cukup untuk populasi normal adalah hal yang mendasari populasi normal multivariate, dimana informasi tersebut akan digunakan untuk membuat taksiran. Penaksiran µ untuk sample besar adalah mendekati distribusi χ 2 . Sebagaimana kita tahu dari bab sebelumnya bahwa
(X − µ )' ( S / n) (X − µ ) = n(X − µ )' S (X − µ ) −1
−1
mendekati distribusi χ 2 dengan derajat kebebasan adalah p, maka
P[n( X − µ )' S −1 ( X − µ ) ≤ χ p2 (α )] = 1 − α Misalkan X1, X2, ...., Xn adalah sample acak dari populasi dengan mean µ dan kovarians Σ . Jika n-p besar, hipotesis H0 : µ = µ 0 ditolak dengan alternative H1 : µ ≠ µ 0 pada taraf signifikansi α jika
n( X − µ )' S −1 ( X − µ ) > χ p2 (α ) Misalkan X1, X2, ...., Xn adalah sample acak dari populasi dengan mean µ dan definit positif kovarians Σ . Jika n-p besar, maka l' X ± χ p2 (α ) (l' Sl / n)
Dimana setiap l memuat l' µ dengan probabilitas 1 - α . Akibatnya kita dapat membuat interval konfidensi 100 (1- α )%
x1 ± χ p2 (α )
s11 n
memuat µ1
x 2 ± χ 2p (α )
s 22 n
memuat µ 2
s pp
memuat µ p
. . . x p ± χ p2 (α )
n
Oleh : Syifa Insani (060116) 3.6 Penaksir Vektor Mean Ketika Beberapa Vektor Inferensi Hilang Sering kali beberapa komponen dari vektor observasi tidak ada.
Maka dalam
menyelesaikan masalah tersebut dengan menggunakan teknik EM algorithm, disetiap iterasi memiliki dua langkah yakni :
Prediksi
Estimasi Menggunakan statistika cukup untuk estimasi parameter
Σ
Misal X1, X2 ,…, Xn adalah sampel acak berpopulasi normal p variateµ ( Algoritma prediksi dan estimasi berdasar pada statistika cukup sebagai berikut: n
T1 =
Σ Xj
j=1
n
T2 =
__ __
Σ X j X 'j = (n −1)S + n X X '
j =1
,
).
Langkah Prediksi : Untuk setiap Xj(1) adalah komponen vektor yang hilang, dan Xj(2) adalah komponen vektor yang ada. Untuk penduga
dan
~ Σ
dari langkah µ~ estimasi digunakan mean distribusi
bersyarat x(1) dan diberikan x(2) untuk menduga nilai yang hilang. Sehingga: ( 2) ~ ~ x j(1) = E ( X (j1) x j ; µ~, Σ)
~ ~ = µ~ (1) + Σ12 Σ −221 ( ~ x j( 2) − µ~ ( 2 ) )
Menduga kontribusi xj(1) untuk T1 : ~~~~~~~~~ (1) (1) j j
x x
(2) ~ = E ( X (j1) X (j1) ' x j ; µ~ , Σ )
~ ~ ~ ~ ~ −1 ~ = Σ11 − Σ12 Σ 22 Σ 21 + X (j1) X (j1) ~~~~~~~~~ (1) ( 2 ) j j
x x
( 2) ~ = E ( X (j1) X (j 2 ) ' x j ; µ~ , Σ )
=~ x j(1) ~ x j( 2) Menduga kontribusi xj(1) untuk T2 : Kontribusi pertama dijumlahkan untuk setiap xj dengan komponen hilang. Hasil ini digabung dengan data sampel menghasilkan T1 dan T2. Langkah estimasi: Dihitung penduga maksimum likelihood terevisi: ~ T1 ~ µ= n ~ 1~ Σ = T2 − µ~µ~ ' n
Contoh 5.7 halaman 204 Estimasilah populasi normal ini dengan mean µdan Σvariansi, himpunan datanya sebagai berikut:
X(3,4)
− 7 5 − = 0 2 1 − 3 6 2 5
Jawab: Diperoleh rata-rata sampel adalah :
µ~2 =1
µ~1 = 6
µ~3 = 4
kemudian subsitusikan rata-rata tersebut ke nilai yang hilang, sehingga diperoleh estimasi terhadap variansi, yaitu :
σ~11 =
1 2
σ~22 =
1 2
σ~33 =
5 2
σ~12 =
1 4
σ~23 =
3 4
σ~13 =
1 1
Langkah pertama adalah Prediksi, dalam memprediksi nilai yang hilang kita menggunakan ~ µ~ estimasi terhadap dan , disubsitusikan Σ ke statistika cukup T1 dan T2. Komponen x1yang hilang, dipartisi sehingga:
µ~1 (1) −~−− µ~ ~ µ1 = µ 2 = −− −− ~ ( 2) µ~ µ 3
diduga
σ~11 ~ ____ Σ = σ~12 ~ σ 13
σ~12
σ~13
_____
σ~23 σ~33
σ~22 σ~23
_____
~ ~ ~ ~ x11 = µ~ (1) + Σ12 Σ −221 ( X (j 2) − µ~ ( 2 ) )
1 1 = 6 + ,1 2 4 3 4
−1
3 4 0 − 1 = 5.73 5 3 − 4 2
~ ~ ~ ~ x112 = σ~11 − Σ12 Σ −221 Σ 21 + ~ x112
1 1 1 2 = − 1 2 4 3 4
3 4 5 2
−1
1 4 + (5.73) 2 = 32.99 1
x11 [x 21 , x31 ] = ~ x11 [ x 21 , x31 ] = 5.73[0,3] = [0,17,18] ~~~~~~~~~~ ~~~
Untuk data hilang pada komponen ke 4, dipartisi sebagai:
µ~1 ~ µ~ (1) ~ µ1 = µ 2 = −− −− ~ ( 2) −~−− µ µ 3 Diduga :
σ~11 σ~12 ~ Σ = σ~12 σ~22 − −− −−− σ~13 σ~23
σ~13
σ~23 − −−
σ~33
~ x14 x14 ~ ~ µ1 ~ ~ −1 ~, Σ = + Σ Σ ( x − µ~3 ) = E x = 5 ; µ x x 34 µ~2 12 22 34 24 24 −1 6 1 5 6.4 = + 3 (5 − 4) = 1 4 2 1.3
Kontribusi terhadap T1: ~2 x14 ~~~~~~~ x x 14 24
~~~~~~~ x14 x 24 = ~ x 242
X 142 E X X 14 24
1 = 2 1 4
X 14 X 24 ~ ~, Σ 5 ; x = µ 34 2 X 24
1 −1 1 4 − 3 5 [1, 3 ] + 6.4[6.4 1.3] = 41.06 8.27 8.27 1.97 1 2 4 1.3 4 2
x14 X 14 X 34 ~ x14 ~ ~ x ( x34 ) = E X X x34 = 5; µ , Σ = x ( x34 ) 24 24 24 34 6 .4 32.0 = (5) = .1.3 6 .5
Penduga Statististika cukup:
x11 + x12 + x13 + ~ x14 24.13 ~ ~ T1 = x21 + x22 + x23 + ~ x24 = 4.30 x31 + x32 + x33 + x34 16.00
Selanjutnya adalah langkah estimasi , dengan menggunakan maksimum likelihood terevisi sebagai berikut:
148.05 27.27 101.18 ~ T2 = 27.27 6.97 20.50 101.18 20.50 74.00 24.13 6.03 ~ T1 1 ~ µ = = 4.30 = 1.08 n 4 16.00 4.00 148.05 27.27 101.18 6.03 ~ 1 ~ ~~ 1 Σ = T2 − µµ = ' 27.27 6.97 20.50 − 1.08 [6.03 1.08 4.00] n 4 101.18 20.50 74.00 4.00 0.65 0.31 1.18 = 0.31 0.58 0.81 1.18 0.81 2.5
Terlihat
σ~11 = 0.65
dan
σ~22 = 0.58
lebih besar dari estimasi pertama observasi yang hilang.
Sedangkan σ~33 = 0.25sama dengan estimasi awal. Dari hasil tersebut, kita harus melakukan ~ iterasi yang sama sampai elemen elemen dan sama danµ~tidak diganti. Σ
~ berakhir ketika : Estimasi µ~ dan Σ n( µˆ − µ ) ' Σˆ −1 ( µˆ − µ ) ≤ χ p2 (α ) ∀µ memenuhi dengan kepercayaan elipsoide 100 (1-α )%.
BAB IV PENUTUP
4.1 Kesimpulan
1)
Dari analisis dan perhitungan yang
telah dilakukan pada studi kasus dapat
ditunjukkan µ0′ = [13, 7,11] merupakan suatu nilai plausible untuk µ . Dengan kata lain vektor rata-rata populasi multivariat akan selalu konsisten dengan data yang dimiliki.
2)
Pengujian hipotesis dengan menggunakan rumus perhitungan T 2 yang berbentuk S T = ( X − µ0 )′ n 2
−1
( X − µ ) = n ( X − µ )′ S ( X − µ ) maupun −1
0
0
0
3) Dapat kita lihat dari pernyataan simultan di atas bahwa komponen µ 0 dari melodi, tempo dan meter tidak terbukti sebagai nilai yang mungkin untuk nilai akhir ratarata.(dengan derajat kebebasan 90%, nilai yang kita tetapkan tepat dengan perhitungan atau tidak)
4.2 Saran Agar kesalahan dapat terminimalkan maka penyusun memberi saran sebagai berikut: a. Pergunakanlah software yang memadai dalam melakukan pengujian hipotesis terutama dalam perhitungan perkalian matriksnya. Software yang penyusun sarankan untuk menghitung perkalian matriks adalah Math Lab. b. Diperlukan kehati-hatian dalam melakukan penginputan karena seringkali terjadi ketidakcocokan hasil perhitungan yang disebabkan kekeliruan memasukan data.
DAFTAR PUSTAKA Johnson, Richard A. and Dean W. Wichern. Third Edition. Applied Multivariate Statistical Analysis. New Jersey: Prentice Hall, Englewood Cliffs. Suryanto, Dr. 1988. Metode Statistika Multivariat. Jakarta: Departemen Pendidikan dan Kebudayaan.