PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.4) PENGUJIAN DAN PEMODELAN ASOSIASI DUA VARIABEL KATEGORIK MULTI-RESPON DENGAN METODE BOOTSTRAP DAN ALGORITMA GANGE 1Giat
Sudrajat Sarmuda, 2Septiadi Padmadisastra, 3I Gede Nyoman Mindra Jaya 1Mahasiswa Program Magister Statistika Terapan 2,3Dosen Program Magister Statistika Terapan Universitas Padjajaran, Bandung, Indonesia Email :
[email protected] Abstrak
Metode-metode analisis pola asosiasi antar variabel telah dikenal sebelumnya, seperti analisis regresi sederhana untuk data numerik ataupun analisis loglinier untuk data kategorik. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange (Bilder, 2004). Kata Kunci : Variabel Kategorik Multi-Respon, Loglinier Marjinal, Bootstrap, Algoritma Gange. 1.
PENDAHULUAN Analisis data survey yang kompleks banyak dilaksanakan di berbagai negara, salah
satunya adalah Indonesia. Kompleksitas data dapat menyebabkan permasalahan yang beragam dan memiliki implikasi yang berbeda. Salah satu jenis kompleksitas struktur data dalam data survey adalah adanya variabel kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan. Menurut Thomas dan Decady (2004) permasalahan yang muncul dari jenis kompleksitas tersebut adalah sifat multi-respon dari data, bukan dari mekanisme sampling atau desain kuesioner. Metode-metode analisis pola asosiasi antar variabel dari data numerik telah dikenal sebelumnya, seperti analisis regresi sederhana ataupun analisis regresi berganda. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini. Jurusan Statistika-FMIPA-Unpad 2011
119
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Model loglinear dapat digunakan untuk mengkaji pola asosiasi antar variabel pada data kategorik. Model loglinier berguna untuk menentukan dependensi (asosiasi) antar beberapa variabel kategorik. Dalam model loglinier, terdapat suatu asumsi bahwa semua variabel yang dianalisis mempunyai status yang sama sebagai suatu variabel dependen karena model loglinier hanya menunjukkan dependensi (asosiasi) antar variabel. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange.
2.
UJI INDEPENDENSI
2.1 Uji Independensi Dua Variabel Kategorik Respon Tunggal Perhatikan Tabel 1, misalkan X dan Y melambangkan dua variabel kategorik respon tunggal, X dengan I kategori dan Y dengan J kategori. Tabel 1. Tabel Kontingensi Dua Variabel Kategorik Respon Tunggal Variabel Y
Variabel X
Kategori 1
Kategori 2
Kategori 1
11
12
Kategori 2
21
22
…
Total Respon
Kategori J-1
Kategori J
…
1( −1)
1
1
…
2( −1)
2
2
…
…
…
Kategori I1
( −1)1
( −1)2
…
( −1)( −1)
( −1)
( −1)
Kategori I
1
2
…
( −1)
1
2
( −1)
Total Respon
…
…
…
…
1
Misalkan menyatakan peluang dari (X,Y) bahwa X=i dan Y=j yang membentuk tabel seperti pada Tabel 1. Misalkan
merupakan total baris dan
merupakan total kolom
dengan tanda “+” menyatakan jumlah keseluruhan dari indeks. Untuk tabel kontingensi dua arah dengan dua variabel kategorik respon tunggal, hipotesis independensi yang dipergunakan adalah: : = : ≠ dengan: i = 1, 2, … , I dan j = 1, 2, … , J.
Jurusan Statistika-FMIPA-Unpad 2011
120
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Statistik uji Pearson Chi-Square untuk tabel kontingensi dua arah sebagai berikut: = ∑,
(
)
(1)
dengan: i = 1, 2, … , I; j = 1, 2, … , J; nij : observasi pada kategori variabel X ke-i dan variabel Y ke-j; dan adalah estimasi frekuensi harapan yang merupakan perkalian dari total baris dengan total kolom dibagi dengan ukuran sampel keseluruhan, sebagai berikut:
=
=
=
(2)
2.2 Uji Independensi Dua Variabel Kategorik Multi-Respon Perhatikan Tabel 2, mij merupakan jumlah dari subyek yang memilih kategori ke-i pada variabel X dan kategori ke-j pada variabel Y. Tabel 2. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon Variabel Y Kat. 1 Kategori 1 Kategori 2 Variabel X
Kat. 2
m 11
m 12
m 21
…
m 22
…
Kategori I-1 Kategori I
…
m(I1)1
m(I1)2
m I1
m I2
…
Kat. J-1
Kat. J
Total Respon
Total Sampel/ Subyek
…
m1(J-1)
m1J
1+
1
…
m2(J-1)
m2J
2+
2
mij
…
…
…
m(I-1)(J-1)
m(I-1)J
( −1)+
( −1)
…
mI(J-1)
mIJ
+
+
…
Total Respon
+1
+2
…
+( −1)
+
++
Total Sampel/ Subyek
1
2
…
( −1)
+
…
n
Karena melibatkan dua variabel kategorik multi-respon, maka terdapat 2 (dua) set marjinal yang harus dipertimbangkan. Set marjinal pertama, mengacu sebagai penjumlahan berdasarkan baris yang dinotasikan dinotasikan ,
, j = 1, ..., J, didapat dari
i = 1, ..., I dan
, i =1, ..., I dan penjumlahan berdasarkan kolom yang =∑
, j = 1, ..., J. Dapat dikatakan,
Jurusan Statistika-FMIPA-Unpad 2011
=∑
dan
dan
. Set marjinal kedua,
mewakili total sampel/subyek
121
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
berdasarkan variabel X (baris) dan variabel Y (kolom). Secara umum, ≠
≠
dan
. Tabel 2 dapat juga dituliskan sebagai berikut:
Tabel 3. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon Variabel Y
Variabel X
Kat. 1
Kat. 2
Kategori 1
11
12
Kategori 2
21
22
… Kategori I-1
…
1
1+
1
2
2+
2
…
…
…
1( −1)
…
2( −1) …
( −1)1 ( −1)2
Kategori I
Peluang Marjinal Baris
Kat. J
…
…
Jumlah Peluang
Kat. J-1
…
…
( −1)( −1)
( −1)
( −1)+
( −1)
…
( −1)
+
+
1
2
Jumlah Peluang
+1
+2
…
+( −1)
+
++
Peluang Marjinal Kolom
1
2
…
( −1)
+
Peluang dari merupakan peluang banyaknya subyek yang merespon kategori ke-i pada variabel X (baris) dan kategori ke-j pada variabel Y (kolom). Pada set marjinal pertama, total dari jumlah peluang berdasarkan baris ( ) atau pun total dari jumlah peluang berdasarkan kolom ( ) adalah
. Pada set marjinal kedua, total dari peluang marjinal
baris adalah , dan total dari peluang marjinal kolom adalah . Sehingga penaksirnya adalah , , , , dan
.
Untuk tabel kontingensi dengan dua variabel kategorik multi-respon, hipotesis yang dipergunakan adalah: : = : ≠ dengan: i = 1, 2, … , I dan j = 1, 2, … , J. Dengan hipotesis di atas, maka modifikasi dari statistik uji chi-square adalah: =
=
∑
Jurusan Statistika-FMIPA-Unpad 2011
−
∑
(3)
122
PROSIDING Seminar Nasional Statistika | 12 November 2011 3.
ISSN : 2087-5290. Vol 2, November 2011
METODE BOOTSTRAP DENGAN ALGORITMA GANGE Pada pertengahan 1970, Efron memperkenalkan metode bootstrap untuk menduga
parameter dari sebaran yang tidak diketahui bentuk distribusinya. Metode bootstrap adalah metode berbasis resampling data sampel, sampel yang ada disampel kembali, dengan cara pengembalian pada datanya. Algoritma Gange pertama kali diperkenalkan oleh Gange (1995). Algoritma ini menerapkan metode Iterative Proportional Fitting (IPF), seperti dalam penaksiran parameter model loglinier pada tabel kontingensi. Bootstrap Procedure ChiSquare with Gange Algorithm merupakan kombinasi antara metode bootstrap dan algoritma Gange. Tahapan prosedur dari Bootstrap Procedure Chi-Square with Gange Algorithm sebagai berikut: (1) Tentukan estimasi frekuensi, ( ) dan (
)
dari H0 dan Ha yang telah ditetapkan dan
hitung Pearson Chi-Square. (2) Tentukan frekuensi observasi setiap sub-tabel 2x2 untuk semua pasangan (Xi, Yj). (3) Dengan ( ) dan frekuensi observasi pada tahap 2, gunakan algoritma Gange untuk mendapatkan peluang multinomial dari masing-masing sub-tabel yang dibentuk dari kombinasi (X1, … , Xi, Y1, … , Yj) di bawah asumsi model H0. (4) Simulasikan B buah resample dari (X1*, … , Xi*, Y1*, … , Yj*) dengan menggunakan peluang multinomial pada tahap 3. (5) Bandingkan model dengan masing-masing resample dan hitung
4.
∗
∑
(6) Hitung p-value dengan rumus:
≥
∗
untuk b=1, … , B.
dengan (∙) adalah fungsi indikator.
MODEL LOGLINIER MARJINAL Agresti dan Liu (1999) menunjukkan bahwa variabel kategorik multi-respon dapat
dinyatakan sebagai vektor biner dimana setiap elemen dari vektor menunjukkan respon untuk tiap kategori. Respon biner dimaksud adalah berupa jawaban 0 atau 1. Karena kedua variabel (X dan Y) merupakan variabel kategorik multi-respon, maka tabel kontingensi dapat dituliskan seperti pada Tabel 4. Perhatikan bahwa
( )
( )
=
( )
⁄(
)
dan (
)
=
( )
+
( )
+
( )
+
yang sama dengan n (jumlah responden/total sampel). Model asosiasi marjinal antara
X dan Y digunakan untuk menjelaskan pola asosiasi diantara IJ sub-tabel 2x2 di dalam tabel kontingensi. Pola tersebut kemudian menggambarkan asosiasi antara X dan Y.
Jurusan Statistika-FMIPA-Unpad 2011
123
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Model loglinier digunakan untuk tujuan ini karena secara alami mengarah kepada interpretasi odds ratio dari asosiasi tersebut. Untuk memodelkan asosiasi antara Xi dan Yj, model loglinier marjinal cocok untuk masing-masing sub-tabel. Model loglinier marjinal merupakan model yang mendeskripsikan asosiasi antara dua variabel kategorik multi-respon pada tabel kontingensi. Asosiasi didefinisikan oleh odds ratio dalam sub-tabel dari item pada tabel kontingensi. Model asosiasi tersebut sebagai berikut: Tabel 4. Tabel Kontingensi Modifikasi Kategori Y Kat. 1
Kat. J
…
0
1
0
1
0
Jumlah Peluang
Peluang Marjinal Baris
1+
1
1
0 Kat. 1
1
11
…
…
1
…
+
Jumlah Peluang
+1
…
+
++
+
Peluang Marjinal Kolom
1
…
+
1
0 Kat. X
…
1
…
…
…
0 Kat. I
1
(1) Model Simultaneous Pairwise Marginal Independence (SPMI): Independensi pada setiap sub-tabel atau tidak ada asosiasi antara variabel X dan Y. Odds ratio untuk semua sub-tabel sama dengan 1 (ij=1). Bentuk modelnya sebagai berikut: log
=
( )
+
( )
+
( )
(2) Model Asosiasi Homogen: Odds ratio untuk semua sub-tabel bernilai sama, akan tetapi tidak sama dengan 1. Nilai odds ratio adalah log(ij)=00. Bentuk modelnya sebagai berikut: log
( )
=
+
( )
+
( )
+
(3) Model dengan Efek Baris (Y Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori X (i = 1, … , I), yaitu: log(ij) = 00 + log
( )
Jurusan Statistika-FMIPA-Unpad 2011
=
+
( )
( ) . Bentuk
+
( )
modelnya sebagai berikut:
+
+
()
124
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(4) Model dengan Efek Kolom (X Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori Y (j = 1, … , J), yaitu: log(ij) = 00 +
( ).
Bentuk modelnya sebagai
berikut: log
( )
=
+
( )
+
( )
+
+
( )
(5) Model dengan Efek Baris dan Kolom (Main-Effects): Perbedaan antara log odds ratio untuk setiap dua kategori Y adalah konstan sepanjang X dan sebaliknya. Bentuk modelnya sebagai berikut: log
( )
=
+
( )
+
( )
+
+
( )
+ +
( )
(6) Model Saturated (Model Lengkap): Odds ratio dari model sama dengan odds ratio observasi pada setiap sub-tabel. Bentuk modelnya sebagai berikut: log
( )
=
+
( )
+
( )
+
+
( )
+
( )
+
( )
dengan: a = 0, 1; b = 0, 1; i = 1, 2, … , I (banyak kategori variabel X); j = 1, 2, … , J (banyak kategori variabel Y).
5. HASIL DAN PEMBAHASAN Data yang digunakan adalah variabel Keluhan Kesehatan dan variabel Jenis Obat/Cara Pengobatan yang berasal dari hasil Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Tabel kontingensi dari hasil tabulasi kedua variabel tersebut dapat dilihat pada Tabel 5 berikut: Tabel 5. Tabel Kontingensi Variabel Keluhan Kesehatan dan Variabel Jenis Obat/Cara Pengobatan Penduduk di Kota Sukabumi Keluhan Kesehatan
Jenis Obat/ Cara Pengobatan
Panas
Batuk
Pilek
Asma
Diare
Sakit Kepala Berulang
Sakit Gigi
Lainnya
Tradisional
20
22
19
6
4
5
5
16
Modern
128
140
152
18
26
49
21
77
Lainnya
4
4
4
1
1
2
2
2
Jurusan Statistika-FMIPA-Unpad 2011
125
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Tabel 6. Perbandingan Antar Model Ho dengan Ha adalah Model Saturated (Lengkap) Model Ho
Model Ha
Pearson 2
Independen
Saturated
116.5325
39.6254
0.000031490
Homogen
Saturated
102.4942
42.5458
0.000014867
Efek X
Saturated
100.6710
47.6509
0.000001872
Efek Y
Saturated
28.7184
12.2910
0.13356
Efek X dan Y
Saturated
28.5024
13.2884
0.077783
Bootstrap 2
p-value
Tabel 6 menunjukkan perbandingan antar model Ho (dengan Ha adalah model saturated). Model yang cocok untuk data Keluhan Kesehatan dan Jenis Obat/Cara Pengobatan adalah model dengan efek Y serta model dengan efek X dan Y. Apabila dilihat dari p-value, maka model yang paling cocok adalah model dengan efek Y (kolom/variabel Keluhan Kesehatan).
Output Model dengan Efek Baris (Variabel Y): save_indices: col. #1 = W item #, col. #2 = Y item # OR: col. #1 = model predicted OR, col. #2-#3 = (1-alpha)100% C.I. OR_obs: col. #1 = observed OR, col. #2-#3 = (1-alpha)100% C.I. SAVE_ INDICES 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
1* 2* 3** 4* 5* 6** 7* 8** 1* 2* 3* 4* 5* 6* 7* 8** 1* 2** 3** 4* 5* 6* 7** 8**
OR 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456
0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189 0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189 0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189
OR_OBS 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951
1.4389937 1.720536 1.1709402 3.2692308 1.5103884 0.8683036 2.5238095 1.1184612 1.3164168 2.0807927 2.6666667 1.0748408 2.6 2.106596 2.0662379 0.2528044 1.3988571 1.3740113 1.2688172 2.28 1.8791667 2.0435835 5.4404762 0.5678793
0.7747717 0.9294378 0.6288793 1.2399787 0.5037893 0.3288369 0.9030274 0.5888463 0.8823474 1.3711467 1.745251 0.4570007 0.9791553 1.0864902 0.7644541 0.1688337 0.3707656 0.3642029 0.3364038 0.2743625 0.227497 0.4147 1.0721671 0.1166376
2.672662 3.1849835 2.180229 8.6193982 4.5282292 2.292781 7.0536223 2.1244174 1.9640257 3.1577206 4.0745492 2.527967 6.9039098 4.0844794 5.5848209 0.3785386 5.2777321 5.1836685 4.7856096 18.947196 15.522261 10.070495 27.6065 2.7648625
Keterangan: *)
Odds ratio observasi berada di dalam selang kepercayaan odds ratio model.
**) Odds ratio observasi berada di dalam selang kepercayaan odds ratio model.
Jurusan Statistika-FMIPA-Unpad 2011
126
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Berdasarkan output di atas, ada sebanyak 16 sub-tabel yang memiliki odds ratio observasi yang berada di dalam selang kepercayaan dengan =5%. Sedangkan odds ratio observasi yang kurang signifikan hanya ada sebanyak 8 sub-tabel. Marginal modeling of 2 MRCVs program The standardized Pearson residuals, predicted values,... for MODEL stand_ Observation W Y wi yj COUNT mu_hat resid_ 1 1 1 1 0 0 286 285.393 0.23593 2 2 1 1 0 1 159 159.607 -0.23593 3 3 1 1 1 0 25 25.607 -0.23593 4 4 1 1 1 1 20 19.393 0.23593 5 5 1 2 0 0 286 287.096 -0.42598 6 6 1 2 0 1 159 157.904 0.42598 7 7 1 2 1 0 23 21.904 0.42598 8 8 1 2 1 1 22 23.096 -0.42598 …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… 91 91 3 7 1 0 7 7.889 -0.77870 92 92 3 7 1 1 2 1.111 0.77870 93 93 3 8 0 0 320 319.418 0.48244 94 94 3 8 0 1 161 161.582 -0.48244 95 95 3 8 1 0 7 7.582 -0.48244 96 96 3 8 1 1 2 1.418 0.48244
6.
stand_ err 2.57255 2.57255 2.57255 2.57255 2.57176 2.57176 2.57176 2.57176
1.14200 1.14200 1.20678 1.20678 1.20678 1.20678
KESIMPULAN Berdasarkan hasil dan pembahasan di atas, diperoleh kesimpulan bahwa variabel
Keluhan Kesehatan memiliki asosiasi dengan variabel Jenis Obat/Cara Pengobatan. Odds ratio sub-tabel pada tabel kontingensi dipengaruhi oleh efek kolom (variabel Keluhan Kesehatan). Sehingga Odds ratio antar keluhan kesehatan (panas, batuk, pilek, asma, diare, sakit gigi, sakit kepala berulang, lainnya) berbeda.
7. DAFTAR PUSTAKA Agresti, A. 1990. Categorical Data Analysis. New York: John Wiley and Sons. Badan Pusat Statistik (BPS). 2010. Buku III: Pedoman Kor Pencacahan Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Jakarta: BPS. Bilder, C.R. & Loughin, T.M. 2004. Modelling Association between Two or More Categorical Variables that Allow for Multiple Category Choices. E-Journal on-line. Melalui http://statistics.unl.edu/faculty/bilder/bilder_loughin. Efron, B. and Tibshirani, R. 1983. An Introduction to the Bootstrap. New York: Chapman and Hall. E-book. Lauritzen, S.L. 2002. Lectures on Contingency Tables, Electronic Edition. Copenhagen: Aalborg University. Melalui http://citeseerx.ist.psu.edu/ viewdoc/download.
Jurusan Statistika-FMIPA-Unpad 2011
127