(R.4) PENGUJIAN DAN PEMODELAN ASOSIASI DUA VARIABEL KATEGORIK MULTI-RESPON DENGAN METODE BOOTSTRAP DAN ALGORITMA GANGE

PROSIDING Seminar Nasional Statistika | 12 November 2011

ISSN : 2087-5290. Vol 2, November 2011

(R.4) PENGUJIAN DAN PEMODELAN ASOSIASI DUA VARIABEL KATEGORIK MULTI-RESPON DENGAN METODE BOOTSTRAP DAN ALGORITMA GANGE 1Giat

Sudrajat Sarmuda, 2Septiadi Padmadisastra, 3I Gede Nyoman Mindra Jaya 1Mahasiswa Program Magister Statistika Terapan 2,3Dosen Program Magister Statistika Terapan Universitas Padjajaran, Bandung, Indonesia Email : [email protected] Abstrak

Metode-metode analisis pola asosiasi antar variabel telah dikenal sebelumnya, seperti analisis regresi sederhana untuk data numerik ataupun analisis loglinier untuk data kategorik. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange (Bilder, 2004). Kata Kunci : Variabel Kategorik Multi-Respon, Loglinier Marjinal, Bootstrap, Algoritma Gange. 1.

PENDAHULUAN Analisis data survey yang kompleks banyak dilaksanakan di berbagai negara, salah

satunya adalah Indonesia. Kompleksitas data dapat menyebabkan permasalahan yang beragam dan memiliki implikasi yang berbeda. Salah satu jenis kompleksitas struktur data dalam data survey adalah adanya variabel kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan. Menurut Thomas dan Decady (2004) permasalahan yang muncul dari jenis kompleksitas tersebut adalah sifat multi-respon dari data, bukan dari mekanisme sampling atau desain kuesioner. Metode-metode analisis pola asosiasi antar variabel dari data numerik telah dikenal sebelumnya, seperti analisis regresi sederhana ataupun analisis regresi berganda. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini. Jurusan Statistika-FMIPA-Unpad 2011

119



Model loglinear dapat digunakan untuk mengkaji pola asosiasi antar variabel pada data kategorik. Model loglinier berguna untuk menentukan dependensi (asosiasi) antar beberapa variabel kategorik. Dalam model loglinier, terdapat suatu asumsi bahwa semua variabel yang dianalisis mempunyai status yang sama sebagai suatu variabel dependen karena model loglinier hanya menunjukkan dependensi (asosiasi) antar variabel. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange.

2.

UJI INDEPENDENSI

2.1 Uji Independensi Dua Variabel Kategorik Respon Tunggal Perhatikan Tabel 1, misalkan X dan Y melambangkan dua variabel kategorik respon tunggal, X dengan I kategori dan Y dengan J kategori. Tabel 1. Tabel Kontingensi Dua Variabel Kategorik Respon Tunggal Variabel Y

Variabel X

Kategori 1

Kategori 2

Kategori 1

11

12

Kategori 2

21

22

…

Total Respon

Kategori J-1

Kategori J

…

1( −1)

1

1

…

2( −1)

2

2

…

…

…

Kategori I1

( −1)1

( −1)2

…

( −1)( −1)

( −1)

( −1)

Kategori I

1

2

…

 ( −1)





1

2

( −1)



Total Respon

…



…

…

…

1

Misalkan  menyatakan peluang dari (X,Y) bahwa X=i dan Y=j yang membentuk tabel seperti pada Tabel 1. Misalkan 

merupakan total baris dan 

merupakan total kolom

dengan tanda “+” menyatakan jumlah keseluruhan dari indeks. Untuk tabel kontingensi dua arah dengan dua variabel kategorik respon tunggal, hipotesis independensi yang dipergunakan adalah: : =  : ≠  dengan: i = 1, 2, … , I dan j = 1, 2, … , J.

Jurusan Statistika-FMIPA-Unpad 2011

120



Statistik uji Pearson Chi-Square untuk tabel kontingensi dua arah sebagai berikut: = ∑,

(

 )

(1)



dengan: i = 1, 2, … , I; j = 1, 2, … , J; nij : observasi pada kategori variabel X ke-i dan variabel Y ke-j; dan  adalah estimasi frekuensi harapan yang merupakan perkalian dari total baris dengan total kolom dibagi dengan ukuran sampel keseluruhan, sebagai berikut:

 =

=

=

(2)

2.2 Uji Independensi Dua Variabel Kategorik Multi-Respon Perhatikan Tabel 2, mij merupakan jumlah dari subyek yang memilih kategori ke-i pada variabel X dan kategori ke-j pada variabel Y. Tabel 2. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon Variabel Y Kat. 1 Kategori 1 Kategori 2 Variabel X

Kat. 2

m 11

m 12

m 21

…

m 22

…

Kategori I-1 Kategori I

…

m(I1)1

m(I1)2

m I1

m I2

…

Kat. J-1

Kat. J

Total Respon

Total Sampel/ Subyek

…

m1(J-1)

m1J

1+

1

…

m2(J-1)

m2J

2+

2

mij

…

…

…

m(I-1)(J-1)

m(I-1)J

( −1)+

( −1)

…

mI(J-1)

mIJ

+



+

…

Total Respon

+1

+2

…

+( −1)

+

++

Total Sampel/ Subyek

1

2

…

( −1)



+

…

n

Karena melibatkan dua variabel kategorik multi-respon, maka terdapat 2 (dua) set marjinal yang harus dipertimbangkan. Set marjinal pertama, mengacu sebagai penjumlahan berdasarkan baris yang dinotasikan dinotasikan ,

, j = 1, ..., J, didapat dari

i = 1, ..., I dan



, i =1, ..., I dan penjumlahan berdasarkan kolom yang =∑

, j = 1, ..., J. Dapat dikatakan,


=∑

dan 

dan



. Set marjinal kedua,

mewakili total sampel/subyek

121



berdasarkan variabel X (baris) dan variabel Y (kolom). Secara umum, ≠

≠



dan

. Tabel 2 dapat juga dituliskan sebagai berikut:



Tabel 3. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon Variabel Y

Variabel X

Kat. 1

Kat. 2

Kategori 1

11

12

Kategori 2

21

22

… Kategori I-1

…

1

1+

1

2

2+

2

…

…

…

1( −1)

…

2( −1) …



( −1)1 ( −1)2

Kategori I

Peluang Marjinal Baris

Kat. J

…

…

Jumlah Peluang

Kat. J-1

…

…

( −1)( −1)

( −1)

( −1)+

( −1)

…

 ( −1)



+

  +

1

2

Jumlah Peluang

+1

+2

…

+( −1)

+

++

Peluang Marjinal Kolom

1

2

…

( −1)



+

Peluang dari  merupakan peluang banyaknya subyek yang merespon kategori ke-i pada variabel X (baris) dan kategori ke-j pada variabel Y (kolom). Pada set marjinal pertama, total dari jumlah peluang berdasarkan baris ( ) atau pun total dari jumlah peluang berdasarkan kolom ( ) adalah 

. Pada set marjinal kedua, total dari peluang marjinal

baris adalah   , dan total dari peluang marjinal kolom adalah  . Sehingga penaksirnya adalah  ,  ,   ,  , dan 

.

Untuk tabel kontingensi dengan dua variabel kategorik multi-respon, hipotesis yang dipergunakan adalah: :  =     :  ≠     dengan: i = 1, 2, … , I dan j = 1, 2, … , J. Dengan hipotesis di atas, maka modifikasi dari statistik uji chi-square adalah: =

=

∑




− 

∑



     





(3)

122

PROSIDING Seminar Nasional Statistika | 12 November 2011 3.


METODE BOOTSTRAP DENGAN ALGORITMA GANGE Pada pertengahan 1970, Efron memperkenalkan metode bootstrap untuk menduga

parameter dari sebaran yang tidak diketahui bentuk distribusinya. Metode bootstrap adalah metode berbasis resampling data sampel, sampel yang ada disampel kembali, dengan cara pengembalian pada datanya. Algoritma Gange pertama kali diperkenalkan oleh Gange (1995). Algoritma ini menerapkan metode Iterative Proportional Fitting (IPF), seperti dalam penaksiran parameter model loglinier pada tabel kontingensi. Bootstrap Procedure ChiSquare with Gange Algorithm merupakan kombinasi antara metode bootstrap dan algoritma Gange. Tahapan prosedur dari Bootstrap Procedure Chi-Square with Gange Algorithm sebagai berikut: (1) Tentukan estimasi frekuensi, ( ) dan (

)

dari H0 dan Ha yang telah ditetapkan dan

hitung Pearson Chi-Square. (2) Tentukan frekuensi observasi setiap sub-tabel 2x2 untuk semua pasangan (Xi, Yj). (3) Dengan ( ) dan frekuensi observasi pada tahap 2, gunakan algoritma Gange untuk mendapatkan peluang multinomial dari masing-masing sub-tabel yang dibentuk dari kombinasi (X1, … , Xi, Y1, … , Yj) di bawah asumsi model H0. (4) Simulasikan B buah resample dari (X1*, … , Xi*, Y1*, … , Yj*) dengan menggunakan peluang multinomial pada tahap 3. (5) Bandingkan model dengan masing-masing resample dan hitung

4.

∗

∑

(6) Hitung p-value dengan rumus:

≥

∗

untuk b=1, … , B.

dengan (∙) adalah fungsi indikator.

MODEL LOGLINIER MARJINAL Agresti dan Liu (1999) menunjukkan bahwa variabel kategorik multi-respon dapat

dinyatakan sebagai vektor biner dimana setiap elemen dari vektor menunjukkan respon untuk tiap kategori. Respon biner dimaksud adalah berupa jawaban 0 atau 1. Karena kedua variabel (X dan Y) merupakan variabel kategorik multi-respon, maka tabel kontingensi dapat dituliskan seperti pada Tabel 4. Perhatikan bahwa 



( )

( )

=

( )

⁄(

)

dan  (

)

=

( )

+

( )

+

( )

+

yang sama dengan n (jumlah responden/total sampel). Model asosiasi marjinal antara

X dan Y digunakan untuk menjelaskan pola asosiasi diantara IJ sub-tabel 2x2 di dalam tabel kontingensi. Pola tersebut kemudian menggambarkan asosiasi antara X dan Y.


123



Model loglinier digunakan untuk tujuan ini karena secara alami mengarah kepada interpretasi odds ratio dari asosiasi tersebut. Untuk memodelkan asosiasi antara Xi dan Yj, model loglinier marjinal cocok untuk masing-masing sub-tabel. Model loglinier marjinal merupakan model yang mendeskripsikan asosiasi antara dua variabel kategorik multi-respon pada tabel kontingensi. Asosiasi didefinisikan oleh odds ratio dalam sub-tabel dari item pada tabel kontingensi. Model asosiasi tersebut sebagai berikut: Tabel 4. Tabel Kontingensi Modifikasi Kategori Y Kat. 1

Kat. J

…

0

1

0

1

0

Jumlah Peluang

Peluang Marjinal Baris

1+

1

1

0 Kat. 1

1

11

…

…



1

…



+



Jumlah Peluang

+1

…

+

++

+

Peluang Marjinal Kolom

1

…



+

1

0 Kat. X

…

1

…

…

…

0 Kat. I

1

(1) Model Simultaneous Pairwise Marginal Independence (SPMI): Independensi pada setiap sub-tabel atau tidak ada asosiasi antara variabel X dan Y. Odds ratio untuk semua sub-tabel sama dengan 1 (ij=1). Bentuk modelnya sebagai berikut: log 

=

( )

+

( )

+

( )

(2) Model Asosiasi Homogen: Odds ratio untuk semua sub-tabel bernilai sama, akan tetapi tidak sama dengan 1. Nilai odds ratio adalah log(ij)=00. Bentuk modelnya sebagai berikut: log 

( )

=

+

( )

+

( )

+

(3) Model dengan Efek Baris (Y Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori X (i = 1, … , I), yaitu: log(ij) = 00 +  log 

( )


=

+

( )

( ) . Bentuk

+

( )

modelnya sebagai berikut:

+

+

()

124



(4) Model dengan Efek Kolom (X Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori Y (j = 1, … , J), yaitu: log(ij) = 00 + 

( ).

Bentuk modelnya sebagai

berikut: log 

( )

=

+

( )

+

( )

+

+

( )

(5) Model dengan Efek Baris dan Kolom (Main-Effects): Perbedaan antara log odds ratio untuk setiap dua kategori Y adalah konstan sepanjang X dan sebaliknya. Bentuk modelnya sebagai berikut: log 

( )

=

+

( )

+

( )

+

+

( )

+ +

( )

(6) Model Saturated (Model Lengkap): Odds ratio dari model sama dengan odds ratio observasi pada setiap sub-tabel. Bentuk modelnya sebagai berikut: log 

( )

=

+

( )

+

( )

+

+

( )

+

( )

+

( )

dengan: a = 0, 1; b = 0, 1; i = 1, 2, … , I (banyak kategori variabel X); j = 1, 2, … , J (banyak kategori variabel Y).

5. HASIL DAN PEMBAHASAN Data yang digunakan adalah variabel Keluhan Kesehatan dan variabel Jenis Obat/Cara Pengobatan yang berasal dari hasil Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Tabel kontingensi dari hasil tabulasi kedua variabel tersebut dapat dilihat pada Tabel 5 berikut: Tabel 5. Tabel Kontingensi Variabel Keluhan Kesehatan dan Variabel Jenis Obat/Cara Pengobatan Penduduk di Kota Sukabumi Keluhan Kesehatan

Jenis Obat/ Cara Pengobatan

Panas

Batuk

Pilek

Asma

Diare

Sakit Kepala Berulang

Sakit Gigi

Lainnya

Tradisional

20

22

19

6

4

5

5

16

Modern

128

140

152

18

26

49

21

77

Lainnya

4

4

4

1

1

2

2

2


125



Tabel 6. Perbandingan Antar Model Ho dengan Ha adalah Model Saturated (Lengkap) Model Ho

Model Ha

Pearson 2

Independen

Saturated

116.5325

39.6254

0.000031490

Homogen

Saturated

102.4942

42.5458

0.000014867

Efek X

Saturated

100.6710

47.6509

0.000001872

Efek Y

Saturated

28.7184

12.2910

0.13356

Efek X dan Y

Saturated

28.5024

13.2884

0.077783

Bootstrap 2

p-value

Tabel 6 menunjukkan perbandingan antar model Ho (dengan Ha adalah model saturated). Model yang cocok untuk data Keluhan Kesehatan dan Jenis Obat/Cara Pengobatan adalah model dengan efek Y serta model dengan efek X dan Y. Apabila dilihat dari p-value, maka model yang paling cocok adalah model dengan efek Y (kolom/variabel Keluhan Kesehatan).

Output Model dengan Efek Baris (Variabel Y): save_indices: col. #1 = W item #, col. #2 = Y item # OR: col. #1 = model predicted OR, col. #2-#3 = (1-alpha)100% C.I. OR_obs: col. #1 = observed OR, col. #2-#3 = (1-alpha)100% C.I. SAVE_ INDICES 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3

1* 2* 3** 4* 5* 6** 7* 8** 1* 2* 3* 4* 5* 6* 7* 8** 1* 2** 3** 4* 5* 6* 7** 8**

OR 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456 1.3541919 1.9170179 1.9985924 1.7706294 2.0250774 1.5921422 2.5800578 0.3696456

0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189 0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189 0.9765786 1.3823988 1.447462 0.8078842 1.0674289 1.0725173 1.3430412 0.2550189

OR_OBS 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951 1.8778169 2.6583919 2.7595693 3.8806655 3.8418843 2.3635207 4.9564361 0.5357951

1.4389937 1.720536 1.1709402 3.2692308 1.5103884 0.8683036 2.5238095 1.1184612 1.3164168 2.0807927 2.6666667 1.0748408 2.6 2.106596 2.0662379 0.2528044 1.3988571 1.3740113 1.2688172 2.28 1.8791667 2.0435835 5.4404762 0.5678793

0.7747717 0.9294378 0.6288793 1.2399787 0.5037893 0.3288369 0.9030274 0.5888463 0.8823474 1.3711467 1.745251 0.4570007 0.9791553 1.0864902 0.7644541 0.1688337 0.3707656 0.3642029 0.3364038 0.2743625 0.227497 0.4147 1.0721671 0.1166376

2.672662 3.1849835 2.180229 8.6193982 4.5282292 2.292781 7.0536223 2.1244174 1.9640257 3.1577206 4.0745492 2.527967 6.9039098 4.0844794 5.5848209 0.3785386 5.2777321 5.1836685 4.7856096 18.947196 15.522261 10.070495 27.6065 2.7648625

Keterangan: *)

Odds ratio observasi berada di dalam selang kepercayaan odds ratio model.

**) Odds ratio observasi berada di dalam selang kepercayaan odds ratio model.


126



Berdasarkan output di atas, ada sebanyak 16 sub-tabel yang memiliki odds ratio observasi yang berada di dalam selang kepercayaan dengan =5%. Sedangkan odds ratio observasi yang kurang signifikan hanya ada sebanyak 8 sub-tabel. Marginal modeling of 2 MRCVs program The standardized Pearson residuals, predicted values,... for MODEL stand_ Observation W Y wi yj COUNT mu_hat resid_ 1 1 1 1 0 0 286 285.393 0.23593 2 2 1 1 0 1 159 159.607 -0.23593 3 3 1 1 1 0 25 25.607 -0.23593 4 4 1 1 1 1 20 19.393 0.23593 5 5 1 2 0 0 286 287.096 -0.42598 6 6 1 2 0 1 159 157.904 0.42598 7 7 1 2 1 0 23 21.904 0.42598 8 8 1 2 1 1 22 23.096 -0.42598 …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… 91 91 3 7 1 0 7 7.889 -0.77870 92 92 3 7 1 1 2 1.111 0.77870 93 93 3 8 0 0 320 319.418 0.48244 94 94 3 8 0 1 161 161.582 -0.48244 95 95 3 8 1 0 7 7.582 -0.48244 96 96 3 8 1 1 2 1.418 0.48244

6.

stand_ err 2.57255 2.57255 2.57255 2.57255 2.57176 2.57176 2.57176 2.57176

1.14200 1.14200 1.20678 1.20678 1.20678 1.20678

KESIMPULAN Berdasarkan hasil dan pembahasan di atas, diperoleh kesimpulan bahwa variabel

Keluhan Kesehatan memiliki asosiasi dengan variabel Jenis Obat/Cara Pengobatan. Odds ratio sub-tabel pada tabel kontingensi dipengaruhi oleh efek kolom (variabel Keluhan Kesehatan). Sehingga Odds ratio antar keluhan kesehatan (panas, batuk, pilek, asma, diare, sakit gigi, sakit kepala berulang, lainnya) berbeda.

7. DAFTAR PUSTAKA Agresti, A. 1990. Categorical Data Analysis. New York: John Wiley and Sons. Badan Pusat Statistik (BPS). 2010. Buku III: Pedoman Kor Pencacahan Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Jakarta: BPS. Bilder, C.R. & Loughin, T.M. 2004. Modelling Association between Two or More Categorical Variables that Allow for Multiple Category Choices. E-Journal on-line. Melalui http://statistics.unl.edu/faculty/bilder/bilder_loughin. Efron, B. and Tibshirani, R. 1983. An Introduction to the Bootstrap. New York: Chapman and Hall. E-book. Lauritzen, S.L. 2002. Lectures on Contingency Tables, Electronic Edition. Copenhagen: Aalborg University. Melalui http://citeseerx.ist.psu.edu/ viewdoc/download.


127

(R.4) PENGUJIAN DAN PEMODELAN ASOSIASI DUA VARIABEL KATEGORIK MULTI-RESPON DENGAN METODE BOOTSTRAP DAN ALGORITMA GANGE

Recommend Documents