KAJIAN MODEL REGRESI LOGISTIK PADA DATA KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN CONTOH
RATNA CHRISTIANINGRUM
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR 2011
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Agustus 2011
Ratna Christianingrum G151090191
ABSTRACT RATNA CHRISTIANINGRUM. Logistic Regression Model Studies on Case-Control Data with Three-Stage Sampling . Under direction of BUDI SUSETYO, and KUSMAN SADIK If the sample is taken by using multistage random sampling, through reducing sample size in the next stage, then the ordinary logistic models can’t be used. This data will be analyzed using logistic models with the additional intercept. This research studied the application of addition intercept terms in logistic regression for case control study used multi stage random sampling. Furthermore, this research compared between the model which was formed and the model of the frame sampling data. The addition intercept in logistic models was able to describe the pattern of relationship explanatory variable with response variable. Missing information decreases with increasing number of samples that observed. Average of missing information in the third stage tends to be smaller than in the second stage, because the third stage has more homogeneous sample units than the second stage. The average of missing information is smaller than the average reduction in the number of samples when using multi-stage random sampling, so this sampling technique is also suitable for use in research aimed at predicting the probability of case. Moreover the use of the sampling technique can reduce the sampling cost. Keywords: Additional Intercept, logistic model, multi-stage random sampling, case-control
RINGKASAN RATNA CHRISTIANINGRUM. Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh. Dibimbing oleh BUDI SUSETYO dan KUSMAN SADIK Rancangan penelitian yang banyak digunakan dalam bidang epidemiologi adalah rancangan penelitian kasus-kontrol. Dalam penelitian kasus-kontrol, contoh kasus dan contoh kontrol diambil secara terpisah. Kasus merupakan unit contoh yang memiliki karakteristik tertentu yang diamati, sedangkan kontrol merupakan unit contoh yang tidak memiliki karakteristik tertentu yang diamati. Teknik pengambilan contoh dengan beberapa tahap dapat digunakan untuk mengambil contoh kasus dan kontrol. Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di tahap terakhir pengambilan contoh dan hanya sebagian yang diamati. Konsekuensi dari penggunaan teknik pengambilan contoh dengan beberapa tahap adalah proses analisa data yang lebih komplek. Penelitian ini mengkaji penerapan regresi logistik dengan penambahan konstanta pada penelitian kasuskontrol yang menggunakan teknik pengambilan contoh dengan beberapa tahap. Selain itu akan membandingkan model yang terbentuk dengan model dari data hasil pembangkitan. Data yang digunakan merupakan data berpasangan yang diperoleh dari proses pembangkitan. Terdapat tida peubah penjelas yang digunakan, yaitu X 1 , X 2 , dan X 3 . Peubah X 1 memiliki dua nilai yang mungkin (0, 1) dan dibangkitkan secara acak dari distribusi binomial dengan n=1 dan p=0.3. Peubah X 2 memiliki tiga nilai yang mungkin (0, 1, 2) yang dibangkitkan secara acak dari distribusi multinomial dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5 untuk masing-masing nilai kategori secara berurutan. Peubah X 3 memiliki empat nilai yang mungkin yaitu 0, 1, 2, dan 3. Peubah ini dibangkitkan secara acak dari distribusi multinomial dengan nilai peluang yang digunakan adalah 0.1, 0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan. Peubah Y akan bernilai 1 apabila nilai probabilitas > z dan bernilai 0 untuk lainnya. Nilai z dibangkitkan secara acak dari distribusi uniform. Model regresi logistik dengan penambahan konstanta dibangun dari data contoh. Terdapat 2 macam model yang dibentuk, yaitu model regresi logistik dengan satu konstanta tambahan dan model regresi logistik dengan dua konstanta tambahan. Model regresi logistik dengan satu konstanta tambahan dibangun dari data dengan dua tahap pengambilan contoh, sedangkan model lainnya dibangun dari data dengan tiga tahap pengambilan contoh. Konstanta tambahan (α i ) tidak hanya berfungsi untuk mengkoreksi β 0 , namun juga β i . Hasil pengujian terhadap parameter dari model regresi logistik dengan penambahan konstanta, hampir semua parameter yang dimiliki memberikan hasil yang sama dengan parameter dari model untuk data hasil pembangkitan. Selain itu, parameter ini memiliki tanda yang sama dengan parameter dari model untuk
data hasil pembangkitan. Jadi dapat disimpulkan bahwa regresi logistik dengan penambahan konstanta mampu menggambarkan pola hubungan antara peubah respon dengan peubah penjelas. Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-3 cenderung lebih kecil dari rata-rata informasi yang hilang pada tahap ke-2. Hal ini dikarenakan tahap ke-3 memiliki unit contoh yang lebih homogen dari tahap ke-2. Kata kunci: Konstanta tambahan, model regresi logistik, tiga tahap pengambilan contoh, penelitian kasus kontrol
© Hak Cipta milik IPB, tahun 2011 Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar bagi IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis dalam bentuk apa pun tanpa izin IPB
KAJIAN MODEL REGRESI LOGISTIK PADA DATA KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN CONTOH
RATNA CHRISTIANINGRUM
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Aji Hamim Wigena, MSc
Judul Penelitian
: Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh
Nama
: Ratna Christianingrum
NRP
: G151090191
Program Studi
: Statistika
Disetujui Komisi Pembimbing
Dr. Ir. Budi Susetyo, MS Ketua
Dr. Kusman Sadik, MSi Anggota
Diketahui,
Ketua Program Studi S2 Statistika
Dekan Sekolah Pascasarjana IPB
Dr. Ir. Erfiani, MSi
Dr. Ir. Dahrul Syah, M.Sc. Agr.
Tanggal Ujian : 20 Agustus 2011
Tanggal Lulus :
PRAKATA Puji dan syukur penulis panjatkan kepada Tuhan atas segala rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Judul karya ilmiah ini adalah “Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh”. Terima kasih penulis ucapkan kepada Dr. Ir. Budi Susetyo, M.S selaku pembimbing I dan Dr. Kusman Sadik, M.Si selaku pembimbing II, terima kasih atas bimbingan, saran dan waktunya. Disamping itu penulis juga mengucapkan terima kasih kepada Dr. Ir. Aji Hamim Wigena, M.Sc. selaku penguji luar komisi pada ujian tesis dan seluruh staf Program Studi Statistika. Ungkapan terima kasih juga disampaikan kepada Bapak, Ibu dan adik serta seluruh keluarga atas doa, dukungan dan kasih sayangnya. Terima kasih kepada teman-teman Statistika angkatan 2009 atas bantuan dan kebersamaannya. Semoga karya ilmiah ini dapat bermanfaat.
Bogor, Agustus 2011
Ratna Christianingrum
RIWAYAT HIDUP Penulis dilahirkan di Semarang, pada tanggal 30 Juni 1987 sebagai anak pertama dari pasangan Bapak Suparman, S.Pd dan Ibu Amini, S.Pd. Tahun 2005 penulis menyelesaikan pendidikan di SMU Negeri 1 Salatiga dan pada tahun yang sama lulus melalui SPMB pada Program Studi Statistika FMIPA Universitas Diponegoro. Pada tahun 2009 penulis menyelesaikan kuliah dan pada tahun yang sama penulis diterima di Program Studi Statistika Pasca Sarjana Institut Pertanian Bogor.
DAFTAR ISI Halaman DAFTAR TABEL ........................................................................................ xii DAFTAR GAMBAR ................................................................................... xii DAFTAR LAMPIRAN ................................................................................ xiv PENDAHULUAN Latar Belakang ..................................................................................... Tujuan ..................................................................................................
1 2
TINJAUAN PUSTAKA Pengertian ............................................................................................. Teknik Pengambilan Contoh ................................................................. Teknik Analisis .....................................................................................
3 4 6
METODOLOGI Sumber Data .......................................................................................... 13 Metode Analisis .................................................................................... 13 HASIL DAN PEMBAHASAN Model Regresi Logistik Biner untuk Data Hasil Pembangkitan ............. Model Regresi Logistik Biner dengan Penambahan Konstanta .............. Pengujian Parameter ............................................................................. Informasi yang Hilang ...........................................................................
17 19 24 26
SIMPULAN DAN SARAN Simpulan .............................................................................................. 31 Saran .................................................................................................... 31 DAFTAR PUSTAKA .................................................................................. 33 LAMPIRAN ................................................................................................. 35
DAFTAR TABEL Halaman 1
Proses pengambilan contoh dengan tiga tahap .........................................
5
2
Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300 ..................... 18
3
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk N=300 .............. 19
4
Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda dari model data hasil pembangkitan untuk N=300............... 24
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh untuk N=300............................................................................... 25
6
Rata-rata persentase total informasi yang hilang untuk N=300 ............... 27
DAFTAR GAMBAR Halaman 1
Skema proses pengambilan contoh .....................................................
20
2
Rata-rata informasi hilang pada tahap kedua proses pengambilan contoh ..................................................................................................
26
3
Rata-rata persentase total informasi hilang………...............................
28
4
Rata-rata persentase informasi hilang pada tahap kedua dan ketiga dengan N=300 .....................................................................................
28
DAFTAR LAMPIRAN Halaman 1
Program di SAS 6.2 .............................................................................
37
2
Program di Matlab ...............................................................................
39
3
Nilai parameter model Y terhadap X 1 dan X 2 untuk data hasil pembangkitan ……………………………………………...........................................
44
4
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk data hasil pembangkitan ……………………………………………...................
46
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh ……………………………………………...............................
48
6
Rata-rata persentase total informasi hilang ..........................................
50
PENDAHULUAN
Latar Belakang Rancangan penelitian kasus-kontrol merupakan rancangan penelitian yang banyak digunakan dalam bidang epidemiologi. Rancangan ini digunakan untuk menelusuri faktor resiko dari suatu penyakit. Rancangan ini memiliki hubungan sebab-akibat yang lebih kuat daripada cross section. Breslow (1996) dalam Scott (2006) menyatakan bahwa penelitian kasus-kontrol merupakan tulang belakang dari epidemiologi. Contoh kasus dan kontrol diambil secara terpisah dalam penelitian kasuskontrol. Kasus merupakan kumpulan unit contoh yang memiliki karakteristik tertentu yang akan diamati, misalnya orang yang terjangkit penyakit tertentu. Adapun kontrol merupakan kumpulan unit contoh yang tidak memiliki karakteristik yang akan diamati. Proses pengambilan contoh, baik dalam kasus maupun kontrol menggunakan teknik pengambilan contoh yang sederhana. Teknik
pengambilan
contoh
tersebut
antara
lain
menggunakan
teknik
pengambilan contoh acak sederhana (simple random sampling) atau teknik pengambilan contoh acak bersrata (stratified random sampling). Scott (2006) lebih menyarankan penggunaan teknik pengambilan contoh yang lebih kompleks daripada yang sederhana, yaitu teknik pengambilan contoh acak dengan beberapa tahap. Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di tahap terakhir pengambilan contoh dan hanya sebagian yang diamati. Terdapat beberapa metode yang dapat digunakan untuk menganalisis data kasus-kontrol, salah satunya dengan menggunakan regresi logistik. Regresi logistik merupakan metode yang digunakan untuk menggambarkan hubungan sebuah peubah respon dengan satu atau lebih peubah penjelas, dimana peubah
responnya diskrit yang mempunyai dua atau lebih nilai yang mungkin (Hosmer & Lemeshow 2000). Apabila peubah respon yang digunakan merupakan data biner maka disebut regresi logistik biner. Dalam regresi logistik terdapat asumsi yang harus dipenuhi (Meyers, et al. 2006) yaitu: 1.
Tidak ada multikolinearitas yang sempurna
2.
Tidak terdapat kesalahan spesifikasi (semua prediktor yang relevan harus disertakan, sedangkan prediktor yang tidak relevan dapat dihilangkan).
3.
Peubah bebas harus diukur pada tingkat skala respon sumatif, interval atau rasio, meskipun peubah dikotomus diperbolehkan. Data kasus-kontrol dapat dianalisis dengan regresi logisitik biner apabila
proses pengambilan contoh dilakukan dengan satu tahap pengambilan contoh. Data kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan contoh dengan beberapa tahap tidak dapat dianalisis menggunakan regresi logistik biner. Contoh tersebut diambil dari distribusi bersyarat Y dan X yang telah diamati di tahap sebelumnya. Akibatnya konstanta yang dihasilkan akan berbias. Penambahan konstanta pada model regresi logistik dilakukan untuk mengatasi permasalahan tersebut (Lee, et al. 2010) Penelitian ini mengkaji penerapan regresi logistik dengan penambahan konstanta pada penelitian kasus-kontrol yang menggunakan teknik penarikan contoh acak dengan beberapa tahap. Selain itu akan membandingkan model yang terbentuk dengan model dari data hasil pembangkitan.
Tujuan Penelitian Tujuan dari penelitian ini adalah untuk 1. Mengkaji penerapan regresi logistik dengan penambahan konstanta pada penelitian kasus-kontrol yang menggunakan teknik pengambilan contoh acak dengan beberapa tahap. 2. Membandingkan model yang terbentuk dari data contoh dengan model dari data hasil pembangkitan-nya.
TINJAUAN PUSTAKA
Pengertian Rancangan penelitian kasus-kontrol di bidang epidemiologi didefinisikan sebagai rancangan epidemiologi yang mempelajari hubungan antara faktor penelitian dengan penyakit, dengan cara membandingkan kelompok kasus dan kelompok kontrol berdasarkan faktor penelitian yang diamati (Warti 2010). Kasus merupakan unit pengamatan yang memiliki karakteristik tertentu, biasanya unit pengamatan yang mengidap penyakit tertentu. Kontrol merupakan unit pengamatan yang tidak memiliki karakteristik tertentu (Lee et al. 2010). Scott dan Wild (1991) menyatakan bahwa epidemiologi digunakan untuk memprediksi hubungan antara peubah penjelas, misalnya faktor-faktor resiko dari suatu penyakit dan peubah respon yang diskrit. Langkah awal dari penelitian kasus-kontrol yaitu pengidentifikasian kelompok orang yang mengidap penyakit tertentu dan yang tidak untuk melihat faktor resiko keduanya (Woodward 2005 dalam Warti 2010). Langkah selanjutnya dilakukan penelusuran riwayat penyakit tersebut dengan rancangan penelitian kasus-kontrol.
Rancangan
ini
memberikan
cara
yang
efisien
dalam
mengumpulkan faktor-faktor penelitian dari penyakit yang jarang terjadi. Misalkan ada seorang peneliti yang akan mengidentifikasi faktor-faktor yang dapat meningkatkan resiko seseorang terkena penyakit jantung pada usia produktif, untuk pasien rumah sakit A yang datang dalam kurun waktu setahun terakhir. Setelah mendapatkan kerangka contoh yang berupa daftar pasien dilakukan identifikasi pasien yang mengindap penyakit jantung dan yang tidak. Orang yang mengindap penyakit jantung dimasukkan dalam kelompok kasus, sedangkan sisanya sebagai kontrol. Contoh kasus dan kontrol diperoleh dengan menggunakan teknik pengambilan contoh di masing-masing kelompok kasus dan kelompok kontrol. Dalam penelitian tersebut, peubah yang diamati tahap pertama adalah jenis kelamin, tekanan darah dan berat badan. Peubah-peubah ini diamati pada tahap pertama proses penambilan contoh karena untuk mendapatkan nilai dari peubah
ini hampir tidak memerlukan biaya. Untuk mendapatkan nilai dari peubah, peneliti hanya perlu mengunjungi rumah sakit. Peubah yang diamati di tahap terakhir pengambilan contoh merupakan peubah yang berhubungan dengan tingkah
laku
dan
kebiasaan,
misalkan
kebiasaan
merokok,
kebiasaan
mengkonsumsi alkohol, dan pola konsumsi makanan. Peubah-peubah ini diletakkan di tahap terakhir proses pengambilan contoh, karena biaya memperoleh nilai peubah-peubah tersebut relatif mahal. Peneliti harus mengunjungi langsung orang yang terpilih sebagai contoh untuk mendapatkan nilai peubahnya.
Teknik Pengambilan Contoh Teknik pengambilan contoh digunakan untuk memperoleh contoh yang mampu menggambarkan keadaan sebenarnya dari populasi yang diamati. Penelitian kasus-kontrol menggunakan teknik pengambilan contoh yang biasa digunakan. Namun dalam penelitian ini, contoh untuk kasus dan kontrol diambil secara terpisah. Teknik pengambilan contoh yang digunakan merupakan teknik pengambilan contoh acak sederhana dan teknik pengambilan contoh acak bersrata. Scott (2006) menyatakan bahwa lebih baik menggunakan rancangan pengambilan contoh yang lebih kompleks yaitu rancangan pengambilan contoh yang terbagi dalam beberapa tahap. Teknik pengambilan contoh tersebut dapat menurunkan biaya pengambilan contoh dan mampu mengatasi data hilang. Langkah awal proses pengambilan contoh dalam penelitian kasus-kontrol adalah membagi populasi ke dalam dua kelompok berdasarkan status karakteristik yang diamati. Kelompok pertama adalah kumpulan unit pengamatan yang memiliki karakteristik tertentu dan kelompok ini disebut kasus. Kelompok kedua adalah kumpulan unit pengamatan yang tidak memiliki karakteristik tertentu. Kelompok ini disebut kontrol. Contoh kasus dan kontrol diambil secara terpisah di masing-masing kelompok kasus dan kontrol. Teknik pengambilan contoh acak sederhana digunakan untuk memperoleh contoh kasus ataupun kontrol. Pada tahap pertama pengambilan contoh, unit contoh terbagi dalam beberapa kelompok berdasarkan jumlah faktor penelitian dan taraf dari masingmasing faktor penelitian yang diamati. Misalkan pada tahap pertama terdapat dua faktor penelitian yang diamati, di mana faktor pertama mempunyai tiga taraf dan
Tabel 1 Proses pengambilan contoh dengan tiga tahap Populasi Tahap pertama Tahap kedua N N0 n0 (Jumlah n01 (Jumlah (jumlah (jumlah unit dimana dimana Y=0 keseluru contoh Y=0 dan X(1) = , han kontrol) X(1) = ) = ) kontrol) (Jumlah dimana Y=0 X(1) = , = )
N1 (jumlah keseluru han kasus)
n1 (jumlah contoh kasus)
Tahap ketiga unit n011 dan X(2)
unit n01b dan X(2)
(Jumlah n0a unit dimana Y=0 dan (1) X = )
(Jumlah dimana Y=0 X(1) = , = )
unit n0a1 dan X(2)
unit n0ab dan X(2)
(Jumlah n01 unit dimana Y=1 dan (1) X = )
(Jumlah dimana Y=0 X(1) = , = ) (Jumlah dimana Y=1 X(1) = , = )
unit n111 dan X(2)
(Jumlah unit n11b dimana Y=1 dan X(1) = , X(2) = ) (Jumlah n0a unit dimana Y=1 dan (1) X = )
(Jumlah dimana Y=1 X(1) = , = )
unit n1a1 dan X(2)
(Jumlah dimana Y=1 X(1) = , = )
unit n1ab dan X(2)
faktor kedua mempunyai dua taraf. Jumlah kelompok yang ada pada tahap pertama ini adalah 2 x 3= 6 kelompok. Pada tahap pertama, faktor penelitian yang diamati biasanya berupa data kategori. Tahap kedua dimulai setelah unit pengamatan terbagi ke dalam beberapa kelompok. Dari masing-masing kelompok diamati seluruh anggota kelompok atau hanya sub-contohnya. Jika hanya diambil sub-contoh, maka proses pengambilan contohnya menggunakan teknik pengambilan contoh acak sederhana. Selanjutnya dilakukan pengukuran faktor penelitian yang akan diamati pada tahap ini. Tahap ketiga pengambilan contoh dilakukan setelah tahap kedua. Cara memperoleh contoh pada tahap ketiga dan tahap-tahap selanjutnya sama dengan cara memperoleh contoh pada tahap kedua. Pada tahap terakhir pengambilan contoh, data yang diamati dapat berupa data diskrit atau kontinu. Tabel proses pengambilan contoh dengan menggunakan tiga tahap dapat dilihat pada Tabel 1.
Teknik Analisis Metode yang banyak digunakan untuk menganalisis data kasus-kontrol adalah regresi logistik. Regresi logistik merupakan suatu metode yang digunakan untuk menggambarkan hubungan antara peubah respon yang berupa data kategori dengan satu atau lebih peubah penjelas.
Model Respon yang diamati dalam penelitian kasus-kontrol adalah status dari karakteristik yang akan diamati, misalnya status penyakit. Unit yang berasal dari kelompok kasus diberi nilai peubah respon Y=1. Unit yang berasal dari kelompok kontrol diberi nilai peubah respon Y=0. Peubah penjelas yang dinyatakan dalam bentuk vektor penjelas dituliskan dengan notasi X. Nilai peluang untuk kasus dengan X = x adalah (1) Sedangkan nilai peluang untuk kontrol adalah (2)
Model ini merupakan model regresi logistik biner. Namun model ini hanya dapat digunakan pada rancangan penelitian kasus-kontrol dengan satu tahap. Model regresi logistik biner yang biasa tidak dapat digunakan pada rancangan kasus-kontrol dengan menggunakan dua tahap atau lebih dalam proses pengambilan contoh. Hal ini dikarenakan konstanta dari model regresi logistik biasa berbias. Untuk mengatasi permasalahan tersebut maka dilakukan modifikasi terhadap model regresi logistik. Modifikasi yang dilakukan adalah dengan menambahkan konstanta tambahan yang dinotasikan dengan α. Nilai α muncul sebagai akibat penggunaan skema pengambilan contoh kasus kontrol yang dapat dilihat di Tabel 1 (Scott & Wild 1997). Model baru yang terbentuk adalah sebagai berikut: •
Dua tahap (3) (4)
•
Tiga tahap (5) (6)
dengan merupakan konstanta tambahan untuk strata ke-i yang terbentuk pada tahap kedua (i = 1, 2, ..., a) merupakan konstanta tambahan untuk strata ke-i yang terbentuk di tahap kedua dan strata ke-j yang terbentuk dari tahap ke-3 (i = 1, 2, ..., a dan j=1, 2, ..., b) merupakan vektor contoh acak bagi peubah penjelas merupakan vektor parameter
Pendugaan Parameter Berdasarkan skema pengambilan contoh, maka fungsi likelihood untuk model dengan beberapa tahap pengambilan contoh tidak hanya bergantung pada parameter β tetapi juga pada distribusi bersyarat dari X, yang diberikan oleh X(1)=
, X(2)=
, ... untuk i = 1, ..., a dan j = 1, ..., b. Fungsi likelihood bagi
model dengan dua tahap pengambilan contoh adalah sebagai berikut:
(7) Sedangkan fungsi likelihood bagi model dengan tiga tahap pengambilan contoh adalah sebagai berikut: (8) dengan C= D= dengan Y
merupakan peubah respon
h
merupakan nilai dari peubah respon (h=0,1) merupakan peubah penjelas yang diamati pada tahap pertama proses pengambilan contoh merupakan nilai dari peubah penjelas ke-i yang diamati pada tahap pertama proses pengambilan contoh (i = 1, 2, ..., a) merupakan peubah penjelas yang diamati pada tahap kedua proses pengambilan contoh merupakan nilai dari peubah penjelas ke-j yang diamati pada tahap kedua proses pengambilan contoh (j = 1, 2, ..., b) merupakan nilai dari peubah penjelas ke-k yang diamati pada tahap ketiga proses pengambilan contoh dan berasal dari kelompok peubah respon ke-h, kelompok peubah penjelas ke-i dan ke-j (i = 1, 2, ..., a dan j=1, 2, ..., b) merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah respon h dan nilai peubah penjelas yang diamati pada tahap pertama proses pengambilan contoh merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai peubah respon h dan nilai peubah penjelas yang diamati pada tahap pertama proses pengambilan contoh merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah respon h, nilai peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
, dan nilai peubah penjelas yang diamati pada
tahap kedua proses pengambilan contoh merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai peubah respon h, nilai peubah penjelas yang diamati pada tahap pertama proses pengambilan contoh
, dan nilai peubah penjelas yang diamati
pada tahap kedua proses pengambilan contoh Secara umum proses pengambilan contoh dalam penelitian kasus kontrol, contoh berukuran n i diambil dari
untuk setiap kategori respon i=1, 2, ...,
a. Peluang Y terpilih sebagai contoh adalah sebesar sebesar
dan peluang x terpilih
. Sehingga persamaan (1) dapat ditulis kembali menjadi (Scot dan
Wild 1997): (9) dengan merupakan perbandingan antara peluang individu terpilih sebagai contoh pada kelompok ke-i dengan peluang individu terpilih dari populasi merupakan jumlah anggota kelompok ke-i n
merupakan jumlah keseluruhan data Dalam penelitian kasus kontrol, respon yang diamati adalah ada atau
tidaknya karakteristik yang diamati, misalnya status penyakit. Sehingga peubah responnya merupakan data biner. Apabila dilakukan pengambilan contoh dengan tiga tahap pengambilan contoh, maka persamaan (9) dapat ditulis kembali menjadi: (10) dengan
merupakan nilai pobabilitas contoh terpilih jika Y=h, . t merupakan indek yang menunjukkan kelompok
yang terbentuk pada setiap tahap pengambilan contoh. Jika dilakukan dua tahap pengambilan contoh, maka t dapat digantikan dengan i. Jika dilakukan tiga tahap pengambilan contoh, maka t dapat digantikan dengan kombinasi i dan j (ij). Berdasarkan model pada persamaan (9) dan (10) maka fungsi log likelihood dapat ditulis sebagai berikut:
(11) dengan
=
Persamaan (11) disebut juga sebagai pseudo-likelihood. Pendugaan konstanta tambahan ( ) dari persamaan (3) dan (5) dapat dicari dengan menggunakan metode Conditional Maximum Likelihood (CML). CML memperlakukan α sebagai konstanta yang fix. Penduga
yang konsisten dapat
diperoleh dengan memaksimalkan persamaan (11) dan menggantikan
pada
persamaan (9) dengan penduga yang konsisten. Wild (1991) menyatakan bahwa P(Y=h) dapat digantikan dengan
dan
dengan sampling fraksional Sehingga
pada persamaan (9) dapat digantikan
.
dapat diduga dengan:
Berdasarkan model di persamaan (3) dan (5), maka t dapat digantikan dengan i dan ij.Penduga
dengan menggunakan CML merupakan penduga yang konsisten.
Evaluasi Model Pengujian parameter
secara parsial menggunakan uji Wald dengan
merasionalkan nilai dugaan parameter dengan simpangan bakunya. Hipotesis yang akan diuji adalah: H0 : H1 :
, i=1, 2, ..., p
Statistik uji yang digunakan adalah
Jika H 0 benar, maka statistik W akan mengikuti sebaran normal baku Proses pengambilan contoh dikatakan efisien apabila biaya yang diperlukan untuk memperoleh contoh sekecil mungkin, namun contoh yang terambil mampu memberikan informasi semaksimal mungkin. Besarnya informasi yang hilang dapat dilihat dari besarnya simpangan.
dengan P : nilai estimasi peluang dari model untuk data populasi : nilai estimasi peluang dari model untuk data contoh
Apabila yang dilakukan adalah simulasi, maka ukuran kebaikan model tidak cukup dengan menggunakan rataan simpangan, namun menggunakan rataan dari rataan simpangan yang dicari dengan menggunakan rumus berikut:
METODOLOGI
Sumber Data Sumber data yang digunakan dalam penelitian ini adalah data hasil simulasi. Data yang dibangkitkan merupakan data berpasangan, yaitu Y, X 1 , X 2 , dan X 3 . Y merupakan peubah respon yang berdistibusi binomial dan bersifat acak. Peubah X 1 , X 2 , dan X 3 merupakan peubah penjelas yang berperan sebagai faktor penelitian. Peubah X 1 merupakan faktor penelitian yang berupa data kategori yang terdiri atas dua kategori. Peubah X 2 merupakan faktor penelitian yang berupa data kategori yang terdiri atas tiga kategori, sedangkan X 3 merupakan faktor penelitian yang berupa data kategori yang terdiri atas empat kategori. Jumlah data yang dibangkitkan adalah 300, 500, 700, 900 dan 1000. Tiap jumlah data diulang sebanyak 10 kali. Proses pembangkitan data dan estimasi parameter β menggunakan SAS 9.2, dengan program yang terlampir di Lampiran 1. Proses pengambilan contoh, pendugaan nilai konstanta tambahan (α), dan perhitungan besar informasi yang hilang menggunakan Matlab R2009a dengan program yang terlampir di Lampiran 2. Asumsi yang digunakan dalam penelitian ini yaitu peubah X 1 memiliki biaya pengamatan yang paling murah, peubah X 2 memiliki biaya pengamatan yang lebih mahal daripada peubah X 1 , namun masih lebih murah daripada biaya pengamatan peubah X 3 dan peubah X 3 memiliki biaya pengamatan peubah yang paling mahal.
Metode Analisis Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan penelitian terbagi menjadi lima tahap. Tahap-tahap tersebut yaitu:
Tahap Pertama Langkah awal yang dilakukan adalah membangkitkan data secara acak. Proses pembangkitan data sebagai berikut: 1. Menentukan nilai parameter model ( )
2. Membangkitkan nilai
yang berdistribusi binomial secara acak dengan n=1
dan p=0.3 3. Membangkitkan nilai
yang berdistribusi multinomial dengan tiga kategori
secara acak dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5 untuk masing-masing nilai kategori secara berurutan 4. Membangkitkan nilai
yang berdistribusi berdistribusi multinomial dengan
empat kategori secara acak dengan nilai peluang yang digunakan adalah 0.1, 0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan. 5. Membangkitkan nilai z yang berdistribusi uniform secara acak 6. Menghitung nilai probabilitas dengan menggunakan persamaan regresi logisitik, yaitu: =
dimana
7. Mencari nilai Y dengan kriteria sebagai berikut: •
Y = 1 apabila
>z
•
Y = 0 apabila
≤z
Tahap Kedua 1. Memodelkan peubah Y terhadap peubah X 1 , X 2 , dan X 3 dengan regresi logistik biner pada data hasil pembangkitan 2. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk nilai-nilai peubah X 1 , X 2 , dan X 3 yang mungkin 3. Memodelkan peubah Y terhadap peubah X 1 dan X 2 dengan regresi logistik biner pada data hasil pembangkitan 4. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk nilai-nilai peubah X 1 dan X 2 yang mungkin 5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald pada model yang terbentuk di nomor 1
Tahap Ketiga 1. Mengelompokkan data hasil pembangkitan berdasarkan nilai peubah Y dan nilai peubah X 1
2. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan contoh acak sederhana di tiap kelompok yang terbentuk di nomor 1 dengan kriteria pengambilan contoh sebagai berikut: •
Apabila jumlah anggota kelompok kurang dari atau sama dengan 5, maka seluruh anggota kelompok diambil sebagai contoh
•
Apabila jumlah anggota kelompok lebih dari 5, maka jumlah contoh yang diambil adalah sebesar 70 %, 75%, 80%, 85%, 90%, dan 95% dari jumlah anggota kelompok
Proses pengambilan contoh ini akan diulang sebanyak 10 kali untuk setiap persentase pengambilan contoh 3. Mengamati nilai peubah X 2 4. Mengelompokkan contoh yang terambil pada proses pengambilan contoh di nomor 2 berdasarkan nilai peubah Y, X 1 , dan X 2 5. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan contoh acak sederhana di tiap kelompok yang terbentuk di nomor 4 dengan kriteria pengambilan contoh dan besar presentase jumlah contoh yang diambil sama dengan yang digunakan di nomor 2 6. Mengamati nilai peubah X 3
Tahap Keempat 1. Melakukan estimasi parameter menggunakan regresi logistik biner dengan penambahan satu konstanta untuk contoh yang terambil pada proses pengambilan contoh di tahap ketiga nomor 2 2. Mengestimasi nilai peluang untuk nilai peubah X 1 dan X 2 yang mungkin dengan menggunakan model yang terbentuk pada nomor 1 3. Mencari nilai estimasi parameter dengan menggunakan regresi logistik dengan penambahan dua konstanta untuk contoh yang diperoleh dari proses pengambilan contoh pada tahap ketiga nomor 5 4. Mengestimasi nilai peluang untuk nilai peubah X 1 , X 2 , dan X 3 yang mungkin dengan menggunakan model yang terbentuk di nomor 3 5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald untuk model yang terbentuk di nomor 3
Tahap Kelima 1. Menghitung besar informasi yang hilang pada tahap kedua proses pengambilan contoh dengan cara membandingkan nilai peluang yang diperoleh di tahap kedua nomor 4 dan nilai peluang yang diperoleh pada tahap keempat nomor 2 2. Menghitung besar informasi yang hilang pada tahap ketiga proses pengambilan contoh dengan cara membandingkan nilai peluang yang diperoleh di tahap kedua nomor 2 dan nilai peluang yang diperoleh pada tahap keempat nomor 4 3. Membandingkan hasil uji signifikansi parameter pada tahap kedua nomor 5 dengan hasil uji signifikansi parameter pada tahap keempat nomor 5 4. Menarik kesimpulan
HASIL DAN PEMBAHASAN
Model Regresi Logistik Biner untuk data Hasil Pembangkitan Model regresi logistik digunakan untuk menggambarkan hubungan antara peubah respon dan peubah penjelas pada data hasil pembangkitan. Model regresi logistik biner yang dibangun ada dua macam, yaitu model regresi logistik Y terhadap dua peubah (X 1 dan X 2 ) dan model regresi logistik Y terhadap tiga peubah (X 1 , X 2 , dan X 3 ). Kedua model ini digunakan sebagai model pembanding bagi model-model yang terbentuk dari data hasil pengambilan contoh. Proses pembangkitan data diawali dengan menentukan model regresi yang akan dibangkitkan. Model tersebut adalah sebagai berikut:
Data hasil pembangkitan dianggap sebagai kerangka contoh.
Model Y terhadap X 1 dan X 2 Model untuk peubah respon, X 1 dan X 2 yang terbentuk adalah sebagai berikut:
dengan Nilai parameter dari model peubah Y terhadap peubah X 1 dan X 2 untuk masingmasing kerangka contoh dapat dilihat di tabel 2. Model dari data hasil pembangkitan pertama menunjukkan semua parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap parameter dari peubah X 2 yang bernilai 1 memiliki tanda negatif. Hal ini menunjukkan bahwa peubah X 2 apabila bernilai 1 maka memiliki kecenderungan untuk
menghasilkan
respon
kasus
yang
lebih
kecil
daripada
peubah
pembandingnya. Sedangkan peubah lainnya memberikan kecenderungan untuk menghasilkan respon kasus yang lebih besar daripada peubah pembandingnya.
Tabel 2 Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300 Kerangka GB GB GB Contoh 1 -1.4635 0.2072 0.6460 0.2062 0.8870 0.1949 2 -1.9009 0.3076 1.2736 0.3081 0.6911 0.2021 3 -1.4903 0.2165 0.7410 0.2163 0.6342 0.1947 4 -1.9505 0.3078 1.0435 0.3077 0.7227 0.2159 5 -2.0145 0.3678 1.3830 0.3682 0.6586 0.2091 6 -1.2473 0.1921 0.5251 0.1923 0.7721 0.2005 7 -1.4282 0.2271 0.9258 0.2292 0.4699 0.1991 8 -1.6445 0.2694 1.0149 0.2687 0.4589 0.2009 9 -1.4519 0.2290 0.7598 0.2269 0.4948 0.2022 10 -1.8188 0.3073 1.1658 0.3082 0.6379 0.2387
GB -0.9334 -0.8760 -0.7128 -0.8475 -0.6747 -0.7764 -0.7175 -0.5733 -0.5426 -0.7992
GB = Galat Baku (standard error)
Model Y terhadap X 1 , X 2 , dan X 3 Model regresi logistik biner Y terhadap X 1 , X 2 , dan X 3 yang diperoleh adalah sebagai berikut:
dengan . Nilai parameter dari model peubah Y terhadap peubah X 1 , X 2 dan X 3 untuk masing-masing kerangka contoh dapat dilihat di Tabel 3. Semua nilai parameter dalam
di kesepuluh model tersebut signifikan pada
taraf α = 5%. Model dari data hasil pembangkitan pertama menunjukkan semua parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap parameter dari peubah X 2 dan X 3 yang bernilai 1 memiliki tanda negatif. Hal ini menunjukkan bahwa apabila nilai dari peubah X 2 dan X 3 adalah 1, maka peubah X 2 dan X 3 memiliki kecenderungan untuk menghasilkan respon kasus yang lebih kecil daripada peubah pembandingnya. Sedangkan peubah lainnya memberikan kecenderungan untuk menghasilkan respon kasus yang lebih besar daripada peubah pembandingnya. Nilai parameter model regresi logistik biner untuk Y terhadap X 1 dan X 2 dari data hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 3. Nilai
0.2119 0.2016 0.1956 0.2137 0.1946 0.1908 0.1860 0.1884 0.1857 0.1995
parameter model regresi logistik biner untuk Y terhadap X 1 , X 2 , dan X 3 dari data hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 4. Apabila nilai parameter dari model Y terhadap X 1 , X 2 , dan X 3 dibandingkan dengan parameter model yang dibangkitkan, terlihat bahwa nilainilai parameter dari model Y terhadap X 1 , X 2 , dan X 3 berada di sekitar parameter model yang dibangkitkan. Misalkan dilakukan perbandingan nilai
. Nilai
dari parameter model yang dibangkitkan adalah 1, sedangkan nilai
dari
model Y terhadap X 1 , X 2 , dan X 3 berada dalam rentang 0.5618 sampai 1.5154. Nilai rata-rata dari parameter-parameter ini sebesar 1.0605 dengan ragam sebesar 0.0897. Tabel 3 Nilai parameter model Y terhadap X 1 , X 2 dan X 3 Kerangka contoh 1 Parameter -1.5297 0.8013 1.0778 -1.1948 GB 0.3021 0.2331 0.2388 0.2409 2 Parameter -1.8214 1.5154 0.9441 -1.1691 GB 0.3654 0.3335 0.2485 0.2427 3 Parameter -1.8437 1.0006 1.1479 -0.7900 GB 0.2883 0.2579 0.2675 0.2361 4 Parameter -1.8821 1.1717 0.8415 -0.9654 GB 0.3404 0.3203 0.2445 0.2343 5 Parameter -2.1577 1.5825 0.8243 -0.9001 GB 0.4060 0.3828 0.2567 0.2320 6 Parameter -1.2831 0.5618 0.9462 -0.8024 GB 0.2354 0.2094 0.2349 0.2108 7 Parameter -1.6128 1.0139 0.5053 -0.8573 GB 0.2824 0.2436 0.2309 0.2123 8 Parameter -1.5451 1.1800 0.8593 -0.8564 GB 0.3083 0.2818 0.2564 0.2259 9 Parameter -1.3830 0.8163 0.7934 -0.7343 GB 0.2656 0.2445 0.2475 0.2158 10 Parameter -1.5634 0.9611 0.8038 -0.8096 GB 0.2655 0.2498 0.2458 0.2148
untuk N=300
1.1054 0.3295 1.1557 0.3477 1.6660 0.2969 0.8639 0.2992 1.1429 0.3055 1.0170 0.2649 0.8584 0.2868 1.2157 0.2856 1.1668 0.2762 0.8107 0.2802
-2.2634 0.3919 -1.7595 0.3318 -1.7595 0.3227 -1.4424 0.3052 -1.7614 0.3314 -1.8485 0.3453 -1.5921 0.3313 -1.7827 0.3201 -1.6208 0.2978 -1.8169 0.3304
GB = Galat Baku (standard error)
Model Regresi Logistik Biner dengan Penambahan Konstanta
0.7132 0.2890 0.6406 0.2944 0.9785 0.2886 0.5752 0.2767 0.9520 0.2809 0.5312 0.2543 1.0884 0.2715 0.5578 0.2809 0.6511 0.2715 0.6102 0.2471
Pada sub-bab ini akan dilakukan pembahasan tentang model regresi logistik dengan penambahan konstanta sebagai akibat penggunaan teknik
X1=0 N00=160
X1=0 n00=112
Y=0 N=222
X1=1 N01=62
X1=1 n01=43
Sampling Frame N= 300
X1=0 N10=59
X1=0 n10=42
Y=1 N=78
X1=0 N11=9
X1=0 n11=6
X2=0 N000=22
X2=0 N000=15
X2=1 N001=62
X2=1 N001=43
X2=2 N002=28
X2=2 N002=20
X2=0 N010=15
X2=0 N010=11
X2=1 N011=21
X2=1 N011=15
X2=2 N012=7
X2=2 N012=5
X2=0 N100=16
X2=0 N100=11
X2=1 N101=14
X2=1 N101=10
X2=2 N102=12
X2=2 N102=8
X2=0 N110=4
X2=0 N110=4
X2=1 N111=1
X2=1 N111=1
X2=2 N112=1
X2=2 N112=1
Gambar 1 Skema proses pengambilan contoh pengambilan contoh dengan tiga tahap. Sebagai contoh pada kerangka contoh pertama untuk jumlah data sebesar 300 data dengan jumlah contoh yang diambil pada setiap proses pengambilan contoh sebesar 70% dari jumlah data yang ada. Gambar 1 merupakan skema pengambilan contoh pada salah satu kasus simulasi. Kasus simulasi yang digunakan adalah data pada kerangka contoh pertama dengan jumlah contoh yang diambil adalah sebesar 70% pada setiap pengambilan contoh pada ulangan pertama. Model regresi logistik dengan konstanta berdasarkan skema pengambilan contoh (Gambar 1) sebagai berikut: Model 1 (Y terhadap X 1 dan X 2 )
dengan i = 0,1 Nilai untuk masing-masing α i adalah α 0 = -0.03198 dan α 1 = -0.03953. Model 2 (Y terhadap X 1 , X 2 dan X 2 )
dengan
i = 0,1 j = 0, 1, 2 Nilai untuk masing-masing α i dan α ij adalah sebagai berikut: = 0.0168
= -0.0395
= 0.0083
= 0.0295
= -0.06899
= 0.3102
= 0.3365
= 0.3365
Model peubah Y terhadap peubah X 1 dan X 2 dari kerangka contoh pertama sebagai berikut:
Nilai α i merupakan konstanta untuk mengkoreksi nilai β 0 dan β 1(0) . Berdasarkan skema pengambilan contoh
yang
digunakan,
pembagian kelompok
(i)
menggunakan nilai peubah X 1 . Misalkan pada saat X 1 = 0, maka nilai untuk model dari data hasil pembangkitan adalah -0.8175. Sedangkan nilai
untuk model 1 adalah -0.82478. Apabila dengan
menggunakan model 1 namun tanpa memasukkan nilai
, maka nilai
yang diperoleh sebesar -0.7928. Dari contoh diatas dapat dilihat bahwa dengan menggunakan nilai
lebih mendekati nilai
data hasil pembangkitan. Nilai parameter nilai parameter
dan
, maka
dari model untuk dan
dari model 1 mendekati
dari model model untuk data hasil pembangkitan.
Hal ini menunjukkan bahwa penambahan α mampu mengkoreksi model regresi logistik yang biasa. Selanjutnya dibandingkan tanda dari parameter model 1 dengan tanda dari parameter model data hasil pembangkitan. Dari kedua model tersebut, tanda yang dimiliki oleh parameternya sama. Misalkan untuk tanda dari
dan
model data hasil pembangkitan adalah positif dan negatif. Tanda dari
untuk dan
dari model 1 juga positif dan negatif. Apabila dilakukan uji Wald pada setiap parameter di model yang terbentuk dari data hasil pembangkitan, maka semua parameternya signifikan pada tingkat α = 5%, yang berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap parameter dari model 1 dilakukan uji Wald, maka diperoleh bahwa semua parameter signifikan pada tingkat α = 5%, sehingga dapat disimpulkan bahwa dengan menggunakan model 1 semua peubah bebas memberikan pengaruh yang nyata terhadap peubah respon. Kesimpulan yang dihasilkan oleh model 1 sama dengan kesimpulan yang dihasilkan oleh model dari data hasil pembangkitan. Hal ini menunjukkan bahwa model 1 mampu menggambarkan pola hubungan antara peubah respon dan peubah penjelas dengan baik. Model Y terhadap X 1 , X 2 , dan X 3 dari sampling frame pertama adalah sebagai berikut:
dengan
Nilai
merupakan konstanta untuk mengkoreksi nilai
berfungsi untuk mengkoreksi nilai
,
,
dan dan
, sedangkan . Hal ini terjadi
sebagai akibat dari penggunaan teknik pengambilan contoh dengan tiga tahap. Misalkan pada saat nilai x1 = 0 dan x 2 = 0, maka nilai untuk model untuk data hasil pembangkitan adalah 0.3494.
Nilai
adalah
0.3276. Apabila dengan menggunakan model 2, namun tanpa memasukkan nilai , maka nilai
sebesar
0.3024. Terlihat bahwa dengan menggunakan penambahan konstanta nilai estimasi
dari model 2 lebih
mendekati nilai hasil pembangkitan. Selain itu nilai
dari model untuk data juga menunjukkan pengaruh interaksi
antara i dan j. Berdasarkan skema pengambilan contoh yang digunakan, i terbentuk berdasarkan nilai X 1 sedangkan j terbentuk berdasarkan nilai X 2 . Sehingga dapat dikatakan bahwa nilai-nilai
menggambarkan pengaruh
interaksi antara peubah X 1 dan X 2 . Perbandingan tanda dari nilai estimasi parameter model 2 dengan model dari data hasil pembangkitan, maka diperoleh bahwa tanda dari parameter di kedua model sama. Tanda pada parameter
dari model untuk
data hasil pembangkitan dan model 2 adalah positif, negatif, dan positif. Kemudian dilakukan uji Wald untuk masing-masing parameter dari model 2. Hasil uji Wald menunjukkan bahwa semua parameter dari model 2 signifikan pada tingkat α = 5%, yang berarti bahwa pengaruh yang diberikan oleh peubah penjelas terhadap varibel respon nyata pada α = 5%. Jadi, dapat disimpulkan bahwa model 2 mampu menggambarkan pola hubungan antara peubah penjelas dengan peubah respon dengan baik.
Pengujian Parameter Pada setiap model yang terbentuk dari proses simulasi pengambilan contoh dilakukan uji Wald untuk mengetahui parameter model signifikan atau tidak. Hipotesis yang digunakan yaitu H 0 :
lawan H 1 :
, i=1, 2, ..., p
Kemudian dihitung jumlah parameter yang memberikan hasil uji Wald yang berbeda dengan hasil uji Wald bagi parameter model dari data hasil pembangkitan. Setelah jumlah diketahui maka dihitung persentase jumlah parameter yang memberikan kesimpulan yang berbeda dengan model untuk data hasil pembangkitan. Selama proses simulasi dilakukan pengulangan, maka diperoleh nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda denganmodel untuk data hasil pembangkitan. Tabel 2 menunjukkan nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda dengan parameter dari model populasi pada taraf α = 5%. Model yang digunakan adalah model variabel Y terhadap peubah X 1 , X 2 , dan X 3 , karena pada saat dilakukan survei dengan beberapa tahap pengambilan contoh model yang digunakan hanyalah model Y terhadap seluruh peubah penjelas yang diamati (X 1 , X 2 , dan X 3 ). Tabel 4 Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda dari model data hasil pembangkitan untuk N=300 Kerangka Jml contoh yang diambil di setiap pengambilan contoh contoh 70% 75% 80% 85% 90% 95% 1 23.33 15.00 16.67 5.00 5.00 1.67 2 18.33 01.67 6.67 0.00 0.00 0.00 3 26.67 15.00 18.33 13.33 8.33 10.00 4 26.67 15.00 18.33 13.33 8.33 10.00 6 23.33 20.00 15.00 15.00 11.67 13.33 7 25.00 21.67 23.33 15.00 6.67 5.00 8 22.75 18.86 13.47 12.34 13.03 9.90 9 35.00 13.33 13.33 1.67 3.33 3.33 10 20.00 18.33 18.33 13.33 5.00 0.00 Rata-rata 24.56 15.43 15.94 9.89 6.82 5.92
Saat terjadi pengurangan jumlah contoh sebesar 30 % di masing-masing tahap pengambilan contoh, maka persentase rata-rata jumlah parameter yang berbeda dengan parameter model populasi sebesar 24.56 % (Tabel 4). Hal ini berarti bahwa pada saat diambil contoh sebesar 49% dari jumlah keseluruhan populasi, maka terdapat 24.56% parameter yang tidak menggambarkan hubungan antar peubah yang sebenarnya. Apabila terjadi pengurangan jumlah contoh sebesar 20% dan 25% di masing-masing tahap pengambilan contoh, maka ratarata persentase jumlah parameter yang tidak menggambarkan hubungan peubah respon dengan peubah penjelas berkisar 15%. Nilai rata-rata persentase jumlah parameter yang tidak mennggambarkan hubungan yang sebenarnya akan menurun seiring dengan bertambahnya jumlah contoh yang digunakan. Tanda positif atau negatif dari parameter memiliki peranan yang penting dalam menggambarkan pola hubungan antara peubah respon dan peubah penjelas. Tanda positif pada parameter menunjukkan kecenderungan yang lebih besar daripada peubah pembandingnya. Tanda negatif menunjukkan kecenderungan yang lebih kecil dari peubah pembandingnya. Hampir semua model yang dibangun dari data hasil pengambilan contoh memberikan tanda positif atau negatif yang sama dengan model dari data hasil pembangkitan. Tanda positif dan negatif dari 600 model yang terbentuk, hanya 13 parameter dalam 13 model yang berbeda dari model pembanding.
Tabel 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh untuk N=300 Kerangka Jml contoh yang diambil di setiap pengambilan contoh contoh 70% 75% 80% 85% 90% 95% 1 8.43 5.15 5.38 15.48 12.80 23.61 2 29.60 25.38 19.15 17.48 9.30 6.55 3 28.25 21.48 37.38 30.58 23.61 31.32 4 32.21 28.31 21.98 17.01 14.85 11.93 6 42.31 6.31 4.32 5.48 3.03 4.38 7 19.43 14.11 14.44 17.90 19.50 13.44 8 16.86 15.81 13.67 13.64 15.33 18.94 9 17.14 15.50 16.39 15.66 19.23 14.42 10 17.73 10.08 12.58 14.89 18.25 11.41 Rata-rata 23.55 15.79 16.14 16.46 15.10 15.11
Informasi yang Hilang Model yang baik merupakan model yang mampu menggambarkan keadaan populasi yang sebenarnya. Informasi akan hilang dalam setiap pengurangan jumlah data. Pengurangan jumlah data pertama kali terjadi pada tahap kedua proses pengambilan contoh. Besar rata-rata persentase informasi yang hilang dapat dilihat pada Tabel 5. Pengurangan contoh sebesar 30% mengakibatkan kehilangan informasi ratarata sebesar 23.55% (Tabel 5). Pengurangan jumlah contoh sebesar 5% sampai 25% maka akan kehilangan informasi sebesar 15% sampai 16%. Gambar 2 menunjukkan rata-rata persentase informasi yang hilang pada tahap kedua proses pengambilan contoh untuk semua data yang dibangkitkan. Gambar 2 diperoleh dari data pada Lampiran 5.
Rata-rata informasi hilang (%)
25
20
15
1000 900
10
700 500 300
5
0 70
75
80
85
90
95
Persentase pengambilan contoh (%)
Gambar 2 Rata-rata informasi hilang pada tahap kedua proses pengambilan contoh
Penurunan jumlah informasi yang hilang terjadi seiring dengan bertambahnya jumlah contoh yang diambil (Gambar 2). Jumlah data hasil pembangkitan 500, 700, dan 1000 menghasilkan rata-rata persentase informasi yang hilang cenderung sama. Jumlah data hasil pembangkitan sebesar 900 mengakibatkan informasi yang hilang selalu lebih rendah dari jumlah yang lain. Hal ini mungkin terjadi apabila data hasil pembangkitan dengan jumlah 900 data lebih homogen dari data hasil pembangkitan yang lainnya. Rata-rata informasi yang hilang paling banyak ditunjukkan saat jumlah data hasil pembangkitan sebesar 300, karena jumlah contoh yang terambil lebih kecil dari yang lainnya. Pengurangan jumlah data yang kedua terjadi pada awal tahap ketiga proses pengambilan contoh. Besar rata-rata persentase informasi yang hilang dapat dilihat pada Tabel 6. Pengurangan jumlah contoh sebesar 30% di masing-masing tahap pengambilan contoh atau sebesar 51% dari jumlah total populasi, maka nilai ratarata informasi yang hilang sebesar 41%. Pengurangan jumlah data sebesar 43.75% dan 36% dari jumlah total populasi mengakibatkan informasi yang hilang sebesar 33% dan 32%. Persentase kehilangan informasi ini akan menurun seiring dengan bertambahnya jumlah contoh yang diamati. Tabel 6 Rata-rata persentase total informasi hilang untuk N=300 Kerangka Jml contoh yang diambil di setiap pengambilan contoh contoh 70% 75% 80% 85% 90% 95% 1 29.52 16.82 18.95 12.80 19.07 17.52 2 57.76 41.63 41.63 28.48 17.62 7.59 3 59.86 42.68 52.47 39.55 30.32 31.28 4 70.20 56.26 49.26 32.22 24.43 19.40 6 22.20 18.35 24.39 12.41 21.89 8.66 7 29.13 32.55 24.79 21.92 21.68 18.92 8 49.07 37.39 31.12 21.00 16.26 16.02 9 31.72 29.09 28.09 18.00 17.45 16.66 10 20.43 21.83 17.14 13.79 14.99 12.56 Rata-rata 41.10 32.95 31.98 22.24 20.41 16.51 Gambar 3 diperoleh dari data di Lampiran 6, dimana terjadi penurunan jumlah informasi yang hilang seiring dengan bertambahnya jumlah contoh yang diambil. Jumlah data yang semakin besar mengakibatkan contoh yang diamati
semakin banyak dan informasi yang hilang semakin kecil. Besar informasi yang hilang sebagai akibat dari pengurangan jumlah contoh yang diambil selalu lebih kecil daripada besar pengurangan contoh. Penghematan biaya akan menjadi
Rata-rata informasi hilang (%)
berarti apabila biaya untuk memperoleh contoh sangat mahal. 160 140 120 100
300
80
500
60
700
40
900
20
1000
0 70
75
80
85
90
95
Persentase pengambilan contoh (%)
Gambar 3 Rata-rata persentase total informasi hilang Besarnya informasi yang hilang pada tahap kedua dan ketiga sebanding dengan jumlah pengurangan contoh. Informasi yang hilang sebesar 23.55% apabila terjadi pengurangan contoh sebesar 30% pada tahap kedua. Total informasi yang hilang pada tahap ketiga sebesar 41.11% apabila terjadi pengurangan jumlah contoh sebesar 51%. Jumlah informasi yang hilang pada tahap ini sebesar 17.56%, apabila terjadi pengurangan jumlah contoh sebesar 30% di tahap tiga.
Rata-rata informasi hilang (%)
25,00 20,00 15,00 tahap 3
10,00
tahap 2 5,00 0,00 70
75
80
85
90
95
Persentase pengambilan contoh (%)
Gambar 4 Rata-rata persentase informasi hilang pada tahap kedua dan ketiga dengan N=300 Penurunan rata-rata informasi yang hilang seiring dengan bertambahnya jumlah contoh yang diambil pada tahap ketiga (Gambar 4). Rata-rata informasi yang hilang pada tahap ketiga proses pengambilan contoh hampir semua lebih kecil dari rata-rata informasi yang hilang di tahap kedua pengambilan contoh. Hal ini terjadi karena pada tahap ketiga, unit contoh yang ada lebih homogen dari unit contoh pada tahap kedua. Kehomogenan dari unit contoh terjadi sebagai akibat dari proses pengelompokan yang dilakukan pada akhir tahap kedua pengambilan contoh.
SIMPULAN DAN SARAN
Simpulan Penggunaan regresi logistik biner dengan penambahan konstanta pada data kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan contoh acak dengan beberapa tahap mampu menggambarkan pola hubungan antara peubah penjelas dan peubah respon. Teknik pengambilan contoh dengan beberapa tahap dapat digunakan pada penelitian yang bertujuan untuk melihat pola hubungan antara peubah respon dengan peubah penjelas. Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-j cenderung lebih kecil dari rata-rata informasi yang hilang pada tahap sebelumnya. Unit contoh pada tahap ke-j lebih homogen daripada unit contoh di tahap ke-(j – 1). Penggunaan teknik pengambilan contoh dengan beberapa tahap memberikan ratarata informasi yang lebih kecil dari rata-rata pengurangan contoh, sehingga teknik pengambilan contoh ini juga cocok digunakan pada penelitian yang bertujuan memprediksi nilai peluang suatu kasus.
Saran Penelitian ini menggunakan metode Conditional Maksimum Likelihood (CML), yang memiliki bound information yang belum mencapai nilai variannya dalam proses estimasi parameter. Penelitian selanjutnya sebaiknya menggunakan metode Profile Likelihood yang memiliki nilai bound information yang sama dengan nilai variannya. Selain itu, perlu adanya kajian lebih lanjut mengenai sifat singularitas matrik turunan kedua dari fungsi log likelihood pada saat menggunakan metode Profile Likelihood, sebagai akibat adanya multikolinearitas pada matrik Z.
DAFTAR PUTAKA Breslow NE, Cain KN. 1988. Logistic Regression for tow-stage case-control data. Biometrika 75;1: 11-20. Chatterjee N, Carroll RJ. 2005. Semiparametric Maximum Likelihood Estimation Exploiting gene-Environment Independence in Case-Control Studies. Biometrika 92; 2: 399-418. Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Canada: John Wiley & Sons, Inc. Lee AJ, Scott AJ, Wild CJ. 2010. Efficient Estimation in Multi-Phase CaseControl Studies. Biometrika 97; 2: 361-374. Meyers LS, Gamst G, Guarino AJ. 2006. Applied Multivariate Research Desaign and Interpretation. California: SAGE Publication. Rose S, van der Laan MJ. 2008. Why Match? Investigating Matched Case-Control Study Design with Causal Effect Estimation. UC Berkeley Division of Biostatistic Working; Paper Series 240. Scott AJ, Wild CJ. 1991. Fitting Logistic Regression Models in Stratified CaseControl Studies. Biometrics; 47: 497-510. Scott AJ, Wild CJ. 1997. Fitting regression models to case-control data by Maximum Likelihood. Biometrika 84; 1: 57-71. Scott A. 2006. Population-Based Case Control Studies. Statistics Canada, Catalogue No. 12-001: 32 No 2: 123-132. Warti R. 2010. Analisis Regresi Dummy pada Hasil Belajar Siswa SMA di Kota Jambi Berdasarkan Pendekatan Matched Case-Control [tesis]. Bogor: Sekolah Pascasarjana, Institut Pertanian Bogor.
LAMPIRAN
Lampiran 1 Program di SAS 6.2 Proses Pembangkitan Data proc iml; n=300; a= {.3,.2,.5}; v={.1,.2,.3,.4}; b={-1.8 1 -0.7 -0.9 1.2 -1.6 0.8}; do i=1 to n; x1=rand(‘binomial’,.3,1); if x1=0 then do; q=1; else q=0; end; x2=randmultinomial(1,2,a); if x2=0 then do; e=1; f=0; end; else if x2=1 then do; e=0; f=1; end; else do; e=0; f=0; end; x3=randmultinomial(1,3,v); if x3=0 then do; k=1; l=0; m=0; end; else if x3=1 then do; k=0; l=1; m=0; end; else if x3=2 then do; k=0; l=0; m=1; end; else do; k=0; l=0; m=0; end; d=1//q//e//f//k//l//m; j=x1||x2||x3; g=b*d; h=exp(g); prob=h/(1+h); z=RAND('UNIFORM'); if z>prob then y1=1; else y1=0; x=x//j; y=y//y1;
end; print y x; dataall=y||x; varnames={y x1 x2 x3}; create datareg from dataall(|colnames=varnames|); append from dataall; quit;
Estimasi nilai β proc logistic data=datareg; class x1 x2 x3; model y(event='1')=x1 x2 x3/rsquare lackfit; run;
Lampiran 2 Program di Matlab Proses pengambilan contoh function sampelakhir(yx,persen) for(i=1:10) filename = strcat('data/',int2str(i),'.txt'); m1 = sammpel1tahap(yx,persen); dlmwrite(filename,m1,'delimiter','\t'); filename = strcat('data/',int2str(i),int2str(i),'.txt'); dlmwrite(filename,sampel2tahap(m1,persen),'delimiter','\t'); end %fungsi sampel1tahap function [sam]=sammpel1tahap(yx,persen) [a,b,c,d,e,f]=tahap1(yx) [na,r]=size(a); [nb,r]=size(b); [nc,r]=size(c); [nd,r]=size(d); [ne,r]=size(e); [nf,r]=size(f); [sa]=srs(a,persen) [sb]=srs(b,persen) [sc]=srs(c,persen) [sd]=srs(d,persen) [se]=srs(e,persen) [sf]=srs(f,persen) sam=[sa;sb;sc;sd;se;sf]; %fungsi tahap1 function [c,d,e,f,g,h]=tahap1(yx) %input hanya matrix yx=[y x] [a,b]=size(yx); c=[];e=[];f=[];g=[];h=[]; d=[]; for i=1:a if (yx(i,1)==0) if (yx(i,2)==0) [nc,r]=size(c); c(nc+1,:)=yx(i,:); elseif (yx(i,2)==1) [nd,r]=size(d); d(nd+1,:)=yx(i,:); else [ne,r]=size(e); e(ne+1,:)=yx(i,:); end else if (yx(i,2)==0) [nf,r]=size(f); f(nf+1,:)=yx(i,:); elseif (yx(i,2)==1) [ng,r]=size(g); g(ng+1,:)=yx(i,:); else [nh,r]=size(h); h(nh+1,:)=yx(i,:); end end
end c;d;e;f;g;h;
%fungsi srs function [yx]=srs(xy,persen) [a,b]=size(xy); if a<5 n=a; else n=round(persen*a); end y=randsample(a,n); yx=[]; for i=1:n yx(i,:)=xy(y(i,:),:); end yx; %fungsi sampel2tahap function [sam]=sampel2tahap(yx,persen) [a,b,c,d,e,f]=tahap1(yx) [aa,ab,ac]=tahap2(a) [ba,bb,bc]=tahap2(b) [ca,cb,cc]=tahap2(c) [da,db,dc]=tahap2(d) [ea,eb,ec]=tahap2(e) [fa,fb,fc]=tahap2(f) [saa]=srs(aa,persen) [sab]=srs(ab,persen) [sac]=srs(ac,persen) [sba]=srs(ba,persen) [sbb]=srs(bb,persen) [sbc]=srs(bc,persen) [sca]=srs(ca,persen) [scb]=srs(cb,persen) [scc]=srs(cc,persen) [sda]=srs(da,persen) [sdb]=srs(db,persen) [sdc]=srs(dc,persen) [sea]=srs(ea,persen) [seb]=srs(eb,persen) [sec]=srs(ec,persen) [sfa]=srs(fa,persen) [sfb]=srs(fb,persen) [sfc]=srs(fc,persen) sam=[saa;sab;sac;sba;sbb;sbc;sca;scb;scc;sda;sdb;sdc;sea;seb;sec;s fa;sfb;sfc]; % fungsi tahap 2 function [a,b,c]=tahap2(yx) [n,r]=size(yx); a=[];b=[];c=[]; for i=1:n if (yx(i,3)==0) [na,r]=size(a); a(na+1,:)=yx(i,:); elseif (yx(i,3)==1)
[nb,r]=size(b); b(nb+1,:)=yx(i,:); else [nc,r]=size(c); c(nc+1,:)=yx(i,:); end end a;b;c;
Menghitung nilai α %menghitung jumlah populasi & contoh (matrix N & n) function [N,n]=rekapn(yx,tahap1,tahap2,tahap) [N0,N1]=matrikn(yx) [n0,n1]=matrikn(tahap1) N0,N1,n0,n1; RN0=[];RN1=[];Rn0=[];Rn1=[];Rn00=[];Rn10=[];n=[];N=[]; for i=1:2 RN0(i,:)=ones(1,12)*N0([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:); RN1(i,:)=ones(1,12)*N1([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:); Rn0(i,:)=ones(1,12)*n0([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:); Rn1(i,:)=ones(1,12)*n1([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:); end RN0;RN1;Rn0;Rn1; if (tahap==2) N=[RN0 RN1]; n=[Rn0 Rn1]; else [n00,n10]=matrikn(tahap2) for i=1:6 Ran0(i,:)=ones(1,4)*n0([1+4*(i-1) 2+4*(i-1) 3+4*(i-1) 4+4*(i-1)],:); Ran1(i,:)=ones(1,4)*n1([1+4*(i-1) 2+4*(i-1) 3+4*(i-1) 4+4*(i-1)],:); Rn00(i,:)=ones(1,4)*n00([1+4*(i-1) 2+4*(i-1) 3+4*(i-1) 4+4*(i-1)],:); Rn10(i,:)=ones(1,4)*n10([1+4*(i-1) 2+4*(i-1) 3+4*(i-1) 4+4*(i-1)],:); end Rn0;Rn1;Rn00;Rn10;n00;n10; N=[RN0 RN1;Ran0 Ran1]; n=[Rn0 Rn1;Rn00 Rn10]; end N;n; %mencari nilai alpha function [awal]=awalan(N,n,tahap) alpha=[]; if(tahap==2) for i=1:2 if ((N(i,1)-n(i,1))==0)&&((N(i,2)-n(i,2))==0) alpha(i,:)=0
else alpha(i,:)=log((n(i,2))/(N(i,2)))log((n(i,1))/(N(i,1))) end end pj=length(alpha);gNaN=isnan(alpha); for i=1:pj if gNaN(i)==1 alpha(i)=0; end end awal=[alpha;ones(4,1)]; else for i=1:8 if ((N(i,1)-n(i,1))==0)&&((N(i,2)-n(i,2))==0) alpha(i,:)=0 else alpha(i,:)=log((n(i,2))/(N(i,2)))log((n(i,1))/(N(i,1))) end end pj=length(alpha);gNaN=isnan(alpha); for i=1:pj if gNaN(i)==1 alpha(i)=0; end end awal=[alpha;ones(7,1)]; end awal;
Menghitung informasi yang hilang function[MS]=f(delta,bpop,tahap) if (tahap==2) x=[0 0;0 1;0 2;1 0;1 1;1 2]; else x=[0 0 0 0 0 1 0 0 2 0 0 3 0 1 0 0 1 1 0 1 2 0 1 3 0 2 0 0 2 1 0 2 2 0 2 3 1 0 0 1 0 1 1 0 2 1 0 3 1 1 0 1 1 1 1 1 2 1 1 3 1 2 0 1 2 1 1 2 2 1 2 3
]; end x; [b,r]=size(x); [z]=matrikz(x,tahap) [dumx]=dummyx(x,tahap) xdum=[ones(b,1) dumx] lf=z*delta; pop=xdum*bpop; for i=1:b ppop(i,:)=exp(pop(i,:))/(1+exp(pop(i,:))) P1(i,:)=exp(lf(i,:))/(1+exp(lf(i,:))) end ppop; P1; for i=1:b sim(i,:)=abs(ppop(i,:)-P1(i,1))/ppop(i,:) end sim; SS=ones(1,b)*sim; MS=SS/b;
Lampiran 3 Nilai parameter model Y terhadap X1, dan X2 untuk data hasil pembangkitan Sampling frame
β0
1 2 3 4 5 6 7 8 9 10
-1,4635 -1,9009 -1,4903 -1,9505 -2,0145 -1,2473 -1,4282 -1,6445 -1,4519 -1,8188
1 2 3 4 5 6 7 8 9 10
-1,8589 -1,8463 -1,6602 -1,5895 -1,3306 -1,4985 -1,5052 -1,3623 -1,366 -1,8188
1 2 3 4 5 6 7 8 9 10
-1,8452 -1,6265 -1,8307 -1,3307 -1,8258 -1,4575 -1,6455 -1,4259 -1,6382 -1,8188
1 2 3 4
-1,5389 -1,5976 -1,57 -1,8389
Nilai parameter β1(0) β2(0) N=300 0,646 0,887 1,2736 0,6911 0,741 0,6342 1,0435 0,7227 1,383 0,6586 0,5251 0,7721 0,9258 0,4699 1,0149 0,4589 0,7598 0,4948 1,1658 0,6379 N=500 1,0393 0,7293 0,7706 0,4655 0,9199 0,3374 0,9513 0,7393 0,6424 0,6004 0,7542 0,5531 0,8102 0,4939 0,5647 0,7051 0,6698 0,3277 1,1658 0,6379 N=700 0,983 0,6888 0,8488 0,5007 0,9374 0,4102 0,7931 0,6631 0,8955 0,7836 0,9746 0,4673 0,8931 0,6791 0,8509 0,5598 0,8258 0,4797 1,1658 0,6379 N=900 0,8406 0,7615 0,9799 0,5263 0,7735 0,4898 1,0192 0,5685
β2(1) -0,9334 -0,876 -0,7128 -0,8475 -0,6747 -0,7764 -0,7175 -0,5733 -0,5426 -0,7992 -0,814 -0,7937 -0,5284 -0,9116 -0,7868 -0,7594 -0,7223 -0,9257 -0,6077 -0,7992 -0,7314 -0,6917 -0,5878 -0,7146 -0,652 -0,7115 -0,5413 -0,7383 -0,6962 -0,7992 -0,8 -0,5509 -0,5794 -0,689
5 6 7 8 9 10
-1,6773 -1,88 -1,5256 -1,6848 -1,6698 -1,8188
1 2 3 4 5 6 7 8 9 10
-1,5635 -1,5431 -1,5429 -1,7373 -1,7983 -1,6111 -1,7221 -1,5003 -1,6363 -1,8188
0,9254 1,2275 0,7522 0,8839 1,0289 1,1658 n=1000 0,7735 0,8989 0,7837 1,0873 1,0545 0,8462 1,0292 0,8815 0,9201 1,1658
0,4082 0,6561 0,7169 0,6037 0,5649 0,6379
-0,3671 -0,7197 -0,8436 -0,688 -0,5791 -0,7992
0,5799 0,6712 0,6065 0,8067 0,4213 0,5224 0,5549 0,5342 0,6403 0,6379
-0,6349 -0,9316 -0,4285 -0,8229 -0,7003 -0,7153 0,7316 -0,8261 -0,8513 -0,7992
Lampiran 4 Nilai parameter model Y terhadap X1, X2, dan X3 untuk data hasil pembangkitan Sampling frame
β0
β1(0)
1 2 3 4 5 6 7 8 9 10
-1,5297 -1,8214 -1,8437 -1,8821 -2,1577 -1,2831 -1,6128 -1,5451 -1,383 -1,5634
0,8013 1,5154 1,0006 1,1717 1,5825 0,5618 1,0139 1,18 0,8163 0,9611
1 2 3 4 5 6 7 8 9 10
-2,2438 -2,421 -1,8401 -1,7542 -1,6847 -1,6671 -1,7347 -1,4328 -1,3085 -2,2872
1,246 0,9764 0,9947 1,1088 0,7067 0,9538 0,9609 0,7014 0,6899 1,2893
1 2 3 4 5 6 7 8 9 10
-2,1145 -1,849 -1,8948 -1,3138 -2,2478 -1,7193 -1,7292 -1,7422 -1,6834 -1,9548
1,1879 1,0538 1,0377 0,8992 1,1643 1,1216 1,0537 1,0429 0,8643 0,9114
1 2 3 4 5
-1,8339 -1,8562 -1,7817 -1,9806 -1,7997
1,0514 1,259 0,9137 1,1637 1,0592
Nilai parameter β2(0) β2(1) β3(0) N=300 1,0778 -1,1948 1,1054 0,9441 -1,1691 1,1557 1,1479 -0,79 1,666 0,8415 -0,9654 0,8639 0,8243 -0,9001 1,1429 0,9462 -0,8024 1,017 0,5053 -0,8573 0,8584 0,8593 -0,8564 1,2157 0,7934 -0,7343 1,1668 0,8038 -0,8096 0,8107 N=500 0,8446 -1,0065 1,3965 0,5439 -0,9263 1,7422 0,3827 -0,6552 1,1302 0,909 -1,0926 0,9712 0,6891 -0,9401 1,3918 0,8198 -0,9574 0,7084 0,5841 -0,9355 1,1902 0,8776 -1,1064 0,9051 0,4798 -0,667 0,8085 0,6877 -0,7172 1,2306 N=700 0,9494 -0,97 1,4502 0,641 -0,9166 1,2962 0,7928 -0,7756 1,1235 0,8614 -1,0219 1,2658 1,0514 -0,8969 1,4024 0,462 -0,8301 1,1915 0,8733 -0,6704 0,9451 0,7835 -0,9204 1,3635 0,5593 -0,8016 1,0611 0,3668 -0,8361 1,7092 N=900 0,8728 -0,9883 1,1019 0,7601 -0,7774 1,5947 0,5376 -0,6763 1,2989 0,7421 -0,8991 1,1369 0,6159 -0,4668 1,0729
β3(1)
β3(1)
-2,2634 -1,7595 -1,7595 -1,4424 -1,7614 -1,8485 -1,5921 -1,7827 -1,6208 -1,8169
0,7132 0,6406 0,9785 0,5752 0,952 0,5312 1,0884 0,5578 0,6511 0,6102
-1,8059 -1,2976 -1,3451 -1,2971 -1,6621 -1,4118 -1,388 -1,5832 -1,7326 -1,2941
1,0827 1,1739 0,6932 0,8683 1,0607 1,2155 0,6832 0,8499 0,6824 0,9193
-1,7635 -1,5319 -1,3855 -1,6967 -1,6261 -1,5647 -1,7899 -1,7649 -1,3806 -1,4383
0,9352 0,7631 0,6321 0,4814 1,2683 1,072 0,6333 0,9621 0,5529 1,0101
-1,9321 -1,6905 -1,5855 -1,3396 -1,5275
1,1171 0,6643 0,7866 0,6111 0,6211
6 7 8 9 10
-2,0598 -1,8091 -1,7117 -1,7792 -1,672
1,3592 0,8481 1,0386 1,1758 1,1245
1 2 3 4 5 6 7 8 9 10
-1,8293 -1,7537 -1,5918 -1,9191 -2,0109 -1,8637 -1,9794 -1,9309 -1,8859 -1,5972
1,0051 1,0801 0,9375 1,2364 1,1912 1,0559 1,1987 1,0846 1,1198 0,9409
0,8155 -0,8243 0,9064 -1,0136 0,8411 -0,88 0,6294 -0,7427 0,7635 -0,9929 n=1000 0,7679 -0,7817 0,78 -1,1418 0,6272 -0,6088 0,9859 -0,9868 0,64 -0,893 0,7512 -0,9002 0,7969 -1,0316 0,8061 -1,0182 0,8183 -0,9912 0,6212 -0,752
1,0273 1,2801 1,3824 0,8367 1,2398
-1,513 -1,6119 -1,6681 -1,4426 -1,9038
0,7952 0,9981 0,4544 0,7826 0,6343
1,266 1,2424 1,2926 1,0939 1,152 1,448 1,368 1,4608 1,2237 1,1283
-1,701 -1,7279 -1,5656 -1,4125 -1,4594 -1,3282 -1,568 -1,6277 -1,8209 -1,8301
0,8137 0,8417 0,57 0,772 0,8333 0,7212 0,8039 1,1443 0,9708 0,7274
Lampiran 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh Jumlah sampel yg diambil 80% 85% N=300
Sampling frame
70%
75%
1 2 3 4 6 7 8 9 10
0,08430 0,29603 0,28249 0,32208 0,42305 0,19430 0,16862 0,17143 0,17725
0,05151 0,25375 0,21477 0,28309 0,06312 0,14105 0,15806 0,15496 0,10081
0,05378 0,19153 0,37380 0,21984 0,04316 0,14439 0,13669 0,16393 0,12581
Rata-rata
0,23551
0,15790
1 2 3 4 5 6 7 8 9 10
0,04089 0,04431 0,03963 0,03614 0,01743 0,02674 0,03418 0,01680 0,02297 0,07626
0,04892 0,03451 0,02481 0,02286 0,02827 0,03147 0,02906 0,02194 0,03901 0,13282
Rata-rata
0,03554
0,04137
1 2 3 4 5 6 7 8 9 10
0,04055 0,04861 0,04738 0,03767 0,06837 0,06207 0,04106 0,04066 0,04945 0,19666
0,05574 0,04176 0,04624 0,02966 0,04993 0,02879 0,04755 0,03502 0,03591 0,20824
Rata-rata
0,06325
0,05788
1 2
0,02683 0,02658
0,03003 0,03518
0,9
0,95
0,15477 0,17480 0,30578 0,17008 0,05484 0,17900 0,13643 0,15663 0,14890
0,12803 0,09295 0,23612 0,14848 0,03034 0,19503 0,15328 0,19225 0,18249
0,23614 0,06553 0,31318 0,11934 0,04379 0,13441 0,18937 0,14416 0,11409
0,16144 N=500 0,03679 0,05214 0,05005 0,04295 0,03357 0,03507 0,03983 0,03805 0,03226 0,09238
0,16458
0,150997 0,151112
0,07002 0,04143 0,03498 0,03354 0,03424 0,04816 0,03397 0,03621 0,04086 0,09730
0,06186 0,06247 0,05211 0,06148 0,04883 0,03708 0,05296 0,04503 0,04203 0,10368
0,04531 N=700 0,03212 0,04530 0,03792 0,02566 0,04888 0,03307 0,03130 0,03204 0,03876 0,20747
0,04707
0,056753 0,060705
0,03943 0,02140 0,03455 0,01655 0,03358 0,02800 0,02314 0,03109 0,02633 0,20747
0,02212 0,03377 0,02713 0,0143 0,0229 0,03195 0,0314 0,02578 0,0326 0,20892
0,05325 N=900 0,02820 0,03639
0,04615
0,045087 0,041773
0,02328 0,03371
0,01716 0,01902
0,05471 0,06318 0,05876 0,03643 0,06578 0,0462 0,05081 0,04508 0,04186 0,14424
0,03428 0,01664 0,03598 0,0126 0,03338 0,01512 0,01923 0,01667 0,02219 0,21164
0,01815 0,01053
3 4 5 6 7 8 9 10
0,04603 0,04892 0,03560 0,03834 0,03969 0,04948 0,02786 0,11862
0,03412 0,04592 0,04014 0,05792 0,03441 0,02864 0,02808 0,11220
Rata-rata
0,04580
0,04466
0,03579 0,02525 0,02969 0,02685 0,02500 0,03525 0,02836 0,11210
0,02409 0,02177 0,03153 0,04729 0,03232 0,02161 0,02798 0,12337
0,01985 0,02819 0,02551 0,01347 0,01731 0,01532 0,02953 0,12071
0,01553 0,02069 0,01332 0,03796 0,01657 0,01165 0,01545 0,12767
0,03829 0,03870 0,030607 0,028752 N=1000 1 0,03313 0,02545 0,0294 0,02361 0,01936 0,01309 2 0,03746 0,03363 0,03196 0,02712 0,02773 0,01314 3 0,03955 0,03498 0,02361 0,02213 0,02147 0,0139 4 0,04188 0,03091 0,03469 0,02529 0,02107 0,01512 5 0,04687 0,04579 0,03219 0,02253 0,02579 0,01696 6 0,03724 0,02749 0,03078 0,02037 0,02038 0,01314 7 0,08275 0,06841 0,07494 0,07806 0,07236 0,06481 8 0,03703 0,02721 0,02284 0,02697 0,02446 0,00992 9 0,02588 0,03068 0,02435 0,01949 0,01771 0,01437 10 0,21669 0,21609 0,20023 0,18749 0,22338 0,21535 Rata-rata 0,059848 0,054064 0,050499 0,045306 0,047371 0,03898
Lampiran 6 Rata-rata persentase total informasi hilang
Sampling frame
70%
75%
1 2 3 4 6 7 8 9 10
0,29516 0,57761 0,59864 0,70201 0,22198 0,29134 0,49065 0,31719 0,20434
0,16817 0,41634 0,42678 0,56264 0,18348 0,32552 0,37387 0,29085 0,21828
Jumlah sampel yg diambil 80% 85% 90% N=300 0,18949 0,41634 0,52467 0,49264 0,24393 0,2479 0,31121 0,28086 0,17144
0,12795 0,28479 0,3955 0,32218 0,12406 0,21922 0,20997 0,18 0,13791
0,19072 0,1762 0,30317 0,24434 0,2189 0,21678 0,16259 0,17448 0,14993
95% 0,17523 0,0759 0,31279 0,19395 0,08658 0,18915 0,16021 0,16662 0,12563
Rata-rata 0,410991 0,329548 0,319831 0,222398 0,204123 0,165118 N=500 1 0,08656 0,09481 0,16448 0,28704 0,26135 0,33126 2 0,12165 0,14276 0,29728 0,321 0,33319 0,36054 3 0,09351 0,08175 0,19867 0,1737 0,27618 0,27764 4 0,07423 0,08788 0,14772 0,17534 0,27665 0,28071 5 0,05118 0,08957 0,10846 0,1505 0,1593 0,27418 6 0,03653 0,09914 0,10928 0,1262 0,20134 0,20087 7 0,04364 0,09909 0,10891 0,21894 0,22734 0,32409 8 0,04744 0,08547 0,09431 0,14883 0,18265 0,23398 9 0,04853 0,09272 0,08132 0,13339 0,1889 0,24808 10 0,08669 0,09103 0,12442 0,19611 0,38552 0,31412 Rata-rata 0,068996 0,096422 0,143485 0,193105 0,249242 0,284547 N=700 1 0,29675 0,19106 0,15936 0,09158 0,08981 0,03607 2 0,33536 0,16598 0,17967 0,1062 0,09942 0,04495 3 0,27305 0,21427 0,16847 0,09742 0,08879 0,03842 4 0,19884 0,1254 0,10742 0,08329 0,06046 0,03954 5 0,2661 0,23911 0,17491 0,0957 0,07519 0,04545 6 0,29218 0,19454 0,16748 0,09653 0,10315 0,04338 7 0,21279 0,19554 0,13264 0,10994 0,07863 0,03727 8 0,19104 0,1708 0,13145 0,09637 0,06368 0,04083 9 0,23123 0,15999 0,13505 0,1086 0,07647 0,034 10 0,30212 0,18407 0,12263 0,12263 0,09844 0,05661 Rata-rata 0,259946 0,184076 0,147908 0,100826 0,083404 0,041652 N=900 1 0,22459 0,14656 0,1223 0,08785 0,06439 0,0435 2 0,21166 0,14776 0,1289 0,06933 0,06187 0,04128
3 4 5 6 7 8 9 10
0,10897 0,11466 0,15035 0,30984 0,14407 0,1648 0,16956 0,13244
0,10863 0,08045 0,13382 0,18745 0,09053 0,10997 0,10874 0,07781
0,0683 0,05208 0,08311 0,17915 0,07505 0,07179 0,08128 0,07242
Rata-rata 0,205281 0,158901
0,084036 0,061083 0,046876
0,07815 0,12201 0,12103 0,1379 0,25182 0,12665 0,19812 0,13586 0,13992 0,12278
0,11486 N=1000 0,07866 0,09642 0,06666 0,11421 0,14406 0,09527 0,13154 0,09788 0,11191 0,08529
Rata-rata 0,177293 0,143424
0,10219
0,078622 0,063215 0,043654
1 2 3 4 5 6 7 8 9 10
0,14285 0,14283 0,25386 0,29019 0,16133 0,22399 0,19801 0,2035
0,12307 0,1499 0,12861 0,15291 0,30758 0,1781 0,24122 0,13829 0,19847 0,15478
0,06295 0,07688 0,05857 0,05868 0,12526 0,06261 0,12672 0,05918 0,09218 0,06319
0,05633 0,04536 0,05637 0,0902 0,06535 0,06517 0,05671 0,04908
0,04293 0,05733 0,04914 0,06159 0,11032 0,05464 0,06356 0,05922 0,06016 0,07326
0,05671 0,03013 0,04151 0,08142 0,04914 0,04272 0,03477 0,04758
0,0507 0,04111 0,04723 0,03301 0,04071 0,04982 0,03839 0,04634 0,04511 0,04412