PERBANDINGAN ANTARA MODEL LINIER DENGAN FAKTOR TETAP (GLM) DENGAN MODEL LINIER DENGAN FAKTOR TETAP DAN ACAK (GLMM)
WULAN METAFURRY
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGTAHUAN ALAM INSTITUT PERTANIAN BOGOR 2010
RINGKASAN WULAN METAFURRY. Perbandingan Antara Model Linier dengan Faktor Tetap (GLM) dengan Model Linier dengan Faktor Tetap dan Acak (GLMM). Dibimbing oleh Dr. Ir. M. NUR AIDI dan Dr. Ir. ASEP SAEFUDDIN, M Sc. Sejak tahun 2004, presiden dipilih langsung oleh masyarakat. Pada umumnya ada faktorfaktor yang menyebabkan masyarakat tidak menggunakan hak pilihnya. Faktor-faktor tersebut dikaji dengan menggunakan model linier umum dengan faktor tetap (GLM) dan model linier dengan faktor tetap dan acak (GLMM) dimana faktor spasial menjadi faktor acak dan demografi menjadi faktor tetap. Pada GLMM, faktor spasial dianggap sebagai faktor acak, karena dalam pengambilan contoh dilakukan pengacakan untuk menentukan lokasi pengambilan contoh. Demografi menjadi faktor tetap karena penentuan faktor demografi yang digunakan ditentukan oleh peneliti. Sedangkan pada GLM faktor spasial diasumsikan ditentukan oleh peneliti, sehingga faktor spasial menjadi faktor tetap. Faktor-faktor yang akan dianalisis dalam tulisan ini adalah faktor lokasi (berdasarkan bujur timur dan lintang selatan), usia, partisipasi pada pilpres 2004, pendidikan, akses media cetak, akses radio dan akses TV. Hasil uji kelayakan model menggunakan uji Hosmer-Lemeshow menunjukkan bawa kedua model yang diperoleh layak, dalam artian model regresi yang didapat efektif dalam menggambarkan pengaruh peubah bebas terhadap peluang masyarakat untuk memilih pada pilpres 2009. Akan tetapi dengan membandingkan nilai MSE dan R2 Nagelkerke dari GLM dan GLMM diperoleh bahwa GLMM merupakan model terbaik dengan nilai MSE 0.0001 dan R2 Nagelkerke 73.9421%. Pada model tersebut diperoleh bahwa intersep berpengaruh nyata terhadap model serta peubah yang mempengaruhi masyarakat untuk memilih pada pilpres 2009 adalah partisipasinya pada pilpres 2004, sedangkan adanya akses TV menjadi pertimbangan masyarakat untuk tidak memilih pada pilpres 2009.
PERBANDINGAN ANTARA MODEL LINIER DENGAN FAKTOR TETAP (GLM) DENGAN MODEL LINIER DENGAN FAKTOR TETAP DAN ACAK (GLMM)
WULAN METAFURRY
Skripsi Sebagai salah satu syarat untuk memperoleh Gelar Sarjana Statistika Pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGTAHUAN ALAM INSTITUT PERTANIAN BOGOR 2010
Judul : Perbandingan Antara Model Linier dengan Faktor Tetap (GLM) dengan Model Linier dengan Faktor Tetap dan Acak (GLMM) Nama : Wulan Metafurry NRP : G14062752
Menyetujui:
Pembimbing I,
Pembimbing II,
Dr. Ir. Muhammad Nur Aidi, MS NIP. 196008181989031004
Dr. Ir. Asep Saefuddin, M.Sc NIP. 195703161981031004
Mengetahui : Ketua Depertemen Statistika Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si NIP. 196504211990021001
Tanggal Lulus :
RIWAYAT HIDUP Wulan Metafurry dilahirkan di Semarang pada tanggal 14 Oktober 1988, sebagai anak pertama dari tiga bersaudara, pasangan Bapak Wagiman dan Ibu Anik Eko Susilowati. Sejak SD hingga SMA penulis mengenyam pendidikan di Kabupaten Semarang, yaitu di SD Pringapus 04 hingga tahun 2000, SMP 1 Bergas dengan tahun kelulusan 2003, dan pada tahun 2006 telah menyelesaikan pendidikannya di SMA 1 Ungaran. Selanjutnya diterima di IPB melalui jalur USMI (Undangan Seleksi Masuk IPB) dan menjadi mahasiswa Statistika IPB sejak tahun 2007. Selama perkuliahan, penulis pernah menjadi panitia COSMIC 2008, Lomba Jajak Pendapat Statistika 2008, Statistika Ria 2009, Statistics Gathering 2009 dan Welcome Ceremony of Statistic 2009.
vi
PRAKATA Puji syukur penulis panjatkan kehadirat Allah SWT atas segala limpahan rahmat dan karuniaNya sehingga penulis dapat menyelesaikan karya ilmiah ini, yang berjudul “ Perbandingan Antara Generalized Linear Model dengan Generalized Linear Mixed Model Pada Analisis Faktor – Faktor yang Mempengaruhi Partisipasi Masyarakat Dalam Pilpres 2009 (Studi Kasus: Wilayah Indonesia Bagian Timur)”. Penulis mengucapkan terima kasih kepada Dr. Ir. M. Nur Aidi dan Dr. Ir. Asep Saefuddin, M.Sc selaku pembimbing atas bimbingan dan saran yang telah diberikan. Selain itu penulis juga ingin mengucapkan terima kasih kepada: 1. Anak-anak „TK Matahari‟ (Dian, Edo, Mufti, Dedy dan Kiki) yang setia menemani perjalanan panjang di Statistika. Terima kasih untuk waktu-waktu yang telah kalian luangkan untuk membantu penulis dalam menyelesaikan tulisan ini. 2. Mumun, Ari dan Ony yang telah menjadi editor yang baik serta memberikan dukungan dan saran. Terima kasih untuk kebersamaan kita selama tiga tahun ini. 3. Dianty untuk waktu-waktu yang kamu luangkan untuk mendengarkan mengedit tulisan ini serta terima kasih untuk saran-saran yang diberikan. Semoga karya ilmiah ini dapat bermanfaat, terlepas dari kekurangan yang ada. Kritik dan saran membangun sangat penulis harapkan demi kebaikan tulisan ini.
Bogor, Juli 2010
Wulan Metafurry
\
vii
DAFTAR ISI DAFTAR TABEL .............................................................................................................. viii DAFTAR LAMPIRAN ...................................................................................................... viii PENDAHULUAN Latar Belakang ....................................................................................................................... 1 Tujuan .................................................................................................................................... 1 TINJAUAN PUSTAKA Regresi Logistik ..................................................................................................................... 1 Generalized Linear Model (GLM) ......................................................................................... 1 Generalized Linear Mixed Model (GLMM) ........................................................................... 2 Metode Bayesian .................................................................................................................... 2 Algoritma Metropolis Hasting ............................................................................................... 2 Uji G....................................................................................................................................... 2 Uji Wald ................................................................................................................................. 3 Uji Kelayakan Model ............................................................................................................. 3 Interpretasi Koefisien ............................................................................................................. 3 R² Nagelkerke ....................................................................................................................... 3
METODOLOGI Data ........................................................................................................................................ 3 Metode ................................................................................................................................... 4 PEMBAHASAN Pendugaan Parameter ............................................................................................................. 5 Interpretasi Koefisien ............................................................................................................. 6 Model Regresi Terbaik ........................................................................................................... 7 KESIMPULAN DAN SARAN Kesimpulan ............................................................................................................................ 7 Saran ...................................................................................................................................... 7 DAFTAR PUSTAKA ............................................................................................................ 7 LAMPIRAN ........................................................................................................................... 9
viii
DAFTAR TABEL
1. 2. 3. 4.
Halaman Peubah yang digunakan ............................................................................................................ 4 Rasio odds dan SK 95% bagi rasio odds pada GLM................................................................. 7 Rasio odds dan SK 95% bagi rasio odds pada GLMM ............................................................. 7 Parameter pembanding GLM dan GLMM................................................................................. 7
DAFTAR LAMPIRAN
1. 2. 3. 4.
Halaman Iterasi algoritma Metropolis Hasting dan sebaran posterior parameter GLM ......................... 10 Iterasi algoritma Metropolis Hasting dan sebaran posterior parameter GLMM ..................... 12 Hasil analisis pada GLM dan GLMM...................................................................................... 14 Standart Error iterasi dan nilai statistik uji Gelman-Rubin ................................................... 15
1
PENDAHULUAN Latar Belakang Pemilihan presiden merupakan peristiwa penting dalam setiap negara, karena setiap presiden yang terpilih akan menentukan nasib suatu bangsa dalam lima tahun ke depan. Oleh karena itu, untuk dapat memilih presiden yang layak, terlebih dahulu rakyat harus mengenal dan mengetahui calon-calon pemimpin mereka. Kadang kala, dengan alasan tidak mengetahui dan mengenal para calon presiden masyarakat tidak berpartisipasi dalam pemilihan umum. Selain alasan tersebut, masih banyak faktor lain yang digunakan masyarakat untuk tidak menyalurkan hak pilihnya. Penelitian ini dilakukan untuk mengetahui faktor-faktor lain tersebut. Faktor-faktor yang dianalisis meliputi faktor spasial dan nonspasial (demografi). Dalam analisis pengaruh faktor yang mempengaruhi peluang seseorang memilih mungkin saja penggolongan spasial dan nonspasial tidak berpengaruh. Oleh karena itu, dalam analisis akan digunakan dua metode, yaitu analisis regresi logistik dengan Generalized Linear Model (GLM) dan Generalized Linear Mixed Model (GLMM). GLMM menjelaskan hubungan alasan masyarakat dengan menggolongkannya menjadi faktor spasial dan nonspasial (demografi) dimana faktor spasial diasumsikan acak karena peneliti melakukan pengacakan pada saat menentukan lokasi pengambilan contoh, sedangkan nonspasial (demografi) diasumsikan tetap yaitu faktor-faktor yang akan digunakan ditentukan secara subjektif oleh peneliti. Dalam analisis ini akan ditemukan sebaran peluang campuran. Sebaran peluang campuran terdiri dari beberapa subpopulasi dengan setiap subpopulasi memiliki sebaran masing-masing dan merupakan sebaran berhirarki sehingga sulit untuk dilakukan pemisahan. Akibatnya akan didapatkan model densitas pangkat tinggi yang secara matematis sulit mendapatkan pendugaan parameternya. Salah satu alternatif yang dapat digunakan untuk membantu menyelesaikan model campuran dengan pendekatan Bayesian menggunakan metode Markov Chain Monte Carlo (MCMC) yang melakukan pendugaan parameter model populasi menggunakan pendugaan sampel hasil iterasi Metropolis-Hasting.
Tujuan Penelitian ini bertujuan untuk: 1. Mengetahui faktor-faktor yang mempengaruhi partisipasi masyarakat dalam pilpres 2009 2. Mencari model regresi logistik terbaik untuk memodelkan peluang partisipasi masyarakat dalam pilpres 2009. TINJAUAN PUSTAKA Regresi Logistik Regresi logistik adalah suatu metode statistik yang mendeskripsikan hubungan antara peubah respon yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kategorik atau numerik. Regresi logistik biner digunakan pada peubah respon yang bersifat biner. Secara umum, model regresi logistik biner dengan E(Y=1|x) dapat dituliskan dengan: 𝑚 𝑒 𝛽0 +𝛽1 𝑥 1 +⋯+ 𝑘=1 𝛽𝑖𝑘 𝐷𝑖 +𝛽𝑝 𝑥 𝑝 𝜋(𝑋) = 𝑚 1 + 𝑒 𝛽0 +𝛽1 𝑥 1 +⋯+ 𝑘=1 𝛽𝑖𝑘 𝐷𝑖 +𝛽𝑝 𝑥 𝑝 dimana 𝜋(𝑋) adalah peluang sukses suatu kejadian (dalam tulisan ini adalah peluang seseorang memilih pada pemilu 2009), xi (untuk i=1,2,...,p) adalah faktor-faktor yang mempengaruhi seseorang untuk memilih, p adalah banyaknya peubah penjelas yang digunakan, D adalah peubah dummy dan k adalah banyaknya peubah dummy yang digunakan. Banyaknya peubah dummy yang digunakan adalah banyaknya kategori dari peubah yang digunakan dikurangi satu. Dengan demikian, fungsi logistik akan bernilai antara satu dan nol. Dengan menggunakkan transformasi logit, model tersebut dapat dituliskan dengan: 𝑙𝑜𝑔
𝜋 𝑋 1−𝜋 𝑋
𝑚
= 𝛽0 + 𝛽1 𝑥1 + ⋯ +
𝛽𝑖𝑘 𝐷𝑖 + 𝛽𝑝 𝑥𝑝 𝑘=1
+𝜀
Generalized Linear Model (GLM) GLM merupakan generalisasi model linier yang memuat peubah tak bebas dengan yang tidak menyebar normal (Gill 2001). Peubah respon diasumsikan berasal dari suatu sebaran peluang keluarga eksponensial. Pada GLM, peubah respon dihubungkan dengan peubah penjelas melalui fungsi penghubung, sehingga dapat dilakukan pendugaan parameter. GLM mempunyai tiga komponen, yaitu: 1. Komponen acak, merupakan komponen yang menentukan sebaran bersyarat dari peubah respon
2
2. Fungsi linier dari regresor, yang disebut prediktor linier. Prediktor linier secara umum dapat dituliskan dengan ηi = β0 + β1x1i + ... + βpxpi 3. sebuah fungsi penghubung (g) sehingga E(Y) =µ = g-1(η). Untuk kasus dengan peubah respon bersifat biner, digunakan fungsi penghubung logit, sehingga GLM untuk kasus regresi logistik biner dapat dituliskan dengan 𝑙𝑜𝑔
𝜋 𝑋 1−𝜋 𝑋
𝑚
= 𝛽0 + 𝛽1 𝑥1 + ⋯ +
𝛽𝑖𝑘 𝐷𝑖 + 𝛽𝑝 𝑥𝑝 𝑘=1
+𝜀
dengan
𝑙𝑜𝑔
𝜋(𝑋)
adalah
1−𝜋(𝑋)
fungsi
penghubung logit. Generalized Linear Mixed Model (GLMM) GLMM merupakan generalisasi model linier yang peubah bebasnya memuat faktor acak dan faktor tetap. Efek acak ini biasanya diasumsikan memiliki sebaran normal (Hedeker 1994). Secara umum GLMM dapat dituliskan sebagai berikut 𝑝
𝐸 𝑦 = 𝛽0 +
𝛽𝑖 𝑥𝑖 + 𝑍𝑢 𝑖=1
dengan Y merupakan peubah tak bebas yang berukuran nx1, βi merupakan parameter dugaan, x merupakan peubah bebas, z adalah faktor acak yang telah dibakukan, dan u merupakan komponen acak. Dalam tulisan ini digunakan GLMM untuk kasus regresi logistik biner, dimana faktor spasial menjadi faktor acak dan demografi merupakan faktor tetap. Faktor acak yang digunakan terdiri dari dua peubah, yaitu posisi lintang selatan dan bujur timur, sehingga model regresi logistik untuk kasus ini dapat dituliskan dengan: 𝜋(𝑋) 𝑙𝑜𝑔 = 𝛽0 + 𝛽1 𝑥1 + ⋯ 1 − 𝜋(𝑋) 𝑚
+
𝛽𝑖𝑘 𝐷𝑖 + 𝛽𝑝 𝑥𝑝 + 𝑈1 𝑘=1
+ 𝑈2 + 𝑆(𝑥1𝑖 ) + 𝑆(𝑥2𝑖 ) dimana xi (i=1,2,...,p) adalah faktor-faktor yang mempengaruhi seseorang untuk memilih dengan x1 dan x2 merupakan faktor acak. U1 dan U2 merupakan komponen acak Gaussian yang saling bebas dengan nilai tengah nol dan ragam τ2. Komponen ini disebut juga komponen acak nonspasial. S(x1i) dan S(x2i) merupakan Proses Gaussian yang stasioner dengan nilai tengah nol, ragam σ2.
Metode Bayesian Pada metode Bayesian, parameter merupakan suatu nilai yang tidak diketahui. Perbedaan metode ini dengan metode klasik adalah pada Bayesian parameter (θ) bersifat acak. Pada Bayesian kita akan menduga sebaran dari parameter terlebih dahulu, kemudian berdasarkan data yang ada kita akan menghitung peluang yang sebenarnya. Oleh karena itu pada Bayesian kita mengenal istilah sebaran prior dan posterior. Sebaran prior adalah sebaran marginal dari parameter [θ], sehingga sebaran bersama dari [Y,θ] = [Y|θ][θ]. Kemudian dengan data yang ada prior akan diperbaiki sehingga akan diperoleh suatu sebaran posterior. Algoritma Metropolis-Hasting Algoritma Metropolis Hasting merupakan salah satu simulasi MCMC dimana sebaran stasioner rantainya sama dengan sebaran target. Ide pokok dari Algoritma MetropolisHasting adalah seperti akan menerima atau menolak suatu metode menggunakan strategi trial and error (Rubinstein & Kroese 2008). Contoh iterasi algoritma tersebut sebagai berikut: Diberikan suatu nilai Xt 1. Bangkitkan Y~q(Xt,y) 2. Bangkitkan U~U(0,1) dan Xt
𝑌 , 𝑗𝑖𝑘𝑎 𝑈 ≤ 𝛼 𝑋𝑡 , 𝑌 𝑋𝑡 , 𝑠𝑒𝑙𝑎𝑖𝑛𝑛𝑦𝑎
dimana 𝛼 𝑥, 𝑦 = min 𝜚 𝑥, 𝑦 , 1 atau disebut peluang penerimaan dengan 𝑓 𝑦 𝑞(𝑦,𝑥) 𝜚 𝑥, 𝑦 = 𝑓 𝑥 𝑞(𝑥,𝑦 )
Dengan mengulangi langkah 1 dan 2, akan diperoleh X1, X2, … yang merupakan peubah acak yang saling bebas, dengan Xt aproximasi sebaran yang sesuai dengan f(x) berukuran t. q(x,y) disebut dengan fungsi proposal atau fungsi instrumental. Fungsi proposal merupakan fungsi transisi peluang yang tak negatif. Pada Algoritma Metropolis Original, fungsi proposal diasumsikan simetri, yaitu q(x,y)=q(y,x). Kemudian Hasting memodifikasi algoritma ini untuk fungsi proposal yang tidak simetri. Uji G Pengujian parameter pada regresi logistik dapat dilakukan baik secara parsial maupun simultan. Pengujian secara simultan yang digunakan dalam tulisan ini adalah uji G. Hipotesis untuk uji tersebut adalah:
3
H0: β1=β2=…= βp= 0 H1: minimal ada satu βi≠0 Secara umum, statistik uji G dapat dituliskan dengan: 𝑛1 𝑛 1 𝑛0 𝑛 0 𝑛 𝐺 = −2𝑙𝑛 𝑛 𝑛 𝑦 𝑖 1 − 𝜋𝑖 1−𝑦 𝑖 𝜋 𝑖=1 𝑖 dengan yi adalah peubah respon, n1 adalah Σyi, n0 adalah Σ(1-yi) dan n adalah n0 + n1. Statistik uji G mengikuti sebaran χ2 dengan derajat bebas p-1, dimana p adalah jumlah parameter yang digunakan. Uji Wald Selain diuji secara simultan, parameter dari model yang diperoleh juga diuji secara parsial. Pengujian dilakukan dengan menggunakan uji Wald. Hipotesis untuk uji Wald adalah: H0: βi= 0 (peubah penjelas tidak berpengaruh terhadap respon) H1: βi≠0 (peubah penjelas berpengaruh terhadap respon) dimana H0 akan ditolak pada saat |W|>Zα/2. Statistik uji Wald dapat dituliskan dengan: 𝑊=
𝛽𝑖
𝑆𝐸 (𝛽𝑖 ) Statistik uji Wald mengikuti sebaran normal baku. Uji Kelayakan Model Pengujian kelayakan (goodness of fit) model regresi logistik menggunakan uji Hosmer-Lemeshow. Uji Hosmer-Lemeshow didasarkan pada pengelompokan pada nilai dugaan peluangnya yang menyebar KhiKuadrat (Hosmer & Lemeshow 1989). Hipotesis nol yang diuji menyatakan bahwa model yang dibangun layak. Statistik uji Hosmer-Lemeshow didefinisikan oleh g
C= k=1
(Ok − n′k πk )2 n′k πk (1 − πk )
dengan C adalah statistik Hosmer-Lemeshow, g adalah banyaknya amatan dalam kelompok ke-k, n′k adalah jumlah nilai Y pada kelompok ke-k dan πk adalah rata-rata dari π untuk kelompok ke-k. Statistik C menyebar mengikuti sebaran Khi-Kuadrat dengan derajat bebas g-2. Kesimpulan menolak hipotesis nol jika nilai Chitung > χ2α(g−2) . Interpretasi Koefisien Dalam regresi logistik interpretasi koefisien menggunakan rasio odds. Rasio odds adalah salah satu alat ukur untuk mengukur asosiasi, yang memperkirakan berapa besar
kecenderungan peubah-peubah penjelas terhadap peubah respon (Hosmer dan Lemeshow 1989). Koefisien model logit βi mencerminkan perubahan satu unit peubah penjelas X. Dalam analisis model logit, rasio odds didefinisikan sebagai berikut: 𝛹 = exp 𝛽𝑖 = exp 𝑔 1 − 𝑔 0 𝜋(𝑋) . dimana g adalah 𝑙𝑜𝑔 1−𝜋(𝑋)
Interpretasi dari rasio odds untuk peubah penjelas yang berskala kategorik yaitu proporsi untuk Y=1 pada X=1 sebesar Ψ kali dibandingkan pada X=0. Rasio odds mengidentifikasikan seberapa besar proporsi kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. Apabila suatu peubah memiliki dugaan parameter yang bernilai positif maka rasio odds-nya sebesar lebih dari satu. Sedangkan apabila dugaan parameternya bernilai negatif maka besarnya rasio odds kurang dari satu. Rasio odds mempunyai selang kepercayaan sebagai berikut: 𝑒𝑥𝑝 𝛽𝑖 ± 𝑍1−𝛼 2 × 𝑆𝐸 𝛽𝑖 R² Nagelkerke R² Nagelkerke merupakan salah satu prosedur yang digunakan untuk mengukur kelayakan model regresi logistik. R² Nagelkerke sering disebut dengan pseudo R². Secara matematik R square ini dapat dituliskan dengan: 2 𝑅𝐶𝑆 𝑅𝑁2 = 2 𝑅𝐶𝑆 𝑚𝑎𝑥 R2CS merupakan koefisien determinasi (R2) Cox Snell. R2CS dapat dihitung menggunakan persamaan 2
𝐿 0 𝑛 2 𝑅𝐶𝑆 =1− 𝐿 𝜃 dimana L(0) merupakan fungsi Likelihood tanpa peubah penjelas, L(θ) merupakan fungsi penuh dan n adalah banyaknya data yang 2 digunakan. 𝑅𝐶𝑆 𝑚𝑎𝑥 dapat diperoleh dengan persamaan 2
2 𝑅𝐶𝑆 𝑚𝑎𝑥 = 1 − (𝐿 0 )𝑛
METODOLOGI Data Data yang digunakan berasal dari hasil survei yang dilakukan oleh Departemen Statistika mengenai pandangan masyarakat terhadap partai dan tokoh nasional dalam pemilu 2009. Jumlah contoh yang digunakan adalah 565 orang dan berasal dari Provinsi
4
Maluku Utara, Maluku, Papua Barat dan Papua. Tabel 1 Peubah yang digunakan Peubah X1
Keterangan Posisi lintang selatan Posisi bujur timur Usia Partisipasi pada pilpres 2004
Kategori
X5
Pendidikan
X6 X7
Akses media cetak Akses radio
X8
Akses TV
1=SD 2=SMP 3=SMA 4=perguruan tinggi 0=tidak ada 1=ada 0=tidak ada 1=ada 0=tidak ada 1=ada
X2 X3 X4
β’)
1=ikut 0=tidak ikut
Peubah X5 dibagi menjadi 3 dummy, yaitu: D51 dengan 0 adalah SD adalah SMP D52 dengan 0 adalah SD adalah SMA D53 dengan 0 adalah SD adalah perguruan tinggi.
i. Pilih nilai baru bagi β, β’dari pengambilan acak dari prior ii. Peluang penerimaan bagi β’ (Δ(β,
peubah dan 1 dan 1 dan 1
Metode 1. Mendeskripsikan peubah yang digunakan yang meliputi : a. peubah penjelas Dalam GLM semua faktor tersebut dianggap tetap, sedangkan dalam GLMM faktor tersebut digolongkan menjadi: acak (spasial) : lokasi tempat tinggal responden (posisi lintang selatan dan bujur timur) tetap : usia, partisipasi pada pilpres 2004, latar belakang pendidikan, kemudahan media cetak, TV serta radio. Pada peubah x4 dan x5, skala yang digunakan bukan merupakan skala biner, oleh karena itu digunakan peubah dummy. Peubah respon yang digunakan adalah peluang masyarakat untuk mengikuti pilpres 2009. 2. Melakukan analisis regresi logistik untuk GLM. Pendugaan parameter menggunakan pendekatan Bayesian dengan algoritma Metropolis Hasting. Algoritmanya dapat dituliskan sebagai berikut: a. Tentukan nilai θ dan β (prior dari θ dan β) b. Perbarui semua parameter pada vektor β
=
min
𝑛 𝜋 𝑖=1 𝑝(𝑦 𝑖 |𝛽 ′ )𝑝(𝛽 |𝛽 ′ ) 𝑛 𝑝(𝑦 |𝛽)𝑝(𝛽 ′ |𝛽 ) 𝜋 𝑖=1 𝑖
,1 ,
selainnya maka β tidak diganti 3. Melakukan pengujian secara simultan dan parsial terhadap peubah penjelas yang digunakan pada GLM. 4. Interpretasi koefisien model regresi logistik (GLM) melalui rasio odds. 5. Melakukan analisis regresi untuk kasus GLMM. Dalam pendugaan parameter digunakan Metode Markov Chain Monte Carlo (MCMC) dengan pendekatan Bayesian dengan Algoritma MetropolisHasting. Algoritmanya dapat dituliskan sebagai berikut: a. Tentukan nilai dari θ dan β (prior dari θ dan β), serta inisiasikan nilai S yang sesuai dengan Yi dengan E(S)=(μi|β,S(xi)), dimana Si = merupakan vektor dari proses Gaussian. b. Perbarui semua parameter pada vektor θ i. Pilih nilai baru bagi θ,θ’, dengan pengambilan contoh acak dari prior ii. Peluang penerimaan bagi θ’ (Δ(θ,θ’))
=
𝑝(𝑆|𝜃 ′ )
min
𝑝(𝑆|𝜃)
,1 ,
selainnya maka θ tidak diganti c. Perbarui semua nilai S (S merupakan konstanta untuk Proses Gaussian) i. Pilih nilai baru bagi S, S’, untuk tiap nilai Si dari univariate Gaussian dengan kepekatan peluang bersyarat p(Si’|S-i,θ) dimana S-i adalah nilai S tanpa pengamatan ke-i ii. Peluang penerimaan bagi Si’ (Δ(Si, Si’) = min
𝑝(𝑦 𝑖 |𝑆𝑖′ ,𝛽 ) 𝑝(𝑦 𝑖 |𝑆𝑖 ,𝛽)
, 1 , selainnya
maka S tidak diganti iii. Ulangi langkah i dan ii untuk semua i=1,2,…,n d. Perbarui semua parameter pada vektor β i. Pilih nilai baru bagi β yaitu β’, dengan kepekatan peluang bersyarat p(β ,β’) ii. Peluang penerimaan bagi β’ Δ(β,β’)=min 𝑛 𝜋 𝑖=1 𝑝(𝑦 𝑖 |𝑆𝑖 ,𝛽 ′ )𝑝(𝛽 |𝛽 ′ ) 𝑛 𝑝(𝑦 |𝑆 ,𝛽 )𝑝(𝛽 ′ |𝛽 ) 𝜋 𝑖=1 𝑗 𝑖
,1 ,
selainnya
maka β tidak diganti e. Ambil contoh acak dari sebaran multivariate Gaussian [S*|Y,θ,β,S] dimana nilai (θ,β,S) diperoleh dari langkah b,c dan d. Dari langkah-
5
langkah di atas akan diperoleh bahwa [(S*|S)|Y]=[S|Y][S*|S,Y] 6. Melakukan pengujian secara simultan dan parsial terhadap peubah penjelas yang digunakan pada GLMM. 7. Interpretasi koefisien model regresi logistik (GLMM) melalui rasio odds. 8. Membandingkan model regresi untuk kasus GLM dan GLMM dengan menggunakan R2 Nagelkerke dan MSE. Untuk membantu perhitungan, digunakan software R 2.11.1. PEMBAHASAN Pendugaan Parameter Pendugaan model penuh pada GLM menghasilkan nilai statistik G sebesar 8.9878. Model penuh dapat diterima secara statistik karena nilai statistik G tersebut lebih dari nilai χ² tabel pada derajat bebas 10 yaitu 3.940. Pada model penuh ini terdapat beberapa peubah yang tidak berpengaruh nyata, yaitu usia, pendidikan, akses media cetak dan akses radio. Sedangkan peubah yang berpengaruh nyata adalah lokasi (baik posisi Lintang Selatan maupun Bujur Timur), partisipasi pada pilpres 2004 dan akses TV. Hasil tersebut diperoleh berdasarkan hasil uji Wald pada taraf nyata 5%. Hasil uji Wald dapat dilihat pada lampiran. Uji kelayakan model menggunakan uji Hosmer-Lemeshow. Statistik uji HosmerLemeshow yang didapat sebesar 3.058 dengan derajat bebas 8, nilai tersebut kurang dari nilai χ² tabel, yaitu 15.507 sehingga hipotesis nol yang diuji tidak ditolak. Hal ini berarti bahwa model regresi logistik yang didapat layak (fit) dengan data atau dengan kata lain, model regresi yang didapat efektif dalam menggambarkan pengaruh peubah bebas terhadap peluang masyarakat untuk memilih pada pilpres 2009. Model pendugaan yang digunakan adalah model regresi logistik biner dengan fungsi penghubung kumulatif logit. Pendugaan parameter model ini menggunakan pandekatan Bayesian yaitu dengan algoritma Metropolis Hasting. Ide dari algoritma ini adalah menerima atau menolak suatu hipotesis, dimana hipotesis yang digunakan adalah parameter dari model. Pada pendugaan ini, sebaran dari tiap-tiap parameter yang akan diduga adalah Binomial dengan parameter (sebaran prior). Sebaran prior tersebut akan digunakan untuk membangkitkan bilangan acak yang merupakan calon dari parameter yang akan diduga. Selanjutnya, masing-
masing parameter tersebut akan diuji menggunakan peluang bersyarat dari parameter tersebut. Jika nilai paluang dari parameter duga tersebut berada diantara 𝑝(𝑦 𝑖 |𝑆𝑖′ ,𝛽 ) 𝑝(𝑦 𝑖 |𝑆𝑖 ,𝛽)
dan satu, maka parameter duga
tersebut akan digunakan, jika tidak, maka digunakan parameter duga yang ditetapkan di awal. Tahapan tersebut diulang sebanyak 10000 kali atau sebanyak iterasi Metropolis Hasting yang dikehendaki. Dengan demikian, akan diperoleh suatu sebaran baru dari parameter dugaan, sebaran tersebut disebut sebaran posterior. Sebaran posterior dari masing-masing peubah dapat dilihat pada Lampiran 1. Nilai dugaan parameter diperoleh pada saat rantai Markov mencapai kekonvergenannya. Kekonvergenan rantai Markov dapat dilihat berdasarkan plot iterasi dan uji Gelman-Rubin. Pada uji Gelman-Rubin, rantai Markov dikatakan konvergen jika nilai statistik ujinya mendekati nilai satu. Plot iterasi Metropolis Hasting serta hasil uji Gelman-Rubin dapat dilihat pada lampiran 1 dan 4. Berdasarkan perhitungan yang dilakukan diperoleh model regresi logistik 𝑚 𝜋(𝑋) 𝑙𝑜𝑔 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑖𝑘 𝐷𝑖 1 − 𝜋(𝑋) 𝑘=1
+ 𝛽8 𝑥8 + 𝜀 = 0.7372 + 0.1207x1 0.2915x2 + 0.0041x3 0.5197x4 - 0.3135D51 0.6390D52 - 0.3793D53 0.0545x6 – 0.1870x7 0.4771x8 +
+ + + –
Dari model di atas, terlihat bahwa peubah lokasi (baik secara garis lintang maupun garis bujur), usia, partisipasi pada pilpres 2004, pendidikan dan akses media cetak memperbesar peluang masyarakat untuk memilih pada pilpres 2009. Sedangkan peubah pendidikan, akses radio dan akses TV memberikan kecenderungan bagi masyarakat untuk tidak memilih. Pendugaan model penuh pada GLMM menghasilkan nilai statistik G sebesar 6.5149 yang berarti model penuh tersebut dapat diterima secara statistik karena nilai statistik G tersebut lebih dari nilai χ² tabel pada derajat bebas 8 yaitu 2.7330. Pada model penuh ini terdapat beberapa peubah yang tidak berpengaruh nyata, yaitu usia, pendidikan, akses media cetak dan akses radio. Sedangkan peubah yang berpengaruh nyata adalah
6
partisipasi pada pilpres 2004 dan akses TV. Hasil tersebut diperoleh berdasarkan hasil uji Wald pada taraf nyata 5%. Hasil uji Wald dapat dilihat pada lampiran 3. Uji kelayakan model menggunakan uji Hosmer-Lemeshow. Statistik uji HosmerLemeshow yang didapat sebesar 9.798 dengan derajat bebas 8, nilai tersebut kurang dari nilai χ² tabel, yaitu 15.507 sehingga hipotesis nol yang diuji tidak ditolak. Hal ini berarti bahwa model regresi logistik yang didapat layak (fit) dengan data atau dengan kata lain, model regresi yang didapat efektif dalam menggambarkan pengaruh peubah bebas terhadap peluang masyarakat untuk memilih pada pilpres 2009. Pendugaan parameter pada GLMM juga menggunakan pendekatan Bayesian dengan algoritma Metropolis Hasting. Pada pendugaan ini, diasumsikan prior menyebar binomial. Selain sebaran prior bagi masingmasing peubah, pada GLMM juga harus menentukan sebaran prior bagi proses Gausiannya (S) dan bagi θ. Langkah pertama pada pendugaan parameter GLMM adalah menginisiasikan nilai dugaan bagi θ, S dan β. Selanjutnya nilai θ akan diganti jika peluang dugaan bagi θ berada diantara
𝑝(𝑆|𝜃 ′ ) 𝑝(𝑆|𝜃)
dan satu, jika tidak, maka θ
yang digunakan adalah θ yang diinisiasikan di awal. Setelah diperoleh nilai θ, dilakukan perbaruan bagi nilai S. S akan diganti jika nilai dugaan S baru berada diantara
𝑝(𝑦 𝑖 |𝑆𝑖′ ,𝛽 ) 𝑝(𝑦 𝑖 |𝑆𝑖 ,𝛽)
dan
satu. Langkah berikutnya adalah memperbarui nilai parameter duga. Masing-masing parameter tersebut akan diuji menggunakan peluang bersyarat dari parameter tersebut. Jika nilai peluang dari parameter duga tersebut berada diantara
𝑛 𝜋 𝑖=1 𝑝(𝑦 𝑖 |𝑆𝑖 ,𝛽 ′ )𝑝(𝛽 |𝛽 ′ ) 𝑛 𝑝(𝑦 |𝑆 ,𝛽)𝑝(𝛽 ′ |𝛽 ) 𝜋 𝑖=1 𝑖 𝑖
dan satu,
maka parameter duga tersebut akan digunakan, jika tidak, maka digunakan parameter duga yang ditetapkan di awal. Tahapan pendugaan tersebut akan diulang sebanyak 5000 kali atau sebanyak iterasi Metropolis Hasting yang dikehendaki. Dengan demikian, akan diperoleh suatu sebaran baru dari parameter dugaan, yang merupakan merupakan sebaran posterior. Sebaran posterior dari masingmasing peubah dapat dilihat pada lampiran 3. Kekonvergenan rantai Markov pada GLMM dapat dilihat berdasarkan plot iterasi dan uji Gelman-Rubin pada Lampiran 2 dan Lampiran 4. Berdasarkan perhitungan diperoleh model regresi GLMM yaitu:
𝑙𝑜𝑔
𝜋(𝑋) 1−𝜋(𝑋)
= 𝛽0 + 𝛽1 𝑥1 + ⋯ +
𝑚 𝑘=1 𝛽𝑖𝑘 𝐷𝑖
+
𝛽8 𝑥8 + 𝑈1 + 𝑈2 + 𝑆 𝑥1𝑖 + 𝑆 𝑥2𝑖 = 0.5900 + 0.0015x3 + 0.3094x4 - 0.3022D51 - 0.3786D52 + 0.2582D53 + 0.2489x6 – 0.1517x7 – 1.4200x8 + U1 + U2 + S(x1) + S(x2) Dimana U1~N(2.5961,0.6561) dan U2 ~ (2.5134,0.5495). Sedangkan S(x1i) ~ N (0, 4.4491) dan S(x1i) ~ N (0, 4.2755). Dari model di atas, terlihat bahwa peubah usia, partisipasi pada pilpres 2004 dan akses media cetak memperbesar peluang masyarakat untuk memilih pada pilpres 2009. Sedangkan peubah akses radio dan akses TV memberikan kecenderungan bagi masyarakat untuk tidak memilih. Interpretasi Koefisien Setelah diperoleh model regresi maka perlu dilakukan interpretasi terhadap peubah-peubah yang menyusun model regresi tersebut dengan menggunakan nilai rasio odds-nya. Nilai dugaan rasio odds dan selang kepercayaan 95% dapat dilihat pada Tabel 2 dan Tabel 3. Berdasarkan hasil yang diperoleh, pada GLM dapat disimpulkan bahwa peluang orang yang berpartisipasi pada pilpres 2004 untuk berpartisipasi lagi pada pilpres 2009 adalah 1.6814 kali lebih besar dibandingkan dengan peluang orang yang tidak memilih ataupun tidak menjawab pertanyaan tersebut dengan selang kepercayaan 95% bagi rasio odds-nya antara 1.2999 sampai 2.1749. Peubah lain yang berpengaruh adalah kemudahan akses TV, dengan nilai rasio odds 0.2872, yang berarti peluang masyarakat yang mempunyai TV untuk memilih pada pilpres 2009 adalah sebesar 0.6206 kali lebih besar daripada peluang masyarakat yang tidak mempunyai TV dengan selang kepercayaan 95% antara 0.0057 sampai 67.1401. Interpretasi parameter pada GLMM menggunakan rasio odds diperoleh bahwa peluang orang yang berpartisipasi pada pilpres 2004 untuk berpartisipasi lagi pada pilpres 2009 adalah 1.3626 kali lebih besar dibandingkan dengan peluang orang yang tidak memilih dengan selang kepercayaan 95% antara 1.2686 sampai 1.4636. Peubah lain yang berpengaruh adalah kemudahan akses TV, dengan nilai rasio odds 0.2417, yang berarti peluang masyarakat yang mempunyai TV untuk memilih pada pilpres 2009 adalah sebesar 0.2417 kali lebih besar daripada peluang masyarakat yang tidak mempunyai
7
TV dengan selang kepercayaan 95% antara 0.1299 sampai 0.4499. Tabel 2 Rasio odds dan SK 95% bagi rasio odds pada GLM peubah x1 x2 x3 x4 D51 D52 D53 x6 x7 x8
odds ratio 1.1283 1.3384 1.0041 0.5947 0.7309 0.5278 0.6843 1.0560 0.8295 0.6206
SK 95% lower upper 1.0503 1.2120 1.2339 1.4517 0.9828 1.0259 0.4598 0.7693 0.3466 1.5412 0.2540 1.0966 0.2782 1.6831 0.6492 1.7177 0.5181 1.3281 0.0057 67.1401
Tabel 3 Rasio odds dan SK 95% bagi rasio odds pada GLMM peubah x3 x4 D51 D52 D53 x6 x7 x8
odds ratio 1.0015 1.3626 0.7392 0.6848 0.7724 1.2826 0.8592 0.2417
SK 95% lower upper 0.9789 1.0246 1.2686 1.4636 0.3439 1.5888 0.3288 1.4265 0.3021 1.9748 0.7214 2.2804 0.4959 1.4887 0.1299 0.4499
Model Regresi Terbaik Setelah diperoleh dugaan bagi parameter. akan dicari model regresi terbaik. Model regresi terbaik diperoleh dengan membandingkan nilai MSE dan R2 Nagelkerke. Nilai MSE dan R2 Nagelkerke pada model GLM dan GLMM dapat dilihat pada tabel berikut: Tabel 4 Parameter pembanding GLM dan GLMM GLM GLMM
R2 Nagelkerke 61.6266% 73.9421%
MSE 0.0290 0.0001
GLMM memiliki nilai R2 Nagelkerke yang lebih tinggi dan MSE lebih rendah. Selain itu, nilai intersep pada GLMM berpemgaruh nyata terhadap model (berdasarkan hasil uji Wald). Dengan demikian pada kasus ini GLMM lebih baik daripada GLM dengan kata lain, pada kasus ini faktor lokasi (spasial) merupakan peubah acak. KESIMPULAN DAN SARAN Kesimpulan Pendugaan parameter pada GLM dan GLMM dengan menggunakan metode Bayesian. Hasil analisis regresi logistik pada GLM, diperoleh bahwa lokasi tempat tinggal responden (posisi lintang selatan dan bujur timur), partisipasi pada pilpres 2004 dan
kemudahan akses TV berpengaruh terhadap partisipasi masyarakat pada pilpres 2009. Sedangkan pada GLMM faktor-faktor yang berpengaruh adalah partisipasi pada pilpres 2004 dan kemudahan akses TV di lokasi tempat tinggal responden. Pada kedua model diperoleh bahwa partisipasinya pada pilpres 2004 berpengaruh positif terhadap respon, sedangkan akses TV memberikan kecenderungan bagi masyarakat untuk tidak memilih. Hasil uji kelayakan model menggunakan uji Hosmer-Lemeshow menunjukkan bawa kedua model yang diperoleh layak, dalam artian model regresi yang didapat efektif dalam menggambarkan pengaruh peubah bebas terhadap peluang masyarakat untuk memilih pada pilpres 2009. Akan tetapi dengan membandingkan nilai MSE dan R2 Nagelkerke dari GLM dan GLMM diperoleh bahwa GLMM merupakan model terbaik dengan nilai MSE 0.0001 dan R2 Nagelkerke 73.9421%. Selain itu, pada GLMM intersep berpengaruh nyata terhadap model, dengan demikian dapat dikatakan bahwa faktor spasial berrpengaruh terhadap model. Saran Sebagai masukan untuk penelitian selanjutnya analisis ini dapat diaplikasikan untuk daerah-daerah lain di Indonesia.
DAFTAR PUSTAKA Bivand RS, Pebesma EJ, Rubio VG. 2008. Applied Spatial Data Analysis with R. New York: Springer Science + Bussines Media. LLC. Chatterjee S, Hadi AS. 2006. Regression Analysis by Example. Ed ke-4. New Jersey: John Wiley & Sons. Inc. Christensen F, Riberio Jr PJ. 2009. GeoRglm: a Package for Generalized Linear Spatial Models. www.geodacenter. asu.edu/system/file/mews2.2.2628_0.pdf [19 Januari 2010] Collet David. 2002. Modelling Binary Data. Ed ke-2.New York: A CRC Press Company. Diggle P J dan Riberio Jr PJ. 2007. Modelbased Geostatistics. New York: Springer Science + Bussines Media. LLC. Gill J. 2001. Generalized Linear Models: A Unified Approach. London. Sage Pubilcations. Inc.
8
. 2002. Bayesian Methods a Social and Behavioral Science Approach. New York: A CRC Press Company. Hedeker D. 1994. Encyclopedia of Statistics in Behavioral Science. New York: Jhon Wiley & Son. Inc. Hosmer DW dan Lemeshow S.1989. Applied Logistic Regression.New York: John Wiley & Son. Inc. Jara A. 2010. DPpackage. www.cranrproject.org/web/package/DPpackage.in dex.pdf [20 Juni 2010] Myers H. 1986. Classical and Modern Regression with Applications. Boston: PWS-KENT Publishing Company. Robinson DJ. 2009. Nagelkerke and Coxsnell Pseudo R2 for Mixed Logit Models. www.Hiplab.wordpress.com/.../nagelke rke-and-coxsnell-pseudo-r2-for-mixedlogit-models.pdf [20 Juni 2010] Rubinstein RY dan Kroese DP. 2008. Simulation and The Monte Carlo Method. Ed ke-2. New Jersey: John Wiley & Sons. Inc.
9
LAMPIRAN
10
Lampiran 1 Iterasi algoritma Metropolis Hasting dan sebaran posterior dugaan parameter GLM Trace of estimate intercept
Density of estimate β0
Trace of estimate β1
Density of estimate β1
Trace of estimate β2
Density of estimate β2
Trace of estimate β3
Density of estimate β3
Trace of estimate β4
Density of estimate β4
11
Trace of estimate β51
Density of estimate β51
Trace of estimate β52
Density of estimate β52
Trace of estimate β53
Density of estimate β53
Trace of estimate β6
Density of estimate β6
Trace of estimate β7
Density of estimate β7
Trace of estimate β8
Density of estimate β8
12
Lampiran 2 Iterasi algoritma Metropolis Hasting dan sebaran posterior dugaan parameter GLMM Trace of estimate intercept
Density if estimate β0
Trace of estimate β3
Density of estimate β3
Trace of estimate β4
Density of estimate β4
Trace of estimate β51
Density of estimate β51
13
Trace of estimate β52
Density of estimate β52
Trace of estimate β53
Density of estimate β53
Trace of estimate β6
Density of estimate β6
Trace of estimate β7
Density of estimate β7
Trace of estimate β8
Density of estimate β8
14
Lampiran 3 Hasil analisis pada GLM dan GLMM 1.
Hasil analisis pada GLM
Intercept x1 x2 x3 x4 D51 D52 D53 x6 x7 x8 2.
estimate
std error
0.7372 0.1207 0.2915 0.0041 0.5197 -0.3135 -0.6390 -0.3793 0.0545 -0.1869 -0.4771
0.2901 0.0365 0.0415 0.0110 0.1313 0.3806 0.3731 0.4592 0.2482 0.2402 2.3897
estimate
std error
0.5900 0.0015 0.3094 -0.3022 -0.3786 -0.2582 0.2489 -0.1517 -1.4384
0.1690 0.0116 0.0365 0.3904 0.3744 0.4789 0.2936 0.2804 0.5892
W -1.1447 3.5229 61.9923 -0.7346 3.2186 1.6481 -1.7740 1.1501 1.3201 -1.4824 -2.0201
|Z| tabel 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96
Hasil analisis pada GLMM (Intercept) x3 x4 D51 D52 D53 x6 x7 x8
Nilai pendugaan parameter pada peubah spasial parameter mu1 mu2 tau1 tau2
estimate 2.5961 2.5134 0.8100 0.7413
W 3.4911 0.1247 8.4790 -0.7741 -1.0112 -0.5392 0.8478 -0.5410 -2.4415
|Z| tabel 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96 1.96
15
Lampiran 4 Standart Error iterasi dan nilai statistik uji Gelman-Rubin Peubah (Intercept) x1 x2 x3 x4 D51 D52 D53 x6 x7 X8
GLM Std error 0.007482 0.000339 0.000034 0.000103 0.002796 0.002509 0.002270 0.044590 0.002374 0.002203 0.006176
Gelman-Rubin 0.89500 1.50327 1.00601 0.98386 0.99985 0.99891 1.00058 0.39341 0.99364 0.99664 1.01244
Std error 0.0112583
0.0001689 0.0041006 0.0043245 0.0035625 0.0406687 0.0058544 0.0038653 0.0083319
GLMM Gelman-Rubin 0.99664
1.01244 1.02513 1.00585 1.01122 1.00136 1.00207 0.99011 1.01546