BAB I PENDAHULUAN 1.1
Latar Belakang Analisis regresi digunakan untuk mengetahui bentuk hubungan antara variabel
respon dengan satu atau lebih variabel prediktor. Umumnya analisis regresi yang digunakan adalah regresi klasik, di mana variabel responnya merupakan data kontinu yang mengikuti distribusi normal. Namun, dalam perkembangannya model regresi klasik ini tidak mampu mengatasi permasalahan-permasalahan pemodelan statistik di mana variabel responnya berupa data diskrit dan tidak mengikuti distribusi normal. Generalized Linear Model (GLM) merupakan pengembangan dari model regresi klasik, khususnya, dalam mengatasi kendala jika variabel respon tidak normal. Variabel respon dalam GLM diasumsikan memiliki distribusi yang termasuk dalam distribusi keluarga eksponensial. Distribusi yang termasuk dalam distribusi keluarga eksponensial adalah distribusi Normal, Poisson, Binomial, Eksponensial, dan Gamma (Montgomery et al, 2006). Salah satu contoh di mana variabel responnya diskrit adalah banyaknya kejadian yang jarang terjadi (rare event). Misalkan banyaknya kecelakaan mobil setiap bulan, banyaknya hujan badai tiap tahun, banyaknya postingan di facebook setiap hari, banyaknya tweets setiap hari, dan banyaknya kunjungan orang ke suatu website. Salah satu model regresi yang dapat digunakan untuk menjelaskan hubungan antara variabel respon yang berupa data diskrit dengan variabel prediktor berupa data diskrit, kontinu, kategorik atau campuran adalah regresi Poisson. Analisis regresi Poisson termasuk dalam regresi nonlinear yang variabel responnya dimodelkan sebagai distribusi Poisson. Variabel respon dalam regresi Poisson berasal dari data cacahan yang kejadiannya jarang terjadi. Dalam model regresi Poisson terdapat asumsi yang harus dipenuhi yakni equidispersi yang berarti nilai variansi sampel sama dengan nilai mean. Pada kasus nyata seringkali data cacah
1
2
memperlihatkan variansi sampel lebih besar dari mean (overdispersi) atau variansi sampel lebih kecil dari mean (underdispersi). Sehingga asumsi tersebut tidak dapat digunakan pada data yang tersebar secara over maupun under. Menurut McCullagh dan
Nelder
(1989),
overdispersi
dapat
terjadi
karena
adanya
clustering
(pengelompokkan) dalam populasi. Pengelompokkan tersebut dapat menyebabkan adanya variabilitas dalam peluang respon dan adanya korelasi antar variabel respon. Kedua penyebab tersebut merupakan kejadian yang saling timbal balik. Cameron dan Trivedi (1998) menjelaskan fenomena overdispersi dapat terjadi karena adanya sumber variansi yang tidak teramati (unobserved heterogeneity). Overdispersi dapat pula terjadi karena adanya pengamatan yang missing pada peubah penjelas, adanya pencilan pada data (outlier), perlunya interaksi dalam model, dan peubah penjelas perlu ditransformasi atau kesalahan dalam spesifikasi fungsi link. Pada umumnya, untuk mengatasi masalah overdispersi digunakan pemodelan dengan regresi Binomial Negatif. Akan tetapi pada regresi Binomial Negatif tidak dilengkapi dengan data yang underdispersi. Sehingga diperlukan beberapa model yang memungkinkan untuk digunakan pada data overdispersi maupun underdispersi. Sellers dan Shmueli (2010) memperkenalkan metode dalam mengatasi kedua masalah tersebut, yaitu dengan analisis regresi Conway-Maxwell-Poisson (COM-Poisson). Di mana model tersebut lebih menekankan pada regresi Poisson dan regresi logistik. Tehnik analisis ini telah berhasil dalam menghitung data cacah dengan berbagai tingkat sebaran (dispersi). Secara umum, model-model regresi data cacah dua parameter yang mencakup overdispersi atau underdispersi didasarkan pada kedua parameter distribusi, dengan nilai mean dan variansi pada masing-masing fungsi. Dengan kata lain, kedua parameter tersebut tidak merangkum satu per satu nilai mean dan variansi. Hal ini berbeda nyata dengan model regresi linier sederhana untuk data kontinu. Di mana kedua parameter ( dan ) sesuai dengan rata-rata dan standar deviasi yang secara fungsional independen dari model tersebut. Sedangkan pencampuran data normal dengan yang sama tetapi memiliki tingkat yang
3
berbeda dapat merujuk pada data berdistribusi normal. Hasil pencampuran data cacah dengan tingkat dispersi berganda menyebabkan data yang muncul memiliki berbagai macam dispersi. Dalam konteks pencampuran data dengan tingkat dispersi yang berbeda, Park dan Lord (2009) menggunakan campuran model regresi Binomial Negatif dengan parameter dispersi yang berbeda (sebagai campuran dari model regresi Poisson dengan nilai rata-rata yang berbeda) untuk menyelidiki sifat overdispersi yang ditemukan dalam data kecelakaan transportasi. Di mana hasil temuan mereka menunjukkan bahwa dataset
"tampaknya dihasilkan dari dua sub-populasi yang
berbeda", masing-masing dengan berbagai tingkat overdispersi. Kemudian dengan mempertimbangkan dataset, bagaimanakah seseorang dapat memastikan apakah dispersi yang diamatinya (atau dispersi yang luput dari pengamatannya) adalah benarbenar nyata ataukah merupakan hasil pencampuran tingkat dispersi? Dengan merujuk pada pertanyaan tersebut, maka dalam skripsi ini akan dikenalkan metode baru dalam regresi COM-Poisson yang dapat mendeteksi adanya penggabungan dua kelompok dispersi dalam satu set data yaitu overdispersi dan underdispersi.
1.2
Perumusan Masalah Permasalahan yang akan dibahas dalam skripsi ini adalah memodelkan
perluasan regresi COM-Poisson yang memungkinkan untuk tingkat dispersi kelompok dan mengestimasi parameter model regresi COM-Poisson dengan tingkat dispersi kelompok menggunakan Metode Maksimum Likelihood. Serta menguji kecocokan model tersebut.
1.3
Pembatasan Masalah Batasan masalah dalam skripsi ini sangat diperlukan agar tidak terjadi
penyimpangan dengan tujuan awal dan penyelesaian masalah lebih terkonsentrasi. Oleh karena itu, dalam skripsi ini hanya akan difokuskan pada regresi COM-Poisson
4
yang dapat mendeteksi penggabungan data yang berasal dari campuran tingkat dispersi, yaitu overdispersi dan underdispersi.
1.4
Tujuan Penulisan Tujuan dari penulisan skripsi ini adalah sebagai berikut : 1. Mempelajari kembali model regresi COM-Poisson dengan tingkat dispersi konstan. 2. Memperkenalkan perluasan model regresi COM-Poisson pada tingkat dispersi kelompok. 3. Mengaplikasikan model regresi COM-Poisson untuk menguji tingkat dispersi yang berbeda dan untuk mengetahui efek dari penggabungan tingkat dispersi kelompok tersebut.
1.5
Tinjauan Pustaka Regresi Poisson adalah alat analisis populer untuk pemodelan data cacah,
dengan asumsi equidispersi (yaitu, nilai rata-rata dan variansinya sama besar). Banyak contoh kasus di kehidupan sehari-hari yang mempunyai data sebaran yang lebih besar (overdispersi) atau lebih kecil (underdispersi). Seiring berjalannya waktu maka banyak peneliti mencoba untuk melakukan penanganan dalam mengatasi overdispersi dan underdispersi tersebut, karena dapat merujuk pada kesimpulan yang salah pada data. Sellers dan Shmueli (2010) menemukan model regresi alternatif dengan menggunakan distribusi ConwayMaxwell-Poisson (COM-Poisson) di mana tingkat dispersi diukur pada dispersi konstan. Selanjutnya, Sellers dan Shmueli (2009) kembali mengembangkan model regresi COM-Poisson dengan berbagai macam tingkat dispersi yang diukur pada pengamatan yang berbeda. Berikutnya melalui formulasi dan model estimasi menggunakan Bayesian Markov Chain Monte Carlo (MCMC), Park dan Lord (2009) memecahkan beberapa tantangan yang membuat mereka sampai pada kesimpulan
5
bahwa "mengembangkan model campuran COM-Poisson mungkin terbukti bermanfaat untuk menganalisis kecelakaan kendaraan bermotor". Sementara itu, tujuan penting dalam riset pemasaran adalah untuk menangkap heterogenitas dari perilaku konsumen. Data cacah muncul dalam banyak studi pemasaran, termasuk survei kepuasan atau data pada jumlah dan frekuensi belanja. Seringkali, data muncul dari kelompok konsumen yang berbeda sehingga menjadi sumber penting dari heterogenitas, misalnya Borle et al. (2007). Dalam kasus tersebut, kelompokkelompok yang berbeda mungkin memiliki data dengan berbagai tingkat dispersi, jika diabaikan, akan mengarah pada hilangnya pemahaman tentang heterogenitas tersebut. Sellers dan Shmueli (2013) melakukan penelitian dengan mengusulkan sebuah metode untuk mendeteksi dispersi yang muncul secara jelas berdasarkan regresi COM-Poisson. Pendekatan yang digunakan mempunyai dua hal baru. Pertama, melihat pencampuran tidak hanya equidispersi dan overdispersi data, tetapi untuk underdispersi data (atau kombinasi dari semuanya). Kedua, dengan menggunakan distribusi COM-Poisson yang dimiliki keluarga eksponensial dalam kedua parameter, kita memperoleh estimasi dan inferensi metode elegan, dan menghindari tantangan yang dihadapi dalam estimasi pendekatan Bayesian Park dan Lord. Solusinya adalah dicapai dengan generalisasi dari formulasi regresi COMPoisson oleh Sellers dan Shmueli (2010) yang memungkinkan untuk dispersi tingkat kelompok.
1.6
Metode Penulisan Metode yang dipakai dalam penulisan skripsi ini lebih kepada studi literatur
yang didapat dari sumber-sumber resmi seperti pada buku-buku, jurnal-jurnal pendukung, dan situs-situs internet yang berhubungan dengan tema skripsi ini.
1.7
Sistematika Penulisan Secara garis besar skripsi ini disusun dengan sistematika sebagai berikut :
6
BAB I
PENDAHULUAN Bab ini berisi latar belakang masalah, pembatasan masalah, tujuan penulisan, tujuan pustaka, metode penulisan, dan sistematika penulisan.
BAB II
DASAR TEORI Bab ini membahas tentang teori-teori yang menunjang pembahasan model regresi COM-Poisson untuk tingkat dispersi kelompok.
BAB III
PEMBAHASAN Pada bab ini berisi pembahasan mengenai model regresi COM-Poisson untuk tingkat dispersi kelompok dan estimasi dari model regresi tersebut. Serta menguji kecocokan model regresi COM-Poisson dengan tingkat dispersi kelompok.
BAB IV
STUDI KASUS Bab ini menjelaskan bagaimana adanya proses penggabungan tingkat dispersi kelompok. Dengan cara simulasi data overdispersi dan underdispersi pada data perkawinan gajah Afrika (1989). Kemudian menguji kecocokan model tersebut pada regresi COM-Poisson tingkat dispersi kelompok.
BAB V
PENUTUP Bagian penutup ini berisi kesimpulan dan saran dari hasil penelititan yang telah dibahas pada bab-bab sebelumnya.