ANALISIS HURDLE POISSON UNTUK PEMODELAN DATA COUNT (Studi Kasus : Konsumsi Rokok Kalimantan Tengah Tahun 2012)
Afi Nurani1, Sutawanir Darwis2, Sudartianto3 1
Mahasiswa Program Magister Statistika Terapan, Universitas Padjadjaran, Bandung 2&3 Pengajar Jurusan Statistika, Universitas Padjadjaran, Bandung 1
[email protected],
[email protected],
[email protected]
Abstrak Indonesia menjadi negara ketiga dengan jumlah perokok tertinggi di dunia setelah Cina dan India. Kebiasaan merokok pada masyarakat Indonesia secara umum merupakan masalah kesehatan karena konsumsi tembakau yang masih cenderung tinggi. Jumlah batang rokok sekitar 10 batang per hari merupakan angka rata-rata yang cukup tinggi untuk memberikan dampak negatif terhadap kesehatan dan ekonomi (Buku Fakta Tentang Tembakau, 2012). Konsumsi rokok dalam batang per hari merupakan salah satu kasus data cacahan (count) dengan banyak nilai 0 (excess zero). Model Hurdle Poisson merupakan salah satu metode yang dapat digunakan untuk memodelkan data cacahan dengan excess zero. Model Hurdle Poisson merupakan model dengan menggunakan dua bagian pendekatan (two part model) yaitu model logit untuk observasi bernilai 0 dan Truncated Poisson untuk observasi bernilai positif. Hasil pemodelan dengan Hurdle Poisson memberikan perbaikan terhadap model Regresi Poisson. Faktor-faktor yang berpengaruh terhadap keputusan individu mengkonsumsi rokok pada bagian logit adalah pendidikan, jenis kelamin, status perkawinan, pekerjaan, umur, dan pendapatan perkapita sebulan, sedangkan pada bagian Truncated Poisson variabel prediktor yang berpengaruh adalah pendidikan, jenis kelamin, status perkawinan, umur, dan pendapatan perkapita sebulan. Kata kunci: Data Cacahan, Excess Zero, Regresi Poisson, Hurdle Poisson, Logit, Truncated Poisson, Konsumsi Rokok
1. Pendahuluan Indonesia merupakan negara keempat dengan konsumsi rokok terbesar di dunia setelah China, USA, dan Rusia. Jumlah batang rokok yang dikonsumsi di Indonesia cenderung meningkat dari 182 milyar batang pada tahun 2001 menjadi 260,8 milyar batang pada tahun 2009. Angka prevalensi rokok pada tahun 2010 pun cukup tinggi yaitu 34,7 persen (Buku Fakta Tentang Tembakau, 2012). Saat ini, Indonesia menjadi negara ketiga dengan jumlah perokok tertinggi di dunia setelah Cina dan India . Kebiasaan merokok pada masyarakat Indonesia secara umum merupakan masalah kesehatan karena konsumsi tembakau yang masih cenderung tinggi. Jumlah batang rokok 1
sekitar 10 batang per hari merupakan angka rata-rata yang cukup tinggi untuk memberikan dampak negatif terhadap kesehatan dan ekonomi (Buku Fakta Tentang Tembakau, 2012). Menurut WHO, konsumsi rokok membunuh satu orang setiap 10 detik. Dampak negatif segi kesehatan adalah timbulnya penyakit yang diakibatkan mengkonsumsi rokok. Sedangkan segi ekonomi adalah besarnya pengeluaran untuk konsumsi rokok dan besarnya biaya untuk berobat penyakit akibat rokok serta hilangnya waktu dan berkurangnya produktifitas kerja. Kebiasaan merokok tidak hanya berdampak pada perokok itu sendiri akan tetapi juga bagi perokok pasif, terutama pada kelompok rentan seperti usia balita, anak sekolah, dan populasi perempuan meskipun ada sebagian dari perempuan juga merokok. Konsumsi rokok dalam batang per hari merupakan salah satu kasus data cacahan dengan banyak nilai 0 (excess zero). Banyaknya nilai 0 ini dimungkinkan terjadi karena individu tidak mengkonsumsi atau hanya kadang-kadang mengkonsumsi (potensial mengkonsumsi). Pengamatan pada variabel respon berbentuk diskrit tetapi bukan biner dapat dikatakan sebagai data cacahan yang menyangkut banyaknya kejadian dalam distribusi Poisson. Distribusi Poisson memiliki asumsi kesetaraan rata-rata dengan varians yang disebut dengan equidispersion. Salah satu metode yang dapat digunakan dalam menganalisa data cacahan adalah metode regresi Poisson (Agresti, 2002). Namun metode regresi Poisson akan menjadi tidak sesuai jika banyak data bernilai nol yang mengakibatkan terjadinya overdispersi (Ridout, Demetrio, dan Hindie, 1998). Beberapa metode yang bisa digunakan untuk memodelkan variabel respon dengan excess zero diantaranya Zero Inflated Poisson dan Hurdle Poisson. Pemodelan dengan Zero Inflated Poisson merupakan model mixture dengan memodelkan observasi bernilai 0 dengan proses biner dan model independen Poisson untuk observasi bernilai positif. Model Hurdle Poisson diasumsikan sebagai dua proses independen fungsi dari variabel respon yaitu model biner untuk observasi bernilai nol dan Truncated Poisson untuk observasi bernilai positif. Kedua model ini sama-sama menggunakan metode maksimum likelihood untuk mendapatkan estimasi parameter yang digunakan. Model Hurdle Poisson merupakan model yang bisa dimaksimumkan secara terpisah sehingga lebih mudah dalam penggunaaan dan interpretasinya (Cantoni dan Zedini, 2010). Model Hurdle Poisson adalah model untuk data cacahan (count) dengan menggunakan dua bagian pendekatan (two part model). Bagian pertama adalah model untuk data biner bernilai nol atau positif. Data bernilai positif lebih dari nol adalah bagian kedua dengan Truncated model (Kassahun, 2014). Metode Hurdle ini bisa menyajikan pemodelan untuk menentukan keputusan partisipasi (partitipation decision) dan keputusan level konsumsi (level consumption decision) dalam dua proses stokastik yang terpisah. 2. Tinjauan Pustaka 2.1. Regresi Poisson Model Regresi Poisson dengan fungsi hubung (link function) untuk fitting model (Agresti, 2002): log ππ = ππ = π₯ππ π½
(2.1)
Sehingga biasa disebut model Loglinear dengan bentuk persamaan sebagai berikut: ππ = exp π½0 + π₯1 π½1 + π₯2 π½2 + β― + π₯π π½π
(2.2)
2
Model regresi Poisson memiliki nilai rata-rata dan varians sama, begitu juga dengan dengan nilai πΈ π¦π = π π¦π = ππ . 2.2. Hurdle Poisson Misalkan ππ adalah variabel respon dengan data cacahan untuk i=1,2,...,n. ππ dan ππ adalah vektor kovariat dari variabel prediktor. πΆ adalah parameter koefisien regresi dari model logit dan π· adalah parameter koefisien regresi dari model Truncated Poisson. Fungsi hubung untuk pemodelan variabel respon bernilai 0 menggunakan fungsi hubung untuk binomial yaitu logit link: π logit 1βππ = π§π β² πΌ (2.3) π
Fungsi hubung untuk pemodelan variabel respon bernilai positif menggunakan fungsi hubung log : log ππ = π₯πβ² π½ (2.4) Model peluang Hurdle Poisson yang terbentuk dari kombinasi logit untuk observasi bernilai 0 dan Truncated Poisson untuk observasi bernilai positif adalah (Cantoni dan Zedini, 2010): 1
π ππ = π¦π =
, ππππ π¦π = 0
1+exp β‘ (π§ π β² πΌ) exp π§ π β² πΌ 1+exp π§ π β² πΌ
[exp (π₯ πβ² π½ )]π¦ π exp (exp β‘π₯ πβ² π½)
β1 π¦ π !
, ππππ π¦π > 0
(2.5)
Metode penaksiran yang digunakan dalam metode Hurdle Poisson ini adalah maximum likelihood estimation (MLE) dengan menggunakan algoritma Fisher Scoring. Fungsi likelihood dari model Hurdle Poisson diatas adalah : πΏ πΌ, π½ =
1 0 1+exp π§ β² πΌ π
π¦ π >0
exp π§ π β² πΌ 1+exp π§ π
β²πΌ
[exp (π₯ πβ² π½ )]π¦ π exp (exp β‘π₯ πβ² π½) β1 π¦ π !
(2.6)
2.3. Uji Kelayakan Model Pengujian kelayakan model dapat dilakukan dengan menggunakan uji Likelihood Ratio (LR) Test (Long dan Freese, 2001). Hipotesis yang akan diuji adalah sebagai berikut: H0 : π½0 = π½1 = π½2 = β― = π½π = β― = 0 ( p adalah banyaknya variabel prediktor) H1 : Paling sedikit ada satu π½π β 0 (j = 1,2,..,p) Likelihood Ratio (LR) Test dapat dituliskan dalam bentuk: πΊ 2 = β2 ln dimana
πΏ(Ξ© 0 ) πΏ(Ξ©)
(2.7)
merupakan himpunan parameter di bawah populasi (model penuh) dan Ξ©0 model
parameter dibawah H0 (himpunan parameter jika H0 benar). Kriteria pengujian adalah tolak H0 jika πΊ 2 β₯ ππΌ2 ,ππ dengan ο‘ adalah tingkat signifikansi dan db adalah derajat bebas dengan nilai sama dengan perbedaan dimensi parameter Ξ©0 dan Ξ©.
3
Pemilihan model terbaik dapat menggunakan Statistik Vuong dengan membandingkan model Hurdle Poisson dengan Poisson. Hipotesis yang digunakan sebagai berikut: H0 : π = 0 (tidak ada perbaikan yang diberikan Hurdle Poisson terhadap Poisson) H1 : π > 0 (ada perbaikan yang diberikan Hurdle Poisson terhadap Poisson) Statistik Voung dapat dirumuskan sebagai berikut (Vuong, 1989): π=
ππ , ππ
(2.8)
dengan : 1 π= π
π
πππ π=1
ππ»ππππ π ππ π¦π π₯π
dan ππ =
πππππ π ππ π¦π π₯π
1 π
π
πππ π=1
ππ»ππππ π ππ π¦π π₯π πππππ π ππ π¦π π₯π
2
βπ
.
Dimana ππ»ππππ π ππ π¦π π₯π dan πππππ π ππ π¦π π₯π adalah prediksi peluang dari π¦π pada nilai π₯π untuk masing-masing model Hurdle Poisson dan Poisson. Kriteria pengujian untuk statistik Vuong mengikuti distribusi normal standar (untuk sampel besar), yaitu tolak H0 jika ππΌ β€ π, dimana ππΌ merupakan titik kritis dengan tingkat siginifikansi πΌ. 2.4. Uji Parameter Model Pengujian parameter parsial untuk masing-masing bagian logit dan Truncated Poisson digunakan untuk menguji masing-masing parameter dengan hipotesis sebagai berikut: 1. Hipotesis untuk bagian logit H0 : πΌπ = 0 H1 : πΌπ β 0 π = 1,2, . . , π p adalah banyaknya variabel prediktor. 2. Hipotesis untuk bagian Truncated Poisson H0 : π½π = 0 H1 : π½π β 0 π = 1,2, . . , π p adalah banyaknya variabel prediktor. Statistik uji yang digunakan adalah statistik uji Wald (Agresti, 2002) : 1. Untuk bagian logit π=
πΌπ ππΈ(πΌπ )
(2.9)
2. Untuk bagian Truncated Poisson π=
π½π ππΈ(π½π )
(2.10)
4
Kriteria pengujian tolak H0 jika ππ > ππΌ 2 atau p-value < πΌ, dengan πΌ adalah tingkat signifikansi dan SE adalah standard error. Sampel besar mengikuti sebaran normal, maka kriteria pengujian dibandingkan dengan tabel normal Z. 2.5. Telaah Kritis Model Hurdle pertama kali diperkenalkan oleh Mullahy tahun 1986 (Winklemann, 2008). Beberapa penelitian menggunakan model Hurdle Poisson diantaranya Zorn (1996) mengevaluasi spesifikasi Zero Inflated dan Hurdle Poisson, Greene (2005) membandingkan Zero Inflated dan Hurdle model sebagai two part model, Safari, Adnan, dan Greene (2012) melakukan estimasi parameter mengenai model Hurdle Poisson dengan censored data. Model Hurdle Poisson diaplikasikan pada penelitian frekuensi migrasi oleh Bohara dan Krieg (1996), Shonkwiller dan Shaw (1996) membahas tentang analisis permintaan rekreasi disuatu tempat, Reum dan Haris (2006) menggunakan metode Hurdle Poisson untuk meneliti banyak daerah yang tidak memiliki industri manufaktur. Hasil penelitian Khanal, Adhikari, dan Kharki, 2013 menyebutkan bahwa laki-laki di Nepal yang tidak bersekolah, berusia 36-49 tahun, sudah menikah, dengan pekerjaan manual lebih senang untuk mengkonsumsi tembakau. Laki-laki yang menonton televisi paling sedikit satu kali dalam seminggu kurang senang mengkonsumsi tembakau. Hasil studi Harahap, 2003 menyebutkan bahwa faktor yang mempengaruhi besarnya jumlah konsumsi rokok berbeda dengan faktor-faktor yang mempengaruhi partisipasi merokok. Dua variabel ekonomi, harga rokok dan pendapatan memiliki hubungan yang signifikan dengan besamya jumlah konsumsi rokok, dimana harga rokok berpengaruh negatif dan pendapatan berpengaruh positif. Variabel-variabel sosiodemografi sebagai proksi selera yang secara signifikan memiliki hubungan dengan jumlah konsumsi rokok adalah umur, pendidikan, jenis kelamin dan status perkawinan. Wilayah dan daerah tempat tinggal juga memiliki hubungan yang signifikan dengan besamya jurnlah konsumsi rokok. 3. Metodologi 3.1. Variabel yang digunakan Data yang digunakan dalam penelitian ini adalah data hasil Survei Sosial Ekonomi Nasional Modul Sosial Budaya dan Pendidikan Tahun 2012 di Provinsi Kalimantan Tengah. Variabel yang digunakan dalam penelitian ini adalah: Variabel Respon Y
Keterangan Konsumsi rokok dalam batang per hari
X1
Pendidikan tertinggi yang ditamatkan
X2
Jenis Kelamin
X3
Klasifikasi Wilayah
X4
Status Perkawinan
X5
Pekerjaan
X6 X7
Umur Pendapatan per kapita sebulan
Prediktor
Kategori 1 SLTP Kebawah 0 SLTA Keatas 1 Laki-laki 0 Perempuan 1 Perdesaan 0 Perkotaan 1 Kawin atau Pernah Kawin 0 Belum Kawin 1 Informal 0 Lainnya -
5
3.2. Langkah-langkah Penelitian Langkah-langkah yang dilakukan dalam penelitian : 1. Melakukan analisis deskriptif variabel penelitian. 2. Melakukan analisis dan penaksiran parameter dengan Regresi Poisson. 3. Melakukan analisis hurdle poisson sebagai berikut: a. Penaksiran Parameter menggunakan metode Fisher Scoring dengan menggunakan derivatif pertama dari fungsi log likelihood untuk matriks vektor skor (V) dan matriks informasi yang merupakan nilai harapan dari matriks hessian (H) dengan tahapan sebagai berikut (Hajarisman, 2013): i. Menentukan nilai taksiran awal dari parameter π(0) = πΆ(0) , π·(0) . ii. Menghitung matriks vektor skor (V) yang merupakan derivatif pertama dari fungsi log likelihood dari parameter ο‘ dan ο’. iii. Menghitung matriks informasi (I) yang merupakan nilai harapan dari matriks hessian (H). Matriks (H) merupakan derivatif kedua dari fungsi log likelihood. iv. Memasukkan nilai π(0) ke dalam elemen-elemen vektor V dan matrik I sehingga diperoleh vektor π (0) dan matrik π(0) . β1
Menghitung nilai invers matriks π (0) atau π 0 dengan persamaan iterasi (π‘+1) π‘ π‘ β1 (π‘) π = π + [π ] π . vi. Iterasi dilakukan mulai dari t=0 dan selesai jika selisih iterasi sudah sangat kecil, dengan kriteria π(π‘+1) β π(π‘) < π, dimana nilai c = 0,0001. b. Melakukan pengujian kelayakan model. c. Melakukan pengujian parameter. v.
4. Hasil dan Pembahasan Sampel yang digunakan dalam penelitian ini sebanyak 4.309 individu dibatasi untuk individu remaja dan dewasa berusia 15 tahun keatas hasil Survei Sosial Ekonomi Nasional (Susenas) MSBP triwulan III tahun 2012. Berdasarkan tabel 4.1 yang menyajikan statistik deskriptif dari variabel-variabel yang digunakan dalam penelitian ini ditunjukkan bahwa variabel prediktor Pendidikan (X1), Jenis Kelamin (X2), Wilayah (X3), Status Perkawinan (X4), dan Pekerjaan (X5) merupakan data biner/kategorik sehingga statistik deskriptifnya disajikan dalam data proporsi. Tabel 4.1 Statistik Deskriptif Variabel-variabel dalam Penelitian Variabel Y X1 X2 X3 X4 X5 X6 X7
Observasi 4.309 4.309 4.309 4.309 4.309 4.309 4.309 4.309
Mean 3,86 0,72 0,51 0,66 0,80 0,43 37,43 779.072
Standard Error 7,53 0,45 0,50 0,47 0,40 0,50 15,15 581.987,90
Minimum Maksimum 0 70 0 1 0 1 0 1 0 1 0 1 15 98 133.772 8.308.263 6
Jumlah rokok yang dikonsumsi oleh individu paling banyak adalah 70 batang per hari. Proporsi individu dengan pendidikan SLTP kebawah adalah 0,72, proporsi individu laki-laki sebesar 0,51dan proporsi individu perempuan sebesar 0,49. Proporsi individu yang tinggal di perdesaan adalah 0,66 dan sisanya sebanyak 0,34 tinggal di perkotaan. Proporsi individu yang sudah dan pernah kawin adalah 0,80. Proporsi individu yang bekerja di sektor informal sebesar 0,43. Rata-rata umur individu yang masuk dalam sampel adalah 37,43 tahun dan ratarata pendapatan individu perkapita sebulan yang masuk dalam sampel adalah 779.072 rupiah. Hasil pemodelan dengan Regresi Poisson menunjukkan bahwa seluruh variabel prediktor secara signifikan berpengaruh terhadap konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Klasifikasi Wilayah (X3), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Bentuk persamaan regresi Poisson sebagai berikut : ππ = exp β2,228 + 0,234π₯1 + 3,501π₯2 + 0,117π₯3 + 0,759π₯4 + 0,12π₯5 β 0,009π₯6 + 0,000π₯7
(4.1)
Tabel 4.2 Hasil Estimasi Parameter Model Regresi Poisson Koefisien ο’0 ο’1 ο’2 ο’3 ο’4 ο’5 ο’6 ο’7
Estimasi -2,228 0,234 3,501 0,117 0,759 0,120 -0,009 1,944.10-7
Standar error 0,544 0,019 0,046 0,018 0,026 0,017 0,001 1,104.10-8
Nilai Z -40,98 12,11 76,28 6,36 29,51 7,20 -14,49 17,61
p-Value < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001
Sig (ο‘) 5% 5% 5% 5% 5% 5% 5% 5%
Pengujian kelayakan model untuk model Hurdle Poisson dengan menggunakan uji serentak likelihood ratio test menunjukkan nilai G2 sebesar 1.861,3. Nilai G2 ini lebih besar 2 jika dibandingkan dengan π(0,05;16) = 26,296 sehingga Ho ditolak, yang berarti paling sedikit satu variabel prediktor yang mempengaruhi konsumsi rokok individu. Nilai statistik Vuong digunakan untuk membandingkan Hurdle Poisson dengan Regresi Poisson menunjukkan nilai 30,583. Nilai ini lebih besar jika dibandingkan dengan Z(0,05)=1,645 sehingga Ho ditolak, yang berarti bahwa ada perbaikan model Hurdle Poisson terhadap model Regresi Poisson. Tabel 4.3 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Logit Koefisien ο’0 ο’1 ο’2 ο’3 ο’4 ο’5 ο’6 ο’7
Estimasi -5,083 0,274 4,154 0,173 1,285 0,256 -0,016 1,990.10-7
Standar Error 0,227 0,102 0,167 0,097 0,130 0,090 0,004 7,545.10-8
Nilai Z -22,42 2,68 24,94 1,77 9,89 2,84 -4,46 2,64
p-Value <0,0001 0,0073 <0,0001 0,0764 <0,0001 0,0045 <0,0001 0,0084
Sig (a) 5% 5% 5% 10% 5% 5% 5% 5% 7
Pemodelan dengan menggunakan Hurdle Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok untuk bagian logit dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Variabel klasifikasi wilayah (X3) siginifikan pada ο‘=10%. Model persamaan bagian logit ini dapat dikatakan sebagai persamaan keputusan partisipasi konsumsi rokok atau kecenderungan seseorang untuk merokok atau tidak dengan bentuk sebagai berikut: πππππ‘
ππ 1βπ π
= β5,083 β 0,274π₯1 + 4,154π₯2 + 1,285π₯4 + 0,256π₯5 β 0,016π₯6 + 0,000π₯7
(4.2)
Interpretasi pengaruh variabel-variabel prediktor pada model bagian logit adalah sebagai berikut: 1. Kecenderungan individu berpendidikan SLTP kebawah untuk merokok adalah exp(0,274)=1,315 kali dibandingkan individu berpendidikan SLTA keatas. 2. Kecenderungan individu laki-laki untuk merokok adalah exp(4,154)=63,68 kali dibanding perempuan. 3. Kecenderungan individu berstatus kawin atau pernah kawin untuk merokok adalah exp(1,285)=3,615 kali dibanding yang belum kawin. 4. Kecenderungan individu yang bekerja di sektor informal untuk merokok adalah exp(0,256)=1,291 kali dibandingkan sektor lainnya atau tidak bekerja. 5. Kecenderungan individu berumur 15 tahun (remaja) untuk merokok adalah exp(0,016*15)=0,791 kali dibandingkan individu berumur 30 tahun (dewasa). 6. Kecenderungan individu berpendapatan 277.000 rupiah untuk merokok adalah exp(0,000)=1 kali dibandingkan individu berpendapatan 277.407 rupiah, yang berarti bahwa penduduk dengan pendapatan berapapun memiliki kecenderungan yang sama dalam merokok dengan nilai koefisien parameter sebesar 0,000. Nilai 277.407 merupakan garis kemiskinan Kalimantan Tengah pada September 2012. Tabel 4.4 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Truncated Poisson Koefisien
Estimasi
Standar Error
Nilai Z
p-Value
Sig (ο‘)
ο’0
2,299
0,057
40,63
<0,0001
5%
ο’1
0,107
0,019
5,60
<0,0001
5%
ο’2
0,182
0,046
3,97
0,0001
5%
ο’3
0,028
0,018
1,55
0,1216
-
ο’4
0,059
0,025
2,39
0,0170
5%
ο’5
0,012
0,016
0,73
0,4642
-
ο’6
-0,002
0,001
-3,13
0,0017
5%
ο’7
-7
-8
10,68
<0,0001
5%
1,366.10
1,280.10
Pemodelan Hurdle Poisson bagian Truncated Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Umur (X6), dan
8
Pendapatan per kapita (X7). Bentuk persamaan bagian Truncated Poisson adalah sebagai berikut: ππ = expβ‘ (2,299 + 0,107π₯1 + 0,182π₯2 + 0,059π₯4 β 0,002π₯6 + 0,000π₯7 )
(4.3)
Pengaruh dari variabel-variabel prediktor yang signifikan pada bagian Truncated Poisson dapat diinterpretasikan sebagai berikut: 1. Setiap penambahan satu individu dengan tingkat pendidikan SLTP kebawah (X1=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,107)=1-2 batang/hari, jika variabel lain dalam keadaan konstan. 2. Setiap penambahan satu individu laki-laki (X2=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,182)=1-2 batang/hari, jika variabel lain dalam keadaan konstan. 3. Setiap penambahan satu individu berstatus kawin atau pernah kawin (X4=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,059)=1-2 batang/hari, jika variabel lain dalam keadaan konstan. 4. Setiap penambahan satu tahun umur individu (X6=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(-0,002)=1 batang/hari, jika variabel lain dalam keadaan konstan. 5. Setiap penambahan satu rupiah pendapatan perkapita individu (X7=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,000)=1 batang/hari, jika variabel lain dalam keadaan konstan. 5. Kesimpulan Hasil pengujian dengan statistik Vuong menunjukkan bahwa model Hurdle Poisson memberikan perbaikan terhadap model regresi Poisson. Model Hurdle Poisson merupakan salah satu alternatif yang dapat digunakan untuk memodelkan data cacahan (count) dengan excess zero pada data konsumsi rokok dalam batang/hari. Hasil pengujian kelayakan model menyatakan model sudah fit dengan variabel yang berpengaruh secara signifikan terhadap konsumsi rokok adalah variabel pendidikan, jenis kelamin, status perkawinan, pekerjaan, umur, dan pendapatan perkapita sebulan yang ditunjukkan pada bagian model logit dan pendidikan, jenis kelamin, status perkawinan, umur, dan pendapatan perkapita sebulan pada bagian model Truncated Poisson. Penelitian ini belum memperhatikan adanya pencilan (outlier) dalam pemodelan. Perlu dilakukan pemodelan Hurdle Poisson yang mempertimbangkan adanya pencilan dengan metode robust. 6. Daftar Pustaka Agresti, A. 2002. Categorical Data Analysis, Second Edition. New Jersey: John Willey & Sons. Badan Pusat Statistik. 2012. Susenas Modul Sosial Budaya Pendidikan. Jakarta: BPS. Badan Pusat Statistik. 2013. Profil Kemiskinan Provinsi Kalimantan Tengah September 2012. Berita Resmi Statistik Kalimantan Tengah. No.07/01/62/Th.VII. Bohara, A.K. dan Krieg, R.G. 1996. A Poisson Hurdle Model of Migration Frequency. Journal of Regional Analysis and Policy:37-45. Cantoni, E. dan Zedini, A. 2010. A Robust Version of the Hurdle Model. Journal of Statistical Planning and Inference. Vol.141(3):1214-1223.
9
Greene, W. 2005. Functional Form and Heterogenity in Model for Count Data. Foundation and Trends in Economic. Vol.1, No.2:113-218. Hajarisman, N. 2013. Fitting Generalized Linear Model. Lecture 13; Stat 544. Harahap, A.M. 2003. Faktor-faktor yang Mempengaruhi Besarnya Konsumsi Rokok Individu: Model Sampel Selection. Thesis Program Magister Ekonomi, Universitas Indonesia, Jakarta. Kassahun, W., Neyens, T., Molenberghs, G., Faes, C., dan Verbeke, G. 2014. Marginalized Multilevel Hurdle and Zero Inflated Models for Overdispersed and Correlated Count Data with Excess Zeros. Statistics in Medicine, revised, and resubmitted, Diepenbeek. Kemenkes. 2013. Laporan Riset Kesehatan Dasar 2013. BPPK Kemenkes RI, Jakarta. Khanal, V., Adhikari, M. dan Karki, S. 2013. Social Determinant of Tobacco Consumption Among Nepalese Men: Findings From Nepal Demographic and Health Survey 2011. Harm Reduction Journal, 10:40. Long, J.C. dan Freese, J. 2001. Regression Model for Categorical Dependent Variables Using Stata. Stata Corporation;Texas. Miranda, A. 2010. A Double Hurdle Count Model for Completed Fertility Data From the Developing World. Department of Quantitative Social Science Working Paper No. 10101, London. Parwoto. 2012. Regresi Multilevel Zero Inflated Poisson untuk Pemodelan Data Respon Count (Studi Kasus Kejadian Kematian Bayi di Jawa Barat). Thesis Program Magister Statistika Terapan, Universitas Padjajaran, Bandung. Reum, A.D. dan Harris, T. R. 2006. Exploring Firm Location Beyond Simple Growth Models: A Double Hurdle Application. Journal of Regional Analysis & Policy. JRAP 36(1):45-67. Ridout, M., Demetrio, C. G. B. dan Hinde, J. 1998. Models for Count Data with Many Zero. International Biometric Conference, Cape Town. Saffari, S. E., Adnan, R. dan Greene, W. 2012. Parameter Estimation On Hurdle Poisson Regression Model With Censored Data. Jurnal Teknologi, 57 (Science & Engineering). March:189-198. Shonkwiller, J. S. dan Shaw, W. D. 1996. Hurdle Count Data Models in Recreation Demand Analysis. Journal of Agricultural and Resource Economics. 21(2):210-219. Vuong, Q.H. 1989. Likelihood Ratio Test and Non-Nested Hypotheses. Econometrica. Volume 57 ; 307-333. Winklemann, R dan Zimmermann, K. F. 1995. Recent Developments in Count Data Modelling:Theory and Applications. Journal of Economics Survey 9:1-24. Winklemann, R. 2008. Econometric Analysis of Count Data, Fifth Edition. Berlin Heidelberg: Springer. Zorn, Christopher J.W. 1996. Evaluating Zero Inflated and Hurdle Poisson Specifications. Midwest Political Science Assosiation. Ohio State University.
10