METODE SCAN STATISTIC UNTUK STATISTIK AREA KECIL (Studi kasus: Model Poisson-Gamma)
ANDI SETIAWAN
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2009
RINGKASAN ANDI SETIAWAN. Metode Scan Statistic untuk Statistik Area Kecil (Studi kasus : Model Poisson-Gamma). Dibimbing oleh KHAIRIL ANWAR NOTODIPUTRO dan ANANG KURNIA. Metode Scan Statistic adalah metode untuk menemukan sebuah hotspot terhadap kasus tertentu. Pada dasarnya metode ini menggunakan data populasi, sehingga muncul permasalahan ketika data populasi tersebut tidak tersedia. Pertanyaan pada penelitian ini adalah apakah metode Scan Statistic memiliki akurasi yang tinggi jika menggunakan data contoh. Kajian simulasi dari berbagai kondisi data, yaitu ragam besar dan kecil antar area serta berbagai ukuran contoh dilakukan untuk menjawab pertanyaan tersebut. Penerapan pendugaan area kecil dilakukan khususnya pada pendugaan parameter resiko relatif suatu area terhadap kasus tertentu. Hasil penelitian menunjukkan bahwa penerapan metode Scan Statistic pada data contoh masih memberikan tingkat akurasi yang rendah yaitu dibawah 50 % untuk ukuran contoh 40. Penerapan pendugaan area kecil belum mampu memperbaiki pendugaan hotspot, namun dapat mengurangi galat pendugaan parameter resiko relatif dari setiap area kecil. Kata kunci : Metode Scan Statistic, hotspot ,Pendugaan Area Kecil, Model Poisson-gamma
METODE SCAN STATISTIC UNTUK STATISTIK AREA KECIL (Studi kasus: Model Poisson-Gamma)
Oleh: ANDI SETIAWAN G14050310
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2009
Judul
: Metode Scan Statistic untuk Statistik Area Kecil (Studi kasus: Model Poisson-Gamma) Nama : Andi Setiawan NRP : G14050310
Menyetujui :
Pembimbing I
Pembimbing II
Prof. Dr. Ir. Khairil Anwar Notodiputro NIP. 195604041980111002
Anang Kurnia, S.Si, M.Si NIP. 197308241997021001
Mengetahui : Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Drh. Hasim, DEA NIP. 196103281986011002
Tanggal Lulus :
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 24 Maret 1987 dari pasangan Tjoa Un Kian dan Lim Siu Lie. Penulis adalah putra kedua dari dua bersaudara. Penulis menyelesaikan pendidikan dasar di SDN 08 Cilincing pada tahun 1999, kemudian menyelesaikan pendidikan menengah di SLTPN 244 Jakarta pada tahun 2002 dan SMAN 73 Jakarta pada tahun 2005, pada tahun yang sama penulis diterima di Institut Pertanian Bogor melalui jalur USMI dengan sistem Mayor Minor. Setelah satu tahun menjalani perkuliahan di TPB , pada tahun 2006 penulis diterima di Departemen Statistika IPB dengan mayor statistika dan minor managemen fungsional. Selama mengikuti perkuliahan penulis aktif dalam Keluarga Mahasiswa Buddhis IPB dan pada tahun 2008 penulis menjadi kepala departemen science Himpunan Keprofesisan Gamma Sigma Beta. Penulis melaksanakan kegiatan praktek lapang di PT.Astra International , Tbk-AstraWorld pada bulan Februari – April 2009.
KATA PENGANTAR Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas limpahan karuniaNya sehingga penulis dapat menyelesaikan karya ilmiah ini dengan judul “Metode Scan Statistic Untuk Statistik Area Kecil (Studi Kasus: Model Poisson-Gamma)”. Karya ilmiah ini adalah salah satu syarat kelulusan yang harus dipenuhi mahasiswa untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis mengucapkan terima kasih yang sebesar-besarnya kepada Bapak Prof. Dr. Ir. Khairil Anwar Notodiputro dan Bapak Anang Kurnia, S.Si, M.Si selaku pembimbing yang selalu memberikan saran, kritik, masukan, dan nasihat selama penyusunan karya ilmiah ini. Ucapan terima kasih juga penulis sampaikan kepada semua pihak yang telah membantu penyusunan karya ilmiah ini, antara lain: 1. Bapak Dr. Ir. Hari Wijayanto, MS. beserta seluruh staff pengajar Departemen Statistika yang telah memberikan ilmu serta wawasan selama penulis menuntut ilmu di Departemen Statistika IPB, Bapak Dr. Ir. I Made Sumertajaya, M.Si. selaku dosen penguji, serta kepada seluruh staff administrasi dan karyawan Departemen Statistika. 2. Mamah , Papah , dan kode serta jiih atas kasih sayang, dukungan , serta semangat yang diberikan. 3. Lani, Sigit, Indah ,3zar, Nur,, wiwid,, Angga, , Mojo, Ari, dan semua teman-teman STK 42 yang tidak dapat disebutkan satu-persatu atas dukungan serta kebersamaan selama 3 tahun . 4. Teman-teman STK 43 dan STK 44. 5. YL.Rachmat yang telah memberikan Dhamma yang sangat berharga. 6. Mba Fatma sebagai asisten Pak khairil atas bantuannya selama masa bimbingan. 7. Ko Leo, Ci ai, Ci willine, Ko Andreas, dan Ci Titin , dan semua teman-teman KMB atas kebersamaannya Akhir kata, penulis mohon maaf atas segala kekurangan dari karya ilmiah ini sehingga saran dan kritik sangat dibutuhkan bagi tulisan ini serta semoga karya ilmiah ini dapat bermanfaat.
Bogor, 22 Agustus 2009
Penulis
DAFTAR ISI Halaman DAFTAR TABEL....................................................................................................................
vii
DAFTAR GAMBAR ...............................................................................................................
vii
DAFTAR LAMPIRAN ...........................................................................................................
vii
PENDAHULUAN Latar Belakang ...................................................................................................................
1
Tujuann...............................................................................................................................
1
TINJAUAN PUSTAKA Metode Scan Statistic .........................................................................................................
1
Model Poisson-Gamma Pada Pendugaan Area Kecil……………................................. ....
2
BAHAN DAN METODE Bahan .................................................................................................................................
3
Metode ..............................................................................................................................
3
HASIL DAN PEMBAHASAN Penentuan Hotspot Pada Data Populasi..............................................................................
5
Presisi Pendugaan Proporsi pada Penarikan Contoh ..........................................................
5
Jumlah Kuadrat Galat Resiko Relatif .................................................................................
5
Evaluasi Hotspot Pada Data Contoh...................................................................................
6
KESIMPULAN DAN SARAN Kesimpulan.........................................................................................................................
6
Saran ...................................................................................................................................
6
DAFTAR PUSTAKA ..............................................................................................................
7
LAMPIRAN.............................................................................................................................
8
vii
DAFTAR TABEL Halaman 1. Kombinasi Data Simulasi ...................................................................................................
3
2. Hasil Metode Scan Statistic Pada Data Populasi ................................................................
5
3. Hasil Evaluasi Hotspot Pada Data Contoh .........................................................................
6
DAFTAR GAMBAR Halaman 1. Grafik Nilai Batas Kesalahan dari p (ragam besar antar area)............................................
5
2. Grafik Nilai Batas Kesalahan dari p (ragam kecil antar area) ............................................
5
DAFTAR LAMPIRAN Halaman 1. Nilai Resiko Relatif untuk Data Populasi...........................................................................
9
2. Sebaran Nilai Jumlah Kuadrat Galat ..................................................................................
10
3. Nilai Relatif Bias untuk Penduga Langsung ......................................................................
12
4. Nilai Relatif Bias untuk Penduga Tidak Langsung ............................................................
13
1
PENDAHULUAN Latar Belakang Metode Scan Statistic adalah sebuah metode yang digunakan untuk mengidentifikasi area yang signifikan secara statistik memiliki resiko tinggi terhadap suatu kasus, misalnya kemiskinan, pengangguran, dan penyakit. Pada dasarnya metode Scan Statistic menggunakan data populasi. Hal ini menjadi suatu masalah ketika data populasi tidak tersedia, sehingga muncul pertanyaan apakah metode Scan Statistic masih memiliki akurasi yang tinggi jika menggunakan data contoh. Keterbatasan data contoh yang dihasilkan dari sebuah survei berskala besar ditemukan jika kita akan melakukan analisis untuk level yang lebih rendah, misalnya kelurahan atau desa. Ukuran contoh yang sangat kecil akan menyebabkan presisi dan akurasi pendugaan parameter yang tidak memuaskan. Untuk melihat akurasi metode Scan Statistic jika menggunakan data contoh, dalam penelitian ini dilakukan simulasi dengan penerapan metode pendugaan area kecil. Penggabungan metode pendugaan area kecil (Small Area Estimation, SAE) dan Scan Statistic diharapkan mampu meningkatkan akurasi pendugaan. Modifikasi yang dilakukan terkait dengan statistik uji dan pembatasan window pada metode Scan Statistic. Pendugaan dengan pendekatan SAE dilakukan melalui teknik Empirical Bayes (EB) yang berdasarkan model PoissonGamma. Teknik EB digunakan untuk melakukan pendugaan resiko relatif untuk setiap area di dalam sebuah window dimana resiko relatif tersebut merupakan komponen dari statistik uji pada metode Scan Statistic. Dalam penelitian ini, metode Scan Statistic yang digunakan adalah model Poisson dan window berupa area-area kecil, dimana data yang digunakan berupa hasil simulasi dengan berbagai keragaman antar area kecil dan ukuran contoh. Tujuan Tujuan dari penelitian ini adalah : 1. Melakukan simulasi metode Scan Statistic dengan data contoh. 2. Menerapkan pendugaan area kecil yang berdasarkan model Poisson-Gamma pada metode Scan Statistic dalam penentuan hotspot ketika data yang digunakan berupa data contoh.
3. Menilai kinerja pendugaan area kecil yang berdasarkan model Poisson-Gamma dalam penentuan hotspot dengan metode Scan Statistic.
TINJAUAN PUSTAKA Metode Scan Statistic Metode Scan Statistic adalah suatu metode statistika untuk mendeteksi gerombol (hotspot) dalam suatu wilayah yang signifikan secara statistik terhadap resiko kasus tertentu. Hotspot sendiri adalah sebagai sesuatu yang tidak biasa, anomali, penyimpangan, perjangkitan suatu penyakit, gerombol yang tinggi, dan sebagainya (Patil & Taillie, 2004). Gerombol-gerombol dari hotspot dibangkitkan dengan aturan bahwa area dalam gerombol tersebut memiliki resiko relatif yang lebih tinggi dibanding yang lainnya (Song & Kulldorff, 2003) Suatu wilayah R dalam ruang Euclid yang menjadi pusat perhatian dibagi menjadi sel-sel (dinotasikan dengan A). Data tersedia dalam bentuk jumlah untuk setiap sel A (Patil & Taillie, 2004). Metode Scan Statistic bekerja berdasarkan window, dimana untuk setiap window dihitung resiko relatif (RR) , yang didefinisikan sebagai berikut (Kulldorff, 2006): RR = n(Z) / E(c)
(1)
dengan n(Z) adalah jumlah kasus dan E(c) adalah nilai harapan dari jumlah kasus pada sebuah lokasi yang didefinisikan sebagai berikut : E(c) = p (C/P)
(2)
dengan p adalah jumlah populasi dalam gerombol yang terkait, sedangkan C dan P adalah jumlah kasus dan total populasi untuk keseluruhan wilayah yang menjadi pusat perhatian. Jika N dinotasikan sebagai proses titik spasial dimana N(A) adalah angka acak dari titik-titik dalam himpunan sel-sel A R. Dalam model Poisson, ada satu gerombol Z R sehingga N(A) ~ Poi(pµ(A ∩ Z) + qµ(A ∩ Zc)) A, dimana gerombol Z dapat terdiri dari beberapa sel (A) . Hipotesis dalam model Poisson pada metode Scan Statistic adalah H0 : p = q dan H1 : p > q dengan p adalah resiko relatif di dalam sebuah gerombol dan q
2
adalah resiko relatif di luar gerombol tersebut . Jika H0 benar maka N(A)~ Poi(pµ(A)) A. Rasio kemungkinan (likelihood ratio) dibutuhkan untuk mendapatkan statistik uji dimana statistik uji yang digunakan adalah nilai logaritma dari rasio kemungkinan tersebut. Fungsi kemungkinan maksimum ketika p = nz / µ(Z) dan q = nR - nz/ (µ(R)µ(Z)) yang dinyatakan pada persamaan 3 (Kulldorff,1997). Sedangkan statistik uji λ dari uji rasio kemungkinan dinyatakan pada persamaan (4). nz Dengan p = adalah resiko relatif (Z ) terhadap kasus untuk gerombol Z dan q = n n R z adalah resiko relatif di luar ( R) ( Z ) gerombol Z. Pengujian hipotesis pada metode Scan Statistic menggunakan metode Monte Carlo untuk menentukan sebaran dari statistik uji. Pvalue diperoleh melalui uji hipotesis Monte Carlo dengan membandingkan peringkat dari statistik uji pada data yang sebenarnya dengan statistik uji dari data acak. Model Poisson-Gamma Pada Pendugaan Area Kecil Suatu area dikatakan kecil jika contoh yang diambil pada area tersebut tidak
e nR n z n R ! (Z )
nZ
n n R z ( R ) ( Z )
mencukupi untuk melakukan pendugaan langsung dengan hasil yang akurat (Rao, 2003). Pendugaan area kecil adalah suatu teknik statistika untuk menduga parameter pada area kecil dengan presisi dan akurasi yang tinggi (Kurnia & Notodiputro, 2008). Pendugaan pada area kecil dapat dilakukan dengan pendugaan langsung (direct estimator) dan pendugaan tidak langsung (indirect estimator). Penduga langsung adalah penduga yang hanya berdasarkan data contoh dari domainnya sendiri sedangkan proses pendugaan tidak langsung adalah pendugaan pada suatu domain dengan cara menghubungkan informasi pada area tersebut dengan area yang lainnya dengan model yang tepat (Kurnia & Notodiputro, 2006). Model Poisson-Gamma adalah model untuk data jumlah {yi}yang terdiri dari dua tahap, yaitu (Rao, 2003): iid
1. yi ~ Poisson(eiθi), i = 1,…,m iid
2. θi ~ Gamma (v,α) untuk v > 0 dan α >0 dengan yi adalah banyaknya pengamatan pada suatu kasus pada area ke-i, ei adalah nilai harapan banyaknya kasus pada area ke – i, θi adalah resiko relatif area ke-i terhadap kasus tertentu,
n R nZ
xi ( x i )
n nR nz ; jika z > (Z ) ( R) ( Z )
L(Z)=
e nR n R n R ! (R)
nR
xi ( x i ) ;
selainnya
(3)
sup L( Z ) λ=
=
z
e n R nR nR ! ( R)
sup
nR
nz (Z )
xi ( xi ) nZ
nR ( R)
z
1;
n n R z ( R) ( Z )
Lainnya
nR
n R nZ
n n n ; jika z > R z (Z ) ( R) ( Z )
(4)
3
m menyatakan banyaknya area, v dan α menyatakan parameter prior yang belum diketahui. Fungsi kepekatan peluang dari θi adalah sebagai berikut f(θi| α, v) =
v i v 1 e i (v )
(5)
dan E(θi) = v/α = µ , Var (θi) = v/α2
(6)
Berdasarkan hal di atas maka sebaran posterior bagi θi yaitu θi|yi, v, α ind ~ Gamma(yi + v, ei + α) dimana penduga Bayes bagi θi dan ragam posterior bagi θi diperoleh dari (6) dengan menganti α dengan ei + α dan v dengan yi + v , sehingga (Rao, 2003):
ˆiB ( , v) E ( i | y i , v, ) (y i v)/(e i )
(7)
dan
Var ( i ) g1i ( , v, y i ) ( y i v) /(ei ) 2
(8)
Penduga Bayes yang diperoleh membutuhkan informasi mengenai parameter prior namun informasi tersebut belum diketahui, sehingga untuk mengatasi hal ini dilakukan dengan pendekatan EB, yaitu pendekatan yang dilakukan dengan menduga parameter prior berdasarkan datanya. Marshall (1991) menggunakan penduga momen sederhana untuk memperoleh dugaan parameter prior dengan menyamakan rataan contoh terboboti
1 ˆe. i (ei / e.)ˆi m dan ragam contoh terboboti
(9)
1 2 (10) i (ei / e.)(ˆi e. ) m dengan nilai harapan masing-masing, sehingga persamaan momen yang diperoleh untuk mendapatkan penduga bagi parameter prior ˆ dan vˆ adalah sebagai berikut vˆ ˆ (11) e. ˆ dan ˆ vˆ s e2 e. (12) e. ˆ 2 s e2
dengan
e.
=
i (e i / m )
dan
ei
=
ni y i n i . Kemudian substitusikan i i penduga momen ˆ dan vˆ ke dalam (7) untuk memperoleh penduga EB bagi θi, yaitu : iEB ˆiB ( ˆ , vˆ) (13) ˆ ˆ (1 ˆ )ˆ i i
i
e.
dengan ˆi = e i /(ei ˆ ) , ˆi y i / ei adalah penduga langsung bagi θ (resiko relatif) , dan
ˆe. adalah penduga sintetik (Rao 2003). BAHAN DAN METODE Bahan Penelitian ini menggunakan data simulasi dengan 30 area kecil. Data yang dibangkitkan terdiri dari berbagai keragaman antar area kecil dan ukuran contoh. Data populasi terdiri dari area-area kecil dimana untuk setiap area memiliki parameter tertentu. Pembangkitan data populasi dilakukan dengan menggunakan pendekatan sebaran Bernoulli dengan parameter p yang kecil sehingga akan mendekati sebaran Poisson. dengan keragaman yang berbedabeda. Simulasi yang terdiri dari berbagai keragaman antar area dan ukuran contoh yang terperinci pada Tabel 1. Tabel 1 Kombinasi keragaman data simulasi Var(p)
n 10
Kecil ( p ~ Uniform (0.1 ; 0.3) )
20 30 40 10
Besar
20
( p ~ Uniform (0.1 ; 0.5) )
30 40
Metode I. Modifikasi Scan Statistic dengan Model Poisson-Gamma Modifikasi yang dilakukan pada Scan Statistic dilakukan secara khusus pada staitistik uji λ yang dinyatakan pada (4),
4
n dimana p = z adalah resiko relatif (Z ) terhadap kasus untuk gerombol Z dan q = n n R z adalah resiko relatif di ( R) ( Z ) luar gerombol Z. Dalam modifikasi ini gerombol pada metode Scan Statistic diangap sebagai sebuah area kecil. Berdasarkan konsep model PoissonGamma pada pendugaan area kecil p adalah penduga langsung bagi resiko relatif di dalam gerombol . Jika dikombinasikan antara metode Scan Statistic dan model Poisson-Gamma pada pendugaan area kecil maka diperoleh pi= j i y j , i = 1,…m ˆi y i / ei dan qi = e i dengan ei adalah nilai harapan banyaknya kasus pada area atau gerombol ke-i sedangkan e-i adalah nilai harapan banyaknya kasus diluar area atau gerombol ke –i. Berdasarkan kombinasi di atas maka statistik uji λ pada metode Scan Statistic untuk setiap area atau gerombol, yaitu :
2. 3. 4.
sup Log p i yi q i j i y j ; i
λ=
jika pi > qi 0 ; lainnya
(14)
Statistik Uji λ pada (14) adalah statistik uji yang menggunakan penduga langsung ˆ . Untuk memperbaiki statistik uji λ i
digunakan penduga tidak langsung iEB melalui teknik EB yang berdasarkan model Poisson-Gamma, sehingga (14) termodifikasi menjadi : yi
jika p iEB >
qi
i
λEB =
q
sup Log p iEB
0
; lainnya
j i y j
i
;
(15)
p iEB = iEB dengan iEB adalah penduga resiko relatif dengan metode EB pada area ke-i .
dimana
II. Tahapan 1. Populasi dibangkitkan melalui pendekatan
5.
sebaran Bernoulli (p) dengan algoritma sebagai berikut : 1.1 Bangkitkan parameter p sebanyak 30, dengan menggunakan pendekatan sebaran seragam, sehingga tiap area kecil memiliki parameter pi untuk i = 1,…,30. 1.2 Bangkitkan data populasi sebanyak N=1000 dengan parameter pi untuk setiap area kecil. Hitung statistik uji λ berdasarkan persamaan 4 untuk data populasi yang dihasilkan pada langkah 1. Catat nilai t dimana t adalah area yang memuat fungsi kemungkinan yang maksimum Lakukan pengujian hipotesis Monte Carlo untuk menentukan nilai p-value dengan langkah-langkah sebagai berikut : 4.1 Bangkitkan data acak sebanyak 30 yang menyebar Poisson (s), s adalah banyaknya sukses pada area ke-t , dimana data ini menunjukkan kejadian sukses untuk setiap area. 4.2 Hitung statistik uji λmc berdasarkan persamaan 4 sesuai data yang dibangkitkan pada langkah 4.1 (data kejadian sukses) 4.3 Ulangi langkah 4.1 dan 4.2 sebanyak 999 kali, sehingga terdapat λmc sebanyak 999. 4.4Urutkan Statistik Uji dari data yang sebenarnya(λ) dan data acak (λmc ) dari yang tertinggi, dan hitung peringkat (R) dari statistik uji yang menggunakan data real (λ). Sehingga P-value = R/(1000). Ambil contoh acak sebanyak n dan periksa Presisi dari pendugaan proporsi (p) dengan menghitung nilai batas kesalahan (B). B= 2
V ( pˆ ) = 2
pq ( N n) n( N 1)
6. Catat berapa nilai yi (banyaknya kejadian sukses) untuk setiap area kecil pada data contoh. 7. Lakukan langkah 2 sampai 4 untuk data contoh yang dihasilkan pada langkah 5. (langkah ini menggunakan pendugaan langsung dalam menduga resiko relatif) 8. Modifikasi Scan Statistic dengan Model Poisson-Gamma 9. Lakukan pengujian hipotesis Monte Carlo seperti langkah 4 untuk statistik uji yang dihasilkan dengan pendugaan area kecil berdasarkan data contoh pada langkah 5.
5
10. Ulangi langkah 1 sampai 8 sebanyak 1000 kali . 11. Lakukan evaluasi terhadap pendugaan resiko relatif dengan menghitung jumlah kuadrat galat. 30
JKG = ( i ˆi ) 2
Berikut adalah grafik hasil perhitungan batas kesalahan untuk setiap area dengan populasi ragam besar dan kecil antar area dengan ukuran populasi (N) adalah 1000 untuk setiap area yang tersaji masing-masing pada Gambar 1 dan Gambar 2.
i 1
12. Evaluasi kesesuaian hotspot yang dihasilkan dari data contoh dengan pendugaan langsung dan pendugaan EB terhadap hotspot yang dihasilkan dengan data populasi. 13. Lakukan langkah 1 sampai 10 untuk setiap kombinasi simulasi pada Tabel 1.
HASIL DAN PEMBAHASAN Penentuan Hotspot Pada Data Populasi Populasi yang dibangkitkan terdiri dari 2 karakteristik yaitu keragaman besar dan kecil antar area. Populasi terdiri dari 30 area kecil dengan masing-masing area memiliki ukuran (N) sebesar 1000. Pembangkitan dilakukan pada level unit dengan pendekatan sebaran Bernoulli. Hasil penentuan hotspot untuk kedua jenis populasi dengan metode Scan Statistic tersaji pada Tabel 2.
Gambar 1 Grafik nilai batas kesalahan dari p untuk setiap area pada populasi ragam besar antar area
Tabel 2 Hasil Metode Scan Statistic Pada Data Populasi Parameter Hotspot Nilai P Resiko Relatif
Ragam Antar Area Kecil Besar 17 17 0.001 1.471
0.001 1.664
Berdasarkan Tabel 2 ternyata untuk kedua tipe jenis populasi menghasilkan hotspot yang sama, yaitu pada area ke-17. Sementara itu nilai resiko relatif untuk semua area dari kedua jenis keragaman antar area dapat dilihat pada Lampiran 1. Presisi Pendugaan Proporsi pada Penarikan Contoh Penarikan contoh dilakukan dengan metode penarikan contoh acak sederhana untuk setiap area dengan ukuran contoh (n) adalah 10, 20, 30, dan 40. Dikarenakan pembangkitan populasi menggunakan pendekatan sebaran Bernoulli maka parameter yang menjadi perhatian adalah proporsi (p). Untuk melihat presisi dari pendugaan proporsi digunakan ukuran batas kesalahan (B).
Gambar 2 Grafik nilai batas kesalahan dari p untuk setiap area pada populasi ragam kecil antar area Dari kedua gambar di atas, baik dari populasi ragam besar dan kecil antar area terlihat bahwa semakin besar ukuran contoh maka nilai batas kesalahan dari p akan semakin mengecil. Sedangkan untuk pendugaan proporsi (p) dimana 0 ≤ p ≤ 1 nilai batas kesalahan dari grafik secara keseluruhan masih di atas 0.1 sehingga pendugaannya memiliki presisi yang lemah, khususnya untuk ukuran contoh 10 yang memiliki nilai batas kesalahan yang mencapai di atas 0.2. Untuk meningkatkan presisi pendugaan tentunya dapat dilakukan dengan menambahkan ukuran contoh.
6
Jumlah Kuadrat Galat Resiko Relatif Pendugaan parameter yang menjadi perhatian pada penelitian ini adalah resiko relatif di suatu area. Penggunaan pendekatan pendugaan area kecil diharapkan mampu meningkatkan akurasi dari pendugaan resiko relatif tersebut dibandingkan melakukan pendugaan langsung. Untuk mengevaluasi akurasi dari pendugaan resiko dapat dilihat dari sebaran nilai jumlah kuadrat galat (JKG) dari 1000 ulangan, Hasil sebaran JKG yang ditampilkan dalam bentuk histogram untuk setiap ukuran contoh dan kedua jenis populasi dapat dilihat pada Lampiran 2. Berdasarkan hasil yang ditampilkan pada Lampiran 2 terlihat kedua jenis populasi dan setiap ukuran contoh nilai JKG dari hasil pendugaan tidak langsung lebih kecil daripada pendugaan langsung Hal di atas mengindikasikan bahwa pendekatan pendugaan area kecil mampu meningkatkan akurasi pendugaan resiko relatif. Hasil sebaran JKG pun terlihat semakin besar ukuran contoh nilai JKG semakin mengecil yang berarti akurasi semakin meningkat dengan bertambahnya ukuran contoh. Evaluasi Hotspot pada Data Contoh Hotspot yang dihasilkan dari data contoh dengan ulangan sebanyak 1000 dievaluasi terhadap hotspot yang dihasilkan dari data populasi, yaitu area ke-17. Tingkat akurasi dapat dilihat dari persentase banyaknya hotspot yang dihasilkan dari data contoh adalah area ke-17 dari 1000 ulangan yang dapat dilihat pada Tabel 3. Tabel 3 Akurasi pendugaan hotspot Persentase Ketepatan Menduga Hotspot pada Area ke 17 Berdasarkan SAE Tidak Langsung Langsung
Populasi
n
ragam besar
10 20 30 40
13.4 20.0 29.5 31.1
1.3 6.8 17.8 26.2
ragam
10 20
7.3 11.9
1.0 2.9
kecil
30
11.2
3.3
40
14.5
5.8
Berdasarkan hasil pada Tabel 3 tingkat akurasi dalam menduga hotspot masih sangat rendah dimana persentase terbesar dalam menghasilkan hotspot area ke-17 hanya 31.1 % yaitu pada ukuran contoh 40 dan keragaman yang besar antar area. Nilai akurasi yang kecil disebabkan dalam pendugaan hotspot menjadi sebuah pendugaan yang biner serta kemungkinan disebabkan oleh area yang dibangkitkan tidak memiliki nilai ekstrem pada parameter p. Sementara itu nilai p yang dihasilkan lebih dari 5% untuk semua hotspot dari data contoh, hal ini terjadi karena statistik λ cenderung sangat kecil yang disebabkan oleh kecilnya nilai resiko relatif di luar area (q) yang kurang dari 1 dibandingkan statistik λ yang dibangkitkan melalui metode Monte Carlo. Tingkat akurasi yang masih lemah dapat diakibatkan masih biasnya pendugaan langsung resiko relatif sehingga pada akhirnya menyebabkan bias pada penduga EB, dimana ditunjukkan dengan nilai relatif bias pada Lampiran 3 dan 4. Kemudian tingkat akurasi penduga langsung dan tidak langsung dalam menduga hotspot memiliki perbedaan yang jauh. Hal tersebut dapat dijelaskan dari persamaan 13 dimana penduga tidak langsung merupakan fungsi dari penduga langsung ( ˆ ) i
dan penduga sintetik ( ˆe. ) dengan bobot ˆi dimana 0 < ˆi < 1. Sedangkan nilai
ˆe. menjadi konstan, yaitu 1 dikarenakan antar area memiliki ukuran contoh yang sama. Sehingga dapat disimpulkan bahwa perbedaan antara penduga langsung dan tidak langsung tergantung dari nilai ˆi , dimana nilai ˆi yang jauh dari 1 membuat perbedaan yang besar antara penduga langsung dan tidak langsung. Walaupun penduga tidak langsung memiliki akurasi yang lebih baik daripada penduga langsung dalam menduga resiko relatif namun dalam hal pendugaan hotspot penduga langsung memiliki akurasi yang lebih baik. Sementara itu peningkatan ukuran contoh dapat meningkatkan akurasi pendugaan hotspot sedangkan keragaman antar area yang kecil menimbulkan akurasi yang sangat rendah dikarenakan antar area memiliki perbedaan tingkat kasus yang kecil.
KESIMPULAN Penggunaan metode Scan Statistic untuk menentukan hotspot dengan menggunakan data contoh menghasilkan akurasi yang masih
7
rendah, yaitu dibawah 50 % untuk ukuran contoh 40. Penerapan pendugaan area kecil dengan model Poisson-Gamma pada metode Scan Statistic belum mampu memperbaiki tingkat akurasi dalam pendugaan hotspot, namun penggunaan pendugaan area kecil mampu mengurangi galat pendugaan parameter resiko relatif.
SARAN Kajian lebih lanjut mengenai penggunaan metode Scan Statistic pada data contoh cukup diperlukan mengingat data yang tersedia sebagian besar adalah data contoh. Penerapan pendugaan area kecil pada metode Scan Statistic perlu dikaji untuk window yang lebih luas dengan melihat keterhubungan antar area kecil. Kemudian pembangkitan populasi pun perlu mengakomodasi hotspot yang lebih ekstrem, sedangkan untuk pendugaan area kecil dapat dicobakan teknik non Bayesian ,yaitu natural exponential dengan fungsi ragam kuadratik pada model Poisson-Gamma.
DAFTAR PUSTAKA Kismiantini. 2007. Pendugaan Statistik Area Kecil Berdasarkan Model PoissonGamma. [Tesis]. Departemen Statistika FMIPA IPB, Bogor. Kuldroff, M. 1997. A Spatial Scan Statistic. Commun.Statist-Theory Meth, Vol. 26(6), p: 1481-1496. Kuldroff, M. 2006. SaTScantm User Guide for Version 7.0. http://www.satscan.org/ [10 April 2009] Kurnia, A dan Notodiputro, KA. 2008. Generalized Additive Mixed Models for Small Area Estimation. Mathematics Journal Universitas Teknologi Malaysia, Desember 2008, p:341-385. Kurnia, A dan Notodiputro, KA. 2006. Penerapan Metode Jacknife dalam Pendugaan Area Kecil. Forum Statistika dan Komputasi, April 2006, p: 12-15. Marshall RJ. 1991. Mapping Disease and Mortality Rates Using Empirical Bayes Estimators. Applied Statistics. 40: 283294. Patil, GP dan Taillie, C. 2004. Upper Level Set Scan Statistic for Detecting Arbitrarily Shaped Hotspots. Environmental and Ecological Statistics, Vol. 11, p: 183-197.
http://www.stat.psu.edu/~gpp/pdfs/TR200 2-0601.pdf . [20 April 2009]. Rao, JNK 2003. Small Area Estimation. New Jersey : John Willey & Sons, Inc. Scheaffer, RL et.al. 1990. Elementary Survey Sampling. Boston : PWS-KENT Sodik, HJ. 2008. Spatial Scan Statistic for AIDS Hotspots Detection at Regencies and Municipalities in Java. [Skripsi].Departemen Statistika FMIPA IPB, Bogor. Song, C dan Kuldroff, M. 2003. Power Evaluation of Disease Clustering tests. International Journal of Health Geographics. http://www.ijhealthgeographics.com/content/2/1/9. [19 Mei 2009].
LAMPIRAN
9
Lampiran 1. Nilai Resiko Relatif Untuk Data Populasi Pada Setiap Area Area
Ragam Antar Area Kecil
Besar
1
0.820
0.846
2
0.984
3
Area
Ragam Antar Area Kecil
Besar
16
0.884
0.832
0.965
17
1.471
1.664
0.619
0.609
18
0.926
1.015
4
1.106
1.234
19
1.206
1.212
5
1.265
1.201
20
0.614
0.520
6
1.053
1.011
21
1.032
0.853
7
1.429
1.492
22
0.889
1.029
8
1.169
1.108
23
0.577
0.405
9
1.423
1.545
24
0.719
0.617
10
0.757
0.642
25
1.106
1.176
11
1.370
1.424
26
0.682
0.681
12
1.005
0.968
27
1.058
0.975
13
0.905
0.857
28
1.074
1.155
14
0.762
0.721
29
0.979
1.018
15
0.688
0.692
30
1.429
1.531
10
Lampiran 2. Sebaran Nilai Jumlah Kuadrat Galat (JKG) 1. Populasi Dengan Ragam Besar Antar Area Ragam Besar
Ragam Besar
n=20
n = 10
Mean StDev N 7.151 1.981 1000 4.233 2.487 1000
100
Mean StDev N 3.592 1.019 1000 2.505 1.407 1000
200
100
50
0
Variable direct indirect
300 Frequency
150 Frequency
400
Variable direct indirect
200
0
0
5
10
15 Data
20
25
30
0
5
10
Ragam Besar
20
25
30
Ragam Besar
n = 30
n = 40
140 120
Variable direct indirect
90
Mean StDev N 2.376 0.6470 1000 1.761 0.6260 1000
70
80 60
Variable direct indirect
80
Frequency
100 Frequency
15 Data
Mean StDev N 1.737 0.4800 1000 1.407 0.4376 1000
60 50 40 30
40
20
20 0
10 0
0.8
1.6
2.4
3.2 Data
4.0
4.8
5.6
0.5
1.0
1.5
2.0 2.5 Data
3.0
3.5
4.0
11
Lampiran 2. Sebaran Nilai Jumlah Kuadrat Galat (JKG) 2. Populasi Dengan Ragam Kecil Antar Area Ragam Kecil
Ragam Kecil
n = 10
n = 20
140 120
Frequency
80 60
Variable direct indirect
200
Mean StDev N 12.20 3.614 1000 4.094 3.235 1000
100 Frequency
250
Variable direct indirect
Mean StDev N 6.049 1.715 1000 2.541 1.688 1000
150
100
40
50
20 0
0
5
10
15 Data
20
25
0
30
0
5
10
Ragam Kecil
25
30
n= 40
120
140
Variable direct indirect
100
40
Mean StDev N 2.991 0.8371 1000 1.624 0.6254 1000
100 Frequency
60
Variable direct indirect
120
Mean StDev N 3.995 1.101 1000 1.957 0.9098 1000
80 Frequency
20
Ragam Kecil
n=30
80 60 40
20 0
15 Data
20
0.00
1.25
2.50
3.75 5.00 Data
6.25
7.50
8.75
0
0.8
1.6
2.4
3.2 Data
4.0
4.8
5.6
6.4
12
Lampiran 3. Nilai Relatif Bias untuk Penduga Langsung
Penduga Langsung Relatif Bias
Area
Ragam Besar
Ragam Kecil
n = 10
n = 20
n = 30
n = 40
n = 10
n = 20
n = 30
n = 40
1
0.444
0.323
0.262
0.222
0.581
0.398
0.334
0.293
2
0.428
0.291
0.232
0.196
0.521
0.376
0.299
0.251
3
0.569
0.412
0.320
0.272
0.678
0.465
0.397
0.333
4
0.359
0.233
0.189
0.166
0.456
0.354
0.274
0.243
5
0.333
0.244
0.200
0.176
0.449
0.308
0.250
0.221
6
0.384
0.281
0.226
0.191
0.509
0.360
0.273
0.246
7
0.301
0.214
0.163
0.145
0.428
0.283
0.242
0.203
8
0.375
0.257
0.216
0.189
0.449
0.332
0.270
0.230
9
0.281
0.206
0.160
0.137
0.414
0.290
0.236
0.210
10
0.542
0.357
0.310
0.266
0.617
0.422
0.334
0.293
11
0.301
0.219
0.179
0.154
0.421
0.290
0.248
0.204
12
0.405
0.289
0.228
0.191
0.505
0.369
0.277
0.251
13
0.430
0.315
0.253
0.216
0.567
0.390
0.318
0.268
14
0.508
0.341
0.283
0.245
0.626
0.420
0.338
0.288
15
0.500
0.368
0.308
0.235
0.647
0.462
0.378
0.319
16
0.445
0.328
0.263
0.227
0.554
0.395
0.321
0.279
17
0.259
0.192
0.157
0.131
0.387
0.267
0.221
0.189
18
0.404
0.281
0.220
0.192
0.542
0.379
0.299
0.273
19
0.351
0.242
0.201
0.168
0.453
0.332
0.267
0.231
20
0.623
0.443
0.344
0.305
0.701
0.494
0.428
0.358
21
0.453
0.316
0.257
0.231
0.479
0.351
0.276
0.251
22
0.384
0.274
0.220
0.186
0.589
0.396
0.325
0.279
23
0.698
0.485
0.395
0.352
0.680
0.490
0.419
0.360
24
0.548
0.393
0.318
0.265
0.643
0.439
0.345
0.311
25
0.370
0.244
0.208
0.178
0.500
0.355
0.278
0.240
26
0.491
0.371
0.294
0.250
0.659
0.463
0.372
0.327
27
0.412
0.294
0.230
0.207
0.496
0.343
0.279
0.241
28
0.351
0.255
0.206
0.178
0.483
0.325
0.279
0.235
29
0.392
0.263
0.233
0.191
0.513
0.373
0.300
0.266
30
0.290
0.200
0.164
0.139
0.409
0.285
0.240
0.197
Rata-rata
0.421
0.298
0.241
0.207
0.532
0.374
0.304
0.263
13
Lampiran 4. Nilai Relatif Bias untuk Penduga Tidak Langsung
Penduga Tidak Langsung Relatif Bias Area
Ragam Besar
Ragam Kecil
1
n= 10 0.217
2
0.101
0.074
0.082
0.086
0.138
0.079
0.063
0.061
3
0.705
0.542
0.434
0.375
0.720
0.605
0.546
0.489
4
0.210
0.165
0.140
0.129
0.167
0.124
0.106
0.100
5
0.189
0.153
0.124
0.122
0.260
0.215
0.193
0.173
6
0.090
0.063
0.076
0.080
0.151
0.091
0.074
0.076
7
0.353
0.278
0.222
0.189
0.353
0.296
0.267
0.245
8
0.131
0.101
0.103
0.098
0.193
0.157
0.141
0.130
9
0.373
0.292
0.237
0.208
0.337
0.295
0.267
0.241
10
0.600
0.464
0.378
0.319
0.395
0.326
0.292
0.263
11
0.320
0.251
0.205
0.176
0.309
0.276
0.244
0.222
12
0.090
0.070
0.079
0.082
0.126
0.077
0.056
0.059
13
0.193
0.157
0.134
0.128
0.192
0.130
0.119
0.109
14
0.418
0.326
0.267
0.231
0.384
0.317
0.285
0.254
15
0.495
0.372
0.306
0.261
0.543
0.456
0.409
0.362
16
0.233
0.179
0.150
0.142
0.202
0.151
0.133
0.125
17
0.428
0.331
0.265
0.227
0.366
0.321
0.287
0.257
18
0.086
0.065
0.073
0.083
0.172
0.108
0.095
0.089
19
0.199
0.158
0.134
0.115
0.221
0.180
0.156
0.146
20
0.996
0.773
0.631
0.536
0.733
0.632
0.560
0.507
21
0.203
0.154
0.139
0.133
0.130
0.079
0.066
0.067
22
0.091
0.067
0.075
0.080
0.202
0.147
0.124
0.120
23
1.602
1.234
0.990
0.854
0.843
0.734
0.660
0.593
24
0.666
0.515
0.412
0.361
0.474
0.399
0.350
0.321
25
0.176
0.139
0.124
0.112
0.163
0.123
0.106
0.099
26
0.504
0.381
0.314
0.274
0.556
0.466
0.422
0.384
27
0.094
0.071
0.078
0.089
0.149
0.092
0.079
0.078
28
0.158
0.127
0.114
0.110
0.153
0.101
0.090
0.083
29
0.088
0.061
0.079
0.082
0.130
0.079
0.067
0.067
30
0.368
0.288
0.232
0.205
0.344
0.294
0.266
0.243
Rata-rata
0.346
0.267
0.225
0.201
0.313
0.252
0.224
0.205
n = 20
n = 30
n = 40
n = 10
n = 20
n = 30
n = 40
0.169
0.145
0.136
0.285
0.223
0.195
0.182