PENGGUNAAN METODE BAYESIAN OBYEKTIF DALAM INFERENSI PARAMETER POPULASI SERAGAM Adi Setiawan Program Studi Matematika, Fakultas Sains dan Matematika Universitas Kristen Satya Wacana Jl. Diponegoro 52-60 Salatiga 50711, Indonesia e-mail :
[email protected] Abstrak Misalkan dimiliki sampel yang dianggap diambil dari populasi yang berdistribusi seragam U(0,θ). Dalam makalah ini akan dijelaskan tentang bagaimana menggunakan metode Bayesian obyektif untuk melakukan estimasi titik, estimasi interval dan pengujian hipotesis tentang parameter populasi berdasarkan sampel yang diambil dari populasi U(0,θ). Studi simulasi dilakukan untuk memperjelas penggunaan metode tersebut. Kata Kunci : prior, posterior, deskrepansi intrinsik, statistik intrinsik 1. Pendahuluan
Misalkan dimiliki sampel yang dianggap diambil dari populasi yang berdistribusi seragam U(0,θ) dan diinginkan untuk melakukan estimasi parameter θ maka dapat digunakan metode Bayesian obyektif. Pada makalah terdahulu telah dijelaskan bagaimana menggunakan metode Bayesian obyektif dalam melakukan estimasi titik, estimasi interval dan pengujian hipotesis ( Setiawan, 2009; Setiawan, 2010 dan Setiawan, 2011 ). Dalam makalah ini akan dijelaskan tentang bagaimana menggunakan metode Bayesian obyektif untuk melakukan inferensi parameter populasi θ dan dianggap bahwa sampel diambil dari populasi seragam.
2. Dasar Teori
Hasil dari sembarang masalah inferensi yang dinyatakan dalam distribusi posterior merupakan gabungan dari informasi yang tersedia dalam data dan informasi prior relevan yang tersedia. Akan tetapi apabila tidak tersedia informasi prior, akan dipilih fungsi prior yang relatif uninformative artinya fungsi prior yang memberikan pengaruh minimum pada inferensi fungsi posterior. Secara lebih formal, misalkan bahwa mekanisme probabilitas yang membangkitkan data yang tersedia x dianggap sebagai p(x| θ) untuk suatu
θ ∈ Θ dan kuantitas yang menjadi perhatian adalah fungsi yang bernilai real φ(θ) dari θ. Tanpa menghilangkan keumuman, hal itu juga dapat dijelaskan berikut ini.
1
Misalkan model probabilitas yang digunakan berbentuk { p ( x |θ , λ ) } dengan λ adalah parameter nuisance yang dipilih. Dalam hal ini diperlukan untuk mengidentifikasi fungsi prior bersama π(φ,λ) yang akan mempunyai pengaruh minimal pada distribusi posterior marginal dengan kuantitas yang menjadi perhatian φ yaitu
π (φ | x) ∝ ∫ p( x |φ , λ ) π (φ , λ ) dλ . Λ
Reference prior digunakan sebagai prior yang dapat memberikan pengaruh minimal pada distribusi posterior. Dalam kasus dimensi satu, reference prior merupakan prior Jeffry. Dengan menggunakan prior ini maka penyelesaian masalah estimasi hanya tergantung pada model anggapan dan data pengamatan sehingga estimasi titik yang menggunakan metode ini dinamakan sebagai estimasi titik Bayesian obyektif (Bernardo dan Juarez, 2003). Diskrepansi intrinsik (intrínsic discrepancy) δ(p1, p2) antara dua fungsi densitas p1(x) dengan x ∈ X1 dan p2(x) dengan x ∈ X2 didefinisikan sebagai
δ ( p1 , p2 ) = min {K ( p2 ( x) | p1 ( x) ) , K ( p1 ( x) | p2 ( x) )} dengan K ( p1 ( x) | p2 ( x)) = ∫ p1 ( x) log X
p1 ( x) dx . p2 ( x)
Untuk dua keluarga fungsi densitas
M 1 = {p1 ( x | φ ) , x ∈ Χ1 ( φ ) , φ ∈Φ} dan
M 2 = {p2 ( x |ψ ) , x ∈ Χ 2 (ψ ) ,ψ ∈ Ψ } dapat didefinisikan diskrepansi intrinsik
δ * ( M 1 , M 2 ) = min δ ( p1 ( x |φ ) , p2 ( x |ψ ) ) . φ ∈Φ ,ψ ∈Ψ
Fungsi kerugian (loss function) dalam kasus ini adalah diskrepansi intrinsik. Misalkan bahwa deskripsi yang sesuai dari tingkah laku probabilistik dari kuantitas random x diberikan oleh model { p ( x |θ , λ ), x ∈ Χ, θ ∈ Θ, λ ∈ Λ } .
Diskrepansi intrinsik antara p ( x |θ , λ ) dan keluarga densitas
{ p ( x |θ 0 , λ ), λ ∈ Λ } adalah
δ * (θ , λ ;θ 0 ) = inf δ (θ , λ ;θ 0 , λ0 ) λ0 ∈Λ
dengan
δ (θ , λ ;θ 0 , λ0 ) = min {K (θ 0 , λ0 |θ , λ ) , K (θ , λ |θ 0 , λ0 )} . Misalkan { p ( x |θ , λ ), x ∈ Χ, θ ∈ Θ, λ ∈ Λ } adalah model parametrik yang dapat digunakan untuk menggambarkan tingkah laku kuantitas random x. Didefinisikan intrinsik statistik (intrinsic statistic) sebagai d ( θ 0 | x) = Eπ δ * [ δ * | x] = ∫ ∫ δ * (θ , λ ;θ 0 ) π δ * (θ , λ | x) dθ dλ
(1)
ΛΘ
dengan π δ * (θ , λ | x) adalah posterior referensi untuk parameter dari model p ( x |θ , λ ) bila
δ * (θ , λ ;θ 0 ) adalah parameter yang menjadi perhatian. Estimator intrinsik (intrinsic estimator) atau estimasi titik Bayesian obyektif didefinisikan sebagai yaitu parameter θ yang meminimalkan statistik intrinsik ~
θ * = θ * ( x) = arg min d (θ | x) . ~
θ ∈Θ
Estimasi interval kredibel
Interval
kredibel
intrinsik 100q% (q-credible region intrinsic) adalah himpunan
bagian R*q = R*q( x, Θ) ⊆ Θ dari ruang parameter Θ sehingga memenuhi (i)
∫π (θ ,θ
0
| x) dθ = q
R*q
(ii) Untuk setiap θi ∈R*q, θj ∉ R*q dan untuk setiap berlaku d(θi | x) ≤ d(θj | x). dengan d(θi | x) adalah harapan fungsi kerugian reference posterior sebagai proxy untuk nilai dari parameter yang diberikan pada persamaan (1). Terlihat bahwa pernyataan pada persamaan (1) mempunyai bentuk yang sulit sehingga perhitungannya tidaklah mudah namun dengan menggunakan integrasi numerik, hal itu dengan mudah dapat dilakukan.
3
Pengujian Hipotesis
Apabila diinginkan untuk melakukan pengujian hipotesis H0 ≡ { θ = θ0 } maka statistik intrinsik pada persamaan (1) merupakan ukuran dari kekuatan bukti melawan penggunaan model M0 dengan M 0 = { p ( x |θ 0 , λ ) , λ ∈ Λ } . Hal itu berarti H0 akan ditolak jika dan hanya jika d(θ0 | x ) untuk suatu batas d* (Juarez, 2004). Bernardo dan Rueda (2002) mengusulkan untuk menggunakan aturan sebagai berikut : jika d* ≈ 1 maka tidak ada bukti untuk menolak H0, jika d* ≈ 2,5 maka terdapat bukti lemah (mild) untuk menolak dan jika d* > 5 maka terdapat bukti kuat (strong) untuk menolak H0.
Populasi Seragam
Misalkan x1, x2, ...., xn sampel dari distribusi seragam dengan fungsi kepadatan probabilitas f ( x |θ ) =θ −1 untuk 0 ≤ x ≤ θ, θ > 0 dan misalkan t = Max{ x1, x2, ...., xn }. Deskrepansi intrinsik dari distribusi eksponensial adalah
δ x (θ 0 ,θ ) = n min [ κ (θ |θ 0 ) , κ (θ 0 |θ ) ] dengan
⎧⎪ θ j θ −1 ln (θ / θ ) dx = log(θ / θ ), θ ≤θ j i j i j j i , θ j >θ i . ⎪⎩∞
κ (θ i |θ j ) = ⎨ ∫0 Akibatnya
δ x (θ 0 ,θ ) = n | ln(θ / θ 0 ) | . Karena ruang sampel dari X adalah [ 0, θ ] tergantung dari parameter θ maka hal ini ^
bukan masalah regular. Fungsi θ = t merupakan statistik cukup, estimator konsisten dari yang mempunyai distribusi sampling
p(t |θ ) = n t n−1θ − n
untuk 0 < t < θ. Dapat dibuktikan bahwa reference prior dari parameter yang menjadi perhatian θ adalah π(θ) = θ -1 dan reference posterior yang terkait adalah
π (θ | x1 , ...., x n ) = n t n θ − ( n +1) , θ ≥ t. dan diperoleh statistik intrinsik ∞
d (θ 0 | x1 , ...., xn ) = d (θ 0 | t , n) = n ∫ | ln(θ / θ 0 ) | t n θ −( n +1) dθ t
Estimasi
titik
θ*
d (θ 0 | x1 , ...., xn ) dan
ditentukan estimasi
sehingga
meminimalkan
interval
kredibel
d (θ 0 | x1 , ...., x n ) < d (a | x1 ,...., x n )
dan
(a,b)
nilai
.
statistik
ditentukan
intrinsik sehingga
d (θ 0 | x1 , ...., x n ) < d (a | x1 ,...., x n ) . Pengujian
hipotesis dilakukan dengan cara menghitung ukuran kekuatan bukti untuk menolak hipotesis nol H0 : θ = θ0 dengan menggunakan statistik intrinsik
d (θ 0 | x1 , ...., xn )
berdasarkan pada sampel x1, x2, ...., xn atau statistik cukup t = Max{ x1, x2, ...., xn } dan ukuran sampel n.
3. Studi Simulasi dan Pembahasan Estimasi titik untuk parameter populasi θ berdasarkan sampel ditentukan dengan cara memilih nilai θ yang meminimalkan nilai statistik intrinsik. Gambar 1 menunjukan nilai statistik intrinsik bila digunakan nilai θ antara 0 dan 5 jika diberikan statistik cukup sampel t = Max{ x1, x2, ...., xn } = 1,806
dan n = 12. Terlihat bahwa nilai statistik intrinsik akan mencapai minimum jika θ = 1,913 sehingga 1,913 merupakan estimasi titik untuk parameter populasi θ. Interval kredibel ditentukan sehingga θ mempunyai statistik intrinsik lebih kecil dari 2.150 dan diperoleh interval kredibel 95 % yaitu (1,632 , 2,319 ).
5
40 30 0
10
20
Intrinsik Statistik
50
60
(a) n=12, t=1.806
0
1
2
3
4
5
Theta
Gambar 1. Nilai statistik intrinsik jika diberikan parameter θ dan statistik cukup t = Max{ x1, x2, ...., xn }.
Misalkan dimiliki sampel x1, x2, ...., xn berukuran n = 50 dari populasi berdistribusi seragam dengan parameter populasi θ. Apabila diambil sampel dari distribusi seragam pada (0,2) maka nilai-nilai statistik intrinsik yang diperoleh merupakan ukuran kekuatan untuk menolak hipotesis nol H0 : θ = θ0 dan dinyatakan pada Gambar 2. Terlihat bahwa nilai-nilai statistik intrinsik cenderung kecil dengan rata-ratanya 0,99 dan hanya 0,6 % yang mempunyai nilai lebih dari 5.
0.0
0.5
Density
1.0
1.5
Histogram dari Statistik Intrinsik bila sampel dari U(0 , 2)
2
4
6
8
Statistik Intrinsik Gambar 3. Histogram dari B = 10.000 nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H0 : θ = θ0 jika diberikan sampel dengan ukuran 50 yang diambil dari populasi seragam U(0,2).
Apabila sampel diambil dari populasi yang mempunyai parameter populasi berturutturut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2 maka nilai-nilai statistik intrinsik dinyatakan pada Gambar 3. Terlihat bahwa seperti yang diharapkan, nilai-nilai statistik intrinsik cenderung makin membesar jika parameter populasi yang digunakan jauh dari θ = 2. Gambar 4 dan Gambar 5 menyatakan nilai-nilai statistik intrinsik masing-masing untuk ukuran sampel 50 dan 100. Seperti yang diharapkan makin besar ukuran sampel makin besar pula nilai-nilai statistik intrinsik.
7
(b) Bila sampel dari U(0, 1,9)
0.0
0.4
Density
0.0
0.3
Density
0.6
(a) Bila sampel dari U(0 , 1,8)
1
2
3
4
5
6
1
3
4
5
Statistik Intrinsik
(c) Bila sampel dari U(0, 2,1)
(d) Bila sampel dari U(0, 2,2) 0.6
Statistik Intrinsik
0.0
0.3
Density
0.0 0.3 0.6
Density
2
2
4
6
8
10
4
6
Statistik Intrinsik
8
10
12
14
Statistik Intrinsik
Gambar 3. Histogram dari B = 10.000 nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H0 : θ = θ0 jika diberikan sampel ukuran 50 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2.
(b) Bila sampel dari U(0, 1,9)
0.0 1
2
3
4
1
2
3
4
5
6
7
Statistik Intrinsik
(c) Bila sampel dari U(0, 2,1)
(d) Bila sampel dari U(0, 2,2)
0.4 0.0
0.4
Density
0.8
0.8
Statistik Intrinsik
0.0
Density
0.4
Density
0.4 0.0
Density
0.8
(a) Bila sampel dari U(0 , 1,8)
2
4
6
Statistik Intrinsik
8
2
4
6
8
10
12
Statistik Intrinsik
Gambar 4. Histogram dari B = 10.000 nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H0 : θ = θ0 jika diberikan sampel ukuran 30 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2.
4
5
6
7
8
0.6
9
1
2
3
4
5
(c) Bila sampel dari U(0, 2,1)
(d) Bila sampel dari U(0, 2,2)
0.2 0.0
0.4
0.4
Statistik Intrinsik
Density
Statistik Intrinsik
0.0
Density
0.3 0.0
0.4
Density
(b) Bila sampel dari U(0, 1,9)
0.0
Density
(a) Bila sampel dari U(0 , 1,8)
3
4
5
6
7
8
Statistik Intrinsik
6
8
10
12
14
16
Statistik Intrinsik
Gambar 5. Histogram dari B = 10.000 nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H0 : θ = θ0 jika diberikan sampel ukuran 80 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2.
4. Kesimpulan dan Saran
Dalam makalah di atas telah dijelaskan bagaimana parameter populasi diestimasi dan dilakukan uji hipotesis dengan menggunakan metode Bayesian obyektif jika dianggap sampel diambil dari populasi berdistribusi seragam. Metode tersebut dapat juga diperluas penggunaannya untuk parameter populasi yang berdistribusi seragam dengan 2 parameter.
5. Daftar Pustaka
Bernardo, J. dan R. Rueda, 2002, Bayesian Hypotesis Testing : A Reference Approach, International Statistical Review 70, 351-372.
9
Juarez, M. A. , 2004, Objective Bayesian Methods for Estimation and Hypothesis Testing, Valencia : University of Valencia. Setiawan, A. , 2009, Estimasi Titik Bayesian Obyektif, Prosiding Seminar Sains dan Pendidikan Sains IV FSM UKSW, Salatiga.
Setiawan, A. , 2010,
Interval Kredibel Bayesian Obyektif dari Parameter Populasi
Berdistribusi Poisson dan Eksponensial, Prosiding Seminar Sains dan Pendidikan Sains No. 1 Tahun 1 , hal 703-708.
Setiawan, A. , 2011, Inferensi Parameter Mean Populasi Normal dengan Metode Bayesian Obyektif, Prosiding Seminar Sains dan Pendidikan Sains No. 1 Tahun 2 hal 584-593