STUDI SIMULASI DALAM ESTIMASI BAYESIAN OBYEKTIF Adi Setiawan Program Studi Matematika Industri dan Statistika, Fakultas Sains dan Matematika Universitas Kristen Satya Wacana Jl Diponegoro 52-60 Salatiga 50711, Indonesia e-mail:
[email protected]
Abstrak Dengan pemilihan distribusi prior dan fungsi kerugian khusus, metode Bayesian obyektif menghasilkan suatu estimasi yang hanya tergantung pada distribusi anggapan dari populasi dan data yang ada. Dalam makalah ini, akan dilakukan studi simulasi tentang estimasi Bayesian obyektif untuk berbagai distribusi anggapan populasi yang biasa digunakan metode Bayesian obyektif digunakan untuk menentukan estimator titik dari suatu parameter populasi. Kata kunci : distribusi prior, fungsi kerugian, studi simulasi, metode Bayesian obyektif. 1. Pendahuluan Dalam metode Bayesian, pemilihan prior dan fungsi kerugian sangatlah penting. Dalam metode Bayesian obyektif digunakan prior yang nantinya akan memberikan pengaruh minimal dalam inferensi dan menggunakan fungsi kerugian deskrepansi intrinsik. Dalam makalah ini akan dijelaskan bagaimana metode Bayesian obyektif digunakan dalam menentukan estimasi titik jika dimiliki sampel yang dianggap berasal dari populasi yang berdistribusi eksponensial atau populasi yang berdistribusi seragam. 2. Dasar Teori Dalam pandangan Bayesian, hasil dari sembarang masalah inferensi yang dinyatakan dalam distribusi posterior merupakan gabungan dari informasi yang disediakan oleh data dan informasi prior relevan yang tersedia. Akan tetapi apabila tidak tersedia informasi prior, akan dipilih fungsi prior yang relatif uninformative artinya fungsi prior yang memberikan pengaruh minimum pada inferensi fungsi posterior. Misalkan bahwa mekanisme probabilitas yang membangkitkan data yang tersedia x dianggap sebagai p(x| ) untuk suatu dan kuantitas yang menjadi perhatian adalah fungsi yang bernilai real () dari . Tanpa menghilangkan keumuman, hal itu juga dapat dijelaskan berikut ini. Misalkan model probabilitas yang digunakan berbentuk { p ( x | , ) } dengan adalah parameter nuisance yang dipilih. Dalam hal ini diperlukan untuk mengidentifikasi fungsi prior bersama (,) yang akan mempunyai pengaruh minimal pada distribusi posterior marginal dengan kuantitas yang menjadi perhatian yaitu
( | x) p( x | , ) ( , ) d .
Reference prior digunakan sebagai prior yang dapat memberikan pengaruh minimal pada distribusi posterior. Dalam kasus dimensi satu, reference prior merupakan prior Jeffry. Dengan menggunakan prior ini maka penyelesaian masalah estimasi hanya tergantung pada model anggapan dan data pengamatan sehingga estimasi titik yang menggunakan metode ini dinamakan sebagai estimasi titik Bayesian obyektif (Bernardo dan Juarez, 2003). Diskrepansi intrinsik (intrínsic discrepancy) (p1, p2) antara dua fungsi densitas p1(x) dengan x X1 dan p2(x) dengan x X2 didefinisikan sebagai
( p1 , p2 ) min K ( p2 ( x) | p1 ( x) ) , K ( p1 ( x) | p2 ( x) ) dengan
p1 ( x) dx . p2 ( x )
K ( p1 ( x) | p2 ( x)) p1 ( x) log X
Untuk dua keluarga fungsi densitas
M 1 p1 ( x | ) , x 1 ( ) ,
dan
M 2 p2 ( x | ) , x 2 ( ) ,
dapat didefinisikan diskrepansi intrinsik
* ( M 1 , M 2 ) min p1 ( x | ) , p2 ( x | ) . ,
Fungsi kerugian (loss function) dalam kasus ini adalah diskrepansi intrinsik. Misalkan bahwa deskripsi yang sesuai dari tingkah laku probabilistik dari kuantitas random x diberikan oleh model { p ( x | , ), x , , } . Diskrepansi intrinsik antara p ( x | , ) dan keluarga densitas
{ p ( x | 0 , ), } adalah
* ( , ; 0 ) inf ( , ; 0 , 0 ) 0
dengan
( , ; 0 , 0 ) min K ( 0 , 0 | , ) , K ( , | 0 , 0 ) .
Misalkan { p ( x | , ), x , , } adalah model parametrik yang dapat digunakan untuk menggambarkan tingkah laku kuantitas random x. Didefinisikan intrinsik statistik (intrinsic statistic) sebagai
d ( 0 | x) E * [ * | x] * ( , ; 0 ) * ( , | x) d d
dengan * ( , | x) adalah posterior referensi untuk parameter dari model p ( x | , ) bila
* ( , ; 0 ) adalah parameter yang menjadi perhatian. Intrinsik statistik merupakan ukuran dari kekuatan bukti melawan penggunaan p ( x | 0 , ) sebagai proxy untuk p ( x | , ) . Proxy terbaik dicapai pada suatu nilai yang menghasilkan kerugian terkecil. Misalkan { p ( x | , ), x , , } adalah model parametrik yang sesuai untuk menggambarkan tingkah laku probabilistik dari kuantitas random x. Estimator intrinsik (intrinsic estimator) atau estimasi titik Bayesian obyektif didefinisikan sebagai yaitu parameter yang meminimalkan statistik intrinsik ~
* * ( x) arg min d ( | x) . ~
Populasi Eksponensial Misalkan dimiliki sampel x1, x2, ...., xn dari distribusi eksponensial dengan fungsi kepadatan probabilitas
f ( x | ) e x untuk x > 0. Deskrepansi intrinsik dari distribusi eksponensial adalah
x ( 0 , ) n min [ ( | 0 ) , ( 0 | ) ] dengan f (x | j ) ( i | j ) f ( x | j ) ln dx 0 f (x | i )
= i 1 ln i j j
.
Akibatnya g ( 0 / ) , 0 . x ( 0 , ) g ( / 0 ) , 0 dengan g(x)= (x-1)-ln(x). Dapat dibuktikan bahwa reference prior dari parameter yang menjadi perhatian adalah () = -1 dan reference posterior yang terkait adalah ( | x1 , ...., xn ) Gamma ( | n, t ) 1e nt .
Diperoleh intrinsik statistik
d ( 0 | x1 , ...., xn ) d ( 0 | t , n) n x ( 0 , ) Gamma ( | n, t ) d 0
dengan t
n
x . i 1
i
Populasi Seragam Misalkan x1, x2, ...., xn sampel dari distribusi seragam dengan fungsi kepadatan probabilitas
f ( x | ) 1 untuk 0 x , > 0 dan misalkan t = max{ x1, x2, ...., xn }. Deskrepansi intrinsik dari distribusi eksponensial adalah
x ( 0 , ) n min [ ( | 0 ) , ( 0 | ) ]
dengan
j 1 ln / dx log / , i j i j j i ( i | j ) 0 j , j i .
Akibatnya
x ( 0 , ) n | ln( / 0 ) | .
Karena ruang sampel dari X = [ 0, ] tergantung dari parameter maka hal ini bukan masalah ^
regular. Fungsi t merupakan statistik cukup, estimator konsisten dari yang mempunyai distribusi sampling
p (t | ) n t n1 n untuk 0 < t < . Dapat dibuktikan bahwa reference prior dari parameter yang menjadi perhatian adalah () = -1 dan reference posterior yang terkait adalah
( | x1 , ...., xn ) n t n ( n1) , t. Diperoleh intrinsik statistik
d ( 0 | x1 , ...., xn ) d ( 0 | t , n) n | ln( / 0 ) | n t n ( n1) d t
3. Studi Simulasi dan Pembahasan Kasus Sampel dari Populasi Eksponensial Apabila diberikan ukuran sampel n dan statistik cukup t dengan sampel dianggap berasal dari populasi yang berdistribusi eksponensial maka dapat ditentukan estimator titik Bayesian obyektif yaitu nilai parameter * yang meminimalkan intrinsik statistik. Pada Gambar 1 diberikan gambar yang merupakan hasil perhitungan intrinsik statistik jika diberikan beberapa nilai n dan t. Pada Gambar 1, estimator titik Bayesian obyektif dan MLE dari masing-masing berturut-turut adalah 1,91, 3,91, 7,90, 4,98 dan 2, 4, 8, 5. Pada Gambar 2 diberikan estimator titik Bayesian obyektif dengan n dan t yang bersesuaian sehingga menghasilkan estimator titik Bayesian obyektif berturut-turut adalah 4,88, 4,96, 4,98 dan 4,99. Terlihat bahwa untuk ukuran sampel yang membesar maka estimator tersebut akan mendekati nilai MLE yaitu 5. (b) n=20, t=5
4 3 2 0
1
Intrinsik Statistik
3 2 1 0
Intrinsik Statistik
4
5
(a) n=10, t=5
2
4
6
8
10
0
2
4
6
8
Theta
Theta
(c) n=40, t=5
(d) n=100, t=20
10
4 3 2 0
1
Intrinsik Statistik
5 4 3 2 1 0
Intrinsik Statistik
5
0
0
5
10
15
20
0
5
10
Theta
15
20
Theta
Gambar 1. Gambar nilai intrinsik statistik untuk beberapa nilai n dan t yang diberikan. (b) n=60, t=12 5 4 3 2 0
2
4
6
8
10
0
2
4
6
8
Theta
(c) n=100, t=20
(d) n=200, t=40
10
4 3 2 1 0
0
1
2
3
4
Intrinsik Statistik
5
Theta
5
0
Intrinsik Statistik
1
Intrinsik Statistik
4 3 2 1 0
Intrinsik Statistik
5
(a) n=20, t=4
0
5
10 Theta
15
20
0
5
10
15
20
Theta
Gambar 2. Gambar nilai intrinsik statistik berturut-turut untuk nilai n =20, 60, 100, 200 dan t =4, 12, 20, 40 .
Simulasi dilakukan dengan cara membangkitkan sampel ukuran n dari distribusi eksponensial dengan parameter dan dengan sampel tersebut akan diestimasi (ulang) parameter dengan metode Bayesian obyektif. Apabila hal itu dilakukan sebanyak bilangan besar B (dalam makalah ini digunakan B=100) maka untuk beberapa nilai n dan yang digunakan, akan diperoleh histogram pada Gambar 3. (b) Histogram Estimasi Theta jika n=30, theta=2
0.0
0.00
0.4
0.10
0.8
0.20
(a) Histogram Estimasi Theta jika n=10, theta=5
2
3
4
5
6
7
8
1.0
2.0
2.5
3.0
3.5
4.0
(d) Histogram Estimasi Theta jika n=100, theta=10
0.0
0.0
0.5
0.2
1.0
0.4
1.5
0.6
(c) Histogram Estimasi Theta jika n=60, theta=5
1.5
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
8.0
8.5
9.0
9.5
Gambar 3. Histogram hasil simulasi untuk beberapa ukuran sampel n dan yang digunakan dalam simulasi.
Kasus Sampel dari Populasi Uniform Gambar 4 merupakan hasil perhitungan intrinsik statistik jika diberikan beberapa nilai n dan t = 2 dengan sampel dianggap berasal dari populasi yang berdistribusi seragam sehingga estimator titik Bayesian obyektif dan MLE dari masing-masing berturut-turut adalah 2,135, 2,025, 2,005, 1,995dan 2. Hal itu berarti bahwa untuk ukuran sampel yang membesar maka estimator tersebut akan cenderung mendekati nilai MLE yaitu 2. 50 100 150 200 0
Intrinsik Statistik
2
3
4
5
0
3
(c) n=200, t=2
3 Theta
4
5
5
4
5
600
Intrinsik Statistik
2
4
1000
(c) n=100, t=2
300
1
2 Theta
0 100
0
1
Theta
0 200
1
500
0
Intrinsik Statistik
(b) n=40, t=2
0 10 20 30 40 50
Intrinsik Statistik
(a) n=10, t=2
0
1
2
3 Theta
Gambar 4. Gambar nilai intrinsik statistik berturut-turut untuk nilai n =10, 40, 100, 200 dan t = 2 .
Simulasi dilakukan dengan cara membangkitkan sampel ukuran n dari distribusi seragam pada (0, ) dengan parameter dan dengan sampel tersebut akan diestimasi (ulang) parameter dengan metode Bayesian obyektif. Apabila hal itu dilakukan sebanyak bilangan besar B (dalam makalah ini digunakan B=1000) maka untuk beberapa nilai n = 10, 40, 60, 100 dan =2 yang digunakan, akan diperoleh histogram pada Gambar 5. Terlihat bahwa makin besar ukuran sampel akan makin kecil variansi estimasinya.
0
0
2
5
4
10
6
15
8
20
(b) n=10, theta=2
10
(a) n=10, theta=2
1.0
1.2
1.4
1.6
1.8
2.0
1.0
1.2
1.6
1.8
2.0
1.8
2.0
0
0
20
5 10
40
20
60
80
(d) n=10, theta=2
30
(c) n=10, theta=2
1.4
1.0
1.2
1.4
1.6
1.8
2.0
1.0
1.2
1.4
1.6
Gambar 5. Histogram hasil simulasi untuk beberapa ukuran sampel n = 10, 40, 60, 100 dan = 2 yang digunakan dalam simulasi.
4. Kesimpulan dan Saran Estimasi titik Bayesian obyektif dapat digunakan untuk kasus sampel dari distribusi eksponensial dan sampel dari distribusi seragam. Penelitian ini dapat dikembangkan untuk berbagai macam distribusi yang lain. Daftar Pustaka [1] Bernardo, J. M. ( 2009 ) Statistics : Bayesian Methodology in Statistics, Comprehensive Chemometrics ( S. Brown, R. Tauler dan R. Walczak eds) Oxford : Elsevier. [2] Bernardo, J. M. dan M. A. Juarez ( 2003 ) Intrinsic Estimation, Bayesian Statistics 7, Oxford : University Press. [3] Bernardo, J. M. and Rueda, R. ( 2002 ) Bayesian hypothesis testing: A reference approach. International Statistical Review 70, 351-372. [4] Juarez, M. A. ( 2004 ) Objective Bayesian Methods for Estimation and Hypothesis Testing, Valencia : University of Valencia. [5] Setiawan, A. (2009) Estimasi Titik Bayesian Obyektif, Prosiding Seminar Sains dan Pendidikan Sains , FSM UKSW, Salatiga.