ESTIMASI TITIK BAYESIAN OBYEKTIF Adi Setiawan (
[email protected]) Program Studi Matematika, Fakultas Sains dan Matematika Universitas Kristen Satya Wacana Jl Diponegoro 52-60 Salatiga 50711, Indonesia
Abstrak Estimasi titik Bayesian mendasarkan diri pada pemilihan prior dan loss function. Dalam estimasi titik Bayesian obyektif dipilih prior Jeffry dan menggunakan intrinsic discrepancy loss function yang nantinya akan mempunyai pengaruh minimum dari data pada distribusi posterior. Estimator titik Bayesian obyektif akan memberikan estimasi tentang parameter populasi yang hanya didasarkan pada anggapan distribusi populasi dan data. Dalam makalah ini, dijelaskan bagaimana metode Bayesian obyektif digunakan untuk estimasi titik pada parameter populasi yang berdistribusi Bernoulli. Kata kunci : distribusi prior, prior Jeffry loss function, distribusi posterior, discrepancy loss function, estimasi titik Bayesian obyektif.
intrinsic
1. Pendahuluan Estimasi titik Bayesian mendasarkan diri pada pemilihan prior dan loss function. Dalam makalah ini akan dipaparkan tentang estimasi titik Bayesian obyektif akan memberikan estimasi tentang parameter populasi yang hanya didasarkan pada anggapan distribusi populasi dan data. Pada dasar teori diberikan penjelasan tentang reference prior, reference posterior, descrepancy intrinsic, dan instrinsic statistic. Studi simulasi digunakan untuk memberikan penjelasan dari dasar teori yang sudah dipaparkan. 2. Dasar Teori Paradigma Bayesian menyatakan bahwa hasil dari sembarang masalah inferensi (distribusi posterior) merupakan gabungan dari informasi yang disediakan oleh data dan informasi prior relevan yang tersedia. Akan tetapi jika tidak ada informasi prior yang tersedia maka sangat beralasan untuk memilih fungsi prior yang telatif uninformative artinya distribusi prior yang memberikan pengaruh minimum pada inferensi posterior. Secara lebih formal, misalkan bahwa mekanisme probabilitas yang membangkitkan data yang tersedia x dianggap sebagai p(x| ) untuk suatu dan kuantitas yang menjadi perhatian adalah fungsi yang bernilai real () dari . Dengan tanpa menghilangkan keumuman, misalkan model probabilitas yang digunakan berbentuk { p ( x | , ) } dengan adalah parameter nuisance yang dipilih. Dalam hal ini diperlukan untuk mengidentifikasi fungsi prior bersama (,) yang akan mempunyai pengaruh minimal pada distribusi posterior marginal dengan kuantitas yang menjadi perhatian yaitu ( | x) p( x | , ) ( , ) d
sehingga akan memenuhi istilah “would let the data speak for themselves”. Bernardo dan Rueda (2002) mengusulkan untuk menggunakan reference prior sebagai prior
yang dapat memberikan pengaruh minimal pada distribusi posterior. Dalam kasus dimensi satu, reference prior merupakan prior Jeffry. Dengan menggunakan prior ini maka penyelesaian masalah estimasi hanya tergantung pada model anggapan dan data pengamatan. Dengan alasan ini maka estimasi titik yang menggunakan metode ini dinamakan sebagai estimasi titik Bayesian obyektif (Bernardo dan Juarez, 2003). Diskrepansi intrinsik (intrínsic discrepancy) (p1, p2) antara dua fungsi densitas p1(x) dengan x X1 dan p2(x) dengan x X2 didefinisikan sebagai ( p1 , p2 ) min K ( p2 ( x) | p1 ( x) ) , K ( p1 ( x) | p2 ( x) ) dengan p ( x) K ( p1 ( x) | p2 ( x)) p1 ( x) log 1 dx . p2 ( x ) X Untuk dua keluarga fungsi densitas M 1 p1 ( x | ) , x 1 ( ) , dan M 2 p2 ( x | ) , x 2 ( ) , dapat didefinisikan diskrepansi intrinsik * ( M 1 , M 2 ) min p1 ( x | ) , p2 ( x | ) . ,
Diskrepansi intrinsik diusulkan sebagai fungsi kerugian ( loss function ) obyektif untuk estimasi titik. Misalkan bahwa deskripsi yang sesuai dari tingkah laku probabilistik dari kuantitas random x diberikan oleh model { p ( x | , ), x , , } . Diskrepansi intrinsik antara p ( x | , ) dan keluarga densitas { p ( x | 0 , ), } adalah * ( , ; 0 ) inf ( , ; 0 , 0 ) 0
dengan
( , ; 0 , 0 ) min K ( 0 , 0 | , ) , K ( , | 0 , 0 ) .
Misalkan { p ( x | , ), x , , } adalah model parametrik yang dapat digunakan untuk menggambarkan tingkah laku kuantitas random x. Didefinisikan intrinsik statistik (intrinsic statistic) sebagai d ( 0 | x) E * [ * | x] * ( , ; 0 ) * ( , | x) d d
dengan * ( , | x) adalah posterior referensi untuk parameter dari model p ( x | , ) bila * ( , ; 0 ) adalah parameter yang menjadi perhatian. Intrinsik statistik merupakan ukuran dari kekuatan bukti melawan penggunaan p ( x | 0 , ) sebagai proxy untuk p ( x | , ) . Proxy terbaik dicapai pada suatu nilai yang menghasilkan kerugian terkecil. Misalkan { p ( x | , ), x , , } adalah model parametrik yang sesuai untuk menggambarkan tingkah laku probabilistik dari kuantitas random x. Estimator intrinsik (intrinsic estimator) atau estimasi titik Bayesian obyektif didefinisikan sebagai yaitu parameter yang meminimalkan statistik intrinsik
~
* * ( x) arg min d ( | x) . ~
(Juarez, 2004). Metode yang telah dijelaskan di atas dapat diterapkan pada data hasil sampel berikut ini. Misalkan dimiliki data x = { x1, x2, ...., xn } yang terdiri dari pengamatan Bernoulli yang saling bebas dan tergantung pada sehingga x (1 )1 x dengan x = { 0, 1 }. Mudah dibuktikan bahwa Kullback-Leibler divergence antara p( x | 2 ) dan p( x |1 ) adalah K ( 2 | 1 ) 1 log[ 1 / 2 ] (1 1 ) log[ (1 1 ) /(1 2 )] dan diskrepansi intrinsik antara p ( x | e ) dan p ( x | ) dapat dinyatakan sebagai
K ( | e ) ( e ,1 e ) ( e , ) n . e K ( | ) yang lain 1 1 Dalam hal ini prior Jeffry adalah ( ) Beta , dan reference posterior yang 2 2 n 1 1 bersesuaian adalah ( | x) Beta r , n r dan r xi . Selanjutnya 2 2 i 1 diperoleh intrinsik statistik 1 1 1 d ( e , x) ( e , ) Beta r , n r d 0 2 2 dan estimator titik Bayesian obyektif adalah * yang meminimumkan intrinsik statistik yaitu * * ( x) arg min d ( e | x)
e ( 0 ,1)
yang dengan mudah dapat ditentukan dengan menggunakan integrasi numerik satu dimensi (Bernardo, 2009). 3. Studi Simulasi dan Pembahasan Pada persamaan (1) terlihat bahwa intrinsik statistik ditentukan oleh n dan r sehingga dalam studi simulasi ini diambil beberapa nilai n dan r. Apabila diketahui n dan r maka estimator titik Bayesian obyektif dapat ditentukan dengan menggunakan persamaan (2). Tabel 1 memberikan hasil estimasi titik Bayesian obyektif * jika diberikan berturut-turut n = 10, 50, 100, 1000 dan statistik cukup untuk yaitu r. Terlihat bahwa untuk r = 0 estimasi titik Bayesian obyektif tidak memberikan nilai nol dan berarti hal ini kontras dengan estimasi titik dengan metode MLE (maximum likelihood estimator) yang bernilai nol. Hal ini dapat dijelaskan bahwa jika kita mempunyai sampel ukuran 100 orang misalnya dan bila tidak menemui adanya orang yang berpenyakit tertentu yang jarang dijumpai maka tidaklah berarti prevalensinya nol tetapi estimasi titik Bayesian obyektif akan memberikan estimasi sebesar 0,0075. Untuk r yang lain, makin besar ukuran sampel n maka estimasi titik yang diperoleh makin dekat dengan estimasi titik MLE. Di samping itu, pada Gambar 1 juga digambarkan nilai statistik intrinsik pada saat n = 100 dan r = 20, 40, 60 dan 80. Terlihat bahwa estimasi titik Bayesian obyektif memberikan nilai estimasi yang beralasan.
Tabel 1. Hasil estimasi titik Bayesian obyektif untuk * jika diberikan n dan r.
r
0
2
4
6
8
r
0,0399 0
0,2113 10
0,4012 20
0,5908 30
0,7727 40
r
0,0119 0
0,2026 20
0,4006 40
0,5980 60
0,7941 80
n 10 n 50 n 100 r
0,2001
0,4004 400 0,4000
0,5990 600 0,5999
0,7997
0.2
0.4
0.6
0.8
300 0 100
intrinsic statistics
600 400 200
0.0
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.6
0.8
1.0
400 0
200
intrinsic statistics
300 0 100
600
theta
500
theta
intrinsic statistics
0,7970 800
500
0,0024
0,2014 200
0
intrinsic statistics
n 1000
0,0075 0
0.0
0.2
0.4
0.6 theta
0.8
1.0
0.0
0.2
0.4 theta
Gambar 1. Grafik hubungan antara statistik intrinsik pada interval (0,1) untuk n=100 dan r masingmasing 20 (kiri atas), 40 (kanan atas), 60 (kiri bawah), 80 (kanan bawah).
Simulasi Monte Carlo dilakukan dengan cara membangkitkan sampel ukuran n = 100 dari distribusi Bernoulli dengan probabilitas sukses yang dipilih yaitu 0,2 dan kemudian dihitung estimasi titik parameter dengan metode Bayesian obyektif dan apabila hal itu diulang sebanyak B = 500 kali maka akan diperoleh histogram dari hasil estimasi titik tersebut. Cara ini dapat juga dilakukan untuk n = 100 dan parameter yang digunakan untuk membangkitkan adalah 0,4; 0,6 dan 0,8. Histogram dari hasil-hasil tersebut dinyatakan pada Gambar 2. Hasil yang sama juga dapat dilihat pada Gambar 3 untuk n = 1000 dan yang digunakan untuk membangkitkan adalah 0,2; 0,4; 0,6 dan 0,8. Terlihat bahwa untuk n membesar, rentang hasil estimasi cenderung mengecil.
10 0
0.10
0.20
0.30
0.25
0.35
0.45
0.55
Histogram dari Estimasi Titik
Histogram dari Estimasi Titik
10 5 0
5
Density
10
15
theta = 0.4
15
theta = 0.2
0
Density
5
Density
10 5 0
Density
15
Histogram dari Estimasi Titik
15
Histogram dari Estimasi Titik
0.45
0.55
0.65
0.75
0.70
0.80
theta = 0.6
0.90
theta = 0.8
Gambar 2. Histogram dari estimasi titik dari sampel hasil simulasi bila digunakan n = 100 dan = 0,2; 0,4; 0,6 dan 0,8.
25 0 5
0.16
0.18
0.20
0.22
0.24
0.36
0.38
0.40
0.42
0.44
Histogram dari Estimasi Titik
Histogram dari Estimasi Titik
25 15 0 5
15
Density
25
35
theta = 0.4
35
theta = 0.2
0 5
Density
15
Density
25 15 0 5
Density
35
Histogram dari Estimasi Titik
35
Histogram dari Estimasi Titik
0.56
0.58
0.60
0.62
theta = 0.6
0.64
0.76
0.78
0.80
0.82
0.84
theta = 0.8
Gambar 3. Histogram dari estimasi titik dari sampel hasil simulasi bila digunakan n = 1000 dan = 0,2; 0,4; 0,6 dan 0,8.
4. Kesimpulan dan Saran Dalam makalah ini telah dijelaskan tentang bagaimana mengestimasi parameter populasi berdasarkan sampel bila dianggap bahwa populasi mengikuti distribusi tertentu yang diketahui dan hanya tergantung pada parameter yang tidak diketahui. Dengan menggunakan metode Bayesian obyektif maka estimasi titik yang diperoleh nantinya hanya didasarkan pada anggapan distribusi populasi dan data. Penelitian ini dapat diperluas untuk distribusi anggapan yang lain maupun estimasi interval dengan metode Bayesian obyektif. 5. Daftar Pustaka [1]
Bernardo, J. M. dan M. A. Juarez, 2003, Intrinsic Estimation, Bayesian Statistics 7, Oxford : University Press. [2] Bernardo, J. M. and Rueda, R. , 2002, Bayesian hypothesis testing: A reference approach. International Statistical Review 70, 351-372. [3] Bernardo, J. M., 2009, Statistics : Bayesian Methodology in Statistics, Comprehensive Chemometrics ( S. Brown, R. Tauler dan R. Walczak eds) Oxford : Elsevier. [4] Juarez, M. A. , 2004, Objective Bayesian Methods for Estimation and Hypothesis Testing, Valencia : University of Valencia.