PENDUGA SELANG KEPERCAYAAN NILAI TENGAH DENGAN PENDEKATAN KLASIK, BAYES, DAN BOOTSTRAP * Adji Achmad Rinaldo Fernandes, SSi, MSc **
ABSTRAK
Pada suatu penelitian, terkadang diamati karakteristik dari sebuah populasi (misalnya nilai tengah, ragam, median, maupun proporsi). Dengan berbagai keterbatasan dan kendala, tidak dimungkinkan mengamati keseluruhan dari elemen populasi. Langkah alternatif yaitu dilakukan pendugaan populasi dengan menggunakan sampel yang diambil secara acak dari sebuah populasi. Pada penelitian ini dilakukan pendugaan selang nilai tengah satu populasi (). Terdapat tiga metode yang akan dikaji yaitu metode klasik, pendekatan bayes, dan pendekatan bootstrap. Penelitian ini difokuskan pada pendugaan nilai tengah menggunakan ketiga pendekatan dan membandingkan hasil yang diperoleh dari ketiga pendekatan tersebut. Hasil pengujian menggunakan sebuah data satu populasi diperoleh penduga nilai tengah populasi ketiga metode relatif sama, di mana metode Bootstrap menghasilkan selang kepercayaan terkecil. Kata kunci: selang kepercayaan, klasik, bayes, dan bootstrap
I. PENDAHULUAN
1. Latar Belakang Keseluruhan pengamatan yang menjadi perhatian baik terhingga maupun takhingga menyusun apa yang disebut populasi. Pada suatu penelitian, terkadang diamati karakteristik dari sebuah populasi. Beberapa macam ukuran statistik digunakan untuk mengetahui karakteristik dari populasi, misalnya nilai tengah, ragam, median, atau proporsi. Dalam inferensia statistik kita ingin memperoleh kesimpulan mengenai populasi, meskipun kita tidak mungkin atau tidak praktis untuk mengamati keseluruhan individu yang menyusun populasi. Dengan berbagai keterbatasan dan kendala, tidak dimungkinkan mengamati keseluruhan dari elemen populasi. Langkah alternatif yaitu dilakukan pendugaan populasi dengan menggunakan sampel yang diambil secara acak dari sebuah populasi. Salah satu sistem pendugaan parameter populasi berdasarkan statistik sampel adalah dengan selang kepercayaan (confidence interval) di mana sistem ini menghasilkan dugaan parameter yang representatif. Teori inferensia statistik mencakup semua metode yang digunakan dalam penarikan kesimpulan atau generalisasi mengenai suatu populasi. Kecenderungan yang terjadi pada masa kini dalam hal pendugaan suatu parameter populasi adalah terdapatnya perkembangan dari metode klasik yang mendasarkan kesimpulannya semata-mata pada informasi yang diperoleh dari suatu contoh acak yang ditarik dari populasi tersebut. Dua metode baru yang diangkat pada penelitian ini adalah metode Bayes dan Bootstrap. Metode Bayes menggunakan atau menggabungkan pengetahuan subyektif mengenai sebaran peluang parameter yang tidak diketahui dengan informasi yang diperoleh dari data sampel. Metode bootstrap menggunakan pendekatan klasik yang menggunakan pengulangan sampel.
* Disajikan pada Seminar Basic Science 5, 16 Februari 2008 ** Dosen Program Studi Statistika, Fakultas MIPA, Universitas Brawijaya
1
2. Perumusan Masalah Berdasarkan latar belakang di atas, permasalahan yang ingin dikemukakan adalah Bagaimana penggunaan pendugaan selang nilai tengah satu populasi dengan menggunakan metode klasik, pendekatan bayesian, dan pendekatan bootstrap dan perbandingan ketiga metode tersebut?
3. Tujuan dan Manfaat Tujuan dari penelitian ini adalah menggunakan pendugaan selang nilai tengah satu populasi dengan menggunakan metode klasik, pendekatan bayesian, dan pendekatan boostrap dan perbandingan ketiga metode. Manfaat dari penelitian ini adalah agar para peneliti dapat menggunakan metode pendekatan bayesian dan pendekatan bootstrap sebagai alternatif dalam pendugaan parameter, selain metode klasik yang saat ini populer.
II. TINJAUAN PUSTAKA
1. Pendugaan Selang Kepercayaan dengan Metode Klasik Populasi dari sebuah data diasumsikan berdistribusi normal dengan X N(µ, 2) di mana nilai harapan dari X adalah dengan nilai tengah µ dan ragam 2. Parameter populasi µ dan 2 tidak diketahui. Nilai tengah contoh X dan ragam s2 adalah penduga dari nilai tengah dan ragam populasi: 1 n 1 n X i X 2 ˆ X X i dan ˆ 2 s 2 n i 1 n 1 i 1 di mana Xi adalah peubah acak yang diambil secara acak dari suatu populasi. Nilai harapan dari rata-rata sampel adalah E( X ) = µ dan standar deviasi Se( X ) = . Untuk ukuran sampel n kecil (n < 30) maka populasi menyebar normal (X N(µ, 2)) dan 2 tidak diketahui dan diduga dengan s2, sehingga dapat ditulis: X µ tn-1 s n di mana tn-1 diperoleh dari distribusi t dengan derajat bebas sebesar n-1, sehingga diperoleh selang kepercayaan untuk nilai tengah adalah: P( X t1 / 2,n 1 s < µ < X t1 / 2,n 1 s ) = 95% n n 2. Pendugaan Selang Kepercayaan dengan Pendekatan Bayes
Pada pendekatan klasik, pendugaan selang kepercayaan berasal dari teori penarikan contoh asimptotik, di mana untuk pendekatan Bayes, pendugaan selang kepercayaan berasal dari distribusi posterior yang diperoleh dari bangkitan data contoh yang berasal dari data dan beberapa kepekatan distribusi prior dari parameter. Pada level pertama dari model diasumsikan bahwa distribusi dari contoh adalah normal Level 1 (DATA): Xi N(µ, 2) Pada level kedua, dispesifikasikan distribusi prior untuk μ Level 2 (PRIOR): µ N(μμ , 2μ ) Pada level ketiga atau terakhir, dispesifikasi distribusi hiperprior untuk 2, μμ, 2μ Level 3 (HYPERPRIOR): P(2), P(μμ) and P(2μ)
2
Pada pendekatan bayes ini, akan dibangkitkan sebuah contoh untuk parameter yang tak teramati µ(1), µ(2),…, µ(k) dari distribusi µ. Setiap pembangkitan contoh, dilakukan pendugaan distribusi posterior untuk µ dan dihitung nilai tengah posterior. Penduga selang kepercayaan nilai tengah dengan taraf kepercayaan 95% diperoleh dari persentil ke 2.5% dan 97.5% dari simulasi.
3. Pendugaan Selang Kepercayaan dengan Pendekatan Bootstrap Pendekatan bootstrap ini menggunakan metode resampling (pengambilan contoh berulang). Diasumsikan bahwa distribusi dari data tidak diketahui. Pandang x1 , x 2 ,..., x n adalah contoh acak dari F, yang merumakan distribusi yang tidak diketahui, di mana =(F) adalah * * parameter dan ˆ T ( x1 ,...., x n ) adalah pendugaan untuk . Penduga ˆ * T ( x1 ,...., x n ) yang * * diperoleh dari contoh bootstrap ( x ,...., x ) dinamakan replikasi bootstrap untuk ˆ . 1
a) b) c)
d)
n
Algoritma yang digunakan untuk menghitung selang kepercayaan adalah sebagai berikut: * * Bangkitkan B contoh bootstrap x* ( b ) x1 ( b ),..., x n ( b ) dengan pengulangan dari x1 , x 2 ,..., x n , di mana n adalah ukuran contoh, dan b = 1, …., B di mana B adalah pengulangan bootstrap. Dalam penelitian ini digunakan B sebesar 1000. Hitung replikasi bootstrap ˆ * ( b ) T ( x*( b ) ) , b=1,…, B 1 B Dengan metode pendugaan maximum likelihood diperoleh ˆ * ˆ * ( b ) B b 1 Pendugaan selang kepercayaan 95% diperoleh dari persentil ke 2,5% dan 97,5% untuk masing-masing batas bawah dan batas atas selang
III. METODE PENELITIAN
Pada penelitian ini menggunakan data skor permainan bowling yang disajikan secara lengkap pada Tabel 1. Tabel 1: Data Skor Permainan Bowling No 1 2 3 4 5 6 7 8 9 10 11
Skor 93 119 110 72 99 85 53 70 66 142 63
No 12 13 14 15 16 17 18 19 20 21 22
Skor 72 118 73 102 122 70 81 130 97 89 27
Dengan menggunakan tiga metode yaitu klasik, bayes dan bootstrap dilakukan pendugaan selang kepercayaan satu populasi. Software yang digunakan adalah SPLUS dan Winbugs:
IV. HASIL DAN PEMBAHASAN
1. Pendugaan Selang Kepercayaan dengan Metode Klasik Gambar 1 menunjukkan histogram dan fungsi kepekatan data. Dapat kita lihat bahwa data memiliki distribusi yang asimetrik. Penduga nilai tengah populasi sebesar 88,77 dengan 3
0
0.0
0.002
2
0.004
0.006
4
0.008
0.010
0.012
6
0.014
standar deviasi sebesar 5,90. Selang kepercayaan 95% untuk pendugaan nilai tengah populasi adalah [76,51; 101.05].
20
40
60
80
100
data
120
140
160
0
50
data
100
150
Gambar 1: Histogram dan Fungsi Kepekatan Data 2. Pendugaan Selang Kepercayaan dengan Pendekatan Bayes Pendekatan Bayes ini menggunakan software Winbugs. Pertama, didefinisikan model data dan taksiran nilai awal. Berikutnya, dilakukan simulasi dengan iterasi sebesar 10000. Gambar 2 menunjukan nilai tengah yang diperoleh pada setiap simulasi. Bagian terakhir, digunakan analisis berdasarkan iterasi ke 1001 sampai 10000. 120.0
mu
100.0 80.0 60.0 40.0
1000
2500
5000
iteration
7500
10000
Gambar 2: Trace plot untuk nilai tengah populasi (setelah pembuangan 1000 observasi pertama) Pendugaan fungsi kepekatan untuk distribusi posterior untuk nilai tengah populasi disajikan pada Gambar 3. Pendugaan selang kepercayaan nilai tengah populasi diperoleh dari nilai kuantil 2,5% dan 97,5% dari hasil simulasi.
4
0.08 0.06 0.04 0.02 0.0
mu sample: 9001
40.0
60.0
80.0
100.0
Gambar 3: Fungsi kepekatan pada Distribusi Posterior untuk nilai tengah populasi Penduga nilai tengah distribusi posterior adalah 88,58 dan standar deviasi adalah 6,18. Selang kepercayaan 95% untuk nilai tengah populasi adalah [76,46; 100,30].
0
0.0
200
400
0.02
600
dx$y
800
0.04
1000
1200
0.06
1400
3. Pendugaan Selang Kepercayaan dengan Pendekatan Bootstrap Pendugaan menggunakan Maximum Likelihood pada pendekatan Bootstrap sebesar 88,78 dengan standar deviasi sebesar 5,75. Selang kepercayaan 95% untuk nilai tengah populasi adalah [77,50; 99,95]. Gambar 4 menunjukkan histogram dan fungsi kepekatan untuk nilai tengah contoh berdasarkan hasil 1000 pengulangan bootstrap.
70
80
90
theta.x
100
110
70
80
90
theta
100
110
Gambar 4: Histogram dan Fungsi Kepekatan Nilai Tengah Sampel Berdasarkan 1000 Pengulangan Bootstrap
5
4. Perbandingan Hasil Metode Klasik, Bayes dan Bootstrap Hasil dari ketiga metode disajikan lengkap pada Tabel berikut ini:
Tabel 1: Pendugaan Nilai Tengah, Standar Deviasi dan Selang Kepercayaan Metode Klasik, Bayes dan Bootstrap Metode Klasik Bayes
Bootstrap
Nilai Tengah
Standar Deviasi
88,58
6,18
88,77
88,78
5,90
5,74
Selang Kepercayaan
Batas Bawah Batas Atas 76,51
101,05
77,50
99,95
76,46
100,30
Lebar 24,54
23,84
22,45
Tabel 1 menunjukkan nilai tengah yang diperoleh dari ketiga pendekatan hampir sama, terutama pada metode klasik dan bootstrap. Demikian pula untuk standar deviasi, di mana untuk metode Bayes memiliki standar deviasi terbesar, dan metode Bootstrap memiliki standar deviasi terkecil. Demikian pula untuk selang kepercayaan, di mana untuk metode Bootstrap memiliki lebar selang kepercayaan terkecil. Perbedaan utama dari ketiga metode adalah: 1) pada metode klasik dan bayes diperlukan asumsi distribusi yang melandasi data, sedangkan pada metode bootstrap tidak diasumsikan data berdistribusi tertentu. 2) Metode klasik diperoleh dari multiplikasi dengan nilai kritis. Hal ini menyebabkan selang kepercayaan yang dihasilkan adalah simetrik dengan penduga nilai tengah. Sedangkan untuk metode Bayes dan Bootstrap, pendekatan selang kepercayaan menggunakan pendekatan kuantil ke 2,5% dan 97,5% yang akan menghasilkan selang kepercayaan yang tidak simetris.
V. PENUTUP
Pendugaan selang kepercayaan dapat digunakan dengan metode Klasik, Bayes dan Bootstrap. Pada aplikasi dengan menggunakan data satu populasi diperoleh ketiga metode relatif hampir sama, di mana metode Bootstrap memiliki lebar selang kepercayaan yang paling kecil, mengindikasikan bahwa metode ini lebih teliti dan direkomendasikan untuk digunakan.
DAFTAR PUSTAKA
Dukic, V., dan Hogan, J.W. A hierarchical bayesian approach to modeling embryo implantation following in vitro fertilization. http://biostatistics.oxfordjournals.org/cgi/reprint/3/3/361.pdf. Akses Desember 2007. Akses Desember 2007. Friedman, N., Goldszmidt, M., and Wyner, A. Data analysis with bayesian networks: a bootstrap approach. Http://www.cs.huji.ac.il/~nir/Abstracts/FGW2.html. Akses Desember 2007. Matthew, J. B., Falciani, F., Ghahramani, Z., Rangel, C., dan Wild, D.L.. A Bayesian approach to reconstructing genetic regulatory networks with hidden factors. Http://bioinformatics.oxfordjournals.org/cgi/content/full/21/3/349. Akses Desember 2007. Walpole, R.E. 1995. Pengantar Statistika. PT. Gramedia Pustaka Utama, Indonesia.
6
Lampiran 1. Kode Splus dan Winbugs Kode Splus untuk Metode Klasik data
# histogram of replicates # density estimate # sum the data # sum of square the data # sample size
ml.x<-s.data/n # maximum likelihood estimator for mean ml.sd<-sqrt((ssq.data-s.data^2/n)/(n-1)) # maximum likelihood estimator for standard deviation ml.se<-ml.sd/sqrt(n) df<-n-1
CIL<-ml.x-qt(0.975,df)*ml.se CIU<-ml.x+qt(0.975,df)*ml.se ml.x ml.se CIL CIU
# standard error # degree of freedom # lower limit CI # upper limit CI
Kode Winbugs untuk Metode Bayes model
{
}
for( i in 1 : N ) { data[i] ~ dnorm(mu,tau.c) } tau.c ~ dgamma(0.001,0.001) mu ~ dnorm(alpha,tau.alpha) alpha ~ dnorm(0.0,1.0E-6) tau.alpha ~ dgamma(0.001,0.001)
list(N=22, data=c(93,119,110,72,99,85,53,70,66,142,63,72,118,73,102,122,70,81,130,97,89, 27)) list(mu=10, alpha = 0, tau.c = 1, tau.alpha = 1)
7
Kode Splus untuk Metode Bootstrap data<-c(93,119,110,72,99,85,53,70,66,142,63,72,118,73,102,122,70,81,130,97, 89,27) B<-10000 theta.x<-c(1:B) for (i in 1:B) { data.boot<-sample(data,size=n,replace=T) theta.x[i]<-mean(data.boot) } mu<-mean(theta.x) sd<-stdev(theta.x) CIL<-quantile(theta.x,probs=0.025) CIU<-quantile(theta.x,probs=0.975) mu sd CIL CIU par(mfrow=c(1,2)) hist(theta.x,col=0,nclass=n) dx<-density(theta.x) theta<-dx$x plot(theta,dx$y,type="l")
# number of bootstrap # vector to keep the theta
# draw non-parametric bootstrap sample # calculate theta # # # #
mean of theta standard deviation of theta lower limit confidence interval upper limit confidence interval
# histogram of replicates # density estimate
8