Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
Perbandingan Metode Pendugaan Kemungkinan Maksimum (MLE) dan Pendugaan Kuadrat Terkecil (LSE) Dalam Distribusi Keandalan I Nyoman Latra1, dan Winarti2 Abstrak Pendugaan adalah salah satu bagian penting dari statistika inferensi. Mendapatkan penduga parameter distribusi yang dianggap paling sesuai untuk mendeskripsikan lama hidup suatu komponen tertentu dalam analisis keandalan memerlukan suatu metode yang harus dipilih. Pada paper ini metode Pendugaan Kemungkinan Maksimun (MLE) dibandingkan dengan metode Pendugaan Kuadrat Terkecil (LSE) yang meliputi metode Median Rank dan Modified Kaplan-Meier untuk menduga parameter distribusi Normal , 2 , Log-normal , 2 , Weibull , , dan Exponensial menggunakan simulasi monte carlo. Metode terbaik adalah metode yang menghasilkan penduga dengan tingkat akurasi dan presisi paling tinggi. Jika salah satu metode menghasilkan penduga dengan tingkat akurasi paling tinggi, sedangkan metode yang lain menghasilkan penduga dengan tingkat presisi paling tinggi maka keputusan tidak dapat diambil berdasarkan pada kriteria ini. Hasil simulasi memberikan kesimpulan bahwa: • pendugaan parameter μ pada distribusi Normal dan Log-normal memberikan hasil yang sama baik menggunakan metode MLE maupun metode LSE, sedangkan pendugaan parameter σ2 bagi distribusi Log-normal metode Modified Kaplan-Meier lebih baik pada n = 10 dan metode MLE lebik baik pada n ≥ 20. • pendugaan parameter θ pada distribusi Weibull menggunakan metode MLE lebih baik dari pada metode Modified Kaplan-Meier kecuali pada β = 5 dan β = 10 untuk n = 10. • pendugaan parameter θ pada distribusi Exponensial metode MLE lebih baik dari pada metode LSE. Kata Kunci : Analisis Keandalan, MLE, LSE, Simulasi Monte Carlo.
Pendahuluan Salah satu bagian penting dari statistika inferensi adalah pendugaan titik. Pendugaan titik mendasari terbentuknya statistika inferensi sama halnya seperti pendugaan selang dan uji hipotesis. Oleh karena itu perlu dicari suatu penduga titik yang sesuai bagi parameter populasi dari distribusi tertentu (Murray dkk., 1994). Metode Pendugaan Kemungkinan Maksimum (MLE) merupakan metode pendugaan titik yang sering digunakan untuk menduga parameter distribusi. Selain metode MLE, kadang metode pendugaan lain yang digunakan adalah metode Regresi Rank (Rank Regression ; RR) dan dikenal dengan istilah metode LSE. Dobkins dan Iaonnides (2000), Nishiyama dan Osada (2004) membandingkan metode MLE dan RR yang merekomendasikan untuk tidak menggunakan metode RR dalam menduga parameter distribusi jumlah penduduk kota-kota di suatu negara. Marquart (1998) menggunakan simulasi monte carlo dan ternyata metode MLE lebih baik daripada metode RR. Disamping itu juga disimpulkan bahwa dengan menganggap Y sebagai fungsi dari
X
dalam metode RR akan memberikan hasil yang lebih baik daripada menganggap X
sebagai fungsi
1 2
Y.
Dosen Jurusan Statistika FMIPA-ITS Alumni Jurusan Statistika FMIPA-ITS
1
Pemilihan distribusi yang sesuai untuk mendeskripsikan distribusi usia pakai suatu komponen merupakan hal yang sangat penting. Dengan demikian perlu adanya pemilihan metode pendugaan yang terbaik guna memperoleh penduga parameter distribusi tersebut. Atas dasar ini, penulis bermaksud membandingkan metode Pendugaan Kemungkinan Maksimun (MLE) dan metode Pendugaan Kuadrat Terkecil (LSE) untuk menduga parameter distribusi keandalan meliputi Normal dan Eksponensial
2
,
, Lognormal ,
2
, Weibull , ,
.
Data yang digunakan adalah data simulasi dibangkitkan dengan Matlab 6.5.1, pada ukuran sampel sebesar 10, 20, 30, 100 dan 1000. Perbandingan antar metode pendugaan berdasarkan pada tingkat akurasi dan presisi penduga parameternya.
Metode terbaik
adalah metode yang menghasilkan penduga dengan tingkat akurasi dan presisi paling tinggi. Jika salah satu metode menghasilkan penduga dengan tingkat akurasi tertinggi, sedangkan metode yang lain menghasilkan penduga dengan tingkat presisi tertinggi maka kesimpulan tidak dapat diambil menggunakan kriteria yang ada dalam paper ini. Para partisipan disarankan untuk mencari kriteria lain apabila menemukan kasus tersebut yang dalam tulisan ini tidak dibahas. Keandalan (Reliability) Keandalan dalam pengertian sehari-hari dapat diartikan sebagai kemampuan atau tingkat berfungsinya suatu alat atau komponen (Ebeling, 1997). Plot peluang adalah plot
Y' dan X merupakan hasil transformasi dari nilai Y sebagai peluang kummulatif dan data X sedemikian hingga fungsi distribusi kumulatif dari kandidat distribusi menjadi linear atau dapat dinyatakan dalam bentuk Y . 0 1X antara
Y dengan X
(dimana
Dari plot ini dimungkinkan untuk memperoleh dugaan parameter distribusi data (Ebeling, 1997). Beberapa distribusi yang sering digunakan untuk mendeskripsikan distribusi usia pakai suatu komponen tertentu antara lain adalah distribusi Normal, Lognormal, Weibull, dan Eksponensial (Ebeling, 1997). Fungsi kepadatan peluang, distiribusi kumulatif dan dugaan parameternya disajikan sebagai berikut, a. Distribusi Normal Fungsi kepadatan peluang (pdf) dari distribusi Normal 1 x
f (x | , 2 )
,
2
adalah,
2
1 e2 2
–
<
x<
dimana μ merupakan parameter mean distribusi dengan jangkauan nilai – 2
< μ <
merupakan parameter ragam distribusi dengan jangkauan nilai, 0 < σ2 < . 2
dan
y F(x | , 2) Penduga bagi
dan
2
1
(
2
,
Distribusi peluang kummlatif (cdf) dari distribusi Normal
adalah,
x)
(1)
menggunakan metode MLE menghasilkan,
n 1n 2 ˆMLE x 1 xi dan ˆMLE x ni 1 ni 1 i
ˆMLE 2
(2)
Pendugaan berdasarkan metode LSE diawali dengan melinierkan persamaan (1) menjadi
1 yang selanjutnya ditransformasi ke y' b b x . Parameter b dan x b1 0 1 0
1
( y)
diduga dengan menggunakan metode OLS sehingga diperoleh penduga LSE,
b0 dan ˆ 1 MLE b1 b1
ˆLSE
(3)
b. Distribusi Log-normal Fungsi kepadatan peluang (pdf) dari distribusi Log-normal
1 f (x | , ) x 2 2
e
,
2
adalah,
2
1 lnx 2
, 0<
x<
dimana μ merupakan parameter lokasi dengan jangkauan nilai –
< μ <
dan
merupakan parameter skala dengan jangkauan nilai, 0 < σ < . Distribusi peluang kummlatif (cdf) dari distribusi Log-normal
y F(x | , 2 ) Penduga bagi
dan
2
1
(
,
2
ln x)
adalah, (4)
menggunakan metode MLE menghasilkan,
n 1n 2 ˆMLE 1 ln xi dan ˆMLE ln x ni 1 ni 1 i
ˆMLE 2
(5)
Pendugaan berdasarkan metode LSE pada distribusi Log-normal serupa dengan pada distribusi Normal yaitu melinierkan (4) menjadi ditransformasi ke y'
1
( y)
1
ln x yang selanjutnya
b0 b1x' . Parameter b0 dan b1 diduga dengan menggunakan metode
OLS sehingga diperoleh penduga LSE,
ˆLSE
b0 dan ˆ 1 MLE b1 b1
(6)
3
c. Distribusi Weibull Fungsi kepadatan peluang (pdf) dari distribusi Weibull(θ, β) adalah, x 1
f (x | , ) dimana
x e
, 0<
x<
merupakan parameter skala dengan jangkauan nilai
merupakan parameter bentuk dengan jangkauan nilai 0 <
0
dan
< .
Distribusi peluang kummlatif (cdf) dari distribusi Weibull(θ,β) adalah, x
y F(x | , ) 1 e
(7)
Penduga bagi θ dan β menggunakan metode MLE menghasilkan,
ˆMLE
1 n ˆMLE x ni 1 i
1 ˆMLE
dan
n
ˆMLE
n
ˆ 1 xi MLE logxi ni 1
(8)
n
logxi i 1
Seperti halnya pada distribusi normal dan Log-normal persamaan (7) dilinierkan menjadi
ln ln
1
ln
1 y
y'
ln
x'
ln x
yang selanjutnya ditransformasi dua kali pertama ke
y' b0 b1x' . Juga parameter b0 dan b1 diduga dengan
kemudian ke
menggunakan metode OLS sehingga diperoleh penduga LSE, b0
ˆLSE e b1 dan ˆMLE b1
(9)
d. Distribusi Eksponensial Fungsi kepadatan peluang (pdf) dari distribusi Eksponensial(θ) adalah,
f x| dimana
1
x
e , 0< x <
adalah parameter mean distribusi dengan jangkauan nilai 0 <
< .
Distribusi peluang kummlatif (cdf) dari distribusi Eksponensial(θ) adalah, x
y F x|
=
1 e
(10)
Penduga bagi θ menggunakan metode MLE menghasilkan, n ˆMLE x 1 xi ni 1
(11)
4
Dengan melinierkan persamaan (10) menjadi Parameter
x ditransformasi ke y' b1x .
ln(1 y)
b1 diduga dengan menggunakan metode OLS sehingga diperoleh penduga LSE,
ˆMLE
1 b1
(12)
Dari semua distribusi di atas distribusi peluang kummulatif (cdf) dalam metode LSE rumusannya diberikan secara empirik yaitu: untuk Modified Kaplan-Meier; dimana
i 0,3 n 0,4
untuk Median Rank, dan
i 0,5 n
i 1, 2, ...,n .
Metodologi Penelitian Data dalam paper ini diperoleh dari hasil pengacakan menggunakan perangkat lunak Matlab 6.5.1 sebagai peubah X dan dibangkitkan untuk distribusi-distribusi Normal Log-normal
,
2
, Weibull(θ,β), dan Eksponensial(θ). Sedangkan peubah
,
2
,
Y adalah nilai
cdf yang disimulasikan dengan rumus yang telah ditentukan. Suatu himpunan terdiri dari 1000 data bangkitan untuk setiap simulasi dengan ukuran sampel sebesar 10, 20, 30, 100 dan 1000 dipakai untuk menduga parameter distribusi dengan metode MLE dan LSE. Kombinasi nilai-nilai parameter disesuaiakan dengan parameter distribusi yang sedang diamati. Mean dan 95% selang kepercayaan dua arah bagi mean dihitung untuk semua penduga-penduga yang diperoleh dari satu himpunan data tersebut. Selanjutnya dilakukan pembandingan antara penduga yang diperoleh dengan metode MLE dan penduga yang diperoleh dengan metode LSE. Metode terbaik adalah metode yang menghasilkan penduga paling akurat (yang nilai biasnya paling kecil) dan paling presisi (yang 95% selang kepercayaan dua arahnya paling sempit). Hasil dan Pembahasan a. Distribusi Normal Peubah X berdistribusi Normal
,
2
dibangkitkan dengan kombinasi ukuran sampel
dan nilai parameter disajikan pada Tabel 5 (Lampiran). Untuk menduga parameter μ dan σ dengan metode MLE menggunakan rumus pada persamaan (2), sedangkan pendugaan dengan metode LSE menggunakan rumus pada persamaan (3). Hasil yang diperoleh dari analisis data simulasi berdistribusi Normal metode yang digunakan disajikan pada Tabel 1.
5
,
2
untuk berbagai ukuran sampel dan
Tabel 1. Hasil Analisis Data Simulasi Berdistribusi Normal Metode
MLE Median Rank Modified Kaplan-Meier
Pendugaan n = 10 n Akurasi Presisi Akurasi Sama Sama Sama Sama Sama Sama Sama Sama Sama
,
2
Pendugaan
n = 10 20 n 20 Presisi Akurasi Presisi Akurasi Presisi Sama Tertinggi Tertinggi Sama Sama Tertinggi Tertinggi
b. Distribusi Log-normal Peubah X berdistribusi Log-normal
,
2
dibangkitkan dengan kombinasi ukuran
sampel dan nilai parameter disajikan pada Tabel 6 (Lampiran). Untuk menduga parameter μ dan σ dengan metode MLE menggunakan rumus pada persamaan (5), sedangkan pendugaan dengan metode LSE menggunakan rumus pada persamaan (6). Hasil yang diperoleh dari analisis data simulasi berdistribusi Log-normal
,
2
,
2
untuk berbagai
ukuran sampel dan metode yang digunakan disajikan pada Tabel 2. Tabel 2. Hasil Analisis Data Simulasi Berdistribusi Log-normal Metode
MLE Median Rank Modified Kaplan-Meier
Pendugaan n = 10 n Akurasi Presisi Akurasi Sama Sama Sama Sama Sama Sama Sama Sama Sama
Pendugaan
n = 10 20 n 20 Presisi Akurasi Presisi Akurasi Presisi Sama Tertinggi Tertinggi Sama Sama Tertinggi Tertinggi
c. Distribusi Weibull Peubah X berdistribusi Weibull ,
dibangkitkan dengan kombinasi ukuran sampel
dan nilai parameter disajikan pada Tabel 7 (Lampiran). Untuk menduga parameter θ dan β dengan metode MLE menggunakan rumus pada persamaan (8), sedangkan pendugaan dengan metode LSE menggunakan rumus pada persamaan (9). Hasil yang diperoleh dari analisis data simulasi berdistribusi Weibull , metode yang digunakan disajikan pada Tabel 3.
6
untuk berbagai ukuran sampel dan
Tabel 3. Hasil Analisis Data Simulasi Berdistribusi Weibull , Metode
MLE
Median Rank Modified Kaplan-Meier
Pendugaan β n = 10 20 n 20 Akurasi Presisi Akurasi Presisi Akurasi Presisi Akurasi Presisi Tertinggi Tertinggi Tertinggi Tertinggi Tertinggi untuk β=0,9 dan β=2 Tertinggi Tertinggi Tertnggi Tertinggi untuk β=5 dan β=10
n = 10
Pendugaan θ
n
d. Distribusi Eksponensial Peubah X berdistribusi Eksponensial
dibangkitkan dengan kombinasi ukuran
sampel dan nilai parameter disajikan pada Tabel 8 (Lampiran). Untuk menduga parameter θ dengan metode MLE menggunakan rumus pada persamaan (11), sedangkan pendugaan dengan metode LSE menggunakan rumus pada persamaan (12). Hasil yang diperoleh dari analisis data simulasi berdistribusi Eksponensial
untuk berbagai ukuran sampel dan
metode yang digunakan disajikan pada Tabel 4. Tabel 4. Hasil Analisis Data Simulasi Berdistribusi Eksponensial Pendugaan
n = 10
Metode
Akurasi Tertinggi
MLE Median Rank Modified Kaplan-Meier
Presisi Tertinggi
n Akurasi Tertinggi
20 Presisi Tertinggi
Kesimpulan Berdasarkan hasil analisis di atas dapat ditarik suatu kesimpulan sebagai berikut : a. Untuk distribusi Normal
,
2
pada ukuran sampel sebesar 10, 20, 30, 100, dan 1000
pendugaan parameter μ dengan metode MLE maupun LSE (yang meliputi metode Median Rank dan Modified Kaplan-Meier) ternyata hasilnya sama. Sedangkan untuk pendugaan parameter
2
, dengan kriteria pembandingan ini belum bisa disimpulkan.
b. Untuk distribusi Log-normal
,
2
pada ukuran sampel sebesar 10, 20, 30, 100, dan
1000 pendugaan parameter μ dengan metode MLE maupun LSE (yang meliputi metode Median Rank dan Modified Kaplan-Meier) ternyata hasilnya sama. Sedangkan untuk pendugaan parameter
2
, kelihatan dengan metode MLE masih lebih baik dibandingkan
7
dengan metode LSE kecuali pada n = 10 dengan metode Modified Kaplan-Meier lebih baik dibandingkan dengan metode lainnya. c. Untuk distribusi Weibull
,
, pendugaan parameter
ternyata hanya pada ukuran
sampel n = 10 bisa disimpulkan yaitu dengan metode Median Rank lebih baik dibandingkan dengan metode yang lain dan pada ukuran sampel lebih dari 10 dengan kriteria pembandingan ini masih belum bisa disimpulkan. Sedangkan untuk pendugaan parameter
, pada ukuran sampel sebesar 10, 20, 30, 100, dan 1000 terlihat dengan
metode MLE lebih baik daripada dengan metode LSE kecuali pada ukuran sampel
n=
10 dan nilai β > 2 dengan metode Modified Kaplan-Meier lebih baik dibandingkan dengan metode lainnya. d. Untuk distribusi Eksponensial
pada ukuran sampel sebesar 10, 20, 30, 100, dan 1000
pendugaan parameter θ dengan metode MLE lebih baik dibanding dengan metode LSE (yang meliputi metode Median Rank dan Modified Kaplan-Meier). Daftar Pustaka Dobkins, L. dan Iaonnides, Y. M. (2000). “Dynamic evolution of the US city size distribution. In: Huriot, J. M. and J. F. Thisse (Eds.), The economics of cities”. Cambridge University Press, Cambridge, hal. 217–260. Drapper, N.R. dan Smith, H. (1992). Analisis Regresi Terapan, edisi kedua, PT Gramedia Pustaka Utama, Jakarta. Ebeling, C.E. (1997). An Introduction to Reliability and Maintainability Engineering, McGraw-Hill Books Companies. Singapore. Evans, M., Hastings, N., dan Peacock, B. (2000). Statistical Distribution. 3th ed. John Willey & Sons. New York. Hogg, R.V. dan Craig, A.T. (1995). Introduction to Mathematical Statistics. Prentice-Hall, Inc. New Jersey. Lewis, E.E. (1996). Introduction to Reliability Engineering. 2th ed. John Wiley and Sons. Canada. Marquart, T. A. (1998). “Comparison of Methods for Interval Data Using Monte Carlo Simulations”. Weibull News (Issue 13). www.bobabernethy.com/docs. Dawn Load tanggal 29-09-2006. Murray, D. M., Rooney, B. L., Hannan, P. J., Peterson, A. V., Ary, D. V., Biglan, A., Botvin, G. J., Evans, R. I., Flay, B. R., dan Futterman, R. (1994). “Intraclass correlation among common measures of adolescent smoking: Estimates, correlates, and applications in smoking prevention studies”. American Journal of Epidemiology, vol. 140, hal. 1038–1050. 8
Nishiyama, Y. dan Osada, S. (2004). “Statistical Theory of Rank Size Rule Regression under Pareto Distribution”. 21COE Interfaces for Advanced Economic Analysis Kyoto. University. O’Connor, P. D. T. (1995). Practical Reliability Engineering. John Willey & Sons. New York. Roussas, G.G. (1972). A First Course in Mathematical Statistics. Addison Wesley Publishing Company. London.
Lampiran Tabel 5. Kombinasi ukuran sampel n dan nilai parameter distribusi Normal , 2 Himpunan Data 1 2 3 4 5 6 7 8
n 10 10 10 20 20 20 30 30
10 10 10 10 10 10 10 10
0,5 2 4 0,5 2 4 0,5 2
Himpunan Data 9 10 11 12 13 14 15
n 30 100 100 100 1000 1000 1000
10 10 10 10 10 10 10
4 0,5 2 4 0,5 2 4
1 1 1 1 1 1 1
1,3 0,4 1 1,3 0,4 1 1,3
Tabel 6. Kombinasi ukuran sampel n dan nilai parameter distribusi Log-ormal , 2 Himpunan Data 1 2 3 4 5 6 7 8
n 10 10 10 20 20 20 30 30
1 1 1 1 1 1 1 1
0,4 1 1,3 0,4 1 1,3 0,4 1
9
Himpunan Data 9 10 11 12 13 14 15
n 30 100 100 100 1000 1000 1000
Tabel 7. Kombinasi ukuran sampel n dan nilai parameter distribusi Weibull , Himpunan Data 1 2 3 4 5 6 7 8 9 10
n 10 10 10 10 20 20 20 20 30 30
θ 10 10 10 10 10 10 10 10 10 10
β 0,9 2 5 10 0,9 2 5 10 0,9 2
Himpunan Data 11 12 13 14 15 16 17 18 19 20
n 30 30 100 100 100 100 1000 1000 1000 1000
θ 10 10 10 10 10 10 10 10 10 10
Tabel 8. Kombinasi ukuran sampel n dan nilai parameter distribusi Eksponensial(θ) Himpunan Data 1 2 3 4 5 6 7 8
n
10 10 10 20 20 20 30 30
θ 2 10 20 2 10 20 2 10
Himpunan Data 9 10 11 12 13 14 15
10
n
30 100 100 100 1000 1000 1000
θ 20 2 10 20 2 10 20
β 5 10 0,9 2 5 10 0,9 2 5 10