6. Teori Estimasi EL2002-Probabilitas dan Statistik Dosen: Andriyan B. Suksmono
Pendahuluan • Inferensi statistik adalah metoda untuk menarik inferensi atau membuat generalisasi dari suatu populasi. • Ada dua metoda penting: – Klasik: inferensi hanya berdasar pada hasil yng diperoleh dari cuplikan acak populasi – Bayesian: menggunakan pengetahuan prior subyektif mengenai sebaran populasi sebagai tambahan terhadap informasi cuplikan populasi.
• Inferensi ada dua kategori: – Estimasi: Mis. Pengambilan 100 cuplikan untuk mengetahui sebaran perolehan kandidat beberapa calon Walikota Bandung. Pengetahuan ttg sebaran cuplikan akan membantu mendapatkan derajat kepercayaan hasil estimasi. – Uji hipotesa: Mis. Seorang ibu rumah tangga menganggap sabun merek A lebih baik dari merek B. Setelah beberapa pengujian, akan disimpulkan hipotesanya dapat diterima atau ditolak.
6.2 Metoda Estimasi Klasik
Ruang keputusan • •
•
Estimasi dari populasi dapat berupa estimasi titik atau estimasi selang. Estimasi titik dari parameter θ adalah suatu nilai tunggal θ^ dari statistik Θ^. – Contoh: nilai x dari statistik X yng dihitung dari n-buah cuplikan dari populasi merupakan estimasi parameter μ dari populasi. (Besaran) Statistik yang dipakai seseorang untuk menentukan estimasi titik disebut estimator atau fungsi keputusan. – Dngan demikian, keputusan S yang merupakan fungsi dari cuplikan acak adalah estimator dari σ dan estimasi s adalah tindakan yang diambilnya.
•
DEFINISI 6.1 Himpunan semua tindakan yang mungkin, yang dapat diambil dalam permasalahan estimasi disebut sebagai ruang tindakan atau ruang keputusan.
•
Estimator selalu memberikan kesalahan. Untuk suatu cuplikan tertentu, mis. 2, 5, 11, estimasi dari μ dpt menghasilkan x=6 jika dipakai mean cuplikan atau x~=5 jika dipakai median. Disini X~ menghasilkan nilai yng lebih baik. Sebaliknya, cuplikan 2, 6, 7 memberikan x=5 dan x~=6 dimana X lebih baik. Yang mana sebaiknya dipilih?
Estimator takbias dan estimator efisien •
Misalkan Θ^ adalah estimator yang nilai θ^-nya adalah estimasi titik dari parameter populasi tak diketahui θ. Tentu diinginkan bahwa sebaran cuplikan Θ^ akan memiliki mean yang sama dengan parameter yng diestimasi. Parameter yng spt ini disebut bersifat takbias.
• DEFINISI 6.2 Suatu statistik Θ^ disebut estimator takbias dari parameter θ jika μΘ = E(Θ^)= θ. • •
Dapat ditunjukkan (lihat buku) bahwa S2 adalah estimator takbias dari σ2, akan tetapi S sendiri adalah estimator σ yang bias. Jika Θ1^ dan Θ2^ adalah dua estimator takbias dari populasi yang
sama dengan parameter θ, estimator dengan variansi terkecil-lah yang akan dipilih. Dengan demikian, jika σ2Θ1 < σ2Θ2, maka Θ^1 disebut lebih efisian daripada Θ^2.
• DEFINISI 6.3 Estimator dengan nilai variansi terkecil disebut sebagai estimator yang paling efisien.
Pemilihan estimator Θ^1
Θ^3
Θ^2 θ • •
θ^
Dari ketiga estimator diatas, Θ^1 dan Θ^2 bersifat takbias karena sebarannya memusat di satu nilai θ. Dari kedua estimator tak bias tersebut, Θ^1 lebih efisien karena variansinya terkecil. Dengan demikian kita akan memilih Θ^1 sebagai estimator.
Selang estimasi • Selang estimasi dari parameter populasi θ adalah interval yang berbentuk θ^1<θ<θ^2, dimana kedua batasnya tergantung pada statistik Θ^ suatu cuplikan dan juga sebarannya. • Dari sebaran cuplikan Θ^ kita akan dapat menentukan θ^1 dan θ^2 sedemikian hingga P(Θ^1< θ<Θ^2) sama dengan nilai tertentu yang diinginkan. • Untuk P(Θ^1< θ<Θ^2)=0.95 berarti bahwa kita memiliki peluang 0.95 untuk memilih cuplikan acak yang menghasilkan interval tsb mengandung θ. Selang ini disebut juga selang kepercayaan (confident interval). Artinya: – Kita percaya 95% bahwa selang yang kita pilih akan mengandung parameter populasi yang sebenarnya. – Memperbesar peluang (derajat kepercayaan) menjadi 99% belum tentu memberikan informasi yang lebih baik karena akan melebarkan selang kepercayaan.
Selang kepercayaan • Pada umumnya, sebaran Θ^ akan memungkinkan kita menghitung suatu nilai k sedemikian hingga P(Θ^ -k < θ < Θ^ + k)=1- α, 0<α<1. • Selang yang dihitung dari suatu cuplikan akan disebut selang kepercayaan (1-α)100%. Dengan demikian, jika α=0.05 kita akan memiliki 95% selang kepercayaan; sedangkan α=0.01 akan menghasilkan 99% selang kepercayaan. • Bagian atau fraksi (1-α) ini disebut juga koefisien kepercayaan; sedangkan kedua titik ujungnya, yakni (θ^-k) dan (θ^+k), disebut batas kepercayaan atau batas fiducial.
Estimasi Mean
Selang kepercayaan mean cuplikan • • •
Estimator titik dari mean populasi μ adalah statistik X. Sebaran statistik ini berpusat pada μ dan variansinya lbh kecil dari estimator lain. Berdasarkan LCM, kita tahu bahwa semakin besar cuplikan akan menghasilkan variansi yang semakin kecil: σ2X= σ2/n. Selang kepercayaan dari populasi tersebar normal, atau jika cuplikannya cukup besar, dapat diturunkan. •
1-α α/2
-zα/2
•
α/2
zα/2
z
Dari gambar 6.3 disamping, P(-zα/2
Cuplikan acak berukuran n dari suatu populasi dengan variansi σ2 yang diketahui dan mean x yang dihitung akan menghasilkan (1-α)100% selang kepercayaan X - zα/2 (σ/√n) < μ <X+zα/2(σ/√n)
•
SELANG KEPERCAYAAN UNTUK μ; σ DIKETAHUI. Suatu (1α)100% selang kepercayaan untuk μ adalah x - zα/2 (σ/√n) < μ < x+zα/2(σ/√n) dimana x adalah mean cuplikan berukuran n dari suatu populasi dengan variansi σ2 yang diketahui dan zα/2 adalah nilai sebaran normal yang menghasilkan luas α/2 disebelah kanannya.
•
Contoh 6.2: Mean dan simpangan baku dari IPK sekelompok 36 orang mahasiswa adalah 2.6 dan 0.3. Tentukan selang kepercayaan 95% dan 99% untuk nilai mean-nya. Jawab: Titik estimasi adalah x = 2.6. Karena cuplikan berukuran besar, simpangan baku σ dapat didekati dengan s=0.3. Nilai z yang memberikan luas daerah dibawah kurva sebesar 0.025 disebelah kanan, atau 0.975 disebelah kiri, adalah z0.025 = 1.96 (dari Tabel IV). Oleh karena itu, selang kepercayaan 95% adalah 2.6 - (1.96)(0.3/√36) < μ < 2.6 + (1.96)(0.3/√36) atau: 2.50 < μ < 2.70
•
•
•
Dengan cara yang sama, selang kepercayaan 99% memerlukan z0.005 = 2.575 dan selang kepercayaan ini adalah: 2.6 - (2.575)(0.3/√36) < μ < 2.6 + (2.575)(0.3/√36) atau: 2.47 < μ < 2.73 Terlihat selang ini lebih lebar dari sebelumnya.
Kesalahan estimasi • Selang kepercayaan (1-α)% memberikan ketelitian estimasi titik. Jika μ adalah titik pusat selang, x mengestimasi μ tanpa kesalahan. • Pada umumnya akan ada kesalahan yang besarnya adalah beda antara x dengan μ, dan kita percaya (1-α)100% bahwa perbedaan ini kurang dari zα/2(σ/√n). error
x - zα/2(σ/√n)
x
μ
x + zα/2(σ/√n)
• TEOREMA 6.1 Jika x digunakan sebagai estimasi dari μ, kita dapat percaya (1-α)100% bahwa nilai kesalahannya akan kurang dari zα/2(σ/√n) • Pada contoh 6.2, kita percaya 95% bahwa mean cuplikan x=2.6 berbeda sebesar 0.1 dari nilai sebenarnya dan percaya 99% bahwa nilainya berbeda sebesar 0.13.
• Seringkali kita ingin tahu seberapa besar cuplikan yang kita inginkan untuk memastikan bahwa kesalahan estimasi dari μ kurang dari nilai tertentu e. • Berdasarkan Teorema 6.1, kita harus memilih n sedemikian hingga zα/2(σ/√n)=e. • TEOREMA 6.2 Jika x dipakai untuk mengestimasi μ, kita dapat percaya (1-α)100% bahwa kesalahannya akan kurang dari nilai e tertentu jika jumlah cuplikannya adalah: n = (zα/2σ/e)2 • Teorema diatas dapat diterapkan jika variansi populasi diketahui, atau tersedia n≥30 untuk melakukan estimasi variansi tsb.
Contoh 6.3 • Soal: Seberapa banyak jumlah cuplikan yang diperlukan pada contoh 6.2 jika kita ingin percaya 95% bahwa estimasi μ kita kurang dari 0.05? • Jawab: Simpangan baku cuplikan s=0.3 diperoleh dari cuplikan asal 36 akan dipakai untuk menentukan σ. Sebelumnya juga telah diperoleh zα/2 = 1.96, maka berdasarkan Teorema 6.2,
n = (zα/2σ/e)2 = [(1.96)(0.3)/0.05]2 = 138.3 Dengan demikian, kita dapat percaya 95% percaya bahwa cuplikan acak sebesar 139 akan memberikan hasil estimasi x yang berbeda dibawah 0.05 dari μ .
Cuplikan sedikit •
• •
Bagaimana jika syarat n≥30 untuk menghitung variansi populasi tidak dapt dipenuhi? Gunakan sebaran T sebagai ganti sebaran Gauss! disini T =(X - μ)/(S/√n). Prosedur lain sama dengan yang sebelumnya.
1-α α/2
-tα/2
α/2
tα/2
Mengacu ke Gambar 6.5 diatas, nilai peluang pada daerah diarsir P(-tα/2
t
Selang kepercayaan saat n<30
•
SELANG KEPERCAYAAN UNTUK μ; σ TAKDIKETAHUI. Suatu selang kepercayaan (1-α)100% untuk μ adalah x - tα/2 (s/√n) < μ < x+tα/2(s/√n) dimana x dan s adalah mean dan simpangan baku cuplikan berukuran n<30 dari suatu populasi yang tersebar mendekati normal, dan tα/2 adalah nilai sebaran-t dengan derajat bebas sebesar v = n-1 yang menghasilkan luas α/2 disebelah kanannya.
Contoh 6.4 • Soal: Ada 7 kontainer serupa yang berisi asam sulfat dengan volume: 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, dan 9.6 liter. Tentukan selang kepercayaan 95% untuk mean dari kontainer-2 tsb jika sebarannya mendekati normal. • Jawab: Dari data yang diberikan, mean dan simpangan cuplikan sbb: x = 10.0 dan s= 0.283 Berdasarkan Tabel V, kita dapatkan t0.025 = 2.447 untuk derajat bebas v=6. Karena itu, selang kepercayaan 95% dair μ adalah 10.0 - (2.447)(0.283/√7)< μ <10.0 + (2.447)(0.283/√7) atau: 9.74< μ <10.26.
6.7 Estimasi Variansi
Pendahuluan Estimasi takbias dari variansi populasi σ2 diberikan oleh variansi cuplikan s2, maka statistik S2 disebut estimator dari σ2. • Selang estimasi dari σ2 diberikan oleh X2 = (n-1)S2/σ2 Berdasarkan Teorema 5.16, statistik dari X2 akan tersebar secara chikuadrat dengan derajat bebas n-1 saat cuplikan diambil dari populasi normal. • Berdasarkan Gambar 6.7 disamping, maka P ( χ21-α/2<X2<χ2α/2) = 1-α dimana χ21-α/2 dan χ2α/2 adalah nilai dari sebaran chi-kuadrat 1-α dengan n-1 derajat bebas, dengan α/2 α/2 2 χ daerah seluas 1-α/2 disebelah kiri χ21-α/2 0 χ21-α/2 dan seluas α/2 di kanannya. •
•
Substitusi X2 = (n-1)S2/σ2 menghasilkan P ( χ21-α/2< (n-1)S2/σ2 <χ2α/2) = 1-α
Selang kepercayaan σ2 • Pembagian dengan (n-1)S2 pada pertidaksamaan dan pengaturan suku menghasilkan P [ (n-1)S2 /χ2α/2 < σ2 < (n-1)S2 /χ21-α/2 ] = 1-α Untuk cuplikan sejumlah n, variansi cuplikan sebesar s2 dan (1α)100% menghasilkan selang kepercayaan (n-1)s2 /χ2α/2 < σ2 < (n-1)s2 /χ21-α/2 • SELANG KEPERCAYAAN UNTUK σ2. Suatu selang kepercayaan (1-α)100% untuk variansi σ2 dari populasi tersebar normal adalah (n-1)s2 /χ2α/2 < σ2 < (n-1)s2 /χ21-α/2 dimana s2 merupakan variansi dari pencuplikan acak berukuran n, dan χ2α/2 dan χ21-α/2 menyatakan nilai sebaran chi-kuadrat dengan derajat bebas v=n-1, sehingga luas disebelah kiri dan kanannya adalah α/2 dan 1- α/2.
Contoh 6.12 •
•
Soal: Pencuplikan 10 buah kemasan berisi gabah (biji beras) produksi suatu perusahaan tertentu menghasilkan berat dalam decigram sbb: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2, dan 46.0 Tentukan selang kepercayaan 95% dari variansi berat kemasan tsb . Jawab: Tentukan terlebih dahulu variansi cuplikan, yaitu s2 = {(10)(21,273.12)-(461.2)2}/{(10)(9)} = 0.286 Untuk mendapatkan 95% selang kepercayaan, dipilih α=0.05. Lalu dengan Table VI untuk derajat bebas v=9, kita temukan χ20.025 = 19.023 dan χ20.975 = 2.700. Substitusi ke rumus
(n-1)s2 /χ2α/2 < σ2 < (n-1)s2 /χ21-α/2 akan menghasilkan 95% interval kepercayaan [(9)(0.286)/19.023]< σ2 < [(9)(0.286)/2.700] atau 0.135< σ2 <0.953
6.10 Metoda Estimasi Bayes
Pengantar • • •
•
•
Metoda estimasi yang telah dijelaskan terdahulu didasarkan pada informasi dari cuplikan semata. Ini disebut sebagai peluang obyektif. Metoda Bayes menggabungkan informasi dari cuplikan dengan informasi lain yang diketahui atau prior. Yang demikian ini dinamakan peluang subyektif. Ilustrasi: Akan ditentukan estimasi titik parameter θ dari populasi f(x; θ). Dalam pendekatan klasik (obyektif), maka yang dilakukan adalah mencuplik sebanyak n secara acak dan menggantikan informasi yang diperoleh ke estimator atau fungsi keputusan. Andaikan informasi tambahan tentang θ diberikan, misalnya bahwa sebarannya mengikuti f(θ). Fungsi f(θ) disebut sebagai sebaran prior dari parameter takdiketahui Θ yang menyatakan tingkat kepercayaan kita pada lokasi Θ sebelum diadakan pencuplikan. Teknik Bayesian menggunakan informasi prior f(θ) bersama dengan sebaran gabungan cuplikan f(x1,x2, …,xn; θ) untuk menghitung sebaran posterior f(θ|x1,x2, …,xn)
Estimasi Bayes untuk θ • Selanjutnya f(x1,x2, …,xn; θ) akan dituliskan sebagai f(x1,x2, …, xn|θ) untuk menandakan bahwa parameter Θ juga suatu peubah acak. Sebaran gabungan peubah acak X1, X2, …, Xn dan parameter Θ adalah f(x1,x2, …,xn; θ) = f(x1,x2, …,xn|θ)f(θ) Sehingga diperoleh sebaran marjinal g(x1,x2, …,xn) = Σθ f(x1,x2, …,xn; θ) … (diskrit) = ∫-∞∞ f(x1,x2, …,xn; θ)dθ … (kontinyu) Dengan demikian sebaran posterior-nya adalah f(θ|x1,x2, …,xn) = f(x1,x2, …,xn, θ)/g(x1,x2, …,xn) • DEFINISI 6.4. Nilai mean dari sebaran posterior f(θ|x1,x2, …,xn), yang dinyatakan sebagai θ*, disebut sebagai estimasi Bayes dari θ.
Contoh 6.15 •
•
Soal: dengan menggunakan cuplikan acak sebanyak 2 buah, lakukan estimasi perbandingan dari produk cacat p yang dibuat oleh sebuah mesin jika diketahui sebaran prior-nya adalah: p | 0.1 0.2 ----------|--------------f(p) | 0.6 0.4 Jawab: Andaikan X jumlah cacat didalam cuplikan, maka sebarannya adalah f(x|p) = b(x;n,p) = C(2,x)pxq2-x ; x=0, 1, 2 Dari kenyataan bahwa f(x,p) = f(x|p)f(p), kita bisa membuat tabel berikut f(x,p) p
x 0
1
2
0.1
0.486
0.108
0.006
0.2
0.256
0.128
0.016
Lanjutan … •
Dengan demikian, sebaran marjinal dari X adalah x |0 1 2 -------------|----------------------------------g(x) | 0.742 0.236 0.022 Kita bisa mendapatkan sebaran posterior dari formula f(p|x)=f(x,p)/g(x), yakni: p | 0.1 0.2 -------------|------------------f(p|x=0) | 0.655 0.345
p | 0.1 0.2 -------------|-------------------f(p|x=1) | 0.458 0.542
p | 0.1 0.2 -------------|------------------f(p|x=2) | 0.273 0.727 akhirnya diperoleh: p* = (0.1)(0.655)+(0.2)(0.345) = 0.1345, = (0.1)(0.458)+(0.2)(0.542) = 0.1542, = (0.1)(0.273)+(0.2)(0.727) = 0.1727,
jika x=0; jika x=1; jika x=2;
Latihan • Bab.5: 39; • Bab.6: 9, 35, 46