. _.-
'~
.-
BabX EstimasiStatistik
KAT A KUNCI estimator konsisten adalah estimator yang cenderung sarna dengan nilai sebenarnya meskipun ukuran sampel semakin lama semakin besar. estimator dalah kuantitas yang didasarkan dari observasi sampel yang nilainya diambil sebagai indikator dari nilai parameter populasi yang tidak diketahui (sebagai contoh, rata-rata sampel sering digunakan sebagai estimator dari mean populasi yang tidak diketahui 11) estimator likelihood maksimum adalah sebuah estimator yang mempunyai atribut sebagai berikut: jika nilai sesungguhnya dari parameter yang tidak diketahui mempunyai nilai ini, maka probabilitas perolehan sampel yang diobservasi dimaksimumkan. inferensia statistik adalah proses penggunaan observasi sampel untuk mengestimasi karakteristik dari populasi. estimator tidak bias adalahestimator yangnilaiharapannya samadengan nilai sesungguhnya dari parameter yang diestimasi.
x
Hingga saat ini, dalam sebagian besar problem-problem yang telah kita kerjakan, kita telah mengetahui sebelumnya apa itu probabilitas. Sebagai contoh, ketika kita mengambil kartu-kartu atau melempar uang, kita dapat menghitung semua probabilitas secara eksplisit. Tetapi sebelumnya kita tidak tahu probabilitas dari hampir seluruh problem-problem nyata. Kita harns menggunakan metode inferensia statistik untuk mengestimasinya. Di bawah ini beberapa contoh penggunaan inferensia statistik untuk mengestimasi probabilitas:
·
·
Anggaplah bahwadistribusi tinggi badan dari semua orang di negara ini dapatdigambarkan oleh distribusi normal. Tetapi sebelumnya kita tidak tahu berapa mean (u) dari distribusi tersebut. Oleh karena itu kita harns mengestimasinya.
Misalnya kita sedang melakukan penelitian untuk mengukur berat molekul dari suatu bahankimia. Secararata-rata, andadapat berharap bahwahasil pengukuran akan merupakan nilai sesungguhnyadari beratmolekul. Tetapi juga, setiappengukuran biasanyamengandung kesalahan acak. Kadang-kadang sering masuk akal untuk menganggap bahwa hasil aktual dari setiap pengukuran mempunyai distribusi normal dan rata-rata (mean)nya merupakan nilai yang sesungguhnya dari kuantitas yang anda ukur.
135
.
Anggaplah kita mengetahui dua macam ujian seseorang yang diberikan secara acak dimana korelasi keduanya tidak kita ketahui. Kita mencoba mengestimasi korelasinya.
EST/MAS/ MEAN Kita akan memikirkan masalah umum dalam mengestimasi mean 0.1)dari variabel acak X yang mempunyai distribusi normal. Kuantitas populasi yang tidak diketahui seperti u disebut parameter. Misalnya kita mempunyai data observasi sebanyak n dari nilai variabel acak, yang kita sebut sebagai: XI' X2, ... Xn' Kita perlu membuat asumsi penting, yaitu bahwa masing-masing nilai dari X adalah independen (bebas) terhadap nilai-nilai yang lain. (Proses pengambilan disebut pemilihan sampel acak yang berukuran n yang diambil dari distribusi tertentu). Jelaslah estimasi kita untuk rata-rata (mean) adalah:
(estimasi mean) =x -
n Quantitas ini hanya merupakan nilai rata-rata dari keseluruhan X; kita menyebut rata-rata
sampel. Quantitas
x adalah
salah satu contoh dari statistik.
x atau
Statistik adalah fungsi
tertentu dari obyek-obyek dalam variabel acak. Pada waktu statistik digunakan untuk mengestimasi nilai dari kuantitas yang tidak diketahui, akan disebut estimator. Dalam kasus ini digunakan sebagai estimator untuk J.LKadang-kadang tanda topi kecil 0.1) diletakkan
x
di atas kuantitas untuk menunjukkan bahwa itu adalah estimatoruntuk parameter. Pemyataan
=x
'J..l
berarti kita menggunakanrata-rata sampelx sebagai estimatoruntuk rata-rata
populasi (pupulation mean) J.LPerkirakan (estimate) adalah nilai dari estimator dalam lingkungan tertentu. Jika sampel yang kita amati terdiri dari angka-angka sn ,4/10,12 dan 4, maka x = 'J..l=7 adalah perkiraan (estimate) untuk mean (rata-rata) pupulasi. Apa yang kita lakukan menunjukkan rata-rata sampel x mempunyai beberapa hal menarik pada waktu digunakan untuk mengestimasi mean. YANG HARUS DIINGA T 1. Inferensia statistik adalah suatu proses penggunaan informasi dari pengamatan sampel untuk mengestimasi sifat dari populasi berdasarkan sampel yang dipilih. 2. Statistik adalah suatu kuantitas yang dihitung dengan menggunakan nilai-nilai yang diamati dari sampel. 3. Estimator adalah statistik yang digunakan untuk mengestimasi nilai dari kuantitas populasi yang tidak diketahui. Sebagai contoh; rata-rata sampel: x= n 136
~
digunakan sebagai estimator untuk rata-rata (mean) populasi yang tidak diketahui. Nilai populasi yang tidak diketahui disebut parameter. MAXIMUM LIKELIHOOD ESTIMA TOR Anggaplah nilai sesungguhnya dari J.ladalah 10000. Tetapi rata-rata dari sampel tertentu adalah 7. Kejadian ini tidak dikehendaki. Di sisi lainjika J.l=7, maka kita ingin mendapatkan nilai 7 untuk rata-rata sampel. Dalam kenyataan untuk setiap nilai kemungkinan Jl,kita dapat menghitung probabilitas untuk mendapatkan nilai tertentu X untuk rata-rata sampel. Kita tidak akan mengestimasi J.lyang hanya mempunyai satu nilai, dimana probabilitas untuk mendapatkan rata-rata sampelnya sangat kecil. Kita akan memilih perkiraan untuk J.ldimana
probabilitas mendapatkan rata-rata sampel yang diamati besar. Secara umum nilai dari
J.l
yang memberikan probabilitas terbesar untuk mendapatkan nilai observasi sebenarnya dari
x disebut maximum likelihood estimator untuk
J.L
Ini dapat ditunjukkan bahwa rata-rata
sampel x akan menjadi maxsimum likelihood estimator untuk J.L Metode dari maximum likelihood dapat juga digunakan untuk banyak tipe problem. Anggaplah, a adalah parameter yang tidak diketahui dalam distribusi probabilitas tertentu. Dalam banyak kasus kita dapat menghitung maximum likelihood estimator untuk a. Sebagai contoh, kita dapat menunjukkan bahwa maximum likelihood estimator untuk varian (S2)dari distribusi normal adalah:
cr2= n (Kita menyebut s/ sebagai varian sampel. Lihat bab2.) Jika kita mencoba untuk mengestimasi probabilitas keberhasilan p untuk variabel random dengan distribusi binomial, maka estimator likelihood maksimum adalah: Jumlah Keberhasilan Jumlah Percobaan anggaplah bahwa x dan y adalah dua variabel acak yang korelasinya tidak kita ketahui. Kita ingin menggambarkan estimator likelihood maksimum untuk korelasi. Misalnya kita mempunyai n pengamatan, masing-masing untuk X dan Y: (X1,Y1), (X2,Y2), (X3,Y3), .., (Xn,Y)
Kita menghitung X,y, xy, Sx= -YX?- x2, dan Sy=-Yf - f. Kemudian estimator likelihood maksimum untuk korelasi adalah: xy - xy sxsy 137 -
--
-
---
-
Kitamenyebutkuantitas ini sebagai Koetisienkorelasi sampel. Sebagai contoh, anggaplah kita mempunyai hasil observasi untuk X dan Y:
X:1O Y: 12
4 6
9 18
7 10
3 6
o
o
19 29
Kemudian X = 7,43; x2 = 88,0; sx= 5,729; Y = 11,57;? = 211,6;sy = 8.813;dan xy = 135. Koetisien korelasi sampel adalah 135 - 7,43 x 11,57
= 0,971 5,729 x 8,813 Hal penting lain dari estimator likelihood maksimum adalah yang disebut invariance property. Anggaplah a adalah estimator likelihood maksimum bagi suatu parameter a, tetapi kita benar-benar ingin tahu estimator likelihood maksimum dari ...Ja.Jika kita terpaksa harns menebak, kita mungkin mengestimasi bahwa va adalah sama dengan ...Ja,dan kebetulan kita benar. Misalnya, estimator likelihood maksimum dari deviasi standar (0-)adalah akar dari varian sampel. Secara umum, jika h(a) adalah fungsi sembarang dari parameter a, maka estimator likelihood maksimum dari h(a) adalah h(a). ESTIMATOR KONSISTEN Hal penting lainnya yang kita inginkan dari estimator kita adalah bahwa estimator mempunyai sifat yang konsisten. Anda akan menjadi ragu dan bingung bila menghadapi orang yang tidak konsisten, begitu juga bila anda menghadapi estimator yang tidak konsiten.Inilah apa yang kita maksud dengan sifatkonsisten (ajeg) dari estimator. Anggaplah kita mampu untuk meningkatkan ukuran sampel kita lebih besar dan dengan demikian kita mendapatkan pengamatan yang lebih banyak dari variabel acak X.
x
Dalam kasus ini, apakah kita tahu bahwa nilai barn dari akan lebih mendekati mean (rata-rata) dari J.latau ada kemungkinan lebih jauh? Estimator yang konsisten adalah estimator yang akan bergerak mendekati nilai sebenarnya bila jumlah elemen sampel ditambah. ESTIMATOR TIDAK BIAS Pertanyaan penting lain yang mungkin kita tanyakan adalah apakah estimator merupakan nilai sebenarnya? Estimator dikatakan tidak bias bila nilai harapan dari estimator sama dengan nilai sesungguhnya dari parameter yang kita estimasi. Sebagai contoh, kita telah tahu bahwa E(X) = J.1,jadi rata-rata sampel adalah estimator yang tidak bias dari rata-rata populasi ~ Tetapi jika kita menghitung harapan dari varian sampel (SI2),akan kita dapatkan bahwa :
138
(n - l)cr2 n Karena E(S[2)tidak sama dengan S2,berarti s12 bukanlah estimator tidak bias dari a2. Kita dapat menghitung statistik barn : n
ns I2
Li_( (Xi-X)2
=
s22=
n-l
n-l
Harapan dari statistik adalah: ns(2
E(s/)
=E (
E(sI2)n
= cr2
)= n-l
n-l
Dengan demikian S22adalah estimator tidak bias dari varian. Ingatlah bahwa S22dihitung dengan cara yang sama, kecuali penjumlahan darijarak masing-masing Xke X dibagi dengan n-l daripada dibagi dengan n. Sekarang kita tahu mengapa kita melakukan hal ini. Kita menyebut S(2sdebagai varian tipe 1 dan S22sebagai varian tipe 2. Ini menggambarkan situasi dimana tidak mungkin untuk menemukan estimator tunggal yang baik untuk setiap sifat yang diinginkan. Secara umum akan ada banyak estimator tidak bias yang berbeda-beda untuk parameter yang sama. Jika mungkin kita ingin memilih sebuah estimator yang mempunyai varian sekecil mungkin. Karena estimator dalah statistik yang dihitung dari sampel acak, maka variabel acaknyalah yang dapat dihitung variannya. (Dustribusi estimator sering disebut distribusi sampling dari estimator). Sebagai contoh, anggaplah kita sedang mencoba untuk mengestimasi rata-rata (mean) dari variabel acak X berdasarkan sampel dari 3 observasi XI' x2' x3. Biasanya kita menggunakan XI
x=
+ x2 + x3 3
XI
+-+-+3
x2
x3
3
3
Sebagai estimator. Kita tabu bahwa estimator adalah tidak bias. Kita akan menemukan vanan:
Var(X)
= 1/9 [Var(xl) ~
+ var(x2) + var(x3)]
cr2/3
139
--
~
Anggaplah seseorang menerka bahwa kita harns menggunakan estimator q sebagai berikut: q =x/2 + x/3 + x/6 Kita dapat menghitung: E(q)
= E (-)
Xl
x2 x3 + E(-) + E (-)
236
= (1/2 +
1/3 + 1/6) E(x)
= Il
Karena E( q) = J.l,kita dapat melihat bahwa q adalah estimator tidak bias dari J..LJika kita menghitung variannya: Var(q)
= 1/4 Var(xl)
+ 1/9 Var(X2) + 1/36 Var(x3)
=14/36 a2
kita menemukan bahwa Var(Q) > Var(X). Dengan demikian x adalah estimator yang lebih baik karena mempunyai varian yang lebih kecil, meskipun lebih jauh dari J..L Kenyataannya bahwa sebuah estimator yang tidak bias tidak berarti bahwa ini adalah satu-satunya yang terbaik untuk digunakan. YANG HARUS DIINGAT 1. Adabebeapa sifatyang diharapkandimiliki oleh estimatorjika estimator itumenyediakan estimasi yang baik bagi parameter populsi. 2. Estimator likelihood maksimum mempunyai sifat-sifat sebagai berikut: jika nilai sesungguhnyadari paramereryang tidakdiketahuimempunyainilaiini,maka probabilitas untuk mendapatkan sampel yang diamati adalah maksimum. 3. Estimator konsisten adalahestimator yang nilainya akan mendekati nilai sebenarnyajika ukuran sampel diperluas. 4. Estimatortiadk bias adalahestimatoryangnilaiharapannya sarnadengannilaisebenarnya. PENDEKA TAN SA YES/AN
Pendekatan penting lainnya dalam estimasi statistik adalah pendekatan Bayesian. Dalam pendekatan ini diasumsikan bahwa anda telah mempunyai beberapa informasi tent3?g gambaran nilai dari parameter yang sedang and a cob a untuk diestimasi. Distribusi probabilitas ini disebut prior distribution. Setelah mendapatkan data observasi, anda mempelajari kembali distribusi probabilitas yang diestimasi berdasarkan pada apa yang anda amati. Teori Bayes menjelaskan bagaimana mempelajari kembali estimasi probabilitas dari suatu kejadian dim ana anda mendapatkan lebih banyak lagi informasi. Distribusi probabiolitas yang
140
idpelajari kembali didasarkan pada observasi yang diketahui sebagai posterior distribution. Kita tidak akan membahas metode Bayesian dalam buku ini.l YANG HARUS DIINGAT 1. Apabila tersedia beberapa informasi tentang nilai parameter yang diestimasi, distribusi probabilitas disebut Prior Distribution. 2. Apabila tersedia informasi yang lebihbanyak, prior distribution dapat dipelajari kembali dengan menggunakan teori Bayes, untuk mendapatkan posterior distribution. Dalam bab ini kita mempelajari berbagai cara untuk mendapatkan angka yang dapat digunakan untuk mengestimasi nilai parameter yang tidak diketahui. Estimasi seperti itu disebut sebagai estimasi titik. Seringkali kita ingin mengetahui apakah nilai sebenarnya dari parameter mendekati estimasi titik ataujauh dari estimasi titik. Untuk menjawab pertanyaan ini kita harns menghitung estimasi interval yang akan kita diskusikan pada bab berikutnya. ISTILAH-ISTILAH
YANG HARUS DIPELAJARI
Pendekatan Bayesian Estimator yang konsisten Estimasi Estimator Estimasi interval Estimator likelihood maksimum
Parameter Estimasi titik Distribusi sampel Statistik Statistik inferensial Estimator yang tidak bias
141
----
--
-