BAB 2 LANDASAN TEORI
2.1
Bootstrap Bootstrap adalah prosedur statistika yang melakukan sampling dari sebuah populasi
yang
dikerjakan
dengan
cara
resampling
dari
sampel.
(http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf). Ada dua cara yang digunakan dalam proses resampling, yaitu sampel diambil dengan pengembalian dan sampel diambil tanpa pengembalian. Sampling dengan pengembalian mengambil sebuah observasi dari sampel dan kemudian meletakkan kembali dalam sampel untuk kemungkinan dijadikan sampel lagi. Sampel tanpa pengembalian mengambil sebuah observasi dari sampel, tetapi sekali diambil tidak dapat dijadikan sampel lagi. Metode bootstrap mendapatkan sampelnya dengan cara sampling dengan pengembalian dari sampel asli. Kuncinya adalah pengembalian dari observasi setelah sampling, yang mengijinkan para peneliti untuk membuat sebanyak apapun sampel yang dibutuhkan dan tidak pernah khawatir akan penduplikasian sampel kecuali kebetulan. Setiap sampel dapat dianalisis secara bebas dan hasilnya dikompilasikan dari sampel. Sebagai contoh, estimasi terbaik dari mean adalah rata-rata dari semua mean yang diestimasi dari sampel. Selang kepercayaan juga dapat langsung dihitung dari sampel terpilih.
7
8 2.1.1
Teori Dasar Bootstrap Statistik nonparametrik umumnya memainkan peranan yang penting bagi data yang tidak kontinyu dan tidak bisa menggunakan distribusi probabilitas normal dalam menduga parameter dan estimasi selang kepercayaan. Tapi sekarang ada perpekstif baru dalam estimasi nonparametrik yang juga berhubungan dengan parameter dan bisa digunakan untuk estimasi selang kepercayaan. Dengan itu, kita tidak harus menerima bahwa parameter mengikuti distribusi normal . Kita bahkan bisa menciptakan nilai-nilai untuk parameter seperti misalnya median, yang secara umum sulit untuk ditetapkan dengan teknik inferensia statistika tradisional. Nonparametrik ini secara umum dikenal sebagai bootstrap, telah banyak digunakan sebagai sebuah alternatif untuk metode inferensia statistik. Bootstrap mengesampingkan sampling distribusi dari parameter dan menghitung distribusi empiris, melewati ratusan atau ribuan sampel. Dengan perkataan lain, bootstrap tidak harus bertumpu pada asumsi distribusi sehingga kita bisa menghitung sebuah distribusi nyata dari parameter sampel. (Hair Joseph F et al, 1998) Bootstrap, tidak menggunakan distribusi probabilitas, tapi menghitung distribusi empiris dari estimasi parameter. Dengan menciptakan bermacam–macam sampel dari sampel asli, bootstrap sekarang hanya membutuhkan kemampuan komputasional untuk mengestimasi nilai parameter dari masing – masing sampel. Sekali mereka semua sudah dihitung, kita bisa memeriksa histogram dari nilai dan bahkan menghitung selang kepercayaan dari estimasi parameter
9 Bootstrap merupakan metode simulasi berbasiskan data yang bisa digunakan untuk inferensia statistika. Istilah “bootstrap” didapat dari sebuah frase “untuk menarik seseorang keatas dengan menggunakan satu tali sepatu (bootstrap) sendiri, yang diperoleh dari sebuah buku pada abad ke-18 yang berjudul “ Adventure of Baron Munchausen” karya Rudolph Erich Raspe (Efron and Tibshirani, 1998). Bootstrap yang kita kenal sekarang dikembangkan oleh Bradley Efron, profesor statistika di Stanford pada tahun 1979. Sejak itu metode bootstrap banyak diaplikasikan dalam bidang statistika karena memiliki banyak keunggulan, diantaranya bootstrap tidak harus dibentuk dari asumsi statistik parametrik, dengan kata lain, parameternya tidak harus mengikuti distribusi normal. Salah
satu
tujuan
dari
(http://statwww.epfl.ch/Davidson/BMA)
bootstrap
menurut
Davidson
adalah mencoba dan mempelajari
tentang parameter statistika dari sebuah distribusi, misalnya mean dan standard error ketika distribusi yang sesungguhnya tidak diketahui dan kita hanya mempunyai sekumpulan observasi.. Ide utamanya adalah menggunakan sekumpulan observasi
sebagai gambaran empiris dari distribusi yang
sesungguhnya. Menurut Neter John et al (1996, p429 ) tujuan dari bootstrap adalah memperbaiki ukuran sampel untuk mengevaluasi kebenaran dalam situasi yang tidak standar. Misalnya ketika terjadi heteroskedastisitas, atau ketika estimasi Robust digunakan, sehingga estimasi hanya bisa didekati jika ukuran sampel besar. Jadi bisa disimpulkan tujuan penggunaan metode bootstrap dalam penulisan ini adalah untuk memperbaiki ukuran sampel untuk meningkatkan
10 keakuratan estimasi dan untuk mengevaluasi kebenaran dari estimasi. Jika parameter bisa dinyatakan sebagai sebuah fungsi dari distribusi yang tidak diketahui, maka estimator bootstrapnya merupakan fungsi yang sama dari fungsi distribusi empiris.
2.1.2
Batasan Metode Bootstrap Ada beberapa batasan dalam metode bootstrap. Pertama, dan mungkin yang paling penting, sampel harus cukup besar dan diambil secara random sehingga dapat mewakili keseluruhan populasi. Sampel yang dimaksud disini mengikuti kaidah teorema limit pusat yaitu ≥ 30 karena teknik bootstrap tidak dapat mengatasi beberapa bias untuk sampel yang tidak mewakili, dan dalam beberapa kasus akan memperumit masalah. Kedua, bagaimanapun metode parametrik lebih baik dalam banyak kasus untuk membuat pendugaan titik (point estimation), seperti mean. Jadi, prosedur bootstrap bisa menambah pendugaan titik dari metode parametrik dengan menyediakan estimasi yang lebih akurat.
2.1.3
Prosedur Umum Bootstrap Inferensia statistik didasarkan pada distribusi sampling dari sampel statistik. Bootstrap, merupakan sebuah cara untuk menemukan distribusi sampling,
setidaknya mendekati, dari hanya satu sampel. Berikut ini adalah
prosedurnya :
11 2.1.3.1 Resample Menurut Ronald E.Walpole et al (2002, p3), sampel adalah suatu himpunan bagian dari populasi. Istilah sampel asli digunakan untuk menyebut himpunan bagian yang pertama
diambil dari populasi, sebelum dilakukan
resampling, yaitu proses pengambilan sampel kembali dari sampel yang telah kita ambil dari populasi, sedangkan istilah sampel bootstrap (resample) digunakan untuk menyebut sampel yang telah kita resampling dari sampel asli. Sampel asli dilambangkan dengan x = { x1,....xn }
n = 1,2,3,...., n
(2.1)
dan sampel bootstrap dilambangkan dengan x* = { x1*,....xB* }
B = 1,2,3,...., B
(2.2)
Sampel bootstrap diperoleh dengan cara sampling secara random dengan pengembalian, dari sampel asli. Sampling secara random dengan pengembalian berarti setelah kita secara random mengambil sebuah observasi dari sampel asli, kita meletakkannya kembali sebelum kita mengambil observasi berikutnya. Sampel dengan pengembalian memungkinkan kita untuk mendapatkan jumlah data yang sama dengan ketika pertama kali kita melakukan sampling, dan memungkinkan satu data diambil beberapa kali. Peluang sampel dengan pengembalian dapat dinotasikan P ( x1 * = xj | x ) =
untuk i,j = 1,...,n
1 n
(2.3)
12 Ini adalah distribusi seragam untuk sampling bootstrap. Masing-masing sampel bootstrap yang diambil setiap kali pengambilan adalah sama banyaknya dengan sampel asli. Jumlah dari sampel bootstrap yang diseleksi bergantung pada keadaan khusus dari masing-masing pemakaian. Kadang-kadang 50 sampel bootstrap sudah cukup, seringkali 200-500 sampel bootstrap baru cukup bahkan untuk kasuskasus tertentu bootstrap memerlukan ribuan sampel. (http://bcs.whfreeman.com/pbs/cat_160/PBS18.pdf) Proses sampling bootstrap dilakukan dengan menggunakan bantuan program komputer, mengingat besarnya jumlah resampling yang bisa mencapai ribuan kali sehingga sangatlah sulit untuk melakukan perhitungan secara manual. Sx1
Sx2
SxB sampel bootstrap
x1
x2
...
Resampling
x1 x2 xn ket : B = jumlah iterasi bootstrap
xB
Sampling Populasi Gambar 2.1 Skema Resample
2.1.3.2
Perhitungan Distribusi Bootstrap
Hitunglah statistik yang kita perlukan untuk tiap resample. Inferensia statistik untuk resample disebut distribusi bootstrap. Untuk mengestimasi nilai
13 tengah dari suatu populasi (μ), maka yang menjadi estimatornya adalah nilai tengah dari sampel ( ), sama halnya, estimator bootstrap dari ragam populasi adalah ragam sampel yang bersesuaian. Estimator bootstrap dari koefisien korelasi populasi adalah koefisien korelasi sampel yang bersesuaian dan seterusnya. Inferensia statistik paling umum yang sering diperoleh dengan menggunakan prosedur bootstrap adalah mean : Contoh perhitungan mean menggunakan prosedur bootstrap (http://wwwmaths.anu.edu.au/~peter/edgtalk/edgtalk1pdf) : Diketahui mean, diambil dengan cara sampling secara random dari sebuah populasi dengan fungsi distribusi C μ = ∫ x dC(x)
(2.4)
mean nya adalah fungsi yang sama dari fungsi distribusi empiris Fn yaitu dari Ĉ(x) =
1 n
n
∑ I ( Xi ≤ x)
(2.5)
i =1
dimana X1,...Xn menunjukkan data karena itu, estimasi bootstrap mean populasi (μ) adalah mean sampel ( ) : = ∫ x d Ĉ (x) =
1 n
n
∑ Xi
(2.6)
i =1
Prosedur untuk menghitung mean berlaku juga untuk menghitung distribusi bootstrap yang lainnya
14 2.1.3.3
Penggunaan Distribusi Bootstrap
Gunakan distribusi bootstrap untuk mencari nilai-nilai yang diinginkan seperti mean, selang kepercayaan, standard error dan lain sebagainya. Distribusi bootstrap memberikan banyak informasi mengenai inferensia statistik.
2.1.4
Pengulangan Iterasi Bootstrap
Kita bisa mengulang prosedur bootstrap sesering yang kita inginkan. Dari persamaan (2.1) untuk sampel asli, dilakukan prosedur bootstrap sehingga didapat persamaan (2.2)
untuk sampel bootstrap . Untuk mengulang iterasi
bootstrap, kita harus melakukan resampling dari sampel yang telah disampling, dengan cara yang sama yaitu sampling secara random dengan pengembalian, sehingga didapat persamaan x** = { x1**,..., xB** }
(2.7)
Persamaan diatas disebut resample bootstrap. Tapi mengingat perhitungan yang sangat kompleks untuk prosedur ini, biasanya bootstrap mencegah lebih dari satu iterasi.
2.1.5
Prosedur Bootstrap untuk Model Regresi
Bootstrap bisa juga diterapkan dalam model regresi. Untuk model regresi, biasanya jumlah replikasi bootstrap adalah 1000 kali (J.Faraway, 2002). Menurut Efron dan Tibshirani (1998, p113), ada dua prosedur bootstrap yang bisa digunakan dalam regresi. Prosedur ini berlaku untuk semua model regresi.
15 2.1.5.1 Bootstrap Residual
Prinsip bootstrap residual adalah mencocokkan model linier dan memperoleh residual n. Prosedur pada bootstrap residual sama dengan prosedur bootstrap pada umumnya, hanya saja dalam bootstrap residual nilai residualnya ikut diresampling. Residual dalam regresi artinya selisih nilai antara Y sebenarnya dengan Y estimasi(Ŷ). Langkah-langkah dalam prosedur bootstrap residual menurut Norman R.Drapper dan Harry Smith (1998, p585), adalah sebagai berikut : •
Hitung koefisien regresi. Hasilkan nilai residual. Pilih sampel berukuran n dari residual, hasilkan dengan probabilitas 1/n untuk masing-masing residual, dan sampling dengan pengembalian.
•
Gabungkan nilai-nilai sampel itu ke n yang diprediksikan oleh Ŷi untuk memberikan sekumpulan resample dari Y’s. Oleh karena itu, jika modelnya adalah Y = Xβ + є dan Ŷ = Xb, nilai Y yang baru adalah
Y* = Xb + e*
(2.8)
dimana e* adalah kumpulan resample dari vektor e=Y- Ŷ
•
(2.9)
Persamaan regresi sekarang ditunjukkan dengan model Y* = Xβ + є
Gunakan metode kuadrat terkecil untuk memperoleh estimasi bi* .
(2.10)
16 2.1.5.2 Bootstrap Pairs
Prosedur bootstrap kedua dalam regresi adalah metode pairs (Yi,xi’) dimana Yi adalah observasi ke i dan xi’ adalah baris ke i dari matrik X. Langkah-langkah dalam prosedur bootstrap pairs menurut Norman R.Drapper dan Harry Smith (1998, p586) adalah sebagai berikut : •
Resampling sejumlah n dari (Yi,xi’), masing-masing diseleksi dengan probabilitas 1/n, dan sampling dengan pengembalian. Hasilkan nilai Yi baru dan xi baru. Dinotasikan dengan Yi** dan Xi**. Model regresinya menjadi Y** = X**β + є
•
2.1.6
(2.11)
Cari nilai bi baru dengan metode kuadrat terkecil, notasikan dengan bi**.
Prosedur Bootstrap untuk Mengestimasi Standard error
Menurut Efron dan Tibshirani (1998, p15) standard error merupakan ukuran yang paling sederhana untuk mengukur keakuratan dalam perhitungan statistika. Dalam model regresi, standard error adalah kesalahan baku atau simpangan baku dari e, dimana e adalah residual atau selisih antara Y(Y yang sebenarnya) dengan Ŷ(Y estimasi). Bootstrap yang pertama kali diperkenalkan pada tahun 1979 merupakan sebuah metode yang berbasiskan komputer untuk mengestimasi standard error ∧
dari θ (nilai dugaan bagi parameter populasi θ ). Bootstrap menyediakan keakuratan estimasi dengan menggunakan prinsip plug-in yaitu menggantikan populasi dengan sampel yang dianggap mewakili. Estimasi bootstrap untuk
17 standard error tidak memerlukan perhitungan teori dan selalu tersedia walaupun ∧
sekompleks apapun perhitungan statistika untuk estimator θ , artinya prosedur bootstrap untuk standard error selalu sama untuk semua bentuk distribusi data.
2.1.7
Algoritma Bootstrap untuk Mengestimasi Standard error
Algoritma bootstrap untuk mengestimasi standard error menurut Efron dan Tibshirani (1998, p47) adalah sebagai berikut : a.
Pilih sampel bootstrap, yaitu sampel yang telah kita resampling dari sampel asli. Dinotasikan dengan x1*, x2*,..., xB*, masing-masing berisi nilai data yang telah disampling secara random dengan pengembalian dari sampel x.
b.
Evaluasi hasil bootstrap yang diperoleh untuk masing-masing sampel bootstrap ∧
θ *(b) = s(x*b)
c.
b = 1,2 , ... , B
(2.12)
Estimasi standard error untuk sampel bootstrap ∧
se B =
B
∧
∧
∑ ( θ *(b) - θ *(.))2/ (B - 1)
1/ 2
(2.13)
b =1
∧
dimana θ *(.) =
B
∑
∧
θ *(b)/B
(2.14)
b =1
2.2
Regresi Linier
Menurut Sir Francis Galton (Walpole et al, 2002), persamaan regresi adalah persamaan matematik yang memungkinkan kita meramalkan nilai-nilai atau variabel-variabel suatu peubah tak bebas dari nilai-nilai satu atau lebih
18 peubah bebas. Jika nilai peubah tak bebas dinyatakan dengan konotasi Y dan nilai peubah bebas dengan konotasi X maka bentuk hubungan antara X dan Y adalah merupakan suatu hubungan linier, yang dinotasikan dengan Y = α + βx , untuk satu peubah bebas dan Y = α + β1 xi + β 2 x 2 + ... + β n x n , untuk dua atau lebih peubah bebas
Fungsi linier Y = α + βx apabila digambarkan, akan tampak seperti gambar 2.2
Y
Δy Δx
β=
Δx Δy
O
α
X
Gambar 2.2 Fungsi linier Y = α + βx
α = jarak titik asal O dengan perpotongan antara sumbu tegak Y dan garis fungsi linier atau besarnya nilai Y kalau X = 0 sering disebut “intercept coefficient.”
β = koefisien arah = koefisien regresi = besarnya pengaruh X terhadap Y, apabila X naik 1 unit. Sering disebut “slope coefficient.”
Persamaan Y = α + βx juga bisa ditulis Y = B0 + B1X1, atau dengan simbol lainnya. Beberapa simbol yang sering digunakan dalam fungsi linier ini adalah ∆
= delta, simbol pertambahan
19 Δx
= delta X, pertambahan X
∆Y
= delta Y, pertambahan y
β
= adalah rata-rata pertambahan y per 1 unit (satuan) pertambahan X, atau pertambahan X sebesar 1 unit akan mengakibatkan pertambahan pertambahan Y sebesar B Model regresi harus mempunyai variabel penduga yang linier serta
parameter yang linier. Linier dalam parameter karena tidak ada parameter yang muncul sebagai pangkat dua, perkalian atau pembagian oleh parameter lainnya. Dalam praktek model regresi, yang mempengaruhi Y bukan hanya X saja, melainkan masih ada faktor lain yang tidak dimasukkan dalam persamaan. Faktorfaktor tersebut secara keseluruhan disebut error atau “disturbance error”. Error tersebut yang menyebabkan suatu ramalan sering tidak tepat. Dengan memperhitungkan error є maka bentuk persamaan fungsi linier tersebut diatas menjadi sebagai berikut : Y = α + βx + ε
dimana α dan β adalah konstanta yang harus diestimasi, dan є adalah error.
2.2.1
Regresi Linier Berganda
Regresi linier berganda adalah persamaan regresi untuk meramalkan hubungan antara satu peubah tak bebas dengan dua atau lebih peubah bebas, yang akan ditentukan hubungan antara Y dan X1, X2,...Xk sehingga didapat regresi Y = f(X1, X2,...Xk ).
20 2.2.1.1 Persamaan Regresi Linier Berganda
Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui, dipergunakan persamaan regresi linier berganda. Hubungan Y dan X1, X2,... ,Xk adalah sebagai berikut : Y i = B0 + B1X1i + B2X2i + … + BkXki + εi
(2.15)
( untuk populasi ) Y i = b0 + b1X1i + b2X2i + … + bkXki + ei
(2.16)
( untuk sampel ) dimana : i = 1,2,...,n b0, b1, b2 ,. . . , bk dan ei adalah pendugaan atas B0, B1, B2 ,. . . , Bk dan εi
Biasanya fungsi regresi dalam regresi linier berganda disebut regression surface atau response surface yang bisa digambarkan dalam suatu bidang. Apabila fungsi regresi terdiri dari lebih dari tiga penduga variabel maka dinamakan fungsi hyperplane, dimana fungsi ini tidak bisa lagi digambarkan dalam suatu bidang
(Neter John et al, 1996)
Fungsi regresi apabila dinyatakan dalam bentuk persaman matriks, akan diperoleh rumus berikut, Y=XB+ε
dimana : Y , B , ε = vektor X = matriks
(2.17)
21 sedangkan
Y=
y1 y2 . . . .
B0 B1 . . .
B=
ε0 ε1 ε=
. .
.
.
.
yn
Bn
. . . . εn
X=
1 1 . .
X11 X21 ... Xk1 X12 X22 ... Xk2 . . . . . .
1 . . . 1
X1i X2i ... Xki . . . . . . . . . X1n X2n ... Xkn
2.2.1.2 Pendugaan Koefisien Regresi Linier Berganda
Koefisien B harus diestimasi berdasarkan data hasil penelitian sampel acak. Prosedur estimasi tergantung pada asumsi mengenai variabel X dan error ε. Beberapa asumsi yang penting adalah sebagai berikut :
1
Nilai harapan setiap error sama dengan nol = 0 → E(εi) = 0, untuk semua i. E (ε 1 E (ε 1
. . .
E (ε 1
. .
E (ε 1
=
0 0 . . 0 . . 0
= 0 ( vektor nol )
22 Nilai harapan suatu vektor/matriks adalah nilai harapan dari masingmasing komponen vektor/matriks tersebut. 2
Error yang satu (εi) tidak berkorelasi (bebas) terhadap error lainnya (εi), akan tetapi mempunyai varians yang sama (Homoskedastisitas).
3
X1i, X2i,... ,Xki merupakan bilangan riil, tanpa mengandung kesalahan.
Dengan perkataan lain matriks merupakan himpunan angka-angka konstan. 4
Matriks X mempunyai rank k < n (ada kolom dari matriks X yang bebas linier). Jumlah observasi n harus lebih banyak dari jumlah variabel, atau lebih banyak dari koefisien regresi linier yang akan diestimasi Ŷ = b0 + b1X1 + b2X2 + … + bkXk
(2.18)
Jika asumsi yang disebut diatas dapat dipenuhi, maka penggunaan metode kuadrat terkecil akan menghasilkan Best Liniar Unbiased Estimator terhadap koefisien B. Misalkan b sebagai penduga β : Y = Xb + e e = Y - Xb ei = Yi - b1X1i - b2X2i - ... – bkXki
(2.19)
maka jumlah pangkat dua simpangan yang harus diminimumkan : ∑ ei2 = ∑ ( Yi - b1X1i - b2X2i - ... - bkXki)2
(2.20)
Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b sedemikian rupa sehingga jumlah kuadrat error : eTe = ∑ ei2 minimum
23 (2.21) Caranya ialah dengan penurunan parsial ∑ ei2 terhadap setiap komponen vektor b dan menyamakannya dengan 0, sehingga didapat persamaan normal :
nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i + … + bk∑X1iXki = ∑X1iYi
(2.22)
b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi .
.
.
.
b0 ∑Xki + b1∑X1i Xki + b2∑X2i Xki + … + bk∑Xki2 = ∑kiYi
Bila dinyatakan dalam bentuk matriks, persamaan normal diatas akan menjadi XTXb = XTY
(2.23)
Dengan demikian, b sebagai penduga B dapat diperoleh melalui rumus berikut b = (XTX)-1 XTY
(2.24)
sehingga dapat diselesaikan dengan persamaan matriks. Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam bentuk vektor matrik adalah sebagai berikut : Var (b) = σ²(XTX)-1
(2.25)
karena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga perkiraan varians (b) adalah Var (b) = Sb² = Se²(XTX)-1
(2.26)
dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut
24
S
2
=
e
eT e ∑ ei2 = n − k −1 n − k −1
(2.27)
dimana : n = banyaknya observasi, k = banyaknya variabel bebas
2.2.1.3 Standard error pada Regresi Linier Berganda
Kesalahan baku regresi sama dengan simpangan baku (standard deviation) atau standard error dinyatakan dengan
S
S
=
e
2 e
=
1 ∑ ei 2 n − k −1
(2.28)
Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan
S
2
bj
2
= S e d jj
(2.29)
dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal utama. Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan
S
bj
=
S
2 bj
(2.30)
2.2.1.4 Masalah (Penyimpangan) pada Regresi Linier Berganda 2.2.1.4.1
Otokorelasi
Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi ,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap kesalahan sebelumnya. Jadi apabila asumsi tersebut tidak dipenuhi maka akan
25 terjadi otokorelasi dan apabila metode kuadrat terkecil diterapkan untuk memperkirakan parameter / koefisien regresi, maka penduga yang dihasilkan bukan lagi penduga tak bias yang terbaik. Selain itu, apabila terjadi otokorelasi di antara kesalahan pengganggu maka pengujian nyata berdasarkan statistik uji t dan F sebetulnya tidak berlaku lagi. Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan
terlebih dahulu untuk menghilangkan otokorelasi di
antara kesalahan pengganggu tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d Durbin-Watson (The Durbin-Watson d Statistics).
2.2.1.4.2
Heterokedastisitas
Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :
E( εε ) = σ v = σ T
2
V11 0
…
0
0
V22
…
0
0
0
…
Vnn
2
Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu (Vii≠1), maka kesalahan pengganggu tersebut disebut Dengan kata lain kesalahan
pengganggu merupakan
heteroskedastisitas. variabel bebas, tetapi
kesalahan pengganggu tersebut mempunyai varians yang berbeda untuk setiap nilai X yang berbeda, di mana X merupakan variabel bebas. Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik kovarian menjadi matrik yang memenuhi homokedastisitas
26 2.2.1.4.3
Multikolinieritas
Multikolinieritas adalah masalah yang timbul pada regresi linier apabila terdapat suatu hubungan atau korelasi di antara beberapa
atau semua
dari
peubah-peubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi, maka akan sangat sulit untuk memisahkan pengaruh mereka masing-masing terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik bagi koefisien-koefisien regresi.
2.3
R Language
R adalah suatu sistem untuk komputasi statistika dan grafik yang dapat dijalankan pada platform UNIX, Windows, dan MacOS. R menyediakan banyak hal diantaranya, sebuah bahasa pemrograman, teknik statistika dan grafik tingkat tinggi (model linier dan nonlinier), pengujian statistika, analisis deret waktu, klasifikasi, kluster, akses ke bahasa pemrograman yang lainnya dan fasilitas perbaikan kesalahan (debug). Beberapa hal yang dimiliki oleh R antara lain •
Pengaturan data dan fasilitas penyimpanan yang efektif
•
Operator yang cocok untuk perhitungan array dan matrik
•
Tools Colection yang bisa digunakan untuk analisis data
•
Fasilitas grafik untuk analisis data dan menyediakannya pada komputer atau hardcopy
•
Bahasa pemrograman yang sederhana, efektif dan dikembangkan dengan baik yang meliputi syarat, pengulangan, fungsi rekursif dan fasilitas input serta output.
27 R-Language adalah versi lain dari S. R dikembangkan pada laboratorium Bell oleh John M Chambers dan rekan-rekan pada tahun 1980 dan sejak itu telah dipakai secara luas dalam komunitas statistika. John M Chambers sendiri telah mendapat penghargaan “1998 ACM Software Systems For S”. Ada banyak kesamaan antara S dan R, namun ada juga beberapa perbedaan yang penting. S dipakai jika kita ingin menggunakan software yang sifatnya komersial, karena R – Language merupakan suatu software yang bisa diperoleh secara gratis dengan cara men”download” dari http://www.r-project.org .Versi terbaru dari R Language adalah versi {2.2.1} (download tanggal 20 Desember 2005). Untuk mengikuti perkembangan software R, maka penelitian ini menggunakan R versi terbaru. Sintaks yang digunakan dalam R memiliki sedikit kesdamaan dengan C Language. Kelebihan dari R adalah menyediakan “computing on the language” yang memungkinkan untuk membuat suatu fungsi yang mengambil sebuah ekspresi sebagai input, sesuatu yang sangat sering digunakan dalam permodelan statistika dan grafik. R sudah menyediakan banyak paket-paket fungsi yang bisa digunakan untuk komputasi statistik, tetapi fungsi-fungsi tersebut bisa dikodekan sendiri, mengingat beberapa pengguna lebih suka menulis sendiri fungsi yang akan dipakai.