BAB II TINJAUAN PUSTAKA 2.1
Analisis Regresi Linier Berganda Analisis regresi pertama kali dikembangkan oleh Sir Francis Galton pada abad
ke-19. Analisis regresi dengan satu peubah prediktor dan satu peubah respon disebut analisis regresi linier sederhana sedangkan analisis regresi yang melibatkan lebih dari satu peubah prediktor dengan satu peubah respon disebut analisis regresi linier berganda. Analisis regresi linier berganda merupakan analisis yang digunakan untuk menyelidiki hubungan di antara dua atau lebih peubah prediktor 𝑋 terhadap peubah respon 𝑌. Analisis regresi juga digunakan sebagai peramalan sehingga peubah respon 𝑌 dapat diramalkan dari peubah prediktor 𝑋, apabila peubah prediktornya diketahui (Neter et al., 1997). Bentuk hubungan antara peubah respon dengan peubah prediktor dapat dinyatakan dalam bentuk persamaan regresi atau model regresi. Model regresi merupakan sebuah persamaan yang menggambarkan pola hubungan statistik antara peubah prediktor dengan peubah respon. Pola hubungan yang dijelaskan oleh model regresi dapat berupa hubungan linier, hubungan kuadratik, eksponen dan lainnya. Model yang dihasilkan oleh regresi linier berganda adalah: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + ⋯ + 𝛽𝑝−1 𝑋𝑖𝑝−1 + 𝜀𝑖
(2.1)
Persamaan (2.1) dapat ditulis dengan notasi matriks yaitu: 𝑌𝑛×1 = 𝑋𝑛×𝑝 𝛽𝑝×1 + 𝜀𝑛×1
(2.2)
dengan:
𝑌𝑛×1
1 𝑌1 1 𝑌 = [ 2 ] , 𝑋𝑛×𝑚 = ⋮ ⋮ 𝑌𝑛 [1
𝜀𝑛×1
𝜀1 𝜀2 =[⋮] 𝜀𝑛
𝑋11 𝑋21 ⋮ 𝑋𝑛1
𝑋12 𝑋22 ⋮ 𝑋𝑛2
… ⋯ ⋮ ⋯
𝑋1𝑝−1 𝛽0 𝑋2𝑝−1 𝛽 , 𝛽𝑚×1 = [ 2 ] , dan ⋮ ⋮ 𝛽 𝑋𝑛𝑝−1 ] 𝑝−1
dengan: 𝑌 = vektor peubah respon dari amatan 𝑖 = 1,2,3, … , 𝑛 𝑛 = banyaknya amatan 𝛽 = vektor parameter dengan 𝑚 = 0,1,2, … , 𝑝 − 1 𝑝 = banyak parameter 𝑋 = matriks peubah prediktor 𝜀 = vektor peubah acak normal bebas dengan nilai harapan 𝐸{𝜀} = 0 dan matriks ragam 𝜎 2 {𝜀} = 𝜎 2 .
2.2
Metode Kuadrat Terkecil Metode kuadrat terkecil (MKT) adalah salah satu metode yang sering digunakan
dalam teknik analisis regresi yang bertujuan untuk meminimumkan jumlah kuadrat galat (𝜀𝑖 ) sehingga nilai penduga parameternya akan mendekati nilai yang sesungguhnya. Dalam menaksir suatu model regresi, MKT sering digunakan selain karena perhitungannya yang mudah dan sederhana, metode MKT juga memenuhi sifat
Best Linier Unbiased Estimator (BLUE) terhadap koefisien 𝛽, apabila asumsinya terpenuhi. Menurut Burke (2010) adapun asumsi yang harus terpenuhi di antaranya: 1.
Model harus linier dalam parameter.
2.
Datanya merupakan sampel acak dari populasi.
3.
Peubah prediktor tidak berkorelasi kuat (multikolinieritas).
4.
Peubah prediktor diukur dengan sangat tepat sehingga error (tingkat kesalahan) bisa diabaikan (dianggap tak ada).
5.
Nilai yang diharapkan dari residualnya selalu nol, 𝐸(𝜀) = 0.
6.
Residual memiliki varians yang konstan (varians homogen), misalkan 𝑣𝑎𝑟(𝜀) = 𝜎2
7.
Residualnya berdistribusi normal, 𝜀~𝑁(0, 𝜎 2 ).
Unbiased artinya tidak bias atau nilai harapan dari penduga sama atau mendekati nilai parameter yang sebenarnya. Misalkan 𝛽̂ adalah estimasi dari parameter 𝛽, maka: 𝐵𝑖𝑎𝑠{𝛽̂ } = 𝐸{𝛽̂ } − 𝛽
(2.3)
Atau dengan kata lain penduga 𝛽̂ bagi parameter 𝛽 dikatakan unbiased jika (Neter et al., 1997): 𝐸{𝛽̂ } = 𝛽
(2.4)
Estimasi yang baik adalah estimasi yang menghasilkan nilai bias yang rendah atau kecil. Semakin besar nilai bias yang dihasilkan, maka semakin jauh penyimpangan dari nilai yang sebenarnya. Penduga metode kuadrat terkecil merupakan penduga yang
unbiased jika asumsi-asumsinya terpenuhi. Hasil estimasi kuadrat terkecil akan bias ketika ada pengamatan yang bersifat pencilan (Irawan, 2013).
2.3
Pencilan atau Outlier Pencilan atau outlier merupakan suatu data yang pengamatannya berada jauh dari
sekumpulan data amatan lainnya (Neter et al., 1997). Pencilan merupakan pengamatan yang dapat diidentifikasi secara jelas yang berbeda dari pengamatan lain, namun data pencilan dapat menunjukkan karakteristik dari populasi. Pencilan dapat menimbulkan kesulitan dalam metode kuadrat terkecil (MKT). Bila terdapat pencilan, peneliti akan curiga bahwa amatan tersebut berasal dari suatu kesalahan atau pengaruh luar yang lain, dan oleh karenanya harus dibuang. Alasan untuk membuangnya adalah bahwa di dalam metode kuadrat terkecil, garis regresi dugaannya akan ditarik secara tidak proporsional ke arah pencilan. Akan tetapi, bisa jadi pencilan mengandung informasi yang penting, bila pencilan itu merupakan akibat dari interaksi dengan peubah bebas lain yang tidak disertakan di dalam model (Neter et al., 1997). Adapun jenis-jenis pencilan menurut (Chen, 2002) yaitu: 1.
Pencilan pada peubah 𝑌 Adanya pencilan pada peubah respon akan berpengaruh pada pendugaan parameter intersep.
2.
Pencilan pada peubah 𝑋 atau leverage point Pencilan pada peubah 𝑋 dapat diklasifikasikan menjadi: a.
Good leverage point
Amatan pencilan pada peubah bebas berada dekat dengan garis regresi dugaan. Pencilan ini tidak berpengaruh dalam pendugaan parameter. b.
Bad leverage point Amatan pencilan pada peubah bebas berada jauh dari garis regresi dugaan. Apabila terdapat bad leverage point dalam amatan maka akan memberikan pengaruh pada proses pendugaan parameter, 𝛽.
3.
Pencilan pada peubah 𝑋 dan peubah 𝑌 Pencilan pada peubah prediktor dan peubah respon dapat memengaruhi proses
pendugaan parameter, baik slope maupun intersep.
2.4
Multikolinearitas Multikolinearitas atau kolinearitas ganda merupakan suatu kondisi bila peubah-
peubah prediktor saling berkorelasi (Neter et al., 1997). Variance Inflation Factor (VIF) merupakan salah satu uji yang digunakan untuk mendeteksi adanya multikolinearitas pada pengamatan. VIF dapat menginterpretasikan akibat dari korelasi antar peubah prediktor ke-𝑖 pada ragam penduga koefisien regresi. Perhitungan VIF sebagai berikut: 1
𝑉𝐼𝐹𝑖 = 1−𝑅2
; 𝑖 = 1,2, … , 𝑝 − 1
(2.5)
𝑖
Nilai 𝑉𝐼𝐹 = 1 bila 𝑅𝑖2 = 0, dengan kata lain bila 𝑋𝑖 tidak berhubungan linear dengan peubah-peubah 𝑋 lainnya. Nilai 𝑅𝑖2 menunjukkan nilai korelasi antar peubah, kenaikan korelasi antar peubah akan mengakibatkan kenaikan nilai VIF yang
menunjukkan terjadinya multikolinearitas. Jika nilai VIF melebihi 5, maka ini menunjukkan adanya masalah multikolinearitas antar peubah prediktor.
2.5
Uji Anderson-Darling Uji Anderson-Darling digunakan untuk menguji apakah sampel data berasal dari
populasi dengan distribusi tertentu (Fallo et.al., 2013). Uji Anderson-Darling memiliki keuntungan yang memungkinkan tes yang lebih sensitif, tetapi kelemahannya adalah nilai-nilai kritisnya harus dihitung untuk setiap distribusinya. Misalkan 𝑥1 , 𝑥2 , … 𝑥𝑛 adalah data yang ingin diuji distribusi normalnya dengan tingkat signifikan 𝛼 maka uji Anderson-Darling diperoleh dengan rumus: 1
𝐴 = −𝑛 − 𝑛 ∑𝑛𝑖=1(2𝑖 − 1){𝑙𝑛𝐹(𝑍𝑖 ) + ln[1 − 𝐹(𝑍𝑛+1−𝑖 )]}
(2.6)
dengan: 𝑍𝑖 =
𝑥𝑖 −𝑥̅ 𝑠
, 𝑖 = 1,2,3, … 𝑛
dengan: 𝐴 = statistik uji Anderson-Darling 𝑛 = ukuran data 𝑥𝑖 = data terurut dari 1,2,3, … , 𝑛 𝑍𝑖 = data 𝑥𝑖 yang dibakukan 𝑥̅ = rata-rata 𝑠 = standar deviasi data 𝐹(𝑍𝑖 ) = nilai fungsi distribusi kumulatif normal baku di 𝑍𝑖
(2.7)
Hipotesis dari uji Anderson-Darling adalah: 𝐻0 : data pada sampel berasal dari populasi yang berdistribusi normal 𝐻1 : data pada sampel berasal dari populasi yang berdistribusi tidak normal Keputusan tolak 𝐻0 apabila nilai 𝐴 lebih besar dari nilai kritisnya atau nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 lebih kecil dari 𝛼.
2.6
Regresi Robust Regresi robust merupakan metode yang mampu menghasilkan penduga
parameter yang robust (kekar) terhadap pencilan. Regresi ini digunakan ketika galat berdistribusi tidak normal karena adanya pencilan. Adapun beberapa regresi robust diantaranya metode Minimum Covariance Determinant (MCD) dan metode Least Median of Squares (LMS). 2.6.1 Minimum Covariance Determinant (MCD) Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw dan Van Driessen pada tahun 1985. Prinsip metode MCD adalah dengan menggunakan vektor rata-rata dan matriks kovarians yang didapat dari penduga MCD untuk menentukan bobot dari setiap data, sehingga didapat penduga parameter model MCD. Menurut Hubert & Debruyne, (2010) metode ini membentuk suatu subsampel 𝐻 yang berukuran ℎ dari sampel berukuran 𝑛 amatan dengan ℎ ≤ 𝑛 yang matriks kovariansnya memiliki determinan terkecil diantara semua kombinasi kemungkinan data dengan: ⌊
𝑛+𝑝+1 2
⌋≤ℎ≤𝑛
(2.8)
dengan: ⌊𝑥⌋ = fungsi floor yang akan mengembalikan bilangan bulat (ℤ) terbesar yang tidak lebih besar dari bilangan real (ℝ) 𝑥 𝑛
= banyak amatan
𝑝
= banyak peubah prediktor
Metode MCD mencari subsample berukuran ℎ sebanyak 𝐶ℎ𝑛 , dan untuk nilai vektor rataan 𝑽𝑀𝐶𝐷 dan matriks kovarians 𝑆𝑀𝐶𝐷 diberikan: 1
𝑽𝑀𝐶𝐷 = ℎ ∑𝑖∈𝐻 𝑥𝑖 1
𝑆𝑀𝐶𝐷 = ℎ ∑𝑖∈𝐻[𝑥𝑖 − 𝑽𝑀𝐶𝐷 ][𝑥𝑖 − 𝑽𝑀𝐶𝐷 ]𝑇
(2.9) (2.10)
dengan: 𝑥𝑖
= pengamatan ke-𝑖
ℎ
= subsampel
𝑽𝑀𝐶𝐷 = vektor rataan 𝑆𝑀𝐶𝐷 = matriks kovarians 𝑥𝑇
= transpose pada matriks 𝑥
Kemudian untuk menghitung jarak mahalanobis yang kekar diperoleh dengan rumus: −1 (𝑥 𝑅𝐷(𝑥𝑖 ) = √(𝑥𝑖 − 𝑽𝑀𝐶𝐷 )𝑇 𝑆𝑀𝐶𝐷 𝑖 − 𝑽𝑀𝐶𝐷 )
(2.11)
Pada metode MCD dibutuhkan algoritma Fast MCD agar meminimalisasi waktu komputasi perhitungannya (Rousseeuw & Driessen, 1999). Langkah-langkah penduga MCD dengan Fast MCD:
1.
Ambil himpunan bagian dari matriks 𝑋 secara acak, misalkan himpunan bagian tersebut 𝐻1 dengan jumlah elemen sebanyak ℎ, dengan ℎ =
2.
𝑛+𝑝+1 2
.
Hitung vektor rataan 𝑽𝑀𝐶𝐷 dan matriks kovarians 𝑆𝑀𝐶𝐷 pada 𝐻1 dengan persamaan (2.8) dan (2.9) yang dimisalkan 𝑽𝟏 dan 𝑆1 serta hitung 𝑑𝑒𝑡 (𝑆1 )
3.
Jika 𝑑𝑒𝑡 (𝑆1 ) = 0 maka berhenti. Jika tidak maka hitung jarak mahalanobis kekarnya: 𝑅𝐷(𝑥𝑖 ) = √(𝑥𝑖 − 𝑽1 )𝑇 𝑆1−1 (𝑥𝑖 − 𝑽1 ), 𝑖 = 1,2,3, … , 𝑛
4.
Kemudian urutkan jarak mahalanobisnya dari urutan terkecil hingga terbesar.
5.
Ambil elemen dari ℎ pengamatan dengan jarak terkecil berdasarkan pada tahapan 4 untuk menjadi himpunan bagian 𝐻2 , ulangi tahapan 2 sampai tahapan 4 sehingga ditemukan himpunan bagian yang konvergen 𝑑𝑒𝑡 (𝑆𝑖+1 ) = 𝑑𝑒𝑡 (𝑆1 ).
6.
Ulangi dari langkah 1 dengan mengambil himpunan 𝐻 selanjutnya.
7.
Ambil salah satu himpunan 𝐻 yang memiliki nilai determinan matriks kovarians terkecil, kemudian cari nilai 𝑽𝑀𝐶𝐷 dan 𝑆𝑀𝐶𝐷 .
8.
Berdasarkan anggota ℎ tersebut, selanjutnya data diboboti: 𝑊𝑖 = {
−1 (𝑥 2 1, 𝑗𝑖𝑘𝑎 (𝑥𝑖 − 𝑽𝑀𝐶𝐷 )𝑇 𝑆𝑀𝐶𝐷 𝑖 − 𝑽𝑀𝐶𝐷 ) ≤ 𝜒𝑝;1−𝛼 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
(2.12) 9.
Berdasarkan pembobot 𝑊𝑖 dapat dibentuk matriks 𝑊𝑀𝐶𝐷 berukuran 𝑛 × 𝑛 sebagai berikut:
𝑊𝑀𝐶𝐷
𝑤11 𝑤21 =[ ⋮ 𝑤𝑛1
𝑤12 𝑤22 ⋮ 𝑤𝑛2
… 𝑤1𝑛 ⋯ 𝑤2𝑛 ⋮ ⋮ ] ⋯ 𝑤𝑛𝑛
(2.13)
dengan entri matriks 𝑤𝑖𝑗 = 0, dengan 𝑖 ≠ 𝑗. Sehingga MCD dimodelkan dengan persamaan: 𝛽̂𝑀𝐶𝐷 = (𝑋 𝑇 𝑊𝑀𝐶𝐷 𝑋)−1 (𝑋 𝑇 𝑊𝑀𝐶𝐷 𝑌)
(2.14)
2.6.2 Least Median of Squares (LMS) Least Median of Squares (LMS) merupakan salah satu metode estimasi regresi robust. Menurut Rousseeuw (1984), metode ini meminimalkan median (nilai tengah) dari kuadrat residual (𝑒𝑖2 ) dengan (𝑒𝑖2 ) = (𝑦𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )2 . 𝑀𝐽 = min{𝑚𝑒𝑑𝑖𝑎𝑛 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )2 } 𝑀𝐽 = min{𝑚𝑒𝑑𝑖𝑎𝑛 𝑒𝑖2 }
(2.15)
Minimalisasi dilakukan pada urutan nilai residual kuadrat, dengan ℎ𝑖 = ⌈
𝑛+𝑝+1 2
⌉
(2.16)
dengan: ℎ𝑖 = subsampel 𝑛 = banyak amatan 𝑝 = banyak parameter ⌈𝑥⌉ = fungsi ceiling atas yang akan mengembalikan bilangan bulat (ℤ) terkecil yang tidak lebih kecil dari bilangan real (ℝ) 𝑥
Pada proses perhitungan, nilai ℎ𝑖 harus selalu dalam bentuk bilangan bulat. Oleh karena itu, jika nilai ℎ𝑖 bukan dalam bentuk bilangan bulat maka dilakukan pembulatan ke atas (Parmikanti et al., 2013). Prinsip dasar dari metode LMS adalah dengan memberikan bobot 𝑤𝑖𝑖 pada data sehingga data pencilan tidak mempengaruhi model parameter taksiran. Menurut Yingying (2009) dalam Dalimunthe (2010), bobot 𝑤𝑖𝑖 dengan batas kesalahan 𝛼 dirumuskan dengan ketentuan: 𝑤𝑖𝑖 = {
𝑗𝑖𝑘𝑎 |𝑒𝑖 /𝜎̂| ≤ 𝛼 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
1, 0,
(2.17)
dengan 5
𝜎̂ = 1,4826 [1 + 𝑛−𝑝] √𝑀𝐽
(2.18)
Setelah bobot 𝑤𝑖𝑖 dihitung, dapat dibentuk matriks 𝑊 sebagai berikut: 𝑤11 𝑤21 𝑊=[ ⋮ 𝑤𝑛1
𝑤12 𝑤22 ⋮ 𝑤𝑛2
… 𝑤1𝑛 ⋯ 𝑤2𝑛 ⋮ ⋮ ] ⋯ 𝑤𝑛𝑛
(2.19)
dengan entri matriks 𝑤𝑖𝑗 = 0, dengan 𝑖 ≠ 𝑗. Setelah terbentuk matriks 𝑊, maka penduga parameter regresi LMS dapat dihitung dengan menggunakan rumus: 𝛽̂𝐿𝑀𝑆 = (𝑋 𝑇 𝑊𝑋)−1 (𝑋 𝑇 𝑊𝑌) 2.7
(2.20)
Bootstrap Bootstrap merupakan metode yang didasarkan pada simulasi data untuk
keperluan inferensi statistik yang pertama kali diperkenalkan oleh Efron dan Tibshirani
tahun 1979. Metode bootstrap dilakukan dengan mengambil sampel dari sampel asli dengan ukuran sama dengan sampel asli dan dilakukan dengan pengembalian (Efron & Tibshirani, 1993). Sampel asli dalam metode bootstrap dipandang sebagai populasi. Istilah sampel asli digunakan untuk menyebut himpunan bagian yang pertama diambil dari populasi sebelum dilakukan resampling, yaitu proses pengambilan sampel kembali dari sampel yang telah diambil dari populasi. Sedangkan istilah sampel bootstrap (resample) digunakan untuk menyebut sampel yang telah diresampling dari sampel asli. Sampel asli dilambangkan dengan: 𝑥 = {𝑥1 , 𝑥2 , … , 𝑥𝑛 }
𝑛 = 1,2,3, …
(2.21)
Sampel bootstrap: 𝑥 ∗ = {𝑥1 ∗ , 𝑥2 ∗ , … , 𝑥𝐵 ∗ }
𝑥 = {𝑥1 , 𝑥2 , … , 𝑥𝑛 }
G
R e s a m p li n g
𝐵 = 1,2,3, …
𝑥1 ∗ 𝑥2 ∗
(2.22)
𝑆𝑥1 ∗ 𝑆𝑥2 ∗
Replikasi Bootstrap
⋮ 𝑥𝐵 ∗
𝑆𝑥𝐵 ∗
Sampel asli Sampel bootstrap
Gambar (2.1) Skema proses bootstrap (Efron & Tibshirani, 1993).
Bootstrap dapat digunakan untuk mengatasi permasalahan dalam statistika baik masalah data yang sedikit, data yang menyimpang dari asumsi maupun data yang tidak memiliki distribusi. Selain itu metode bootstrap juga digunakan untuk mengestimasi standard error dan selang kepercayaan dari suatu parameter populasi yang tidak diketahui (Efron & Tibshirani, 1993). Metode bootstrap tidak harus dibentuk dari asumsi statistik parametrik, dengan kata lain parameternya tidak harus mengikuti distribusi normal. Proses resampling bootstrap dilakukan dengan menggunakan bantuan progam komputer untuk mengestimasi nilai parameter dari masing-masing sampel mengingat besarnya jumlah resampling yang bisa mencapai ribuan kali sehingga sangat sulit untuk melakukan perhitungan secara manual. Menurut Efron dan Tibshirani, ada dua prosedur bootstrap yang bisa digunakan dalam regresi yaitu bootstrap residual dan bootstrap pairs. Prosedur bootstrap residual merupakan metode bootstrap yang proses resamplingnya diterapkan pada residual yang telah dihasilkan oleh model analisis regresi sedangkan bootstrap pairs yaitu melakukan bootstrap pada regresi dengan mempertahankan korelasi pasangan peubah 𝑋 dan 𝑌. Penduga bootstrap untuk bias dalam prosedur bootstrap residual didefinisikan sebagai: ̂𝐵 = 1 ∑𝐵𝑏=1 𝛽̂ ∗𝑏 − 𝛽̂ 𝐵𝑖𝑎𝑠 𝐵
(Efron & Tibshirani, 1993).
(2.23)
Langkah-langkah dalam bootstrap residual (Sungkono,2013): 1.
Menentukan nilai 𝑌̂ dari penduga parameter yang dihasilkan oleh model analisis regresi, diperoleh 𝑌̂ = 𝑋𝛽̂
2.
(2.24)
Menentukan model regresi linier sehingga menghasilkan residual. Nilai residual yang diperoleh yaitu, 𝑒 = 𝑌 − 𝑌̂.
3.
Mengambil sampel bootstrap berukuran 𝑛 dari 𝑒1 , 𝑒2 , 𝑒3 , … 𝑒𝑛 secara random dengan pengembalian, diperoleh sampel bootstrap pertama 𝑒 ∗ = (𝑒1∗ , 𝑒2∗ , … 𝑒𝑛∗ ).
4.
Menghitung nilai bootstrap untuk 𝑌 ∗ dengan menambahkan 𝑒 ∗ sehingga menghasilkan: 𝑌 ∗ = 𝑋𝛽̂ + 𝑒 ∗
5.
Menghitung koefisisen regresi untuk sampel bootstrap 𝑌 ∗ dengan 𝑋 sehingga diperoleh 𝛽̂ ∗ .
6.
(2.25)
Ulangi langkah 2,3 dan 4 sesuai dengan jumlah replikasi yang diinginkan.