E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
Uji Asumsi Klasik Regresi Linear Pada penulisan tentang Regresi Linear ini, penulis akan memberikan bahasan mengenai Uji Asumsi Klasik kepada para pembaca untuk memberikan pemahaman dan solusi dalam mengantisipasi asumsi yang diberikan. Pengujian Asumsi Klasik merupakan pengujian asumsi-asumsi statistik yang harus dipenuhi pada analisis regresi linear berganda yang berbasis ordinary least square (OLS). Ketika asumsi tidak terpenuhi, biasanya peneliti menggunakan berbagai solusi agar asumsinya dapat terpenuhi, atau beralih ke metode yang lebih advance agar asumsinya dapat terselesaikan. Pada penulisan ini, Asumsi Klasik yang akan diberikan adalah Multikolinearitas, Autokorelasi, Heteroskedatisitas, dan Normalitas.
Pengujian Asumsi Klasik. Pengujian Asumsi Klasik harus dilakukan untuk menguji asumsi-asumsi yang ada dalam pemodelan regresi linear berganda. Diberikan bentuk umum dari model regresi linear berganda untuk n pengamatan, yaitu
yi = β 0 + β 1 X 1,i + β 2 X 2,i + ... + β k X k ,i + ε i iid
ε i ~ N (0, σ 2 ) ; i = 1,2,..., n Variabel-variabel prediktor dalam model regresi linear berganda disebut juga sebagai variabel-variabel independen (bebas), artinya variabel-variabel prediktor tidak memiliki hubungan atau keterkaitan satu dengan yang lain (intercorrelation). Dengan kata lain, variabel-variabel prediktor tidak memiliki sifat Multikolinearitas. Diasumsikan Error (ε) bersifat identik dan independen (iid), serta berdistribusi Normal dengan mean nol dan varian σ2. Hal ini memberikan arti bahwa komponen error memiliki kecenderungan mendekati nol dan tidak memiliki ketergantungan diantara komponen error berdasarkan waktu tertentu (Autokorelasi), serta error mengikuti distribusi Normal (Normalitas) dan tidak memiliki sifat Heteroskedatisitas (varian tidak konstan). Ketika digunakan data pengamatan (sampel), parameter/koefisien model regresi akan diestimasi dengan metode OLS sehingga akan menghasilkan dugaan dari koefisien regresi β0, β1, β2, …, βp , yaitu b0, b1, b2, …, bp sehingga model regresinya akan menjadi
www.statsdata.my.id
Page 1
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
yi = b0 + b1 X 1,i + b2 X 2,i + ... + bk X k ,i + ei yi = yˆ i + ei . yˆ i = b0 + b1 X 1,i + b2 X 2,i + ... + bk X k ,i ; i = 1,2,..., n Residual (e) merupakan ukuran kesalahan sampel yang digunakan untuk menggambarkan ukuran kesalahan populasi yaitu Error (ε). Residual juga dinyatakan sebagai perbedaan antara data pengamatan (sampel) dari variabel respon (y) dengan data prediksi respon dari estimasi model regresi (y-hat), sehingga diperoleh residual secara matematis ei = y i − yˆ i ; i = 1,2,..., n . Tidak semua uji asumsi klasik harus dilakukan pada analisis regresi linear, seperti: pengujian asumsi Multikolinearitas tidak harus dilakukan pada analisis regresi linear sederhana yang memiliki variabel respon dan prediktor hanya satu.
Asumsi Multikolinearitas Asumsi Multikolinearitas adalah asumsi yang menunjukkan adanya hubungan linear yang kuat diantara beberapa variabel prediktor dalam suatu model regresi linear berganda. Model regresi yang baik memiliki variabel-variabel prediktor yang independen atau tidak berkorelasi. Pada pengujian asumsi ini, diharapkan asumsi Multikolinieritas tidak terpenuhi. Penyebab terjadinya kasus Multikolinieritas adalah terdapat korelasi atau hubungan linear yang kuat diantara beberapa variabel prediktor yang dimasukkan kedalam model regresi, seperti: variabel-variabel ekonomi yang kebanyakan terkait satu dengan yang lain (intercorrelation). Berikut akan diberikan cara-cara mengidentifikasi adanya kasus Multikolinieritas: 1. Menghitung dan menguji koefisien korelasi diantara variabel-variabel prediktor. Terjadi kasus Multikolinieritas ketika terdapat korelasi yang kuat (atau signifikan) diantara variabel-variabel prediktor. 2. Mengecek nilai standard error dari masing-masing koefisien regresi [se(β)]. Kasus Multikolinieritas biasanya terjadi ketika nilai standard error dari koefisien regresi membesar, sehingga hasil ini akan cenderung menerima H0 (menyimpulkan bahwa koefisien regresi tidak signifikan) pada pengujian signifikansi parameter/koefisien regresi. Hal ini dapat terjadi, meskipun nilai koefisien regresinya tidak mendekati nol.
www.statsdata.my.id
Page 2
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
3. Menjumpai adanya output pengujian serentak koefisien regresi atau Uji ANOVA atau Uji F yang signifikan, tetapi output pengujian parsial koefisien regresi atau Uji t dari masing-masing variabel prediktor tidak ada yang signifikan. 4. Membandingkan output koefisien regresi dengan koefisien korelasi antara variabel respon dan prediktor. Pertama, kasus Multikolinieritas biasanya terjadi ketika terdapat perubahan hasil pengujian signifikansi pada koefisien regresi dan koefisien korelasi, seperti: koefisien korelasi antara y dan X1 adalah 0,765 dengan p-value = 0,001 (signifikan karena p-value < 5%), kemudian pada pemodelan regresi diperoleh koefisien regresi antara y dan X1 sebesar 0,065 dengan p-value = 0,191 (tidak signifikan karena p-value > 5%). Kedua, terjadi kasus Multikolinieritas ketika terdapat perubahan tanda koefisien (+/-) pada koefisien regresi dan koefisien korelasi, seperti: koefisien korelasi antara y dan X1 adalah 0,765 , kemudian pada pemodelan regresi diperoleh koefisien regresi antara y dan X1 sebesar -0,659 (terjadi perubahan tanda dari positif menjadi negatif). 5. Melakukan pemeriksaan nilai Variance Inflation Factor (VIF) dari masing-masing variabel prediktor. Kasus Multikolinieritas terjadi ketika nilai VIFj > 10 [2].
Solusi Kasus Multikolinearitas Solusi Multikolinearitas pada penulisan ini diberikan dalam empat saran, yaitu: 1. Menambahkan atau menggantikan data sampel baru karena terkadang sampel lain tidak memiliki kasus Multikolineritas yang sangat serius. 2. Menghapus salah satu variabel prediktor yang mengalami kasus Multikolinearitas, namun cara ini sekaligus memaksa peneliti untuk melakukan kesalahan pengukuran (menghapus variabel penelitian yang seharusnya diukur). 3. Mengabaikan kasus Multikolineritas selama tidak terjadi masalah yang sangat serius, seperti: perubahan hasil pengujian signifikansi atau perubahan tanda antara koefisien regresi dengan koefisien korelasi. 4. Menggunakan metode yang lebih advance, seperti: Stepwise Regression, Best Subset Regression, Principal Component Regression, dan Ridge Regression.
www.statsdata.my.id
Page 3
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
Asumsi Autokorelasi. Asumsi Autokorelasi merupakan asumsi residual yang memiliki komponen/nilai yang berkorelasi berdasarkan waktu (urutan waktu) pada himpunan data itu sendiri. Proses Autokorelasi terjadi ketika kovarian antara εi dengan εj tidak sama dengan nol dengan Cov(ε i , ε j ) ≠ 0 ; i ≠ j .
Pada pengujian asumsi ini, diharapkan asumsi Autokorelasi tidak terpenuhi. Penyebab terjadinya kasus Autokorelasi adalah: 1. Terdapat variabel prediktor penting yang tidak dimasukkan kedalam model regresi. 2. Pola hubungan antara y dan X tidak linear (kuadratik, kubik, atau nonlinear) ketika digambarkan dalam scatterplot. 3. Data pengamatan yang diambil merupakan data yang dicatat menurut waktu tertentu (data time series), seperti: perjam, harian, mingguan, bulanan, triwulan, kuartal, dan tahunan. 4. Adanya Manipulasi Data yang menyebabkan residual data terbentuk secara sistematik. Berikut diberikan cara-cara mengidentifikasi adanya kasus Autokorelasi: 1. Pengujian Durbin-Watson yang menguji adanya autokorelasi pada lag-1. Pada Tabel Durbin-Watson[4] diperoleh Output Tabel, yaitu nilai Durbin-Watson batas bawah (dL) dan batas atas (dU). Kriteria pemeriksaan asumsi Autokorelasi residual menggunakan Nilai Durbin-Watson (d), yaitu: 1) Jika d < 2 dan d < dL , maka residual bersifat autokorelasi positif. 2) Jika d < 2 dan d > dU , maka residual tidak bersifat autokorelasi. 3) Jika d < 2 dan dL ≤ d ≤ dU , maka hasil pengujian tidak dapat disimpulkan. 4) Jika d > 2 dan 4 – d < dL , maka residual bersifat autokorelasi negatif. 5) Jika d > 2 dan 4 – d > dU , maka residual tidak bersifat autokorelasi. 6) Jika d > 2 dan dL ≤ 4 – d ≤ dU , maka hasil pengujian tidak dapat disimpulkan. 2. Pengujian Autocorrelation Function (ACF) yang menguji adanya autokorelasi pada lag1, lag-2, lag-3, dan seterusnya. Pada uji ACF, kasus autokorelasi terjadi ketika ada lag pada plot ACF yang keluar batas signifikansi (margin error). 3. Pengujian Autokorelasi lainnya, seperti: Uji Breusch-Godfrey dan Uji Ljung-Box (gunakan software EVIEWS). www.statsdata.my.id
Page 4
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
Solusi Kasus Autokorelasi Solusi Autokorelasi pada penulisan ini diberikan dalam tiga saran, yaitu: 1. Menambahkan atau menggantikan data sampel baru karena terkadang sampel lain tidak memiliki kasus Autokorelasi yang sangat serius. 2. Menggunakan model regresi linear berganda dengan residualnya mengikuti proses Autoregressive orde 1 atau AR(1) yang diestimasi secara simultan (gunakan software EVIEWS) dengan rumusan
yt = β 0 + β 1 X 1,t + β 2 X 2,t + ... + β k X k ,t + ε t
ε t = ρε t −1 + vt ; − 1 < ρ < 1
.
vt ~ N (0, σ v2 ) ; t = 1,2,..., n
Asumsi Heteroskedatisitas Asumsi Heteroskedatisitas adalah asumsi residual dari model regresi yang memiliki varian tidak konstan. Pada pemeriksaan ini, diharapkan asumsi Heteroskedatisitas tidak terpenuhi karena model regresi linier berganda memiliki asumsi varian residual yang konstan (Homoskedatisitas). Penyebab terjadinya kasus heteroskedatisitas adalah: 1. Terdapat kesalahan input komponen/nilai variabel respon pada beberapa prediktor, sehingga pada komponen prediktor yang berbeda memiliki komponen variabel respon yang sama, seperti: Untuk X = 5 dan X = 6, diperoleh nilai y = 0,9 . 2. Kasus Heteroskedatisitas terjadi secara alami pada variabel-variabel ekonomi, seperti: kasus rumah tangga dengan pendapatan yang berbeda terkadang memiliki pengeluaran yang hampir sama. 3. Terdapat pengaruh Heteroskedatisitas pada data time series yang umum terjadi pada variabel-variabel ekonomi yang memiliki volatilitas (contoh: inflasi, return saham, dll). 4. Adanya Manipulasi Data yang menyebabkan residual data memiliki varian yang sistematik. Berikut diberikan cara-cara mengidentifikasi adanya kasus Heteroskedatisitas: 1. Dilakukan pemeriksaan dengan metode Grafik, seperti: a. Pemeriksaan output scatter plot dari variabel respon (y) pada sumbu-Y dengan masing-masing variabel prediktornya (X) pada sumbu-X.
www.statsdata.my.id
Page 5
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
b. Pemeriksaan output scatter plot dari variabel residual (e) pada sumbu-Y dengan variabel prediksi respon (y-hat) pada sumbu-X. c. Pemeriksaan output scatter plot dari variabel residual (e) pada sumbu-Y dengan masing-masing variabel prediktornya (X) pada sumbu-X. Model regresi akan menghasilkan output scatter plot dengan pola tertentu sebagai berikut[1]:
Gambar 1. Plot Residual dengan pola: (a) plot nol; (b) megafon terbuka kanan; (c) megafon terbuka kiri; (d) double outward box; (e)–(f) nonlinearitas; (g)–(h) kombinasi dari fungsi nonlinearitas dan varian tidak konstan. Plot (a) adalah plot nol yang mengindikasikan tidak ada masalah dengan model regresi (tidak ada kasus Heteroskedatisitas). Plot (b)–(d) mengindikasikan residual dengan varian tidak konstan (ada kasus Heteroskedatisitas). Plot (e)–(f) menunjukkan fungsi mean atau model regresi yang tidak sesuai (menunjukkkan nonlineritas), misalnya: pola hubungan antara y dan X yang berbentuk kuadratik (y = a + bX + cX2 + ε) tetapi dimodelkan dengan model linear (y = a + bX + ε). Plot (g)–(h) menunjukkan kejadian www.statsdata.my.id
Page 6
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
fungsi mean yang tidak sesuai dan residual dengan varian tidak konstan (ada kasus Heteroskedatisitas). 2. Dilakukan pengujian dengan metode Formal, meliputi: Uji Park, Uji Glejser, Uji Goldfeld-Quandt, Uji Breusch-Pagan/Godfrey, dan Uji White (gunakan software EVIEWS).
Solusi Kasus Heteroskedatisitas Solusi Heteroskedatisitas pada penulisan ini diberikan dalam empat saran, yaitu: 1. Menambahkan atau menggantikan data sampel baru karena terkadang sampel lain tidak memiliki kasus Heteroskedatisitas yang sangat serius. 2. Melakukan transformasi variabel terhadap variabel respon (y) dan variabel prediktor (x), seperti: transformasi ln, akar kuadrat, dan Box-Cox. 3. Menggunakan metode estimasi yang lebih advance, seperti: generalized least squares (GLS) dan weighted least squares (WLS). 4. Menggunakan model regresi linear berganda dengan residualnya mengikuti Autoregressive Conditionally Heteroscedastic orde 1, atau ARCH(1) yang diestimasi secara simultan (gunakan software EVIEWS) dengan rumusan yt = β 0 + β 1 X 1,t + β 2 X 2,t + ... + β k X k ,t + ε t
ε t = σ t η t ; η t ~ N (0,1) → ε t ~ N (0, σ 2 ) ; t = 1,2,..., n , σ t = α 0 + α 1ε t2−1 ; α 0 > 0 ; 0 ≤ α 1 < 1 atau residualnya mengikuti Generalized ARCH orde 1 dan 1, atau GARCH(1,1) yang diestimasi secara simultan (gunakan software EVIEWS) dengan rumusan yt = β 0 + β 1 X 1,t + β 2 X 2,t + ... + β k X k ,t + ε t
ε t = σ t η t ; η t ~ N (0,1) → ε t ~ N (0, σ 2 ) ; t = 1,2,..., n
.
σ t = α 0 + α 1ε t2−1 + β1σ t2−1 ; α 0 > 0 ; α 1 ≥ 0 ; β1 ≥ 0 ; α 1 + β1 < 1
Asumsi Normalitas Asumsi Normalitas adalah asumsi residual yang berdistribusi Normal. Asumsi ini harus terpenuhi untuk model regresi linear yang baik. Uji Normalitas dilakukan pada nilai residual model regresi. Penyebab terjadinya kasus Normalitas adalah:
www.statsdata.my.id
Page 7
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
1. Terdapat data residual dari model regresi yang memiliki nilai data yang berada jauh dari himpunan data atau data ekstrim (outliers), sehingga penyebaran datanya menjadi non-Normal. 2. Terdapat kondisi alami dari data yang pada dasarnya tidak berdistribusi Normal atau berdistribusi lain, seperti: distribusi binormal, multinormal, eksponensial, gamma, dll. Berikut diberikan cara-cara mengidentifikasi adanya kasus Normalitas: 1. Dilakukan pemeriksaan dengan metode Grafik, yaitu pemeriksaan Normalitas dengan output normal P-P plot atau Q-Q plot. Asumsi Normalitas terpenuhi ketika pencaran data residual berada disekitar garis lurus melintang seperti pada gambar ini.
Gambar 2. Output plot probabilitas dari residual yang berdistribusi Normal. Berikut diberikan juga beberapa plot probabilitas dari residual yang mungkin terjadi.
Gambar 3. Variasi bentuk plot probabilitas dari residual. 2. Dilakukan pengujian dengan metode Formal, seperti: pengujian normalitas yang dilakukan melalui uji Kolmogorov-Smirnov, uji Anderson-Darling, uji Shapiro-Wilk, dan uji Jarque-Bera yang mana semua pengujian ini memiliki hipotesis interpretasi, yaitu:
www.statsdata.my.id
Page 8
E-book Statistika Gratis...
STATSDATA Statistical Data Analyst
H0 : Residual berdistribusi Normal H1 : Residual tidak berdistribusi Normal Asumsi Normalitas terpenuhi ketika pengujian normalitas menghasilkan P-value (Sign.) lebih besar dari α dengan nilai α ditentukan sebesar 1%, 5%, atau 10%.
Solusi Kasus Normalitas Solusi Normalitas pada penulisan ini diberikan dalam empat saran, yaitu: 1. Menghapus data pengamatan yang memiliki nilai outliers pada data residualnya. 2. Melakukan transformasi variabel terhadap variabel respon (y) dan variabel prediktor (X). Transformasi yang digunakan adalah transformasi ln, akar kuadrat, dan Box-Cox. 3. Menggunakan transformasi pilihan untuk menstimulasi Normalitas[3], yaitu: transformasi ln-skewness (gunakan software STATA) yang dilakukan pada variabel respon (y), kemudian transformasi yang terbentuk diterapkan juga pada variabel prediktornya (X). Ketentuan transformasi ini dilakukan dengan mentransformasikan y dalam ln|y – k| secara iteratif sehingga ditemukan suatu nilai k yang menyebabkan nilai skewness-nya mendekati nol. 4. Menggunakan metode estimasi yang lebih advance, seperti: Regresi dengan pendekatan Bootstrapping (gunakan software SPSS versi 19), Regresi Nonparametrik, dan Regresi dengan pendekatan Bayessian (gunakan software WinBugs).
REFERENSI [1] Weisberg, S., (2005), Applied Linear Regression, Third Edition, New Jersey: John Wiley & Sons. [2] Hocking, R.R., (2003), Methods and Applications of Linear Models: Regression and the Analysis of Variance, Second Edition, New Jersey: John Wiley & Sons. [3] Afifi, A.A., dan Clark, V. (1999), Computer-Aided Multivariate Analysis, Third Edition, New York: CRC Press. [4] Draper, N.R. dan Smith, H., (1998), Applied Regression Analysis, Third Edition, Canada: John Wiley & Sons.
www.statsdata.my.id
Page 9