Analisis Regresi
Oleh : Dewi Rachmatin
Pendahuluan
Dalam penelitian biasanya digunakan suatu model atau hubungan fungsional antara peubah. Dengan model kita berusaha memahami, menerangkan, mengendalikan dan kemudian memprediksikan kelakuan sistem yang diteliti. Model juga menolong peneliti dalam menentukan hubungan kausal. Rumusan hubungan tsb yang dinyatakan dalam bentuk hipotesis dan diuji berdasarkan data yang dikumpulkan kemudian.
Regresi Linear Sederhana
X adalah peubah bebas (prediktor)dan Y peubah tak bebas yang bergantung pada Y (respons). Y (respon) tidak dikontrol dalam percobaan. Nilainya (y) bergantung pada satu atau lebih peubah bebas, misalnya (nilainya) x1, x2,…,xk, yang galat pengukurannya dapat diabaikan dan sesungguhnya sering peubah tsb dikendalikan dalam percobaan. Jadi peubah bebas tsb bukanlah peubah acak tapi k besaran yang ditentukan sebelumnya oleh peneliti dan tidak mempunyai sifat-sifat distribusi.
Yang akan dibahas adalah regresi linear yang menyangkut hanya satu peubah saja. Nyatakan sampel acak ukuran n dengan himpunan : {(xi,yi);i=1,2,…,n}. yi merupakan nilai dari peubah acak Yi selanjutnya akan ditulis Y|x “peubah acak yang berkaitan dengan nilai tetap x” Rataan Y|x berkaitan linear dengan x dalam bentuk persamaan : µY | x = α + βx α dan β adalah dua parameter yang akan ditaksir dari data sampel
Bila semua rataan terletak pada satu garis lurus maka :
Yi = α + β xi + Ei dengan asumsi : Ei galat yang bersifat acak dan
rataannya = 0 dan variansinya konstan. Setiap pengamatan (xi,yi) dalam sampel memenuhi :
yi = α + βxi + ε i
εi adalah nilai yang dicapai Ei bila Yi berharga yi
Demikian pula persamaan regresi :
yˆ = a + bx
Tiap pasangan pengamatan memenuhi :
yi = a + bxi + ei ; ei disebut sisa
(xi,yi)
εi
ei
yˆ = a + bx
µY | x = α + β x
Cara peminimuman untuk menaksir parameter dinamakan metode kuadrat terkecil (least square method), yaitu a dan b dicari sehingga JKG minimum n
n
JKG = ∑ e = ∑ ( yi − a − bxi ) i =1
2 i
i =1
2
Turunkan JKG terhadap a dan b maka diperoleh n ∂ ( JKG ) = −2∑ ( yi − a − bxi ) ∂a i =1
n ∂ ( JKG ) = −2∑ ( yi − a − bxi )xi ∂b i =1
Samakan persamaan tsb dengan nol maka diperoleh n n persamaan normal : na + b x = y ∑ i ∑ i i =1
Sehingga diperoleh :
i =1
n
n
n
i =1
i =1
i =1
a ∑ xi + b∑ xi2 = ∑ xi yi
n n n∑ xi yi − ∑ xi ∑ yi i =1 i =1 b = i =1 2 n n n∑ xi2 − ∑ xi i =1 i =1 a = y − bx n
Sifat Penaksir Kuadrat Terkecil
Di samping anggapan bahwa galat Ei dalam model Yi = α + β xi + Ei merupakan peubah acak dengan rataan nol, misalkan selanjutnya bahwa Ei berdistribusi normal dengan variansi sama σ2 , dan E1, E2,…,En saling bebas dari suatu pengamatan ke pengamatan berikutnya dalam percobaan. Dengan asumsi kenormalan tsb kita dapat mencari rataan dan variansi untuk penaksir α dan β.
Misal penaksir α dan β adalah a dan b, selanjutnya akan disebut A dan B
Dapat ditunjukkan B berdistribusi normal dengan rataan : µ B = E (B ) = β variansi B :
σ B2 =
σ2
n
∑ (x − x ) i
i =1
Dapat ditunjukkan A berdistribusi normal dengan rataan : µ A = α n 2 σ variansi A : A =
2 x ∑ i i =1
n
n∑ ( xi − x ) i =1
2
σ2
Taksiran takbias untuk σ2 diberikan oleh
JKG J yy − BJ xy = S = n−2 n−2 2 n n ∑ (Yi − Y ) − B ∑ (X i − X )(Yi − Y ) i =1 i =1 = n−2 2
Selang Kepercayaan dan Uji Keberartian
Akan diuji H0 : β = 0 (model tak linear) lawan H1 : β ≠ 0 (model linear) dan pilih taraf keberartian α=5% B−β Statistik ujinya : T = S / J ~ t n − 2 xx Tolak jika T < -tα/2 atau T > tα/2 Statistik T dapat digunakan untuk membentuk selang kepercayaan untuk β dengan kepercayaan (1- α)100% : t s t s
B−
α /2
J xx
< β < B+
α /2
J xx
Tolak H0 jika selang kepercayaan tidak memuat nol dan sebaliknya Uji Hipotesis untuk α : Akan diuji H0 : α = 0 (garis melalui titik asal) lawan H1 : α ≠ 0 (garis tidak melalui titik asal) dan pilih taraf keberartian α=5% A −α Statistik ujinya : T = ~ tn−2 n
S
2 x ∑ i / nJ xx i =1
Tolak jika T < -tα/2 atau T > tα/2
Statistik T dapat digunakan untuk membentuk selang kepercayaan untuk α dengan kepercayaan (1-α)100% : 2
tα / 2 s A−
∑x i =1
nJ xx
2 i
2
<α < A+
tα / 2 s
2 x ∑ i i =1
nJ xx
Tolak H0 jika selang kepercayaan tidak memuat nol dan sebaliknya
Langkah Penentuan Koefisien Regresi Linear dengan SPSS 10 for Windows
Analyze, Regression, Linear Masukkan y sebagai dependent dan x sebagai independent(s), pilih method : Enter Contoh : Cocokkan regresi linear untuk masalah : apakah benar kecepatan suhu ditentukan oleh suhu? Uji kebenarannya dengan data hasil percobaan pada tabel berikut
No. Kecepatan Reaksi (mol/detik)
Suhu (0 Celcius)
No.
Kecepatan Reaksi (mol/detik)
Suhu (0 Celcius)
1
4.37
20.72
9
12.80
26.87
2
5.87
21.65
10
13.60
28.11
3
6.95
22.70
11
14.80
28.12
4
7.85
23.12
12
15.50
29.14
5
8.65
23.99
13
16.70
29.13
6
9.34
24.13
14
16.40
29.99
7
7.26
24.99
15
12.90
27.10
8
11.80
25.71
Kecepatan Reaksi (mol/detik) vs Suhu (Celcius) 18
16
kecepatan reaksi (mol/detik)
14
12
10
8
6 4 20
22
suhu (celsius)
24
26
28
30
32
Dari diagram pencar (plot data Y terhadap X) terlihat bahwa kecepatan reaksi (Y) menaik jika suhu (X) menaik, jadi ada korelasi + antara Y dengan X Trend (kecenderungan) data mengumpul di sekitar suatu garis lurus
Hasil Pencocokan Model dengan SPSS ver 10
Hasil uji t untuk H0 : α = 0 : karena t hitung = -10.982 < -t0,025;13 = -2,160 maka H0 : α = 0 (garis melalui titik asal) ditolak. Hasil yang sama ditunjukkan oleh nilai-p : karena nilai-p = .000 < α , maka H0 : α = 0 (garis melalui titik asal) ditolak. Hasil uji t untuk H0 : β = 0 : karena t hitung = 16.163 > t0,025;13 = 2,160 maka H0 : β = 0 (model tidak linier) ditolak. Juga, karena nilai-p = .000 < α , maka H0 : β = 0 (model tidak linier) ditolak.
Hasil yang sama ditunjukkan oleh selang kepercayaan, yaitu selang kepercayaan untuk α yaitu [-28,401 , -19,064] dan selang kepercayaan untuk β yaitu [1,170 , 1.532] keduanya tidak memuat nol Jadi model regresi yang cocok untuk data tsb :
yˆ = −23,733 + 1,351x
Plot Data dan Garis Regresi kecepatan reaksi (mol/detik) 18
16
14
12
10
8
6
Observed
4
Linear
20
22
suhu (celsius)
24
26
28
30
32
Pendekatan Analisis Variansi Sumber Variasi
JK(Jumlah Kuadrat)
dk(derajat kebebasan)
RK(Rataan Kuadrat)
f hitung
Regresi
JKR=bJxy
1
RKR =JKR/1
JKR/s2
Sisa
JKS (JKG) n-2 =JKT-JKR
Total
JKT=Jyy
n-1
RKS s2=JKS/n-2
Tolak H0 jika F > F1,n-2 atau tolak H0 jika f hitung > f tabel (dk1=1,dk2=n-2) Hasil uji kelinearan (uji F) menunjukkan nilai-p yang sangat kecil mendekati nilai nol, hal ini menunjukkan bahwa H0 : model regresinya tidak linear ditolak atau H0 : β = 0 tidak ditolak. Artinya hasil pengujian mendukung hipotesis bahwa kecepatan reaksi ditentukan oleh suhu (kecepatan reaksi fungsi linear dari suhu) Hasil yang sama ditunjukkan oleh : F hitung = 261,229 > F1,13;0,05 = 4,67
Uji t, Uji F dan Koefisien Determinasi
Uji t yang digunakan mempunyai dk = dk 2 penyebut dalam nisbah F yaitu n-2 : t n − 2 = F1,n − 2 Uji t yang digunakan di sini adalah dua arah sedang uji F satu arah. Karena itu uji t lebih luas cakupannya daripada uji F karena dapat digunakan untuk menguji H0 : β < 0 vs H1 : β > 0
JKR 2 = R = JKT
2 ˆ Y − Y ) ( ∑ i 2 ( Y − Y ) ∑ i
R2 disebut koefisien korelasi darab atau koefisien penentu (determinasi), 0 ≤ R2 ≤ 1
R2 = 0 bila JKR = 0 atau JKS = JKT dan R2 = 1 bila JKR = JKT atau JKS = 0 ˆ i = y untuk setiap i. Ini berarti JKR = 0 bila y bahwa tidak peduli berapa nilai xi , taksiran yi yaitu yˆ i selalu = y . Jadi yi tidak tergantung atau dipengaruhi oleh xi . Sebaliknya jika R2 = 1 maka setiap prediksi yi tepat sekali sama sekali tidak ada yang meleset. R2 dapat mengukur kecocokan data dengan model. Makin dekat R2 dengan 1 makin baik kecocokan data dengan model dan sebaliknya makin dekat R2 dengan 0 makin jelek kecocokan tsb.
Untuk contoh tadi R2 = 0,953 artinya sebesar 95,3% dari seluruh variasi yotal y diterangkan oleh model atau x dan masih ada sebesar 4,7% lagi variasi y yang tidak dapat diterangkan oleh model yang digunakan. Bagian sisanya yang 4,7% ini mungkin disebabkan oleh faktor lain yang gagal diperhitungkan dalam model Uji F tidak dapat digunakan untuk mengukur besar pengaruh suatu peubah bebas atau faktor
Pemeriksaan Sisa (Sembiring, 1995)
ˆ bukan berarti sampah yang tidak Sisa ε i = Yi − Y i berguna, sisa kaya akan informasi dan karena itu merupakan bagian yang amat penting dalam setiap analisis data. Informasi dari data semula yang tidak terserap oleh model akan menjadi sisa Jika semua pola yang ada pada data telah masuk ke dalam model maka sisa akan berbentuk acak tetapi jika model tidak mampu mengambil semua pola pada data maka sisa akan mempunyai kecenderungan tertentu.
Dalam hal itu model belumlah baik betul, dalam arti masih dapat disempurnakan. Jika sisa sudah berbentuk acak maka anggapan tentang kenormalan dan kesamaan variansi dapat diiuji dari sisa ! Kita melihat kebaikan model dari R2 dan pengujian hipotesis mengenai koefisien regresi Ketidakcocokan model dengan data dilihat dengan mengamati sisa. Begitu pula apakah ada pencilan dalam data dapat dilihat dengan mengamati sisa. Sisa secara kasar memberi keterangan tentang data yang tidak mengikuti pola umum model yang digunakan, ditandai oleh sisanya relatif besar
Makin besar sisa makin jauh data menyimpang dari model Adanya pola yang teratur (sistematis) dalam sisa menunjukkan bahwa modelnya belumlah baik. Model yang sudah baik ditandai oleh pola sisa yang acak Data pencilan sering terdapat dipinggir, mungkin muncul karena kesalahan mengamati atau mencatat tapi tidak jarang pula data itu sesungguhnya sejati. Salah satu kelemahan metode kuadrat terkecil adalah data aneh tsb mempunyai pengaruh yang proporsional lebih besar daripada data yang di tengah
Uji t dan F yang digunakan bersifat kekar, yang berarti bahwa anggapan kenormalan dan kesamaan variansi tidak perlu dipenuhi dengan ketat tapi cukup agak kasar Tujuan pemeriksaan sisa : 1. Apakah sisa telah berpola acak 2. Apakah anggapan kenormalan tidak dilanggar 3. Apakah variansi dapat dianggap tidak berubah 4. Apakah ada data yang tidak mengikuti pola umum (pencilan) 5. Apakah peubah yang masuk dalam model mungkin bukan berbentuk linear 6. Apakah peubah yang berpengaruh telah masuk ke dalam model
Berikut beberapa plot sisa yang penting menurut N.Draper dan H. Smith, Applied Regression Analysis 1. Plot sisa menurut besarnya 2. Plot sisa menurut urutan pengambilan data, bila diketahui ˆi 3. Plot sisa terhadap y 4. Plot sisa terhadap xij , j=1,2,…,k 5. Menurut setiap cara yang wajar sesuai persoalannya misalnya rajah sisa terhadap peubah bebas yang tidak termasuk ke dalam model untuk menentukan apakah peubah itu sebaiknya masuk ke dalam model atau tidak
Plot Sisa Menurut Besarnya -3
-2
a
xx
b
x x
c d
-1 x
-2
1 xx
2
-1
x xxx 0
xx
3
x
x x x x x x x xx x xxxxxxxx
x xx -3
0 x xxxx
x x x
1
2
3
Plot a agak setangkup dan memencar, agak acak dan lebih banyak di tengah. Tidak ada tanda bahwa anggapan keacakan dan kenormalan dilanggar Plot b agak aneh datanya mengelompok Plot c terlihat satu data menyendiri di sebelah kanan dan cukup jauh dari titik nol Plot d tidak menunjukkan keanehan, setangkup, memencar dan acak
Plot Sisa Menurut Besarnya untuk contoh sebelumnya 16 14
12 10
8
6
NOOBS
4
2 0 -3
-2
-1
0
1
Error for Y with X from CURVEFIT, MOD_1 LINEAR
2
Terlihat pada plot sisa menurut besarnya, ada data ke 7 yang memencil di sebelah kiri, sedang data yang lain mengumpul di bagian tengah, datanya memencar dan acak. Tidak ada tanda bahwa anggapan keacakan dan kenormalan dilanggar Pengaruh waktu kadang masuk dalam model melalui urutan melakukan percobaan, contoh : suatu reaksi kimia mungkin dipengaruhi oleh cahaya sehingga pengamatan yang dilakukan waktu siang dan malam berlainan hasilnya. Suatu cara melihat apakah waktu mempengaruhi percobaan adalah membuat plot sisa menurut urutan pengambilan data
Sisa a
b
c
waktu/urutan
jika data mengumpul di sekitar dua garis yang sejajar seperti (a), ini menunjukkan sisa tidak acak dan ada hubungan linier jika data mengumpul di sekitar dua garis seperti (b), ini menunjukkan sisa tidak acak dan kesamaan variansi dilanggar dan transformasi pada respons y atau x mungkin diperlukan Jika data mengumpul di sekitar dua kurva yang melengkung seperti (c), ini menunjukkan sisa tidak acak dan ada hubungan kuadratis
Error for Y with X from CURVEFIT, MOD_1 LINEAR
Plot Sisa vs yˆ 2
1
0
-1
-2
-3 4
6
8
10
12
14
Fit for Y w ith X from CURVEFIT, MOD_1 LINEAR
16
18
Error for Y with X from CURVEFIT, MOD_1 LINEAR
Plot Sisa vs x 2
1
0
-1
-2
-3 20
22
suhu (celsius)
24
26
28
30
32
Kesimpulan
Plot sisa vs yˆ , plot sisa vs x dan plot sisa menurut besarnya menunjukkan pola yang sama, yaitu acak, memencar walau sisa untuk data ke 7 cukup besar dan memencil sendiri Hasil uji K-S untuk sisa diperoleh nilai-p=0,360>0,05 artinya H0 : sisa berdistribusi normal diterima Karena anggapan kenormalan dan kesamaan variansi dipenuhi maka sisa terbaku : εi/σ berdistribusi N(0,1) dan di bawah anggapan keacakan εi/σ , i=1,2,…,n bebas satu sama lain
Matriks topi (proyeksi) H = X (X’X)-1 X’ “hoteling” amat berguna dalam pemeriksaan sisa . Matriks ini hanya tergantung pada matriks rancangan (peubah bebas) dan tidak tergantung pada respons (Y). Jika unsur diagonal matriks H yaitu hii besar berarti data jauh dari pusat data. Pengamatan yang jauh dari pusat data (peubah bebas) berpengaruh besar terhadap koefisien regresi dan berpotensi sebagai pencilan. Makin besar hii makin besar pengaruh pengamatan ke i
Makin besar ukuran sampel makin kecil pengaruh suatu titik data, sehingga pengaruh data pencilan dapat diabaikan Pengukuran Berulang pada Respons