BAB 2
LANDASAN TEORI
2.1 Regresi Linier Sederhana
Dalam beberapa masalah terdapat dua atau lebih variabel yang hubungannya tidak dapat dipisahkan, dan hal tersebut biasanya diselidiki sifat hubungannya. Analisis regresi adalah sebuah teknik statistika untuk membuat model dan menyelidiki hubungan antara dua variabel atau lebih. Analisis regresi dapat digunakan untuk membuat sebuah model yang menggambarkan hasil sebagai sebuah fungsi temperatur tertentu. Ini dapat juga digunakan untuk tujuan optimalisasi atau tujuan proses kontrol. Analisis regresi telah lama dikembangkan untuk mempelajari pola dan mengukur hubungan statistika antara dua atau lebih peubah (variabel). Persamaan matematik yang memungkinkan melakukan peramalan nilai-nilai suatu peubah tak bebas dari satu atau lebih peubah bebas disebut persamaan regresi. Istilah ini berasal dari hasil pengamatan yang dilakukan Sir Francis Galton (1822 – 1911) yang membandingkan tinggi badan anak laki-laki dengan tinggi badan bapaknya. Galton menyatakan bahwa tinggi badan anak laki-laki dari badan yang tinggi pada beberapa generasi kemudian cenderung “mundur” (regressed) mendekati rata-rata populasi. Pada umumnya, misalkan ada sebuah variable tidak bebas tunggal atau respon y yang berhubungan dengan k variabel bebas, katakana x1, x2,…,xk diukur dengan error yang dapat diabaikan. {xi} disebut variabel matematik dan seringkali dikontrol oleh para pelaku percobaan. Variabel bebas x diasumsikan sebagai sebuah variabel kontinu secara matematik, dapat dikontrol oleh para pelaku percobaan. Misalkan hubungan sebenarnya antara y dan x sebuah garis lurus, dan nilai observasi y pada masing-masing x adalah sebuah variabel random. Sekarang nilai harapan y untuk masing-masing nilai x adalah :
Universitas Sumatera Utara
Dimana intercept β0 dan slope β1 konstanta yang tidak diketahui. Diasumsikan masingmasing observasi, y, dapat digambarkan dengan model Y = β0 + β1x + ε Di mana ε adalah error random dengan rata-rata nol dan varians σ2. {ε} juga diasumsikan menjadi variabel-variabel random yang tidak berhubungan. Model regresi di atas terdiri dari sebuah variabel bebas tunggal x yang sering disebut model regresi linier sederhana. Misalkan ada n pasangan observasi, katakana (y1, x1), (y2, x2), …. (yn, xn). Data ini dapat digunakan untuk memperkirakan parameter β0 dan β1 yang tidak diketahui.
2.2. Metode Kuadrat Terkecil (Leat Square Method)
Untuk menentukan persamaan regresi tersebut, teknik yang paling mudah adalah dengan “jalan kira-kira” dan langsung menarik garis lurus di sekitar titik-titiknya menurut pengamatan paling dekat pada titik-titiknya yang berkerumunan. Kemudian dihitung besarnya konstanta dan derajat kemiringan. Akan tetapi untuk suatu penelitian, cara ini jarang dilakukan oleh karena terlalu kasar, juga terlalu subjektif dan sedapat mungkin harus dihindari. Prosedur penarikan garis regresi yang banyak dikenal adalah metode kuadrat terkecil (least square). Metode ini memilih suatu garis regresi yang membuat jumlah kuadrat jarak vertikal dari titik-titik yang dilalui garis lurus tersebut sekecil mungkin. Dalam hal ini, akan memperkirakan β0 dan β1 sehingga jumlah kuadrat dari deviasi atau simpangan antara observasiobservasi dan garis regresi menjadi minimum. Misalkan ada n pasangan observasi, katakan (y1, x1), (y2, x2), …. (yn, xn). Data ini dapat digunakan untuk memperkirakan parameter β0 dan β1 sehingga jumlah kuadrat dari deviasi/simpangan antara observasi-observasi dan garis regresi menjadi minimum. Sehingga dapat ditulis : Y = β0 + β1Xi + ε
i =1, …., n
Dan jumlah kuadrat deviasi pada observasi-observasi garis regresi sebenarnya adalah
Universitas Sumatera Utara
n
n
[
(
S = ∑ ε = ∑ Yi − β 0 − β1 X i − X 2 i
i =1
i =1
)]
2
Dengan demikian meminimumkan fungsi kuadrat terkecil S adalah mempermudah jika ditulis kembali model tersebut, persamaan tersebut menjadi
(
)
Y = β 0 + β1 X − X + ε Dengan:
1 X=( ) n
:
∑X n
i
i
β 0 = β 0 + β1 X . Dalam persamaan diatas telah diperiksa variabel beban untuk rata-rata, dihasilkan dalam sebuah transformasi pada intercept. Maka persamaan model regresi linier sederhana yaitu :
Y = β 0 + β1 ( X − X ) + ε Dengan menggunakan persamaan model regresi linier sederhana tersebut, maka fungsi kuadrat terkecil adalah :
[
n
(
S = ∑ Yi − β 0 − β 1 X 1 − X i =1
)]
2
Dengan estimator β0 dan β1 yang harus memenuhi :
[
(
)]
[
(
)](X
n ∂S = − 2 ∑ Yi − β 0 − β1 X 1 − X = 0 ∂β 0 i =1 n ∂S = − 2 ∑ Yi − β 0 − β1 X 1 − X ∂β1 i =1
i
)
− X =0
Dari dua persamaan diatas menghasilkan persamaan normal kuadrat terkecil : ∧
n
nβ 0 = ∑ Yi i =1
β0 = atau
1 n ∑ Yi = Y n i =1
Universitas Sumatera Utara
n
(
)
n
(
β 1 ∑ X i − X = ∑ Yi X i − X i =1
∧
2
i =1
)
∧
atau
β1
∑ = ∑
n
Y (Xi − X )
i =1 i n
(Xi − X ) i =1
2
∧
β 0 dan β 1 adalah estimator untuk incerpt (titik potong) dan slope (kemiringan). Estimator model regresi linier sederhana adalah : ∧
∧
∧
Y = β 0 + β1 ( X i − X ) ∧
∧'
∧
untuk menyajikan hasil-hasil dalam susunan intercept yang asli β1 maka β 0 = β 0 - β 1 X sehingga perkiraan yang cocok untuk model regresi adalah ∧
∧
∧
Y = β 0' + β1 ( X ) Persamaan regresi linier sederhana dapat ditulis dalam bentuk lain dengan memberi simbol khusus untuk pembilang dan penyebutnya yaitu : n X ∑ i n i =1 2 2 SXX = ∑ ( X i − X ) = ∑ X 1 − n i =1
2
n n X ∑ i ∑ Yi n i =1 i =1 SXY = ∑ Yi ( X i − X ) = ∑ X iYi − n i =1
Dengan : SXX : koreksi atau perbaikan jumlah kuadrat X dan SXY : perbaikan jumlah silang produk X dan Y, Sehingga estimator slope adalah : ∧
β1=
S XY S XX
Selain estimator β0 dan β1, menurut Montgomery dan Peck (1991) estimasi σ2 juga dibutuhkan dalam uji hipotesis dan pembentukan estimasi interval yang berhubungan dengan model regresi. Etimasi β0 dan β1 dapat diperoleh dari residual atau jumlah kuadrat galat yaitu :
Universitas Sumatera Utara
SSE =
n
n
i =1
i =1
∧
∑ ε 12 = ∑ (Yi − Y i ) 2 ∧
∧
∧
Bentuk tetap untuk SSE dapat disubstitusikan Y = β 0' + β 1 ( X i − X ) ke dalam persamaan (8) dan dengan penyederhanaan akan menghasilkan, yaitu : n
SSE =
∑Y i =1
2 1
2
∧
− nY − β1 S XY
n −1
S YY ≡ ∑ Y12 − nY = ∑ (Yi − Y ) 2 2
i
Dengan : SYY = koreksi atau perbaikan jumlah kuadrat dari pengamatan. Sehingga : ∧
SSE = SYY - β 1 S XY
Jumlah kuadrat residual mempunyai derajat kebebasan n-2 karena 2 derajat kebebasan ∧
∧
adalah gabungan dari estimasi β 0 dan β1 yang terlihat dalam pembentukan Ŷi. Nilai ekspektasi dari SSE adalah E(SSE) = (n-2)σ2, jadi estimator tak bias dari σ2 untuk regresi parametrik adalah : ∧
σ2=
SS E = MS E n−2
2.3. Pengujian Hipotesis dalam Regresi Linier Sederhana
Sebuah bagian penting dalam perkiraan yang memadai dari model regresi linier sederhana adalah pengujian hipotesis secara statistik mengenai model parameter-parameter dan membentuk interval keyakinan tertentu. Pengujian hipotesis dalam regresi linier sederhana adalah pengujian hipotesis terhadap intercept (β0) dan kemiringan (β1). Pengujian hipotesis mengenai slope dan
Universitas Sumatera Utara
intercept model regresi, juga harus dibuat asumsi tambahan bahwa komponen error εi berdistribusi normal. Maka asumsi-asumsi selengkapnya bahwa error adalah NID (0, σ2). Selanjutnya akan dibahas bagaimana asumsi-asumsi dapat diperiksa dengan analisis residual. Yitnosumarto (1985) menjelaskan bahwa pengujian hipotesis secara statistik hanya dapat dilakukan apabila asumsi-asumsi yang diperlukan terpenuh. Asumsi-asumsi yang dimaksud berdasarkan persamaan (1) adalah : 1.
εi merupakan peubah acak dengan mean nol dan varian σ2 atau E (εi) = 0 dan V (εi) = σ2;
2. εi dan εj dengan i ≠ j tidak berkorelasi sehingga Cov (εi, εj) = 0, i ≠ j; 3. εi tersebar secara normal atau εi ≈ NID (0, σ2). Jika pada percobaan akan dilakukan pengujian terhadap β1 yang sama dengan sebuah konstanta misalkan β1(0) maka pada umumnya hipotesis tersebut dirumuskan sebagai berikut : H0 : β1 = β1(0) H1 : β1 ≠ β1(0) Di mana akan diduga alternatifnya dua arah. Sekarang karena εi adalah NID (0, σ2) yang mengikuti secara langsung bahwa observasi-observasi yi adalah NID (β0 + β1xi, σ2). Maka sebagai sebuah hasil asumsi secara normal, statistiknya adalah : ∧
t0 =
β1 − β1( 0) MS E
S xx
Kaidah pengambilan keputusan untuk pengujian hipotesis ini adalah sebagai berikut : H0 ditolak jika |t0| > t α
2, n − 2
α dan derajat kebebasan
, nilai t α
2, n − 2
dapat diperoleh dari tabel t dengan menggunakan nilai
(n-2) (Hines dan Montgomery, 1990). Dengan cara yang sama dapat
digunakan untuk menguji intercept β0, dan hipotesisinya adalah sebagai berikut : H0 : β0 = β00 H0 : β0 ≠ β00
Universitas Sumatera Utara
Statistik ujinya adalah : ∧
t0 =
β 0 − β 00 1 X 2 MS E + n S xx
Dengan : H0 ditolak jika |t0| > t α
2, n − 2
Hipotesis persamaan diatas dilandasi oleh pengujian dua arah, yaitu : H0 : β1 = 0 H1 : β1 ≠ 0 Hipotesis ini dihubungkan untuk nyata regresi. Keputusan untuk menolak H0 : β1 = 0 adalah sama dengan memutuskan bahwa disana tidak ada hubungan linier antara x dan y. Perlu dicatat bahwa ini dapat menyatakan secara tidak langsung, x berasal dari nilai yang kecil dalam menjelaskan variasi y dan estimator y yang terbaik untuk setiap nilai x adalah ŷ = y , atau hubungan sebenarnya antara x dan y tidak linier. Secara alternatif, jika H0 : β1 = 0 ditolak, ini menyatakan bahwa x adalah nilai dalam menjelaskan variabilitas tersebut dalam y. bagaimanapun menolak H0 : β1 = 0 dapat berarti bahwa model garis lurus, atau seringkali di sana ada sebuah pengaruh linier x.
2.4. Interval Kepercayaan dalam Regresi Linier Sederhana
Interval kepercayaan dapat digunakan sebagai taksiran suatu parameter dan dapat pula dipandang sebagai pengujian hipotesis yaitu apakah suatu parameter yang dalam hal ini adalah β1 dan β0 sama dengan suatu nilai tertentu. Asumsi-asumsi yang digunakan dalam interval kepercayaan masih sama dengan asumsi yang digunakan pada pengujian hipotesis yaitu jika εi berdistribusi
Universitas Sumatera Utara
∧ β1 − β1( 0 ) dan t = normal dan bebas maka 0 MS E / S xx
∧
β 0 − β 00 1 X 2 MS E + n S xx
keduanya berdistribusi t dengan
derajat kebebasan (n-2). Selanjutnya interval kepercayaan (1-α) 100% untuk parameter β1 adalah ∧
β1 − t α
2, n − 2
∧ MS E MS E . ≤ β1 ≤ β1 + t α 2, n − 2 S xx S xx
Sedangkan interval kepercayaan (1 – α) 100% untuk parameter β0 adalah : ∧
β1 − t α
2, n − 2
∧ MS E MS E ≤ β1 ≤ β1 + t α 2, n − 2 S xx S xx
Menurut Montgomery dan Peck (1990) standar error dari slope β1 dirumuskan dengan ∧
MS E S xx
se( β1 )
∧
Dan standar error untuk intercept β 0 adalah
1 X2 se ( β ) = MS E + n S xx ∧
Sedangkan standard error estimasi dapat dihitung dari persamaan : n
se =
2 ∑ (ε i ) i =1
n−2
n
=
∧
∧
∑ (Yi − β 0 − β1 X i ) 2 i =1
n−2
Dalam berbagai masalah terdapat dua atau lebih variabel yang hubungannya tidak dapat dipisahkan, dan hal tersebut biasanya diselidiki sifat hubungannya. Analisis regresi merupakan sebuah teknik statistik untuk membuat model dan menyelidiki hubungan antara dua variabel atau lebih. Sebagai contoh, dalam sebuah proses kimia, misalkan bahwa hasil produk dihubungkan dengan temperatur/proses produk tersebut. Jadi analisis regresi tersebut dapat digunakan untuk
Universitas Sumatera Utara
membuat model yang menggambarkan hasil sebagai sebuah fungsi temperatur. Model ini dapat juga digunakan untuk tujuan optimalisasi atau tujuan proses kontrol.
2.5. Metode Regresi Theil
Perkiraan slope garis regresi sebagai median slope dari seluruh pasangan garis dari titik-titik dengan nila x yang berbeda. Untuk satu pasangan (x1, yi) dan (xj, yj), slopenya adalah : bij =
Y j − Yi X j − Xi
Dengan: i < j dan Xi ≠ Xj Jika dinotasikan penduga median dari β dengan dari (
dengan
median dari seluruh med (
), dimana med ( )
, Theil telah menyarankan perkiraan
atau alternatifnya dapat dipilih
= med
adalah median dari seluruh pengamatan,
sedangkan garis kuadrat terkecil melalui rata-ratanya. Kenyataan bahwa menurut data-data yang ada dan yang telah ada dalam contoh menyebabkan garis lurus yang dihasilkan akan sangat berbeda bila menggunakan metode kuadrat terkecil, dan metode Theil tidak menyelesaikan suatu masalah. Sprent menyarankan bahwa kuadrat terkecil yang cocok mungkin tidak sesuai dengan datanya dan tidak mungkin mendekati garis lurus dengan kesalahannya berdistribusi normal dan identik, tetapi mengabaikan pertanyaan yang meragukan apakah titik (6, 11, 1) kesalahannya cukup serius, atau hubungannya tidak benar-benar linear. Pada penelitian yang serempak mengenai pencilan yang secara efektif dijumlahkan untuk menggantikan kesalahan yang berdistribusi normal dengan kesalahan yang berdistribusi ekor panjang. Hussain dan Sprent (1983) berpendapat bahwa metode Theil hamper seefisien metode kuadrat terkecil bila asumsi kenormalan sah, dan hal ini menunjukkan sebuah perbaikan nyata dalam efisien dengna kesalahan berdistribusi ekor panjang, terutama dengan ukuran sampel kurang dari (<) 30. Ada sebuah perbaikan yang lebih nyata pada kasus terakhir dalam memperkirakan α, meskipun ini biasanya kurang menarik pada β.
Universitas Sumatera Utara
Hussain dan Sprent juga berpendapat bahwa penduga-penduga yang didasarkan pada median tertimbang yang dilakukan pada keseluruhannya tidaklah lebih baik, dan kadang-kadang kurang baik daripada penduga Theil karena ada pencilan.
2.6. Metode Theil untuk Pengujian Koefisien Kemiringan
Daniel (1989) menjelaskan bahwa pengujian koefisien kemiringan dengan menggunakan metode Theil disusun berdasarkan statistik τ Kendall dan digunakan untuk mengetahui bentuk hubungan peubah-peubah regresi. Asumsi-asumsi yang melandasi pengujian pada koefisien kemiringan adalah a.
persamaan regresinya adalah Yi = β0 + β1Xi +εi, i = 1, ….,n dengan Xi peubah bebas, βo dan β1 adalah parameter-parameter yang tidak diketahui;
b.
untuk masing-masing nilai Xi terdapat nilai Yi;
c.
Yi adalah nilai yang teramati dari Y yang acak dan kontinu untuk nilai Xi;
d.
Semua nilai Xi saling bebas dan kita menetapkan X1 < X2 < … < Xn.
e.
Nilai-nilai εi saling bebas dan berasal dari populasi yang sama. Penduga b yang baik untuk β akan menjadi sisaan yang sesuai dengan masing-masing
pengamatan, dinotasikan dengan εi di mana εi = yi – a – bxi, akan mempunyai kemungkinan yang sama menjadi positif atau negatif. Hal ini menyatakan asumsi bahwa εi berdistribusi secara acak dengan median nol dan bebas dari xi. Sekarang, bij =
Y j − Yi X j − Xi
=
(a + bx j + ε j ) − (a + bxi + ε i ) x j − xi
=b+
ε j − εi x j − xi
Persamaan di atas menyatakan setiap bij akan lebih besar daripada b jika (xi,εi) dan (xj,εj) sesuai dengan bahwa bij akan menjadi lebih daripada b jika ini tidak sesuai dalam pengertian yang digunakan tau Kendall. Pemilihan terhadap med {bij} sebagai penduga b menjamin setengah pasangan serasi dan setengahnya lagi tidak serasi.
Setiap pemilihan b yang mana kita menerima tau Kendall konsisten dengan korelasi nol antara x yang diamati dan sisaan yang bersesuaian, ε, adalah dapat diterima dalam
Universitas Sumatera Utara
arti bahwa ini konsisten dengan korelasi nol antara x dan sisaannya. Dengan kata lain, menerima setiap b yang tidak memberikan sejumlah pasangan yang tidak serasi (atau serasi) yang menunjukkan tau Kendall tidak nol, yaitu tidak ingin jumlah yang tidak serasi (atau serasi) terlalu kecil atau terlalu besar. Karena nc+ nd = N sama dengan jumlah bij yang ditimbulkan dari n pengamatan dengan xi yang berbeda, maka menolak τ = 0 dalam pengujian dua arah pada tingkat 5 % misalnya. Hipotesis-hipotesis yang melandasi pengujian ini adalah a. dua arah : Ho : β1 = β1(0)
H1 : β1 ≠ β1(0) ;
b. satu arah : Ho : β1 ≤ β1(0)
H1 : β1 > β1(0)
c. satu arah : H0 : β1 ≥ β1(0) ;
H1 : β1 < β1(0)
Seperti yang telah dijelaskan, prosedur yang diuraikan disusun berlandaskan statistik τ Kendall, sehingga statistik ujianya adalah ∧
τ=
P−Q n
Dengan ∧
τ = statistik uji τ Kendall P = banyaknya pasangan berurutan wajar Q = banyaknya pasangan berurutan terbalik n = banyaknya pasangna yang diamati Kaidah pengambilan keputusan untuk ketiga pasangan hipotesis di atas adalah sebagai berikut : a. dua arah
* ∧ > τ ( n, α , tolak H 0 2 : τ * α ≤ τ (n, 2 , terima H 0
> τ * (n,α ), tolak H 0 b. satu arah : τ * ≤ τ (n,α ), terima H 0 ∧
Universitas Sumatera Utara
< τ * (n,α ), tolak H 0 2 c. satu arah : τ * α ≥ τ (n, 2 ), terima H 0 ∧
τ* adalah harga-harga kritis dalam table statistik uji τ Kendall. Pengujian koefisien kemiringan ini dengan membuat tataan dan membandingkan semua hasil pengamatan menurut nilai-nilai X (Daniel, 1989).
2.7. Interval Kepercayaan untuk Koefisien Kemiringan
Metode pembentukan interval kepercayaan terhadap koefisien kemiringan ini dilandaskan pada prosedur pengujian hipotesis Theil untuk β1, sedangkan asumsi-asumsi yang mendasari prosedur pengujian hipotesis ini juga berlaku pada pembentukan interval kepercayaan (1-α) bagi > τ * (n,α , tolak H 0 2 τ * α ( n , , terima H 0 τ ≤ 2 ∧
Lebih lanjut Daniel (1989) menjelaskan bahwa konstanta untuk interval kepercayaan adalah n
k=
C2 − S ( n ,α ) − 2 2
2
Dengan : k
=
konstanta untuk interval kepercayaan
C2
=
banyaknya nilai bij yang mungkin dari n pasangan pengamatan
S(n,α/2)
=
titik kritis τ Kendall untuk n pasangan pengamatan pada taraf α
n
∧
Berdasarkan nilai konstanta tersebut akan diperoleh β L sebagai batas bawah interval ∧
∧
kepercayaan untuk β1 dan βU sebagai batas interval kepercayaan untuk β1, β L adalah nilai bij ke∧
k yang dihitung dari nilai paling kecil dalam statistik tataan bagi nilai bij. βU adalah nilai bij ke-k yang dihitung mundur dari nilai yang paling besar dalam statistik tataan tersebut.
Universitas Sumatera Utara
Interval kepercayaan untuk β1 dengan suatu koefisien kepercayaan (1-α) adalah ∧
∧
C ( β L < β1 < β U ) = 1 – α dengan C adalah kependekan dari confidence (kepercayaan) dan menunjukkan bahwa ekspresi ini lebih merupakan suatu pernyataan kepercayaan daripada suatu pernyataan probabilitas (Daniel, 1989).
Universitas Sumatera Utara