BAB 2
LANDASAN TEORI
2.1 Analisis Regresi
Perubahan nilai suatu variabel tidak selalu terjadi dengan sendirinya, namun perubahan nilai variabel itu dapat pula disebabkan oleh berubahnya variabel lain yang berhubungan dengan variabel tersebut. Untuk mengetahui pola nilai suatu variabel yang disebabkan oleh variabel lain diperlukan alat analisis yang memungkinkan kita untuk membuat perkiraan nilai variabel tersebut pada nilai tertentu variabel yang mempengaruhinya.
Teknik yang umum digunakan untuk menganalisis hubungan antara dua atau lebih variabel dalam ilmu statistik adalah analisis regresi. Analisis regresi adalah teknik statistik yang berguna untuk memeriksa dan memodelkan hubungan diantara variabel-variabel. Analisis regresi berguna dalam menelaah hubungan dua variabel atau lebih dan terutama untuk menelusuri pola hubungan yang modelnya belum diketahui dengan sempurna, sehingga dalam penerapannya lebih bersifat eksploratif.
Persamaan regresi yang digunakan untuk membuat taksiran mengenai nilai variabel terikat disebut persamaan regresi estimasi, yaitu suatu formula matematis yang menunjukkan hubungan keterkaitan antara satu atau beberapa variabel yang nilainya sudah diketahui dengan satu variabel yang nilainya belum diketahui. Sifat hubungan antarvariabel dalam persamaan regresi merupakan hubungan sebab akibat.
Regresi yang berarti peramalan, penaksiran atau pendugaan pertama kali diperkenalkan pada tahun 1877 oleh Sir Francis Galton (1822 – 1911) sehubungan
Universitas Sumatera Utara
dengan penelitiannya terhadap manusia. Penelitian tersebut membandingkan antara tingggi anak laki-laki dan tinggi badan orang tuanya. Istilah regresi pada mulanya bertujuan untuk membuat perkiraan nilai suatu variabel (tinggi badan anak) terhadap suatu variabel yang lain (tinggi badan orang tua). Pada perkembangan selanjutnya, analisis regresi dapat digunakan sebagai alat untuk membuat perkiraan nilai suatu variabel dengan menggunakan beberapa variabel lain yang berhubungan dengan variabel tersebut.
2.1.1 Regresi Linier Sederhana
Regresi linier sederhana adalah analisis regresi yang melibatkan hubungan fungsional antara satu variabel terikat dengan satu variabel bebas. Variabel terikat merupakan variabel yang nilainya selalu bergantung dengan nilai variabel lain. Dalam hal ini variabel terikat yang nilainya selalu dipengaruhi oleh variabel bebas, sedangkan variabel bebas adalah variabel yang nilainya tidak bergantung pada nilai variabel lain. Dan biasanya variabel terikat dinotasikan dengan Y, sedangkan variabel bebas dinotasikan dengan X. Hubungan-hubungan tersebut dinyatakan dalam model matematis yang memberikan persamaan-persamaan tertentu.
Bentuk umum persamaan regresi linier sederhana yang menunjukkan hubungan antara dua variabel, yaitu variabel X sebagai variabel bebas dan variabel Y sebagai variabel terikat adalah Yi = a + bX i
(2.1)
dimana: Yi
= variabel terikat ke-i
Xi
= variabel bebas ke-i
a
= intersep (titik potong kurva terhadap sumbu Y)
b
= kemiringan (slope) kurva linier
Universitas Sumatera Utara
Gambar 2.1 Diagram pencar
Metode kuadrat terkecil adalah suatu metode untuk menghitung a dan b sebagai perkiraan A dan B, sedemikian rupa sehingga jumlah deviasi kuadrat
(SSD = ∑ e ) memiliki nilai terkecil. 2 i
Model sebenarnya
: Y = A + BX + ε
Model perkiraan
: Y = a + bX + e
Dimana a, b merupakan perkiraan / taksiran atas A, B. Jika X dikurangi dengan rata-ratanya (xi = X i − X ) akan diperoleh variabel baru x dengan
∑x
i
= 0 . Maka persamaannya menjadi:
Yi = a + bxi + ei
ei = Yi − (a + bxi )
SSD = ∑ ei2 = ∑ [Yi − (a + bxi )]
2
(2.2)
Metode meminimumkan jumlah deviasi kuadrat (regresi kuadrat terkecil) yang didasarkan pada pemilihan a dan b, sehingga meminimalkan jumlah kuadrat deviasi titik-titik data dari garis yang dicocokkan.
Universitas Sumatera Utara
Gambar 2.2 Suatu pengamatan (data) yang tidak tepat pada garis regresi
Kemudian akan ditaksir a dan b sehingga jika taksiran ini disubstitusikan ke dalam persamaan (2.2), maka jumlah deviasi kuadrat menjadi minimum. Dengan mendifferensialkan persamaan (2.2) terhadap a dan b dengan menetapkan derivatif parsial yang dihasilkan sama dengan nol, diperoleh:
∂ ∑ ei2 ∂a
=
⇒ aˆ =
∂ ∑ ei2 ∂b
=
⇒ bˆ =
∂ (Yi − a − bxi )2 = ∑ Yi − na − b∑ xi = 0 → ∑ xi = 0 ∑ ∂a
∑Y
i
n
=Y
(2.3)
∂ (Yi − a − bxi )2 = ∑ xiYi − a∑ xi − b∑ xi2 = 0 → ∑ xi = 0 ∑ ∂b
∑xY ∑x
i i 2 i
(2.4)
Nilai aˆ dan bˆ yang diperoleh dengan cara ini disebut taksiran kuadrat terkecil masing-masing dari a dan b. Dengan demikian, taksiran persamaan regresi dapat ditulis sebagai, Yˆ = aˆ + bˆX yang disebut persamaan prediksi.
Garis regresi berguna untuk menentukan hubungan pengaruh perubahan variabel yang satu terhadap variabel yang lainnya. Selanjutnya dari hubungan dua variabel ini dapat dikembangkan untuk analisa tiga variabel atau lebih.
Universitas Sumatera Utara
2.1.2 Multiple Regresi
Multiple regresi (regresi linier ganda) merupakan regresi linier yang melibatkan hubungan fungsional antara sebuah variabel terikat dengan dua atau lebih variabel bebas. Semakin banyak variabel bebas yang terlibat dalam suatu persamaan regresi semakin rumit menentukan nilai statistik yang diperlukan hingga diperoleh persamaan regresi estimasi. Regresi linier berganda berguna untuk mendapatkan pengaruh dua variabel kriteriumnya atau untuk mencari hubungan fungsional dua variabel prediktor atau lebih dengan variabel kriteriumnya, atau untuk meramalkan dua variabel prediktor atau lebih terhadap variabel kriteriumnya.
Hubungan linier lebih dari dua variabel yang bila dinyatakan dalam bentuk persamaan matematis adalah: Y = β 0 + β1 X 1 + + β k X k + ε dimana: Y
= variabel terikat
X1,…, Xk
= variabel bebas pada variabel ke-1sampai variabel ke-k
β 0 , β1 ,..., β k
= parameter regresi
ε
= nilai kesalahan (error)
Metode kuadrat terkecil dari estimasi β yang terdiri dari minimum yang berkenaan dengan β , dimana minimum ε ' ε = Y − Xβ
2
∑ε
2 i
mengenai β , yaitu:
ε 'ε = (Y − Xβ )' (Y − Xβ ) = Y 'Y − 2 β ' X 'Y + β ' X ' Xβ
Perbedaan ε ' ε mengenai β dan persamaan
− 2 X 'Y + 2 X ' Xβ = 0
atau
∂ε ' ε = 0 , diperoleh: ∂β
X ' Xβ = X 'Y
(2.5)
Universitas Sumatera Utara
βˆ = ( X ' X )−1 X ' Y
(2.6)
Kemudian untuk β ,
(Y − Xβ )' (Y − Xβ ) = [Y − Xβ + X (βˆ − βˆ )] ' [Y − Xβ + X (βˆ − βˆ )]
( (
)( )(
) ( )
)
(
= Y − Xβˆ ' Y − Xβˆ + βˆ − β ' X ' X βˆ − β ≥ Y − Xβˆ ' Y − Xβˆ
(
)(
)
)
Minimum dari (Y − Xβ ) ' (Y − Xβ ) adalah Y − Xβˆ ' Y − Xβˆ dicapai pada β = βˆ . Solusi ini untuk melihat minimum ε ' ε .
2.2 Estimasi
Estimasi adalah menaksir ciri-ciri tertentu dari populasi atau memperkirakan nilai populasi (parameter) dengan memakai nilai sampel (statistik). Dengan statistika kita berusaha menyimpulkan populasi. Dalam kenyataannya, mengingat berbagai faktor untuk keperluan tersebut diambil sebuah sampel yang representatif dan berdasarkan hasil analisis terhadap data sampel kesimpulan mengenai populasi dibuat. Cara pengambilan kesimpulan tentang parameter berhubungan dengan cara-cara menaksir harga parameter. Jadi, harga parameter sebenarnya yang tidak diketahui akan diestimasi berdasarkan statistik sampel yang diambil dari populasi yang bersangkutan.
Sifat atau ciri estimator yang baik yaitu tidak bias, efisien dan konsisten:
1. Estimator yang tidak bias
Estimator dikatakan tidak bias apabila ia dapat menghasilkan estimasi yang mengandung nilai parameter yang diestimasikan. Misalkan, estimator θˆ dikatakan estimator yang tidak bias jika rata-rata semua harga θˆ yang
()
mungkin akan sama dengan θ . Dalam bahasa ekspektasi ditulis E θˆ = θ .
Universitas Sumatera Utara
2. Estimator yang efisien
Estimator dikatakan efisien apabila hanya dengan rentang nilai estimasi yang kecil saja sudah cukup mengandung nilai parameter. Estimator bervarians minimum ialah estimator dengan varians terkecil diantara semua estimator untuk parameter yang sama. Jika θˆ1 dan θˆ2 dua estimator untuk θ dimana varians untuk θˆ1 lebih kecil dari varians untuk θˆ2 , maka θˆ1 merupakan estimator bervarians minimum.
3. Estimator yang konsisten
Estimator dikatakan konsisten apabila sampel yang diambil berapa pun besarnya, pada rentangnya tetap mengandung nilai parameter yang sedang di estimasi. Misalkan, θˆ estimator untuk θ yang dihitung berdasarkan sebuah sampel acak berukuran n. Jika ukuran sampel n makin besar mendekati ukuran populasi menyebabkan θˆ mendekati θ , maka θˆ disebut estimator konsisten.
Estimasi nilai parameter memiliki dua cara, yaitu estimasi titik (point estimation) dan estimasi selang (interval estimation).
a. Estimasi titik (point estimation)
Estimasi titik adalah estimasi dengan menyebut satu nilai atau untuk mengestimasi nilai parameter.
b. Estimasi interval (interval estimation)
Estimasi interval dengan menyebut daerah pembatasan dimana kita menentukan batas minimum dan maksimum suatu estimator. Metode ini memuat nilai-nilai estimator yang masih dianggap benar dalam tingkat kepercayaan tertentu (confidence interval).
Universitas Sumatera Utara
2.2.1 Estimasi Maksimum Likelihood
Suatu cara yang penting untuk mendapat estimator yang baik adalah metode maksimum likelihood yang diperkenalkan oleh R. A. Fisher. Maksimum likelihood merupakan suatu cara mendapat estimator a untuk parameter b yang tidak diketahui dari populasi dengan memaksimumkan fungsi kemungkinan.
Untuk data sampel x1,…, xn dari distribusi yang kontinu dengan fungsi padat f(x ; α) ditentukan fungsi likelihood sebagai L(x1,…, xn ; α) = f(x1;α) … f(xn; α). Untuk data sampel distribusi yang diskrit dengan nilai kemungkinan p(X = xi) = pi (α), i = 1,…r dan frekuensi f1,…,fr ditentukan dengan fungsi likelihood sebagai:
L( x1 ,..., xn ;α ) = ( pi (α )) 1 ...( pr (α )) r , f
f
n
∑f i =1
i
=n
Karena ln L merupakan transformasi yang monoton naik daripada L, maka ln L mencapai maksimumnya pada nilai α yang sama. Menurut hitung differensial persamaannya menjadi
∂ ln L = 0 . Suatu akar persamaan ini αˆ = a( x1 ,..., xn ) yang ∂α
memaksimumkan L, disebut estimasi maksimum likelihood untuk α.
2.2.2 Maksimum Likelihood dalam Multiple Regresi
Maksimum likelihood adalah metode yang dapat digunakan untuk mengestimasi suatu parameter dalam regresi.
Jika X dikurangi dengan rata-ratanya, maka akan diperoleh variabel baru x
(x
i
= X i − X ) dan selisih antara
X i dengan
X
merupakan perhitungan yang
n sederhana karena jumlah dari nilai xi tersebut adalah sama dengan nol ∑ xi = 0 . i =1 Dan persamaan multiple regresinya menjadi:
Universitas Sumatera Utara
Yi = β 0 + β1 x1 + + β k xk + ε
(2.7)
dimana: Yi
= variabel terikat ke-i
x1i,…, xki
= selisih antara variabel bebas X dengan nilai rata-ratanya pada pengamatan ke-i
β 0 , β1 ,..., β k
= parameter regresi
ε
= nilai kesalahan (error)
Teknik estimasi maksimum likelihood mempertimbangkan berbagai populasi yang mungkin dengan perpindahan garis regresi dan regresi tersebut mengelilingi distribusi untuk semua posisi yang mungkin. Perbedaan posisi yang berhubungan dengan perbedaan nilai percobaan untuk β 0 , β1 ,..., β k . Dalam hal ini, pengamatan likelihood Y1, Y2,…, Yn akan di estimasi. Untuk estimasi maksimum likelihood dipilih hipotesis populasi yang maksimum dalam likelihood. Secara umum, andaikan kita mempunyai sampel berukuran n dan kita ingin mengetahui kemungkinan sampel yang diamati. Diperlihatkan fungsi nilai kemungkinan untuk β 0 , β1 ,..., β k : p(Y1 , Y2 ,..., Yn β 0 , β1 ,..., β k )
(2.8)
Mengingat kemungkinan nilai pertama Y adalah:
p(Y1 ) =
Hal
1 e σ 2π
di
Y − ( β 0 + β 1 x1i ++ β k x ki ) −1 1 2 σ
atas
adalah
β 0 + β1 x1i + + β k xki 1 x − µ σ
− 1 p(x ) = e 2 σ 2π
dan
distribusi varians
2
(2.9)
normal
(σ ) 2
sederhana
yang
dengan
disubstitusi
ke
rata-rata dalam
2
. Kemungkinan nilai kedua Y sama dengan (2.9), kecuali
angka satu diganti dengan dua dan seterusnya untuk semua nilai Y amatan lainnya.
Universitas Sumatera Utara
Untuk nilai Y bebas dengan mengalikan semua kemungkinan bersama dalam (2.8), dimana: p(Y1 , Y2 ,..., Yn β 0 , β1 ,..., β k ) Y − ( β 0 + β 1 x1i ++ β k x ki ) −1 1 1 2 σ e = σ 2π
2
Y − ( β 0 + β 1 x1i ++ β k x ki ) −1 i 1 2 σ e =∏ 2 σ π i =1
Y − ( β 0 + β 1 x1i ++ β k x ki ) −1 2 1 2 σ e σ 2π 2
n
2
(2.10)
n
Dengan
∏
menyatakan hasil kali n kemungkinan bersama untuk nilai Yi
i =1
yang penggunaannya dikenal untuk eksponensial. Hasil (2.10) dapat diperlihatkan dengan penjumlahan eksponen: Yi − ( β 0 + β 1 x1i ++ β k x ki ) σ
1 i∑=1(− 12 ) p(Y1 , Y2 ,..., Yn β 0 , β1 ,..., β k ) = e σ 2π n
n
2
(2.11)
Mengingat Yi amatan yang diberikan dipertimbangkan untuk berbagai nilai
β 0 , β1 ,..., β k . Sehingga persamaan (2.11) dinamakan fungsi likelihood:
L(β 0 , β1 ,..., β k ) =
(σ
1 2π
−1
)
n
e
Yi − β 0 − β 1 x1i −− β k x ki σ i =1 n
2
∑
2
(2.12)
dimana: L(β 0 , β1 ,..., β k ) = fungsi maksimum likelihood pada parameter β 0 , β1 ,..., β k
σ
= parameter yang merupakan simpangan baku untuk distribusi
π
= nilai konstan ( π = 3,1416)
n
= banyak data sampel
e
= bilangan konstan (e = 2,7183)
Yi
= variabel terikat ke-i
βi
= parameter regresi ke-i
Universitas Sumatera Utara
Dari persamaan (2.12) diperoleh ln L( β 0 , β1 ,..., β k ), yaitu:
n 1 n Y − β 0 − β1 x1i − − β k xki Λ = ln L(β 0 , β1 ,..., β k ) = − ln (2π ) − n ln σ − ∑ i σ 2 i =1 2
2
(2.13)
Dengan mendifferensialkan Λ terhadap setiap parameter β 0 , β1 ,..., β k dan menetapkan derivatif parsial yang dihasilkan sama dengan nol, diperoleh:
1 n ∂Λ = 2 ∑ (Yi − β 0 − β1 x1i − − β k xki ) = 0 ∂β 0 σ i =1 n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
= ∑ Yi − nβ 0 − β1 ∑ x1i − − β k ∑ xki = 0 → ∑ x1i = ∑ xki = 0 n
⇒ βˆ0 =
∑Y i =1
n
i
=Y
(2.14)
1 n ∂Λ = 2 ∑ − x1i (Yi − β 0 − β1 x1i − − β k xki ) = 0 ∂β1 σ i =1 n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
= −∑ x1iYi + β 0 ∑ x1i + β1 ∑ x12i + + β k ∑ x1i xki = 0 → ∑ x1i = 0
⇒ −∑ x1iYi + β1 ∑ x12i + + β k ∑ x1i xki = 0
(2.15)
1 n ∂Λ = 2 ∑ − xki (Yi − β 0 − β1 x1i − − β k xki ) = 0 ∂β k σ i =1 n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
= −∑ xkiYi + β 0 ∑ xki + β1 ∑ x1i xki + + β k ∑ xki2 = 0 → ∑ xki = 0
⇒ −∑ xkiYi + β1 ∑ x1i xki + + β k ∑ xki2 = 0
(2.16)
Maka hasil yang diperoleh dari penurunan parsial di atas dapat dihitung nilai parameter βˆ0 , βˆ1 ,, βˆk .
Universitas Sumatera Utara