BAB I PENDAHULUAN
1.1 Latar belakang Masalah Dalam permasalahan pengelolaan dan menejemen seringkali dijumpai kegiatan peramalan, pendugaan, perkiraan, dan lainnya. Salah satu metode yang dapat digunakan untuk menyelesaikan masalah tersebut adalah dengan menggunakan metode statistik. Metode statistika yang digunakan sangat bergantung pada struktur data atau banyaknya variabel yang akan diamati. Salah satu metode yang dipakai untuk banyaknya variabel lebih dari satu adalah analisis regresi. Analisis regresi adalah suatu metodologi statistika untuk memprediksi nilai dari satu atau lebih variabel respon (variabel dependen) dari koleksi nilai variabel prediktor (variabel independen). Analisis ini juga dapat digunakan untuk memprediksi atau meramal pengaruh dari variabel prediktor (variabel independen) pada respon. Dalam analisis regresi pun dipelajari bagaimana variabel-variabel tersebut berhubungan dan dinyatakan dalam sebuah persamaan matematik. Sayangnya, istilah regresi, diambil dari judul peper pertama dari F. Galton yang tidak menunjukkan atau menggambarkan pentingnya atau luasnya cakupan aplikasi dari metodologi ini. Dalam analisis regresi, ada dua jenis variabel yaitu variabel bebas atau variabel prediktor (dinotasikan dengan X) dan variabel tak bebas atau variabel respon (dinotasikan dengan Y). Untuk melihat hubungan antara variabel respon dan sejumlah variabel prediktor secara simultan dapat digunakan analisis regresi linier dengan variabel respon diukur sekurangkurangnya dalam skala interval dam mempunyai distribusi normal. Pada analisis regresi linier terbagi menjadi dua, yaitu analisis regresi linier sederhana dan analisis regresi linier berganda. Yang membedakan keduanya adalah hanya terletak pada variabel bebas atau variabel prediktornya, untuk analisis regresi linier sederhana variabel bebasnya hanya satu sedangkan untuk analisis regresi linier berganda banyaknya variabel bebas adalah lebih dari satu. 1
Tetapi bagaimana dengan banyaknya variabel tak bebas atau variabel respon yang lebih dari satu. Oleh karena itulah, kami mencoba untuk mempelajari lebih jauh tentang model regresi linier multivariat yang terdapat pada bab 7. Pada makalah ini, kami akan mencoba mendiskusikan model regresi linier berganda untuk memprediksi respon tunggal. Model ini kemudian diperumum untuk membahas prediksi dari beberapa variabel dependen (variabel respon). Perlakuan penyingkatan kita menyoroti atau membahas asumsi-asumsi regresi dan konsekuensinya, formula alternatif dari model regresi, dan aplikasi umum dari teknik regresi pada kasus yang tampaknya berbeda.
1.2 Perumusan Masalah Berdasarkan pemaparan diatas maka permasalahan yang akan dibahas dalam penulisan ini adalah bagaimana penjelasan secara terperinci mengenai model regresi linier multivariat pada bab7 tersebut.
1.3 Batasan Masalah Dalam penulisan ini kami membatasi masalah sebagai berikut ; Pemaparan mengenai model regresi linier multivariat hanya akan dibahas sesuai dengan yang telah kami sampaikan pada persentasi yang telah kami lakukan.
1.4 Tujuan Penulisan Berdasarkan rumusan masalah diatas, maka tujuan penulisan ini adalah untuk mengetahui dan mempelajari lebih rinci mengenai model regresi linier multivariat.
2
BAB II MODEL REGRESI LINIER MULTIVARIAT
Nama : Adzimattinur Luthfia Nim : 055372
2.2 MODEL REGRESI LINEAR KLASIK Model regresi linear dengan respon tunggal mempunyai bentuk Y = β 0 + β 1 Z 1 + ... + β r Z r + ε Dengan Y
: variabel respon
Z 1 ,..., Z r : variabel prediktor β 0 , β1 ,..., β r Z r : parameter yang tidak diketahui
ε : nilai error (galat) dengan n observasi independen pada Y dan nilai yang diasosiasi dari Zi maka model lengkap regresi linier berbentuk Y1 = β 0 + β1 Z11 + β 2 Z12 + ... + β r Z 1r + ε 1 Y2 = β 0 + β1 Z 21 + β 2 Z 22 + ... + β r Z 2 r + ε 2 M
(7-1)
Yn = β 0 + β1 Z n1 + β 2 Z n 2 + ... + β r Z nr + ε n Dimana errornya diasumsikan memiliki sifat : 1.E (ε j ) = 0 2.Var (ε j ) = σ 2
(konstan)
(7-2)
3.Cov(ε j , ε k ) = 0, j ≠ k persamaan (7-1) dalam bentuk matriks adalah
Y 1 z 11 Y = 1 z 21 M M M 1 z n1 Y atau
Y =
( n +1)
Z
z12 z 22 M zn2
K z1r β 0 ε 1 K z 2 r β 1 + ε 2 O M M M L z nr β ε r r
(7-3)
β + ε
( n×( r +1)) (( r +1)×1)
( n×1)
3
dengan sifatnya :
1.E (ε ) = 0 2.Cov(ε ) = σ 2 Ι
contoh : Tentukan bentuk matriks jika model regresi linear sesuai dengan situasi pada contoh 6.6 jawab : Kita buat variabel boneka untuk mengatasi 3 rata-rata populasi, µ1 = µ + τ 1 , µ 2 = µ + τ 2 , danµ 3 = µ + τ 3 , Kita tentukan 1; Jika observasi berasal dari populasi 1 z1 = 0; Jika observasi berasal dari selain populasi 1 1; Jika observasi berasal dari populasi 2 z2 = 0; Jika observasi berasal dari selain populasi 2 1; Jika observasi berasal dari populasi 3 z3 = 0; Jika observasi berasal dari selain populasi 3 Dan
β 0 = µ , β1 = τ 1 , β 2 = τ 2 , β 3 = τ 3 lalu Y j = β 0 + β 1 Z j1 + β 2 Z j 2 + β 3 Z j 3 + ε j
j = 1, 2, …, 8 Ketika kita menyusun nilai-nilai observasi dari 3 populasi dalam barisan, kita dapatkan vektor respon observasi dan matriks desain 9 1 6 1 9 1 0 1 Y = , Z = (8 x1) 2 (8 x 4) 1 3 1 1 1 2 1
1 1 1 0 0 0 0 0
0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 1
2.3 PENAKSIR KUADRAT TERKECIL Misal b adalah nilai taksiran untuk y j − b0 − b1 z j1 − ... − br z jr antara y j
β.
perhatikan perbedaan
dan nilai
b0 + b1 z j1 + ... + br z jr
diharapkan jika b adalah vektor parameter sebenarnya. Selisih
itu akan
y j − b0 − b1 z j1 − ... − br z jr
4
tidak akan sama dengan nol karena nilai harapan respon berfluktuasi. Metoda dari kuadrat terkecil memilih b untuk meminimumkan jumlah n
kuadrat
S(b) =
∑(y j =1
j
− b0 − b1 z j1 − ... − br z jr ) 2 = ( y − Zb)' ( y − Zb)
Koefisien b dipilih berdasarkan kriteria kuadrat terkecil, dan b disebut penaksir kuadrat terkecil dari β (b sering dinotasikan βˆ ). Simpangan εˆ j = y j − βˆ0 − βˆ1 z j1 disebut residu.
Hasil 7.1 Misal Z sebanyak r + 1 ≤ n . Penaksir kuadrat terkecil dari β adalah βˆ = ( Z ' Z ) −1 Z ' y . Misal yˆ = Z βˆ = Hy diartikan nilai tertentu dari y, dengan H = ( Z ' Z ) −1 Z ' disebut matriks Hat . Residunya : εˆ = y − yˆ = Ι − Z ( Z ' Z ) −1 Z ' y = (Ι − H ) y
[
]
Memenuhi Z ' εˆ = 0 dan y 'εˆ = 0. Juga n
jumlah kuadrat residu kuadrat = ∑ ( y j − βˆ 0 − βˆ1 Z j1 − ... − βˆ r z jr ) 2 = εˆ 'εˆ j =1
[
]
= y ' Ι − Z ( Z ' Z ) −1 Z ' y = y ' y − y ' Zβˆ Hasil 7.1 menunjukkan bahwa penaksir kuadrat terkecil
βˆ dan
residu
dapat
diperoleh dari desain matriks Z dan respon y dengan operasi matriks sederhana. Contoh : hitunglah βˆ , εˆ dan jumlah residu kuadrat untuk model
Y j = β 0 + β 1 z j1 + ε j
yang cocok dengan data
z1 0 1 2 3 4 y
1
4
Jawab :
1 1 Z = 1 1 1
0 1 2 3 4
1 1 1 1 1 Z' = 0 1 2 3 4
3
8
9
1 4 y = 3 8 9
5 10 Z'Z = 10 30
5
0.6 − 0.2 (Z' Z) −1 = − 0.2 0.1
25 Z' y = 70
Sehingga
βˆ 0.6 − 0.225 1 βˆ = 0 = (Z' Z)−1 Z' y = 70 = 2 ˆ − 0 . 2 0 . 1 β 1 Dan persamaan yang tepat adalah
yˆ = 1 + 2z Vektor nilai taksiran adalah
1 1 yˆ = Zβˆ = 1 1 1
maka
0 1 3 1 1 2 = 5 2 3 7 9 4
1 1 0 4 3 1 εˆ = y − yˆ = 3 − 5 = − 2 8 7 1 9 9 0
jumlah kuadrat terkecilnya adalah 0 1 εˆ'εˆ = [0 1 − 2 1 0]− 2 = 02 +12 + (−2)2 +12 + 02 = 6 1 0
JUMLAH DEKOMPOSISI KUADRAT y ' εˆ = 0 , jadi jumlah respon total kuadrat
y' y =
memenuhi
n
∑
j=1
y
2 j
(7-4) y ' y = ( yˆ + y − yˆ )' ( yˆ + y − yˆ ) = ( yˆ + εˆ )( yˆ + εˆ ) = yˆ ' yˆ + εˆ ' εˆ karena kolom pertama dari Z adalah 1, kondisi Z 'εˆ = 0 memenuhi persamaan
0 = 1' εˆ =
n
∑ εˆ j = j =1
n
∑
j =1
yj −
atau y = yˆ
n
∑ yˆ j =1
j
6
jika kedua sisi dari persegi (7-4) dikurangi ny 2 = nyˆ 2
diperoleh dekomposisi
dasar dari jumlah rata-rata kuadrat y ' y − ny 2 = yˆ ' yˆ − n( yˆ )2 + εˆ ' εˆ n
atau
∑
j =1
n
( y j − y ) 2 = ∑ ( yˆ j − y ) 2 + j =1
n
∑
j =1
εˆ 2j
jumlah kuadrat diatas menyarankan kualitas dari model yang tepat dapat diukur dengan menghitung koefisien determinasi yaitu n
∑ R2 =1−
j =1
n
∑
j =1
n
εˆ 2j =
( y j − y)2
∑
( yˆ j − y ) 2
∑
( y j − y)2
j =1 n
j =1
GEOMETRI DARI KUADRAT TERKECIL berdasarkan model regresi klasik
E (Y ) = Z β = β
0
z 11 1 1 + β z 21 + ... + β 1 M M 1 z n1
r
z1r z 2r M z nr
E(Y) adalah sebuah kombinasi linear dari kolom Z. Seperti β , Z β membentuk model bidang dari semua kombinasi linear. Biasanya vektor observasi y tidak akan berbaring di dalam model bidang karena nilai error ε
, maka dari itu y
bukanlah suatu kombinasi linear dari kolom Z. Ketika observasi terjadi, solusi kuadrat terkecil diperoleh dari vektor simpangan y - Zb = (vektor observasi)-(vektor pada model bidang) panjang kudrat adalah S(b) kudrat. Seperti yang diilustrasikan pada gambar 7-1 (hal 293), nilai S(b) sekecil mungkin ketika b dipilih maka Zb adalah titik pada model bidang yang paling dekat ke y. titik terdekat ke y terjadi di ujung dari proyeksi tegak y pada bidang. Maka dari itu y, untuk pemilihan b = βˆ , yˆ = Zβˆ yang merupakan proyeksi dari y pada bidang terdiri dari semua kombinasi linear dari kolom Z. vektor residu εˆ = y − yˆ adalah tegak terhadap bidang. Geometri ini terbentuk walaupun Z bukan rank penuh.
7
Ketika Z memiliki rank penuh, operasi proyeksi ditunjukkan secara analitik seperti perkalian oleh matrik Z ( Z ' Z ) −1 Z ' . untuk melihatnya, kita gunakan spektrum dekomposisi (2-16) untuk menulis Z ' Z = λ1e1e1' + λ 2 e2 e2' + ... + λ r +1er +1er' +1 dimana λ1 ≥ λ 2 ≥ ... ≥ λ r +1 > 0 adalah nilai eigen dari Z’Z dan e1 , e2 ,..., er +1 adalah vektor eigen yang berkorespondensi. Jika Z memiliki rank penuh maka ( Z ' Z ) −1 = −
1
λ1
e1e1' +
1
λ2
e2 e2' + ... +
1
λ r +1
er +1er' +1
1
Perhatikan q i = λi 2 Zei yang merupakan sebuah kombinasi linier dari kolom Z. −
1
−
1
Maka q i' q k = λi 2 λ ki 2 ei' Z ' Zek = 0 jika i ≠ k atau 1 jika i = k . Maka dari itu, r+1 vektor
secara berbalasan tegak dan memiliki unit panjang. Kombinasi linier r +1
r +1
i =1
i =1
dari kolom Z. Dan lagi Z ( Z ' Z ) −1 Z ' = ∑ λi−1 Z ei e1' Z ' = ∑ qi q i' Berdasarkan hasil 2A.2 dan definisi 2A.12 proyeksi dari y pada kombinasi linier dari
{q1 , q2 ,..., q r +1 }
r +1
adalah
∑ (q y )q i =1
' i
i
r +1 = ∑ q i q i' y = Z ( Z ' Z ) −1 Z ' y = Zβˆ Jadi i =1
perkalian dengan Z ( Z ' Z ) −1 Z ' merencanakan sebuah vektor pada ruang yang dibentuk oleh kolom Z.
SIFAT SAMPLING DARI PENAKSIR KUADRAT TERKECIL KLASIK Hasil 7.2 Berdasarkan model regresi linier umum pada (7-3), persamaan kudrat terkecil
βˆ = Z ( Z ' Z ) −1 Z ' y mempunyai E ( βˆ ) = β dan cov(βˆ ) = σ 2 ( Z ' Z ) −1 . Residu εˆ
memiliki
sifat
E (εˆ ) = 0
dan
cov(εˆ ) = σ 2 ( I − H )
juga
E (εˆ ' εˆ ) = (n − r − 1)σ 2 ,jadi membatasi
s2 =
εˆ ' εˆ n − (r + 1)
=
[
]
Y I − Z ( Z ' Z ) −1 Z ' Y Y ' [I − H ]Y = n − r −1 n − r −1
Kita punyai E ( s 2 ) = σ 2 dan lagi βˆ dan εˆ tidak berkorelasi.
8
Persamaan kuadrat terkecil βˆ memiliki varians minimum yang pertama kali ditetapkan oleh Gauss. Hasil ini mengenai penaksir “bagus” dari fungsi parametrik linear dari bentuk c' β = c 0 β 0 + c1 β 1 + ... + c r β r untuk setiap c.
Hasil 7.3 (Teorema Kuadrat Terkecil Gauss) Misal Y = Zβ + ε dengan E (ε ) = 0 dan cov(ε ) = σ 2 I dan Z memiliki rank penuh r+1. untuk setiap c, penaksir c' βˆ = c 0 βˆ 0 + c1 βˆ1 + ... + c r βˆ r dari c' β memiliki varians
sekecil
mungkin
diantara
semua
penaksir
linear
dari
bentuk
a ' Y = a1Y1 + a 2Y2 + ... + a nYn yang tidak bias untuk c' β . Hasil yang kuat ini menyatakan bahwa subtitusi dari βˆ untuk β , menuju ke penaksir terbagus dari c' β untuk setiap c.
2.4 KESIMPULAN TENTANG MODEL REGRESI 2.4.1 Kesimpulan mengenai parameter regresi. Sebelum kita dapat menetapkan arti dari variabel utama dalam fungsi regresi E (Y ) = β 0 + β 1 z1 + ... + β r z r kita harus menentukan distribusi samping dari βˆ dan jumlah residu kuadrat εˆ' εˆ . Untuk itu kita asumsikan ε memiliki distribusi normal. Hasil 7.4 Misal Y = Zβ + ε dimana Z memiliki rank penuh r+1 dan ε berdistribusi normal
N n (0, σ 2 I ) . Penaksir maximum Likelihood dari β adalah sama dengan penaksir kuadrat terkecil βˆ . Dan lagi, βˆ = ( Z ' Z ) −1 Z ' Y berdistribusi N r +1 ( β , σ 2 ( Z ' Z ) −1 ) dan didistribusikan secara independen dari residu εˆ = Y − Zβˆ . Selanjutnya
nσ 2 = εˆ ' εˆ berdistribusi
σ 2 χ n − r −1 dengan
σˆ 2 adalah
penaksir
maximum
Likelihood dari σ 2 Ellipsoid kepercayaan untuk β sangat mudah disusun. Hal ini dapat dinyatakan dalam batas dari matriks penaksir covarian s 2 ( Z ' Z ) −1 dengan s 2 = εˆ ' εˆ /(n − r − 1)
9
Hasil 7.5 Misal Y = Zβ + ε dimana Z memiliki rank penuh r+1 dan ε berdistribusi normal N n (0, σ 2 I ) .
Daerah
100(1 − α ) %
kepercayaan
( β − βˆ )' Z ' Z ( β − βˆ ) ≤ (r + 1) s 2 Fr +1, n− r −1 (α )
juga,
untuk interval
β
adalah
kepercayaan
100(1 − α ) % untuk β i adalah βˆi ± Var ( βˆi ) (r + 1) Fr +1,n − r −1 (α ) , i= 0, 1,…, r Dengan Vˆar ( βˆi ) adalah elemen diagonal dari s 2 ( Z ' Z ) −1 yang berkorespondensi ke βˆi . Ellipsoid kepercayaan adalah pusat pada penaksir maximum Likelihood βˆ dan orientasinya dan ukuran ditentukan oleh nilai eigen dan vektor eigen dari Z ' Z . Jika nilai eigen mendekati nol, ellips kepercayaan akan sangat panjang dalam arah dari vektor eigen yang berkorespondensi. Para praktisi sering mengabaikan sifat kepercayaan dari taksiran interval pada hasil 7-5. mereka mengganti (r + 1) Fr +1,n − r −1 dengan nilai t, t n − r −1 (α / 2) dan menggunakan interval βˆi ± t n − r −1 (α 2) Vˆar ( βˆi ) ketika mencari variabel prediktor utama. Contoh: Berdasarkan
data
pada
tabel
7.1,
model
yang
tepat
adalah
Y j = β 0 + β 1 z j1 + β 2 z j 2 + ε j Pada data ini digunakan metoda kudrat terkecil. Hasil perhitungan komputer adalah
(Z ' Z )
−1
1.9961 11870.2 − 1 ˆ = − 0.0896 0.0512 dan β = ( Z ' Z ) Z ' y = 2634.4 − 0.0115 − 0.0172 0.0067 45.2
Jadi persamaan yang tepat adalah Y j = 11870.2 + 2634.4 z1 + 45.2 z 2 dengan s = 3473.
10
Jika residu εˆ melewati pemeriksaan diagnosa yang dijelaskan pada seksi 7.6, persamaan yang tepat dapat digunakan untuk memprediksi harga jual dari rumahrumah di sekitar berdasarkan ukuran dan nilai yang ditetapkan. Kita
misalkan
95%
interval
konfidensi
untuk
β2
adalah
βˆ 2 ± t17 (0.025) Vˆar ( βˆ 2 ) = 45.2 ± 2.110(285) atau (-556647) Karena interval konfidensi memuat β 2 = 0 variabel z 2 dapat dihilangkan dari model regresi dan analisis diulang dengan variabel prediktor tunggal z1 . Dibanding ukuran tempat tinggal, kiranya nilai yang ditetapkan menambah sedikit pengaruh terhadap prediksi dari harga jual.
Nama : Realita Raymunda Nim
: 055800
2.4.2 Test rasio likelihood untuk parameter Regresi Salah satu bagian dari analisis regresi terkait dengan menaksir pengaruh variabel prediktor pada variabel respon. Hipótesis nol menyatakan bahwa ada bagian dari Zi yang tidak berpengaruh pada respon Y.variabel prediktor ini akan ditulis dengan zq +1 , zq + 2 ,..., zr . pernyataan yang menyebutkan zq +1 , zq + 2 ,..., zr tidak mempengaruhi respon Y ditulis dalam hipótesis statistika: H 0 = β q +1 = β q + 2 = ... = β r = 0
β (1) Aturlah Z = Z M Z , β = (( q +1)×1) 1 2 β ( n×( q +1)) ( n×( r − q )) (( r −(2) q )×1) Maka model regresi umum dapat ditulis sebagai:
β (1) Y = Z β + ε = [ Z1 M Z 2 ] + ε = Z1β (1) + Z 2 β (2) + ε β (2) Test rasio likelihood Ho berdasarkan pada:
11
Jumlah kuadrat ekstra SS Re s ( Z1 ) − SS Re s ( Z ) = ( y − Z1βˆ(1) ) '( y − Z1βˆ(1) ) − ( y − Z1βˆ ) '( y − Z1βˆ(1) ) Result 7.6 Misalkan Z full rank r+1 dan ε berdistibusi N (0, σ 2 I ) . Test rasio likelihood H 0 = β q +1 = β q + 2 = ... = β r = 0 ekuivalent dengan dengan test Ho yang didasarkan
pada
jumlah
kuadrat
pada
SS Re s ( Z1 ) − SS Re s ( Z ) = ( y − Z1βˆ(1) ) '( y − Z1βˆ(1) ) − ( y − Z1βˆ ) '( y − Z1βˆ(1) )
persamaan dan
s 2 = ( y − Z1βˆ ) '( y − Z1βˆ(1) ) /(n − r − 1) . Test rasio likelihood menolak Ho jika: ( SS Re s ( Z1 ) − SS Re s ( Z )) /( r − q ) > Fr − q ,n − r −1 (α ) s2 Dimana:
s 2 = ( y − Z βˆ ) '( y − Z βˆ ) /(n − r − 1) Fr − q ,n − r −1 (α ) dimana r-q dan n-r-1 adalah derajat bebasnya. Contoh 7.5 Laki-laki dan perempuan yang berlangganan menilai rata-rata pelayanan di tiga tempat pada sebuah daerah restoran yang luas. Rata-rata pelayanan dikonversikan pada sebuah nilai indeks. Data disediakan pada tabel 7.2 dibawah. Data mempunyai n = 18 pelanggan. Tiap data pada tabel dikategorikan sesuai dengan lokasi (1, 2, 3) dan jenis kelamin (laki-laki = 0, perempuan = 1). Tambahannya kombinasi antara lokasi satu dengan laki-laki ada lima respon, kombinasi lokasi dua dengan perempuan ada 2 respon. Kemudian diperkenalkan tiga variabel dummy untuk lokasi dan dua variabel dummy untuk jenis kelamin. Model regresi yang menghubungkan antara indeks pelayanan dengan lokasi, jenis kelamin dan kombinasinya dapat dibuat dalam suatu matriks:
12
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1
Koefisien vektor β = [ β 0 , β1 , β 2 , β3 ,τ 1 ,τ 2 , γ 11 , γ 12 , γ 21 , γ 22 , γ 31 , γ 31 ] Desain matriks diatas tidak full rank, oleh program komputer diperoleh: SS res ( Z ) = 2977.4 Rank (Z) = 6, n-Rank (Z) = 12 Model pertama dengan hanya menggunakan 6 kolom pertama dari Z, yaitu tanpa mempertimbangkan interkasi antara jenis kelamin dan lokasi kita peroleh Z1 dan SS res ( Z1 ) = 3419.1 Dengan n-rank (Z1) = 18-4 = 14 Hipotesisnya: H 0 : γ 11 = γ 12 = ... = γ 31 = γ 32 = 0 Kemudian kita menghitung nilai F F=
( SS res ( Z1 ) − SS res ( Z )) /(6 − 4) s2
13
F=
( SS res ( Z1 ) − SS res ( Z )) / 2 SS res ( Z ) /12
F=
(3419,1 − 2977, 4) / 2 = 0,89 2977, 4 /12
Kesimpulannya, rata-rata pelayanan tidak dipengaruhi oleh interaksi dari lokasi dengan jenis kelamin.
2.5 Interferensi dari Fungsi Regresi yang diestimasi Misalkan sebuah model regresi memenuhi model kecocokan regresi, maka
z0 =
dapat digunakan untuk memecahkan dua masalah prediksi. Misalkan
[1, z01 ,..., z0 r ]
'
merupakan nilai yang dipilih untuk variabel predictor. Maka
z0 dan
βˆ dapat digunakan untuk : 1. Mengestimasi fungsi regresi pada
z0
Misalkan Y0 menyatakan nilai respon ketika variabel predictor memiliki nilai
[1, z01 ,..., z0 r ] . Menurut model 7.3, '
z0 =
makan nilai ekspektasi dari Y0 adalah :
E (Y0 Z0 ) = β 0 + β1 z01 + ... + β r z0 r = z '0 β ………………(7-18) Estimasi nilai terkecilnya adalah z0' ( Z ' Z ) −1 z0σ 2 . Result 7.7 Untuk model regresi linier pada model 7.3, z '0 βˆ merupakan estimator linier yang tidak bias dari E (Y0 Z ..) dengan nilai variansi minimum, Var ( z '0 βˆ ) = z0' ( Z ' Z ) −1 z0σ 2 . Jika error ε berdisribusi normal, maka taraf kepercayaan 100(1 − α )% untuk E (Y0 Z 0 ) = z '0 β adalah:
α z '0 β ± tn − r −1 ( z0' ( Z ' Z ) −1 z0 ) s 2 2 Dengan tn − r −1 (α / 2) sebagai batas atas percentil ke 100(α / 2) dari distribusi t dan derajat bebas n − r − 1 .
14
2. Meramalkan sebuah obsevasi baru pada zo
Prediksi pada sebuah observasi, misalnya Yo , pada zo = [1, z01 ,..., z0 r ] lebih tidak pasti daripada mengestimasi nilai harapan dari Yo . Sesuai model regresi pada (7.3) Yo = z0' β + ε 0
Atau (Respon baru Yo ) = (nilai harapan baru Yo pada zo ) + (error baru) Dimana ε 0 berdistribusi N (0, σ 2 ) . Nilai ε mempengaruhi nilai penaksir βˆ dan s 2 melalui nilai variabel respon Y, tetapi tidak mempengaruhi nilai ε 0
Result 7.8 Misalnya diberikan model regresi linier (7.3), sebuah nilai observasi baru Yo mempunyai prediktor tidak bias
z0' βˆ = βˆ0 + βˆ1 z01 + ... + βˆr z0 r Variansi dari galat ramalan, Y0 − z0' βˆ adalah Var( Y0 − z0' βˆ ) = σ 2 (1 + z0' ( Z ' Z ) −1 z0 ) Ketika error ε berdistribusi normal, maka sebuah interval prediksi 100(1 − α )% untuk Yo diberikan sebagai berikut : α z0' βˆ ± tn − r −1 s 2 (1 + z0' ( Z ' Z ) −1 z0 ) 2 Dengan tn − r −1 (α / 2) sebagai batas atas percentil ke 100(α / 2) dari distribusi t dan derajat bebas n − r − 1 . Interval prediksi untuk Yo
lebih luas dari interval kepercayaan untuk
mengestimasi nilai dari fungsi regresi E (Y0 Z 0 ) = z '0 β ketidakpastian pada peramalan Yo keberadaan
. Pertambahan
yang direpresentasikan oleh tambahan
s 2 pada pernyataan s 2 (1 + z0' ( Z ' Z ) −1 z0 ) , datang dari keberadaan
istilah error yang tidak dikenal atau diketahui ε 0
15
Contoh kasus Sebuah perusahaan menyadari bahwa pembelian perangkat komputer haruslah terlebih dahulu menaksir kebutuhan masa depan mereka untuk menentukan perangkat tang tepat. Seorang ilmuwan komputer mengumpulakan data dari tujuh perusahaan di tempat yang sama sehingga persamaan peramalan dari permintaan perangkat keras komputer untuk inventaris manajemen dapat ditambah. Datanya disajikan dalam tabel 7.3 Dengan: z1 = Pesanan pelanggan (dalam ribuan) z2 = Jumlah ítem add-delete (dalam ratusan) Y = Waktu CPU (dalam jam) Buatlah sebuah interval kepercayaan 95% untuk rata-rata waktu CPU, E (Y0 Z0 ) =
β 0 + β1 z01 + β 2 z02 pada z0 = [1,130, 7.5]' . Buat juga interval prediksi 95% untuk permintaan baru fasilitas CPU yang berkorespondensi pada z0 yang sama. Tabel 7.3. Data Komputer z1 = Pesanan
z2 = Jumlah ítem add-
Y =
pelanggan
delete
Waktu CPU
123.5
2.108
141.5
146.1
9.213
168.9
133.9
1.905
154.8
128.5
0.815
146.5
151.5
1.061
172.8
136.2
8.603
160.1
92.0
1.125
108.5
Dengan software, diperoleh fungsi persamaan regresi diestimasi: yˆ = 8.42 + 1.08 z1 + 0.42 z2
16
8.17969 ( Z ' Z ) = −0.06411 0.00052 0.08831 −0.00107 0.01440 −1
Dengan s = 1.204.
z0' βˆ = 8.42 + 1.08(130) + 0.42(7.5) = 151.97 s 2 ( z0' ( Z ' Z ) −1 z0 ) = 1.204(0.58928) = 0.71
t4 (0.025) = 2.776 Jadi, interval kepercayaan untuk rata-rata waktu CPU pada zo adalah
z0' βˆ ± t4 (0.025) s z0' ( Z ' Z ) −1 z0 = 151.97 ± 2.776(0.71) = (150.00, 153.94) Interval prediksi 95% waktu CPU pada fasilitas baru dengan syarat zo :
s 1 + z0' ( Z ' Z ) −1 z0 = (1.204)(1.16071) = 1.40 z0' βˆ ± t4 (0.025) s 1 + z0' ( Z ' Z )−1 z0 = 151.97 ± 2.776(0.40)
Maka:
=
(1.48.08,
155.86)
2.6 Pengecekan Model dan Beberapa Hal Dalam Regresi Apakah suatu model sudah cocok? Asumsikan suatu model sudah benar, kita perlu mengestimasi terlebih dahulu fungsi regresi untuk membuat suatu keputusan. Tentulah sangat penting untuk memeriksa kecukupan model sebelum fungsi yang diestimasi menjadi keputusan yang tetap. Semua informasi kekurangcocokan sampel terkandung pada Residual.
εˆ1 = y1 − βˆ0 − βˆ1 z11 − ... − βˆr z1r εˆ2 = y2 − βˆ0 − βˆ1 z21 − ... − βˆr z2 r . . .
εˆn = yn − βˆ0 − βˆ1 zn1 − ... − βˆr znr εˆ = [ I − Z ( Z ' Z )−1 Z '] y = [ I − H ] y
17
Jika modelnya cocok, tiap residual εˆ j adalah estimator dari ε j yang diasumsikan merupakan variabel random normal dengan rata-rata nol dan variansi σ 2 . Banyak statistikawan menggunakan diagnosa grafik untuk memeriksa residual yang didasarkan pada residual student. Persamaannya sebagai berikut:
εˆ∗j =
εˆ j s 2 (1 − h jj )
, j = 1, 2,..., n
Kita mengharapkan residual student ini merupakan gambaran yang mendekati distribusi normal dengan rata-rata 0 dan variansi 1. Dengan menggunakan software statistika makan akan diperoleh beberapa grafik gambaran residual sebagai berikut (hal.309) 1. Plot residual, εˆ j ,dengan nilai prediksi, yˆ j = βˆ0 + βˆ1 z j1 + ... + βˆr z jr Kemungkinanannya akan tampak seperti pada gambar 7.2 a dan 7.2 b. ini menunjukkan model regresi kita ada yang kurang tepat. Bisa disebabkan oleh kesalahan penghitungan atau variabel intersepnya dikeluarkan dari model. Hal lain adalah kemungkinan variansi error yang tidak konstan yang menyebabkan residualnya membentuk seperti corong. Adanya fluktuasi yang besar pada nilai-nilai error. Untuk memperbaiki atau mengkoreksi makan dilakukan transormasi dan atau pendekatan bobot kuadrat terkecil. Tetapi kedua hal ini tidak dijelaskan lebih lanjut pada bahasan ini. Gambaran grafik yang ideal ditunjukkan pada gambar 7.2 d 2. Plot residual, εˆ j ,dengan sebuah variabel prediksi, z1 , produk dari variabel prediktor misalnya z1 z2 atau z12 . Jika hasil dari análisis ini menghasilkan grafik seperti gambar 7.2 c maka model regresi yamg kita peroleh masih belum baik. Situasi ini menyarankan kita untuk menambah variabel prediktor lain pada model kita. 3. Q-Q plot dan histogram. Untuk membaca hasil yamg diperoleh pada análisis ini kita bisa membaca análisis yang ada pada bab 4.6
18
4. Plot residual dengan waktu. Jika data yang kita peroleh sudah terurut secara kronologis, plot residual dengan waktu maka akan mungkin muncul formula yang sistematis. (dalam hal ini mungkin akan muncul asosiasi antara error). Tambahannya, residual yang bertambah seiring dengan waktu mengindikasikan keterikatan yang kuat
Beberapa permasalahan tambahan pada Regresi linier 1. Pemilihan variabel prediktor dari sebuah himpunan yang sangat besar Pada praktek sehari-hari, terkadang sangat sulit untuk membuat formula yang tepat untuk fungsi regresi liner secara langsung. Pertanyaannya adalah variabel predictor mana yang harus dimasukkan pada model? Bentuk regresi seperti apa yang harus dibentuk? Ketika kita memiliki sebuah himpunan variabel prediktor yang sangat besar (banyak), semua variabel ini tidak bisa dimasukkan dalam fungsi regresi. Program komputer menyediakan cara untuk memilih himpunan bagian variabel prediktor yang terbaik dari himpunan yang tersedia. Pada program komputer akan menyediakan gambar plot ( C p , p) dimana Cp =
-(n-2p) Model yang terbaik dapat dilihat dari koordinat ( C p , p) sekitar 450 2. Kolinier Jika Z tidak full rank, beberapa kombinasi linier misalnya Za, harus nol. Pada situasi ini, kolom-kolom dikatakan kolinier. Hal ini mengakibatkan Z’Z tidak memiliki invers. Pada kebanyakan model regresi keadaan Za tidak mungkin tepat sama dengan nol. Jadi akan muncul kombinasi linier kolom pada Z dengan nilai dipersekitaran nol. Hal ini akan menyebabkan kesulitan bagi kita untuk mendeteksi kesignifikanan koefisien parameter pada model regresi. Hal ini dapat diatasi dengan: 1. Menghapus pasangan prediktor yang berkorelasi kuat
19
2. Menghubungkan variabel respon dengan komponen utama variabel prediktor. 3.
Bias yang disebabkan oleh model yang kurang tepat. Misalkan beberapa variabel predictor yang penting dikeluarkan dari model regresi yang dianjurkan. Misalkan model yang tepat dengan Z = [ Z1 M Z 2 ] dengan rank r + 1 dan
β (( q +(1) 1)×1) + ε = Z M Z Y 1 2 ( n×1) ( n×( q +1)) ( n×( r − q )) β (2) ( n×1) (( r −q )×1) Y = Z1β (1) + Z 2 β (2) + ε Dimana:
E (ε ) = 0 Var (ε ) = σ 2 I
Bagaimanapun, penyelidik tanpa mengetahui telah memenuhi sebuah model hanya dengan menggunakan q variabel prediktor. Penaksir kuadrat terkecil dari β1 adalah βˆ1 . βˆ1 = ( Z1' Z1 )−1 Z1'Y . Kemudian, tidak sama dengan situasi ketika modelnya benar, E ( βˆ(1) ) = ( Z1' Z1 )−1 Z1' E (Y ) = ( Z1' Z1 )−1 Z1' ( Z1β (1) + Z 2 β (2) + E (ε )) Jadi, βˆ1 adalah penaksir bias dari β1 . Hal ini menyebabkan taksiran kuadrat terkecil dari βˆ1 menjadi menyesatkan.
Nama : Adila Sandy Wulandari Nim : 055518
2.7 Regresi Linier berganda multivariat Regresi berganda multivariat merupakan hubungan antara m respon, Y1 , Y2 ,..., Ym dan variabel prediktornya
Z1 , Z 2 ,..., Z r , masing-masing respon
diasumsikan memenuhi model regresi :
20
Y1 = β 01 + β 11 z1 + ... + β r 1 z r + ε 1 Y2 = β 02 + β 12 z1 + ... + β r 2 z r + ε 2 M Ym = β 0 m + β 1 m z1 + ... + β rm z r + ε m Persamaan error
ε = [ε1,ε2,...,εm ] ' dengan E(ε ) = 0 dan Var(ε) =∑.
Untuk percobaan ke j, variabel predictornya adalah
Yj1,Yj2,...,Yjm' ,
persamaannya adalah
zj0, zj1,..., zjr ,
himpunan
dan himpunan errornya adalah
ε j = ε j1, ε j 2 ,..., ε jm ' . Dengan model matriknya :
z10 z11 z z Z = 20 21 ( nx( r +1)) M M zn0 zn1
... z1r ... z2r O M ... znr
Dengan persamaan matriks
Y11 Y12 Y Y Y = 21 22 (nxm) M M Yn1 Yn2
... Y1m ... Y2m = Y M Y(2) M ... M Y(m) O M (1) ... Ynm
β01 β02 β β β = 11 12 M ((r+1) xm) M βr1 βr2
... β0m ... β1m = β M β(2) M ... M β(m) O M (1) ... βrm
21
dan
ε11 ε12 ε ε ε = 21 22 (nxm) M M εn1 εn2
... ε1m ... ε2m = ε M ε(2) M ... M ε(m) O M (1) ... εnm
ε '1 L ε '2 = L M L ε ' n Model regresi linier multivariatnya adalah
Y ( nxm ) = Z ( nx ( r + 1 )) β (( r + 1 ) xm ) + ε ( nxm ) dengan
E (ε (i ) ) = 0 ; Cov(ε(i) , ε(k ) ) = σik I
i, k = 1, 2,..., m
Ket : m = jumlah observasi ke j
β = parameter yang tidak diketahui Untuk i respon, maka modelnya mengikuti :
Y (i) = Z β
(i)
+ ε
^
(i)
Seperti pada 1 respon β menjadi
i = 1, 2, …, m
^
β ( i ) = ( Z ' Z ) −1 Z ' Y( i )
Sehingga diperoleh : ^
Nilai prediksinya :
^
Residualnya
:
^
Y = Z β = Z(Z ' Z)−1 Z 'Y ^
ε = Y −Y = [I − Z(Z ' Z)−1 Z ']Y
22
jumlah kuadrat residualnya dan cross-productnya :
εˆ'εˆ = Y 'Y − βˆ ' Z ' Zβˆ
contoh 7.8 ^
^
^
Hitung nilai β , Y , dan ε dengan :
Yj1 = β01 + β11Z j1 + ε j1 Yj 2 = β02 + β12 Z j1 + ε j 2
j= 1,2,…,5
Digunakan data dua respon Y1 dan Y2 pada contoh 7.3 dengan datanya sebagai berikut : z1
0
1
2
3
4
y1
1
4
3
8
9
y2
-1
-1
2
3
2
Penyelesaian :
1 1 −1 1 4 −1 Y = 3 2 Z = 1 1 8 3 1 9 2
dan
0 1 2 3 4
1 1 1 1 1 Z'= 0 1 2 3 4
6 −2 (Z ' Z )−1 = −2 1
−1 −1 1 1 1 1 1 5 Z ' y(2) = 2 = 0 1 2 3 4 20 3 2
Sehingga
6 −2 5 −1 = −2 1 20 1
βˆ(2) = (Z ' Z )−1 Z ' y(2) = Pada contoh 7.3
1
βˆ(1) = (Z ' Z )−1 Z ' y(1) = 2
23
1 −1 = (Z ' Z )−1 Z ' y(1) M y(2) 2 1
βˆ = βˆ(1) M βˆ(2) =
Sehingga diperoleh
Setelah melakukan perhitungan diatas diperoleh persamaan
yˆ1 =1+ 2z1 dan
yˆ2 = −1+ z1 Matriks nilai taksiran adalah
1 1 Yˆ = Z βˆ = 1 1 1
0 1 −1 3 0 1 1 −1 = 2 5 1 2 1 3 7 2 9 3 4
dan
0 1 −2 1 0 0 −1 1 1 −1
εˆ = Y − Yˆ = Sehingga
1 −1 3 0 0 0 0 1 −2 1 0 = εˆ 'Yˆ = 5 1 0 0 0 −1 1 1 −1 7 2 9 3 Karena
1 −1 4 −1 171 43 1 4 3 8 9 Y 'Y = 3 2 = 43 19 −1 −1 2 3 2 8 3 9 2
165 45 Yˆ 'Yˆ = 45 15
dan
6 −2 −2 4
εˆ 'εˆ =
Jadi sum of square dan cross-productsnya memenuhi :
Y 'Y =Yˆ 'Yˆ +εˆ'εˆ
24
Latihan 7.9 halaman 351 Diberikan data dengan satu variabel predictor z1 dan dua respon Y1 dan Y2 z1
-2
-1
0
1
2
y1
5
3
4
2
1
y2
-3
-1
-1
2
3
Yj1 = β01 + β11Z j1 + ε j1
Dengan
Yj 2 = β02 + β12Z j1 + ε j 2
j= 1, 2, 3, 4, 5
Hitung matriks untuk Yˆ ,dan residual εˆ , dengan Y = [ y1 M y2 ]
Penyelesaian :
5 3 Y = 4 2 1
−3 1 1 −1 −1 Z = 1 2 1 1 3
−2 −1 1 1 1 1 1 0 Z' = −2 −1 0 1 2 1 2
1 6 0 −1 (Z ' Z) = 1 0 8
5 3 1 1 1 1 1 15 Z ' y(1) = 4 = −2 −1 0 1 2 5 2 1 dan
−3 −1 1 1 1 1 1 0 Z ' y(2) = −1 = 15 − 2 − 1 0 1 2 2 3 Sehingga
25
1 15 0 15 βˆ(1) = (Z ' Z )−1 Z ' y(1) = 6 = 6 0 1 5 5 8 8
1 6 0 0 0 − 1 βˆ(2) = (Z ' Z) Z ' y(2) = = 15 0 1 15 8 8
Sehingga diperoleh
15 6 0 −1 βˆ = βˆ(1) M βˆ(2) = = (Z ' Z ) Z ' y(1) M y(2) 5 15 8 8
Setelah melakukan perhitungan diatas diperoleh persamaan yˆ1 = yˆ 2 = 0 +
15 5 + z1 dan 6 8
15 z1 8
Matriks nilai taksiran adalah
1 1 Yˆ = Zβˆ = 1 1 1
−2 −1 15 6 0 5 1 8 2
15 −15 12 4 45 − 15 24 8 0 15 0 = 15 6 8 75 15 24 8 45 15 12 4
dan
45 27 3 −27 −33 εˆ = Y − Yˆ = 12 24 2 24 12 −3 3 7 −1 1 8 4 4 8
'
26
Sehingga
15 −15 12 4 45 −15 45 27 3 −27 −33 24 8 −945 −2745 12 24 2 24 12 15 288 96 ˆ ˆ ε 'Y = 0 = −3 6 −765 −225 3 7 −1 1 4 8 8 4 75 15 96 32 24 8 45 15 12 4 maka
5 −3 3 −1 55 −15 5 3 4 2 1 Y 'Y = 4 −1 = −15 24 −3 −1 −1 2 3 2 2 1 3 Perkiraan Kuadrat Terkecil Untuk perkiraan kuadrat terkecil determinan
βˆ = [βˆ(1) Mβˆ(2) M...Mβˆ(m) ]
menurut
model regresi berganda multivariate dengan full rank (Z) = r + 1 < n, adalah
E(βˆ(i) ) = β(i) atau
E(βˆ) = β
Cov ( βˆ ( i ) , βˆ ( k ) ) = σ ik ( Z ' Z ) − 1
Dan Residual
εˆ = [εˆ (1) Mεˆ ( 2 ) M...M εˆ ( m ) ] = Y − Z βˆ
E(εˆ(i) ) = 0 dan E(εˆ'(i) εˆ(k ) ) = (n − r −1)σik E (εˆ) = 0 Maka,
εˆ
dan
E(
i, k = 1, 2, …, r + 1 memenuhi
jadi
εˆ' εˆ (n − r − 1)
)=∑
dan βˆ tidak berkorelasi.
27
Perkiraan Maximum Likelihood Misal model regresi berganda multivariate
Y ( nxm ) = Z ( nx ( r + 1 )) β (( r + 1 ) xm ) + ε ( nxm ) dengan full rank (Z) = r + 1,
n > ( r + 1) + m dan missal error ε berdistribusi
^
normal. Maka
β = ( Z ' Z ) −1 Z ' Y
adalah perkiraan maksimum likelihood dari
β dan βˆ yang berdistribusi normal dengan −1 E(βˆ ) = β dan Cov ( βˆ ( i ) , βˆ ( k ) ) = σ ik ( Z ' Z ) . βˆ independent dari
perkiraan maksimum likelihood dan definit positif ^
∑
=
εˆ' ε n
=
∑
diberikan oleh
(Y − Zβˆ )' (Y − Zβˆ ) ^ dan n ∑ adalah distribusi Wn−r −1 (. | n
∑
).
Tes rasio likelihood untuk parameter regresi Tes ini merupakan rasio likelihood untuk banyak respon, dengan hipotesis bahwa respon tidak bergantung pada
Zq+1, Zq+2 ,...,Zr , sehingga
H 0 : β (2) = 0 dimana
β (1) ((q + 1) xm) β= β ( 2) ((r − q) xm)
Z2 Z1 Z = M dengan (nx(q +1)) (nx(r − q)) , secara umum model dapat ditulis :
β(1) E(Y ) = Zβ = [Z1 M Z2 ] = Z1β(1) + Z2 β(2) β (2)
28
Y = Z 1 β (1 ) + ε
dengan H 0 : β ( 2) = 0 ,
dan tes rasio likelihood dari
H 0 berdasarkan pada jumlah yang terkait dalam jumlah kuadrat ekstra dan cossproducts
=
(Y − Z1βˆ(1) )'(Y − Z1βˆ(1) ) − (Y − Zβˆ)'(Y − Zβˆ) ^
^
= n(∑
−∑ ) (1)
^
β (1) = (Z '1 Z1 ) Z '1 Y dan ∑ = ^
Dimana
−1
(Y − Z1βˆ(1) )'(Y − Z1βˆ(1) ) n
1
Dari rasio likelihood ( Λ ) dapat memperlihatkan hubungan umum varian, jadi : Λ =
max β
L ( β (1 ) , ∑ )
(1 ) . ∑
max L ( β , ∑ )
n/2 L ( βˆ (1) , ∑ˆ 1 ) | ∑ˆ | = = | ∑ˆ | L ( βˆ , ∑ˆ ) 1
β .∑
Equivalent dengan statistic Wilks’Lambda :
Λ
2/ n
ˆ| |∑ = ˆ | |∑ 1
dapat dipergunakan.
Hasil 7.11 Misal model regresi berganda multivariate
Y( nxm ) = Z ( nx ( r +1)) β (( r +1) xm ) + ε ( nxm ) dengan full rank (Z) = r + 1, n > ( r + 1) + m dan misal error
H0 : β(2) = 0 , n∑ ^
normal. Dengan
bebas adalah dari H
0
ˆ −∑ ˆ) n(∑ 1
adalah distribusi
dimana distribusinya
equivalent dengan tolak H
0
ε
berdistribusi
Wn−r −1 (. | ∑ ) secara
Wr−q (.| ∑) . Tes rasio likelihood
untuk besar nilai dari :
29
ˆ | ˆ | |∑ | n∑ − 2 Ln Λ = − nLn = − nLn | ∑ ˆ | ˆ + n( ∑ ˆ −∑ ˆ)| | n∑ 1 1 untuk besar nilainya n buah maka statistiknya :
ˆ| 1 |∑ − n − r − 1 − (m − r + q + 1) Ln ˆ 2 | ∑1 | Menggunakan pendekatan chi kuadrat dengan derajat bebasnya m(r-q).
contoh 7.9 contoh ini merupakan lanjutan yang diberikan pada contoh sebelumnya yaitu pada contoh 7.5. Dengan menggunakan program computer, sehingga diperoleh :
residual sum of squares ˆ = 2977,39 1021,72 = ∑ dan cross pruducts n 1021,72 2050,95
extrar sum of squares ˆ −∑ ˆ ) = 441,76 246,16 dan cross pruducts = n ( ∑ 1 246,16 366,12 Misal β (2) adalah matriks untuk interaksi parameter dua respon. Diketahui pada contoh sebelumnya bahwa nilai n= 18 yang dapat dikategorikan tidak terlalu besar, sehingga diperoleh hipotesis :
H0 : β(2) = 0 H1 : β(2) ≠ 0 Dengan nilai alfa sebesar 0,05, dapat diuji :
ˆ| 1 | n∑ −n−r1 −1− (m−r1 +q1 +1)ln ˆ ˆ ˆ 2 | n∑+n(∑1 −∑)|
30
1 = − 18 − 5 − 1 − (2 − 5 + 3 + 1) ln(7605) 2
= 3,28 Dengan menggunakan pendekatan chi-kuadrat, diperoleh nilai pada tabel chikuadrat dengan derajat bebas sebesar m (r1-q1) = 2 (2) = 4 adalah 9,49. Sehingga nilai hitung akan lebih kecil daripada nilai pada tabel yaitu
3,28 < χ42 .(0,05) = 9,49 . Untuk kriteria hitungnya maka H 0 ditolak pada nilai alfa sebesar 5%. Sehingga nilai β (2) ≠ 0 , artinya nilai koefisien untuk β (2) berarti dan hubungan interaksi tidak dibutuhkan.
Nama : Siti Yunengsih Nim : 055951
2.8 Konsep Dari Regresi Linier Model regresi linier klasik menghubungkan antara suatu variabel terikat Y dan kumpulan variabel prediktor z1, z2, … zr. Model regresi menganggap bahwa variabel acak Y bergantung pada variabel tetap z. Rata-rata nya diasumsikan sebagai fungsi linier dengan koefisien regresi β o , β1 , ... , β r . Anggaplah bahwa Y , Z1 , Z 2 , ..., Z r adalah variabel acak yang mempunyai distribusi sama tidak harus normal, dengan vektor rata-rata covariant
∑
( r +1) × ( r +1)
µ dan matrix
( r +1) ×1
partisi µ dan Σ kita tulis sebagai berikut
σ YY σ ZY ' µY ' µ = (1× 1) dan Σ = (1×1) (1× r ) dengan σ ZY = σ YZ1 , σ YZ2 , ..., σ YZr µ σ Σ ( r ×ZY1) ( r×ZZr ) ( r ×Z1) Dalam memprediksi variabel terikat Y digunakan
prediktor linier = b0 + b1 Z1 + … + brZr = b0 + b’Z dengan prediksi errornya yaitu
31
prediction error = Y - b0 - b1 Z1 - … - brZr =Y - b0 - b’Z karena error ini bersipat acak, biasanya untuk memilih b0 dan b dengan meminimumkan Mean square error = E(Y - b0 - b’Z)2 Mean square error ini bergantung pada distribusi bersama dari Y dan Z melalui parameter µ dan Σ Akibat 7.12 Prediktor linier β 0 + β ' Z dengan koefisien
β = ∑ −ZZ1 σ ZY ,
β 0 = µY − β ' µ Z
Memilki rata-rata kuadrat minimum diantara semua prediktor linier respon Y dan memiliki mean square error yaitu ' ' E (Y − β 0 − β ' Z )2 = E (Y − µY − σ ZY ∑ −ZZ1 ( Z − µ Z )) 2 = σ YY − σ ZY ∑ −ZZ1 σ ZY ' Juga β 0 + β ' Z = µY + σ ZY ∑ −ZZ1 ( Z − µ Z ) adalah prediktor linier yang memiliki
korelasi maksimum dengan Y Corr (Y , β 0 + β ' Z ) = max Corr (Y , b0 + b ' Z ) =
' β ' ∑ ZZ β σ ZY ∑ −ZZ1 σ ZY = σ YY σ YY
Korelasi antara variabel terikat Y dengan prediktor linier terbaiknya disebut koeffisien korelasi multiple populasi yang dinotasikan sebagai
ρY ( Z ) = +
' σ ZY ∑ −ZZ1 σ ZY σ YY
kuadrat dari koeffisien ini ρY2( Z ) disebut koeffisien determinasi populasi, nilai dari koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 ≤ ρY ( Z ) ≤ 1 . Koeffisien determinasi memiliki interpretasi penting. Dari akibat 7.12 mean square error menggunakan β 0 + β ' Z untuk meramalkan Y adalah ' σ ZY ∑ −ZZ1 σ ZY 2 = σ YY (1 − ρY ( Z ) ) σ YY
' σ YY − σ ZY ∑ −ZZ1 σ ZY = σ YY − σ YY
32
Jika ρY2 ( Z ) = 0 tidak ada kekuatan prediksi dalam Z, perbedaan yang sangat besar jika ρY2( Z ) = 1 mengakibatkan Y dapat diprediksi dengan tepat . Contoh 7.11 Diberikan vektor rata-rata dan matrik kovarian dari Y , Z1 , Z 2 5 σ σ ' µY µ = = 2 dan Σ = yy ZY σ ZY ∑ ZY µ Z 0
10 1 − 1 = 1 7 3 −1 3 2
Tentukan a). prediktor Linier terbaik β 0 + β1Z1 + β 2 Z 2 b). mean square error c). koeffisien korelasi multiple penyelesaian −1
7 3 1 0, 4 −0, 6 1 1 = = = 3 2 −1 −0, 6 1, 4 −1 −2
β = ∑ σ ZY −1 ZZ
2
β 0 = µY − β ' µ Z = 5 − [1 −2] = 3 0 a). Jadi prediktor linier terbaiknya adalah β 0 + β1Z1 + β 2 Z 2 = 3 + Z1 − 2 Z 2 b). mean square errornya
0, 4 −0, 6 1 = 10 − 3 = 7 −0, 6 1, 4 −1
' σ YY − σ ZY ∑ −ZZ1 σ ZY = 10 − [1 −1]
c). koeffisien korelasi multiplenya ρY ( Z ) = +
Pembatasan
prediktor
linier
' σ ZY ∑ −ZZ1 σ ZY 3 = = 0,548 σ YY 10
dekat
dihubungkan
dengan
assumsi
normalitas, khususnya
Y Z 1 misalkan kita punya Z 2 berdistribusi N r −1 ( µ , ∑) M Z r
33
maka distribusi bersyarat dari Y dengan memperhatikan nilai z1, z2, …,zr adalah ' ' −1 N ( µY + σ ZY ∑ −ZZ1 ( z − µ Z ), σ YY − σ ZY ∑ ZZ σ ZY )
rata-rata dari distribusi bersyarat ini adalah prediktor linier dalam akibat 7.12 adalah
' E (Y z1 , z2 , ... , zr ) = µY + σ ZY ∑ −ZZ1 ( z − µ z )
= β0 + β ' z
dan kita menyimpulkan E (Y z1 , z2 , ... , zr ) adalah prediktor linier tebaik dari Y ketika populasinya adalah N r +1 ( µ , ∑ ) . Ekspektasi bersyarat ini disebut fungsi regresi linier. Ketika populasi tidak normal, fungsi regresi E (Y z1 , z2 , ... , zr ) tidak harus berbentuk β 0 + β ' z . Namun, dapat ditunjukan bahwa E (Y z1 , z2 , ... , zr ) apapun bentuknya, untuk memprediksi Y adalah dengan mean square error terkecil. Keuntungannya pengoptimalan diantara semua estimator yang dimiliki dengan prediktor linier adalah ketika populasinya normal.
Akibat 7.13 Anggaplah bahwa distribusi bersama dari Y dan Z adalah N r +1 ( µ , ∑) misalkan
S
Y
S'
µˆ = dan S = YY ZY Z S ZY S ZZ vektor rata-rata sampel dan matrik kovarian sampel berukuran n dari suatu populasi, penaksir maksimum likelihood dari koeffisien prediktor liniernya adalah −1 βˆ = S ZZ sZY ,
' −1 βˆ0 = Y − sZY S ZZ Z = Y − βˆ ' Z
akibatnya penaksir likelihood untuk fungsi liniernya adalah ' −1 βˆ0 + βˆ ' z = Y + sZY S ZZ (z − Z ) 2
Penaksir maximum lilkelihood dari mean squre errornya E Y − β 0 − β ' Z adalah
σˆYY ⋅Z =
n −1 ' −1 ( sYY − sZY S ZZ sZY ) n
34
Biasanya dengan merubah pembagi dari n ke n-(r + 1) dalam estimator dari means square error diperoleh penaksir tak bias yaitu
∑ (Y n
n −1 ' −1 ( sYY − sZY S ZZ sZY ) = n − r −1
j =1
j
− βˆ0 − βˆ ' Z j
)
2
n − r −1
Contoh 7.12 Hasil computer data contoh 7.6. dengan data 7 observasi pada Y (CPU Time), Z1 , Z 2 memberikan vektor rata-rata sampel dan matrik kovarian sampel yaitu
467,913 418, 763 35,983 150, 44 ' yˆ s yy sZY µˆ = = 130, 24 dan Σ = = 418, 763 377, 200 28,034 sZY S ZY Z 3, 547 35,983 28, 034 13, 657 assumsikan berdistribusi normal bersama. Tentukan fungsi regresi dan mean square errornya.?
Penyelesaian Dari akibat 7.13 penaksir maksimum likelihoodnya adalah
0, 003128
−1 βˆ = S ZZ sZY = −0, 006422
−0, 006422 418, 763 1, 079 = 0, 086404 35, 983 0, 420 130, 24 = 8, 421 3, 547
βˆ0 = y − βˆ ' z = 150, 44 − [1, 079 0, 420]
jadi fungsi regresinya adalah βˆ0 + βˆ ' z = 8, 42 − 1, 08 z1 + 0, 42 z2 mean square errornya adalah
n −1 ' −1 ( sYY − sZY S ZZ sZY ) n 0, 003128 −0, 006422 418, 763 6 = 467,913 − [ 418, 763 35,983] 7 −0, 006422 0, 086404 35,983 = 0,894
σˆYY ⋅Z =
Prediksi untuk beberapa variabel
35
Perluasan dari akibat sebelumnya untuk prediksi beberapa variabel terikat Y1 , Y2 , ... , Ym
hampir dekat. Perluasan untuk populasi normal anggaplah
Y ( m ×1) bahwa Z ( r ×1)
berdistribusi
N m+ r ( µ , ∑)
µY ( m ×1) dengan µ = µ ( r ×Z1)
dan
∑YY ∑YZ ( m× m ) ( m × r ) ∑= ∑ ∑ ZZ ( r ×ZY m) ( r×r ) Ekspektasi bersyarat dari [Y1 , Y2 , ... , Ym ] atas sejumlah nilai variabel prediktor z1 , z2 , ... , zr adalah
E Y z1 , z2 , ... , zr = µY + ∑YZ ∑ −ZZ1 ( z − µ Z )
nilai harapan bersyarat ini, dianggap suatu fungsi atas z1 , z2 , ... , zr yang disebut dengan regresi multivariate dari vektor Y dalam Z. Fungsi ini terdiri dari m regresi univariat. Contohnya vektor rata-rata bersyarat dari komponen pertama adalah
µY + ∑Y Z ∑ −ZZ1 ( z − µ Z ) = E (Y1 z1 , z2 , ... , zr ) yang meminimumkan mean square 1
1
error dari prediksi Y1. Ukuran m × r matrik β = ∑YZ ∑ −ZZ1 disebut matrik koeffisien regresi. Kesalahan dari vektor prediksinya Y − µY − ∑YZ ∑ −ZZ1 ( Z − µ Z ) mempunyai kuadrat harapan dan matriks cross produk adalah
∑YY ⋅Z = E Y − µY − ∑YZ ∑ −ZZ1 ( Z − µ Z ) Y − µY − ∑YZ ∑ −ZZ1 ( Z − µ Z )
'
= ∑YY − ∑YZ ∑ −ZZ1 (∑YZ )' − ∑YZ ∑ −ZZ1 ∑ ZY + ∑YZ ∑ −ZZ1 ∑ ZZ ∑ −ZZ1 (∑YZ )' = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY karena µ dan Σ tidak diketahui secara khusus, maka harus diperkirakan dari sampel acak dalam urutan menyusun prediktor linier multivariate dan menentukan harapan kesalahan prediksi.
Akibat 7.14
36
Anggaplah Y dan Z berdistribusi N m − r ( µ , ∑) . Regresi dari vektor Y dalam Z adalah −1 β 0 + β z = µY − ∑YZ ∑ ZZ µ Z + ∑YZ ∑ −ZZ1 z = ∑YZ ∑ −ZZ1 ( z − µ Z )
kuadrat harapan dan matriks cross produk untuk errornya adalah E (Y − β 0 − β Z )(Y − β 0 − β Z )' = ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi regresinya adalah −1 βˆ0 + βˆ z = Y + SYZ S ZZ (z − Z )
Dan estimator likelihood dari ∑YY ⋅Z adalah
n −1 −1 ˆ ∑ YY ⋅Z = ( sYY − SYZ S ZZ S ZY ) n ˆ Penaksir tak bias dari ∑ YY ⋅Z adalah n
n −1 −1 ( SYY − SYZ S ZZ S ZY ) = n − r − 1
∑ (Y j =1
j
− βˆ0 − βˆ Z j )(Y j − βˆ0 − βˆ Z j ) n − r −1
Contoh 7.13 Dari hasil komputer data contoh 7.6 dan contoh 7.10 untuk Y1 (CPU time) dan Y2
150, 44 yˆ 327, 79 (Disc I/O Capacity)., diberikan Z1 dan Z2 diperoleh µˆ = = Z 130, 24 3, 547 467, 913 ' 1148,556 S ZY = S ZY 418, 763 35,983
35, 983 3072, 491 1008, 976 140, 558 S yy Σ= 1008,976 377, 200 28, 034 S ZY 140, 558 28, 034 13, 657 diasumsikan berdistribusi normal tentukan fungsi regresinya ? 1148,556 418, 763
37
−1 βˆ0 + βˆ z = y + SYZ S ZZ (z − z )
150, 44 418, 763 35, 983 0, 003128 −0, 006422 z1 − 130, 24 = + × 327, 79 1008, 976 140, 558 −0, 006422 0, 086404 z2 − 3,547 150, 44 1, 079( z1 − 130, 24) + 0, 420( z2 − 3,547) = + 327, 79 2, 254( z1 − 130, 24) + 5, 665( z2 − 3, 547) sehingga predictor mean square error minimum dari Y1 dan Y2adalah
150, 44 + 1, 079( z1 − 130, 24) + 0, 420( z2 − 3,547) = 8, 42 + 1, 08 z1 + 0, 42 z2 327, 79 + 2, 254( z1 − 130, 24) + 5, 665( z2 − 3,547) = 14,14 + 2, 25 z1 + 5, 67 z2
penaksir maksimum likelihood dari kuadrat harapan dan matrik cross produknya diberikan oleh n −1 −1 ∑YY ⋅Z = ( SYY − SYZ S ZZ S ZY ) n 6 467,913 1148,536 418, 763 35,983 0, 003128 −0, 006422 418, 763 1008,976 = − 7 1148,536 3072, 491 1008,976 140,558 −0, 006422 0, 086404 35,983 140,558 6 1, 043 1, 042 0,894 0,893 = = 7 1, 042 2,572 0,893 2, 205
hasil penaksiran pertama fungsi regresi 8, 42 + 1, 08 z1 + 0, 42 z2 memberikan mean square error 0,894 hasil yang sama dengan contoh 7.12 untuk kasus respon tunggal. Kita lihat bahwa data dapat diprediksi dari dari variable respon pertama memilki error yang lebih kecil dibandingkan dengan oleh respon kedua. Kovarian 0,893 menunjukan prediksi yang terlalu jauh dari CPU time yang cenderung ditemani oleh capasitas disk.
Akibat 7.14 menyatakan bahwa assumsi dari distribusi normal multivariate bersama untuk kumpulan Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r mudah untuk memprediksi
persamaan
yˆ1 = βˆ01 + βˆ11 z1 + ... + βˆr1 zr yˆ = βˆ + βˆ z + ... + βˆ z 2
02
12 1
r2 r
M
M M yˆ m = βˆ0 m + βˆ1m z1 + ... + βˆrm zr
Dengan catatan mengikuti
38
1.
Nilai z1 , z2 , ... , zr yang sama digunakan untuk memprediksi tiap nilai Yi .
2.
βˆik diperkirakan untuk entri
( i, k )
pada matrik koeffisien regresi
−1 β = ∑YZ ∑ ZZ untuk i, k ≥ 1 .
Koefisien Korelasi Parsial Y1 − µY1 − ∑Y1Z ∑ −ZZ1 ( Z − µ Z )
Anggaplah pasangan kesalahan
Y2 − µY2 − ∑Y2 Z ∑ −ZZ1 ( Z − µ Z )
diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya ditentukan dari matrik kovarian kesalahan ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY pengukuran hubungan antara Y1 dan Y2 setelah menghapus pengaruh dari Z1 , Z 2 , ... , Z r . koeffisien korelasi parsial antara Y1 dan Y2 dengan menghapuskan Z1 , Z 2 , ... , Z r oleh ρY1Y2 ⋅Z =
σ Y Y ⋅Z 1 2
σ Y Y ⋅Z σ Y Y ⋅Z 1 1
rY1Y2 ⋅Z =
yang diperkirakan oleh Dimana
2 2
sY1Y2 ⋅Z sY1Y1 ⋅Z sY2Y2 ⋅Z
σ Y Y ⋅Z adalah
entri
i k
( i, k )
dalam
matrik
∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY hubungan koeffisien korelasi parsial sampel adalah rY1Y2 ⋅Z =
sY1Y2 ⋅Z sY1Y1 ⋅Z sY2Y2 ⋅Z
−1 Dengan sYiYk ⋅Z dengan ( i, k ) elemen dari SYY − SYZ S ZZ S ZY dengan asumsi
Y dan Z memiliki distribusi normal multivariate bersama. Koeffisien korelasi
parsial sampel diatas adalah penaksir maximum likelihood untuk populasinya.
39
2.9 Membandingkan Dua Perumusan dari Model Regresi Bentuk Rata-rata yang dikoreksi dari Model Regresi Untuk beberapa variabel respon Y, model regresi multiple menegaskan bahwa Y j = β 0 + β1 z1 j + ... + β r zrj + ε j Variabel prediktor dapat dipusatkan dengan mengurangi rata-ratanya. Contohnya
β1 z1 j = β1 ( z1 j − z1 ) + β1 z1 dan kita dapat menulis Y j = ( β 0 + β1 z1 + ... + β r zr ) + β1 ( z1 j − z1 ) + ... + β r ( zrj − zr ) + ε j = β∗ + β1 ( z1 j − z1 ) + ... + β r ( zrj − zr ) + ε j Dengan β∗ = ( β 0 + β1 z1 + ... + β r zr ) Desain matrik rata-rata yang dikoreksi dihubungkan dengan pengulangan
1 1 Zc = M 1
pembentukan parameter adalah
z11 − z1 L z1r − zr z21 − z1 L z2 r − zr M O M zn1 − z1 L znr − zr
Yang mana kolom r masing-masing tegak lurus terhadap kolom pertama karena n
∑1( z j =1
ji
− zi ) = 0,
i = 1, 2, .... , r
Selanjutnya tentukan Z c = 1 Z c 2 dengan Z c' 21 = 0
Jadi
I 'I Z Zc = ' Z c 2 I ' c
I ' Z c 2 n 0' = Z c' 2 Z c 2 0 Z c' 2 Z c 2
βˆ∗ 1 ' 0' βˆ1 y ' −1 ' I y = = ( Z Z ) Z y = n c c c ' − 1 ' ' (Z Z ) Zc 2 y ' −1 Z y M 0 ( Z c 2 Z c 2 ) c 2 c 2 c 2 ˆ βr
40
Dengan demikian koeffisien regresi [ β1 , β 2 , ... , β r ] penaksir tak biasnya '
ditaksir
(Z
oleh
' c2
Z c 2 ) Z c' 2 y −1
dan
β∗
ditaksir
oleh
y.
Karena
koeffisien β1 , β 2 , ... , β r tetap tidak berubah oleh penggantian parameter penaksir terbaiknya dihitung dari desain matriks Z c sama dengan yang dihitung desain matrik Z Sehingga, keadaan βˆc = βˆ1 , βˆ2 , ... , βˆr adalah predictor linier dari Y dapat ditulis sebagai yˆ = βˆ∗ + βˆc' ( z − z ) = y + y ' Z c 2 ( Z c' 2 Z c 2 )−1 ( z − z ) dengan
( z − z ) = ( z1 − z1 , z2 − z2 , ... , zr − zr ) akhirnya σ 2 Var ( βˆ∗ ) Cov( βˆ∗ , βˆc ) ' −1 2 = (Zc Zc ) σ = n ˆ ˆ ˆ Cov( β c ) Cov( β c , β∗ ) 0
( Z c' 2 Z c 2 ) −1σ 2 0'
Ulasan: Model Regresi Multiple Multivariate menghasilkan desain matrik ratarata yang dikoreksi sama untuk setiap respon. Penaksiran kuadrat terkecil untuk koeffisien
vector
βˆ(i ) untuk
, ( Z Z c 2 ) Z y(i )
βˆ(i ) =
y(i )
' c2
−1
' c2
variable
respon
ke-i
diberikan
oleh
i = 1, 2, ..., m
Rumus-rumus yang berhubungan Ketika variable Y , Z1 , Z 2 , ..., Z r berdistribusi normal bersama, kita menentukan bahwa
prediktor
penaksir dari ) ' −1 ' βˆ0 + βˆ ' z = y + sZY S ZZ ( z − z ) = µY + σˆ ZY ∑ −ZZ1 ( z − µ Z ) .
Y
adalah
dari bentuk rata-rata yang dikoreksi pada model regresi penaksir linier terbaik dari prediktor Y adalah yˆ = βˆ∗ + βˆc' ( z − z ) dengan βˆ∗ = y = βˆ0 dan dari persamaan sebelumnya
βˆc' = y ' Z c 2 ( Z c' 2 Z c 2 ) −1
maka
diperoleh
hubungan
' −1 sZY S ZZ = y ' Z c 2 ( Z c' 2 Z c 2 ) −1
oleh karena itu teori normal rata-rata bersyarat dan model regresi klasik memilki prediktor linier yang tepatnya sama.
41
Meskipun dua perumusan dari masalah prediksi linier
menghasilkan
persamaan predictor yang sama, pada dasarnya adalah berbeda, pada model regresi klasik
variable input diassumsikan ditentukan oleh ekperiment, pada
model regresi linier nilai dari variable predictor adalah variable acak yang diperoleh dihubungkan dengan nilai dari variable respon. Assumsi untuk pendekatan kedua lebih ketat tapi tapi menghasilkan predictor optimal diantara semua pilihan daripada melalui predictor linier yang jarang. Rumus rumus yang berhubungan dengan regresi linier multivariat secara keseluruhan ádalah sebagai berikut : Kasus Univariat Terdapat satu variable respon Y untuk sejumlah data n maka
Y1 1 z11 Y 1 z 21 2 = M M M Yn 1 zn1
β + ε
model persamaannya Y = Z ( n×1)
L z1r β 0 ε1 L z1r β1 ε 2 + O M M M L z1r β r ε n
( n×( r +1) (( r +1)×1)
( n×1)
dengan metode kuadrat terkecil penaksir : βˆ = ( Z ' Z ) −1 Z ' y n
koefisien determinasi : R 2 =
∑ ( yˆ
j
− y )2
∑(y
j
− y )2
j =1 n j =1
α ˆ interval kepercayaan : βˆi ± tn − r −1 Var ( βˆi ) 2
Test Hipotesis H 0 : βi = 0
( β1 , β 2 , ... , β r )
H1 : βi ≠ 0
42
Statistik uji
F=
SSR r SSE (n − r − 1)
(
Dengan SSR = βˆ ' Z ' y − ny 2
)
(
SSE = y ' y − βˆ ' Z ' y
)
Kriteria tolak H 0 jika F > Fα ,r ,n − r −1
(Rencerd;330) Kasus Multivariat Misalkan untuk variable respon sebanyak 2 atau terdapat Y1 dan Y2 dan 3 variabel predictor maka
y11 y12 1 z11 y y 1 z 21 21 22 = M M M M yn1 yn 2 1 zn1
z13 β 01 β 02 ε11 ε12 z23 β11 β12 ε 21 ε 22 + M β 21 β 22 M M zn 3 β 31 β 32 ε n1 ε n 2
z12 z22 M zn 2
jika teradapat m variable respon Y dan r variable predictor z, maka terdapat sejumlah persamaan model regresi : Y1 = β 01 + β11 z1 + ... + β r1 zr + ε1 Y2 = β 02 + β12 z1 + ... + β r 2 zr + ε 2
M
M
M
Ym = β 0 m + β1m z1 + ... + β m1 zr + ε m
dengan ε = [ε1 , ε 2 , ..., ε m ] mempunyai E ( ε ) = 0, '
Var ( ε ) = ∑
model Regresi Linear Multivariatnya adalah
Y =
( n× m )
Z
β
( n×( r +1)) (( r +1)×m )
dengan E ( ε (i ) ) = 0,
+ ε
( n× m )
Cov ( ε (i ) , ε ( k ) ) = σ ik I
i, k = 1, 2, ... m
dengan menggunakan penaksiran kuadrat terkecil penaksir : βˆ = ( Z ' Z ) −1 Z 'Y dengan dan
βˆ = βˆ(1) βˆ(2) L βˆ( m )
Yˆ = Z βˆ = Z ( Z ' Z ) −1 Z 'Y dengan Yˆ = Yˆ(1) Yˆ(2) L Yˆ( m )
43
residualnya adalah ε = Y − Yˆ ' ˆ ' ˆ ˆ = εˆ εˆ = (Y − Z β ) (Y − Z β ) dengan matrik kovariannya ∑ n n
interval kepercayaan : 100(1 − α )% confidence ellipsoid untuk β ' z0 adalah
(
ˆ ' n∑ β z0 − βˆ ' z0 n − r − 1
)
'
−1
(β z '
0
−1 m(n − r − 1) − βˆ ' z0 ≤ z0' ( Z ' Z ) z0 Fm, n − r − m (α ) n − r − m
)
100(1 − α )% interval kepercayaan simultan untuk E (Y( i ) ) = z0' β (i ) adalah
m(n − r − 1) n ' ' −1 z0' βˆ(i ) ± σˆ ii Fm ,n − r − m (α ) z0 ( Z Z ) z0 n−r −m n − r −1
i = 1, 2,..., m
Test Hipotesis H 0 : βi = 0
( β1 , β 2 , ... , β r )
H1 : βi ≠ 0 statistik uji Λ =
E E+H
dengan E = Y 'Y − βˆ ' Z 'Y
H = βˆ ' Z 'Y − ny y '
kriteria Tolak H 0 jika Λ ≤ Λα ,m ,r ,n − r −1 dimana m menunjukan banyaknya variable Y, r menunjukan banyaknya variable Z. Dalam tabel Wilks Lambda m menyatakan p, r menyatakan VH dan n-r-1 menyatakan VE
(Rencerd;344) Konsep Regresi Linier Untuk Kasus Univariat µY (1× 1) Misalkan terdapat Y , Z1 , Z 2 , ..., Z r dengan µ = dan µ Z ( r × 1)
σ YY σ ZY ' (1×1) (1× r ) Σ= σ Σ ( r ×ZY1) ( r×ZZr )
dimana σ ZY = σ YZ1 , σ YZ 2 , ..., σ YZ r
'
44
prediktor
liniernya
koefisien β = ∑ −ZZ1 σ ZY ,
adalah
β0 + β 'Z
dengan
β 0 = µY − β ' µZ
memiliki mean square error yaitu ' ' E (Y − β 0 − β ' Z ) 2 = E (Y − µY − σ ZY ∑ −ZZ1 ( Z − µ Z )) 2 = σ YY − σ ZY ∑ −ZZ1 σ ZY
korelasi antara variabel terikat Y dengan prediktor linier terbaiknya disebut koeffisien korelasi multiple populasi yang dinotasikan sebagai ' σ ZY ∑ −ZZ1 σ ZY ρY ( Z ) = + σ YY
kuadrat dari koeffisien ini ρY2( Z ) disebut koeffisien determinasi populasi, nilai dari koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 ≤ ρY ( Z ) ≤ 1 . Untuk Kasus Multivariat Misalkan teradapat Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r berdistribusi N m + r ( µ , ∑)
∑YY ∑YZ µY ( m× m ) ( m × r ) ( m ×1) dengan µ = dan ∑ = µ ∑ ∑ ZZ ( r ×ZY ( r ×Z1) m) ( r×r ) regresi dari vektor Y dalam Z adalah
β 0 + β z = µY − ∑YZ ∑ −ZZ1 µ Z + ∑YZ ∑ −ZZ1 z = µY + ∑ YZ ∑ −ZZ1 ( z − µ Z ) kuadrat harapan dan matriks cross produk untuk errornya adalah E (Y − β 0 − β Z )(Y − β 0 − β Z ) ' = ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY
berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi regresinya adalah −1 βˆ0 + βˆ z = Y + SYZ SZZ (z − Z )
dan estimator likelihood dari ∑YY ⋅Z adalah n −1 −1 ˆ ∑ YY ⋅Z = ( sYY − SYZ S ZZ S ZY ) n
Koeffisien Korelasi Parsial Anggaplah pasangan kesalahan
Y1 − µY1 − ∑Y1Z ∑ −ZZ1 ( Z − µ Z ) Y2 − µY2 − ∑Y2 Z ∑ −ZZ1 ( Z − µ Z )
45
diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya ditentukan dari matrik kovarian kesalahan ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY koeffisien korelasi parsial sampel adalah sY1Y2 ⋅Z
rY1Y2 ⋅Z =
sY1Y1 ⋅Z sY2Y2 ⋅Z
Contoh : z1 = 0,1, 2,3, 4 Diberikan
y1 = 1, 4, 3,8,9
tentukan model persamaan regresi multivariatnya
y2 = −1, −1, 2, 3, 2 Penyelesaian: Akan ditentukan
Y j1 = β 01 + β11 z j1 + ε j1 Y j 2 = β 02 + β12 z j1 + ε j 2
Dari persoalan diatas maka dinyatakan dalam bentuk matriksnya adalah
1 1 Z = 1 1 1
0 1 4 1 2 Y1 = 3 3 8 9 4
−1 −1 Y2 = 2 3 2
1 1 1 1 1 1 1 Selanjutnya cari ( Z ' Z ) = 1 0 1 2 3 4 1 1
0 1 5 10 2 = 10 30 3 4
30 − 10 1 150 − 100 −10 5 1 30 − 10 = 50 −10 5 0, 6 − 0, 2 = −0, 2 0,1
( Z ' Z ) −1 =
diperoleh
−1 −1 Selanjutnya akan ditentukan βˆ(1) = ( Z ' Z ) Z 'Y(1) dan βˆ(2) = ( Z ' Z ) Z 'Y(2)
46
1 4 1 1 1 1 1 25 Z 'Y(1) = 3 = 0 1 2 3 4 70 8 9
βˆ(1) = ( Z ' Z ) Z 'Y(1)
Z 'Y(2)
−1 −1 1 1 1 1 1 5 = 2 = 0 1 2 3 4 20 3 2
βˆ(2) = ( Z ' Z ) Z 'Y(2)
−1
−1
0, 6 −0, 2 25 = −0, 2 0,1 70 1 = 2
0, 6 −0, 2 5 = −0, 2 0,1 20 −1 = 1
Sehingga diperoleh Yˆ1 = 1 + 2 z1
Yˆ2 = −1 + z1
1 −1 Jadi matriks βˆ = βˆ(1) βˆ(2) = 2 1
1 1 ˆ ˆ Y = Z β = 1 1 1
0 1 − 1 3 0 1 1 − 1 2 = 5 1 2 1 3 7 2 9 3 4
1 4 ˆ ε = Y − Y = 3 8 9
− 1 1 − 1 0 0 − 1 3 0 1 − 1 2 − 5 1 = −2 1 3 7 2 1 1 2 9 3 0 − 1
Penaksiran parameter Hipotesis
β1 = 0 β1 ≠ 0
Statistik uji Λ =
E E+H
dengan E = Y 'Y − βˆ ' Z 'Y
H = βˆ ' Z 'Y − ny y '
1 −1 4 −1 171 43 1 4 3 8 9 = Y 'Y = 3 2 43 19 −1 −1 2 3 2 8 3 9 2
47
1 = −1 165 = 45
1 −1 4 −1 2 1 1 1 1 1 3 2 1 0 1 2 3 4 8 3 9 2 2 25 5 1 70 20 45 15
E
Y 'Y − βˆ ' X 'Y
1
βˆ ' X 'Y = −1
Λ=
E+H
=
5 ny y ' = 5 [5 1] 1 25 5 = 5 5 1 125 25 = 25 5
Y 'Y − ny y '
171 43 165 45 43 19 − 45 15 = 171 43 125 25 43 19 − 25 5 6 =
−2
−2 4 24 − 4 = = 0, 0625 46 18 644 − 324 18 14
berdasarkan tabel Wilks lambda diperoleh Λα ,m ,r ,n − r −1 = Λ 0,05;2;1;3 = 0, 050 (Tabel A.9 Wilks Lambda;567) kriteria Tolak H 0 jika Λ ≤ Λα ,m ,r ,n − r −1 karena Λ > Λα ,m ,r ,n − r −1 yaitu 0,0625>0,050 kesimpulannya H 0 diterima, jadi koeffisien β1 tidak berarti pada kedua persamaan diatas.
48
Nama : Siti Habsah NIM : 055662
2.10
Analisis Jalur Metode analisis jalur dikembangkan oleh ahli genetika Sewel Wright pada
1918-1921 untuk menjelaskan hubungan sebab akibat dalam genetika populasi. Aplikasi analisis jalurnya pada 1925 untuk mengawetkan dan memonopoli hargaharga turut memprakarsai penggunaan persamaan struktural dalam ekonomi. Tujuan análisis jalur (atau análisis persamaan struktural) untuk menyediakan penjelasan yang logis dari korelasi yang diobservasi dengan mengkonstruksi model hubungan sebab dan akibat antara variabel-variabel. Koefisien korelasi signifikan yang tidak menunjukkan hubungan sebab akibat telah ditegaskan berkali-kali pada diskusi korelasi, seringkali dengan contoh menggelikan seperti asosiasi positif diantara penjualan permen karet dan dan angka kriminalitas. Tentu saja sebuah korelasi yang diobservasi tidak pernah bisa digunakan sebagai bukti hubungan sebab akibat. Argumen meyakinkan untuk sebab akibat dapat dikonstruksi dari inferensi statistik bersama dalil yang menyatakan hubungan yang dikembangkan dari ilmu pengetahuan dari subjek masalah dan pengertian yang berhubungan. Misalnya teori klasik tentang sifatsifat harga, kenaikan harga jagung menaikkan permintaan dan menurunkan suplai. Dalam hal ini variabel permintaan dan suplai diperlakukan sebagai penyebab perubahan harga jagung. Ketika satu variabel X1 mendahului variabel lain pada suatu waktu, dapat disimpulakan X1 menyebabkan X2. Secara diagram kita dapat menulis X1→X2. Dengan mengikutsertakan error є dalam hubungan, diagram jalurnya adalah X2
X1 Dalam hubungan model linier,
ε2 dimana sekarang X1 adalah
variabel penyebab yang tidak dipengaruhi oleh variabel lain. Gagasan hubungan sebab akibat antara X1 dan X2 mengharuskan semua faktor penyebab lain yang 49
mungkin, dikesampingkan. Secara statistik, kita menetapkan bahwa X1 dan tidak berkorelasi, dimana
menunjukkan akibat bersama dari semua variabel
tidak terukur yang dapat mempengaruhi X1 dan X2. Lebih spesifik lagi, regresi
ditulis dalam bentuk
baku dengan notasi yang jelas atau (7-71) Walaupun error dalam bentuk baku,
memiliki sebuah koefisien. Dalam model
baku, parameter koefisien jalur biasa disebut p. Model dalam (7-71) mengakibatkan
Persamaan kedua menyatakan bahwa kesimpulan sementara diagram jalur itu sendiri lengkapnya ditentukan oleh variabel-variabel yang di tunjukkan karena konstribusi pada variansi Z2 berjumlah satu. Secara matematis, sama logisnya untuk merumuskan bahwa X2 menyebabkan X1 atau merumuskan model ketiga yang memuat sebuah faktor yang berhubungan, contohnys F3 yang bertanggung jawab atas korelasi yang diobservasi antara X1 dan X2. Dalam kasus terakhir, korelasi antara X1 dan X2 adalah palsu dan bukan sebuah korelasi sebab akibat. Diagram jalurnya adalah
ε2 X2 F3 X1
ε1 dimana kita memperhitungkan error lagi dalam hubungan. Dalam hubungan variabel-variabel baku, model linier yang diakibatkan oleh diagram jalur di atas menjadi
50
(7-72) Dengan error baku ε 1 dan ε 2 tidak berkorelasi satu sama lain dengan F3. Akibatnya, korelasi dihubungkan dengan koefisien jalur oleh
dan
Model sebab akibat yang dirumuskan dalam (7-72) berbeda dari model dalam (771) maka tidak mengejutkan bahwa hubungan antara korelasi dan koefisien jalur berbeda. Analisis jalur berisi dua komponen utama: (1) diagram jalur, dan (2) dekomposisi korelasi yang diobservasi ke sejumlah hubungan koefisien jalur yang mewakili jalur-jalur sederhana dan gabungan.
2.10.1 Pengkonstruksian Diagram Jalur Sebuah perbedaan dibuat diantara variabel-variabel yang tidak dipengaruhi oleh variabel-variabel lain dalam sistem (variabel eksogen) dan variabel-variabel yang dipengaruhi oleh variabel-variabel lain (variabel endogen). Dengan masingmasing variabel-variabel terikat terakhir dihubungkan sebuah residual. Aturan tertentu menentukan penggambaran sebuah diagram jalur. Tanda panah menunjukkan sebuah jalur. Diagram jalur dikonstruksi sebagai berikut: 1. Tanda panah lurus menunjukkan hubungan sebab antara variabel-variabel exogenous atau perantara dengan satu variabel terikat atau lebih 2. Tanda panah lurus juga menghubungkan kesalahan (variabel residue) dengan semua variabel endogenous masing-masing 3. Tanda panah kurva dengan ujung panah ganda digambar diantara masingmasing pasangan variabel bebas (endogen) yang memiliki korelasi tidak nol.
51
Tanda panah kurva untuk korelasi mengindikasikan koefisien korelasi alami simetris. Hubungan-hubungan lain yang langsung, seperti diindikasikan oleh tanda panah dengan ujung tunggal. Ketika mengkonstruksi diagram jalur, biasanya menggunakan variabelvariabel yang telah baku yang memiliki rata-rata 0 dan variansi 1. Dalam konteks regresi berganda, modelnya adalah
atau (7-73) dimana koefisien jalur, pγk = β k σ kk prediktor baku dan pγε = σ εε
σ γγ
adalah koefisien regresi untuk
σ γγ .
Untuk menilustrasikan pengkostruksian diagram jalur, pertama kita gambar diagram yang menjelaskan regresi berganda dengan variabel prediktor r = 3. Ketika masing-masing Zk diperlakukan sebagai variabel penyebab, korelasi antara pasangan variabel-variabel eksogen ditunjukkan oleh tanda panah berbentuk kurva dengan ujung ganda. Tanda panah lurus berangkat dari masingmasing variabel penyebab ke Y. Error ε dan masing-masing Zk (diasumsikan) tidak berkorelasi sehingga tidak ada tanda panah yang menghubungkan variabelvariabel ini. Diagram jalur untuk variabel prediktor r = 3 diberikan dalam gambar 7.6 Z1
pY1
Z2
pY2
Z3
pY3
Y pY ε
ε Gambar 7.6
52
Kesederhanaan lain, masih menarik, kondisi model analisis faktor dengan satu faktor biasa yang tidak diobservasi. Menurut model ini, faktor tunggal tidak diobservasi, F, bertanggung jawab atas korelasi antara variabel respon, model dapat ditulis dalam hubungan variabel-variabel baku F, ε 1 , ε 2 , ε 3 , dan Z1, Z2, Z3 sebagai
(7-74) dimana F, ε 1 , ε 2 , dan ε 3 semuanya tidak berkorelasi. Diagram jalur ditunjukkan dalam gambar 7.7 .
∈1
Z1 P1F
∈2 P2 ∈2 F
P2F
P3F
Z2 ∈3 P3 Z3 Gambar 7.7
Pengkonstruksian diagram jalur dapat membantu peneliti berpikir benar tentang sebuah masalah dan menggambarkan komponen-komponen penting korelasi yang diobservasi.
53
2.10.2 Dekomposisi Korelasi yang Diobservasi Estimasi koefisien jalur akan memungkinkan kita menaksir pengaruh langsung dan tidak langsung dimana satu variabel memiliki pengaruh pada variable lain. Dari model linier yang menyatakan hubungan sebab, kita dapat menemukan pernyataan yang menghubungkan koefisien jalur dan korelasi. Contoh 7.16 (Analisis Jalur dari Model Regresi) Dari bentuk baku model regresi berganda ([lihat (7-73)], korelasi antara Y dan masing-masing Zk dapat di dekomposisi sebagai berikut
r ργk = Corr(Y , Z k ) = Cov r∑ pγi Zi , Z k = ∑ pγi ρik , i=1 i=1
k = 1, 2, ..., r (7-75)
Juga, ketika diagram jalur memuat dirinya sendiri sehingga Y ditentukan oleh variabel-variabel dalam diagram, kita menemukan persamaan determinasi lengkap.
r 1 = Var(Y ) = Var r ∑ pYi Z i + pYε ε = ∑ i =1 i =1 =
r
r
p Yi2 + 2 ∑
∑ i =1
∑p
i =1 k = i + 1
Variansi total
r
Yi
Y Keadaan
∑p k =1
Yi
ρ ik pYk + pY2ε
ρ ik p Yk + p Y2ε
Proporsi variansi =
r
(7-76)
Proporsi variansi yg
Proporsi variansi
yg langsung diberikan
+ disebabkan interkorelasi
oleh koefisien jalur
antara variabel terikat
ρ ZY = [ρ Y 1 , ρ Y 2 ,..., ρ Yr ]T ,
matriks
r
x
r
+ disebabkan error
ρ ZZ = {ρ ik }
dan
pY = [ pY 1 , pY 2 ,..., pYr ] . Persamaan (7-75) dapat ditulis dalam notasi matriks T
sebagai ρ ZY = ρ ZZ pY , sehingga −1 pY = ρ ZZ ρ ZY
Selain itu, error pYε ε dalam (7-73) memiliki variansi pY2ε Var (ε ) = pY2ε , yang berasal dari(7-76) menjadi −1 pY2ε = 1 − ρ ' ZY ρ ZZ ρ ZY = 1 − ρ ' ZY pY
Kuadrat koefisien jalur pY2ε dihubungkan pada koefisien korelasi berganda karena
54
pY2ε =
(1 − ρ '
ZY
−1 ρ ZZ ρ ZY )
1
= 1 − ρ Y2( Z )
Untuk data komputer contoh 7.6, kita mengajukan diagram jalur berikut berdasarkan dugaan hubungan sebab akibat antara Z1, Z2, dan Y: Z1
pY1 Y
Z2
pY ε
pY2
ε Diagram ini membawa pada model linier (dalam bentuk variabel-variabel baku) Y = pYi Z 1 + pY 2 Z 2 + pYε ε Akibatnya, persamaan (7-75) dan (7-76) menjadi
ρ Y 1 = pY 1 (1) + pY 2 ρ12 ρ Y 2 = pY 1 ρ12 + pY 2 (1) dan
1 = Var (Y ) = pY21 + pY2 2 + pY2ε + 2 pY 1 ρ12 pY 2 sustitusi korelasi korelasi-korelasi contoh (lihat contoh 7.12 untuk S) rY 1 = rYZ1 = .997 ,
rY 2 = rYZ 2 = .450 , dan
r12 = rZ1Z 2 = .391
untuk banyaknya
populasi yang berkorespondensi dia atas, kita dapat mengestimasi koefisien jalur
pY 1 dan pY 2 dengan menyelesaikan .997 = pY 1 + .391 pY 2 .450 = .391 pY 1 + pY 2 Secara ekivalen, kita dapat menggunakan −1
pˆ 1 .391 .997 .969 −1 pˆ Y = Y 1 = ρˆ ZZ ρˆ ZY = = pˆ Y 2 .391 1 .450 .071
Akhirnya pˆ Yε = 1 − ρˆ ' ZY pˆ Y = 1 − [.997
.969 .450] = .002 .071
Dengan demikian korelasi yang diobservasiantara respon Y = CPU time dan variabel prediktor Z1 = permintaan dan Z2 = penambahan-penghapusan item
55
dapat didekmposisi ke dalam bagian-bagian yang mewakili pengaruh langsung dan tidak langsung. Contohnya, Z1 secara langsung mempengaruhi Y (diwakili oleh koefisien jalur pˆ Y 1 dan juga mempengaruhi Y secara tidak langsung melalui Z2 (ditunjukkan oleh hubungan produk ρˆ12 pˆ Y 2 . Dengan mensubstitusi bilanganbilangan pada diagram jalur, kita punya Z1
.969
.391
Y Z2
.071
.044
ε Tepat menggunakan sebuah tabel untuk menunjukkan pengaruh dekomposisi variabel-variabel prediktor pada respon. Indirect effect
Direct effect
Total effect
Z1 (orders)
.028
.969
.997
Z2 (add-del items)
.379
.071
.450
Perhatikan bahwa koefisien jalur mengukur pengaruh langsung Zk pada Y adalah koefisien regresi untuk variabel-variabel baku. Contoh 7.17 (Analisis Jalur dari Model Analisis Faktor dengan Satu Faktor Biasa) Model faktor tunggal dalam (7-74) untuk 3 variabel respon menghasilkan hubungan untuk dekomposisi korelasi yang diobservasi.
ρ ik = Corr (Z i , Z k ) = Cov ( p iF F + p iε ε i , p kF F + p kε ε k ) = p iF p kF , i ≠ k= 1, 2, 3 i
k
dan persamaan determinasi lengkap
(
)
2 1 = Var (Z k ) = Var p kF + p kε k ε k = p kF + p k2ε k
56
Enam persamaan ini dengan mudah diselesaikan untukkoefisien jalur dalam bentuk korelasi yang diestimasi. Contoh 8.4 memberikan matriks kovarian contoh S untuk dimensi tiga (of turtle shells), yang mana kita menentukan r12 = .951, r13 = .942, dan r14 = .911. dengan memngasumsikan faktor tunggal (prtumbuhan) menebabkan shell dimensions, kita bisa menulis
.951 = pˆ 1F pˆ 2 F .942 = pˆ 1F pˆ 3 F
(.951)(.942) =
jadi
.911
pˆ 1F pˆ 2 F pˆ 1F pˆ 3 F = pˆ 12F pˆ 2 F pˆ 3 F
.911 = pˆ 2 F pˆ 3 F dan
pˆ 1F = .992 . Juga pˆ 12ε1 = 1 − pˆ 12F .017 , dan pˆ 1ε 1 = .129 . Dengan cara yang
pˆ 2 F = (.951)(.911) /(.942) = .959 ,
sama,
pˆ 2ε 2 = 1 − (.959) 2 = .283 ,
pˆ 3 F = .950 , dan pˆ 3ε 2 = .312 . Semua koefisien jalur untuk faktur biasa adalah besar dibandingkan koefisien jalur error. Ini menyatakan sebuah mekanisme sebab akibat kuat jika model sebab akibat ini tepat. Tambahan, koefisien jalur pˆ kF hampir sama, walaupun Z1 = ln(length) dipengaruhi lebih sedikit oleh F. Diagram jalur dengan koefisien jalur yang diestimasi ditampilkan berikut.
F
ε
.129
.992
ε
.283
Z1
.959
ε
.312
Z2
.950
Z3
Untuk menyimpulkan, analisis jalur mengambil teori-teori substansif untuk permintaan-permintaan sebab dan menggunakan diagram jalur untuk menemukan dekomposisi korelasi yang diobservasi terhadap pengaruh langsung 57
dan tidak langsung. Koefisien-koefisien jalur membantu menentukan pentingnya pengaruh-pengaruh langsung dan tidak langsung. Kesimpulan analisis jalur akan bergantung hubungan sebab akibat yang diasumsikan
58
BAB III KESIMPULAN
MODEL REGRESI LINIER MULTIVARIAT Kasus Univariat Terdapat satu variable respon Y untuk sejumlah data n maka
Y1 1 z11 Y 1 z 21 2 = M M M Yn 1 zn1
β + ε
model persamaannya Y = Z ( n×1)
L z1r β 0 ε1 L z1r β1 ε 2 + O M M M L z1r β r ε n
( n×( r +1) (( r +1)×1)
( n×1)
dengan metode kuadrat terkecil penaksir : βˆ = ( Z ' Z ) −1 Z ' y n
koefisien determinasi : R 2 =
∑ ( yˆ
j
− y )2
∑(y
j
− y )2
j =1 n j =1
α ˆ interval kepercayaan : βˆi ± tn − r −1 Var ( βˆi ) 2
Test Hipotesis H 0 : βi = 0
( β1 , β 2 , ... , β r )
H1 : βi ≠ 0 Statistik uji
F=
(
SSR r SSE (n − r − 1)
Dengan SSR = βˆ ' Z ' y − ny 2
)
(
SSE = y ' y − βˆ ' Z ' y
)
Kriteria tolak H 0 jika F > Fα ,r ,n − r −1
(Rencerd;330) 59
Kasus Multivariat Misalkan untuk variable respon sebanyak 2 atau terdapat Y1 dan Y2 dan 3 variabel predictor maka
y11 y12 1 z11 y y 1 z 21 21 22 = M M M M yn1 yn 2 1 zn1
z13 β 01 β 02 ε11 ε12 z23 β11 β12 ε 21 ε 22 + M β 21 β 22 M M zn 3 β 31 β 32 ε n1 ε n 2
z12 z22 M zn 2
jika teradapat m variable respon Y dan r variable predictor z, maka terdapat sejumlah persamaan model regresi : Y1 = β 01 + β11 z1 + ... + β r1 zr + ε1 Y2 = β 02 + β12 z1 + ... + β r 2 zr + ε 2
M
M
M
Ym = β 0 m + β1m z1 + ... + β m1 zr + ε m
dengan ε = [ε1 , ε 2 , ..., ε m ] mempunyai E ( ε ) = 0, '
Var ( ε ) = ∑
model Regresi Linear Multivariatnya adalah
Y =
( n× m )
β
Z
( n×( r +1)) (( r +1)×m )
+ ε
dengan E ( ε (i ) ) = 0,
( n× m )
Cov ( ε (i ) , ε ( k ) ) = σ ik I
i, k = 1, 2, ... m
dengan menggunakan penaksiran kuadrat terkecil penaksir : βˆ = ( Z ' Z ) −1 Z 'Y dengan
βˆ = βˆ(1) βˆ(2) L βˆ( m )
Yˆ = Z βˆ = Z ( Z ' Z ) −1 Z 'Y dengan Yˆ = Yˆ(1) Yˆ(2) L Yˆ( m )
dan
residualnya adalah ε = Y − Yˆ
εˆ 'εˆ (Y − Z βˆ )' (Y − Z βˆ ) ˆ dengan matrik kovariannya ∑ = = n n interval kepercayaan : 100(1 − α )% confidence ellipsoid untuk β ' z0 adalah
(β z '
− βˆ z0 '
0
)
'
ˆ n∑ n − r −1
−1
(β z '
0
−1 m(n − r − 1) − βˆ ' z0 ≤ z0' ( Z ' Z ) z0 Fm, n − r − m (α ) n − r − m
)
60
100(1 − α )% interval kepercayaan simultan untuk E (Y( i ) ) = z0' β (i ) adalah
m(n − r − 1) n ' ' −1 z0' βˆ(i ) ± σˆ ii Fm ,n − r − m (α ) z0 ( Z Z ) z0 n−r −m n − r −1
i = 1, 2,..., m
Test Hipotesis H 0 : βi = 0
( β1 , β 2 , ... , β r )
H1 : βi ≠ 0 statistik uji Λ =
E E+H
dengan E = Y 'Y − βˆ ' Z 'Y
H = βˆ ' Z 'Y − ny y '
kriteria Tolak H 0 jika Λ ≤ Λα ,m ,r ,n − r −1 dimana m menunjukan banyaknya variable Y, r menunjukan banyaknya variable Z. Dalam tabel Wilks Lambda m menyatakan p, r menyatakan VH dan n-r-1 menyatakan VE
(Rencerd;344) Konsep Regresi Linier Untuk Kasus Univariat µY (1× 1) Misalkan terdapat Y , Z1 , Z 2 , ..., Z r dengan µ = dan µ Z ( r × 1)
σ YY σ ZY ' (1×1) (1× r ) Σ= σ Σ ( r ×ZY1) ( r×ZZr ) prediktor
dimana σ ZY = σ YZ1 , σ YZ 2 , ..., σ YZ r
liniernya
koefisien β = ∑ −ZZ1 σ ZY ,
adalah
'
β0 + β 'Z
dengan
β 0 = µY − β ' µZ
memiliki mean square error yaitu ' ' E (Y − β 0 − β ' Z ) 2 = E (Y − µY − σ ZY ∑ −ZZ1 ( Z − µ Z )) 2 = σ YY − σ ZY ∑ −ZZ1 σ ZY
korelasi antara variabel terikat Y dengan prediktor linier terbaiknya disebut koeffisien korelasi multiple populasi yang dinotasikan sebagai
ρY ( Z ) = +
' σ ZY ∑ −ZZ1 σ ZY σ YY
61
kuadrat dari koeffisien ini ρY2( Z ) disebut koeffisien determinasi populasi, nilai dari koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 ≤ ρY ( Z ) ≤ 1 . Untuk Kasus Multivariat Misalkan teradapat Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r berdistribusi N m + r ( µ , ∑)
∑YY ∑YZ µY ( m× m ) ( m × r ) ( m ×1) dengan µ = dan ∑ = µ ∑ ZY ∑ ZZ Z ( r ×1) ( r × m ) ( r × r ) regresi dari vektor Y dalam Z adalah
β 0 + β z = µY − ∑YZ ∑ −ZZ1 µ Z + ∑YZ ∑ −ZZ1 z = µY + ∑ YZ ∑ −ZZ1 ( z − µ Z ) kuadrat harapan dan matriks cross produk untuk errornya adalah E (Y − β 0 − β Z )(Y − β 0 − β Z ) ' = ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY
berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi regresinya adalah −1 βˆ0 + βˆ z = Y + SYZ SZZ (z − Z )
dan estimator likelihood dari ∑YY ⋅Z adalah n −1 −1 ˆ ∑ YY ⋅Z = ( sYY − SYZ S ZZ S ZY ) n
Koeffisien Korelasi Parsial Anggaplah pasangan kesalahan
Y1 − µY1 − ∑Y1Z ∑ −ZZ1 ( Z − µ Z ) Y2 − µY2 − ∑Y2 Z ∑ −ZZ1 ( Z − µ Z )
diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya ditentukan dari matrik kovarian kesalahan ∑YY ⋅Z = ∑YY − ∑YZ ∑ −ZZ1 ∑ ZY koeffisien korelasi parsial sampel adalah rY1Y2 ⋅Z =
sY1Y2 ⋅Z sY1Y1 ⋅Z sY2Y2 ⋅Z
62
Analisis jalur Tujuan análisis jalur (atau análisis persamaan struktural) untuk menyediakan penjelasan yang logis dari korelasi yang diobservasi dengan mengkonstruksi model hubungan sebab dan akibat antara variabel-variabel. Analisis jalur berisi dua komponen utama: (1) diagram jalur, dan (2) dekomposisi korelasi yang diobservasi ke sejumlah hubungan koefisien jalur yang mewakili jalur-jalur sederhana dan gabungan. Korelasi antara Y dan masing-masing Zk dapat di dekomposisi sebagai berikut
r ργk = Corr(Y , Z k ) = Cov r∑ pγi Zi , Z k = ∑ pγi ρik , i=1 i=1
k = 1, 2, ..., r
dan persamaan determinasi lengkap
r 1 = Var(Y ) = Var r ∑ pYi Z i + pYε ε = ∑ i =1 i =1 =
r
∑ i =1
r
p
2 Yi
+ 2∑
r
∑p
i =1 k = i + 1
Yi
r
∑p k =1
Yi
ρ ik pYk + pY2ε
ρ ik p Yk + p Y2ε
Dari kedua persamaan tersebut kita dapat menentukan besar koefisian jalur.
63