BAB 2
TINJAUAN PUSTAKA
2.1.
Matriks
2.1.1. Definisi Matriks
Matriks adalah suatu kumpulan angka-angka yang juga sering disebut elemen-elemen yang disusun secara teratur menurut baris dan kolom sehingga berbentuk persegi panjang, dimana panjang dan lebarnya ditunjukkan oleh banyaknya kolom dan baris serta dibatasi tanda ”[ ]” atau “( )” (Anton, 1987). Matriks A adalah susunan segiempat dari skalar-skalar yang biasanya dinyatakan dalam bentuk sebagai berikut:
a11 a 21 a31 A= . . . a m1
a12 a 22 a32
a13 a 23 a33
. . .
. . .
. . .
am2
a m3
.
.
.
a1n a 2 n a3n a mn
Baris-baris dari matriks A semacam ini adalah m deretan horizontal yang terdiri dari skalar-skalar:
(a11 , a12 ,..., a1n ), (a 21 , a 22 ,..., a 2 n ),..., (a m1 , a m 2 ,..., a mn ) Dan kolom-kolom dari A adalah n deretan vertikal yang terdiri dari skalar-skalar: a1n a11 a12 a a 21 , 22 ,..., a 2 n ... ... ... a m1 a m 2 a mn
Universitas Sumatera Utara
Elemen aij yang disebut entri ij atau elemen ij, muncul pada baris i dan kolom j. Matriks tersebut seringkali dituliskan hanya sebagai A=[aij] (Schaum’s, 2006).
2.1.2. Jenis jenis matriks
1. Matriks Bujursangkar Matriks bujursangkar adalah matriks yang memiliki baris dan kolom yang sama banyak. Matriks bujursangkar n x n dikatakan sebagai matriks dengan orde n. Contoh: 2 4 A= 3 1
2. Matriks Nol Matriks nol adalah suatu matriks yang semua elemennya mempunyai nilai nol. 0 0 A= 0 0
3. Matriks Diagonal Matriks diagonal adalah suatu matriks bujursangkar dimana semua elemen diluar diagonal utama mempunyai nilai nol dan paling tidak ada satu elemen diagonal utama ≠ 0 disimbol D. Contoh :
4 0 0 D = 0 2 0 0 0 5 4. Matriks Segitiga Atas Matriks segitiga atas adalah matriks dimana semua entri dibawah diagonal utama bernilai nol.
Universitas Sumatera Utara
Contoh:
4 5 3 A = 0 2 7 0 0 8
5. Matriks Segitiga Bawah Matriks segitiga bawah adalah matriks dimana semua entri diatas diagonal utama bernilai nol. Contoh:
4 0 0 A = 7 2 0 6 3 8
6. Matriks Identitas Matriks identitas atau matriks satuan bujursangkar-n ditulis In atau hanya I adalah matriks bujursangakar-n dengan bilangan 1 pada diagonalnya dan 0 pada entri-entri lainnya. Contoh:
1 0 0 I = 0 1 0 0 0 1
7. Matriks Skalar Skalar ialah suatu bilangan konstan. Jika k suatu bilangan konstan maka hasil kali k I dinamakan scalar matriks. Contoh: k I3, k=3
1 0 0 3 0 0 kI = 30 1 0 = 0 3 0 0 0 1 0 0 3
Universitas Sumatera Utara
8. Matriks Simetri Apabila matriks A yang berisikan aij Dimana i=j=1,2,…,n. dan berlaku aij= aji maka matriks A disebut matriks simetri Contoh:
2 −3 5 A = − 3 6 7 5 7 − 8 Keterangan: melalui pengamatan, elemen-elemen simetri di dalam A sama, atau AT=A. Jadi A adalah matriks simetri.
9. Transpos Matriks Transpos dari suatu matriks A=(aij) ialah suatu matriks baru dengan menukarkan baris menjadi kolom dan kolom menjadi baris. Apabila suatu matriks ditranspos kepada dirinya sendiri maka disebut matriks simetri. Contoh:
2 4 5 2 3 5 T A = 4 7 7 → A = 3 7 3 5 7 8 5 3 8
10. Matriks Ortogonal Matriks real A disebut matriks ortogonal jika AT=A-1, yaitu, jika AAT= ATA=I. Jadi A haruslah matriks bujursangkar dan dapat dibalik. Contoh: 1 9 4 Misalkan A = 9 8 9 T
8 9 4 − 9 1 9
4 − 9 7 − . Mengalikan A dengan AT menghasilkan I, yaitu AA9 4 9
=I. ini juga berarti bahwa ATA=I . Maka AT= A-1; dengan demikian, A adalah
matriks ortogonal.
Universitas Sumatera Utara
11. Matriks Trace Misalkan A=[aij] adalah matriks bujursangkar-n, diagonal dari A terdiri dari elemenelemen subskrip bilangan kembar yaitu: a11, a22, a33, …, ann Trace dari A ditulis tr(A) adalah jumlah dari elemen-elemen diagonal yaitu: tr(A) = a11 + a22 + a33 + … + ann contoh :
2 −3 5 A = − 3 8 7 5 7 − 8 Maka tr(A) = a11 + a22 + a33 = 2 + 8 + (-8) = 2
2.1.3. Penjumlahan matriks dan perkalian skalar matriks
Misalkan A=[aij] dan B=[bij] adalah dua matriks dengan ukuran yang sama, misalnya matriks mxn. Jumlah A dan B ditulis A+B adalah matriks yang diperoleh dengan menjumlahkan elemen-elemen yang bersesuaian dari A dan B. Yaitu
a11 + b11 a + b 21 A + B = 21 ... a m1 + bm1
a12 + b12 a 22 + b22 ... a m 2 + bm 2
... a1n + b1n ... a 2 n + b2 n ... ... ... a mn + bmn
Hasilkali dari matriks A dengan suatu skalar k ditulis k.A atau hanya kA adalah matriks yang diperoleh dengan cara mengalikan setiap elemen A dengan k. Yaitu
ka11 ka kA = 21 ... ka m1
ka12 ka 22 ... ka m 2
... ka1n ... ka 2 n ... ... ... ka mn
Universitas Sumatera Utara
2.1.4. Determinan
Setiap matriks bujursangkar-n A=(aij) memiliki skalar khusus yang disebut determinan A, dilambangkan dengan det(A) atau |A| atau a11
a12
...
a1n
a 21 ...
a 22 ...
... ...
a2n ...
a n1
an2
...
a nn
Sifat-sifat determinan: 1. Jika AT merupakan transpos dari matriks A maka det(A)=det(AT ). 2. Jika semua elemen dari suatu baris atau kolom dari matriks kuadrat A mempunyai nilai nol maka det(A)=0. 3. Jika 2 baris atau 2 kolom dipertukarkan maka nilai determinan matriks tersebut berubah tanda. 4. Jika 2 baris atau 2 kolom mempunyai elemen yang sama maka nilai determinan=0.
2.1.5. Invers Matriks
Jika pada matriks bujur sangkar A terdapat matriks B sehingga AB = I, dengan I adalah matriks identitas, maka B dinamakan invers matriks A dan ditulis sebagai Jadi jika A adalah matriks bujur sangkar tak singular berorde-n, maka terdapat satu invers
sehingga
Invers matriks memiliki sifat: 1.
; yaitu invers dari perkalian dua matriks adalah perkalian inversnya dalam urutan yang terbalik.
2.
; yaitu transpose dari invers A adalah invers dari transpose A. Invers matriks A dapat ditentukan dengan rumus sebagai berikut :
Universitas Sumatera Utara
2.2. Nilai Eigen dan Vektor Eigen
Kata “vektor eigen” adalah ramuan bahasa Jerman dan Inggris. Dalam bahasa Jerman “eigen” dapat diterjemahkan sebagai “sebenarnya” atau “karakteristik”. Oleh Karena itu, nilai eigen dapat juga dinamakan nilai sebenarnya atau nilai karakteristik. Dalam literatur lama kadang-kadang dinamakan akar-akar latent. Jika A adalah matriks n x n, maka vektor taknol x di dalam Rn dinamakan vektor eigen (eigenvector) dari A jika Ax adalah kelipatan skalar dari x; yakni, Ax =
λ x untuk suatu skalar λ . Skalar λ dinamakan nilai eigen (eigenvalue) dari A dan x dikatakan vektor eigen yang bersesuaian dengan λ (Anton, 1987) .
Nilai eigen dan vektor eigen mempunyai tafsiran geometrik yang bermanfaat dalam R2 dan R3. Jika λ adalah nilai eigen dari A yang bersesuaian dengan x. maka Ax = λ x, sehingga perkalian oleh A akan memperbesar x, atau membalik arah x, yang bergantung pada nilai λ . Untuk mencari nilai eigen matriks A yang berukuran n x n maka dituliskan kembali Ax = λ x sebagai Ax = λ I x atau secara ekivalen ( λ I – A)x = 0 Supaya λ menjadi nilai eigen, maka harus ada pemecahan tak nol dari persamaan ini. Akan tetapi persamaan ini akan mempunyai pemecahan tak nol jika dan hanya jika det( λ I – A) = 0 ini dinamakan persamaan karakteristik A, skalar yang memenuhi persamaan ini adalah nilai eigen dari A. Bila diperluas, maka determinan det( λ I – A) adalah polinom λ yang dinamakan polinom karakteristik dari A (Anton, 1987). Jika A adalah matriks n x n, maka polinom karakteristik A harus terpenuhi sebanyak n dan koefisien λ n adalah 1. Jadi, polinom karakteristik dari matriks n x n mempunyai bentuk det( λ I – A) = λn + c1λn −1 + ... + c n .
Universitas Sumatera Utara
Jika A matriks n x n, maka pernyataan-pernyataan berikut ekivalen satu sama lain: 1. λ adalah nilai eigen dari A. 2. Sistem persamaan ( λ I – A)x = 0 mempunyai pemecahan yang taktrivial. 3. Ada vektor taknol x di dalam Rn sehingga Ax = λ x. 4. λ adalah pemecahan riil dari persamaan karakteristik det( λ I – A) = 0. Vektor eigen A yang bersesuaian dengan nilai eigen λ adalah vektor taknol x yang memenuhi Ax = λ x. Secara ekivalen, vektor eigen yang bersesuaian dengan λ adalah vektor taknol dalam ruang pemecahan dari ( λ I – A)x = 0. Ruang pemecahan ini dinamakan sebagai ruang eigen (eigenspace) dari A yang bersesuaian dengan λ .
2.3. Matriks Korelasi
Misalkan persamaan Y = β 0 + β1 X 1 + ... + β p X p + ε
Keterangan:
(1)
Y = peubah tak bebas Xj = peubah bebas
β i = parameter ε i = galat error dinyatakan sebagai Y = ( β 0 + β 1 X 1 + ... + β p X p ) + β 1 ( X 1 − X 1 ) + β 2 ( X 2 − X 2 ) + ... +
β p (X p − X p ) + ε
(2)
dengan X j = nilai tengah yang dihitung dari data j
= 1, 2, ..., p ∧
Andaikan β 0 = β 0 + β1 X 1 + ... + β p X p Maka persamaan (2) dapat ditulis ∗
Y = β 0 + β1 ( X 1 − X 1 ) + β 2 ( X 2 − X 2 ) + ... + β p ( X p − X p ) + ε
Universitas Sumatera Utara
atau ∗
Y − β 0 = β1 ( X 1 − X 1 ) + β 2 ( X 2 − X 2 ) + ... + β p ( X p − X p ) + ε
(3)
Jika β 0∗ = Y , maka
Y − Y = β1 ( X 1 − X 1 ) + β 2 ( X 2 − X 2 ) + ... + β p ( X p − X p ) + ε
(4)
Matriks XtX untuk model ini adalah
S11 S 21 S 31 t X X = . . . S p1
S12
S13
.
.
.
S 22
S 23
.
.
.
S 32
S 33
.
.
.
S p2
S p3
.
.
.
S1 p S 2 p S3 p S PP n
dengan z = ( xij − x j ) dimana S jj = ∑ ( xij − x j ) 2 , ij 1 i =1
S jj2
dan ∗
yi =
yi − y 1
n
dimana S yy = ∑ ( y i − y ) 2 , i =1
S yy2 dengan i = 1, 2, …, n j = 1, 2, …, p
Ini akan mengubah persamaan (4) menjadi 1
1
1
1
2 y1∗ S yy2 = β1 S112 Z 1 + β 2 S 222 Z 2 + ... + β p S PP Zp +ε
S dengan bj = β j jj S yy
(5)
1
2 , j = 1,2,..., p. ∧
Dengan metode kuadrat terkecil, nilai dugaan parameter ( b ) pada persamaan di atas dapat ditentukan yaitu ∧
b = ( Z t Z ) −1 Z t Y ∗
Universitas Sumatera Utara
matriks ZtZ merupakan matriks korelasi yaitu: 1 r 21 r31 ZTZ = . . . r p1
dengan
rij =
r12 1 r32
rp 2
r13 r23 1
. . .
. . .
. . .
rp 3
.
.
.
x ni − xi x nj − x j S ii S jj i =1 n
∑
r1 p r2 p r3 p 1
∧
hubungan antara koefisien regresi data awal ( β j ) dengan koefisien regresi yang ∧
dibakukan ( b j ) adalah ∧
∧
1 2
n ∧ ∧ S yy dan β 0 = y − ∑ β j x j j =1 S jj
β j = b j
dengan j = 1, 2, ..., p y = rata-rata dari y x = rata-rata dari x.
2.4. Multikolinearitas
Multikolinearitas adalah hubungan linear antara beberapa atau semua variabel independen didalam model regresi. Salah satu asumsi model regresi linear klasik adalah bahwa tidak terdapat multikolinearitas diantara variabel-variabel independen yang masuk dalam model. Salah satu indikator yang dapat digunakan dalam mendeteks multikolinearitas adalah nilai VIF yang lebih dari 10 (Gujarati, 2004).
Pada mulanya multikolinearitas berarti adanya hubungan linear yang “sempurna” atau pasti, di antara beberapa atau semua variabel yang menjelaskan dari model regresi. Untuk regresi k-variabel, meliputi variabel yang menjelaskan X1,
Universitas Sumatera Utara
X2,…,Xk (dimana X1 = 1 untuk semua pengamatan untuk memungkinkan unsur intersep), suatu hubungan linear yang pasti dikatakan ada apabila kondisi berikut ini dipenuhi:
λ1 X 1 + λ2 X 2 + ... + λ k X k = 0
(6)
dimana X1, X2, …, Xk = variabel ke 1, 2, …, k
λ1 , λ2 ,..., λ k
= konstanta sedemikian rupa sehingga tidak semuanya secara simultan sama dengan nol.
Tetapi, saat ini istilah multikolinearitas digunakan dalam pengertian yang lebih luas untuk memasukkan kasus multikolinearitas sempurna, seperti ditunjukkan oleh (6) maupun kasus dimana variabel X berkorelasi tetapi tidak secara sempurna, seperti kondisi berikut :
λ1 X 1 + λ2 X 2 + ... + λk X k + vi = 0
(7)
dimana vi = unsur kesalahan stokhastik (Gujarati, 1978). Untuk melihat perbedaan antara multikolinearitas yang sempurna dan kurang sempurna, asumsikan, sebagai contoh, bahwa λ 2 ≠ 0 . Maka (7) dapat ditulis sebagai
X2 = −
λ λ λ1 X 1 − 3 X 3 − ... − k X k λ2 λ2 λ2
(8)
yang menunjukkan bagaimana X2 berhubungan linear secara sempurna dengan variabel lain atau bagaimana X2 dapat diperoleh dari kombinasi linear variabel X lain. Dalam keadaan ini, koefisien korelasi antara variabel X2 dan kombinasi linear di sisi kanan dari (8) akan menjadi sama dengan satu (Gujarati, 1978). Serupa dengan itu, jika λ 2 ≠ 0 , persamaan (7) dapat ditulis sebagai
X2 = −
λ λ λ1 1 X 1 − 3 X 3 − ... − k X k − vi λ2 λ2 λ2 λ2
(9)
yang menunjukkan bahwa X2 tidak merupakan kombinasi linear yang pasti dari X lainnya karena juga ditentukan oleh unsur kesalahan stokhastik vi (Gujarati, 1978).
Universitas Sumatera Utara
2.5. Konsekuensi Multikolinearitas
Jika asumsi model regresi linear klasik dipenuhi, penaksir kuadrat-terkecil biasa (OLS) dari koefisien regresi adalah linear, tak bias, dan mempunyai varians minimum, ringkasnya penaksir tadi adalah penaksir tak bias kolinear terbaik (Best Linear Unbiased Estimator/BLUE). Jika sekarang dapat ditunjukkan bahwa multikolinearitas sangat tinggi, penaksir OLS masih tetap memiliki sifat BLUE.
Ketidakbiasan adalah sifat multi sampel atau penyampelan berulang. Jika seseorang mendapatkan sampel berulang dan menghitung penaksir OLS untuk tiap sampel ini, maka rata-rata nilai sampel akan menuju ke nilai populasi yang sebenarnya dari penaksir, dengan meningkatnya jumlah sampel. Tetapi hal ini tidak mengatakan sesuatu mengenai sifat penaksir dalam sampel.
Dalam kasus multikolinearitas sempurna penaksir OLS tak tertentu dan varians atau kesalahan standarnya tak tertentu. Jika kolinearitas tajam tetapi tidak sempurna, maka dapat terjadi konsekuensi berikut ini: 1 Meskipun penaksir OLS mungkin bisa diperoleh, kesalahan standarnya cenderung semakin besar dengan meningkatnya tingkat korelasi antara peningkatan variabel. 2. Karena besarnya kesalahan standar, selang keyakinan untuk parameter populasi yang relevan cenderung untuk lebih besar. 3. Dalam kasus multikolinearitas yang tinggi, data sampel mungkin sesuai dengan sekelompok hipotesis yang berbeda-beda. Jadi probabilitas untuk menerima hipotesis yang salah meningkat. 4. Selama multikolinearitas tidak sempurna, penaksiran koefisien regresi adalah mungkin tetapi taksiran dan kesalahan standarnya menjadi sangat sensitif terhadap sedikit perubahan dalam data. 5. Jika multikolinearitas tinggi, seseorang mungkin memperoleh R2 yang tinggi tetapi tidak satu pun atau sangat sedikit koefisien yang ditaksir yang penting secara statistik.
Universitas Sumatera Utara
2.6. Pendeteksian Multikolinearitas
Menurut Gujarati (1978) ada beberapa cara untuk mendeteksi ada tidaknya multikolinearitas diantaranya yaitu : 1. Menghitung koefisien korelasi sederhana (simple correlation) antara sesama variabel bebas, jika terdapat koefisien korelasi sederhana yang mencapai atau melebihi 0.8 maka hal tersebut menunjukkan terjadinya masalah multikolinearitas dalam regresi. 2. Menghitung nilai Toleransi atau VIF (Variance Inflation Factor), jika nilai Toleransi kurang dari 0.1 atau nilai VIF melebihi 10 maka hal tersebut menunjukkan bahwa multikolinearitas adalah masalah yang pasti terjadi antar variabel bebas. 3. Lakukan regresi antar variabel bebas dan menghitung masing-masing R 2 , kemudian melakukan uji–F dan bandingkan dengan F tabel. Jika nilai F hitung melebihi nilai F tabel berarti dapat dinyatakan bahwa X i kolinier dengan X yang lain.
2.7.
Regresi Linear Berganda
Regresi linear berganda adalah regresi dimana variabel terikatnya (Y) dihubungkan atau dijelaskan dengan lebih dari satu variabel bebas (X1, X2……..Xn ) dengan syarat variabel bebas masih menunjukkan hubungan yang linear dengan variabel tak bebas. Hubungan fungsional antara variabel dependen (Y) dengan variabel independent (X1, X2……..Xn ) secara umum dapat dituliskan sebagai berikut: Y = f(X1, X2……..Xn ) dengan : Y X1, X2……..Xn
= variabel independen = variabel independent.
Universitas Sumatera Utara
Model regresi linear berganda merupakan suatu model yang dapat dinyatakan dalam persamaan linear yang memuat peubaha dan parameter. Parameter ini pada umumnya tidak diketahui dan dapat ditaksir. Hubungan linear lebih dari dua peubah bila dinyatakan dalam bentuk persamaan matematis adalah: Ŷ = b0 + b1X1 + b2X2 + … + biXi ∧
dengan Y = nilai estimasi Y Xi = peubah bebas bi = parameter Koefisien-koefisien b0 , b1 ,..., bi dapat ditentukan dengan menggunakan metode kuadrat terkecil (least square method). Metode kuadrat terkecil untuk menentukan persamaan linear estimasi, berarti memilih satu kurva linear dari beberapa kemungkinan kurva linear yang dapat dibuat dari data yang ada yang mempunyai error paling kecil dari data aktual dengan data estimasinya.
2.8. Metode Regresi Ridge
Metode regresi ridge merupakan salah satu metode yang dianjurkan untuk memperbaiki masalah multikolinearitas dengan cara memodifikasi metode kuadrat terkecil, sehingga dihasilkan penduga koefisien regresi lain yang bias. Modifikasi metode kuadrat terkecil dilakukan dengan cara menambah tetapan bias c yang relatif kecil pada diagonal matriks X’X , sehingga penduga koefisien regresi dipengaruhi oleh besarnya tetapan bias k. pada umumnya nilai c terletak antara 0 dan 1. Hoerl dan Kennard (1970), membahas tentang cara mengatasi kondisi buruk(ill condition)yang diakibatkan oleh korelasi yang tinggi antara beberapa peubah peramal dalam model, sehingga menyebabkan matriksX’X-nya hampir singular, yang pada gilirannya akan menghasilkan nilai dugaan parameter yang tidak stabil. Hasil akhir yang diperoleh dari penyelesaian masalah multikolinieritas dengan
Universitas Sumatera Utara
regresi ridge ini adalah masih memungkinkan untuk melakukan seleksi terhadap variabel asal. Dalam regresi ridge variabel bebas x dan variabel tak bebas y ditransformasikan dalam bentuk variabel baku Z dan Y*,
dimana transformasi
variabel bebas dan variabel tak bebas ke bentuk variabel baku diperoleh dari
Z =
x−x
(10)
Sx
dengan Z = nilai variabel yang di bakukan x = nilai variabel x x = nilai rata-rata x
Sx
Y∗ =
= simpangan baku x
y−y Sy
(11)
dengan Y ∗ = nilai variabel y yang dibakukan y = nilai variabel y y = nilai rata-rata y S y = simbangan baku y
Selanjutnya
x−x Z ' y = Sx
y − y . Sy
x−x Z ' Z = Sx
x− x . Sx
(12)
(13)
Sementara itu, rumus dari korelasi
rxx =
(x − x )(x − x )
(14)
SxSx
Sehingga persamaan normal kuadrat terkecil (XX)b=X’y akan berbentuk (rxx)b=rxy, dengan rxx adalah matriks korelasi variabel x dan rxy adalah matriks korelasi variabel y
Universitas Sumatera Utara
dan masing-masing variabel x. Akibat dari transformasi matriks X ke Z dan vektor y ∧
ke y*, maka akan menjadikan persamaan normal regresi ridge yaitu: (rxx+kI) b* = rxy. Sehingga penduga koefisien regresi ridge menjadi : ∧
b* = (rxx+kI)-1 rxy.
(15)
∧
Dengan b* = vektor koefisien regresi ridge rxx = matriks korelasi variabel x berukuran pxp rxy = vektor korelasi antara variabel x dan y berukuran px1 k = tetapan bias I
= matriks identitas berukuran pxp
Masalah yang dihadapi dari regresi ridge adalah penentuan nilai dari c. prosedur yang cukup baik untuk menentukan nilai c ini adalah dengan menggunakan nilai statistik CP-Mallows yaitu Ck. statistik CP-Mallows adalah suatu criteria yang berkaitan dengan rata-rata kuadrat error (mean square error) dari nilai kesesuaian model. Nilai k yang terpilih adalah yang meminimumkan nilai Ck (Mayers, 1990).
2.9. Ridge Trace
Ridge Trace adalah plot dari estimator Regresi Ridge dengan berbagai kemungkinan ∧
nilai tetapan bias c, konstanta c mencerminkan jumlah bias dalam estimator β (c) . ∧
Bila c = 0 maka estimator β (c) akan bernilai sama dengan kuadrat terkecil β , tetapi cenderung lebih stabil dari pada estimator kuadrat terkecil.
Plot ini menggambarkan koefisien Regresi Ridge sebagai fungsi dari c.
Universitas Sumatera Utara
Nilai dari c berada pada interval (0.1). Pemilihan tetapan bias c merupakan masalah yang perlu diperhatikan. Tetapan bias yang diinginkan adalah tetapan bias yang menghasilkan bias relatif kecil dan menghasilkan koefisien yang relatif stabil.
Tahapan penaksiran koefisien regresi ridge: 1. Lakukan transformasi tehadap matriks X menjadi Z dan vektor Y menjadi YR, melalui centering and rescaling. 2. Hitung matriks Z'Z => matriks korelasi dari variable bebas, serta hitung Z'YR => korelasi dari variable bebas terhadap variable tak bebas y. 3. Hitung nilai penaksir parameter β dengan berbagai kemungkinan tetapan bias c. 4. Hitung nilai VIF dengan berbagai nilai c (0
2.10. Analisis Komponen Utama
Analisis komponen utama merupakan suatu teknik mereduksi data multivariat (banyak data) untuk mengubah (mentransformasi) suatu matrik data awal/asli menjadi suatu set kombinasi linear yang lebih sedikit akan tetapi menyerap sebagian besar jumlah varian dari data awal.
Analisis komponen utama tidak selalu bermanfaat. Analisis komponen utama digunakan untuk mereduksi banyaknya peubah asal menjadi beberapa peubah baru yang dapat menjelaskan dengan baik keragaman data asal. Bila tidak ada korelasi
Universitas Sumatera Utara
antara peubah asal, analisis komponen utama tidak akan memberikan hasil yang di inginkan, karena peubah baru yang diperoleh hanyalah peubah asal yang ditata berdasarkan besarnya keragamannya. Makin erat korelasi (baik positif maupun negatif) antara peubah, maka baik pula hasil yang diperoleh dari analisis komponen utama.
Analisis komponen utama mengekstrak dengan cara yaitu komponen pertama menyerap varian matriks korelasi paling banyak. kemudian diikuti komponen kedua yang menyerap varian terbanyak kedua terhadap sisa varian dan begitu seterusnya, sampai komponen yang terakhir menyerap varian matriks korelasi paling sedikit. Setiap komponen yang berikutnya juga harus orthogonal yaitu tidak berkorelasi sama sekali dengan komponen sebelumnya atau yang mendahuluinya. Akhirnya, ketika p mendekati k, jumlah varian yang dijelaskan oleh setiap komponen semakin kecil. Tujuannya ialah untuk mempertahankan sejumlah komponen yang diperoleh bisa dipergunakan sebagai variabel bebas (predictor) dalam analisis regresi/diskriminan atau analisis varian, yang sudah bebas dari multikolinearitas.
Kalau Wi = komponen ke i, maka diperoleh m persamaan berikut : W1
= γ 11 z1 + γ 12 z 2 + ... + γ 1 j z j + ... + γ 1 p z p
W2
= γ 21 z1 + γ 22 z 2 + ... + γ 2 j z j + ... + γ 2 p z p
. . . Wi
= γ i1 z1 + γ 12 z 2 + ... + γ ij z j + ... + γ ip z p
. . . Wm
= γ m1 z1 + γ m 2 z 2 + ... + γ mj z j + ... + γ mp z p .
dimana : Wi = komponen ke i
Universitas Sumatera Utara
γ
= vektor eigen
z
= nilai standar variabel
Komponen yang ke-i yaitu Wi merupakan kombinasi linear dari X1, X2, …, Xj, …, Xp dengan timbangan (weight) yaitu γ 1 j , γ 2 j ,..., γ ij ,..., γ ip yang pemilihannya harus sedemikian rupa, sehingga memaksimumkan rasio dari varian komponen pertama (W1) dengan jumlah varian (total variance) data asli/awal. Komponen berikutnya yaitu W2, juga kombinasi linear yang ditimbang dari seluruh variabel asli, tidak berkorelasi dengan komponen atau faktor pertama (W1) dan harus menyerap secara maksimum sisa varian yang ada (Supranto, 2004).
Langkah awal yang dilakukan dalam Analisis Komponen Utama adalah menentukan nilai eigen dan vektor eigen dari matriks R, matriks korelasi dari X. Dengan terlebih dahulu mengubah data yang distribusi normal umum menjadi distribusi normal baku dengan rumus
Dengan : Z = nilai variabel yang di bakukan x = nilai data berdistribusi normal nilai rata-rata variabel σ = standar deviasi Nilai eigen matriks korelasi ini adalah r solusi λ1 , λ 2 ,..., λ r dari persamaan determinan
=0 dapat ditunjukkan bahwa jumlah akar-akar ciri matriks korelasi ini sama dengan tras (trace) matriks ZTZ.
Universitas Sumatera Utara
Untuk setiap akar ciri λ j terdapat vector ciri (Characteristic vector) γ j yang memenuhi sistem persamaan homogen ( Z T Z − λ j I )γ j = 0 .
Vektor ciri solusinya γ j = (γ 1 j , γ 2 j ,..., γ rj ) ' , yang dipilih dari sekian banyak solusi sebanding yang ada untuk setiap j, merupakan solusi yang ternormalkan sedemikian rupa sehingga γ 'j γ j = 1 . juga dapat diperlihatkan bahwa jika semua λ j berbeda, maka setiap pasangan vector ciri akan saling orthogonal sesamanya. Vektor γ j digunakan untuk membentuk Z ke dalam suku-suku komponen utama yaitu: W j = γ 1 j z1 + γ 2 j z 2 + ... + γ rj z r
sehingga jumlah kuadrat setiap peubah baru W j , yang unsur-unsurnya W ji dengan i = 1,2,..., n , adalah λ j . Dengan kata lain, W j mengambil sejumlah λ j dari
keragaman totalnya. Perhatikan bahwa r
∑λ j =1 r
j
= r sehingga jumlah kuadrat totalnya
n
∑ ∑W j =1
i =1
2 ji
= r seperti semula (Draper and Smith, 1992).
Jadi, prosedur ini menciptakan peubah-peubah baru W j dari peubah-peubah asalnya Z j , melalui suatu transformasi linear pada persamaan W j = γ 1 j z1 + γ 2 j z 2 + ... + γ rj z r
sedemikian rupa sehingga vektor-vektor W itu orthogonal sesamanya. Peubah W j padanan nilai λ j yang terbesar disebut komponen utama pertama. Komponen ini menjelaskan bagian terbesar dari keragaman yang dikandung oleh gugusan data yang telah dibakukan. Komponen-komponen W j
yang lain menjelaskan proporsi
keragaman yang semakin lama semakin kecil sampai semua keragaman datanya terjelaskan, jadi p
∑λ j =1
j
= r.
Universitas Sumatera Utara
Biasanya semua W j tidak digunakan melainkan mengikuti suatu aturan seleksi tertentu. Komponen-komponen dapat dihitung sampai sejumlah tertentu proporsi keragaman data yang cukup besar (mungkin 75 persen atau lebih) telah dijelaskan”, dengan kata lain, kita pilih k penyumbang terbesar yang menghasilkan
k
λj
j =1
r
∑
> 0,75.
Aturan-aturan semacam ini secara otomatis memberi k peubah W yang merupakan hasil trasformasi terhadap peubah asal Z i . Selanjutnya prosedur kuadrat terkecil digunakan untuk memperoleh persamaan peramalan bagi Y sebagai fungsi dari peubah-peubah W j yang terpilih itu. Urutan masuknya pada peubah W j tidak ada pengaruhnya dalam hal ini, sebab semua yaitu orthogonal satu sama lain. Bila persamaan regresi dalam W j telah diperoleh, persamaan ini dapat dikembalikan menjadi fungsi peubah semula Z i bila dikehendaki, atau ditafsirkan berdasarkan peubah-peubah W j tadi (Draper and Smith, 1992).
Berlawanan dengan analisis komponen utama, analisis faktor didasarkan pada suatu anggapan, mendasari struktur kausal. Variabel yang terobservasi, dipercaya, disebabkan oleh beberapa konstrak laten yang tidak terlihat (unseen latent construct). Sebagai contoh, kemampuan untuk menghasilkan bahwa ujian matematika yang sukses disebabkan oleh konstrak atau konsep yang tidak terlihat yang disebut :analytical intelligence. Secara konseptual hal ini merupakan suatu pendekatan yang berbeda dibandingkan dengan analisis komponen utama. Di dalam analisis akhir, analisis komponen utama menghasilkan reduksi dimensionalitas dari data set, sedangkan analisis faktor mencari untuk menjelaskan konstrak latent yang mungkin menjadi penyebab variabel yang dikumpulkan (Supranto, 2004).
Universitas Sumatera Utara
Algoritma analisis komponen utama : 1. Mencari nilai rata-rata dari masing-masing variabel, dengan rumus : Xi =
∑X
i
n Keterangan : i = 1, 2, 3, …, n X i = nilai rata-rata variabel ke i
X i = nilai data variabel ke i n = jumlah sampel. 2. Mencari standar deviasi setiap variabel dengan rumus :
Si =
∑ (X
− Xi )
2
ij
n −1 Keterangan : j = 1, 2, 3, …, n
S i = standar deviasi ke i. 3. Menstandarkan masing-masing variabel bebas , dengan rumus :
Z ij =
X ij − X i Si
4. Menentukan rata-rata setiap variabel yang telah distandarisasi, dengan rumus : Zi =
∑Z
i
n
dengan Z i = rata-rata variabel ke i yang telah distandarisasi.
5. Mencari koefisien korelasi dari variabel yang distandarkan, dengan rumus : rij =
∑ (Z
∑ (Z
ik
ik
− Z i )( Z jk − Z j )
− Zi )2
∑ (Z
jk
− Z j )2
dengan rij = koefisien korelasi kolom ke i dan baris ke j. 6. Menentukan matriks korelasi, jika Z T Z adalah matriks korelasi, maka
Universitas Sumatera Utara
1 r 21 r31 T Z Z = . . . r p1
r12
r13
.
.
.
1 r32
r23
.
.
.
1
.
.
.
rp 2
rp 3
.
.
.
r1 p r2 p r3 p 1
7. Mencari nilai eigen ( λ ) yang lebih besar dari 1. Nilai eigen dicari dengan menggunakan persamaan Z T Z − λI = 0 dengan I = matriks identitas.
8. Mencari vektor eigen dari nilai eigen yang lebih besar dari satu dengan menggunakan persamaan :
( Z T Z − λ j I )γ j = 0 dengan j = 1, 2, 3, …, n
γ j = vektor eigen ke j.
9. Komponen utama ke j untuk standar Z didapatkan yaitu : W j = γ 1 j Z1 + γ 2 j Z 2 + ... + γ rj Z r
.
Maka model regresi komponen utama dapat dirumuskan sebagai : Y = k0 + k1W1 + k 2W2 + ... + k mWm + v
Keterangan : Y
= variabel tak bebas
W j = variabel bebas komponen utama yang merupakan kombinasi linier dari
semua variabel baku Z(j=1, 2,….,m) k 0 = konstanta k j = koefisien model regresi ( j = 1, 2,….,m)
v
= galat
Universitas Sumatera Utara