BAB 2 LANDASAN TEORI
2.1 Analisis Komponen Utama 2.1.1 Pengantar. Analisis Komponen Utama (AKU, Principal Componen Analysis) bermula dari tulisan Karl Pearson pada tahun 1901 untuk peubah non-stokastik. Analisis ini kemudian ditetapkan menjadi peubah stokastik oleh Harold Hotelling pada tahun 1933. Analisis ini merupakan analisis tertua. Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan yang sukar walaupun hanya menggunakan beberapa peubah. Analisis ini baru berkembang penggunaannya setelah tersedianya fasilitas komputasi elektronik. Satu buku yang khusus membahas AKU telah ditulis oleh Jolliffe 1986.
Analisis komponen utama merupakan an atheoretic approach yang menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari mereduksi variabel asli/awal yang banyak sekali. Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan tetapi masih mengandung informasi yang termuat dalam data asli/awal. Variabel hasil mereduksi tersebut dinamakan faktor yang juga disebut komponen atau faktor komponen.
Secara teknis, analisis komponen utama merupakan suatu teknik mereduksi data multivariat (multivariable) yang mengubah (mentranformasi) suatu matriks data/asli menjadi suatu set kombinasi linier yang lebih sedikit akan tetapi menyerap sebagian besar jumlah varian dari data awal.
9
Tujuan utamanya ialah menjelaskan sebanyak mungkin jumlah varian data asli dengan sedikit mungkin komponen utama yang disebut faktor.
Analisis Komponen Utama biasanya digunakan untuk :
1. Identifikasi peubah baru yang mendasari data peubah ganda 2. Mengurangi banyaknya dimensi himpunan peubah yang biasanya terdiri atas peubah yang banyak dan saling berkolerasi dengan mempertahankan sebanyak mungkin keragaman dalam himpunan data tersebut, dan 3. Menghilangkan peubah-peubah asal yang mempunyai sumbangan informasi yang relatif kecil.
Peubah baru yang dimaksud di atas disebut komponen utama yang mempunyai ciri sebagai berikut:
1. merupakan kombinasi linier peubah-peubah asal, 2. jumlah kuadrat koefisien dalam kombinasi linier tersebut berrnilai satu, 3. tidak berkorelasi, dan 4. mempunyai ragam berurut dari yang terbesar ke yang terkecil.
Peubah-peubah baru ini memanfaatkan informasi dari peubah-peubah asal dan nilai yang nantinya diperoleh dari masing-masing objek merupakan ordinat objek-objek tersebut dalam peubah baru yang merupakan suatu sumbu koordinat. Tidak adanya korelasi antar peubah baru ini merupakan sifat yang diingikan karena peubah-peubah tersebut mengukur dimensi-dimensi yang berbeda dalam
10 data. Ragam suatu peubah merupakan sifat yang penting yang digunakan dalam suatu analisis. Makin beragam suatu peubah makin besar perannya dalam pemilahan antar objek. Dari peubah-peubah baru tersebut yang terurut keragamannya, diharapkan beberapa peubah baru pertama akan dapat menjelaskan dengan baik keragaman yang ada dalam data asal. Jika dua komponen utama pertama dari masing-masing objek digambar dalam diagram pencar maka akan diperoleh gambaran posisi objek dengan hampiran jarak Euclid dari objek asal.
AKU tidak selalu bermanfaat digunakan untuk mereduksi banyaknya peubah asal menjadi beberapa peubah baru yang dapat menjelaskan dengan baik keragaman data asal. Bila tidak ada korelasi antara peubah asal, AKU tidak akan memberikan hasil yang diinginkan, karena peubah baru yang diperoleh hanyalah peubah asal yang ditata berdasarkan besar keragamannya. Makin erat korelasi (baik positif maupun negatif) antar peubah, makin baik pula hasil yang diperoleh dari AKU. Dalam analisis eksplorasi ini tidak ada anggapan tentang sebaran peubah acaknya, tidak ada hipotesis yang diuji, dan juga tidak ada model yang mendasarinya.
Bila pendekatan pearson dapat dikaitkan dengan masalah ruang vektor, yaitu mencari ruang vektor optimum, pendekatan Hotelling dapat dikaitkan dengan masalah peubah acak, yaitu peubah acak baru yang tertata keragamannya dan tidak berkorelasi, maka pendekatan lainnya ialah dari sisi komputasi. Gourlay dan Watson 1973 menggunakan metode kuasa untuk memperoleh skor komponen utama suatu objek dengan sekuens penggunaan bergantian antara regresi linier sederhana dengan kalibrasi.
11
2.1.2 Prosedur. 0
Andaikan X = (X1 , X2 , ..., Xp) merupakan vektor peubah acak asal yang diP amati dengan matriks kovarian = [σij ], maka komponen utama pertama yang dilambangkan oleh Y1 didefinisikan sebagai : Y1 =
P
aij Xj = a10 X,
yang memaksimumkan ragam Y1 , yaitu a10
P
a1, dengan kendala a10 a1 = 1.
Komponen utama kedua, dilambangkan oleh Y2 didefinisikan sebagai : Y1 = a20 X, yang memaksimumkan ragam Y2 , dengan kendala a2 0a2 = 1, dan tidak ada koreP lasi antara Y1 dan Y2 (kovarian Y1 dan Y2 yaitu a1 0 a2 = 0 yang nantinya akan berarti a10 a2 = 0).
Komponen utama yang ketiga dilambangkan oleh Y3 didefinisikan sebagai: Y3 = a3 0X, yang memaksimumkan ragam Y3 , dengan kendala a30 a3 = 1, dan P tidak ada korelasi antara Y1 dan Y3 (kovarian Y1 dan Y3 yaitu a1 0 a3 = 0 yang nantinya akan berarti a10 a3 = 0),dan tidak ada korelasi antara Y2 dan Y3 (kovariP an Y2 dan Y3 yaitu a20 a3 = 0 yang nantinya akan berarti a2 0a3 = 0). Demikian seterusnya untuk komponen utama ke-4 sampai yang ke-p.
Dengan menggunakan pengganda Lagrange diperoleh a1 , a2, .., ap sebagai eigenvektor yang berpandanan dengan eigenvalue λ1 ≥ λ2 ≥ ...λp dari matriks P kovarian . Nilai eigenvalue ke-i merupakan komponen utama ke-i. Karena
12 solusi bagi vektor a merupakan eigenvektor maka vektor ini tidak bersifat khas, misalnya penggandaanya dengan -1 juga akan merupakan solusinya.
Salah satu ukuran kesesuaian untuk memperoleh gambaran layak tidaknya penggunaan k komponen utama pertama yang digunakan untuk interpretasi atau analisis lanjutannya ialah persentase keragaman yang dapat dijelaskan oleh k komponen utama pertama tersebut, yaitu (λ1 + λ2 + ... + λk )/(λ1 + λ2 + ... + λp )x100%; dimana λ1 + λ2 + ... + λk merupakan eigenvalue, matriks yang ditata dari yang terbesar ke yang terkecil. Makin besar nilai ukuran kesesuaian tersebut, makin layak k komponen utama pertama tersebut digunakan. Ada peneliti yang menggunakan petunjuk praktis untuk menggunakan k komponen utama pertama bila keragaman yang dapat dijelaskannya ≥ 80%. Bila matriks kovarian yang digunakan merupakan matriks korelasi, banyak peneliti dibidang sosial yang mengabaikan komponen utama yang berpadanan dengan eigenvalue yang kurang dari 1.
Interpretasi dari peubah baru yang diperoleh, komponen utama, kadangkala mudah, kadang sukar, bahkan kadangkala dapat pula meragukan. Chatfield dan Collins 1980 memberikan contoh kemungkinan tersebut. Tidak ada jaminan bahwa komponen utama ini mudah diinterpretasikan selain bahwa komponenkomponen utama ini merupakan peubah-peubah baru (dengan segala sifat yang diinginkan) yang diharapkan dapat mereduksi banyaknya peubah-peubah asal. Tampaknya pemahaman masalah yang dihadapi dan penggunaan informasi dalam data asal misalnya matriks korelasi akan dapat membantu upaya pengambilan simpulan yang layak. Untuk menginterpretasikan komponen utama ke-i biasanya digunakan unsur-unsur dalam eigenvektor ai, yang bernilai relatif besar (baik positif maupun negatif) yang digunakan untuk memperoleh peubah-peubah asal
13 yang relatif berperan dalam menentukan komponen utama ini dan kemudian mencoba untuk menginterpretasikannya.
Dalam beberapa program kemasan komputer, untuk membandingkan unsurunsur eigenvektor sebagai koefisisen dari peubah asal yang terkait pada komponen utama, maka diberikan sebagai hasilnya ialah eigenvektor yang sudah digandakan dengan value dari eigenvalue padanannya. Penggandaan ini dapat dikaitkan dengan bobot pentingnya suatu komponen utama. Bila digunakan matriks korelasi dalam analisis ini maka besaran unsur-unsur tersebut merupakan korelasi antara peubah asal dengan komponen utamanya.
Hasil analisis ini, misalnya penggambaran objek yang disajikan dalam ruang berdimensi rendah, katakanlah ≤ 3 dimensi, dapat pula digunakan untuk melihat pengelompokan antar objek, dengan ukuran kedekatan yang merupakan pendekatan jarak Euclid dari objek-objek asal dengan menggunakan semua peubah asal yang diamati. Bila suatu komponen utama mempunyai eigenvalue = 0, berarti peubah baru ini tidak memiliki keragaman, atau peubah baru ini merupakan suatu konstanta, maka ada keterkaitan linier antar peubah yang diamati. Bila nilai (p-1) peubah asal diketahui maka nilai peubah lainnya akan dapat diperoleh. Dalam bidang sosial ekonomi yang umumnya mengamati banyak peubah, hal ini digunakan untuk melihat adanya kolinieritas ganda dari peubah yang diamati, yang digunakan untuk menghilangkan peubah yang tidak memberikan tambahan informasi setelah ada peubah lainnya.
14 2.2 Matriks 2.2.1 Defenisi. Matriks adalah suatu kumpulan angka-angka, sering disebut elemen-elemen yang disusun secara teratur menurut baris dan kolom sehingga berbentuk persegi panjang, dimana panjang dan lebarnya ditunjukkan oleh banyaknya kolom dan baris serta dibatasi tanda ”[ ]” atau ”( )”.
Sebuah matriks dinotasikan dengan simbol huruf besar seperti Amxn , X, atau Z dan sebagainya. Sebuah matriks yang berukuran m baris dan n kolom dengan aij dapat dituliskan a 11 a 21 Amxn = .. . am1
sebagai berikut : a12 . . . a1n a22 . . . a2n .. . am2 . . . amn
atau juga dapat ditulis : A = [aij ] i = 1, 2, ....m; j = 1, 2, .., n Contoh : A2x3
a11 a12 a13 = a 21 a22 a23
Disebut matriks A dengan 2 baris dan 3 kolom. Jika A sebuah matriks, kita gunakan aij untuk menyatakan elemen yang terdapat didalam baris i dan kolam j dari A. Dalam contoh ini i = 1, 2 dan j = 1, 2, 3 atau dapat ditulis A = [aij ]; i = 1, 2; j = 1, 2, 3
15 2.2.2 Operasi Matriks. Perkalian skalar Defenisi : Jika A = [aij ] adalah matriks mxn dan r adalah suatu skalar, maka hasil kali A dari r adalah B = [bij ] matriks mxn dengan bij = raij (1 ≤ i ≤ m, 1 ≤ j ≤ n). contoh : 2 7 A= 9 3 dengan diberikan r = 4 maka 2 7 8 28 4A= 4 9 3 = 36 12
Perkalian Matriks Definisi : Jika A = [aij ] adalah matriks mxp dan B = [bij ] adalah matriks pxn maka hasil kali dari matriks A dan matriks B yang ditulis dengan AB adalah C matriks mxn. Secara matematik dapat ditulis sebagai berikut : Cij = ai1b1j + ai2b2j + ... + ai1b1j =
Pp
k=1
aik bkj
Penjumlahan Matriks Jika A = [aij ] adalah matriks mxp dan B = [bij ] adalah matriks mxp maka penjumlahan matriks dari matriks A dan matriks B yang ditulis dengan C = [cij ] = aij + bij Pengurangan Matriks Jika A = [aij ] adalah matriks mxp dan B = [bij ] adalah matriks mxp maka
16 pengurangan matriks dari matriks A dan matriks B yang ditulis dengan C = [cij ] dimana cij = aij − bij (i = 1, 2, .., m; j = 1, 2, .., n). Teorema Jika A = [aij ] adalah matriks nxn yang mengandung sebaris bilangan nol, maka |A| = 0. Contoh : "
# 1 2 3 A3x3= 2 1 4 → |A| = 0 0 0 0
Matriks Segitiga Matriks A = [aij ] suatu matriks bujur sangkar dikatakan segitiga bawah (lower tringular) jika aij = 0 untuk i < j dan matriks A = [aij ] suatu matriks bujur sangkar dikatakan segitiga atas (upper tringular) jika aij = 0 untuk i > j. Contoh :
5 −1 Segitiga bawah A= 3 2
0 2 1 1
0 0 3 4
0 0 0, Segitiga atas B= 1
−1 0 0 0
2 1 0 0
4 1 3 −1 2 5 0 5
Teorema Jika A adalah matriks segitiga nxn, maka |A| adalah hasil kali elemen-elemen pada diagonal utama, yakni |A| = a11a22...ann Contoh :
2 7 −3 8 0 −3 7 5 A4x4= 0 0 6 7, |A| = (2)(−3)(6)(1) = −36 0 0 0 1
17
Teorema : jika A adalah sembarang matriks kuadrat, maka |A| = |At | Teorema : jika A dan B adalah matriks kuadrat yang ordonya sama, mka |AB| = |A||B| 3 1 −1 3 2 17 Contoh : A2x2= 2 1 , B2x2= 5 8 , AB2x2= 3 14 |A||B| = (1)(−23) = −23 |AB| = −23 sehingga det (AB) = det (A) det (B)
2.3 Eigenvalue dan Eigenvektor Definisi Jika A adalah matriks nxn, maka vektor tak nol X didalam Rn dinamakan eigenvektor dari A jika AX adalah kelipatan skalar dari X; yakni, AX = λX Untuk suatu skalar λ. Skalar λ dinamakan nilai eigen(eigenvalue) dari A dan X dikatakan eigenvektor yang bersesuaian dengan λ.
Untuk mencari nilai eigen matriks A yang berukuran nxn: a 11 a12 . . . a1n a21 a22 . . . a2n Anxn = .. , .. . . an1 an2 . . . ann 1 0 . . . 0 0 1 . . . 0 Inxn = .. , .. . . 0 0 ... 1
18 X 1 X 2 X = .. . Xn AX = λX, X 6= 0 AX = λIX λIX − AX = 0 (λI − A)X = 0 X 6= 0 → |λI − A| = 0 untuk memperoleh nilai λ |λI − A| = 0
λ − a11 . . . −a1n .. = 0 ... . an1 . . . λ − ann
f (λ) = a0 λn + a1λn−1 + ... + an−1 λ + an = 0 n buah akar λ1 , λ2 , ..., λn
Jika eigenvalue λn adalah substitusi pada persamaan (λI −A)X = 0, maka solusi dari eigenvektor Xn adalah (λn I − A)Xn = 0.
Definisi Misalkan A = [aij ] matriks nxn. Determinan λ − a a12 11 a λ − a22 21 f (λ) = det(λIn − A) = .. . an1 an2
... a1n ... a2n .. . . . . λ − ann
Dikatakan karakteristik polinom dari A, persamaan
19 f (λ) = det(λIn − A) = 0 dikatakan persamaan karakteristik dari A.
Definisi Matriks kuadrat A dinamakan didiagonalisasi (diagonalizable) jika terdapat matriks P yang dapat dibalik sehingga P −1 AP diagonal, matriks P dikatakan mendiagonalisasi B.
Teorema : Jika A adalah matriks nxn, maka pernyataan-pernyataan berikut ekivalen satu sama lain. 1. A dapat didiagonalisasi 2. A mempunyai n vektor eigen bebas linier
2.4 Matriks Korelasi Misalnya pada persamaan : Y = β0 + β1X1 + ... + βp XP + persamaan tersebut dinyatakan sebagai :
¯ 1 + β2 X ¯ 2 + ... + βpX ¯ P ) + β1(X1 − X ¯ 1 ) + β2 (X2 − X ¯ 2 ) + ... + Y = (β0 + β1X ¯p ) + βp(Xp − X ¯ j , j = 1, 2, .., p adalah nilai tengah yang dihitung dari data. Persamaan dengan X dapat ditulis : ¯ 1 ) + β2 (X2 − X ¯ 2 ) + ... + βp(Xp − X ¯p) + Y = β0∗ + β1(X1 − X dimana
20 ¯ 1 + β2 X ¯ 2 + ... + βpX ¯P ) β0∗ = β0 + β1X jika β0∗ = Y¯ , ¯ 1 ) + β2(X2 − X ¯ 2 ) + ... + βp (Xp − X ¯p) + Y − β0∗ = β1(X1 − X matriks X t X untuk model ini adalah : S 11 S12 . . . S1p S21 S22 . . . S2p X t X= .. .. . . Sp1 Sp2 . . . Spp dengan
Sij =
n X
¯i )(xju − x ¯j ), i = 1, 2, ...nj = 1, 2, ...p (xiu − x
kemudian bagi setiap peubah dengan jumlah kuadrat terkoreksinya, dan namakan peubah barunya : xij −¯ xj zij = √ , Sjj
Sij =
Pn
i=1 (xij
−x ¯j )2 dan
xi −¯ y yi∗ = √ , Syy
Syy =
Pn
i=1 (yi
− y¯)2
i = 1, 2, .., n dan j = 1, 2, .., p
ini akan mengubah model diatas kedalam bentuk baru : 1/2
1/2
1/2
1/2
y1∗Syy = β1S11 Z1 + β2S22 + ... + βpSpp + atau y1∗ = b1Z1 + b2 Z2 + ... + bpZp + ∗
21
dengan bj = βj
Sjj Syy
1/2
, j = 1, 2, ...p
melalui metode kuadrat terkecil, nilai dugaan parameter ˆb pada persamaan diatas dapat ditentukan yaitu : ˆb = (Z t Z)−1 Z t Y ∗ matriks Z tZ merupakan matriks korelasi yaitu : 1 r12 r13 . . . r1p r21 1 r23 . . . r2p t Z Z= r31 r32 1 . . . r3p . .. . . . rp1 rp2 rp3 . . . 1 dengan
rij =
Pn xui−¯xi i=1
√ S ii
(
xuj −¯ x √ j ), S jj
hubungan antara koefisien antara regresi data awal (βˆj ) dengan koefisien regresi yang dibakukan ˆbj adalah : βˆj = ˆbj
Syy Sjj
1/2
P , j = 1, 2, .., p dan βˆ0 = y¯ − pj=1 βˆj x ¯j
dengan y¯ dan x¯ merupakan nilai rata-rata dari y dan nilai rata-rata dari x.