Principal Component Analysis Siana Halim Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996
Pendahuluan Sebuah analis keuangan ingin menentukan sehat tidaknya y sebuah departement keuangan pada sebuah industri. Dalam penelitian awal telah diidentifikasikan terdapat sejumlah rasio keuangan (kirakira ada 120 variabel) yang dapat digunakan untuk analisa di atas. atas Tentu saja, saja tidaklah mudah untuk menginterpretasikan 120 buah informasi untuk menentukan apakah departement keuangan tsb dalam keadaan sehat atau tidak. Apa yang harus dilakukannya ?
Tugas pertama dari analysis tersebut b tentunya adalah d l h menyederhanakan/mereduksi ke-120 rasio menjadi beberapa index saja j ((misalnya y 3), ), yyangg mana index tersebut merupakan kombinasi linear dari seluruh rasio awal (120 rasio).
Pendahuluan Manajer marketing berkeinginan untuk membangun sebuah model regresi untuk menentukan forecast dari sales. Namun demikian, ternyata variable-variable i bl i bl yang seharusnya independent ternyata saling berkorelasi ((multicollinearity). y) Dalam model regresi adanya multicollinearity dapat menyebabkan standard error dari estimasi parameter sangat tinggi, tinggi dan model regressi yang dihasilkan menjadi tidak stabil. Apa yang harus dilakukan oleh manager tersebut ?
Akanlah sangat membantu, bila marketing manajer tersebut membangun variable „baru“ „baru yang merupakan kombinasi linear dari variable-variable lama, sedemikian hingga variablevariable baru tersebut tidak saling berkorelasi. Variablevariable baru ini dapat digunakan untuk membangun model regresi yang dikehendakinya.
Bagaimana Caranya ? p Component p y Gunakan Principal Analysis (PCA).
PCA adalah sebuah teknik untuk membangun variablevariable baru yyangg merupakan p kombinasi linear dari variable-variable asli. Jumlah maximum dari variablevariable baru ini akan sama dengan jumlah dari variable lama, dan variable-variable baru ini tidak salingg berkorelasi satu sama lain.
Secara Geometri X1 Observasi
X2
Original
Mean
Original
x1* = cos θ x1 + sin θ x2
Mean
Corrected
Corrected
1
16
8
8
5
2
12
4
10
7
3
13
5
6
3
4
11
3
2
-1
5
10
2
8
5
6
9
1
-1
-4
7
8
0
4
1
8
7
-1
6
3
9
5
-3
-3
-6
10
3
-55
-11
-44
11
2
-6
-3
-6
12
0
-8
0
-3
⎡23.091 16.455⎤ S=⎢ ⎥ ⎣16.455 21.091⎦
0.746⎤ ⎡ 1 R=⎢ ⎥ 0 . 746 1 ⎣ ⎦
x2* = − sin θ x1 + cos θ x2 Dicari θ optimum ss.d.h d h variance x1* maximum dan x2* orthogonal (saling tegak lurus) dengan x1* θ = 43.261 43 261
x1* = 0.728 x1 + 0.685 x2 x2* = − 0.685 x1 + 0.728 x2
Secara Geometri Observasi
Mean Corrected Data
New Variables
X1
X1*
X2
X2*
1
8
5
9.253
-1.841
2
4
7
7.710
2.356
3
5
3
5.697
-1.242
4
3
-1
1.499
-2.784
5
2
5
4.883
2.271
6
1
-4
-2.013
-3.598
7
0
1
0.685
0.728
8
-1
3
1.328
2.870
9
-3
-6
-6.297
-2.313
10
-5
-4
-6.382
0.514
11
-6
-6
-8.481
-0.257
12
-8
-3
-7.882
3.298
0
0
0.000
0.000
SS
424.334
61.666
Variance
38.576
5.606
Mean
0 ⎤ ⎡38.576 S=⎢ ⎥ 0 61 . 666 ⎣ ⎦
⎡1 0⎤ R=⎢ ⎥ ⎣0 1 ⎦
Objective dari PCA Dalam PCA ` Variable-variable baru disebut sebagai principle component dan nilai-nilai nilai nilai bentukan dari varible ini disebut sebagai principle component score. ` Variable yang baru merupakan kombinasi linear dari variable-variable asli. asli ` Variable baru pertama berhubungan dengan variance maximum dari data. ` Variable baru kedua menunjukkan variance maximum yang belum terhitung pada variable pertama ` Variable baru ketiga menunjukkan variance maximum yang belum terhitung pada kedua variable pertama ` Variable baru ke-p menunjukkan variance maximum yang belum terhitung pada p-1 variable terdahulu. ` Seluruh p variable baru tidak berkorelasi.
Loadings ` ` ` `
Loadings adalah korelasi antara variable asli dengan variable baru. Loadings memberikan indikasi variable original mana yang sangat penting atau mempengaruhi pembentukan variable baru Semakin tinggi nilai Loading maka variable lama ybs semakin g terhadapp pembentukan p variable baru. memiliki ppengaruh Loading dapat pula dihitung dengan menggunakan rumus sbb:
l ij = `
w ij sj
λi
Lij adalah loading dari variable ke-j untuk principal component ke i wij adalah bobot dari variable ke-j ke-i, ke j terhadap principal component ke-i, λi adalah nilai eigen dari principal component ke-i dan sj adalah standard deviasi dari variable ke-j
Hal-hal Hal hal yang berhubungan dengan PCA 1.
2. 3. 4 4. 5.
Adakah effect dari type data (misalnya mean corrected ataupun p data yyangg telah di-standard-kan)) terhadap PCA ? Apakah PCA merupakan teknik yang memadai ? Berapakah jumlah Principal Component yang harus dipilih ? B i Bagaimana menginterpretasikan i t t ik PCA ? Bagaimana penggunaan dari Principal Component Scores ?
1. Adakah effect dari type data (misalnya mean corrected ataupun data yang telah di-standard-kan) terhadap PCA ? `
` `
`
Secara umum, bobot yang dibebankan /diberikan pada sebuah variable dipengaruhi oleh variance relative dari variable karena itu data seharusnya distandardkan s.d.h. variable, sdh variance untuk setiap variable menjadi sama (yaitu satu). Namun demikian, pilihan antara memproses data awal dengan e ga mean ea co corrected ecte atau data ata ya yangg distandardkan sta a a juga tergantung pada faktor-faktor lain. Sebagai contoh, jika tidak ada alasan yang memaksa seorangg p pengambil g keputusan p untuk menganggap g gg p sebuah variable i bl lebih l bih penting i dari d i variable i bl yang lain l i maka k analisa li akan lebih baik jika kita menggunakan data yang distandardkan. Namun demikian bila, bila ada alasan bahwa variance dari suatu variable menunjukkan tingkat kepentingan dari variable tersebut, maka analisa akan lebih baik jika kita menggunakan gg mean corrected data.
2.Apakah PCA merupakan teknik yang memadai ? `
`
Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k ada tidak d artinya ti d dan sebaiknya b ik dihi dihindari. d i Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable-variable variable variable asli asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila data dapat p direpresentasikan p dalam beberapa buah principle component tanpa menghilangkan informasi secara substansial (without a substantial loss of information)
3. Berapakah jumlah Principal Component yang harus dipilih ? `
`
`
Jika data yang digunakan adalah data yang sudah distandardkan, gunakan aturan nilai eigen yang lebih dari satu untuk menentukan jumlah principal component Plot prosentase dari variance pada tiap principal component dan lihatlah ppada „„siku“ ppada pplot tersebut ((scree p plot). ) Aturan ini dapat digunakan untuk mean-corrected data ataupun data yang telah distandardkan. Gunakan komponen-komponen yang secara statistik signifikan.
4. Bagaimana menginterpretasikan PCA ? `
`
Gunakan nilai Loading untuk menginterpretasikan PCA. Semakin tinggi nilai loading dari suatu variable maka variable tersebut memiliki pengaruh dalam pembentukan principle component score dan sebaliknya. Secara tradisional, nilai loading yang dianggap sebagai nilai cutoff adalah 0.5.
5. Bagaimana penggunaan dari Principal Component Scores ? `
`
`
Nilai principal component scores dari dua variable baru (principal component) utama, dapat digunakan sebagai input variable untuk data clustering. Secara umum scores dari principal component juga dapat digunakan g sebagai g input p variable untuk analisa regressi g dan analisa diskriminant (discriminant analysis) Keuntungan menggunakan principal component score adalah variable-variable baru ini tidak saling berkorelasi sehingga masalah multicolinearity dapat dihindari.