BAB 2
LANDASAN TEORI
Pada bab ini akan diuraikan mengenai landasan teori yang akan digunakan dalam bab selanjutnya.
2.1 Matriks Sebuah matriks
, biasanya dinotasikan dengan huruf kapital tebal seperti A,
B, ∑ dan sebagainya, yang merupakan susunan segiempat dari bilangan-bilangan dengan n baris dan p kolom (Johnson dan Wichern, 2007). Matriks A dengan n baris dan p kolom dapat ditulis sebagai berikut: ]
[ ,
Atau dapat ditulis juga
-
, di mana
untuk menyatakan entri
yang terdapat di dalam baris i dan kolom j dari A. a. Operasi pada Matriks Berikut ini beberapa bentuk operasi pada matriks: 1. Kesamaan Matriks ,
Dua matriks B, jika
- dan
, ,
,
- dikatakan sama, ditulis A = (Johnson dan Wichern,
2007). Jadi dua matriks dikatakan sama jika: a. Ukuran kedua matriks sama, b. Setiap elemen yang bersesuaian pada kedua matriks tersebut sama. 2. Penjumlahan dan Pengurangan Matriks Jika A dan B adalah sebarang dua matriks dengan ukuran sama, maka jumlah
adalah adalah matriks yang diperoleh dengan menambahkan
setiap entri
pada entri
.......yang bersesuaian, dan pengurangan
Universitas Sumatera Utara
adalah matriks yang diperoleh dengan mengurangkan entri
dari entri
yang bersesuaian. Matriks dengan ukuran yang berbeda tidak bisa di jumlahkan atau dikurangkan (Johnson dan Wichern, 2007). Misalkan, ] dan
[
[
]
Maka [
] -
,
Dengan notasi matriks
.
[
] -
,
Dengan notasi matriks
.
3. Perkalian Matriks dengan Skalar Misalkan
,
-
hasil kali
adalah matriks yang diperoleh dengan mengalikan setiap
entri dari matriks
adalah suatu matriks dan c adalah skalar, maka
oleh c. Matriks
dikatakan perkalian skalar pada ,
matriks , dinotasikan dengan
-
.
4. Perkalian Matriks dengan Matriks Jika
adalah matriks (
kali matriks
) dan
adalah matriks (
adalah matriks (
), maka hasil
) di mana entri pada baris ke-i dan
kolom ke-j adalah hasil dari perkalian baris ke-i pada matriks
dan kolom
ke-j pada matriks . ∑ 5. Transpose Matriks Jika
adalah suatu matriks (
), maka transpose
dinotasikan dengan
adalah matriks yang diperoleh dengan mempertukarkan baris dan
Universitas Sumatera Utara
kolom matriks matriks
, yaitu kolom pertama
, kolom kedua
adalah baris pertama pada
adalah baris kedua dari matriks
, dan
seterusnya. ] maka
[
[
]
b. Matriks Khusus Matriks khusus adalah matriks yang mempunyai sifat tertentu sedemikian hingga dalam operasi pada matriks menghasilkan sifat-sifat khusus (Suryanto, 1988). Beberapa matriks khusus antara lain: 1. Matriks Persegi Matriks persegi adalah matriks dengan banyak kolom dan baris sama, secara matematis dapat ditulis: (
)
[
]
Barisan entri-entri yang nomor kolomnya sama dengan nomor barisnya (
) disebut diagonal utama. Entri-entri yang nomor
kolomnya lebih besar daripada nomor barisnya disebut unur-unsur diatas diagonal utama, sedangkan unsur-unsur yang nomor kolompoknya lebih kecil daripada barisnya disebut unsur-unsur di bawah diagonal utama (Suryanto, 1988).
2. Matriks Diagonal Matriks persegi yang semua entrinya nol kecuali pada diagonal utama disebut matriks diagonal. Suatu matriks diagonal
dapat ditulis sebagai
berikut: [
]
Universitas Sumatera Utara
Matriks diagonal yang setiap unsur diagonal utamanya adalah 1 disebut matriks identitas, misalkan [
]
3. Matriks Simetris Suatu matriks persegi ( ) lain, jika .
dikatakan simetris jika simetris maka
. Dengan kata dan
2.2 Trace Matriks
Trace dari sebuah matriks
berukuran
ditulis
sebagai jumlah dari elemen-elemen diagonal, yaitu 2002). Jika
dan
matriks berukuran
a.
(
)
b.
(
c.
(
)
(
d.
(
)
(
( )
( ) dan didefinisikan ∑
(Rencher,
dan c adalah skalar, maka:
( ) )
( )
( )
) )
∑
∑
2.3 Eigenvalue dan Eigenvector Jika
adalah matriks
dan I merupakan matriks identitas. Maka skalar
yang memenuhi persamaan polinomial |
|
dikatakan
eigenvalue (akar karakteristik) dari matriks .
Jika
adalah matriks
x adalah vektor taknol
dan jika λ merupakan eigenvalue dari matriks . Jika sehingga,
Maka x dikatakan eigenvector (vektor karakteristik) dari matriks
yang terkait
dengan eigenvalue λ.
Universitas Sumatera Utara
2.4 Analisis Komponen Utama (Principal Component Analysis) Metode Analisis Komponen Utama bermula dari Karl Pearson pada tahun 1901 untuk peubah non-stokastik. Analisis ini kemudian ditetapkan menjadi peubah stokastik oleh Harold Hotelling pada tahun 1933. Analisis ini merupakan analisis tertua. Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan yang sukar walaupun hanya menggunakan beberapa peubah. Analisis ini baru berkembang penggunaannya setelah tersedia fasilitas komputasi elektronik (Jolliffe, 2002). Analisis Komponen Utama merupakan suatu teknik analisis statistik untuk mentransformasikan variabel-variabel asli yang masih berkorelasi satu dengan yang lain menjadi suatu variabel baru yang tidak berkorelasi lagi (Johnson dan Wichern, 2007). Analisis Komponen Utama bertujuan untuk menyederhanakan variabel yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan dengan menghilangkan korelasi variabel melalui transformasi variabel asal ke variabel baru yang tidak berkorelasi. Variabel hasil mereduksi tersebut dinamakan principal component atau komponen utama (Aroef, 1991). Komponen utama adalah kombinasi linear dari variabel acak atau statistik yang memiliki sifat khusus dalam hal variasi (Anderson, 1984). Secara aljabar linier, komponen utama merupakan kombinasi-kombinasi linier dari p peubah acak
. Secara geometri, kombinasi linier ini
merupakan sistem koordinat baru yang diperoleh dari rotasi sistem semula dengan sebagai , ≥
sumbu
koordinat.
Misalkan
vektor
acak
- merupakan matriks kovarian ∑ dengan eigenvalue λ1 ≥ λ2
≥ λp ≥ 0.
Perhatikan kombinasi linier:
dengan:
Universitas Sumatera Utara
: kombinasi linier dari variabel X : variabel ke p : bobot atau koefisien untuk variabel ke p Var ( ) = Cov (
)=
Komponen utama adalah kombinasi linier ( )=
di mana variansi pada
sebesar mungkin.
Komponen utama pertama adalah kombinasi linier dengan variansi maksimum. Yang
( )
memaksimumkan
meningkat dengan mengalikan
.
( )
Jelas
dapat
dengan konstanta. Berdasarkan kenyataan di
atas, maka dapat dibuat pernyataan umum yang berkaitan dengan konsep analisis komponen utama sebagai berikut: Komponen utama ke-1
: kombinasi linier (
Komponen utama ke-2
) serta
: kombinasi linier (
Komponen utama ke-i
yang memaksimumkan
yang memaksimumkan
) serta
: kombinasi linier (
(
dan
)
yang memaksimumkan
) serta
dan
(
)
untuk k < i. Misalkan ∑ matriks kovarian yang bersesuaian dengan vektor acak [ (
]. )(
)
Misalkan (
∑
memiliki
pasangan
) dimana
eigenvalue–eigenvector . Komponen utama
ke-i diberikan oleh
Dengan, ( ) Cov (
)=
Jika beberapa λi sama, dengan vektor koefisien ei yang bersesuaian, maka Yi tidak tunggal. Bukti. B = ∑,
Universitas Sumatera Utara
(diperoleh ketika
)
karena eigenvector dinormalkan. Dengan demikian, ( ) Dengan cara yang sama,
Untuk
, dengan
, untuk
dan
( (
Karena
)
=
) (
maka
)
(
menunjukkan bahwa ei tegak lurus terhadap
. Tinggal ) memberikan
Cov(Yi Yk) = 0. Eigenvector dari ∑ orthogonal jika semua eigenvalue berbeda. Jika eigenvalue tidak berbeda semuanya, maka eigenvector yang bersesuaian dengan eigenvalue dapat dipilih supaya orthogonal. Dengan demikian, untuk setiap dua eigenvector ei dan , perkalian dengan (
. Karena
memberikan,
)
untuk setiap
. (terbukti)
Komponen utama tidak berkorelasi dan memiliki variansi sama dengan eigenvalue dari ∑ (Johnson dan Wichern, 2007). [
Misalkan
eigenvalue–eigenvector
] memiliki matriks kovarians ∑, dengan pasangan (
)(
)
(
)
di
. Misalkan
mana adalah komponen
utama. Maka, ∑ Bukti. Dari dimana
( ) ( ) dengan
∑
( )
, dapat ditulis
adalah matriks diagonal dari eigenvalue dan
[
]
Universitas Sumatera Utara
sedemikian sehingga (
)
( )
. Dapat diperoleh
( )
(
)
maka, ( )
∑
( )
( )
∑
( )
Total variansi populasi = Dan sebagai akibatnya, proporsi variansi total dari komponen utama ke-k adalah (
)
Misal apabila p berukuran besar, sedangkan diketahui bahwa sekitar 80% - 90% variansi populasi total telah mampu diterangkan oleh satu, dua, atau tiga komponen utama yang pertama, maka komponen-komponen utama itu telah dapat mengganti p buah varabel asal tanpa mengurangi informasi yang banyak. Setiap [
komponen dari vektor koefisien Besar
] juga harus diperiksa.
diukur dari variabel ke-k ke komponen utama ke-i, tanpa
memperhatikan variabel yang lain. Secara khusus
proporsional terhadap
koefisien korelasi antara Yi dan Xk (Johnson dan Wichern, 2007).
Misalkan
adalah komponen utama yang
diperoleh dari matriks kovarians ∑, maka √ √ adalah koefisien korelasi antara komponen Yi dan variabel Xk. Disini (
)(
)
(
) adalah pasangan eigenvalue– eigenvector dari ∑. ,
Bukti. Ambil (
)
- sedemikian sehingga
(
)
. Maka
√
(
)
( )√
(
(
. Karena
( )
dan
(
dan
)
)
menghasilkan: √
)
√ √
√
Universitas Sumatera Utara
Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan tetapi masih mengandung informasi atau karakteristik yang termuat dalam data awal secara signifikan. Tujuan utamanya adalah untuk menjelaskan sebanyak mungkin jumlah varian data awal dengan sedikit mungkin komponen utama. Sebagian besar variasi dalam himpunan variabel yang diamati cenderung berkumpul pada komponen utama pertama dan semakin sedikit informasi dari variabel awal yang terkumpul pada komponen utama terakhir. Hal ini berarti bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa kehilangan banyak informasi. Dengan cara ini analisis komponen utama dapat digunakan untuk mereduksi variabel-variabel. Komponen utama bersifat ortogonal yang artinya bahwa setiap komponen utama merupakan wakil dari seluruh variabel asal sehingga komponen-komponen utama tersebut dapat dijadikan pengganti variabel asal apabila analisis terhadap variabel tersebut membutuhkan ortogonalitas.
Penetapan banyaknya komponen utama untuk dapat ditafsirkan dengan baik dapat dilihat dari: a. Proporsi keragaman kumulatif dari komponen utama Menurut Morrison (1990), banyaknya komponen utama yang dipilih sudah cukup memadai apabila komponen utama tersebut mempunyai persentase keragaman kumulatif tidak kurang dari 75% dari total keragaman data. Sedangkan Johnson dan Wichern (2007) mengatakan bahwa komponen utama deng an kondisi persentase keragaman kumulatif sebesar 80-90%, dapat menggambarkan data asalnya. b. Nilai dari eigenvalue Pemilihan komponen utama yang digunakan, didasarkan ada nilai eigenvaluenya. Aturan yang digambarkan pada bagian ini khusus digunakan untuk matriks korelasi, meskipun dapat digunakan juga untuk beberapa jenis matriks kovarians. Ide dibalik aturan ini bahwa jika semua elemen x adalah independen, maka komponen utama sama dengan variabel asli dan semua memiliki unit varians pada kasus matriks korelasi. Sehingga setiap komponen utama dengan varians kurang dari 1 mengandung sedikit informasi dari salah
Universitas Sumatera Utara
satu variabel asli jadi tidak dapat dipertahankan. Dalam bentuk sederhana terkadang disebut aturan Kaiser (Kaiser’s rule) dan hanya mempertahankan komponen utama dengan varians lebih dari 1 (Jolliffe, 2002). Melakukan pengujian terhadap matriks korelasi dari data yang menjadi objek pengamatan. Matriks korelasi digunakan untuk melihat keeratan hubungan antara peubah yang satu dengan peubah yang lain. Ada dua macam pengujian yang dapat dilakukan terhadap matriks korelasi, yaitu: a. Uji Bartlett Pengujian ini dilakukan untuk melihat apakah matriks korelasinya bukan merupakan suatu matriks identitas, jika matriks korelasinya merupakan matriks identitas, maka tidak ada korelasi antarpeubah yang digunakan. Uji ini dipakai bila sebagian besar dari koefisien korelasi kurang dari 0,5. Hipotesis: H0 : Matriks korelasi merupakan matriks identitas H1 : Matriks korelasi bukan merupakan matriks identitas (
)
[(
)
]
| |
Keterangan: N
: Jumlah observasi
p
: Jumlah peubah
| | : Determinan dari matriks korelasi Uji Bartlett akan menolak H0 jika nilai (
)
b. Uji Kaiser Meyer Olkin (KMO) Uji KMO digunakan untuk mengetahui apakah metode penarikan sampel yang digunakan memenuhi syarat atau tidak. Di samping itu, uji KMO berguna untuk mengetahui apakah data yang digunakan dapat dianalisis lebih lanjut atau tidak. Rumusan uji KMO adalah: ∑ ∑
∑
∑ ∑
∑
Keterangan:
Universitas Sumatera Utara
rij
: Koefisien korelasi sederhana antara peubah i dan j
aij
: Koefisien korelasi parsial antara peubah i dan j
i,j
: 1,2, …,p
Apabila nilai KMO lebih besar dari 0,5 maka jumlah data telah cukup untuk dianalisis lebih lanjut.
2.5 Analisis Cluster Analisis cluster merupakan salah satu teknik statistik multivariat yang tujuan utamanya adalah untuk mengidentifikasi kelompok dari objek berdasarkan karakteristik yang mereka miliki, sehingga objek-objek dalam satu kelompok (cluster) akan memiliki kemiripan karakteristik (Hair, 2010). Analisis cluster melakukan sebuah usaha untuk menggabungkan keadaan atau objek ke dalam suatu kelompok, di mana anggota kelompok itu tidak diketahui sebelumnya untuk dianalisis. Menambahkan penjelasan di atas, Supranto (2004) mengatakan bahwa di dalam analisis cluster tidak ada pembedaan variabel bebas dan variabel tak bebas karena analisis cluster mengkaji hubungan interdependensi antara seluruh set variabel. Tujuan utamanya ialah mengelompokkan objek (kasus/elemen) ke dalam kelompok-kelompok yang relatif homogen didasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti. Karena yang diinginkan adalah untuk mendapatkan cluster yang sehomogen mungkin, maka yang digunakan sebagai dasar untuk mengclusterkan adalah kesamaan skor nilai yang dianalisis.
Sesuai prinsip dasar cluster yaitu mengelompokkan objek yang mempunyai kemiripan, maka proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Dengan memiliki sebuah ukuran kuantitatif untuk mengatakan bahwa dua objek tertentu lebih mirip dibandingkan dengan objek lain, akan mempermudah proses pengelompokan. Pengelompokan dilakukan berdasarkan kemiripan antar objek. Kemiripan diperoleh dengan meminimalkan jarak antar objek dalam kelompok dan memaksimalkan jarak antar kelompok. Salah satu yang biasa digunakan dalam analisis cluster adalah jarak euclidean. Jarak euclidean dapat digunakan jika variabel-variabel yang digunakan tidak
Universitas Sumatera Utara
terdapat korelasi dan memiliki satuan yang sama. Jarak euclidean diperoleh dengan rumus sebagai berikut: (
)
√∑(
)
dengan: d = jarak euclidean xi , yi = skor komponen utama ke-i
2.2.1 Analisis Cluster Metode K-Means Metode non hierarki dengan K-Means merupakan metode yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. KMeans bertujuan untuk mengelompokkan data sedemikian hingga jarak tiap-tiap data ke pusat kelompok dalam satu kelompok minimum. Dasar pengelompokkan dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) cluster terdekat (Johnson dan Wichern, 2007). Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan ukuran yang besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Mac Queen menyarankan bahwa penggunaan K-Means untuk menjelaskan algoritma dalam penentuan suatu objek ke dalam cluster tertentu berdasarkan rataan terdekat. Metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut: 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat 5. Kembali ke langkah 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid.
Universitas Sumatera Utara