BAB II TINJAUAN PUSTAKA Pada bab ini akan dibahas beberapa konsep yang menjadi dasar dalam penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis), metode penggerombolan hirarki (hierarchial cluster analysis), jarak Euclidean dan jarak Pearson, Korelasi serta Analisis Komponen Utama. Kriteria pemilihan pautan terbaik didasarkan pada Cluster Tightness Measure (CTM). 2.1
Analisis Peubah Ganda Analisis peubah ganda adalah salah satu metode statistika yang digunakan
untuk melihat hubungan antara lebih dari satu variabel bebas dan lebih dari satu variabel terikat. Teknik dalam analisis peubah ganda secara umum dapat digunakan dalam penelitian dengan tujuan sebagai berikut(Johnson, 2007): 1.
Memberikan penjelasan mengenai suatu fenomena dengan cara yang sederhana tanpa menghilangkan informasi penting yang ada di dalamnya.
2.
Objek yang memiliki ciri-ciri yang sama dikumpulkan dalam satu kelompok dan akan ditentukan langkah yang tepat dalam pengelompokan tersebut.
3.
Untuk mengamati setiap hubungan pada variabel-variabel yang digunakan.
4.
Meramalkan suatu variabel atau lebih berdasarkan hubungan masing-masing variabel lainnya.
5.
Melakukan pengujian hipotesis statistik berdasarkan penelitian sebelumnya.
Salah satu bagian dalam analisis peubah ganda adalah analisis gerombol. Berikut ini akan dibahas mengenai analisis gerombol. 1.2
Analisis Gerombol (Cluster Analysis) Analisis
gerombol
merupakan
salah
satu
teknik
statistika
yang
mengelompokkan obyek-obyek dalam satu gerombol.Tujuan dari analisis ini adalah untuk mengelompokkan obyek-obyek yang memiliki kesamaan dalam satu gerombol dan yang memiliki perbedaan dengan gerombol lain(Hair, 1995).Dalam hal ini, gerombol harus memiliki sifat homogen. Pengamatan dalam analisis gerombol dilakukan dengan mencari kesamaan antar obyek.Dalam berbagai kasus, kesamaan antar obyek didasarkan pada hasil pengukuran jarak. Ada beberapa cara mengukur jarak kedekatan yaitu jarak Euclidean, jarak Square Euclidean, jarak Pearson, jarak Korelasi, jarak Mutlak Korelasi, jarak Manhattan dan jarak Minkowski. Dalam penelitian ini digunakan jarak Euclidean dan jarak Pearson. Jarak Euclidean merupakan akar kuadrat dari jumlah perbedaan untuk nilai setiap variabel (Supranto, 2010). Jarak Euclidean antara obyek
dan obyek
didefinisikan sebagai (Rencher, 2002): √∑ dengan
(2.1)
merupakan nilai pengamatan variabel ke- dan obyek ke- ,
nilai pengamatan variabel ke-
dan obyek ke- .
merupakan
Jarak Pearson merupakan perluasan jarak Euclidean yang dirumuskan sebagai (Sutanto, 2009): √∑ dengan
adalah jarak Pearson antara obyek ke-
(2.2) dan obyek ke- , var (
)
merupakan varian dari variabel k, k = 1,2,3,…,n. Teknik dalam analisis gerombol sudah banyak diterapkan pada data dalam bidang kedokteran, psikiatri, sosiologi, kriminologi, antropologi, arkeologi, geologi, geografi, riset pasar, ekonomi, dan rekayasa. Salah satu bagian dalam analisis gerombol adalah metode penggerombolan hirarki. 1.3
Metode Penggerombolan Hirarki (Hierarchial Cluster Analysis) Metode hirarki terdiri dari dua metode penggerombolan yaitu metode
penggabungan dan metode pemisahan.Di antara kedua metode ini, metode penggabungan lebih sering digunakan. Metode penggabungan terdiri dari beberapa metode pautan, yaitu singlelinkage, complete linkage, average linkage, danward. Berikut ini dibahas masing – masing metode pautan tersebut. a)
Single linkage Metode single linkage pertama kali dikenalkan oleh Florek et al. pada tahun
1951(Everitt, 2011).Metode ini ditentukan berdasarkan jarak minimum. Jarak
minimum antara gerombol dengan gerombol dinotasikan
dan dituliskan sebagai (Johnson, 2007): {
dengan
dan gerombol dengan gerombol
dan
dan dari gerombol
}
(2.3)
secara berturut-turut adalah jarak dari gerombol ke gerombol ke gerombol
.Berikut diberikan contoh menghitung jarak
minimum. Misalkan diberikan matriks jarak pada 5 buah obyek.
1
D=
2
3
4
1
0
2
9
0
3
3
7
0
4
6
5
9
0
5
11
10
2
8
5
0
Gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5. Untuk itu dilakukan perhitungan jarak dari gerombol (35) ke gerombol yang lain, yaitu: {
}
{
}
{
}
{
}
{
}
{
}
Sehingga diperoleh matriks jarak baru
berikut. (35)
Pada matrik jarak
1
4
2
(35)
0
1
3
0
2
7
9
0
4
8
6
5
0
, jarak terdekat adalah (35) dan 1. Dari sini, dihitung jarak
antara gerombol 135 dengan 2 dan gerombol 135 dengan gerombol 4. {
}
{
}
{
}
{
}
Sehingga diperoleh matriks jarak tereduksi
.
(135)
Berdasarkan matriks jarak
2
(135)
0
2
7
0
4
6
5
4
0
, jarak terdekat selanjunya adalah 2 dan 4. Dari sini
kembali dihitung jarak terdekat dari gerombol (135) ke (24).
{
{
}
}
Oleh karena itu, pada tahap akhir diperoleh matrik jarak tereduksi (135)
b)
(135)
0
(24)
6
.
(24)
0
Complete linkage Metode complete linkage memiliki kemiripan dengan metode single
linkageakan tetapi jarak yang digunakan adalah jarak maksimum. Jarak maksimum antara gerombol
dengan gerombol
disimbolkan dengan { dengan
dan
dan antara gerombol
dengan gerombol
dan dituliskan sebagai(Johnson, 2007): }
(2.4)
secara berturut-turut adalah jarak dari gerombol ke gerombol
dan dari gerombol ke gerombol
. Selanjutnya, diberikan contoh perhitungan jarak
dengan metode complete linkage. Perhatikan matriks jarak D pada contoh terdahulu.Gerombol dengan jarak terdekat adalah gerombol 3 dan 5. Selanjutnya dihitung jarak maksimum antara gerombol (35) dengan gerombol-gerombol lain. {
}
{
{
}
{
{
}
{
} } }
Berdasarkan hasil perhitungan di atas disusun matriks jarak (35)
Berdasarkan matriks jarak
1
4
2
(35)
0
1
11
0
2
10
9
0
4
9
6
5
berikut.
0
, jarak terdekat kedua adalah 2 dan 4
Jarak maksimum antara gerombol (24) dengan gerombol-gerombol dapat dihitung sebagai berikut. {
}
{
}
Dari sini dapat disusun matriks jarak
{
} }
berikut. (35)
(24)
(35)
0
(24)
10
0
1
11
9
Lebih lanjut lagi, berdasarkan matriks jarak 1 dan (24). Diperhatikan bahwa:
{
1
0
diperoleh jarak terdekat ketiga yaitu
{ Sehingga diperoleh matriks jarak
}
{
}
. (35)
c)
(35)
0
(124)
11
(124)
0
Average linkage Metode average linkage memiliki kemiripan dengan single linkage dan
complete linkage, perbedaannya terletak pada perhitungan yang digunakan yaitu jarak rata-rata. Metode ini memiliki syarat menggabungkan pasangan gerombol dengan nilai varian terkecil. Jarak rata – rata antara gerombol gerombol
dituliskan sebagai: ∑ ∑
dengan
adalah jarak obyek
(2.5) (pada gerombol dan gerombol dengan gerombol
tersebut membentuk gerombol tunggal dan
dengan gerombol lain yaitu
secara berturut – turut
), dengan obyek
pada gerombol
,
merupakan obyek dalam gerombol
dan (Johnson, 2007). Selanjutnya, perhatikankembali matriks D pada contoh terdahulu gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5.Jarak rata-rata dari gerombol (35) dengan gerombol-gerombol lain adalah.
Dari sini dibentuk matriks
. (35)
Dari matriks jarak
1
2
(35)
0
1
7
0
2
8,5
9
0
4
8,5
6
5
4
0
dilakukan langkah sebelumnya yaitu mencari jarak terdekat
antara gerombol.Jarak terdekat adalah antara gerombol 2 dan 4, maka gerombol tersebut dan digabungkan menjadi satu gerombol.Selanjutnya dihitung jarak-jarak gerombol (35) dengan gerombol (35), antara gerombol (24) dengan gerombol (24) antara (24) dengan gerombol (35) dan 1. {
}
Berdasarkan perhitungan tersebut dibentuk matriks jarak
(35)
Berdasarkan matriks jarak
(24)
(35)
1
(24)
8,5
2,5
1
7
7,5
.
1
0
maka diperoleh jarak terdekat yaitu antara gerombol 1
dan (35). Dari sini jarak rata-rata antara gerombol (135) dengan gerombol lain adalah
Karena itu diperoleh matriks jarak
berikut ini. (35) (35)
0
(124)
11
(124)
0
d)Ward Metode Ward adalah metode yang menggabungkan dua gerombol dengan banyak pengamatan yang kecil.Perhitungan jarak antar gerombol yang digunakan dalam metode ini adalah jumlah kuadrat antara pasangan gerombol tersebut
berdasarkan jumlah semua variabel dari masing-masing gerombol.misalkan gerombol merupakan kombinasi gerombol
dan gerombol
, jumlah jarak gerombol
dituliskan sebagai (Rencher, 2002): ∑ ∑
(
∑ dengan
(
,
dan
,
̅
̅
,
̅
̅
(2.6)
̅)(
̅)
(2.7)
̅ )(
̅ ),
(2.8)
secara berturut-turut merupakan jumlah jarak gerombol ,
merupakan vektor kolom berupa nilai rata-rata obyek , ̅
,
= 1,2,3,…,n,
merupakan banyaknya obyek.
Pada masing-masing metode pautan setelah semua pasangan gerombol bergabung dalam satu gerombol penggabungan tersebut digambarkan dalam bentuk dendogram. 2.4
Pemilihan Metode Terbaik CTM merupakan ukuran perkiraan efektivitas dalam kelompok, merancang
ukuran antar kelompok, dan mengukur pemisahan dalam suatu kelompok (Victor, 2010). CTM diukur berdasarkan simpangan baku pada masing-masing kelompok yang dapat ditulis sebagai (Epps, 2005): ∑ dengan
r p
( ∑
)
(2.9)
: banyaknya kelompok : banyaknya variabel
Stm
: simpangan baku pada kelompok ke-t untuk variabel ke-m
Sm
: simpangan baku variabel ke-m
Pemilihan metode terbaik dilihat berdasarkan nilai CTM terkecil. 2.5
Korelasi Korelasi merupakan suatu nilai yang digunakan untuk mengetahui hubungan
antara dua variabel yaitu X dan Y(Sembiring, 2003). Misalkan terdapat pasangan variabel (
),…,(
), (
) dengan
,
, …,
dan ,
,…,
koefisien korelasi X dan Y dapat dihitung dengan(Sembiring, 2003): ̅ √∑
̅
̅ ∑
(2.10)
̅
Nilai koefisien korelasi berada pada kisaran interval -1 < korelasi dikatakan sempurna apabila X dan Y searah. Jika nilai berlawanan. Jika nilai
< 1. Nilai koefisien
= +1 yang artinya hubungan antara variabel
= -1, maka hubungan antara variabel X dan Y
= 0 maka antara variabel X dan Y tidak memiliki hubungan
yang linier. Korelasi dapat diklasifikasikan seperti pada Tabel 2.1. Tabel 2.1 Klasifikasi Korelasi Tinggi Korelasi Sedang rendah >-0,4
-0,75-(0,4)
<-0,75
Tidak ada Tinggi korelasi
Sedang
Korelasi rendah
0
0,4-0,75
< 0,4
>0,75
Sumber: Sembiring (1995) 2.6
Analisis Komponen Utama (PCA) PCA merupakan analisis statistika yang digunakan untuk memaksimalkan varian
berdasarkan kombinasi linier variabel(Rencher, 2002). Analisis PCA dapat dilakukan
apabila terdapat variabel ( bilangan asli) dan akan dicari variabel-variabel baru yang merupakan
hasil
kombinasi
linier
dari
variabel-variabel
sebelumnya
tanpa
menghilangkan informasi penting dari variabel sebelumnya. PCA tersusun berdasarkan kombinasi linier dari variabel acak
.
Pemilihan sistem koordinat baru dilakukan dengan merotasi sistem asli dengan sebagai sumbu koordinat.Sumbu baru tersebut mewakili arah dan memberikan penjelasan yang lebih sederhana mengenai struktur kovarians.PCA hanya bergantung pada matriks kovarian dan matriks korelasi.Pembentukannya tidak tergantung pada asumsi distribusi multivariat normal(Johnson, 2007). Selanjutnya, misalkan vektor acak kovarian dengan nilai eigen
[
] memiliki matriks Kombinasi linier vektor tersebut
sebagai berikut(Johnson, 2007):
: : (2.11) Untuk memperoleh bentuk PCA dari Teknik tersebut digunakan untuk memaksimalkan
dengan teknik perkalian lagrange. ∑
dengan
sebagai
berikut(Jolliffe, 1986): ∑
(2.12)
merupakan pengali lagrange selanjutnya dari persamaan (2.12) diturunkan terhadap kemudian hasil turunannya dibuat sama dengan 0 seperti pada persamaan (2.13) ∑
(2.13)
atau (∑ dengan
)
adalah matrik identitas berukuran (
vektor dimaksimalkan dengan
),
adalah nilai eigen. Jika p eigen
maka dapat dinotasikan,
∑
(2.14)
Hal ini berlaku juga pada pembentukan komponen
sampai dengan komponen
. Faktor dengan nilai eigen lebih besar dari 1 yang dianggap signifikan, sedangkan faktor-faktor lain yang memilliki nilai eigen kurang dari 1 dianggap tidak signifikan atau diabaikan(Hair, 1995).