BAB II TINJAUAN PUSTAKA. penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),

BAB II TINJAUAN PUSTAKA Pada bab ini akan dibahas beberapa konsep yang menjadi dasar dalam penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis), metode penggerombolan hirarki (hierarchial cluster analysis), jarak Euclidean dan jarak Pearson, Korelasi serta Analisis Komponen Utama. Kriteria pemilihan pautan terbaik didasarkan pada Cluster Tightness Measure (CTM). 2.1

Analisis Peubah Ganda Analisis peubah ganda adalah salah satu metode statistika yang digunakan

untuk melihat hubungan antara lebih dari satu variabel bebas dan lebih dari satu variabel terikat. Teknik dalam analisis peubah ganda secara umum dapat digunakan dalam penelitian dengan tujuan sebagai berikut(Johnson, 2007): 1.

Memberikan penjelasan mengenai suatu fenomena dengan cara yang sederhana tanpa menghilangkan informasi penting yang ada di dalamnya.

2.

Objek yang memiliki ciri-ciri yang sama dikumpulkan dalam satu kelompok dan akan ditentukan langkah yang tepat dalam pengelompokan tersebut.

3.

Untuk mengamati setiap hubungan pada variabel-variabel yang digunakan.

4.

Meramalkan suatu variabel atau lebih berdasarkan hubungan masing-masing variabel lainnya.

5.

Melakukan pengujian hipotesis statistik berdasarkan penelitian sebelumnya.

Salah satu bagian dalam analisis peubah ganda adalah analisis gerombol. Berikut ini akan dibahas mengenai analisis gerombol. 1.2

Analisis Gerombol (Cluster Analysis) Analisis

gerombol

merupakan

salah

satu

teknik

statistika

yang

mengelompokkan obyek-obyek dalam satu gerombol.Tujuan dari analisis ini adalah untuk mengelompokkan obyek-obyek yang memiliki kesamaan dalam satu gerombol dan yang memiliki perbedaan dengan gerombol lain(Hair, 1995).Dalam hal ini, gerombol harus memiliki sifat homogen. Pengamatan dalam analisis gerombol dilakukan dengan mencari kesamaan antar obyek.Dalam berbagai kasus, kesamaan antar obyek didasarkan pada hasil pengukuran jarak. Ada beberapa cara mengukur jarak kedekatan yaitu jarak Euclidean, jarak Square Euclidean, jarak Pearson, jarak Korelasi, jarak Mutlak Korelasi, jarak Manhattan dan jarak Minkowski. Dalam penelitian ini digunakan jarak Euclidean dan jarak Pearson. Jarak Euclidean merupakan akar kuadrat dari jumlah perbedaan untuk nilai setiap variabel (Supranto, 2010). Jarak Euclidean antara obyek

dan obyek

didefinisikan sebagai (Rencher, 2002): √∑ dengan

(2.1)

merupakan nilai pengamatan variabel ke- dan obyek ke- ,

nilai pengamatan variabel ke-

dan obyek ke- .

merupakan

Jarak Pearson merupakan perluasan jarak Euclidean yang dirumuskan sebagai (Sutanto, 2009): √∑ dengan

adalah jarak Pearson antara obyek ke-

(2.2) dan obyek ke- , var (

)

merupakan varian dari variabel k, k = 1,2,3,…,n. Teknik dalam analisis gerombol sudah banyak diterapkan pada data dalam bidang kedokteran, psikiatri, sosiologi, kriminologi, antropologi, arkeologi, geologi, geografi, riset pasar, ekonomi, dan rekayasa. Salah satu bagian dalam analisis gerombol adalah metode penggerombolan hirarki. 1.3

Metode Penggerombolan Hirarki (Hierarchial Cluster Analysis) Metode hirarki terdiri dari dua metode penggerombolan yaitu metode

penggabungan dan metode pemisahan.Di antara kedua metode ini, metode penggabungan lebih sering digunakan. Metode penggabungan terdiri dari beberapa metode pautan, yaitu singlelinkage, complete linkage, average linkage, danward. Berikut ini dibahas masing – masing metode pautan tersebut. a)

Single linkage Metode single linkage pertama kali dikenalkan oleh Florek et al. pada tahun

1951(Everitt, 2011).Metode ini ditentukan berdasarkan jarak minimum. Jarak

minimum antara gerombol dengan gerombol dinotasikan

dan dituliskan sebagai (Johnson, 2007): {

dengan

dan gerombol dengan gerombol

dan

dan dari gerombol

}

(2.3)

secara berturut-turut adalah jarak dari gerombol ke gerombol ke gerombol

.Berikut diberikan contoh menghitung jarak

minimum. Misalkan diberikan matriks jarak pada 5 buah obyek.

1

D=

2

3

4

1

0

2

9

0

3

3

7

0

4

6

5

9

0

5

11

10

2

8

5

0

Gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5. Untuk itu dilakukan perhitungan jarak dari gerombol (35) ke gerombol yang lain, yaitu: {

}

{

}

{

}

{

}

{

}

{

}

Sehingga diperoleh matriks jarak baru

berikut. (35)

Pada matrik jarak

1

4

2

(35)

0

1

3

0

2

7

9

0

4

8

6

5

0

, jarak terdekat adalah (35) dan 1. Dari sini, dihitung jarak

antara gerombol 135 dengan 2 dan gerombol 135 dengan gerombol 4. {

}

{

}

{

}

{

}

Sehingga diperoleh matriks jarak tereduksi

.

(135)

Berdasarkan matriks jarak

2

(135)

0

2

7

0

4

6

5

4

0

, jarak terdekat selanjunya adalah 2 dan 4. Dari sini

kembali dihitung jarak terdekat dari gerombol (135) ke (24).

{

{

}

}

Oleh karena itu, pada tahap akhir diperoleh matrik jarak tereduksi (135)

b)

(135)

0

(24)

6

.

(24)

0

Complete linkage Metode complete linkage memiliki kemiripan dengan metode single

linkageakan tetapi jarak yang digunakan adalah jarak maksimum. Jarak maksimum antara gerombol

dengan gerombol

disimbolkan dengan { dengan

dan

dan antara gerombol

dengan gerombol

dan dituliskan sebagai(Johnson, 2007): }

(2.4)

secara berturut-turut adalah jarak dari gerombol ke gerombol

dan dari gerombol ke gerombol

. Selanjutnya, diberikan contoh perhitungan jarak

dengan metode complete linkage. Perhatikan matriks jarak D pada contoh terdahulu.Gerombol dengan jarak terdekat adalah gerombol 3 dan 5. Selanjutnya dihitung jarak maksimum antara gerombol (35) dengan gerombol-gerombol lain. {

}

{

{

}

{

{

}

{

} } }

Berdasarkan hasil perhitungan di atas disusun matriks jarak (35)


1

4

2

(35)

0

1

11

0

2

10

9

0

4

9

6

5

berikut.

0

, jarak terdekat kedua adalah 2 dan 4

Jarak maksimum antara gerombol (24) dengan gerombol-gerombol dapat dihitung sebagai berikut. {

}

{

}

Dari sini dapat disusun matriks jarak

{

} }

berikut. (35)

(24)

(35)

0

(24)

10

0

1

11

9

Lebih lanjut lagi, berdasarkan matriks jarak 1 dan (24). Diperhatikan bahwa:

{

1

0

diperoleh jarak terdekat ketiga yaitu

{ Sehingga diperoleh matriks jarak

}

{

}

. (35)

c)

(35)

0

(124)

11

(124)

0

Average linkage Metode average linkage memiliki kemiripan dengan single linkage dan

complete linkage, perbedaannya terletak pada perhitungan yang digunakan yaitu jarak rata-rata. Metode ini memiliki syarat menggabungkan pasangan gerombol dengan nilai varian terkecil. Jarak rata – rata antara gerombol gerombol

dituliskan sebagai: ∑ ∑

dengan

adalah jarak obyek

(2.5) (pada gerombol dan gerombol dengan gerombol

tersebut membentuk gerombol tunggal dan

dengan gerombol lain yaitu

secara berturut – turut

), dengan obyek

pada gerombol

,

merupakan obyek dalam gerombol

dan (Johnson, 2007). Selanjutnya, perhatikankembali matriks D pada contoh terdahulu gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5.Jarak rata-rata dari gerombol (35) dengan gerombol-gerombol lain adalah.

Dari sini dibentuk matriks

. (35)

Dari matriks jarak

1

2

(35)

0

1

7

0

2

8,5

9

0

4

8,5

6

5

4

0

dilakukan langkah sebelumnya yaitu mencari jarak terdekat

antara gerombol.Jarak terdekat adalah antara gerombol 2 dan 4, maka gerombol tersebut dan digabungkan menjadi satu gerombol.Selanjutnya dihitung jarak-jarak gerombol (35) dengan gerombol (35), antara gerombol (24) dengan gerombol (24) antara (24) dengan gerombol (35) dan 1. {

}

Berdasarkan perhitungan tersebut dibentuk matriks jarak

(35)


(24)

(35)

1

(24)

8,5

2,5

1

7

7,5

.

1

0

maka diperoleh jarak terdekat yaitu antara gerombol 1

dan (35). Dari sini jarak rata-rata antara gerombol (135) dengan gerombol lain adalah

Karena itu diperoleh matriks jarak

berikut ini. (35) (35)

0

(124)

11

(124)

0

d)Ward Metode Ward adalah metode yang menggabungkan dua gerombol dengan banyak pengamatan yang kecil.Perhitungan jarak antar gerombol yang digunakan dalam metode ini adalah jumlah kuadrat antara pasangan gerombol tersebut

berdasarkan jumlah semua variabel dari masing-masing gerombol.misalkan gerombol merupakan kombinasi gerombol

dan gerombol

, jumlah jarak gerombol

dituliskan sebagai (Rencher, 2002): ∑ ∑

(

∑ dengan

(

,

dan

,

̅

̅

,

̅

̅

(2.6)

̅)(

̅)

(2.7)

̅ )(

̅ ),

(2.8)

secara berturut-turut merupakan jumlah jarak gerombol ,

merupakan vektor kolom berupa nilai rata-rata obyek , ̅

,

= 1,2,3,…,n,

merupakan banyaknya obyek.

Pada masing-masing metode pautan setelah semua pasangan gerombol bergabung dalam satu gerombol penggabungan tersebut digambarkan dalam bentuk dendogram. 2.4

Pemilihan Metode Terbaik CTM merupakan ukuran perkiraan efektivitas dalam kelompok, merancang

ukuran antar kelompok, dan mengukur pemisahan dalam suatu kelompok (Victor, 2010). CTM diukur berdasarkan simpangan baku pada masing-masing kelompok yang dapat ditulis sebagai (Epps, 2005): ∑ dengan

r p

( ∑

)

(2.9)

: banyaknya kelompok : banyaknya variabel

Stm

: simpangan baku pada kelompok ke-t untuk variabel ke-m

Sm

: simpangan baku variabel ke-m

Pemilihan metode terbaik dilihat berdasarkan nilai CTM terkecil. 2.5

Korelasi Korelasi merupakan suatu nilai yang digunakan untuk mengetahui hubungan

antara dua variabel yaitu X dan Y(Sembiring, 2003). Misalkan terdapat pasangan variabel (

),…,(

), (

) dengan

,

, …,

dan ,

,…,

koefisien korelasi X dan Y dapat dihitung dengan(Sembiring, 2003): ̅ √∑

̅

̅ ∑

(2.10)

̅

Nilai koefisien korelasi berada pada kisaran interval -1 < korelasi dikatakan sempurna apabila X dan Y searah. Jika nilai berlawanan. Jika nilai

< 1. Nilai koefisien

= +1 yang artinya hubungan antara variabel

= -1, maka hubungan antara variabel X dan Y

= 0 maka antara variabel X dan Y tidak memiliki hubungan

yang linier. Korelasi dapat diklasifikasikan seperti pada Tabel 2.1. Tabel 2.1 Klasifikasi Korelasi Tinggi Korelasi Sedang rendah >-0,4

-0,75-(0,4)

<-0,75

Tidak ada Tinggi korelasi

Sedang

Korelasi rendah

0

0,4-0,75

< 0,4

>0,75

Sumber: Sembiring (1995) 2.6

Analisis Komponen Utama (PCA) PCA merupakan analisis statistika yang digunakan untuk memaksimalkan varian

berdasarkan kombinasi linier variabel(Rencher, 2002). Analisis PCA dapat dilakukan

apabila terdapat variabel ( bilangan asli) dan akan dicari variabel-variabel baru yang merupakan

hasil

kombinasi

linier

dari

variabel-variabel

sebelumnya

tanpa

menghilangkan informasi penting dari variabel sebelumnya. PCA tersusun berdasarkan kombinasi linier dari variabel acak

.

Pemilihan sistem koordinat baru dilakukan dengan merotasi sistem asli dengan sebagai sumbu koordinat.Sumbu baru tersebut mewakili arah dan memberikan penjelasan yang lebih sederhana mengenai struktur kovarians.PCA hanya bergantung pada matriks kovarian dan matriks korelasi.Pembentukannya tidak tergantung pada asumsi distribusi multivariat normal(Johnson, 2007). Selanjutnya, misalkan vektor acak kovarian dengan nilai eigen

[

] memiliki matriks Kombinasi linier vektor tersebut

sebagai berikut(Johnson, 2007):

: : (2.11) Untuk memperoleh bentuk PCA dari Teknik tersebut digunakan untuk memaksimalkan

dengan teknik perkalian lagrange. ∑

dengan

sebagai

berikut(Jolliffe, 1986): ∑

(2.12)

merupakan pengali lagrange selanjutnya dari persamaan (2.12) diturunkan terhadap kemudian hasil turunannya dibuat sama dengan 0 seperti pada persamaan (2.13) ∑

(2.13)

atau (∑ dengan

)

adalah matrik identitas berukuran (

vektor dimaksimalkan dengan

),

adalah nilai eigen. Jika p eigen

maka dapat dinotasikan,

∑

(2.14)

Hal ini berlaku juga pada pembentukan komponen

sampai dengan komponen

. Faktor dengan nilai eigen lebih besar dari 1 yang dianggap signifikan, sedangkan faktor-faktor lain yang memilliki nilai eigen kurang dari 1 dianggap tidak signifikan atau diabaikan(Hair, 1995).

BAB II TINJAUAN PUSTAKA. penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),

Recommend Documents