TINJAUAN PUSTAKA. bebas digunakan jarak euclidean - sedangkan bila terdapat. korelasi antar peubah digunakan jarak mahalanobis - -

3

TINJAUAN PUSTAKA Gambaran Umum Analisis Gerombol Analisis gerombol merupakan salah satu metode analisis peubah ganda yang bertujuan untuk mengelompokkan objek kedalam kelompok – kelompok tertentu yang relatif homogen berdasarkan kemiripan atau ketidakmiripan karakteristik– karakteristik yang dimiliki (Hair et al, 1998). Ukuran kemiripan yang digunakan adalah fungsi jarak antara dua objek. Bila antar peubah yang digunakan saling bebas digunakan jarak euclidean

-

korelasi antar peubah digunakan jarak mahalanobis dengan

sedangkan bila terdapat -

-

-

adalah matriks ragam peragam. Secara umum terdapat dua metode

penggerombolan yang menggunakan ukuran jarak, yaitu metode penggerombolan berhirarki dan metode penggerombolan tak berhirarki (Johnson, 1998). a.

Metode berhirarki Metode penggerombolan berhirarki dimulai dengan mengelompokkan dua

atau lebih objek yang memiliki kesamaan terdekat menjadi suatu gerombol baru sehingga jumlah gerombol berkurang satu pada setiap tahap, atau dengan menganggap seluruh objek berasal dari satu gerombol kemudian ketidakmiripan yang paling tinggi dipisah hingga tiap observasi menjadi gerombol sendiri– sendiri. Metode ini digunakan bila jumlah gerombol yang akan dibentuk belum diketahui sebelumnya. b.

Metode tak berhirarki Metode penggerombolan tak berhirarki digunakan bila banyaknya gerombol

yang akan dibentuk sudah diketahui sebelumnya. K-rataan merupakan metode tak berhirarki yang paling banyak digunakan. Penentuan objek kedalam gerombol tertentu pada metode ini berdasarkan rataan terdekat, yang terdiri dari tiga tahap. Tahap pertama mengambil k unit data pertama yang digunakan sebagai k pusat gerombol awal. Tahap kedua, menggabungkan setiap (n-k) data yang merupakan sisa objek ke pusat gerombol terdekat, kemudian dihitung masing-masing pusat (rataan) gerombol baru yang terbentuk dari hasil gabungan. Pada tahap ketiga, pusat gerombol yang terbentuk dijadikan sebuah titik pusat (rataan) gerombol

4

kemudian dilakukan penggabungan kembali dari setiap unit data ke dalam titik pusat terdekat. Ketiga tahap ini dilakukan hingga diperoleh gerombol yang konvergen yaitu adanya titik pusat yang tetap dan tidak ada lagi perubahan anggota di setiap gerombol. Metode penggerombolan tak berhirarki lainnya adalah metode penggerombolan berbasis model campuran. Penggerombolan Berbasis Model Metode penggerombolan berbasis model campuran mengasumsikan bahwa sebaran data yang digunakan adalah sebaran campuran dengan setiap subpopulasi mewakili suatu gerombol yang berbeda, sehingga dalam mendefinisikan setiap gerombol yang terbentuk digunakan distribusi statistik (Fraley,1998). Tujuan dari metode ini adalah untuk mengoptimalkan kemiripan antar objek dengan menggunakan pendekatan model peluang. Pendekatan tersebut dapat memodelkan data yang dimiliki dengan menerapkan pengaturan karakteristik yang berbedabeda dan menentukan jumlah gerombol yang sesuai dengan data seiring proses pemodelan karakteristik dari masing-masing gerombol tersebut. Berbeda dengan k-rataan yang perpindahan objek secara berulang dari satu gerombol ke gerombol lain mulai dari partisi awal berdasarkan jarak metrik, tehnik perpindahan objek pada analisis gerombol berbasis model didasarkan pada algoritma EM. Penentuan banyaknya gerombol dalam metode ini ditentukan dengan menggunakan BIC. Sebaran campuran merupakan campuran dari beberapa sebaran statistik, dimana contoh berasal dari populasi yang tidak sama. Sebaran ini digunakan dalam dua keadaan yaitu struktur campuran dari populasi diketahui dan struktur campuran dari populasi tidak diketahui. Dengan demikian pada keadaan pertama dapat diduga sebaran masing – masing subpopulasi dan proporsinya, sedangkan pada keadaan kedua dapat dilakukan klasifikasi data ke dalam subpopulasi berdasarkan

peluang

akhir

(Mclachlan

dan

Basford

1988).

Misalkan

adalah contoh acak peubah ganda p dari suatu populasi, dimana p menyatakan dimensi data dan n menyatakan banyaknya objek pengamatan yang dianggap berasal dari campuran G sub populasi, dengan fungsi kepekatan campurannya adalah ;

, dimana .

;

adalah fmp atau fkp campuran,

,

5

adalah proporsi subpopulasi ke-

dan

adalah fmp atau fkp subpopulasi.

Fungsi kepekatan campuran (fkp) dari subpopulasi tidak harus memiliki parameter dan sebaran yang sama, namun dalam penelitian ini digunakan fkp subpopulasi yang memiliki sebaran yang sama dan parameter yang berbeda. Dengan demikian fkp campuran untuk beberapa vektor parameter

yang tidak diketahui yaitu: (1)

Dengan asumsi contoh acak kepekatan objek

bebas stokastik dan identik, dengan fungsi

dari gerombol ke-k yaitu

, maka fungsi kepekatan

campuran pada persamaan (1) didefinisikan sebagai: (2) dimana

merupakan peluang suatu pengamatan berada pada komponen ke-k .

Dalam penelitian ini digunakan sebaran normal ganda yang dinotasikan dengan

(

, sehingga jika

merupakan fungsi kepekatan peubah

ganda campuran normal dengan parameter vektor rataan

dan matriks peragam

dapat dinyatakan dalam bentuk

Algoritma EM Dalam analisis gerombol berbasis model, algoritma EM dapat digunakan sebagai tehnik perpindahan objek sehingga dapat memutuskan hasil gerombol. Menurut Dempster (1977), algoritma ini merupakan metode perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan maksimum pada data tidak lengkap seperti yang terdapat pada sebaran campuran. Pada sebaran campuran dinyatakan bahwa data terdiri dari n pengamatan peubah ganda yang diperoleh dari dan

, dengan

merupakan peubah yang teramati

merupakan peubah yang tidak teramati.

gerombol dimana

memetakan objek ke dalam

yang didefinisikan dengan dan

(3

6

diasumsikan saling bebas dan terdistribusi identik menurut sebaran multinomial dari G kategori dengan peluang

dan fkp dari

dengan

adalah

. Setiap iterasi pada algoritma EM terdiri atas dua tahap yaitu expectation-step (tahap E) dan maximization-step (tahap M). Diketahui bahwa contoh acak

saling bebas dan

yang

menentukan objek dari gerombol mana berasal, maka

dengan

Fungsi kemungkinan yang diperoleh yaitu

Jika digunakan fungsi kepekatan peubah ganda campuran normal, maka fungsi kemungkinannya adalah: -

-

-

-

-

-

Tahap E Pada tahap E merupakan tahap untuk menghitung nilai harapan bersyarat dari loglikelihood. Dengan demikian, diperoleh:

-

-

-

-

-

-

dengan

Tahap M Pada tahap M merupakan tahap untuk memaksimalkan nilai harapan bersyarat dari loglikelihood. Paramater yang diduga yaitu proporsi campuran ( ), rata-rata ( ), dan matrik kovarian (

).

7

-

-

-

-

-

Terdapat dua metode pendugaan parameter yang bisa digunakan dalam tahap ini, yaitu metode kemungkinan maksimum dan metode Bayes. a.

Metode kemungkinan maksimum Pendugaan

parameter

dengan

menggunakan

metode

kemungkinan

maksimum bertujuan untuk mencari nilai fungsi loglikelihood yang paling maksimum (Fraley, 2002). Fungsi kemungkinan maksimum untuk peubah ganda yaitu

normal (n objek) -

-

-

-

-

-

-

(4

-

Pada model campuran dengan G komponen, fungsi kemungkinan maksimum likelihood didefinisikan sebagai:

Jika fkp dari pengamatan

yang diberikan oleh

adalah

, maka

loglikelihood data lengkap adalah: (5) Fraley & Raftery (2002) mengemukakan bahwa penduga parameter yang memaksimalkan

dihitung menggunakan

yang diperoleh pada

tahap E, dengan formula parameter sebagai berikut:

b.

Metode Bayes Pendugaan

parameter

dengan

menggunakan

metode

Bayes

yaitu

menggabungkan informasi yang dikandung dalam sampel dengan informasi lain yang telah tersedia sebelumnya. Asumsi yang digunakan dalam metode ini yaitu setiap parameter itu bervariasi menurut sebaran peluang tertentu yang disebut sebagai sebaran awal (Walpole, 1992). Sebaran peluang tersebut digunakan bersama-sama untuk menghitung sebaran posterior bagi parameter. Berdasarkan Fraley,2007 guna mencari penduga parameter yang dapat memaksimumkan posterior digunakan conjugate prior (konjugasi sebaran awal). Konjugasi sebaran

8

awal yang dimaksud untuk peubah ganda normal yaitu sebaran normal untuk kondisi rata-rata dengan syarat matriks peragam dan sebaran kebalikan wishart untuk kondisi matriks peragam. Dengan demikian fkp sebaran awal merupakan hasil kali dari sebaran normal dengan sebaran kebalikan wishart. Sebaran awal untuk rata-rata adalah sebaran normal (bersyarat pada matriks peragam), didefinisikan sebagai

-

-

(6)

dan sebaran awal matriks peragam yaitu sebaran kebalikan wishart, didefinisikan sebagai . (7)

dan

diasumsikan sama untuk semua komponen, dengan rincian

sebagai berikut: : rata-rata dari data : 0,01 (pemulusan bagian kurva BIC) : p+2 (untuk model spherical dan diagonal) :

(

dan

(untuk model ellipsoidal) adalah matriks peragam.

Fraley (2007) mengemukakan bahwa formula parameter yang digunakan guna memaksimalkan posterior, yang dihitung menggunakan

pada tahap E sebagai

berikut:

Iterasi ini berlangsung hingga diperoleh nilai loglikelihood atau nilai posterior yang konvergen.

9

Algoritma EM membutuhkan inisialisasi nilai awal dalam algoritmanya. Tingkat konvergensi bisa sangat lama apabila tidak digunakan nilai inisialisasi awal yang wajar. Banfiled (1993) menggunakan metode analisis gerombol berhirarki sebagai inisialisasi nilai awal

, kemudian secara iteratif dugaan nilai parameter akan

diperbaharui. Berdasarkan Fraley (2010), penentuan nilai awal

berdasarkan

penggabungan objek dilakukan berdasarkan jarak minimum. Karakteristik Geometrik Model Setiap gerombol yang terbentuk berpusat di

dan matriks peragam

yang dihasilkan akan menentukan karakteristik geometrik yaitu bentuk, volume dan orientasi (Fraley dan Raftery 2002). Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Bentuk komponen matriks peragam terdiri atas tiga macam yaitu spherical, diagonal dan ellipsoidal. Fraley (2007) mengemukakan formula berdasarkan metode pendugaan parameter yang digunakan, yaitu: a.

Metode kemungkinan maksimum 1.

2.

Bentuk spherical (sebanding dengan matriks identitas) -

Spherical sama

-

Spherical berbeda

Bentuk diagonal (sejajar sumbu) -

Diagonal sama

-

Diagonal berbeda

10

3.

b.

Bentuk ellipsoidal -

Diagonal sama

-

Diagonal berbeda

Metode bayes 1.

2.

Bentuk spherical (sebanding dengan matriks identitas) -

Spherical sama

-

Spherical berbeda

Bentuk diagonal (sejajar sumbu) -

Diagonal sama

-

Diagonal berbeda

3 3.

dengan

Bentuk ellipsoidal -

Diagonal sama

-

Diagonal berbeda

-

-

11

Guna mendefinisikan kelas metode penggerombolan berhirarki berdasarkan geometri lintas gerombol, Branfield dan Raftery (1993) menyatakan matriks peragam melalui suku-suku dekomposisi akar ciri untuk komponen

gerombol

model campuran peubah ganda dalam bentuk: (9 dimana adalah matriks vektor ciri adalah akar ciri terbesar dari adalah matriks diagonal dengan elemennya proporsional terhadap akar ciri dari

, yaitu

dimana

Ketiga suku dekomposisi diatas mencirikan karakteristik geometrik dimana mencirikan orientasi dari k gerombol,

mencirikan ukuran dan

mencirikan

bentuk. Ukuran tersebut diartikan sebagai volume dari cluster dalam p peubah yang berisi objek. Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Matriks peragam untuk semua komponen bisa sama atau bervariasi, yang secara umum dapat dilihat pada Tabel 1. Penentuan Jumlah Gerombol Jumlah gerombol terbaik dapat ditentukan dengan memilih model terbaik melalui nilai BIC terbesar. Fraley (1998) menyatakan bahwa pemilihan model terbaik dilakukan dengan membandingkan model parameterisasi matriks peragam yang berbeda dan banyaknya gerombol yang berbeda. Secara umum formulasi yang digunakan adalah sebagai berikut: (10) dimana = loglikelihood yang dimaksimalkan untuk model dan data = jumlah parameter bebas yang diduga dalam model = jumlah observasi dalam data.

12

Tabel 1

Matriks peragam untuk model campuran normal ganda dan interpretasi geometrik

Simbol Mclust EII VII EEI VEI EVI VVI EEE VEE

Bentuk

Prior

Spherical Spherical Diagonal Diagonal Diagonal Diagonal Ellipsoidal

Dipakai untuk

Inverse gamma Inverse gamma Inverse gamma Setiap anggota diagonal

Inverse gamma Setiap anggota diagonal Inverse wishart Inverse gamma Inverse wishart

EVE VVE EEV VEV EVV

Ellipsoidal Ellipsoidal Inverse gamma Setiap anggota diagonal Ellipsoidal Inverse gamma Setiap anggota diagonal Ellipsoidal Ellipsoidal Inverse gamma Inverse wishart VVV Ellipsoidal Inverse wishart Sumber: (Fraley, 2007). Jika pada algoritma EM ingin dihasilkan nilai maksimum posterior yang konvergen, maka

pada persamaan diatas diganti dengan nilai

posterior (Fraley,2007). Dalam perhitungan nilai BIC setiap model dibutuhkan informasi mengenai jumlah parameter bebas yang diduga, yang secara garis besar dapat dilihat pada Tabel 2. Tabel 2

Parameter bebas tiap model

Model

Parameter Bebas

( ( ( ( Sumber: (Celeux,2006)

(

13

Fraley

(2002)

membuat

strategi

metode

berbasis

model

dengan

mengkombinasikan penggerombolan hirarki, algoritma EM dan faktor bayes, dengan langkah–langkah sebagai berikut: 1.

Tentukan banyak gerombol maksimum ( ) dari himpunan model campuran

2.

Lakukan penggerombolan secara hirarki penggabungan, untuk setiap model campuran normal ganda. Hasil gerombol ini ditransformasikan ke dalam peubah indikator, yang kemudian digunakan sebagai nilai awal untuk algoritma EM

3.

Lakukan algoritma EM untuk setiap model dan setiap gerombol

3

,

yang dimulai dengan klasifikasi dari gerombol berhirarki 4.

Hitung nilai BIC untuk kasus satu gerombol pada setiap model dan model campuran, dengan parameter optimal dari algoritma EM untuk gerombol

3

TINJAUAN PUSTAKA. bebas digunakan jarak euclidean - sedangkan bila terdapat. korelasi antar peubah digunakan jarak mahalanobis - -

Recommend Documents