14
DATA DAN METODE Sumber Data Data yang digunakan dalam penelitian ini adalah data hasil simulasi dan data dari paket Mclust ver 3.4.8. Data simulasi dibuat dalam dua jumlah amatan yaitu 50 dan 150. Tujuan dari data simulasi ini adalah untuk mengenalkan model karena data ini dihasilkan berdasarkan kondisi yang diinginkan. Penggunaan jumlah amatan yang berbeda, bertujuan untuk mengetahui efektifitas analisis gerombol berbasis model pada jumlah amatan kecil dan besar. Setiap kasus simulasi dilakukan sebanyak lima kali ulangan, hal ini dikarenakan setiap kasus yang digunakan pemilihannya dilakukan secara acak. Pemilihan jarak antar pusat gerombol dan ragam setiap peubah mengacu pada Pardede (2002). Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah (0,2), korelasi sedang (0,5) dan korelasi tinggi (0,8). Data simulasi yang dibangkitkan merupakan data himpunan campuran normal ganda, yang dibangkitkan dengan menggunakan fungsi mvnorm pada perangkat lunak program R ver.2.12.1. Kondisi kasus simulasi yang digunakan terbagi dalam empat kondisi jarak antar pusat gerombol yaitu (1) pusat antar gerombol sama, (2) pusat antar gerombol berdekatan, (3) pusat antar gerombol memiliki jarak sedang dan (4) pusat antar gerombol saling terpisah. Secara garis besar kondisi kasus simulasi yang digunakan dalam penelitian ini terangkum pada Tabel 3. Guna mendukung hasil penelitian ini digunakan data sekunder yang berasal dari paket Mclust yang terdiri atas data pohon dan data diabetes. Tujuan digunakannya data pohon yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran kecil, hal ini dikarenakan pada data pohon masing-masing peubah terdiri dari 31 pengamatan. Berbeda dengan tujuan digunakannya data pohon sebagai contoh penerapan, tujuan digunakannya data diabetes yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran besar, dikarenakan masing-masing peubah terdiri dari 145 pengamatan.
15
Tabel 3 Kondisi setiap kasus simulasi Jarak
Ragam Kecil
Sama Besar 5 3
Berbeda
3
Dekat d=5,099
9 5
Kecil
Besar 5
5 5
Berbeda
5 3
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 37 38 39 40
Jarak
Ragam
Sedang d=7,483
Kecil
3 7 3 7 7 3
3
Jauh d=9,899 4 9 4 9 9 3
4
Besar 5 Berbeda
3
9 5
Kecil
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 21 22 23 24 25 26 27 28 41 42 43 44 29 30 31 32 33 34 35 36 45 46 47 48
Metode Penelitian Pada data simulasi, prosedur yang digunakan terdiri atas tujuh tahap, yaitu: 1.
Membangkitkan data simulasi dengan menggunakan paket R Tahapan yang dilakukan dalam membangkitkan data simulasi dengan menggunakan paket R adalah sebagai berikut: i.
Menentukan banyak gerombol (G=3), banyak peubah (p=3) dan banyak amatan setiap gerombol (n1=n2=n3=50), dan sebaran setiap gerombol (Gk
ii.
Normal Ganda)
Menentukan parameter sebaran masing-masing gerombol, yaitu vektor rataan
, dan matriks peragam
tersebut diperoleh dengan cara:
. Matriks peragam
16
a.
Menentukan matriks
yang merupakan matriks diagonal
dengan elemen diagonalnya adalah standar deviasi masingmasing peubah, berdimensi 3x3 b.
Menentukan matriks
yang merupakan matriks korelasi antar
peubah, k=1,2,3 c.
Menghitung matriks peragam
iii.
Membangkitkan peubah acak sebanyak
untuk gerombol 1,
iv.
Membangkitkan peubah acak sebanyak
untuk gerombol 2,
v.
Membangkitkan peubah acak sebanyak
untuk gerombol 1,
vi.
Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi
vii.
Ulangi tahap ii - vi untuk kondisi penggerombolan yang telah ditentukan
Secara garis besar alur pembangkitan data dapat dilihat pada Gambar 1. 2.
Membuat plot dua komponen utama pada setiap kasus simulasi, guna melihat pola data dan mengidentifikasi penggerombolan objek.
3.
Menerapkan
metode
analisis
gerombol
berbasis
model
dengan
menggunakan paket Mclust pada program R. Tahapan yang digunakan dalam penggerombolan berbasis model adalah sebagai berikut: i.
Melakukan
penggerombolan
menggunakan model
berhirarki
gabungan
sehingga diperoleh nilai
G=1,2,..M dimana M merupakan jumlah gerombol maksimum. ii.
Melakukan algoritma EM yang dimulai dengan iterasi saat m=0 Tahap E
dengan untuk
17
Tahap M -
Metode kemungkinan maksimum
Metode Bayes
(
( (
-
(
(
(
(
(
(
(
(
(
tergantung model
tergantung model
Lakukan untuk iterasi (m+1) dan seterusnya, hingga diperoleh nilai maksimum loglikelihood atau masksimum posterior yang konvergen. iii.
Menghitung nilai BIC
iv.
Melakukan tahap i–iii
v.
Membandingkan nilai BIC untuk setiap solusi gerombol yang
untuk banyak gerombol yang berbeda,
terbentuk dan nilai BIC terbesar yang terpilih. 4.
Membandingkan dugaan parameter yang dihasilkan pada tahap 3 dengan parameter yang sebenarnya
5.
Membandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan hasil klasifikasi yang sebenarnya
6.
Menghitung rataan persentase salah pengelompokkan setiap gerombol
7.
Rataan persentase salah pengelompokkan yang terkecil menunjukkan bahwa metode analisis gerombol berbasis model lebih baik.
8.
Lakukan tahap 1-7 untuk jumlah amatan tiap gerombol 150.
Prosedur yang digunakan untuk contoh penerapan terdiri atas empat tahap yaitu: 1. Membuat plot dua komponen utama dari data yang digunakan untuk melihat pola dan mengidentifikasi penggerombolan objek 2. Melakukan uji normal ganda 3. Menerapkan
metode
analisis
gerombol
berbasis
model
dengan
menggunakan paket Mclust pada program R 4. Membandingkan nilai BIC yang dihasilkan oleh metode kemungkinan maksimum (MLE) dan metode Bayes (MAP) Secara garis besar, alur penelitian ini dapat dilihat pada Gambar 2
18
MULAI
Tentukan banyak gerombol (G=3), banyak peubah (p=3), banyak amatan setiap gerombol (n1=n2=n3=50; n1=n2=n3=150), dan sebaran setiap gerombol Tentukan parameter sebaran masing-masing gerombol.
Vektor rataan
Matriks peragam , dengan cara: a. Menentukan matriks (matriks diagonal, dengan elemen diagonal standar deviasi masingmasing peubah) b. Menentukan matriks (matriks korelasi antar peubah) c. Menghitung matriks peragam
d. Bangkitkan peubah acak n1 untuk gerombol 1,
Bangkitkan peubah acak n2 untuk gerombol 2,
Bangkitkan peubah acak n3 untuk gerombol 3,
Menggabungkan ketiga gerombol menjadi sebuah kasus simulasi
SELESAI
Gambar 1 Diagram alur pembangkitan data dengan R
19
MULAI Membangkitkan data simulasi
Jarak antar pusat gerombol sama
Jarak antar pusat gerombol dekat
Jarak antar pusat gerombol sedang
Jarak antar pusat gerombol jauh
Buat plot dua komponen utama
Menerapkan penggerombolan dengan metode berbasis model
Metode kemungkinan maksimum
Menerapkan penggerombolan dengan metode k-rataan
Metode Bayes
Bandingkan dugaan parameter yang dihasilkan dengan yang sebenarnya
Hitung persentase salah penggerombolan
Bandingkan persentase salah penggerombolan, yang dihasilkan dengan k-rataan dengan evaluasi terbaik dari model based
Bandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan yang sebenarnya
S E L E S A I
Hitung persentase salah penggerombolan
Bandingkan persentase salah penggerombolan dari masing-masing metode Bandingkan nilai BIC dari masing-masing metode Gambar 2 Diagram alur penelitian
20
MULAI
Masukkan data hasil simulasi
Hitung penggerombolan berhirarki
Lakukan algoritma EM untuk setiap model matriks peragam dan setiap gerombol
Hitung dan plotkan nilai BIC untuk setiap model matriks peragam
Tentukan model terbaik berdasarkan nilai BIC terbesar
SELESAI
Gambar 3 Diagram alur metode penggerombolan berbasis model