6
6. Catat persentase salah klasifikasi dari hasil penggerombolan. 7. Ulangi langkah 2-6 sebanyak tiga puluh kali.
efisien untuk menentukan lebar jendela fungsi kernel Gaussian. Tabel 4
HASIL DAN PEMBAHASAN Penentuan Lebar Jendela Fungsi Kernel Penentuan lebar jendela fungsi kernel Gaussian merupakan hal yang sangat penting untuk mendapatkan hasil penggerombolan yang baik. Pemilihan lebar jendela dapat dilakukan dengan memasukkan nilai-nilai secara berurutan hingga didapatkan hasil penggerombolan sesuai dengan yang diinginkan. Namun cara tersebut tidak efisien karena akan memerlukan banyak waktu. Salah satu cara yang dapat digunakan untuk menentukan lebar jendela fungsi kernel Gaussian yang efisien adalah dengan perkiraan kasar: B7D ,-,…, C8 , 8 . w
Gugus data D1, D22, dan D25 digunakan untuk membuktikan keefisienan perkiraan kasar. Masing-masing gugus data merupakan perwakilan jenis-jenis gugus data yang disimulasikan. Lebar jendela untuk gugus data D1, D22, dan D25 dengan menggunakan perkiraan kasar secara berturut-turut adalah 1.5289, 2.2516, dan 1.4921. Persentase salah klasifikasi penggerombolan untuk seluruh nilai lebar jendela yang dicobakan pada gugus data D1, D22, dan D25 tertera pada Tabel 4, Tabel 5, dan Tabel 6. Pada gugus data D1 didapatkan persentase salah klasifikasi minimum sebesar 11.83% pada saat lebar jendela 2. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 12.67%. Pada gugus data D22 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 3, 3.5, dan 4. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 1.33%. Pada gugus data D25 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 2, 2.5, 3, dan 3.5. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 0.33%. Hasil persentase salah klasifikasi yang dihasilkan oleh lebar jendela yang dihitung dengan perkiraan kasar bukan merupakan persentase salah klasifikasi yang paling minimum dari setiap gugus data. Namun perbedaannya dengan nilai persentase salah klasifikasi minimum pada setiap gugus data sangat kecil. Hal ini menunjukkan bahwa perkiraan kasar merupakan cara yang cukup
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D1
Lebar Persentase Salah Klasifikasi Jendela 0.5 39.67 1 28.33 1.5 17.67 2 11.83 2.5 12.33 3 12.50 3.5 12.00 4 12.17 4.5 12.17 5 12.17 1.5389* 12.67 Keterangan: * dihitung dengan perkiraan kasar
Tabel 5
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D22
Lebar Persentase Salah Klasifikasi Jendela 0.5 40.33 1 31.17 1.5 8.5 2 3.17 2.5 0.67 3 0 3.5 0 4 0 4.5 0.17 5 0.17 2.2516* 1.33 Keterangan: * dihitung dengan perkiraan kasar Tabel 6
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D25
Lebar Persentase Salah Klasifikasi Jendela 0.5 17.33 1 1.83 1.5 0.33 2 0 2.5 0 3 0 3.5 0 4 25.50 4.5 25.83 5 25.83 1.4921* 0.33 Keterangan: * dihitung dengan perkiraan kasar
7
Konsistensi Metode Pada masing-masing metode dilakukan ulangan sebanyak tiga puluh kali untuk masing-masing data simulasi. Pengulangan digunakan untuk mengetahui konsistensi hasil penggerombolan dari masing-masing metode. Konsistensi hasil penggerombolan perlu diukur karena penetapan keanggotaan gerombol awal untuk masing-masing objek sangat berpengaruh terhadap hasil akhir dari penggerombolan. Konsistensi metode ditentukan berdasarkan selang persentase salah klasifikasi dari tiga puluh kali ulangan pada masing-masing kasus data simulasi. Jika nilai maksimum dan minimum dari persentase salah klasifikasi tidak berbeda terlalu jauh dapat dikatakan bahwa metode tersebut konsisten. Hasil akhir penggerombolan dengan metode k-rataan dan k-rataan kernel juga ditentukan oleh inisialisasi nilai awal pusatpusat gerombol. Pada kenyataannya nilai pusat-pusat awal gerombol sulit untuk ditentukan sehingga sering digunakan objekobjek yang dipilih secara acak sebagai pusatpusat gerombol awal. Diagram kotak garis pada Gambar 1 dan Gambar 2 menggambarkan sebaran persentase salah klasifikasi dari tiga puluh ulangan untuk masing-masing metode pada tiap gugus data simulasi D1-D26. Diagram kotak garis pada Gambar 1 menunjukkan bahwa metode k-rataan merupakan metode yang memberikan hasil akhir penggerombolan yang konsisten. Sebagian besar hasil penggerombolan memberikan nilai yang sama pada setiap ulangannya. Hanya beberapa contoh data simulasi yang menghasilkan variasi hasil akhir penggerombolan namun tidak memiliki perbedaan yang signifikan. Diagram kotak garis pada Gambar 2 menunjukkan bahwa metode k-rataan kernel memberikan hasil penggerombolan yang tidak konsisten pada beberapa gugus data. Gugus data dengan hasil penggerombolan yang tidak konsisten adalah gugus data simulasi dengan gerombol-gerombol yang memiliki anggota yang tumpang tindih. Konsistensi hasil penggerombolan dapat dilihat pada gugus data dengan gerombol terpisah secara linier (D13, D14, D15, D16, D17, D18, D22, D23 dan D24) dan gugus data dengan gerombol terpisah secara non linier (D25 dan D26). Hasil Penggerombolan Metode analisis gerombol yang baik akan memberikan persentase salah klasifikasi yang kecil. Analisis mengenai kebaikan
penggerombolan juga dilakukan dengan melakukan plot data hasil penggerombolan. Plot tersebut digunakan untuk melihat kemampuan tiap metode untuk mengenali pola yang ada pada data. Gerombol Terpisah Secara Linier Persentase salah klasifikasi yang kecil dihasilkan oleh kedua metode pada gugus data D13, D14, D15, D16, D17, D18, D22, D23 dan D24. Karakteristik utama dari gugusgugus data tersebut adalah memiliki jarak antar pusat gerombol yang jauh serta memiliki keragaman data yang kecil sehingga gerombol-gerombol yang dihasilkan benarbenar terpisah secara linier. Persentase salah klasifikasi yang kecil untuk kedua metode menunjukkan bahwa metode k-rataan dan metode k-rataan kernel mampu menggerombolkan sembilan gugus data tersebut dengan sangat baik. Kesalahan klasifikasi yang terjadi disebabkan beberapa data yang menyebar terlalu jauh dari pusat gerombol asli sehingga terklasifikasi sebagai anggota gerombol yang lain. Persentase salah klasifikasi untuk sembilan gugus data tersebut dapat dilihat pada Tabel 7. Ilustrasi mengenai hasil penggerombolan dengan kedua metode dapat dilihat pada Gambar 3. Persentase salah klasifikasi yang kecil dari kedua metode dan konsistensi hasil penggerombolan kedua metode menunjukkan bahwa kedua metode mampu bekerja dengan baik pada data yang terpisah secara linier. Plot tebaran data dan hasil penggerombolan untuk gugus data D13, D14, D15, D17, D18, D22, D23, dan D24 selengkapnya tertera pada Lampiran 1 sampai Lampiran 8. Gerombol Dengan Anggota Tumpang Tindih Gugus data D1-D12 merupakan gugusgugus data yang memiliki jarak antar pusat gerombol yang kecil sehingga membesarnya ragam peubah-peubahnya akan membuat semakin banyak tumpang tindih anggota gerombol. Gugus data D19-D21 memiliki jarak antar pusat gerombol yang besar namun masing-masing gerombol memiliki ragam yang besar juga sehingga terjadi tumpang tindih anggota gerombol. Gugus data D1-D12 dan D19-D21 merupakan gugus-gugus data dengan anggota yang tumpang tindih. Ratarata persentase salah klasifikasi untuk gugusgugus data tersebut tersedia pada Tabel 8. Ilustrasi penggerombolan oleh kedua metode tersedia pada Gambar 4.
8
Gambar 1 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan
Gambar 2 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan kernel Persentase salah klasifikasi yang besar dihasilkan metode k-rataan pada gugus data D1-D12. Persentase salah klasifikasi juga semakin meningkat ketika ragam peubahpeubah pada masing-masing gerombol diperbesar. Karakteristik penggerombolan dengan metode k-rataan yang hanya mampu memisahkan secara linier membuat pemisahan gerombol dilakukan tepat di tengah-tengah. Hal tersebut menyebabkan salah klasifikasi bagi anggota-anggota gerombol yang tumpang tindih. Gugus data D19-D21 memiliki persentase salah klasifikasi metode k-rataan cukup baik. Hal ini disebabkan jarak antar gerombol pada gugus-gugus data tersebut memiliki jarak antar pusat gerombol yang jauh. Salah klasifikasi disebabkan objek-objek
yang tumpang tindih karena ragam peubahnya yang besar. Metode k-rataan kernel menghasilkan hasil salah klasifikasi yang tidak jauh berbeda dengan metode k-rataan ketika diterapkan pada gerombol-gerombol yang memiliki anggota tumpang tindih. Persentase salah klasifikasi yang cukup besar menunjukkan bahwa metode k-rataan kernel juga tidak dapat menggerombolkan dengan baik jika terdapat anggota gerombol yang tumpang tindih. Metode k-rataan kernel juga memperlihatkan hasil yang tidak konsisten jika diterapkan pada gerombol-gerombol yang memiliki anggota yang tumpang tindih. Hal tersebut dapat terlihat dari nilai minimum dan maksimum dari persentase salah klasifikasi yang berbeda cukup jauh. Dari ilustrasi pada
9
Tabel 7 Data D13 D14 D15 D16 D17 D18 D22 D23 D24
Rata-rata persentase salah klasifikasi gerombol terpisah secara linier k-Rataan k-Rataan Kernel d , d l Z 0.1 0.00 0.00 4 0.5 0.00 0.00 0.9 0.00 0.00 0.1 0.67 1.09 d 10,10 9 0.5 0.00 0.79 d 25,10 0.9 0.50 2.17 0.1 0.33 1.33 Z 4 0.5 1.17 2.53 Z 9 0.9 0.17 1.06
Gambar 3 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D16, (b) Hasil penggerombolan metode k-rataan pada data D16, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D16
Gambar 4, terlihat bahwa metode k-rataan kernel memiliki cara pemisahan gerombol yang berbeda dengan metode k-rataan. Metode k-rataan kernel tidak langsung memisahkan gerombol dengan suatu garis lurus. Posisi gerombol-gerombol yang dihasilkan juga tidak selalu sama. Hasil penggerombolan yang tidak konsisten dan perubahan posisi gerombol di setiap ulangan diduga karena inisialisasi anggota gerombol awal yang berbeda-beda. Plot tebaran data dan hasil penggerombolan untuk gugus data D1, D2, D3, D5, D6, D7, D8, D9, D10, D11, D12, D19, D20, dan D21 selengkapnya tertera pada Lampiran 9 sampai Lampiran 22.
Gerombol Terpisah Secara Non Linier Gugus data D25 dan D26 merupakan gugus data dengan gerombol yang terpisah secara non linier. Perbedaan dari kedua gugus data tersebut adalah pada bentuk data. Gugus data D25 memiliki bentuk gerombol berupa lingkaran sedangkan gugus data D26 memiliki bentuk gerombol berupa persegi. Perbedaan bentuk gerombol ini digunakan untuk melihat kemampuan penggerombolan metode k-rataan kernel Gauss. Pola-pola yang terbentuk dari penggerombolan pada data-data gerombol yang terpisah secara linier maupun gerombol dengan anggota tumpang tindih memperlihatkan kecenderungan gerombol
10
Tabel 8 Data D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D19 D20 D21
Rata-rata persentase salah klasifikasi gerombol dengan anggota tumpang tindih k-Rataan k-Rataan Kernel d , d l Z 0.1 12.37 14.55 0.5 13.50 13.06 4 0.9 18.00 4.42 0.1 22.50 34.13 9 0.5 25.67 28.41 d 10,10 0.9 29.80 27.47 0.1 30.11 40.61 d 15,10 25 0.5 34.50 39.61 0.9 38.83 44.93 0.1 16.17 17.97 Z 4 0.5 21.83 22.65 Z 9 0.9 28.67 16.68 0.1 7.50 21.10 d 10,10 25 0.5 8.17 20.16 d 25,10 0.9 11.50 19.98
Gambar 4 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D4, (b) Hasil penggerombolan metode k-rataan pada data D4, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D4
yang dibentuk oleh metode k-rataan kernel Gauss memiliki pola lingkaran. Persentase salah klasifikasi untuk gerombol yang terpisah secara non linier dapat dilihat pada Tabel 9. Rata-rata persentase salah klasifikasi dari metode k-rataan kernel Gauss pada gugus data D25 dan D26 adalah sebesar 0.33% dan 0.07% sedangkan rata-rata
persentase salah klasifikasi metode k-rataan pada kedua gugus data tersebut adalah sebesar 28.27% dan 49.57%. Pada Gambar 5 terlihat bahwa metode k-rataan hanya memisahkan gerombol pada gugus data D25 secara linier dengan garis lurus sedangkan penggerombolan metode k-rataan kernel mampu membaca
11
Gambar 5 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D25, (b) Hasil penggerombolan metode k-rataan pada data D25, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D25 pola lingkaran data sehingga mampu memisahkan kedua gerombol dengan sangat baik. Hal ini menunjukkan bahwa metode krataan kernel mampu menggerombolkan objek-objek pada gerombol yang terpisah secara non linier dengan baik sedangkan metode k-rataan tidak mampu menggerombolkannya dengan baik. Plot tebaran data dan hasil penggerombolan untuk gugus data D26 tertera pada Lampiran 23.
Data Asli Data asli yang digunakan dalam penelitian ini adalah gugus data bunga Iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin. Pada masing-masing gugus data dilakukan penggerombolan dengan metode k-rataan dan k-rataan kernel.Rata-rata persentase salah klasifikasi untuk metode k-rataan dan metode k-rataan kernel tersedia pada Tabel 10.
Tabel 9
Tabel 10 Rata-rata persentase salah klasifikasi data asli Data k-Rataan k-Rataan Kernel IRIS 4.41 26.36 WISCONSIN 3.81 2.93
Rata-rata persentase salah klasifikasi gerombol terpisah secara non linier Data k-Rataan k-Rataan Kernel D25 28.27 0.33 D26 49.57 0.07
12
Penerapan metode k-rataan terhadap data asli bunga Iris menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 4.41%. Sebaliknya, penerapan metode k-rataan kernel terhadap data bunga Iris menunjukkan hasil yang sangat buruk dengan persentase salah klasifikasi sebesar 26.36%. Hasil ini bertolak belakang dengan hasil-hasil penggerombolan pada data simulasi. Seharusnya metode k-rataan kernel memberikan hasil yang sama baiknya atau bahkan lebih baik dari metode k-rataan. Pada pembahasan awal dijelaskan bahwa penentuan nilai lebar jendela sangat berpengaruh terhadap hasil penggerombolan dengan metode k-rataan kernel. Rumus perkiraan kasar digunakan untuk menentukan lebar jendela dari masing-masing kasus. Pada kasus data asli bunga Iris didapatkan lebar jendela untuk fungsi kernel Gaussian sebesar 2.2342. Berdasarkan hasil pembahasan di awal, beberapa nilai lebar jendela dipilih, yaitu 1, 2, 3, 4, 5, 6, 7 dan 8. Hasil persentase salah klasifikasi pada Tabel 11 memperlihatkan bahwa pada lebar jendela 6 didapatkan ratarata persentase salah klasifikasi sebesar 3.33%. Persentase salah klasifikasi ini lebih kecil dibandingkan persentase salah klasifikasi metode k-rataan. Hal ini menunjukkan bahwa
nilai lebar jendela yang digunakan pada fungsi kernel Gaussian sangat berpengaruh terhadap hasil penggerombolan. Pada kasus ini perkiraan kasar ternyata tidak terlalu efektif dalam penentuan lebar jendela pada fungsi kernel Gaussian. Visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan metode k-rataan kernel pada data asli bunga Iris dapat dilihat pada Gambar 6. Pada biplot tampak bahwa kedua metode mampu menggerombolkan objek-objek pada data asli bunga Iris dengan baik. Penerapan metode k-rataan terhadap data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin menunjukkan hasil yang sangat baik.. Rata-rata persentase salah klasifikasi dengan metode k-rataan adalah sebesar 3.81%. Penerapan metode krataan kernel terhadap data asli bunga Iris dan data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin juga menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 2.93%. Gambar 7 menunjukkan visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan k-rataan kernel pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin.
Gambar 6 Biplot hasil penggerombolan (a) Data asli bunga Iris, (b) Hasil penggerombolan dengan metode k-rataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel
Gambar 7 Biplot hasil penggerombolan (a) Data asli pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin, (b) Hasil penggerombolan dengan metode krataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel