i
DETEKS TEKSI GEROMBOL DENGAN METODE K-RATAAN KERNEL GAUSS
BIMA BIMANDRA ADIPUTRA DJAAFARA
DEPARTEMEN STATISTIKA FAKULTAS MATE ATEMATIKA DAN ILMU PENGETAHUAN N ALAM AL INS INSTITUT PERTANIAN BOGOR BOGOR 2012
ii
ABSTRAK BIMANDRA ADIPUTRA DJAAFARA. Deteksi Gerombol Dengan Metode k-Rataan Kernel Gauss. Dibimbing oleh ANIK DJURAIDAH dan AJI HAMIM WIGENA. Metode penggerombolan k-rataan tidak mampu menggerombolkan data yang terpisah secara non linier. Salah satu cara untuk menanggulangi permasalahan ini adalah dengan menggunakan fungsi kernel. Penerapan metode k-rataan di dalam ruang transformasi fungsi kernel dikenal dengan metode k-rataan kernel. Tujuan dari penelitian ini adalah untuk mengkaji nilai lebar jendela dan persentase salah klasifikasi metode k-rataan kernel pada beberapa jenis gerombol data. Data yang digunakan dalam penelitian ini terdiri dari data simulasi dan data asli. Hasil penelitian menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan gerombol-gerombol yang terpisah secara linier maupun non linier sedangkan metode k-rataan hanya mampu menggerombolkan gerombol-gerombol yang terpisah secara linier. Pada data asli, metode k-rataan kernel menghasilkan persentase kesalahan klasifikasi yang lebih kecil dibandingkan metode krataan. Kedua metode memiliki kelemahan dalam menggerombolkan gerombol-gerombol yang memiliki anggota tumpang tindih. Penentuan lebar jendela pada fungsi kernel Gaussian sangat berpengaruh terhadap persentase salah klasifikasi. Penentuan lebar jendela dengan perkiraan kasar cukup efisien. Kata kunci: Analisis gerombol, k-rataan, kernel Gaussian, k-rataan kernel, lebar jendela.
iii
DETEKSI GEROMBOL DENGAN METODE K-RATAAN KERNEL GAUSS
BIMANDRA ADIPUTRA DJAAFARA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
iv
Judul Skripsi : Nama : NIM :
Deteksi Gerombol Dengan Metode k-Rataan Kernel Gauss Bimandra Adiputra Djaafara G14080025
Menyetujui:
Pembimbing I
Pembimbing II
Dr. Ir. Anik Djuraidah, MS 196305151987032002
Dr. Ir. Aji Hamim Wigena M.Sc 195209281977011001 Mengetahui:
Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si NIP 196504211990021001
Tanggal Lulus:
v
KATA PENGANTAR Alhamdulillah, segala puji penulis panjatkan kehadirat Allah SWT. atas segala karunia serta limpahan rahmat-Nya sehingga penulis bisa menyelesaikan karya ilmiah dengan judul “Deteksi Gerombol Dengan Metode k-Rataan Kernel Gauss”. Shalawat serta salam semoga selalu dilimpahkan kepada Rasulullah Muhammad SAW. beserta keluarga, sahabat dan umatnya. Terima kasih yang sebesar-besarnya penulis sampaikan kepada semua pihak yang telah berperan besar dalam membantu penulis sehingga penulis mampu menyelesaikan karya tulis ini, antara lain: 1. Ibu Dr. Ir. Anik Djuraidah, MS. dan Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku komisi pembimbing yang telah memberikan bimbingan, arahan, serta masukan selama proses penulisan karya ilmiah ini. 2. Ibu, Mas Bram dan Inong atas doa, semangat, dan kasih sayang yang diberikan kepada penulis selama ini. 3. Raisya Noor Pertiwi atas dukungan dan doanya. 4. Bapak Dr. Ir. Hari Wijayanto, M.Si beserta seluruh staf pengajar Departemen Statistika Institut Pertanian Bogor yang telah memberikan berbagai bekal ilmu selama penulis melaksanakan studi di Institut Pertanian Bogor. 5. Seluruh staf administrasi dan karyawan Departemen Statistika yang selalu siap membantu penulis dalam menyelesaikan berbagai keperluan terkait penyelesaian karya ilmiah ini. 6. Seluruh teman-teman seperjuangan Statistika angkatan 45. 7. Budi, Fatul, Hendra, dan Silvi selaku teman satu bimbingan yang telah berjuang bersama selama ini. 8. Aji, Ibay, Andzar, Fey, Rizal, Ian, Wisnu, Hadi, Pepeng, Agus dan Dila atas segala dukungan serta bantuannya selama ini. 9. Kakak-kakak STK 44 serta adik-adik STK 46 dan STK 47. 10. Keluarga besar UKM MAX!! IPB untuk seluruh dukungan doanya. 11. Seluruh pihak yang telah memberikan dukungan doa serta motivasi dalam penyelesaian karya ilmiah ini. Semoga Allah SWT. membalas segala kebaikan yang telah diberikan kepada penulis dan semoga karya ilmiah ini bermanfaat bagi semua orang yang membacanya. Bogor, Juli 2012
Bimandra Adiputra Djaafara
vi
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 9 Februari 1990. Penulis merupakan anak kedua dari dua bersaudara pasangan Alm. Adril Sjahril Djaafara dan Dina Anita Kusumastuti. Pada tahun 2002 penulis menyelesaikan studi di SD Angkasa X Halim Perdanakusuma. Penulis melanjutkan studi di SMP Labschool Rawamangun dan lulus pada tahun 2005. Pada tahun 2008 penulis menyelesaikan studi di SMA Negeri 8 Jakarta. Penulis diterima di Departemen Statistika, Fakultas Matematikadan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB pada tahun 2008. Penulis aktif sebagai pengurus Himpunan Profesi Statistika Gamma Sigma Beta sebagai anggota divis Database Centre pada periode 2009/2010 dan 2010/2011. Penulis juga aktif dalam berbagai kepanitiaan Himpunan Profesi seperti Statistika Ria dan Lomba Jajak Pendapat Statistika. Penulis merupakan anggota Unit Kegiatan Mahasiswa Music/Agriculture/X-Pression dan pernah menjabat sebagai General Manager pada periode kepengurusan 2010/2011. Penulis melaksanakan kegiatan praktik lapang di PT Ganesha Cipta Informatika pada bulan Februari-April 2012.
vii
DAFTAR ISI
Halaman DAFTAR TABEL ....................................................................................................................... viii DAFTAR GAMBAR ................................................................................................................... viii DAFTAR LAMPIRAN ................................................................................................................ ix PENDAHULUAN Latar Belakang ................................................................................................................... . 1 Tujuan ............................................................................................................................... 1 TINJAUAN PUSTAKA Analisis Gerombol .............................................................................................................. . 1 Metode Kernel .................................................................................................................... . 2 K-Rataan Kernel ................................................................................................................. . 2 METODOLOGI Data Data Simulasi Sebaran Normal Ganda ......................................................................... . 3 Data Simulasi Sebaran Gerombol Terpisah Non Linier ............................................... . 4 Data Asli....................................................................................................................... . 5 Metode Penentuan Lebar Jendela Fungsi Kernel Gaussian ....................................................... . 5 Metode k-Rataan .......................................................................................................... . 5 Metode k-Rataan Kernel ............................................................................................... . 5 HASIL DAN PEMBAHASAN Pemilihan Lebar Jendela Fungsi Kernel ............................................................................. . 6 Kekonsistenan Metode ....................................................................................................... . 7 Hasil Penggerombolan Gerombol Terpisah Secara Linier ................................................................................ . 7 Gerombol Dengan Anggota Tumpang Tindih .............................................................. . 7 Gerombol Terpisah Secara Non Linier......................................................................... . 9 Data Asli....................................................................................................................... 11 KESIMPULAN DAN SARAN Kesimpulan ........................................................................................................................ 13 Saran..................................................................................................................................... 13 DAFTAR PUSTAKA ................................................................................................................. 13 LAMPIRAN ................................................................................................................................ 14
viii
DAFTAR TABEL
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Parameter pada data simulasi ………………………………………………........ Peubah-peubah pada data bunga iris ………………………………………….... Peubah-peubah pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin …………………………………………………………... Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada gugus data D1 ………………………………………………………………….... Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada gugus data D22 ………………………………………………………………….. Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada gugus data D25 ………………………………………………………………….. Rata-rata persentase salah klasifikasi gerombol terpisah secara linier ………… Rata-rata persentase salah klasifikasi gerombol dengan anggota tumpang tindih Rata-rata persentase salah klasifikasi gerombol terpisah secara non linier …….. Rata-rata persentase salah klasifikasi data asli ………………………………….. Rata-rata persentase salah klasifikasi untuk beberapa nilai lebar jendela metode k-rataan kernel pada data WISCONSIN …………………………………………
Hal 4 5 5 6 6 6 9 10 11 11 13
DAFTAR GAMBAR
1. 2. 3. 4. 5. 6. 7.
Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan kernel ……………………………………………………………………………. Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan metode k-rataan kernel pada data D16 …………………..……………………. Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan metode k-rataan kernel pada data D4 ………………….……………………… Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan metode k-rataan kernel pada data D25…………………..…………………….. Biplot data asli dan hasil penggerombolan dengan metode k-rataan dan metode k-rataan kernel pada data bunga Iris …………………………………………… Biplot data asli dan hasil penggerombolan dengan metode k-rataan dan metode k-rataan kernel pada data pasien penderita kanker payudara Rumah Sakit Universitas Wisconsin……………………………………………………………
Hal 8 8 9 10 11 12
12
ix
DAFTAR LAMPIRAN
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Plot tebaran data D13………………………………………..………………….. Plot tebaran data D14………………………………………..………………….. Plot tebaran data D15………………………………………..………………….. Plot tebaran data D17………………………………………..………………….. Plot tebaran data D18………………………………………..………………….. Plot tebaran data D22………………………………………..………………….. Plot tebaran data D23………………………………………..………………….. Plot tebaran data D24………………………………………..………………….. Plot tebaran data D1 …………………………………………………………….. Plot tebaran data D2 …………………………………………………………….. Plot tebaran data D3 …………………………………………………………….. Plot tebaran data D5 …………………………………………………………….. Plot tebaran data D6 …………………………………………………………….. Plot tebaran data D7 …………………………………………………………….. Plot tebaran data D8 …………………………………………………………….. Plot tebaran data D9 …………………………………………………………….. Plot tebaran data D10...………………………………………………………….. Plot tebaran data D11...………………………………………………………….. Plot tebaran data D12…...……………………………………………………….. Plot tebaran data D19.……………………………………..…………………….. Plot tebaran data D20…..……………………………………………………….. Plot tebaran data D21…..……………………………………………………….. Plot tebaran data D26…..………………………………………………………..
Hal 14 14 15 15 16 16 17 17 18 18 19 19 20 20 21 21 22 22 23 23 24 24 25
1
PENDAHULUAN Latar Belakang Analisis gerombol merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengelompokkan objek-objek ke dalam beberapa gerombol. Objek-objek di dalam satu gerombol memiliki karakteristik yang mirip sedangkan karakteristik antar gerombol berbeda (Sharma 1996). Metode ini dapat diaplikasikan dalam berbagai bidang seperti pengenalan pola, mesin pembelajaran, penambangan data dan pemrosesan citra (Tzortzis & Likas 2009). Metode analisis gerombol yang sering digunakan adalah analisis gerombol dengan metode hierarki dan metode non hierarki k-rataan. Metode penggerombolan yang paling populer dan sederhana adalah metode k-rataan. Metode k-rataan memiliki sejarah yang bermacam-macam karena diperkenalkan di berbagai bidang yang berbeda-beda oleh banyak ahli seperti oleh Steinhaus pada tahun 1956, Ball dan Hall pada tahun 1965 dan MacQueen pada tahun 1967. Algoritma penggerombolan k-rataan bertujuan untuk meminimumkan kuadrat galat antara pusat gerombol yang terbentuk dengan masingmasing anggota gerombolnya (Jain 2010). Salah satu kelemahan yang dimiliki analisis gerombol dengan metode k-rataan adalah hanya memilliki kemampuan untuk mengidentifikasi gerombol yang terpisah secara linier (Tzortzis & Likas 2009). Kelemahan tersebut juga dimiliki oleh analisis gerombol hierarki. Pengimplementasian metode-metode analisis gerombol tersebut pada dunia nyata mengalami banyak kesulitan karena pada umumnya fenomena-fenomena yang terjadi di alam tidak selalu terpisah secara linier. Pada suatu permasalahan non linier, transformasi data ke bentuk linier merupakan cara yang lebih efisien dibandingkan mencari fungsi non linier yang kompleks. Salah satu cara transformasi tersebut adalah dengan menggunakan fungsi kernel. Fungsi kernel dapat dipandang sebagai suatu transformasi non linier yang meningkatkan kemampuan pemisahan data dengan memetakan data awal ke dalam suatu ruang baru yang berdimensi tinggi. Transformasi ini diharapkan dapat memisahkan data secara linier dalam ruang baru tersebut. Girolami (2002) memperkenalkan metode penggerombolan dengan menggunakan transformasi fungsi kernel. Metode ini mengalami perkembangan pesat hingga saat
ini. Perkembangan metode tersebut menghasilkan banyak metode penggerombolan baru yang menggunakan fungsi kernel sebagai fungsi transformasi non linier. Salah satu hasil pengembangan metode tersebut adalah metode k-rataan kernel. Metode k-rataan kernel adalah penerapan algoritma k-rataan dalam ruang transformasi non linier menggunakan fungsi kernel. Metode ini diharapkan mampu memisahkan gerombol secara linier di dalam ruang baru hasil transformasi fungsi kernel. Tujuan Penelitian ini bertujuan untuk: 1. Mengkaji penggerombolan dengan metode k-rataan kernel ke dalam beberapa kondisi gerombol data yaitu gerombol-gerombol yang terpisah secara linier, terpisah secara non linier, dan gerombol-gerombol dengan anggota yang tumpang tindih. 2. Menerapkan analisis gerombol dengan metode k-rataan kernel pada gugus data bunga Iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin. 3. Membandingkan hasil penggerombolan metode k-rataan kernel dengan hasil penggerombolan metode k-rataan.
TINJAUAN PUSTAKA Analisis Gerombol Analisis gerombol bertujuan untuk mengelompokkan objek-objek data ke dalam gerombol-gerombol yang homogen (Tzortzis & Likas 2009). Pembagian gerombol didasari oleh suatu ukuran kemiripan atau ketidakmiripan Beberapa ukuran ketidakmiripan yang sering digunakan dalam analisis gerombol adalah jarak Euclid, jarak Mahalanobis, dan jarak Manhattan. Data yang dibutuhkan untuk analisis gerombol dapat berupa ukuran-ukuran kemiripan/ ketidakmiripan antar objek atau data asli yang dapat dihitung ukuran kemiripan/ ketidakmiripannya (Johnson & Wichern 2007). Secara umum analisis gerombol dapat dikelompokkan menjadi dua kategori: 1. Analisis gerombol hierarki 2. Analisis gerombol non hierarki Analisis gerombol hierarki biasa digunakan bila jumlah gerombol awal tidak diketahui dan secara umum terdiri dari dua metode yaitu metode agglomerative dan divisive. Hasil dari analisis gerombol hierarki dipresentasikan dalam bentuk diagram yang disebut
2
dendogram. Beberapa teknik penggerombolan metode hierarki adalah pautan tunggal, pautan lengkap dan pautan rataan. Analisis gerombol non hierarki digunakan jika jumlah gerombol awal sudah diketahui atau data yang tersedia berukuran sangat besar. Metode analisis gerombol non hierarki yang sering digunakan adalah metode k-rataan. Misalkan , , … , adalah segugus data dengan p peubah. Pada metode k-rataan n buah data akan dikelompokkan ke dalam K buah gerombol , , … , dengan nilai tengah dari tiap gerombol , , … , sebagai pusat dari masing-masing gerombol. Algoritma metode k-rataan adalah sebagai berikut: 1. Tentukan K buah titik tengah gerombol awal. 2. Tempatkan setiap objek untuk nilai 1,2,3, … , ke gerombol yang memiliki jarak titik tengah gerombol paling dekat terhadap objek sehingga terbentuk K buah gerombol. Selanjutnya tentukan nilai dari fungsi indikator , untuk nilai 1,2,3, … , . 1 , , , ( , 0 selainnya
3.
dengan , adalah jarak Euclid antara objek dengan titik tengah gerombol . Hitung titik tengah untuk setiap gerombol . |* | ∑ - ,
+
4. 5.
dimana | | adalah banyaknya anggota pada gerombol . Ulangi langkah 2 dan 3 hingga konvergen. Hitung nilai akhir bagi untuk nilai 1,2,3, … ,
Metode Kernel Metode kernel adalah suatu alat pemodelan non parametrik yang sangat handal. Setiap metode kernel secara umum memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk (Shawe-Taylor & Cristianini 2004). Metode ini sering disebut juga sebagai kernel trick. Misalkan , , … , adalah segugus data berukuran n dengan . / 0 dan 1 adalah sebuah fungsi pemetaan yang memetakan
dari ruang awal / 0 ke dalam ruang baru yaitu 2 maka: 3 , 1 · 1
Satu hal yang penting dari fungsi kernel adalah bentuk konkrit dari 1 tidak diketahui, sehingga transformasi didefinisikan secara implisit. Beberapa fungsi kernel yang biasa digunakan adalah: 6 Polinomial: 3 , · 5 1 Radial: 3 , 789 :;<= ; = >
Gaussian: 3 , 789 :; ?@ = ; = > Pemilihan fungsi kernel yang digunakan sangat spesifik terhadap data. Namun dalam berbagai kasus spesifik dalam pemisahan data, fungsi kernel yang memiliki kemampuan pendugaan yang baik secara umum adalah fungsi kernel berbasis radial (Girolami 2002). Penentuan lebar jendela yang tepat untuk fungsi kernel Gaussian merupakan hal yang sangat penting. Pemilihan lebar jendela tepat akan meningkatkan ketepatan dari algoritma yang akan diterapkan dalam ruang transformasi. Padafungsi kernel Gaussian yang
memiliki bentuk umum 789 :;A= ; = >, lebar jendela A yang optimum dapat dihitung menggunakan perkiraan kasar dengan rumus: 1 B7CD ,-,…, C8 , 8 A atau 1 B7D ,-,…, C8 , 8 A Metode perkiraan kasar ini didasarkan pada sifat dari kurva kuadrat eksponensial yang memiliki titik penurunan yang paling kuat ketika nilai eksponennya adalah -1 (Lampert 2009). Beberapa kelemahan utama dari fungsi kernel adalah: 1. Hilangnya beberapa sifat dari ruang yang baru (seperti: dimensi dan selang nilai) karena tidak adanya bentuk yang eksplisit dari 1. 2. Penentuan bentuk kernel yang sesuai untuk suatu data harus diketahui melalui eksperimen. 3. Penggunaan fungsi kernel membuat proses komputasi dan biaya penyimpanan meningkat dengan sangat besar (Zhang & Rudnicky 2002).
K-Rataan Kernel Metode k-rataan kernel merupakan bentuk khusus dari algoritma k-rataan dengan titiktitik data dipetakan terlebih dahulu dari ruang awal ke dalam ruang khusus melalui transformasi non linier 1. Selanjutnya algoritma k-rataan diterapkan dalam ruang khusus tersebut. Hal ini akan menghasilkan pemisah linier di dalam ruang khusus yang
3
menyerupai pemisah non linier di ruang awal (Tzortzis & Likas 2009). Jika E 1 menunjukkan transformasi dari maka jarak Euclid antara E dan E adalah: E , E =1 ; 1 = 1 ; 21 · 1 5 1 3 , ; 23 , 5 3 ,
F adalah titik tengah gerombol dalam ruang yang telah ditransformasi: 1 F G E , E
| | - dengan E , adalah fungsi indikator. Jarak antara E dan F dapat dihitung dengan cara: 1 G E , E H | | - 3 , 5 I , 5 J K1L
E , F HE ;
dengan
I , ; J
2 G E , 3 , | | -
1 G G , M, 3 , M | | - M-
, N , M, NM , Dengan mengaplikasikan persamaan [1] ke dalam algoritma k-rataan maka akan didapatkan suatu algoritma k-rataan kernel sebagai berikut: 1. Tetapkan nilai awal untuk E , untuk nilai 1,2,3, … , dan 1,2,3, … , sehingga terbentuk K buah gerombol , , … , . 2. Untuk setiap gerombol hitunglah | | dan J . 3. Untuk setiap dan gerombol hitunglah I , lalu tempatkan pada gerombol terdekat: I , 5 J I , 5 J , untuk semua P O 0 selainnya Q
1
(
4. Ulangi langkah 2 dan 3 hingga konvergen. 5. Untuk setiap gerombol pilih sebuah anggota gerombol yang memiliki jarak terdekat dengan titik tengah gerombol sebagai wakil dari gerombol arg BX , YEX ,*+ - 1 , F . Suku 3 , pada persamaan [1] diabaikan pada saat pembentukan fungsi indikator karena faktor tersebut tidak berkontribusi dalam penentuan gerombol terdekat. Langkah 5 dalam algoritma menjelaskan penentuan titik tengah dari gerombol yang direpresentasikan dengan titik
tengah semu karena titik tengah gerombol tidak dapat dinyatakan secara eksplisit dalam ruang transformasi (Zhang & Rudnicky 2002).
METODOLOGI Data Data gerombol yang digunakan dalam penelitian ini ada tiga macam, yaitu: 1. Data simulasi sebaran normal ganda. 2. Data simulasi gerombol terpisah non linier 3. Data asli Data Simulasi Sebaran Normal Ganda Data simulasi sebaran normal ganda dibangkitkan dengan menggunakan fungsi mvrnorm pada program R versi 2.14.0. Data yang dibangkitkan digunakan untuk melihat efektivitas metode penggerombolan terhadap gerombol yang memiliki anggota tumpang tindih dan gerombol yang terpisah secara linier secara berdekatan maupun berjauhan. Setiap kasus simulasi terdiri atas dua gerombol yang dibangkitkan menggunakan sebaran normal ganda dengan dua peubah (X dan Y). Setiap gerombol terdiri atas 300 amatan. Parameter-parameter yang harus ditentukannsebelum melakukan simulasi data sebaran normal ganda adalah: 1. Vektor rataan untuk masing-masing gerombol. 2. Ragam masing-masing peubah pada masing-masing gerombol. 3. Korelasi antar peubah pada setiap gerombol. Parameter selengkapnya untuk data simulasi dengan sebaran normal ganda disajikan pada Tabel 1. Secara keseluruhan terdapat 24 buah kasus data simulasi yang dibangkitkan dengan sebaran normal ganda dengan Z menyatakan ragam peubah ke-i pada gerombol ke-k untuk 1,2 dan 1,2. Kasus D1-D3 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 4. Kasus D4-D6 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 9. Kasus D7-D9 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 25. Kasus D10-D12 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam tidak homogen Z 4, Z 9. Kasus D13-D15 berisi gerombol dengan vektor rataan berbeda berjarak besar dan
4
matriks ragam peragam homogen Z 4. Kasus D16-D18 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam homogen Z 9. Kasus D19-D21 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam homogen Z 25. Kasus D22-D24 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam tidak homogen Z 4, Z 9. Tabel 1 Data D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17 D18 D19 D20 D21 D22 D23 D24
Parameter pada data simulasi ^_ , ^` a`b 4 d 10,10 d 15,10
9
25 Z 4 Z 9
4 d 10,10 d 25,10
9
25 Z 4 Z 9
c 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9
Algoritma untuk membangkitkan data dengan sebaran normal ganda e~gh ^, i dengan e matriks berukuran n x p, ^ vektor kolom berukuran p dan i matriks ragam peragam definit positif berukuran p x p adalah: 1. Bangkitkan j~gh 0, k dengan cara membangkitkan peubah acak j , j , … , jh yang masing-masing menyebar normal dengan rataan 0 dan simpangan baku 1. Selanjutnya gabungkan j , j , … , jh menjadi matriks j berukuran n x p. 2. Tentukan ragam dari masing-masing peubah e , e , … , eh yaitu Z , Z , … , Zh . 3. Tentukan korelasi antar peubah e , e , … , eh yaitu l, , l,m , … , lhn,h . 4. Hitung nilai peragam antar peubah e , e , … , eh yaitu Z, , Z,m , … , Zhn,h
dengan
l , 8
oZ
menggunakan 8
Z .
rumus
Z ,
5. Dari nilai ragam dan peragam yang ada, bentuk matriks ragam peragam i. 6. Lakukan dekomposisi spektral terhadap matriks i sehingga didapatkan i pqpr dengan kolom-kolom dari s merupakan vektor ciri dari i dan q adalah matriks diagonal yang berisi akar ciri dari i. 7. Definisikan t sq/ j sehingga t~gh 0, i. 8. Dengan mendifinisikan e t 5 ^ maka didapatkan e~gh ^, i. Data Simulasi Gerombol Terpisah Non Linier Data simulasi gerombol terpisah non linier dibangkitkan dengan menggunakan fungsi rnorm dan mvrnorm pada program R versi 2.14.0. Data simulasi gerombol terpisah non linier terdiri dari dua kasus. Kasus D25 berisi gerombol berbentuk lingkaran dengan gerombol lain berada di pusat lingkaran. Kasus D26 berisi gerombol yang berbentuk persegi dengan gerombol lain yang juga berbentuk persegi berada di pusat gerombol pertama. Setiap kasus simulasi terdiri atas dua gerombol dengan dua peubah (X dan Y). Setiap gerombol terdiri atas 300 amatan. Data simulasi gerombol terpisah non linier kasus D25 dibangkitkan dengan cara: 1. Bangkitkan data peubah X dan Y dengan menggunakan persamaan lingkaran. 2. Masing-masing nilai peubah X dan Y ditambahkan dengan galat yang menyebar normal. 3. Bangkitkan data peubah X dan Y yang menyebar normal ganda dengan vektor nilai tengah merupakan pusat lingkaran gerombol pertama. Data simulasi gerombol terpisah non linier kasus D26 dibangkitkan dengan cara: 1. Bangkitkan nilai variabel X yang berurutan dari – 9 sampai 9 dengan nilai Y konstan yaitu – 9 dan 9 sebagai sisi horizontal. 2. Bangkitkan nilai variabel Y yang berurutan dari – 9 sampai 9 dengan nilai X konstan yaitu – 9 dan 9 sebagai sisi horizontal. 3. Masing-masing nilai variabel X dan Y ditambahkan galat yang menyebar normal. 4. Ulangi langkah 1-3 dengan nilai 9 yang lebih kecil sebagai gerombol kedua. Bangkitkan sisi vertikal secara berulang untuk setiap nilai X yang berurutan dari – 9
5 sampai 9 sehingga terbentuk berbentuk persegi yang penuh.
data
Data Asli Data asli yang digunakan dalam penelitian ini terdiri dari dua buah gugus data yaitu gugus data bunga Iris (Fisher 1936) dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin (Mangasarian et al. 1990). Gugus data bunga Iris memiliki 150 objek, empat peubah, dan tiga buah gerombol spesies bunga Iris yaitu Iris setosa, Iris versicolor, dan Iris virginica. Gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin memiliki 683 objek, sembilan peubah, dan dua buah gerombol jenis tumor yaitu tumor jinak dan tumor ganas. Keterangan lengkap mengenai seluruh peubah yang terdapat pada gugus data bunga iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin disajikan pada Tabel 2 dan Tabel 3. Tabel 2 Peubah-peubah pada data bunga Iris Peubah Keterangan X1 Panjang kelopak (cm) X2 Lebar kelopak (cm) X3 Panjang mahkota (cm) X4 Lebar mahkota (cm) Tabel 3
Peubah-peubah pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin Peubah Keterangan X1 Ketebalan gumpalan (1-10) X2 Keseragaman ukuran sel (1-10) X3 Keseragaman bentuk sel (1-10) X4 Kelekatan ujung-ujung sel (1-10) X5 Ukuran sel epitel tunggal (1-10) X6 Inti telanjang (1-10) X7 Kromatin halus (1-10) X8 Nukleus normal (1-10) X9 Mitosis (1-10)
Metode Penelitian ini menggunakan dua metode penggerombolan. Kedua metode yang digunakan adalah metode k-rataan dan metode k-rataan kernel dengan menggunakan fungsi kernel Gaussian. Penentuan Lebar Jendela Fungsi Kernel Gaussian Tahapan metode untuk membuktikan bahwa rumus perkiraan kasar merupakan metode penentuan lebar jendela yang efisien untuk fungsi kernel Gaussian adalah:
1. Hitung nilai lebar jendela dari gugus data D1, D22, dan D25 dengan perkiraan kasar: B7D ,-,…, C8 , 8 . w
2. Hitung persentase salah klasifikasi masingmasing gugus data D1, D22, dan D25 dengan menggunakan lebar jendela yang dihitung dengan perkiraan kasar. 3. Hitung persentase salah klasifikasi masingmasing gugus data D1, D22, dan D25 dengan menggunakan lebar jendela 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, dan 5. 4. Bandingkan seluruh nilai persentase salah klasifikasi yang dihasilkan oleh semua lebar jendela pada masing-masing gugus data. Metode k-Rataan Algoritma penggunaan metode k-rataan untuk diterapkan pada data simulasi dan data asli adalah sebagai berikut: 1. Tentukan K buah pusat gerombol awal , , … , . 2. Hitung jarak Euclid dari setiap objek terhadap masing-masing pusat gerombol , . 3. Tempatkan setiap objek pada gerombol yang memiliki jarak antara objek dengan pusat gerombol paling dekat. 4. Hitung pusat gerombol , , … , yang baru dengan menghitung rata-rata dari seluruh objek di dalam gerombol. 5. Lakukan langkah 2, 3, dan 4 hingga konvergen. 6. Catat persentase salah klasifikasi dari hasil penggerombolan. 7. Ulangi langkah 1-6 sebanyak tiga puluh kali. Metode k-Rataan Kernel Algoritma penggunaan metode k-rataan kernel untuk diterapkan pada data simulasi dan data asli adalah sebagai berikut: 1. Tentukan nilai lebar jendela fungsi kernel Gaussian dengan menggunakan perkiraan kasar. 2. Tempatkan secara acak setiap objek ke dalam gerombol-gerombol yang tersedia. 3. Hitung jarak antara objek dengan pusat gerombol di dalam ruang transformasi
E , F xE ; |* | ∑y - E , E x .
4. Tempatkan setiap objek pada gerombol yang memiliki jarak antara objek dengan pusat gerombol dalam ruang transformasi paling dekat. 5. Lakukan langkah 3 dan 4 hingga konvergen. +
6
6. Catat persentase salah klasifikasi dari hasil penggerombolan. 7. Ulangi langkah 2-6 sebanyak tiga puluh kali.
efisien untuk menentukan lebar jendela fungsi kernel Gaussian. Tabel 4
HASIL DAN PEMBAHASAN Penentuan Lebar Jendela Fungsi Kernel Penentuan lebar jendela fungsi kernel Gaussian merupakan hal yang sangat penting untuk mendapatkan hasil penggerombolan yang baik. Pemilihan lebar jendela dapat dilakukan dengan memasukkan nilai-nilai secara berurutan hingga didapatkan hasil penggerombolan sesuai dengan yang diinginkan. Namun cara tersebut tidak efisien karena akan memerlukan banyak waktu. Salah satu cara yang dapat digunakan untuk menentukan lebar jendela fungsi kernel Gaussian yang efisien adalah dengan perkiraan kasar: B7D ,-,…, C8 , 8 . w
Gugus data D1, D22, dan D25 digunakan untuk membuktikan keefisienan perkiraan kasar. Masing-masing gugus data merupakan perwakilan jenis-jenis gugus data yang disimulasikan. Lebar jendela untuk gugus data D1, D22, dan D25 dengan menggunakan perkiraan kasar secara berturut-turut adalah 1.5289, 2.2516, dan 1.4921. Persentase salah klasifikasi penggerombolan untuk seluruh nilai lebar jendela yang dicobakan pada gugus data D1, D22, dan D25 tertera pada Tabel 4, Tabel 5, dan Tabel 6. Pada gugus data D1 didapatkan persentase salah klasifikasi minimum sebesar 11.83% pada saat lebar jendela 2. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 12.67%. Pada gugus data D22 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 3, 3.5, dan 4. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 1.33%. Pada gugus data D25 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 2, 2.5, 3, dan 3.5. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 0.33%. Hasil persentase salah klasifikasi yang dihasilkan oleh lebar jendela yang dihitung dengan perkiraan kasar bukan merupakan persentase salah klasifikasi yang paling minimum dari setiap gugus data. Namun perbedaannya dengan nilai persentase salah klasifikasi minimum pada setiap gugus data sangat kecil. Hal ini menunjukkan bahwa perkiraan kasar merupakan cara yang cukup
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D1
Lebar Persentase Salah Klasifikasi Jendela 0.5 39.67 1 28.33 1.5 17.67 2 11.83 2.5 12.33 3 12.50 3.5 12.00 4 12.17 4.5 12.17 5 12.17 1.5389* 12.67 Keterangan: * dihitung dengan perkiraan kasar
Tabel 5
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D22
Lebar Persentase Salah Klasifikasi Jendela 0.5 40.33 1 31.17 1.5 8.5 2 3.17 2.5 0.67 3 0 3.5 0 4 0 4.5 0.17 5 0.17 2.2516* 1.33 Keterangan: * dihitung dengan perkiraan kasar Tabel 6
Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D25
Lebar Persentase Salah Klasifikasi Jendela 0.5 17.33 1 1.83 1.5 0.33 2 0 2.5 0 3 0 3.5 0 4 25.50 4.5 25.83 5 25.83 1.4921* 0.33 Keterangan: * dihitung dengan perkiraan kasar
7
Konsistensi Metode Pada masing-masing metode dilakukan ulangan sebanyak tiga puluh kali untuk masing-masing data simulasi. Pengulangan digunakan untuk mengetahui konsistensi hasil penggerombolan dari masing-masing metode. Konsistensi hasil penggerombolan perlu diukur karena penetapan keanggotaan gerombol awal untuk masing-masing objek sangat berpengaruh terhadap hasil akhir dari penggerombolan. Konsistensi metode ditentukan berdasarkan selang persentase salah klasifikasi dari tiga puluh kali ulangan pada masing-masing kasus data simulasi. Jika nilai maksimum dan minimum dari persentase salah klasifikasi tidak berbeda terlalu jauh dapat dikatakan bahwa metode tersebut konsisten. Hasil akhir penggerombolan dengan metode k-rataan dan k-rataan kernel juga ditentukan oleh inisialisasi nilai awal pusatpusat gerombol. Pada kenyataannya nilai pusat-pusat awal gerombol sulit untuk ditentukan sehingga sering digunakan objekobjek yang dipilih secara acak sebagai pusatpusat gerombol awal. Diagram kotak garis pada Gambar 1 dan Gambar 2 menggambarkan sebaran persentase salah klasifikasi dari tiga puluh ulangan untuk masing-masing metode pada tiap gugus data simulasi D1-D26. Diagram kotak garis pada Gambar 1 menunjukkan bahwa metode k-rataan merupakan metode yang memberikan hasil akhir penggerombolan yang konsisten. Sebagian besar hasil penggerombolan memberikan nilai yang sama pada setiap ulangannya. Hanya beberapa contoh data simulasi yang menghasilkan variasi hasil akhir penggerombolan namun tidak memiliki perbedaan yang signifikan. Diagram kotak garis pada Gambar 2 menunjukkan bahwa metode k-rataan kernel memberikan hasil penggerombolan yang tidak konsisten pada beberapa gugus data. Gugus data dengan hasil penggerombolan yang tidak konsisten adalah gugus data simulasi dengan gerombol-gerombol yang memiliki anggota yang tumpang tindih. Konsistensi hasil penggerombolan dapat dilihat pada gugus data dengan gerombol terpisah secara linier (D13, D14, D15, D16, D17, D18, D22, D23 dan D24) dan gugus data dengan gerombol terpisah secara non linier (D25 dan D26). Hasil Penggerombolan Metode analisis gerombol yang baik akan memberikan persentase salah klasifikasi yang kecil. Analisis mengenai kebaikan
penggerombolan juga dilakukan dengan melakukan plot data hasil penggerombolan. Plot tersebut digunakan untuk melihat kemampuan tiap metode untuk mengenali pola yang ada pada data. Gerombol Terpisah Secara Linier Persentase salah klasifikasi yang kecil dihasilkan oleh kedua metode pada gugus data D13, D14, D15, D16, D17, D18, D22, D23 dan D24. Karakteristik utama dari gugusgugus data tersebut adalah memiliki jarak antar pusat gerombol yang jauh serta memiliki keragaman data yang kecil sehingga gerombol-gerombol yang dihasilkan benarbenar terpisah secara linier. Persentase salah klasifikasi yang kecil untuk kedua metode menunjukkan bahwa metode k-rataan dan metode k-rataan kernel mampu menggerombolkan sembilan gugus data tersebut dengan sangat baik. Kesalahan klasifikasi yang terjadi disebabkan beberapa data yang menyebar terlalu jauh dari pusat gerombol asli sehingga terklasifikasi sebagai anggota gerombol yang lain. Persentase salah klasifikasi untuk sembilan gugus data tersebut dapat dilihat pada Tabel 7. Ilustrasi mengenai hasil penggerombolan dengan kedua metode dapat dilihat pada Gambar 3. Persentase salah klasifikasi yang kecil dari kedua metode dan konsistensi hasil penggerombolan kedua metode menunjukkan bahwa kedua metode mampu bekerja dengan baik pada data yang terpisah secara linier. Plot tebaran data dan hasil penggerombolan untuk gugus data D13, D14, D15, D17, D18, D22, D23, dan D24 selengkapnya tertera pada Lampiran 1 sampai Lampiran 8. Gerombol Dengan Anggota Tumpang Tindih Gugus data D1-D12 merupakan gugusgugus data yang memiliki jarak antar pusat gerombol yang kecil sehingga membesarnya ragam peubah-peubahnya akan membuat semakin banyak tumpang tindih anggota gerombol. Gugus data D19-D21 memiliki jarak antar pusat gerombol yang besar namun masing-masing gerombol memiliki ragam yang besar juga sehingga terjadi tumpang tindih anggota gerombol. Gugus data D1-D12 dan D19-D21 merupakan gugus-gugus data dengan anggota yang tumpang tindih. Ratarata persentase salah klasifikasi untuk gugusgugus data tersebut tersedia pada Tabel 8. Ilustrasi penggerombolan oleh kedua metode tersedia pada Gambar 4.
8
Gambar 1 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan
Gambar 2 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan kernel Persentase salah klasifikasi yang besar dihasilkan metode k-rataan pada gugus data D1-D12. Persentase salah klasifikasi juga semakin meningkat ketika ragam peubahpeubah pada masing-masing gerombol diperbesar. Karakteristik penggerombolan dengan metode k-rataan yang hanya mampu memisahkan secara linier membuat pemisahan gerombol dilakukan tepat di tengah-tengah. Hal tersebut menyebabkan salah klasifikasi bagi anggota-anggota gerombol yang tumpang tindih. Gugus data D19-D21 memiliki persentase salah klasifikasi metode k-rataan cukup baik. Hal ini disebabkan jarak antar gerombol pada gugus-gugus data tersebut memiliki jarak antar pusat gerombol yang jauh. Salah klasifikasi disebabkan objek-objek
yang tumpang tindih karena ragam peubahnya yang besar. Metode k-rataan kernel menghasilkan hasil salah klasifikasi yang tidak jauh berbeda dengan metode k-rataan ketika diterapkan pada gerombol-gerombol yang memiliki anggota tumpang tindih. Persentase salah klasifikasi yang cukup besar menunjukkan bahwa metode k-rataan kernel juga tidak dapat menggerombolkan dengan baik jika terdapat anggota gerombol yang tumpang tindih. Metode k-rataan kernel juga memperlihatkan hasil yang tidak konsisten jika diterapkan pada gerombol-gerombol yang memiliki anggota yang tumpang tindih. Hal tersebut dapat terlihat dari nilai minimum dan maksimum dari persentase salah klasifikasi yang berbeda cukup jauh. Dari ilustrasi pada
9
Tabel 7 Data D13 D14 D15 D16 D17 D18 D22 D23 D24
Rata-rata persentase salah klasifikasi gerombol terpisah secara linier k-Rataan k-Rataan Kernel d , d l Z 0.1 0.00 0.00 4 0.5 0.00 0.00 0.9 0.00 0.00 0.1 0.67 1.09 d 10,10 9 0.5 0.00 0.79 d 25,10 0.9 0.50 2.17 0.1 0.33 1.33 Z 4 0.5 1.17 2.53 Z 9 0.9 0.17 1.06
Gambar 3 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D16, (b) Hasil penggerombolan metode k-rataan pada data D16, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D16
Gambar 4, terlihat bahwa metode k-rataan kernel memiliki cara pemisahan gerombol yang berbeda dengan metode k-rataan. Metode k-rataan kernel tidak langsung memisahkan gerombol dengan suatu garis lurus. Posisi gerombol-gerombol yang dihasilkan juga tidak selalu sama. Hasil penggerombolan yang tidak konsisten dan perubahan posisi gerombol di setiap ulangan diduga karena inisialisasi anggota gerombol awal yang berbeda-beda. Plot tebaran data dan hasil penggerombolan untuk gugus data D1, D2, D3, D5, D6, D7, D8, D9, D10, D11, D12, D19, D20, dan D21 selengkapnya tertera pada Lampiran 9 sampai Lampiran 22.
Gerombol Terpisah Secara Non Linier Gugus data D25 dan D26 merupakan gugus data dengan gerombol yang terpisah secara non linier. Perbedaan dari kedua gugus data tersebut adalah pada bentuk data. Gugus data D25 memiliki bentuk gerombol berupa lingkaran sedangkan gugus data D26 memiliki bentuk gerombol berupa persegi. Perbedaan bentuk gerombol ini digunakan untuk melihat kemampuan penggerombolan metode k-rataan kernel Gauss. Pola-pola yang terbentuk dari penggerombolan pada data-data gerombol yang terpisah secara linier maupun gerombol dengan anggota tumpang tindih memperlihatkan kecenderungan gerombol
10
Tabel 8 Data D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D19 D20 D21
Rata-rata persentase salah klasifikasi gerombol dengan anggota tumpang tindih k-Rataan k-Rataan Kernel d , d l Z 0.1 12.37 14.55 0.5 13.50 13.06 4 0.9 18.00 4.42 0.1 22.50 34.13 9 0.5 25.67 28.41 d 10,10 0.9 29.80 27.47 0.1 30.11 40.61 d 15,10 25 0.5 34.50 39.61 0.9 38.83 44.93 0.1 16.17 17.97 Z 4 0.5 21.83 22.65 Z 9 0.9 28.67 16.68 0.1 7.50 21.10 d 10,10 25 0.5 8.17 20.16 d 25,10 0.9 11.50 19.98
Gambar 4 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D4, (b) Hasil penggerombolan metode k-rataan pada data D4, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D4
yang dibentuk oleh metode k-rataan kernel Gauss memiliki pola lingkaran. Persentase salah klasifikasi untuk gerombol yang terpisah secara non linier dapat dilihat pada Tabel 9. Rata-rata persentase salah klasifikasi dari metode k-rataan kernel Gauss pada gugus data D25 dan D26 adalah sebesar 0.33% dan 0.07% sedangkan rata-rata
persentase salah klasifikasi metode k-rataan pada kedua gugus data tersebut adalah sebesar 28.27% dan 49.57%. Pada Gambar 5 terlihat bahwa metode k-rataan hanya memisahkan gerombol pada gugus data D25 secara linier dengan garis lurus sedangkan penggerombolan metode k-rataan kernel mampu membaca
11
Gambar 5 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D25, (b) Hasil penggerombolan metode k-rataan pada data D25, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D25 pola lingkaran data sehingga mampu memisahkan kedua gerombol dengan sangat baik. Hal ini menunjukkan bahwa metode krataan kernel mampu menggerombolkan objek-objek pada gerombol yang terpisah secara non linier dengan baik sedangkan metode k-rataan tidak mampu menggerombolkannya dengan baik. Plot tebaran data dan hasil penggerombolan untuk gugus data D26 tertera pada Lampiran 23.
Data Asli Data asli yang digunakan dalam penelitian ini adalah gugus data bunga Iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin. Pada masing-masing gugus data dilakukan penggerombolan dengan metode k-rataan dan k-rataan kernel.Rata-rata persentase salah klasifikasi untuk metode k-rataan dan metode k-rataan kernel tersedia pada Tabel 10.
Tabel 9
Tabel 10 Rata-rata persentase salah klasifikasi data asli Data k-Rataan k-Rataan Kernel IRIS 4.41 26.36 WISCONSIN 3.81 2.93
Rata-rata persentase salah klasifikasi gerombol terpisah secara non linier Data k-Rataan k-Rataan Kernel D25 28.27 0.33 D26 49.57 0.07
12
Penerapan metode k-rataan terhadap data asli bunga Iris menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 4.41%. Sebaliknya, penerapan metode k-rataan kernel terhadap data bunga Iris menunjukkan hasil yang sangat buruk dengan persentase salah klasifikasi sebesar 26.36%. Hasil ini bertolak belakang dengan hasil-hasil penggerombolan pada data simulasi. Seharusnya metode k-rataan kernel memberikan hasil yang sama baiknya atau bahkan lebih baik dari metode k-rataan. Pada pembahasan awal dijelaskan bahwa penentuan nilai lebar jendela sangat berpengaruh terhadap hasil penggerombolan dengan metode k-rataan kernel. Rumus perkiraan kasar digunakan untuk menentukan lebar jendela dari masing-masing kasus. Pada kasus data asli bunga Iris didapatkan lebar jendela untuk fungsi kernel Gaussian sebesar 2.2342. Berdasarkan hasil pembahasan di awal, beberapa nilai lebar jendela dipilih, yaitu 1, 2, 3, 4, 5, 6, 7 dan 8. Hasil persentase salah klasifikasi pada Tabel 11 memperlihatkan bahwa pada lebar jendela 6 didapatkan ratarata persentase salah klasifikasi sebesar 3.33%. Persentase salah klasifikasi ini lebih kecil dibandingkan persentase salah klasifikasi metode k-rataan. Hal ini menunjukkan bahwa
nilai lebar jendela yang digunakan pada fungsi kernel Gaussian sangat berpengaruh terhadap hasil penggerombolan. Pada kasus ini perkiraan kasar ternyata tidak terlalu efektif dalam penentuan lebar jendela pada fungsi kernel Gaussian. Visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan metode k-rataan kernel pada data asli bunga Iris dapat dilihat pada Gambar 6. Pada biplot tampak bahwa kedua metode mampu menggerombolkan objek-objek pada data asli bunga Iris dengan baik. Penerapan metode k-rataan terhadap data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin menunjukkan hasil yang sangat baik.. Rata-rata persentase salah klasifikasi dengan metode k-rataan adalah sebesar 3.81%. Penerapan metode krataan kernel terhadap data asli bunga Iris dan data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin juga menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 2.93%. Gambar 7 menunjukkan visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan k-rataan kernel pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin.
Gambar 6 Biplot hasil penggerombolan (a) Data asli bunga Iris, (b) Hasil penggerombolan dengan metode k-rataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel
Gambar 7 Biplot hasil penggerombolan (a) Data asli pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin, (b) Hasil penggerombolan dengan metode krataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel
13
Pada biplot tampak bahwa kedua metode mampu menemukan pola gerombol pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin dengan baik. Tabel 11 Rata-rata persentase salah klasifikasi untuk beberapa nilai lebar jendela metode k-rataan kernel pada data WISCONSIN Lebar Jendela Persentase Salah Klasifikasi 1 46.67 2 26.67 3 7.50 4 5.26 5 3.67 6 3.33 7 3.50 8 3.54 2.2342* 26.36 Keterangan: * dihitung dengan perkiraan kasar
Kedua metode menghasilkan rata-rata persentase yang kecil namun secara umum metode k-rataan kernel menghasilkan hasil penggerombolan yang lebih baik ketika diterapkan pada kedua gugus data asli. Hasil visualisasi dengan biplot menggambarkan bahwa metode k-rataan kernel mampu menemukan pola gerombol data dengan baik.
KESIMPULAN DAN SARAN Kesimpulan Berdasarkan hasil penelitian yang telah dilakukan dapat ditarik beberapa kesimpulan: 1. Penentuan lebar jendela fungsi kernel Gaussian sangat penting karena berpengaruh terhadap kebaikan hasil penggerombolan. Perkiraan kasar cukup efisien untuk menentukan nilai lebar jendela fungsi kernel Gaussian. 2. Metode k-rataan dan k-rataan kernel memiliki kemampuan yang sama baiknya dalam menggerombolkan objek-objek pada gerombol yang terpisah secara linier. Metode k-rataan lebih efisien dari sisi komputasi. 3. Metode k-rataan kernel memiliki kemampuan yang sangat baik dalam menggerombolkan objek-objek pada gerombol yang terpisah secara non linier sedangkan metode k-rataan tidak mampu menggerombolkan objek-objek pada gerombol yang terpisah secara non linier. 4. Metode k-rataan dan k-rataan kernel memiliki kemampuan yang kurang baik dalam menggerombolkan data gerombol yang memiliki anggota tumpang tindih.
Saran Beberapa saran untuk penelitian lanjutan berdasarkan hasil penelitian yang telah dilakukan adalah sebagai berikut: 1. Untuk menentukan lebar jendela fungsi kernel Gaussian dapat digunakan metode lain seperti metode validasi silang. 2. Menerapkan transformasi fungsi kernel pada beberapa metode penggerombolan lain seperti fuzzy c-means.
DAFTAR PUSTAKA Fisher RA. 1936. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics Vol. 7: 179-188. Girolami M. 2002. Mercer Kernel Based Clustering in Feature Space. IEEE Transactions on Neural Networks Vol. 13: 780-784. Jain AK. 2010. Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters Vol. 31(8): 651-666. Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. New Jersey: Pearson Prentice Hall. Lampert CH. 2009. Kernel Methods in Computer Vision. Foundations and Trends in Computer Graphics and Vision Vol. 4(3): 193-285. Mangasarian OL, Street WN, Wolberg WH. 1994. Breast Cancer Diagnosis and Prognosis via Linear Programming. Operations Research Vol. 43(4): 570-577. Shawe-Taylor J, Cristianini N. 2004. Kernel Methods for Pattern Analysis. New York: Cambridge University Press. Sharma S. 1996. Applied Multivariate Technique. New York: John Wiley & Sons. Tzortzis GF, Likas AC. 2009. The Global Kernel k-Means Algorithm for Clustering in Feature Space. IEEE Transactions on Neural Networks Vol. 20(7): 1181-1194. Zhang R, Rudnicky AI. 2002. A Large Scale Clustering Scheme for Kernel Clustering. 16th International Conference of Pattern Recognition Vol. 4: 289-292.
13
LAMPIRAN
14
Lampiran 1
Plot tebaran data D13
Plot data dan hasil penggerombolan: (a) Gerombol asli data D13, (b) Hasil penggerombolan metode k-rataan pada data D13, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D13 Lampiran 2
Plot tebaran data D14
Plot data dan hasil penggerombolan: (a) Gerombol asli data D14, (b) Hasil penggerombolan metode k-rataan pada data D14, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D14
15
Lampiran 3
Plot tebaran data D15
Plot data dan hasil penggerombolan: (a) Gerombol asli data D15, (b) Hasil penggerombolan metode k-rataan pada data D15, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D15 Lampiran 4
Plot tebaran data D17
Plot data dan hasil penggerombolan: (a) Gerombol asli data D17, (b) Hasil penggerombolan metode k-rataan pada data D17, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D17
16
Lampiran 5
Plot tebaran data D18
Plot data dan hasil penggerombolan: (a) Gerombol asli data D18, (b) Hasil penggerombolan metode k-rataan pada data D18, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D18 Lampiran 6
Plot tebaran data D22
Plot data dan hasil penggerombolan: (a) Gerombol asli data D22, (b) Hasil penggerombolan metode k-rataan pada data D22, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D22
17
Lampiran 7
Plot tebaran data D23
Plot data dan hasil penggerombolan: (a) Gerombol asli data D23, (b) Hasil penggerombolan metode k-rataan pada data D23, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D23 Lampiran 8
Plot tebaran data D24
Plot data dan hasil penggerombolan: (a) Gerombol asli data D24, (b) Hasil penggerombolan metode k-rataan pada data D24, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D24
18
Lampiran 9
Plot tebaran data D1
Plot data dan hasil penggerombolan: (a) Gerombol asli data D1, (b) Hasil penggerombolan metode k-rataan pada data D1, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D1 Lampiran 10
Plot tebaran data D2
Plot data dan hasil penggerombolan: (a) Gerombol asli data D2, (b) Hasil penggerombolan metode k-rataan pada data D2, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D2
19
Lampiran 11
Plot tebaran data D3
Plot data dan hasil penggerombolan: (a) Gerombol asli data D3, (b) Hasil penggerombolan metode k-rataan pada data D3, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D3 Lampiran 12
Plot tebaran data D5
Plot data dan hasil penggerombolan: (a) Gerombol asli data D5, (b) Hasil penggerombolan metode k-rataan pada data D5, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D5
20
Lampiran 13
Plot tebaran data D6
Plot data dan hasil penggerombolan: (a) Gerombol asli data D6, (b) Hasil penggerombolan metode k-rataan pada data D6, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D6 Lampiran 14
Plot tebaran data D7
Plot data dan hasil penggerombolan: (a) Gerombol asli data D7, (b) Hasil penggerombolan metode k-rataan pada data D7, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D7
21
Lampiran 15
Plot tebaran data D8
Plot data dan hasil penggerombolan: (a) Gerombol asli data D8, (b) Hasil penggerombolan metode k-rataan pada data D8, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D8 Lampiran 16
Plot tebaran data D9
Plot data dan hasil penggerombolan: (a) Gerombol asli data D9, (b) Hasil penggerombolan metode k-rataan pada data D9, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D9
22
Lampiran 17
Plot tebaran data D10
Plot data dan hasil penggerombolan: (a) Gerombol asli data D10, (b) Hasil penggerombolan metode k-rataan pada data D10, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D10 Lampiran 18
Plot tebaran data D11
Plot data dan hasil penggerombolan: (a) Gerombol asli data D11, (b) Hasil penggerombolan metode k-rataan pada data D11, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D11
23
Lampiran 19
Plot tebaran data D12
Plot data dan hasil penggerombolan: (a) Gerombol asli data D12, (b) Hasil penggerombolan metode k-rataan pada data D12, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D12 Lampiran 20
Plot tebaran data D19
Plot data dan hasil penggerombolan: (a) Gerombol asli data D19, (b) Hasil penggerombolan metode k-rataan pada data D19, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D19
24
Lampiran 21
Plot tebaran data D20
Plot data dan hasil penggerombolan: (a) Gerombol asli data D20, (b) Hasil penggerombolan metode k-rataan pada data D20, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D20 Lampiran 22
Plot tebaran data D21
Plot data dan hasil penggerombolan: (a) Gerombol asli data D21, (b) Hasil penggerombolan metode k-rataan pada data D21, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D21
25
Lampiran 23
Plot tebaran data D26
Plot data dan hasil penggerombolan: (a) Gerombol asli data D26, (b) Hasil penggerombolan metode k-rataan pada data D26, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D26