PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING
AHMAD IRFANI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007
SURAT PERNYATAAN
Saya menyatakan dengan sebenar-benarnya bahwa segala pernyataan dalam tesis saya yang berjudul :
PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING
merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada program sejenis di perguruan tinggi lain. Semua data dan informasi yang digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.
Bogor, Januari 2007 Yang Membuat Pernyataan
AHMAD IRFANI .
i
ABSTRACT
AHMAD IRFANI. Design of Information Retrieval System Prototype Using Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.
Today, information retrieval plays a large part of our everyday lives – especially with the advent of the World Wide Web. During the last 10 years, the amount of information available in electronic form on the Web has grown exponentially. However, this development has introduced problems of its own; finding useful information is increasingly becoming a hit-or-miss experience that often ends in information overload. This thesis analyzes the suitability of fuzzy clustering methods for the discovery of relevant document relationships. The performance evaluation of three fuzzy clustering algorithms (Fuzzy C-Means, Hyperspherical Fuzzy CMeans and Fuzzy Substractive Clustering) on document written in bahasa Indonesia and English. Comparison of three different document representation formula (Term Frequency, Term Frequency Inverse Document Frequency and Salton) using various reduction of matrix dimension are also carried out. Clustering precision and recall are applied as quantitative evaluation measures of the clustering results. The experiments using document sets with various topic have shown that Hyperspherical Fuzzy C-Means algorithm perform better than Fuzzy C-Means and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is able to give the ‘right’ document representation to the clustering algorithm as Tf and Tf-Idf are failed.
Key Words : information retrieval,
fuzzy clustering, fuzzy c-means,
hyperspherical fuzzy c-means, fuzzy subtractive clustering
ii
RINGKASAN
AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan IRMAN HERMADI.
Perkembangan
teknologi
informasi,
khususnya
teknologi
Internet
menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster. Untuk mengelompokkan dokumen, diperlukan algoritma clustering. Saat ini sudah banyak algoritma clustering, antara lain K-Means, Buckshot, Fuzzy CMeans, Hyperspherical Fuzzy c-Means (H-FCM), ε-Insentive Fuzzy C-Means (εFCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC). Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja algoritma fuzzy clustering (Fuzzy C-Means, Hyperspherical Fuzzy C-Means & Fuzzy Subtractive Clustering) untuk document clustering (2) formula representasi dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (TfIdf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma, yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik). Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh dokumen
yang
relevan.
Algoritma
dan
formula
representasi
terbaik
diimplementasikan pada prototipe sistem temu kembali informasi.
iii
Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1) mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam basisdata 3) membuat matriks representasi dengan menggunakan tiga formula (Tf,Tf-Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks output clustering. Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada dokumen berbahasa Indonesia menunjukkan bahwa algoritma H-FCM memiliki akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas terbaik 0.92. Pada bahasa Inggris, algoritma H-FCM tetap unggul dengan akurasi 0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya formula Salton yang dapat memberikan input yang lebih baik dibandingkan formula Tf dan Tf-Idf pada algoritma clustering. Akan tetapi algoritma H-FCM memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih algoritma
terbaik,
kami
menggunakan
Teknik
Perbandingan
Kinerja
(Comparative Performance Index, CPI). Hasilnya, tetap algoritma H-FCM yang terbaik. Oleh karena itu kami menggunakan algoritma H-FCM dan formula Salton dalam prototipe sistem pencari. Validasi prototipe dilakukan dengan memasukkan beberapa query ke prototipe. Hasilnya menunjukkan prototipe memiliki rata-rata akurasi 0.85 dan kolektifitas 0.52.
Kata Kunci : sistem temu kembali informasi, fuzzy clustering, fuzzy c-means, hyperspherical-fuzzy c-means, fuzzy substractive clustering, term frequency, term frequency-inverse df dan salton.
iv
PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING
AHMAD IRFANI G651040154
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Derpartemen Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007
v
Judul Tesis
: Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering
Nama
: Ahmad Irfani
NRP
: G651040154
Program Studi : Ilmu Komputer
Menyetujui, Komisi Pembimbing
Prof. Dr. Ir. Marimin, M.Sc Ketua
Irman Hermadi, S.Kom, MS Anggota
Mengetahui,
Ketua Program Studi Ilmu Komputer
Dr. Sugi Guritman
Tanggal Ujian : 17 Januari 2007
Dekan Sekolah Pasca Sarjana
Prof. Dr. Ir. Khairil Anwar Notodiputro, MS
Tanggal Lulus :
vi
KATA PENGANTAR Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc. dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada: 1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi kelancaran masa studi Penulis. 2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini. 3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak memberikan dukungan dan semangat selama masa kuliah 4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak membantu Penulis dalam penyusunan skripsi ini. Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi ini yang tidak bisa disebutkan satu per satu, terima kasih. Semoga penelitian ini dapat memberikan manfaat, Amien.
Bogor, Januari 2007 Ahmad Irfani
vii
RIWAYAT HIDUP
Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H. A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang, menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1 Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun 2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan, penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology, sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution Consultant.
viii
DAFTAR ISI
DAFTAR ISI........................................................................................................ i DAFTAR TABEL ............................................................................................. xii DAFTAR GAMBAR ....................................................................................... xiii 1. PENDAHULUAN......................................................................................... 1 A. LATAR BELAKANG .................................................................................... 1 B. TUJUAN DAN MANFAAT ............................................................................. 4 C. RUANG LINGKUP ....................................................................................... 5 2. TINJAUAN PUSTAKA ................................................................................ 6 A. TEMU KEMBALI INFORMASI ....................................................................... 6 B. DOKUMEN BERBAHASA INDONESIA............................................................ 8 C. CLUSTERING .............................................................................................. 10 D. SISTEM FUZZY ........................................................................................... 28 E. FUZZY CLUSTERING .................................................................................... 33 1. Fuzzy C-Means (FCM)...................................................................... 34 2. Hyperspherical Fuzzy C-Means ........................................................ 36 3. Fuzzy Substractive Clustering (FSC)................................................. 39 F. CLUSTERING DALAM SISTEM TEMU KEMBALI INFORMASI ............................ 45 G. PENILAIAN KINERJA .................................................................................. 50 3. METODOLOGI .......................................................................................... 52 A. KERANGKA PEMIKIRAN ............................................................................. 52 B. BAHAN DAN ALAT ..................................................................................... 53 C. TATA LAKSANA ......................................................................................... 53
ix
1. Tahap Persiapan............................................................................... 53 2. Evaluasi Algoritma Fuzzy Clustering ................................................ 55 3. Pengembangan Prototipe Sistem ....................................................... 56 4. PERANCANGAN & IMPLEMENTASI SISTEM....................................... 61 A. DISAIN DATA ............................................................................................ 61 1. File Dokumen.................................................................................... 61 2. Tabel Dokumen dalam Basisdata ...................................................... 61 3. Matriks Representasi Dokumen (MRD) ............................................. 62 4. Matriks Keanggotaan (MK) .............................................................. 63 5. Data Cluster ..................................................................................... 63 B. DISAIN ARSITEKTUR DAN KOMPONEN ........................................................ 63 1. Modul Penyimpanan ......................................................................... 65 2. Modul Matriks .................................................................................. 65 3. Modul Clustering .............................................................................. 66 4. Modul Evaluasi ................................................................................. 67 5. Modul Representasi Hasil ................................................................. 67 C. DISAIN ANTARMUKA ................................................................................. 67 5. EVALUASI SISTEM .................................................................................. 69 A. KARAKTERISTIK DOKUMEN INPUT ............................................................. 69 B. PROSES EVALUASI ..................................................................................... 69 1. Pembentukan Matriks Representasi Dokumen ................................... 70 2. Pembentukan Matriks Keanggotaan.................................................. 71 C. EVALUASI KINERJA ................................................................................... 71 D. PENGEMBANGAN PROTOTIPE ..................................................................... 79
x
E. VALIDASI SISTEM ...................................................................................... 81 F. IMPLIKASI & KEBIJAKAN MANAJEMEN ....................................................... 81 6. KESIMPULAN DAN SARAN.................................................................... 85 A. KESIMPULAN ............................................................................................. 85 B. SARAN ...................................................................................................... 86 DAFTAR PUSTAKA........................................................................................ 88 LAMPIRAN...................................................................................................... 92
xi
DAFTAR TABEL
Tabel 2.1 Penelitian tentang document clustering ........................................................ 47 Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu-kembali informasi ...... 51 Tabel 4.1 Struktur Tabel Dokumen pada Basisdata...................................................... 62 Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster............................... 66 Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ........................................... 69 Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%............................. 70 Tabel 5.3 MRD hasil algoritma H-FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ..................................................................................................... 71 Tabel 5.4 Jumlah iterasi algoritma FCM, H-FCM dan FSC ......................................... 75 Tabel 5.5 Waktu eksekusi algoritma FCM, H-FCM dan FSC (detik) ........................... 75 Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM .................................................... 77 Tabel 5.7 Akurasi dan Kolektifitas Algoritma H-FCM ................................................ 77 Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC...................................................... 77 Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia................................................................ 77 Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H-FCM pada dokumen berbahasa Inggris dan Indonesia................................................................ 78 Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia................................................................ 78 Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik .................... 78 Tabel 5.13 Matriks hasil transformasi melalui teknik perbandingan indeks................. 78
xii
DAFTAR GAMBAR
Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com).................... 3 Gambar 2.1 Representasi dokumen dan query dalam ruang vektor .............................. 13 Gambar 2.2 Matriks Representasi Dokumen............................................................... 14 Gambar 2.3 Representasi grafis sudut antara ............................................................... 16 Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). ................................... 22 Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999)................. 25 Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999). ...................... 27 Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan.................. 28 Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ....................................................... 28 Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 .............................................. 30 Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8................................... 30 Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 ............................... 31 Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5 ...................................................... 31 Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, ...................... 32 Gambar 2.14 Kurva S untuk a=1 dan b=8.................................................................. 33 Gambar 2.15 Sebaran data pada dimensi tunggal........................................................ 38 Gambar 2.13 Kurva S untuk a=1 dan b=8.................................................................. 38 Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM..................................... 39 Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ....... 45 Gambar 3.1 Kerangka Pemikiran Penelitian ................................................................ 52 Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi............................. 53 Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ....................................................... 54 Gambar 3.4 Tata Laksana Evaluasi.............................................................................. 55 Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu............................... 57 Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi .................................................... 64 Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ............................ 64 Gambar 4.3. Disain antarmuka sistem ........................................................................ 68 Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM................................................. 72 Gambar 5.2 Akurasi dan Kolektifitas Algoritma H-FCM............................................. 73 Gambar 5.3 Akurasi dan Kolektifitas Algoritma FSC .................................................. 73
xiii
Gambar 5.4 Perbandingan Akurasi algoritma FCM, H-FCM dan FSC ......................... 74 Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H-FCM dan FSC .................. 74 Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ................. 76 Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC............... 76 Gambar 5.8 Form input kata kunci dan jumlah cluster................................................. 80 Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian...................... 80 Gambar 5.10 Tampilan halaman web yang menampilkan isi dokumen. ....................... 81
xiv
DAFTAR LAMPIRAN
Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat Lunak........................................................................................................ 93 Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ..................................... 94 Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191) ................................... 95 Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83) ..................................... 95 Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34) ..................................... 95 Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ....... 96 Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ............ 98 Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ............ 99 Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata ........................................................................................................... 100 Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem............................ 101 Lampiran 11 Akurasi dan cluster hasil algoritma H-FCM dengan PK 5%.................... 102 Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 10% .......................................................................................................... 103 Lampiran 13 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 15% .......................................................................................................... 104 Lampiran 14 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 20% .......................................................................................................... 105 Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% .... 106 Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10%... 107 Lampiran 17 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 15%... 108 Lampiran 18 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 20%... 109 Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5%...... 110 Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10%.... 111 Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15%.... 112 Lampiran 22 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 20%.... 113
xv
1. PENDAHULUAN
A. Latar Belakang Perkembangan teknologi informasi, khususnya teknologi Internet sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya informasi di satu sisi semakin memudahkan kita untuk mengakses informasi. Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan laju pertambahan informasi yang dihasilkan saat ini telah melebihi kemampuan
manusia
untuk
melakukan
organisasi,
menelusuri
dan
memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999). Untuk memudahkan penelusuran informasi diperlukan mesin pencari. Mesin pencari menerima input query atau kata kunci dari pengguna dan menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet yang menyimpan dokumen). Pada saat ini sudah banyak mesin pencari informasi pada Internet yang dapat digunakan secara cuma-cuma, antara lain : google (www.google.com), yahoo
(www.yahoo.com)
dan
altavista
(www.altavista.com).
Ketika
menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002): 1. Kesalahan dalam pengetikan atau dalam ejaan kata
1
2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk istilah pada domain pengetahuan yang memiliki terminologi-terminologi tertentu) 3. Kurang memahami cara penggunaan sintaks bahasa query, seperti Operator Boolean 4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit sehingga mengurangi daya jelajah pada ruang informasi 5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun kurang atau tidak relevan sama sekali Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik representasi peringkat dengan menampilkan seluruh link menuju halaman hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari kata java untuk pulau jawa dengan menggunakan google (www.google.co.id), akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link yang mempunyai keterangan tentang pulau java (Gambar 1.1). Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster (Borodavkina, 2000).
2
Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)
Pengelompokan dokumen telah banyak diaplikasikan pada sistem temukembali informasi untuk meningkatkan efektifitas pencarian, antara lain (Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks, 2003). Pada aplikasi komersial, dokumen clustering antara lain telah digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan algoritma Hierarchical Fuzzy Clustering. Algoritma Hierarchical Fuzzy Clustering merupakan salah satu algoritma algoritma clustering. Algoritma clustering lainnya antara lain KMeans, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means, εInsentive Fuzzy C-Means (ε-FCM),
Competitive Clustering by Learning
3
(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC). Algoritma tersebut masing-masing memiliki karakter yang berbeda, sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat untuk document clustering. Perbandingan kinerja algoritma untuk document clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003) yang menggunakan algoritma H-FCM untuk document clustering dan membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy). Penelitian ini bertujuan untuk mengembangkan penelitian Mendes & Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM merupakan algoritma fuzzy clustering yang paling populer, sedangkan algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk document clustering. Penelitian ini juga akan membuat prototipe sistem temukembali informasi yang menggunakan satu algoritma clustering terbaik di antara algoritma tersebut.
B. Tujuan dan Manfaat Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen dari situs Internet (2) melakukan evaluasi kecocokan formula representasi dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)
4
mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi. Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi berbahasa Indonesia.
C. Ruang Lingkup Penelitian ini memiliki ruang lingkup sebagai berikut : 1
Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering (FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan algoritma Fuzzy Subtractive Clustering (FSC) .
2
Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh dari situs Internet.
3
Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1
4
Prototipe sistem dikembangkan dengan menggunakan algoritma clustering terpilih
5
Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata MySQL versi 5.0.18 dan web server Apache versi 2.2.0.
5
2. TINJAUAN PUSTAKA
A. Temu Kembali Informasi Temu kembali informasi merupakan disiplin ilmu yang mempelajari teori, model dan teknik yang terkait dengan representasi, penyimpanan, organisasi dan pengambilan informasi sehingga dapat bermanfaat bagi manusia (Taylor, 1999). Sejak tahun 1940-an, masalah pada penyimpanan dan temu-kembali informasi mendapat banyak perhatian. Permasalahannya sederhana, limpahan informasi menyebabkan kecepatan dan akurasi akses menjadi lebih sulit. Hal ini menyebabkan relevansi informasi menjadi kurang terungkap dan akibatnya banyak duplikasi pekerjaan. Dengan adanya komputer, muncullah pemikiranpemikiran untuk membuat sistem pengambilan informasi yang cerdas dan cepat dengan memanfaatkan kemampuan komputer (Rijsbergen, 1979). Proses penyimpanan dan pengambilan informasi pada prinsipnya sederhana. Misalkan ada koleksi dokumen dan pengguna koleksi yang memformulasikan pertanyaan (permintaan atau query) dengan jawaban berupa satu set dokumen yang memenuhi kebutuhan informasi. Pencari informasi dapat memperoleh jawaban dengan membaca seluruh koleksi dokumen satuper-satu, menyimpan informasi yang relevan dan mengabaikan yang lainnya. Secara naluri, hal tersebut merupakan proses pengambilan informasi yang sempurna, akan tetapi tidak praktis. Pencari informasi tentu tidak punya cukup waktu atau tidak ingin menghabiskan waktu dengan membaca seluruh koleksi dokumen dan secara fisik hal tersebut tidak mungkin dilakukan.
6
Ketika komputer berkecepatan tinggi tersedia untuk pekerjaan nonnumerik, banyak yang meramalkan bahwa komputer akan mampu menyamai kemampuan manusia dalam membaca seluruh koleksi dokumen dan mengekstrak dokumen yang relevan. Seiring dengan waktu, lambat laun terlihat bahwa proses pembacaan dan ekstraksi dokumen tidak hanya melibatkan proses penyimpanan dan pencarian, tetapi juga proses karakterisasi isi dokumen yang jauh lebih rumit. Proses karakterisasi dokumen secara otomatis oleh perangkat lunak yang coba didekati dengan meniru cara manusia membaca masih sulit sulit dilakukan. Membaca melibatkan proses ekstraksi informasi (secara sintaks dan semantik) dari teks dan menggunakannya untuk menentukan apakah dokumen relevan atau tidak dengan permintaan. Kesulitan bukan hanya pada ekstraksi dokumen, tetapi juga pada proses penentuan relevansi dokumen. Tujuan
dari
strategi
temu-kembali
informasi
otomatis
adalah
menemukan semua dokumen yang relevan dan pada saat yang bersamaan mengurangi jumlah dokumen terambil yang tidak-relevan semaksimal mungkin. Bagi manusia, membuat keterkaitan dokumen dengan query dapat dengan mudah dilakukan. Tetapi kalau mau dilakukan oleh komputer, kita harus membangun model matematika yang dapat menghitung relevansi dokumen dan banyak riset pada temu kembali informasi berkonsentrasi pada aspek ini. Sistem temu-kembali informasi memiliki dua fungsi utama : menilai tingkat
relevansi
dokumen-dokumen
dengan
query
pengguna
dan
7
menampilkan dokumen yang dinilai “memuaskan”. Untuk mendapatkan hasil yang baik, query harus tepat menangkap keinginan pengguna (Horng et. al., 2005). Untuk mencapai hal tersebut, beberapa alternatif pendekatan dalam melakukan organisasi dokumen telah dikembangkan beberapa tahun belakangan ini. Kebanyakan pendekatan dilakukan berdasarkan visualisasi dan presentasi dari keterkaitan antar dokumen, istilah (term) dan query pengguna. Salah satu pendekatan adalah document clustering (Leuski, 2001).
B. Dokumen Berbahasa Indonesia Bahasa Indonesia secara historis merupakan varian bahasa melayu yang kini juga digunakan di wilayah yang luas meliputi Indonesia, Singapura, Brunei Darussalam, Malaysia, bagian selatan Thailand, bagian selatan Filipina, dan beberapa tempat di Afrika Selatan. Bahasa melayu diangkat menjadi bahasa persatuan di Indonesia pada 28 Oktober 1928 dalam peristiwa yang disebut Sumpah Pemuda. Sejak saat itu, bahasa melayu yang digunakan di wilayah Indonesia sekarang mulai dinamai Bahasa Indonesia. Namun, secara resmi penyebutan bahasa Indonesia sebagai bahasa resmi di Indonesia baru muncul pada 18 Agustus 1945 ketika konstitusi Indonesia diresmikan. Saat ini bahasa Indonesia mengalami perkembangan yang sangat luas. secara sosial, jumlah penutur bahasa Indonesia saat ini telah mencapai +- 210 juta jiwa. Secara fungsional bahasa Indonesia telah digunakan di lingkungan baik secara lisan maupun tulisan di masyarakat luas, secara formal dan informal di institusi pemerintahan dan swasta. Dokumen berbahasa Indonesia digunakan secara luas dibidang pemerintahan, perekonomian, hukum, pendidikan, iptek, seni budaya dan lain-lain (Arifin & Tasai, 2004). Oleh
8
karena itu, dokumen berbahasa Indonesia sangat banyak jumlahnya. Untuk menemukan dokumen dalam bahasa Indonesia, mesin pencari memegang peranan sangat penting. Penelitian dalam sistem temu kembali informasi banyak dilakukan pada dokumen bahasa Inggris. Walaupun sama-sama menggunakan huruf latin, bahasa Indonesia memiliki tata bahasa yang berbeda dengan bahasa Inggris. Sehingga perlu dilakukan penelitian yang lebih mengkhususkan pada bahasa Indoenesia. Penelitian sistem temu kembali informasi dalam bahasa Indonesia sudah banyak dilakukan, antara lain : Arifin (2002) Jika pada riset IR banyak yang fokus pada algoritma untuk mengklasifikasikan dokumen, Arifin melakukan penelitian pada upaya penghematan memori dan waktu dalam proses pembobotan dokumen. Dalam hal ini, Arifin menerapkan algoritma Digital Tree Hibrida pada algoritma pembobotan Tf-Idf yang ternyata berhasil mengurangi waktu pembobotan.
Arifin & Setiono (2002) Arifin & Setiono membahas penggunaan algoritma Single Pass Clustering dalam bahasa Indonesia. Berdasarkan hasil perocobaan, algoritma Single-Pass ternyata cukup handal untuk mengelompokkan berita kejadian (event) dalam bahasa Indonesia. Penelitian sudah menggunakan algoritma Porter untuk steming, hanya tidak dilakukan perbandingan dengan algoritma lainnya. Tala (2003) Merupakan sebuah tesis membahas efektifitas penggunaan algoritma stemming Porter dalam bahasa Indonesia beserta efeknya, terutama dalam
9
temu kembali informasi. Hasil penelitian menemukan adanya beberapa masalah dalam penerapan algoritma Porter dalam bahasa Indonesia yang ditimbulkan karena ambiguitas beberapa kata dalam bahasa Indonesia. Selain itu, ditemukan bukti bahwa stemming tidak meningkatkan kinerja (precision & recall) temu kembali informasi. Tala juga membuat daftar kata buangan (stop list) yang disusun berdasarkan hasil analisa frekuensi kemunculan kata dalam bahasa Indonesia.
Fahmi (2004) Penelitian yang dilakukan Fahmi bertujuan untuk mengetahui apakah Machine Learning cocok digunakan pada dokumen berbahasa Indonesia. Fahmi membandingkan 3 algoritma Pembelajaran Mesin (Machine Learning) untuk mengklasifikasikan dokumen. Adapun algoritma yang dibandingkan adalah ID3, Instance Based Learning dan Naïve Bayes. Hasil penelitian menunjukkan algoritma Instance Based memiliki kinerja yang paling baik. C. Clustering Clustering adalah proses pengelompokan data ke dalam cluster berdasarkan parameter tertentu sehingga obyek-obyek dalam sebuah cluster memiliki tingkat kemiripan yang tinggi satu sama lain dan sangat tidak mirip dengan obyek lain pada cluster yang berbeda (Kantardzic, 2001). Berbeda dengan klasifikasi, clustering tidak memerlukan kelas yang telah didefinisikan sebelumnya atau kelas hasil training, dengan demikian clustering dinyatakan sebagai bentuk pembelajaran berdasarkan observasi dan bukan berdasarkan contoh (Jiawei & Kamber, 2001).
10
Tahapan Clustering Clustering secara umum memiliki tahapan sebagai berikut (Jain et. al, 1999) : 1. Representasi Pola 2. Pengukuran Kedekatan Pola (Pattern Proximity) 3. Clustering 4. Abstraksi Data (jika dibutuhkan) 5. Penilaian Output (jika dibutuhkan). Adapun penjelasan dari tahapan-tahapan di atas adalah sebagai berikut : 1. Representasi Pola Ada beberapa model yang dapat digunakan untuk merepresentasikan dokumen dan secara umum dibagi menjadi dua kelompok, yaitu model klasik dan model alternatif. Model klasik terdiri dari model Boolean, model Ruang Vektor dan model Probabilistik. Model alternatif yang merupakan pengembangan dari model klasik, terdiri atas : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999). Pada penelitian ini, digunakan dua model representasi, yaitu model Boolean untuk menemukan dokumen dan model Ruang Vektor untuk representasi dokumen. a. Model Boolean Model boolean merepresentasikan dokumen sebagai suatu himpunan
kata-kunci
(set
of
keywords).
Sedangkan
query
direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi
11
boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan. Kekurangan dari model boolean ini antara lain : 1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat dikenali dokumen-dokumen yang paling relevan atau agak relevan (partial match). 2. Query dalam ekspresi boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean. Walaupun demikian, karena sifatnya yang sederhana, hingga saat ini model Boolean masih dipergunakan oleh sistem temu kembali informasi modern, antara lain oleh www.google.com (Dominich, 2003). Kekurangan dari model boolean diperbaiki oleh model ruang vektor yang mampu menghasilkan dokumen-dokumen terurut berdasarkan kesesuaian dengan query. Selain itu, pada model ruang vektor query dapat berupa sekumpulan kata-kata dari penguna dalam ekspresi bebas.
b. Model Ruang Vektor Pada Model Ruang Vektor, teks direpresentasikan oleh vektor dari term (kata atau frase). Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki
12
dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai : D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3 Maka representasi grafis dari ketiga vektor ini adalah :
Gambar 2.1 Representasi dokumen dan query dalam ruang vektor
Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai matriks kata dokumen (terms-documents matrix). Nilai dari elemen matriks wij adalah bobot kata idalam dokumen j
13
Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T1, T2, … , Tn) dan sekumpulan dokumen D sejumlah m, yaitu D = (D1, D2, … , Dm) serta wi j adalah bobot kata i pada dokumen j (Gambar 2).
Gambar 2.2 Matriks Representasi Dokumen Untuk memberikan bobot numerik terhadap dokumen yang diquery, model mengukur vektor query dan vektor dokumen. Ada beberapa teknik untuk menghitung bobot. Yang paling banyak digunakan adalah Term Frekuensi (TF), Term Frekuensi Inverse Document Frequency (TFIDF) dan Salton. Pada Tf, bobot kata dinyatakan sebagai nilai log dari frekuensi kata pada dokumen. Tfd = log (1 + td),
(1)
Tfd = Nilai kata t pada dokumen d td = frekuensi kata t pada dokumen d. Tf-Idf merupakan pengembangan dari formula Tf, dengan memasukkan unsur frekuensi dokumen. Frekuensi dokumen adalah jumlah dokumen yang memiliki term t minimal 1. Formula Tf-Idf adalah :
14
TfIdf = Tf log
N dft
(2)
N = Jumlah seluruh dokumen dft = Jumlah dokumen yang memiliki kata t Dibandingkan Tf dan TfIdf, formula Salton merupakan formula yang memiliki unsur paling lengkap. Selain nilai frekuensi dan dokumen frekuensi kata, Salton juga memasukkan jumlah kata pada dokumen dan nilai frekuensi maksimum kata pada dokumen. Secara lengkap, formula Salton dinyatakan sebagai :
f ti N + 0 . 5 0 . 5 log Max f ki d ft k =1, 2 ,..., L (3) w _ term _ doc(t , d i ) = f ji log N Max 0.5 + 0.5 k =1, 2 ,..., L Max f ki d fj k =1, 2 ,..., L fit = frekuensi kemunculan istilah t pada dokumen di dft = jumlah dokumen yang mengandung istilah t L = jumlah istilah yang terdapat pada dokumen di N = jumlah dokumen
Semakin besar nilai w_term_doc(t,di), semakin penting istilah t pada dokumen di. Nilai w_term_doc(t,di) dinormalkan sehingga bernilai antara 0 dan 1. Setelah bobot istilah pada setiap dokumen dihitung, dokumen di dapat direpresentasikan sebagai vektor dokumen :
d i = wi1 , wi 2 ,..., wis
dimana wij = w_term_doc(tj, di)
merupakan bobot istilah tj pada dokumen di
( 0 ≤ wij ≤ 1 ) dan s
adalah jumlah istilah dari semua dokumen. Sehingga akhirnya kita
15
memiliki matriks U berukuran n x s dimana n adalah jumlah dokumen. Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor query. Semakin “sama” suatu vektor dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor. Gambar 3 mengilustrasikan kesamaan antara dokumen D1dan D2 dengan query Q. Sudut θ1 menggambarkan kesamaan dokumen D1 dengan query sedangkan sudut θ2 mengambarkan kesamaan dokumen D2 dengan query.
Gambar 2.3 Representasi grafis sudut antara vektor dokumen dan query
16
Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdimensi-n, dan θ adalah sudut yang dibentuk oleh kedua vektor tersebut. Maka Q • D = |Q| |D| cos θ2 Q • D adalah hasil perkalian dalam (inner product) kedua vektor,
| D |=
n
∑ Di 2 dan | Q |= i =1
n
∑ Qi
2
merupakan panjang vektor atau
i =1
jarak Euclidean suatu vektor dengan titik nol. Perhitungan kesamaan kedua vektor adalah sebagai berikut : Sim(Q,D) = cos(Q,D) = Metode
pengukuran
n Q•D 1 = ∑ Qi • Di | Q || D | | Q || D | i =1
kesesuaian
ini
memiliki
beberapa
keuntungan, yaitu adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil pengaruh panjang dokumen. Jarak Euclidean (panjang) kedua vektor digunakan sebagai faktor normalisasi. Hal ini diperlukan karena dokumen yang panjang cenderung mendapatkan nilai yang besar dibandingkan dengan dokumen yang lebih pendek. Proses pemeringkatan dokumen dapat dianggap sebagai proses pengukuran vektor dokumen terhadap vektor query, ukuran kedekatan ditentukan oleh kosinus sudut yang dibentuk. Semakin besar nilai kosinus, maka dokumen dianggap semakin sesuai query. Nilai kosinus sama dengan 1 mengindikasikan dokumen sesuai dengan dengan query.
17
Model Ruang Vektor memiliki keunggulan antara lain : (1) skema pembobotan term dapat meningkatkan kinerja pengambilan (2) strategi partial matching memungkinkan penemuan dokumen yang mendekati query (3) formula kosinus dapat memberikan peringkat dokumen yang terambil berdasarkan kemiripan dengan query. Adapun kekurangan dari model ini adalah belum menangani term yang memiliki relasi dan proses perhitungan terhadap seluruh koleksi dokumen dapat memperlambat proses pencarian.
c. Model Probabilistik Model probabilistik mencoba menangkap masalah IR melalui prinsip peluang. Jika ada query q dan sebuah dokumen dj pada koleksi, model probabilistik mencoba menduga peluang pengguna menemukan dokumen dj yang dicari. Model berasumsi bahwa peluang relevansi hanya ditentukan oleh query dan representasi dokumen. Selanjutnya, model berasumsi bahwa ada subset himpunan dokumen yang pengguna lebih pilih sebagai jawaban query q. Jawaban ideal ini diberi label R dan bernilai maksimum diantara keseluruhan peluang relevansi dokumen. Dokumen pada R diduga relevan dan yang selainnya disebut tidak relevan. Nilai kemiripan sebauh dokumen dj terhadap query q dinyatakan dalam : _ P(k i | R ) 1 − P(k i | R) + log Sim(dj,q) ≈ ∑ wi ,q xwi , j x log _ 1 − P(k i | R) i =1 P (k i | R) t
18
P( ki | R) merupakan peluang term ki ada pada dokumen yang dipilih secara acak dari himpunan R. Karena pada awalnya kita tidak mengetahui himpunan R, maka dibutuhkan sebuah metode untuk _
menentukan nilai awal P( ki | R ) dan P ( ki | R ) . Pada saat permulaan _
sekali, diasumsikan nilai P ( ki | R ) = 0.5 dan P ( k i | R ) =
ni dengan N
ni = jumlah dokumen yang mengandung term ki dan N adalah total seluruh dokumen. Selanjutnya nilai peringkat dapat diperbaiki menjadi : P(k i | R) =
_ Vi n − Vi dan P ( k i | R ) = i V N −V _
Formula terakhir untuk P ( ki | R ) dan P ( ki | R ) untuk nilai Vi dan V yang sangat kecil (misalkan V = 1 dan Vi = 0) adalah :
ni n ni − Vi + i _ N dan P(k | R) = N P(k i | R) = i V +1 N −V +1 Vi +
Model probabilistik memiliki keunggulan : dokumen dapat diberikan peringkat secara menurun berdasarkan peluang sebuah dokumen relevan terhadap query. Adapun kekurangannya adalah (1) perlu menduga pembagian awal dokumen terhadap himpunan yang relevan dan non-relevan. (2) tidak memperhitungkan frekuensi term pada dokumen (3) asumis bahwa term saling independen satu sama lain
19
d.
Model Alternatif Ketiga model tersebut di atas merupakan model klasik yang sudah cukup lama dikembangkan.
Selain model tersebut, juga
terdapat model alternatif yang merupakan pengembangan dari model klasik, antara lain : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999).
2. Pengukuran Kedekatan Pola (Pattern proximity) Kedekatan pola diukur berdasarkan fungsi jarak antara dua ciri. Jarak digunakan untuk mengukur ke(tidak)miripan antara dua obyek data. Kemiripan merupakan salah satu landasan dari definisi cluster. Ada banyak cara untuk menghitung jarak, namun pada tesis ini hanya akan dibahas tiga jarak yang paling banyak digunakan. Dan diantara ketiga jarak tersebut, yang paling populer adalah jarak Euclid. a. Jarak Minkowski Didefinisikan sebagai :
(
d (i, j ) = q xi1 − x j1 + xi 2 − x j 2 + ... + xip − x jp q
q
q
)
(4)
dengan d(i,j) = jarak Minkowski antara data ke-i dan data ke-j, x = obyek data, p = banyaknya atribut data, dan q adalah bilangan bulat positif, b. Jarak Manhattan Jarak Manhattan merupakan kasus khusus (q=1)dari Jarak Minkowski.
20
d (i, j ) = xi1 − x j1 + xi 2 − x j 2 + ... + xip − x jp ,
(5)
c. Jarak Euclid Sama seperti Jarak Manhattan, jarak Euclid merupakan kasus khusus dari jarak Minkowsi dengan q=2 d (i, j ) =
(x
2
i1
2
− x j1 + xi 2 − x j 2 + ... + xip − x jp
2
).
(6)
3. Clustering Dilihat dari struktur data yang dihasilkan, metode clustering dapat dikelompokkan menjadi berjenjang (hierarcy) dan partisi (partition). Algoritma clustering berjenjang dibagi dua, agglomerative (bottom-up) dan
divisive
(top-down).
Algoritma
aglomerative
(Agglomerative
Hierarchical Clustering (AHC) merupakan salah satu algoritma berjenjang yang banyak dipakai untuk document clustering (Mendes & Sacks, 2003). Pembagian metode clustering selengkapnya dapat dilihat pada Gambar 2.1. Pada level yang paling atas, ada pendekatan hirarki dan partisi (metode hirarki menghasilkan partisi yang bertingkat, sedangkan metode partisi hanya menghasilkan satu tingkat).
21
Clustering
Partisi
Hirarki
Single Link
Complete Link
Error Kuadrat
Teori Graf
K-means
Mixture Resolving
Mode Seeking
Expectation Maximation
Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). 3.1 Algoritma Clustering Hirarki Kebanyakan algoritma clustering hirarki merupakan variasi dari algoritma Single-Link dan Complete-Link. Kedua algoritma ini memiliki perbedaan pada cara menentukan jarak antara dua cluster. Pada metode single-link, jarak antara dua cluster adalah jarak minimum antara sepasang pola (satu pola dari satu cluster dan lainnya dari cluster kedua). Pada algoritma complete-link, jarak antara dua cluster adalah jarak maksimum antara sepasang pola pada dua cluster. Algoritma Clustering Agglomerative Hirarki : 1. Jadikan setiap dokumen sebagai cluster, sehingga jika ada n data, akan dihasilkan cluster sebanyak n. 2. Gabungkan dua cluster yang memiliki derajat kemiripan paling besar (jarak terkecil) menjadi satu cluster 3. Jika derajat kemiripan antara dua cluster kurang dari ambang batas α, dengan nilai α ∈ [0,1] maka berhenti , bila tidak maka kembali ke langkah 2
22
3.2 Algoritma Clustering Partisi Algoritma clustering partisi menghasilkan partisi satu level dan bukan struktur cluster berjenjang seperti Dendogram yang dihasilkan oleh algoritma hirarki. Metode partisi memiliki keunggulan pada aplikasi yang melibatkan data yang sangat besar yang apabila menggunakan Dendogram sangat memakan waktu komputasi. Masalah yang muncul pada saat menggunakan algoritma clustering adalah menentukan jumlah cluster yang diinginkan. Metode partisi biasanya menghasilkan cluster dengan mengoptimalkan fungsi kriteria yang didefinisikan secara lokal (pada sub pola) atau secara global (pada seluruh pola).
a. Error Kuadrat Fungsi kriteria yang paling sering digunakan pada metode clustering partisi adalah fungsi error kuadrat (e2). Tujuan dari algoritma ini adalah meminimalkan fungsi error kuadrat : K
e2 = ∑ j =1
nj
∑
2
xij − c j ,
(7)
i =1
dengan xij adalah pola i pada cluster j dan cj
adalah pusat
(centroid) cluster j. K-Means adalah algoritma yang menerapkan fungsi error kuadrat yang paling sederhana dan paling banyak dipakai. Algoritma K-Mean populer karena : (a) implementasinya mudah (b) kompleksitas waktunya adalah O(n), dengan n adalah jumlah pola dan (c) kompleksitas ruang memori adalah O(k+n).
23
Permasalahan pada algoritma ini adalah sangat peka terhadap partisi awal (inisial) dan jika partisi inisial tidak dipilih secara tepat, algoritma dapat konvergen pada lokal minimum. Kekurangan Algoritma K-Means lainnya adalah (a) hanya bisa diterapkan jika rataan (mean) dapat didefinisikan, (b) perlu menentukan nilai k (jumlah cluster) dan (c) tidak dapat menangani data yang noisy dan pencilan. Algoritma K-Means : 1. Pilih titik sebanyak K sebagai pusat inisial (K = jumlah cluster)
2. Letakkan semua titik pada pusat terdekat 3. Tentukan kembali pusat pada setiap cluster 4. Ulangi langkah 2 dan 3 hingga centroid tidak berubah
b. Teori Graf Algoritma
clustering
teori
graf
dibangun
berdasarkan
pembentukan Minimum Spanning Tree (MST) data dan cluster dibentuk dengan memutus rusuk MST dengan panjang terbesar.
Gambar 2.2 menggambarkan MST yang dihasilkan dari 9 titik berdimensi dua. Dengan memutus link CD dengan panjang 6 unit (rusuk dengan jarak Euclid terbesar) akan diperoleh dua cluster ({A,B,C}) dan {D,E,F,G,H,I}). Cluster kedua, selanjutnya dapat dibagi lagi menjadi dua cluster dengan memutus rusuk EF, yang memiliki panjang 5 unit. Algoritma clustering teori graf termasuk algoritma divisive.
24
H G 2.3
2
I 1 F
5 A
B
2 2
6 D
C
1
E
Rusuk dengan panjang maksimum
Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999). c. Mixture Resolving Pendekatan Mixture-Resolving untuk clustering memiliki asumsi bahwa pola yang akan dijadikan cluster berasal dari satu atau beberapa sebaran (Normal, Poisson dan (paling banyak) Gaussian).
Tujuan
dari
algoritma
ini
adalah
untuk
mengidentifikasi parameter-parameter dari sebaran-sebaran ini. (Grira et. al., 2004). Taksonomi clustering (Gambar 2.1) juga memerlukan pembahasan aspek-aspek lain yang dapat mempengaruhi metode-metode clustering tanpa memperhatikan posisi metode clustering pada taksonomi (Jain et. al., 1999). Antara lain : a. Agglomerative vs divisive: Aspek ini berkaitan dengan struktur algoritma dan operasi. Pendekatan agglomerative diawali dengan menjadikan setiap pola sebagai sebuah cluster dan terus-menerus menggabungkan cluster hingga kriteria pemberhentian terpenuhi. Metode divisive diawali dengan menggabungkan semua pola sebagai
25
satu cluster dan dilakukan pemecahan hingga kriteria pemberhentian terpenuhi. b. Monothetic vs polythetic: aspek ini berkaitan dengan penggunaan ciri pada proses clustering secara bersamaan atau satu persatu. Kebanyakan algoritma bersifat polythetic, artinya semua ciri dimasukkan dalam perhitungan jarak antara pola dan keputusan diambil berdasarkan jarak tersebut. Sedangkan monothetic, ciri diambil satu persatu untuk membentuk cluster. Masalah utama dengan algoritma ini adalah ia menghasilkan 2d cluster (d adalah dimensi pola). Pada aplikasi temu-kembali informasi, untuk nilai d yang besar (d > 100), jumlah cluster yang dihasilkan oleh algoritma monothetic sangat banyak sehingga data terpecah menjadi cluster yang kecil. c. Hard vs fuzzy: algoritma clustering tegas menempatkan setiap pola pada sebuah cluster baik selama proses maupun sebagai hasil akhir. Metode fuzzy clustering memberikan pola derajat keanggotaan pada beberapa cluster. Metode fuzzy clustering dapat diubah menjadi clustering yang tegas dengan menjadikan pola sebagai anggota sebuah cluster yang memiliki derajat keanggotaan terbesar.
d. Supervised vs unsupervised: Aspek ini penentuan jumlah cluster. Algoritma terawasi (supervised) adalah algoritma clustering yang jumlah cluster yang akan dihasilkan sudah ditentukan sebelumnya (melalui
input
manual).
Sedangkan
algoritma
tak-terawasi
(unsupervised), banyaknya cluster tidak ditentukan (algoritma yang menentukan).
26
e. Incremental vs non-incremental: isu ini muncul ketika pola yang akan dikelompokan sangat besar ukurannya dan ada pembatasan waktu eksekusi atau ruang memori yang mempengaruhi arsitektur algoritma.
4. Representasi Cluster Merupakan proses deskripsi atau pemberian nama kepada cluster yang dihasilkan. Ada tiga cara atau skema representasi cluster : (a) representasi cluster dengan pusat (centroid) cluster atau sejumlah titik yang berjauhan pada cluster (Gambar 2.3), (b) representasi cluster menggunakan nodes pada pohon klasifikasi dan (c) Representasi cluster menggunakan ekspresi logika conjunctive (Gambar 2.4). Dari ketiga skema representasi cluster, penggunaan centroid merupakan teknik yang paling populer (Michalski et. al., 1981). Representasi cluster memiliki fungsi antara lain untuk : (a) memberikan deskripsi cluster yang sederhana dan intuitive sehingga memudahkan pemahaman manusia, (b) membantu kompresi data yang dapat dieksploitasi oleh komputer (c) meningkatkan efisiensi pengambilan keputusan (Jain et. al., 1999). X1
Dengan Centroid
X2
Dengan tiga titik berjauhan
Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999).
27
Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan (b) Pernyataan Conjunctive (Jain et. al., 1999).
D. Sistem Fuzzy 1. Gugus Fuzzy Gugus Fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Berkley pada tahun 1965. Pada 10 tahun pertama. Gugus fuzzy merupakan pengembangan dari gugus biasa. Rerpresentasi abstrak dari sebuah gugus universal tampak seperti pada Gambar 2.5. X
x
Gambar 2.8 Anak Gugus Fuzzy (Marimin, 2005) Bingkai persegi panjang merepresentasikan gugus universal X, dan lingkaran yang terputus-putus menggambarkan batas ambigous dari elemen yang terdapat di dalam atau diluar X, sedangkan A adalah gugus fuzzy dalam X.
28
Teori gugus fuzzy mendefinisikan derajat di mana elemen x dari gugus univerasal X berada (tercakup) di dalam gugus fuzzy A. Fungsi yang memberikan derajat terhadap sebuah elemen mengenai keberadaannya dalam sebuah gugus disebut fungsi keanggotaan. Dalam kasus ini, anggota dari gugus X adalah elemen x. Sebagai contoh, derajat keanggotaan dari elemen x dalam area A diekspresikan oleh :
µ A (x1) = 1,
µ A (x2) = 0.8
µ A (x3) = 0.3,
µ A (x4) = 0
µ A adalah fungsi keanggotaan yang memberikan derajat keanggotaan yang berada pada suatu selang tertentu, yaitu selang [0,1]. Tulisan subscript di sebelah
µ , yaitu A, menunjukkan bahwa µ A adalah fungsi
keanggotaan dari A (Marimin, 2005).
2. Fungsi Keanggotaan Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah dengan melalui pendekatan fungsi. Beberapa fungsi yang dapat digunakan adalah sebagai berikut (Kusumadewi, 2003):
a.
Kurva Triangular Fungsi keanggotaan dari kurva triangular adalah seperti pada persamaan (6) dan gambar kurvanya seperti pada Gambar 2.6.
, x ≤ a atau x ≥ c 0 µ [x ] = ( x − a ) / (b − a ) , a ≤ x ≤ b (c − x ) / (c − b ) , b ≤ x ≤ c
(8)
29
Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 b.
Kurva Trapezoidal Kurva trapezoidal mempunyai fungsi keanggotaan sebagai berikut:
0 (x − a ) (b − a ) µ [x ] = 1 (d − x ) (d − c )
, x ≤ a atau x ≥ d ,a ≤ x ≤ b (9)
,b ≤ x ≤ c ,c ≤ x ≤ d
Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8 c.
Kurva Generalizzed bell Untuk kurva Generalzzed bell, fungsi keanggotaannya terlihat pada persamaan (8) dengan gambar kurva pada Gambar 2.8.
30
µ [x ] =
1 x−c 1+ a
2b
(10)
Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 d.
Kurva Gaussian Fungsi keanggotaan Gaussion seperti terlihat pada persamaan (9) dengan gambar kurva seperti terlihat pada Gambar 2.9.
µ [x ] = e
− ( x − c )2 2σ 2
(11)
Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5
31
e.
Kurva Two-sided Gaussian Kurva Two-sided Gaussian mempunyai fungsi keanggotaan seperti pada persamaan (10) dan gambar kurva seperti pada Gambar 2.10.
µ [x ] = e
− ( x − c )2 2σ 2
(12)
Fungsi Two-sided Gaussian merupakan kombinasi dua kurva Gaussian. Kurva pertama dengan parameter σ1 dan c1 berada disebelah kiri. Kurva kedua ada dengan parameter σ2 dan c2 berada disebelah kanan. Daerah antara c1 dan c2 harus bernilai 1.
Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, c2=8 f.
Kurva S Kurva S mempunyai fungsi keanggotaan seperti pada persamaan (11) dengan gambar kurva pada Gambar 2.11.
32
0 x − a 2 2 b−a µ [x ] = 2 1 − 2 b − x b−a 1
,x ≤ a ,a ≤ x ≤
a+b 2
a+b ≤ x≤b , 2
(13)
,x ≥b
Gambar 2.14 Kurva S untuk a=1 dan b=8 E. Fuzzy Clustering Proses clustering pada dasarnya merupakan proses pembuatan gugus atau himpunan yang memiliki anggota elemen-elemen yang akan dicluster. Pada algoritma clustering non-fuzzy, nilai keanggotaan suatu elemen terhadap gugus atau cluster dinyatakan sebagai 0 atau 1, artinya setiap dokumen hanya bisa menjadi anggota satu cluster (1 sebagai anggota dan 0 bukan anggota). Padahal, pada temu kembali informasi, dokumen dapat memiliki informasi yang relevan (dengan derajat tertentu) dengan beberapa cluster yang berbeda. Dengan fuzzy clustering, dokumen dapat menjadi anggota beberapa cluster sekaligus. Algoritma fuzzy clustering untuk document clustering masih menjadi salah satu topik yang menarik untuk dieksplorasi.
33
1. Fuzzy C-Means (FCM) Ada beberapa algoritma fuzzy clustering, salah satu diantaranya adalah Algoritma Fuzzy C-Means (FCM). FCM adalah suatu teknik
clustering data dengan keberadaan setiap titik data dalam suatu cluster ditentukan
oleh
derajat
keanggotaan.
Teknik
ini
pertama
kali
diperkenalkan oleh Jim Bezdek (Bezdek, 1981). Algoritma FCM diawali dengan menentukan derajat keanggotaan (secara acak) setiap titik data terhadap cluster. Berdasarkan derajat keanggotaan, kemudian ditentukan pusat cluster. Pada kondisi awal, pusat
cluster tentu saja masih belum akurat. Derajat keanggotaan selanjutnya diperbaiki berdasarkan fungsi jarak antara titik data dengan pusat cluster (Nascimento et. al., 2003). Dengan memperbaiki pusat cluster dan derajat keanggotaan tiap titik data secara berulang dan terus menerus, maka pusat cluster akan bergeser ke titik yang tepat (dengan kondisi total jarak antara titik data dengan pusat cluster telah mencapai nilai yang diinginkan). Output FCM adalah deretan pusat cluster dan derajat keanggotaan data terhadap setiap cluster (Kusumadewi dan Purnomo, 2004).
Algoritma FCM Algoritma FCM adalah sebagai berikut (Kusumadewi & Purnomo, 2004) : 1
Tentukan X sebagai input data yang akan dijadikan cluster dalam bentuk matriks berukuran n x m; dimana n = jumlah sampel data dan
34
m = jumlah atribut setiap data. Xij = data sample ke-i (i= 1,2,3 …, n), atribut ke-j (j = 1,2,3,…,m). 2
3
Tentukan : - Jumlah cluster
= c;
- Pangkat
= w;
- Maksimum iterasi
= MaxIter;
- Error terkecil yang diinginkan
=ξ;
- Fungsi obyektif awal
= P0 = 0;
- Iterasi awal
= t = 1;
Bangkitkan bilangan random uik, i = 1,2,..,n; k=1,2,...,c; sebagai elemen-elemen matriks partisi awal U. Hitung jumlah setiap kolom (atribut) : c
Q j = ∑ uik
j=1,2,…,m
(14)
k =1
µ ik =
Kemudian hitung : 4
u ik Qj
(15)
Hitung pusat cluster ke-k : Vkj, dengan k=1,2,…,c; dan j=1,2,…,m.
∑ ((µ ) n
w
ik
* X ij
)
i =1
Vkj =
n
∑ (µ )
(16)
w
ik
i =1
5
Hitung fungsi keanggotaan pada iterasi ke-t, Pt : −1
µ ik =
2 w −1 m ( ) X V − ∑ ij kj j =1 −1
w −1 m 2 ( ) X V − ∑ ij ∑ kj k =1 j =1 c
(17)
35
6
Hitung perubahan matriks partisi : n
Pt = ∑ i =1
c
∑ k =1
m ∑ (X ij − Vkj )2 (µ ik )w j =1
(18)
dengan: i=1,2,...,n; dan k=1,2,...,c. 7
Periksa kondisi berhenti : - Jika: ( | Pt – Pt-1 | < ξ) atau (t > maxIter) maka berhenti; - Jika tidak: t = t + 1, ulangi langkah ke-4
2. Hyperspherical Fuzzy C-Means Jarak Euclid yang sering digunakan pada algoritma FCM, ternyata bukan merupakan ukuran yang paling cocok untuk membandingkan vector dokumen. Adapun penjelasannya adalah sebagai berikut : misalkan ada dua dokumen XA dan XB yang terdiri dari set term T sebanyak k dengan asumsi kebanyakan term pada T (k’) tidak muncul pada XA dan XB. Diasumsikan juga vektor XA dan XB tidak memiliki term yang sama. Sehingga XA dan XB memiliki banyak memiliki nilai 0 dan jarak Euclid antara keduanya relatif kecil. XA dan XB dinyatakan mirip, padahal yang sesungguhnya tidak. Masalah pada fungsi Euclid adalah ketiadaan term pada dua dokumen dianggap sama dengan kehadiran term yang sama pada dua dokumen. Oleh karena itu, perlu dipikirkan cara atau metode lain yang lebih baik dari jarak Euclid. Mendez & Sacks (2003), mencoba menggunakan Ukuran Kemiripan Kosinus (Cosine Similarity) untuk menggantikan jarak Euclid. Ukuran Kosinus (
) adalah inner product dari vektor (
dan
)
36
setelah dinormalisasi (
). Semakin tinggi nilai kosinus,
semakin tinggi derajat kemiripan antar dokumen.
(19) memiliki sifat :
dan
Dengan transformasi sederhana, diperoleh ukuran ketidakmiripan :
(20) dan Berdasarkan
eksperimen,
Mendes
&
Sacks
(2003)
berhasil
membuktikan bahwa Ukuran Kemiripan Kosinus menghasilkan hasil cluster yang lebih baik dibandingkan dengan Jarak Euclid. Adapun fungsi
obyektif yang digunakan adalah :
(21) Karena
tidak mencerminkan derajat keanggotaan (
), maka
perlu dihitung dengan menggunakan rumus :
(22)
37
Fungsi Keanggotaan FCM dan H-FCM Data menjadi anggota sebuah cluster berdasarkan fungsi keanggotaan. Sebagai contoh, diberikan sekelompok data berdimensi tunggal (Gambar 2.12),
Gambar 2.15 Sebaran data pada dimensi tunggal Misalkan teridentifikasi dua cluster (A dan B). Pada algoritma K-Means, fungsi keanggotaan menjadi :
Gambar 2.16 Kurva S untuk a=1 dan b=8 Pada algoritma FCM & H-FCM, sebuah data tidak secara eksklusif menjadi anggota sebuah cluster. Dalam hal ini, kurva fungsi keanggotaan berbentuk sigmoid untuk menyatakan bahwa setiap data dapat menjadi anggota beberapa cluster dengan derajat keanggotaan yang berbeda (Gambar 2.14).
38
Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM 3. Fuzzy Substractive Clustering (FSC) FCM adalah algoritma clustering yang terawasi, sebab pada FCM kita harus terlebih dahulu menentukan banyaknya cluster yang akan dibentuk. Menentukan banyaknya cluster yang tepat merupakan permasalahan utama dalam pendekatan ini (Geva, 1999). Apabila banyaknya cluster belum diketahui, maka kita harus menggunakan algoritma yang
tak-terawasi (banyaknya cluster ditentukan oleh
algoritma). FSC merupakan algoritma clustering yang tak-terawasiyang diperkenalkan pertama kali oleh Chiu pada tahun 1994 (Chiu, 1994). Algoritma Subtractive Clustering dibangun berdasarkan ukuran kepadatan (density) titik data dalam suatu ruang (peubah). Konsep dasar subtractive clustering adalah menentukan daerah peubah yang memiliki
kepadatan data yang tinggi. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat cluster. Titik yang terpilih akan dikurangi tingkat kepadatannya. Kemudian algoritma akan memilih titik lain yang memiliki
39
tingkat kepadatan tertinggi lainnya untuk dijadikan sebagai pusat cluster yang lain (Kusumadewi & Purnomo, 2004). Apabila terdapat N buah data: X1, X2, .., Xn dan dengan menganggap data sudah dalam keadaan normal, maka densitas titik Xk dapat dihitung sebagai : N Xk − X j Dk = ∑ exp − (r 2)2 j =1
(23)
Dengan X k − X j adalah jarak antara Xk dengan Xj, dan r adalah konstanta positif yang kemudian akan dikenal dengan nama jari-jari (influence range) r. Jari-jari adalah vektor yang akan menentukan seberapa besar pengaruh pusat cluster pada tiap-tiap variabel. Dengan demikian, suatu titik data akan memiliki nilai kepadatan yang besar jika dia memiliki banyak tetangga didekatnya. Setelah menghitung nilai kepadatan setiap titik, maka titik dengan kepadatan tertinggi akan dipilih sebagai pusat cluster. Misalkan Xc1 adalah titik yang terpilih sebagai pusat cluster, sedangkan Dc1 adalah ukuran kepekatannya. Selanjutnya kepekatan dari titik-titik disekitarnya akan dikurangi menjadi X k − X c1 Dk = Dk − Dc1 ∗exp − (rb 2)2
(24)
dengan rb = q*ra (biasanya squash factor (q) = 1.5). Artinya titiktitik yang ada dekat dengan cluster Xc1 akan mengalami pengurangan kepekatan cukup besar. Hal ini menyebabkan titik tersebut akan sulit
40
menjadi pusat cluster berikutnya. Biasanya nilai rb bernilai lebih besar dari jari-jari (r). Setelah kepekatan tiap titik disesuaikan, maka selanjutnya akan dicari pusat cluster yang kedua, yaitu Xc2. Sesudah Xc2 didapat, ukuran kepekatan
tiap
titik
disekitarnya
disesuaikan
kembali,
demikian
seterusnya. Penerimaan dan penolakan suatu titik data menjadi pusat cluster ditentukan oleh nilai Rasio, Rasio Terima dan Rasio Tolak. Rasio adalah perbandingan nilai kepekatan suatu data pada perulangan ke-i (i > 1) dengan nilai kepekatan data pada perulangan pertama (i=1). RasioTerima dan RasioTolak merupakan konstanta bernilai antara 0 dan 1 yang digunakan sebagai ukuran untuk menerima dan menolak sebuah titik data kandidat pusat cluster menjadi pusat cluster. Ada 3 kondisi yang mungkin terjadi: a. Jika Rasio > RasioTerima, maka titik data tersebut diterima sebagai pusat cluster baru b. Jika RasioTolak < Rasio < RasioTerima, maka kandidat dapat diterima sebagai pusat cluster jika kandidat memiliki jarak yang cukup jauh dengan pusat cluster terdekat (rasio + jarak dengan pusat cluster terdekat ≥ 1). Sebaliknya jika rasio + jarak dengan pusat data terdekat < 1, maka dia ditolak sebagai pusat cluster. c. Jika Rasio ≤ RasioTolak, maka sudah tidak ada lagi titik data yang akan dipertimbankan sebagai kandidat pusat cluster, perulangan dihentikan.
41
Algoritma Fuzzy Subtractive Clustering Algoritma Fuzzy Subtractive Clustering adalah sebagai berikut (Kusumadewi & Purnomo, 2004) : 1
Tentukan Xij sebagai input data yang akan dicluster i=1,2,...,n; j=1,2,...,m (n = jumlah sampel data dan m = jumlah atribut setiap data)
2
Tetapkan nilai : a. rj (jari-jari setiap atribut data); j=1,2,...,m b. q (squash factor); c. Accept ratio d. Reject Ratio e. XMin (minimum data diperbolehkan) f. XMax (maksimum data diperbolehkan).
3
Normalisasi :
X ij = 4
X ij − XMin j XMax j − XMin j
, i = 1,2,...,n; j=1,2,...,m;
(25)
Tentukan potensi awal setiap titik data a. i = 1; b. Kerjakan hingga i = n : •
Ti = Xij
•
Hitung :
j=1,2,...,m
T j − X kj Dist kj = r •
j=1,2,...,m; k=1,2,...,n;
(26)
Potensi awal : Jika m = 1, maka
42
D1 = ∑ e − 4 (Dist k 1 ) n
2
(27)
k =1
Jika m > 1, maka n
Di = ∑ e
(
−4 Distkj2
) (28)
k =1
i=i+1 4
Cari titik dengan potensi tertinggi a. M = max[Di | i=1,2,...,n] b. H = i, sedemikian sehingga Di = M;
5
Tentukan pusat cluster dan kurangi potensinya terhadap titik-titik di sekitarnya a. Center =[] b.Vj = Xhj; j=1,2,...,m c. C = 0 (jumlah cluster) d.Kondisi = 1; e. Z = m f. Kerjakan jika (kondisi ≠ 1) dan (z ≠ 0) •
Rasio = z/M
•
Jika Rasio > accept_ratio : - Md = -1; - Kerjakan untuk i=1 sampai i = C: i. Gij =
V j − Centerij r
ii. Sd i = ∑ (Gij ) m
2
j=1,2,...,m
(29)
(30)
j =1
43
iii. Jika (Md < 0) atau (Sd < Md), maka Md = Sd; -
Smd =
Md
-
Jika rasio + Smd ≥ 1, maka kondisi = 1; (Data diterima sebagai pusat cluster)
-
Jika rasio + Smd < 1, maka kondisi = 2; (Data tidak akan dipertimbangkan kembali sebagai pusat cluster).
•
Jika Kondisi = 1 lakukan : - C = C + 1; - Centerc = V; - Kurangi potensi dari titik-titik dekat pusat cluster :
S ij =
V j − X ij r j *q
; j=1,2,...,m; i=1,2,...,n;
Dci = M * e
m −4 S ij j =1
(31)
∑ ( )2
i=1,2,...,n
(32)
i. Dci = M *e ; i=1,2,...,n.
(33)
ii. D = D – Dc
(34)
iii. Jika Di ≤ 0, maka Di = 0;
i =1,2,...,n.
iv. Z = max[Di |i=1,2,...,n] v. Pilih h = 1, sedemikian sehingga Di=Z •
Jika kondisi = 2 - Dh = 0; - Z = max[Di |i=1,2,...,n] - Pilih h = i, sedemikian sehingga Di=Z;
6
Kembalikan pusat cluster dari bentuk normal ke bentuk semula
44
Centerij = Centerij * (Xmaxj – Xminj) + Xminj; 7
(35)
Hitung nilai sigma cluster
σ j = r j * ( XMax j − XMin j ) / 8
(36)
Hasil dari algoritma Subtractive Clustering ini adalah matriks pusat cluster (C) dan sigma ( σ ) yang akan digunakan untuk menentukan nilai parameter fungsi keanggotaan Gauss, seperti terlihat pada Gambar 2.12.
µ [x ] = 0.5
σ
c
σ
Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) Dengan kurva Gauss pada Gambar 2.12, maka derajat keanggotaan titik data Xi pada cluster k dapat ditentukan sebagai :
µ ki = e
−
m
(xij −Ckj )2
j =1
2σ 2j
∑
(37)
F. Clustering dalam Sistem Temu Kembali Informasi Tujuan dari setiap algoritma clustering adalah untuk mengelompokkan elemen data berdasarkan ukuran ke(tidak)miripan sehingga relasi dan struktur data yang tidak terlihat dapat diungkapkan. Document clustering untuk temukembali informasi telah mulai dipelajari beberapa dekade yang lalu untuk
45
meningkatkan kinerja pencarian dan efisiensi pengambilan (Mendes dan Sacks, 2003). Penggunaan clustering didasarkan pada hipotesis cluster yaitu : “dokumen yang relevan dengan query yang diberikan, cenderung mirip satu sama lain dibandingkan dengan dokumen yang tidak relevan, oleh karena dokumen yang relevan dapat dikelompokkan dalam cluster” (Rijsbergen, 1979). Selain itu, clustering juga dapat digunakan untuk browsing koleksi dokumen yang sangat besar dan sebagai alat untuk mengatur senarai dokumen hasil query menjadi kelompok-kelompok yang memiliki makna (Cutting at. al, 1992). Penelitian Leuski juga berhasil menunjukkan bahwa ternyata metode clustering lebih efektif dalam membantu pengguna untuk menemukan informasi dibandingkan dengan metode senarai (Leuski, 2001). Dilihat dari urutan pengerjaannya, clustering dalam temu-kembali informasi dibagi dua jenis, sebelum pencarian (static clustering) dan sesudah pencarian (post-retrieval clustering) (Tombros, 2002).
Penelitian Terdahulu Berdasarkan kajian literatur yang penulis lakukan, penelitian untuk meningkatkan efektifitas temu-kembali informasi kebanyakan menggunakan model document clustering. Model clustering yang paling banyak digunakan adalah model hirarki dan partisi (Tabel 1). 1. Penelitian pada temu-kembali informasi fuzzy yang lebih komprehensif dilakukan oleh Horng et. al. (2005). Pertama kali, Horng et. al. menggunakan algoritma Fuzzy Agglomerative Hierarchical Clustering untuk membentuk document cluster. Kemudian berdasarkan document
46
cluster dan pusat dokumen, dibangun aturan logika fuzzy logic. Terakhir, mereka mengaplikasikan aturan logika fuzzy untuk mengembangkan query pengguna untuk menemukan dokumen yang relevan dengan permintaan pengguna. Implementasi aturan logika fuzzy pada query pengguna menjadikan metode temu-kembali informasi fuzzy lebih efektif, fleksibel dan cerdas.
Tabel 2.1 Penelitian tentang document clustering Algoritma Clustering
Jenis
Fuzzy
1
Horng et. al. 2005
Pustaka
Fuzzy Agglomerative Hierarchical
Hirarki
Ya
2
Lian et. al. 2004
S-Grace
Hirarki &
Tidak
Graf 3
4
Shyu et. al. 2004
Fung et. al. 2003
PAM, Single-Link, Group Average-
Partisi &
Tidak
Link & Complete-Link
Hirarki
Frequent Itemset-based
Hirarki
Tidak
Hirarki Partisi
Ya Ya
Partisi
Ya
Hierarchical Clustering (FIHC) 5 6
7
Wallace et. al. 2003 Mendes & Sacks.
Fuzzy Agglomerative Hierarchical Hyperspherical Fuzzy c-Means (H-
2003
FCM)
Leuski. 2001
ε-Insentive Fuzzy C-Means (εFCM)
8
Maarek et. al. 2000
Agglomerative Hierarchical
Hirarki
Tidak
9
Rüger & Gauch. 2000
Buckshot
Partisi
Tidak
2. Lian et. al. (2004) melakukan clustering terhadap dokumen XML dengan mengusulkan algoritma S-Grace. Pada algoritma S-Grace, digunakan Teori Graf untuk mengukur jarak antara dokumen dengan sekelompok dokumen. Walaupun masih sangat memakan waktu, algoritma S-Grace efektif untuk meng-cluster dokumen XML. 3. Shyu et. al. (2004) menggunakan pola akses pengguna pada web untuk meng-cluster dokumen. Pola akses diperoleh dari log server yang
47
mencatat karakterisik dokumen web melalui halaman-halaman yang diklik pengguna yang mengikuti link pada dokumen web. Semakin sering dua dokumen web diklik berdasarkan query yang sama, semakin dekat relasi keduanya. Ukuran kedekatan dokumen diukur menggunakan affinitybased probabilistic model. Ada empat algoritma clustering yang digunakan : Partitioning Around Medoids (PAM), Single-Link, Group Average-Link dan Complete Link. Algoritma yang pertama merupakan algoritma clustering partisi dan lainnya adalah hirarki. 4. Salah satu tantangan utama dalam document clustering adalah dimensi yang tinggi, karena satu dokumen saja sudah mengandung ribuan kata. Fung et. al. (2003) mencoba mengatasi masalah tersebut dengan menggunakan frequent itemset. Frequent itemset adalah kata-kata atau istilah yang sering digunakan. Dengan berfokus pada frequent itemset, dimensi dokumen berhasil dikurangi secara drastis. Selanjutnya frequent itemset digunakan sebagai bahan clustering yang menggunakan algoritma clustering hirarki. Berdasarkan pengujian, kinerja metode ini ternyata mengungguli kinerja algoritma HFTC (Hierarchical Frequent Term-based Clustering) yang digunakan oleh Beil et. al. (2002). 5. Permasalahan pendeteksian kategori thematic pada dokumen yang diindeks secara semantic didefinisikan oleh Wallace et. al. (2003). Dengan menggunakan
relasi
quasi-taxonomic
fuzzy
dan
algoritma
fuzzy
hierarchical clustering, Wallace et. al. berhasil menjelaskan bagaimana deteksi kategori thematic dapat diperoleh.
48
6. Mendes & Sacks (2003) menggunakan algoritma Hyperspherical Fuzzy cMeans Clustering (HFCM) untuk meng-cluster dokumen. Kemudian parameter Akurasi dan Kolektifitas digunakan untuk menilai cluster yang dihasilkan. Selain itu, digunakan algoritma K-Means sebagai pembanding. Berdasarkan hasil eksperimen yang mereka kerjakan, ternyata kinerja algoritma H-FCM mengungguli kinerja K-Means. 7. Penelitian yang dilakukan oleh Leuski (2001) mencoba mengatasi kekurangan dari metode fuzzy C-Means yang sensitif terhadap noise dan pencilan dengan membuat algoritma ε-Insentive Fuzzy C-Means (ε-FCM). Hasil pengujian algoritma ε-FCM menunjukkan algoritma ε-FCM lebih tahan (robust) terhadap noise dan pencilan dibandingkan dengan algoritma FCM. 8. Maarek et. al. (2000) melakukan clustering pada web. Input sistem berupa dokumen web yang dinamis (hasil pencarian) dan output yang dihasilkan memiliki siklus hidup singkat karena hanya digunakan untuk tujuan browsing yang interaktif. Karena sifatnya yang interaktif dan online, maka dibutuhkan algoritma clustering yang efisien namun tetap memiliki ketelitian yang tinggi. Dalam hal ini Maarek et. al. memilih Algoritma Complete-link Hierarchical Agglomerative Clustering. Maarek et. al. juga menyediakan lapisan presentasi berbasis java bagi pengguna untuk menelusuri cluster yang dihasilkan. 9. Rüger & Gauch (2000) memfokuskan penelitian pada reduksi dimensi ciri dokumen. Reduksi dimensi dilakukan sebelum proses document clustering yang menggunakan algoritma Buckshot Clustering. Rüger & Gauch
49
berhasil menunjukkan bahwa dengan teknik pengurangan dimensi yang mereka kerjakan, tidak hanya mengurangi kompleksitas waktu eksekusi, tapi juga meningkatkan relevansi dan kecepatan document clustering. Selain document clustering, ada beberapa model lain yang digunakan untuk meningkatkan efektifitas temu-kembali informasi, antara lain : Algoritma Fuzzy Matching (Girril & Luk, 1996), model Phrase Indexing Graph (Hammouda & Kamel, 2004), WordNet (Sedding & Kazakoval, 2004) dan Fuzzy Neighborhoods (Miyamoto & Kataoka, 2005).
G. Penilaian Kinerja Efektifitas sistem temu kembali informasi diukur dari kemampuannya untuk ‘memuaskan’ pengguna dalam menemukan dokumen yang relevan (Rijsbergen, 1979). Menurut Cleverdon (Cleverdon at. al, 1966) ada enam kriteria yang dapat mencerminkan kepuasan pengguna : 1. Kemampuan sistem dalam menyediakan material yang relevan 2. Waktu pencarian 3. Presentasi output 4. Usaha yang dilakukan pengguna untuk memperoleh informasi yang diinginkan 5. Akurasi (Precision) merupakan tingkat akurasi pencarian, yaitu rasio antara jumlah dokumen relevan yang terambil dengan seluruh jumlah dokumen yang terambil. Berdasarkan Tabel 2, Akurasi =
A∩ B B
(38)
50
6. Kolektifitas (Recall) adalah rasio antara jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh dokumen yang relevan. Berdasarkan Tabel 2, Kolektifitas =
A∩ B
(39)
A
Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu-kembali informasi
TERAMBIL (B)
TIDAK TERAMBIL (-B)
RELEVAN (A)
TIDAK-RELEVAN (-A)
A∩ B
− A∩ B
A ∩ −B
− A ∩ −B
51
3. METODOLOGI
A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi Algoritma dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input file dokumen ke basisdata dan membuat matriks representasi. Evaluasi algoritma dilakukan untuk memilih algoritma fuzzy clustering yang terbaik. Algoritma yang dibandingkan ada tiga, yakni algoritma Fuzzy Subtractive Clustering (FSC), Hyperspherical-
Fuzzy C-Means Clustering (H-FCM) dan Fuzzy Competitive Clustering.
PERSIAPAN
STUDI PUSTAKA
EVALUASI Algoritma H-FCM
Algoritma FSC
Algoritma FCCL
KRITERIA UJI
Matriks Data Uji
Precision
EVALUASI
Recall Speed
Algoritma Terbaik
PEMBUATAN PROTOTIPE SISTEM
Gambar 3.1 Kerangka Pemikiran Penelitian
52
Prototipe dikembangkan menggunakan algoritma clustering terbaik di antara ketiga algoritma yang diuji. Prototipe sistem temu kembali informasi bekerja berdasarkan input dokumen dan query, metode representasi dokumen dan query, proses atau metode pencarian dan metode menampilkan hasil query (Gambar 3.2). Pada penelitian ini, dokumen direpresentasikan oleh serangkaian term atau istilah yang memiliki bobot sedangkan query dipecah menjadi untaian kata. Metode pencarian yang digunakan metode Boolean.
Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi B. Bahan dan Alat Dokumen yang digunakan sebagai bahan penelitian adalah artikel dan berita berbahasa Indonesia yang diambil dari beberapa situs Internet. Pembuatan prototipe sistem menggunakan PHP sebagai bahasa pemrogaman, MySQL sebagai Sistem Manajemen Basis Data dan HTML (Hypertext
Markup Language) sebagai antar-muka sistem.
C. Tata Laksana 1. Tahap Persiapan Pengujian dilakukan dalam 4 tahap (Gambar 3.3). Proses pengolahan data dan pembuatan prototipe selengkapnya dapat dilihat pada Lampiran 1.
53
Gambar 3.3 Tata Laksana Persiapan dan Evaluasi a. Pencarian Algoritma Untuk menentukan algoritma yang akan digunakan, dilakukan penelusuran algoritma fuzzy clustering pada literatur. Algoritma yang dicari memiliki sifat fuzzy dan partisi (mengelompokkan dokumen pada satu tingkat). Hasil penelusuran menghasilkan tiga algoritma : FCM, H-FCM dan FSC.
b. Pengumpulan data Data yang digunakan adalah artikel yang dikumpulkan dari beberapa situs web. Artikel-artikel tersebut sudah terbagi menjadi beberapa kelompok, yakni berita politik, ekonomi, olah-raga dan iptek. Tidak semua bagian artikel digunakan sebagai data uji, melainkan hanya pargaraf utamanya saja.
c. Representasi Data Uji Tujuan dari proses ini adalah untuk mendapatkan matriks bobot berukuran m x n; dimana m = banyaknya dokumen dan n = banyaknya kata. Ada tiga formula pembobotan term pada dokumen, yaitu Term
54
Frekuensi (TF), Term Frekuesni Inverse Dokumen Frekuensi (TFIDF) dan Salton.
d. Penulisan Program Ketiga algoritma yang akan diuji diimplementasikan dalam program Matlab. Ketiga program tersebut masing-masing dijalankan untuk meng-cluster matriks bobot data.
2. Evaluasi Algoritma Fuzzy Clustering a. Uji Formula Pembobotan Uji formula pembobotan dilakukan untuk mendapatkan formula pembobotan terbaik. Uji ini dilakukan bersamaan dengan uji algoritma.
b. Uji Kinerja Algoritma Kinerja algoritma dinilai berdasarkan cluster hasil. Ada tiga kriteria uji yang digunakan, yaitu Akurasi, Kolektifitas dan kecepatan (waktu eksekusi) algoritma. Algoritma terbaik selanjutnya digunakan dalam pengembangan prototipe sistem temu kembali informasi. Ruang lingkup Penelitian Analisa Kebutuhan
Pengembangan Prototipe
Evaluasi Prototipe
Sepesifikasi Sistem
Komponen Daur Ulang
Pengembangan Software
Validasi Sistem
Software Hasil
Gambar 3.4 Tata Laksana Evaluasi
55
3. Pengembangan Prototipe Sistem Dalam pengembangan sistem, prototipe yang dihasilkan bukan merupakan tujuan akhir, melainkan untuk memberikan gambaran sistem yang lebih jelas kepada pengguna (Sommerville, 2000). Pada penelitian ini, prototyping melaksanakan tiga langkah dari enam langkah metode pengembangan sistem (Gambar 3.4) .
a. Outline Requirements Ada enam kriteria yang harus dipenuhi oleh sistem temu kembali informasi (Cleverdon, 1966), yakni : 1. Kemampuan sistem dalam menyediakan material yang relevan 2. Waktu pencarian yang relatif cepat 3. Presentasi output 4. Usaha pengguna untuk memperoleh informasi yang diinginkan 5. Akurasi 6. Kolektifitas Kriteria tersebut dapat digunakan sebagai parameter validasi dan verifikasi sistem yang dihasilkan.
b. Pengembangan Prototipe Prototipe dibagi menjadi tiga modul utama, yaitu modul Representasi & Penyimpanan Dokumen, modul Pencarian dan modul Representasi Hasil. Masing-masing modul dikembangkan dalam dua tahap, yaitu perancangan dan implementasi. Pada tahap akhir, ketiga sub prototipe yang dihasilkan digabung menjadi sebuah prototipe sistem. Prototipe yang dihasilkan selanjutnya diuji apakah sudah
56
memenuhi kriteria (akurasi, kolektifitas dan kecepatan) yang diinginkan.
Tata
laksana
Pengembangan
Prototipe
Sistem
selengkapnya dapat dilihat pada Gambar 3.5.
•
Analisis Pembuatan prototipe diawali dengan proses analisis. Tahapan analisis dilakukan untuk memahami kebutuhan, tujuan dan permasalahan dari pengembangan sistem. Pada tahap ini juga ditentukan model data dan fungsi atau modul yang diperlukan untuk mencapai tujuan pengembangan sistem.
Analisa Model
Disain
Implementasi
Representasi Dokumen
Modul Input
Metode Pencarian
Modul Pencari
Representasi Hasil
Modul Representasi Hasil
Pengujian
Implementasi Algoritma Clustering Terbaik
Tidak
Prototipe Sistem
Apakah Prototipe memenuhi kriteria ?
Pengembangan Modul Penyimpanan Ya Pengembangan Modul Pencari Pengembangan Modul Representasi Hasil
Selesai
Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu Kembali Informasi.
57
•
Perancangan & Implementasi Model Penyimpanan & Representasi Dokumen Dokumen beserta atribut nya (judul, nama pengarang, tahun dan abstrak) disimpan dalam basisdata. Karena pada proses pencarian dokumen direpresentasikan oleh serangkaian istilah yang dimiliki, maka istilah-istilah tersebut juga perlu disimpan dalam database. Rancangan basisdata harus diatur sedemikian rupa, sehingga kita dapat mengetahui dengan cepat dan tepat istilah apa saja yang dimiliki oleh dokumen beserta frekuensi kemunculan dan bobotnya; juga dalam dokumen apa saja suatu istilah ditemukan. Tujuan dari Representasi Dokumen adalah untuk mendapatkan daftar istilah yang dimiliki setiap dokumen. Setiap istilah memiliki nilai bobot pada setiap dokumen yang dihitung berdasarkan rumus (Salton & Buckley, 1988). Setiap istilah dan bobotnya disimpan pada basisdata.
•
Perancangan & Implementasi Model Pencarian Model pencarian terdiri atas model input dan metode pencarian. Pada penelitian ini diusulkan ada dua jenis input yang digunakan untuk pencarian dokumen, yaitu bahasa query dan parameter kedekatan. Bahasa query dirancang untuk dapat menggunakan Operator Boolean (AND dan OR). Parameter kedekatan nantinya akan digunakan untuk memperluas atau mempersempit cakupan pencarian dengan membandingkan derajat keanggotaan dokumen pada cluster hasil. Dokumen yang ditampilkan pada hasil hanyalah dokumen dengan
58
derajat keanggotaan sama dengan atau lebih besar dari parameter kedekatan.
•
Implementasi Algoritma Clustering Terbaik Algoritma Fuzzy Clustering yang digunakan merupakan algoritma terbaik hasil pengujian. Algoritma menerima input dokumen hasil pencarian dan matriks bobot istilah setiap dokumen. Output dari algoritma adalah beberapa cluster dokumen hasil pencarian.
•
Perancangan & Implementasi Representasi Hasil Output pencarian harus dirancang sedemikian rupa sehingga dapat menggambarkan
pengelompokan
dokumen
yang
ada,
tanpa
mengurangi kemudahan pengguna dalam mengakses dokumen yang diinginkan. Disain output yang diusulkan akan terdiri atas cluster, dokumen dan derajat keanggotaan dokumen pada cluster. Setelah query dilakukan, pertama kali sistem menampilkan link
cluster hasil query. Link cluster dapat diklik untuk membuka halaman
yang
menampilkan
dokumen
beserta
derajat
keanggotaannya pada cluster tersebut. Dokumen ditampilkan berurutan sesuai dengan derajat keanggotaannya.
c. Evaluasi Prototipe Dari enam kriteria Cleverdon (1966), hanya tiga kriteria yang digunakan untuk mengevaluasi prototipe, yakni: waktu pencarian, akurasi dan kolektifitas. Tiga kriteria ini dipilih karena dapat dihitung langsung secara kuantitatif. Waktu pencarian dihitung mulai dari pengguna menekan tombol pencarian sampai sistem menampilkan hasil dalam bentuk cluster.
59
Akurasi
dihitung
menggunakan
persamaan
36
dan
kolektifitas
menggunakan persamaan 37.
d. Kompleksitas Sistem Kompleksitas waktu sistem dihitung pada proses representasi matriks dokumen dan proses clustering. Proses representasi matriks memiliki T(n) = n (12m + 11) + 23 m + 11 atau T(n) ∈ O(nm). Proses clustering yang menggunakan algoritma H-FCM memiliki kompleksitas waktu sebesar O(nc2m) (n = total kata pada dokumen, c = total cluster, i = iterasi dan m = total dokumen, dengan c << i < m << n). Secara keseluruhan, sistem memiliki kompleksitas O(nc2m).
60
4. PERANCANGAN & IMPLEMENTASI SISTEM
Dalam Metodogi Rekayasa Sistem, ada empat disain yang dihasilkan, disain data, arsitektur, antarmuka dan komponen (Pressman, 2001).
A. Disain Data Disain Data menggambarkan proses transformasi data dalam sistem. Pada penelitian ini data mengalami perubahan dari data file, menjadi basisdata, matriks representasi dokumen, matriks keanggotaan dan data cluster.
1. File Dokumen Pada mulanya dalam bentuk file. Ada dua jenis file, file dokumen dan file buangan. File dokumen merupakan representasi dokumen dimana satu dokumen sama dengan satu file, sedangkan file buangan berisi daftar kata hubung (‘dan’, ‘atau’, ‘sehingga’), artikel seperti ‘amatlah’, ‘sematamata’, ‘dong’ dan ‘sebetulnya’ serta kata-kata yang sangat sering muncul pada dokumen seperti luar, dalam, atas, bawah. Total lebih dari 300 kata dalam file buangan (Tala, 2003).
2. Tabel Dokumen dalam Basisdata Kemudian sistem membaca file dan menyimpan data dalam tabel dokumen dalam basisdata. Tabel dokumen memiliki struktur sebagai berikut :
61
Tabel 4.1 Struktur Tabel Dokumen pada Basisdata No
Nama Kolom
Tipe Data
Ukuran
1
ID
Integer
8
2
ISI
Memo
1000
3
ISI_TERSARING
Character
1000
4
DAFTAR_KATA
Character
500
5
TOPIK
Character
50
6
KATA_TERBANYAK
Integer
4
7
FREKUENSI_MAKSIMUM
Integer
4
8
JUMLAH_KATA
Integer
4
Kolom ISI digunakan untuk menyimpan isi dokumen agar dokumen dapat
ditampilkan
kembali
secara
utuh.
Kolom
TERM
&
DAFTAR_KATA merupakan daftar kata yang terdapat pada isi dokumen dan sudah disaring, hanya bedanya kalau pada TERM, kata yang sama dapat muncul lebih dari satu kali (tergantung dari frekuensi kata pada dokumen), sedangkan pada DAFTAR_KATA, kata hanya muncul satu kali.
Kolom
TERM,
DAFTAR_KATA,
KATA_TERBANYAK,
FREKUENSI_MAKSIMUM dibutuhkan oleh Modul Clustering sebagai bahan perhitungan representasi dokumen. Kolom TOPIK digunakan oleh Modul Clustering sebagai dasar evaluasi clustering, dan terakhir kolom JUMLAH_KATA digunakan sebagai salah satu karakteristik (ukuran) dokumen.
3. Matriks Representasi Dokumen (MRD) MRD berukuran m x n (m = jumlah dokumen dan n = jumlah kata) merupakan
representasi
transformasi dokumen
dokumen
dalam
bentuk
(string) menjadi angka
angka.
Proses
dilakukan
dengan
menggunakan persamaan (1), (2) dan (3). Karena Banyaknya kata yang
62
dimiliki
dokumen
menyebabkan
kolom
matriks
(n)
dokumen
membengkak. Padahal, semakin besar dimensi matriks, semakin lama waktu yang dibutuhkan untuk proses clustering. Oleh karena itu perlu dilakukan reduksi dimensi matriks. Pada penelitian ini, reduksi dimensi matriks dilakukan dengan hanya memilih kata dengan Persentase Kemunculan lebih dari x %. Persentase Kemunculan (PK) kata ‘k’ adalah nilai perbandingan jumlah dokumen yang memiliki kata ‘k’ dengan total dokumen. Pada tahap evaluasi, matriks disimpan sebagai file, sedangkan pada prototipe, matriks disimpan pada memori.
4. Matriks Keanggotaan (MK) MK yang dihasilkan oleh proses clustering, adalah nilai derajat keanggotaan dokumen terhadap cluster. MK memiliki dimensi m x c (m = jumlah dokumen, c = jumlah cluster).
5. Data Cluster Data cluster merupakan gabungan MK dengan data dokumen pada tabel. Dengan data cluster, pengguna dapat dengan cepat melihat jumlah cluster beserta dokumen anggotanya, judul dokumen dan
nilai fuzzy
dokumen terhadap cluster.
B. Disain Arsitektur dan Komponen Disain arsitektur menggambarkan hubungan antara elemen-elemen (modul) pada perangkat lunak. Ada enam modul yang akan dikembangkan untuk evaluasi dan pengembangan prototipe, yakni modul penyimpanan, pencari, matriks, clustering, representasi hasil dan modul evaluasi. Modul-
63
modul tersebut digunakan pada dua tahap penelitian (tahap evaluasi dan tahap pengembangan prototipe). Tahap evaluasi menggunakan modul Penyimpanan, Modul Matriks, Modul Clustering dan Modul Evaluasi (Gambar 4.1). Sedangkan
tahap
Pengembangan
Prototipe
menggunakan
Modul
Penyimpanan, Modul Matriks, Modul Cluster, Modul Pencari dan Modul Representasi Hasil (Gambar 4.2). Dokumen
Modul Penyimpanan
Modul Matriks
Modul Clustering FCM
File Matriks Keanggotaan (U)
Modul Evaluasi
H-FCM Basisdata
File Matriks Pola
FSC
Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi Dokumen
Modul Penyimpanan
Modul Clustering Algoritma Terbaik
Modul Representasi Hasil
Basisdata
Modul Matriks
Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe
64
1. Modul Penyimpanan Modul Penyimpanan berfungsi untuk membaca file input (file dokumen dan buangan) untuk disimpan dalam basisdata. Adapun algoritma penyimpanan dokumen yang digunakan adalah sebagai berikut : maxFrek = 0 jumlahKata =0 ISI = isi dokumen Hilangkan tanda baca dan karakter selain huruf Untuk setiap kata dalam dokumen { Jika kata tidak terdapat pada file buangan { terms = terms + kata frek = frekuensi terms if (frek > maxFrek) { maxFrek = frek maxTerm = kata Jika kata belum ada pada daftar_kata{ daftar_kata = daftar_kata + kata jumlahKata = jumlahKata + 1 } } } ISI_TERSARING = terms DAFTAR_KATA = daftar_kata FREKUENSI_MAKSIMUM = maxFrek KATA_TERBANYAK = maxTerm JUMLAH_KATA = jumlahKata
2. Modul Matriks Modul
Matriks
berfungsi
untuk
membaca
dokumen
(kolom
DAFTAR_KATA) pada basisdata dan merepresentasikan dokumen sebagai matriks pola yang siap digunakan untuk proses clustering menggunakan persamaan (1). Output yang dihasilkan oleh Modul Matriks adalah Matriks Representasi Dokumen (MRD) berukuran m x n (m = jumlah dokumen dan n = jumlah kata). Pada tahap evaluasi, matriks disimpan sebagai file, sedangkan pada prototipe, matriks disimpan pada memori.
65
3. Modul Clustering Modul clustering merupakan implementasi dari algoritma fuzzy
clustering. Ada dua jenis modul clustering, yaitu modul untuk evaluasi dan modul untuk prototipe. Modul evaluasi terdiri dari tiga algoritma
clustering (FCM, H-FCM dan FSC) sedangkan modul prototipe hanya satu algoritma. Modul clustering evaluasi dibuat dengan menggunakan Matlab, sedangkan
modul
clustering
prototipe
dikembangkan
dengan
menggunakan PHP.
Evaluasi Pada tahap ini, ada tiga Modul Clustering yang digunakan, yaitu Modul FCM untuk algoritma FCM, modul FSC untuk algoritma FSC dan modul H-FCM untuk algoritma H-FCM. Setiap modul dijalankan dengan menggunakan input file matriks yang sama. Outputnya adalah file matriks keanggotaan (U) dokumen terhadap cluster (Tabel 4).
Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster Dok ID
Cluster 1
Cluster 2
…
Cluster k
1 2 3 . . . n
U11 U21 U31 . . . Un1
U12 U22 U32 . . . Un2
… … … … … … …
U1k U2k U3k . . . Unk
Pengembangan Prototipe Prototipe sistem temu-kembali informasi hanya memiliki satu Modul
Clustering, yakni Modul Clustering algoritma yang terbaik. Modul ini membaca dan menghasilkan output dari dan ke memori.
66
4. Modul Evaluasi Modul evaluasi digunakan untuk mengukur dan membandingkan kinerja dari algoritma FSC, FCM dan H-FCM. File matriks keanggotaan yang dihasilkan oleh setiap modul clustering digunakan sebagai input untuk menghitung nilai Akurasi, Kolektifitas dan Waktu Eksekusi. Akurasi dihitung berdasarkan persamaan (38). Kolektifitas dihitung menggunakan persamaan (37). Sedangkan Waktu Eksekusi adalah waktu yang diperlukan oleh algoritma mulai dari pembacaan input hingga menghasilkan output. Evaluasi dilakukan beberapa kali dengan menggunakan persentasi kemunculan kata yang berbeda. Pada penelitian ini dilakukan percobaan dengan PK 5%, 10%, 15%, 20%. Setiap PK memiliki satu file MRD sendiri.
5. Modul Representasi Hasil Modul ini berfungsi untuk mentransformasikan matriks keanggotaan hasil dari proses pencarian dan clustering menjadi bentuk yang lebih ramah pengguna (user friendly), dimana pengguna dapat dengan cepat mengetahui jumlah cluster dan dokumen (beserta derajat keanggotaan) yang menjadi anggotanya. Modul ini dibuat dengan menggunakan PHP, basisdata MySQL dan Web Server Apache.
C. Disain Antarmuka Antarmuka sistem dirancang agar pengguna dapat dengan mudah dan cepat memperoleh informasi yang diinginkan. Antarmuka sistem dirancang
67
sesederhana mungkin untuk mengurangi beban komputer dan membuat pengguna lebih fokus terhadap hasil pencarian. Konsep kesederhanaan saat ini merupakan salah satu faktor penting dalam perancangan antarmuka aplikasi pencari. Hal ini terbukti dengan keberhasilan Google (www.google.com) yang memiliki antarmuka sangat sederhana, menjadi mesin pencari yang paling banyak digunakan. Oleh karena itu, disain antarmuka sistem pada penelitian ini pun dibuat secara sederhana, seperti yang terlihat pada Gambar 4.3. Kata Kunci Jumlah Cluster Cari !! Dokumen pada Cluster 2
<< Prev 1 2 3 4 5 Next >>
1 [1.00] Link judul dokumen 1 2 [0.99] Link judul dokumen 2 3 [0.95] Link judul dokumen 3 … ... … 10 [0.45] Link judul dokumen 10
Gambar 4.3. Disain antarmuka sistem
68
5. EVALUASI SISTEM
A. Karakteristik Dokumen Input Ada 574 dokumen yang digunakan pada penelitian ini yang bersumber dari situs internet dan dikelompokkan menjadi 2 kategori : eksakta (278 dokumen) dan non-ilmiah (296 dokumen). Dokumen ilmiah terdiri dari topik Pemrograman, Bioteknologi, Linux dan Basisdata. Dokumen non-ilmiah terdiri dari topik Saham & Pasar Uang, Seluler, Otomotif dan Sepakbola (Tabel 5.1).
Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen Kelompok Eksakta
Topik Pemrograman
75
Bioteknologi
69
Linux
77
Basisdata
57
Total Eksakta Non-Eksakta
Jumlah
www.wikipedia.co.id, www.ilmukomputer.com, www.digilib.itb.ac.id www.indobiogen.or.id www.biotek.lipi.go.id www.ibiblio.org/pub/Linux www.ilmukomputer.com www.ilmukomputer.com
278
Saham & Pasar Uang Seluler Otomotif
77 73 72
Sepakbola
74
Total Non-Eksakta
Sumber
www.detik.com www.detikportal.com www.kompas.co.id, www.detikportal.com www.pialadunia.com, www.goal.com
296
B. Proses Evaluasi Setelah dokumen disimpan dalam basisdata, selanjutnya algoritma clustering dijalankan. Namun sebelumnya, perlu dilakukan pembentukan matriks representasi dokumen sebagai input algoritma. Hasil dari proses
69
clustering adalah matriks keanggotaan dokumen terhadap cluster yang dihasilkan.
1. Pembentukan Matriks Representasi Dokumen Dokumen yang digunakan pada penelitian ini paling sedikit memiliki 148 kata dan paling banyak 3060 kata (rata-rata 866.44 kata per dokumen) dan diperoleh MRD berukuran 574 x 19148. Dari 19148 kata, kebanyakan hanya muncul pada satu dokumen, sehingga tidak dapat digunakan sebagai penciri cluster. Oleh karena itu, reduksi dimensi perlu dilakukan. Reduksi dilakukan dengan menggunakan PK (5%, 10%, 15% dan 20%). PK 5% artinya kata yang digunakan sebagai ciri dokumen harus ada paling sedikit di 29 (5% x 547) dokumen. Dengan menggunakan PK 5%, jumlah kata berhasil direduksi dari 19148 kata menjadi hanya 624 kata. Dimensi matriks hasil reduksi dapat dilihat pada Tabel 6 dan daftar kata selengkapnya pada lampiran 2, 3, 4 dan 5.
Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20% Persentase 5% 10 % 15 % 20 %
Jumlah Dokumen Minimal 29 57 86 115
Jumlah Kata 624 191 83 30
MRD dihasilkan dari tiga formula yang berbeda, yakni Tf (1), TfIdf (2) dan Salton (3). Ketiga formula tersebut digunakan untuk menilai mana formula representasi yang terbaik.
70
2. Pembentukan Matriks Keanggotaan MRD digunakan sebagai input tiga Modul Clustering (FCM, H-FCM dan FSC) yang menghasilkan masing-masing satu matriks keanggotaan (U) seperti terlihat pada Tabel 7. Karena ada 4 buah MRD dengan PK yang berbeda, maka diperoleh 12 MRD.
Tabel 5.3 MRD hasil algoritma H-FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ID
C1
C2
C3
C4
C5
C6
C7
C8
1 2 3 . . . 572 573 574
0.006 0.007 0.054 . . . 0.017 0.014 0.009
0.948 0.931 0.607 . . . 0.012 0.011 0.007
0 0.001 0.012 . . . 0.001 0.001 0
0.004 0.005 0.047 . . . 0.052 0.040 0.030
0 0.001 0.01 . . . 0.001 0 0
0.002 0.003 0.027 . . . 0.002 0.002 0
0.002 0.003 0.028 . . . 0.818 0.844 0.893
0.002 0.003 0.028 . . . 0.085 0.077 0.525
C. Evaluasi Kinerja Matriks Representasi Dokumen dan Matriks Keanggotaan digunakan sebagai input evaluasi. Kedua-duanya diukur menggunakan parameter yang sama. Ada tiga parameter yang digunakan untuk mengukur kinerja algoritma, yaitu Akurasi (persamaan 38), Kolektifitas (persamaan 37) dan Iterasi & Waktu Eksekusi.
Metode Representasi Terbaik Percobaan dilakukan dengan melakukan proses clustering menggunakan seluruh algoritma (FCM, H-FCM dan FSC) dengan input MRD dari tiga formula representasi yang berbeda (Tf, TfIdf dan Salton). Dengan menggunakan input MRD dari formula Tf dan TfIdf, algoritma FCM dan HFCM ternyata menghasilkan matriks U dengan nilai yang sama semua yakni 0.125 atau 1/8 (8 = jumlah cluster). Artinya seluruh dokumen dikelompokan
71
ke seluruh cluster dengan nilai 0.125. Sedangkan algoritma FSC menghasilkan kebanyakan nilai 0 dan hanya sedikit yang bernilai satu. Artinya, formula Tf dan TfIdf gagal menangkap karakteristik dokumen Sebaliknya, dengan menggunakan MRD Salton, seluruh proses clustering ternyata dapat menghasilkan matriks keanggotaan U yang memiliki nilai bervariasi. Oleh karena itu, formula Salton dianggap berhasil menangkap ciri pembeda dokumen. Untuk pembahasan selanjutnya, proses evaluasi dan pengembangan prototipe menggunakan formula Salton.
Akurasi dan Kolektifitas Hasil evaluasi menunjukkan bahwa algoritma H-FCM memiliki akurasi terbaik pada PK = 10 % dengan akurasi 0.93 dan kolektifitas terbaik 0.92 (Gambar 5.2). Gambar 5.1 menunjukkan hasil perhitungan akurasi, kolektifitas algoritma FCM dan Gambar 5.3 untuk algoritma FSC. 0.45 15% 0.4
Akurasi
10% 0.35
20%
0.3 5% 0.25
0.2 Algoritma FCM
0.39
0.49
0.23
0.35
0.34
0.43
0.37
0.27
Kolektifitas
Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM
72
1 10%
0.9 0.8
5%
15%
Akurasi
0.7 0.6 20% 0.5 0.4 0.3 0.2 Algoritma HFCM
0.59
0.82
0.93
0.86
0.55
0.8
0.92
0.84
Kole ktifitas
Gambar 5.2 Akurasi dan Kolektifitas Algoritma H-FCM
0.38 10% 0.36 5% 0.34
Akurasi
0.32
20%
0.3 0.28 0.26 15% 0.24 0.22 0.2 Algoritma FSC
0.38
0.28
0.5
0.44
0.32
0.25
0.37
0.35
Kolektifitas
Gambar 5.3 Akurasi dan Kolektifitas Algoritma FSC
Grafik perbandingan kinerja ketiga algoritma selengkapnya dapat dilihat pada Gambar 5.4 (Akurasi) dan Gambar 5.5 (Kolektifitas).
73
1 0.9 0.8
Akurasi
0.7 0.6
Algoritma HFCM
0.5
Algoritma FCM
0.4
Algoritma FSC
0.3 0.2 0.1 0 5%
10%
15%
20%
Persentase Kata
Gambar 5.4 Perbandingan Akurasi algoritma FCM, H-FCM dan FSC
1 0.9 0.8
Daya Koleksi
0.7 0.6
Algoritma HFCM Algoritma FCM
0.5
Algoritma FSC
0.4 0.3 0.2 0.1 0 5%
10%
15%
20%
Persentase Kata
Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H-FCM dan FSC
Iterasi dan Waktu Eksekusi Pada penelitian ini juga dibandingkan jumlah iterasi dan waktu eksekusi algoritma. Iterasi dihitung karena ia tidak tergantung dari komputer yang dipakai, sedangkan parameter waktu digunakan untuk menghitung kecepatan
74
algoritma secara nyata. Tabel 5.4 menunjukkan jumlah iterasi dan Tabel 5.5 menunjukkan waktu eksekusi.
Tabel 5.4 Jumlah iterasi algoritma FCM, H-FCM dan FSC Persentase 5% 10% 15% 20% Rata-Rata
FCM 141 78 66 63 87
H-FCM 59 32 27 29 36.75
FSC 17 28 94 34 43.25
Tabel 5.5 Waktu eksekusi algoritma FCM, H-FCM dan FSC (detik) Persentase 5% 10% 15% 20% Rata-Rata
FCM 161.4 18.4 8.82 2.37 47.75
H-FCM 194.49 89.38 70.93 64.46 104.82
FSC 67.14 12 4.62 1.94 21.43
Berdasarkan Tabel 5.5, terlihat bahwa algoritma H-FCM membutuhkan iterasi yang paling sedikit (rata-rata = 36.75) dan algoritma FCM membutuhkan
iterasi
paling
banyak.
Sedangkan
algoritma
FCM
membutuhkan waktu eksekusi paling sedikit (rata-rata 21.54 detik) dan algoritma H-FCM membutuhkan waktu yang paling banyak dengan rata-rata 104.82 detik (Tabel 12).
Grafik perbandingan iterasi ditunjukkan oleh
Gambar 5.6 dan grafik waktu eksekusi dapat dilihat pada Gambar 5.7.
75
160
I t e r a s i
140 120 100 H-FCM
80
FCM
60
FSC
40 20 0 5%
10%
15%
20%
Persentase Kata
Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC 250
Waktu Eksekusi
200
150 H-FCM FSC FCM
100
50
0 5%
10%
15%
20%
Persentase Kata
Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC Evaluasi pada dokumen berbahasa Inggris Selain dengan dokumen berbahasa Indonesia, evaluasi juga dilakukan terhadap dokumen berbahasa Inggris. Ada 80 dokumen dengan delapan topik (ekonomi, sepak bola, seluler, linux, basisdata, bioteknologi, otomotif dan pemrograman) yang digunakan. Sumber dokumen diperoleh dari situs www.bbc.co.uk, www.wikipedia.com dan www.aljazeera.net.
76
Akurasi dan Kolektifitas yang dihasilkan oleh ketiga algoritma dengan dokumen berbahas Inggris ternyata tidak jauh berbeda dibandingkan Akurasi dan Kolektifitas pada dokumen berbahasa Indonesia (Tabel 5.6, 5.7 dan 5.8).
Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM Persentase
5% 10% 15% 20%
Akurasi 0.39 0.41 0.32 0.46
Kolektifitas 0.35 0.40 0.34 0.44
Tabel 5.7 Akurasi dan Kolektifitas Algoritma H-FCM Persentase
5% 10% 15% 20%
Akurasi 0.96 0.92 0.87 0.86
Kolektifitas 0.95 0.91 0.86 0.90
Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC Persentase Akurasi Kolektifitas 5% 0.37 0.40 10% 0.52 0.38 15% 0.45 0.43 20% 0.53 0.44
Bahasa Indonesia vs Bahasa Inggris Pada dokumen berbahasa Indonesia, algoritma H-FCM unggul dengan akurasi 0.93 dan kolektifitas 0.92 pada PK 10%. Sedangkan pada dokumen berbahasa Inggris, algoritma H-FCM unggul dengan nilai akurasi 0.96 dan kolektifitas 0.95 pada PK 5% (perbandingan hasil algoritma selengkapnya dapat dilihat pada Tabel 5.12, Tabel 5.13 dan Tabel 5.14).
Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia Bahasa
Indonesia Inggris
Persentase 10 % 10 %
Akurasi 0.49 0.41
Kolektifitas 0.43 0.40
77
Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H-FCM pada dokumen berbahasa Inggris dan Indonesia Bahasa
Indonesia Inggris
Persentase 10 % 5%
Akurasi 0.93 0.96
Kolektifitas 0.92 0.95
Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia Bahasa
Indonesia Inggris
Persentase 10 % 20 %
Akurasi 0.50 0.53
Kolektifitas 0.37 0.44
Pemilihan Algoritma Algoritma terbaik dipilih menggunakan Teknik Perbandingan Indeks Kinerja. (Comparative Performance Index, CPI). CPI merupakan indeks gabungan (Composite Index) yang dapat digunakan untuk menentukan penilaian atau peringkat dari berbagai alternatif berdasarkan beberapa kriteria (Marimin, 2004). Kriteria yang dipakai dan algoritma yang diperbandingkan dimasukkan dalam matriks keputusan seperti yang ditunjukkan pada Tabel 5.12 dan Tabel 5.13.
Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik Kriteria Algoritma Akurasi Kolektifitas Waktu FCM 0.37 0.35 47.75 H-FCM 0.8 0.7 104.82 FSC 0.4 0.33 21.43 Bobot Kriteria 0.6 0.1 0.3 Tabel 5.13 Matriks hasil transformasi melalui teknik perbandingan indeks Kinerja Kriteria Algoritma Akurasi Kolektifitas Waktu Nilai Peringkat FCM 100 106 44.88 84.04 3 H-FCM 216 212 20.45 149.75 1 FSC 108 100 100 104.8 2 Bobot Kriteria 0.6 0.1 0.3
78
Tabel 5.13 menunjukkan bahwa nilai algoritma FCM, H-FCM dan FSC adalah 84.04, 149.75 dan 104.8. Dengan demikian algoritma H-FCM sebagai peringkat 1 disusul oleh algoritma FSC dan FCM.
D. Pengembangan Prototipe Paradigma
pengembangan
prototipe
dapat
bersifat
close-ended
(throwaway prototyping) atau open-ended (evolutionary prototyping). Pada pendekatan throwaway, prototipe berfungsi sebagai demonstrasi dari kebutuhan, sedangkan pada evolutionary, prototipe digunakan sebagai bagian awal dari tahap dan dapat dipergunakan kembali di tahap perancangan dan implementasi dan prototipe merupakan evolusi pertama dari sistem (Pressman, 2001). Pada penelitian ini, pengembangan prototipe bersifat evolutionary karena aplikasi yang akan dikembangkan banyak menggunakan tampilan visual, banyak berinteraksi dengan user serta membutuhkan proses secara algoritma. Agar pengembangan sistem efektif, prototipe yang dikembangkan harus dapat memungkinkan user melihat hasil dan dapat merekomendasikan ide atau perubahan secara cepat. Prototipe juga harus memperhatikan lingkungan dimana sistem akan berjalan. Oleh karena itu, prototipe dikembangkan dengan membuat sebuah program antar-muka berbasis web yang mirip dengan sistem pencari informasi web pada umumnya. Antar-muka prototipe dibangun mirip dengan antar-muka sistem pencari informasi berbasis web lainnya, dimana pengguna dapat memasukkan kata kunci. Hanya bedanya, pada prototipe pengguna harus memasukkan jumlah
79
maksimal cluster yang diinginkan (Gambar 5.8) dan dokumen ditampilkan per cluster dan dokumen memiliki nilai keanggotaan terhadap cluster.
Gambar 5.8 Form input kata kunci dan jumlah cluster Dokumen hasil pencarian ditampilkan per cluster, seperti yang ditunjukkan oleh gambar 5.9 yang menampilkan dokumen hasil pencarian pada cluster 2 dari 8 cluster. Gambar 5.10 menunjukkan isi salah satu dokumen..
Navigasi untuk memilih melihat dokumen per halaman
Navigasi untuk memilih cluster Derajat keanggotaan dokumen terhadap cluster
Link dokumen
Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian. Untuk memperoleh hasil seperti Gambar 5.6, sistem melakukan proses terhadap input kata kunci dan jumlah cluster, antara lain : melakukan pencarian dokumen dalam basisdata, memproses dokumen menjadi cluster dan menampilkan cluster hasil. Proses tersebut dilakukan secara berurutan.
80
Gambar 5.10 Tampilan halaman web yang menampilkan isi dokumen. E. Validasi Sistem Dokumen ujicoba yang digunakan adalah corpus pertanian (Adisantoso, 2004) yang terdiri dari 700 file dokumen pertanian dan 30 frase query. Validasi sistem dilakukan dengan melakukan beberapa frase query terhadap sistem. Nilai PK yang digunakan adalah 10%. Selanjutnya dihitung nilai dari akurasi, kolektifitas dan waktu yang dibutuhkan untuk setiap query (Lampiran 10). Hasil percobaan menunjukkan bahwa secara rata-rata sistem memiliki Akurasi 0.76 dan Kolektifitas 0.64 dengan rata-rata waktu query 17.22 detik.
F. Implikasi & Kebijakan Manajemen Mesin pencari tidak hanya dapat diterapkan secara di Internet, tetapi dapat juga diimplementasikan oleh perusahaan atau institusi pada jaringan Intranet. Mesin pencari tersebut dapat digunakan perangkat untuk mencari dokumendokumen perusahaan. Lalu pertanyaannya, sejauh mana implementasi mesin pencari yang menggunakan cluster mengungguli mesin pencari biasa ? Berikut
81
beberapa point keunggulan mesin pencari berteknologi cluster dibandingkan mesin pencari biasa. 1. Seringkali pengguna diharuskan mencari kata yang belum dimengerti. Pada mesin pencari biasa, hasil pencarian ditampilkan dalam daftar yang tidak terstruktur. Seringkali dokumen dengan topik yang berbeda tampil secara berurutan. Hal ini dapat mengaburkan makna kata yang sesungguhnya bagi pengguna. Clustering dapat memudahkan pengguna dalam melihat topik apa saja yang digunakan. mengelompokkan secara otomatis data tanpa harus memiliki domain ilmu yang terdapat pada dokumen. 2. Pada hasil pencarian yang terkelompok dan terstruktur, pengguna dapat lebih cepat menemukan informasi yang diinginkan dibandingkan dengan melakukan pencarian pada daftar dokumen yang tidak terorganisir. Secara manajemen, hal ini tentu meningkatkan produktifitas. 3. Institusi yang besar dan telah lama berdiri memiliki data & dokumen yang jumlahnya ratusan ribu bahkan jutaan. Data tersebut sering digunakan oleh manajemen sebagai sumber informasi untuk pengambilan keputusan. Untuk mempercepat pencarian, diperlukan taksonomi atau pemetaan dokumen. Masalahnya pemetaan dokumen membutuhkan keahlian, tenaga, waktu dan biaya yang tidak sedikit. Dengan adanya mesin pencari berteknologi cluster, pemetaan dokumen dapat dilakukan dengan cepat dan lebih murah.
82
Aplikasi di Bidang Informasi Pertanian Pemanfaatan fuzzy clustering pada bidang pertanian, antara lain untuk : 1. Pencarian dan Pengelompokan Jurnal Seorang peneliti dituntut untuk rajin mengikuti perkembangan teknologi di bidangnya. Sumber utama adalah jurnal ilmiah, yang jumlahnya ribuan dan dipublikasikan secara tersebar pada situs dan topik yang beragam. Untuk menemukan jurnal yang membahas asam amino dari berbagai topik yang berbeda (misalkan dari bidang peternakan, perikanan kedokteran hewan dll), kadang bukanlah perkara yang mudah. Sistem temu-kembali informasi yang menggunakan fuzzy clustering dapat digunakan untuk membantu pengguna dalam menemukan informasi yang dibutuhkan. Penggunaan fuzzy clustering ini tidak harus diikuti dengan pembuatan mesin pencari baru, tetapi dapat ’dicangkokkan’ pada mesin pencari yang sudah ada. 2. Temu Kembali Gen Perkembangan teknologi memungkinkan penyimpanan data semakin beragam, antara lain dari bidang biologi molekuler (terutama untuk kesehatan dan pertanian). Seiring dengan hal tersebut, kebutuhan akan teknik penyimpanan dan temu kembali gen pada koleksi basisgen menjadi semakin penting. Sebagai contoh cara yang dapat digunakan adalah bagaimana menemukan gen berdasarkan ekspresi biologi. Salah satu teknik untuk mencapai tujuan tersebut adalah menggunakan fuzzy clustering (Pollard & Laan, 2005).
83
3. Pembagian wilayah menggunakan analisa citra Segmentasi citra adalah salah satu bagian penting dari pemrosesan citra, yang bertujuan untuk melakukan pembagian citra menjadi beberapa wilayah yang homogen berdasarkan kriteria kemiripan tertentu. Kriteria yang digunakan antara lain sumber mata air dan mineral, ciri lahan, curah hujan atau tingkat kekeringan dan citra satelit. Pada bidang pertanian, cluster wilayah dapat digunakan antara lain untuk menentukan tanaman yang cocok bagi daerah tertentu. Salah satu metode yang dapat digunakan untuk ini adalah dengan algoritma Fuzzy C-Means clustering. Algoritma Fuzzy C-Means dapat digunakan
untuk
melakukan
cluster
citra
secara
multiresolusi.
Pengklusteran citra dengan Fuzzy C-Means multiresolusi memiliki kinerja yang lebih baik dari cara konvensional, terutama bila dilihat dari sisi biaya komputasi, demikian juga dari sisi hasil, pengklusteran citra multiresolusi juga menghasilkan kluster yang lebih kompak (Ariwibowo, 2001).
84
6. KESIMPULAN DAN SARAN
A. Kesimpulan Penelitian ini mempelajari kegunaan fuzzy clustering dalam menemukan keterkaitan antar dokumen dalam sistem Temu Kembali Informasi berbahasa Indonesia. Kami membandingkan kinerja (akurasi, kolektifitas dan kecepatan) tiga formula representasi dokumen dan tiga algoritma fuzzy clustering: FCM, H-FCM dan FSC dan mengembangkan prototipe menggunakan formula representasi dan algoritma terbaik.
Berdasarkan hasil evaluasi kinerja
algoritma dan pengembangan prototipe, diperoleh beberapa butir kesimpulan sebagai berikut : 1. Dibandingkan algoritma FCM dan FSC, algoritma H-FCM merupakan algoritma yang paling cocok digunakan untuk mengelompokkan dokumen, karena algoritma H-FCM memiliki tingkat akurasi dan kolektifitas yang lebih baik. 2. Pada penelitian ini, formula Salton merupakan metode representasi dokumen terbaik dibandingkan formula Tf dan TfIdf yang gagal memberikan input yang tepat terhadap algoritma clustering. 3. Hasil cluster yang kami peroleh memiliki akurasi dan kolektifitas yang lebih baik dibandingkan dengan cluster hasil penelitian Wibisono & Khodra (2005) yang menggunakan algoritma K-Means. Hal ini secara tidak langsung mendukung penelitian Mendez & Sacks (2003) yang juga mencatat keunggulan algoritma H-FCM dibandingkan algoritma K-Means.
85
Oleh karena itu, kami memilih algoritma H-FCM untuk digunakan dalam pengembangan prototipe sistem. 4. Prototipe sistem memiliki kompleksitas waktu sebesar O(nc2m) dengan n = jumlah kata pada seluruh dokumen, c = jumlah cluster dan m = jumlah kolom. 5. Untuk melakukan pencarian hingga mendapatkan cluster, sistem membutuhkan waktu yang relatif lebih lama dibandingkan aplikasi web tanpa clustering. Hal ini disebabkan karena sistem membutuhkan waktu tambahan untuk melakukan proses clustering. 6. Prototipe sistem memiliki kinerja yang cukup baik dengan tingkat Akurasi = 0.85 dan Kolektifitas = 0.52.
B. Saran Beberapa saran setelah dilakukannya penelitian dan perancangan prototipe sistem temu kembali informasi menggunakan fuzzy clustering, yaitu: 1. Penelitian dapat dikembangkan dengan data yang lebih banyak dan kompleks dan membandingkan beberapa teknik representasi dokumen. 2. Proses clustering dapat dipercepat dengan menggunakan algoritma Porter (Tala, 2003) untuk mereduksi jumlah kata melalui penghilangan imbuhan (stemming). 3. Dalam temu kembali informasi, hampir semua pengguna tidak mengetahui berapa jumlah cluster yang sebenarnya. Algoritma H-FCM yang memiliki akurasi dan kolektifitas yang baik, masih mengharuskan pengguna untuk memasukkan jumlah cluster. Algoritma FSC memungkinkan pengguna untuk tidak memasukkan jumlah cluster, akan tetapi FSC memiliki kinerja
86
yang kurang baik dalam temu kembali informasi. Oleh karena itu perlu dikembangkan algoritma clustering yang dapat menentukan sendiri jumlah clusternya dan memiliki kinerja yang baik dalam temu kembali informasi. 4. Sistem dapat diimplementasikan pada pencarian informasi pertanian. Akurasi hasil pencarian informasi pertanian dapat ditingkatkan dengan bantuan tenaga ahli pertanian.
87
DAFTAR PUSTAKA
Adisantoso J. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektifitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4. Bogor:Dept Ilmu Komputer FMIPA IPB. Adriani M. 2002. Evaluating Indonesian Online Resources for Cross-Language Information Retrieval. Glasgow: Department of Computing Science, University of Glasgow. Arifin AZ. 2002. Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita. Proseding Seminar Nasional Sains dan Teknologi 2002. Lembaga Penelitian ITS. Arifin AZ & Setiono AN. 2002. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Proceeding of Seminar on Intelligent Technology and Its Applications (SITIA), Teknik Elektro, ITS Surabaya. Arifin Z & Tasai SA. 2004. Cermat Berbahasa Indonesia. Jakarta: Akapres. Ariwibowo AB. 2001. Pendekatan Multi-dimensi Dokumen dalam sistem temukembali informasi menggunakan model spreading activation. Tesis. Jakarta:Fasilkom UI. Baeza-Yates R dan Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley. New York. Borodavkina L. 2000. Investigation of Machine Learning Tools for Document Clustering and Classification [tesis]. Massachusetts: Department of Electrical Engineering and Comp Science, MIT. Chiu S. 1994. Fuzzy model identification based on cluster estimation. J Intelligent and Fuzzy Syst 2(3):267-278. Cleverdon C.W, Mills J dan Keen M. 1966. Factors Determining The Performance of Indexing System. ASLIB Cranfield Project. Dominich. 2003. PageRank: quantitative model of Interaction Information Retrieval. 12th International World Wide Web Conference WWW ’03 International Workshop on Mobile Web Technologies WF7. 20-24 May 2003, Budapest. Fahmi I. 2004. Examining Learning Algorithm for Text Classificitation in Digital Libraries [tesis]. Groningen: Department of Alfa-Informatica, University of Groningen.
88
Geva AB. 1999. Hierarchical Unsupervised Fuzzy Clustering. IEEE trans on Fuzzy Syst 7(6):723-733. Girril TR & Luk CH. 1996. Fuzzy Matching as a Retrieval-Enabled Technique for Digital Libraries. Chicago:Dept of Comp Sci California State Univ. Grira N, Michel C. dan Boujemaa N. 2004. Unsupervised and Semi-supervised Clustering: a Brief Survey. In Review of Machine LearningTechniques for Processing Multimedia Content. Hammouda K dan Kamel M. 2004. Document Similarity Using a Phrase Indexing Graph Model, Knowledge and Information System (2004), no 6, hal. 710-727. London:Springer Verlag. Horng YJ, Chen SM, Chang YC dan Lee CH. 2005. A New Method for Fuzzy Information Retrieval Based on Fuzzy Hierarchical Clustering and Fuzzy Inference Techniques. IEEE Trans. on Fuzzy Syst 13(2): 216-228. Jain A.K., Murty M.N. dan Flynn P.J. 1999. Data Clustering : A Review. ACM Computing Survey 31. Jiawei H dan Kamber, M. 2001. Data Mining, Concepts and Techniques. Morgan Kauffman Publishers. San Fransisco, USA. Kantardzic M. 2001. Data Mining, Concepts, Methods and Algorithm. New Jersey : IEEE. Kusumadewi S dan Purnomo H. 2004. Logika Fuzzy untuk Pendukung Keputusan. Yogyakarta:Graha Ilmu. Leuski A. 2001. Evaluating Document Clustering for Interactive information retrieval, Proceeding of the 10th international conference on information and knowledge management. New York: ACM. Maarek Y.S, Fagin R, Ben-Shaul IZ dan Pelleg D. 2000. Ephemeral Document Clustering for Web Applications. Haifa:IBM Research Report RJ 10186. Marimin. 2004. Pengambilan Keputusan Kriteria Majemuk. Jakarta:Grasindo. Marimin. 2005. Teori dan Aplikasi Sistem Pakar dalam Teknologi Manajerial. Bogor: IPB. Mendes MES dan Sacks L. 2003. Evaluating Fuzzy Clustering for Relevance Based Information Access. Proceedings of IEEE international conference on fuzzy syst:648-653.
89
Michalski R, Stepp R dan Diday E. 1981. A Recent Advance in Data Analysis: Clustering objects into classes characterized by conjunctive concepts. Progress in Pattern Recognition, vol 1. L Kanal and A. Rosenfeld, Eds. Amsterdam : North-Holland Publishing Co. Miyamoto S & Kataoka E. 2005. Algorithms for Clustering Terms in Document Set Based on Fuzzy Neighborhoods. Ibaraki:Dept of Risk Eng Univ of Tsukuba. Muresan, G. 2002. Using Document Clustering and Language Modelling in Mediated Information Retrieval [disertasi]. Aberdeen: School of Computing The Robert Gordon Univ. Nascimento S, Mirkin B dan Moura-Pires F. 2003. Modeling Propotional Membership in Fuzzy Clustering. IEEE Trans on Fuzzy Syst 11(2). Pollard KS dan van der Laan M. 2005. Cluster analysis of genomic data with applications in IR. Bekeley: Berkeley Electronic. Pressman RS. 2001. Software Engineering, A Practitioner’s Approach. Ed ke-5. McGraww-Hill. Salton G dan Buckley C. 1988. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage. 24(5):513-523. Sedding J & Kazakov D. 2004. WordNet-based Text Document Clustering. New York: Dept. of Comp Sci Univ of New York. Sommervile I. 2000. Software Engineering. Ed. 6. Wokingham: AddisonWesley. Tombros A. 2002. The Effectiveness of Query-based Hierarchic Clustering of Documents for Information Retrieval [disertasi]. Glasgow: Dept. of Computing Science Faculty of Comp Sci, Math and Stat Univ of Glasgow. Rijsbergen van CJ. 1979. Information Retrieval Ed. 2. London:Butterworth. Tala FZ. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia [tesis]. Amsterdam:Institut for Logic, Language and Computation Universiteit van Amsterdam. Tang B, Shepherd M dan Milios E. 2005. Comparing and Combining Reduction Techniques for Efficient Text Clustering. Halifax:Faculty of Comp Sci, Dalhousie Univ Canada. Taylor A.G. 1999. The Organization of Information. Colorado: Libraries Unlimited.
90
Wibisono Y & Khodra ML. 2005. Clustering Berita Berbahasa Indonesia. Konferensi Nasional Sistem Informasi 2005, UNPAS Bandung. Yin-Je Hong and Shyi-Min Chen. 2005. A New Method for Fuzzy Information Retrieval Based on Fuzzy Hierarchical Clustering and Fuzzy Inference Technique. IEEE Trans on Fuzzy System 13 (2):216-228.
91
LAMPIRAN
92
Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat Lunak No.
Langkah
Alat
Sumber Data Beberapa situs Internet
Hasil
1
Pembuatan Program Penguji Algoritma Clustering
Matlab
2 3.
Disain & Implementasi Basisdata Input Dokumen
MySQL & xAmpp MySQL, PHP, Apache
4.
Representasi Dokumen
MySQL, PHP, Apache
5.
Disain Model Pencarian
MySQL, PHP, Apache
Program pencarian dokumen
6
Disain Metode Representasi Hasil
MySQL, PHP, Apache
Program
Beberapa situs Internet
Basisdata
Algoritma Clustering Terbaik
Struktur Basisdata Entiti pada tabel basisdata
Matriks bobot kata
Prosedur - Kumpulkan berbagai jenis artikel (komputer, politik, ekonomi, olahraga) dari beberapa situs Internet. - Ambil paragraf utama atau paragraf pertama - Melakukan pengelompokan menggunakan algoritma yang diuji dan membandingkan cluster hasil dengan jenis berita - Tentukan algoritma terbaik berdasarkan kriteria uji - Membuat ERD (Entity Relationship Diagram) - Membuat tabel dan relasi pada MySQL - Kumpulkan dokumen dari Internet - Ekstrak atribut dokumen (judul, nama, tahun & abstrak) - Input data ke basisdata - Buat program yang mencatat kata & menghitung jumlahnya pada abstrak dokumen - Hitung bobot kata pada abstrak dokumen berdasarkan rumus Salton & Buckley. - Buat program yang membaca & memecah query menjadi serangkaian kata - Buat program untuk mencari dokumen yang memiliki kata pada query - Membuat program implementasi algoritma clustering terbaik hasil pengujian
93
Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) www web id samaan transaksi sistem basis data kembang penelitian bahasa query model lengkap vendor penyimpanan tipe menarik fitur aplikasi paket sumber daya menyediakan disimpan sesuai perusahaan beda memasuki dunia internet generasi menyimpan file system operasi diakses browser form format html mudah tampilan sifat jaringan komputer multimedia video digital milik dll komponen perangkat keras pengguna untung penggunaan bebas akses efisien pengembangan aman perbaikan proses page level gambar fisik eksternal perintah sql informasi memiliki user struktur indeks software kenal isi pemrograman mesin unit interface dilengkapi objek produk client server alat database memenuhi sederhana table dimensi baris dirancang kunci hubungan layar command dasar hidup cepat lingkungan pc tabel kode simpan konsep jam pt media jakarta http hasil detail rendah hubung on perbedaan record nama field pemakai tujuan sedia pengaturan mengembangkan amerika mengakses international program menjalankan letak sulit fasilitas telepon selular tukar up to teknologi kabel instalasi komunikasi gerak mobile alternatif manfaat gprs radio wap application bentuk nilai input perubahan disk layanan membutuhkan modul public transmisi no end dibaca ponsel kirim nokia and name fungsi operator php mysql konfigurasi start menu baca situs daftar nomor cocok email indonesia for in of org index com class type net telkom implementasi dimana gantung line navigasi pasang artikel mencoba koneksi password if or temu script memilih muncul pesan diatas negara contoh string memasukkan menampilkan select from update ubah manual langkah lokal login pilih harap selesai tinggal mengubah catatan otomatis menghapus linux tulisan sempurna menyebabkan jalankan manager open pilihan jenis control global menentukan membuka normal default internal ukuran set maksimum mengikuti direktori setting as tampil kiri download folder terang kanan mencari lakukan new this it windows tingkat ms mah platform jalan unix versi redhat install rpm standar hati mb batas ruang cd by mendownload coba menit singkat membaca relatif pribadi lampu root buah test use with karakter teks time tanda mengandung menambah is tanggal mm memudahkan pengoperasian key dianggap khawatir not show perhatikan mengambil mengganti warna kait desain alamat microsoft ya buka tombol teknik kombinasi kualitas banding biaya mengurangi angka lebar kota barang merekam penjualan aktif hilang berat hitam menjadikan mengisi dipakai ba kendaraan mobil kelas etc pindah rumah java distribusi eropa bukti stabil source alias saham pasar tambahan port lawan main usaha pendukung sayang tim grup code diperoleh harga jual status an unik menampung menekan pembuatan unggul kondisi phone ganti sisi mahal murah total nai selamat dipilih kelompok target mode contributed si memanfaatkan top menghasilkan posisi memory dicoba dimiliki parameter memori us gabungan dibanding meningkatkan aksi kecuali memakai pintu peningkatan dikenal kalah perkembangan resmi produksi mencapai development lambat bagus metode mail local mengeluarkan at urusan list ringan high tutup was mengatur koleksi pusat menawarkan arah membawa lumayan jerman card mengadopsi agam tahan have are be merah using final menang tipis pertandingan kartu gol bola babak permainan pemain peluang pelatih kuat serangan melawan mencetak piala mengirim putaran menghadapi penampilan stadion gawang kaki liga maksimal turun ditambah sukses lapang seri poin jarak meter badan kapasitas uang sisa faktor perhatian lagu hadir tenaga kesan bogor kaca berkat li pekan layak pas jepang panggilan motor siaga performa tajam bilang non unggulan internasional negeri perdagangan tanah minyak nada penutupan dolar foto pelaku menikmati bakar gaya mencatat vga merek that been asia lupa samping kernel potensi kb resolusi uji efek negatif nyaman konsumen suara dengar mini detik menguat flash segi ciri bahan khas silinder dibuka games plus mp meningkat cc rp player pergerakan elegan sms air audio speaker bodi dibekali tft kamera musik ringtone keypad jari bluetooth volume baterai ion konektivitas mms jernih rupiah gram pixels infrared dering zoom meluncurkan pabrikan cm penurunan positif varian bursa sedan udara kabin bunga regional tanaman pertanian pangan gen genetik bioteknologi senilai balai abstract et words suku bank gas roda investor ihsg lq jii stagnan astra melemah sentimen penumpang interior
94
Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191) www web id sistem basis data kembang penelitian bahasa model lengkap tipe menarik fitur aplikasi sumber daya menyediakan sesuai perusahaan beda dunia internet menyimpan file system operasi format mudah tampilan sifat jaringan komputer perangkat pengguna penggunaan akses pengembangan aman proses level gambar perintah informasi memiliki user indeks software isi mesin unit dilengkapi produk server database sederhana baris layar dasar cepat lingkungan jam jakarta http hasil on nama tujuan sedia program menjalankan letak sulit fasilitas to teknologi manfaat bentuk nilai perubahan membutuhkan ponsel and fungsi konfigurasi menu situs nomor indonesia for in of com dimana gantung mencoba koneksi or memilih muncul pesan negara contoh menampilkan manual langkah harap tinggal otomatis linux pilihan jenis global ukuran setting as tampil kiri download kanan new windows tingkat jalan versi standar mb batas by coba menit buah is mm memudahkan key warna desain tombol kualitas banding aktif berat dipakai mobil kelas java saham pasar tambahan main sayang tim harga unggul kondisi sisi memanfaatkan menghasilkan posisi memori gabungan dibanding produksi mencapai mengatur arah tahan pertandingan kartu pemain kuat turun seri poin kapasitas hadir tenaga performa perdagangan nyaman suara detik bahan rp kamera keypad volume rupiah tanaman ihsg
Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83) www sistem data model lengkap fitur aplikasi menyediakan sesuai beda dunia internet file system operasi mudah tampilan komputer pengguna penggunaan akses proses level gambar perintah informasi memiliki user isi mesin dilengkapi produk server layar cepat jam jakarta hasil nama sedia program fasilitas to teknologi bentuk nilai and fungsi menu indonesia for in of com muncul contoh otomatis linux pilihan jenis ukuran as tampil jalan versi batas by menit warna desain tombol kelas pasar harga kondisi sisi menghasilkan posisi tahan seri kapasitas performa bahan
Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34) sistem data fitur aplikasi sesuai beda dunia file mudah tampilan komputer penggunaan proses memiliki cepat hasil nama sedia program teknologi bentuk fungsi indonesia in of contoh pilihan jenis ukuran as tampil jalan pasar harga
95
Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) economy expected next year international official said recent conflict main reasons middle central monday track grow end half estimates billion damage caused air impact far thought come comes port million ended august efforts december needs early size package given level recommend public equal product country need report published sunday budget rise projects nearly people mainly opec hope officials hold discuss operation al president press world second leading oil critical force market reported day join petroleum countries member worked closely pricing production group means particularly moment energy minister members high meet industry foreign demand talk speaking thursday likely cut prices concern deal october time agreed pay government companies approximately new net statement document difficult chapter closed future won ends asked leave california based managing operations leads dropped mid july output barrels make months crude fuel exact date decided added expressed decision secretary tell needed head near record sure news meeting nigeria wanted ready substantial formal position reduce september taking associated plan order april especially week making finding global trying protect revenue turn price start miss target development costs set lack state fourth original national close current total provided increase number maintenance rate announced soon packages blocks major plans rising concerns problem security work risk economic case prepared produces aimed solution interested control certain individual assembly history received information followed create company existing producing led including remaining known use tool stop unless account began free aim shell response frequently help secure release usually tip forces ensure started string seven separate reduction released reason elements connection like groups pressing region february capacity gas plant june completely problems giving despite chance social develop failed let action launched called city mark thousands installations considering series restrictions try safe attempts working feel doing peter natural blue union provides does way situation greater doesn respect involved widespread benefits trade stable suggested supply host growth alternative comfortable levels supported contain limits limited west arguments possible consider prevent speech american life resources makes hard avoid build business prefer perspective lead share claim value united states planning double europe location swap support keeping say range hit years entered successful chinese growing specific begin regular technical fair largely past significant somewhat final march project looking big details presence corp run established office planned releases data summary car great look drive works living replaced engine turbo transmission wrong having replacing know cost times period multiple good thing fast parts custom door going just running player possibly didn attention worth probably service non depending style small similar products used odd truth photo raised simply design came black smaller fit ve seen short combination large unique excellent ensures outside rear mounted cylinder horsepower rpm pound feet torque numbers believe weight right foot long faster similarly cars handles drives ease offers wheel suspension fact precise standard strong interior functional base able materials offer want inside expect brand place vehicle type inline block injection power speed automatic length performance zero mph steve comparison welcome addition field kind expensive example tested furthermore newly percent lower actually better choice driven models introduced direct engines compared liter resulting extra important actual character smooth experienced difference knows manual mode sophisticated optional significantly mm did exist tests old introduction fundamental slightly older list equivalent context rest pop necessarily left device capable really looks class don little interesting answer sense real ordinary got shared previously change altered logic model gain updates family previous contrast different color screen created engineering points green wide powered pair electric environmental presents basic clear familiar essentially newer test returns cards finish discovered advance lot read concept latest cell technology developed version improved efficiency form features flow stack claimed volume density improvement changed instead key efficient starting low ion storage battery motor source according ground sound fairly quickly continues quality typical easy forget using heart note light available isn bad november entry quite success signature remains moved appears developing sources suggest built platform improve handling expense space suitable law choose selection versions regarding choices mirror dual role traditional balance distribution naturally higher plus rules testing ll late james officially relatively modifications specifically larger overall legal line says creation technologies result contains research window named idea hidden certainly correct red white iconic multi element particular think chosen layout interactive embedded touch activated calls feature cells provide additional word bus best home spread micro magic america ultra versa units gene vice uses console button option average remain shows easily step goes dark coming taken update
96
carried body structure dimensions changes easier designed variable conventional pairs satisfied longer helps electronic systems allow driver getting specify setup issues suggests wikipedia encyclopedia scientific bacteria causes plants commonly ability transfer dna genetic contents hide biotechnology external links edit disease root related distinct currently generally restricted shown integrated journal genes typically division controlled produced modified essential team removed insert enable successfully grown media containing following method achieved ways tissue common protocol effective techniques effect includes term originally described derived organisms applied molecular unlike included widely various types positive affect varies site merely approach cases classified useful depends cause classes effects references produce active component modern later medicine refer include directly practice generic names eye count potential article process involves results normal administration majority contrary forms entire course organism treatment situations examples kinds animals point environment evolution humans conditions theory requires subset population allowed selected entirely settings care virtually losing eventually memory treated present animal unfortunately knowledge biological differences human represent minimal enter targets components nature evolved continue fully understanding mechanism mixed continued institute science convention definitions application modify processes definition usage refers modifying considered distinction powerful represents instance allows express impossible appear general sector progress finally defined manipulation practical things sites applications genetics absence solutions topic bioinformatics addresses referred areas compare single underlying devices define matching cancer pre today methods select required fields increasingly environments artificial values convert combinations minute amounts section appropriate background sets european citation usa david robert henry michael paul logo area focus collection expression formed analysis relationship performing advanced creating construction unit similarities subject supports meant basis complex task perform desired function networked controller constant internal accomplish helped simple requiring goal experimental purposes surface medium study adopted goals sharing words objective strategies implementation recognized covers notably commercial rapidly implement philosophy measures bring return access prior party providing image terms introduce characteristics attributes mouse specified changing piece restriction initial replacement potentially technique identify sequence comprehensive online trivial web variety activity construct consists copy logical performed copies tracking replace secondary calling question sequences identical behavior mean apart divide explained normally compatible procedure missing compatibility extended book man personal independent letter university lines pattern understand reverse physical effectively prevents private receive questions necessary attempt beginning license organizations shift mainstream pass explicitly proposed worldwide view issue page map contained programs management item detailed description center boss formally computing complete earlier passed popular highly indicate completed functions individuals determine error indicates fewer stored databases internet database tools raw domain advantage language concepts combined effort numerous copied separately mapped availability algorithms intended roughly initially structures partial freely heavy lost days special paper offered covered incorporated algorithm automated separated fixed machine extremely fine program handle written library offering search relationships procedures opening processed protected libraries community happens resource incorrectly primary distributed standards notes flash content requirements variables tend index break quick recommended noted linked drivers starts operating processing users properties converted object conversion input relative require away strongly usual user communities discussion solid table ii properly concerned event declared strictly obtained local remainder meaning creates consult sorting organized items retrieved queries query schema describes objects represented relational tables rows columns true mathematical network explicit representation software administrators programmers cover integrity languages hardware sponsored post tape serial ibm correctly implementations pc dos ms machines notice oriented multimedia vendors xml remove documents allowing structured foundation array column assumed row password defining integers tree desktop computers file specification constructs programming maintains located pointers address disk gives loading criticism applies sql interface keys match corresponding preferred isbn arbitrary assigned id internally integration sending dialect pages answers rewrite lists mentioned operators listed flexibility write building describing implemented complicated paradigm aims overhead capabilities facilities influenced extensions execute selecting enforce tasks consistency constraints intermediate visible executed manner follow actions log master identifier convenient mail platforms api postgresql syntax commands aspects self presented fashion command functionality lexical expressions basics default inheritance partitioning dependency overview limit numeric binary boolean
97
bit arrays conditional aggregate operator scheme documented consistent english semantics directory architecture strings template specifies symbols card symbol rule statements exists asks decide enables category open code adding procedural purpose constants characters comments parameters evaluation carefully valid token whitespace appendix portable upper quotes ones incompatible implicitly typed discussed writing extension server generate proper escape bar specifying sign choosing follows keyword parsing execution immediately notation integer resolution automatically interpreted text indicated omitted conforms comment reads parameter parentheses brackets commas dialects prefix argument begins parser add false unknown null native assignment apply matter primitive reference override sections options client invoked regardless exception occurs marked syntactic obviously exactly returned max int consequence defeat check removing assign numerical exceptions store wise naming script files messages convenience skip wish evaluates evaluate assume documentation gui delete updated configuration handy steps takes depend tutorial guide cd scripts gnu england croatia game reports players arsenal minutes play playing php redirected os cross scripting http www dynamic graphical visual java programmer perl display interpreter developers core runs microsoft framework linux installation installed instructions hello static virtual compile developer format runtime modules accessing ftp windows unix images proprietary compiled assistance criticisms checking namespace module compilers larry st edition com org euro qualifier win wouldn mistake games manager save happen job appeared iso oz lisp kernel designated ask yes graphics switch bug implements tells pretty stand mac typing discipline gcc pascal compiler scope keywords standardized compilation copying networking video message utility assumptions differently fortran substitute exit print loaded hand manually interfaces python experience detect errors relevant dev debian box displayed connectivity workstation phones install mb vga monitor rom ide slow dedicated permission friends distributions buttons bugs ports usr exe entering review connected printed prompt upgrade phone edge slot megapixel camera photos charger speakerphone handset keypad menu hands mobile mhz awkward connector lens laptop keyboard ram boot booted booting lilo partition configure mount howto installing installs disks configured floppy downloaded scsi ethernet partitions bios roms floppies diskettes download bootable directories diskette ip upgrading
Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) expected next year international official said recent main track grow end half far thought come comes port million august needs early size package given level public product country need published projects people hope hold discuss operation president press world second leading oil force market day closely production group means particularly moment energy high meet industry talk likely cut deal october time companies new net statement difficult chapter future won ends based operations output make decided added decision needed head near record sure news ready formal position taking plan order especially making finding turn price start target development set lack state original national close current total provided increase number soon packages blocks major problem security work case solution control certain individual history information followed create company existing led including known use tool unless account began free shell help release usually ensure started string separate released reason elements like groups region completely problems despite develop let action called city considering series try safe attempts working feel doing natural union provides does way greater doesn host growth alternative supported contain limited arguments possible consider prevent resources makes hard avoid build lead share value location support say range years successful specific begin regular technical largely significant final march project looking details run data car great look drive works replaced engine having know times period multiple good thing parts custom going just running player probably service non depending style small similar products used simply design came smaller fit ve seen short combination large unique numbers weight right long faster offers fact standard strong functional base able offer want place type block power speed automatic length performance zero comparison addition field kind example lower actually better models introduced direct important actual character difference manual mode significantly did exist old introduction fundamental slightly older list equivalent rest left device capable really looks class don little answer sense real previously change model previous different color screen created points green wide basic clear familiar newer test returns cards lot read latest technology developed version improved form features volume changed instead key efficient starting low source according quickly continues quality typical easy using note light available
98
isn bad quite remains appears sources built platform handling space choose selection versions choices traditional distribution higher rules ll relatively line says creation result contains research window named idea correct red white element particular think embedded calls feature provide additional word best home uses button option average easily step goes taken body structure changes easier designed variable longer electronic systems allow getting specify issues wikipedia encyclopedia commonly transfer genetic contents hide external links edit root related currently generally shown integrated typically produced modified essential team removed insert successfully media containing following method ways common techniques effect includes term originally described derived applied unlike included various types site cases useful depends cause classes references produce active modern later refer include directly practice generic names article process results normal forms entire course examples kinds point environment requires allowed selected care eventually memory present knowledge differences represent minimal components nature continue fully application definition usage refers considered instance allows appear general finally defined practical things sites applications solutions areas single devices define matching today methods select required values section appropriate sets area collection expression formed advanced creating subject supports complex task perform function internal simple goal purposes goals words implementation commercial return access prior terms specified initial identify sequence web variety construct consists copy logical performed replace question behavior normally compatible compatibility book personal lines physical questions necessary attempt beginning license view issue page contained programs management description complete earlier passed popular indicate functions determine error stored internet database tools language concepts intended special separated fixed machine program written library libraries community primary distributed standards variables recommended drivers operating processing users object input require user table local queries describes objects tables true network explicit software programmers languages hardware pc dos ms machines oriented remove allowing array file programming located address disk gives sql interface keys match assigned lists operators listed write capabilities extensions follow platforms syntax self command functionality default binary boolean bit arrays operator directory card statements code procedural purpose characters parameters writing extension server follows execution automatically text argument add native reference options check script files documentation updated configuration takes guide cd gnu game os dynamic java programmer display core runs microsoft linux installation installed virtual compile windows unix images compiled com org kernel typing networking video box install mb rom ide dedicated distributions buttons review phone camera
Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) expected next year international said recent main end far come comes port needs early size given level public need people operation world second day production group means high industry likely time new difficult future won based operations output make added needed head sure order especially making price start development set lack state original national close current number packages major problem work case control certain individual history information create company existing including known use free shell help usually ensure started string separate released like problems let called working provides does way doesn supported contain limited possible resources makes hard avoid build lead value support range years specific project looking details run data great look drive having know times multiple good thing going just non depending style small similar products used simply design came seen short large unique numbers right long faster fact standard base able want place type power speed automatic performance comparison addition example lower actually better introduced direct important character manual mode did exist list equivalent rest left device really class don little real change model previous different screen created basic read technology developed version form features instead key source quickly easy using note available quite built space choose selection versions distribution higher ll relatively line result contains research named particular think feature provide additional word best home uses option easily taken structure designed systems allow specify wikipedia encyclopedia commonly contents hide external links edit related currently generally typically modified containing following method ways common described unlike included various types cases useful references later refer include directly names article process results entire examples point environment requires allowed memory present application allows general finally defined things applications single devices select
99
required values section creating complex perform function simple commercial return access specified web normally compatible necessary beginning page programs management complete popular functions error stored internet database tools language intended special machine program written primary distributed operating users object input require user table true network software hardware file programming address gives interface keys match lists write follow syntax command default bit code writing server text add native reference options cd microsoft linux box
Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata next year said main end far come comes port early size given level public need people world second day group means high time new difficult based operations output make added needed order especially making start development set original current number major problem work case control certain information create existing including known use free help usually started like problems called provides does way contain possible makes hard support range specific project run data look drive having know times good going just non small similar used design large unique numbers right long fact standard base able want type power speed performance addition example actually better important manual mode did list left device class don real change model different created read developed version form features key source using note available quite built versions higher line contains named particular feature provide additional best uses taken designed systems allow wikipedia encyclopedia contents hide external links edit generally containing following method common included types references later refer include article process point present allows general things applications single required values section creating access web necessary programs complete popular database language written operating users object user table true software command default bit server text
100
Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Query
Topik
gagal panen petani tebu industri gula perdagangan hasil pertanian penerapan teknologi pertanian pupuk organik penyakit hewan ternak penerapan bioteknologi di Indonesia laboratorium pertanian riset pertanian harga komoditas pertanian tanaman pangan kelompok masyarakat tani musim panen tanaman obat gabah kering giling impor beras Indonesia pertanian organik swasembada pangan penyuluhan pertanian tadah hujan bencana kekeringan peternak unggas flu burung Institut Pertanian Bogor pembangunan untuk sektor pertanian upaya peningkatan pendapatan petani produk usaha peternakan rakyat kelangkaan pupuk dukungan pemerintah pada pertanian Rataan
6 5 7 6 6 7 6 2 1 6 6 7 8 7 6 6 7 7 6 7 6 5 3 4 7 6 6 5 3 7 5.7
Akurasi
Kolektifitas
0.84 0.82 0.87 0.88 0.68 0.72 0.83 0.93 0.20 0.74 0.84 0.86 0.72 0.92 0.53 0.79 0.60 0.67 0.89 0.67 0.81 0.56 0.90 0.85 0.70 0.93 0.80 0.59 0.83 0.82 0.76
0.77 0.57 0.63 0.60 0.64 0.48 0.55 0.78 1.00 0.63 0.70 0.78 0.73 0.76 0.31 0.72 0.59 0.50 0.73 0.70 0.65 0.68 0.44 0.70 0.44 0.57 0.57 0.67 0.67 0.49 0.64
Waktu 13.19 7.31 47.04 34.00 19.26 21.32 5.61 0.27 0.24 11.60 33.72 53.49 35.25 46.71 15.98 5.40 39.40 18.77 11.00 6.44 2.60 2.67 1.74 1.54 26.45 25.14 8.10 0.59 0.24 21.63 17.22
101
Lampiran 11 Akurasi dan cluster hasil algoritma H-FCM dengan PK 5% Cluster
basisdata sepakbola
1
P : 0.00 R : 0.00 D:0 2 P : 0.00 R : 0.00 D:0 3 P : 0.00 R : 0.00 D:0 4 P : 0.00 R : 0.00 D:0 5 P : 0.00 R : 0.00 D:0 6 P : 0.00 R : 0.00 D:0 7 P : 0.55 R : 1.00 D : 57 8 P : 0.00 R : 0.00 D:0 Total Doc 57 Akurasi 0.55 (C7) Kolektifitas 1.00 (C7)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.50 R : 0.36 D : 27 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.45 R : 0.64 D : 47 P : 0.00 R : 0.00 D:0 74 0.50 (C4) 0.36 (C4)
linux
seluler
P : 1.00 R : 0.65 D : 50 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.50 R : 0.35 D : 27 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 77 1.00 (C1) 0.65 (C1)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.89 D : 65 P : 0.00 R : 0.00 D:0 P : 0.12 R : 0.12 D:9 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 73 1.00 (C3) 0.89 (C3)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.88 R : 0.97 D : 67 P : 0.02 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 69 0.88 (C5) 0.97 (C5)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.89 R : 1.00 D : 75 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 75 0.89 (C6) 1.00 (C6)
P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.90 D : 69 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.08 R : 0.09 D:7 P : 0.00 R : 0.00 D:0 P : 0.03 R : 0.03 D:2 77 1.00 (C2) 0.90 (C2)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.97 R : 1.00 D : 72 72 0.97 (C8) 1.00 (C8)
50
69
65
54
76
84
104
74 574 0.86 0.84
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
php[0.053], result[0.041], as[0.038], java[0.036], file[0.036], ejb[0.034], servlet[0.031], jsp[0.026], tanaman[0.024], and[0.022], linux[0.048], psis[0.044], tim[0.041], ponsel[0.035], mysql[0.035], portugal[0.031], italia[0.027], partisi[0.025], persebaya[0.023], prancis[0.023], mysql[0.207], data[0.099], tabel[0.079], database[0.076], ponsel[0.035], php[0.028], interbase[0.022], basis[0.021], file[0.020], firebird[0.016], saham[0.326], turun[0.099], rp[0.071], ihsg[0.070], as[0.031], dolar[0.027], mobil[0.017], php[0.014], java[0.013], file[0.012], ponsel[0.196], linux[0.157], perintah[0.038], file[0.037], rsync[0.032], dosemu[0.030], ftp[0.029], abiword[0.027], menu[0.024], share[0.021], ponsel[0.175], tanaman[0.131], of[0.031], and[0.031], kamera[0.027], gen[0.023], vs[0.022], kapas[0.019], in[0.015], slnpv[0.015], mobil[0.164], bmw[0.145], daihatsu[0.056], toyota[0.051], kendaraan[0.032], peugeot[0.028], benz[0.026], odyssey[0.025], mesin[0.024], saham[0.019], linux[0.193], partisi[0.122], samba[0.059], ip[0.046], td[0.034], dev[0.028], wget[0.027], webmin[0.026], printer[0.024], boot[0.024],
102
Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 10% Cluster
1
basisdata sepakbola
P : 0.72 R : 1.00 D : 57 2 P : 0.00 R : 0.00 D:0 3 P : 0.00 R : 0.00 D:0 4 P : 0.00 R : 0.00 D:0 5 P : 0.00 R : 0.00 D:0 6 P : 0.00 R : 0.00 D:0 7 P : 0.00 R : 0.00 D:0 8 P : 0.00 R : 0.00 D:0 Total Doc 57 Akurasi 0.72 (C1) Kolektifitas 1.00 (C1)
linux
seluler
P : 0.11 P : 0.16 P : 0.00 R : 0.12 R : 0.17 R : 0.00 D:9 D : 13 D:0 P : 0.00 P : 0.00 P : 0.00 R : 0.00 R : 0.00 R : 0.00 D:0 D:0 D:0 P : 0.00 P : 0.89 P : 0.11 R : 0.00 R : 0.84 R : 0.11 D:0 D : 65 D:8 P : 0.00 P : 0.00 P : 0.00 R : 0.00 R : 0.00 R : 0.00 D:0 D:0 D:0 P : 0.00 P : 0.00 P : 0.00 R : 0.00 R : 0.00 R : 0.00 D:0 D:0 D:0 P : 1.00 P : 0.00 P : 0.00 R : 0.89 R : 0.00 R : 0.00 D : 66 D:0 D:0 P : 0.00 P : 0.00 P : 0.97 R : 0.00 R : 0.00 R : 0.89 D:0 D:0 D : 65 P : 0.00 P : 0.00 P : 0.00 R : 0.00 R : 0.00 R : 0.00 D:0 D:0 D:0 74 77 73 1.00 (C6) 0.89 (C3) 0.97 (C7) 0.89 (C6) 0.84 (C3) 0.89 (C7)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.97 D : 67 P : 0.00 R : 0.00 D:0 P : 0.03 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 69 1.00 (C5) 0.97 (C5)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.86 R : 1.00 D : 75 75 0.86 (C8) 1.00 (C8)
P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.79 D : 61 P : 0.00 R : 0.00 D:0 P : 0.05 R : 0.05 D:4 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.14 R : 0.16 D : 12 77 1.00 (C2) 0.79 (C2)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.95 R : 1.00 D : 72 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 72 0.95 (C4) 1.00 (C4)
79
61
73
76
67
66
67
87 574 0.93 0.92
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
saham[0.420], turun[0.139], rp[0.100], ihsg[0.060], as[0.015], dolar[0.015], ponsel[0.011], mobil[0.010], linux[0.007], java[0.007], mysql[0.121], linux[0.073], tabel[0.048], data[0.046], database[0.031], php[0.023], partisi[0.022], ponsel[0.022], file[0.018], samba[0.016], linux[0.073], mysql[0.060], data[0.034], ponsel[0.027], tabel[0.026], database[0.023], italia[0.022], portugal[0.020], partisi[0.019], psis[0.019], linux[0.152], partisi[0.072], ponsel[0.030], mysql[0.028], file[0.022], ftp[0.021], dev[0.018], lilo[0.018], ip[0.017], dosemu[0.017], php[0.057], result[0.050], file[0.041], as[0.041], ejb[0.040], java[0.038], servlet[0.037], jsp[0.032], remote[0.021], if[0.021], mobil[0.167], bmw[0.152], daihatsu[0.058], toyota[0.054], kendaraan[0.035], peugeot[0.029], benz[0.027], odyssey[0.027], mesin[0.024], buell[0.021], tanaman[0.163], and[0.047], of[0.046], gen[0.039], in[0.035], kapas[0.029], kacang[0.026], pangan[0.024], hama[0.023], rice[0.022], ponsel[0.479], tanaman[0.031], kamera[0.030], vs[0.027], sl[0.027], file[0.023], menu[0.023], vk[0.020], seri[0.017], ax[0.017],
103
Lampiran 13 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 15% Cluster
1
basisdata sepakbola
P : 0.00 R : 0.00 D:0 2 P : 0.00 R : 0.00 D:0 3 P : 0.00 R : 0.00 D:0 4 P : 0.52 R : 0.40 D : 23 5 P : 0.07 R : 0.12 D:7 6 P : 0.00 R : 0.00 D:0 7 P : 0.00 R : 0.00 D:0 8 P : 0.39 R : 0.98 D : 56 Total Doc 57 Akurasi 0.52 (C4) Kolektifitas 0.98 (C8)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.09 R : 0.05 D:4 P : 0.02 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.51 R : 1.00 D : 74 74 0.51 (C8) 0.05 (C4)
linux
seluler
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.25 R : 0.14 D : 11 P : 0.74 R : 0.91 D : 70 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.07 R : 0.13 D : 10 77 0.74 (C5) 0.91 (C5)
P : 0.00 R : 0.00 D:0 P : 0.99 R : 0.93 D : 68 P : 0.00 R : 0.00 D:0 P : 0.07 R : 0.04 D:3 P : 0.02 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.03 R : 0.05 D:4 73 0.99 (C2) 0.93 (C2)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.01 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.07 R : 0.04 D:3 P : 0.14 R : 0.19 D : 13 P : 0.98 R : 0.81 D : 56 P : 0.00 R : 0.00 D:0 P : 0.01 R : 0.01 D:1 69 0.98 (C6) 0.81 (C6)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.93 D : 70 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.01 D:1 P : 0.07 R : 0.07 D:5 P : 0.00 R : 0.00 D:0 75 1.00 (C3) 0.93 (C3)
P : 0.13 R : 0.14 D : 11 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.93 R : 0.86 D : 66 P : 0.00 R : 0.00 D:0 77 0.93 (C7) 0.86 (C7)
P : 0.87 R : 1.00 D : 72 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 72 0.87 (C1) 1.00 (C1)
83
69
70
44
94
57
71
145 574 0.82 0.80
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
saham[0.283], turun[0.074], rp[0.056], linux[0.037], ihsg[0.036], ponsel[0.033], as[0.024], bmw[0.024], dolar[0.022], mobil[0.017], mysql[0.071], linux[0.070], ponsel[0.057], partisi[0.040], tabel[0.028], database[0.027], data[0.027], file[0.018], samba[0.014], tanaman[0.013], ponsel[0.154], linux[0.072], tanaman[0.053], mysql[0.022], data[0.019], file[0.019], partisi[0.015], kamera[0.013], menu[0.012], vs[0.011], php[0.062], result[0.062], ejb[0.045], servlet[0.041], java[0.035], jsp[0.034], file[0.029], net[0.027], and[0.026], remote[0.026], ponsel[0.123], linux[0.075], tanaman[0.062], mysql[0.023], data[0.019], file[0.019], partisi[0.016], and[0.012], of[0.011], gen[0.011], mobil[0.163], bmw[0.124], daihatsu[0.051], toyota[0.047], kendaraan[0.028], peugeot[0.028], odyssey[0.027], linux[0.025], benz[0.023], ponsel[0.023], saham[0.109], as[0.056], ihsg[0.055], php[0.045], turun[0.044], dolar[0.038], objek[0.036], file[0.035], java[0.031], sistem[0.030], linux[0.071], mysql[0.070], ponsel[0.058], partisi[0.041], tabel[0.028], data[0.027], database[0.027], file[0.018], samba[0.014], tanaman[0.014],
104
Lampiran 14 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 20% Cluster
1
basisdata sepakbola
P : 0.00 R : 0.00 D:0 2 P : 0.00 R : 0.00 D:0 3 P : 0.00 R : 0.00 D:0 4 P : 0.33 R : 0.61 D : 35 5 P : 0.29 R : 0.46 D : 26 6 P : 0.01 R : 0.02 D:1 7 P : 0.00 R : 0.00 D:0 8 P : 0.26 R : 0.84 D : 48 Total Doc 57 Akurasi 0.33 (C4) Kolektifitas 0.84 (C8)
linux
P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.03 P : 0.53 R : 0.04 R : 0.73 D:3 D : 56 P : 0.02 P : 0.51 R : 0.03 R : 0.58 D:2 D : 45 P : 0.00 P : 0.01 R : 0.00 R : 0.01 D:0 D:1 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.40 P : 0.25 R : 1.00 R : 0.61 D : 74 D : 47 74 77 0.40 (C8) 0.51 (C5) 0.04 (C4) 0.58 (C5)
seluler
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.05 R : 0.07 D:5 P : 0.10 R : 0.12 D:9 P : 0.43 R : 0.84 D : 61 P : 0.00 R : 0.00 D:0 P : 0.04 R : 0.11 D:8 73 0.43 (C6) 0.84 (C6)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.94 R : 0.67 D : 46 P : 0.01 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.15 R : 0.30 D : 21 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.06 D:4 69 0.94 (C3) 0.67 (C3)
P : 0.00 R : 0.00 D:0 P : 0.16 R : 0.09 D:7 P : 0.06 R : 0.04 D:3 P : 0.05 R : 0.07 D:5 P : 0.08 R : 0.09 D:7 P : 0.41 R : 0.79 D : 59 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.05 D:4 75 0.16 (C2) 0.09 (C2)
P : 0.05 R : 0.05 D:4 P : 0.82 R : 0.47 D : 36 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 1.00 R : 0.47 D : 36 P : 0.01 R : 0.01 D:1 77 1.00 (C7) 0.47 (C7)
P : 0.95 R : 0.99 D : 71 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 72 0.95 (C1) 0.99 (C1)
75
44
49
105
89
143
36
186 574 0.59 0.55
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
ponsel[0.096], linux[0.064], mysql[0.041], partisi[0.027], tanaman[0.025], file[0.024], data[0.023], php[0.016], tabel[0.016], database[0.014], ponsel[0.084], linux[0.073], mysql[0.047], partisi[0.030], data[0.024], file[0.024], tanaman[0.022], tabel[0.018], database[0.017], php[0.015], ponsel[0.082], php[0.052], result[0.041], java[0.028], linux[0.024], tanaman[0.023], http[0.022], ejb[0.020], file[0.019], mysql[0.017], saham[0.342], turun[0.099], ihsg[0.069], rp[0.066], as[0.053], dolar[0.034], mobil[0.025], bmw[0.024], rupiah[0.013], daihatsu[0.012], mobil[0.170], bmw[0.156], daihatsu[0.056], toyota[0.051], saham[0.045], peugeot[0.032], odyssey[0.030], penjualan[0.020], buell[0.019], benz[0.019], tanaman[0.102], of[0.059], and[0.058], kapas[0.037], in[0.033], rice[0.031], to[0.025], kering[0.024], mikroba[0.022], pangan[0.022], ponsel[0.078], linux[0.076], mysql[0.050], partisi[0.031], data[0.024], file[0.024], tanaman[0.020], database[0.019], tabel[0.019], php[0.014], linux[0.096], ponsel[0.066], mysql[0.055], partisi[0.028], tabel[0.022], data[0.022], file[0.020], database[0.020], tanaman[0.019], ftp[0.016],
105
Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% Cluster
1
basisdata sepakbola
P : 0.04 R : 0.04 D:2 2 P : 0.07 R : 0.07 D:4 3 P : 0.00 R : 0.00 D:0 4 P : 0.22 R : 0.30 D : 17 5 P : 0.17 R : 0.23 D : 13 6 P : 0.00 R : 0.00 D:0 7 P : 0.08 R : 0.07 D:4 8 P : 0.21 R : 0.32 D : 18 Total Doc 57 Akurasi 0.22 (C4) Kolektifitas 0.32 (C8)
P : 0.06 R : 0.04 D:3 P : 0.13 R : 0.11 D:8 P : 0.00 R : 0.00 D:0 P : 0.03 R : 0.03 D:2 P : 0.39 R : 0.39 D : 29 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.38 R : 0.43 D : 32 74 0.39 (C5) 0.39 (C5)
linux
seluler
P : 0.11 R : 0.08 D:6 P : 0.31 R : 0.25 D : 19 P : 0.00 R : 0.00 D:0 P : 0.05 R : 0.05 D:4 P : 0.29 R : 0.29 D : 22 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.33 R : 0.36 D : 28 77 0.33 (C8) 0.25 (C2)
P : 0.00 R : 0.00 D:0 P : 0.49 R : 0.41 D : 30 P : 0.12 R : 0.12 D:9 P : 0.23 R : 0.25 D : 18 P : 0.15 R : 0.15 D : 11 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.01 D:1 P : 0.07 R : 0.08 D:6 73 0.49 (C2) 0.25 (C4)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.34 R : 0.36 D : 25 P : 0.38 R : 0.42 D : 29 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.27 R : 0.20 D : 14 P : 0.00 R : 0.00 D:0 69 0.34 (C3) 0.36 (C3)
P : 0.04 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.25 R : 0.24 D : 18 P : 0.09 R : 0.09 D:7 P : 0.00 R : 0.00 D:0 P : 0.30 R : 0.43 D : 32 P : 0.33 R : 0.23 D : 17 P : 0.00 R : 0.00 D:0 75 0.33 (C7) 0.43 (C6)
P : 0.68 R : 0.47 D : 36 P : 0.00 R : 0.00 D:0 P : 0.01 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.38 R : 0.53 D : 41 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 77 0.68 (C1) 0.47 (C1)
P : 0.06 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 P : 0.27 R : 0.28 D : 20 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.32 R : 0.47 D : 34 P : 0.29 R : 0.21 D : 15 P : 0.00 R : 0.00 D:0 72 0.32 (C6) 0.21 (C7)
53
61
73
77
75
107
51
84 574 0.39 0.34
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
mysql[0.100], tanaman[0.064], ponsel[0.050], tabel[0.038], linux[0.030], php[0.029], mobil[0.018], file[0.016], partisi[0.015], data[0.015], saham[0.174], mobil[0.076], turun[0.061], rp[0.042], tanaman[0.040], php[0.034], ponsel[0.024], linux[0.021], mysql[0.015], java[0.013], mobil[0.047], tanaman[0.041], php[0.040], saham[0.037], ponsel[0.030], as[0.029], java[0.029], ihsg[0.027], mysql[0.024], bmw[0.024], mysql[0.076], linux[0.062], ponsel[0.055], partisi[0.041], tabel[0.029], tanaman[0.021], file[0.018], ip[0.013], tim[0.012], data[0.012], linux[0.082], ponsel[0.082], partisi[0.040], database[0.034], data[0.029], file[0.019], psis[0.016], samba[0.014], perintah[0.014], italia[0.014], ponsel[0.062], linux[0.036], bmw[0.032], result[0.028], file[0.026], as[0.019], data[0.017], database[0.017], sistem[0.015], in[0.015], ponsel[0.057], linux[0.044], ejb[0.042], servlet[0.038], data[0.033], file[0.032], bmw[0.032], jsp[0.023], kapas[0.017], borland[0.015], ponsel[0.160], linux[0.131], data[0.023], file[0.022], rsync[0.020], partisi[0.019], menu[0.017], abiword[0.017], samba[0.016], share[0.015],
106
Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10% Cluster
1
basisdata sepakbola
P : 0.00 R : 0.00 D:0 2 P : 0.13 R : 0.19 D : 11 3 P : 0.18 R : 0.23 D : 13 4 P : 0.00 R : 0.00 D:0 5 P : 0.00 R : 0.00 D:0 6 P : 0.09 R : 0.18 D : 10 7 P : 0.10 R : 0.11 D:6 8 P : 0.03 R : 0.04 D:2 Total Doc 57 Akurasi 0.18 (C3) Kolektifitas 0.23 (C3)
P : 0.00 R : 0.00 D:0 P : 0.13 R : 0.15 D : 11 P : 0.16 R : 0.16 D : 12 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.16 R : 0.23 D : 17 P : 0.41 R : 0.32 D : 24 P : 0.00 R : 0.00 D:0 74 0.41 (C7) 0.32 (C7)
linux
seluler
P : 0.00 R : 0.00 D:0 P : 0.21 R : 0.23 D : 18 P : 0.03 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.24 R : 0.34 D : 26 P : 0.05 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 77 0.24 (C6) 0.34 (C6)
P : 0.00 R : 0.00 D:0 P : 0.03 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.82 R : 0.92 D : 67 P : 0.03 R : 0.04 D:3 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 73 0.82 (C5) 0.92 (C5)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.11 R : 0.07 D:5 P : 0.22 R : 0.28 D : 19 P : 0.04 R : 0.04 D:3 P : 0.11 R : 0.07 D:5 P : 0.18 R : 0.22 D : 15 P : 0.15 R : 0.23 D : 16 P : 0.25 R : 0.22 D : 15 P : 0.05 R : 0.04 D:3 69 0.22 (C2) 0.28 (C2)
P : 0.80 R : 0.48 D : 36 P : 0.10 R : 0.12 D:9 P : 0.10 R : 0.09 D:7 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.11 R : 0.16 D : 12 P : 0.15 R : 0.12 D:9 P : 0.08 R : 0.07 D:5 75 0.80 (C1) 0.48 (C1)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.15 R : 0.14 D : 11 P : 0.79 R : 0.48 D : 37 P : 0.00 R : 0.00 D:0 P : 0.01 R : 0.01 D:1 P : 0.02 R : 0.01 D:1 P : 0.49 R : 0.40 D : 31 77 0.79 (C4) 0.48 (C4)
P : 0.09 R : 0.06 D:4 P : 0.18 R : 0.22 D : 16 P : 0.34 R : 0.35 D : 25 P : 0.06 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 P : 0.21 R : 0.32 D : 23 P : 0.00 R : 0.00 D:0 P : 0.35 R : 0.31 D : 22 72 0.35 (C8) 0.31 (C8)
45
87
73
47
82
108
59
63 574 0.49 0.43
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
linux[0.132], mysql[0.039], ponsel[0.023], bmw[0.021], file[0.020], partisi[0.018], data[0.017], php[0.014], perintah[0.014], ftp[0.012], ponsel[0.058], linux[0.049], mobil[0.037], tanaman[0.030], saham[0.024], as[0.021], bmw[0.021], mysql[0.020], database[0.019], file[0.016], ponsel[0.103], tanaman[0.056], database[0.045], mobil[0.040], saham[0.031], linux[0.025], java[0.023], as[0.020], tim[0.018], data[0.017], mysql[0.059], partisi[0.048], php[0.030], data[0.026], file[0.026], linux[0.022], bmw[0.020], tabel[0.018], result[0.016], wget[0.015], ponsel[0.337], tanaman[0.054], file[0.019], linux[0.018], mobil[0.016], menu[0.015], saham[0.013], vk[0.011], kamera[0.011], database[0.011], linux[0.132], mysql[0.039], ponsel[0.023], bmw[0.021], file[0.020], partisi[0.018], data[0.017], php[0.014], perintah[0.014], ftp[0.012], linux[0.070], mysql[0.032], file[0.025], data[0.022], php[0.022], partisi[0.022], bmw[0.021], ponsel[0.018], result[0.015], ftp[0.014], mysql[0.078], partisi[0.053], tabel[0.051], php[0.040], data[0.032], ip[0.025], td[0.022], dev[0.021], samba[0.020], file[0.019],
107
Lampiran 17 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 15% Cluster
1
basisdata sepakbola
P : 0.15 R : 0.26 D : 15 2 P : 0.03 R : 0.09 D:5 3 P : 0.03 R : 0.07 D:4 4 P : 0.07 R : 0.16 D:9 5 P : 0.34 R : 0.26 D : 15 6 P : 0.03 R : 0.07 D:4 7 P : 0.05 R : 0.12 D:7 8 P : 0.04 R : 0.05 D:3 Total Doc 57 Akurasi 0.34 (C5) Kolektifitas 0.26 (C5)
linux
P : 0.12 P : 0.09 R : 0.16 R : 0.12 D : 12 D:9 P : 0.05 P : 0.05 R : 0.09 R : 0.09 D:7 D:7 P : 0.04 P : 0.05 R : 0.08 R : 0.09 D:6 D:7 P : 0.06 P : 0.26 R : 0.11 R : 0.45 D:8 D : 35 P : 0.41 P : 0.11 R : 0.24 R : 0.06 D : 18 D:5 P : 0.04 P : 0.06 R : 0.08 R : 0.12 D:6 D:9 P : 0.04 P : 0.22 R : 0.08 R : 0.43 D:6 D : 33 P : 0.14 P : 0.06 R : 0.14 R : 0.05 D : 10 D:4 74 77 0.14 (C8) 0.26 (C4) 0.16 (C1) 0.45 (C4)
seluler
P : 0.15 R : 0.21 D : 15 P : 0.16 R : 0.32 D : 23 P : 0.16 R : 0.30 D : 22 P : 0.14 R : 0.26 D : 19 P : 0.02 R : 0.01 D:1 P : 0.15 R : 0.32 D : 23 P : 0.13 R : 0.26 D : 19 P : 0.13 R : 0.12 D:9 73 0.16 (C3) 0.32 (C6)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.10 R : 0.14 D : 10 P : 0.22 R : 0.46 D : 32 P : 0.22 R : 0.45 D : 31 P : 0.05 R : 0.10 D:7 P : 0.02 R : 0.01 D:1 P : 0.22 R : 0.48 D : 33 P : 0.04 R : 0.09 D:6 P : 0.16 R : 0.16 D : 11 69 0.22 (C6) 0.46 (C2)
P : 0.09 R : 0.12 D:9 P : 0.24 R : 0.45 D : 34 P : 0.25 R : 0.47 D : 35 P : 0.17 R : 0.31 D : 23 P : 0.00 R : 0.00 D:0 P : 0.26 R : 0.52 D : 39 P : 0.16 R : 0.32 D : 24 P : 0.16 R : 0.15 D : 11 75 0.24 (C2) 0.47 (C3)
P : 0.06 R : 0.08 D:6 P : 0.12 R : 0.22 D : 17 P : 0.13 R : 0.23 D : 18 P : 0.14 R : 0.23 D : 18 P : 0.00 R : 0.00 D:0 P : 0.12 R : 0.23 D : 18 P : 0.28 R : 0.56 D : 43 P : 0.09 R : 0.08 D:6 77 0.28 (C7) 0.56 (C7)
P : 0.22 R : 0.29 D : 21 P : 0.13 R : 0.25 D : 18 P : 0.13 R : 0.25 D : 18 P : 0.11 R : 0.19 D : 14 P : 0.09 R : 0.06 D:4 P : 0.12 R : 0.25 D : 18 P : 0.09 R : 0.19 D : 14 P : 0.23 R : 0.22 D : 16 72 0.22 (C1) 0.22 (C8)
97
143
141
133
44
150
152
70 574 0.23 0.37
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
ponsel[0.091], partisi[0.032], tanaman[0.031], saham[0.030], mysql[0.030], mobil[0.028], file[0.024], data[0.023], bmw[0.017], linux[0.016], ponsel[0.077], saham[0.035], linux[0.030], tanaman[0.029], file[0.024], mobil[0.020], bmw[0.020], mysql[0.018], data[0.018], php[0.018], mysql[0.073], ponsel[0.050], partisi[0.048], tanaman[0.044], tabel[0.030], dev[0.024], data[0.023], mobil[0.021], samba[0.020], td[0.019], mysql[0.100], database[0.080], tabel[0.048], dosemu[0.032], php[0.030], abiword[0.027], tim[0.027], interbase[0.025], printer[0.023], sms[0.023], ponsel[0.077], saham[0.035], linux[0.030], tanaman[0.029], file[0.024], mobil[0.020], bmw[0.020], data[0.018], mysql[0.018], php[0.018], ponsel[0.077], saham[0.035], linux[0.030], tanaman[0.029], file[0.024], mobil[0.020], bmw[0.020], mysql[0.018], data[0.018], php[0.018], linux[0.142], ponsel[0.053], as[0.025], saham[0.024], bmw[0.018], data[0.018], menu[0.018], perintah[0.017], file[0.016], php[0.015], ponsel[0.069], linux[0.061], saham[0.031], bmw[0.021], file[0.021], as[0.019], data[0.018], php[0.018], mobil[0.017], tanaman[0.017],
108
Lampiran 18 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 20% Cluster
1
basisdata sepakbola
P : 0.18 R : 0.16 D:9 2 P : 0.19 R : 0.25 D : 14 3 P : 0.05 R : 0.02 D:1 4 P : 0.00 R : 0.00 D:0 5 P : 0.12 R : 0.14 D:8 6 P : 0.21 R : 0.28 D : 16 7 P : 0.05 R : 0.05 D:3 8 P : 0.08 R : 0.11 D:6 Total Doc 57 Akurasi 0.21 (C6) Kolektifitas 0.28 (C6)
P : 0.08 R : 0.05 D:4 P : 0.06 R : 0.05 D:4 P : 0.82 R : 0.24 D : 18 P : 0.00 R : 0.00 D:0 P : 0.10 R : 0.09 D:7 P : 0.25 R : 0.26 D : 19 P : 0.08 R : 0.07 D:5 P : 0.13 R : 0.12 D:9 74 0.82 (C3) 0.24 (C3)
linux
seluler
P : 0.18 P : 0.14 R : 0.12 R : 0.10 D:9 D:7 P : 0.14 P : 0.15 R : 0.13 R : 0.15 D : 10 D : 11 P : 0.05 P : 0.00 R : 0.01 R : 0.00 D:1 D:0 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.04 P : 0.42 R : 0.04 R : 0.40 D:3 D : 29 P : 0.28 P : 0.07 R : 0.27 R : 0.07 D : 21 D:5 P : 0.08 P : 0.08 R : 0.06 R : 0.07 D:5 D:5 P : 0.27 P : 0.06 R : 0.25 R : 0.05 D : 19 D:4 77 73 0.27 (C8) 0.42 (C5) 0.25 (C8) 0.40 (C5)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.10 R : 0.07 D:5 P : 0.13 R : 0.13 D:9 P : 0.05 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.09 R : 0.09 D:6 P : 0.08 R : 0.09 D:6 P : 0.52 R : 0.48 D : 33 P : 0.06 R : 0.06 D:4 69 0.52 (C7) 0.48 (C7)
P : 0.20 R : 0.13 D : 10 P : 0.17 R : 0.16 D : 12 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.12 R : 0.11 D:8 P : 0.09 R : 0.09 D:7 P : 0.06 R : 0.05 D:4 P : 0.38 R : 0.36 D : 27 75 0.20 (C1) 0.16 (C2)
P : 0.08 R : 0.05 D:4 P : 0.14 R : 0.13 D : 10 P : 0.00 R : 0.00 D:0 P : 0.33 R : 0.36 D : 28 P : 0.12 R : 0.10 D:8 P : 0.01 R : 0.01 D:1 P : 0.06 R : 0.05 D:4 P : 0.03 R : 0.03 D:2 77 0.33 (C4) 0.36 (C4)
P : 0.02 R : 0.01 D:1 P : 0.03 R : 0.03 D:2 P : 0.05 R : 0.01 D:1 P : 0.67 R : 0.78 D : 56 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.08 R : 0.07 D:5 P : 0.00 R : 0.00 D:0 72 0.03 (C2) 0.01 (C1)
49
72
22
84
69
75
64
71 574 0.35 0.27
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
as[0.071], of[0.042], file[0.040], ponsel[0.037], bmw[0.033], tanaman[0.030], saham[0.029], in[0.029], dolar[0.025], data[0.023], ponsel[0.070], linux[0.057], mysql[0.038], partisi[0.036], php[0.026], saham[0.020], tanaman[0.018], java[0.017], http[0.017], result[0.016], mobil[0.088], bmw[0.067], saham[0.066], ponsel[0.044], daihatsu[0.027], toyota[0.024], linux[0.020], turun[0.017], data[0.015], file[0.015], ponsel[0.069], file[0.045], data[0.040], tanaman[0.029], saham[0.028], mysql[0.026], mobil[0.021], bmw[0.020], linux[0.018], and[0.018], ponsel[0.091], data[0.039], file[0.033], tanaman[0.032], saham[0.028], linux[0.026], mysql[0.023], mobil[0.018], partisi[0.017], tabel[0.015], ponsel[0.122], linux[0.036], saham[0.027], mysql[0.026], tanaman[0.024], data[0.022], partisi[0.021], file[0.017], tabel[0.016], mobil[0.015], linux[0.137], mysql[0.064], tanaman[0.035], ponsel[0.033], php[0.031], database[0.030], partisi[0.024], tabel[0.019], ip[0.018], result[0.017], ftp[0.135], psis[0.105], persebaya[0.060], tim[0.041], penonton[0.035], database[0.025], linux[0.025], psps[0.023], mysql[0.021], arema[0.021],
109
Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5% Cluster
1
basisdata sepakbola
P : 0.09 R : 0.09 D:5 2 P : 0.00 R : 0.00 D:0 3 P : 0.00 R : 0.00 D:0 4 P : 0.11 R : 0.12 D:7 5 P : 0.09 R : 0.11 D:6 6 P : 0.04 R : 0.11 D:6 7 P : 0.04 R : 0.04 D:2 8 P : 0.36 R : 0.56 D : 32 Total Doc 57 Akurasi 0.36 (C8) Kolektifitas 0.56 (C8)
P : 0.66 R : 0.51 D : 38 P : 0.15 R : 0.12 D:9 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.15 R : 0.14 D : 10 P : 0.01 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.18 R : 0.22 D : 16 74 0.66 (C1) 0.51 (C1)
linux
seluler
P : 0.26 R : 0.19 D : 15 P : 0.66 R : 0.53 D : 41 P : 0.40 R : 0.18 D : 14 P : 0.00 R : 0.00 D:0 P : 0.07 R : 0.06 D:5 P : 0.01 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 77 0.66 (C2) 0.53 (C2)
P : 0.00 R : 0.00 D:0 P : 0.19 R : 0.16 D : 12 P : 0.43 R : 0.21 D : 15 P : 0.03 R : 0.03 D:2 P : 0.54 R : 0.51 D : 37 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.09 R : 0.11 D:8 73 0.54 (C5) 0.51 (C5)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.17 R : 0.09 D:6 P : 0.48 R : 0.43 D : 30 P : 0.15 R : 0.14 D : 10 P : 0.11 R : 0.25 D : 17 P : 0.00 R : 0.00 D:0 P : 0.07 R : 0.09 D:6 69 0.48 (C4) 0.43 (C4)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.32 R : 0.27 D : 20 P : 0.00 R : 0.00 D:0 P : 0.15 R : 0.31 D : 23 P : 0.30 R : 0.20 D : 15 P : 0.19 R : 0.23 D : 17 75 0.30 (C7) 0.31 (C6)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.48 R : 0.94 D : 72 P : 0.00 R : 0.00 D:0 P : 0.04 R : 0.05 D:4 77 0.48 (C6) 0.00 (C7)
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.05 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 P : 0.19 R : 0.40 D : 29 P : 0.66 R : 0.46 D : 33 P : 0.08 R : 0.10 D:7 72 0.00 (C3) 0.00 (C3)
58
62
35
63
68
150
50
90 574 0.44 0.35
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
data[0.072], ejb[0.053], servlet[0.049], jsp[0.040], bmw[0.039], file[0.036], vs[0.027], interbase[0.026], kapas[0.026], odyssey[0.025], mysql[0.154], tanaman[0.082], php[0.041], saham[0.037], ponsel[0.027], rp[0.027], linux[0.024], tabel[0.023], kamera[0.021], filesystem[0.017], tanaman[0.081], php[0.071], java[0.066], as[0.059], ihsg[0.057], http[0.045], saham[0.041], dolar[0.036], if[0.036], and[0.034], tabel[0.067], bmw[0.051], result[0.045], sistem[0.042], as[0.037], file[0.034], database[0.031], user[0.028], remote[0.026], ponsel[0.024], ponsel[0.196], database[0.065], data[0.050], kacang[0.035], shell[0.035], tbl[0.030], padi[0.029], thinlet[0.026], mikroba[0.026], toyota[0.024], ponsel[0.168], partisi[0.115], linux[0.078], perintah[0.051], ip[0.048], file[0.042], italia[0.033], psis[0.027], dsniff[0.021], pertandingan[0.020], linux[0.245], ponsel[0.111], samba[0.048], ftp[0.035], rsync[0.032], dosemu[0.029], td[0.029], dev[0.027], abiword[0.026], partisi[0.026], mobil[0.295], saham[0.238], objek[0.054], turun[0.053], angka[0.051], kendaraan[0.044], mesin[0.042], type[0.033], penjualan[0.033], java[0.031],
110
Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10% Cluster
1
basisdata sepakbola
P : 0.15 R : 0.30 D : 17 2 P : 0.02 R : 0.02 D:1 3 P : 0.03 R : 0.05 D:3 4 P : 0.12 R : 0.26 D : 15 5 P : 0.00 R : 0.00 D:0 6 P : 0.26 R : 0.35 D : 20 7 P : 0.04 R : 0.02 D:1 8 P : 0.00 R : 0.00 D:0 Total Doc 57 Akurasi 0.26 (C6) Kolektifitas 0.35 (C6)
linux
P : 0.16 P : 0.03 R : 0.24 R : 0.04 D : 18 D:3 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.10 P : 0.02 R : 0.12 R : 0.03 D:9 D:2 P : 0.22 P : 0.34 R : 0.36 R : 0.53 D : 27 D : 41 P : 0.17 P : 0.00 R : 0.12 R : 0.00 D:9 D:0 P : 0.14 P : 0.41 R : 0.15 R : 0.40 D : 11 D : 31 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 P : 0.00 P : 0.00 R : 0.00 R : 0.00 D:0 D:0 74 77 0.22 (C4) 0.03 (C1) 0.36 (C4) 0.04 (C1)
seluler
P : 0.13 R : 0.19 D : 14 P : 0.00 R : 0.00 D:0 P : 0.24 R : 0.29 D : 21 P : 0.05 R : 0.08 D:6 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.59 R : 0.44 D : 32 73 0.59 (C8) 0.44 (C8)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.29 R : 0.36 D : 25 P : 0.15 R : 0.26 D : 18 P : 0.00 R : 0.00 D:0 P : 0.05 R : 0.06 D:4 P : 0.00 R : 0.00 D:0 P : 0.41 R : 0.32 D : 22 69 0.29 (C3) 0.36 (C3)
P : 0.08 R : 0.12 D:9 P : 0.00 R : 0.00 D:0 P : 0.29 R : 0.33 D : 25 P : 0.12 R : 0.19 D : 14 P : 0.02 R : 0.01 D:1 P : 0.03 R : 0.03 D:2 P : 0.89 R : 0.32 D : 24 P : 0.00 R : 0.00 D:0 75 0.89 (C7) 0.32 (C7)
P : 0.30 R : 0.43 D : 33 P : 0.04 R : 0.03 D:2 P : 0.01 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 P : 0.76 R : 0.53 D : 41 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 77 0.76 (C5) 0.53 (C5)
P : 0.15 R : 0.22 D : 16 P : 0.93 R : 0.60 D : 43 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.06 R : 0.04 D:3 P : 0.11 R : 0.11 D:8 P : 0.07 R : 0.03 D:2 P : 0.00 R : 0.00 D:0 72 0.93 (C2) 0.60 (C2)
110
46
86
121
54
76
27
54 574 0.50 0.37
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
partisi[0.059], mysql[0.051], data[0.037], file[0.034], result[0.029], tabel[0.027], samba[0.027], ejb[0.023], php[0.023], servlet[0.021], linux[0.246], mysql[0.061], bmw[0.037], perintah[0.029], data[0.022], menu[0.019], partisi[0.017], sistem[0.017], italia[0.016], shell[0.015], saham[0.146], mobil[0.135], database[0.078], as[0.053], java[0.047], ihsg[0.044], turun[0.033], dolar[0.029], data[0.025], net[0.023], tanaman[0.232], http[0.084], ponsel[0.075], hama[0.052], saham[0.048], tim[0.047], pertandingan[0.045], turun[0.045], java[0.030], kelas[0.029], bmw[0.139], mysql[0.125], php[0.123], tabel[0.057], odyssey[0.055], toyota[0.054], buell[0.040], daihatsu[0.040], folder[0.039], file[0.037], ponsel[0.576], tanaman[0.121], kamera[0.042], rp[0.039], menu[0.028], file[0.024], epo[0.019], mini[0.017], cx[0.017], saham[0.014], gen[0.059], in[0.042], and[0.039], sl[0.036], of[0.034], generik[0.033], kering[0.032], thinlet[0.032], file[0.032], vk[0.031], php[0.058], kacang[0.050], vs[0.050], kapas[0.049], protein[0.044], and[0.042], elapsed[0.041], rice[0.041], of[0.038], mikroba[0.037],
111
Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15% Cluster
1
basisdata sepakbola
P : 0.03 R : 0.09 D:5 2 P : 0.36 R : 0.28 D : 16 3 P : 0.04 R : 0.07 D:4 4 P : 0.11 R : 0.11 D:6 5 P : 0.10 R : 0.12 D:7 6 P : 0.00 R : 0.00 D:0 7 P : 0.10 R : 0.09 D:5 8 P : 0.54 R : 0.25 D : 14 Total Doc 57 Akurasi 0.54 (C8) Kolektifitas 0.28 (C2)
P : 0.09 R : 0.19 D : 14 P : 0.22 R : 0.14 D : 10 P : 0.08 R : 0.11 D:8 P : 0.05 R : 0.04 D:3 P : 0.17 R : 0.16 D : 12 P : 0.00 R : 0.00 D:0 P : 0.40 R : 0.27 D : 20 P : 0.27 R : 0.09 D:7 74 0.40 (C7) 0.27 (C7)
linux
seluler
P : 0.01 R : 0.03 D:2 P : 0.33 R : 0.19 D : 15 P : 0.07 R : 0.09 D:7 P : 0.59 R : 0.43 D : 33 P : 0.10 R : 0.09 D:7 P : 0.00 R : 0.00 D:0 P : 0.20 R : 0.13 D : 10 P : 0.12 R : 0.04 D:3 77 0.59 (C4) 0.43 (C4)
P : 0.17 R : 0.38 D : 28 P : 0.07 R : 0.04 D:3 P : 0.26 R : 0.34 D : 25 P : 0.07 R : 0.05 D:4 P : 0.13 R : 0.12 D:9 P : 0.00 R : 0.00 D:0 P : 0.08 R : 0.05 D:4 P : 0.00 R : 0.00 D:0 73 0.26 (C3) 0.38 (C1)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.19 R : 0.45 D : 31 P : 0.02 R : 0.01 D:1 P : 0.20 R : 0.28 D : 19 P : 0.05 R : 0.04 D:3 P : 0.17 R : 0.17 D : 12 P : 0.01 R : 0.01 D:1 P : 0.06 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 69 0.19 (C1) 0.28 (C3)
P : 0.25 R : 0.55 D : 41 P : 0.00 R : 0.00 D:0 P : 0.08 R : 0.11 D:8 P : 0.02 R : 0.01 D:1 P : 0.06 R : 0.05 D:4 P : 0.29 R : 0.28 D : 21 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 75 0.29 (C6) 0.28 (C6)
P : 0.09 R : 0.19 D : 15 P : 0.00 R : 0.00 D:0 P : 0.09 R : 0.12 D:9 P : 0.00 R : 0.00 D:0 P : 0.04 R : 0.04 D:3 P : 0.68 R : 0.64 D : 49 P : 0.02 R : 0.01 D:1 P : 0.00 R : 0.00 D:0 77 0.04 (C5) 0.04 (C5)
P : 0.16 R : 0.35 D : 25 P : 0.00 R : 0.00 D:0 P : 0.16 R : 0.21 D : 15 P : 0.11 R : 0.08 D:6 P : 0.23 R : 0.22 D : 16 P : 0.01 R : 0.01 D:1 P : 0.14 R : 0.10 D:7 P : 0.08 R : 0.03 D:2 72 0.00 (C2) 0.03 (C8)
161
45
95
56
70
72
50
26 574 0.28 0.25
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
ponsel[0.069], tanaman[0.055], mobil[0.052], partisi[0.045], mysql[0.033], file[0.029], data[0.022], ftp[0.022], share[0.021], toyota[0.020], mysql[0.099], tanaman[0.078], partisi[0.074], data[0.043], rsync[0.042], dev[0.035], lilo[0.031], webmin[0.028], kernel[0.027], tabel[0.026], linux[0.296], ponsel[0.043], menu[0.038], perintah[0.034], data[0.027], and[0.024], bmw[0.022], mobil[0.021], seri[0.021], hak[0.018], mysql[0.107], database[0.091], tabel[0.066], php[0.040], dosemu[0.039], bmw[0.038], ip[0.036], abiword[0.035], interbase[0.028], mobil[0.028], ponsel[0.458], bmw[0.061], kamera[0.057], sgh[0.027], ax[0.024], dopod[0.024], mini[0.023], penjualan[0.023], megane[0.022], bioteknologi[0.021], as[0.156], http[0.092], dolar[0.086], ihsg[0.076], sistem[0.070], saham[0.060], echo[0.058], server[0.043], java[0.035], aplikasi[0.033], saham[0.383], turun[0.118], rp[0.066], php[0.065], bmw[0.051], ihsg[0.047], tanaman[0.029], rupiah[0.027], trail[0.026], as[0.025], php[0.057], result[0.054], file[0.052], ejb[0.043], java[0.041], servlet[0.039], jsp[0.032], and[0.026], if[0.025], net[0.023],
112
Lampiran 22 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 20% Cluster
1
basisdata sepakbola
P : 0.00 R : 0.00 D:0 2 P : 0.17 R : 0.16 D:9 3 P : 0.00 R : 0.00 D:0 4 P : 0.00 R : 0.00 D:0 5 P : 0.14 R : 0.28 D : 16 6 P : 0.00 R : 0.00 D:0 7 P : 0.13 R : 0.26 D : 15 8 P : 0.20 R : 0.30 D : 17 Total Doc 57 Akurasi 0.20 (C8) Kolektifitas 0.30 (C8)
P : 0.00 R : 0.00 D:0 P : 0.06 R : 0.04 D:3 P : 0.00 R : 0.00 D:0 P : 0.00 R : 0.00 D:0 P : 0.09 R : 0.14 D : 10 P : 0.00 R : 0.00 D:0 P : 0.21 R : 0.32 D : 24 P : 0.41 R : 0.49 D : 36 74 0.21 (C7) 0.32 (C7)
linux
seluler
P : 0.00 R : 0.00 D:0 P : 0.12 R : 0.08 D:6 P : 0.00 R : 0.00 D:0 P : 0.10 R : 0.05 D:4 P : 0.15 R : 0.22 D : 17 P : 0.00 R : 0.00 D:0 P : 0.26 R : 0.39 D : 30 P : 0.23 R : 0.26 D : 20 77 0.15 (C5) 0.22 (C5)
P : 0.00 R : 0.00 D:0 P : 0.42 R : 0.30 D : 22 P : 0.00 R : 0.00 D:0 P : 0.02 R : 0.01 D:1 P : 0.20 R : 0.30 D : 22 P : 0.00 R : 0.00 D:0 P : 0.20 R : 0.32 D : 23 P : 0.06 R : 0.07 D:5 73 0.42 (C2) 0.30 (C2)
bioteknologi pemrograman ekonomi otomotif Total
P : 0.00 R : 0.00 D:0 P : 0.08 R : 0.06 D:4 P : 0.18 R : 0.13 D:9 P : 0.07 R : 0.04 D:3 P : 0.29 R : 0.48 D : 33 P : 0.09 R : 0.06 D:4 P : 0.09 R : 0.16 D : 11 P : 0.05 R : 0.06 D:4 69 0.18 (C3) 0.13 (C3)
P : 0.00 R : 0.00 D:0 P : 0.15 R : 0.11 D:8 P : 0.22 R : 0.15 D : 11 P : 0.67 R : 0.37 D : 28 P : 0.06 R : 0.09 D:7 P : 0.13 R : 0.08 D:6 P : 0.10 R : 0.16 D : 12 P : 0.03 R : 0.04 D:3 75 0.67 (C4) 0.37 (C4)
P : 0.43 R : 0.36 D : 28 P : 0.00 R : 0.00 D:0 P : 0.16 R : 0.10 D:8 P : 0.14 R : 0.08 D:6 P : 0.03 R : 0.04 D:3 P : 0.64 R : 0.39 D : 30 P : 0.01 R : 0.01 D:1 P : 0.01 R : 0.01 D:1 77 0.64 (C6) 0.39 (C6)
P : 0.57 R : 0.51 D : 37 P : 0.00 R : 0.00 D:0 P : 0.45 R : 0.32 D : 23 P : 0.00 R : 0.00 D:0 P : 0.04 R : 0.06 D:4 P : 0.15 R : 0.10 D:7 P : 0.00 R : 0.00 D:0 P : 0.01 R : 0.01 D:1 72 0.57 (C1) 0.51 (C1)
65
52
51
42
112
47
116
87 574 0.39 0.32
Deskripsi Cluster Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8
Deskripsi
data[0.094], file[0.089], ponsel[0.083], mysql[0.037], rsync[0.029], and[0.027], servlet[0.025], tanaman[0.023], menu[0.023], aplikasi[0.021], ponsel[0.169], linux[0.067], tabel[0.046], partisi[0.033], sistem[0.033], perintah[0.032], tanaman[0.028], samba[0.025], and[0.022], wap[0.020], linux[0.149], mysql[0.110], database[0.058], php[0.037], ftp[0.034], psis[0.027], dev[0.026], ip[0.026], ponsel[0.025], tanaman[0.023], linux[0.083], java[0.075], result[0.070], php[0.054], tanaman[0.044], kamera[0.036], if[0.031], net[0.030], shell[0.029], kacang[0.029], ponsel[0.108], partisi[0.083], linux[0.050], mysql[0.044], jsp[0.027], http[0.027], td[0.026], dosemu[0.026], abiword[0.024], lilo[0.022], as[0.206], of[0.097], bmw[0.083], in[0.080], file[0.070], dolar[0.058], sub[0.052], komputer[0.048], proses[0.041], daihatsu[0.035], saham[0.136], mobil[0.135], bmw[0.067], turun[0.040], tanaman[0.038], toyota[0.030], daihatsu[0.028], benz[0.026], mesin[0.024], odyssey[0.024], saham[0.254], ihsg[0.097], bmw[0.086], turun[0.056], rp[0.053], sportage[0.043], out[0.039], daihatsu[0.038], cls[0.038], mobil[0.036],
113