JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
1
PENERAPAN METODE HEURISTIC SEMI-SUPERVISED FUZZY COCLUSTERING ALGORITHM WITH RUSPINI’S CONDITION (SS-HFCR) UNTUK PENGELOMPOKAN DOKUMEN TEKS Syahrul Munif, Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail
[email protected]
Abstrak— Dokumen merupakan sebuah tulisan yang memuat informasi. Banyaknya dokumen bisa menjadi suatu masalah tersendiri dalam mengelompokkannya. Pengelompokan dokumen merupakan bagian dari ilmu machine learning. Pengelompokkan bertujuan untuk mengatur dokumen supaya bisa terkelompok dalam bagian-bagian kelompok/kategori. Heuristic Semi-supervised Fuzzy Co-clustering Algorithm with Ruspini’s Condition (SS-HFCR) merupakan salah satu teknik baru dalam pengelompokan dokumen. Metode ini menggabungkan metode fuzzy clustering, co-clustering dan pengelompokan semi-supervised. Pada karya tulis ini menggunakan metode SS-HFCR untuk mengelompokan data teks. Metode ini menghasilkan akurasi yang cukup baik untuk mengelompokan data WebKb dan Reuters-21578 R8. Kata Kunci— Clustering, Co-Culstering, Fuzzy, Machine learning, Semi-supervised.
I. PENDAHULUAN Dokumen merupakan sebuah tulisan yang memuat informasi [1]. Pada zaman dahulu, dokumen identik dengan informasi yang ditulis di kertas, bambu, kulit hewan dll. Pada zaman sekarang, dokumen tidak hanya yang berbentuk nyata atau hardcopy seperti buku, surat dan lain-lain. Dokumen pada zaman sekarang lebih banyak berbentuk digital atau softcopy. Media penyimpanan digital untuk dokumen ini juga semakin besar. Sehingga semakin banyak dokumen yang tersimpan. Pada suatu institusi atau lembaga, banyaknya dokumen bisa menjadi suatu masalah tersendiri. Dikarenakan banyaknya dokumen, menyusun dokumen sesuai kelompoknya menjadi sulit. Mengelompokan secara manual dapat dilakukan untuk dokumen-dokumen ini. Cara ini mungkin bisa dilakukan jika jumlah dokumen sedikit. Jika dokumen berjumlah terlalu banyak, cara ini tidak bisa dilakukan. Jumlah data yang besar sering menjadikan permasalahan tersendiri dalam pengelompokan. Selain itu, adanya data yang rusak dan data yang saling tumpang tindih juga menjadi permasalahan tersendiri [2]. Beberapa algoritma pengelompokan dikembangkan untuk menyelesaikan permasalahan pengelompokan ini. Contoh beberapa algoritma yang dikembangkan adalah co-clustering, fuzzy clustering, fuzzy co-clustering, pengelompokan berdasar konsep matriks (NMF) dan lain sebagainya. Setiap metode mempunyai ciri tersendiri, misalnya co-clustering umumnya baik untuk menangani data besar dengan cara secara serentak mengelompokkan dokumen dan kata berdasarkan tingginya
hubungan antara keduanya. Fuzzy clustering digunakan untuk permasalahan data yang saling tumpang tindih, tetapi menjadi tidak bagus ketika terdapat anomali data. Di dalam fuzzy coclustering keterkaitan direpresentasikan dengan derajat keanggotaan dokumen terhadap setiap kelompok / kluster. Fuzzy co-clustering merupakan variasi terbaru dari fuzzy cmeans dan pendekatan co-clustering yang bekerja pada dataset tertentu. Selain itu, terdapat juga pengelompokan semi-supervised dan unsupervised. Metode pengelompokan yang menggunakan data belum terkelompok sepenuhnya disebut unsupervised.Metode yang menggunakan sebagian data yang sudah terkelompok dan data belum terkelompok disebut metode semi-supervised. Data yang sudah terkelomppok bertujuan meningkatkan kinerja algoritma. Heuristic Semi-supervised Fuzzy Co-clustering Algorithm with Ruspini’s Condition (SS-HFCR) merupakan salah satu teknik baru dalam pengelompokan dokumen. Metode ini menggabungkan metode fuzzy clustering, co-clustering dan pengelompokan semi-supervised. Semi-supervised dalam algoritma ini menggunakan pasangan indeks dokumen yang selanjutnya akan dinamakan batasan “must link” dan “can not link”. Must link merupakan batasan berupa pasangan indeks dokumen dimana dua dokumen mempunyai label atau kelompok yang sama. Can not link merupakan batasan berupa pasangan indeks dokumen dimana dua dokumen mempunyai label atau kelompok yang beda. Dokumen-dokumen yang dijadikan batasan must link dan can not link merupakan dokumen yang sudah terlabel atau terkelompok. Pada karya tulis ini menggunakan algoritma SS-HFCR untuk pengelompokan dokumen teks dengan pengetahuan terdahulu yang terbatas. II. METODE A. Heuristic Semi-supervised Fuzzy Co-clustering Algorithm with Ruspini’s Condition (SS-HFCR) Algoritma heuristic semi-supervised fuzzy co-clustering with ruspini’s condition (SS-HFCR) digunakan untuk mengelompokkan data dokumen web yang besar. Di dalam pendekatan ini, proses pengelompokan dilakukan dengan memasukan beberapa pengetahuan sebelumnya dalam bentuk aturan berpasangan yang disediakan oleh pengguna ke kerangka fuzzy co-clustering [2].
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) Tabel 1. Daftar Notasi Notasi D c/C M N xi dij U,V uci,vcj Tu,Tv Td
2
bias. Maka dari itu, dalam pendekatan berbasis dual partisi, dua fungsi yang membantu dengan derajat normal yang berbeda dari bagian agregasi dituliskan dalam Persamaan (4) dan Persamaan (5).
Arti Asosiasi matriks kata dalam dokumen (tfidf) Indeks kelompok/Jumlah kelompok Jumlah kata Jumlah dokumen Dokumen ke i dalah RM tf-idf dari kata j dalam dokumen i Dokumen dan kata matrik fuzzy Nila derajat keanggotaan dokumen dan kata Derajat keanggotaan fuzzy yang ditentukan pengguna Bobot faktor (harga penalti) dari constraint
(4)
(5)
Setiap aturan menentukan apakah pasangan dokumen "harus terhubung" atau "tidak dapat terhubung" dimasukan dalam klaster yang sama. Selanjutnya, diformulasikan fungsi biaya aglomerasi kompetitif yang juga dapat digunakan untuk pengetahuan sebelumnya di dalam proses pengelompokan. Dalam penjelasan tinjauan pustaka ini terdapat beberapa notasi yang dijelaskan dalam Tabel 1. Fungsi objektif dari SSHFCR dapat dituliskan pada Persamaan (1). Dengan optimasi fungsi J sesuai Persamaan (2) dan Persamaan (3). (1)
(2) (3) Ini dinamakan pendekatan fuzzy co-clustering, setiap dokumen i diberikan derajat kecenderungan keanggotaan fuzzy uci terhadap kelompok c. Untuk setiap kata j dalam dataset diberikan derajat kecenderungan fuzzy vcj terhadap kelompok c. Keduanya harus digunakan dalam fungsi objektif. Korelasi antara kata dan dokumen haruslah kuat dalam satu kelompok/kelompok. Sehingga, bagian pertama yang disebut derajat agregasi haruslah semaksimal mungkin terhadap suatu klaster. Sehingga membuat keterkaitan yang tinggi antara dokumen dan kata ( diindikasikan dij tinggi) menjadi satu klaster. Hal itu dilakukan atas dasar pemikiran bahwa co-cluster yang baik seharusnya mempunyai koherensi ikatan yang kuat antar anggotanya. Memaksimalkan derajat agregasi mungkin akan mendapatkan hasil pengelompokkan yang tidak diinginkan. Misalkan bagian pertama persamaan adalah G:D = ,gij (Setiap elemen G) dinyatakan . Nilai dapat bervariasi antara 0 dan NK. Variasi ini berimplikasi, memaksimalkan derajat agregasi dalam kasus ini akan mengaburkan pembentukan co-cluster dengan besarnya nilai . Nilai tadi tidak bergantung pada jumlah partisi D. Maka dari itu, co-cluster tidak perlu mempunyai nilai yang besar untuk menentukan struktur kelompok yang terikat dari dataset. Nilai juga selalu sama dengan nilai konstan (contoh N) dalam pendekatan perankingan berbasis partisi, untuk alasan ini nilai itu dapat menghindarkan dari masalah
Dengan normalisasi pada Jss-2 dan pada Jss-1 sehingga didapatkan nilai konstan untuk bagian agregasi dalam Persamaan (4). Seperti dalam pendekatan berbasis pasrtisi-perangkingan. Normalisasi ini digunakan untuk menghindari bias dan juga mengurangi kemungkinan komputasi yang berlebihan. Pengetahuan terdahulu digunakan dalam proses pengelompokan. Pengetahuan ini diberikan dua set aturan berpasangan. Set satu berisi must-link (ML) atau harus terhubung dan yang kedua can not link (CNL) tidak dapat terhubung. Diasumsikan setiap dokumen mempunyai label virtual berupa variabel kelompok. Label ini terdiri dari dua nilai, satu kelompok pemberian pengguna, yang kedua berdasar kenyataan jika informasi tertentu tersedia. Setiap dokumen dengan label ML mempunyai kemiripan isi antar dokumen tersebut. Sedangkan dokumen dengan label CNL mempunyai ketidak miripan isi antar dokumen tersebut. Aturan ML merepresentasikan relasi yang ekuivalen. Maka, memungkinkan mendapatkan koleksi transitive closure dari set ML, dimana setiap dokumen yang berpasangan mempunyai label virtual yang sama. Setiap dokumen didalam aturan berpasangan diberikan derajat yang tinggi terhadap c sesuai label virtualnya, dan derajat rendah terhadap kelompok yang lain. Dalam proses pengelompokan bagian seharusnya mempunyai nilai maksimal jika xi dan xk mempunyai label virtual yang sama dan mempunyai nilai minimal xi dan xk mempunyai label virtual yang tidak sama. Sehingga kombinasi bagian teramati dalam fungsi objektif menjadi dan mempunyai nilai yang seharusnya maksimal. Td adalah faktor nilai bobot yang mengontrol pentingnya pengetahuan terdahulu dari domain dokumen dibandingkan dengan keseluruhan dataset. SS-HFCR memastikan setiap dokumen akan mendapatkan distribusi keanggotaan fuzzy dan pelanggaran terhadap aturan berpasangan menjadi minimal saat di akhir proses pengelompokkan. Tu dan Tv digunakan untuk menyesuaikan tingkat keanggotaan fuzzy dari dokumen dan kata. Permasalahan yang dihadapi sekarang adalah memaksimalkan Persamaan (4) dan Persamaan (5). Permasalahan ini dapat diatasi dengan mencari nilai optimal dai U dan V dengan aturan Persamaan (2) dan Persamaan (3). Karena u dan v adalah variabel kontinu, dapat menggunakan metode Lagrange multipliers dengan dengan urutan pertama
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) kondisi yang diperlukan untuk menurunkan aturan pembaharuan untuk u dan v. Fungsi Langrangian dituliskan dalam Persamaan (6) dan Persamaan (7). Dimana dan adalah pengali Lagrange sesuai pada Persamaan (2) dan Persamaan (3). (6)
3
Adjust constraint phase 1 Input: N, M, C Output : M Method: 1. For i from 0 to N : 2. Temporary=Phase 2 ( M column ith) 3. For j from 0 to C: 4. M rows jth column ith = Temporary jth 5. Return M Gambar 3. Pseudocode Penyesuaian Persamaan (2) dan Persamaan (3) tahap 1 Adjust constraint phase 2 Input: Temporary Output : Temporary Method: 1. K=sum of Temporary value 2. For i from 0 to length(Temporary) : 3. Temporary ith = Temporary ith / K 4. Return Temporary
(7)
Gambar 4. Pseudocode Penyesuaian Persamaan (2) dan Persamaan (3) Tahap 2
Untuk memaksimalkan fungsi Lagrangian L1, dapat menurunkan secara parsial L1 untuk uci . Dengan menghitung untuk uci dan untuk vcj seperti terlihat pada Persamaan (8) dan Persamaan (9). (8)
(9)
Initialization matrix U Input: U, number of CNL (NumC), C, Number of ML (NumM), temp matrix length(U)×length(U) with 0 Output: CNL, NL, U Method: 1. Adjust constraint (length(U),N,C) 2. Initiate U with random float number 3. U,CNL,temp=Generate constraint (U,temp,NumC,C) 4. U,ML,temp=Generate constraint (U,temp,NumM,M) 5. Adjust constraint (length(U),N,C) 6. Return CNL,NL,U Gambar 5. Pseudocode Inisiasi Nilai Matriks U. Gambar 6. Fungsi Inisiasi Batasan CNL dan ML Pada Inisiasi Matriks
III. PERANCANGAN DAN IMPLEMENTASI Sistem akan teragi menjadi tiga. Pertama bagian penyesuaian Persamaan (2) dan Persamaan (3). Pada bagian ini, matriks U akan disesuaikan dengan Persamaan (2) dan (3) hanya saat inisialisasi. Pseudocode penyesuaian ini dapat dilihat pada Gambar 3 dan Gambar 4. Penyesuaian ini terbagi menjadi dua bagian. Tahap 1 merupakan bagian dimana setiap kolom pada matriks akan dikirimkan pada proses tahap 2. Pada proses tahap 2, setiap nilai pada kolom akan dibagi dengan jumlah nilai kolom tersebut. Bagian Kedua merupakan inisiasi matriks U. Pada bagian ini, akan dinisiasi juga batasan CNL dan ML. Batasan ini merupakan dokumen berpasangan. CNL menandakan dua dokumen menjadi satu kelompok. ML menandakan dua dokumen berbeda kelompok. Jika a dan b terpilih menjadi batasan CNL atau ML, maka nilai uca dan ucb akan ditambah 1. Pseudocode inisiasi matriks U dapat dilihat pada Gambar 5. Dalam inisiasi U akan dilakukan penyesuaian Persamaan 2 dan Persamaan 3. Pada inisiasi matriks U dilakukan dua kali penyesuaian. Nilai pada matriks U disesuaikan dua kali dengan tujuan mendapatkan nilai-nilai keanggotaan fuzzy yang menjadi batasan ML dan CNL menjadi 0.5≤ uja,ukb ≤1.0. Sedangkan nilai dari ujb dan uka bernilai antara 0≤uka,ujb<0.5. Satu dokumen dapat terpilih menjadi batasan CNL dan ML secara bersamaan.
Generate Constraint Input: U, number of constraint (Num), temp, Code Output: Constraint, U Method: 1. Set n=0 2. While n not equal to Num 3. A=Random from 0 to length(U) 4. B= Random from 0 to length(U) 5. If A not equal to B 6. then 7. If tempAB not equal to 1 and Code is M 8. then 9. tempAB = 1 10. tempBA = 1 11. uAB = uAB +1 12. uBA = uBA +1 13. add (A,B) to Constraint 14. End if 15. End if 16.Return Constraint,U,temp
Tetapi hanya boleh menjadi batasan CNL satu kali dan ML satu kali. Penentuan pasangan dokumen dalam CNL dan ML dilakukan secara acak. Setiap dokumen yang sudah berpasangan akan di tandai. Nilai awal U diinisiasi dengan nilai acak antara 0 dan 1. Pseudocode inisiasi CNL dan ML dapat dilihat pada Gambar 6. Bagian ketiga adalah bagian utama metode ini. Pada bagian ketiga akan dilakukan pembaharuan nilai V dan U. Pembaharuan ini akan dilakukan berulang-ulang sampai atau . memenuhi batasan Jumlah iterasi dibatasi dengan ketiga dapat dilihat pada Gambar 7.
. Pseudocode bagian
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) The SS-HFCR algorithm. Input:Dataset D, number of clusters C, Constraint sets: ML&CNL Output:Document membership matrix:U, Word membership matrix: V. Method: 1. Set weighting factor Tu,Tv,Td, stopping threshold Ɛ, tmaxmaximum iteration number 2. Manually adjust the initial uci for the documents existed in ML&CNL set to obey all the constraints, then randomly assign the initial uci for the other documents. 3. REPEAT 4. Update vcj with Eq. (9); 5. Update uci with Eq. (8) 6. t=t+1 7. UNTIL
Kelas 1 2 3
Kelas 1 2
Gambar 7. Pseudocode SS-HFCR[2]
1 1 1 0,1 0,2 0,3 0,6
Table 2. Dataset toy Problem Atribut 3 4 5 6 7 0,5 0,5 0 0,8 0 0,5 0,5 0 0,8 0 0,5 0,8 0,5 0,3 0 0,5 0,7 0,5 0,3 0 0,5 0,7 0,6 0,4 0,7 0,4 0,5 0,6 0,4 0,7
2 0,7 0,7 0,3 0,3 0,3 0,4
Kelas Iris-Setosa Iris-Versicolor Iris-Virginica Jumlah Kelas project course faculty student Jumlah Kelas earn Mobey-fx trade interest crude ship grain acq Jumlah
3 Kelas 1 1 2 2 3 3
Kelas 1 2 3
Table 3. Dataset Iris Jumlah Data 50 50 50 150
Tabel 5. Dataset Reuter R8 Jumlah Data 6275 348 640 530 740 285 102 4109 13029
IV. UJICOBA DAN EVALUASI Dalam bab ini akan dijelaskan ujicoba metode SS-HFCR dengan empat dataset yaitu toy problem, Iris, WebKB dan Reuters-21578 R8. Perincian data toy ptoblem dapat dilihat pada Tabel 2. Perincian data Iris dapat dilihat pada Tabel 3. Perinician data WebKB dapat dilihat dalam Tabel 4. Sedangkan perincian data Reuter R8 dapat dilihat pada Tabel 5. Untuk evaluasi ujicoba digunakan fungsi akurasi. Fungsi akurasi tersebut dapat dilihat pada Persamaan 10. Accuracy =
Tabel 6. Hasil Ujicoba Pertama Dataset Toy Problem Data 1 2 3 4 5 6 7,04E7,36E1,91E1 1 2,43E-14 30 23 28 9,98 9,98E0,00083 1 1 9,94E-11 E-55 55 8 4,05 4,05E5,99E3,35E- 0,99916 1 E-70 70 27 24 2 Tabel 7. Hasil Ujicoba Kedua Dataset Toy Problem Data 1 2 3 4 5 7,04 7,36E 1 1 E1,91E-28 -23 30 9,98E9,93E1 1 0,000838 55 55 5,99 4,05E4,03E3,35E E0,999162 70 70 -24 27 Table 8. Hasil Ujicoba Ketiga Dataset Toy Problem Data 1 2 3 4 5 7,04E7,36E1,91E1 1 30 23 28 9,98E9,93E0,0008 1 1 55 55 38 4,05E4,03E5,99E3,35E0,9991 70 70 27 24 62
Percobaan 1 2 3 4
Tabel 4. Dataset WebKB Jumlah Data 493 911 1105 1570 4079
(10)
4
Table 9. Hasil Ujicoba Dataset Iris ML (%) CNL (%) 0 0 5 0 5 5 10 5
6 2,43E14 9,94E11 1
6 2,43E14 9,94E11 1
Akurasi 0,84 0,88 0,92 0,9
A. Ujicoba Toy Problem Setiap ujicoba data toy problem dilakukan tiga kali. Pertama menggunakan CNL dan ML dengan jumlah 0%. Ujicoba kedua menggunakan satu pasang ML dan tanpa CNL . Ujicoba ketiga menggunakan satu pasang CNL dan tanpa ML. Ujicoba pertama variabel Tu di berikan nilai 0,002, Tv diberikan nilai 1 dan Td diberikan nilai 0.005 serta dengan nilai ε diberikan nilai 0,00001. Ujicoba kedua data toy problem. Variabel Tu di berikan nilai 0,001, Tv diberikan nilai 0,005 dan Td diberikan nilai 1 serta dengan nilai ε diberikan nilai 0,00001. Ujicoba ketiga dan kelima dilakukan dengan menggunakan variable Tu, Td, dan Tv serta ε yang sama dengan percobaan pertama. Ujicoba keempat dan keenam dilakukan dengan menggunakan variable Tu, Td, dan Tv serta ε yang sama dengan percobaan kedua. Pada ujicoba ketiga dan keempat menggunakan nilai CNL / ML dan matriks U yang diacak dalam setiap ujicobanya. . Ujicoba kelima dan keenam menggunakan nilai CNL / ML dan Matriks U acak setiap percobaan. Dari enam percobaan data toy problem, SS-HFCR dapat mengelompokan data ini dengan sempurna. Semua percobaan dengan menggunakan data ini menghasilkan akurasi sempurna 100%. Contoh hasil ujicoba pertama pengelompokan data ini dapat dilihat pada Tabel 6, Tabel 7. dan Tabel 8. B. Ujicoba Iris Ujicoba data Iris dilakukan menggunakan CNL dan ML dengan jumlah 0. Nilai CNL dan ML bertambah dengan nilai
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 5% pada setiap percobaan. Nilai CNL dan ML maksimal di percobaan data iris adalah berjumlah 15%, untuk ML 10% dan CNL 5%. Variabel Tu di berikan nilai 0,002, Tv diberikan nilai 0,005 dan Td diberikan nilai 1 serta dengan nilai ε diberikan nilai 0,00001. Hasil ujicoba terhadap data ini dapat dilihat dalam Tabel 9. Hasil Terbaik dari percobaan data iris ini mendapatkan hasil yang baik. Akurasi tertinggi dari percobaan data ini adalah 92% dengan jumlah batasan CNL dan ML sebanyak 10%. Tidak seperti data toy problem hasil dari percobaan iris sulit menemukan konvergensi. Sehingga batasan nilai ε memaksa iterasi untuk berhenti. Nilai OF dalam iterasi data iris juga mengalami penurunan. Penurunan terjadi saat ujicoba kedua pada iterasi ke dua dan ketiga. Nilai keanggotaan dalam percobaan iris yang sulit menemui kondisi konvergen. C. Uji Coba WebKB Ujicoba data WebKB dilakukan dengan jumlah CNL dan ML yang selalu meningkat dari satu percobaan ke percobaan selanjutnya. Percobaan akan dimulai dengan CNL dan ML berjumlah 0. Selanjutnya pada setiap percobaan, CNL dan ML akan bertambah jumlahnya dengan 0,3%. Ujicoba akan berhenti ketika jumlah ML dan CNL lebih dari 10%. Variabel Tu di berikan nilai 0,002, Tv diberikan nilai 0,005 dan Td diberikan nilai 1 serta dengan nilai ε diberikan nilai 0,001. Pada setiap percobaan data ini, iterasi berlangsung singkat. Hal ini dikarenakan nilai ε yang mempunyai nilai lebih besar. Percobaan menggunakan data ini, tidak menemui kondisi konvergen. Sehingga nilai akurasi dari iterasi ke iterasi selalu berubah-ubah. Nilai ε mencegah akurasi semakin turun lebih jauh. Hasil terbaik percobaan ini dapat dilihat pada Tabel 10. D. Uji Coba Reuters-21578 R8 Ujicoba data Reuters-21578 R8 dilakukan berungkali dengan jumlah CNL dan ML yang selalu meningkat dari satu percobaan ke percobaan selanjutnya . Percobaan akan dimulai dengan CNL dan ML berjumlah 0. Selanjutnya pada setiap percobaan, CNL dan ML akan bertambah jumlahnya dengan 0,3%. Ujicoba akan berhenti ketika jumlah ML dan CNL lebih dari 10%. Dalam percobaan ini variabel Tu di berikan nilai 0,002, Tv diberikan nilai 0,005 dan Td diberikan nilai 1 serta dengan nilai ε diberikan nilai 0,001. Hasil ujicoba data ini dapat dilihat dalam Tabel 11. Seperti ujicoba pada data WebKb, ujicoba menggunakan data ini tidak menemukan kondisi konvergen. Sehingga akurasi dari iterasi ke iterasi dalam setiap percobaan selalu berubah-ubah. Nilai mencegah perubahan akurasi supaya tidak turun. E. Pembahasan Hasil Ujicoba Pada setiap inisiasi nilai acak matriks U, tidak selalu menghasilkan akurasi baik pada suatu percobaan. Nilai akurasi yang baik akan bisa didapatkan jika nilai U sesuai dengan nilai Tu, Td, dan Tv atau sebaliknya. Nilai Tu, Td dan Tv, memberikan pengaruh terhadap akurasi ketika tidak menemukan nilai U yang tepat. Nilai Tu, Tv, dan Td juga menentukan jumlah iterasi. Karena nilai Tu, Td, dan Tv akan menentukan nilai pada setiap iterasinya. Nilai acak CNL dan ML yang berbeda dapat menghasilkan akurasi yang berbeda walaupun dengan nilai acak U yang sama.
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Tabel 10. Hasil Ujicoba Dataset WebKb ML (%) CNL (%) CNL+ML (%) 0 0 0 0,3 0 0,3 0,3 0,3 0,6 0,6 0,3 0,9 0,6 0,6 1,2 0,9 0,6 1,5 0,9 0,9 1,8 1,2 0,9 2,1 1,2 1,2 2,4 1,5 1,2 2,7 1,5 1,5 3,0 1,8 1,5 3,3 1,8 1,8 3,6 2,1 1,8 3,9 2,1 2,1 4,2 2,4 2,1 4,5 2,4 2,4 4,8 2,7 2,4 5,1 2,7 2,7 5,4 3 2,7 5,7 3,0 3,0 6,0 3,3 3,0 6,3 3,3 3,3 6,6 3,6 3,3 6,9 3,6 3,6 7,2 3,9 3,6 7,5 3,9 3,9 7,8 4,2 3,9 8,1 4,2 4,2 8,4 4,5 4,2 8,7 4,5 4,5 9,0 4,8 4,5 9,3 4,8 4,8 9,6 5,1 4,8 9,9 5,1 5,1 10,2
5
Akurasi 0,707 0,718 0,724 0,724 0,729 0,746 0,748 0,747 0,751 0,746 0,745 0,754 0,762 0,769 0,766 0,772 0,776 0,784 0,788 0,785 0,785 0,789 0,784 0,782 0,784 0,789 0,786 0,794 0,799 0,797 0,793 0,789 0,790 0,801 0,802
Pemilihan nilai CNL dan ML yang tepat dapat meningkatkan akurasi. Nilai Objectife Function (OF) diusahakan maksimal dalam setiap iterasi suatu percobaan. Namun dapat dimungkinkan walaupun nilai OF turun dalam iterasi, tetapi tetap mendapatkan nilai akurasi yang tinggi. Selain nilai U, nilai OF juga dipengaruhi nilai CNL dan ML. Nilai berfungsi untuk menghentikan iterasi jika kondisi terpenuhi. Semakin kecil nilai dapat menghasilkan nilai keanggotan dalam matriks U semakin optimal. Namun ketika tidak menemukan nilai Tu, Td, dan Tv serta U yang tepat. Maka nilai dapat menghasilkan akurasi yang baik.Terlihat dalam percobaan data toy problem,nilai ε memberikan nilai optimal pada keanggotan dokumen terhadap kelas. Nilai akan menentukan hasil akurasi saat tidak menemukan konvergensi dan nilai keanggotaan selalu dari iterasi ke iterasi berubah-ubah. Nilai akan turun. Sehingga menentukan nilai yang tepat untuk berhentinya iterasi menjadi penting guna mendapatkan nilai akurasi yang baik. Rekap hasil ujicoba dapat dilihat Tabel 12. Dari hasil ujicoba didapatkan bahwa data iris menghasilkan akurasi terbaik dengan menggunakan jumlah batasan 10%, dengan masing-masing CNL 5% dan ML 5%. Data WebKb menghasilkan akurasi terbaik selama percobaan dengan menggunakan jumlah batasan 10,2% dengan masing-masing CNL 5,1% dan ML 5,1%. Data Reuters-21578 R8 menghasilkan akurasi terbaik dengan jumlah batasan sebanyak 10,2% dengan masing-masing CNL 5,1% dan ML 5,1%.
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Tabel 11. Hasil Ujicoba Dataset Reuter-21578 R8 ML(%) CNL (%) CNL+ML(%) Akurasi 0 0 0 0,445 0,3 0 0,3 0,378 0,3 0,3 0,6 0,437 0,6 0,3 0,9 0,448 0,6 0,6 1,2 0,502 0,9 0,6 1,5 0,530 0,9 0,9 1,8 0,514 1,2 0,9 2,1 0,505 1,2 1,2 2,4 0,506 1,5 1,2 2,7 0,514 1,5 1,5 3 0,505 1,8 1,5 3,3 0,522 1,8 1,8 3,6 0,523 2,1 1,8 3,9 0,537 2,1 2,1 4,2 0,537 2,4 2,1 4,5 0,550 2,4 2,4 4,8 0,546 2,7 2,4 5,1 0,564 2,7 2,7 5,4 0,558 3 2,7 5,7 0,621 3 3 6 0,672 3,3 3 6,3 0,705 3,3 3,3 6,6 0,729 3,6 3,3 6,9 0,738 3,6 3,6 7,2 0,751 3,9 3,6 7,5 0,763 3,9 3,9 7,8 0,770 4,2 3,9 8,1 0,774 4,2 4,2 8,4 0,778 4,5 4,2 8,7 0,783 4,5 4,5 9 0,782 4,8 4,5 9,3 0,785 4,8 4,8 9,6 0,784 5,1 4,8 9,9 0,788 5,1 5,1 10,2 0,789
Tabel 12. Hasil Rekapitulasi Ujicoba CNL + ML ML CNL Data (%) (%) (%) Iris 5 5 5 WebKb 5,1 5,1 10,2 Reuters-21578 R8 5,1 5,1 10,2
Akurasi 0,92 0,802 0,789
V. KESIMPULAN/RINGKASAN Kesimpulan yang diperoleh berdasarkan pengujian dan evaluasi yang telah dilakukan adalah sebagai berikut: 1. Nilai Tu, Tv, dan Td serta inisiasi matriks U mempunyai pengaruh terhadap akurasi. 2. Nilai ε berpengaruh terhadap akurasi jika konvergensi tidak terjadi. 3. Pemilihan batasan CNL dan ML berpengaruh meningkatkan akurasi Adapun saran yang dapat diberikan oleh penulis sebagai berikut: 1. Untuk nilai Tu, Tv, Td, CNL dan ML perlu dilakukan optimasi, serta inisiasi nilai U. Sehingga nilai-nilai tersebut dapat menghasilkan akurasi yang baik. 2. Jika nilai nilai-nilai pada poin 1 tidak ditemukan, maka nilai ε perlu ditentukan dengan tepat. UCAPAN TERIMA KASIH Penulis mengucapkan terima kasih kepada Direktorat Pendidikan Tinggi, Departemen Pendidikan dan Kebudayaan
6
Republik Indonesia yang telah memberikan dukungan finansial melalui Beasiswa Bidik Misi tahun 2010-2014. DAFTAR PUSTAKA [1] Wikipedia, April 6 2013. [Online]. Available: http://id.wikipedia.org/wiki/Dokumen. [2] Y. Yan, L. Cheb and W.-C. Tjhi, "Fuzzy semi-supervised co-clustering for text documents," Fuzzy Sets And System, p. 74, 2013. [3] C. D. Manning, P. Raghavan and H. Schütze, An Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009. [4] G. Salton, A. Wong and C. S. Yang, "A vector space model for automatic indexing.," Communications of the ACM, vol. 18, pp. 613-620, November 1975. [5] I. S. Dhillon, S. Mallela and D. S. Modha, "Information Theoretic Coclustering," Proceedings of the 9th ACM SIGKDD International Conference, p. 89–98, 2003. [6] K. P. Murphy, Machine Learning: a Probabilistic Perspective, Cambridge,Massachusetts: The MIT Press, 2013. [7] A. Hotho, S. Staab and G. Stumme, "Text Clustering Based on Background Knowledge," -.