3. METODOLOGI
A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi Algoritma dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input file dokumen ke basisdata dan membuat matriks representasi. Evaluasi algoritma dilakukan untuk memilih algoritma fuzzy clustering yang terbaik. Algoritma yang dibandingkan ada tiga, yakni algoritma Fuzzy Subtractive Clustering (FSC), Hyperspherical-
Fuzzy C-Means Clustering (H-FCM) dan Fuzzy Competitive Clustering.
PERSIAPAN
STUDI PUSTAKA
EVALUASI Algoritma H-FCM
Algoritma FSC
Algoritma FCCL
KRITERIA UJI
Matriks Data Uji
Precision
EVALUASI
Recall Speed
Algoritma Terbaik
PEMBUATAN PROTOTIPE SISTEM
Gambar 3.1 Kerangka Pemikiran Penelitian
52
Prototipe dikembangkan menggunakan algoritma clustering terbaik di antara ketiga algoritma yang diuji. Prototipe sistem temu kembali informasi bekerja berdasarkan input dokumen dan query, metode representasi dokumen dan query, proses atau metode pencarian dan metode menampilkan hasil query (Gambar 3.2). Pada penelitian ini, dokumen direpresentasikan oleh serangkaian term atau istilah yang memiliki bobot sedangkan query dipecah menjadi untaian kata. Metode pencarian yang digunakan metode Boolean.
Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi B. Bahan dan Alat Dokumen yang digunakan sebagai bahan penelitian adalah artikel dan berita berbahasa Indonesia yang diambil dari beberapa situs Internet. Pembuatan prototipe sistem menggunakan PHP sebagai bahasa pemrogaman, MySQL sebagai Sistem Manajemen Basis Data dan HTML (Hypertext
Markup Language) sebagai antar-muka sistem.
C. Tata Laksana 1. Tahap Persiapan Pengujian dilakukan dalam 4 tahap (Gambar 3.3). Proses pengolahan data dan pembuatan prototipe selengkapnya dapat dilihat pada Lampiran 1.
53
Gambar 3.3 Tata Laksana Persiapan dan Evaluasi a. Pencarian Algoritma Untuk menentukan algoritma yang akan digunakan, dilakukan penelusuran algoritma fuzzy clustering pada literatur. Algoritma yang dicari memiliki sifat fuzzy dan partisi (mengelompokkan dokumen pada satu tingkat). Hasil penelusuran menghasilkan tiga algoritma : FCM, H-FCM dan FSC.
b. Pengumpulan data Data yang digunakan adalah artikel yang dikumpulkan dari beberapa situs web. Artikel-artikel tersebut sudah terbagi menjadi beberapa kelompok, yakni berita politik, ekonomi, olah-raga dan iptek. Tidak semua bagian artikel digunakan sebagai data uji, melainkan hanya pargaraf utamanya saja.
c. Representasi Data Uji Tujuan dari proses ini adalah untuk mendapatkan matriks bobot berukuran m x n; dimana m = banyaknya dokumen dan n = banyaknya kata. Ada tiga formula pembobotan term pada dokumen, yaitu Term
54
Frekuensi (TF), Term Frekuesni Inverse Dokumen Frekuensi (TFIDF) dan Salton.
d. Penulisan Program Ketiga algoritma yang akan diuji diimplementasikan dalam program Matlab. Ketiga program tersebut masing-masing dijalankan untuk meng-cluster matriks bobot data.
2. Evaluasi Algoritma Fuzzy Clustering a. Uji Formula Pembobotan Uji formula pembobotan dilakukan untuk mendapatkan formula pembobotan terbaik. Uji ini dilakukan bersamaan dengan uji algoritma.
b. Uji Kinerja Algoritma Kinerja algoritma dinilai berdasarkan cluster hasil. Ada tiga kriteria uji yang digunakan, yaitu Akurasi, Kolektifitas dan kecepatan (waktu eksekusi) algoritma. Algoritma terbaik selanjutnya digunakan dalam pengembangan prototipe sistem temu kembali informasi. Ruang lingkup Penelitian Analisa Kebutuhan
Pengembangan Prototipe
Evaluasi Prototipe
Sepesifikasi Sistem
Komponen Daur Ulang
Pengembangan Software
Validasi Sistem
Software Hasil
Gambar 3.4 Tata Laksana Evaluasi
55
3. Pengembangan Prototipe Sistem Dalam pengembangan sistem, prototipe yang dihasilkan bukan merupakan tujuan akhir, melainkan untuk memberikan gambaran sistem yang lebih jelas kepada pengguna (Sommerville, 2000). Pada penelitian ini, prototyping melaksanakan tiga langkah dari enam langkah metode pengembangan sistem (Gambar 3.4) .
a. Outline Requirements Ada enam kriteria yang harus dipenuhi oleh sistem temu kembali informasi (Cleverdon, 1966), yakni : 1. Kemampuan sistem dalam menyediakan material yang relevan 2. Waktu pencarian yang relatif cepat 3. Presentasi output 4. Usaha pengguna untuk memperoleh informasi yang diinginkan 5. Akurasi 6. Kolektifitas Kriteria tersebut dapat digunakan sebagai parameter validasi dan verifikasi sistem yang dihasilkan.
b. Pengembangan Prototipe Prototipe dibagi menjadi tiga modul utama, yaitu modul Representasi & Penyimpanan Dokumen, modul Pencarian dan modul Representasi Hasil. Masing-masing modul dikembangkan dalam dua tahap, yaitu perancangan dan implementasi. Pada tahap akhir, ketiga sub prototipe yang dihasilkan digabung menjadi sebuah prototipe sistem. Prototipe yang dihasilkan selanjutnya diuji apakah sudah
56
memenuhi kriteria (akurasi, kolektifitas dan kecepatan) yang diinginkan.
Tata
laksana
Pengembangan
Prototipe
Sistem
selengkapnya dapat dilihat pada Gambar 3.5.
•
Analisis Pembuatan prototipe diawali dengan proses analisis. Tahapan analisis dilakukan untuk memahami kebutuhan, tujuan dan permasalahan dari pengembangan sistem. Pada tahap ini juga ditentukan model data dan fungsi atau modul yang diperlukan untuk mencapai tujuan pengembangan sistem.
Analisa Model
Disain
Implementasi
Representasi Dokumen
Modul Input
Metode Pencarian
Modul Pencari
Representasi Hasil
Modul Representasi Hasil
Pengujian
Implementasi Algoritma Clustering Terbaik
Tidak
Prototipe Sistem
Apakah Prototipe memenuhi kriteria ?
Pengembangan Modul Penyimpanan Ya Pengembangan Modul Pencari Pengembangan Modul Representasi Hasil
Selesai
Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu Kembali Informasi.
57
•
Perancangan & Implementasi Model Penyimpanan & Representasi Dokumen Dokumen beserta atribut nya (judul, nama pengarang, tahun dan abstrak) disimpan dalam basisdata. Karena pada proses pencarian dokumen direpresentasikan oleh serangkaian istilah yang dimiliki, maka istilah-istilah tersebut juga perlu disimpan dalam database. Rancangan basisdata harus diatur sedemikian rupa, sehingga kita dapat mengetahui dengan cepat dan tepat istilah apa saja yang dimiliki oleh dokumen beserta frekuensi kemunculan dan bobotnya; juga dalam dokumen apa saja suatu istilah ditemukan. Tujuan dari Representasi Dokumen adalah untuk mendapatkan daftar istilah yang dimiliki setiap dokumen. Setiap istilah memiliki nilai bobot pada setiap dokumen yang dihitung berdasarkan rumus (Salton & Buckley, 1988). Setiap istilah dan bobotnya disimpan pada basisdata.
•
Perancangan & Implementasi Model Pencarian Model pencarian terdiri atas model input dan metode pencarian. Pada penelitian ini diusulkan ada dua jenis input yang digunakan untuk pencarian dokumen, yaitu bahasa query dan parameter kedekatan. Bahasa query dirancang untuk dapat menggunakan Operator Boolean (AND dan OR). Parameter kedekatan nantinya akan digunakan untuk memperluas atau mempersempit cakupan pencarian dengan membandingkan derajat keanggotaan dokumen pada cluster hasil. Dokumen yang ditampilkan pada hasil hanyalah dokumen dengan
58
derajat keanggotaan sama dengan atau lebih besar dari parameter kedekatan.
•
Implementasi Algoritma Clustering Terbaik Algoritma Fuzzy Clustering yang digunakan merupakan algoritma terbaik hasil pengujian. Algoritma menerima input dokumen hasil pencarian dan matriks bobot istilah setiap dokumen. Output dari algoritma adalah beberapa cluster dokumen hasil pencarian.
•
Perancangan & Implementasi Representasi Hasil Output pencarian harus dirancang sedemikian rupa sehingga dapat menggambarkan
pengelompokan
dokumen
yang
ada,
tanpa
mengurangi kemudahan pengguna dalam mengakses dokumen yang diinginkan. Disain output yang diusulkan akan terdiri atas cluster, dokumen dan derajat keanggotaan dokumen pada cluster. Setelah query dilakukan, pertama kali sistem menampilkan link
cluster hasil query. Link cluster dapat diklik untuk membuka halaman
yang
menampilkan
dokumen
beserta
derajat
keanggotaannya pada cluster tersebut. Dokumen ditampilkan berurutan sesuai dengan derajat keanggotaannya.
c. Evaluasi Prototipe Dari enam kriteria Cleverdon (1966), hanya tiga kriteria yang digunakan untuk mengevaluasi prototipe, yakni: waktu pencarian, akurasi dan kolektifitas. Tiga kriteria ini dipilih karena dapat dihitung langsung secara kuantitatif. Waktu pencarian dihitung mulai dari pengguna menekan tombol pencarian sampai sistem menampilkan hasil dalam bentuk cluster.
59
Akurasi
dihitung
menggunakan
persamaan
36
dan
kolektifitas
menggunakan persamaan 37.
d. Kompleksitas Sistem Kompleksitas waktu sistem dihitung pada proses representasi matriks dokumen dan proses clustering. Proses representasi matriks memiliki T(n) = n (12m + 11) + 23 m + 11 atau T(n) ∈ O(nm). Proses clustering yang menggunakan algoritma H-FCM memiliki kompleksitas waktu sebesar O(nc2m) (n = total kata pada dokumen, c = total cluster, i = iterasi dan m = total dokumen, dengan c << i < m << n). Secara keseluruhan, sistem memiliki kompleksitas O(nc2m).
60