4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi digraf menggunakan software Graphviz 2.30. Tampilan halaman praproses data dapat dilihat Gambar 8.
Gambar 8 Tampilan praproses data Berdasarkan Gambar 8 untuk tahapan praproses data selain dilakukan proses tokenisasi, penghapusan kata hubung yang terdapat pada daftar stop-word dan pengambilan kata dasar (stemming), dilakukan juga proses dimentional reduction. Proses dimentional reduction akan melakukan pembacaan isi dokumen dan akan melakukan pembatasan oleh dua nilai yang menjadi threshold untuk mendapatkan hasil pengelompokan yang terbaik. Nilai pertama adalah banyaknya kata yang memiliki nilai Term Frequency (TF) tinggi akan tetapi tidak mewakili topik dalam dokumen (document frequency threshold). Hal ini ditemukan di sebagian besar dokumen REUTERS-21578. Dalam pengujian ditemukan setidaknya 3 kata yang selalu memiliki nilai TF tinggi akan tetapi tidak relevan terhadap topik dalam dokumen. Kata tersebut adalah : pct, mln dan dlrs. Oleh karena itu untuk mendapatkan hasil pengelompokan dan representasi digraf yang lebih baik, maka beberapa kata tersebut sebaiknya dihilangkan dalam proses pengelompokan sehingga perlu ditentukan nilai document frequency threshold yang ingin dihilangkan yakni 2-3 kata berdasarkan pengujian praproses data. Nilai kedua adalah banyaknya kata yang memiliki nilai TF tinggi dan mewakili topik dalam dokumen (relevant words), dan jumlah kemunculannya minimal lebih dari (jumlah dokumen – n) kali atau maksimal lebih dari jumlah dokumen yang diproses. Nilai n didefinisikan minimal 0 sampai dengan jumlah dokumen yang diproses.
16
Praproses data pada 20 dokumen uji dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 20 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 2 dan Tabel 3. Tabel 2 Hasil pengelompokan 20 dokumen dengan document frequency threshold=0 Kata
Kemunculan
pct mln year billion stock bankamerica quarter company sales
50 40 30 28 26 26 25 25 23
Tabel 3 Hasil pengelompokan 20 dokumen dengan document frequency threshold=2 Kata
Kemunculan
year billion stock bankamerica quarter company sales
30 28 26 26 25 25 23
Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 0 (nol) akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali tanpa melakukan pembatasan kata-kata yang tidak relevan. Kata yang tidak relevan yang dimaksud adalah kata pct dan mln. Dua kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut. Berdasarkan hal itu maka mekanisme algoritme dikembangkan untuk membatasi kemunculan kata yang sering muncul tapi tidak relevan dengan menghilangkan kata yang bobot kemunculannya terbesar sebanyak nilai input document frequency threshold. Oleh karena itu ketika nilai document frequency threshold diubah menjadi 2, maka dapat diartikan bahwa algoritme akan menghilangkan dua kata dengan nilai frekuensi kemunculannya paling besar yakni kata pct dan mln. Penentuan nilai bobot Term Frequency (TF) digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni lebih dari 20 kali (Lewis 1997). Pada pemrosesan 20 dokumen di atas, maka penetapan nilai TF
17
adalah sebesar 0. Nilai tersebut dipakai agar menghasilkan minimal kemunculan yang didapat sejumlah (jumlah dokumen – n) kali. Praproses data pada 25 dokumen latih dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 25 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 4 dan Tabel 5. Tabel 4 Hasil pengelompokan 25 dokumen dengan document frequency threshold=0 Kata
Kemunculan
pct mln year billion company quarter bankamerica sales debt
54 47 35 32 29 28 26 23 22
Tabel 5 Hasil pengelompokan 25 dokumen dengan document frequency threshold=3 Kata
Kemunculan
billion company quarter bankamerica sales debt
32 29 28 26 23 22
Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 3 akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali dan melakukan pembatasan kata-kata yang tidak relevan sebanyak 3 kata yakni pct, mln dan year. Tiga kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut. Penentuan nilai bobot Term Frequency (TF) pada percobaan dengan 25 dokumen didasarkan pada rumus (jumlah dokumen – n) agar dapat menampilkan hasil pengelompokan dokumen dengan kemunculan lebih dari 20 kali. Oleh karena itu nilai n=5 pada input nilai TF digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni tetap lebih dari 20 kali (Lewis 1997). Implementasi algoritme pada 50 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=30 menghasilkan sebanyak 23 kata dengan kemunculan lebih dari 20 kali. Hasil pengelompokan dapat dilihat pada Lampiran 1.
18
Implementasi pada 100 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=80 menghasilkan sebanyak 95 kata dengan kemunculan lebih dari 20 kali. Hasil percobaan dapat dilihat pada Lampiran 2. Hasil implementasi untuk 20, 25, 50 dan 100 dokumen dengan perubahan nilai document frequency threshold dan nilai bobot Term Frequency (TF) sangat penting dilakukan untuk mendapatkan hasil pengelompokan yang lebih baik dan mendapatkan representasi digraf yang lebih baik pula. Hasil implementasi algoritme dilanjutkan dengan pembangkitan metafile yang merupakan bahasa terstruktur penyusun struktur digraf yang akan mendefinisikan komponen digraf seperti node, edge dan path. Format bahasa yang digunakan adalah DOT language dengan unsur node yakni kata-kata yang terpilih dari hasil implementasi algoritme DIG pada praproses data; unsur edge adalah keterhubungan kata-kata dalam dokumen; dan unsur path adalah pengelompokan kata berdasarkan warna pada graf. Berikut adalah format metafile penyusun digraf untuk representasi dokumen tunggal dari hasil pengelompokan 20 dokumen uji dengan nilai document frequency threshold=2 dan nilai TF=0. digraph { graph [fontname = "Arial", fontsize = 36, style = "bold", nodesep=3] node [style=filled fillcolor="gray80"] "year=>30" "billion=>28" "stock=>26" "bankamerica=>26" "quarter=>25" “bankamerica=> 26" -> "billion=>28" [color=red,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=green,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=orange,penwidth=3.0]; "stock=>26" -> "bankamerica=>26" -> "stock=>26" [color=darkslateblue,penwidth=3.0]; "bankamerica=>26" -> "billion=>28" -> "year=>30" [color=darkseagreen,penwidth=3.0]; }
Metafile di atas sebagai bentukan output antara dari proses pengelompokan. Output hasil pengelompokan (metafile) akan menjadi input awal penyusunan struktur digraf untuk representasi digraf pada interface aplikasi. Tampilan digraf dari input metafile dapat dilihat pada Gambar 9.
Gambar 9 Representasi digraf dari input metafile penyusun struktur digraf
19
Representasi digraf yang disajikan pada Gambar 9 dapat dilihat hasil pengelompokan dokumen dengan melihat nilai Term Frequency (TF) dari kata-kata yang sering muncul pada dokumen uji. Dari implementasi 20 dokumen REUTER-21578 dengan nilai document frequency threshold = 2 dan nilai bobot TF relevant words = 0 atau sejumlah dokumen yang diproses, maka didapat 4 kata yang sering ditemukan pada pembandingan dokumen pertama dan kedua yakni : year, billion, bankamerica dan stock. Di sisi lain, kata quarter ditemukan pada pembandingan dokumen lainnya. Warna pada digraf mewakili kelompok yang terbentuk dari implementasi algoritme DIG. Jalur asiklik pada digraf menunjukkan keterkaitan kata yang sering muncul di beberapa dokumen, dan jalur siklik menunjukkan ada beberapa kata yang sama yang muncul pada sebuah dokumen. Langkah selanjutnya adalah menganalisis tingkat akurasi dari pencarian dan temu kembali informasi dengan menghitung nilai precision, recall dan accuracy hasil pengelompokan pada 20 dokumen uji. Hasil perhitungan ditampilkan pada Tabel 6. Tabel 6 Perhitungan precision, recall dan accuracy pada 20 dokumen Cluster result
Search result
TP
FP
FN
TN
Precision
Recall
Accuracy
Year
30
39
20
9
10
196
69%
67%
92%
billion
28
28
20
0
8
205
100%
71%
97%
Stock
26
31
20
5
6
200
80%
77%
95%
bankamerica
26
28
20
2
6
203
91%
77%
97%
quarter
25
29
20
4
5
201
83%
80%
96%
company
25
27
20
2
5
203
91%
80%
97%
Sales
23
23
20
0
3
205
100%
87%
99%
sumofcluster
183
meanofprecision
87,73%
sumofsearch
205
meanofrecall
76,99%
numofdocs
20
meanofaccuracy
96,00%
Node
Dari tabel di atas dapat dikatakan bahwa implementasi algoritme DIG pada pengelompokan sebanyak 20 dokumen menghasilkan nilai precision sebesar 87,73%, nilai recall sebesar 76,99% dan memiliki tingkat akurasi yang sangat baik yakni 96%. Hasil perhitungan untuk 25, 50 dan 100 dokumen lainnnya menunjukkan kecenderungan penurunan untuk nilai precision dan recall akan tetapi kecenderungan peningkatan untuk nilai accuracy (dapat dilihat pada Lampiran 3, Lampiran 4, Lampiran 5). Gambar 10 menunjukkan grafik perbandingan ukuran precision, recall dan accuracy terhadap 20, 25, 50 dan 100 dokumen.
20
Gambar 10 Grafik nilai precision, recall dan accuracy pada dokumen uji Gambar 10 menunjukkan metode DIG memiliki nilai precision, recall dan accuracy lebih dari 70% sehingga dapat dikatakan metode DIG memberikan hasil yang baik dalam pengelompokan dokumen REUTERS.