BAB I PENDAHULUAN
1.1 Latar Belakang Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari internet ataupun milik pribadi juga semakin berkembang. Permasalahan utama adalah bagaimana memperoleh informasi yang dibutuhkan dari dokumendokumen di internet. Dari permasalahan tersebut dikembangkan web search engine yang membantu user mencari dokumen yang dibutuhkan. Saat user memasukan keyword, hasil pencarian akan berupa daftar dokumen-dokumen berdasarkan tingginya jumlah peringkat masing-masing dokumen. Tetapi diantara dokumen-dokumen dalam daftar tersebut belum tentu terdapat dokumen yang diinginkan user. Dari permasalahan di atas, dikembangkan metode pengelompokan dokumen. Pengelompokan dokumen ini bertujuan untuk mengelompokan dokumen yang merepresentasikan satu topik tertentu. Dengan metode ini, user akan menemukan dokumen yang dibutuhkan dengan memilih salah satu kelompok dokumen yang berisi dokumen yang dibutuhkan pengguna tersebut. Pengelompokan dokumen ini juga dapat meningkatkan performansi dan akurasi dari web search engine. Munculnya ide pengelompokan dokumen ini mendorong munculnya berbagai algoritma untuk mengelompokan dokumen. Algoritma-algoritma tersebut
13
14
diantaranya adalah K-Means, Clustering Based on Frequent Word Sequence (CFWS), Naïve Bayes Classifier (NBC) dan Minor Component Analysis. K-Means merupakan algoritma yang membagi sekumpulan data atau objek kedalam k kelompok sehingga anggota yang berada pada kelompok yang sama memiliki karakteristik yang sama dan memiliki perbedaan karakteristik dengan anggota yang berada pada kelompok lain (Han, Jiawei. 2006 : 402). Algoritma ini dapat menghasilkan cluster atau kelompok dengan proses yang cepat dan dinilai cukup efisien yang ditunjukan dengan kompleksitasnya. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal ( Andayani, Sri. 2007 : 5). Sedangkan algoritma CFWS merupakan algoritma untuk pengelompokan dokumen berdasarkan kata-kata berurutan yang berulang atau frequent word sequence (Li, Yanjun, Soon M, Chung dan Holt, John D. 2008 : 3). Algoritma ini dapat mengurangi dimensi yang besar pada teks dengan cara membuang kata-kata yang tidak berulang (Beil, Florian, Ester, Martin dan Xu, Xiaowei. 2002 : 2). Pada penelitian ini, dibandingkan algoritma K-Means dan CFWS untuk mendapatkan kumpulan cluster yang bagus. Algoritma K-Means dan CFWS merupakan dua algoritma yang mengelompokan dokumen secara otomatis dan tidak
membutuhkan
data
pelatihan
dalam
(unsupervised learning) (Han, Jiawei. 2006 : 384).
mengelompokan
dokumen
15
1.2 Rumusan Masalah Rumusan masalah dari penelitian ini adalah: 1. Bagaimana membangun perangkat lunak yang dapat mengelompokan dokumen bahasa Indonesia. 2. Sejauh mana algoritma CFWS dan K-Means dapat digunakan untuk mengelompokan dokumen berbahasa Indonesia. 3. Bagaimana menguji algoritma CFWS untuk mengelompokan dokumen dibanding algoritma K-Means dengan berpatokan pada kelas-kelas dokumen yang dikelompokan secara manual.
1.3 Tujuan Tujuan yang ingin dicapai dalam skripsi ini adalah membangun perangkat lunak pengelompokan dokumen bahasa Indonesia dengan menerapkan algoritma CFWS dan K-Means serta membandingkan akurasi dan kemurnian cluster antara kedua algoritma tersebut. Adapun rincian dari tujuan tersebut yaitu: 1.
Memahami serta mengetahui ketepatan dalam menggunakan algoritma CFWS dan K-Means untuk mengelompokan dokumen.
2.
Memahami pembangunan perangkat lunak pengelompokan dokumen bahasa Indonesia.
3.
Membandingkan nilai F-Measure dan Purity antara cluster dari algoritma CFWS dengan algoritma K-Means serta mengetahui keunggulan antara kedua algoritma tersebut dilihat dari nilai F-Measure dan Purity.
16
1.4 Batasan Masalah Dalam pembuatan skripsi ini, diterapkan beberapa batasan masalah yaitu: 1. Algoritma yang digunakan adalah CFWS dan K-Means. 2. Dokumen yang digunakan adalah berita berbahasa Indonesia yang didapat dari www.kompas.com yang diambil secara acak. 3. Pengujian dilakukan dengan membandingkan nilai F-Measure dan Purity antara cluster dari algoritma CFWS dengan K-Means yang dihitung berdasarkan kelas-kelas dokumen yang dikelompokan secara manual. 4. Kelas-kelas dokumen yang dikelompokan secara manual merupakan patokan kelompok atau cluster yang dianggap ideal. 5. Kelas-kelas dokumen yang dikelompokan secara manual merupakan kumpulan dokumen pada dataset yang digunakan juga sebagai bahan penelitian pada skripsi ini dan dikelompokan secara manual berdasarkan kesamaan topik.
1.5 Metode Penelitian Metode penelitian pada skripsi ini yaitu, 1. Metode Pengambilan Data Metode pengambilan data pada skripsi ini menggunakan metode studi pustaka. Data diperoleh melalui literature, textbook, jurnal, paper, dan skripsi yang menunjang penelitian ini.
17
2. Metode Pengembangan Perangkat Lunak Metode pengembangan perangkat lunak menggunakan metode Rational Unified Process (RUP). Pada metode ini terdapat empat phase atau tahapan yaitu Inception Phase, Elaboration Phase, Construction Phase, dan Transition Phase.
1.6 Sistematika Penulisan Sistematika dalam penyusunan skripsi adalah sebagai berikut: Bab I Pendahuluan Berisi latar belakang, rumusan masalah, tujuan, batasan masalah, metode penelitian serta sistematika pembahasan yang digunakan dalam penyusunan skripsi. Bab II Tinjauan Pustaka Berisi dasar teori yang digunakan dalam analisis, perancangan dan implementasi perangkat lunak. Bab III Metodologi Penelitian Berisi tentang teknis pelaksanaan penelitian berupa alat dan bahan penelitian, desain penelitian dan proses penelitian. Bab IV Hasil Penelitian dan Pembahasan Berisi hasil penelitian serta analisis yang dilakukan selama penelitian.
18
Bab V Kesimpulan dan Saran Berisi kesimpulan yang didapat selama penelitian dan saran-saran dalam meningkatkan kualitas dan kuantitas hasil penelitian. Lampiran Berisi dokumen-dokumen yang menunjang keabsahan penelitian ini.