BAB I PENDAHULUAN
1.1. Latar Belakang Masalah Kemajuan teknologi informasi yang pesat beberapa dekade yang terakhir telah menyebabkan peralihan penyimpanan dan pertukaran informasi yang sebelumnya secara tertulis di atas kertas menjadi bentuk digital yang disimpan dalam media penyimpanan komputer. Akses yang mudah, ruang penyimpanan yang memerlukan sedikit tempat, reproduksi/distribusi yang murah dan mudah, dan juga media penyimpanan yang relatif murah dan tahan lama telah membuat maraknya penggunaan informasi digital. Karena kemudahan yang diperoleh dari penggunaan teknologi informasi digital ini, maka terjadilah apa yang disebut dengan “ledakan” informasi dimana siapa saja dapat menulis dan menyimpannya dalam bentuk digital. Hal ini menimbulkan sampah informasi. Sebelumnya hal ini tidak terjadi karena informasi dibuat oleh pengarang atau ahli dan harus melalui tahap penyeleksian materi yang ketat, penyuntingan naskah oleh editorial, ulasan buku oleh pakar untuk
penyempurnaan
buku
dan
akhirnya diterbitkan.
Jadi
diperlukan
penyaringan/seleksi terhadap informasi yang ada. Penyaringan atau klasifikasi informasi dapat dilakukan secara manual ataupun otomatis oleh komputer. Melihat pertumbuhan informasi, khususnya dokumen online, yang juga begitu cepat seperti halnya dokumen di internet, pertumbuhan ukuran kapasitas digital libraries, data rumah sakit, dan lainnya, dimana dokumen-dokumen ini selanjutnya akan menjadi data dominan yang tersedia secara online, maka penyaringan secara manual pasti lebih sulit dilakukan. Sebagai contoh pada kasus newsgroup ataupun papan diskusi, tentu akan sulit bagi manusia untuk mengolah dan menentukan atau mengategorikan suatu dokumen termasuk dalam topik yang mana jika terdapat ratusan bahkan ribuan dokumen. Dan hal ini tentu akan menghabiskan banyak tenaga, biaya
maupun waktu dan kemungkinan besar dapat terjadi kesalahan kategorisasi. Untuk itu diperlukan suatu otomatisasi kategorisasi teks untuk mempermudah manusia dalam mencari dan menganalisa informasi yang terdapat dalam sumber yang kian membesar ini. Walaupun ada kemungkinan kualitas informasi yang diperoleh tidak sebaik jika dilakukan secara manual.
1.2. Rumusan Masalah Clustering dokumen teks adalah proses menentukan cluster suatu dokumen teks tertentu. Dengan kata lain, clustering dokumen teks menentukan cluster suatu teks, termasuk cluster yang manakah suatu dokumen teks tertentu. Clustering dokumen teks secara otomatis merupakan proses yang penting yang dapat membantu manusia untuk mengatasi kesulitan clustering dokumen teks secara manual. Dari latar belakang yang telah dikemukakan diatas, maka akan dirumuskan suatu masalah yaitu: Bagaimana cara membangkitkan cluster-cluster dari sekumpulan dokumen teks yang sudah ada? Program clustering dengan metode TF-IDF dan K-Means ini akan menerima banyak dokumen teks yang kemudian akan diclusterkan. Metode TFIDF digunakan untuk menentukan bobot kata di tiap dokumen sedangkan KMeans digunakan untuk mengclusterkan semua dokumen yang ada ke dalam cluster yang sesuai.
1.3. Batasan Masalah 1. Input yang diterima sistem adalah file teks biasa berbahasa Inggris ( berekstensi .txt). 2. Sistem menangani proses case folding dan penghilangan stop word. 3. Sistem menggunakan metode TF-IDF dan K-Means serta dibangun dengan menggunakan Microsoft Visual Basic 6 dan Microsoft Access.
1.4. Tujuan Penulisan Adapun tujuan penulisan Tugas Akhir ini adalah :
1. Sebagai salah satu syarat kelulusan untuk memperoleh gelar S.Kom. pada Fakultas Teknik Program Studi Teknik Informatika Universitas Kristen Duta Wacana. 2. Melihat kemampuan metode TF-IDF dan K-Means dalam mengclusterkan dokumen teks dan bagaimana arah pengembangannya di masa depan.
1.5. Spesifikasi Sistem Untuk mendukung kelancaran dalam pengembangan penelitian, maka diperlukan hardware dan software yang mendukung, antara lain : ¾ Kebutuhan minimal Hardware 1. Processor Pentium III 866 MHz 2. Memori 256 MB 3. Monitor yang mendukung SVGA ( resolusi 1024 x 768 ), mouse dan keyboard 4. Hardisk dengan kapasitas 10 GB ¾ Kebutuhan minimal Software 1. Sistem operasi Microsoft Windows XP 2. Microsoft Visual Basic 6.0 3. Microsoft Access ¾ Kebutuhan Brainware 1. Pengguna dari sistem adalah pengguna yang dapat mengoperasikan sistem operasi Microsoft Windows NT/ Microsoft Windows 2000/ XP Profesional dan memahami pengoperasian sistem yang dibuat serta penganalisaan keluaraan yang dihasilkan. 2. Pengembangan sistem dapat dilakukan oleh pengguna yang menguasai Microsoft Visual Basic 6.0, Microsoft Access, menguasai konsep dan perancangan basis data, dan mengerti konsep clustering dokumen teks dengan metode TF-IDF dan K-Means.
1.6. Metodologi Penelitian Metode yang digunakan dalam Penelitian Tugas Akhir ini antara lain: 1. Penelitian pustaka Dilakukan dengan studi pustaka / literatur dengan menggunakan bukubuku yang mendukung proses pelaksanaan Tugas Akhir, dan pencarian informasi melalui internet untuk membantu membangun sistem. 2. Penelitian lapangan Melakukan pengumpulan data pelatihan melalui internet. Pengamatan dan studi tentang kebutuhan-kebutuhan yang mendasar untuk pembangunan sistem. 3. Penelitian laboratorium Pemrograman, pengujian dan perbaikan kesalahan, desain tatapmuka software yang berlangsung di laboratorium.
1.7. Sistematika Penulisan Sistematika laporan tugas akhir ini secara garis besar dapat dituliskan sebagai berikut : BAB 1 : PENDAHULUAN Berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan penulisan, spesifikasi sistem, metodologi penulisan, dan sistematika penulisan. BAB 2 : LANDASAN TEORI Berisi teori-teori yang melatar belakangi penulisan tugas akhir ini, yaitu berupa teori-teori tentang informasi retrieval dan data mining khususnya metode TF-IDF dan K-Means. BAB 3 : PERANCANGAN SISTEM Berisi perancangan sistem secara keseluruhan dari pembuatan tugas akhir ini yakni meliputi perancangan terhadap sistem clustering dokumen teks.
BAB 4 : IMPLEMENTASI DAN ANALISIS SISTEM Berisi uraian implementasi dan analisis sistem dalam bentuk program yang dibuat.
BAB 5 : KESIMPULAN DAN SARAN Berisi kesimpulan dari tugas akhir ini, saran atas hasil dari program yang dibuat dan pengembangannya pada masa yang akan datang.