BAB 1 PENDAHULUAN
1.1 Latar Belakang Masalah Weblog, atau yang sering disebut sebagai Blog, merupakan bagian tak terpisahkan dalam perkembangan dunia teknologi informasi berbasis Web. Berbagai jenis informasi banyak beredar pada Blog, seiring dengan pertambahan layanan dan perkembangan teknologinya. Dengan semakin bertambahnya jumlah informasi yang beredar pada Blog, maka wajar jika dibutuhkan layanan yang dapat mengklasifikasikan berbagai macam informasi yang bertebaran dalam bentuk artikel, ke dalam kategori atau topik tertentu yang jelas dasar pengklasifikasiannya. Pengklasifikasian terhadap berbagai informasi menjadi suatu hal yang penting, karena dengan meningkatnya jenis dan jumlah informasi dengan tidak disertai proses klasifikasi yang mempunyai dasar struktur yang jelas, akan memungkinkan munculnya kejadian sebagai berikut : •
Jika suatu saat seseorang menginginkan suatu informasi dari kumpulan informasi yang tidak diklasifikasikan, akan memakan waktu pencarian lebih lama.
•
Meski sumber informasi telah menyatakan bahwa suatu artikel telah mempunyai topik tertentu, namun akan dimungkinkan juga akan terjadi ketidaktepatan pemberian topik tersebut.
•
Meski kategori atau topik yang diberikan sudah dirasa tepat sekalipun, namun tetap masih dimungkinkan ketika ada seseorang lain yang mencari artikel tersebut dalam kelas yang berbeda. Hal ini mungkin terjadi karena dasar pengklasifikasian yang digunakan tidak berlaku secara umum. Dengan melihat masalah yang ada, Penulis ingin mengangkat suatu
pemahaman tentang pentingnya klasifikasi terhadap suatu sumber informasi. Dengan penelitian ini, Penulis berusaha untuk menyediakan suatu sistem yang dapat memberikan sebuah topik dari suatu artikel pada Blog, atau dalam kata lain
1
adalah mengklasifikasikan suatu artikel ke dalam suatu kelas tertentu yang jelas strukturnya. Penelitian mengenai proses klasifikasi ini, akan dilakukan dengan bantuan layanan suatu Open Directory, www.dmoz.org, sebagai dasar sumber pemberian kategori dan penggunaan metode klasifikasi dengan dasar teorema Naive Bayes. Dari kombinasi teknik klasifikasi dan dasar struktur klasifikasi tersebut, diharapkan dengan sistem yang akan dibangun akan ditemukan suatu topik atau kategori dari suatu artikel dari sumber informasi berupa Blog yang mempunyai dasar struktur klasifikasi yang jelas.
1.2 Perumusan Masalah Berdasarkan latar belakang masalah di atas, Penulis akan merancang dan membangun sebuah sistem yang akan melakukan proses klasifikasi terhadap suatu artikel Blog secara otomatis. Masalah yang akan menjadi titik berat penelitian Penulis, dirumuskan sebagai berikut: “Seberapa besar precision yang dihasilkan sistem
dalam
pemanfaatan
metode
klasifikasi
Naive
Bayes
untuk
mengklasifikasikan suatu artikel pada Blog, berdasarkan pencocokan struktur klasifikasi yang ada pada suatu Open Directory (www.dmoz.org), sampai ditemukan suatu topik dari artikel tersebut?”
1.3 Batasan Masalah Untuk menghindari meluasnya pokok bahasan, maka penulis membatasi perumusan masalah sebagai berikut: •
Dokumen yang diproses untuk dilakukan proses penambangan di dalamnya, adalah pada dokumen RSS dari suatu alamat Blog, yang hanya dipilih salah satu artikelnya untuk diproses lebih lanjut.
•
Sistem hanya melakukan penambangan untuk artikel berbahasa Inggris.
•
Untuk studi kasus digunakan: o Topik “video games”, sebagai pokok bahasan yang utama dalam studi kasus. o Struktur klasifikasi yang menggunakan Open Directory Dmoz (www.dmoz.org).
2
o ‘Top / Games / Video_Games’, sebagai sebagai kelas utama pada Open Directory, yang disesuaikan dengan lingkup kasus yang akan dibahas. o Karena di dalam kelas utama masih terdapat banyak subkelas lainnya, maka Penulis membatasi penelitian pada empat subkelas, yaitu: i. ‘Top/
Games/
Video_Games/
Action-Adventure’
(yang
mewakili genre video game ‘Action-Adventure’). ii. ‘Top / Games / Video_Games / Fighting’ (yang mewakili genre video game ‘Fighting’). iii. ‘Top/
Games/
Video_Games/
Music_and_Dance’
(yang
mewakili genre video game ‘Music and Dance’). iv. ‘Top/ Games/ Video_Games/ Sports’ (yang mewakili genre video game ‘Sports’). Di mana, keempat subkelas ini akan menjadi topik dari suatu artikel Blog yang berkaitan dengan “video games”. o Pengambilan
sampel
artikel
dari
Weblog
Wordpress
(www.wordpress.com), dengan memanfaatkan dokumen RSS 2.0 dari Blog sumbernya sebagai sumber penambangan artikel. •
Update data untuk pembentukan data pelatihan dilakukan secara manual, yaitu dilakukan dengan mengunduh data content RDF yang sudah disediakan oleh Open Directory Dmoz (www.dmoz.org).
•
Pemotongan dokumen content RDF dan pemilihan data terhadap kelas yang bersangkutan dilakukan secara manual, namun setelah diperoleh struktur kelas dan isinya, semua proses dilakukan oleh otomatisasi sistem.
•
Atribut data yang digunakan sebagai data pelatihan berupa kategori, judul, deskripsi, dan isi dari setiap website dari metadata yang ada dalam RDF yang diperoleh dari Open Directory Dmoz (www.dmoz.org).
•
Proses transformasi teks menggunakan metode Porter Stemmer untuk proses stemming dan penggunaan stopword untuk proses stopword removal.
•
Sistem melakukan pembobotan dokumen, di mana dalam kasus ini yang dainggap sebagai sebuah dokumen berupa sebuah website, dengan menggunakan algoritma pembobotan TF-IDF.
3
•
Bentuk keluaran sistem adalah label berupa topik atau kategori berdasarkan hasil klasifikasi sistem.
•
Sistem dibangun dalam bentuk aplikasi Web yang diuji pada jaringan lokal.
•
Sistem dibangun dengan dasar pembuatan sistem sebagai bahan penelitian, sehingga tidak ada pembatasan kinerja akses.
1.4 Hipotesis Penggunaan metode klasifikasi Naive Bayes, dengan pemanfaatan data pelatihan dari Open Directory Dmoz (www.dmoz.org) dapat mengklasifikasikan suatu artikel yang berupa teks, kepada kelas atau topik tertentu dengan nilai precision di atas 60%.
1.5 Tujuan Penelitian Melalui penelitian ini, maka beberapa tujuan yang ingin dicapai oleh penulis adalah: •
menghasilkan sistem klasifikasi Blog dengan presisi di atas 60%.
•
mempermudah pengguna dalam otomatisasi pemberian topik/kategori pada artikel Blog.
1.6 Metodologi Penelitian Metodologi yang digunakan pada penelitian ini adalah : •
Studi pustaka dan literatur Studi pustaka dilakukan dengan mempelajari sumber-sumber pustaka yang berkaitan dengan proses penambangan data (dari preprocessing hingga diperoleh data siap proses klasifikasi), pemahaman mengenai algoritma klasifikasi Naive Bayes, dan proses-proses yang mendukung hingga dapat tercapai klasifikasi dengan harapan pencapaian nilai precision yang tinggi. Sumber-sumber tersebut berupa buku-buku, serta sumber di internet yang dapat dipercaya.
4
•
Observasi Observasi dilakukan pada struktur RDF yang dijadikan sumber terhadap data pelatihan (www.dmoz.org), penggunaan metode
penelitian
klasifikasi Naive Bayes, serta proses-proses yang mendukung klasifikasi dengan metode tersebut. •
Konsultasi dan diskusi Konsultasi dan diskusi dilakukan dengan dosen dan teman-teman yang pernah melakukan penelitian pada bidang yang sama.
1.7 Sistematika Penulisan Sistematika penulisan laporan Tugas Akhir ini dibagi menjadi beberapa bab, yaitu sebagai berikut: Bab 1, Pendahuluan, yang dapat memberikan gambaran umum tentang penelitian. Pendahuluan berisi latar belakang masalah, perumusan masalah, batasan masalah, hipotesis, tujuan penelitian, metodologi penelitian, dan sistematika penulisan. Bab 2, Landasan Teori, yang terdiri dari dua bagian utama, yaitu tinjauan pustaka dan landasan teori. Tinjauan pustaka menguraikan berbagai teori yang diperoleh dan pengungkapan beberapa hasil penelitian yang berkaitan dan pernah dilakukan dari berbagai sumber pustaka. Sedangkan landasan teori memuat penjelasan tentang konsep dan prinsip utama yang diperlukan untuk memecahkan masalah. Bab 3, Perancangan Sistem, yang berisi spesifikasi kebutuhan sistem yang akan dibangun, komponen-komponen yang ada pada sistem (disajikan dalam arsitektur sistem) yang disertai dengan gambaran fungsional sistemnya (disajikan dalam bentuk diagram use case), serta tahapan dalam perancangan dan pembangunan sistem, termasuk aliran data dan rancangan antarmuka form masukan (input) dan form hasil (output) beserta kegunaannya. Bab
4,
Implementasi
dan
Analisis
Sistem,
membahas
tentang
implementasi perancangan sistem yang dibuat pada Bab 3, serta disertai analisis
5
dan hasil capture dari sistem yang dibuat, yang dilakukan dengan pengujian dengan beberapa set data. Bab 5, Kesimpulan dan Saran, bersisi kesimpulan dari hasil penelitian yang dilakukan serta memberikan saran untuk penelitian ke depan agar dapat memberikan hasil yang lebih baik lagi.
6