BAB 1 PENDAHULUAN
1.1
Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi
mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama dan referensi pendukung dari matakuliah tersebut. Perpustakaan adalah bagian yang penting dari suatu Universitas karena menyediakan buku-buku referensi untuk tiap matakuliah. Kesulitan yang terjadi adalah ketika perpustakaan harus
mengidentifikasi
buku-buku
referensi
tersebut
sesuai
dengan
matakuliahnya. Ada beberapa buku yang sering dijadikan referensi bersama atas beberapa matakuliah. Ada juga buku-buku yang dijadikan referensi tunggal suatu matakuliah, tetapi bahasan materi matakuliah yang bersangkutan tidak dibahas secara optimal dalam buku referensi tersebut. Seringkali judul suatu buku dijadikan gambaran umum mengenai isi suatu buku, padahal isi dari buku tersebut dapat jadi menjelaskan hal yang lain. Daftar isi buku merupakan gambaran khusus dari isi suatu buku. Dari melihat daftar isi, dapat diketahui materi-materi apa saja yang dibahas dalam buku tersebut. Pada penelitian ini akan dilakukan pengklasifikasian buku-buku referensi berdasarkan silabus matakuliah dengan memanfaatkan informasi dari buku berupa daftar isi. Proses klasifikasi akan dilakukan menggunakan metode Naive Bayesian Classifier (NBC).
1.2
Hipotesis Dalam penelitian ini akan digunakan metode klasifikasi Naive Bayesian
Classifier (NBC) yang menggunakan teori probalilitas untuk melakukan klasifikasi daftar isi buku referensi berdasarkan vector yang dibentuk dari silabus matakuliah.
1
1.3
Perumusan Masalah Dalam
mengkategorikan
buku-buku
referensi
sebagai
pendukung
matakuliah tertentu atau beberapa matakuliah tertentu maka penelitian ini berfokus pada beberapa hal yaitu : 1. Bagaimana melakukan klasifikasi yang berdasarkan silabus matakuliah dengan menggunakan informasi dari buku berupa daftar isi? 2. Bagaimana akurasi klasifikasi yang dilakukan berdasarkan pembobotan vektor yang diperoleh dari cocok tidaknya frase tersebut dengan tabel vektor? 3. Bagaimana melakukan klasifikasi terhadap buku yang dijadikan referensi bersama untuk beberapa matakuliah? 4. Bagaimana akurasi dari metode Naïve Bayesian Classifier dalam melakukan klasifikasi pada kasus penentuan buku referensi menggunakan data berupa daftar isi buku?
1.4
Batasan Masalah Untuk melakukan penelitian ini, maka ada beberapa batasan masalah yang
dilakukan yaitu : 1. Sistem yang dibuat merupakan sistem yang bersifat hanya memberi saran tetapi bukan sistem pembuat keputusan. Saran yang diberikan merupakan hasil dari perhitungan metode Naïve Bayesian Classifier (NBC). 2. Data penelitian yang dipakai adalah silabus matakuliah dan daftar isi (table of content) buku referensi berbahasa Inggris. 3. Input sistem berupa file berekstensi .txt 4. Data training yang digunakan berjumlah 225 dokumen. Data test yang digunakan berjumlah 100 dokumen dan 2 dokumen untuk test buku referensi bersama. 5. Silabus matakuliah yang dipakai terbatas pada Panduan Akademik 2006-2007 Program Studi Teknik Informatika Universitas Kristen Duta Wacana Yogyakarta yaitu sebanyak 45 matakuliah yaitu 8 matakuliah Konsentrasi Rekayasa Sistem Komputer, 8 matakuliah Konsentrasi Sistem Komunikasi
2
dan Jaringan, 8 matakuliah Konsentrasi Sistem Rekayasa Perangkat Lunak, 16 matakuliah Pilihan Bebas, dan 5 matakuliah Wajib. 6. Daftar matakuliah yang digunakan dalam penelitian ini dapat dilihat pada Lampiran-A. 7. Data frase yang digunakan merupakan data frase IT (Information System) berbahasa Inggris yang diambil dari tiap-tiap silabus matakuliah. Masing-masing matakuliah diambil 5 frase unik yang mewakili materi matakuliah. 8. Sistem tidak melakukan penambahan, pengeditan ataupun penghapusan kategori. 9. Sistem tidak melakukan stemming, pembuangan stopword, dan feature selection. 10. Sistem dibuat menggunakan bahasa pemrograman Microsoft Visual Basic.NET 2005 dan database Microsoft Access 2003.
1.5 Tujuan Penelitian Penelitian ini bertujuan untuk mendapatkan hasil klasifikasi buku referensi berdasarkan silabus matakuliah dengan menggunakan informasi berupa daftar isi buku. Berdasarkan hasil penelitian ini diharapkan dapat menghasilkan penerapan text mining berupa sistem yang mampu memberi saran mengenai penentuan buku referensi matakuliah pada Prodi Teknik Informatika. 1.6
Metode/Pendekatan Metode atau pendekatan yang digunakan dalam proses penelitian adalah :
1. Pengumpulan bahan referensi Pengumpulan bahan referensi dari sumber internet (artikel, slide presentasi, ebook, jurnal ilmiah, makalah, dan lain-lain) serta studi pustaka dengan cara mempelajari buku-buku literatur dari permasalahan yang dibahas. 2. Pengumpulan data penelitian Dokumen yang digunakan sebagai data penelitian adalah • Silabus matakuliah yang berisi deskripsi dan materi-materi matakuliah
3
yang diambil dari buku Panduan Akademik 2006-2007 Program Studi Teknik Informatika Universitas Kristen Duta Wacana Yogyakarta. Matakuliah yang dipakai berjumlah 45 matakuliah yang kemudian digunakan sebagai kategori. Selanjutnya dari silabus matakuliah tersebut diambil 5 frase unik yang
mewakili
materi
matakuliah
untuk
digunakan sebagai tabel frase. Frase-frase tersebut diperoleh dengan metode wawancara dan diobservasi manual. • Data training berupa daftar isi buku referensi yang diambil dari referensi 45 matakuliah. Daftar isi buku-buku referensi tersebut diperoleh dari buku-buku yang ada di Perpustakaan Universitas Kristen Duta Wacana dan juga dari katalog-katalog buku di internet. • Data test berupa daftar isi buku referensi yang diambil dari katalogkatalog buku di internet. Daftar isi buku yang digunakan merupakan buku-buku yang berhubungan dengan 45 matakuliah yang dipakai dalam penelitian. 3. Ekstraksi dokumen Proses ekstraksi yang dikenal dengan frase tokenization (tokenisasi) ini bertujuan untuk menghasilkan frrase yang akan digunakan sebagai prototype bagi setiap dokumen. Setelah proses tokenization kemudian dilakukan pencocokan terhadap frase-frase yang terdapat dalam silabus. Pengenalan ini dilakukan dengan pencocokan terhadap daftar frase. Setelah itu dilakukan pembobotan dilakukan menggunakan nilai 0 dan 1 untuk menunjukkan ada atau tidaknya frase yang bersangkutan pada silabus tiap kategori. 4. Klasifikasi Proses Klasifikasi menggunakan metode Naive Bayes Clasifier (NBC). 5. Evaluasi Pendekatan yang digunakan untuk melakukan evaluasi adalah dengan melihat efektivitas metode Naive Bayes Clasifier (NBC) dalam melakukan klasifikasi. Tingkat keakuratan klasifikasi dihitung menggunakan parameter presisi.
4
1.7
Sistematika Penulisan Laporan Tugas Akhir ini dibagi dalam lima bab dengan penjelasan sebagai
berikut: BAB 1: PENDAHULUAN Berisi latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, metode penelitian, dan sistematika penulisan. BAB 2: TINJAUAN PUSTAKA Tinjauan pustaka terdiri dari dua bagian utama, yakni tinjauan pustaka dan landasan teori. Tinjauan pustaka menguraikan berbagai teori yang mendukung penelitian yaitu teori tentang Data Mining dan Text Mining. Landasan teori memuat penjelasan tentang konsep dan prinsip utama yang diperlukan dalam penelitian yaitu teori tentang metode Naive Bayes Classifier. BAB 3: ANALISIS DAN PERANCANGAN SISTEM Bab ini membahas terdiri atas 2 bagian utama yaitu analisis data dan perancangan sistem. Analisis data menguraikan mengenai analisa data yang dipakai dalam penelitian. Perancangan sistem terdiri atas 3 bagian yaitu perancangan input, perancangan proses dan perancangan output. Perancangan input menguraikan tentang perancangan data input yang dipakai dalam penelitian. Perancangan proses menguraikan tentang proses yang terjadi dalam sistem yaitu Use Case Diagram dan Flowchart. Perancangan output menguraikan tentang tampilan sistem, hasil yang dihasilkan sistem, form-form yang dipakai dalam sistem, dan visualisasi grafik. BAB 4: IMPLEMENTASI DAN ANALISIS SISTEM Bab ini membahas hasil riset/implementasi dan analisis dari penelitian yang dilakukan. BAB 5:
KESIMPULAN DAN SARAN Bab ini menjabarkan kesimpulan dari hasil analisis penelitian serta saran-saran untuk kegiatan riset kedepannya.
5