PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN KLASIFIKASI NAIVE BAYES
MIRA DELLA RAHMA NASUTION
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2013 Mira Della Rahma Nasution NIM G64104037
ABSTRAK MIRA DELLA RAHMA NASUTION. Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes. Dibimbing oleh JULIO ADISANTOSO. Penelitian ini membahas tentang klasifikasi nomor panggil otomatis yang mengklasifikasikan dokumen perpustakaan sesuai dengan skema klasifikasi Dewey decimal classification (DDC). Tujuan penelitian ini adalah menentukan nomor panggil dokumen perpustakaan secara otomatis dengan kelas berbasis DDC menggunakan metode klasifikasi naive Bayes. Penelitian ini dibangun dengan menerapkan kosakata terkendali untuk mengetahui kelas DDC dari setiap dokumen. Dokumen yang digunakan dalam penelitian ini sebanyak 190 dokumen yang terdiri atas 114 dokumen latih dan 76 dokumen uji. Pemilihan fitur yang digunakan adalah information gain. Hasil dari pemilihan fitur akan digunakan sebagai dasar dalam pembuatan model klasifikasi. Dalam pembuatan model klasifikasi dilakukan penghitungan similarity menggunakan Natural Language ToolKit (NLTK) antara token hasil dari proses pemilihan fitur dengan token yang terdapat pada kosakata terkendali. Akurasi yang dihasilkan dalam penerapan metode klasifikasi naive Bayes dengan penggunaan stemming sebesar 45.26% dan akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%. Kata kunci: Dewey decimal classification, information gain, klasifikasi naive Bayes, kosakata terkendali, Natural Language ToolKit
ABSTRACT MIRA DELLA RAHMA NASUTION. Automatic Call Number Classification Based on DDC for Library Document using Naive Bayes Classification. Supervised by JULIO ADISANTOSO. This research discusses automatic call number classification for library document with Dewey decimal classification (DDC) scheme. The goal of this research is to determine the call number of library document automatically based on DDC using naive Bayes classification. This research uses control vocabulary to determine DDC class of each document. Documents used in this are 190 documents with 114 training documents and 76 testing documents. This research uses information gain for feature selection. Result of the feature selection will be used as a reference in modelling classification. In modelling classification, a similarity calculation between results of token feature selection processing and control vocabulary using Natural Language ToolKit (NLTK) is performed. The accuracy obtained in the application of the naive Bayes method with the use of stemming is 45.26% and the non-stemming is 44.21%. Keywords: Dewey decimal classification, information gain, naive Bayes classification, control vocabulary, Natural Language ToolKit
PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN KLASIFIKASI NAIVE BAYES
MIRA DELLA RAHMA NASUTION
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013
Penguji: 1 Sony Hartono Wijaya, SKom MKom 2 Mushtofa, SKom MSc
Judul Skripsi : Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes Nama : Mira Della Rahma Nasution NIM : G64104037
Disetujui oleh
Ir Julio Adisantoso, MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen Ilmu Komputer
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2012 ini ialah klasifikasi, dengan judul Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes. Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso, MKom selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian ini berlangsung. Terima kasih juga penulis ucapkan kepada Bapak Sony Hartono Wijaya, SKom MKom dan Bapak Musthafa, SKom MSc selaku dosen penguji dari penulis yang telah bersedia memberikan pengarahan, saran, dan kritik kepada penulis pada saat sidang kelulusan dilaksanakan. Ungkapan terima kasih juga disampaikan kepada ibu, kakak, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Teman-teman Ilkom angkatan 5, Wahyu Dias, Dealis Hendra, dan Ahmad Somadi selaku teman seperjuangan bimbingan. Terima kasih atas persaudaraan, semangat dan kebersamaannya selama ini. Andri Setyawan terima kasih atas kesabaran, pengertian, dan bantuan yang selama ini diberikan kepada penulis. Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Juni 2013 Mira Della Rahma Nasution
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
3
Manfaat Penelitian
3
Ruang Lingkup Penelitian
3
METODE PENELITIAN
3
Pengumpulan Dokumen
5
Praproses Dokumen
5
Pengindeksan
6
Natural Language ToolKit
8
Klasifikasi Naive Bayes
9
Evaluasi
10
Lingkungan Pengembangan
11
HASIL DAN PEMBAHASAN
11
Pengumpulan Dokumen
11
Praproses Dokumen
11
Pemilihan Fitur
12
Natural Language ToolKit
13
Pengujian Kinerja Sistem
14
SIMPULAN DAN SARAN
17
Simpulan
17
Saran
17
DAFTAR PUSTAKA
18
LAMPIRAN
19
RIWAYAT HIDUP
26
DAFTAR TABEL 1 2 3 4 5 6 7 8
Banyaknya dokumen dengan kata t dalam kelas c Kontingensi evaluasi set pengambilan dokumen Dokumen tesis dan disertasi perpustakan IPB Kelas utama DDC Kelas divisi DDC Kelas section DDC Contoh hasil penghitungan similarity Hasil akurasi setiap dokumen kelas DDC berdasarkan pengaruh stemming
8 10 12 13 13 13 14 16
DAFTAR GAMBAR 1 Diagram alur tahap penelitian 2 Format koleksi dokumen 3 Diagram alur proses pembentukan model klasifikasi
4 5 15
DAFTAR LAMPIRAN 1 Daftar stopword yang digunakan dalam tahapan praproses 2 Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa menggunakan stemming 3 Contoh distribusi sebaran penciri dokumen pada setiap DDC 4 Confusion matrix hasil klasifikasi naive Bayes menggunakan stemming 5 Confusion matrix hasil klasifikasi naive Bayes tanpa menggunakan stemming 6 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi menggunakan stemming 7 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi tanpa menggunakan stemming
19 20 21 22 23 24 25
21
PENDAHULUAN Latar Belakang Dokumen perpustakaan berbasis digital saat ini sudah sangat banyak, baik di perpustakaan umum maupun perpustakaan institusi. Dalam pengelolaan dokumen perpustakaan, baik digital maupun tertulis dilakukan klasifikasi terhadap dokumen tersebut agar dokumen lebih mudah dicari kembali. Saat ini koleksi dokumen di perpustakaan pada umumnya diolah menggunakan sistem DDC (Dewey decimal classification) untuk pengklasifikasiannya, dan menggunakan CAB thesaurus untuk membantu memutuskan kelas yang sesuai dengan subjek dokumen tersebut. Penentuan nomor panggil dokumen dilihat dari berbagai sudut, antaralain dari sudut materi bacaan. Walaupun sudah menggunakan DDC dan CAB thesaurus, namun dalam pelaksanaannya masih manual yang berdampak pada lamanya pengolahan dokumen (Setyawan 2012). Hal ini juga berdampak pada lamanya dokumen terdaftar dalam perpustakaan. Klasifikasi terdiri atas dua jenis, yaitu klasifikasi berbasis teks dan klasifikasi berbasis kosakata terkendali. Klasifikasi berbasis teks merupakan klasifikasi yang banyak digunakan pada klasifikasi dokumen web, sedangkan klasifikasi berbasis kosakata terkendali merupakan klasifikasi dengan penempatan kata sebagai skema klasifikasi yang berbeda dan juga memiliki karakteristik yang berbeda dari tingkat hierarki (Hasugian 2006). Kosakata terkendali merupakan koleksi kata atau kode yang sudah tersedia untuk digunakan pada pengindeksan sistem. Perbedaan mendasar klasifikasi berbasis teks dengan klasifikasi berbasis kosakata terkendali adalah klasifikasi berbasis teks dibangun secara manual dan tidak memiliki kontrol bahasa sehingga sering terjadi kesalahan dalam penempatan kelas dokumen. Sedangkan klasifikasi berbasis kosakata terkendali memiliki perangkat untuk mengontrol masalah polisemi, sinonim, dan homonim (Golub 2006). Keunggulan dari penggunaan kosakata terkendali mempunyai representasi dokumen yang konsisten. Kosakata atau istilah yang digunakan dalam pengindeksan dokumen pada saat input ke sistem adalah kosakata yang terkendali dan standar. Oleh karena itu, bila kosakata tersebut dijadikan sebagai kueri untuk pencarian atau penelusuran, maka sudah pasti akan tetap mewakili dan merepresentasikan dokumen yang sama seperti pada saat input sistem dilakukan. Demikian juga dengan penentuan nomor panggil, apabila seorang pustakawan ingin menempatkan suatu dokumen dalam rak dengan subjek tertentu, misalnya “microbiology”, maka sistem akan menemukan kelas dokumen karena representasi dokumen tetap konsisten, sehingga kosakata terkendali dapat menjadi acuan dasar dalam pengembangan penentuan nomor panggil berbasis DDC. Ada beberapa sistem klasifikasi utama dokumen perpustakaan yang dikenal di Indonesia, seperti Library of Congress classification (LCC), Dewey decimal classification (DDC), dan universal decimal classification (UDC). Walaupun kadang-kadang digunakan juga klasifikasi menurut keinginan pembaca atau sistem pengelompokan buatan sendiri, pada umumnya perpustakaan lebih sering menggunakan salah satu dari sistem klasifikasi buku utama yang ada, karena sistemnya dikenal luas (Hardjoprakoso 1993). DDC merupakan sebuah sistem
2 klasifikasi yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC adalah DDC 22. DDC termasuk ke dalam sistem klasifikasi hierarki. DDC terdiri atas dua bagian yaitu kelas dan keterangan (Hardjoprakoso 1993). DDC dituliskan dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua menunjukkan kelas divisi, dan angka ketiga menunjukkan kelas section. Kelas utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti 110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC memerlukan penentuan subjek dokumen fokus disiplin dokumen, atau jika diperlukan pendekatan dari bentuk dokumen (Mortimer 2000). Setiap dokumen perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas yang ada pada sistem DDC. Penelitian tentang penentuan nomor panggil otomatis berbasis DDC pada dokumen perpustakaan belum banyak ditemukan. Dalam penelitian Setyawan (2012) diimplementasikan penentuan subjek otomatis berbasis DDC menggunakan metode lin similarity dengan akurasi 20 persen. Metode lin similarity merupakan metode yang sudah tersedia di Natural Languange ToolKit (NLTK) dengan menggunakan brown information content (IC). Metode lin similarity digunakan untuk mencari kemiripan antara dua kata berdasarkan IC dengan menghitung hiponim dari dua kata, dan menggunakan nilai kata pada IC berbeda dengan path similarity yang hanya menghitung jarak antara dua kata. Penelitian berdasarkan kosakata terkendali yang mendasari subjek pada DDC telah banyak dilakukan. Svenonius (2003) mencoba menerapkan desain kosakata terkendali pada DDC menggunakan semantic. Golub (2006) menjelaskan tentang penggunaan kosakata terkendali dalam klasifikasi subjek otomatis pada halaman web tekstual dalam pencarian. Saat ini kosakata terkendali sudah digunakan oleh sejumlah layanan web, terutama yang menyediakan informasi bagi pengguna akademis. Penelitian yang akan dibangun menerapkan kosakata terkendali untuk mengetahui kelas DDC dari setiap dokumen dengan menggunakan klasifikasi naive Bayes. Penelitian ini dibangun dengan harapan dapat membuktikan pernyataan Golub (2006) tentang penggunaan kosakata terkendali berfungsi dengan baik dalam pengindeksan, abstraksi dokumen, dan klasifikasi otomatis tekstual. Penelitian ini juga dibangun dengan harapan dapat memperbaiki sistem yang telah dibangun sebelumnya dan dapat meningkatkan akurasi yang maksimal dari penelitian sebelumnya.
Perumusan Masalah Pertanyaan yang ingin dijawab melalui penelitian ini adalah: 1 Apakah metode klasifikasi naive Bayes dapat diterapkan pada penentuan nomor panggil berbasis DDC? 2 Seberapa baik metode klasifikasi naive Bayes dalam mengklasifikasikan dokumen perpustakaan? 3 Bagaimana pengaruh penggunaan stemming dalam klasifikasi dokumen perpustakaan menggunakan metode klasifikasi naive Bayes?
3 Tujuan Penelitian Penelitian ini bertujuan untuk menentukan nomor panggil dokumen secara otomatis berbasis DDC menggunakan metode kosakata terkendali dan klasifikasi naive Bayes serta menguji relevansi kelas yang dihasilkan dilihat dari segi penentuan oleh pustakawan secara manual dan oleh komputer secara otomatis.
Manfaat Penelitian Manfaat dari penelitian ini adalah membantu tugas pustakawan dalam menentukan nomor panggil DDC dokumen perpustakaan dan mempermudah pengguna dalam mencari informasi tentang buku dengan memberi masukan ke sistem berupa nomor panggil DDC dari suatu buku.
Ruang Lingkup Penelitian 1 2 3 4
Ruang lingkup dalam penelitian ini adalah: Korpus terdiri atas dokumen abstrak tesis dan disertasi IPB berbahasa Inggris dengan format XML. Menempatkan kelas berbasis DDC dalam kosakata terkendali untuk memastikan setiap dokumen memiliki kelas masing-masing. Kelas DDC yang digunakan adalah kelas DDC yang memenuhi kriteria sebagai dokumen latih dan dokumen uji. Penghitungan similarity menggunakan NLTK dengan bahasa pemrograman Python.
METODE PENELITIAN Metode penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1. Data yang akan diproses adalah koleksi dokumen abstrak tesis dan disertasi pada perpustakaan IPB. Input lain yang digunakan adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada tahap praproses. Tahap praproses selanjutnya pada dokumen latih dilakukan proses stemming yaitu proses penghilangan prefiks dan sufiks sehingga kata/token menjadi kata baku. Setelah proses stemming dilakukan pada dokumen latih selanjutnya dilakukan tahapan pemilihan fitur dan pembobotan menggunakan term frequency (tf). Tahap selanjutnya adalah pembuatan model klasifikasi naive Bayes dengan melakukan penghitungan similarity menggunakan fungsi yang tersedia di NLTK. Token yang digunakan dalam penghitungan similarity adalah token hasil dari pemilihan fitur dan token pada kosakata terkendali dalam kelas DDC. Pembuatan model klasifikasi digunakan sebagai dasar untuk melakukan penempatan dokumen latih dalam kelas DDC. Setelah pembuatan model klasifikasi tahapan selanjutnya adalah melakukan klasifikasi pada dokumen uji yang belum diketahui kelasnya. Tahapan ini bertujuan untuk menguji model klasifikasi dalam penempatan dokumen uji pada kelas DDC. Pada tahap akhir,
4 dilakukan evaluasi terhadap kinerja sistem klasifikasi yang dihasilkan. Evaluasi kinerja dari sistem klasifikasi dilakukan dengan menggunakan recall dan precision yang bertujuan untuk mendapatkan persentase ketepatan suatu dokumen masuk ke dalam kelas DDC sesuai dengan kelasnya. Mulai
I Praproses Dokumen Pengumpulan dokumen
DDC
Dokumen latih
Dokumen uji
Kosakata
Pengindeksan
Pengindeksan
Tokenisasi
Tokenisasi
Stemming
Stemming
Pemilihan fitur
Pembobotan
Pembobotan
NLTK
Klasifikasi naive Bayes
II Pengujian
Evaluasi
Selesai
Gambar 1 Diagram alur tahap penelitian
5 Pengumpulan Dokumen Dokumen yang digunakan pada penelitian ini berupa abstrak tesis dan disertasi. Sebanyak 190 dokumen yang diambil secara acak dari repository IPB (http://repository.ipb.ac.id) dan data kelas dokumen diambil dari online access public catalog (OPAC) perpustakaan IPB (katalog.perpustakaan.ipb.ac.id/ senayan3-stable11/). Dokumen yang digunakan berformat XML dengan contoh format dokumen yang terdapat pada Gambar 2. Dokumen dikelompokkan ke dalam tag sebagai berikut:
, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
, tag ini menunjukkan nomor dari koleksi dokumen. <TITLE>, tag ini menunjukkan judul dari dokumen.
, tag ini menunjukkan nama penulis dokumen.
, tag ini menunjukkan abstrak dari dokumen.
, tag ini menunjukkan kata penting dari dokumen. <SUBJECT>, tag ini menunjukkan kelas dari dokumen.
Praproses Dokumen Tahap praproses diawali dengan pembagian dokumen menjadi dua, yaitu dokumen latih dan dokumen uji dengan persentase 60:40 sehingga diperoleh 114 dokumen latih dan 76 dokumen uji. Dokumen latih digunakan sebagai input pelatihan pengklasifikasian naive Bayes, sedangkan dokumen uji digunakan untuk menguji model klasifikasi hasil dari pelatihan sistem klasifikasi.
KORP0001 <TITLE>An Alternative Policy in the Management of Kamali Coast as the Result of Reclamation in the Town of BauBau, which Minimizes the Environmental Impact Faizu, Wadi Afdal The reclamation of Kamali Coast in Bau-Bau was conducted in 2004. This has led to the loss of potential coastal biological resources, especially some of the marine bio-resources, damaged ecosystem of sea grass and coral reefs. It has also caused changes in the landscape (geomorphology) that have an impact on the changes in ocean currents, sedimentation patterns and a shallower estuary of Bau-Bau River. The study was conducted to find appropriate alternative policies, related to the ecosystem management efforts at Kamali Coast resulting from the reclamation in the Town of Bau-Bau, which minimized the environmental impact. It tried to analyze the existing social, economic, and environmental conditions before and after reclamation and used the analytical hierarchy process (AHP). reclamation, coastal, policy <SUBJECT>T 502 FAI a
Gambar 2 Format koleksi dokumen
6 Pengindeksan Pengindeksan merupakan cara untuk mendapatkan istilah-istilah yang dianggap mewakili isi dari dokumen. Pengindeksan dapat dilakukan secara manual atau otomatis. Jika dengan cara manual, dibutuhkan campur tangan manusia yang bertugas untuk memilih istilah-istilah yang terdapat pada dokumen untuk dijadikan penciri dokumen yang merepresentasikan dokumen tersebut. Sedangkan pada pengindeksan yang dilakukan secara otomatis, pemilihan penciri dokumen dilakukan secara otomatis menggunakan program komputer. Ketepatan pemilihan istilah merupakan isu yang menentukan kinerja dari sistem yang dihasilkan. Pada dasarnya setiap kata yang muncul pada dokumen dapat dijadikan penciri dokumen. Namun jika semua kata dijadikan penciri dokumen, disamping ukuran indeks menjadi besar, belum tentu kata/term yang dijadikan penciri dokumen merepresentasikan isi dokumen secara keseluruhan. Pada tahap pengindeksan dokumen latih, terdapat empat proses yang dilakukan, yaitu: 1 Tokenisasi Proses pengindeksan diawali dengan lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf non-capital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks yang dibagi menjadi unit-unit kecil yang disebut token atau term, yang dapat berupa suatu kata atau angka. Token yang dimaksud dalam penelitian ini adalah kata atau term. Proses tokenisasi dilakukan sesuai dengan aturan berikut : Teks dipotong menjadi token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut: /[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/ Token yang terdiri atas karakter numerik saja tidak diikutsertakan. Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam stopwords pada umumnya merupakan kata-kata yang sering muncul di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Lampiran 1 merupakan daftar stopword yang terdiri dari kumpulan kata yang paling sering muncul dalam dokumen. 2 Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilah-istilah dokumen. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang didalamnya terdapat kata-kata dengan stem yang sama dengan kueri (Ridha 2002). Teknik-teknik stemming dapat dikategorikan menjadi: Berdasarkan aturan sesuai bahasa tertentu Berdasarkan kamus Berdasarkan kemunculan bersama
7 Dalam hal efisiensi stemming bertujuan untuk mengurangi jumlah katakata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Algoritma Porter, menggunakan suatu fungsi penghitung ukuran kata untuk mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal stem hasil berukuran dua kecuali jika token berukuran kurang dari dua. Contoh penghilangan prefiks dan sufiks dari kueri sebagai berikut: car, cars, car’s, cars’ - car processing – process plants - plant 3 Pemilihan Fitur Pemilihan fitur merupakan suatu proses memilih subset dari setiap kata unik yang ada di dalam himpunan dokumen latih yang akan digunakan sebagai fitur di dalam klasifikasi dokumen (Manning et al. 2008). Fitur yang dihasilkan akan mencerminkan pola dari setiap dokumen latih dengan baik, yang pada akhirnya dapat meningkatkan kinerja klasifikasi karena sudah menghilangkan fitur-fitur yang tidak perlu. Disamping itu, pemilihan fitur akan menurunkan ukuran matrik data sehingga dapat menurunkan waktu komputasi. Estévez et al. (2009) menyatakan ada beberapa metode pemilihan fitur yang baik untuk proses klasifikasi dokumen, yaitu pemilihan fitur berbasis frekuensi, information gain, dan . Metode paling sederhana adalah pemilihan fitur berbasis frekuensi, yaitu dengan menentukan nilai ambang batas tertentu (threshold) bagi frekuensi suatu kata dalam dokumen untuk dijadikan sebagai fitur dokumen tersebut. Information gain merupakan metode pemilihan fitur berbasis teori informasi yang disebut sebagai mutual information atau disingkat menjadi MI (Guyon dan Elisseeff 2003). Misalkan U dan C adalah dua peubah acak kontinu dengan fungsi kepekatan peluang bersama f(u,c) dan fungsi kepekatan peluang marjinal masing-masing adalah f(u) dan f(c). MI antara U dan C didefinisikan sebagai f(u,c) ( , ) ∬ f(u,c) log u c (1) f(u)f(c)
Jika U dan C adalah dua peubah acak diskret, maka MI antara U dan C dapat dituliskan sebagai ( , )
∑ ∑ p(u,c) log u
c
p(u,c) p(u)p(c)
dimana p(u) adalah fungsi massa peluang marjinal U, p(c) adalah fungsi massa peluang marjinal C, dan p(u,c) adalah fungsi massa peluang bersama U dan C. Oleh karena itu, pemilihan fitur berbasis MI dapat dilakukan dengan menghitung nilai MI kata t pada kelas c, sehingga U didefinisikan sebagai peubah acak kemunculan kata t dalam dokumen, dan C didefinisikan sebagai peubah acak keberadaan dokumen di dalam kelas c. Selanjutnya nilai peluang pada Persamaan 2 diduga menggunakan frekuensi kata dan dokumen dari koleksi dokumen latih, sehingga MI antara U dan C dapat dituliskan sebagai ( , )
∑ u
,
∑ c
,
uc
uc
log u
c
8 dengan N00, N01, N11, dan N10 digambarkan pada Tabel 1. N00 adalah banyaknya dokumen yang bukan merupakan dokumen kelas c dan tidak memuat kata t, N01 adalah banyaknya dokumen pada kelas c namun tidak memuat kata t, N11 adalah banyaknya dokumen pada kelas c yang memuat kata t, dan N10 adalah banyaknya dokumen yang bukan merupakan dokumen kelas c yang memuat kata t di dalamnya. Tabel 1 Banyaknya dokumen dengan kata t dalam kelas c t=1 t=0 ∑ c=1 N11 N01 N.1 c=0 N10 N00 N.0 ∑ N1. N0. N.. 4 Pembobotan Proses selanjutnya pada pengindeksan adalah pemberian bobot dari setiap token atau kandidat fitur dari setiap dokumen yang diperoleh dari hasil pemilihan fitur. Pembobotan yang digunakan adalah term frequency (tf). Pembobotan tf adalah algoritma pembobotan yang menentukan bobot dokumen berdasarkan kemunculan kata/term. Semakin sering sebuah kata/term muncul, semakin tinggi bobot dokumen untuk kata/term tersebut dan sebaliknya. Natural Language ToolKit Natural Language ToolKit (NLTK) merupakan penelitian tentang Natural Language Processing (NLP) yang dibangun dengan bahasa pemrograman Python, dikembangkan sejak tahun 2001 di University of Pennsylvania (Bird et al. 2009). NLTK mempunyai banyak fungsi dan modul untuk membantu penelitian dibidang NLP, salah satunya adalah fungsi similarity dan modul wordnet. NLTK mempunyai empat keunggulan, yaitu: Simplicity, NLTK memberikan pengguna pengetahuan singkat tentang NLP, tanpa harus memahami keseluruhan NLP. Consistency, NLTK dibuat dengan antarmuka, struktur data yang konsisten, dan metode dengan penamaan yang mudah. Extensibility, NLTK memungkinkan penambahan modul baru untuk menyelesaikan masalah-masalah NLP. Modularity, NLTK memungkinkan modul digunakan secara independen tanpa memerlukan modul yang lain. Dalam pembuatan model klasifikasi dilakukan penghitungan similarity menggunakan NLTK antara token hasil dari proses pemilihan fitur dengan token yang terdapat pada kosakata terkendali. Metode penghitungan similarity yang digunakan adalah lin similarity. Konsep dari lin similarity adalah mencari kemiripan atara dua kata berdasarakan information content (IC) dari least common subsumer (LCS). LCS adalah hiponim dari dua kata yang dicari kemiripannya. Penghitungan similarity didapatkan dari seberapa mirip kata A dengan kata B. Contohnya adalah kata car lebih mirip dengan kata boat daripada kata tree, karena kata car dan kata boat mempunyai ancestor konsep yang sama yaitu vehicle (Bird et al. 2009). Persamaan 4 merupakan persamaan lin similarity untuk menghitung kemiripan antara dua kata,
9 l s i , i i dengan lcs_ic(x,y) adalah nilai dari lcs antara dua kata, ic(x) adalah nilai dari kata pertama pada IC, ic(y) adalah nilai dari kata kedua pada IC. l
s
lar t
Klasifikasi Naive Bayes Menurut Manning et al. (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut. Klasifikasi naive Bayes termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini sebuah dokumen terdiri atas beberapa kejadian kemunculan kata. Berdasarkan asumsi Bayes, kemungkinan tiap kejadian kemunculan kata dalam tiap dokumen adalah saling bebas. Berdasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P(c|d) ditunjukkan pada Persamaan 5, c c (c| ) (5) dengan P(d|c) adalah peluang kemunculan dokumen d di kelas c, P(c) adalah peluang awal suatu dokumen masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d dapat diabaikan karena memiliki nilai yang sama untuk seluruh kelas c, sehingga Persamaan 5 dapat disederhanakan menjadi Persamaan 6, yaitu c c c (6) Persamaan untuk menghitung nilai peluang dokumen masuk ke dalam kelas c dan peluang kemunculan dokumen d berada pada kelas c adalah (c) c dan ̂ c ∏t v t c (7) dengan Nc adalah banyaknya dokumen dalam kelas c, N adalah total dokumen, P(t|c) adalah peluang kemunculan token dalam dokumen d, penghitungan P(t|c) ditunjukkan oleh Persamaan 8 (t|c) c (8) v c
dengan Tcd adalah peluang kemunculan token d dalam kelas c , 1 adalah laplace smoothing, T.c adalah jumlah seluruh token dalam kelas c, |v| adalah banyaknya token pada seluruh kelas. Manning et al. (2008) menjelaskan bahwa kelas yang paling sesuai bagi dokumen d adalah kelas yang memiliki nilai P(c|d) paling tinggi yaitu seperti ditunjukkan pada Persamaan 9. ma ( |c) (c) c
Nilai peluang P(c) dapat diduga dengan melihat jumlah dokumen yang dimiliki oleh kelas c relatif terhadap jumlah seluruh dokumen yang ada, sedangkan nilai peluang P(d|c) diduga secara berbeda untuk setiap model naive Bayes. Dalam algoritma klasifikasi naive Bayes dilakukan penghitungan peluang kata terhadap dokumen latih yang mencerminkan suatu kelas. Pada saat melakukan penghitungan tf, dilakukan juga penghitungan jumlah kata unik dalam
10 dokumen latih, dan penghitungan jumlah kata yang terdapat pada dokumen yang berada dalam satu kelas yang sama pada DDC. Hasil matrik kata pada data latih digunakan pada sistem klasifikasi untuk mengklasifikasikan dokumen baru. Nilai peluang kata yang didapat kemudian digunakan untuk melakukan penghitungan naive Bayes pada dokumen uji untuk setiap kelasnya, kemudian diambil nilai peluang yang terbesar pada nilai penghitungan naive Bayes untuk menentukan kelas dari dokumen uji.
Evaluasi Evaluasi kinerja sistem dilakukan dengan menghitung nilai recall dan precision dari 190 dokumen untuk mendapatkan persentase ketepatan suatu dokumen masuk ke dalam kelas DDC tertentu dalam sistem temu kembali. Recall dan precision adalah dua kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. Recall adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang relevan. Precision adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning et al. 2008). Gagasan ini dapat diperjelas dengan memeriksa kontingensi set pengambilan dokumen yang ditunjukkan pada Tabel 2. Tabel 2 Kontingensi evaluasi set pengambilan dokumen Relevan Non-relevan Retrieved true positives (tp) false positives (fp) Not retrieved false negatives (fp) true negatives (tn) Dengan penghitungan recall dan precision dijelaskan pada Persamaan 10 dan 11. Penghitungan akurasi sistem klasifikasi ditunjukkan oleh Persamaan 12. r cs call kurasi
tp tp fp tp tp fn
(10) (11)
tp tn tp fp fn tn
Menurut Baeza-Yates dan Riberio-Neto (1999), algoritma temu kembali yang dievaluasi menggunakan beberapa dokumen berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing dokumen. Average precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0 dihitung dengan Persamaan 13 ∑i r (r )
11 dengan P(rj) adalah AVP pada level recall r, Nq adalah jumlah dokumen yang digunakan, dan Pi(r) adalah precision pada level recall r untuk dokumen ke-i.
Lingkungan Pengembangan Lingkungan pengembangan adalah kumpulan fasilitas yang diperlukan dalam melaksanakan penelitian, baik berupa perangkat keras maupun perangkat lunak. Pada penelitian ini lingkungan pengembangan yang digunakan adalah sebagai berikut: Perangkat lunak: Windows 7 Ultimate, Notepad++, MySQL, Microsoft Office 2010, XAMPP, dan Opera Perangkat keras: CPU Intel Core i5 @2.40 GHz dan 4 GB RAM. Bahasa pemrograman: PHP dan Python.
HASIL DAN PEMBAHASAN Pengumpulan Dokumen Dokumen yang digunakan pada penelitian ini sebanyak 190 dokumen yang terdiri atas dokumen tesis dan disertasi, dengan kelas utama DDC 500 dan 600. Kelas utama DDC dengan rentang kelas 100, 200, 300, 400, 700, 800, dan 900 tidak dapat digunakan dalam penelitian karena dalam pengumpulan dokumen korpus kelas-kelas tersebut sangat jarang ditemukan dalam koleksi di perpustakaan Institut Pertanian Bogor. Dokumen yang digunakan dapat dilihat pada Tabel 3. Setiap dokumen tesis dan disertasi yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas utama yang ada pada sistem DDC. Kelas utama DDC dapat dilihat pada Tabel 4. Selanjutnya dokumen akan menempati kelas divisi dan kelas section, setiap kelas utama mempunyai 10 kelas divisi. Tabel 5 merupakan contoh kelas divisi dari DDC kelas utama 500. Selanjutnya, masing-masing dari kelas divisi mempunyai sedikitnya 10 kelas section. Tabel 6 merupakan contoh kelas section dari DDC kelas divisi 510-519.
Praproses Dokumen Setiap dokumen melalui tahapan tokenisasi, yaitu proses memotong kalimat menjadi kata/term yang ditemukan di setiap dokumen. Dokumen latih yang melalui tahap tokenisasi sebanyak 114 dokumen. Setiap token akan melalui tahapan pembuangan stopword dan stemming. Dalam proses tokenisasi dilakukan penentuan nilai treshold yaitu kata/token dengan term frequency (tf) kurang dari sama dengan satu tidak akan diproses lebih lanjut dalam tahapan pemilihan fitur. Hasil tokenisasi dokumen latih dengan penggunaan stemming menghasilkan sebanyak 2 136 token, sedangkan token yang dihasilkan tanpa menggunakan stemming sebanyak 2 595 token.
12 Tabel 3 Dokumen tesis dan disertasi perpustakan IPB Jumlah dokumen Kelas DDC Disiplin ilmu Tesis Disertasi 502 Miscellany of Nature Sciences 2 8 519 Applied Mathematics 8 2 551 Geology 3 7 556 Geology of Africa 1 9 582 Specific Vegetative Characteristics 6 4 595 Crustacea 4 6 598 Aves 7 3 599 Mammalia 1 9 613 Promotion of Health, Personal Health 5 5 630 Farming 6 4 631 Specific Techniques of Agriculture 4 6 632 Plant Injuries 2 8 633 Field and Plantation Crops 1 9 634 Orchard, Fruits 3 7 636 Animal Husbandry 8 2 639 Hunting on Commercial 5 5 658 General Management 7 3 664 Food Technology 7 3 665 Technology of Industrial 5 5 Penggunaan tag keyword pada dokumen dapat mempengaruhi nilai pembobotan tf, karena pada dokumen abstrak tesis dan disertasi IPB tidak semua dokumen mempunyai tag keyword. Ada beberapa dokumen abstrak tidak mempunyai tag keyword. Dokumen abstrak tesis dan disertasi yang tidak mempunyai tag keyword nilai token yang diboboti akan lebih kecil daripada dokumen yang mempunyai tag keyword. Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa menggunakan stemming dapat dilihat pada Lampiran 2.
Pemilihan Fitur Token yang telah dihasilkan dari tahapan tokenisasi kemudian diproses pada tahap pemilihan fitur. Token yang diambil sebagai kandidat fitur adalah token dengan treshold lebih besar dari nol, sedangkan token yang bernilai kurang dari sama dengan nol tidak akan diproses lebih lanjut dalam pembentukan model klasifikasi. Hasil pemilihan fitur dokumen pada dokumen latih dengan menggunakan stemming menghasilkan kandidat fitur sebanyak 477 token. Sedangkan hasil pemilihan fitur dokumen pada dokumen latih tanpa menggunakan stemming menghasilkan 1 153 token kandidat fitur. Kumpulan token yang dihasilkan pada tahapan pemilihan fitur selanjutnya diberi bobot berdasarkan frekuensi kemunculannya (tf). Lampiran 3 merupakan contoh distribusi sebaran kandidat fitur dokumen pada kelas DDC yang digunakan dalam tahapan pembentukan model klasifikasi.
13 Tabel 4 Kelas utama DDC Kelas DDC Disiplin ilmu 000 General 100 Philosophy and Psychology 200 Religion 300 Social 400 Language 500 Science, Mathematics 600 Technology 700 Art, Fine, and Sport 800 Literature 900 Geography and History Tabel Kelas DDC 500-509 510-519 520-529 530-539 540-549 550-559 560-569 570-579 580-589 590-599 Tabel Kelas DDC 510 511 512 513 514 515 516 517 518 519
5 Kelas divisi DDC Disiplin ilmu Miscellany of Nature Sciences Mathematics Astronomy Physics Chemistry Earth Sciences Paleontology, Paleozoology Biology Plants Animals 6 Kelas section DDC Disiplin ilmu Mathematics Finite Mathematics Algebra Arithmetics Topology Analysis, Theory of Functions Geometry Null Algorithms Applied Mathematics
Natural Language ToolKit Untuk mendapatkan model klasifikasi, token yang telah diboboti dipisahkan sesuai dengan kelas DDC masing-masing dan dilakukan penghitungan similarity berdasarkan kemiripan antara dua kata untuk mendapatkan model klasifikasi setiap kelas DDC. Penghitungan similarity dilakukan dengan menggunakan fungsi lin similarity yang tersedia pada NLTK. Tabel 7 merupakan contoh hasil
14 penghitungan similarity antara token hasil pemilihan fitur dengan kosakata terkendali pada kelas DDC menggunakan fungsi lin similarity. Hasil penghitungan similarity yang diperoleh merupakan model klasifikasi yang akan digunakan sebagai dasar untuk melakukan penempatan dokumen uji dalam kelas DDC. Tabel 7 Contoh hasil penghitungan similarity Token kandidat fitur Kosakata terkendali Similarity study mathematics 0.181492 model mathematics 0.354443 data mathematics 0.068333 level mathematics 0.076142 system mathematics 0.000000 rate mathematics 0.073144 performance mathematics 0.196477 identification mathematics 0.169782 support mathematics 0.177169 best mathematics 0.179841 type mathematics 0.387835 program mathematics 0.432087 social mathematics 0.066944 study vegetation 0.072934 study characteristic 0.208118 species specific 0.061206 species vegetation 0.308995 species characteristic 0.068384 data specific 0.069126 plant vegetation 0.000000 plant characteristic 0.000000 Dalam penentuan model klasifikasi dilakukan penentuan nilai treshold, yaitu token dengan hasil similarity kurang dari sama dengan nol tidak akan menjadi model klasifikasi. Gambar 3 merupakan diagram alur proses pembentukan model klasifikasi dokumen pada kelas DDC.
Pengujian Kinerja Sistem Proses evaluasi yang dilakukan terdiri atas dua proses evaluasi. Evaluasi pertama adalah pengujian tingkat akurasi sistem klasifikasi, dan evaluasi berikutnya adalah pengujian tingkat akurasi sistem temu kembali informasi menggunakan recall dan precision. Evaluasi sistem dilakukan sesuai hasil klasifikasi dokumen yang dikembalikan kepada pengguna. 1 Akurasi Sistem Klasifikasi Akurasi penentuan nomor panggil berbasis DDC dari sistem klasifikasi naive Bayes dapat dihitung dengan menggunakan bantuan tabel confusion matrix yang dapat dilihat pada Lampiran 4 dan 5. Akurasi sistem klasifikasi penentuan
15 nomor panggil otomatis berbasis DDC dari sistem klasifikasi naive Bayes dengan menggunakan stemming sebesar 45.26% dan tanpa menggunakan stemming sebesar 44.21%. Mulai
Tokenisasi
Lakukan stemming ?
Ya
Tidak
Nilai term frequency = 1 ?
Ya
Selesai
Ya
Selesai
Ya
Selesai
Tidak Information gain (pemilihan fitur)
Hasil pemilihan fitur = 0 ? Tidak NLTK
Similarity = 0 ?
Tidak Model klasifikasi
Selesai
Gambar 3 Diagram alur proses pembentukan model klasifikasi
16 Hal ini menunjukkan bahwa penggunaan stemming tidak berpengaruh besar dalam peningkatan akurasi sistem klasifikasi dalam penentuan kelas section DDC. Penelitian pengaruh stemming juga dilakukan pada setiap dokumen uji dengan menghitung hasil akurasi pengujian setiap dokumen kelas section DDC. Tabel 8 merupakan hasil akurasi setiap dokumen kelas section DDC dengan menggunakan stemming dan tanpa menggunakan stemming. Dalam penempatan kelas utama DDC, hasil penelitian menunjukkan bahwa akurasi sistem klasifikasi dokumen yang menempati kelas utama DDC yang relevan dengan penggunaan stemming sebesar 81% dan tanpa menggunakan stemming sebesar 55%. Hasil klasifikasi menunjukkan pengaruh penggunaan stemming berperan besar dalam peningkatan akurasi pada penempatan level kelas utama dokumen dalam kelas DDC. 2 Akurasi Sistem Temu Kembali Informasi Pengujian sistem temu kembali informasi dilakukan menggunakan recall precision. Hasil recall precision dihitung dengan melihat hasil klasifikasi dokumen uji relevan yang dikembalikan kepada pengguna. Nilai akurasi sistem temu kembali dengan menggunakan stemming sebesar 29% dan tanpa menggunakan stemming sebesar 28%. Hasil pengujian menggunakan stemming yang tidak mempunyai dokumen relevan namun ikut ditemukembalikan terjadi pada kelas DDC 595. Kesalahan sistem dalam menemukembalikan dokumen disebabkan karena dokumen tersebut tidak memiliki token penciri yang sama dengan model klasifikasi. Tabel 8 Hasil akurasi setiap dokumen kelas DDC berdasarkan pengaruh stemming Akurasi (%) Kelas DDC Stemming Non-stemming 502 40 50 519 80 70 551 60 30 556 30 30 582 40 70 595 0 20 598 50 60 599 60 30 613 50 40 630 20 40 631 40 70 632 20 60 633 70 20 634 50 30 636 80 60 639 20 20 658 50 50 664 60 50 665 40 40
17 Hal ini sejalan dengan metode pembobotan tf yang hanya memperhatikan frekuensi kemunculan kata suatu dokumen tanpa memperhatikan kedekatan kata yang terdapat pada dokumen uji. Lampiran 6 dan 7 merupakan nilai AVP dengan menggunakan 11 titik recall pada setiap kelas DDC yang digunakan.
SIMPULAN DAN SARAN Simpulan Dari hasil penelitian penentuan nomor panggil otomatis berbasis DDC pada dokumen perpustakaan menggunakan klasifikasi naive Bayes dapat disimpulkan bahwa : 1 Akurasi yang dihasilkan dalam penerapan metode klasifikasi naive Bayes dalam penentuan nomor panggil otomatis berbasis DDC dalam klasifikasi kelas section DDC dengan penggunaan stemming sebesar 45.26% dan akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%. Sedangkan dalam penempatan kelas utama DDC, akurasi sistem klasifikasi naive Bayes dengan penggunaan stemming menghasilkan akurasi sebesar 81% dan tanpa penggunaan stemming sebesar 55%. Hasil akurasi sistem klasifikasi menunjukkan bahwa metode klasifikasi naive Bayes terbukti dapat meningkatkan akurasi dari penelitian sebelumnya. 2 Hasil klasifikasi naive Bayes menunjukkan penggunaan stemming tidak berpengaruh besar dalam peningkatan akurasi sistem klasifikasi. 3 Hasil rata-rata recall dan precision menunjukkan nilai akurasi sebesar 29% dengan menggunakan stemming sedangkan tanpa menggunakan stemming nilai akurasi sebesar 28%.
Saran 1 2
3 4
Beberapa hal yang perlu dikembangkan dalam penelitian ini adalah: Menggunakan kelas DDC yang lebih lengkap dan beragam dan dokumen korpus yang lebih banyak. Penelitian ini menggunakan metode pemilihan fitur information gain untuk memilih penciri dokumen. Disarankan untuk menggunakan metode pemilihan fitur yang lain, seperti pemilihan fitur berbasis frekuensi kemunculan kata, karena metode yang digunakan dalam penelitian ini membutuhkan waktu komputasi yang lama dalam melakukan pemilihan fitur dokumen. Mempertimbangkan ukuran kepentingan kata dari hasil pemilihan fitur dalam klasifikasi dokumen uji. Menggunakan penghitungan metode klasifikasi lain selain metode klasifikasi naive Bayes seperti klasifikasi yang menggunakan background smoothing dengan menggunakan ukuran nilai similarity dari hasil proses NLTK dalam proses pengklasifikasian dokumen uji, contohnya metode klasifikasi support vector machines (SVM). SVM merupakan metode klasifikasi dengan menggunakan fungsi kernel ganda-k untuk melakukan klasifikasi dokumen secara lebih efisien. Konsep SVM juga dapat dijelaskan secara sederhana
18 sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada ruang input. Hyperplane dalam ruang vektor berdimensi d adalah anak ruang berdimensi d-1 yang membagi ruang vektor tersebut ke dalam dua bagian yang masing-masing berkorespondensi pada kelas yang berbeda (Cristianini dan Shawe-Taylor 2000).
DAFTAR PUSTAKA Baeza-Yates R, Riberio-Neto B. 1999. Modern Information Retrieval. Wokingham (UK): Addison Wesley. Bird S, Klein E, Loper E. 2009. Natural Language Processing with Phyton. California US : O’Reilly. Estévez PA, Tesmer M, Perez CA, Zurada JM. 2009. Normalized mutual information feature selection. IEEE Transactions on Neural Networks. 20(2):189-201. Cristianini N, Shawe-Taylor. 2000. An Introduction to Support Vector Machines: and Other Kernel-Based Learning Methods. Cambridge (GB): Cambridge University Press. Golub K. 2006. Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing. TCDL Bulletin. 2(2):1-11. Guyon I, Elisseeff A. 2003. An introduction to variable and feature selection. Journal of Machine Learning Research. 3(1):1157-1182. Hardjoprakoso M. 1993. Terjemahan Ringkasan Klasifikasi Desimal Dewey dan Indeks Relatif. Jakarta (ID): Perpustakaan Nasional. Hasugian J. 2006. Penggunaan bahasa alamiah dan kosakata terkendali dalam sistem temu balik informasi berbasis teks. Jurnal Studi Perpustakaan dan Informasi. 2(2):72-80. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press. Mortimer M. 2000. Learn Dewey Decimal Classification. Ed ke-22. Texas (US): Total Recall Publication. Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor. Setyawan A. 2012. Penentuan subjek otomatis berbasis DDC pada dokumen perpustakaan menggunakan algoritma lin similarity [skripsi]. Bogor (ID): Institut Pertanian Bogor. Svenonius E. 2003. Design of controlled vocabularies. Encyclopedia of Library and Information Science. 45(7):822-838.
19 Lampiran 1 a about above after again against all am an and any are aren't as at be because been before being below between both but by can't cannot could couldn't did didn't do does doesn't doing don't down during each few for from further had hadn't has hasn't
Daftar stopword yang digunakan dalam tahapan praproses have other we affecting b haven't ought we'd affects back having our we'll after be he ours we're afterwards became he'd ourselves we've again because he'll out were against become he's over weren't ah becomes her own what all becoming here same what's almost been here's shan't when alone before hers she when's along beforehand herself she'd where already begin him she'll where's also beginning himself she's which although beginnings his should while always begins how shouldn't who am behind how's so who's among being i some whom amongst believe i'd such why an below i'll than why's and beside i'm that with announce besides i've that's won't another between if the would any beyond in their wouldn't anybody biol into theirs you anyhow b is them you'd anymore back isn't themselves you'll anyone be it then you're anything became it's there you've anyway because its there's your anyways become itself these yours anywhere becomes let's they yourself apparently becoming me they'd yourselves approximately been more they'll a are before most they're able aren beforehand mustn't they've about arent begin my this above arise beginning myself those abst around beginnings no through accordance as begins nor to according aside behind not too accordingly ask being of under across asking believe off until act at below on up actually auth beside once very added available besides only was adj away between or wasn't affected awfully beyond
20 Lampiran 2 Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa menggunakan stemming No Stemming Non-stemming 1 studi study 2 thi analysis 3 develop water 4 analysi development 5 water based 6 product species 7 result population 8 area area 9 base model 10 group data 11 model rice 12 popul management 13 level level 14 speci forest 15 increas habitat 16 method growth 17 plant group 18 manag fruit 19 factor production 20 data method 21 forest conducted 22 rice oil 23 habitat plant 24 differ quality 25 fruit resources 26 activ watershed 27 growth factors 28 conduct result 29 control control 30 analyz javan 31 oil small 32 resourc food 33 qualiti yield 34 sustain indonesia 35 condit higher 36 system potential 37 watersh high 38 year land 39 valu increase 40 fertil national 41 fish number 42 type system 43 dai size 44 food condition
21 21 Lampiran 3 Contoh distribusi sebaran penciri dokumen pada setiap DDC Kelas dokumen DDC Kandidat fitur 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 study analysis water development based species population area model data rice management level forest habitat growth group fruit production method
22 Lampiran 4 Confusion matrix hasil klasifikasi naive Bayes menggunakan stemming Aktual 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665
Prediksi 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 Outlier 4 1 2 1 1 1 1 8 1 1 6 1 1 1 1 3 3 1 1 1 1 4 1 1 2 1 2 1 0 1 2 1 1 2 1 5 1 1 1 1 1 1 1 6 1 1 5 4 1 2 2 2 1 1 1 1 1 1 4 1 2 1 1 1 2 4 1 7 1 1 1 1 1 1 5 1 1 8 1 1 1 1 1 1 2 2 2 1 1 1 2 5 1 3 6 2 1 1 1 1 4
23 Lampiran 5 Confusion matrix hasil klasifikasi naive Bayes tanpa menggunakan stemming Aktual 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665
Prediksi 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 Outlier 5 5 7 1 2 1 3 1 5 2 3 5 7 1 2 2 2 1 5 6 1 1 2 3 3 4 1 2 4 1 2 1 1 4 4 1 1 7 1 6 1 3 1 2 7 1 3 6 1 6 1 2 1 2 1 6 1 5 4 1 1 1 5 2 1 4 5
24 Lampiran 6 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi menggunakan stemming Recall 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 0 1 1 1 0.5 0.75 1 1 1 0.5 1 0.5 1 0.5 1 0.5 1 1 1 0.1 1 1 1 0.5 0.75 1 1 1 0.5 1 0.5 1 0.5 1 0.5 1 1 1 0.2 1 1 1 0.5 0.75 - 0.75 0.83 1 0.4 0.6 0.5 1 0.5 1 0.5 1 1 1 0.3 1 1 0.86 0.5 0.75 - 0.75 0.83 1 0.4 0.6 0.5 1 0.5 1 0.5 0.75 1 1 0.4 0.8 1 0.86 0.5 0.44 - 0.71 0.83 1 0.4 0.4 0.5 1 0.5 1 0.5 0.71 1 0.8 0.5 0.8 1 0.86 0.5 0.44 - 0.71 0.83 0.83 0.4 0.4 0.5 0.86 0.5 1 0.5 0.71 1 0.8 0.6 0.8 1 0.86 0.5 0.44 - 0.71 0.6 0.83 0.4 0.4 0.5 0.86 0.5 1 0.5 0.71 1 0.8 0.7 0.8 1 0.86 0.5 0.44 - 0.71 0.6 0.83 0.4 0.4 0.5 0.7 0.5 1 0.5 0.71 1 0.8 0.8 0.8 0.8 0.86 0.5 0.44 - 0.71 0.6 0.83 0.4 0.4 0.5 0.7 0.5 1 0.5 0.71 1 0.8 0.9 0.8 0.8 0.86 0.5 0.44 - 0.71 0.6 0.83 0.4 0.4 0.5 0.7 0.5 1 0.5 0.71 1 0.8 1 0.8 0.8 0.86 0.5 0.44 - 0.71 0.6 0.83 0.4 0.4 0.5 0.7 0.5 1 0.5 0.71 1 0.8
25 Lampiran 7 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi tanpa menggunakan stemming Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
502 0.67 0.67 0.67 0.67 0.67 0.56 0.56 0.56 0.56 0.56 0.56
519 1 1 0.71 0.71 0.71 0.71 0.7 0.7 0.7 0.7 0.7
551 0.5 0.5 0.5 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33
556 1 1 1 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43
582 1 1 0.71 0.71 0.71 0.71 0.7 0.7 0.7 0.7 0.7
595 598 599 613 630 631 632 633 634 636 639 658 664 665 0.33 1 1 1 0.5 1 1 0.4 1 1 0.5 0.8 1 0.5 0.33 1 1 1 0.5 1 1 0.4 1 1 0.5 0.8 1 0.5 0.33 1 1 1 0.5 1 0.71 0.4 0.33 1 0.33 0.8 1 0.5 0.33 1 1 1 0.4 1 0.71 0.4 0.33 1 0.33 0.8 0.75 0.5 0.33 1 1 0.5 0.4 1 0.71 0.4 0.33 0.8 0.33 0.8 0.67 0.5 0.33 0.6 1 0.5 0.4 1 0.71 0.4 0.33 0.75 0.33 0.5 0.63 0.5 0.33 0.6 1 0.5 0.4 1 0.67 0.4 0.33 0.75 0.33 0.5 0.63 0.5 0.33 0.6 1 0.5 0.4 1 0.67 0.4 0.33 0.75 0.33 0.5 0.63 0.5 0.33 0.6 1 0.5 0.4 1 0.67 0.4 0.33 0.75 0.33 0.5 0.63 0.5 0.33 0.6 1 0.5 0.4 1 0.67 0.4 0.33 0.75 0.33 0.5 0.63 0.5 0.33 0.6 1 0.5 0.4 1 0.67 0.4 0.33 0.75 0.33 0.5 0.63 0.5
21
26
RIWAYAT HIDUP Penulis dilahirkan di Medan Sumatera Utara pada tanggal 8 Maret 1987 dari ayah Abdul Kadir Nasution (alm) dan ibu Nurhayani Lubis. Penulis adalah puteri kedua dari 4 bersaudara. Tahun 2006 penulis lulus dari SMA Muhammadiyah Mataram dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur PMDK dan diterima di Diploma IPB Program Keahlian Manajemen Informatika. Tahun 2009 penulis lulus dari Diploma IPB dan pada tahun 2010 penulis melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.