PENGINDEKSAN ONTOLOGI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC ANALYSIS
DEWI SUSANTI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Pengindeksan Ontologi Dokumen Bahasa Indonesia Menggunakan Latent Semantic Analysis adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Dewi Susanti NIM G64096020
ABSTRAK DEWI SUSANTI. Pengindeksan Ontologi Dokumen Bahasa Indonesia Menggunakan Latent Semantic Analysis. Dibimbing oleh JULIO ADISANTOSO. Ontologi merupakan sekumpulan konsep yang dapat diterapkan pada sistem temu kembali informasi yang mampu merepresentasikan pengetahuan dari suatu dokumen dalam domain yang spesifik, sehingga ontologi dipandang mampu meningkatkan kinerja sistem temu kembali informasi. Oleh karena itu pembangunan konsep ontologi harus mampu mengatasi masalah semantik pada korpus. Pada penelitian ini diusulkan pengindeksan dokumen Bahasa Indonesia menggunakan latent semantic analysis. Latent semantic analysis (LSA) adalah suatu teori dan metode yang mencoba mengatasi masalah semantik kata pada korpus dengan mengekstraksi dan merepresentasikan makna penggunaan kontekstual kata dengan menggunakan metode statistik. Pada penelitian ini ontologi yang telah dibangun diterapkan pada sistem temu kembali informasi dan dievaluasi menggunakan 20 pasang kueri. Percobaan ini menghasilkan nilai recall 96.5% dan nilai average precision 83.4%. Kata kunci: Latent Semantic Analysis (LSA), ontologi, temu kembali informasi
ABSTRACT DEWI SUSANTI. Ontology Indexing of Document Bahasa Indonesia Using Latent Semantic Analysis. Supervised by JULIO ADISANTOSO. Ontology is a collection of concepts that can be applied to the information retrieval system that is able to represent knowledge of a document in a specific domain, so that ontology is considered to improve the performance of information retrieval systems. Therefore the construction of ontology concept must be able to solve semantic problem in corpus. This research proposes ontology indexing of document Bahasa Indonesia using latent semantic analysis. Latent semantic analysis (LSA) is a theory and method which can be considered to solve the problem of semantic words in the corpus by extracting and representing contextual usage meaning of the word by using statistical method. In this research, ontology which has been constructed is applied to the information retrieval systems and evaluated using 20 pairs of queries. As the result of this experiment a recall value of 96.5% and average precision value of 83.4% were obtained. Keywords: information retrieval, Latent Semantic Analysis (LSA), ontology
PENGINDEKSAN ONTOLOGI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC ANALYSIS
DEWI SUSANTI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Judul Skripsi : Pengindeksan Ontologi Dokumen Menggunakan Latent Semantic Analysis Nama : Dewi Susanti NIM : G64096020
Disetujui oleh
Ir Julio Adisantoso, MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
Bahasa
Indonesia
PRAKATA Alhamdulillaahi Rabbil ’aalamiin puji serta syukur penulis panjatkan ke hadirat Allah subhanahu wa ta’ala atas segala limpahan rahmat dan karunia yang tidak pernah terputus. Berkat karunia-Nya pula penulis dapat menyelesaikan tugas akhir dengan judul Pengindeksan Ontologi Dokumen Bahasa Indonesia Menggunakan Latent Semantic Analysis. Penulis menyadari tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin menyampaikan rasa terima kasih kepada: 1. Bapak Ir Julio Adisantoso, MKom selaku dosen pembimbing tugas akhir atas arahan, saran serta kesabarannya dalam membimbing penulis selama penelitian ini berlangsung. 2. Bapak Mushthofa, SKom MSc dan Bapak Toto Haryanto, SKom MSi selaku dosen penguji atas saran dan masukan dalam penyempurnaan tugas akhir ini. 3. Ayahanda M Sopandi dan Ibunda Julaeha serta seluruh keluarga atas segala doa, dukungan dan kasih sayang yang tidak pernah terhenti. 4. Aokirinduan Hayyi, Anela Febrid Yunita, Ana Kurniawati, Rina Kurniawati serta teman-teman Ilmu Komputer Alih Jenis angkatan 4 atas semangat serta kebersamaannya. 5. Seluruh pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini baik secara langsung maupun tidak langsung. Penulis menyadari masih banyak kekurangan dan kelemahan yang terdapat dalam tugas akhir ini, untuk itu saran dan kritik yang membangun sangat penulis harapkan. Semoga tugas akhir ini bermanfaat.
Bogor, Juli 2013 Dewi Susanti
DAFTAR ISI Halaman DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN Latar Belakang Tujuan Ruang Lingkup
1 1 2 2
METODE PENELITIAN Pemrosesan Offline Data Penelitian Praproses Ekstraksi Frasa Penentuan Label Konsep Pemetaan Konsep Dokumen Pemrosesan Online Pencocokan Konsep Perbandingan Konsep Perhitungan Nilai Kemiripan Evaluasi Lingkungan Pengembangan
2 2 3 3 3 3 5 6 6 6 7 7 8
HASIL DAN PEMBAHASAN Koleksi Dokumen Praproses Ekstraksi Frasa Penentuan Label Konsep Pemetaan Konsep Dokumen Pencocokan Konsep Perbandingan Konsep Perhitungan Nilai Kemiripan Evaluasi
8 8 9 10 11 13 13 14 14 14
SIMPULAN DAN SARAN Simpulan Saran
16 16 16
DAFTAR PUSTAKA
16
DAFTAR TABEL Halaman 1 Himpunan evaluasi recall dan precision 7 2 Deskripsi koleksi dokumen 8 3 Hasil perhitungan Frobenius norm 12 4 Kandidat Label Konsep Error! Bookmark not defined. 5 Kemiripan Konsep Kueri dengan Konsep Dokumen 14 6 Kemiripan Kueri dengan Dokumen 14 7 Nilai recall dan average precision (AVP) pada Ontologi dan Lucene 15
DAFTAR GAMBAR Halaman 1 Pemrosesan Offline 2 Pemrosesan Online 3 Contoh penggunaan struktur tag dalam koleksi 4 Konfigurasi pemetaan file dokumen ke dalam bentuk objek 5 Pencocokan Konsep Kueri 6 Grafik recall precision Ontologi dan Lucene
2 6 9 9 13 15
DAFTAR LAMPIRAN Halaman 1 Daftar Stopword 2 Daftar Konsep 3 Daftar Kueri 4 Interpolasi Maksimum Ontologi 5 Interpolasi Maksimum Lucene 6 Antarmuka Sistem
18 22 25 26 27 28
1
PENDAHULUAN Latar Belakang Sistem temu kembali informasi bertujuan menyajikan sejumlah dokumen yang dapat memenuhi kebutuhan informasi pengguna. Berdasarkan hal ini sistem temu kembali informasi harus memiliki kemampuan untuk menginterpretasikan informasi yang terkandung dalam dokumen dan memberikan peringkat berdasarkan tingkat relevansi antara dokumen dengan kueri yang diberikan pengguna. Dokumen yang disajikan akan sangat tergantung pada interpretasi informasi dalam dokumen tersebut. Untuk dapat menginterpretasikan informasi yang terdapat dalam dokumen secara optimal perlu dilakukan penggalian informasi secara sintak dan semantik dari teks dokumen. Beberapa metode telah dikembangkan untuk mencapai tersebut. Salah satunya adalah menggunakan ontologi berbasis sistem temu kembali informasi. Ontologi dapat dipandang sebagai koleksi konsep yang saling terhubung melalui relasi (Rizoiu dan Velcin 2011). Penggunaan ontologi dalam sistem temu kembali informasi memungkinkan untuk mendapatkan konsep dan relasi yang merepresentasikan pengetahuan dari suatu dokumen dalam domain yang spesifik, sehingga dokumen bisa diinterpretasikan bukan hanya secara sintak, tetapi juga secara semantik. Paralic dan Kostial (2003) menerapkan ontologi berbasis temu kembali informasi pada dokumen medis berbahasa Inggris. Dalam penelitiannya, konsep yang merupakan representasi pengetahuan untuk kueri dimasukan secara manual oleh pengguna. Hasilnya menunjukan peningkatan kinerja sistem dibandingkan dengan sistem temu kembali informasi yang hanya menggunakan pendekatan tfidf dan latent semantic indexing (LSI). Selain menggunakan pendekatan ontologi, kinerja sistem juga bisa ditingkatkan dengan menggunakan klasifikasi dokumen, yaitu proses menggolongkan suatu dokumen ke dalam suatu kategori tertentu (Manning et al 2008 diacu dalam Ramadhina 2011). Pramurjadi (2010) melakukan klasifikasi dokumen menggunakan metode background smoothing. Hasil klasifikasi dengan menggunakan metode ini dianggap belum memuaskan karena tidak memperhatikan keterkaitan kata yang ada dalam dokumen. Ramadhina (2011) melakukan klasifikasi dokumen bahasa Indonesia menggunakan metode semantic smoothing. Klasifikasi dengan metode semantic smoothing ini dapat memberikan tingkat akurasi yang lebih tinggi dibandingkan dengan metode background smoothing. Klasifikasi memiliki karakteristik di mana setiap node tidak selalu berupa satu konsep, melainkan kumpulan beberapa konsep (Madsen dan Thomsen 2009). Hal ini menimbulkan keterbatasan pada klasifikasi untuk memetakan suatu dokumen ke dalam domain spesifik. Berbeda dengan klasifikasi, ontologi merupakan sekumpulan konsep yang mampu menjelaskan domain spesifik (Van Rees 2003) sehingga ontologi mampu menginterpretasikan informasi pada dokumen lebih baik dibandingkan klasifikasi. Mengacu pada hal tersebut penelitian ini akan membangun ontologi secara otomatis menggunakan latent semantic analysis, kemudian mengevaluasi ontologi tersebut menggunakan sistem temu kembali informasi.
2
Tujuan Tujuan dari penelitian ini adalah: Membangun ontologi pada dokumen berbahasa Indonesia dengan menggunakan latent semantic analysis. Mengevaluasi domain ontologi pada dokumen dengan menerapkannya pada sistem temu kembali informasi.
Ruang Lingkup Ruang lingkup dari penelitian ini adalah: Menggunakan korpus dan kueri berbahasa Indonesia. Ontologi dibangun menggunakan latent semantic analysis
METODE PENELITIAN Secara umum alur kerja sistem terbagi menjadi dua area utama, yaitu pemrosesan offline (Gambar 1) dan pemrosesan online (Gambar 2). Pemrosesan Offline Dokumen
Praproses
Inverted Index
Ekstraksi Konsep
Ekstraksi Frasa
Penentuan Label Konsep
Pemetaan Konsep Dokumen
Domain Ontologi
Gambar 1 Pemrosesan offline
3
Pemrosesan offline terdiri dari praproses, ekstraksi frasa, penentuan label konsep, dan pemetaan konsep dokumen. Pemrosesan ini dilakukan untuk membangun domain ontologi. Data Penelitian Data yang digunakan pada penelitian ini berupa koleksi dokumen berbahasa Indonesia yang diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB yang terdiri dari 1000 dokumen dalam bidang pertanian. Setiap dokumen memiliki atribut sumber, judul, penulis, serta isi dokumen. Praproses Pada tahap ini dilakukan tokenisasi yaitu proses memecah teks dokumen menjadi kata atau urutan karakter yang memiliki makna, di mana teks dokumen yang akan dipecah telah dibersihkan dari tanda baca pemisah seperti titik, koma, dan whitespace. Proses ini selanjutnya diikuti oleh pembuangan kata yang sering muncul tetapi tidak menjadi penciri dokumen yang biasa disebut stopword. Tahap terakhir dalam praproses adalah pembobotan yang akan menunjukkan tingkat kepentingan kata dalam dokumen. Hasil dari praproses ini adalah inverted index. Ekstraksi Frasa Ekstraksi frasa bertujuan menemukan frasa yang berpotensi akan mampu menjelaskan makna verbal di balik konsep abstrak yang ditemukan dalam LSI (Osiński 2003). Untuk dapat dipertimbangkan sebagai calon label konsep, frasa harus memenuhi kriteria berikut: Muncul dalam koleksi dokumen setidaknya sebanyak n kali. Tidak melebihi batas-batas kalimat. Merupakan frasa yang lengkap. Tidak diawali dan atau diakhiri dengan stopword. Penentuan Label Konsep Proses penentuan label konsep terdiri dari lima fase, yaitu: 1 Pembangunan matriks term-dokumen Matriks term dokumen dibangun dari bobot suatu kata t pada dokumen d. Dalam penelitian ini metode pembobotan yang akan digunakan adalah tf-idf di mana term frequency (tf) menggambarkan frekuensi kemunculan kata t dalam dokumen d dan document frequency (df) menggambarkan jumlah dokumen dalam koleksi yang mengandung kata t. Inverse document frequency (idf) merupakan nilai df yang dikoreksi dengan jumlah seluruh dokumen dalam koleksi, yaitu: ( ) (1) dengan N adalah jumlah seluruh dokumen, dan df adalah jumlah dokumen dalam koleksi yang mengandung kata t.
4
Berdasarkan Persamaan 1 nilai tf-idf dapat dirumuskan sebagai ( )
–
(2)
2 Penemuan konsep abstrak Penemuan konsep abstrak dilakukan dengan menggunakan LSA yaitu metode untuk mengekstrak dan merepresentasikan makna penggunaan kata secara kontekstual dengan perhitungan statistik yang diterapkan pada korpus yang besar (Laundauer et al. 1998). LSA sepenuhnya menggunakan teknik matematika/statistik untuk mengekstrak dan menyimpulkan hubungan antar kata pada dokumen secara kontekstual. Langkah pertama dalam LSA adalah merepresentasikan dokumen dalam bentuk matriks term - dokumen di mana nilai dari setiap komponen matriks diperoleh dari hasil perhitungan pada Persamaan 2, kemudian menerapkan singular value decomposition (SVD) pada matriks tersebut. SVD akan memecah matriks menjadi tiga matriks lainnya, yaitu: (3) dengan adalah term-dokumen matriks t d , U adalah matriks ortogonal t t yang vektor kolomnya disebut sebagai left singular vector, V adalah matriks ortogonal d d yang vektor kolomnya disebut right singular vector dan adalah matriks diagonal t d yang memiliki singular value menurun ( ). Osiński (2003) menjelaskan bahwa matriks U mewakili konsep-konsep abstrak yang muncul dalam dokumen, sehingga matriks U dapat digunakan untuk menemukan konsep abstrak. Dalam hal ini, tidak semua vektor kolom dari matriks U akan digunakan, hanya k vektor kolom pertama yang akan diambil dan diproses pada tahap selanjutnya. Untuk menghitung nilai k, pada penelitian ini akan digunakan pendekatan Frobenius norm yang diadopsi dari metode yang digunakan oleh Zhang dan Dong (2004), yaitu: ‖
‖
‖ ‖
√∑
( )
√∑
( )
(4)
dengan q merupakan threshold yang diasumsikan mengenai sejauh mana pendekatan k-rank dapat menyimpan informasi aslinya, nilai k akan diatur ke nilai minimum yang dapat memenuhi threshold q, k merupakan k-rank approximation, adalah rank matriks A, ‖ ‖ adalah notasi Frobenius norm dan menunjukan nilai diagonal ke-i dari matriks pada Persamaan 3. 3 Rekonstruksi matriks Proses rekonstruksi matriks adalah proses merekonstruksi matriks termdokumen A pada Persamaan 3 menjadi k dengan mengalikan tiga matriks hasil dekomposisi SVD yang telah direduksi ke dalam k-rank, di mana nilai k yang digunakan telah dihitung menggunakan Persamaan 4. Matriks k tersebut adalah: (5)
5
4 Penentuan kandidat label Penentuan kandidat label adalah proses untuk menentukan frasa atau kata yang dianggap mampu menjelaskan konsep abstrak dalam matriks k . Pada tahap ini akan dibangun matriks term-(term+frasa) P di mana term diperoleh dari hasil tokenisasi dan frasa diperoleh dari hasil ekstraksi frasa. Selanjutnya Matriks P digunakan untuk memberikan label pada konsep abstrak dalam matriks k dengan menggunakan pendekatan kemiripan cosine. Kemiripan antara setiap vektor konsep abstrak dengan frasa atau term dapat dihitung dengan mengalikan vektor matriks k dan matriks P yang dinotasikan sebagai mi i . Frasa atau term yang memperoleh nilai maksimum pada vektor mi dianggap sebagai representasi dari konsep abstrak i yang kemudian akan diambil sebagai kandidat label konsep. Untuk menghitung nilai kemiripan konsep abstrak secara keseluruhan dapat dilakukan dengan cara mengalikan matriks k dengan matriks P yang dapat dinotasikan sebagai k . 5 Pemangkasan label Proses pemangkasan label dilakukan untuk mengatasi adanya kandidat label yang tumpang tindih. Proses ini akan menggunakan formula kemiripan cosine untuk mengelompokkan kandidat label, yaitu: (
)
( ) ( ) | ( )|| ( )|
(6)
dengan (d ) (d ) merupakan dot product di mana nilai dot product dari dua vektor x,y didefinisikan sebagai ∑ , sedangkan | (d )|| (d )| adalah panjang masing-masing vektor. Kandidat pasangan label yang memiliki nilai kemiripan cosine melebihi nilai threshold yang ditentukan selanjutnya akan digabungkan dalam satu kelompok, kemudian dipilih kandidat label yang memiliki skor cosine tertinggi. Pemetaan Konsep Dokumen Pada tahap ini dokumen akan dipetakan ke dalam label konsep yang telah diekstrak. Proses ini dilakukan dengan mendefinisikan matriks konsep Q yang dibangun dari vektor-vektor matriks term-(term+frasa) yang kata atau frasanya terpilih sebagai label konsep. Selanjutnya dokumen dipetakan ke dalam konsep dengan cara mengalikan matriks term-dokumen yang diperoleh dari Persamaan 5 dengan matriks konsep Q, didefinisikan k , ij menunjukkan besarnya kemiripan dokumen i dengan konsep j.
6
Pemrosesan Online
Kueri
Pencocokan Konsep
Konsep Kueri
Konsep Dokumen
Inverted Index
Perbandingan Konsep
Perhitungan nilai Kemiripan
Top N Dokumen
Evaluasi
Gambar 2 Pemrosesan online Pemrosesan online dilakukan untuk mengevaluasi domain ontologi yang telah dibangun pada proses offline dengan cara menerapkan domain ontologi pada sistem temu kembali informasi. Proses ini terdiri atas pencocokan konsep, perbandingan konsep dan perhitungan nilai kemiripan. Pencocokan Konsep Pencocokan konsep dilakukan untuk memetakan kueri ke dalam label konsep. Pada proses ini dihitung nilai kemiripan antara kueri dengan label konsep menggunakan fungsi scoring Lucene yang diadaptasi dari formula kemiripan cosine, jika kemiripan antara kueri dengan suatu label konsep melebihi nilai threshold maka kueri akan dipetakan ke dalam konsep tersebut. Perbandingan Konsep Perbandingan antara konsep kueri dengan konsep dokumen dilakukan dengan menggunakan metode yang diadaptasi dari Paralic dan Kostial (2003). Nilai perbandingan konsep diperoleh dari irisan himpunan konsep kueri dengan himpunan konsep dokumen seperti pada Persamaan 7
7
| (
)
|
|
|
{
(7)
dengan con adalah himpunan konsep untuk kueri Q, con adalah himpunan konsep untuk dokumen i dan k adalah konstanta yang bernilai kecil (dalam hal ini adalah 0.1). Nilai yang dihasilkan merupakan representasi dari kemiripan kueri dengan dokumen secara ontologi. Perhitungan Nilai Kemiripan Perhitungan nilai kemiripan merupakan proses terakhir untuk menghasilkan dokumen yang relevan dengan kueri yang diberikan pengguna. Pada proses ini dokumen akan diberikan peringkat sesuai tingkat relevansinya dengan kueri, kemudian disajikan secara terurut mulai dari peringkat teratas. Nilai kemiripan dihitung dengan rumusan sebagai berikut: (
)
(
)
(
)
(8)
) adalah nilai perbandingan konsep kueri dengan konsep dengan imonto ( ) adalah nilai dokumen yang dihitung pada Persamaan 7 dan im ucene ( kemiripan kueri dengan dokumen yang dihitung menggunakan formula scoring Lucene. Evaluasi Metode yang paling sering digunakan dan menjadi dasar untuk mengukur efektifitas sistem temu kembali informasi adalah recall dan precision (Manning et al. 2008). Precision merupakan rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan, sedangkan recall adalah rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan yang ada dalam koleksi. Himpunan evaluasi recall dan precision diilustrasikan pada Tabel 1. Tabel 1 Himpunan evaluasi recall dan precision Relevant Non Relevant Retrieved
tp
fp
Non Retrieved
fn
tn
Dengan demikian, nilai recall dan precision dapat dituliskan sebagai: Precision (P) = ( ) Recall (R) = ( ) Nilai recall dan precision dari setiap kueri selanjutnya akan diinterpolasi maksimum dengan menggunakan 11 titik recall standar, yaitu 0.0, 0.1, 0.2, 0.3, 0,4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.
8
Lingkungan Pengembangan
Perangkat lunak yang digunakan dalam penelitian yaitu: Windows 7 Home Premium sebagai sistem operasi. GlassFish 3.0 sebagai web server. NetBeans IDE 6.8. Lucene 3.3.0 Microsoft Excel 2010, sebagai aplikasi untuk perhitungan dan evaluasi sistem.
Perangkat keras yang digunakan dalam penelitian yaitu: Processor Intel Pentium SU2700 1.3 GHz. RAM 4 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Koleksi dokumen yang digunakan pada penelitian ini diambil dari korpus yang telah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB, yang terdiri atas 1000 dokumen dalam bidang pertanian. Deskripsi koleksi dokumen dapat dilihat pada Tabel 2. Tabel 2 Deskripsi koleksi dokumen Keterangan Ukuran (byte) Ukuran seluruh dokumen 4117495 Ukuran rata-rata dokumen 4117 Ukuran dokumen terbesar 53306 Ukuran dokumen terkecil 456 Semua dokumen digabung ke dalam satu file yang berformat XML dengan menggunakan tag terstruktur. Struktur tag yang digunakan dalam dokumen adalah:
, mewakili keseluruhan koleksi. Di dalamnya terdapat dokumen-dokumen serta tag lain yang mewakili atribut dokumen. <document>, mewakili dokumen. Di dalamnya terdapat tag yang mewakili atribut dokumen. <docid>, mewakili nomor dokumen dalam koleksi. <docno>, mewakili id dokumen yang merupakan kombinasi dari nama sumber berita, tanggal, dan urutan berita dari tanggal yang sama.
, mewakili judul dokumen.
, mewakili penulis dokumen.
, mewakili isi dokumen. Contoh penggunaan struktur tag dalam koleksi dapat dilihat pada Gambar 3.
10
Tokenisasi dilakukan untuk mendapatkan token atau kata unik dari seluruh koleksi dengan cara memisahkan serangkaian karakter dengan karakter pemisah seperti spasi. Tokenisasi hanya dilakukan pada bagian dokumen yang diapit oleh tag <docno>,
dan
. Proses selanjutnya yaitu pembuangan stopword atau kata yang tidak layak dijadikan sebagai penciri dokumen. Daftar stopword yang digunakan diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB (Lampiran 1). Pembuangan stopword dilakukan dengan cara mencocokan token yang diperoleh dari hasil tokenisasi dengan sejumlah kata yang terdapat dalam stoplist, jika token terdapat dalam stoplist maka token tersebut akan dihapus. Hasil tokenisasi yang diikuti proses pembuangan stopword menghasilkan sejumlah token yang menjadi penciri dokumen serta frekuensi kemunculannya pada setiap dokumen (tf) dan jumlah dokumen yang mengandung token tersebut (df). Nilai df akan digunakan untuk mendapatkan nilai invers document (idf) yang selanjutnya nilai tf dan idf akan digunakan untuk melakukan pembobotan tf-idf. Ekstraksi Frasa Proses pertama yang dilakukan dalam ekstraksi frasa adalah membagi dokumen ke dalam kalimat. Setiap kalimat kemudian dipecah menjadi n-gram dan menghitung frekuensi n-gram tersebut dalam koleksi. Nilai n yang digunakan antara 2 sampai 15, dengan asumsi tidak ada frasa yang melebihi 15 kata. Selanjutnya proses menghapus n-gram yang tidak memenuhi threshold frekuensi n-gram. Pada penelitian ini nilai threshold yang digunakan adalah 2 untuk setiap n-gram yang berada dalam tag
dan 3 untuk n-gram yang berada dalam tag
. Proses ini kemudian diikuti dengan mereduksi nmemiliki m buah n-gram, gram yang redundant. Misal dinotasikan | | m, direpresentasikan sebagai 2-tuple < i fi > dengan i adalah n-gram ke-i dan fi f i yaitu frekuensi kemunculan i dalam koleksi di mana i m, len = n untuk n-gram dan max = maksimal n untuk n-gram. Algoritma reduksi redundant n-gram dapat dilihat pada Algoritma 1. Algoritma 1 Proses reduksi redundant n-gram 1 Input: , len, max 2 Output : 3 if len != max do 4 for i=1 to m do 5 val[] = split by space 6 if val[] length = len do 7 for j=1 to length val[]-1 do 8 x = x append val[j] 9 y = x append val[j+1] 10 add x, to 11 add y, to 12 for k =0 to length do 13 if(get( ) from != null and from = from do 14 remove from 15 len++
11
Proses reduksi n-gram selanjutnya diikuti dengan penghapusan frasa yang diawali atau diakhiri dengan stopword. Algoritma 2 menunjukan proses penghapusan frasa yang diawali atau diakhiri oleh stopword. Algoritma 2 Proses penghapusan frasa yang diawali atau diakhiri oleh stopword 1 Input: 2 for i=1 to m do 3 val[] = split by space 4 if val[0] or val[val[] length] in stoplist do 5 remove
Penentuan Label Konsep 1 2 3 4 5
Proses penentuan label konsep terdiri dari lima fase, yaitu: Pembangunan matriks term-dokumen. Penemuan konsep abstrak. Rekonstruksi matriks. Penentuan kandidat label. Pemangkasan label.
1 Pembangunan matriks term-dokumen Matriks term-dokumen dihasilkan dari tahap praproses, tetapi tidak semua token digunakan untuk membangun matriks term-dokumen ini. Token yang digunakan hanya token yang memiliki nilai tf ≥ 2 untuk setiap token yang berada dalam tag
dan tf ≥ 3 untuk token yang berada dalam tag
. Penentuan threshold frekuensi token ini sangat berguna dalam efisiensi waktu perhitungan SVD pada proses selanjutnya. Selain itu juga dokumen tidak akan kehilangan banyak informasi karena terlalu tingginya nilai threshold yang digunakan. 2 Penemuan konsep abstrak Penemuan konsep abstrak dilakukan dengan menerapkan SVD pada matriks term-dokumen yang telah dibangun pada proses sebelumnya. Penerapan SVD ini dilakukan dengan menggunakan library matriks untuk JAVA yaitu JAMA. Kemudian ditentukan nilai q sebagai threshold untuk mereduksi rank matriks term-dokumen ke dalam k-rank. Pada penelitian ini nilai q yang digunakan adalah 0.9. Proses selanjutnya adalah menghitung nilai k untuk mendapatkan k-rank matriks dengan menggunakan pendekatan Frobenius norm pada Persamaan 4. Hasil perhitungan Frobenius norm dapat dilihat pada Tabel 3
12
Tabel 3 Hasil perhitungan Frobenius norm k 1000 900 800 700 600 500
Kualitas k 1.00000 0.98953 0.97013 0.94449 0.91205 0.87166
Berdasarkan perhitungan pada Tabel 3, k yang melebihi threshold adalah 1000, 900, 800, 700, dan 600. Karena k merupakan nilai minimum yang dapat melebihi threshold, maka k yang digunakan adalah 600. Dengan demikian konsep abstrak dapat dijelaskan pada nilai . 3 Rekonstruksi matriks Proses rekonstruksi matriks dilakukan dengan mengalikan tiga matriks hasil dekomposisi SVD menggunakan k-rank approximation, di mana nilai k telah dihitung pada proses sebelumnya yaitu 600, sehingga matriks termdokumen direkonstruksi menjadi
4 Penentuan kandidat label Pada proses ini term yang memenuhi threshold pada proses pembangunan matriks term-dokumen diambil dan digabungkan dengan frasa yang diperoleh dari hasil ekstraksi frasa. Selanjutnya term dan frasa tersebut diperlakukan sebagai pseudo-document yang kemudian melalui tahap praproses, sehingga terbentuk matriks term-(term+frasa) dengan pembobotan tf-idf. Matriks term-(term+frasa) (P) dikalikan dengan matriks yang dihasilkan pada proses penemuan konsep abstrak. Frasa atau kata yang mendapatkan nilai maksimum pada setiap vektor baris yang dihasilkan dari diambil sebagai kandidat label konsep dan nilai yang diperoleh digunakan sebagai skor untuk kandidat label tersebut. Kandidat label konsep dapat dilihat pada Tabel 4. Tabel 4 Kandidat label konsep Label Konsep tanaman organik agropolitan nelayan dan petani ikan konsumsi asam folat
Skor 0.459270 0.110855 0.191314 0.105899
5 Pemangkasan label Pemangkasan label dilakukan untuk mengatasi munculnya kandidat label konsep yang tumpang tindih. Proses ini dilakukan dengan menghitung kemiripan antar semua pasangan kandidat label. Jika pasangan label memiliki
13
nilai kemiripan yang melebihi nilai threshold, maka pasangan label tersebut akan digabung dalam satu kelompok. Nilai threshold yang digunakan dalam proses ini adalah 0.6. Selanjutnya skor label yang berada dalam satu kelompok akan dibandingkan, dan hanya label dengan skor tertinggi yang akan digunakan sebagai label konsep. Algoritma pemangkasan label dijelaskan oleh Osiński (2003) yang dapat dilihat pada Algoritma 3. Proses ini akan menghasilkan label konsep yang dapat dipetakan ke dalam dokumen dan kueri. Daftar konsep yang dihasilkan dapat dilihat pada Lampiran 2. Algoritma 3 Pemangkasan label 1 2 3 4 5 6 7 8
n = jumlah label for i= 0 to n-1 do for j=i+1 to n do hitung sim(i,j) if(sim(i,j) ≥ threshold) do bentuk grup label for each(grup label)do pilih label dengan skor terbesar
Pemetaan Konsep Dokumen Pada proses ini dokumen dipetakan ke dalam label konsep yang telah diekstrak. Proses ini dilakukan dengan mendefinisikan matriks konsep Q yang dibangun dari vektor-vektor matriks term-(term+frasa) P yang frasa atau termnya terpilih menjadi label konsep. Selanjutnya matriks Q dikalikan dengan matriks term-dokumen hasil rekonstruksi LSA k yang telah dibangun pada proses sebelumnya. Perkalian matriks ini didefinikan sebagai jika ij bernilai 0.15 maka dokumen i dipetakan ke dalam konsep j. Pencocokan Konsep Pencocokan konsep dilakukan dengan menghitung nilai kemiripan antara kueri dengan label konsep. Kemiripan dihitung menggunakan fungsi scoring Lucene yang diadaptasi dari formula kemiripan cosine, jika nilai kemiripan antara kueri dengan suatu konsep 0.9 maka kueri akan dipetakan ke dalam konsep tersebut. Pencocokan kueri ke dalam konsep dapat dilihat pada Gambar 5.
kueri : pertanian organik konsep : [pupuk organik = 1.3212, tanaman organik = 1.3212] Gambar 5 Pencocokan konsep kueri
14
Perbandingan Konsep Perbandingan konsep bertujuan untuk mengukur kemiripan kueri dengan dokumen secara ontologi. Nilai kemiripan yang digunakan adalah irisan antara himpunan konsep dokumen dan himpunan konsep kueri, jika irisan kedua himpunan adalah 0, maka kemiripan akan diberi nilai 0.1. Perbandingan konsep kueri dengan konsep dokumen dapat dilihat pada Tabel 5. Tabel 5 Kemiripan konsep kueri dengan konsep dokumen Kemiripan Dok Konsep dok ntologi 167 pupuk organik, tanaman organik 2.0 Kueri Pertanian organik 174 pupuk organik, tanaman organik 2.0 183 elyas, petani, riau, tanaman 1.0 organik Konsep Pupuk organik, 189 pupuk organik, tanaman organik 2.0 tanaman organik 257 0.1 pemerintah
Perhitungan Nilai Kemiripan Tahap akhir untuk mendapatkan top n dokumen adalah menghitung kemiripan kueri dengan dokumen berdasarkan nilai kemiripan ontologi dan kemiripan cosine scoring Lucene. Hal ini dilakukan dengan mengalikan kedua nilai tersebut. Kemiripan dibatasi dengan nilai threshold 0.01, jika nilai kemiripan tidak melebihi threshold maka dokumen dianggap tidak relevan dengan kueri. Perhitungan kemiripan antara kueri dengan dokumen dapat dilihat pada Tabel 6.
Kueri Pertanian organik Konsep Pupuk organik, tanaman organik
Tabel 6 Kemiripan kueri dengan dokumen Kemiripan Skor Dok Konsep dok ontologi Lucene 174 pupuk organik, 2.0 1.5575 tanaman organik 189 pupuk organik, 2.0 1.1076 tanaman organik 167 pupuk organik, 2.0 0.8684 tanaman organik 183 elyas, petani, riau, 1.0 1.2299 tanaman organik 257 0.1 0.8166 pemerintah
Total kemiripan 3.1151 2.2152 1.7367 1.2299 0.0817
Evaluasi Proses evaluasi dilakukan dengan menghitung nilai recall dan precision pada 20 pasang kueri (Lampiran 3) dan dokumen yang relevan. Nilai precision dari masing-masing kueri diinterpolasi maksimum pada 11 titik recall standar
15
untuk menghitung nilai average precision (AVP) yang digunakan untuk mengukur kinerja sistem secara keseluruhan (Lampiran 4). Sistem ontologi kemudian dibandingkan dengan sistem temu kembali informasi yang hanya menggunakan perhitungan scoring Lucene (Lampiran 5) untuk melihat kegunaan konsep ontologi yang telah dibangun dalam sistem temu kembali informasi.. Nilai perbandingan recall dan average precision ditunjukkan oleh Tabel 7 Tabel 7 Nilai recall dan average precision (AVP) pada Ontologi dan Lucene Sistem Recall AVP Ontologi 0.965 0.834 Lucene 1.000 0.789
Precision
Dari Tabel 7 dapat dilihat bahwa nilai recall pada sistem Lucene memiliki nilai 3.5% lebih besar dibandingkan dengan nilai recall pada sistem Ontologi. Hal ini disebabkan adanya kesalahan pemetaan dokumen ke dalam konsep ontologi. Sebagai contoh, dokumen situshijau130103-001 dan jurnal000000-015 seharusnya dipetakan pada konsep pupuk organik tetapi tidak dipetakan pada konsep tersebut sehingga nilai kemiripan kedua dokumen dengan kueri yang relevan menjadi sangat kecil dan tidak dapat melebihi nilai threshold kemiripan yang telah ditetapkan. Hal tersebut menyebabkan kedua dokumen tidak dapat ditemukembalikan pada kueri yang relevan. Di sisi lain, penerapan konsep ontologi pada sistem temu kembali informasi justru dapat meningkatkan nilai average precision yang menunjukan semakin sedikit dokumen yang tidak relevan ditemukembalikan oleh sistem. Grafik recall-precision ditunjukkan oleh Gambar 6.
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
ontologi Lucene
0.0
0.1
0.2
0.3
0.4
0.5 Recall
0.6
0.7
0.8
0.9
1.0
Gambar 6 Grafik recall precision Ontologi dan Lucene Pada Gambar 6 dapat dilihat bahwa penggunaan konsep ontologi pada sistem temu kembali informasi dapat meningkatkan nilai average precision sebesar 4.5%. Antarmuka sistem dapat dilihat pada Lampiran 6.
16
SIMPULAN DAN SARAN Simpulan Penerapan ontologi yang dibangun dengan latent semantic analysis pada sistem temu kembali informasi dapat meningkatkan kinerja sistem secara keseluruhan. Hal ini ditunjukkan dengan adanya peningkatan nilai average precision (AVP) sebesar 4.5% pada sistem Ontologi. Di sisi lain, ontologi ini masih memiliki kelemahan yaitu adanya kesalahan dalam pemetaan dokumen pada suatu konsep yang menyebabkan adanya penurunan nilai recall dari sistem Ontologi sebesar 3.5%. Saran Pada penelitian selanjutnya disarankan untuk membangun ontologi dengan menggunakan jumlah dokumen yang lebih banyak dan bervariasi. Selain itu pemetaan dokumen ke dalam konsep dapat dilakukan dengan menggunakan sinonim dalam thesaurus sehingga memungkinkan untuk mengatasi kelemahan ontologi yang ada pada penelitian ini.
DAFTAR PUSTAKA Landauer TK, Foltz PW, Laham D. 1998. An introduction to latent semantic analysis. Discourse Processes. 25:259-284. Madsen BN, Thomsen HE. 2009. Ontologies vs. classification system. Di dalam: NEALT Proceedings Series, Vol. 7, hlm 27-32. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. New York (US): Cambridge University Press. Osiński S. 2003. An algorithm for clustering of web search result. [tesis]. P z ń (PL): P z ń v h . Paralic J, Kostial I. 2003. Ontology-based information retrieval. Di dalam: Proceedings of the 14th International Conference on Information and Intelligent Systems (IIS); 2003 Sep; Varazdin. Varazdin (HR): IIS. hlm 23-28. Pramurjadi A. 2010. Klasifikasi dokumen menggunakan background smoothing [skripsi]. Bogor (ID): Institut Pertanian Bogor. Ramadhina A. 2011. Klasifikasi dokumen Bahasa Indonesia menggunakan metode semantic smoothing [skripsi]. Bogor (ID): Institut Pertanian Bogor. Rizoiu MA, Velcin J. 2011. Topic extraction for ontology learning. Di dalam: Ontology Learning and Knowledge Discovery Using the Web: Challenges and Recent Advances. hlm 38-61. Van Rees R. 2003. Clarity in the usage of the terms ontology, taxonomy and classification. Di dalam: International Conference on Construction IT, Construction IT Bridging the Distance, CIB Report 284; 2003 Apr 23-25; Waiheke Island. Waiheke Island (NZ): CIB. hlm 432-440.
17
Zang D, Dong Y. 2004. Semantic, hierarchical, online clustering of web search results. Di dalam: 6th Asia-Pacific Web Conference; 2004 Apr 14-17; Hangzhou. Hangzhou (CN). hlm 69-78.
18
Lampiran 1 Daftar stopword acapkali ada adakah adakan adalah adanya adapun aduh agak agaknya agar aja akalan akan akankah akhir akhirnya akibat akibatkan akibatnya aku ala alangkah alasan alasannya alih alihkan amat amatlah ambil anda andai anggap anggapan antar antara antaranya apa apabila apakah apalagi apalah apanya apapun arti
artian artinya asalan asalkan asumsi asumsinya atas atasnya atau ataukah ataupun awal bagai bagaikan bagaimana bagaimanakah bagaimanapun bagi baginya bagus bagusnya bahkan bahwa baik baiknya balik banding bandingkan banyak banyaknya barangkali baru bawah bawahnya beberapa begini beginilah begitu begitulah begitupula begitupun belakang belakangan belum belumlah
benar benarkah benarnya berada berakhir berakhirnya berakibat berakibatkan beralasan beralih beralihnya beranggapan berapa berapanya berapapun berarti berasumsi berbagai berbagi berbanding berbeda berdampak berdasarkan berhadapan berharap berhubung berhubungan beri berikan berikanlah berikut berikutnya berjumlah berkat berkenaan berkesan berkesempatan berkesimpulan berlalu berlalunya berlama berlangsung bermula bersama bersamaan
bertepatan beruntun berupa besarnya beserta besok besoknya betapa biar biarlah biasa biasanya bicarakan bicaranya bila bilamana bilang bisa bisakah bisanya boleh boro buat buatnya bukan bukankah bukanlah bukannya buktikan cara cerita ceritanya contoh contohkan contohnya cukup cuma daerah dahulu dalam dan dapat dapatkah dapatkan dapatlah
dari darinya daripada dekat dekatnya demi demikian demikianlah dengan dengannya depan depannya di dia dialah dialami dialihkan diambil diambilkan diambilnya dianggap diantara diantaranya diapakan dibagi dibagikan dibeberapa diberbagai diberi diberikan diberinya dibiarkan dibiasakan dibilang dicontoh dicontohkan dicontohkannya didapat didapati didapatkan didapatnya didasarkan digolongkan digunakan diharapkan
19
Lampiran 1 Lanjutan dijadikan dijadikannya dikarenakan dikasih dikata dikatakan dikatakannya dikategorikan dikembangkan diketahui diketahuinya dilaksanakan dilakukan di mana dimulai dimulailah dimulainya dimungkinkan dipaparkan dipersilahkan disaat disebabkan disejumlah diseluruh disertai disertakan disimpulkan disitulah ditanggapi ditanya ditanyakan dituturkan diucapkan dkk dll dsb dua dulu dulunya empat enggak engkau esok gimana habis
habisan habiskan habisnya hal hampir hanya hanyalah hari harus haruskah haruslah harusnya hendak hendaklah hendaknya hingga how ialah ingin ini inilah inipun itu itulah itupun iya jadi jadikan jadilah jadinya jangan jarang jauh jelaskan jika jikalau juga jumlah jumlahnya justru juta kabupaten kadang kalau kalaupun
kali kalian kami kamu kan kapan karena karenanya kata katakan katakanlah katanya kau kayak kayaknya ke kebanyakan kebetulan kebiasaan kecil kecuali kemana kemanakah kembali kemudian kemungkinan kemungkinannya kenapa kenapakah kepada kepadanya kepala ketika ketimbang khususnya kini kita kondisi kurang lagi lagian lagipula lain lainnya laksana
lakukan lalu lalui lama lanjut lantaran lantas lebih lepas lewat lokasi maka makin mampu mampukah mampunya mana manakala manalagi manapun masa masih masihkah masing masuk masyarakat mau maupun melainkan melakukan melalui melihat memang memaparkan membagi membagikan memberi memberikan memberinya membiarkan membolehkan membuat memeperoleh memiliki meminta
20
Lampiran 1 Lanjutan memperbolehkannya mempersilahkan mempunyai memungkinkan menanggapi menanggapinya menanyakan mencapai mencontohkan mendapat mendapati mendapatkan mendapatkannya menerus mengada mengaku mengalami mengalihkan mengambil mengambilnya menganggap menganggapnya mengapa mengatakan mengembangkan mengenai menggunakan mengungkapkan meningkat meningkatkan menjadi menjadikan menjadikannya menjelang menjelaskan menuju menunjukkan menurut menurutnya menuturkan menyatakan menyebabkan menyebutkan menyia mereka
merupakan meski meskipun mesti mestinya misal misalkan misalnya mudah mula mulai mulainya mulanya muncul mungkin mungkinkah namun nanti negara nilai nyaris nyiakan oleh orang pada padahal padanannya paling panjangnya papar paparan paparkan paparnya para pasti pastilah pastinya pelak pelbagai pemaparan pembagian pembagiannnya pendapat pengalihan pengambil
pengambilan pengandaian per peralihan percuma peri perihal perlahan perlu pernah persen pertamanya pinggir pula pulalah pun rata relevankah rendah saat saatnya saatnyalah saja salah sama sambil sambutannya sampai sana sang sangat sangatlah satunya saya sayangnya seakan seandainya seantero sebab sebabkan sebabnya sebagai sebagaimana sebagainya sebagian
sebaik sebaiknya sebaliknya sebanyak sebelum sebelumnya sebenarnya seberapa seberat sebesar sebetulnya sebuah secara sedalam sedang sedangkan sedapat sedemikian sedikit sedikitnya segera sehabis seharusnya seharusnyalah sehingga sehubungan sejak sejauhmana sejumlah sekalian sekaligus sekalipun sekarang sekata sekedar sekeliling seketika sekian sekitar selagi selain selalu selama selanjutnya selesai
21
Lampiran 1 Lanjutan selesaikah seluruh seluruhnya semakin semampunya semenjak sementara semestinya semisal semoga semua semuanya semula seolah seorang seorangpun sepadan sepanjang sepasang sepele sependapat seperti sepertinya seputar seraya serba serentak sering seringkali seringkalinya seringlah seringnya serta sertanya sesaat sesama sesamamu
sesedikit seseorang sesuai sesuatu sesuatunya sesudah sesudahnya sesukanya sesungguhnya setelah setelahnya seterusnya setiap setidak setidaknya seusai sewaktu seyogyanya sia sialnya siap siapa siapakah siapapun silahkan singkatnya sini sinilah situ sosok sosoknya suatu sudah sulit sungguh sungguhpun supaya
tak tambahnya tanggapan tanggapannya tanggapnya tanpa tapi tatkala telah tempat tengah tentang tentu tentunya tepatnya terbagi terbalik terbiasa terbilang terdapat tergolong terhadap terjadi terjadilah terjadinya terkadang terkait terkecuali terlalu terlebih termasuk ternyata tersebut tertentu terus tetap tetapi
tiap tiba tidak tidaklah tidaknya tiga tinggi tutur tuturnya ucap ucapan ucapannya ucapkan ucapnya ujar ujarnya umpamanya umum umumnya ungkap ungkapan ungkapkan ungkapnya untuk usah usahlah usai usianya waktu waktulah waktunya walau walaupun warga yaitu yakni yang
22
Lampiran 2 Daftar konsep No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Konsep beni manusia gorontalo benih kelapa bengkulu sekaa manyi isei lampung jabar tanaman organik dewan riset buncis daya saing gm liar sagu jas airport services lamun gks irak ppn untuk produk minyak kayu putih iup bahan jamu durian stadion produksi padi pertanian di ntb teknologi sel keramba minyak dan gas hutan dan lahan menanam
kota depok setek cabang pupuk organik pangan terancam ekspor udang kepiting danau toba serat kenaf masalah pertanian dan ketahanan 41 pangan 42 sman lahan pertanian di jateng 43 kekeringan
No 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
Konsep camay tanaman tomat asam lemak bebas free fatty acids daging dari amerika serikat penyelesaian lp kera asam folat minta solid solar djiman ribuan ha sawah pembebasan ppn lada perambah keong ayam di sukabumi kelapa sawit karet pasar ntp pot pot agen gadai gabah sampah telur paradigma panen perdana pemupukan nitrogen mochtar riady eks pengungsi timtim soedjai pertemuan apec banten antisipasi antraks pengawasan lalu lintas ternak diperketat tembakau kentang kementerian blotong ptfi ta sta papain papain
84 ktt 85 indonesia 86 bea masuk produk baja
23
Lampiran 2 Lanjutan No 87 88 89 90 91 92 93 94 95 96
No 130 131 132 133 134 135 136 137 138 139
Konsep krisis pg jatitujuh kades lampung jabar jateng nancy draf ruu tni bekasi ramie utara ekspor hortikultura
140 141 142 143 144 145 146 147 148 149 150
zakat ekowisata pelabuhanratu kakao sulteng was kebersihan kota bunga anggrek panili salak pondoh di sleman kopi lada jalan di kabupaten tangerang
111 112 113 114 115 116 117 118 119 120 121 122 123
Konsep terminal agrobisnis izin ho elyas industri sukarto agropolitan jers sar kujang nelayan dan petani ikan jeringau mentik wangi dan wangi lokal batara kekeringan den cinta kerja gula dan beras tebu di lampung jepara amien rais jawa bsm dinas perkebunan bengkulu tanaman jeruk bawang merah konversi lahan pertanian sawah adenium pertumbuhan sel dillon hutan hutan kopi sultan hb x ikan dan udang pabrik minyak kelapa benih jagung sertifikat fumigasi boyolali belalang
124 125 126 127 128 129
pertanian terhadap pdrb yogyakarta jambu mente sik sukaregang gula impor subak
167 168 169 170 171 172
97 98 99 100 101 102 103 104 105 106 107 108 109 110
151 serangan hdb 152 dana 153 tingkatkan 154 155 156 157 158 159 160 161 162 163 164 165 166
tragedi daging sapi bambu terminal cikarang cacing lumbricus bali pedagang los baksil fai umm perkara pidsus vaksin miyazawa deptan kl kasting dengan cekaman air dimulai 50 hst bunga bunga gagal badung tanah ekonomi
24
Lampiran 2 Lanjutan No 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217
Konsep lalap pohpohan pemadaman listrik eksportir pkk bab tidur diminta kota karawang nutrifarm ag sarjana harga beras impor hak penggarap virus flu burung pendekatan subsisten warno jahe merah depresiasi tahun winarti fao papua semarang parakuat kura kura pt pusri hentikan buah jeruk holtikultura dekopin pak manto akar wangi cdm petani layu pisang penetrans hama tikus indramayu sinjai injuk padi nasional arp bank syariah palestina pabrik jamu
No 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262
Konsep perhatian gaharu pasarkan hasil pertanian lengkeng ubi jalar riau sektor pertanian kina tungro asuransi syariah bibit tanaman obat pesisir lukisan foto mantan bupati alam sel telur kepiting museum rekor brastagi dan kabanjahe penerapan mikroba pendidikan kaltim kalteng rpu pemerintah bentuk biji jarak kontainer daging penyakit simalungun bibit pengelolaan perkebunan teh anyelir transmigran dana idb rosadi barang jalan tol apel benih padi unggul di pulau jawa titik api kenaf di lahan kapas transgenik lukas karl degey juragan perahu
25
Lampiran 3 Daftar kueri
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Kueri agropolitan mikroba gula impor vaksin flu burung pupuk organik ekspor udang kentang tanaman obat hama tikus beras organik transgenik hama wereng pertanian organik umbi harga bawang bioteknologi agrobisnis lahan gambut limbah sawit
26
Lampiran 4 Interpolasi maksimum ontologi R
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
0.0
1
1
1
1
1
1
1
1
1
1
0.1
1
1
1
1
1
1
1
1
1
1
0.2
1
1
1
1
1
1
1
1
1
1
0.3
1
1
1
1
1
0.78
1
1
1
1
0.4
1
1
1
1
1
0.64
1
1
1
1
0.5
1
1
1
1
1
0.5
1
1
1
1
0.6
1
1
0.82
1
1
0.23
1
1
1
0.67
0.7
1
0.6
0.82
1
1
0.23
1
0.63
0.11
0.56
0.8
1
0.6
0.82
1
0.95
0.23
1
0.63
0.11
0.41
0.9
0.71
0.6
0.61
0.89
0.95
0.23
1
0.55
0.11
0.41
1.0
0.71
0.6
0.23
0.89
0.92
0.23
1
0.55
0.11
0.41
P13
P14
P15
P16
P18
P19
P20
R
P11
P12
P17
0.0
1
1
1
1
1
1
1
1
1
1
0.1
1
1
1
1
1
1
1
1
1
1
0.2
1
1
1
1
1
1
1
1
1
1
0.3
1
1
1
1
1
1
1
1
0.75
1
0.4
0.8
1
1
1
1
1
1
1
0.75
1
0.5
0.8
1
1
1
1
1
1
0.92
0.75
1
0.6
0.8
1
0.12
0.89
0.67
1
0.94
0.92
0.75
0.71
0.7
0.45
1
0.12
0.83
0.67
1
0.94
0.74
0.08
0.71
0.8
0.45
1
0.12
0.81
0.67
1
0.84
0.74
0.08
0.44
0.9
0.13
1
0.12
0.74
0.64
1
0.84
0.74
0.08
0.44
1.0
0.13
0.86
0.12
0.63
0.64
1
0.84
0.74
0.08
0.44
27
Lampiran 5 Interpolasi maksimum Lucene R
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
0.0
1
1
1
1
1
1
1
1
1
1
0.1
1
1
1
1
1
1
1
1
1
1
0.2
1
1
1
1
1
1
1
1
1
1
0.3
1
1
1
1
1
0.78
1
1
1
1
0.4
1
1
1
1
0.95
0.64
1
1
1
0.86
0.5
1
1
0.89
1
0.95
0.26
1
1
1
0.86
0.6
1
1
0.89
1
0.95
0.25
1
1
1
0.44
0.7
1
0.6
0.89
1
0.95
0.24
0.19
0.63
0.17
0.44
0.8
1
0.6
0.89
1
0.95
0.24
0.19
0.63
0.17
0.44
0.9
0.71
0.6
0.58
0.89
0.95
0.19
0.19
0.55
0.17
0.44
1.0
0.71
0.6
0.27
0.89
0.92
0.12
0.19
0.55
0.17
0.39
P13
P14
P15
P16
P17
P18
P19
P20
R
P11
P12
0.0
1
1
1
1
1
1
1
1
1
1
0.1
1
1
1
1
1
0.2
1
1
1
1
1
1
1
0.91
1
1
1
0.2
0.91
1
1
0.3
1
1
1
1
1
1
0.2
0.91
0.75
1
0.4
0.8
1
1
1
1
1
0.2
0.91
0.75
1
0.5
0.8
1
1
1
1
1
0.2
0.89
0.75
1
0.6
0.8
1
0.24
0.89
0.67
1
0.2
0.89
0.75
1
0.7
0.45
1
0.24
0.83
0.67
1
0.2
0.89
0.08
1
0.8
0.45
1
0.24
0.82
0.67
1
0.2
0.89
0.08
0.64
0.9
0.12
1
0.24
0.69
0.64
1
0.2
0.58
0.08
0.64
1.0
0.12
0.86
0.24
0.36
0.64
1
0.2
0.27
0.08
0.64
28
Lampiran 6 Antarmuka sistem
29
RIWAYAT HIDUP Penulis dilahirkan di Cianjur Jawa Barat pada tanggal 21 Februari 1987 dari ayah M Sopandi dan ibu Julaeha. Penulis merupakan putri ketiga dari tiga bersaudara. Tahun 2005 penulis lulus dari SMA Negeri 1 Cilaku Cianjur dan pada tahun yang sama diterima di Program Keahlian Manajemen Informatika, Program Diploma III Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada tahun 2008 penulis menyelesaikan pendidikan Diploma III dan pada tahun berikutnya melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.