1 i TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS EKA MARLIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM...
TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS
EKA MARLIANA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
ii
TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS
EKA MARLIANA
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
iii
ABSTRACT EKA MARLIANA. Information Retrieval for RSS News Document in Bahasa Indonesia. Supervised by FIRMAN ARDIANSYAH. RSS (Really Simple Syndication) is a language derived from XML (Extensible Markup Language). The use of RSS as a syndication on Indonesian news sites has become widespread, as well as a syndicated news by news websites will continue to evolve in time, so it requires a search facility that can return information that explore the RSS data efficiently and effectively. Several studies have been conducted related to information retrieval, one of it was developed by Rahman (2006) which measured performance and compared the equality of returned XML document. This research tries to implement the information retrieval using VSM (Vector Space Model) to build an RSS search facility and to analyze and compare the effects of the use of additional title weighting with normal weighting. Test results show that the use of the normal weighting performs better than the use of weighting in the title. This is explained by the average precision value gotten from the test. At recall levels between 10% until 30% the average precision has the same value, at recall level 60% the average precision value of title weighting is higher than normal weighting, but between 40%, 50%, 70% until 100% the normal weighting precision is greater that of the title weighting. Keywords: Information Retrieval, RSS, Vector Space Model.
iv
Judul
: Temu Kembali Informasi Berita Berbahasa Indonesia Berbasis RSS
Dr. Ir. Sri Nurdiati, M.Sc NIP. 19601126 198601 2 001
Tanggal Lulus :
v
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 5 Maret 1984 dari pasangan Ahmad Sobari dan Nuriah. Penulis merupakan anak kedua dari enam bersaudara. Tahun 2002, penulis lulus dari SMU Negeri 7 Bogor. Pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) sebagai mahasiswa D3 Elektronika dan Teknologi Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA), IPB. Tahun 2006 penulis diterima di IPB sebagai mahasiswa S1 di Departemen Ilmu Komputer, FMIPA, IPB. Saat ini penulis adalah salah satu staf di BAKOSURTANAL.
vi
PRAKATA Bismillahirrahmanirrahim, Segala puji bagi Allah SWT, atas limpahan rahmat dan karunia-Nya dan semoga shalawat dan salam tetap tercurahkan kepada Nabi Muhammad SAW. Penulis mengucapkan Alhamdulillahi rabbal ‘alamin, atas selesainya skripsi dengan judul Temu Kembali Informasi Berita Berbahasa Indonesia Berbasis RSS. Skripsi ini merupakan salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Terlalu banyak pihak-pihak yang menjadikan penulis bisa mencapai hasil dan keadaan seperti sekarang ini. Dengan tidak bermaksud mengecilkan peran mereka semua dengan tidak menuliskannya pada bagian ini, penulis ingin menyampaikan penghargaan sebesar-besarnya kepada mereka semua. Bapak Firman Ardiansyah, S.Kom, M.Si selaku pembimbing atas seluruh saran, koreksi maupun bimbingan selama pengerjaan tugas akhir ini. Bapak Ahmad Ridha, S.Kom, M.S dan Sony Hartono Wijaya, S.Kom, M.Kom selaku penguji atas saran dan koreksinya. Seluruh anggota keluarga besar Departemen Ilmu Komputer atas kerja sama yang telah diberikan. Rasa terima kasih juga ingin penulis sampaikan kepada teman-teman seperjuangan yang telah banyak membantu. Mas Sukma Agung atas bantuan dan dukungannya, Ana, Rika, Holili, Harry, Wenny, Dede, Ajis, Dimas, Rico dan teman-teman ILKOM Ekstensi IPB yang tidak dapat disebutkan satu persatu, atas dukungan dan kebersamaannya. The last but not least, untuk keluargaku, Bapak, Mamah, Abang, Adik-adik atas cinta, dukungan, kesabaran, serta do’a yang selalu menyertai penulis. Terima kasih telah memberikan yang terbaik untuk penulis.
Bogor, Desember 2009
Eka Marliana
vii
DAFTAR ISI Halaman DAFTAR TABEL ............................................................................................................................viii DAFTAR GAMBAR........................................................................................................................viii DAFTAR LAMPIRAN.....................................................................................................................viii PENDAHULUAN ............................................................................................................................1 Latar Belakang ............................................................................................................................1 Tujuan .........................................................................................................................................1 Ruang Lingkup............................................................................................................................1 Manfaat .......................................................................................................................................1 TINJAUAN PUSTAKA ...................................................................................................................1 Temu Kembali Informasi ............................................................................................................1 RSS .............................................................................................................................................1 Parsing ........................................................................................................................................1 Stemming.....................................................................................................................................1 Pembobotan tf-idf........................................................................................................................1 Vector Space Model ....................................................................................................................2 Recall Precision ..........................................................................................................................2 Average Precision .......................................................................................................................2 Hash Function.............................................................................................................................3 METODOLOGI PENELITIAN........................................................................................................3 Koleksi Dokumen........................................................................................................................3 Pemilihan Ukuran Kesamaan ......................................................................................................3 Tahap-tahap Penelitian................................................................................................................3 Text Operation.......................................................................................................................3 Indexing .................................................................................................................................5 Searching...............................................................................................................................5 Ranking..................................................................................................................................5 User Interface ........................................................................................................................5 Evaluasi Sistem .....................................................................................................................5 Asumsi-asumsi ............................................................................................................................5 Lingkup Implemental ..................................................................................................................6 HASIL DAN PEMBAHASAN.........................................................................................................6 Koleksi Dokumen........................................................................................................................6 Tahap-tahap Penelitian................................................................................................................6 Text Operation.......................................................................................................................6 Indexing .................................................................................................................................9 Searching...............................................................................................................................10 Ranking..................................................................................................................................10 User Interface........................................................................................................................10 Evaluasi Sistem .....................................................................................................................10 KESIMPULAN DAN SARAN.........................................................................................................11 Kesimpulan .................................................................................................................................11 Saran ...........................................................................................................................................11 DAFTAR PUSTAKA .......................................................................................................................11 LAMPIRAN .....................................................................................................................................14
viii
DAFTAR TABEL Halaman 1 2 3 4 5 6
Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer .........................................4 Penambahan aturan pemotongan..............................................................................................4 Situs berita dan jumlah RSS yang diunduh ..............................................................................6 Daftar kueri untuk pengujian sistem.........................................................................................6 Average precision dengan pembobotan judul ..........................................................................11 Average precision dengan pembobotan normal .......................................................................11
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9 10 11
Sistem temu kembali informasi ................................................................................................3 Desain dasar dari Tala stemmer untuk bahasa Indonesia .........................................................4 Lima aturan pemotongan imbuhan ...........................................................................................5 Representasi berita dalam dokumen RSS.................................................................................7 Stemming tanpa penyisipan huruf.............................................................................................8 Stemming dengan penyisipan huruf..........................................................................................9 Tabel posting ............................................................................................................................9 Tabel dictionary .......................................................................................................................9 Hasil pembobotan tf-idf ............................................................................................................9 Nilai cosine untuk kueri uji coba ”nuklir Iran” ........................................................................10 Daftar dokumen dan nilai cosine yang telah terurut berdasarkan kueri masukan ”nuklir Iran” .............................................................................................................................10 12 User interface dari sistem temu kembali..................................................................................10 13 Grafik average precision..........................................................................................................12
DAFTAR LAMPIRAN Halaman 1 2 3 4 5
Contoh dokumen RSS yang diperoleh dari situs berita Okezone ............................................14 Hasil proses parsing tahap satu ................................................................................................15 Daftar hasil ujicoba kueri .........................................................................................................16 Recall, precision dan nilai recall vs precision yang digunakan untuk membuat grafik sebelas standar recall setiap kueri. ...........................................................................................17 Grafik sebelas standar recall untuk setiap hasil kueri yang diujicobakan ................................23
1
PENDAHULUAN Latar Belakang Beberapa situs berita di Indonesia seperti Kompas, Okezone, Tempo, Antara dan lain sebagainya telah menggunakan RSS dalam menyajikan sindikasi berita. Jumlah berita yang disindikasikan oleh situs berita tersebut akan terus berkembang seiring dengan berjalannya waktu. Oleh karena itu perlu dikembangkan sebuah fasilitas temu kembali informasi yang dapat mengeksplorasi data tesebut secara efisien. Hal ini bertujuan untuk memudahkan pengguna mendapatkan berita yang relevan dengan yang diinginkan. Tujuan 1.
Mengimplementasikan temu kembali informasi untuk dokumen berita berbahasa Indonesia dengan format RSS.
2.
Menelaah kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen berita berbahasa Indonesia.
Ruang Lingkup Korpus terdiri atas dokumen berita berbahasa Indonesia dengan format RSS 2.0, berjumlah 173 dokumen RSS. Untuk pengujian sistem digunakan 10 kueri percobaan. Manfaat Dari penelitian ini diharapkan terbentuk sebuah engine yang dapat menemukembalikan dokumen berita dengan format RSS berdasarkan kueri yang diberikan pengguna.
TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian dan pengaksesan informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan oleh pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).
RSS Really Simple Syndication (RSS) merupakan turunan dari bahasa XML. Extensible Markup Language (XML) adalah format teks yang sederhana dan sangat fleksibel yang diambil dari SGML (ISO 8879). RSS adalah suatu format yang digunakan untuk sindikasi berita dan isi dari situs seperti berita, termasuk situs berita besar seperti Wired, situs komunitas yang berorientasi berita seperti Slashdot, dan weblog pribadi. Maksud dari sindikasi di sini adalah sebuah situs yang memiliki RSS Feed dapat dibaca isinya tanpa harus mengunjungi situs yang bersangkutan. RSS tidak hanya untuk berita. Hampir semua hal yang bisa dipilah-pilah menjadi bagianbagian diskret dapat disindikasi melalui RSS: halaman "recent changes" dari sebuah wiki, changelog dari CVS checkins, bahkan juga sejarah revisi dari sebuah buku. (XML 2002). Parsing Untuk pemrosesan, dokumen dipilih menjadi unit-unit yang lebih kecil contohnya berupa kata, frasa atau kalimat. Unit hasil pemrosesan disebut sebagai token. Dalam proses ini biasanya juga digunakan sebuah daftar kata yang tidak digunakan (stoplist) karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya kata-kata tugas seperti yang, hingga, dan dengan. Proses parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya (Ridha 2002). Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilah-istilah dokumen (Grossman 2002). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang sama memiliki makna yang serupa. Dalam hal keefektifan stemming dapat meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk kata dasarnya. Selain itu proses stemming juga dapat mengurangi ruang penyimpanan indeks (Ridha 2002). Pembobotan tf-idf Pada saat pengindeksan, dokumen RSS diekstrak melalui proses parsing untuk mendapatkan istilah-istilah dari masing-masing dokumen. Untuk setiap pasangan istilah dan dokumen tersebut diberikan pembobotan tf-idf:
tf − idf i, j = tf i, j × idf i .
2
Untuk pembobotan istilah dalam dokumen dihitung dengan rumus berikut: freqi, j tf i, j = , max i freqi, j di mana bobot kemunculan istilah dalam dokumen merupakan hasil bagi antara tingkat kepentingan istilah tersebut dalam dokumen tf dengan tingkat kepentingannya pada i, j keseluruhan dokumen dalam koleksi idf t .
( )
Dengan
( freqi, j )
= banyaknya kemunculan
istilah (i ) dalam dokumen, dan max i freq i , j = kemunculan terbanyak ( f ) dari istilah dalam dokumen. Ukuran max i freq i , j digunakan sebagai faktor normalisasi karena dokumen yang panjang cenderung memiliki lebih banyak istilah dan frekuensi istilah yang lebih tinggi. Tingkat kepentingan istilah terhadap keseluruhan dokumen dalam koleksi dihitung dengan rumus berikut: N idf i = log n i
,
Q = (WQ(t1), WQ(t2), WQ(t3), ..., WQ(tn)), D = (WD(t1), WD(t2), WD(t3), ..., WD(tn)), dengan WQ(ti) adalah bobot istilah t dalam kueri dan WD(ti) adalah bobot istilah t dalam dokumen. Nilai WD(ti) adalah nilai tf-idf(ti). Selanjutnya derajat kesamaan ρ (Q, D ) antara dokumen dan kueri dapat dihitung menggunakan kosinus sudut antara vektor D dan Q dengan rumus sebagai berikut: (Rahman 2006)
ρ (Q, D ) =
()
()
∑ ti ∈ Q | D WQ ti ∗WD ti . Q ∗ D
Recall – Precision
Recall dan Precision adalah dua ukuran yang umum digunakan untuk mengevaluasi kualitas dari temu kembali informasi.
dengan N adalah banyaknya dokumen dalam koleksi dan ni adalah banyaknya dokumen
( )
yang mengandung istilah (i ) . Selain pembobotan istilah pada dokumen, pembobotan juga dilakukan pada istilah kueri. Berikut ini adalah pembobotan yang digunakan untuk istilah kueri. 0.5 × freqi, q N wi, q = 0.5 + × log df max i freqi, q t
Dalam temu kembali informasi pada dokumen, VSM digunakan untuk memodelkan tingkat kesamaan antara dokumen dengan kueri. Pada umumnya pengukuran tingkat kesamaan dilakukan dengan cara menghitung kosinus sudut antara vektor kueri dengan dokumen. Kueri dan dokument dapat dinyatakan dalam vektor istilah sebagai berikut:
,
Dalam temu kembali informasi precision didefinisikan sebagai jumlah dari dokumen relevan yang ditemukembalikan dibagi dengan jumlah total dokumen yang ditemukembalikan dari hasil pencarian, sedangkan recall didefinisikan sebagai jumlah dari dokumen relevan ditemukembalikan dibagi dengan jumlah total dokumen relevan yang ada dalam koleksi. Recall dan precission dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999).
dengan
freqi, q = banyaknya kemunculan istilah ( f ) dalam kueri, dan max i freqi , q =
Re call =
kemunculan terbanyak ( f ) dari istilah dalam kueri (Baeza-Yates & Ribeiro-Neto 1999).
Pr ecision =
Vector Space Model
Vector Space Model (VSM) merupakan salah satu model matematika yang digunakan untuk merepresentasikan sistem dan prosedur penemukembalian informasi yang merepresentasikan kueri dan dokumen dengan gugus istilah dan menghitung kesamaan global antara kueri dan dokumen (Salton 1989).
AI R , R AI R , A
dengan A adalah jumlah dokumen yang ditemukembalikan, R adalah jumlah dokumen yang relevan dalam koleksi, dan A I R adalah jumlah dokumen relevan yang ditemukembalikan. Average Precision
Average precission adalah suatu ukuran evaluasi kinerja temu kembali yang diperoleh dengan menghitung rata-rata precision pada
3
berbagai tingkat recall, biasanya digunakan sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. Adakalanya tingkat recall yang diperoleh tiap kueri berbeda dengan sebelas tingkat recall standar yang ada. Untuk kasus yang seperti ini dibutuhkan prosedur interpolasi. Jika r j , j ∈ {0,1,2,...,10 ke- j maka :
}
adalah tingkat recall standar
P r j = max r ≤ r ≤ r j + 1 P (r ) , j dengan demikian, precision interpolasi pada tingkat recall standar ke-j adalah precision tertinggi pada setiap tingkat recall antara j hingga 1999).
( j + 1)
(Baeza-Yates & Ribeiro-Neto
Hash Function
Hash function adalah suatu metode yang digunakan untuk mengubah data yang ada menjadi sebuah bilangan yang relatif kecil (small number) yang akan menjadi “sidik jari” (fingerprint) dari data terebut. Fungsi ini memecah dan mengolah data untuk menghasilkan kode atau nilai hash-nya. Nilai dari suatu fungsi hash akan memiliki panjang yang tetap untuk masukan dengan panjang yang sembarang. Secara umum, fungsi hash memiliki beberapa sifat utama, yaitu : fungsi satu arah, artinya untuk suatu nilai fungsi hash y, sulit menemukan nilai input x yang memenuhi persamaan H(x)=y, dan collision free/resistant, artinya sulit untuk menemukan 2 buah nilai input yang memunyai nilai fungsi hash yang sama.
Pemilihan ukuran kesamaan
Beberapa ukuran kesamaan yang dapat digunakan dalam VSM di antaranya inner product, cosine, dice, jaccard, overlap dan asymmetric. Pada penelitian yang dilakukan oleh Rorvig (1999), dibandingkan lima ukuran kesamaan (cosine, dice, jaccard, overlap, dan asymetric) hasil uji menunjukkan bahwa ukuran kesamaan cosine dan overlap memiliki kinerja temu kembali yang lebih baik dibanding yang lain. Hasil penelitian yang dilakukan oleh Rahman (2006) yang melakukan perbandingan kinerja empat ukuran kesamaan (cosine, dice, jaccard, dan overlap), hasil uji menunjukkan bahwa ukuran kesamaan cosine memberikan kinerja temu kembali yang lebih baik dibandingkan dengan tiga ukuran kesamaan lainnya. dice dan jaccard tidak jauh berbeda sedangkan overlap memiliki kinerja yang paling rendah. Merujuk kepada hasil kedua penelitian tersebut maka ukuran kesamaan yang akan digunakan dalam penelitian ini adalah ukuran cosine. Tahap-tahap Penelitian
Gambar 1 menunjukkan gambaran sistem secara umum yang akan dibuat dalam penelitian ini
Salah satu fungsi hash yang banyak digunakan adalah Message Digest 5 (MD5). Algoritme MD-5 secara garis besar adalah mengambil pesan yang memunyai panjang variabel diubah menjadi ‘sidik jari’ atau ‘intisari pesan’ yang memunyai panjang tetap yaitu 128 bit.
METODE PENELITIAN
Gambar 1 Sistem temu kembali informasi (Baeza & Ribeiro 1999). Tahapan-tahapan yang penelitian ini adalah :
dilakukan
dalam
Koleksi Dokumen
Text operation
Dokumen berita yang akan digunakan pada penelitian berasal dari beberapa situs berita di Indonesia seperti Antara, Detik, Liputan 6, Kompas, Okezone, dan Tempo. Data yang digunakan adalah data dengan format RSS versi 2.0.
Proses yang dilakukan dalam text operation adalah proses parsing dan stemming. 1.
Parsing
Parsing dilakukan dengan pengambilan token dari dokumen RSS dengan menggunakan XML Parser. Pada
4
proses ini yang termasuk ke dalam stoplist (daftar kata-kata buangan) akan diabaikan. Parsing dilakukan dalam dua tahap yaitu : •
Parsing tahap satu Parsing pada tahap satu bertujuan untuk mengambil dan memisahkan setiap berita menjadi token berita. Setiap token berita dalam dokumen RSS direpresentasikan dalam elemen item. Untuk mencegah adanya duplikasi berita maka digunakan hash function MD5 yang bertujuan untuk menghasilkan identitas yang unik untuk setiap token berita berdasarkan isi dari token tersebut.
•
Parsing tahap dua Parsing tahap dua bertujuan untuk parsing isi token berita yang didapat dari proses parsing tahap satu. Pada tahapan ini dilakukan parsing terhadap isi dari setiap token berita sehingga dihasilkan token istilah. Token istilah beserta identitas token berita digunakan dalam proses indexing.
2.
Stemming
Stemming adalah proses pemotongan kata untuk mengembalikan kata ke bentuk dasarnya sehingga dapat meningkatkan hasil recall. Algoritme stemmer yang digunakan dalam penelitian ini diadopsi dari Tala stemmer. Tala stemmer memodifikasi algoritme Porter stemmer untuk bahasa Indonesia. Selain menggunakan daftar imbuhan dan aturan yang ada pada Tala stemmer, pada penelitian ini dilakukan penambahan aturan pemotongan dan imbuhan yang dapat dilihat pada Tabel 1 dan 2.
Hanya saja pemotongan imbuhan yang berupa sisipan sulit dilakukan untuk itu dalam penelitian ini sisipan atau infiks diabaikan. Daftar imbuhan dapat dilihat pada Tabel 1, sedangkan aturan pemotongan imbuhan dapat dilihat pada Gambar 3. Tabel 1 Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer Imbuhan
Bahasa Indonesia memiliki Struktur morfologi sebagai berikut: [prefiks1] + [prefiks2] + kata dasar + [sufiks] + [kata ganti kepunyaan] + [partikel] dengan tanda [ ] menunjukkan pilihan. Struktur tersebut dapat digunakan sebagai panduan dalam proses stemming. Desain dasar dari proses stemming dapat dilihat pada Gambar 2. Pemotongan kata dilakukan dengan menghilangkan partikel, kata ganti kepunyaan, prefiks (awalan), infiks (sisipan), sufiks (akhiran), dan konfiks (gabungan antara prefiks dan sufiks).
Gambar 2 Desain dasar dari Tala stemmer untuk bahasa Indonesia (Tala 2003).
5
Sebagaimana algoritme Tala, digunakan suatu fungsi penghitung ukuran kata untuk mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal stem hasil berukuran dua kecuali jika token berukuran kurang dari dua. Jumlah vokal dalam kata akan digunakan sebagai penentu ukuran kata kecuali kata-kata tanpa vokal yang terdiri atas tiga karakter atau lebih dianggap memiliki ukuran dua untuk mengakomodasi singkatan yang hanya terdiri atas konsonan (Ridha 2002). Selain menggunakan daftar imbuhan proses stemming dalam penelitian ini menggunakan aturan gugus konsonan dalam proses pemotongannya, serta menggunakan kamus kata dasar bahasa Indonesia untuk melakukan pemeriksaan apakah kata yang dihasilkan merupakan kata dasar atau bukan.
Indexing
Pada tahapan ini dibangun sebuah indeks kata dari hasil text operation, dengan menggunakan teknik inverted index. Searching
Proses pencarian kueri dilakukan dengan menghitung tingkat relevansi kueri dengan dokumen yang ada. Algoritme pencarian yang digunakan pada inverted index adalah Vocabulary search, yaitu kueri dicari di dalam perbendaharan kata yang terdapat pada indeks. Hal yang perlu ditekankan adalah kueri harus dipisahkan per kata (parsing). Ranking
Pada tahapan ini dilakukan pengurutan dokumen berdasarkan tingkat relevansi antara kueri dan dokumen. User Interface
Perancangan dan pembuatan user interface dari sistem yang akan menjembatani pengguna dengan sistem itu sendiri. Evaluasi Sistem
Evaluasi dilakukan dengan mengukur kinerja temu kembali dengan menggunakan pendekatan recall–precission. Sistem akan mengembalikan daftar dokumen terurut menurun berdasarkan hasil fungsi kesamaan kueri dan dokumen. Batasan dan asumsi
Batasan dan asumsi yang akan digunakan dalam penelitian ini adalah sebagai berikut : 1. Dokumen dan kueri menggunakan karakter ASCII. 2. Dokumen yang digunakan adalah dokumen berekstensi XML dengan format RSS versi 2.0. 3. Pengindeksan hanya dilakukan untuk isi dari elemen title dan description. Tag, atribut dan elemen lain seperti link dan pubdate tidak diindeks karena diangggap tidak terlalu penting dalam RSS berita. 4. Tidak ada kesalahan penulisan XML dalam dokumen RSS. 5. Pengujian dilakukan dengan membandingkan kinerja sistem yang menggunakan pembobotan judul dengan pembobotan normal. Gambar 3 Lima aturan pemotongan imbuhan (Tala 2003).
6. Istilah yang terdapat pada elemen title (judul berita) memiliki bobot dua kali lebih
6
besar dibandingkan dengan istilah yang berada pada description.
Tabel 3 Situs berita dan jumlah RSS yang diunduh
Lingkup Implemental
Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat Lunak : • • • •
Sistem operasi Windows XP Professional Java 1.6 Apache Tomcat 6 MySQL 5
Perangkat Keras : • •
Situs Berita
Jumlah Dokumen XML RSS
Jumla h Berita
Antara
27
350
Detik
3
22
Liputan 6
3
30
Kompas
47
666
Okezone
48
306
Tempo
39
346
Total
167
1720
akan
Processor Intel dual core 1.6 GB RAM 1 GB HASIL DAN PEMBAHASAN
Koleksi Dokumen
Penelitian ini menggunakan koleksi dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang diunduh pada tanggal 22, 23 dan 27 Agustus 2009. Contoh dari salah satu dokumen RSS berita dapat dilihat pada Lampiran 1. Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167 dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita (Tabel 3). Hal ini dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar. Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang relevan yang akan dipergunakan untuk mengukur kinerja sistem temu kembali informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat dilihat pada Tabel 4. Tahap-tahap Penelitian Text Operation 1. Parsing
Dokumen masukan diproses secara sekuensial dan menghasilkan sebuah token. Proses parsing dilakukan dalam dua tahapan yaitu:
Tabel 4 Daftar kueri untuk pengujian sistem No
Kueri
Dokumen Relevan
1
Kebakaran
7
2
Gempa bumi
5
3
Inter Milan
15
4
Kebakaran hutan
5
5
Nuklir Iran
4
6
Pembunuhan Nasrudin
5
7
Tari pendet
29
8
Virus komputer
6
9
Pemakaman Michael Jackson
7
Pemilu di Afghanistan
7
10
a. Parsing tahap satu Proses parsing tahap satu adalah sebagai berikut: • Dokumen dimuat ke dalam memori, dengan menggunakan JDOM (external library yang digunakan dalam Java), kemudian dilakukan proses pembacaan secara sekuensial untuk mendapatkan setiap token berita yang ada di dalam dokumen RSS. Sebuah berita dalam dokumen RSS direpresentasikan dalam sebuah elemen item (Gambar 4) sehingga proses parsing dilakukan berdasarkan elemen tersebut untuk mendapatkan berita yang terdapat pada dokumen RSS.
7
Istilah yang didapatkan dari hasil parsing tahap kedua disebut token istilah, yang kemudian diubah ke dalam bentuk lower case (Ridha 2002). 2.
Mekanisme stemming digunakan untuk mengatasi masalah variasi dalam bentuk kata yang sebenarnya memiliki makna yang sama. Penelitian ini menggabungkan metode Tala stemmer yang telah diadopsi dengan penggunaan kamus kata dasar bahasa Indonesia dan gugus konsonan.
Gambar 4 Representasi berita dalam dokumen RSS. • Setiap token berita yang diperoleh dibentuk sebuah identitas yang unik yang akan digunakan sebagai nama berkas dari token berita tersebut dengan menggunakan teknik enkripsi MD5. Nama file dan token berita disimpan ke dalam basis data. Hasil dari proses parsing tahap satu dapat dilihat pada Lampiran 2.
Beberapa fungsi pendukung yang digunakan dalam stemming antara lain
Dari proses parsing tahap satu dihasilkan 1720 berita dari 167 dokumen RSS. b. Parsing tahap dua Setiap token berita yang diperoleh dari tahap satu diproses kembali, parsing di sini bertujuan untuk mendapatkan token istilah (satuan perkata) dari token berita. Tidak semua informasi yang ada pada token berita dipergunakan, hanya informasi yang tersimpan dalam elemen title dan description yang diolah, di mana elemen title dan description merepresentasikan judul dan deskripsi berita. Berikut ini adalah proses parsing tahap dua: •
Dengan menggunakan JDOM isi elemen item dan description diambil.
•
Proses pengambilan token istilah dengan cara membaca satu persatu karakter. Sebuah karakter dapat berupa salah satu dari tiga jenis berikut: ini
o alphanumeric, berarti karakter merupakan huruf atau angka
ini
o other, berarti karakter ini tidak termasuk jenis-jenis di atas. •
•
a.
isBasicWord(s), mengembalikan true bila kata s adalah kata dasar selainnya false;
b.
isVocal(c), mengembalikan true bila karakter c termasuk ke dalam huruf vokal (a, i, u, e, o) selainya false;
c.
substring(i, n), mengembalikan potongan karakter dimulai dari indeks ke i sampai indeks ke n dari karakter token istilah;
d.
numberOfVocals(s), mengembalikan jumlah huruf vokal dalam kata.
berikut adalah aturan dan proses pemotongan untuk tiap imbuhan yang diadopsi dari aturan pemotongan pada penelitian Aries (2005): a.
partikel - lah (M>2) lah
b.
partikel - kah (M>2) kah
c.
partikel - tah (M>2) tah
d.
partikel - pun (M>2) pun
e.
kata ganti kepunyaan - ku (M>2) ku
f.
kata ganti kepunyaan - mu (M>2) mu
g.
kata ganti kepunyaan - nya (M>2) nya
h.
sufiks - i (M>2) i
i.
sufiks - an (M>2) an
j.
sufiks - kan (M>2) kan
dari
o whitespace, berarti karakter merupakan karakter pemisah token
Jika karakter yang ditemukan merupakan huruf atau angka maka karakter tersebut menjadi karakter pertama dari istilah. Karakter-karakter selanjutnya menjadi bagian dari istilah tersebut hingga ditemukan karakter whitespace atau akhir dari istilah.
Stemming
8
k.
prefiks - di (M>2) di
e.
prefiks - ke (M>2) ke
Penghilangan kata ganti kepunyaan. Langkah ini dilakukan untuk menghilangkan kata ganti kepunyaan,
l.
f.
m. prefiks - se (M>2) se
Penghilangan sufiks. Langkah ini dilakukan untuk menghilangkan sufiks,
g.
Penghilangan prefiks. Untuk prefiks terdapat tambahan aturan berupa penyisipan dan penghilangan karakter. Dilanjutkan dengan pemeriksaan apakah masih ada prefiks yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi maka lakukan langkah selanjutnya,
h.
Setelah tidak ada lagi imbuhan yang tersisa, kemudian kata-kata yang ada pada koleksi hasil potong dicari ke dalam kamus kata dasar, urutan pengecekan dilakukan berdasarkan ukuran pemotongan imbuhan yang terbesar. Jika kata dasar tersebut ditemukan maka kata hasil proses stemming tersebut dikembalikan dan proses dihentikan,
i.
Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak ditemukan pada kamus maka kata asli sebelum dilakukan proses stemming yang akan dikembalikan.
n.
prefiks - ter (M>2) ter
o.
prefiks - ber be (M>2 and C* and er*) bel (ajar*) ajar ber (M>2)
p.
q.
prefiks - peng pe (M>2) pen (M>2 and V*) pen (M>2 and C*) pem (M>2 and V*) pem (M>2) and C*) peny (M>2 and V*) peng (M>2 and C*) peng (M>2 and e*) peng (M>2 and V*) peng (M>2 and V*) prefiks - meng me (M>2) men (M>2 and V*) men (M>2 and C*) mem (M>2 and V*) mem (M>2) and C*) meny (M>2 and V*) meng (M>2 and C*) meng (M>2 and e*) meng (M>2 and V*) meng (M>2 and V*)
t p s remove e k
t p s remove e k
Dalam hal ini V* : diawali dengan huruf vokal, C* : diawali dengan huruf konsonan, dan e* : diawali dengan huruf e, dan M adalah jumlah minimal ukuran hasil stem.
Sebelum menggunakan stemming istilah unik yang dihasilkan oleh proses Indexing sebesar 10.053. Hal ini berbeda ketika stemming ditambahkan pada saat proses pengindexan ke dalam sistem, jumlah istilah unik menjadi sebesar 7.459. Hasil pengujian menunjukkan bahwa stemming dapat mengurangi jumlah token istilah dalam penelitian sebesar 25.08 %. Contoh penerapan stemming yang telah diurutkan berdasarkan ukuran imbuhan yang terbesar dapat dilihat pada Gambar 5 dan 6.
Proses stemming dilakukan dengan langkahlangkah sebagai berikut : a.
Kata yang akan di-stemming pertama kali dicari ke dalam kamus. Jika kata tersebut ditemukan, maka kata tersebut adalah kata dasar, dan proses stemming dihentikan,
b.
Kata asli, kata hasil pemotongan dan imbuhan yang dipotong dicatat ke dalam koleksi hasil potong,
c.
Daftar kata pada koleksi hasil potong diiterasi untuk proses pengecekan dan pemotongan imbuhan,
d.
Penghilangan partikel. Langkah ini dilakukan untuk menghilangkan partikel,
Gambar 5 Stemming tanpa penyisipan huruf.
9
terdapat pada judul, dengan asumsi bahwa token istilah yang terdapat pada judul berita dianggap lebih penting dari pada tubuh berita. Untuk token istilah yang tidak berada pada judul maka nilai freqi, tittle = 0 .
Gambar 6 Stemming dengan penyisipan huruf. Indexing
Proses pengindeksan dokumen dilakukan sebagai berikut: 1.
proses pengekstrakan token-token istilah yang didapat dari hasil text operation,
2.
jika token istilah termasuk ke dalam daftar kata buang maka token dilewati,
3.
token istilah diubah ke dalam bentuk kata dasar (stemming),
4.
untuk setiap pasang token istilah dan token berita, ditambahkan informasi ke dalam posting (Gambar 7) dan dictionary (Gambar 8) yang bersesuaian,
5.
proses token item berikutnya hingga seluruh dokumen dalam koleksi ditambahkan ke dalam indeks,
6.
setelah semua dokumen terindeks proses pembobotan tf-idf dilakukan terhadap masing-masing pasangan token istilah dan token berita. Untuk token istilah yang terdapat pada tubuh berita pembobotan dilakukan secara normal, sedangkan untuk token istilah yang merupakan bagian dari judul dilakukan pembobotan dengan memodifikasi nilai frekuensi. Contoh hasil dari pembobotan yang dilakukan terhadap token istilah yang telah terindeks dapat dilihat pada Gambar 9.
Pembobotan terhadap token istilah yang merupakan bagian dari judul adalah sebagai berikut : tf i, j =
( freqi, j − freqi, title ) + ( freqi, title × 2) , maxi freqi, j
di mana besaran angka dua adalah asumsi penulis untuk memboboti token istilah yang
Gambar 7 Tabel posting.
Gambar 8 Tabel dictionary.
Gambar 9 Hasil pembobotan tf-idf. Untuk pengindeksan teks kueri digunakan tahap satu, dua, empat dan lima. Tahap tiga dilewati karena pada saat pengindeksan teks kueri tidak akan dimasukkan ke dalam tabel posting dan dictionary, pengindeksan disini hanya bertujuan untuk mendapatkan frekuensi istilah. Untuk tahap lima berbeda dengan pengindeksan dokumen, di sini teks kueri
10
diboboti dengan menggunakan pembobotan sebagai berikut: 0.5 × freqi, q N wi, q = 0.5 + × log df max i freqi, q t
.
Searching
Pada tahap ini dilakukan pencarian kata kueri ke dalam inverted index untuk menemukan dokumen mana saja yang mengandung kata kueri.
Hasil dari pengurutan inilah yang akan dikembalikan kepada pengguna sebagai hasil dari pencarian berdasarkan teks kueri yang diinputkan oleh pengguna. Pengurutan yang dilakukan oleh sistem berdasarkan nilai cosine hasil dari tahap searching dapat dilihat pada Gambar 11. User Interface
User interface dari sistem temu kembali pada penelitian ini dapat dilihat pada Gambar 12.
Setelah ditemukan, kemudian dilakukan proses pengukuran tingkat kedekatan antara kueri dan dokumen dengan menggunakan ukuran kesamaan cosine, sehingga setiap dokumen memiliki nilai kedekatan dengan kueri. Contoh hasil penghitungan nilai cosine sebelum diurutkan dengan menggunakan kueri uji coba ”nuklir Iran” dapat dlihat pada Gambar 10.
Gambar 12 User interface dari sistem temu kembali. Evaluasi sistem temu kembali informasi
Evaluasi yang digunakan dalam penelitian ini adalah evaluasi untuk mengukur keefektifan sistem dalam menemukan dokumen yang relevan terhadap kueri masukan pengguna. Gambar 10 Nilai cosine untuk kueri uji coba ”nuklir Iran".
Pengujian dilakukan sebanyak dua kali, pengujian pertama dilakukan dengan memberikan bobot lebih pada judul dan yang kedua adalah pengujian dengan menggunakan pembobotan secara normal. Dari hasil pengujian (Lampiran 3), dapat dilihat bahwa jumlah dokumen relevan dan jumlah dokumen yang ditemukembalikan pada masing-masing pembobotan hasilnya sama.
Gambar 11 Daftar dokumen dan nilai cosine yang telah terurut berdasarkan kueri masukan ”nuklir Iran”. Ranking
Pengurutan atau ranking dilakukan berdasarkan nilai kesamaan yang dimiliki setiap dokumen dari hasil penghitungan cosine pada tahap searching. Pengurutan nilai kesamaan tersebut dilakukan secara asscending untuk mendapatkan urutan dokumen yang memiliki tingkat kesamaan mulai dari yang paling tinggi sampai yang terendah.
Perbedaan dapat terjadi pada urutan dokumen relevan yang ditemukembalikan oleh sistem. Hal ini dikarenakan dokumen yang tidak relevan tetapi mengandung kata kueri pada judul dokumen, dapat memiliki nilai cosine yang lebih tinggi dari pada dokumen yang relevan tetapi tidak mengandung kata kueri pada judul. Dari tabel recall precision kesepuluh kueri pada Lampiran 4 dan grafik average precision pada Lampiran 5 terlihat bahwa 90% hasil pencarian mengembalikan recall sebesar 100%, salah satunya pada kueri pengujian kesatu, dan recall terendah sebesar 85,71% pada kueri pengujian ke sepuluh.
11
Penurunan recall ini terjadi pada kueri kesepuluh yaitu ”pemilu di Afghanistan” setelah dilakukan pengamatan, yang menjadi faktor penyebabnya adalah dari sisi penulisan. Masalah penulisan terjadi pada saat dokumen relevan yang tidak ditemukembalikan memiliki cara penulisan nama negara yang berbeda dengan kueri, pada dokumen relevan yang tidak dapat ditemukembalikan oleh sistem tertulis ”Afganistan” hal ini tentunya akan dianggap berbeda dengan kata ”Afghanistan” pada kueri. Untuk melihat kinerja sistem berdasarkan nilai average precision masing-masing pengujian dapat dilihat pada Tabel 5, dan
grafik average precision pada Gambar 13. Pada tabel dan grafik average precision terlihat bahwa dengan pembobotan normal pada tingkat recall 30% sampai dengan 50% dan 70% sampai dengan 100%, sistem memiliki tingkat precision rata-rata lebih tinggi dibandingkan dengan yang menggunakan pembobotan lebih pada judul, hanya pada saat tingkat recall 60% sistem dengan pembobotan lebih pada judul memiliki nilai precision rata-rata lebih tinggi dari pembobotan normal. Dengan demikian dapat disimpulkan bahwa penggunaan pembobotan normal memberikan hasil yang lebih baik dari pada penggunaan pembobotan judul.
Tabel 5 Average precision dengan pembobotan judul Average Precision (AVP) dengan Pembobotan Judul
Precision (%)
Kueri
Recall (%) 0
10
20
30
40
1
100.00
100.00
100.00
100.00
100.00
57.14
50.00
50.00
50.00
2
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
83.33
83.33
3
100.00
100.00
100.00
100.00
100.00
100.00
100.00
64.71
65.00
66.67
68.18
4
100.00
100.00
100.00
14.29
14.29
15.00
15.00
19.05
19.05
22.73
22.73
5
100.00
100.00
100.00
100.00
100.00
100.00
80.00
80.00
57.14
57.14
57.14
6
100.00
100.00
100.00
100.00
100.00
100.00
100.00
44.44
44.44
25.00
25.00
7
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
89.66
84.85
85.29
8
100.00
100.00
100.00
100.00
100.00
100.00
80.00
71.43
71.43
66.67
66.67
9
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
77.78
77.78
10
100.00
100.00
100.00
100.00
100.00
80.00
26.32
26.32
25.00
25.00
25.00
100
100
100
91.43
91.43
65.60
62.17
56.30
56.50
AVP (%)
50
85.21
60
75.13
70
80
90
100
53.83
53.83
Tabel 6 Average precision dengan pembobotan normal Average Precision (AVP) dengan pembobotan normal
Precision (%)
Kueri
Recall (%) 0
10
20
30
40
70
80
90
100
1
100.00
100.00
100.00
100.00
100.00
57.14
50.00
50.00
30.00
30.43
30.43
2
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
3
100.00
100.00
100.00
100.00
100.00
100.00
100.00
84.62
80.00
70.00
71.43
4
100.00
100.00
100.00
28.57
28.57
21.43
21.43
25.00
25.00
27.78
27.78
5
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
50.00
50.00
50.00
6
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
29.41
29.41
7
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
90.32
87.88
8
100.00
100.00
100.00
100.00
100.00
100.00
57.14
45.45
45.45
50.00
50.00
9
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
100.00
10
100.00
100.00
100.00
100.00
100.00
100.00
21.74
21.74
22.22
22.22
22.22
100
100
100
92.86
92.86
87.86
AVP (%)
50
60
75.03
72.68
65.27
57.02
56.92
12
Grafik Average Precision 120.00 Precision
100.00 80.00 60.00 40.00 20.00 0.00 0
20
40
60
80
100
120
Recall Dengan pembobotan judul
Tanpa pembobotan judul
Gambar 13 Grafik average precision.
KESIMPULAN DAN SARAN Kesimpulan
1.
2.
3.
4.
Proses stemming dan penggunaan daftar kata buang yang digunakan pada penelitian ini dapat mengurangi jumlah istilah sebesar 25.08%. Berdasarkan hasil pengujian sepuluh kueri pada sistem temu kembali yang dibuat mampu mengembalikan recall maksimum yaitu 100% dengan minimum recall 85.71%. Nilai average precision dari hasil pengujian antara penggunaan pembobotan judul dan pembobotan normal menunjukkan bahwa penggunaan pembobotan normal memberikan hasil yang lebih baik dibandingkan dengan penggunaan pembobotan judul. Hasil temu kembali informasi dari sebuah sistem tidak hanya bergantung pada metode yang digunakan tetapi juga faktor-faktor yang dapat menurunkan hasil temu kembali seperti masalah penulisan dan penggunaan kata yang berbeda tetapi memiliki makna yang sama.
Saran
1.
Untuk mengatasi masalah kesalahan penulisan dapat ditambahkan sebuah sistem yang dapat mengecek kesalahan penulisan dan dapat mengembalikan satu atau beberapa kata alternatif yang mendekati kata tersebut, sehingga hasil temu kembali dapat lebih ditingkatkan.
2.
Pembobotan ekstra dapat ditambahkan pada tanggal berita dipublikasikan sehingga penyajian hasil temu kembali berita bisa dapat lebih terurut berdasarkan waktu.
DAFTAR PUSTAKA
Baeza-Yates, Ribeiro-Neto. 1999. Modern Information Retrieval. England: AddisonWesly Publishing Company. Cummins R, O’Riordan. Determining General Term Weighting Schemes for the Vector Space Model of Information Retrieval Using Genetic Programing. Departement of Information Technology, National University of Ireland. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge University Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. Skripsi. Departemen Ilmu Komputer IPB, Bogor. Rahman A. 2006. Perbandingan Kinerja Beberapa Ukuran Kesamaan pada Temu Kembali Informasi Dokumen XML. Skripsi. Departemen Ilmu Komputer IPB, Bogor. Salton G. 1989. Automatic Teks Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley. Tala F Z. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and Computation, Universiteit van Amsterdam, Netherlands Wandari FA. 2005. Evaluasi Stemmer Berbasis Bahasa Indonesia Dengan dan Tanpa
13
Menggunakan Kamus Kata Dasar. Skripsi. Departemen Ilmu Komputer IPB, Bogor [XML]. What is RSS. http://www.xml.com/pub/a/2002/12/18/dive /-into-xml.html. [17 July 2009]. [XML]. What is RSS. http://www.xml.com/pub/a/2002/12/18/dive/into-xml.html. [17 July 2009].
14
Lampiran 1 Contoh dokumen RSS yang diperoleh dari situs berita Okezone Sindikasi autos.okezone.com <description>Berita-berita Okezone pada kanal Autos http://autos.okezone.com Thu, 27 Aug 2009 17:27:01 +0700Okezone RSS 2.0 Generatorhttp://sindikasi.okezone.com/image/template/okezone_rss.gifSindikasi autos.okezone.com http://autos.okezone.com <description>Berita-berita Okezone pada kanal Autos Lebaran, Harga Motor Juga Stabil http://autos.okezone.com/read/2009/08/27/53/252043/lebaran-hargamotor-juga-stabil http://autos.okezone.com/read/2009/08/27/53/252043/lebaran-hargamotor-juga-stabil <description>Serupa dengan roda empat, harga sepeda motor menjelang Hari Raya Idul Fitri juga cenderung stabil. Bahkan beberapa dealer menawarkan berbagai promosi menjelang Lebaran. breaking news - MotorThu, 27 Aug 2009 17:24:10 +0700BMW Yakin Bisa Menjual 1.000 Unit Tahun Ini http://autos.okezone.com/read/2009/08/27/52/251900/bmw-yakin-bisamenjual-1-000-unit-tahun-ini http://autos.okezone.com/read/2009/08/27/52/251900/bmw-yakin-bisamenjual-1-000-unit-tahun-ini <description>Hadirnya banyak tipe-tipe terbaru membuat PT BMW Indonesia yakin tahun ini bisa menembus angka penjualan hingga 1.000 unit. breaking news - MobilThu, 27 Aug 2009 12:06:10 +0700
15
Lampiran 2 Hasil proses parsing tahap satu
16
Lampiran 3 Daftar hasil uji coba kueri No
Kueri
(R )
Dengan Pembobotan Judul
Dengan Pembobotan Normal
(A I R)
( A)
(A I R)
( A)
1
Kebakaran
7
7
25
7
25
2
Gempa bumi
5
5
15
5
15
3
Inter Milan
15
15
32
15
32
4
Kebakaran hutan
5
5
40
5
40
5
Nuklir Iran
4
4
11
4
11
6
Pembunuhan Nasrudin
5
5
30
5
30
7
Tari pendet
29
29
36
29
36
8
Virus komputer
6
6
13
6
13
9
Pemakaman Michael Jackson
7
20
7
20
7
Pemilu di Afghanistan
7
6
33
6
33
10
17
Lampiran 4 Recall, Precision dan nilai Recall vs Precision yang digunakan untuk membuat grafik sebelas standar recall setiap kueri. Di mana: A = hasil temu kembali dengan menggunakan pembobotan judul, sedangkan B = hasil temu kembali menggunakan pembobotan normal. Kueri : Kebakaran Recall Precision (%)
Hasil Temu Kembali Urutan hasil pencarian 1 2 3 7 10 12 13 20 23 25
A Recall
B
Precision
14.29 28.57 42.86 57.14 71.43 85.71 100.00
100.00 100.00 100.00 57.14 50.00 50.00 53.85
Recall
Precision
14.29 28.57 42.86 57.14 71.43
100.00 100.00 100.00 57.14 50.00
85.71 100.00
30.00 30.43
Recall vs Precision (sebelas standar recall) (%) A B Recall Precision Precision 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 100.00
Lampiran 5 Grafik sebelas standar recall untuk setiap hasil kueri yang diujicobakan Precision A adalah hasil pencarian dengan pembobotan judul Precision B adalah hasil pencarian dengan pembobotan normal Kueri : Kebakaran 120.00
Precision
100.00 80.00 Precision A
60.00
Precision B
40.00 20.00 0.00 0.00
20.00
40.00
60.00
80.00
100.00
120.00
Recall
Kueri : Gempa bumi 120.00
Precision
100.00 80.00 Precision A
60.00
Precision B
40.00 20.00 0.00 0.00
20.00
40.00
60.00
80.00
100.00
120.00
Recall
Kueri : Inter Milan 120.00 100.00 Precision
Di mana :
80.00 Precision A
60.00
Precision B
40.00 20.00 0.00 0
20
40
60 Recall
80
100
120
24
Lampiran 5 Lanjutan Kueri : Kebakaran hutan 120.00