TEMU KEMBALI INFORMASI PADA TAG ID3 FILE MPEG LAYER-3 (MP3)
INDRA PURNAMA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
ABSTRACT INDRA PURNAMA. Information retrieval on MP3-File Tag ID3. Supervised by SONY HARTONO WIJAYA. Searching song based on text data was easily done, but it wasn’t happen if the searching process refers to file info on ID3. Almost all of web-based retrieval only relies on data from database or filename. It causes difficulties in searching audio files on the internet. This research implements an information retrieval system that can search on the ID3 of MP3 files and evaluates the system performance on returning relevant answers. This research uses 182 MP3 file consists of various sizes and genre Indonesian songs as data test and 5 queries. On this research both lyrics and queries have been stemmed using Kamus Besar Bahasa Indonesia (KBBI) stemmer. The tf.idf weighting and sum of tf.idf are used for returning the result. The sum of tf.idf is based-on standard tf.idf that sum of each keyword on the query. Analysis of the results is conducted by several k-top documents. The result shows that information retrieval on the ID3 MP3 files can be done and the result using stemmer is better than that of without stemmer. MAP value where k = 10 with stemmer is 0.27, whereas without using stemmer is 0.25. For the next k, where k = 15 with stemmer the MAP value is 0.39, while without using stemmer 0.19, last with k = 20, the value of MAP with using stemmer is 0.62, while without using stemmer is 0.15 . The MAP values show that using stemmer is better than the MAP without stemmer, it’s because the use of stemmer can reduce the term variation in order to increase the recall value. Keyword : ID3, MPEG Layer-3(MP3), sum of tf.idf, stemming, Kamus Besar Bahasa Indonesia, KBBI.
TEMU KEMBALI INFORMASI PADA TAG ID3 FILE MPEG LAYER-3 (MP3)
INDRA PURNAMA G64076033
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Program Studi Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
Judul skripsi Nama NIM
: Temu Kembali Informasi Pada Tag ID3 File MPEG Layer-3 (MP3) : Indra Purnama : G64076033
Menyetujui, Dosen Pembimbing,
Sony Hartono Wijaya, S.Kom, M.Kom NIP. 19810809 200812 1 002
Mengetahui: Ketua Departemen,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal lulus:
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 15 Juni 1986 dari ayah Heri Priyatna dan ibu Yati Maryati. Penulis merupakan putra pertama dari tiga bersaudara. Tahun 2004 penulis lulus dari Sekolah Menengah Umum Negeri 4 Bogor dan pada tahun yang sama masuk program studi Manajemen Informasi dan Dokumentasi di Institut Pertanian Bogor (IPB) melalui jalur Reguler. Pada tahun 2007 penulis lulus program Diploma 3 dan pada tahun yang sama melanjutkan studi di Program Sarjana Ilmu Komputer Penyelenggaraan Khusus IPB, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor.
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia, kasih sayang dan ridhaNya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Juli 2009 ini adalah pencarian dalam tag file info MPEG Layer 3 (MP3), dengan judul Temu kembali informasi pada tag ID3 file MPEG Layer-3 (MP3). Terima kasih penulis ucapkan kepada 1. 2. 3. 4. 5. 6.
Papa, Mama serta seluruh keluarga besar atas doa, kasih sayang dan dukungannya. Bapak Sony Hartono Wijaya, S.Kom, M.Kom. selaku pembimbing atas waktu, saran, dan bimbingan yang telah diberikan. Tika Agustin Solihat untuk cinta dan sayangnya dalam memberikan motivasi selama pengerjaan skripsi ini. Teman-teman seperjuangan di Ekstensi ILKOM Angkatan II. Teman-teman phpclasses yang telah memberi banyak masukan dan ide. Semua pihak yang tidak dapat penulis sebutkan satu persatu yang telah membantu penulis dalam menyelesaikan penelitian ini.
Penulis berharap semoga karya ilmiah ini bermanfaat.
Bogor, September 2010
Indra Purnama
DAFTAR ISI Halaman DAFTAR GAMBAR .................................................................................................................... viii DAFTAR TABEL ......................................................................................................................... viii DAFTAR LAMPIRAN ................................................................................................................. viii PENDAHULUAN .............................................................................................................................1 Latar Belakang .............................................................................................................................. 1 Tujuan ........................................................................................................................................... 1 Ruang Lingkup ............................................................................................................................. 1 Manfaat ......................................................................................................................................... 1 TINJAUAN PUSTAKA ....................................................................................................................1 MPEG Layer 3 .............................................................................................................................. 1 ID3 ................................................................................................................................................ 1 Sistem Temu Kembali Informasi .................................................................................................. 1 Pembobotan tf.idf.......................................................................................................................... 2 Sum of tf.idf ................................................................................................................................... 2 Recall Precision ............................................................................................................................ 2 XML ............................................................................................................................................. 3 Stemming....................................................................................................................................... 3 METODE PENELITIAN ..................................................................................................................3 Studi Pustaka ................................................................................................................................ 3 Pengumpulan Data ........................................................................................................................ 3 Praproses Data .............................................................................................................................. 3 Parsing ID3 ................................................................................................................................... 3 Pemrosesan kata kunci .................................................................................................................. 3 Retrieval ........................................................................................................................................ 3 Pengukuran Kinerja ...................................................................................................................... 4 Lingkup Pengembangan Sistem .................................................................................................... 4 HASIL DAN PEMBAHASAN .........................................................................................................4 Koleksi Data ................................................................................................................................. 4 Parsing ID3 ................................................................................................................................... 4 Pemrosesan kata kunci .................................................................................................................. 5 User Interface ............................................................................................................................... 6 Retrieval ........................................................................................................................................ 6 Evaluasi Sistem Temu Kembali Informasi ................................................................................... 7 KESIMPULAN DAN SARAN .......................................................................................................10 DAFTAR PUSTAKA .....................................................................................................................11 LAMPIRAN ....................................................................................................................................12
DAFTAR GAMBAR Halaman 1
Konsep Sistem Temu Kembali ....................................................................................................2
2
Tahapan Metode Penelitian. ........................................................................................................3
3
Ilustrasi Tag ID3..........................................................................................................................4
4
Contoh ID3v2 ..............................................................................................................................5
5
Proses stemming dengan KBBI ...................................................................................................5
6
User Interface Sistem Temu Kembali .........................................................................................6
7
R-Precision query 1 dengan k=10 ...............................................................................................7
8
R-Precision query 1 dengan k=15 ...............................................................................................7
9
R-Precision query 1 dengan k=20 ...............................................................................................7
10 R-Precision query 2 dengan k=10 ...............................................................................................7 11 R-Precision query 2 dengan k=15 ...............................................................................................8 12 R-Precision query 2 dengan k=20 ...............................................................................................8 13 R-Precision query 3 dengan k=10 ...............................................................................................8 14 R-Precision query 3 dengan k=15 ...............................................................................................8 15 R-Precision query 3 dengan k=20 ...............................................................................................8 16 R-Precision query 4 dengan k=10 ...............................................................................................8 17 R-Precision query 4 dengan k=15 ...............................................................................................9 18 R-Precision query 4 dengan k=20 ...............................................................................................9 19 R-Precision query 5 dengan k=10 ...............................................................................................9 20 R-Precision query 5 dengan k=15 ...............................................................................................9 21 R-Precision query 5 dengan k=20 ...............................................................................................9 22 Precision histogram ..................................................................................................................10 23 Rata-rata Recall & Precision .....................................................................................................10
DAFTAR TABEL Halaman 1
Daftar query percobaan ...............................................................................................................4
2
Daftar imbuhan ............................................................................................................................5
DAFTAR LAMPIRAN Halaman 1
Daftar lagu .................................................................................................................................13
2
Proses evaluasi. .........................................................................................................................17
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang
MPEG Layer-3
Industri musik dunia termasuk di antaranya Indonesia berkembang pesat dan menambah jumlah file audio yang tersebar di dunia maya. Bertambahnya jumlah produsen rekaman musik juga sebagai pemicu membanjirnya jumlah file audio di dunia maya.
MPEG Layer-3 (MP3) diciptakan atas dasar kegagalan sebuah perusahaan besar di Jerman yaitu Fraunhofer-Gesellshaft dalam “4 chanel battle”. Perusahaan tersebut akhirnya membentuk sebuah tim ahli untuk Project EUREKA (1987) dengan misi menciptakan teknologi kompresi suara yang cocok untuk streaming dengan ukuran yang relatif kecil yang secara individu dikompresi sebagai blok data yang diberi nama MPEG Layer 3 atau MP3. Beberapa bit akhir dari file MP3 dapat menyimpan informasi tambahan seperti hak cipta dan informasi pribadi. Karena dianggap memiliki kualitas suara yang bagus, maka MP3 dijadikan sebagai de facto untuk musik digital (Bellis 1997, O'Neill 2006).
Informasi sebuah file audio kadang tidak tercatat pada database atau pada penamaan filenya, informasi itu disimpan pada file info atau ID3 yang menyebabkan masyarakat mengalami kesulitan untuk mendapatkan informasi yang relevan dengan kebutuhannya. Terkadang user tidak mengetahui judul atau bahkan penyanyi dari lagu yang diinginkan dan hanya mengingat sebagian dari bait lagunya saja. Untuk mengatasi hal tersebut dibutuhkan suatu sistem temu kembali informasi yang dapat mencari ke dalam ID3 khususnya lirik lagu. Penggunaan ID3 yang semakin umum dan kejadian sulitnya mencari lagu seperti diungkapkan di atas menjadi sebuah dasar ide penelitian ini. Ide itu kemudian dilaksanakan dalam bentuk penelitian, dengan membuat sebuah sistem temu kembali informasi pada file info atau ID3. Tujuan Tujuan penelitian ini adalah : 1. mengimplementasikan sistem temu kembali informasi yang dapat melakukan pencarian pada ID3 file MP3, 2. mengukur kinerja sistem yang dibangun, 3. membandingkan hasil pencarian dengan stemming dan tanpa stemming. Ruang Lingkup -
Ruang lingkup penelitian ini adalah: format ID3 yang digunakan adalah ID3v2, tag ID3 yang digunakan adalah TPE1, TYER, TALB, TIT2, dan USLT.
Manfaat Pengembangan penelitian ini diharapkan dapat membantu sistem temu kembali yang sudah ada saat ini seperti pengembangan software multimedia player yang banyak beredar di masyarakat sebagai salah satu fitur pencarian di dalam multimedia player tersebut. Dengan demikian, saat user hanya mengingat potongan bait dari lyric lagu, user dapat menginputkan potongan bait tersebut sebagai query pencarian.
ID3 ID3 pertama kali dibuat oleh Eric Kemp pada tahun 1996 yang bisa menambahkan 128 Byte tag data pada file audio dengan menggunakan program “Studio3”. Tag tersebut adalah ‘title’, ‘artist’, ‘album’, ‘year’, ‘genre’ dan ‘comment’. Tag ini diberi nama MP3ext atau sekarang lebih dikenal dengan ID3. Jumlah karakter terbatas yang disimpan oleh ID3v1 adalah : - “Song Title” 30 karakter - “Artist” 30 karakter - “Album”30 karakter - “Year” 4 karakter - “Comment”30 karakter - “Genre” 1 byte (dalam biner)
dapat
Terbatasnya jumlah karakter dapat menimbulkan kesulitan apabila informasi pada file audio memiliki tag yang panjang. Oleh sebab itu, Martin Nelsson membuat ide baru yaitu ID3 dapat memuat lebih banyak karakter agar memenuhi kebutuhan penamaan yang lebih dari 30 karakter yaitu ID3v2. Saat ini, ID3v2 merupakan sebuah “Standard Informal” dari ID3 (O'Neill 2006). Sistem Temu Kembali Informasi Sistem temu kembali informasi atau information retrieval (IR) adalah sistem yang memproses arsip dokumen, melakukan permintaan informasi, mengidentifikasi, dan memperoleh dokumen tertentu dari arsip-arsip tersebut sebagai respon terhadap permintaan informasi. Perolehan dokumen tersebut tergantung pada kesamaan antara dokumen dan query yang diukur dengan membandingkan nilai dari atribut tertentu yang disertakan pada
dokumen dan permintaan informasi. Konsep sistem temu kembali informasi dapat dilihat pada Gambar 1. Query
.
Sum of tf.idf Tf.idf adalah sebuah kesederhanaan dalam pembobotan. Dengan memberikan sebuah query q yang terdiri atas sekumpulan kata wi, dapat dihitung wi.d untuk setiap wi pada setiap d є Dokumen (D). Rumus dasar sum of tf.idf adalah sebagai berikut:
Dokumen
Perhitungan Kesamaan
.
Perolehan item yang sama
Gambar 1 Konsep Sistem Temu Kembali (Salton 1989). Memproses database secara konseptual sangatlah mudah untuk mengidentifikasikan dokumen yang berhubungan dengan permintaan pencarian, hal ini karena pada formulasi query harus menyertakan beberapa subset nilai atribut yang juga mengkarakterisasi dokumen. Dalam hal ini, perolehan dokumen tergantung pada kecocokan antara nilai-nilai atribut yang digunakan pada formulasi query dan nilai-nilai atribut yang disertakan terhadap dokumen yang dicari. Tiap dokumen yang diperoleh akan mengandung nilai atribut tepat sesuai query (dan ada kemungkinan atribut lain yang tidak terdapat dalam query), lalu tiap dokumen yang diperoleh juga akan menunjukan setidaknya satu ketidakcocokan antara atribut yang disertakan pada query dan atribut yang di sertakan pada dokumen yang tersimpan (Salton 1989). Pembobotan tf.idf Menurut Manning (2008), tf.idf adalah sebuah algoritme yang sederhana dan efektif untuk mencocokkan kata pada query dengan dokumen yang relevan. Pembobotan tf.idf dapat dirumuskan sebagai berikut . , ,
,
Term frequency (tf) adalah frekuensi kemunculan suatu term (t) pada dokumen, document frequency (df) adalah banyaknya dokumen di dalam koleksi yang mengandung kata tertentu dan inverse document frequency (idf) adalah banyaknya dokumen dimana suatu t muncul. Hasil perhitungan kemudian dikoreksi dengan banyaknya dokumen dalam koleksi (N).
,
wi,d adalah total bobot dari setiap dokumen untuk setiap kata dalam wi pada masing-masing query. Bobot masing-masing kata adalah bobot tf.idf dokumen untuk kata tersebut. Setelah semua wi d ditemukan, wi d ditotalkan pada masing-masing dokumen dan menghasilkan D yang berisi sekumpulan d. Jumlah D yang dikembalikan bebas ditentukan oleh user ataupun oleh sistem. D yang yang didapat diurutkan dari bobot terbesar ke bobot terkecil (decreasing order) (Ramos 2003). Recall Precision Recall adalah ukuran kelengkapan. Recall dapat didefinisikan sebagai jumlah dokumen relevan yang ditemukan oleh sistem yang kemudian dibagi dengan jumlah dokumen yang relevan yang ada. adalah ukuran ketepatan. Precision Precision dapat didefinisikan sebagai jumlah dokumen relevan yang ditemukembalikan oleh sistem yang kemudian dibagi dengan total jumlah dokumen yang hasilkan oleh sistem.
Recall dan Precision dapat dinyatakan sebagai berikut:
∩
∩
dengan A adalah jumlah ditemukan, R adalah jumlah relevan yang ditemukan dan dokumen yang ditemukan dan Yates & Ribeiro-Neto 1999).
,
, dokumen yang dokumen yang A ∩ R adalah relevan (Baeza-
XML
Pengumpulan Data
Extensible Markup Language (XML) adalah format teks yang sangat fleksibel yang berasal dari SGML (ISO 8879). XML berupa bahasa markup serbaguna yang direkomendasikan World Wide Web Consortium (W3C) untuk mendeskripsikan berbagai macam data. XML menggunakan markup tags seperti halnya HTML namun penggunaannya tidak terbatas pada tampilan halaman web (Walsh 1998).
Pada tahap ini dikumpulkan sebanyak 182 file berformat MP3 yang terdiri atas berbagai ukuran file (file size) dan genre dari industri musik Indonesia. File audio didapatkan dari berbagai situs internet yang menyediakan fasilitas download lagu seperti http://mustphargoblog.blogspot.com/. Pada tahap ini dikumpulkan data yang diperlukan untuk mengisi tag ID3. Data tersebut didapatkan dari situs penyedia lyric lagu seperti http://www.liriklagumusik.com.
Stemming Stemming adalah suatu proses mendapatkan kata dasar dari sebuah kata. Kata dasar ini kemudian dapat digunakan sebagai token, yang merupakan salah satu kriteria penciri dokumen dan query (Salton 1989). Stemming dilakukan atas asumsi bahwa kata yang memiliki stem yang sama memiliki makna yang serupa, sehingga sistem dapat menemukan lebih banyak dokumen yang relevan dengan query pengguna.
Praproses Data Pada tahap ini dilakukan pengecekan terhadap tag ID3 pada file MP3 yang digunakan, apabila tag ID3 belum terisi maka diisi dengan data yang sesuai. Proses ini menggunakan software Zortam MP3 Media Studio yang dapat di-download secara gratis di http://www.zortam.com/. Parsing ID3
METODE PENELITIAN Tahapan-tahapan yang dilakukan dalam penelitian ini dapat disajikan dalam Gambar 2. Mulai
Studi Pustaka
Parsing ID3 dilakukan untuk mengambil atau mengekstraksi data pada tag ID3 dari file yang sedang diproses. Data yang didapat dari proses parsing kemudian di-stemming dan disimpan pada sebuah tempat penyimpanan (repository) dalam bentuk XML. Pemrosesan kata kunci
Pengumpulan Data MP3 dengan ID3
Praproses Data Parsing ID3
Pemrosesan kata kunci dilakukan untuk menstandarisasi query yang masuk ke dalam proses retrieval. Mulai dari pengecekan spasi jika ada spasi ganda maka diganti dengan spasi biasa hingga trimming delimiter query. Retrieval
Query • _____ • _____
Pemprosesan kata kunci Selesai
Repository
Retrieval
Pengukuran Kinerja
Gambar 2 Tahapan Metode Penelitian. Studi Pustaka Pada tahap ini dilakukan pengumpulan informasi mengenai ID3, Information Retrieval (IR), XML, dan informasi lainnya yang dibutuhkan. Sumber pustaka berupa artikel di internet, textbook, ataupun e-book.
Tahap retrieval adalah tahap pencobaan data repository dengan menggunakan 5 query yang telah dipersiapkan. Tahap ini menghasilkan sekumpulan dokumen hasil temu kembali. Proses temu kembali pada sistem ini menggunakan Term Frequency Inverse Document Frequency (TF.IDF). TF.IDF tergolong pembobotan yang relatif tua tetapi simpel dan efektif sehingga digunakan sebagai awal untuk dikembangkan menggunakan algoritma pembobotan lainnya yang tergolong lebih baru seperti cosine distance. Dokumen yang ditemukembalikan adalah dokumen yang total bobotnya tidak sama dengan nol karena dokumen yang memiliki bobot total sum of tf.idf sama dengan 0 (nol) adalah dokumen yang dianggap tidak relevan oleh sistem.
Pengukuran Kinerja Tahap ini dilakukan pengukuran recall precision terhadap hasil yang dikeluarkan oleh sistem kemudian dibandingkan antara hasil dengan menggunakan stemming dan hasil tanpa menggunakan stemming. Pada tahap ini juga, dicari dokumen yang relevan dengan query. Lingkup Pengembangan Sistem Penelitian ini menggunakan notebook dengan spesifikasi perangkat keras sebagai berikut: - Processor Intel Core 2 Duo @ 2.16 GHz - Memori 1 GB - Harddisk 120 GB Perangkat lunak yang digunakan adalah sebagai berikut: - Sistem operasi Windows 7 - Bahasa pemrograman PHP - XAMPP 2.5 untuk server lokal - Notepad++ sebagai text editor - Zortam MP3 Media Studio - Adobe Photoshop CS2 untuk pengolahan gambar.
HASIL DAN PEMBAHASAN Koleksi Data Tabel 1 Daftar Query dan Dokumen Relevan No
Query
Jumlah Relevan
1
rindu
17
2
menduakan cinta
10
3
jatuh cinta
20
4
sakit hati
22
5
cinta tak berbalas
16
ID Dokumen Relevan 8, 18, 21, 36, 48, 53, 77, 83, 88, 95, 98, 103, 105, 106, 118, 146, 158 29, 57, 110, 112, 138, 139, 140, 167, 181, 182 1, 2, 11, 17, 24, 34, 35, 36, 60, 72, 84, 90, 117, 146, 150, 159, 166, 168, 173, 178 9, 11, 21, 26, 29, 33, 40, 44, 46, 54, 68, 70, 87, 112, 115, 128, 129, 139, 145, 153, 156, 162 11, 19, 30, 34, 39, 40, 41, 77, 80, 94, 138, 146, 154, 56, 158, 174
Penelitian ini menggunakan data berupa 182 buah file MP3. Data yang digunakan adalah lagu berbahasa Indonesia yang biasa digunakan di film-film lepas atau sinetron di acara televisi di Indonesia, dan dibuat oleh produsen musik lokal. Penelitian ini menggunakan 5 data query percobaan yang mentitikberatkan pada tag lyric. Pemilihan query yaitu dengan memiih kata yang dianggap sering digunakan dalam lyric lagulagu Indonesia. Dokumen yang relevan untuk masing-masing query dapat dilihat pada Tabel 1. Daftar lagu yang digunakan dapat dilihat pada Lampiran 1. Parsing ID3 ID3 terdapat pada bagian header dari sebuah file MP3. Proses ekstraksi informasi yang terdapat pada ID3 dari suatu file MP3 adalah sebagai berikut: - Membaca 10 byte pertama dari header yang berisi penanda ID3 dan ukuran panjang keseluruhan tag ID3. - Membaca keseluruhan tag ID3 berdasarkan panjang tag ID3 yang didapatkan dari proses sebelumnya. Ilustrasi bentuk tag dalam ID3 dapat di dalam Gambar 3. Nilai N pada Gambar 3 adalah hasil penghitungan 4 byte panjang ID3 pada masing-masing tag. Contoh ID3 pada file MP3 dapat dilihat pada Gambar 4. - Data yang diambil adalah : - ‘TPE1’ ( ‘ARTIST’) - ‘TYER’ (‘YEAR’) - ‘TALB’ (‘ALBUM’) - ‘TIT2’ (‘TITLE’) - ‘USLT’ (‘LYRIC’) - FILE’ (file path MP3) - Untuk mengatasi masalah ketidaksamaan kata dalam dokumen maka dilakukan stemming (Iqbal 2010) terhadap USLT (lyric) menggunakan KBBI, disimpan ke dalam tag ‘LYRIC2’(‘BLYC’). Proses stemming dengan KBBI dapat dilihat pada Gambar 5.
Gambar 3 Ilustrasi Tag ID3.
-
Semua tag disimpan ke dalam repository berbentuk XML. Proses stemming pada Gambar 5 membutuhkan daftar imbuhan. Daftar imbuhan yang digunakan dalam proses stemming dengan menggunakan KBBI dapat dilihat pada Tabel 2. Tabel 2 Daftar Imbuhan
Gambar 4 Contoh ID3v2. Token
Ada di KBBI ? Ya Tidak Kembalikan stem terpanjang dari kata
Kandidat kata
Mengandung imbuhan level 3? Ya Tidak
Hilangkan imbuhan level 3
Kandidat kata
Mengandung imbuhan level 2? Ya Tidak
Hilangkan imbuhan level 2
Daftar imbuhan
Kandidat kata
Mengandung imbuhan level 1? Ya Tidak
Hilangkan imbuhan level 1
Kandidat kata
Ada di KBBI ? Ya Kembalikan stem terpanjang dari katakata yang ditemukan
Tidak
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Imbuhan %kah %lah %pun ku% %ku %mu %nya kau% ber%kan ber%an ber% diper%kan diper%i diper% diber%kan di%kan di%i di% ke%an ke%i member%kan memper%kan memper%i memper% terber%kan ter%kan ter%i ter% %kan %an %i
Level 3 3 3 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Stemming yang digunakan pada penelitian ini sedikit berbeda dengan stemming pada penelitian (Iqbal 2010) dimana hasil akhir jika tidak ditemukan pada KBBI yang dikembalikan adalah NULL, sedangkan pada penelitian ini yang dikembalikan adalah TOKEN itu sendiri. Pengembalian TOKEN dilakukan agar kata yang tidak baku pada lyric lagu yang termasuk ke dalam kata inti dari lagu tersebut tidak dihilangkan. Pemprosesan kata kunci
Kembalikan TOKEN
Gambar 5 Proses stemming dengan KBBI.
Kata kunci atau query yang masuk ke dalam sistem temu kembali kadang tidak selalu sesuai dengan input yang diharapkan untuk sistem,
Gambar 6 User Interface Sistem Temu Kembali.
maka dari itu dilakukan proses standardisasi terhadap query yang masuk. Proses standardisasi query adalah sebagai berikut: - Cek query yang masuk, hilangkan jika ada whitespace. - Bagi query pencarian menjadi dua bagian yaitu ‘xmlpath’ dan ‘key’ dengan delimiter ’#’. - Ubah ‘key’ menjadi lowercase dengan fungsi ‘strtolower’. - hilangkan stopword pada ‘key’ - Stemming ‘key’ dengan metode stemming KBBI (Iqbal 2010). - Hasil stemming dipisahkan dengan delimiter spasi (“ “) dan disimpan ke dalam array ‘keysplit’. User Interface User interface dari sistem temu kembali pada penelitian ini dapat dilihat pada Gambar 6. Retrieval Proses retrieval atau temu kembali adalah sebagai berikut: - XML data repository dibaca dan disimpan dalam array ‘db’. - ‘xmlpath’ diubah menjadi uppercase. Hal ini dilakukan untuk menyesuaikan dengan node XML yang terdiri dari huruf kapital. - Dokumen diubah menjadi lowercase. Hal ini dilakukan untuk menstandardisasikan input yang masuk ke dalam proses temu kembali.
-
Inverted index dihitung untuk setiap lagu sesuai dengan ‘xmlpath’ yang dimaksud dan simpan ke dalam array ‘invertedindex’. - Setiap ‘keysplit’ dicari apakah ada dalam ‘invertedindex’ dan jika ada ‘TF[term]’ ditambah 1. - Jika ‘TF[term]’ sebuah dokumen lebih besar dari nol maka variable ‘DF’ untuk setiap kata kunci pada dokumen tersebut diberi nilai 1. Variable ‘DF’ terkait dengan document frequency, yaitu banyaknya dokumen yang mengandung suatu kata. Jika pada dokumen tidak didapatkan kata yang dimaksud, nilai ‘DF’ dolumen tersebut adalah 0 (nol), jika ada di beri nilai 1 karena nilai maksimum ‘DF’ setiap dokumen adalah 1 baik jika hanya satu atau lebih kata yang ditemukan. - Kemudian dft dihitung dengan menjumlahkan semua nilai ‘DF’ masingmasing kata kunci dan disimpan ke dalam variable ‘DFT’. - idf masing-masing kata dihitung. - tf.idf dihitung dan disimpan ke dalam variable ‘TFIDF’. - Variable ‘TFIDF’ ditotalkan per dokumen untuk setiap ‘keysplit’ yang ditemukan kemudian disimpan dalam variable ‘TOTAL’. - Semua array dan variable yang digunakan disimpan ke dalam array ‘db’.
Array ‘db’ diurutkan secara descending dari nilai terbesar ke nilai terkecil pada variable ‘TOTAL’. Dokumen dengan urutan paling atas memiliki memiliki nilai ‘TOTAL’ terbesar dan kesesuaiannya dengan query semakin dekat, dan urutan ini dijadikan nilai balik atau hasil (Ramos -).
Precision
-
Evaluasi Sistem Temu Kembali Informasi
Recall
Tanpa Stemming Dengan Stemming
Gambar 8 R-Precision query 1 dengan k = 15. 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall
Tanpa Stemming Dengan Stemming
Gambar 9 R-Precision query 1 dengan k = 20. Dari grafik hasil pengujian terhadap query 1 dapat dilihat bahwa hasil dengan stemming unggul dibandingkan dengan hasil tanpa menggunakan stemming untuk k = 10, k = 15 dan k = 20.
1.00 0.90 0.80 0.70 Precision
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Precision
Evaluasi yang digunakan dalam penelitian ini adalah evaluasi untuk mengukur keefektifan sistem dalam menemukan dokumen yang relevan terhadap query dari pengguna. Pengujian ini dapat dilakukan dengan cara menghitung nilai recall dan precision hasil temu kembali sistem tersebut. Penelitian ini proses perhitungannya dimulai dengan menghitung nilai recall precision untuk masing-masing query dan juga rata-rata untuk keseluruhan query. Pengujian dilakukan dengan cara manual yaitu dengan menginputkan query ke dalam sistem temu kembali, kemudian hasil temu kembalinya diambil top k dan kemudian dihitung nilai recall precisionnya. k yang digunakan dalam penelitian ini adalah 10, 15 dan 20. Seluruh data hasil pengujian melewati tahap interpolasi titik maksimum. Hasil pengujian untuk query 1 dapat dilihat pada Gambar 7, 8, dan 9. Hasil query 2 pada Gambar 10, 11 dan 12. Hasil query 3 pada Gambar 13, 14 dan 15. Hasil query 4 pada Gambar 16, 17 dan 18. Hasil query 5 pada Gambar 19, 20 dan 21.
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
0.60 0.50 0.40 0.30 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall
Tanpa Stemming Dengan Stemming
Gambar 7 R-Precision query 1 dengan k = 10.
Precision
0.20
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall
Tanpa Stemming Dengan Stemming
Gambar 10 R-Precision query 2 dengan k = 10.
Precision
Precision
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Recall
Tanpa Stemming Dengan Stemming
Tanpa Stemming Dengan Stemming
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
Gambar 14 R-Precision query 3 dengan k = 15.
Precision
Precision
Gambar 11 R-Precision query 2 dengan k = 15.
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Recall
Tanpa Stemming Dengan Stemming
Tanpa Stemming Dengan Stemming
Gambar 12 R-Precision query 2 dengan k = 20.
Gambar 15 R-Precision query 3 dengan k = 20.
Pada Gambar 10, 11 dan 12 terlihat bahwa proses retrieval untuk query 2 dengan stemming lebih unggul dari hasil tanpa stemming baik untuk k = 10, k = 15 ataupun k = 20.
Pada Gambar 13, 14 dan 15 terlihat bahwa tanpa menggunakan stemming lebih unggul untuk query 3. 1.00 0.90
1.00
0.80
0.90
0.70 Precision
0.80 Precision
0.70 0.60 0.50
0.60 0.50 0.40 0.30
0.40
0.20
0.30
0.10
0.20
0.00
0.10
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall
Tanpa Stemming Dengan Stemming
Gambar 13 R-Precision query 3 dengan k = 10.
Recall Tanpa Stemming Dengan Stemming
Gambar 16 R-Precision query 4 dengan k = 10.
Precision
Precision
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Recall
Tanpa Stemming Dengan Stemming
Tanpa Stemming Dengan Stemming
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
Gambar 20 R-Precision query 5 dengan k = 15.
Precision
Precision
Gambar 17 R-Precision query 4 dengan k = 15.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Tanpa Stemming Dengan Stemming
Recall
Tanpa Stemming Dengan Stemming
Gambar 21 R-Precision query 5 dengan k = 20.
Pada Gambar 16, 17 dan 18 dapat dilihat bahwa hasil dengan menggunakan stemming untuk lebih unggul untuk query 4 meski perbedaan nilai precision-nya kecil.
Dilihat dari Gambar 19, 20, dan 21 hasilnya tidak mengalami perubahan yakni hasil tanpa menggunakan stemming unggul dari titik recall 0.0 sampai titik recall 0.1.
Precision
Gambar 18 R-Precision query 4 dengan k = 20.
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
Kesimpulan keseluruhan tentang data hasil percobaan untuk seluruh query dapat dilihat melalui precision Precision histogram. histogram untuk seluruh query dengan k = 10, k = 15 dan k = 20 menggunakan perlakuan dengan stemming dan tanpa stemming dapat dilihat pada Gambar 22.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Tanpa Stemming Dengan Stemming
Recall
Gambar 19 R-Precision query 5 dengan k=10.
memiliki arti yang relatif sama seperti ‘aku’ dan ‘saya’ tidak dianggap sebagai kata yang sama, sehingga dokumen tersebut tidak dapat ditemukembalikan sebagai dokumen yang relevan oleh sistem.
R-Precision
5 4 3 2 1 0 -1 -2 -3 -4 -5
1
2
3
4
5
Query Positif = Dengan Stemming Negatif = Tanpa Stemming
Gambar 22 Precision histogram.
Precision
Data rata-rata hasil pengujian seluruh query dapat direpresentatifkan dengan grafik recall precision pada Gambar 23. 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
Nilai MAP untuk k=10 tanpa stemming adalah 0,15, sedangkan dengan stemming 0,27. Untuk k=15 nilai MAP tanpa stemming adalah 0,19, sedangkan dengan stemming adalah 0,39. Untuk k=20 nilai MAP tanpa stemming adalah 0,15, sedangkan dengan stemming nilainya menjadi 0.62. Dari nilai MAP yang didapatkan terlihat bahwa MAP dengan stemming lebih besar dibandingkan dengan MAP tanpa menggunakan stemming hal ini karena penggunaan stemming dapat mengurangi variasi term sehingga dapat memperbesar nilai recall. Perhitungan MAP dapat dilihat lebih jelas pada Lampiran 2.
KESIMPULAN DAN SARAN Kesimpulan Kesimpulan yang dapat diambil dari hasil penelitian ini yaitu :
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall
Tanpa Stemming Dengan Stemming
Gambar 23 Rata-rata Recall & Precision. Hasil pengujian pada Gambar 23 merupakan hasil perolehan data penelitian yang telah diinterpolasi titik maksimum kemudian diambil rata-rata dari seluruh query untuk masingmasing titik recall pada seluruh nilai k. Proses tersebut dilakukan pada metode tanpa stemming dan dengan stemming. Keterangan lebih lengkap mengenai hasil pengujian dapat dilihat pada Lampiran 2. Dari hasil pengujian dapat dilihat bahwa nilai recall precision pada Gambar 22 query 1, 2, 3 dan 4 unggul hasil dengan menggunakan stemming. Untuk query 5 hasil tanpa menggunakan stemming lebih unggul. Masalah yang dihadapi pada penelitian ini yaitu lazimnya penggunaan kata tidak baku pada lyric lagu yang membuat sulit proses temu kembali dan juga masalah semantik kata dimana pencarian terhadap kata yang berbeda yang
1. Temu kembali pada ID3 file MP3 dapat dilakukan. 2. Hasil dengan menggunakan stemming lebih unggul dari hasil tanpa menggunakan stemming karena menggunakan stemming dapat mengurangi varian kata sehingga memperbesar recall. 3. Hasil penelitian masih dihadapkan pada masalah penggunaan kata tidak baku yang sering digunakan pada lirik lagu dan masalah semantik yaitu kata yang memiliki arti yang relatif sama tidak dianggap sebagai suatu yang dapat ditemukembalikan sebagai sesuatu yang relevan sebab masing-masing kata tersebut ada dalam KBBI. Saran Penelitian ini dapat dikembangkan lagi pada penelitian selanjutnya yaitu dengan:
1. Menggunakan dokumen dan query yang lebih banyak sehingga hasil dari percobaan akan lebih terlihat. 2. Mengembangkan sistem temu kembali ID3 file MPEG Layer-3 dengan menggabungkan temu kembali informasi ID3v1 dan ID3v2. 3. Mengembangkan sistem temu kembali ID3 dengan pendekatan frasa. 4. Memutar lagu pada posisi dimana kata kunci ditemukan.
DAFTAR PUSTAKA Baeza-Yates, R. Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison Wesley Longman. Bellis M. The History of MP3. 1997. [terhubung berkala]. http://inventors.about.com/od/mstartinventio ns/a/MPThree.htm [20 Juli 2009]. Iqbal R. 2010. Pengembangan Stemmer Berbasis Kamus Besar Bahasa Indonesia. Skripsi. Bogor: Departemen Ilmu Komputer IPB. Manning CD., Raghavan, P., Schütze, H. 2008. Introduction to Information Retrieval. Cambridge University Press. O’Neill D. 2006. Low Tech History. [terhubung berkala]. http://www.id3.org/History?highlight=%28h istory%29 [20 Juli 2009]. O’Neill D. 2006. What is ID3. [terhubung berkala]. http://www.id3.org/ID3v1 [20 Juli 2009]. Ramos J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. Piscataway: Rutgers University. [terhubung berkala] . http://www.cs.rutgers.edu/~mlittman/course s/ml03/iCML03/papers/ramos.pdf [15 Januari 2010] Salton G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley Publishing Company, Massachusetts. Walsh N. 1998. A Technical Introduction to XML. [terhubung berkala]. http://www.xml.com/pub/a/98/10/guide0.ht ml [28 Oktober 2009]
LAMPIRAN
Lampiran 1 Daftar lagu ID Lagu 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Judul Lagu (TITLE) Acha Septriansa Afgan Afgan Afgan Afgan Agnes Monica Agnes Monica Alexa Andra and Backbone Andra and Backbone Andra and Backbone Andra and Backbone Andra and BackBone Andra and BackBone Andra and Backbone Andra and BackBone Andra and BackBone Andra and Backbone Anima Aris idol Armada Aura Kasih Aura Kasih Base Jam BIP BIP C.U.T.S Cinta Laura Coffee N Cream D’Masiv Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewa 19 Dewi Dewi Dhika D Masiv D Masiv D Masiv D Masiv D Masiv
Artis/Penyanyi (ARTIST) Sampai Menutup Mata Bukan Cinta Biasa Sadis Terima Kasih Cinta Wajahmu Mengalihkan Duniaku Godai Aku Matahariku Jangan Pernah Pergi Jalanmu Bukan Jalanku Kepayang Mimpi Yang Terbunuh Selamat Tinggal Masa Lalu Hitamku Lagi Dan Lagi Main Hati Perih Sempurna Tak Ada Yang Bisa Andai Saja 1000x maaf Inikah Nikmat Bercinta Jangan Bilang Siapa Siapa Mari Bercinta Jatuh cinta Gantungkanlah Cita Citamu Korslet Beringas Oh Baby Cinta Mendua Cinta Di Antara Kalian Dewi Dua Sejoli Emotional Love Song Kasidah Cinta Lagu Cinta Larut Mistikus Cinta Pangeran Cinta Pupus Risalah Hati Roman Picisan Sayap-Sayap Patah Separuh Nafas Begitu Salah Begitu Benar Hanya Dirimu Apa Salahku Jangan Pergi Rindu Setengah Mati Semakin Sudahi Perih Ini
Lampiran 1 Lanjutan ID Lagu 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
Judul Lagu (TITLE) Drive Dewi Lestari Ello GEISHA GIGI GIGI GIGI GIGI Glenn Fredly Gretha Hello Hello Hello Hijau Daun Ipang Ipang Irwansyah Irwansyah Jikustik Joeniar Arief J-ROCK J-ROCK J-ROCK J-ROCK Kangen Band Kangen Band Kerispatih KOTAK KOTAK KOTAK Lobow lucky laki Lyla MAHADEWI MAHADEWI MAHADEWI MAHADEWI MAHADEWI MAHADEWI Maliq and D’essentials Marvells Matta Melinda Melly Goeslaw MELLY GOESLAW Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslaw
Artis/Penyanyi (ARTIST) Bersama Bintang Malaikat Juga Tahu Masih Ada Jika Cinta Dia Beribadah Yuk! JEMU My Facebook Ya Ya Ya Hikayat Cintaku (Ft Dewi Persik) Kiss Me Biarkanlah Berlalu Pejuang Cinta Ular Berbisa Suara (Ku Berharap) Apatis Sahabat Kecil Camelia Kutunggu Jandamu (Ft Melly G) Selamat Malam Rapuh Cobalah Kau Mengerti Fallin In Love (Indo Ver.) Kau Curi Lagi (Ft Prisa) Meraih Mimpi Kembali Pulang Terbang Bersamaku Kejujuran Hati Beraksi Pelan pelan Saja Tinggalkan Saja Salah Sahabat Mantan Kekasihku Ayang Ayangku Dewi Cinta Kosong Risalah Hati Sumpah I Love You Lakukan Dengan Cinta Dia Lagi Bohong Ketahuan Cinta Satu Malam 3 Cinta Bimbang Butterfly Dahsyat Dalam Hening Hati Dimana Malumu Gantung
Lampiran 1 Lanjutan ID Lagu 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150
Judul Lagu (TITLE) Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslaw Melly Goeslow Melly Goeslow Melly Goeslow Melly Goeslow Merpati Band Mulan Jameela Mulan Jameela Mulan Jameela Mulan Jameela Netral Numata Once Padi PeeWee Gaskins Peterpan Peterpan Peterpan Peterpan Pinkan Mambo Pinkan Mambo Potret RADJA RADJA RADJA RAN Ratu Ressa Herlambang Ridho Rhoma RIF RIF RIF Rossa Rossa Rossa Rossa Samsons Samsons Samsons Sheila On 7 Sheila On 7 Sheila On 7 Sherina Sind3ntosca ST 12
Artis/Penyanyi (ARTIST) Kubahagia Memang Enak Mencintai Dan Dicintai Paling Tidak Pujaanku Tak Tahan Lagi Bunda Catatanku ft.Baim Glow Sesungguhnya Aku Tak Selamanya Selingkuh Itu Indah Lagu Sedih Mahluk Tuhan Yang Paling Sexy Sakit Bukan Main (Ft Dewi Dewi) Wonder Woman Lintang Raja Jatuh Cinta Dealova Terbakar cemburu Dibalik Hari Esok Kupu Kupu Malam Sally Sendiri Tak Ada Yang Abadi Walau Habis Terang Kau Tercipta Untukku Kekasih Yang Tak Dianggap Tak Mudah Benci Bilang Cinta Ga Ada Waktu Jujur Selamat Pagi TTM (Teman Tapi Mesra) Menyesal Menunggu peri kecil Pil Malu Sonya atas nama cinta hati yg kau sakiti hey ladies terlanjur cinta Hey Gadis Kenangan Terindah Tak Bisa Memiliki Betapa Pemuja Rahasia Yang Terlewatkan Ku Bahagia Kepompong Biarkan Jatuh Cinta
Lampiran 1 Lanjutan ID Lagu 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182
Judul Lagu (TITLE) S.T.12 ST 12 ST 12 S.T.12 T2 Tangga Terry Teuku Yudhistira The Changcuters The Changcuters The Dance Company The Lucky Laki The Rock The Rock The Titans Tiket Titi Kamal Tompi Trio Libel Trio Libel Trio Libel Trio Libel Trio Libel Ungu Ungu Ungu Utopia Vierra Wali Yovie Nuno Artella T Five
Artis/Penyanyi (ARTIST) Cari Pacar Baru Isabella Jangan Pernah Berubah P.U.S.P.A Malu Malu Dong Kesempatan Kedua Janji Manismu Hampa I Love U Bibeh Racun Dunia Papa Rock N Roll Bukan Superman Munajat Cinta Madu Tiga Jangan Sakiti Hanya Kamu Yang Bisa Lebih Baik Sendiri Menghujam Jantungku bukan sekedar mimpi jangan kau pergi Kau di sampingku rindu ada disini Selalu Mencintaimu Cinta Gila Hidup Hanya Sementara Ku Ingin Selamanya MencintaMu Sampai Mati Bersamamu Tetap Bertahan Sempat Memiliki Mendua Mendua
Lampiran 2 Proses evaluasi Ambil top k hasil pencarian, dalam penelitian ini menggunakan k = 10. "#$ ℎ $#& ' ( & & )#$ ℎ ' "#$ ℎ $#& ' ( & & P = = &
R
Hasil penelitian tanpa stemming: Jumlah doc Query Relevan Q1
17
Q2
8
Q3
20
Q4
22
Q5
16
R P R P R P R P R P
Top 10 dokumen hasil pencarian 1 0.06 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2 0.12 1.00 0.10 0.50 0.05 0.50 0.00 0.00 0.00 0.00
1
2
0.06 1.00 0.00 0.00 0.05 1.00 0.00 0.00 0.00 0.00
0.12 1.00 0.10 0.50 0.05 0.50 0.00 0.00 0.00 0.00
Hasil penelitian dengan stemming: Jumlah doc Query Relevan Q1
17
Q2
8
Q3
20
Q4
22
Q5
16
R P R P R P R P R P
3 0.18 1.00 0.10 0.33 0.10 0.67 0.00 0.00 0.06 0.33
4 0.24 1.00 0.10 0.25 0.15 0.75 0.05 0.25 0.06 0.25
5 0.24 0.80 0.10 0.20 0.20 0.80 0.05 0.20 0.13 0.40
6 0.29 0.83 0.10 0.17 0.25 0.83 0.05 0.17 0.13 0.33
7 0.29 0.71 0.10 0.14 0.30 0.86 0.05 0.14 0.13 0.29
8 0.35 0.75 0.10 0.13 0.35 0.88 0.09 0.25 0.13 0.25
9 0.35 0.67 0.10 0.11 0.40 0.89 0.09 0.22 0.13 0.22
Top 10 dokumen hasil pencarian 3 4 5 6 7 8 0.18 1.00 0.20 0.67 0.10 0.67 0.05 0.33 0.06 0.33
0.24 1.00 0.30 0.75 0.15 0.75 0.05 0.25 0.06 0.25
0.29 1.00 0.40 0.80 0.20 0.80 0.05 0.20 0.06 0.20
0.35 1.00 0.40 0.67 0.25 0.83 0.05 0.17 0.06 0.17
0.41 1.00 0.40 0.57 0.30 0.86 0.05 0.14 0.06 0.14
0.47 1.00 0.50 0.63 0.35 0.88 0.09 0.25 0.06 0.13
10 0.35 0.60 0.10 0.10 0.40 0.80 0.09 0.20 0.13 0.20
9
10
0.53 1.00 0.50 0.56 0.35 0.78 0.14 0.33 0.06 0.11
0.59 1.00 0.50 0.50 0.40 0.80 0.14 0.30 0.13 0.20
Karena nilai Recall dan Precision tiap query berbeda maka dilakukan proses Interpolasi ++,- . = $/0 + 1 Contoh : Q1
13
R P
0.06 1.00
0.12 1.00
0.18 1.00
0.24 1.00
0.24 0.80
0.29 0.83
0.29 0.71
0.35 0.75
Max P = ( 0.12 , 1.00 )
Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Precision 1.00 1.00 1.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.00
( 0.24 , 1.00 ) Max= ( 0.35 , 0.75 )
( 1.00 , 0 .00)
0.35 0.67
0.35 0.60
Lampiran 2 Lanjutan Hasil: Precision
Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Q1 1.00 1.00 1.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Tanpa Stemming Q2 Q3 Q4 0.00 0.50 0.25 0.50 0.75 0.00 0.00 0.83 0.00 0.00 0.88 0.00 0.00 0.89 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Q5 0.33 0.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Q1 1.00 1.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 0.00
Dengan Stemming Q2 Q3 Q4 0.00 1.00 0.33 0.50 0.75 0.33 0.67 0.83 0.00 0.75 0.88 0.00 0.80 0.80 0.00 0.63 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Kemudian diambil titik maksimum pada setiap kenaikan titik recall Hasil Interpolasi titik maksimum data penelitian : Precision Recall Tanpa Stemming Dengan Stemming Q1 Q2 Q3 Q4 Q5 Q1 Q2 Q3 Q4 0 1.00 0.50 0.89 0.25 0.40 1.00 0.80 1.00 0.33 0.1 1.00 0.50 0.89 0.00 0.40 1.00 0.80 0.88 0.33 0.2 1.00 0.00 0.89 0.00 0.00 1.00 0.80 0.88 0.00 0.3 0.75 0.00 0.89 0.00 0.00 1.00 0.80 0.88 0.00 0.4 0.00 0.00 0.89 0.00 0.00 1.00 0.80 0.80 0.00 0.5 0.00 0.00 0.00 0.00 0.00 1.00 0.63 0.00 0.00 0.6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.7 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.8 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Hasil interpolasi kemudian dirata-ratakan untuk setiap recall-nya dengan cara Jika ada k buah Query {Q1,Q2,…,Qk} maka: 5
1 Pr = P4 r & -67
Contoh: Recall 0 tanpa stemming = (1+1+0.33+1+0.8)/5 = 0.83 Hasil rata-rata precision data penelitian dengan k=10 adalah sebagai berikut: Recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Rata-rata Precision Tanpa Stemming Dengan Stemming
0.63 0.61 0.43 0.36 0.26 0.09 0.04 0.00 0.00 0.00 0.00
0.71 0.66 0.60 0.57 0.53 0.45 0.25 0.21 0.09 0.05 0.00
Q5 0.33 0.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Q5 0.33 0.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lampiran 2 Lanjutan Dengan cara yang sama seperti pada proses k=10, maka untuk k=15 didapatkan hasil sebagai berikut: Precision
Recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Tanpa Stemming
Dengan Stemming
Q1
Q2
Q3
Q4
Q5
1.00 1.00 1.00 0.75 0.58 0.00 0.00 0.00 0.00 0.00 0.00
0.50 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.89 0.89 0.89 0.89 0.89 0.71 0.00 0.00 0.00 0.00 0.00
0.38 0.38 0.38 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.40 0.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Ratarata 0.63 0.63 0.45 0.33 0.29 0.14 0.00 0.00 0.00 0.00 0.00
Q1
Q2
Q3
Q4
Q5
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00
0.80 0.80 0.80 0.80 0.80 0.63 0.50 0.00 0.00 0.00 0.00
1.00 0.86 0.86 0.86 0.85 0.85 0.00 0.00 0.00 0.00 0.00
0.43 0.43 0.43 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.33 0.21 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Untuk k=20 hasil yang didapatkan adalah sebagai berikut: Precision Recall Tanpa Stemming RataQ1 Q2 Q3 Q4 Q5 Q1 rata 0 1.00 0.50 0.89 0.41 0.40 0.64 1.00 0.1 1.00 0.50 0.89 0.41 0.40 0.64 1.00 0.2 1.00 0.00 0.89 0.41 0.00 0.46 1.00 0.3 0.75 0.00 0.89 0.41 0.00 0.41 1.00 0.4 0.62 0.00 0.89 0.00 0.00 0.30 1.00 0.5 0.00 0.00 0.71 0.00 0.00 0.14 1.00 0.6 0.00 0.00 0.60 0.00 0.00 0.12 1.00 0.7 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.8 0.00 0.00 0.00 0.00 0.00 0.00 0.88 0.9 0.00 0.00 0.00 0.00 0.00 0.00 0.80 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Dengan Stemming Q2
Q3
Q4
Q5
0.85 0.85 0.85 0.85 0.85 0.85 0.50 0.44 0.44 0.00 0.00
1.00 0.88 0.88 0.88 0.83 0.83 0.76 0.70 0.00 0.00 0.00
0.44 0.44 0.44 0.44 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.33 0.21 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Rata-rata keseluruhan untuk k=10, k=15 dan k=20 adalah sebagai berikut: Recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Rata-rata Precision Tanpa Stemming Dengan Stemming
0.63 0.61 0.43 0.36 0.26 0.09 0.04 0.00 0.00 0.00 0.00
0.71 0.66 0.60 0.57 0.53 0.45 0.25 0.21 0.09 0.05 0.00
Ratarata 0.71 0.66 0.62 0.53 0.53 0.50 0.30 0.20 0.00 0.00 0.00
Ratarata 0.72 0.68 0.63 0.63 0.54 0.54 0.45 0.43 0.26 0.16 0.00
Lampiran 2 Lanjutan Nilai MAP (Mean Average Precision) didapatkan dengan menggunakan rumus sebagai berikut: ' =
∑9 06: × )#$ ℎ $ '
N = jumlah dokumen yang ditemukembalikan r = rank/peringkat rel() = nilai biner relevansi dari rank P = precision dari rank Hasil yang didapatkan adalah sebagai berikut: 1.00
1.00
1.00
1.00
0.00
0.83
0.00
0.75
0.00
0.00
0.33
0.00
0.50
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.50
0.67
0.75
0.80
0.83
0.86
0.88
0.89
0.00
0.31
0.00
0.00
0.00
0.25
0.00
0.00
0.00
0.25
0.00
0.00
0.02
0.00
0.00
0.33
0.00
0.40
0.00
0.00
0.00
0.00
0.00
0.05
MAP SEMUA QUERY K10 TANPA STEMMING
0.15
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.59
0.00
0.50
0.67
0.75
0.80
0.00
0.00
0.63
0.00
0.00
0.33
1.00
0.00
0.67
0.75
0.80
0.83
0.86
0.88
0.00
0.80
0.33
0.00
0.00
0.33
0.00
0.00
0.00
0.00
0.25
0.33
0.00
0.04
0.00
0.00
0.33
0.00
0.00
0.00
0.00
0.00
0.00
0.20
0.03
MAP SEMUA QUERY K10 DENGAN STEMMING
0.27
Lampiran 2 Lanjutan 1.00
1.00
1.00
1.00
0.00
0.83
0.00
0.75
0.00
0.00
0.00
0.58
0.62
0.00
0.00
0.40
0.00
0.50
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.50
0.67
0.75
0.80
0.83
0.86
0.88
0.89
0.00
0.82
0.00
0.00
0.71
0.00
0.39
0.00
0.00
0.00
0.25
0.00
0.00
0.00
0.25
0.00
0.00
0.27
0.33
0.38
0.00
0.00
0.07
0.00
0.00
0.33
0.00
0.40
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.05
MAP FOR ALL QUERY K15 TANPA STEMMING
0.19
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.00
0.00
0.76
0.00
0.50
0.67
0.75
0.80
0.00
0.00
0.63
0.00
0.00
0.00
0.50
0.00
0.00
0.00
0.38
1.00
0.00
0.67
0.75
0.80
0.83
0.86
0.88
0.00
0.80
0.82
0.83
0.85
0.00
0.00
0.45
0.00
0.00
0.33
0.00
0.00
0.00
0.00
0.25
0.33
0.00
0.36
0.42
0.00
0.43
0.00
0.10
0.00
0.00
0.33
0.00
0.00
0.00
0.00
0.00
0.00
0.20
0.00
0.00
0.00
0.21
0.00
0.05
MAP FOR ALL QUERY K15 DENGAN STEMMING
0.35
1.00
1.00
1.00
1.00
0.00
0.83
0.00
0.75
0.00
0.00
0.00
0.58
0.62
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.40
0.00
0.10
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.00
0.50
0.33
0.25
0.20
0.17
0.14
0.13
0.11
0.00
0.09
0.00
0.00
0.07
0.00
0.06
0.00
0.00
0.00
0.05
0.11
0.00
0.00
0.00
0.15
0.00
0.00
0.00
0.35
0.00
0.00
0.45
0.45
0.45
0.00
0.00
0.55
0.55
0.00
0.00
0.00
0.13
0.00
0.00
0.67
0.00
0.80
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.09
MAP FOR ALL QUERY K20 TANPA STEMMING
0.15
Lampiran 2 Lanjutan 1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.00
0.00
0.88
0.00
0.00
0.79
0.80
0.97
0.00
0.10
0.20
0.30
0.40
0.00
0.00
0.50
0.00
0.00
0.00
0.60
0.00
0.00
0.00
0.00
0.70
0.80
0.00
0.00
0.45
0.00
0.00
0.67
0.75
0.80
0.67
0.57
0.63
0.00
0.50
0.45
0.50
0.46
0.00
0.00
0.38
0.41
0.00
0.00
0.40
0.51
0.00
0.00
0.10
0.00
0.00
0.00
0.00
0.35
0.35
0.00
0.45
0.50
0.00
0.55
0.00
0.60
0.00
0.00
0.00
0.00
0.41
0.00
0.00
0.67
0.00
0.00
0.00
0.00
0.00
0.00
0.80
0.00
0.00
0.00
0.79
0.00
0.00
0.00
0.00
0.00
0.00
0.75
MAP FOR ALL QUERY K20 DENGAN STEMMING
0.62
Penguji: 1. Ahmad Ridha, S.Kom., MS. 2. Firman Ardiansyah, S.Kom., M.Si.