perpustakaan.uns.ac.id
digilib.uns.ac.id
ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika
Disusun Oleh:
Lyla Ruslana Aini M0507027
JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2012
commit to user i
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user ii
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
Surely there is ease after hardship. (Al-Inshirah:6)
Knowledge shared is power. (Luis Suarez)
Knowledge is that which benefits, not that which is memorised. (Imam Syafi'i)
is done. (Nelson Mandela)
commit to user iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Untuk bapak dan ibu tercinta, Untuk kakak dan adik tersayang, Untuk ibu Dewi Wisnu Wardani, S.Kom.,M.S., Untuk seluruh bapak dan ibu dosen jurusan Informatika UNS, Untuk teman-teman IF angkatan 2007
commit to user v
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Puji syukur kepada Allah Subhanahu w
senantiasa
melimpahkan nikmat dan pertolongan-Nya sehingga Penulis dapat menyelesaikan skripsi dengan judul Akademik dengan Peringkasan Otomatis Pdf Jurnal Ilmiah . Skripsi ini disusun dengan bantuan dari banyak pihak. Oleh karena itu, Penulis mengucapkan terima kasih kepada : 1.
Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D., Dekan FMIPA UNS.
2.
Ibu Dewi Wisnu Wardani, S.Kom., M.S., Dosen Pembimbing I yang telah memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.
3.
Bapak Wisnu Widiarto, S.Si., M.Kom., Dosen Pembimbing II yang telah memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.
4.
Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS.
5.
Bapak Drs. Wiranto, M.Kom., M.Cs., Pembimbing Akademik yang telah banyak memberi bimbingan selama masa studi Penulis di Jurusan Informatika FMIPA UNS.
6.
Bapak dan Ibu dosen Jurusan Informatika FMIPA UNS yang telah banyak memberikan ilmu serta bimbingan kepada Penulis.
7.
Keluarga besar yang telah banyak memberikan doa dan dukungan.
8.
Seluruh teman serta pihak yang tidak dapat Penulis tuliskan satu persatu yang telah memberikan bantuan atas penyusunan skripsi ini baik secara langsung maupun secara tidak langsung. Semoga Allah membalas kebaikan yang telah diberikan dengan pahala
yang sebesar-besarnya. Penulis berharap semoga skripsi ini dapat memberikan manfaat bagi para pembaca.
Surakarta, November 2012
commit to user vi
Lyla Ruslana Aini
perpustakaan.uns.ac.id
digilib.uns.ac.id
ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH
LYLA RUSLANA AINI
Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret
ABSTRAK Academic search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User memperoleh sedikit informasi dan terkadang harus berpindah pada halaman yang lain untuk memperoleh informasi yang lebih rinci. Oleh karena itu, dikembangkan sebuah academic metasearch engine dengan nama Academicopter yang berfokus pada pencarian PDF jurnal ilmiah dengan sumber data yang diperoleh dari academic metasearch engines. Academicopter melakukan proses peringkasan otomatis pada konten PDF jurnal ilmiah untuk memberikan informasi yang lebih banyak kepada user. Academicopter menggunakan wrapper untuk mengekstraksi data dari halaman hasil pencarian academic search engines. Data yang diekstrak adalah judul jurnal ilmiah, web address sumber jurnal ilmiah, web address PDF jurnal ilmiah, author, serta data untuk pagination. Data-data tersebut akan ditampilkan pada daftar hasil pencarian Academicopter. Peringkasan pada konten PDF jurnal ilmiah menggunakan pendekatan graph-based algorithm dan penambahan fitur metadata formula untuk title, keywords dan abstract. Hasil studi eksperimental menggunakan sumber data yang diperoleh dari Google Scholar dan Libra menunjukkan bahwa Academicopter berhasil menggabungkan hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian tunggal dengan perangkingan yang mengikuti urutan hasil perangkingan pada Google Scholar dan Libra. Academicopter memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari hasil peringkasan konten PDF jurnal ilmiah. Academicopter juga menghilangkan duplikasi data antara kedua sumber data dengan cara menampilkan satu data saja. Kata Kunci : Graph based summarization, mesin pencarian meta untuk akademik, metadata, pdf
commit to user vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ACADEMICOPTER : ACADEMIC METASEARCH ENGINE WITH AUTOMATIC PDF SCIENTIFIC JOURNAL SUMMARIZATION LYLA RUSLANA AINI Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University
ABSTRACT The existing academic search engines provided abstract information of scientific journal in snippet. Users gained a little information and sometime had to move to another page to get more-detailed information. Therefore, we developed an academic metasearch engine named Academicopter which focused on scientific journal search with data sources which were obtained from academic metasearch engines. Academicopter performed automatic summarization of PDF scientific journal with the purpose of providing more-detailed information to the users. Academicopter used wrapper for extracting data from academic search engines result pages. The extracted-data are title of the scientific journal, web address of scientific journal source, web address of PDF file, author, and data for pagination which will be displayed on result list of Academicopter. The automatic summarization of PDF scientific journal used graph-based approach and metadata formula for title, keywords and abstract. As the result of experimental studies using data sources which were obtained from Google Scholar and Libra, Academicopter successfully combined search results from both data sources into one single list result. The ranks of result followed the sequence ranks of data source. Academicopter provided summary information of scientific journal in snippet. Academicopter also eliminated duplication of data between the two sources of data by displaying only one data from one data source. Keywords: Academic metasearch engine, graph based summarization, metadata, pdf
commit to user viii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI HALAMAN JUDUL................................................................................................ i HALAMAN PERSETUJUAN ................................................................................ ii HALAMAN PENGESAHAN................................................................................ iii HALAMAN MOTTO ............................................ Error! Bookmark not defined. HALAMAN PERSEMBAHAN ............................................................................ iv KATA PENGANTAR ........................................................................................... vi ABSTRAK ............................................................................................................ vii ABSTRACT ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ............................................................................................ xii DAFTAR LAMPIRAN ........................................................................................ xiii BAB I PENDAHULUAN ........................................................................................1 1.1 Latar Belakang .............................................................................................. 1 1.2 Rumusan Masalah ......................................................................................... 2 1.3 Batasan Masalah ............................................................................................ 2 1.4 Tujuan dan Manfaat Penelitian ...................................................................... 2 1.4.1 Tujuan Penelitian ................................................................................. 2 1.4.2 Manfaat Penelitian ............................................................................... 3 1.5 Sistematika Penulisan .................................................................................... 3 BAB II TINJAUAN PUSTAKA..............................................................................4 2.1 Dasar Teori .................................................................................................... 4 2.1.1 Search Engine .......................................................................................... 4 2.1.1.2 Vertical Search Engine ................................................................... 5 2.1.2 Metasearch Engine................................................................................... 6 2.1.2.1 Wrapper .......................................................................................... 7 2.1.3 Text Preprocessing ................................................................................... 9 2.1.4 Porter Stemmer ...................................................................................... 11 2.1.5. Algoritma TF-IDF ................................................................................. 13
commit to user ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
2.1.6 Model Ruang Vektor ............................................................................. 15 2.1.6.1 Sentence Cosine Similarity (idf modified) ..................................... 17 2.1.7. Peringkasan Teks ................................................................................. 18 2.2.7.1 Peringkasan Berbasis Graf ............................................................ 19 2.1.8. Metadata .............................................................................................. 21 2.2 Penelitian Terkait ........................................................................................ 21 2.3 Rencana Penelitian ...................................................................................... 25 BAB III METODE PENELITIAN........................................................................ 26 3.1 Studi Literatur .............................................................................................. 26 3.2 Tahap Perancangan ...................................................................................... 26 3.3 Tahap Implementasi .................................................................................... 27 3.4 Tahap Eksperimen ....................................................................................... 30 3.5 Tahap Evaluasi ............................................................................................ 31 BAB IV PEMBAHASAN ......................................................................................32 4.1 Framework Academicopter ........................................................................ 32 4.2 Perangkingan Hasil Pencarian Academicopter ........................................... 35 4.3 Studi Eksperimen ........................................................................................ 36 BAB V KESIMPULAN DAN SARAN.................................................................50 5.1 Kesimpulan.................................................................................................. 50 5.2 Saran ............................................................................................................ 50 DAFTAR PUSTAKA ............................................................................................51 LAMPIRAN ...........................................................................................................55
commit to user x
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
Tabel 2.1 Similarity Antarkalimat ........................................................................20 Tabel 4.1 Hasil Pencarian Sumber Data A ..........................................................35 Tabel 4.2 Hasil Pencarian Sumber Data B...........................................................36 Tabel 4.3 Hasil Pencarian Pada Academicopter ..................................................36 Tabel 4.4 Hasil Pencarian Google Scholar dengan Keywords Wimax Technology ........................................................................................ 37 Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology ........... 37 Tabel 4.6 Hasil Pencarian Academicopter dengan Keywords Wimax Technology ......................................................................................... 38 Tabel 4.7 Penggabungan Rangking Eksperimen 1 ..............................................38 Tabel 4.8 Hasil Ringkasan Eksperimen 1 ............................................................39 Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining ...... 40 Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text mining ........................ 41 Tabel 4.11 Hasil Pencarian Academicopter dengan Keywords Text Mining ........42 Tabel 4.12 Penggabungan Rangking Eksperimen 2 ..............................................43 Tabel 4.13 Hasil Ringkasan Eksperimen 2 ............................................................44 Tabel 4.14 Hasil Eksperimen dengan Seratus Keyword ........................................45
commit to user xi
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
Gambar 2.1. Arsitektur Search Engine ..................................................................5 Gambar 2.2. Arsitektur Mesin Metasearch............................................................7 Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML ...............................8 Gambar 2.4. Contoh Proses Tokenizing .................................................................9 Gambar 2.5. Contoh Proses Filtering ..................................................................10 Gambar 2.6. Contoh Proses Stemming .................................................................10 Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor ................15 Gambar 2.8. Representasi Matrik Kata-Dokumen ...............................................16 Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query ...............16 Gambar 2.10. Representasi Graf ............................................................................20 Gambar 2.11. Arsitektur METALICA ...................................................................22 Gambar 2.12. Arsitektur Helios .............................................................................23 Gambar 3.1. Diagram Alir Metodologi Penelitian ...............................................26 Gambar 3.2. Design Framework Academicopter ................................................27 Gambar 4.1. Framework Academicopter .............................................................32
commit to user xii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR LAMPIRAN
LAMPIRAN 1. Pembangunan Wrappers ..............................................................55 LAMPIRAN 2. Tampilan Hasil .............................................................................62
commit to user xiii
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB I PENDAHULUAN 1.1 Latar Belakang Web telah menjadi sumber informasi yang sangat luas (Meng et al, 2002). Informasi tentang jurnal penelitian ilmiah banyak tersebar di situs yang berbeda. Academic search engines telah banyak dibangun untuk dapat melakukan pencarian pada domain spesifik yang memberikan hasil berupa informasi dalm bidang akademik, salah satunya adalah informasi tentang jurnal ilmiah. Academic search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User memperoleh sedikit informasi dan terkadang harus berpindah ke halaman yang lain untuk memperoleh informasi yang lebih rinci. Untuk menyimpan waktu yang lebih banyak dari pencari (Dorn, 2008) dan untuk memberikan hasil pencarian jurnal ilmiah yang lebih banyak, maka dapat dilakukan pencarian ke beberapa academic search engines secara simultan dengan menggunakan mesin pencarian meta (Taneja et al., 2007). Skripsi ini membangun sebuah mesin pencarian meta untuk akademik dengan sumber data yang berasal dari academic search engines dan berfokus pada pencarian PDF jurnal ilmiah. Informasi pada PDF jurnal ilmiah merupakan bagian dari informasi tekstual yang selalu meningkat jumlahnya. Peringkasan teks otomatis adalah salah satu teknik untuk memperoleh dan mencerna informasi penting dalam sumber-sumber tekstual. Oleh karena itu, penelitian dalam skripsi ini juga menerapkan proses peringkasan otomatis pada konten PDF jurnal ilmiah yang diperoleh dari academic search engines. Peringkasan berfokus pada peringkasan ekstraktif dengan pendekatan metode berbasis graf dan penambahan fitur metadata formula untuk title, keywords, dan abstract. Hasil peringkasan akan ditampilkan pada snippet dalam daftar hasil pencarian dengan tujuan untuk memberikan informasi yang lebih banyak kepada user.
commit to user 1
perpustakaan.uns.ac.id
digilib.uns.ac.id 2
1.2 Rumusan Masalah Rumusan masalah yang dibahas dalam skripsi ini adalah bagaimana membangun sebuah mesin pencarian meta untuk akademik yang menampilkan snippet berupa informasi hasil peringkasan konten PDF jurnal ilmiah.
1.3 Batasan Masalah Batasan masalah dari penelitian skripsi ini adalah : 1.
Proses peringkasan otomatis dilakukan pada jurnal ilmiah yang berekstensi PDF dan berbahasa inggris.
2.
Bagian dari jurnal yang diringkas adalah bagian abstrak dan bagian pendahuluan dengan asumsi sebanyak maksimal lima puluh kalimat dengan hasil ringkasan sebanyak 30% dari total kalimat yang diringkas.
3.
Hasil peringkasan akan ditampilkan pada snippet dalam daftar hasil pencarian.
4.
Urutan rangking hasil pencarian pada Academicopter mengikuti urutan hasil perangkingan dari sumber data. Sumber data dengan hasil pencarian yang lebih sedikit akan memperoleh prioritas perangkingan yang lebih awal pada Academicopter.
5.
Menampilkan satu data saja jika terdapat duplikasi data di antara sumber data yang berbeda.
6.
Eksperimen mengambil sumber data yang berasal dari dua academic search engines, yaitu http://libra.msra.cn dan http://scholar.goole.com.
1.4 Tujuan dan Manfaat Penelitian 1.4.1 Tujuan Penelitian Tujuan dilaksanakan penelitian skripsi ini adalah terbangun sebuah mesin pencarian meta untuk akademik dengan nama Academicopter yang menampilkan snippet berupa informasi hasil peringkasan otomatis konten PDF jurnal ilmiah.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 3
1.4.2 Manfaat Penelitian Manfaat dari penelitian ini adalah memberikan kemudahan bagi user untuk memperoleh informasi dari beberapa academic search engines secara simultan dan memberikan representasi hasil pencarian yang lebih lengkap dengan menampilkan informasi yang diperoleh dari hasil peringkasan konten PDF jurnal ilmiah.
1.5 Sistematika Penulisan Sistematika penulisan laporan skripsi ini adalah sebagai berikut: BAB I
PENDAHULUAN Bagian ini berisi mengenai Latar Belakang Masalah, Rumusan Masalah, Batasan Masalah, Tujuan Penelitian, Manfaat Penelitian, Metodologi Penelitian dan Sistematika Penulisan.
BAB II
TINJAUAN PUSTAKA Bagian ini berisi mengenai dasar teori dan tinjauan pustaka yang digunakan dalam penelitian mengenai mesin pencarian meta, text preprocessing dan peringkasan teks dengan pendekatan metode graph.
BAB III METODOLOGI PENELITIAN Pada bagian ini akan dibahas mengenai tahapan dalam pembangunan Academicopter. BAB IV PEMBAHASAN Bagian ini berisi pembahasan implementasi hasil perancangan serta eksperimen. BAB V
PENUTUP Bagian ini memuat kesimpulan dan saran dari penelitian dalam skripsi ini.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Search Engine Search engine adalah alat yang powerful untuk membantu tugas navigasi pada World Wide Web yang berkembang pesat (Beigi et al., 1997). Menurut Phan (2010), search engine terdiri dari tiga bagian utama, yaitu : a. Web crawler Crawling
atau
spidering
adalah
sebuah
proses
otomatis
untuk
mengumpulkan data dengan web spider. Spider divisualisasikan sebagai laba-laba kecil dan juga dikenal sebagai crawlers, robots, software agents, wanderers, walkers atau knowbots. Spider mulai meng-crawl beberapa halaman web dan mengikuti link-link dalam halaman web tersebut. Setelah mengambil halaman yang ditunjuk, spider mengikuti link-link hingga yang berada pada halaman terakhir. Proses yang sama akan dilanjutkan sampai spider mengindek bagian tertentu dari web. b. Indexer Indexer bertugas melakukan indexing, yaitu proses mengambil data mentah dan mengkategorisasikannya. Proses indexing akan menghapus duplikasi data dan secara umum mengatur data ke dalam bentuk yang terstruktur. c. Query Processor Terdiri dari form pencarian dan pencocokan permintaan pencarian yang relevan dengan database.
commit to user 4
perpustakaan.uns.ac.id
digilib.uns.ac.id 5
Secara umum, arsitektur search engine ditunjukkan oleh Gambar 2.1
Gambar 2.1. Arsitektur Search Engine (Zhou, 2006)
Arsitektur umum dari sebuah search engine terdiri dari sebuah frontend process di mana user memasukkan kata kunci pencarian ke dalam interface search engine. Search engine mengeksekusi operasi pencarian pada file index. Setelah melakukan perangkingan, interface search engine mengembalikan hasil pencarian kepada user. Pada back-end process, sebuah spider/robot mengambil halaman web dari internet dan kemudian subsistem pengindekan akan mem-parsing halaman web dan menyimpannya ke dalam file index.
2.1.1.1 Vertical Search Engine Pertumbuhan web terjadi secara eksponensial yang menyebabkan jumlah halaman yang diindeks di web juga semakin meningkat. Hal tersebut akan menyulitkan search engine untuk tetap up-to-date dan mempertahankan
indeks
pencarian
yang
komprehensif
sehingga
menghasilkan presisi yang rendah (Chau, 2002). Vertical search engine atau disebut juga dengan domain-specific search engine mengatasi masalah tersebut dengan memungkinkan pengguna untuk melakukan pencarian dalam domain tertentu dan menyediakan fitur yang sesuai (Chau, 2002). Vertical search engine umumnya menggunakan crawler dengan fokus mengindek halaman web yang relevan dengan topik yang
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 6
telah ditentukan. Vertical search engine dapat mengangkat topik khusus dalam bidang pariwisata (travel), bidang akademik, dan sebagainya.
2.1.2 Metasearch Engine Pencarian meta atau metasearch adalah pencarian yang memanfaatkan beberapa pencarian lain dan berlangsung secara simultan. Sebuah mesin metasearch adalah sebuah sistem yang memungkinkan untuk melakukan metasearch. Untuk melakukan proses dasar dari metasearch, sebuah user query dikirim ke beberapa search engines yang telah ada oleh mesin metasearch (Meng, 2008). Mesin metasearch juga dikenal sebagai multi-threaded engines, yang mengirim user query secara simultan ke search engines lainnya atau ke direktori web atau deep web, kemudian mengumpulkan hasilnya, menghapus duplikasi link, menggabungkan dan merangkingnya berdasarkan algoritma yang diterapkan dalam sebuah daftar tunggal, dan menampilkan hasilnya kepada user (Dorn et al., 2008). Yang menjadi isu utama dari mesin metasearch adalah bagaimana meluluskan user query ke mesin pencari lain, bagaimana mengidentifikasi hasil pencarian yang benar dari halaman yang dikembalikan dari search engines, dan bagaimana menggabungkan hasil dari sumber yang berbeda (Meng, 2008). Menurut Meng (2008) motivasi dalam pembuatan mesin metasearch adalah (i) peningkatan cakupan pencarian karena mesin metasearch secara efektif mengabungkan komponen-komponen dari berbagai search engines, (ii) peningkatan kenyamanan user karena mesin metasearch memungkinkan pengguna untuk memperoleh informasi dari berbagai sumber dan mesin metasearch menyembunyikan perbedaan dari search engines yang berbeda dalam format query pada user, (iii) efektivitas pengambilan yang lebih baik karena hasil penggabungan komponen menyatukan mekanisme pemilihan hasil, seperti misalnya hasil dengan rangking yang tinggi dari berbagai search engines lebih relevan dibandingkan dari hasil yang dikembalikan oleh satu mesin pencari saja.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 7
Arsitektur mesin metasearch ditunjukkan oleh Gambar 2.2.
Gambar 2.2. Arsitektur Mesin Metasearch (Glover et al., 1999)
Proses penggabungan merupakan salah satu komponen yang paling mendasar dalam mesin metasearch. Search engines yang berbeda mungkin mengindeks halaman web yang berbeda pula dan beberapa search engines mungkin lebih baik dari search engines lainnya dalam area tertentu. Hal tersebut penting untuk mengidentifikasi search engines yang sesuai dengan user query. Sebagian besar mesin metasearch dibangun di atas search engines tanpa kolaborasi eksplisit dari search engines tersebut. Sehingga membangun mesin metasearch membutuhkan sebuah program koneksi dan sebuah program ekstraksi (wrapper) untuk masing-masing komponen search engines (Meng, 2008).
2.1.2.1 Wrapper Search engines yang berbeda menghasilkan halaman hasil dalam format yang berbeda pula. Sebuah program pengekstrak hasil yang terpisah (wrapper) perlu dibangkitkan untuk setiap search engines (Meng, 2008). Wrapper merupakan program khusus untuk mengekstrak data yang diinginkan dari halaman hasil pencarian yang dikembalikan oleh mesin pencari dan memetakan data yang didapat ke dalam format yang terstruktur (Nassourou, 2010). Wapper bertanggung jawab untuk mentransmisikan query yang diberikan ke search engines, menerima hasil pencarian dan mengekstrak data yang diperlukan. Wrapper terdiri dari dua komponen utama, yaitu
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 8
sebuah kontrol koneksi dan sebuah komponen analisis syntax (Schmitt, 1999). Sebuah halaman hasil HTML dari sebuah search engine mengandung nol atau lebih butir jawaban. Sebuah butir jawaban adalah sebuah kelompok informasi yang koheren yang menyusun sebuah jawaban bagi query. Sebuah wrapper mengekstrak jawaban dari konten tekstual dan atribut dari tag tertentu dalam halaman sebagai sebuah tupel. Karena presentasi hasil pencarian dari search engine sering berubah, maka wrapper harus selalu dijalankan. Halaman hasil biasanya juga mengandung beberapa informasi atau link yang tidak diinginkan. Sehingga penting bagi wrapper untuk dapat mengekstrak dengan tepat informasi yang diperlukan (Meng, 2008). Sebagian dari wrapper menganalisis sumber file HTML dari halaman hasil sebagai string teks atau tag tree (DOM trees) untuk menemukan pola berulang dari catatan hasil pencarian. a.
String based wrapper Dalam string based wrapper sebuah halaman web digambarkan sebagai sebuah urutan dari tokens dan markup tags. Batas awal dan akhir dari string yang diberikan digunakan untuk mengekstrak informasi di dalamnya.
b.
Tree based wrapper Menurut Nassourou (2010), dalam tree based wrapper, halaman web direpresentasikan sebagai sebuah tree. Yang menjadi nodes dalam tree adalah HTML tags.
Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML (Nassourou, 2010)
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 9
Gambar 2.3 menunjukkan representasi tree dari sebuah potongan halaman HTML di bawah ini :
2.1.3 Text Preprocessing Text preprocessing adalah tahapan pertama dalam tahapan text mining untuk mempersiapkan teks menjadi data yang akan diolah pada tahapan selanjutnya (Even, 2002). Inputan awal pada proses ini berupa dokumen utuh. Tahapan dalam text preprocessing adalah : 1. Tokenizing Tokenizing merupakan tahap pemotongan teks input berdasar tiap kata penyusunnya. Contoh proses tokenizing ditunjukkan oleh gambar 2.4. Seren's hobbies include snow skiing and boarding tokenizing hobbies include snow skiing and boarding
Hasil token
Gambar 2.4. Contoh Proses Tokenizing 2. Filtering Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting atau yang dianggap tidak mempunyai bobot) atau wordlist (menyimpan kata penting) (Triawati, 2009). Stoplist adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stoplist
is
and
the dan seterusnya. Contoh proses
filtering ditunjukkan oleh gambar 2.5.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 10
hobbies include snow skiing and boarding
hobbies include snow skiing boarding
Hasil token
Hasil filter
Gambar 2.5. Contoh Proses Filtering
Hasil dari filtering kemudian digunakan untuk proses selanjutnya yaitu proses tagging dan stemming. 3. Tagging Tagging adalah proses memberikan label/tag pada token yang tidak termasuk stopwords maupun yang tidak termasuk dalam wordlist. Misalnya memberikan tag number untuk angka yang ditemukan dalam teks atau
untuk nama orang, nama kota, nama sistem dan
sebagainya. Pada kata hasil filtering pada contoh filtering, maka didapat satu kata yang diberi
.
4. Stemming Stemming adalah tahap mencari root kata dari tiap kata yang dihasilkan oleh filtering (Triawati, 2009). Proses ini mengubah kata menjadi kata dasar pembentuknya. Tahap ini kebanyakan dipakai dalam teks berbahasa Inggris. Proses stemming
untuk teks berbahasa Inggris menggunakan
algoritma yang cukup terkenal, yaitu Porter Stemmer. Contoh dari proses stemming ditunjukkan oleh gambar 2.6.
Hasil filter
hobbies include snow skiing and boarding
hobbi include snow ski board
Gambar 2.6. Contoh Proses Stemming
commit to user
Hasil stemming
perpustakaan.uns.ac.id
digilib.uns.ac.id 11
2.1.4 Porter Stemmer Algoritma stemming yang paling umum digunakan untuk stemming bahasa Inggris dan terbukti efektif adalah Porter Stemmer (Manning et al., 2009). Porter Stemmer ditemukan oleh Martin Porter pada tahun 1980. Algoritma Porter Stemmer mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan-imbuhan (akhiran) pada kata-kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan (Baskoro et al., 2012). Beberapa definisi yang digunakan dalam algoritma ini adalah : V
vokal
C
konsonan
M
measure (vc)
*S -stem berakhir dengan huruf S *v* -stem mengandung vokal *d -stem berakhir dengan double konsonan *o -stem berakhir dengan cvc, dengan c yang kedua bukan W, X,Y
Menurut Porter (1980) langkah-langkah algoritma Porter Stemmer adalah sebagai berikut : Langkah 1a SSES IES
SS I
caresses ponies
caress poni
SS S
SS
caress cats
caress cat
Langkah 1b (m>0) EED (*v*) ED (*v*) ING
EE
feed plastered bled motoring sing
feed plaster bled motor sing
Jika aturan kedua atau ketiga pada langkah 1b sukses, dilakukan hal berikut ini : AT BL IZ
ATE BLE IZE
conflat(ed) troubl(ed) siz(ed)
commit to user
conflate trouble size
perpustakaan.uns.ac.id
digilib.uns.ac.id 12
(*d dan tidak (*L atau *S atau *Z)) single letter
(m=1 dan *o)
E
hopp(ing) tann(ed) fall(ing) hiss(ing) fizz(ed) fail(ing) fil(ing)
hop tan fall hiss fizz fail file
Aturan untuk memetakan ke single letter menyebabkan penghapusan salah satu pasangan huruf ganda. -E diletakkan kembali pada akhir setelah -AT, -BL, dan -IZ sehingga akhiran dapat dikenali kemudian.
Langkah 1c (*v*) Y
I
happy sky
happi ski
Langkah 2 (m>0) ATIONAL -> (m>0) TIONAL ->
ATE TION
(m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0)
ENCE ANCE IZE ABLE AL ENT E OUS IZE ATE ATE AL IVE FUL OUS AL IVE BLE
ENCI ANCI IZER ABLI ALLI ENTLI ELI OUSLI IZATION ATION ATOR ALISM IVENESS FULNESS OUSNESS ALITI IVITI BILITI
-> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> ->
relational conditional rational valenci hesitanci digitizer conformabli radicalli differentli vileli analogousli vietnamization predication operator feudalism decisiveness hopefulness callousness formaliti sensitiviti sensibiliti
-> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> ->
relate condition rational valence hesitance digitize conformable radical different vile analogous vietnamize predicate operate feudal decisive hopeful callous formal sensitive sensible
Langkah 3 (m>0) ICATE -> IC (m>0) ATIVE -> (m>0) ALIZE -> AL
triplicate formative formalize
commit to user
-> -> ->
triplic form formal
perpustakaan.uns.ac.id
digilib.uns.ac.id 13
(m>0) (m>0) (m>0) (m>0)
ICITI ICAL FUL NESS
-> IC -> IC -> ->
electriciti electrical hopeful goodness
-> -> -> ->
electric electric hope good
revival allowance inference airliner gyroscopic adjustable defensible irritant replacement adjustment dependent adoption homologou communism activate angulariti homologous effective bowdlerize
-> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> ->
reviv allow infer airlin gyroscop adjust defens irrit replac adjust depend adopt homolog commun activ angular homolog effect bowdler
Langkah 4 (m>1) AL -> (m>1) ANCE -> (m>1) ENCE -> (m>1) ER -> (m>1) IC -> (m>1) ABLE -> (m>1) IBLE -> (m>1) ANT -> (m>1) EMENT -> (m>1) MENT -> (m>1) ENT -> (m>1 and (*S or *T)) ION -> (m>1) OU -> (m>1) ISM -> (m>1) ATE -> (m>1) ITI -> (m>1) OUS -> (m>1) IVE -> (m>1) IZE ->
Langkah 5a (m>1) E
->
(m=1 dan not *o) E ->
probate rate cease
-> -> ->
probat rate ceas
-> ->
control roll
Langkah 5b (m > 1 dan *d dan *L) -> single letter controll roll
2.1.5 Algoritma TF-IDF Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata dalam suatu dokumen atau dikenal dengan term frequency (tf) dan jumlah kemunculannya dalam koleksi dokumen sebagai inverse document frequency (idf).
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 14
a. Term Frequency (tf) Term Frequency (tf) adalah jumlah kemunculan suatu kata/term (t) dalam dokumen/kalimat. Semakin besar kemunculan sering suatu term dalam sebuah dokumen, maka semakin besar nilai tf pada term tersebut yang berarti semakin penting term tersebut. Faktor tf dapat dihitung dengan menggunakan persamaan 2.1.
dengan fw,s > 0
(2.1)
di mana, tfw,s
= nilai tf term w dalam kalimat s
fw,s
= jumlah kemunculan term w dalam kalimat s
ns
= jumlah term dalam kalimat s
b. Inverse Document Frequency (idf) Menurut Mandala (2002) faktor lain yang diperhatikan dalam pemberian bobot adalah jarang munculnya kata dalam koleksi. Kata yang muncul pada sedikit dokumen dipandang sebagai kata yang lebih penting daripada kata
yang
sering
muncul
pada
banyak
dokumen.
Pembobotan
memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu kata atau disebut dengan inverse document frequency. Faktor idf dapat dihitung dengan menggunakan persamaan 2.2 (Manning et al., 2009). dengan nw > 0 di mana, idfw
= nilai idf term w
n
= jumlah kalimat dalam suatu artikel
nw
= jumlah kalimat di mana term w muncul
commit to user
(2.2)
perpustakaan.uns.ac.id
digilib.uns.ac.id 15
2.1.6 Model Ruang Vektor Menurut Mandala et al. (2002) misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index), kata-kata tersebut akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. misalkan terdapat tiga buah kata ( T1, T 2 dan T3 ), 2 buah dokumen ( D1 dan D2 ) serta sebuah query Q. D1=2T1+3T2+5T 3 D2=3T1+7T2+0T 3 Q=0T1+0T2+2T 3 Maka representasi grafis dari ketiga vektor ini adalah seperti yang ditunjukkan pada gambar 2.7.
Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor (Mandala et al., 2002) Menurut Mandala et al. (2002) koleksi dokumen direpresentasikan pula dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix). Nilai dari elemen matriks wij adalah bobot kata i dalam dokumen j. Misalkan terdapat sekumpulan kata T sejumlah m, yaitu T = (T 1,T2,...,T m) dan sekumpulan dokumen D sejumlah n, yaitu D=(D1,D2,...,Dm) serta wij adalah bobot kata i pada dokumen j, representasi matrik kata dokumen tersebut ditunjukkan oleh gambar 2.8.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 16
T1 T2 . D1 w11 w21 D2 w12 w22 : : : : : : Dm w1m w2m
Tn wn1 wn2 : : wnm
Gambar 2.8. Representasi Matrik Kata-Dokumen (Mandala et al., 2002)
Menurut Mandala et al. (2002) penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor query dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor. Kesamaan antara dokumen D1 dan D2 dengan query Q ditunjukkan oleh gambar 2.9. t3 1
D1
Q 2
t2
t1
D2
Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query (Mandala et al., 2002)
Sudut
1
sedangkan sudut
menggambarkan kesamaan dokumen D1 dengan query 2
menggambarkan kesamaan dokumen D2 dengan query.
Jika Q adalah vektor query dan D adalah vektor dokumen, dan
commit to user
adalah
perpustakaan.uns.ac.id
digilib.uns.ac.id 17
sudut yang dibentuk oleh kedua vektor tersebut. Maka Q D n
dengan D
D1
2
n
dan
Q
i 1
Q D cos ,
2
Q1 yang merupakan panjang vektor i 1
dalam ruang berdimensi n. Perhitungan kesamaan (similarity) kedua vektor ditunjukkan oleh persamaan 2.3. Sim (Q , D )
Cos (Q , D )
Q D QD
1 QD
n
Qi
Di
(2.3)
i 1
2.1.6.1 Sentence Cosine Similarity ( idf modified ) Cosine similarity adalah metode similarity yang paling banyak digunakan untuk menghitung similarity antara dua buah dokumen (Tan et al., 2006). Similarity diantara dua vektor kalimat x dan y dapat ditentukan dengan cosine diantara dua vektor yang dimodifikasi dengan inverse document frequency (idf). Metode tersebut cukup populer dan lebih baik dibandingkan metode lainnya (Erkan, 2004). Haiharan (2010) telah membuktikan bahwa metode cosine similarity (idf modified) memberikan hasil yang baik dalam mengukur hubungan antarkalimat. Erkan dan Radev (2004) menggunakan modifikasi cosine similarity dengan konsep bag of words model, yaitu menggunakan perhitungan kemunculan term pada suatu kalimat dikalikan dengan nilai idf term tersebut. Kemiripan antar kalimat dapat dihitung menggunakan persamaan 2.4.
(2.4) di mana, idf_modified_cosine(x,y) = kemiripan kalimat x dan kalimat y
tfw,x
= jumlah dari munculnya kata (tf) w dalam kalimat x
tfw,y = jumlah dari munculnya kata (tf) w dalam kalimat y idfw = nilai idf kata w
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 18
= jumlah dari munculnya kata (tf) xi dalam kalimat x = jumlah dari munculnya kata (tf) xi dalam kalimat y = nilai idf kaya y i = nilai idf kaya xi
2.1.7 Peringkasan Teks Ringkasan dapat didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks, yang berisi informasi penting dari teks asli (Hovy, 2005). Menurut Mani et al. (1999) peringkasan adalah proses penyaringan informasi paling penting dari sebuah sumber (atau beberapa sumber) untuk menghasilkan sebuah versi pendek dari sumber tersebut untuk user tertentu (atau beberapa user) dan untuk sebuah tugas (atau beberapa tugas). Ketika proses tersebut dilakukan dengan komputer secara otomatis maka disebut dengan peringkasan teks otomatis. Input dalam proses peringkasan dapat berupa dokumen tunggal atau beberapa dokumen, teks atau informasi multimedia seperti gambar, audio, atau video. Definisi sederhana tentang ringkasan merangkum tiga aspek penting yang menjadi karakter penelitian dalam automatic text summarization (Susanti, 2011) : a. Summary mungkin dihasilkan dari single atau multiple-document. b. Summary harus menampilkan informasi yang penting dari teks asli, c. Summary yang dihasilkan harus pendek (<= 50%). Secara garis besar fase dalam peringkasan teks otomatis dapat terdiri dari 3 fase (Mani et al., 1999), yaitu analisis teks input, transformasi teks input ke dalam sebuah bentuk ringkasan, dan mengumpulkan dalam sebuah output yang tepat. Ada beberapa cara yang mana dapat mencirikan pendekatan yang berbeda untuk peringkasan teks. Salah satunya adalah mengkaji pada level proses. Berdasarkan hal tersebut, peringkasan dapat dicirikan dengan pendekatan masalah pada surface-level, entity-level, dan discourse-level (Mani et al., 1999). a.
Surface-level merupakan pendekatan dalam mengekstrak informasi. Fitur ini meliputi :
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 19
fitur tematik (statistik dari istilah penting, berdasarkan statisik frekuensi istilah/term) lokasi (posisi dari teks, posisi paragraf) latar belakang (term dari judul atau heading dalam teks, bagian inisial dari teks, atau sebuah user query) b.
Entity-level adalah pendekatan pembangunan representasi internal dari teks, pemodelan entitas teks dan relasinya. Pendekatan ini mewakili pola konektivitas dalam teks (misalnya topologi graf). Hubungan antara entitas meliputi : similarity proximity (jarak antara unit teks) hubungan tesaurus antara kata-kata (sinonim, hipernim)
c.
Discourse-level merupakan pendekatan model struktur global dari teks dan relasinya untuk tujuan komunikatif. Struktur ini meliputi : format dari dokumen ( hypertext markup, outline dokumen) struktur retorikal dari teks Sebuah parameter penting untuk peringkasan adalah compression ratio (rasio
dari panjang ringkasan pada panjang sumber). Compression ratio biasanya berada pada kisaran 1%-30% (Mani et al., 1999). Ringkasan teks dapat dibagi ke dalam kategori yang berbeda, salah satunya berdasarkan pada asal teks dalam ringkasan yang terbagi menjadi dua (Lal, 2002), yaitu : a.
Ekstraktif, di mana ringkasan tersusun dari kalimat yang sudah ada dalam teks.
b.
Abstraktif, beberapa teks baru dibangkitkan oleh peringkas.
2.1.7.1 Peringkasan Berbasis Graf Metode peringkasan berbasis graf merepresentasikan sebuah teks dalam sebuah graf. Vertex/node pada graf dapat berbentuk kata, kalimat, maupun paragraf dalam sebuah teks, sedangkan edge menunjukkan keterhubungan antara vertex-vertex tersebut. Keterhubungan dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 20
(Purwasih, 2008). Kata-kata akan dipilih sebagai vertex. Namun apabila ingin menghasilkan ringkasan ekstraktif, maka kalimat dipilih sebagai vertex. Edge yang menghubungkan vertex-vertex tersebut juga disesuaikan dengan kebutuhan dan unit teks yang telah dipilih menjadi vertex. Konsep similarity digunakan untuk menyatakan hubungan antar vertex, atau dengan kata lain, antara kalimat satu dengan kalimat lain. Salah satu yang cukup terkenal adalah dengan cosine similarity.
Tabel 2.1 Tabel Similarity Antarkalimat (Muresan, 2007) Kalimat
1
2
1
23
2
33
3
4
5
5 55
3 4
50
5
Representasi graf dari hubungan antarkalimat tersebut ditunjukkan pada Gambar 2.10.
Gambar 2.10. Representasi Graf (Muresan,2007)
Secara umum, graph-based summarization dapat diklasifikasikan dalam dua jenis, yaitu tipe non-Page Rank dan Page Rank (Hariharan, 2010). Salah satu metode yang yang termasuk dalam Page Rank adalah algoritma continuous Sentence Rank (Hariharan, 2010).
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 21
2.1.8 Metadata Metadata adalah data yang mendiskripsikan data. Menurut Oracle (2012) metadata adalah diskripsi dari data itu sendiri, maksud dari data tersebut, bagaimana
cara
menggunakannya,
dan
sistem
yang
digunakan
untuk
mengaturnya. Metadata meliputi : 1. Definisi model data 2. Diskripsi transformasi data 3. Proses dan aliran informasi, seperti jadwal dan logs. 4. Diskripsi seperti dimensi, matrik. 5. Tipe informasi yang berarti lainnya, seperti semantik. Metadata tidak hanya terdiri dari informasi teknis, tetapi juga meliputi informasi yang membuat user tahu tentang tujuan dan kegunaan data. 2.2 Penelitian Terkait Berikut ini adalah beberapa penelitian yang berkaitan dengan mesin pencarian meta di berbagai domain pengetahuan. 1.
METALICA: An Enhanced Meta Search Engine for Literature Catalogs (Schmitt et al., 1999) Penelitian ini menyediakan kemudahan pengguna dalam pencarian literatur. Layanan heterogen yang terintegrasi pada bagian dasar dari sebuah domain model, dirancang untuk menggabungkan semua aspek dari dokumen, termasuk informasi bibliografi, informasi konten, dan informasi yang diperlukan untuk memperoleh versi fisik atau digital dari entitas dokumen komersial atau publik. Teknis dan sintaksis homogenisasi dilakukan dengan wrappers yang terdiri dari komponen kontrol koneksi dan komponen analisis sintaks. Homogenisasi semantik dilakukan dengan mediator yang berisi penerjemah query dan penerjemah model atribut. Integrator mengenali dan menyatukan
duplikat
dan
menawarkan
operasi
tambahan
untuk
mengelompokkan dan memilah sehingga mendukung pengguna dalam eksplorasi koleksi hasil yang besar. Antarmuka pengguna
commit to user
memanfaatkan
perpustakaan.uns.ac.id
digilib.uns.ac.id 22
arsitektur model-view-controller. Arsitektur METALICA ditunjukkan oleh Gambar 2.11.
Gambar 2.11. Arsitektur METALICA (Schmitt et al., 1999)
2.
Fusion Based Meta Search : An Improved Approach towards efficient web searching (Taneja et al., 2007) Penelitian ini menerangkan bagaimana cara membuat sebuah sistem untuk menggabungkan hasil himpunan permintaan pengguna dari beberapa mesin pencari yang berbeda ke dalam satu himpunan hasil tunggal yang kemudian akan ditawarkan kepada pengguna dalam format yang sesuai. Pendekatan dalam metasearch dapat dirangkum dalam tiga fase, yaitu : a. Selection of Search Engine, yaitu pengguna memasukkan query ke dalam mesin metasearch, kemudian query tersebut dikirim untuk menyeleksi search engine. Mesin metasearch memutuskan himpunan search engines yang dapat digunakan untuk proses pembuatan keputusan. b. Merging Result Sets, yaitu mengkombinasikan, mereorganisasi dan mengurutkan dokumen yang diperoleh serta menyatukan ke dalam satu daftar tunggal. c. Presentation to Use, yaitu menampilkan hasil pencarian kepada pengguna dengan format yang sesuai.
3.
Web Service based Meta-Search for Accomodation (Dorn et al., 2008) Paper ini menerangkan tentang Helios, yaitu sebuah mesin metasearch yang berbasis open source. Helios berjalan di atas delapan belas search engines.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 23
Antarmuka web mengizinkan users untuk men-submit query dan untuk menyeleksi search engines yang diinginkan. Informasi diinterpretasikan dengan Local Query Parser & Emitter yang menulis ulang queries ke dalam format yang tepat untuk search engines yang terpilih. Engines Builder memelihara seluruh pengaturan penting untuk berkomunikasi dengan remote search engines. Modul HTTP Retrievers menangani komunikasi jaringan. Segera setelah hasil diperoleh, Search Result Collector
& Parser
mengekstrak informasi yang relevan dan mengembalikannya dengan menggunakan XML. Untuk mencapai performansi yang baik, Helios memanfaatkan I/O dan koneksi paralel TCP, dengan remote search engines. Hal tersebut berguna untuk : (i) sistem tidak overloaded dengan ribuan threads, (ii) dengan koneksi paralel, biaya koneksi berkurang. Arsitektur Helios ditunjukkan oleh Gambar 2.12.
Gambar 2.12. Arsitektur Helios (Dorn et al 2008)
4.
Inquirus, The NECI Metasearch Engine (Lawrence et al., 1998) Inquirus bekerja dengan mengunduh and menganalisis halaman web. Inquirus membuat perbaikan atas mesin pencari yang ada di sejumlah daerah, misalnya: dengan teknik sederhana mencari kesamaan antara query dan informasi pada halaman web dan mendeteksi duplikasi halaman. Fitur dasar Inquirus adalah menganalisis dokumen halaman web dan menampilkan konteks lokal yang berada pada sekitar query. Sehingga user dapat memperoleh hasil dengan relevansi tinggi terhadap query yang dimasukkan. Manfaat dari menampilkan konteks lokal adalah user dapat dengan cepat membaca apakah dokumen yang terpilih menjawab user query atau tidak.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 24
Seorang user dapat menemukan dokumen dengan relevansi yang tinggi dengan scanning lokal konteks secara cepat. Teknik tersebut sederhana, tetapi efektif, khususnya dalam kasus pencarian pada web dengan database yang begitu besar dan terkadang kurang terorganisasi. User mengindikasi ringkasan dari halaman yang dibangkitkan dengan menggunakan konteks lokal yang mengizinkan untuk memperkirakan relevansi dokumen dengan lebih mudah dan cepat. Duplikasi halaman akan teridentifikasi jika string konteks identik. Inquirus menggunakan teknik pencarian specific expressive forms, yang mana dapat meningkatkan presisi untuk query tertentu secara dramatis. Teknik tersebut bekerja dengan cara mencari jalan khusus dari pernyataan jawaban untuk sebuah query. 5.
Applying Metasearch Technique to Medical Literature Retrieval for Evidence-Based Medicine (Coi et al., 2009) Paper ini menerangkan pembangunan sistem pencarian yang efektif dalam domain medis yang kompleks dengan cara menghitung relevansi dan aspek kualitas bersama dalam algoritma perangkingan. Hal pertama yang dilakukan adalah membuat koleksi test dengan memanfaatkan Cochrane Reviews yang mempublikasikan tinjauan sistematis penelitian utama dalam perawatan kesehatan manusia dan kebijakan kesehatan. Skor relevansi dihitung menggunakan probabilistik pengambilan model (Okapi BM25). Judul, abstrak, bidang publikasi diekstraksi untuk diindeks. Dengan mesin classifier (Naif Bayes, SVM) dilatih tentang database Hedges klinis, untuk menghitung kualitas skor. Kemudian menggabungkan skor relevansi dan skor kualitas dengan berbagai metodologi reranking. Prediksi peringkat dihitung dengan menggunakan algoritma SVM. Dan dari paper ini telah dibuktikan bahwa proses dapat reranking meningkatkan performansi.
6.
Profusion: Intelligent Fusion from Multiple Distributed Search Engines (Gauch et al., 1996) ProFusion
adalah
sebuah
mesin
metasearch
yang
bekerja
dengan
mengkombinasikan learning approach. Dalam ProFusion, 13 pre-set kategori dimanfaatkan dalam proses learning. Sekumpulan term diasosiasikan dengan
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 25
masing-masing kategori untuk merefleksikan topik dari kategori. Untuk setiap kategori, sekumpulan dari training queries akan diidentifikasi. Alasan menggunakan kategori dan training queries adalah untuk mempelajari seberapa baik masing-masing komponen database akan merespon queries dalam kategori yang berbeda. Pengetahuan yang dipelajari dari training queries digunakan untuk menyeleksi search engine pada setiap user query dan pengetahuan secara berlanjut diperbarui dengan dasar reaksi user terhadap hasil pencarian, hal tersebut dilihat dari diklik atau tidaknya hasil oleh user. 7.
ProThes: Thesaurus-based Meta-Search Engine for a Specific Application Domain (Braslavski et al., 2004) ProThes adalah sebuah mesin metasearch untuk sebuah aplikasi domain khusus. ProThes mengkombinasikan tiga pendekatan : metasearch, graphical user interface (GUI) untuk spesifikasi query, dan teknik thesaurus-based query. ProThes mencoba untuk menggunakan pengetahuan pada bidang khusus, yang mana direpresentasikan oleh konsep thesaurus. Walaupun representasi pengetahuan terpisah dari inti mesin metasearch, mengatur sistem
dalam
sebuah domain
khusus
tidaklah masalah.
Thesaurus
mengizinkan untuk pembangunan query manual dan teknik query otomatis. Dalam penelitian ini ditunjukkan bahwa teknik query otomatis, walaupun sangat membantu dalam banyak kasus, gagal untuk menyajikan hasil yang baik secara konsisten.
2.3 Rencana Penelitian Penelitian ini membangun sebuah mesin pencarian metauntuk akademik dengan nama Academicopter. Academicopter berfokus pada jurnal ilmiah dengan proses peringkasan pada konten PDF jurnal ilmiah. Wrapper yang dibangun menggunakan pendekatan metode tree-based wrapper. Proses peringkasan teks dengan menggunakan metode pendekatan graph dan penambahan fitur untuk metadata formula untuk title keywords,dan abstract.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB III ME TO D
GI L O
PE NE ITIAN L
Penelitian dalam skripsi ini dilakukan dengan tahapan-tahapan yang ditunjukkan oleh Gambar 3.1.
Gambar 3.1. Diagram Alir Metodologi Penelitian
3.1 Studi iLteratur Studi literatur merupakan langkah pertama untuk mengumpulkan informasi yang relevan dengan penelitian pembangunan Academicopter. Studi literatur dilakukan melalui kajian pustaka tentang teori dan penelitian tentang mesin pencarian meta yang telah ada sebelumnya. Sumber kajian pustaka berasal dari jurnal, skripsi, maupun artikel yang berkaitan dengan tema mesin pencarian meta, text preprocessing, dan peringkasan teks otomatis dengan pendekatan graf dengan penambahan fitur metadata formula. Sumber kajian pustaka diperoleh dari sumber baik yang berasal dari luar negeri maupun dalam negeri.
3.2 Tahap Perancangan Pada tahap ini dilakukan perancangan framework Academicopter. Gambar design perancangan framework Academicopter ditunjukkan oleh gambar 3.2.
commit to user 26
perpustakaan.uns.ac.id
digilib.uns.ac.id 27
Gambar 3.2. Design Framework Academicopter
Tahap perancangan mengikuti alur proses utama dalam Academicopter, yaitu user memasukkan keywords pencarian, Academicopter melakukan koneksi terhadap sumber data academic search engines untuk meneruskan user query, mengekstraksi data yang diperlukan dari halaman web hasil pencarian academic search engines yang sesuai dengan query user dengan menggunakan wrapper yang dibangun dengan metode pendekatan tree-based wrapper, mengunduh file PDF jurnal ilmiah, mengekstrak file PDF menjadi TXT dengan menggunakan tool pdftotext.exe, melakukan text preprocessing pada konten TXT, melakukan proses peringkasan konten PDF jurnal ilmiah dengan menggunakan metode pendekatan graph dan penambahan fitur untuk metadata formula untuk title, keywords, dan abstract.
3.3 Tahap Implementasi Tahap
implementasi
merupakan
tahap
pembangunan
Academicopter
berdasarkan hasil perancangan framework dengan menerapkan algoritma graf untuk peringkasan. Tahap implementasi meliputi tahap pembangunan database dengan database server MySQL, tahap pembuatan kode program dengan bahasa
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 28
pemrograman PHP, HTML, CSS dan javascript, serta tahap debugging untuk mencari error yang masih terdapat pada program untuk selanjutnya diperbaiki. Model algoritma peringkasan yang digunakan adalah sebagai berikut : 1.
Proses
peringkasan
menggunakan
algortitma
penambahan fitur metadata formula.
Model
graph-based
dengan
graph-based algorithm
ditunjukkan pada persamaan 3.1 (Hariharan, 2010). CSR (i )
d N
gama * beta i
1
(1 d ) *
j S [i ]
IdfModCos (i , j ) * CSR[ j ] (3.1) IdfModCos ( j , k ) k S[ j ]
di mana : N
= total jumlah kalimat dalam dokumen
d
= damping factor (0,1)
gama,beta
= parameter dari position weight (antara 0-1)
CSR(i)
= skor Continuous Sentence Rank kalimat ke-i
IdfModCos(i,j) = nilai idf modified cosine kal i dan j 2.
Menghitung metadata formula. Metadata formula menunjukkan similarity antara kalimat dan metadata title, keywords, dan abstract. Metadata formula ditunjukkan oleh persamaan 3.2.
Sim(Si , Q)
n k 1
wik wQk
(3.2)
di mana : Sim(Si,Q) = similarity kalimat ke-i dengan query (Skor MF) Wik
= bobot kata ke-k dalam kalimat ke-i
Wqk
= bobot kata ke-k dalam query/metadata
Ketiga metadata, yaitu title, keywords, dan abstract, menggunakan formula yang sama, sehingga akan diperoleh skor MF untuk metada title(MFtti), skor MF untuk metada keywords (MFkwi), dan skor MF untuk metadata abstract (MFabi).
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 29
3.
Skor CSR, MFtti, MFkwi, dan MFabi akan dinormalisasi agar setiap skor berada dalam range 0-1. Persamaan 3.3
menunjukkan formula untuk
normalisasi.
x normal
x x min x max x min
(3.3)
di mana, x
= skor yang akan dinormalisasi
xnormal = skor hasil normalisasi
4.
xmin
= skor minimal dalam himpunan skor yang akan dinormalisasi
xmax
= skor maksimal dalam himpunan skor yang akan dinormalisasi
Kemudian skor akhir dari kalimat akan didapatkan dengan proses linear combination seperti yang ditunjukkan pada persamaan 3.4.
Stot i
CSRi
MFtt i
MFkwi 4
MFabi
(3.4)
di mana :
5.
CSR i)
= skor CSR kalimat ke-i (normalized)
MFtti
= skor MF title kalimat ke-i (normalized)
MFkwi
= skor MF keywords kalimat ke-i (normalized)
MFabi
= skor MF abstract kalimat ke-i (normalized)
Stoti
= skor akhir kalimat ke-i
Setelah skor akhir per kalimat didapatkan dengan formula linear combination maka summary dibangkitkan dengan mengekstrak kalimat yang memiliki skor tertinggi sesuai dengan compression ratio yang diinginkan. Formula untuk membangkitkan summary ditunjukkan oleh persamaan 3.5. Psummary = CR * N di mana, Psummary = panjang summary (jumlah kalimat yang diambil) CR
= compression ratio (30%)
N
= total kalimat dalam dokumen
commit to user
(3.5)
perpustakaan.uns.ac.id
digilib.uns.ac.id 30
3.4 Tahap Eksperimen Tahap eksperimen dilakukan untuk menguji sejauh mana Academicopter yang telah terbangun sesuai dengan rancangan awal penelitian. Eksperimen dilakukan dengan mencoba melakukan pencarian dengan beberapa kata keywords yang berbeda pada Academicopter secara online. Eksperimen dilakukan dengan mengambil
sumber
data
dari
dua
academic
search
engines,
yaitu
http://scholar.google.com dan http://libra.msra.cn. Tahap awal sebelum dilakukan eksperimen ini adalah membuat wrapper untuk Google Scholar dan Libra. Pembuatan wrapper dilakukan dengan dasar tree-based wrapper. Proses pembuatan wrapper dapat dilihat pada lampiran 1. Tahap eksperimen dilakukan dengan skenario berikut : 1. User memasukkan keywords pencarian pada form input Academicopter. 2. User mengklik tombol submit untuk memulai proses pencarian jurnal akademik. 3. Academicopter akan menampilkan hasil pencarian pada sebuah halaman baru. 4. Keberhasilan ditunjukkan oleh kesamaan data antara Academicopter dan sumber data, keberhasilan menggabungkan hasil pencarian dari Google Scholar dan Libra dalam satu daftar hasil pencarian tunggal, keberhasilan dalam menampilkan hasil ringkasan dari jurnal ilmiah pada snippet, keberhasilan melakukan perangkingan hasil pencarian yang mengikuti urutan hasil perangkingan dari Google Scholar dan libra, dan keberhasilan dalam menghilangkan duplikasi data antara Google Scholar dan Libra. 5. Tidak dilakukan pengukuran terhadap baik atau tidaknya ringkasan yang dihasilkan oleh Academicopter.
Tahap eksperimen dilakukan dengan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut : 1. Perangkat Keras Perangkat keras yang digunakan adalah notebook dengan spesifikasi : a. Processor
: Intel ® Core(TM) i3-250M CPU @ 2.30 GHz
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 31
b. RAM
: 2048 MB
c. Harddisk
: 320 GB
2. Perangkat Lunak a. Package AppServ Open Project version 2.5.10 dengan : Bahasa Pemrograman
: PHP 5.2.6
Web Server
: Apache 2.2.8
Database Server
: MySQL 5.0.51b
Database Manager
: phpMyAdmin 2.10.3
b. Operating system
: Microsoft Windows 7 ultimate
c. Graphic tools
: Adobe Photoshop CS3
d. Testing tools Web browser
: Opera 12.02
Koneksi Internet
: Jaringan internet Telkom Speedy
3.5 Tahap Evaluasi Tahap evaluasi adalah tahap analisis dari hasil eksperimen sebagai dasar untuk penarikan kesimpulan.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB IV PEMBAH ASAN 4.1 Framework Academicopter Framework Academicopter ditunjukkan oleh Gambar 4.1.
Gambar 4.1. Framework Academicopter
Penjelasan alur dalam framework Academicopter adalah sebagai berikut : 1.
User memasukkan keywords pencarian dalam form input pencarian Academicopter.
2.
Academicopter membaca string keywords yang dimasukkan oleh user, kemudian
membangkitkan
url
halaman
sumber
data
dengan
cara
menambahkan keywords ke dalam string url sumber data yang polanya telah dikenali sebelumnya. Contoh pengenalan pola url dengan sumber academic search engine Libra adalah sebagai berikut : a. Melakukan pencarian dengan cara memasukkan keywords pada form input Libra, misalnya text mining.
commit to user 32
perpustakaan.uns.ac.id
digilib.uns.ac.id 33
b. String url hasil pencarian pada Libra untuk keyword text mining adalah : http://libra.msra.cn/Search?query=text%20mining&s=0. Dari contoh url tersebut
dapat
dikenali
pola
url
untuk
Libra
adalah
http://libra.msra.cn/Search?query=$keywords&s=0. Di mana $keywords adalah ruang yang akan diisi oleh string keywords yang dimasukkan oleh user. 3.
Academicopter membaca halaman HTML hasil pencarian yang diperoleh dari url yang telah dibangkitkan untuk mengekstraksi informasi pada data yang memiliki link dokumen PDF jurnal ilmiah. Informasi yang diekstrak adalah judul jurnal, web address sumber jurnal ilmiah, author, web address PDF jurnal ilmiah, dan data pagination.
4.
Untuk mencegah terjadinya pengulangan pemrosesan peringkasan dokumen, dilakukan pencocokan antara nama file dokumen PDF yang pernah diringkas dengan informasi nama file dokumen PDF yang sedang diekstrak. Nama file dokumen yang sedang diekstrak diperoleh dengan membaca filename pada web address file PDF jurnal ilmiah.
5.
Mengunduh dokumen PDF yang belum pernah diringkas sebelumnya dengan fungsi copy pada web address PDF. Dokumen PDF disimpan dalam folder Academicopter.
6.
Dokumen PDF diekstrak ke dalam bentuk TXT dengan tool pdftotext.exe dan hasil ekstraksi disimpan dalam folder Academicopter.
7.
Teks dalam dokumen TXT kemudian diuraikan untuk memperoleh konten, abstrak, dan keywords. Konten adalah keseluruhan isi dari dokumen. Konten diuraikan untuk memperoleh sentences. Untuk peringkasan, Academicopter hanya akan memproses isi dari abstrak dan pendahuluan dengan asumsi sebanyak maksimal lima puluh kalimat. Konten, abstrak, keywords, dan sentences disimpan dalam database Academicopter. Tahap ini sekaligus menyaring dokumen apakah termasuk dalam kategori jurnal. Dokumen akan dikenali sebagai jurnal jika memenuhi salah satu syarat di bawah ini: a. Ditemukan kata abstract, keywords, introduction dan references. Di mana kata abstract terletak di depan kata keywords, kata keywords terletak di
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 34
depan kata introduction, dan kata introduction terletak di depan kata references. b. Ditemukan kata abstract, introduction dan references. Di mana kata abstract terletak di depan kata introduction, dan kata introduction terletak di depan kata references. c. Ditemukan kata abstract, keywords dan references. Di mana kata abstract terletak di depan kata keywords, kata keywords terletak di depan kata references. d. Ditemukan kata keywords, introduction dan references. Di mana kata keywords terletak di depan kata introduction, dan kata introduction terletak di depan kata references. e. Ditemukan kata abstract, conclusion dan references. Di mana kata abstract terletak di depan kata conclusion, kata conclusion terletak di depan kata references. f. Ditemukan kata keywords, conclusion dan references. Di mana kata keywords terletak di depan kata conclusion, kata conclusion terletak di depan kata references. g. Ditemukan kata keywords, acknowledgment dan references. Di mana kata keywords terletak di depan kata acknowledgment, kata acknowledgment terletak di depan kata references. h. Ditemukan kata introduction, conclusion dan references. Di mana kata introduction terletak di depan kata conclusion, kata conclusion terletak di depan kata references. 8.
Sentences dari dokumen yang masuk dalam kategori jurnal akan diproses pada text preprocessing yang bertujuan untuk mencari kata-kata penting yang dapat mewakili isi dokumen. Proses ini terdiri dari 3 tahap, yaitu tokenizing, tagging, dan stemming yang telah dijelaskan pada sub bab 2.1.3 pada bab II. Kemudian pembobotan kalimat pada setiap dokumen dengan menghitung nilai tf (term frequency) dengan formula yang ditunjukkan pada persamaan 2.1 pada bab II, idf (inverse document frequency dengan formula yang ditunjukkan pada persamaan 2.2 pada bab II, dan fungsi untuk menghitung
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 35
similarity antarkalimat dengan menggunakan algoritma cosine similarity (idf modified) dengan formula yang ditunjukkan pada persamaan 2.4 pada bab II. 9.
Dilakukan proses summarization dengan menghitung nilai Continuous Sentence Rank (CSR) pada setiap kalimat dengan formula yang ditunjukkan pada persamaan 3.1 pada bab III dan menghitung nilai metadata formula untuk metadata title, keywords, dan abstract dengan formula yang ditunjukkan pada persamaan 3.3 pada bab III. Semua skor dinormalisasi dengan formula yang ditunjukkan pada persamaan 3.4 pada bab III, kemudian dilakukan kombinasi linier dengan formula yang ditunjukkan pada persamaan 3.5 pada bab III sehingga didapatkan skor akhir. Ringkasan dibangkitkan dengan mengekstrak kalimat yang memiliki skor tertinggi. Formula untuk membangkitkan ringkasan ditunjukkan oleh persamaan 3.6 pada bab III.
10. Hasil akan digabungkan dalam satu daftar tunggal yang disajikan kepada user dengan pagination yang mengikuti pagination dari sumber data. Duplikasi data dokumen akan dihilangkan dengan menampilkan satu data saja yang berasal dari search engines dengan jumlah data yang paling sedikit.
4.2 Perangkingan Hasil Pencarian Academicopter Perangkingan hasil pencarian pada Academicopter mengikuti urutan hasil perangkingan pada sumber data. Sumber data dengan jumlah hasil pencarian yang lebih sedikit akan memperoleh prioritas rangking yang lebih tinggi pada hasil pencarian Academicopter. Sebagai contoh, Academicopter mengambil data dari sumber data A dan sumber data B dengan data hasil pencarian sumber data A yang ditunjukkan oleh tabel 4.1 dan data hasil pencarian sumber data B yang ditunjukkan oleh tabel 4.2.
Tabel 4.1. Hasil Pencarian Sumber Data A No
Data
Rangking
1
Data A1
1
2
Data A2
2
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 36
Tabel 4.2. Hasil Pencarian Sumber Data B No
Data
Rangking
1
Data B1
1
2
Data B2
2
3
Data B3
3
Hasil pencarian dari sumber data A akan memperoleh prioritas karena menghasilkan data yang lebih sedikit. Sehingga data dengan rangking pertama pada sumber data A akan menjadi data dengan urutan pertama pada hasil pencarian Academicopter. Data dengan rangking pertama pada sumber data B akan menempati urutan kedua, data dengan rangking kedua pada sumber data A akan menjadi data dengan urutan ketiga, data dengan rangking kedua pada sumber data B akan menjadi data dengan urutan keempat dan seterusnya. Sehingga hasil pengurutan hasil pencarian pada Academicopter dapat dilihat pada tabel 4.3.
Tabel 4.3. Hasil Pencarian Pada Academicopter No
Data
Rangking
1
Data A1
1
2
Data B1
2
3
Data A2
3
4
Data B2
4
5
Data B3
5
4.3 Studi Eksperimen a. Eksperimen 1 1. Menggunakan keywords : wimax technology . 2. Google Scholar menampilkan hasil pencarian seperti yang ditunjukkan pada tabel 4.4.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 37
Tabel 4.4. Hasil Pencarian Google Scholar dengan Keywords Wimax Technology Rank 1
Judul dokumen Achieving wireless broadband with WiMax
2
PDF
Kategori Dokumen
Dapat
Artikel
diunduh
An overview of nextgeneration mobile WiMAX
Dapat
Jurnal, memuat kata
diunduh
abstract, introduction,
technology 3
dan references
A survey on mobile wimax [wireless broadband access]
Dapat
Jurnal, memuat kata
diunduh
abstract, introduction, dan references
Pencarian dengan keywords
wimax technology
memberikan hasil pencarian pada halaman pertama dengan data seperti yang tertulis pada tabel 4.4. Terdapat tiga data yang memiliki informasi tentang dokumen PDF dengan urutan rangking bahwa data yang tercatat lebih awal memiliki urutan rangking yang lebih tinggi dari data yang sesudahnya. Secara manual, ketiga dokumen PDF dapat diunduh. Pengecekan secara manual terhadap isi dokumen menunjukkan bahwa kategori dokumen data pertama adalah sebuah artikel, data kedua dan ketiga adalah jurnal. Sehingga bisa ditarik hipotesis sementara, bahwa pada hasil yang ditampilkan oleh Academicopter, ringkasan hanya akan dihasilkan oleh data kedua dan ketiga. 3. Libra menampilkan hasil pencarian seperti pada tabel 4.5. Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology Rank Judul dokumen PDF Kategori Dokumen 1
WEIRD - Real Use Cases
Dapat
Jurnal, memuat kata
and Applications for the
diunduh
abstract, keywords
WiMAX Technology
introduction, references
Pencarian dengan keywords wimax technology pencarian pada halaman pertama dengan data seperti yang tertulis pada tabel
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 38
4.5. Terdapat satu data yang memiliki informasi tentang dokumen PDF sehingga secara otomatis data tersebut adalah data dengan rangking pertama dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa pada hasil yang ditampilkan oleh Academicopter, ringkasan akan dihasilkan oleh data tersebut. 4. Analisis hasil eksperimen Academicopter menampilkan hasil pencarian yang ditunjukkan pada tabel 4.6. Tabel 4.6. Hasil Pencarian Academicopter dengan Keywords Wimax Technology Rank Judul Dokumen Ringkasan 1
WEIRD - Real Use Cases and Applications for the
Ada
WiMAX Technology 2
Achieving wireless broadband with WiMax
3
An
overview
of
next-generation
mobile
Tidak Ada WiMAX
Ada
technology 4
A survey on mobile wimax [wireless broadband access]
Ada
Academicopter menampilkan hasil pencarian sebanyak empat data jurnal ilmiah. Data dengan peringkat nomor dua tidak menampilkan hasil ringkasan. Tabel 4.7 menunjukkan perbandingan rangking pada setiap data yang dihasilkan oleh Google Scholar, Libra dan Academicopter.
No
1
Tabel 4.7 Penggabungan Rangking Eksperimen 1 Judul dokumen Rank Rank WEIRD - Real Use Cases and
Rank
G-Scholar
Libra
Academicopter
-
Rank 1
Rank 1
Rank 1
-
Rank 2
Applications for the WiMAX Technology 2
Achieving wireless broadband with WiMax
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 39
Tabel 4.7 Penggabungan Rangking Eksperimen 1 (lanjutan) Judul dokumen Rank Rank Rank
No
3
G-Scholar
Libra
Academicopter
Rank 2
-
Rank 3
Rank 3
-
Rank 4
An overview of next-generation mobile WiMAX technology
4
A
survey
on
mobile
wimax
[wireless broadband access]
Data pada tabel 4.7 dapat dianalisis dengan penjelasan sebagai berikut : 1. Academicopter berhasil menggabungkan semua data dari Google Scholar dan Libra ke dalam satu daftar tunggal. 2. Perangkingan
pada
Academicopter
telah
mengikuti
urutan
hasil
perangkingan pada Google Scholar dan Libra. Data dengan rangking pertama pada Libra menempati rangking pertama pada Academicopter. Data dengan rangking pertama pada Google Scholar menempati rangking kedua pada Academicopter karena rangking pertama telah diisi sebelumnya. Dokumen yang memiliki rangking kedua dan ketiga di Google Scholar menempati rangking ketiga dan keempat pada Academicopter.
Tabel 4.8 menunjukkan kategori konten jurnal pada setiap data hasil pencarian pada Google Scholar dan Libra serta ada tidaknya ringkasan pada setiap data yang dihasilkan pada Academicopter.
No
1
Tabel 4.8 Hasil Ringkasan Eksperimen 1 Judul dokumen Kategori Kategori WEIRD - Real Use Cases and
Ringkasan
(G-Scholar)
(Libra)
(Academicopter)
-
Jurnal
Ada
Artikel
-
Tidak Ada
Applications for the WiMAX Technology 2
Achieving wireless broadband with WiMax
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 40
Tabel 4.8 Hasil Ringkasan Eksperimen 1(lanjutan) Judul dokumen Kategori Kategori Ringkasan
No
3
An
overview
generation
of
mobile
(G-Scholar)
(Libra)
(Academicopter)
Jurnal
-
Ada
Jurnal
-
Ada
nextWiMAX
technology 4
A survey on mobile wimax [wireless broadband access]
Data pada tabel 4.8 dapat dianalisis dengan penjelasan sebagai berikut : 1. Data kedua tidak menghasilkan ringkasan karena kategori dokumen tidak dikenali sebagai jurnal melainkan sebagai artikel. Dokumen tersebut tidak memenuhi syarat-syarat terpilihnya dokumen sebagai jurnal. 2. Data pertama, data ketiga, dan data keempat menghasilkan ringkasan karena kategori dokumen dari ketiga data tersebut dikenali sebagai jurnal.
b. Eksperimen 2 1. Menggunakan keywords : text mining. 2. Google Scholar menampilkan hasil pencarian seperti pada tabel 4.9. Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining Rank Judul dokumen PDF Kategori Dokumen 1
GENIA corpus a semantically annotated
Dapat
Jurnal, memuat kata
diunduh
abstract, keywords,
corpus for bio-textmining
introduction, dan references
2
Fast and effective text mining using linear-time
Dapat
Jurnal, memuat kata
diunduh
abstract, keywords,
document clustering
introduction, dan references
3
Text mining: The state of the art and the challenges
Dapat
Jurnal, memuat kata
diunduh
abstract, introduction, dan references
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 41
Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining (lanjutan) Rank Judul dokumen PDF Kategori Dokumen 4
Survey of Text Mining I:
Dapat
Clustering, Classification,
ebook
diunduh
and Retrieval 5
A survey of current work in
Tidak dapat
biomedical text mining 6
-
diunduh
The text mining handbook:
Dapat
advanced approaches in
Book Reviews
diunduh
analyzing unstructured data 7
Discovering evolutionary theme patterns from text: an
Dapat
Jurnal, memuat kata
diunduh
abstract, keywords,
exploration of temporal text
introduction, dan
mining 8
references
Text mining for biology and
Dapat
biomedicine
Book Reviews
diunduh
Pencarian dengan keywords text mining hasil pencarian pada halaman pertama seperti yang tertulis pada tabel 4.9. Terdapat delapan data yang memiliki informasi tentang dokumen PDF dengan urutan rangking bahwa data yang tercatat lebih awal memiliki urutan rangking yang lebih tinggi dari data yang sesudahnya. Secara manual, ada satu dokumen PDF yang tidak dapat diunduh, yaitu untuk data no.5. Hasil pengecekan manual terhadap isi dokumen menghasilkan hipotesis sementara bahwa ringkasan akan dihasilkan oleh data pertama, kedua, ketiga, dan ketujuh. 3. Libra menampilkan hasil pencarian seperti pada tabel 4.10.
Rank 1
Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text Mining Judul dokumen PDF url Konten PDF A survey of current work in biomedical text mining
Dapat
Jurnal, memuat kata
Diunduh
abstract, introduction, dan references
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 42
Pencarian dengan keywords
text mining
pencarian pada halaman pertama dengan data seperti yang ditunjukkan pada tabel 4.10. Terdapat satu data yang memiliki informasi tentang dokumen PDF sehingga secara otomatis data tersebut adalah data dengan rangking pertama dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa Academicopter akan menghasilkan ringkasan pada data tersebut. 4. Analisis hasil eksperimen Academicopter menampilkan hasil pencarian ditunjukkan pada tabel 4.11. Tabel 4.11. Hasil Pencarian Academicopter dengan Keywords Text Mining Rank Judul dokumen Ringkasan 1
A survey of current work in biomedical text mining
Ada
2
GENIA corpus a semantically annotated corpus for
Ada
bio-textmining 3
Fast and effective text mining using linear-time
Ada
document clustering 4
Text mining: The state of the art and the challenges
Ada
5
Survey of Text Mining I: Clustering, Classification, and
Ada
Retrieval 6
The text mining handbook: advanced approaches in
Tidak Ada
analyzing unstructured data 7
Discovering evolutionary theme patterns from text: an
Ada
exploration of temporal text mining 8
Text mining for biology and biomedicine
Tidak Ada
Academicopter menampilkan hasil pencarian sebanyak empat data jurnal ilmiah. Data dengan peringkat keenam dan kedelapan tidak menampilkan hasil ringkasan. Tabel 4.12. menunjukkan perbandingan rangking pada setiap data yang dihasilkan oleh Google Scholar, Libra dan Academicopter.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 43
Tabel 4.12 Penggabungan Rangking Eksperimen 2 No 1
Judul dokumen A survey of current work in
G-Scholar
Libra
Academicopter
Rank 5
Rank 1
Rank 1
Rank 1
-
Rank 2
Rank 2
-
Rank 3
Rank 3
-
Rank 4
Rank 4
-
Rank 5
Rank 6
-
Rank 6
Rank 7
-
Rank 7
Rank 8
-
Rank 8
biomedical text mining 2
GENIA corpus a semantically annotated corpus for bio-textmining
3
Fast and effective text mining using linear-time document clustering
4
Text mining: The state of the art and the challenges
5
Survey of Text Mining I: Clustering, Classification, and Retrieval
6
The text mining handbook: advanced approaches in analyzing unstructured data
7
Discovering evolutionary theme patterns from text: an exploration of temporal text mining
8
Text mining for biology and biomedicine
Data pada tabel 4.12 dapat dianalisis dengan penjelasan sebagai berikut : 1. Academicopter berhasil menggabungkan semua data dari Google Scholar dan Libra ke dalam satu daftar tunggal. 2. Terdapat duplikasi data antara Google Scholar dan Libra yaitu untuk data A survey of current work in biomedical text mining
pter akan ditampilkan satu data saja, yaitu data
yang berasal dari Libra, karena Libra memiliki jumlah hasil pencarian yang lebih sedikit dibandingkan dengan data yang dihasilkan oleh Google Scholar.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 44
3. Perangkingan pada Academicopter telah mengikuti perangkingan pada Google Scholar dan Libra. Data dengan rangking pertama pada Libra menempati rangking pertama pada Academicopter. Data dengan rangking pertama
pada
Google
Scholar
menempati
rangking
kedua
pada
Academicopter karena rangking pertama telah diisi sebelumnya. Dokumen yang memiliki rangking kedua dan ketiga (kecuali data kelima) dan seterusnya pada Google Scholar menempati rangking ketiga dan keempat dan seterusnya pada Academicopter.
Tabel 4.13 menunjukkan kategori konten jurnal pada setiap data hasil pencarian pada Google Scholar dan Libra serta menunjukkan ada tidaknya ringkasan pada setiap data yang dihasilkan pada Academicopter.
No
1
Tabel 4.13 Hasil Ringkasan Eksperimen 2 Judul dokumen Kategori Kategori A survey of current work in
Ringkasan
(G-Scholar)
(Libra)
(Academicopter)
-
Jurnal
Ada
Jurnal
-
Ada
Jurnal
-
Ada
Jurnal
-
Ada
ebook
-
Tidak Ada
Book
-
Tidak Ada
biomedical text mining 2
GENIA corpus a semantically annotated corpus for bio-textmining
3
Fast and effective text mining using linear-time document clustering
4
Text mining: The state of the art and the challenges
5
Survey of Text Mining I: Clustering, Classification, and Retrieval
6
The text mining handbook: advanced approaches in
Reviews
analyzing unstructured data
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 45
Tabel 4.13 Summary Eksperimen 2 (lanjutan) Judul dokumen Kategori Kategori
No
7
Summary
(G-Scholar)
(Libra)
(Academicopter)
Jurnal
-
Ada
Book
-
Tidak Ada
Discovering evolutionary theme patterns from text: an exploration of temporal text mining
8
Text mining for biology and biomedicine
Reviews
Data pada tabel 4.13 dapat dianalisis dengan penjelasan sebagai berikut : 1. Data kelima, data keenam, dan data kedelapan tidak menghasilkan ringkasan karena kategori dokumen tidak dikenali sebagai jurnal melainkan sebagai ebook dan book reviews. 2. Data pertama, data kedua, data ketiga, data keempat, dan data ketujuh menghasilkan ringkasan karena kategori dokumen dari ketiga data tersebut dikenali sebagai jurnal.
c. Tingkat Keberhasilan Hasil Eksperimen Eksperimen dengan seratus keywords yang berbeda dilakukan untuk mengetahui tingkat keberhasilan Academicopter dalam menyajikan jumlah data yang sama dengan data yang dihasilkan oleh sumber data. Hasil eksperimen dengan seratus keywords yang berbeda ditunjukkan oleh tabel 4.14. Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords No
Keyword
1
adaptive web
2
advanced algorithms agent based systems
3
Jumlah Data pada G-Scholar (manual) 10
Jumlah Data dari G-Scholar pada Academicopter
Jumlah Data pada Libra (manual)
Jumlah Data dari Libra pada Academicopter
Nilai Kesamaan Data
10
2
2
1
4
4
0
0
1
6
6
1
1
1
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 46
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No
Keyword
Jumlah Data pada G-Scholar (manual) 10
Jumlah Data dari G-Scholar pada Academicopter
Jumlah Data pada Libra (manual)
Jumlah Data dari Libra pada Academicopter
Nilai Kesamaan Data
4 5
artificial intelligence assembly language
10
0
0
1
9
9
4
4
1
6 7
automata
4
4
0
0
1
4
4
0
0
1
8
automated reasoning and verification bias on the web
6
6
3
3
1
9
big data
7
7
1
1
1
10
bioinformatics
8
8
1
1
1
11
cloud computing
10
10
1
1
1
12
collaborative computing compiler construction complexity theory
5
5
1
1
1
6
6
0
0
1
5
5
1
1
1
4
4
0
0
1
16
computational complexity computer design
2
2
1
1
1
17
computer ethics
3
3
1
1
1
18
computer graphic
2
2
3
3
1
19
computer security
4
4
1
1
1
20
7
7
2
2
1
21
computing infrastructure cryptography
5
5
1
1
1
22
data
3
3
3
3
1
23
database
4
4
3
3
1
24
data mining
7
7
3
3
1
25
5
5
0
0
1
3
3
2
2
1
27
data and computer communication decision support system digital libraries
7
7
2
2
1
28
disaster mitigation
1
1
2
2
1
29
distributed systems
8
8
2
2
1
30
efffective information systems embedded system
8
8
1
1
1
7
7
1
1
1
8
8
2
2
1
33
evolutionary algorithms expert system
4
4
0
0
1
34
e-learning
6
6
1
1
1
35
e-business system
7
7
0
0
1
13 14 15
26
31 32
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 47
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No
Keyword
Jumlah Data pada G-Scholar (manual) 8
Jumlah Data dari G-Scholar pada Academicopter
Jumlah Data pada Libra (manual)
Jumlah Data dari Libra pada Academicopter
Nilai Kesamaan Data
8
1
1
1
36
e-commerce
37
geographic information systems global electronic market global positioning system graph based summarization graphical systems
4
4
2
2
1
3
3
1
1
1
4
4
0
0
1
9
9
5
5
1
5
5
0
0
1
human centered systems human computer interaction image processing
3
3
0
0
1
7
7
3
3
1
2
2
1
1
1
imperative programming information filtering information life cycle information policy
7
7
0
0
1
5
5
1
1
1
5
5
2
2
1
5
5
1
1
1
information quality information revolution information representation information systems information technology information visualization intelligent information retrieval internet
5
5
1
1
1
3
3
1
1
1
5
5
1
1
1
5
5
3
3
1
8
8
0
0
1
5
5
2
2
1
5
5
2
2
1
4
4
4
4
1
4
4
3
3
1
4
4
2
2
1
5
5
2
2
1
60
knowledge discovery knowledge management logic and modelling machine learning
9
9
3
3
1
61
metadata
4
4
1
1
1
62
metasearch engine
8
8
0
0
1
63
multimedia technology
3
3
0
0
1
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
56 57 58 59
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 48
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No
Jumlah Data pada G-Scholar (manual) 9
Jumlah Data dari G-Scholar pada Academicopter
Jumlah Data pada Libra (manual)
Jumlah Data dari Libra pada Academicopter
Nilai Kesamaan Data
9
0
0
1
3
3
1
1
1
6
6
0
0
1
4
4
3
3
1
6
6
2
2
1
69
natural language processing natural language systems network computer
0
0
1
1
1
70
numerical analysis
3
3
0
0
1
71
4
4
0
0
1
72
object-oriented design open systems
6
6
2
2
1
73
operating system
5
5
1
1
1
74
parallel programs
4
4
0
0
1
75
processor
7
7
4
4
1
76
7
7
2
2
1
9
9
4
4
1
9
9
5
5
1
79
quantum computing question answering recommender system robotic system
3
3
0
0
1
80
semantic web
9
9
4
4
1
81
sensor networks
10
10
6
6
1
82
social informatics
3
3
1
1
1
83
software design using patterns software engineering software evolution
8
8
0
0
1
5
5
1
1
1
8
8
2
2
1
system architecture system enterprise
6
6
3
3
1
3
3
2
2
1
1
1
2
2
1
89
systems intelligence systems simulation
3
3
0
0
1
90
text mining
8
8
2
2
1
91
text summarization
9
9
3
3
1
92
8
8
3
3
1
93
web modeling language web searching
9
9
1
1
1
94
web service
7
7
1
1
1
95
web technologies
9
9
1
1
1
64 65 66 67 68
77 78
84 85 86 87 88
Keyword
multi-core computing mobile communications mobile systems
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 49
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No
Keyword
96 97
web-collaborative filtering wimax technology
98 99 100
Jumlah Data pada G-Scholar (manual) 6
Jumlah Data dari G-Scholar pada Academicopter
Jumlah Data pada Libra (manual)
Jumlah Data dari Libra pada Academicopter
Nilai Kesamaan Data
6
3
3
1
3
3
1
1
1
wireless security
8
8
2
2
1
wireless technology XML applications
5
5
3
3
1
4
4
2
2
1
Data pada tabel 4.14 menunjukkan bahwa Academicopter berhasil menyajikan jumlah data yang sama dengan data yang dihasilkan oleh sumber data.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Penelitian ini menghasilkan sebuah mesin pencarian meta untuk akademik dengan nama Academicopter yang menampilkan hasil ringkasan dari PDF jurnal ilmiah dalam snippet pada daftar hasil pencarian. Berdasarkan hasil dari eksperimen sebelumnya dapat disimpulkan bahwa : 1.
Academicopter mampu menyaring informasi yang berfokus pada kategori PDF jurnal ilmiah yang berasal dari Google Scholar dan Libra dan menggabungkan hasil pencarian dari dua sumber data tersebut ke dalam satu daftar tunggal. Hal tersebut mempermudah user dalam mengakses informasi dari beberapa academic search engines dalam satu kali pencarian.
2.
Academicopter menghilangkan duplikasi data antara academic search engines yang berbeda dengan menampilkan satu data saja yang berasal dari academic seach engine dengan jumlah data yang paling sedikit . Hal tersebut membantu user dalam mengurangi pengulangan pengambilan informasi yang sama.
5.2 Saran 1.
Proses peringkasan dilakukan pada semua konten PDF jurnal ilmiah, tidak terbatas pada bagian abstrak dan pendahuluan saja.
2.
Proses peringkasan jurnal PDFs menggunakan metode lain yang dapat menghasilkan hasil ringkasan yang lebih baik dan lebih cepat.
3.
Academicopter membuat algoritma yang lebih baik dalam perangkingan hasil pencarian.
commit to user 50