perpustakaan.uns.ac.id
digilib.uns.ac.id
METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS)
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika
Disusun Oleh :
RIKY BAGUS MUHAJIR M0508117
JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA Oktober, 2012
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS)
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika
Disusun Oleh :
RIKY BAGUS MUHAJIR M0508117
JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA Oktober, 2012 HALAMAN JUDUL commit to user
i
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh urusan yang lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap. (Q.S. 94 : 6-8)
Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu sebagai penolongmu, sesungguhnya Allah beserta orang-orang yang sabar” (Q.S. 1 : 153)
commit to user
iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Dipersembahkan untuk: 1. Ayah dan Ibu tercinta 2. Jurusan Informatika UNS
commit to user
v
perpustakaan.uns.ac.id
digilib.uns.ac.id
Metode Similarity - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS)
RIKY BAGUS MUHAJIR
Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret ABSTRAK Manajemen konten yang baik atau yang lebih dikenal dengan smart content management system dapat dilakukan dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant content). Berbagai Informasi tersebut dapat berupa artikel, gambar, banner, dan juga video. Kandidat relevant content dapat berasal dari dalam maupun luar sistem (mashup), yang dimaksud dari dalam sistem disini adalah bahwa kandidat relevant content diperoleh dari database sistem sendiri sedangkan yang dimaksud dari luar sistem adalah bahwa kandidat relevant content diperoleh dari berbagai website di internet. Relevant Content didapatkan dengan menghitung kemiripan metadata antara kandidat relevant content dengan konten utama. Dari hasil serangkaian uji coba didapatkan bahwa metode similarity – mashup untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain itu juga dapat dilihat bahwa sering kali berbagai kandidat relevant content yang berasal dari luar sistem (mashup) memiliki nilai similarity yang lebih tinggi dibandingkan kandidat yang berasal dari dalam sistem.
Kata Kunci : CMS, cosine, mashups, metadata, relevant content, similarity
commit to user
vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
Metode Similarity - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS) RIKY BAGUS MUHAJIR Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University ABSTRACT
A good content management or better known as smart content management system can be done in various ways, one of them by presenting a variety of information related to the main content (relevant content). A variety of information can be articles, pictures, banners, and video. Candidates relevant content are got from internal and external system (mashup), from internal system means that the candidate relevant content are got from the database system and then from the external system means that the candidate relevant content are got from various websites on the internet. Relevant Content is obtained by calculating the similarity between candidates relevant content metadata with main content metadata. The results from the series of testing are found that the method of similarity mashups for relevant content module has been well integrated into the CMS. It can also be seen that the candidates relevant content from the external system (mashup) often has a higher similarity value than candidates from the internal system.
Keywords: CMS, cosine, mashups, metadata, relevant content, similarity
commit to user
vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul Metode Similarty - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS), yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta. Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada : 1. Ibu Umi Salamah, M.Kom, ketua Jurusan Informatika FMIPA UNS. 2. Ibu Dewi Wisnu Wardani, S. Kom, M.S., dosen pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini. 3. Bapak Meiyanto Eko Sulistyo, S.T, M, Eng., selaku dosen pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini. 4. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini. 5. Seluruh keluarga terutama Ayah dan Ibu, untuk setiap kasih sayang dan pengorbanan yang tak mungkin terbalas. 6. Seluruh teman terutama mahasiswa angkatan 2008 Jurusan Informatika FMIPA UNS dan Rima Dhian Permata Hendry yang setia menemani perjalanan dengan dukungan dan semangatnya. Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang berkepentingan. Surakarta,
commit to user
viii
Oktober 2012
Penulis
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI HALAMAN JUDUL................................................................................................ i HALAMAN PERSETUJUAN ................................................................................ ii HALAMAN PENGESAHAN................................................................................ iii HALAMAN MOTTO ............................................................................................ iv HALAMAN PERSEMBAHAN ............................................................................. v ABSTRAK ............................................................................................................. vi ABSTRACT ............................................................................................................ vii KATA PENGANTAR ......................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL ................................................................................................. xii DAFTAR GAMBAR ........................................................................................... xiii DAFTAR LAMPIRAN ........................................................................................ xiv BAB I PENDAHULUAN ....................................................................................... 1 1.1
Latar Belakang ......................................................................................... 1
1.2
Rumusan Masalah .................................................................................... 2
1.3
Batasan Masalah ....................................................................................... 3
1.4
Tujuan Penelitian ...................................................................................... 3
1.5
Manfaat Penelitian .................................................................................... 3
1.6
Sistematika Penulisan ............................................................................... 3
commit to user BAB II TINJAUAN PUSTAKA............................................................................. 5
ix
perpustakaan.uns.ac.id
2.1
digilib.uns.ac.id
Dasar Teori ............................................................................................... 5
2.1.1 Sistem Manajemen Konten ................................................................... 5 2.1.2 Text Mining ........................................................................................... 6 2.1.2.1
Text Preprocessing .................................................................... 6
2.1.2.2
Text Transformation .................................................................. 6
2.1.2.3
Pattern Discovery ...................................................................... 7
2.1.3 Stemming ............................................................................................... 7 2.1.4 Term Frequency (tf) - Inverse Dokumen Frequency (idf)..................... 9 2.1.5 Vector Space Model ............................................................................ 11 2.1.6 Matching Document ............................................................................ 12 2.1.7 Teknologi Mashup .............................................................................. 13 2.1.8 Google API ......................................................................................... 14 2.2
Penelitian Terkait ................................................................................... 15
2.3
Rencana Penelitian ................................................................................. 19
BAB III METODOLOGI PENELITIAN.............................................................. 20 3.1
Studi Literatur ......................................................................................... 20
3.2
Perancangan Framework ........................................................................ 20
3.3
Pengumpulan Data ................................................................................. 21
3.4
Experimental .......................................................................................... 21
3.5
Experimental Result ............................................................................... 21
BAB IV PEMBAHASAN ..................................................................................... 22 4.1
Perancangan Framework ........................................................................ 22
4.1.1 Text Preprocessing ............................................................................. 24 4.1.2 Text Transformation ........................................................................... 25 4.1.3 Pattern Discovery /Analysis................................................................ 25 4.2
Pengumpulan Data ................................................................................. 26
commit to user 4.2.1 Data Internal ....................................................................................... 26
x
perpustakaan.uns.ac.id
digilib.uns.ac.id
4.2.2 Data External ...................................................................................... 26
4.3
4.2.2.1
Konten artikel .......................................................................... 28
4.2.2.2
Konten gambar ......................................................................... 30
4.2.2.3
Konten video ............................................................................ 31
Experimental .......................................................................................... 34
4.3.1 Lingkungan Implementasi .................................................................. 34 4.3.1.1
Lingkungan Prangkat Keras..................................................... 34
4.3.1.2
Lingkungan Perangkat Lunak .................................................. 34
4.3.2 Pengujian ............................................................................................ 34 4.4
Experimental Result ............................................................................... 35
BAB V PENUTUP ................................................................................................ 38 5.1
Kesimpulan ............................................................................................. 38
5.2
Saran ....................................................................................................... 39
DAFTAR PUSTAKA ........................................................................................... 40 LAMPIRAN A ...................................................................................................... 42 LAMPIRAN B ...................................................................................................... 62 LAMPIRAN C ...................................................................................................... 71 LAMPIRAN D ...................................................................................................... 87
commit to user
xi
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity ................ 25 Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API............................ 27 Tabel 4. 3 Metadata Kandidat Relevant Content Artikel........................................... 29 Tabel 4. 4 Metadata Kandidat Relevant Content Gambar ......................................... 31 Tabel 4. 5 Metadata Kandidat Relevant Content Video............................................. 33 Tabel 4. 6 Website Acuan Konten Mashup ................................................................ 33 Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan ............................................ 35 Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External ............... 36 Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External . 36
commit to user
xii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf ..................................................... 9 Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q (Mandala, 2006) .................................................................................... 11 Gambar 2. 3 Matrik Representasi VSM ..................................................................... 12 Gambar 3. 1 Diagram Metodologi Penelitian ............................................................ 20 Gambar 4. 1 Framework Modul Relevant Content .................................................... 23 Gambar 4. 2 Proses Similarity - Mashup ................................................................... 23
commit to user
xiii
xiv digilib.uns.ac.id
perpustakaan.uns.ac.id
DAFTAR LAMPIRAN LAMPIRAN A ...................................................................................................... 42 LAMPIRAN B ...................................................................................................... 62 LAMPIRAN C ...................................................................................................... 71 LAMPIRAN D ...................................................................................................... 87
commit to user
xiv
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB I PENDAHULUAN
1.1
Latar Belakang Website memberi sumbangan besar dalam pemberian berbagai informasi.
Banyak informasi yang ada disuatu website akan tetapi cara penyampaian informasi tersebut sering kali kurang efektif. Informasi yang kurang efektif ini dapat dilihat dari banyaknya konten pada suatu halaman web seperti iklan, gambar, link, dan berbagai konten lainnya yang sering kali tidak ada hubungannya dengan isi dari konten utama (Mulendra dan Liu, 2009). Konten-konten seperti ini justru membuat penguna merasa terganggu dan kesulitan dalam memperoleh informasi. Oleh karena itu diperlukan manajemen konten yang baik untuk mengelola berbagai konten tersebut. Manajemen konten yang baik diharapkan dapat menjadikan suatu website menjadi lebih inovatif dan kaya akan informasi sehingga dapat memudahkan pengunjung situs dalam memperoleh informasi. Manajemen konten yang baik atau yang lebih dikenal dengan smart content management system dapat dilakukan dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant content). Pada (Broder et al., 2007) manajemen konten dilakukan dengan menampilkan berbagai iklan yang berkaitan dengan konten utama pada website. Disamping mengunakan relevant content, manajemen konten yang baik juga bisa dilakukan dengan mengunakan mashup. Mashup merupakan cara baru dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor, 2007). Isi dari website yang menerapkan konsepsi mashup biasanya berasal dari penyedia layanan pihak ke tiga dengan antarmuka yang disebut sebagai API (application programming interface) (Zang dan Rosson, 2008). Saat ini sudah terdapat beberapa CMS yang menggunakan mashup akan tetapi mashup tersebut hanya berupa kolom pencarian atau mashup hanya menampikan informasi dari commit to user
1
2 digilib.uns.ac.id
perpustakaan.uns.ac.id
suatu website lain tanpa memperhatikan isi dari informasi tersebut. Seperti hanya pengunaan RSS Feed. RSS Feed hanya memungkinkan kita untuk memperoleh informasi terbaru dari suatu website tanpa dapat mengontrol isi dari informasi tersebut. Pada (Rohmatulloh et al., 2009) telah dilakukan penerapan teknologi mashup, yakni dengan cara melalukan pencarian melalui kolom pencarian untuk mendapatkan artikel yang terkait dengan keyword yang dimasukkan. Penelitian pada tugas akhir ini mencoba mengembangkan aplikasi pariwisata Indonesia berbasis online dengan menerapkan metode similaritymashup untuk memperoleh berbagai informasi yang relevant degan konten utama. Berbagai ulasan, gambar, dan video diharapkan dapat mampu menberikan informasi yang lebih informatif sehingga membuat wisatawan tertarik untuk mengunjungi objek wisata di Indonesia. Dalam tugas akhir ini akan dikaji metode similarity-mashup untuk modul relevant content pada CMS yang mana modul tersebut mampu menyajikan konten-konten yang berkaitan denggan konten utama. Relevant content ini akan diletakkan disamping konten utama. Relevant content diperoleh setelah melakukan proses penyamaan (similarity) antara konten utama dengan berbagai kandidat relevant content baik yang berasal dari dalam maupun luar sistem. Untuk proses similarity digunakan metode Cosine Similarity. Kandidat relevant content dari luar sistem diperoleh dari berbagai website di internet. Adapun berbagai konten dari luar sistem diantaranya; artikel dan gambar dari Google, Video dari Youtube, informasi dari Wikipedia, dan juga berbagai konten dari website yang lain. 1.2
Rumusan Masalah Berdasarkan ulasan yang telah dijabarkan pada latar belakang dapat
dirumuskan permasalahan yakni bagaimana memanfaatkan metode similarity – mashup untuk memperoleh berbagai konten yang relevant dengan konten utama pada suatu website. commit to user
3 digilib.uns.ac.id
perpustakaan.uns.ac.id
1.3
Batasan Masalah 1. Untuk website yang memakai bahasa Indonesia 2. Artikel pada website tidak terbatas oleh waktu 3. Content management system yang digunakan adalah Lokomedia 4. Relevant content berupa artikel, gambar, dan video bukan berupa file (doc, pdf) 5. Domain yang digunakan adalah tentang pariwisata
1.4 Tujuan Penelitian Tujuan dari tugas akhir ini adalah memanfaatkan metode similarity – mashup untuk mendapatkan berbagai konten yang relevant dengan konten utama pada suatu website.
1.5 Manfaat Penelitian Manfaat dari penelitian pada tugas akhir ini adalah untuk memperkaya kajian pembuatan modul relevant content dengan pemanfaatkan metode similarity - mashup, yang mana modul ini secara otomatis mampu menyajikan berbagai konten yang relevant dengan konten utama pada suatu website. 1.6
Sistematika Penulisan Penelitian ini akan disusun menurut sistematika penulisan sebagai berikut :
BAB I PENDAHULUAN Pendahuluan
berisi
mengenai
latar
belakang,
rumusan
masalah,
pembatasan masalah, tujuan, manfaat, dan sistematika penulisan. Keseluruhan dari bagian ini memberikan gambaran umum dari penelitian yang dilakukan.
commit to user
4 digilib.uns.ac.id
perpustakaan.uns.ac.id
BAB II TINJAUAN PUSTAKA Tinjauan pustaka memuat penjelasan secara rinci mengenai teori-teori yang digunakan sebagai dasar dalam penelitian ini. Bagian ini juga memuat mengenai penelitian terdahulu dan rencana penelitian yang akan dilakukan oleh penulis.
BAB III METODE PENELITIAN Pada bab ini membahas metode yang digunakan dalam penelitian ini. Metode dalam penelitian ini terdiri atas lima tahapan, yaitu studi literatur, perancangan framework, pengumpulan data, experimental, dan experimental result.
BAB IV PEMBAHASAN Bagian ini berisi pembahasan dari hasil yang diperoleh dari penelitian ini, meliputi penjelasan mengenai perancangan framework, pengumpulan data, experimental, dan experimental result
BAB V PENUTUP Penutup berisi kesimpulan penelitian dan saran sebagai bahan pertimbangan untuk penelitian selanjutnya
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB II TINJAUAN PUSTAKA
2.1 2.1.1
Dasar Teori Sistem Manajemen Konten Sistem
manajemen konten
yang biasa dikenal
dengan
Content
Management System, disingkat CMS, adalah sistem perangkat lunak yang memungkinkan seseorang untuk mengatur proses berjalannya suatu situs Web (Simarmata, 2010). Sistem manajemen konten (Nakano, 2001) memungkinkan administrator mengelola informasi seperti membuat, melakukan perubahan, merilis, menyimpan, menghapus, dan lain-lain. Sebelum ada CMS, seseorang pengembang web harus mengerti ilmu yang diperlukan untuk membuat dan mengelola suatu Web. Beberapa ilmu tersebut diantaranya PHP, HTML, CSS, dan lain-lain. Namun dengan adanya CMS seperti sekarang ini tidak perlu mesti belajar berbagai ilmu tersebut secara mendalam lagi. Dengan kata lain CMS dapat mempermudah dalam mengelola suatu web. Disamping memudahkan bagi pengembang web, suatu CMS juga harus menyajikan suatu web yang inovatif dan kaya akan informasi sehingga dapat memudahkan pengunjung situs dalam memperoleh informasi. Website yang inovatif dan kaya akan informasi ini dapat diperoleh dengan manajemen konten yang baik atau biasa dikenal dengan smart content manajemen system. Manajemen konten yang baik dilakukan dengan menampilkan berbagai iklan yang berkaitan dengan konten utama pada website (Broder et al., 2007). Pada (Rohmatulloh et al., 2009) manajemen koten yang baik dilakukan dengan menerapankan teknologi mashup, yakni dengan cara melalukan pencarian melalui kolom pencarian untuk mendapatkan artikel yang terkait dengan keyword yang dimasukkan. Sedangkan pada (Himawan, 2010) juga digunakan teknologi mashup, yakni dengan menampilkan rute terpendek menuju tempat wisata dengan commit to user memanfaatkan Google Map Api dan algoritma Dijkstra. 5
6 digilib.uns.ac.id
perpustakaan.uns.ac.id
2.1.2
Text Mining Sebelum melakukan proses similarity antar dokumen perlu dilakukan
proses pengolahan terlebih dahulu. Text mining digunakan untuk menggali informasi pada dokumen tidak terstruktur (Dorre et al., 1999). Sebelum melakukan text mining, terlebih dahulu diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhan. Biasanya akan dilakukan perubahan menjadi nilai-nilai numerik. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. Dalam text mining ini dibagi dalam 3 proses utama, yaitu Text Preprocessing, Text Transformation dan Pattern Discovery. 2.1.2.1 Text Preprocessing Dalam
text
mining,
tahapan awal
yang dilakukan adalah
text
preprocessing. Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang akan diproses pada tahap selanjutnya. Terdapat beberapa hal yang dilakukan dalam tahap ini, baik itu berupa tindakan yang bersifat kompleks seperti part-ofspeech (pos), tagging, parse tree, maupun tindakan sederhana seperti tokenization. Tokenization merupakan proses pengolahan token yang terdapat dalam rangkaian teks (Grossman, 2001). Dalam pembuatan indexs istilah dokumen dipecah menjadi unit-unit lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosessan tersebut disebut token. Tahapan ini juga menghilangkan karakterkarakter tertentu seperti tanda baca, html tag dan mengubah semua token kebentuk huruf kecil (case folding). 2.1.2.2 Text Transformation Pada tahap ini dilakukan proses penyaringan (filtration) dengan menghilangkan stop-word. Stop-word merupakan kata yang sering muncul dalam dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk mengurangi daftar kata indexs dan mempercepat indexing (Grossman, 2001). Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu commit to user membutuhkan banyak waktu. Solusinya adalah dengan menyusun suatu pustaka
perpustakaan.uns.ac.id
7 digilib.uns.ac.id
stop-word atau stop-list dari term yang akan dihapus. Beberapa contoh stop-word diantaranya; yang, dari, di, hingga, dan dengan. Konversi term ke bentuk akar (stemming) juga merupakan tindakan yang dapat dilakukan dalam tahap ini. Stemming merupakan proses penghilangan prefix dan suffix dari kata untuk mendapatkan kata dasar (Grossman, 2001). Efektifitas algoritma stemming dapat diukur berdasarkan beberapa parameter, seperti proses, keakuratan, dan kesalahan. 2.1.2.3 Pattern Discovery Tahap ini merupakan tahap terpenting dari seluruh proses text mining. Pada penelitian ini, operasi yang dilakukan adalah pengukuran kemiripan teks (similarity). Teknik yang digunakan pada tahap ini adalah dengan melakukan pembobotan (weighting) terhadap term dari hasil tahap text transformation. Setiap term diberikan bobot sesuai dengan skema pembobotan yang dipilih, baik itu pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global inverse document frequency, ditulis
. Di sini peneliti akan menggunakan
. Dalam kemiripan antar dokumen didefinisikan berdasarkan representasi bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model). Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan proses pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang dalam penelitian ini menggunakan metode Cosine Similarity yang akan di jelaskan pada pembahasan berikutnya. 2.1.3
Stemming Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti
Algoritma Porter untuk teks berbahasa inggris, Algoritma Porter untuk teks berbahasa Indonesia, dan juga Algoritma Nazief & Adriani untuk teks berbahasa Indonesia. Dalam (Agusta, 2009) ditunjukkna bahwa algoritma Nazief & Adriani memiliki keakuratan yang lebih tinggi. Algoritma ini didahului dengan pembacaan tiap kata dari dokumen sampel. Sehingga input dari algoritma ini commit to user berupa kata.
8 digilib.uns.ac.id
perpustakaan.uns.ac.id
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut: 1.
Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.
2.
Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.
3.
Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.
4.
Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.
5.
Melakukan Recoding.
6.
Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. commit to user
9 digilib.uns.ac.id
perpustakaan.uns.ac.id
2.1.4
Term Frequency (tf) - Inverse Dokumen Frequency (idf) Term Frequency (tf) merupakan frekuensi kemunculan suatu kata (term)
dalam dokumen. Oleh sebab itu, tf memiliki nilai yang bervariasi dari satu dokumen ke dokumen yang lain bergantung pada tingkat kepentingan sebuah term dalam sebuah dokumen yang diberikan. Semakin sering suatu term muncul dalam sebuah dokumen, maka term tersebut akan memiliki nilai tf yang lebih besar daripada term yang jarang muncul dan hal ini berarti semakin penting term-term tersebut. Pengunaan faktor tf saja dalam menentukan pembobotan suatu term belum mencukupi. Untuk itu digunakan juga faktor Inverse Document Frequency (idf) yang merupakan sebuah statistik “global” yang mengkarakteristikkan sebuah term dalam keseluruhan koleksi dokumen. Idf merupakan sebuah perhitungan dari bagaimana term yang didistribusikan secara luas pada koleksi dokumen yang bersangkutan. Semakin sedikit dokumen yang mengandung term yang dimaksud, maka nilai idf semakin besar. Jika setiap dokumen dalam koleksi mengandung term yang bersangkutan, maka nilai idf dari term tersebut adalah nol. Hal ini menunjukkan bahwa sebuah term yang muncul pada setiap dokumen dalam koleksi tidak berguna untuk membedakan dokumen berdasarkan topik tertentu. Ilustrasi algoritma tf-idf (Harlian, 2006) ditunjukkan pada gambar 4.2. N=5 D1
D2
D3
D4
D5
….. ….. ….. ….. …..
aku .aku .…. aku .….
….. ….. ….. ….. …..
aku ….. .…. ….. .….
aku .aku aku aku .….
tf = 0
tf = 3
tf = 0
tf = 1
tf = 4
df = 3 idf = log (N/df) = 0.2218
commit to user Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf
10 digilib.uns.ac.id
perpustakaan.uns.ac.id
Keterangan : = dokumen = banyaknya term yang dicari pada sebuah dokumen = total dokumen = banyaknya dokumen yang mengandung term yang dicari Dalam penelitian ini, algoritma pembobotan Term Frequency (tf) – Inverse Document Frequency (idf) diterapkan pada tahap similarity document. Nilai tf-idf diperoleh dengan menggunakan persamaan (Lee, 1997) :
(1)
Dimana : = bobot term ke-j terhadap dokumen ke-i = jumlah kemunculan term j dalam dokumen i = jumlah seluruh dokumen = jumlah dokumen yang mengandung term j
Berdasarkan pada persamaan (1), berapapun besarnya nilai
, apabila N =
maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi :
(2)
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan
menunjukkan bahwa deskripsi terbaik dari dokumen
adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain. commit to user
11 digilib.uns.ac.id
perpustakaan.uns.ac.id
2.1.5
Vector Space Model Model Ruang Vektor ( Vector Space Model ) merupakan suatu metode
yang cukup banyak digunakan dalam sistem Information Retrieval. Dengan menggunakan Model Ruang Vektor, dokumen–dokumen yang ada akan direpresentasikan kedalam n dimensi vektor. Banyaknya dimensi dari ruang vektor akan ditentukan oleh jumlah kata signifikan yang terdapat dalam dokumen. Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulaty) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (t1, t2, dan t3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai: D1 = 2t1+3t2+5t3 D2 = 3t1+7t2+0t3 Q = 0t1+0t2+2t3
Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q (Mandala, 2006) Koleksi dari n buah dokumen dapat direpresentasikan dalam Model Ruang Vektor dengan sebuah matrik term-document (Mandala, 2006) yang ditunjukkan pada gambar 2.3.
commit to user
12 digilib.uns.ac.id
perpustakaan.uns.ac.id
Document space t1
t2
t3
t..
tn
D1
w11
w12
w13
..
w1n
D2
w21
w22
w23
..
w2n
D..
..
..
..
..
..
Dm
wm1 wm2 wm3 ..
Term vector space
wmn
Gambar 2. 3 Matrik Representasi VSM
2.1.6
Matching Document Matching
document
merupakan
tahap
dimana
akan
dilakukan
penghitungan kemiripan (similarity) antara dokumen acuan dengan kandidat dokumen. Dalam penelitian ini dokumen berupa metadata yang mana akan dihitung kemiripannya dengan metode Cosine Similarity. Dimana Cosine Similarity dirumuskan dengan (Lee, 1997):
D
= Dokumen acuan = Dokumen ke-i = Bobot term j pada dokumen acuan = Bobot term j pada dokumen i
Similarity atau
1 jika D = Di, sebaliknya similarity
= 0 ketika D dan Di tidak memiliki kesamaan sama sekali. commit to user
13 digilib.uns.ac.id
perpustakaan.uns.ac.id
2.1.7
Teknologi Mashup Mashup merupakan cara baru dalam dunia aplikasi web yang
menggabungkan
data
dan
informasi
dari
berbagai
sumber
kemudian
menampilkannya dalam sajian informasi yang baru (Thor, 2007). Atau dengan kata lain, teknologi mashup menjadikan keseluruhan data di internet sebagai basisdata universal yang dengan mudah data tersebut dapat diambil sesuai dengan apa yang diinginkan. Arsitektur dari apliaksi web mashup terdiri dari 3 bagian utama yaitu content provider, mashup hosting site, dan client web browser (Marrill, 2006). 1. Content Povider Sumber data dari mashup. Data biasanya didapatkan dengan menggunakan API atau protokol web lain seperti REST atau RSS. 2. Mashup hosting site Web yang menyediakan layanan baru dari bermacam sumber data yang tidak dipunyai oleh web tersebut. 3. Client Web Browser Konsumen yang menggunakan layanan mashup biasanya berbentuk web browser yang menampilkan web mashup. Menurut (Ankolekar et al., 2007) ada empat alasan mengapa digunakan teknologi mashup, yakni reusing data from the web, dynamic data resources, personalization of website, dan giving back to the word. Adapun penjelasan dari empat alasan tersebut adalah sebagai berikut: 1. Reusing data from the web Informasi yang ditampilkan diambil dari internet. Dengan kata lain tidak memerlukan database sendiri untuk kasus ini karea ahanya menggunakan kembali data yang sudah ada di internet. 2. Dynamic data sources
commit to user
perpustakaan.uns.ac.id
14 digilib.uns.ac.id
Informasi yang ditampilkan berasal dari berbagai sumber yang ada di internet. Dengan kondisi seperti ini membuat informasi menjadi dinamis. 3. Personalisation of website Dengan website yang didukung oleh teknologi relevant content dan mashup seolah-olah membuat website milik pribadi si pengunjung. Hal ini dikarenakan dapat ditampilkannya berbagai informasi yang terkait dengan informasi yang ingin dicari pengunjung. 4. Giving back to the word Disamping pengembang web dapat memperoleh berbagai informasi dari berbagai sumber di internet dengan menggunakan teknologi mashup, hal lain yang dapat dilihat adalah manfaat bagi website yang dijadikan sebagai sumber informasi. Dengan menjadikan suatu website sebagai sumber informasi dapat menambah rating daripada website itu sendiri. Oleh karena rating web menjadi naik dan bagus, maka semakin mudah pula pencarian akan situs tersebut menggunakan mesin pencari seperti Google maupun Yahoo. Selain kelebihan kelebihan yang ditawarkan, mashup sendiri mempunyai beberapa kekurangan sebagai timbal balik dari keuntungan yang didapatkan. Kekurangan tersebut antara lain adalah ketergantungan aplikasi terhadap sumber data mashup dan koneksi internet. 2.1.8
Google API Google menyediakan berbagai API (Application Programming Interface)
yang sangat berguna bagi pengembang web maupun aplikasi desktop untuk memanfaatkan berbagai fitur yang disediakan oleh Google. API secara sederhana bisa diartikan sebagai kode program yang merupakan antarmuka atau penghubung antara aplikasi atau web yang kita buat dengan fungsi-fungsi yang dikerjakan. Ada beberapa Google APIs diantaranya: Google Maps API, Google Search API, Google Feeds API, Google Language commit to user
15 digilib.uns.ac.id
perpustakaan.uns.ac.id
API, Google Data API, Google Earth API, Google Visualizaion API, Google Picker API, dan Google Youtube API.
2.2
Penelitian Terkait
2.2.1
Web Document Text and Images Extraction using DOM Analysis and Natural Language Processing (Mulendra dan Liu, 2009) Pada penelitian ini dilakukan teknik HTML DOM analysis dan Natural
Language Proccesing (NPL) untuk secara otomatis melakukan ekstraksi artikel utama dan gambar yang berhubungan dengan artikel tersebut dari suatu halaman web. Aplikasi yang akan dibuat mempunyai masukan (input) berupa halaman web (HTML Document). Aplikasi mempunyai kemampuan untuk memisahkan konten-konten yang menggangu atau konten-konten yang tidak ada hubungannya dengan artikel utama. Dengan cara ini akan dihasilkan output berupa artikel dan gambar yang efektif sehingga lebih mudah dibaca dan dimengerti oleh penguna. Sistem bekerja dengan mengunakan DOM tree untuk melakukan ekstraksi berbagai konten yang ada pada halaman web. DOM object digunakan untuk melakukan ekstraksi artikel text pada body html dalam bentuk blok konten. Kemudian blok konten tersebut dibagi lagi menjadi sub blok konten. Setiap sub blok konten selanjutnya dianalisis lagi sehingga terbentuk DOM tree. Setiap node pada DOM tree merupakan elemen tag-HTML. Adapun elemen tag-HTML yang digunakan untuk ekstraksi text adalah ; div, p, br, li, ul, ol, td, tr, table, h1-6, dan hr. Sedangkan untuk ektraksi gambar dari halaman web juga dengan mudah dapat dilakukan dengan DOM, yakni dengan mengunakan elemen
pada tag html. Setelah menjalankan penelitian ini didapatkan hasil bahwa ekstraksi halaman HTML mengunakan DOM menghasilkan akuransi lebih dari 90%. Sedangkan untuk ke akurasian ekstraksi gambar sekitar 85%. commit to user
16 digilib.uns.ac.id
perpustakaan.uns.ac.id
2.2.2
Mining Contents in Web Page Using Cosine Similarity (Nyein, 2011) Dalam sebuah halaman web memuat banyak informasi yang bukan
merupakan bagian dari konten utama. Informasi tersebut seperti barner ads, navigation bars, copy right and privacy notices, dan juga iklan yang tidak sesuai dengan konten utama. Pada penelitian ini akan dilakukan ekstrasi untuk mendapatkan konten utama dari suatu halaman web. Ekstraksi konten dilakukan dengan mengunakan HTML Pharse untuk merepresentasikan halaman web dalam bentuk DOM Tree. Proses selanjutnya adalah menemukan informasi yang berhubungan dari halaman web. Untuk itu dibuatlah Content Structure Tree (CST) yang berbasis pada DOM Tree. Selanjutnya dilakukan proses similarity dengan mengunakan metode cosine similarity. Dengan menggunakan proses similarity pada CST kita dapat dengan mudah mengetahui blok informasi yang ingin kita tahu. Pada penelitian ini menghasilkan hasil yang lebih karena biasanya penelitian sejenis hanya berbasis pada DOM tree sedangakan pada penelitian ini berbasis pada CST yang dibentuk melalui DOM tree dan juga dapat melakukan ekstraksi dokumen yang saling berhubungan dari suatu halaman web.
2.2.3
An Approach in Web Content Mining for Clustering Web Pages (Etemadi dan Moghaddam, 2010) Saat ini website dan internet memberi sumbangan besar dalam pemberian
berbagai informasi. Ada banyak sekali data di internet, oleh sebab itu dibutuhkan suatu alat untuk memperoleh data-data tersebut dan mengubahnya menjadi informasi yang berguna. Pengelompokan halaman web menjadi salah satu cara yang dapat digunakan. Pana
jurnal
ini
digunakan
pendekatan
baru
untuk
pengelompokan halaman web berdasarkan isi (content),
melakukan
yakni dengan
menggunakan expressions dan key term yang ada pada halaman web sebagai acuan. Dari key term tersebut selanjutnya dibentuk ke dalam vector, kemudian melakukan perbandingan antara nilai similarity mengunakan gabungan antara commit to user algoritma Jaccard – Cosine Similarity dengan algoritma Cosine Similarity.
perpustakaan.uns.ac.id
17 digilib.uns.ac.id
Dari hasil pengujian didapatkan bahwa dengan mengunakan algoritma Jaccard – Cosine similarity didapatkan hasil index yang lebih tinggi, yakni dengan rata-rata perbedaan index sebesar 0.4019
2.2.4
Penerapan Teknologi Marshup Pada Aplikasi Pariwisata Berbasis Web Nusantara View : Modul Transportasi Dengan Pendekatan Algoritma Dijkstra (Himawan, 2010) Dengan kemajuan teknologi informasi saat ini dimungkinkan untuk
memberikan informasi lebih kepada para wisatawan, salah satunya dengan menggunakan teknologi mashup. Pada jurnal ini akan diambil informasi transportasi dari berbagai situs guna menunjukkan rute ke objek wisata yang ingin dikunjungi wisatawan. Dengan adanya informasi transportasi ini, maka calon wisatawan tidak perlu membuka website lain untuk mendapatkan informasi mengenai sarana transportasi yang akan mereka gunakan. Adapun sumber yang akan diguanakan untuk membuat aplikasi mashup adalah Google Map Api dengan menambahkan algoritma Dijkstra. Dari penelitian ini telah berhasil dibuat suatu aplikasi mashup dengan memanfaatkan Google Map Api dan dengan penambahan algoritma dijkstra pada Google Map Api sehingga dapat membuat sistem nenunjukkan jalur terpendek untuk menuju tempat pariwisata yang ingin dikunjungi wisatawan.
2.2.5
Penerapan Teknologi Mashup Pada Aplikasi Pariwisata Berbasis WEB NusantaraView: Modul Blog & Berita dan Facebook (Rohmatulloh et al., 2009) Informasi atau ulasan mengenai objek pariwisata beserta berita-berita
tentang pariwisata sangat dibutuhkan oleh calon wisatawan. Disisi lain, sebagian besar situs pariwisata Indonesia masih menyediakan informasi atau ulasan dan berita pariwisata yang bersifat statis dan tidak aktual. Untuk itu dibuatlah suatu aplikasi berbasis web yang disebut NusantaraView. NusantaraView dikembangakan dengan mengunakan CMS Joomla serta commitDengan to user mengunakan teknologi mashup dilengkapi dengan teknologi Mashup.
18 digilib.uns.ac.id
perpustakaan.uns.ac.id
dibuatlah fitur pencarian informasi mengenai ulasan (review) beserta berita-berita terkait objek pariwisata yang ada di Indonesia. Ulasan dan berita tersebut diambil dari Wikipedia, blog Wordpress, situs berita online, dan Facebook. Mashup pada Blog dan Berita didapatkan dengan menggunakan Yahoo! Pipes. Sedangkan mashup pada Wikipedia dan Facebook didapatkan melalui API masing-masing. Pada penelitian ini menghasilkan sebuah komponen Joomla! yang menyediakan informasi mengenai ulasan dan berita tentang objek pariwisata Indonesia. Dengan tambahan penerapan teknologi Mashup, komponen tersebut tidak membutuhkan basisdata dikarenakan data diambil langsung dari internet.
2.2.6
An information-theoretic definition of similarity (Lin, 1998) Similarity merupakan konsep penting yang sering kali digunakan. Ada
beberapa macam pendekatan dalam similarity yang dapat diterapkan dalam berbagai bidang. Pada jurnal ini akan dijelaskan definisi dari similarity dan berbagai pendekatan dalam similarity itu sendiri. Intuisi yang perlu dipahami terkait similarity: a. Intuisi 1: A dan B dianggap similarity apabila ada kesamaan antar keduanya. Semakin banyak kesamaan maka semakin similar b. Intuisi 2: A dan B dianggap tidak similarity apabila ada perbedaan antar keduanya. Semakin banyak perbedaan maka semakin tidak similar c. Intuisi 3: Maximum similarity antara A dan B diperoleh apabila A dan B identik. Tidak peduli berapa banyak kesamaan diantara mereka.
2.2.7
A Semantic Approach to Contextual Advertising (Broder et al., 2007) Pada penelitian ini akan dilakukan pendekatan untuk menghasilkan suatu
sistem yang mampu menampilkan iklan yang sesuai dengan isi artikel utama pada suatu halaman web. commit to user
19 digilib.uns.ac.id
perpustakaan.uns.ac.id
Sistem bekerja dengan melakukan ekstraksi konten pada halaman web, konten tersebut seperti tittle, body, dan bid phrase. Selanjutnya sistem melakukan matching (mencocokkan) kesamaan antara hasil ekstraksi konten halaman web dengan konten yang ada pada iklan. Klasifikasi halaman web dan iklan akan digunakan tiga metode. Metode pertama dan kedua dilakukan dengan melakukan training pada halaman dengan menjalankan query taksonomi pada web pencarian dan memberikan label pada 10 hasil pencarian setelah dilakukan filtering. Sedangkan pada sisi iklan juga dilakukan pelatihan dengan mengunakan SVM hirarki dan klasifikasi log-regresi. Metode ketiga sama denga metode pertama bedanya hanya pada proses penyaringan. Dimana yang disaring adalah halaman dengan konten rendah dan halaman yang tidak cocok dengan iklan. Pada penelitian ini berhasil didapatkan iklan yang berkaitan dengan konten pada halaman web. 2.3
Rencana Penelitian Penelitian ini akan mengkaji metode similarity – mashup untuk modul
relevant content pada CMS. Metode similarity – mashup diharapkan dapat memberikan berbagai konten yang berkaitan (relevant) dengan konten utama. Berbagai konten tersebut meliputi artikel, gambar, video, dan banner. Kandidat relevant content berasal dari internal dan external sistem (mashup). Relevant Content didapatkan dengan menghitung kemiripan metadata antara kandidat relevant content dengan konten utama.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB III METODOLOGI PENELITIAN
Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk digunakan sebagai awal dalam menyelesaikan penelitian. Acuan ini menjelaskan apa yang harus dilakukan dalam penelitian hingga pembuatan laporan akhir. Tahap-tahap dalam penelitian adalah sebagai berikut:
Studi Literatur
Perancangan
Pengumpulan Data
Framework
Experimental
Experimental Result
Gambar 3. 1 Diagram Metodologi Penelitian 3.1
Studi Literatur Pada tahap ini akan dilakukan studi literatur berkaitan dengan masalah
sistem informasi retrieval, text mining, dan metode pencocokan (similarity) melalui berbagai macam media, antara lain melalui internet, jurnal-jurnal dan berbagai buku. Informasi yang telah diperoleh dalam tahap studi literatur selanjutnya digunakan sebagai dasar dalam menjalankan penelitian ini. 3.2
Perancangan Framework Pada tahap ini akan dilakukan perancangan framework metode similarity –
mashup untuk modul relevant content pada CMS. Cara kerja modul relevant content ini adalah dengan menampilkan berbagai konten yang mempunyai keterkaitan dengan konten utama. Konten-konten tersebuat berasal dari hasil proses text mining antara metadata dari konten utama dengan metadata dari berbagai kandidat relevant content baik itu yang berasal dari internal maupun external sistem. commit to user
20
21 digilib.uns.ac.id
perpustakaan.uns.ac.id
3.3
Pengumpulan Data Pada tahap ini akan dilakukan pengumpulan data yang nantinya akan
dijadikan sebagai kandidat relevant konten. Data kandidat relevant content berasal dari dua sumber yaitu internal dan external sistem. Data internal sistem yang berupa artikel, gambar, banner, dan video didapatkan dari berbagai website di internet dan selanjutnya di simpan ke dalam database. Sedangkan data dari external sistem merupakan data yang secara langsung diambil dari berbagai website di internet ketika modul relevant content berjalan (mashup). Data dari external sistem berupa artikel, gambar, dan video. 3.4
Experimental Pada tahap ini akan dilakukan experiment terhadap modul relevant
content. Experiment akan dilakukan dengan melakukan input data berupa artikel selanjutnya melihat apakah modul relevant content bisa menampilkan kontenkonten yang relevant dengan artikel yang diinputkan tersebut. Apabila modul relevant content dapat menapilkan konten-konten yang relevant dengan konten utama berarti modul telah berjalan dengan baik. 3.5
Experimental Result Pada tahap ini akan dilakukan analisa pada hasil experiment dengan
melihat kesuksesan berjalannya modul relevant content dan hasil dari relevant content yang dihasilkan. Adapun beberapa kriteria yang akan dianalisa diantaranya : 1. Pertama akan dilihat apakah modul relevant content dapat terintegrasi pada CMS dengan baik. 2. Melihat apakah konten-konten yang dihasilkan memiliki keterkaitan dengan konten utama pada website. 3. Dan yang terakir melihat seberapa besar tingkat kemiripan kontenkonten yang dihasilkan dari score yang dihasilkan setelah proses similarity.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB IV PEMBAHASAN
3.1
Perancangan Framework Framework Modul Relevant Content digambarkan pada gambar 4.1 dan
gambar 4.2. Garis besar framework digambarkan pada gambar 4.1 sedangkan gambar 4.2 menggambarkan proses similarity – mashup secara lebih detail. Dari gambar 4.1 dapat dilihat bahwa framework terdiri atas 4 bagian, yakni Similarity – Mashup, Database Internal, Internet, dan Web Page. Seperti yang telah dijelaskan sebelumnya bahwa framework bekerja dengan memanfaatkan dua data resource, yakni dari internal dan external sistem. Data dari internal digambarkan pada bagian Database Internal. Sedangkan data dari external digambarkan pada bagian Internet. Data dari external (konten mashup) tersebut diperoleh dari berbagai website yang ada di internet. Pada tugas akhir ini akan digunakan salah satu dari Google API yakni Google Search API dalam memperoleh konten mashup. Berbagai konten yang diperoleh dengan mengunakan Google Search API berupa artikel, gambar, dan video. Berbagai konten tersebut diperoleh dengan mengirim query request berupa metadata (judul) dari konten utama. Metadata dari konten utama ini selanjutnya digunakan untuk melakukan pencarian pada Google Search Engine. Data dari kedua data resources tersebut bersama dengan konten utama selanjutnya diproses dengan mengunakan metode similarity – mashup untuk mendapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi. Proses ini digambarkan pada bagian Similarity – Mashup. Setelah didapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi selanjutnya kandidat relevant konten tersebut ditampilkan pada halaman web tepat disamping konten utama. Proses menampilkan kandidat relevant content ini digambarkan commit to user pada bagian Web Page.
22
23 digilib.uns.ac.id
perpustakaan.uns.ac.id
Internet
Web Page
Similarity - Mashup
Database Internal
Gambar 4. 1 Framework Modul Relevant Content
Input Data
Database Internal
Internet Teks Dokumen Bahasa Indonesia
Case Folding
Tokenization
Text Preprocessing
Stemming
Filtering
Text Transformation
Pembobotan tf-idf
VSM (Vector Space Model)
Pattern Discovery / Analysis
Matching Document (Cosine Similarity) Hasil Similarity Document
commit to user Gambar 4. 2 Proses Similarity - Mashup
Hasil Similarity - Mashup
24 digilib.uns.ac.id
perpustakaan.uns.ac.id
Gambar 4.2 mengambakan proses similariy – mashup secara lebih detail. Seperti yang telah dijelaskan sebelumnya bahwa framework memanfaatkan dua jenis data resources, yakni data dari internal dan external sistem. Kedua jenis data resources ini akan dihitung kemiripannya dengan konten utama melalui proses yang terdiri dari beberapa tahapan,
yaitu tahap preprocessing, tahap
transformation, dan tahap pattern discovery/analysis. Akan tetapi perhitungan nilai similarity ini tidak berlangsung secara bersamaan, untuk perhitungan nilai similarity antara konten utama dengan artikel internal dilakukan pada saat admin website melakukan perubahan pada data artikel. Sedangkan untuk perhitungan nilai similarity antara konten utama dengan gambar internal, video internal, banner internal, artikel external, gambar external, dan juga video external dilakukan pada saat halaman website dibuka. Perbedaan waktu perhitungan ini dilakukan agar perhitungan nilai similarity bisa lebih cepat. Berikut keterangan lebih detail dari masing-masing tahapan dalam proses similarity - mashup: 3.1.1
Text Preprocessing Seperti yang telah dijelaskan sebelumnya bahwa pada tahap preprosessing
dilakukan proses case folding dan tokenization. Sebelum dilakukan proses ini terlebih dulu dilakukan proses penyaringan dengan menghilangkan berbagai tanda baca, berbagai karakter khusus dan berbagai tag html. Berbagai tanda baca dan karakter khusus tersebut seperti "?", "@", "#", "$", "%", "^", "*", "-", "_", "+", "=", dan lain-lain. Setelah melewati dua proses tersebut barulah dilakukan proses pengubahan kata kedalam bentuk huruf kecil (case folding). Setelah melewati proses case folding selanjutnya dilakukan proses tokenization. Proses ini dilakukan dengan memisah dokumen menjadi kata dengan mengunakan spasi sebagai pemisah.
commit to user
25 digilib.uns.ac.id
perpustakaan.uns.ac.id
3.1.2
Text Transformation Seperti yang telah dijelaskan sebelumnya bahwa pada tahap text
transformation ini dilakukan proses filtering dan stemming. Proses filtering dilakukan untuk menghilangkan stop-word yang mana daftar stop-word diperoleh dari (Tala, 2003). Sedangkan untuk proses stemming yang bertujuan untuk mendapatkan kata dasar dilakukan dengan mengunakan algoritma stemming Nazief & Andriani. Pada tugas akhir ini kata dasar yang akan digunakan sebagai acuan
pada
proses
stemming
diambil
dari
website
bahtera
(http://www.bahtera.org). Bahtera merupakan kamus bahasa Indonesia yang menjadi rujukan sesuai Kamus Besar Bahasa Indonesia (KBBI). Dimana kata dasar tersebut terdiri dari 28.526 kata. 3.1.3
Pattern Discovery /Analysis Pada tahap ini dilakukan representasi nilai numerik yaitu dengan
melakukan pembentukan model ruang vektor dan pembobotan pada setiap kata dari setiap dokumen. Setelah selesai perhitungan bobot selanjutnya dilakukan proses perhitungan similarity dengan menggunakan metode Cosine Similarity seperti yang telah dijelaskan sebelumnya. Perhitungan kemiripan antara konten utama dengan semua kandidat relevant content didasarkan pada kesamaan metadata konten. Dengan kata lain, pada penelitian ini metadata diibaratkan sebagai dokumen ketika proses perhitungan similarity. Tiap jenis konten memiliki metadata tersendiri dalam perhitungan similarity. Hal ini bertujuan untuk mendapatkan nilai similarity yang tinggi. Adapun metadata dari setiap jenis konten yang dipakai dalam menghitung kesamaan ditunjukkan pada tabel 4.1. Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity No
1 2
Artikel utama judul, isi artikel, tag Judul
Artikel judul, isi artikel, tag -
Internal resources Gambar Video -
External resources Banner Artikel Gambar Video
-
commit to user
Judul
Judul
-
-
-
-
Judul
Judul
Snippet
Judul
perpustakaan.uns.ac.id
26 digilib.uns.ac.id
Hasil dari perhitungan nilai similarity antara konten utama dengan kandidat relevant content akan disimpan dalam cache khusus. Masing-masing jenis relevant content memiliki batas waktu penyimpanan cache yang berbedabeda, untuk relevant content yang berasal dari internal sistem akan disimpan selama 24 jam sedangkan untuk relevant content yang berasal dari external sistem akan disimpan selama 6 jam. Ketika batas waktu penyimpanan cache habis maka akan dilakukan perhitugan kembali nilai similarity antara konten utama dengan kandidat relevant content. Penyimpanan cache hasil relevant content ini dilakukan karena perhitungan similarity antara konten utama dengan kandidat relevant content dalam rentang waktu yang kecil sering kali menghasilkan relevant content yang sama sehingga dengan adanya penyimpanan cache diharapkan user dapat langsung melihat hasil relevant content tanpa perlu menunggu perhitungan nilai similarity. Selain itu dengan adanya pembatasan waktu dalam penyimpanan cache ini diharapkan dapat menjaga relevant content agar tetap dinamis. Batas waktu penyimpanan cache tidak berlaku untuk artikel internal. Hal ini karena nilai similarity antara konten utama dengan artikel internal hanya akan berubah ketika admin website melakukan perubahan pada data artikel. 3.2
Pengumpulan Data Data yang digunakan dalam penelitian ini berasal dari dua jenis data yakni
dari internal dan external sistem. 3.2.1
Data Internal Data dari internal sistem berupa 30 artikel, 100 gambar, 10 banner, dan 50
video yang diambil dari beberapa website di internet dan selanjutnya disimpan kedalam database sistem. 3.2.2
Data External Data dari external sistem merupakan data yang secara langsung diambil
dari berbagai website di internet ketika modul relevant content
berjalan
(mashup). Pada tugas akhir ini akan digunakan salah satu dari Google API yakni Google Search API dalam memperoleh konten mashup. Berbagai konten tersebut commit to user diperoleh dengan mengirim query request berupa metadata (judul) dari konten
27 digilib.uns.ac.id
perpustakaan.uns.ac.id
utama. Metadata dari konten utama ini digunakan untuk melakukan pencarian pada Google Search Engine. Selanjutnya akan diperoleh berbagai jenis konten seperti artikel, gambar, dan video. Data yang dihasilkan Google Search API berupa data JSON. Data JSON hasil dari Google Search API mempunyai format khusus. Adapun format data JSON tersebut adalah sebagai berikut : { "responseData" : { "results" : [], "cursor" : {} }, "responseDetails" : null | string-on-error, "responseStatus" : 200 | error-code }
Dalam mendapatkan konten berupa artikel, gambar , dan video digunakan tiga tipe Google Search API. Untuk mendapatkan konten berupa artikel digunakan Google web search, untuk konten berupa gambar digunakan Google Image Search , dan untuk mendapatkan konten berupa video digunakan Google Video Search. Pada saat melakukan suatu pencarian pastilah ada batasan tertentu, begitu juga pada pencarian dengan memanfaaatkan Google Web Search, Google Image Search, maupun Google Video Search. Pada tiga tipe Google Search API tersebut ada banyak argument dalam menentukan batasan pencarian. Namun pada tugas akhir ini hanya akan digunakan beberapa argument saja. Beberapa argument tersebut ditunjukkan pada tabel 4.2. Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API No Argument 1 key?
Contoh key = ' '
2
Q
q=Paris%20Hilton
3
V
v=1.0
Keterangan Merupakan API key yang bisa diperoleh di http://code.google.com/apis/ajaxsearch/signup.ht ml Argument ini digunakan untuk mengirim query pencarian (query request). q=Paris%20Hilton merupakan argument untuk mengirim query "Paris Hilton". Argument ini digunakan untuk menentukan versi dari API pencarian. Saat ini hanya tersedia versi 1.0
commit to user
28 digilib.uns.ac.id
perpustakaan.uns.ac.id
Tabel 4.2 Lanjutan No Argument 4 rsz?
Contoh rsz=4
5
hl?
hl=fr
6
as_sitesearch
as_sitesearch=travel. kompas.com
7
filter?
filter=1
Keterangan Argument ini digunakan untuk menentukan berapa jumlah hasil yang diterima. Nilainya dapat berupa bilangan 1 sampai 8. Atau dengan mengunakan kata "smal" untuk mendapatkan 4 hasil dan kata "large" untuk mendapatkan 8 hasil. Argument ini menentukan host bahasa yang digunakan untuk mengirim query request. Pada penelitian ini digunakan host bahasa indonesia (hl=id) Argument ini digunakan untuk menentutan alamat website yang digunakan sebagai acuan dalam melakukan pencarian Argument ini digunakan untuk mematikan dan mengaktifkan penyaringan duplikasi konten. Filter=1 untuk mengaktifkan penyaringan duplikasi konten sedangkan filter=0 untuk mematikan penyaringan duplikasi konten
3.2.2.1 Konten artikel Konten artikel diperoleh dengan memanfaatkan Google Web Search. Setiap pencarian di internet pastilah menpunyai acuan pencarian. Pada Google Web Search alamat acuan yang digunakan dalam melakukkan pencarian adalah : https://ajax.googleapis.com/ajax/services/search/web
Sebagai contoh akan dikirimkan query request = “Paris Hilton” pada Google Web Search dengan url sebagai berikut : https://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=Paris %20Hilton
Maka query tersebut akan memberikan hasil sebagai berikut : {"responseData": { "results": [ { "GsearchResultClass": "GwebSearch", "unescapedUrl": "http://en.wikipedia.org/wiki/Paris_Hilton", "url": "http://en.wikipedia.org/wiki/Paris_Hilton", "visibleUrl": "en.wikipedia.org", "cacheUrl": "http://www.google.com/search?q\u003dcache:TwrPfhd22hYJ:en.wikipedia.org", "title": "\u003cb\u003eParis Hilton\u003c/b\u003e - Wikipedia, the free encyclopedia", "titleNoFormatting": "Paris Hilton - Wikipedia, the free encyclopedia", "content": "\[1\] In 2006, she released her debut album..." commit to user },
29 digilib.uns.ac.id
perpustakaan.uns.ac.id
{ "GsearchResultClass": "GwebSearch", "unescapedUrl": "http://www.imdb.com/name/nm0385296/", "url": "http://www.imdb.com/name/nm0385296/", "visibleUrl": "www.imdb.com", "cacheUrl": "http://www.google.com/search?q\u003dcache:1i34KkqnsooJ:www.imdb.com", "title": "\u003cb\u003eParis Hilton\u003c/b\u003e", "titleNoFormatting": "Paris Hilton", "content": "Self: Zoolander. Socialite \u003cb\u003eParis Hilton\u003c/b\u003e..." }, ... ], "cursor": { "pages": [ { "start": "0", "label": 1 }, { "start": "4", "label": 2 }, { "start": "8", "label": 3 }, { "start": "12","label": 4 } ], "estimatedResultCount": "59600000", "currentPageIndex": 0, "moreResultsUrl": "http://www.google.com/search?oe\u003dutf8\u0026ie\u003dutf8..." } } , "responseDetails": null, "responseStatus": 200}
Dari hasil Google Web Search tersebut dapat dilihat ada banyak properties dari tiap konten seperti url,visibleUrl,cacheUrl, dan lain-lain. Namun pada tugas akhir ini hanya akan digunakan beberapa properties saja. Nilai dari properties yang digunakan akan disimpan ke dalam database sistem yang selanjutnya akan diolah sesuai dengan metode/algoritma yang telah ditentukan sebelumnya guna mendapatkan kandidat relevant content terbaik. Properties ini akan digunakan sebagai metadata konten. Berikut beberapa properties yang digunakan : Tabel 4. 3 Metadata Kandidat Relevant Content Artikel No 1 2 3
Property Keterangan url Property ini menyimpan alamat link dari konten artikel Title Property ini menyimpan judul dari konten artikel Content Property ini menyimpan snippet dari konten. Snippet merupakan uraian singkat tentang isi konten artikel
commit to user
perpustakaan.uns.ac.id
30 digilib.uns.ac.id
3.2.2.2 Konten gambar Konten gambar diperoleh dengan memanfaatkan Google Image Search. Seperti hanya pada Google Web Search, Google Image Search juga memiliki alamat acuan yang digunakan dalam melakukkan pencarian. Adapun alamat acuan tersebut adalah : https://ajax.googleapis.com/ajax/services/search/images
Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada Google Image Search API dengan url sebagai berikut : https://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=fuzzy%20monkey
Maka query request tersebut akan memberikan hasil sebagai berikut : {"responseData": { "results": [ { "GsearchResultClass": "GimageSearch", "width": "450", "height": "450", "imageId": "Yt3TRC1vxzhazM", "tbWidth": "127", "tbHeight": "127", "unescapedUrl": "http://www.touchnote.com/files/assets/STAN009.jpg", "url": "http://www.touchnote.com/files/assets/STAN009.jpg", "visibleUrl": "www.touchnote.com", "title": "Touchnote - Personalised \u003cb\u003eFuzzy Monkey\u003c/b\u003e greeting cards design by Dan \u003cb\u003e...\u003c/b\u003e", "titleNoFormatting": "Touchnote - Personalised Fuzzy Monkey greeting cards design by Dan ...", "originalContextUrl": "http://www.touchnote.com/photo/card-design/Fuzzy+Monkey", "content": "Card Design \u003cb\u003eFuzzy Monkey\u003c/b\u003e", "contentNoFormatting": "Card Design Fuzzy Monkey", "tbUrl": "http://images.google.com/images?q\u003dtbn:Yt3TRC1vxzhazM:www.touchnote.com/files/ assets/STAN009.jpg" }, { "GsearchResultClass": "GimageSearch", "width": "640", "height": "480", "imageId": "c6093fGTdNvKOM", "tbWidth": "137", "tbHeight": "103", "unescapedUrl": "http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg", "url": "http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg", commit to user "visibleUrl": "www.fuzzymonkeyphotography.com",
31 digilib.uns.ac.id
perpustakaan.uns.ac.id
"title": "\u003cb\u003eFuzzy Monkey\u003c/b\u003e Photography", "titleNoFormatting": "Fuzzy Monkey Photography", "originalContextUrl": "http://www.fuzzymonkeyphotography.com/", "content": "Welcome to \u003cb\u003eFuzzy Monkey\u003c/b\u003e", "contentNoFormatting": "Welcome to Fuzzy Monkey", "tbUrl": "http://images.google.com/images?q\u003dtbn:c6093fGTdNvKOM:stuff. fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg" } ], "cursor": { "pages": [ {"start": "0","label": 1}, {"start": "4","label": 2}, {"start": "8","label": 3}, {"start": "12","label": 4} ], "estimatedResultCount": "578000", "currentPageIndex": 0, "moreResultsUrl": "http://www.google.com/images?oe\u003dutf8\u0026ie\u003dutf8\u0026source\u003duds\ u0026start\u003d0\u0026hl\u003den\u0026q\u003dfuzzy+monkey" } } , "responseDetails": null, "responseStatus": 200}
Dari hasil Google Image Search tersebut juga didapati berbagai properties. Namun hanya beberapa saja yang akan digunakan sebagai metadata pada kandidat relevant content yang berupa gambar. Beberapa properties tersebut diantaranya : Tabel 4. 4 Metadata Kandidat Relevant Content Gambar No 1 2 3 4
Property Keterangan url Property ini menyimpan alamat link dari konten gambar Title Property ini menyimpan judul dari konten gambar Content Property ini menyimpan snippet dari konten. Snippet merupakan uraian singkat tentang isi konten gambar tbUrl Property tbUrl menyimpan alamat link dari thumbnail gambar
3.2.2.3 Konten video Konten video diperoleh dengan memanfaatkan Google Video Search API. Alamat acuan yang digunakan dalam melakukan pencarian pada Google Video Search adalah : https://ajax.googleapis.com/ajax/services/search/video
commit to user
perpustakaan.uns.ac.id
32 digilib.uns.ac.id
Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada Google Video Search dengan url sebagai berikut : https://ajax.googleapis.com/ajax/services/search/video?v=1.0&q=drywall%20repair
Maka query request tersebut akan memberikan hasil sebagai berikut : {"responseData": { "results": [ { "GsearchResultClass": "GvideoSearch", "title": "Easy Drywall Repair a typical home improvement", "titleNoFormatting": "Easy Drywall Repair a typical home improvement", "published": "Mon, 05 Feb 2007 20:10:38 PST", "content": "An easy way to repair holes in drywall. With this method of repair no nails/screws wood required!do it youself and save dollars!", "publisher": "www.youtube.com", "tbUrl": "http://2.gvt0.com/vi/-zop6ND1h4o/default.jpg", "tbWidth": "320", "tbHeight": "240", "videoType": "YouTube", "url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3Dzop6ND1h4o\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCN GzJTbL6mJ5nn-B_q41Of9EFSKe2Q", "playUrl": "http://www.youtube.com/v/zop6ND1h4o\u0026fs\u003d1\u0026source\u003duds\u0026autoplay\u003d1", "rating": "4.6581631", "duration": "230" }, { "GsearchResultClass": "GvideoSearch", "title": "How To Patch a Small Hole in Drywall", "titleNoFormatting": "How To Patch a Small Hole in Drywall", "published": "Fri, 23 Oct 2009 05:01:27 PDT", "content": "Learn how to patch a small hole in drywall so you don\u0026#39;t have to pay someone to do it.", "publisher": "www.youtube.com", "tbUrl": "http://3.gvt0.com/vi/dqsIzriVgn8/default.jpg", "tbWidth": "320", "tbHeight": "240", "videoType": "YouTube", "url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3DdqsIzriVgn 8\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCNE3sdTecOdP29y SuEJL_tqTOlT8eg", "playUrl": "http://www.youtube.com/v/dqsIzriVgn8\u0026fs\u003d1\u0026source\u003duds \u0026autoplay\u003d1", "rating": "4.65", "duration": "110" } ], "cursor": { "pages": [ commit to user {"start": "0", "label": 1},
33 digilib.uns.ac.id
perpustakaan.uns.ac.id
{"start": "4","label": 2}, {"start": "8","label": 3}, {"start": "12","label": 4} ], "estimatedResultCount": "218", "currentPageIndex": 0, "moreResultsUrl": "http://video.google.com/videosearch?source\u003duds\u0026type\u003 dsearch\u0026q\u003dhow+to+patch+drywall+%28site%3Avideo.google.com+OR+site%3 Ayoutube.com+%29\u0026hl\u003den\u0026start\u003d0" } } , "responseDetails": null, "responseStatus": 200}
Properties hasil dari Google Video Search yang akan digunakan sebagai metadata pada kandidat relevant content yang berupa video sama dengan properties yang digunakan pada hasil dari Google Image Search, yakni : Tabel 4. 5 Metadata Kandidat Relevant Content Video No 1 2 3 4
Property Keterangan url Property ini menyimpan alamat link dari konten video Title Property ini menyimpan judul dari konten video content Property ini menyimpan snippet dari konten. Snippet merupakan uraian singkat tentang isi konten video tbUrl Property tbUrl menyimpan alamat link dari thumbnail video. Thumbnail video merepresentasikan isi dari video. Website yang akan digunakan dalam memperoleh kandidat relevant
content dari external sistem dapat berasal dari website mana saja namun dalam penelitian ini hanya akan digunakan beberapa website saja. Adapun beberapa website yang digunakan dalam memperoleh data dari external sistem yang berupa artikel dan gambar ditunjukkan pada tabel 4.6. Sedangkan website untuk memperoleh data external sistem yang berupa video digunakan situs Youtube. Tabel 4. 6 Website Acuan Konten Mashup No 1 2 3 4 5 6
Nama Website Url Detik travel http://travel.detik.com Indonesia Travel http://wisatamelayu.com/id Wisata melayu http://indonesia.travel Wikipedia http://id.wikipedia.com Solo pos http://solopos.com commit to user Google http://google.co.id
perpustakaan.uns.ac.id
3.3
Experimental
3.3.1
Lingkungan Implementasi
34 digilib.uns.ac.id
Lingkungan implementasi meliputi lingkungan perangkat keras dan perangkat lunak 3.3.1.1 Lingkungan Prangkat Keras Dalam mengkaji metode similarity – mashup untuk modul relevant content ini digunakan laptop dengan spesifikasi: 1. Prosesor Intel® Core(TM) 2 Duo CPU T5800 @2.00 GHz 2.00GHz 2. VGA Intel® 45 Express Chipset Family 3. Memory 3 GB 4. Harddisk 320 GB 5. Monitor 14” 3.3.1.2 Lingkungan Perangkat Lunak Perangkat lunak yang digunakan dalam mengkaji metode similarity – mashup untuk modul relevant content ini adalah: 1. Sistem Operasi Windows 7 Ultimate 32-bit (6.1, Build 7600) 2. WAMPSERVER 2.2 3. PHP Version 5.3.8 4. Apache 2.2.21 5. MySQL 5.5.16 6. Microsoft Office Visio 2007 7. Google Chrome 20.0.1132.57m 3.3.2
Pengujian
Pengujian pada penelitian ini dilakukan dengan cara melakukan input data berupa artikel sebanyak 20 kali dan melihat hasil relevant content yang dihasilkan oleh setiap artikel yang diinputkan, baik itu hasil relevant content yang bersumber dari internal maupun external sistem. Data artikel uji coba selanjutnya akan commit to user diolah bersama dengan data kandidat relevant conent menggunakan metode yang
35 digilib.uns.ac.id
perpustakaan.uns.ac.id
telah dijelaskan sebelumnya guna mendapatkan konten-konten yang paling relevant dengan konten utama. Relevent content yang dihasilkan akan ditampilkan melalui halaman website. Relevant content diurutkan terlebih dahulu berdasarkan nilai similarity sebelum ditampilkan melalui website. Konten dengan nilai nol tidak akan ditampilkan. Jumlah relevant content yang akan ditampilkan pada halaman web ditunjukkan pada tabel 4.7. Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan No 1 2 3 4 5 6 7
3.4
Konten Artikel Gambar Video Banner Artikel Gambar Video
Sumber Internal Internal Internal Internal External External External
Jumlah tampil 3 6 3 2 6 6 6
Experimental Result Dari hasil uji coba dapat dilihat bahwa modul relevant content telah dapat
terintegrasi pada CMS Lokomedia. Modul Relevant Content dapat memberikan serta menampilkan konten-konten yang terkait dengan konten utama, baik itu konten yang berasal dari dalam maupun luar sistem. Dari hasil uji coba juga dapat dilihat bahwa konten-konten yang berasal dari luar sistem memberikan nilai similarity yang lebih tinggi dibandingkan dengan konten-konten yang berasal dari dalam sistem. Hal ini dapat dilihat dari nilai rata-rata hasil relevant content internal dan external seperti yang ditunjukkan pada tabel 4.8. Nilai rata-rata dari semua jenis relevant content baik internal maupun external dihitung dari jumlah nilai similarity setiap konten dibagi dengan banyaknya konten. Namun khusus untuk relevant content artikel dan gambar external, nilai rata-rata dihitung dengan menghitung nilai rata-rata relevant content dari setiap website acuan terlebih dahulu kemudian baru menghitung ratarata totalnya. Sebagai contoh misal ada 6 website acuan maka nilai rata-rata commit to user
36 digilib.uns.ac.id
perpustakaan.uns.ac.id
dihitung dengan menjumlahkan nilai rata-rata dari setiap website acuan tersebut kemudian dibagi 6.
Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External Percobaan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Rata – Rata
Nilai rata-rata Internal Nilai rata-rata External Artikel Gambar Video Banner Artikel Gambar Video 0.0602 0.0697 0.0969 0.1297 0.2281 0.4916 0.5748 0.0568 0.0668 0.0750 0 0.3080 0.4132 0.5218 0.0350 0.0477 0.0344 0 0.1668 0.4694 0.2550 0.0412 0.0498 0.0384 0 0.1859 0.4557 0.3157 0.0639 0.0607 0.0381 0 0.1529 0.5225 0.4096 0.0551 0.0599 0.0599 0.0420 0.1727 0.3963 0.2858 0.0513 0.0693 0.0762 0 0.1991 0.4260 0.3401 0.1726 0.0718 0.0586 0.0559 0.0363 0.3066 0.4551 0.0587 0.0277 0.0437 0 0.2554 0.7836 0.2767 0.0675 0.0573 0.0682 0 0.1554 0.4603 0.3420 0.0794 0.0654 0.0713 0 0.3639 0.5097 0.4329 0.0334 0.0291 0.0363 0 0.1906 0.3522 0.1885 0.0640 0.0336 0.0407 0 0.2554 0.3323 0.1725 0.0472 0.0583 0.0150 0 0.2596 0.3879 0 0.0561 0.0694 0.0806 0 0.2042 0.6269 0.2669 0.0678 0.0492 0.0849 0 0.1256 0.3498 0.3536 0.0269 0.0309 0.0485 0 0.1347 0.2639 0.2956 0.0527 0.0432 0.0394 0 0.2238 0.1500 0.0385 0.0843 0.0575 0.0671 0 0.1235 0.8926 0.1936 0.0203 0.0591 0.0796 0.0666 0.1064 0.3617 0.4160 0.0547 0.0532 0.0575 0.0137 0.1992 0.4476 0.3067
Dari tabel 4.8 dapat diketahui selisih nilai rata-rata dari setiap jenis relevant content yang dihasilkan. Adapun selisih tersebut ditunjukkan pada tabel 4.9. Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External Nilai rata-rata Jenis Konten Internal External Artikel 0.0547 0.1992 Gambar 0.0532 0.4476 commit to user Video 0.0575 0.3067
Selisih 0.1445 0.3944 0.2492
37 digilib.uns.ac.id
perpustakaan.uns.ac.id
Selisih nilai rata-rata relevant content artikel external lebih besar 0,1445 dari nilai rata-rata relevant content artikel internal. Kemudian nilai rata-rata untuk relevant content gambar external lebih besar 0,3944 dan nilai rata-rata untuk relevant content video external lebih besar 0.2492. Dalam mendapatkan kandidat relevant content external sangatlah dipengaruhi oleh website acuan. Apabila website yang dijadikan sebagai acuan dalam mendapatkan relevant content mengalami down atau website tersebut tidak memiliki konten yang berkaitan dengan konten utama pada sistem maka secara otomatis tidak akan ada konten yang dapat diambil untuk dijadikan sebagai kandidat relevant content.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB V PENUTUP
5.1
Kesimpulan Berdasarkan hasil penelitian tugas akhir yang dilakukan, maka dapat
disimpulkan beberapa hal sebagai berikut: 1. Metode similarity – mashup untuk modul relevant content telah dapat terintegrasi pada CMS Lokomedia. Terbukti dari hasil relevant content yang telah dihasilkan 2. Setiap jenis konten memiliki metadata tersendiri dalam perhitungan nilai similarity. Untuk menghitung nilai similarity antara konten utama dengan artikel internal digunakan judul, isi berita, dan tag, sedangkan untuk gambar dan video internal digunakan judul. Kemudian untuk menghitung nilai similarity antara konten utama dengan gambar external digunakan snippet dan untuk artikel maupun video external digunakan judul. 3. Relevant Content yang berasal dari luar sistem memiliki nilai similarity yang lebih tinggi dari pada relevant content yang berasal dari dalam sistem. Hal tersebut dikarenakan konten dari luar sistem lebih banyak dari pada konten dari dalam sistem sehingga konten dari luar sistem memiliki kemungkinan kesamaan metadata yang lebih besar dengan konten utama. Hal ini dapat dilihat dari selisih nilai rata-rata, yang mana nilai rata-rata relevant content artikel external lebih besar 0,1445 dari nilai rata-rata relevant content artikel internal. Kemudian rata-rata untuk relevant content gambar external lebih besar 0,3944 dan rata-rata untuk relevant content video external lebih besar 0.2492.
commit to user
38
39 digilib.uns.ac.id
perpustakaan.uns.ac.id
5.2
Saran Berikut ini adalah beberapa saran yang dapat dipertimbangkan jika tugas
akhir ini akan dikembangkan lebih lanjut: 1. Dalam penelitian ini relevant content yang dihasilkan terbatas pada konten yang berbahasa Indonesia, maka dari itu untuk penelitian selanjutnya bisa ditambahkan fitur multi language seperti dengan memanfaatkan Google Translate API untuk mendapatkan relevant content dalam berbagai bahasa. 2. Dalam penelitian tugas akhir ini relevant content didapatkan berdasarkan kemiripan metadata konten. Untuk penelitian ke depan bisa ditambahkan metode image processing untuk mendapatkan relevant content gambar yang lebih akurat. 3. Penerapan teknologi mashup dapat menjadikan konten dari aplikasi web menjadi lebih dinamis. Namun masalah yang muncul adalah sisi penyedia data mashup. Ketika penyedia data mengalami masalah atau tidak ada konten yang terkait dengan konten utama pada sistem, maka sistem juga akan mengalami masalah yang menyebabkan sistem tidak berjalan semestinya. Permasalahan ini dapat diminimalisasi dengan menjadikan penyedia layanan data yang terpercaya sebagai sumber mashup sehingga kontinuitas dan masalah dengan data bisa dicegah dan konten yang dinamis dapat terjaga. 4. Pada saat mendapatkan konten mashup juga sangat dipengaruhi oleh penyedia API, dalam tugas akhir ini Google Search API. Terutama dalam cara penggunaan API, hal ini karena Google Search API masih terus dikembangkan. Oleh karena itu diharapkan dalam pengembangan selanjutnya, atau dalam pengembangan yang lain yang terkait dengan mashup, pengembang dapat melakukan pemeriksaan berkala terhadap penyedia API sebagai tindakan preventif demi mengetahui perubahan informasi yang terjadi, baik dalam format data atau dalam hal yang lain.
commit to user