BAB I
1
PENDAHULUAN
1.1 Latar Belakang Dengan banyaknya informasi tertulis atau teks sekarang ini, manusia diharapkan bisa mendapat informasi yang banyak dalam waktu singkat (Bohne dan Borghoff, 2013). Cara manusia mendapatkan informasi dari teks adalah dengan membaca dan memahami isi teks itu namun proses itu tidak mudah dan bersifat lambat. Agar pembaca teks mendapatkan makna lebih cepat maka beberapa penulis memberikan kata kunci, yakni kumpulan kata yang dapat mewakili isi teks. Bohne dan Borghoff (2013) juga berpendapat bahwa tidak semua penulis bisa memberikan kata kunci pada hasil karyanya dan tidak semua kata kunci benar-benar mewakili isi teks karena subyektifitas manusia. Pembaca juga bisa memberikan kata kunci pada suatu teks, namun diharuskan terlebih dahulu membaca dan memahami isi teks. Untuk itu ekstraksi kata kunci akan dilakukan dengan komputer agar proses yang terjadi cepat dan hasilnya obyektif. Sistem ekstraksi kata kunci oleh komputer ini termasuk dalam cabang ekstraksi informasi karena hanya mengambil sebagian kecil informasi sesuai yang dibutuhkan (Gaizauskas dan Wilks, 1998). Informasi yang diambil dalam ekstraksi kata kunci adalah jika sebuah kata itu sering muncul pada teks maka kata itu berpengaruh di teks itu (Qin, 2012). Perhitungan keseringan muncul itu bisa disebut juga dengan frekuensi. Dalam ekstraksi kata kunci Term Frequency – Inverse Document Frequency (TF-IDF) adalah metode perhitungan bobot menggunakan frekuensi untuk sebuah term yang paling sering digunakan (Lee dan Kim, 2008). Walau sudah diperhitungkan dengan frekuensi terkadang pembobotan masih dirasa kurang maka dilakukan juga pembobotan berdasar lokasi dari term itu (Qin, 2012). Pertimbangan lokasi adalah dengan memberikan bobot yang berbeda jika term berada di lokasi yang berbeda seperti apabila term berada di 1
2 awal atau akhir teks akan lebih berbobot daripada yang berada di tengah teks (Zhang dkk, 2009). Sebuah metode bernama n-gram adalah metode yang bekerja dengan memecah n potongan karakter kedalam suatu barisan (Cavnar dan Trenkle, 1994). Metode ini juga dapat membuat potongan kata yang terdiri dari beberapa kata yang tidak terbatas hanya dua atau tiga kata saja namun bisa sampai n kata dimana n >= 1 (Serban dkk, 2013). Apabila sebuah sistem ekstraksi kata kunci menggunakan metode n-gram sebagai perluasan kata maka kata kunci yang didapat bisa memiliki kata lebih dari dua. Dari keseluruhan kata kunci, biasanya kata kunci yang memilki 2 kata ada 44% sedangkan 3 kata dan 4 kata hanya sedikit (Liu dkk, 2008). Maka dari itu sistem ekstraksi kata kunci menggunakan perluasan n-gram ini maka akan meningkatkan kinerja dari sistem. Kebanyakan dari sistem ekstraksi kata kunci menggunakan kumpulan teks atau text corpus dalam melakukan pembobotan seperti pada metode TF-IDF harus ada teks lain guna memperhitungkan nilai IDF. Apabila sistem ekstraksi seperti itu maka akan muncul kembali sifat lambat dalam penentuan kata kunci dimana data harus terkumpul terlebih dahulu. Kelemahan text corpus adalah apabila domain dari text corpus itu berbeda maka akan memiliki karakteristik yang berbeda (Liu dan Li, 2009). Karakteristik dari sebuah teks cukup penting untuk melakukan ekstraksi kata kunci apalagi pada metode yang menggunakan jaringan syaraf tiruan (Azcarraga dkk, 2012). Namun ketika sebuah metode ingin digunakan secara luas maka metode itu harus bisa mempelajari karakteristik secara umum, namun itu akan mahal (Qin, 2012). Walaupun untuk mengenali karakteristik secara umum sulit dilakukan namun bisa dipermudah dengan cara memperluas domain. Domain yang diperluas ini adalah dengan membatasi hanya pada bahasa tertentu dimana karakteristik yang perlu dikenali adalah karakteristik bahasa. Untuk menghilangkan kebutuhan text corpus maka karakteristik bahasa sudah cukup untuk diimplementasikan dalam metode ini. Ketika kebutuhan text corpus itu hilang maka hanya dengan teks tunggal atau dokumen tunggal metode ini
3 sudah berjalan dan akan menghasilkan ekstraksi kata kunci yang lebih cepat (Qin, 2012). Dokumen tunggal juga mewakili kebutuhan kesederhanaan metode pada penelitian ini dimana data yang digunakan dibuat minimal dan lokal. 1.2 Rumusan Masalah Dengan melihat latar belakang maka penelitian ini akan mengarah untuk mendapatkan kata kunci sebagai arti dari dokumen. Sehingga untuk mencapai kebutuhan itu dirumuskan beberapa rumusan masalah yaitu : 1. Bagaimana mengembangkan metode n-gram sebagai perluasan sehingga dapat mengekstrak kata kunci yang memiliki 2 kata atau lebih dari satu dokumen? 2. Bagaimana kinerja ekstraksi kata kunci berdasar frekuensi dan lokasi setelah diperluas dengan n-gram? 1.3 Batasan Masalah Masalah dalam penelitian ini akan dibatasi oleh beberapa hal, yaitu : 1. Teks/dokumen berbahasa Inggris 2. Proses ekstraksi menggunakan badan teks 3. Karakter pada teks yang digunakan adalah ASCII 1.4 Tujuan Penelitian ini memiliki beberapa tujuan yaitu : 1. Mengaplikasikan metode n-gram sebagai perluasan ke dalam sistem ekstraksi kata kunci dengan perhitungan frekuensi dan lokasi sehingga dapat mengekstrak kata kunci yang memiliki 2 kata atau lebih dari satu dokumen. 2. Mengetahui peningkatan kinerja ekstraksi kata kunci berdasar frekuensi dan lokasi dengan perluasan n-gram.
4 1.5 Manfaat Setelah penelitian ini mendapatkan hasil, diharapkan hasil itu dapat memberikan manfaat sebagai berikut : 1. Sebagai dasar pengembangan sistem ekstraksi kata kunci. 2. Sebagai pembanding nilai akurasi dengan menggunakan perluasan ngram pada dokumen tunggal. 3. Sebagai pembanding metode frekuensi dan lokasi dengan metode lain. 1.6 Metodologi Penelitian Dalam melakukan penelitian diperlukan beberapa langkah agar mencapai hasil seperti harapan yaitu sebagai berikut : 1. Studi Literatur Pada tahap ini dipelajari metode dan algoritma yang berkaitan dengan penelitian ini, meliputi frekuensi, lokasi dan n-gram. Sumber yang digunakan sebagai studi literatur diambil dari jurnal, prosiding, dan buku. 2. Perancangan Struktur Pada tahap ini dilakukan perancangan sistem dengan metode yang telah dipelajari dalam bentuk diagram dan narasi. Perancangan yang telah terbentuk digunakan sebagai dasar implementasi sistem. 3. Implementasi Sistem Pada tahap ini dilakukan implementasi dari rancangan yang sudah dibentuk kedalam algoritma dan bahasa pemrograman. Implementasi meliputi pembuatan sistem dan antar muka pengguna. 4. Pengujian Sistem Pada tahap ini dilakukan pengujian dari sistem yang telah dibuat dengan membandingkan kata kunci hasil pengujian sistem dengan kata kunci bawaan dokumen. Setelah mengulang pembandingan kata kunci dengan beberapa data tes maka hasil perbandingan kata kunci dihitung untuk mendapatkan akurasi dari sistem.
5 5. Penulisan Laporan Pada tahap ini dilakukan penulisan laporan dari pengujian yang telah dilakukan, meliputi penyusunan laporan, analisis hasil dan pengambilan kesimpulan.