19
BAB 3 METODE PENELITIAN
3.1. Tahap Pembentukan Knowledge Graph Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan kehilangan makna jika dihilangkan yang akan menjadi node dalam graf. Pengambilan bagian-bagian inti dokumen ini harus melewati beberapa tahap dengan tujuan mengurangi kehilangan makna dari beberapa kata yang dihilangkan. Salah satu jenis kata yang tidak boleh terpecah karena penghilangan bagian-bagian dokumen adalah frase. Frase adalah sekumpulan kata dasar yang memiliki sifat kata benda atau kata kerja, yang akan memberikan makna baru ketika sekumpulan kata tersebut digabungkan. Makna baru yang dihasilkan dari penggabungan sekumpulan kata tersebut yang menjadi penyebab tidak bolehnya sekumpulan kata tersebut terhilangkan. Asumsi pengenalan frase yang digunakan dalam penelitian ini adalah sekumpulan dua kata saja. Hal ini dengan pertimbangan sebagian frase dalam Bahasa Indonesia terdiri atas dua kata. Kamus frase yang dibentuk dari hasil pelatihan akan disimpan dalam server dan akan terus diperbaharui setiap ada dokumen pengujian yang diuji ke dalam sistem. Kamus frase ini akan berbentuk dokumen berekstensi *.txt, hal ini dengan tujuan kecepatan akses pencarian ke dokumen teks biasa lebih cepat daripada perangkat basis data yang enterprise. Selain itu, hal yang mendukung lainnya dalam penggunaan dokumen teks sebagai media penyimpanan adalah basis pengembangan aplikasi yang dalam basis desktop. Langkah berikutnya adalah melakukan pengenalan sifat kata kerja dan pemangkasan imbuhan untuk mendapatkan kata dasarnya (stemming). Metode stemming yang akan dilakukan adalah menggunakan metode table lookup (brute force). Tabel yang dibentuk akan menggunakan bantuan Kamus Besar Bahasa Indonesia. Hal ini dilakukan untuk mendapatkan hasil yang sangat akurat dari proses stemmingnya.
20
Proses ekstraksi kalimat diharapkan mampu menyaring kalimat-kalimat yang benar-benar mencirikan dokumen. Hal ini dengan tujuan, proses analisis kausalitas hanya fokus pada kalimat-kalimat inti saja. Penentuan variabel-variabel yang akan digunakan sebagai perhitungan dalam kombinasi linear akan dianalisis berikut bobot untuk tiap variabelnya. Langkah
penelitian
berikutnya
adalah
analisis
kausalitas
dan
merepresentasikannya ke dalam graf. Analisis hubungan kausalitas ini dapat dilakukan pertama-tama dengan mengenali sifat kata kerja penghubung antara subjek dengan objeknya. Kata kerja ini akan direpresentasikan ke dalam verteks, sementara subjek dan objek akan direpresentasikan ke dalam node. Verteksverteks dalam Knowledge Graph akan memiliki beberapa simbol berbeda untuk beberapa sifat kata kerja. 3.2. Analisis Frase Analisis
frase
merupakan
langkah
pertama
penelitian
untuk
mengidentifikasi setiap kemungkinan frase yang terdapat dalam dokumen. Pengenalan frase ini sangat penting dalam peringkasan teks agar kata yang seharusnya menjadi satu frase tidak teringkas. Metode yang digunakan dalam analisis frase ini adalah FR-Perceptron Learning hasil penelitian dari Carreras Xavier dan Marquez Lluis (2005). Analisis frase ini akan melakukan pelabelan terhadap kata benda dan kata kerja. Pelabelan yang hanya sebatas kata benda dan kata kerja dilakukan dengan pertimbangan bahwa frase dibentuk oleh kata benda dan kata kerja dasar. Hasil dari analisis frase ini akan dikumpulkan dalam knowledge base, dan akan terus dilakukan pembaharuan setiap ada dokumen pengujian yang masuk. Kamus kata benda dan kata kerja ini dibuat dari Kamus Besar Bahasa Indonesia, yang disimpan dalam 2 dokumen *.txt terpisah untuk masing-masing kamus kata benda dan kata kerja. Proses pencariannya menggunakan metode regular expressions dengan rule exact match. Hal ini dilakukan untuk memercepat proses pengidentifikasian kata benda dan kata kerja tersebut. Aturan dalam pengidentifikasian frase ini adalah dengan menganggap setiap sederetan kata yang berurutan, tidak dipisahkan oleh tanda baca dan kata
21
penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan penyaringan berdasarkan nilai kemunculan terkecil. 3.3. Stemming Proses stemming perlu dilakukan dalam pre-pemrosesan sistem ini dikarenakan token-token graf yang dibentuk memerlukan kata-kata dasar dari dokumen. Selain itu, proses stemming ini akan disisipkan proses identifikasi sifat imbuhan dalam kata tersebut. Metode stemming yang dilakukan adalah table lookup (Brute Force). tRelasiKK SubKata Imbuhan KataDasar Makna
Gambar 1 Representasi Table tRelasiKK Dalam Basis Data Field makna dalam tabel tRelasiKK tersebut merepresentasikan makna verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya yang bermakna kausatif (causative) atau menyebabkan tindakan aktif. Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas, imbuhanimbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“, “menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”, “pem-an”, dan “per-an”. 3.4. Knowledge Base Knowledge Base disini adalah media penyimpanan hasil pelatihan dokumen untuk pengenalan frase dan sifat-sifat imbuhan dari suatu kata. Knowledge Base ini akan berbentuk dokumen teks dan perangkat enterprise basis data, yang akan diperbaharui secara berkala setiap ada dokumen pengujian yang masuk. Penggunaan perangkat enterprise basis data (SQL Server / MySQL) digunakan karena metode stemming yang digunakan (table lookup), sehingga memerlukan
22
perangkat lunak basis data yang mampu menyimpan dengan baik jutaan data. Penyimpanan media teks biasa kurang mampu menanganinya dikarenakan objek yang akan disimpan begitu banyak. Selain itu juga diharapkan agar representasi ke dalam graf menjadi lebih cepat. 3.5. Peringkasan Teks Sifat penyederhanaan graf yang akan melakukan reformulasi isi dokumen, mengategorikan peringkasan ini ke dalam abstraksi teks. Namun metode ekstraksi peringkasan teks melalui identifikasi kalimat utama dengan menggunakan metode kombinasi linear akan dicoba untuk menyederhanakan kalimat-kalimat yang akan direpresentasikan ke dalam graf. Variabel-variabel yang valid akan dianalisis untuk mendapatkan representasi kepentingan dari isi suatu dokumen. Nilai threshold dari bobot antara kalimat tersebut akan dianalisis untuk mendapatkan nilai optimal. 3.6. Analisis Relasi Kausalitas Jenis relasi Knowledge Graph yang akan dianalisis adalah relasi kausalitas. Pembentuk relasi kausalitas ini adalah dengan adanya kata kerja berawalan “me-” atau “di-”, dengan dua kata benda yang mengapitnya (subjek dan objek). Pengambilan 2 jenis awalan tersebut dengan alasan hampir semua kata berimbuhan “me-” atau “di-” memiliki makna kausalitas, sementara untuk imbuhan “pe-” yang juga memiliki makna tindakan aktif, lebih sering muncul kata-kata yang bermakna pembentuk kata benda dalam beberapa dokumen. Analisis relasi kausalitas ini akan menggunakan metode berbasiskan aturan (rule base). Aturan-aturan ini akan dianalisis dari beberapa dokumen contoh yang direpresentasi manual. 3.7. Representasi Graf Sekumpulan relasi kausalitas yang didapat dari proses sebelumnya akan semakin memudahkan dalam representasi ke dalam graf. Penerjemahan sekumpulan relasi kausalitas tersebut akan menggunakan representasi graf hasil penelitian Hoede dan Nurdiati (2008) seperti pada Gambar 2 di bawah ini.
23
Gambar 2 Representasi Kausalitas dari Dua Node (Hoede & Nurdiati 2008) 3.8. Evaluasi Peringkasan Teks Evaluasi hasil analisis kausalitas akan dilakukan secara manual. Hasil analisis kausalitas automatis akan dibandingkan dengan hasil analisis manual, dan menghitung perbandingannya dengan jumlah representasi relasi kausalitas yang benar melalui representasi automatis, dengan seluruh kemungkinan relasi kausalitas yang dilakukan secara manual. Dokumen pengujian yang akan digunakan adalah minimal 15 dokumen selain dokumen pelatihan. Dokumendokumen yang digunakan adalah dokumen bagus (dokumen tercetak) dan dokumen dalam dunia nyata (didapat dari dunia maya). 3.9. Lingkungan Pengembangan Lingkungan pengembangan yang akan digunakan dalam penelitian ini adalah sebagai berikut: -
Perangkat lunak: Windows XP Professional, Visual C# .Net 2008, SQL Server 2008.
-
Perangkat keras: Intel® CPU T2130 @ 1.86 GHz, 1024 MB RAM.
3.10. Waktu dan Tempat Penelitian Penelitian dilaksanakan di laboratorium Pasca Sarjana Departemen Ilmu Komputer Institut Pertanian Bogor mulai bulan Oktober 2008 sampai dengan bulan Juli 2009.