BAB I PENDAHULUAN
1.1
Latar Belakang Masalah Teks naratif menurut kamus besar bahasa Indonesia adalah teks yang
berisikan deretan sejarah, peristiwa atau kejadian dan sebagainya. Kata naratif sendiri berasal dari kata “narasi” yang berarti pengisahan suatu cerita ataupun kejadian. Dalam teks naratif seseorang dapat menceritakan sebuah kejadian baik yang diaalami secara langsung maupun yang dialami orang lain. Input pada sistem pakar merupakan fakta – fakta atau informasi pengguna yang kemudian diolah oleh sistem pakar untuk menghasilkan sebuah konklusi atau kesimpulan. Input pada sistem pakar tersebut dalam bentuk pertanyaan ya atau tidak ataupun pilihan jawaban dalam bentuk check-box. Fakta-fakta yang berasal dari input sistem pakar dapat mempengaruhi kesimpulan yang dihasilkan oleh sistem pakar, oleh sebab itu input dari sistem pakar harus dapat mengakomodir permasalahan tersebut. Seiring dengan perkembangan teknologi, input pada sistem pakar tidak hanya didapatkan dalam check-box atau pertanyaan ya/ tidak, tetapi juga dalam bentuk gambar, suara, dan sebagainya. Bentuk input yang beragam tersebut disesuaikan dengan kebutuhan dari sistem pakar yang akan dirancang. Pada beberapa kasus seperti konsultasi online dengan pakar untuk diagnosis penyakit, pengguna hanya memasukkan teks yang berisikan cerita mengenai keluhan yang mereka rasakan dimana pakar
menerjemahkan keluhan tersebut
untuk
menghasilkan sebuah diagnosis ataupun saran bagi pengguna tersebut. Walaupun kebanyakan konsultasi online untuk diagnosis penyakit yang ada saat ini masih bersifat manual dalam artian masih menggunakan pakar yang sebenarnya sebagai narasumber, namun jika diterapkan sistem pakar dalamnya tentu saja dapat membantu kerja pakar. Selain itu penggunaan teks pada sistem pakar juga dapat dimanfaatkan untuk input sistem pakar dalam bentuk suara. Pengolahan teks dapat dijadikan tahapan proses berikutnya dari pengolahan suara dari antarmuka 1
2
tersebut. Tetapi untuk menghasilkan sistem pakar tersebut sebelumnya dibutuhkan sebuah pengolahan teks yang mampu untuk mengubah teks yang bersifat naratif pada sistem pakar sehingga menghasilkan input fakta yang dapat digunakan oleh sistem pakar untuk kemudian diolah menghasilkan sebuah kesimpulan. Penelitian yang terpublikasi berkaitan dengan penggunaan teks yang bersifat naratif sebagai input pada sistem pakar dalam bahasa Indonesia belum ada, namun untuk input berbahasa Inggris pada sistem pakar sudah pernah dilakukan oleh Heinze dkk. (2001). Penelitian tersebut menggunakan pemrosesan bahasa alami untuk mengolah teks naratif pada rekam medis untuk menghasilkan keluaran yang akan digunakan untuk menggambarkan kondisi seorang pasien, penanganan untuk pasien tersebut dan penempatannya, LifeCode merupakan sebuah paket sistem yang termasuk dalamnya Online Transfer Process (OLTP), web browser dan Automated Speech Recognition (ASR) yang mampu menangani hingga 70% dokumen tanpa intervensi manusia. Selain itu terdapat juga penelitian yang dilakukan oleh Liddy dkk. (1993) yang menggunakan pendekatan sublanguage untuk mengekstrak informasi dari formulir pengisian klien asuransi yang digunakan sebagai representasi pengetahuan bagi sistem pakar dengan tingkat akurasi hingga 96,8%. Salah satu kendala dalam penggunaan teks naratif sebagai input sistem pakar adalah fakta yang diberikan oleh antarmuka sistem pakar tersebut tidak boleh keluar dari basis pengetahuan sistem pakar. Oleh sebab itu untuk mengatasi hal tersebut dibutuhkan sebuah metode yang mampu untuk mengekstrak fakta dari sebuah informasi yang berupa teks yang diinput-kan oleh pengguna. Metode tersebut harus mampu mencari pilihan gejala-gejala yang sesuai dengan fakta yang diharapkan oleh pengguna untuk kemudian diolah dalam sistem pakar. Metode tersebut juga harus dapat melakukan pengukuran kemiripan di antara dua kata, frase maupun kalimat. Banyak penelitian yang sudah dilakukan berkaitan dengan pengukuran kemiripan kata, frase maupun kalimat tersebut. Di antaranya penelitian yang dilakukan oleh Feng dkk. (2008) menggunakan metode relevansi langsung dan relevansi tidak langsung dengan korelasi kemiripan sebesar 0,756, penelitian yang
3
dilakukan oleh Jiang dan Conrath (1997) yang berbasiskan corpus statistics dan Lexical Taxonomy dengan korelasi tertinggi sebesar 0,828 dan masih banyak penelitian lainnya yang bertujuan mencari hasil yang akurat didalam mengukur kemiripan di antara dua kata, frase, maupun kalimat. Namun yang membedakan setiap penelitian tersebut adalah masalah akurasi. Salah satu metode yang menghasilkan akurasi yang cukup tinggi dalam pengukuran kemiripan kalimat adalah metode Latent Semantic Analysis yang dikenal juga dengan singkatan LSA. Metode LSA merupakan salah satu metode yang menggunakan pengolahan teks untuk mengubah teks naratif kedalam index term dimana setiap index term tersebut diubah kedalam bentuk matriks untuk mencari dokumen atau teks yang sesuai dengan input dari pengguna. Penelitian yang berkaitan dengan LSA pernah dilakukan oleh Higgins dan Burstein (2007). Pada penelitian tersebut dihasilkan nilai akurasi hingga 72,1 %. Metode LSA memiliki keunggulan pada penentuan sinonim, polisemi dan ketergantungan istilah. Pada metode LSA terdapat proses pengindeksan dimana setiap istilah yang ada dikelompokkan berdasarkan representasinya dalam dokumen yang ada. Salah satu masalah dalam pengindeksan adalah sebuah istilah dapat memiliki arti yang berbeda tergantung pada dimana istilah tersebut digunakan. Pada struktur Lexical Taxonomy permasalahan tersebut dapat diatasi dengan berprinsipkan is-a, dimana sebuah istilah memiliki arti tertentu bergantung pada posisi istilah tersebut dalam kalimat. Oleh sebab itu dengan menggabungkan kedua metode tersebut diharapkan mampu menghasilkan pengukuran kemiripan kalimat yang lebih akurat. Penelitian ini merupakan sebuah pengolahan teks berbahasa Indonesia yang mampu untuk mengekstrak informasi dari teks dan gejala pada basis pengetahuan sistem pakar untuk kemudian diperbandingkan kemiripannya dengan menggunakan kemiripan kosinus (similarity cosine), metode yang digunakan untuk pengolahan teks tersebut adalah LSA dengan menggunakan struktur Lexical Taxonomy sehingga didapatkan fakta terpilih yang akan digunakan sebagai input pada sistem pakar.
4
1.2
Perumusan Masalah Berdasarkan latar belakang yang sudah dibahas sebelumnya permasalahan
yang dapat diangkat adalah bagaimana membangun pengolahan teks berbahasa Indonesia sehingga mampu mengolah teks naratif dari pengguna dengan menggunakan metode LSA dengan struktur Lexical Taxonomy untuk kemudian dijadikan input bagi sistem pakar. 1.3
Batasan Masalah Adapun batasan masalah pada penelitian ini, yaitu:
1.
Pengolahan teks dibatasi pada teks dalam bahasa Indonesia dengan domain yang terbatas pada studi kasus yang berkaitan dengan penyakit THT.
2.
Teks yang digunakan bersifat baku dan sesuai dengan tata bahasa baku Indonesia dengan pola kalimat lengkap dengan batasan jenis kalimat yang terdiri dari satu klausa saja dengan menggunakan aturan grammar yang telah ditentukan.
3.
Pengolahan teks dalam sistem hanya dikhususkan untuk input pada konsultasi pengguna dan tidak menangani masalah pembaharuan ataupun penambahan basis pengetahuan.
4.
Input yang dimasukkan berupa kalimat positif dan gejala yang ditangani adalah gejala dengan bentuk kalimat positif.
5.
Keluaran yang dihasilkan dari sistem yang dirancang ini terbatas pada identifikasi gejala yang ada dalam basis pengetahuan sistem pakar penyakit THT (yang digunakan sebagai studi kasus) dan hasil keluaran tersebut yang dijadikan sebagai input pada sistem pakar sehingga hasilnya tetap sesuai dengan basis pengetahuan sistem pakar.
1.4
Keaslian Penelitian Penelitian mengenai pengolahan teks dengan metode LSA dikombinasikan
dengan struktur Lexical Taxonomy pada antarmuka sistem pakar belum pernah dilakukan sebelumnya. Adapun beberapa penelitian yang berkaitan dengan metode LSA dan Lexical Taxonomy digunakan secara terpisah pada studi kasus yang berbeda.
5
1.5
Tujuan Penelitian Tujuan dari penelitian ini adalah menghasilkan sebuah pengolahan teks
sebagai input pada sistem pakar yang mampu untuk mengolah teks naratif berbahasa Indonesia menggunakan metode LSA dengan menggunakan struktur Lexical Taxonomy untuk menghasilkan fakta yang akan digunakan sebagai input dalam sistem pakar. 1.6
Manfaat Penelitian Penelitian ini diharapkan mampu memberikan kontribusi terhadap
pengembangan input ke dalam sistem pakar. Penggunaan teks naratif sebagai input pengguna di dalam sistem pakar dimaksudkan agar dapat memberikan kenyamanan bagi pengguna sistem dalam memberikan informasi maupun keluhan yang dialami oleh pengguna tersebut. Selain itu penerapan metode LSA (Latent Semantic Analysis) dengan menggunakan struktur Lexical Taxonomy merupakan pengembangan dalam penelitian yang berkaitan dengan pengukuran kemiripan kalimat (sentence similarity) yang sudah banyak dilakukan sebelumnya dengan menggunakan studi kasus yang berbeda. 1.7
Metode Penelitian Metodologi yang digunakan dalam penelitian pengolahan teks naratif
menggunakan LSA dan Lexical Taxonomy ini adalah: 1.
Analisis dan Pengumpulan Bahan Pada tahapan ini dilakukan analisis yang berkaitan dengan antarmuka dan
sistem yang akan dirancang. -
Analisis antarmuka, pada tahapan ini dilakukan analisis antarmuka yang menghubungkan antara pengguna dan sistem. Antarmuka tersebut dirancang sesuai dengan kebutuhan pengguna yaitu untuk mengujikan pengolahan teks naratif dengan menggunakan metode LSA dan struktur Lexical Taxonomy.
-
Analisis sistem, pada analisis sistem dilakukan penjabaran kebutuhan data dan teknik yang diperlukan untuk mengolah data tersebut. Tahapan ini sangat berperan penting terhadap akurasi sistem yang akan dirancang nanti.
6
Selain analisis, pada tahapan ini juga dilakukan pengumpulan data. Data yang dibutuhkan antara lain adalah kamus kelas kata bahasa Indonesia yang berasal dari corpus bahasa Indonesia dan WordNet berbahasa Inggris yang diterjemahkan menjadi bahasa Indonesia disesuaikan dengan kebutuhan sistem yang akan dirancang nanti. Selain itu juga dibutuhkan kamus besar bahasa Indonesia yang akan digunakan sebagai sumber acuan untuk penelitian ini. 2.
Perancangan Sistem yang akan dibangun adalah sebuah pengolah teks naratif berbahasa
Indonesia yang mampu mengolah teks naratif tersebut menjadi bentuk fakta dan memasukkan fakta tersebut ke dalam sistem pakar dengan menggunakan prinsip kemiripan kata, frasa, ataupun kalimat. LSA merupakan metode yang berperan untuk mengubah teks naratif menjadi fakta/ gejala untuk kemudian dimasukkan ke dalam sistem pakar. Fakta/ gejala yang diterima dari hasil pengolahan tersebut digunakan oleh sistem pakar untuk menjadi masukan dan kemudian diolah untuk menghasilkan sebuah kesimpulan. Penelitian yang akan dilakukan ini hanya dititik beratkan pada proses pengolahan dari teks naratif menjadi fakta/gejala menggunakan metode LSA dengan struktur Lexical Taxonomy. 3.
Implementasi Hasil perancangan yang telah dilakukan sebelumnya diimplementasikan ke
dalam sistem. Implementasi yang dilakukan antara lain adalah implementasi GUI, algoritma dan implementasi program. 4.
Pengujian Setelah tahapan implementasi selesai, selanjutnya dilakukan tahapan
pengujian yang terbagi menjadi dua, yaitu: -
Pengujian secara fungsional, dilakukan untuk memastikan bahwa sistem yang dirancang telah berjalan dengan seharusnya dan kebutuhan sistem telah terpenuhi dengan baik dan pada pengujian ini juga dilakukan perbandingan perhitungan dalam sistem dan perhitungan secara manual.
-
Pengujian akurasi, bertujuan untuk melihat kualitas pengolahan teks naratif yang akan dirancang. Pada tahap pengujian akurasi dilakukan
7
percobaan dengan sebuah input sisten pakar untuk melihat seberapa banyak istilah yang sesuai dengan menggunakan rumusan F-score menurut Molla-Aliod dan Vicedo (Indurkhya dan Damerau, 2010)
yang
mengkombinasikan recall (R) dan precision (P). S merupakan target jawaban yang diharapkan (referensi dari human judgement), N adalah jawaban yang diberikan oleh sistem dan D adalah jawaban yang sesuai dengan target jawaban. Rumusannya adalah sebagai berikut: F=
2×R×P R+P
(1.1)
dengan nilai R = D/S dan P = D/N. 1.8
Sistematika Penulisan Sistematika yang digunakan dalam penelitian ini dibuat menjadi Laporan
penulisan yang sistematis dengan urutannya sebagai berikut: BAB I. Pendahuluan Pada bab ini diuraikan mengenai latar belakang masalah, rumusan masalah, batasan masalah, keaslian penelitian, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan. BAB II. Tinjauan Pustaka Pada bab ini dijelaskan beberapa referensi yang digunakan sebagai pembanding dalam penelitian yang dilakukan ini. Adapun referensi tersebut berkaitan dengan penelitian yang mengangkat mengenai antarmuka pada sistem pakar dengan menggunakan pengolahan bahasa alami, metode yang mengangkat mengenai kemiripan kalimat dan penelitian yang berkaitan penggunaan LSA dan struktur Lexical Taxonomy dalam beberapa kasus yang berbeda. BAB III. Landasan Teori Bab ini berisikan teori yang digunakan sebagai landasan dalam penelitian yang dilakukan. Teori tersebut antara lain berkaitan dengan LSA dan Lexical Taxonomy. BAB IV. Analisis dan Rancangan Sistem Pengolahan Teks Naratif Berbahasa Indonesia untuk Antarmuka Sistem Pakar
8
Pada bab ini dijelaskan mengenai deskripsi sistem dengan gambaran umum yang dibagi kedalam proses input, proses pengolahan dan output yang diberikan oleh sistem. Bab ini juga menjelaskan mengenai rancangan sistem yang digambarkan dalam bentuk DFD dimana setiap proses yang ada dalam DFD tersebut direpresentasikan menjadi bentuk alur proses mulai dari alur proses preprocessing, pengambilan kata yang dianggap penting hingga LSA dan pengambilan kesimpulan. BAB V. Implementasi Sistem Bab ini berisikan implementasi dari pengolahan teks naratif dengan menggunakan metode LSA dan struktur Lexical Taxonomy pada antarmuka pengguna sistem pakar yang digambarkan dengan potongan source code dan hasilnya dalam bentuk tampilan antarmuka. BAB VI. Pengujian Bab ini menjelaskan mengenai pengujian terhadap sistem yang sudah diimplementasikan dengan menggunakan pengujian secara teknis dengan skenario dimana seorang pengguna memasukkan keluhan kedalam sistem dan dilakukan perbandingan perhitungan antara sistem dan perhitungan secara manual, selain itu juga dilakukan pengujian akurasi dengan menggunakan F-score dengan membandingkan antara jawaban yang diberikan oleh sistem dan jawaban yang diberikan oleh manusia sebagai jawaban yang diharapkan oleh sistem. BAB VII. Kesimpulan dan Saran Pada bab ini berisikan kesimpulan dari penelitian yang sudah dihasilkan dan saran terhadap penelitian tersebut untuk penelitian selanjutnya.