REPRESENTASI MODUL WORD GRAPH KATA KERJA MENGGUNAKAN XML
RIZKA PARAMITHA EKA OKTARINA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
REPRESENTASI MODUL WORD GRAPH KATA KERJA MENGGUNAKAN XML
RIZKA PARAMITHA EKA OKTARINA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
ABSTRACT RIZKA PARAMITHA EKA OKTARINA. Representation Word Graph of Indonesian Verbs Using XML. Under supervision of SRI NURDIATI and AHMAD RIDHA. Knowledge graph is a method that can be used to represent natural language in a form of a graph. Knowledge graph method systematically represents relations of words as graph patterns and can be used to remove ambiguity of natural language. This method is applicable to develop a language processing system that resembles human‟s brain, which can not only read the text but also understand the context. Akhmad Muslik (2009) on his Thesis “An Analysis on Word Graph Formation of Verbs Using Knowledge Graph Method” found ten word graph patterns of Indonesian verbs. In this research, ten XML modules have been made based on that result. The modules have been tested and can be used in knowledge graph viewer system developed by Indra Lesmana (2012). Keywords : knowledge graph, word graph, verb, xml
Judul Skripsi : Representasi Modul Word Graph Kata Kerja Menggunakan XML Nama : Rizka Paramitha Eka Oktarina NRP : G64080056
Menyetujui: Pembimbing I
Pembimbing II
Dr. Ir. Sri Nurdiati, M. Sc NIP. 19601126 198601 2 001
Ahmad Ridha, S.Kom, MS NIP.19800507 200501 1 001
Mengetahui: Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom NIP. 19660702 199302 1 001
Tanggal Lulus :
KATA PENGANTAR Segala puji bagi Allah subhanahu wata’ala atas segala rahmat dan karunia-Nya sehingga skripsi ini dapat penulis selesaikan. Penulis mengucapkan terima kasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu: 1
Ibu Dr. Ir. Sri Nurdiati, M.Sc dan Bapak Ahmad Ridha, S.Kom, MS selaku dosen pembimbing yang telah memberi banyak ide, saran, dan nasehat sampai selesainya penelitian ini.
2
Bapak Sony Hartono Wijaya, S.Kom, M.Kom selaku penguji.
3
Ayahanda Yanuar Ahmadi, Ibunda Ashayati, serta Adik Daphi Maulana Habiburahman, atas doa, dukungan, kasih sayang, serta pengingat yang selalu diberikan kepada penulis untuk segera menyelesaikan penelitian ini.
4
Rekan-rekan satu bimbingan, Yuli Susanti, Neri Petri Anti, Indra Lesmana, Cipta Wiraswasta, dan Muhammad Rifkiansyah yang selalu berdiskusi, memberi saran dan semangat untuk terus menyelesaikan penelitian tepat waktu.
5
Rekan-rekan Ilmu Komputer IPB angkatan 45 atas kebersamaan, dukungan, inspirasi, serta kenangan bagi penulis.
6
Rekan satu kontrakan Hasna Izdihar yang telah memberi dukungan moril dalam keseharian penulis menyelesaikan penelitian.
7
Berbagai pihak yang telah membantu baik morel maupun materiel sehingga penelitian ini dapat diselesaikan. Semoga penelitian ini bermanfaat.
Bogor, September 2012
Rizka Paramitha Eka Oktarina
RIWAYAT HIDUP Penulis dilahirkan di Bandar Lampung, Lampung pada tanggal 3 Oktober 1990. Penulis merupakan anak pertama dari pasangan Yanuar Ahmadi dan Ashayati. Penulis menyelesaikan studinya pada tingkat dasar (SD) di SD Negeri 2 Sumur Batu tahun 2002 dan SMP Negeri 2 Bandar Lampung tahun 2005. Penulis melanjutkan studi di SMA Negeri 2 Bandar Lampung tamat tahun 2008. Penulis diterima sebagai mahasiswi Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI) pada tahun 2008. Selama aktif menjadi mahasiswa, penulis aktif dalam beberapa kegiatan organisasi mahasiswa. Penulis menjadi anggota organisasi mahasiswa daerah (OMDA) Lampung serta menjadi wakil ketua Badan Pengawas Himpunan Mahasiswa Ilmu Komputer (Himalkom) pada tahun 2010-2011. Penulis juga menjadi asisten praktikum pada Mata Kuliah Kuliah Algoritme dan Pemrograman (2010). Selain itu, penulis aktif sebagai staf pengajar di Lembaga Bimbingan Belajar SPECTRUM dari tahun 2009 hingga 2012. Pada tahun 2011, penulis melaksanakan kegiatan Praktik Kerja Lapang di Pusat Pengelolaan Resiko dan Peluang Iklim Kawasan Asia Tenggara dan Pasifik (PPRPI-ATP) atau CCROM SEAP Institut Pertanian Bogor. Beasiswa yang pernah diraih oleh penulis adalah beasiswa Peningkatan Prestasi Akademik (PPA) dari tahun 2009 sampai tahun 2012.
DAFTAR ISI Halaman DAFTAR TABEL........................................................................................................................... vi DAFTAR GAMBAR ...................................................................................................................... vi DAFTAR LAMPIRAN .................................................................................................................. vii PENDAHULUAN Latar Belakang ............................................................................................................................ 1 Tujuan ......................................................................................................................................... 1 Ruang Lingkup ............................................................................................................................ 1 TINJAUAN PUSTAKA Kata Kerja ................................................................................................................................... 1 Natural Language Processing (NLP) ........................................................................................... 2 Knowledge Graph (KG) Kata Kerja ............................................................................................. 2 XML ........................................................................................................................................... 3 METODE PENELITIAN Studi Literatur ............................................................................................................................. 3 Analisis Pola ............................................................................................................................... 4 Konstruksi Algoritme .................................................................................................................. 4 Perancangan XML ....................................................................................................................... 4 Analisis Hasil dan Pengujian ........................................................................................................ 4 Dokumentasi dan Laporan ........................................................................................................... 4 Lingkungan Pengembangan ......................................................................................................... 4 HASIL DAN PEMBAHASAN Studi Literatur ............................................................................................................................. 5 Analisis Pola ............................................................................................................................... 5 Konstruksi Algoritme .................................................................................................................. 7 Perancangan XML ....................................................................................................................... 9 Analisis Hasil dan Pengujian ...................................................................................................... 12 SIMPULAN DAN SARAN Simpulan ................................................................................................................................... 12 Saran ......................................................................................................................................... 12 DAFTAR PUSTAKA .................................................................................................................... 12 LAMPIRAN .................................................................................................................................. 13
v
DAFTAR TABEL Halaman 1 2 3 4 5 6
Komponen pembentuk Pola 2 word graph kata kerja.................................................................... 6 Relationships pembentuk Pola 2 ................................................................................................... 6 Komponen pembentuk Pola 4 word graph kata kerja.................................................................... 6 Relationships pembentuk pola 4 ................................................................................................... 6 Komponen pembentuk Pola 5 word graph kata kerja..................................................................... 7 Relationships pembentuk Pola 5 ................................................................................................... 7
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Contoh relasi ALI. ....................................................................................................................... 2 Contoh relasi CAU. ..................................................................................................................... 2 Contoh relasi PAR. ...................................................................................................................... 2 Contoh ontologi Fokus. ............................................................................................................... 2 Pembentukan Text Graph. ........................................................................................................... 3 Tahapan penelitian. ..................................................................................................................... 4 Pola aturan word graph kata kerja tansitif aktif. ........................................................................... 5 Pola aturan word graph membuka................................................................................................ 5 Analisis Pola 2 word graph kata kerja. ......................................................................................... 5 Pola aturan word graph kata kerja intransitif reduplikasi ber-KD-KD. .......................................... 6 Pola word graph lari. .................................................................................................................. 6 Analisis Pola 4 word graph kata kerja. ........................................................................................ 6 Pola aturan word graph kata kerja intransitif ber-. ........................................................................ 7 Pola word graph berbunga. ......................................................................................................... 7 Analisis Pola 5 word graph kata kerja. ......................................................................................... 7 Konstruksi algoritme Pola 2-1...................................................................................................... 7 Konstruksi algoritme Pola 2-2...................................................................................................... 7 Konstruksi algoritme Pola 2-3...................................................................................................... 8 Konstruksi algoritme Pola 2-4...................................................................................................... 8 Konstruksi algoritme Pola 2-5...................................................................................................... 8 Konstruksi algoritme Pola 4-1...................................................................................................... 8 Konstruksi algoritme Pola 4-2 ..................................................................................................... 8 Konstruksi algoritme Pola 4-3...................................................................................................... 8 Konstruksi algoritme Pola 4-4...................................................................................................... 8 Konstruksi algoritme Pola 4-5...................................................................................................... 8 Konstruksi algoritme Pola 5-1...................................................................................................... 8 Konstruksi algoritme Pola 5-2...................................................................................................... 8 Konstruksi algoritme Pola 5-3...................................................................................................... 9 Konstruksi algoritme Pola 5-4...................................................................................................... 9
vi
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6
Pola aturan word graph kata kerja berdasarkan Muslik (2009)..................................................... 14 Tabel kata kerja pada database wg ............................................................................................. 16 Analisis pola .............................................................................................................................. 29 File XML word graph kata kerja ................................................................................................ 31 Dokumen XSD........................................................................................................................... 37 Hasil uji pola word graph kata kerja ........................................................................................... 39
vii
1
PENDAHULUAN Latar Belakang Saat ini perkembangan teknologi komputer sangat cepat. Ketergantungan manusia akan kemampuan komputer menyelesaikan masalah menjadi sangat tinggi. Maka dari itu usaha pengembangan dan penemuan teknologi baru terus dilakukan. Berbagai penelitian yang dilakukan telah menghasilkan metode atau teknologi baru yang dapat bermanfaat bagi kemajuan ilmu pengetahuan. Salah satunya adalah mengembangkan metode komunikasi antara manusia dan komputer dengan menggunakan bahasa alami. Bahasa alami adalah cara yang paling banyak digunakan oleh manusia untuk berkomunikasi secara langsung untuk mengekspresikan ide dan informasi. Namun, masih ada gap (jurang pemisah) antara bahasa formal (yang digunakan komputer) dan bahasa alami. Komunikasi antara komputer dan manusia akan terjadi apabila gap ini bisa teratasi. Penelitian dalam bahasa alami melahirkan bidang ilmu Natural Language Processing (NLP). Saat ini, informasi yang disediakan oleh internet tumbuh dengan sangat pesat. Oleh karena itu, dibutuhkan sistem informasi yang cerdas, tidak hanya untuk mencari informasi secara otomatis, tetapi juga untuk menyaring, membersihkan, mengartikan informasi, dan memahami informasi dengan tingkat pemahaman yang tinggi dan menyerupai manusia. Proses memahami dengan tingkat pemahaman yang tinggi ini hanya bisa dilakukan berbasis pada semantik. Knowledge graph (KG), sebagai salah satu representasi dari NLP, adalah salah satu cara untuk mendeskripsikan dan memodelkan serta membuat langkah besar ke depan untuk melakukan pemahaman secara sematik “know it and know why” (Zhang 2002). Penelitian mengenai metode KG Bahasa Indonesia telah dikembangkan oleh Institut Pertanian Bogor sejak tahun 2007. Pada tahun 2009 mulai dirintis sistem BogorDelftConstruct dengan bahasa pemrograman MATLAB. Namun sistem ini masih memiliki kekurangan yaitu tidak open source. Oleh karena itu, akan dikembangkan modul-modul baru yang dibangun dengan bahasa markah XML. Modul yang akan dikembangkan kali ini adalah modul word graph kata kerja bahasa Indonesia. Analisis bentuk dan makna dari kata kerja telah
dilakukan pada penelitian sebelumnya oleh Muslik (2009) yang menghasilkan pola aturan dari kata kerja. Penelitian ini mengembangkan modul word graph kata kerja berdasarkan aturan tersebut. Tujuan Tujuan penelitian ini adalah membuat modul yang merepresentasikan word graph kata kerja bahasa Indonesia dalam format XML. Ruang Lingkup Ruang lingkup penelitian ini dibatasi pada pembuatan modul pembentukan word graph kata kerja bahasa Indonesia berbasis XML dengan pola aturan kata kerja dari hasil penelitian Muslik (2009). Pembuatan tabel kata pada database wg berdasarkan data kata kerja pada penelitian Muslik (2009). Penelitian tersebut menggunakan 526 kata kerja yang sering digunakan dalam bidang pertanian dan menghasilkan 66 pola kata kerja dan 10 pola aturan word graph jenis kata kerja.
TINJAUAN PUSTAKA Kata Kerja Kata kerja (verba) adalah kata yang menggambarkan proses, perbuatan, atau keadaan. Jenis kata ini biasanya menjadi predikat dalam suatu frasa atau kalimat. Berdasarkan bentuknya, segala kata yang mengandung imbuhan me-, ter-, -kan, di-, -i di calonkan sebagai kata kerja. Ditinjau dari kelompok kata, segala macam kata yang dapat diperluas dengan kelompok kata dengan ditambah kata sifat adalah kata kerja. Contohnya: mendengar dapat diperluas mendengar dengan cermat, sedangkan kata buat dapat diperluas menjadi buat dengan cepat (Keraf 1982). Menurut Alwi et. al (2003) yang diacu dalam Muslik (2009), ciri kata kerja dapat diketahui dengan mengamati perilaku semantik, perilaku sintaksis, dan bentuk morfologinya. Menurut Muslik (2009), secara umum kata kerja terbagi menjadi dua, kata kerja dasar dan kata kerja turunan. Selain itu, berdasarkan bentuk morfologisnya, kata kerja juga bisa dibedakan menjadi dua; kata kerja transitif yang membutuhkan pelengkap atau objek untuk memperjelas kata kerja seperti menunjuk (meja), melihat (papan tulis), serta
2
kata kerja intransitif yang tidak membutuhkan pelengkap.
ALI
Buku
Gambar 1 Contoh relasi ALI.
Natural Language Processing (NLP) NLP merupakan salah satu metode untuk mengembangkan komunikasi antara bahasa alami manusia dan bahasa formal yang digunakan komputer. Dasar untuk mengembangkan NLP adalah mendeskripsikan dan memodelkan terlebih dahulu bahasa alami. Hal ini yang akan menentukan alur penelitian dan arah bagaimana memahami bahasa alami (Zhang 2002).
2 Causality: CAU Relasi ini menggambarkan hubungan sebab akibat antara sesuatu yang saling memengaruhi seperti pada Gambar 2. Contoh: adik beli buku. Beli ALI
Adik
Concept Tokens Token adalah node atau verteks pada KG yang diekspresikan dengan simbol . Penentuan token dilakukan berdasarkan subjektifitas manusia. Oleh karena itu, pendefinisian token antara manusia yang satu dan yang lain dapat berbeda. Types Dikarenakan penentuan token bersifat subjektif, maka diberikan types untuk melabelkan token. Relationship Relasi adalah hubungan yang menghubungkan antara satu konsep dan konsep yang lain. Dalam teori KG terdapat aspek ontologi yang mendefinisikan relasi antar konsep ini. Aspek ontologi terdiri atas token dan sembilan binary relationship, yaitu (Zhang 2002):
ALI
CAU
ALI
Buku
Gambar 2 Contoh relasi CAU.
Knowledge Graph (KG) Kata Kerja KG merupakan salah satu metode merepresentasikan NLP yang mengarah pada cara baru menjelaskan dan memodelkan NLP dalam bentuk graph. KG merepresentasikan pengetahuan dan hubungan antar relasirelasinya. Pada prinsipnya, KG terdiri atas concept (tokens dan types), relationship (binary dan multivariate relationship) (Zhang 2002). Verteks merepresentasikan konsep sedangkan edges merepresentasikan relasi atau hubungan antar konsep.
CAU
3 Equality : EQU Relasi EQU antara dua token menunjukkan kedua token tersebut sederajat atau sama. 4 Subset Relationship : SUB Relasi ini menggambarkan token yang saling bertautan, sesuatu merupakan bagian atau subset dari yang lain. 5 Disparatness : DIS Digunakan untuk menyatakan token yang berbeda satu sama lain. 6 Attribution : PAR Digunakan untuk menyatakan suatu token merupakan atribut dari token yang lain, sepeti pada Gambar 3. Contoh: tinta hitam. Hitam adalah atribut warna dari tinta. Hitam
ALI
PAR
ALI
Tinta
Gambar 3 Contoh relasi PAR. 7 Ordering : ORD Digunakan untuk menunjukkan dua kejadian yang saling berurutan dalam hal waktu dan tempat. 8 Information Dependency : SKO Relasi ini digunakan berdasarkan konsep ketergantungan. 9 Ontologi FOCUS (F) F disimbolkan dengan , digunakan untuk menunjukkan fokus suatu graf. Contoh: petani menanam padi. Petani merupakan focus (Gambar 4). Tanam ALI
1 Similarity of sets, alikeness: ALI Digunakan untuk menghubungkan sebuah type dengan token. Relasi ALI dapat dilihat pada Gambar 1. Contoh: buku.
Petani
ALI
CAU
CAU
ALI
Gambar 4 Contoh ontologi Fokus.
Padi
3
Berikut 4 frame relationship: 1 2 3 4
Focusing on a situation Negation on a situation Possibility on a situation Necessity on a situation
: FPAR : NEGPAR : POSPAR : NECPAR
Frame relationship digunakan untuk mengelompokkan beberapa graf. Relasi FPAR menyatakan sesuatu yang memiliki properti dari sesuatu yang lain. Relasi NEGPAR menyatakan negasi dari isi frame. Relasi POSPAR menyatakan kemungkinan terjadinya isi frame. Relasi NECPAR menyatakan keharusan terjadinya isi frame. Pada KG kata kerja hasil penelitian Muslik (2009) relasi yang digunakan adalah alikeness, causality dan attribution, sedangkan frame yang digunakan adalah FPAR. Word Graph Word graph adalah konsep dan relasi yang direpresentasikan dalam bentuk graf (Zhang 2002). Penggabungan dari word graph akan menghasilkan sentence graph dan penggabungan dari sentence graph akan menghasilkan text graph. Text graph merupakan tujuan akhir yang akan dicapai pada proses peringkasan dokumen. Proses ini terlihat pada Gambar 5. Word Graph
Sentence Graph
Text Graph
Gambar 5 Pembentukan Text Graph. Pada hasil penelitian Muslik (2009) dihasilkan sepuluh bentuk pola aturan word graph kata kerja. XML XML, kependekan dari eXtensible Markup Language, adalah format berbasis teks (textbased) sederhana untuk merepresentasikan struktur informasi, baik informasi dari dokumen, data, konfigurasi, buku, dan masih banyak lagi. Saat ini, XML banyak digunakan untuk berbagi informasi yang terstruktur; antar-program, antar-orang per orang, antarkomputer dan manusia, baik lokal maupun jaringan. Hampir semua dokumen XML dapat diproses secara andal oleh perangkat lunak komputer (Liam Q Ian 1999 ). XML tidak berbeda secara signifikan dengan HTML. Salah satu perbedaan yang mendasar adalah XML didisain untuk
transportasi dan penyimpanan data, berfokus pada informasi itu sendiri, bukan untuk menampilkan informasi seperti HTML (Junaedi 2003). Seperti halnya HTML, XML juga menggunakan elemen yang ditandai dengan tag pembuka (diawali dengan „<‟ dan diakhiri dengan „>‟), tag penutup (diawali dengan „ „diakhiri „>‟) dan atribut elemen (parameter yang dinyatakan dalam tag pembuka seperti