BAB V
PENGUJIAN
V.1 Tujuan Pengujian
Pengujian dilakukan untuk menguji hasil kumpulan file masukan hasil pemrosesan awal (preprocessing) dari tesis ini. Pengujian juga dilakukan untuk mengetahui kinerja pengurai Collins jika digunakan untuk bahasa Indonesia menggunakan kumpulan file masukan hasil pemrosesan awal (preprocessing). Hasil pengujian juga dapat digunakan untuk menganalisa bagian-bagian yang masih perlu diperbaiki di masa mendatang.
V.2 Perancangan Pengujian
Pengujian yang akan dilakukan dalam tesis ini adalah sebagai berikut: 1. Membagi pengujian menjadi dua buah kelompok dan dilakukan pengujian yang sama terhadap kedua kelompok itu, kelompok pertama adalah kelompok yang memiliki spesifikasi sebagai berikut: a. File treebank berisi 42 pohon kalimat yang memiliki struktur sederhana (berjenis kalimat berita), b. File kalimat berisi 7 buah kalimat sederhana (berjenis kalimat berita) yang setipe yang memiliki grammar mirip dengan pohon kalimat di file treebank; kelompok kedua adalah kelompok yang memiliki spesifikasi berikut: a. File treebank berisi 190 pohon kalimat (berjenis kalimat berita, opini, pertanyaan, perintah) termasuk pohon kalimat yang ada di kelompok pertama, b. File kalimat berisi 15 kalimat (berjenis kalimat berita) yang lebih kompleks dari kelompok pertama, 2. Pada kedua kelompok dilakukan hal-hal berikut: a. Memasukkan file treebank yang berisi pohon kalimat untuk menguji proses generasi file events, penambahan grammar, dan
V-1
leksikon, file treebank yang digunakan dapat dilihat pada Lampiran 10, file leksikon yang digunakan dapat dilihat pada Lampiran 11, b. Memasukkan
file
kalimat
berbahasa
Indonesia
untuk
mempersiapkan file korpus, file korpus yang digunakan dapat dilihat pada Lampiran 8, c. Menguji pengurai Collins dengan file masukan dari pemrosesan awal (preprocessing) tesis ini untuk kelompok pertama dan kedua. Topik pemilihan kalimat untuk kalimat treebank dan korpus diambil dari sebuah topik ditambah dengan beberapa kalimat sederhana (memiliki pohon kalimat yang sederhana). Topik tersebut diambil dari buku “Bahasa Indonesia: Bahasa Kebanggaanku” karangan Sarwiji Suwandi Sutarmo untuk tingkat SMP dan MTs kelas VII [25] dan beberapa kalimat dari contoh Penn treebank yang diterjemahkan ke bahasa Indonesia. Dengan menggunakan sebuah topik dan beberapa kalimat sederhana diharapkan hasil penguraian akan lebih bervariasi (tidak hanya menghasilkan probabilitas 0). Penyesuaian yang dilakukan terhadap kode program pengurai Collins adalah memperkecil nilai threshold dari hasil penguraian per aturan grammar kalimat yang dianggap valid. Penyesuaian threshold dilakukan karena terlalu kecilnya jumlah kalimat pada treebank berbahasa Indonesia dibanding dengan treebank yang digunakan pengurai Collins. Threshold pada pengurai Collins awalnya bernilai -5000000 diganti oleh penulis menjadi -999999999.999999999 (nilai terkecil untuk tipe data double pada bahasa pemrograman C). Dari 190 pohon kalimat dalam treebank yang diujicobakan menghasilkan 319 aturan grammar sisi kiri (L = Left), 103 aturan grammar sisi kanan (R = Right), 21 aturan grammar unary (U), 21 aturan grammar sub-kategori sisi kiri (X), dan 21 aturan grammar sub-kategori sisi kanan (Y). Aturan grammar murni hasil generasi pemrosesan awal (preprocessing) pada tesis ini dapat dilihat pada Lampiran 7 sedangkan hasil generasi file events dapat dilihat pada Lampiran 9.
V-2
V.2.1Hasil dan Analisis Pengujian
Hasil pengujian kelompok pertama, dari 7 kalimat berhasil diuraikan dengan benar 6 kalimat, sedangkan 1 kalimat ada bagian yang masih kurang tepat diuraikan. Hal ini dikarenakan bagian kalimat yang kurang tepat diuraikan tidak memiliki events di file events (aturan grammar yang tepat tidak memiliki event di file events untuk menghitung probabilitas grammar). Hasil pengujian kelompok pertama dapat dilihat pada Lampiran 6. Hasil pengujian kelompok kedua, dari 15 kalimat yang diujikan, yang berhasil diuraikan adalah 8 kalimat. Kalimat yang tidak dapat diuraikan hasil probabilitas kalimatnya adalah 0. Justifikasi nilai 0 diambil oleh Collins dalam pengurainya karena kalimat tidak berhasil diuraikan keseluruhan (terputus di tengah), karena ada bagian pohon yang tidak cocok dengan satupun grammar di file grammar. Oleh karena itu probabilitas pohon yang tidak dapat diuraikan juga bernilai 0. Dapat diambil contoh dari contoh kalimat pada korpus yang digunakan pada tesis ini, yaitu kalimat ke-4 yang tidak berhasil diuraikan oleh pengurai Collins seperti pada Tabel V-1.
Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan 9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU
Sebagian proses penguraian pada kalimat ke-4 dapat dilihat pada Tabel V-2. Oleh karena itu diperlukan adanya tambahan data treebank yang lebih banyak agar hasil penguraian lebih konsisten. Dilihat dari segi jumlah, 190 kalimat pada treebank berbahasa Indonesia yang dibuat manual belum bisa merepresentasikan sebuah bagian (section) Penn treebank yang digunakan pengurai Collins untuk bahasa Inggris. Pengurai Collins menggunakan sekitar 100.000 kalimat dari Penn treebank. Hasil pengujian penguraian kalimat berbahasa Indonesia yang diuraikan dengan pengurai Collins dapat dilihat pada lampiran 6.
V-3
Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2 {hasil penguraian awal kalimat} EDGE 0 0 0 1 0 18 CS 0 Kalau
L 110 0 HV0 R 10 0
EDGE 1 0 0 1 0 31 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 2 -43.9314 -50.7629 0 1 12 ADJP -43.9314 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 3 -0.290122 -4.05236 0 1 13 ADVP -0.290122 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 4 -1.66501 -6.83979 0 1 32 VP -1.66501 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 5 -4.64459 -8.40684 1 1 13 ADVP -4.64459 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 6 -3.82346 -8.99824 1 1 32 VP -3.82346 VB 0 ada
L 110 0 HV0 R 10 0
EDGE 7 0 0 1 0 34 L 110 0 HV0 R 10 0 PU 0 , .................................. {hasil penguraian akhir kalimat, tidak ada konektivitas dengan awal kalimat/terputus} EDGE 98 -21.1985 -26.3733 1 3 32 VP -21.1985 VB 0 tulislah ADVP -14.1724 IN 0 dengan JJ 0 singkat NP -9.59634 NN 0 cerita PR 0 itu PU 0 !
L 110 0 HV0 R 0 0
Dari 8 kalimat yang berhasil diuraikan tidak ada yang benar hasil penguraiannya secara kesatuan kalimat. Namun beberapa hasil penguraian bagian kalimat ada yang benar, tapi juga ada yang kurang tepat (kurang sesuai dengan kaidah bahasa Indonesia) (dapat dilihat pada Lampiran 6). Hal ini karena aturan grammar yang memiliki bobot besar (dihitung dari events) merupakan grammar yang kurang tepat diaplikasikan pada kalimat yang diuraikan. Oleh karena itu perlu lebih banyak treebank yang dijadikan events sebagai data pembelajaran agar hasilnya lebih konsisten. Misal proses pada bagian proses penguraian kalimat ke-2 dari yang ujikan dapat dilihat pada Tabel V-3.
V-4
Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2 ...................................... EDGE 319 -66.8343 -72.4793 0 3 13 L 110 0 HV0 R 0 0 ADVP -66.8343 NN 0 Malin SBAR -21.1653 NP -10.2499 NN 0 Kundang ADVP -5.67955 IN 0 dari NP -4.31217 NN 0 Sumatra NN 0 Barat PR 0 ini VP -2.57047 VB 0 ternyata
EDGE 320 -18.024 -20.6916 0 3 24 L 110 0 HV0 R 0 0 NP -18.024 NN 0 Malin NN 0 Kundang ADVP -2.97829 IN 0 dari NP -1.61092 NN 0 Sumatra NN 0 Barat ADVP -5.14351 NP -0.0849127 PR 0 ini VB 0 ternyata ....................................
pada proses di Tabel V-3, maka yang terpilih adalah ADVP dibanding VP karena memiliki bobot lebih besar. Dari 8 kalimat yang berhasil diuraikan bobot kalimat terbesar didapat dari hasil penguraian kalimat ke 15 dengan bobot 173.707. Bobot kalimat terkecil dari kalimat yang berhasil diuraikan didapat dari kalimat ke 13 dengan bobot 21.83. Semakin besar bobot pohon yang dihasilkan tidak mencerminkan semakin benar penguraian kalimat secara kesatuan kalimat (hasil lengkapnya dapat dilihat pada Lampiran 6).
V-5