BAB I PENDAHULUAN 1.1
Latar Belakang
Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000 menjadi 716 juta website pada tahun 2013. Berbagai jenis informasi yang ada di Internet ditransmisikan secara tidak terstuktur melalui website. Informasi yang ada pada website ditampilkan dalam bentuk halaman-halaman web (web pages), secara umum terdiri dari beberapa bagian, antara lain content utama, iklan, navigasi, dan informasi tambahan lainnya. Banyaknya informasi tersebut, menyebabkan peningkatan kebutuhan akan teknik untuk menganalisa teks, mendapatkan inti informasi utama dan menemukan nilai serta pengetahuan yang relevan dalam bentuk informasi terstruktur melalui mekanisme ekstraksi informasi. Ekstraksi informasi bertujuan untuk mengekstraksi sekumpulan data teks untuk mendapatkan "fakta-fakta berkaitan dengan kejadian (events), entitas, atau keterhubungan (relationship)" dalam bentuk informasi terstruktur sebagai masukan untuk basis data atau ontologi (Piskorski dan Yangarber, 2013). Ekstraksi informasi seperti dijelaskan oleh Sarawagi (2008) mengacu kepada "ekstraksi secara otomatis berbagai sumber informasi tidak terstruktur ke dalam bentuk informasi terstruktur seperti entitas, relationship diantara entitas, dan atribut yang mendeskripsikan entitas". Ekstraksi informasi telah mengalami perkembangan yang signifikan sejak berbagai upaya dilakukan, seperti terselenggaranya Message Understanding Conferences (MUC) pada awal tahun 1990-an (Wimalasuriya, 2011). Pendekatan yang dapat digunakan untuk membangun sistem ekstraksi informasi menurut Appelt (1999) pada awalnya dibagi menjadi dua, yaitu knowledge engineering dan automatic training. Pendekatan knowledge engineering sering disebut sebagai pendekatan rule-based atau extraction rules, menggunakan komponen berupa aturan tata bahasa (grammar rules) yang ditulis secara manual dengan tangan oleh knowledge engineer. Knowledge engineer adalah orang yang ahli (pakar) dalam suatu domain aplikasi, dapat membuat formalisasi dan menuliskan rules untuk mengekspresikan aturan untuk sistem yang dapat mengekstraksi informasi. Sedangkan, pada pendekatan automatic training pembentukan rules dilakukan secara otomatis
1
2
dengan melakukan proses pembelajaran (training) dari data latih (data training) yang ada. Pendekatan automatic training atau disebut dengan machine learning secara umum diaplikasikan menggunakan algoritma klasifikasi, sebagai contoh menggunakan Support Vector Machine (SVM) atau Conditional Random Field (CRF) (Labsky, 2008). Kelebihan dari penggunaan pendekatan knowledge engineering seperti dijelaskan oleh Appelt (1999) adalah pada kinerja (performance) yang baik karena rules dituliskan secara manual sehingga hasilnya lebih akurat, selain itu tidak diperlukan ketersediaan data training. Kekurangannya adalah pada proses pengembangannya yang sangat menyulitkan karena memerlukan banyak tenaga, sulit untuk dilakukan perubahan spesifikasi setelah sistem jadi, dan juga sangat diperlukan adanya orang yang ahli dalam membuat rules untuk suatu domain permasalahan tertentu. Selain itu, rules dapat berjalan lambat dan proses pengembangannya memakan banyak waktu (Maynard dkk., 2007) serta rawan kesalahan (Kaiser dan Miksch, 2005). Banyaknya sumber data yang akan diekstraksi juga menyulitkan manusia dalam melakukan ekstraksi secara manual, sehingga ketersediaan sistem yang dapat mengekstraksi informasi tertentu dari teks secara otomatis, akan sangat membantu proses ekstraksi informasi. Otomatisasi ekstraksi informasi dapat ditangani menggunakan pendekatan machine learning. Kelebihan pendekatan tersebut adalah pada proses pengembangannya yang tidak memerlukan banyak waktu, namun diperlukan ketersediaan data training yang besar (Labsky, 2008). Permasalahan ekstraksi lainnya adalah terkait dengan penyediaan content semantik untuk semantic web. Penggunaan ontologi dapat digunakan untuk menyelesaikan permasalahan tersebut. Pendekatan ekstraksi informasi yang menggunakan ontologi disebut sebagai Ontology-Based Information Extraction (OBIE), dikembangkan oleh Wimalasuriya dan Dou (2009) merupakan pendekatan ekstraksi informasi yang memanfaatkan ontologi sebagai panduan untuk melakukan ekstraksi informasi dari dokumen teks. Namun pada pendekatan OBIE masih memiliki permasalahan pada perlu adanya suatu semantik leksikon untuk domain spesifik data yang diekstraksi, sehingga pendekatan bootstrapping (Thelen dan Riloff, 2002) diusulkan untuk mengatasi permasalahan pada pembentukan semantik leksikon. Pendekatan bootstrapping menggunakan sedikit contoh data berlabel (data yang telah diberi keterangan label kategori kelas tertentu) digunakan untuk meminimalkan campur tangan manusia dalam pembentukan pengetahuan dan otomatisasi proses ekstraksi (Carlson dan Schafer, 2008). Oleh karena itu, pada penelitian ini akan dibahas
3
suatu metode ekstraksi informasi yang dapat meminimalkan keterlibatan manusia dalam proses ekstraksi, dapat menyediakan content semantik untuk semantic web, dan dapat melakukan ekstraksi tidak hanya cepat, tetapi juga akurat. Pendekatan bootstrapping dan Ontology-Based Information Extraction (OBIE) diusulkan pada penelitian ini untuk digunakan sebagai metode untuk mengekstraksi informasi dari sekumpulan teks, khususnya dari sumber teks pada halaman web. Penerapan pendekatan tersebut dilakukan dengan menggunakan studi kasus pada suatu domain spesifik dari dataset untuk mengetahui performance terkait precision, recall, F-measure dan kecepatan dari sistem ekstraksi informasi yang diterapkan dan membandingkan hasilnya dengan penelitian sebelumnya. Selain itu, akan dilakukan perbandingan waktu ekstraksi antara beberapa sistem ekstraksi informasi. Pengkombinasian penggunaan pendekatan bootstrapping dan Ontology-Based Information Extraction (OBIE) diharapkan dapat meningkatkan performance dari sistem ekstraksi informasi. 1.2
Rumusan Masalah
Fokus permasalahan yang akan diselesaikan pada penelitian ini adalah apakah penggunaan pendekatan bootstrapping yang dikombinasikan dengan Ontology-Based Information Extraction (OBIE) dapat meningkatkan kinerja (performance) dari sistem ekstraksi informasi. Evaluasi performance yang digunakan untuk pengujian antara lain precision, recall, F-measure dan kecepatan. 1.3
Batasan Masalah
Ruang lingkup penelitian ini akan dibatasi pada masalah yang berkaitan dengan hal-hal berikut: 1. Arsitektur, lingkungan pengembangan dan pengujian untuk sistem ekstraksi informasi menggunakan framework GATE (General Architecture for Text Engineering). 2. Jenis data yang digunakan untuk proses ekstraksi informasi adalah content informasi utama dari halaman web (teks HTML). 3. Proses ekstraksi informasi dilakukan secara semi-automatic. Pendekatan semiautomatic yaitu suatu pendekatan ekstraksi informasi yang dilakukan secara
4
otomatis, tetapi masih memerlukan keterlibatan manusia dalam perbaikan hasil ekstraksi. 4. Studi kasus untuk percobaan sistem ekstraksi informasi menggunakan dataset "LonelyPlanet" (Cimiano dkk., 2005). Dataset tersebut juga pernah digunakan pada penelitian Rios-Alvarado dkk. (2013). 5. Sistem ektraksi yang dikembangkan pada penelitian ini hanya dapat memproses dokumen teks berbahasa Inggris. 1.4
Tujuan dan Manfaat Penelitian
Tujuan penelitian ini adalah untuk melakukan pengujian evaluasi performance dari sistem ekstraksi informasi yang mengkombinasikan pendekatan bootstrapping dengan Ontology-Based Information Extraction (OBIE). Evaluasi performance sistem yang diuji terkait dengan precision, recall, F-measure dan kecepatan. Manfaat dari penelitian ini adalah dapat digunakan sebagai metode alternatif untuk proses ekstraksi informasi dari dokumen teks menggunakan panduan ontologi, menyediakan pengetahuan untuk sistem Question Answering (QA), menyediakan content semantik untuk semantic web, dan memperkaya pengetahuan ontologi serta semantik leksikon. Penerapan pada domain spesifik diharapkan dapat memberikan kontribusi pada sisi pengembangan ontologi dari sumber teks pada suatu domain tertentu. 1.5
Keaslian Penelitian
Penelitian tentang ekstraksi informasi menggunakan pendekatan bootstrapping dan Ontology-Based Information Extraction (OBIE), masing-masing sudah pernah dilakukan oleh peneliti lain sebelumnya. Ekstraksi informasi menggunakan pendekatan bootstrapping pernah dilakukan oleh Riloff dan Jones (1999), Thelen dan Riloff (2002), Kuijjer (2007), serta Carlson dan Schafer (2008), sedangkan pendekatan ekstraksi informasi menggunakan ontologi (OBIE) pernah diteliti oleh Li dan Bontcheva (2007), Wimalasuriya dan Dou (2009). Penelitian ini berupaya mengkombinasikan penggunaan OBIE dengan pendekatan bootstrapping. Penggunaan kedua pendekatan tersebut diharapkan dapat memberikan peningkatan performance sistem ekstraksi informasi daripada penelitian terdahulu.
5
1.6
Metodologi Penelitian Langkah-langkah eksperimen yang dilakukan pada penelitian ini antara lain:
1. Studi kepustakaan, dilakukan dengan membaca, mempelajari dan memahami buku teks, jurnal, paper, dan karya ilmiah lainnnya yang terkait dengan penelitian tentang ekstraksi informasi. Topik-topik berkaitan dengan berbagai pendekatan dalam ekstraksi informasi dipelajari sebagai dasar pengetahuan dalam penyelesaian permasalahan penelitian ini. 2. Pengumpulan data penelitian, dilakukan dengan mengumpulkan data penelitian berupa dataset yang digunakan pada penelitian tentang ekstraksi informasi terdahulu. Penggunaan dataset dilakukan agar hasil penelitian dapat dibandingkan dengan hasil evaluasi yang relevan dari penelitian sebelumnya. 3. Analisis dan rancangan sistem, dilakukan analisa terhadap kebutuhan sistem ekstraksi informasi sesuai dengan pendekatan yang digunakan, perancangan detail sistem ekstraksi yang akan diimplementasikan, perancangan alur proses, dan perancangan pengujian evaluasi performance yang akan dilakukan. 4. Implementasi, dilakukan implementasi berdasarkan pada rancangan yang telah dibuat pada tahap sebelumnya. Proses-proses penelitian seperti preprocessing, parsing, perhitungan bobot, pembentukan rules, pembentukan ontologi, pemilihan komponen sistem, pengembangan sistem dan lain-lain, dilakukan sampai mendapatkan hasil. Implementasi sistem ekstraksi informasi menggunakan ontologi diimplementasikan menggunakan komponen-komponen pemrosesan yang ada pada framework GATE. 5. Evaluasi pengujian, dilakukan pengujian evaluasi performance sistem ekstraksi informasi terkait dengan precision, recall, F-measure dan kecepatan waktu proses ekstraksi informasi untuk setiap dokumen yang diuji. Hasil evaluasi pengujian kemudian dibandingkan dengan hasil dari penelitian sebelumnya. Sedangkan, kecepatan waktu proses ekstraksi akan dibandingkan dengan hasil dari sistem ekstraksi informasi lainnya. 6. Analisis hasil, dilakukan dengan melakukan analisis terhadap hasil dan temuantemuan yang didapatkan dari eksperimen yang telah dilakukan. Pembahasan dilakukan berdasarkan data dan fakta hasil eksperimen pada proses training, pengembangan sistem dan evaluasi yang dilakukan.
6
7. Kesimpulan dan saran, disimpulkan hasil penelitian berdasarkan hasil analisis pada tahap hasil dan pembahasan. Kesimpulan berdasarkan data dan fakta hasil eksperimen yang didapatkan. Kekurangan-kekurangan yang belum dapat diselesaikan pada penelitian, dimasukkan sebagai saran untuk perbaikan penelitian selanjutnya. 1.7
Sistematika Penulisan
Sistematika penulisan laporan penelitian ini diorganisasikan ke dalam tujuh bab, secara garis besar dipaparkan sebagai berikut: 1. Bab I Pendahuluan, diuraikan mengenai latar belakang dan permasalahan yang perlu diselesaikan dalam ekstraksi informasi. 2. Bab II Tinjauan Pustaka, diuraikan tentang informasi hasil penelitian terdahulu dan menghubungkannya dengan masalah penelitian yang sedang diteliti. 3. Bab III Landasan Teori, dijelaskan tentang dasar teori dan detail implementasi terkait dengan pendekatan yang digunakan untuk penelitian tentang ekstraksi informasi. 4. Bab IV Analisis dan Rancangan Sistem, akan dibahas tentang analisis dan rancangan detail sistem ekstraksi informasi yang akan diimplementasikan. 5. Bab V Implementasi, akan dibahas implementasi sistem ekstraksi informasi sesuai dengan rancangan sistem, dan di bagian akhir akan dilakukan evaluasi pengujian terhadap penelitian yang dilakukan. 6. Bab VI Hasil Penelitian dan Pembahasan, akan dibahas hasil temuan yang diperoleh dalam penelitian dan perbandingan hasil penelitian dengan penelitian terdahulu. 7. Bab VII Kesimpulan dan Saran, akan dibahas kesimpulan tentang hasil penelitian yang diperoleh dan saran berkaitan dengan penyelesaian permasalahan untuk penelitian lebih lanjut.