Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
ISSN: 2089-9815
IMPLEMENTASI JARINGAN SYARAF TIRUAN PADA SISTEM PERINGKASAN TEKS OTOMATIS MENGGUNAKAN EKSTRAKSI CIRI M. Naufal Rachmatullah1, Anggina Primanita2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer,Universitas Sriwijaya Palembang Jl. Raya Palembang - Prabumulih Km. 32 Indralaya, OI, Sumatera Selatan 30662 Telp. (0711) 580169 2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer,Universitas Sriwijaya Palembang Jl. Raya Palembang - Prabumulih Km. 32 Indralaya, OI, Sumatera Selatan 30662 Telp. (0711) 580169 E-mail:
[email protected],
[email protected] 1
ABSTRAKS Meringkas teks merupakan cara yang digunakan dalam mendapatkan informasi inti dari suatu teks. Namun meringkas teks secara manual membutuhkan waktu yang lebih lama jika dibandingkan dengan meringkas teks secara otomatis. Pada penelitian ini peringkasan teks otomatis dilakukan dengan menggunakan metode jaringan syaraf tiruan backpropagation dan tiga buah perhitungan ekstraksi ciri dalam mendapatkan kalimat ringkasan. Perhitungan ekstraksi ciri yang dilakukan adalah information significant of sentence, position of sentence,dan amount of information. Tahap pengujian menggunakan 30 buah teks yang diuji menggunakan model data yang didapat dari proses pelatihan. Tingkat kualitas hasil ringkasan diukur menggunakan perhitungan recall, precision dan f-measure. Nilai f-measure didapatkan dari kombinasi antara recall dan precision. Hasil perhitungan f-measure tertinggi sebesar 80,8% yang didapatkan dari 25 teks latih untuk learning rate 0,25 dan maximum error 0,001. Kata Kunci: Peringkasan teks otomatis, backpropagation, information significant of sentence, position of sentence, amount of information. ABSTRACT Summarizing text is the way which is used to get the core of information from the text. However, summarizing text manually takes longer than summarizing text automatically. In this research, automatic text summarization is done with back propagation artificial neural network and three feature extraction computation to get the summarize sentence. Feature extraction computations which is used, were information significant of sentence, position of sentence, and amount of information. The testing phase used 30 testing text which was tested using the model data from the training phase. In measuring the accuracy of the text summaries was used precision, recall, and f-measure score. The f-measure score was obtained from the combination of recall and precision which was used as the parameter of the accuracy of text summaries. The highest f-measure computation was 80,8% which is obtained from 25 training text with number of learning rate 0,25 and maximum error 0,001. Key Words: Automatic text summarization, backpropagation, information significant of sentence, position of sentence, amount of information. 1.
PENDAHULUAN Teks merupakan representasi dari informasi yang paling banyak tersedia di internet. Seiring dengan berkembangnya informasi, menuntut penyediaan informasi dapat dinikmati dan dirasakan secara cepat dan tepat. Proses mendapatkan informasi dari teks secara tepat dan cepat dapat dilakukan dengan membaca keseluruhan isi teks, tetapi tentunya membutuhkan waktu yang lebih lama jika dibandingkan dengan membaca ringkasan dari teks tersebut. Ringkasan merupakan versi singkat dari teks asli yang mengandung informasi inti dari teks yang panjangnya tidak lebih dari setengah teks asli (Hovy, 2001). Automatic text summarization (peringkasan teks otomatis) adalah teknik peringkasan secara otomatis yang dilakukan oleh
sebuah komputer yang menciptakan ringkasan dari satu atau lebih teks (Hasel, 2007). Peringkasan teks otomatis bertujuan untuk mengekstraksi informasi yang paling penting dari sebuah dokumen, sehingga dapat membantu pembaca untuk menentukan teks yang relevan untuk dibaca. Penelitian mengenai peringkasan teks otomatis sudah banyak dilakukan diataranya oleh Chen dan Chong (2009) yang menggunakan metode frekuensi term sebagai acuan untuk melakukan pembobotan kalimat. Penelitian ini menghasilkan precision 75%. Suneetha dan Fatima (2011) menggunakan metode frekuensi kemunculan kata kerja dan kata benda sebagai acuan pembobotan kalimat. Hasil penelitian Suneetha dan Fatima (2011) menghasilkan precision sebesar 77%. 355
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
Sebuah jaringan syaraf tiruan adalah sebuah paradigma pemrosesan informasi yang terinspirasi dari cara otak manusia mengolah informasi. Struktur pemrosesan informasi pada jaringan syaraf tiruan dimodelkan sehingga jaringan syaraf tiruan dapat belajar dari contoh. Jaringan syaraf tiruan telah diimplementasikan pada berbagai bidang antara lain pembelajaran pada pengenalan kata, klasifikasi, pengenalan wajah. Penerapan model jaringan syaraf tiruan pada peringkasan teks dilakukan oleh Kaikhah (2004) dengan hasil akurasi sebesar 96%. Pada penelitian ini dikembangkan implementasi jaringan syaraf tiruan pada sistem peringkasan teks otomatis menggunakan ekstraksi ciri. Dalam menemukan kalimat yang tepat untuk dimasukkan ke dalam ringkasan, perlu dilakukan latihan atau training pada sistem peringkasan teks otomatis. Penelitian ini menggunakan tiga buah perhitungan untuk mengekstraksi ciri dari kalimat. Setelah ciri dari kalimat didapatkan, dilanjutkan dengan proses pelatihan dalam pemilihan kalimat ringkasan dengan menggunakan metode latihan terbimbing jaringan syaraf tiruan backpropagation.
2.
LANDASAN TEORI
2.1
Peringkasan Teks Otomatis Ringkasan dapat didefinisikan sebagai sebuah teks yang diproduksi dari satu atau lebih teks, yang mengandung informasi penting dari teks asli dan mempunyai panjang tidak lebih dari setengah panjang teks asli (Hovy dan Lin, 2005). Ringkasan bertujuan untuk memberitahu pembaca tentang isi orisinil suatu pikiran utama atau ide dari karangan aslinya (Mustaqhfiri, 2011). Konsep sederhana dari ringkasan adalah mengambil bagian penting yang menggambarkan keseluruhan isi dari dokumen asal. Ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian disajikan kembali dalam bentuk yang lebih ringkas bagi pembacanya (Mani dan Maybury, 1999). Peringkasan teks otomatis (Automatic Text Summarization) adalah pembuatan bentuk yang lebih ringkas dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada komputer (Nagawi dan Verma, 2011). Ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks, mengandung informasi dari teks asli dan panjangnya tidak lebih dari setengah teks asli (Hovy, 2001). 2.2 Pengurangan Ciri Kalimat 2.2.1 Representasi Teks Representasi teks menjelaskan isi atau karakteristik dari teks. Kata (term) dalam kalimat merepresentasikan karakteristik dari teks yang akan diolah. Nilai yang dihasilkan dari kata (term) disebut bobot kata yang disebut dengan bobot kata (weight of word). Frekuensi kata yang ditemukan dalam teks
ISSN: 2089-9815
digunakan sebagai acuan dalam menggambarkan karakteristik dari teks yang akan diolah. Persamaan 1 menggambarkan teks yang akan diolah. Dalam sebuah dokumen (d). Pada persamaan 1 terdapat wij yang merupakan bobot dari kata atau (term) tij, i adalah posisi kalimat ke-i dalam dokumen d, j adalah posisi dari kata (term) di kalimat ke-i yang dihitung dari kiri ke kanan. Representasi dari teks ditunjukkan pada persamaan 1. (1) Berikut adalah representasi kalimat yang akan diproses: Contoh 1: Teks original yang memiliki 30 kata. “Sebuah kebijakan terbaru dari Google memberikan akses lebih kepada para pelajar untuk menggunakan akses penyimpanan berbasis awan di Google Drive dengan jumlah kapasitas yang tak terbatas serta didapatkan dengan gratis.” Dari contoh 1, dapat disimpulkan bahwa dokumen tersebut memiliki 30 kata. Representasi matriks dari contoh 1 dengan satu baris dan 34 kolom seperti pada persamaan 2. (2) Persamaan 2 dapat disimpulkan bahwa kata terdiri atas 30 kata sehingga kita harus menghitung bobot dari 30 kata tersebut. Dalam beberapa kasus, umumnya, teks original mencakup beberapa kalimat dengan masing-masing kalimat terdiri atas banyak kata. Jadi berdasarkan persamaan 1 maka representasi dari teks menjadi besar sehingga membutuhkan waktu dalam melakukan perhitungan. 2.2.2 Metode Pengurangan Ciri Pemilihan Ciri (fitur) adalah salah satu topik inti dalam pembelajaran mesin dan bidang yang terkait. Representasi data set dalam dunia nyata seringkali digambarkan oleh sejumlah fitur yang tidak relevan atau berlebihan dalam jumlah yang banyak, sehingga secara signifikan dapat mengganggu akurasi dari model data dan kecepatan belajar jika tidak ditangani dengan benar (Thu, Huu, dan Ngoc, 2013). Pemilihan fitur dapat menjadi solusi permasalah besarnya fitur dalam data set. Dengan hanya menggunakan fitur yang terpilih, maka fitur yang digunakan dapat meningkatkan akurasi dalam prediksi atau mengurangi jumlah fitur yang akan diolah tanpa menurunkan akurasi dari prediksi dari classifier yang dibangun. Metode pemilihan fitur yang digunakan pada penelitian ini adalah dengan membagi kata dalam kalimat menjadi dua buah himpunan kata, himpunan kata benda (kata topik) dan himpunan selain kata benda. Pemilihan kata benda sebagai metode 356
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
pengurangan fitur karena disetiap teks kata benda mengandung informasi dari teks. Berdasarkan contoh 1, T akan dipisah menjadi dua buah himpunan, himpunan pertama mengandung kata benda dan himpunan kedua adalah kata selain kata benda. Himpunan kata benda T’ = {sebuah, kebijakan, google, akses, kebijakan, akses, penyimpanan, awan, google, drive, jumlah, kapasitas} Himpunan selain kata benda O’ = {terbaru, dari, memberikan, lebih, kepada, para, pelajar, untuk, menggunakan, berbasis, di, dengan, yang, tak, terbatas, serta, didapatkan, dengan, gratis} Penelitian ini hanya menggunakan himpunan kata benda dalam proses ekstraksi ciri. Sehingga penggunaan metode pemilihan fitur menyebabkan berkurangnya matrik T, yang awalnya terdiri atas satu baris dan 30 kolom menjadi satu baris dan 12 kolom seperti yang ditunjukkan pada persamaan 3. (3) 2.3
Pra-proses Teks Pra-proses (pre-processing) teks adalah tahapan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahap berikutnya (Suneetha dan Fatima, 2011). Pra-proses teks terdiri dari 4 tahapan yaitu pemisahan kalimat, case folding, Part of Speech (POS) - tagging, dan tokenisasi. Tahapan dari pra-proses teks dapat dilihat pada Gambar 1.
Pemisahan Kalimat Case Folding
POS-Tagging
Tokenisasi Gambar 1. Tahapan pra-proses teks
2.3.2 Case Folding Case folding merupakan tahap mengkonversi seluruh kata dalam kalimat menjadi huruf kecil. Hal ini akan meningkatkan akurasi untuk membedakan kata serupa. Dalam case folding hanya karakter huruf ‘a’ sampai ‘z’ yang diterima. Karakter selain huruf dianggap sebagai delimeter. 2.3.3 POS-Tagging POS-tagging atau penandaan kelas kata adalah suatu proses yang memberikan label kelas kata secara otomatis pada suatu kata dalam kalimat (Jurafsky, 2000). Bentuk sederhana proses ini adalah identifikasi kata antara lain sebagai nomina, verba, adjektiva, adverbia. Manfaat dari penggunaan POStagging adalah membantu dalam memilih kata benda atau kata penting lainnya dari sebuah dokumen (Jurafsky, 2000). Penandaan kelas kata digunakan dalam banyak aplikasi pemrosesan bahasa alami seperti disambiguasi makna kata (word sense disambiguation), pengurai (parser), penjawab pertanyaan (question-answering), dan mesin penterjemah (machine translation) (Brants, 2000). POS-tagger dapat digunakan pula dalam proses noun phrase chunking. Noun phrase chunking adalah proses pemisahan kata pada kalimat namun kata yang dipisah hanya kata yang termasuk kelas kata benda (noun), baik proper noun maupun common noun (Suneetha dan Fatima, 2011). Masukan untuk proses POS-tagging adalah kalimat dan keluarannya adalah label (tag) untuk setiap kata yang terdapat pada kalimat masukkan. Dalam penelitian ini metode POS-tagging yang digunakan adalah POS-tagging barbasis hidden markov model. Dalam peneitian ini POS-tagging digunakan sebagai salah satu tahapan dalam proses pemilihan fitur dengan memperhatikan kata yang terlabel sebagai kelas kata benda. 2.3.4 Tokenisasi Tokenisasi adalah proses pemotongan string masukan berdasarkan tiap kata yang menyusunnya (Mustaqfiri, 2011). Pemisahan kalimat menjadi katakata tunggal dilakukan dengan pemisah white space (spasi, tab, newline). 2.4
2.3.1 Pemisahan Kalimat Pemisahan kalimat yaitu proses pemisahan string teks dokumen yang panjang menjadi kumpulan kalimat-kalimat (Mustaqhfiri, 2011). Hal-hal yang perlu diperhatikan pada saat melakukan pemisahan kalimat adalah tanda titik “.”, tanda tanya “?”, dan tanda seru “!” sebagai penanda berakhirnya kalimat. Jika tanda-tanda tersebut dihilangkan maka dokumen akan terpotong menjadi kalimat.
ISSN: 2089-9815
Ekstraksi Ciri Teks Ringkasan teks yang ekstraktif dirumuskan dengan mengekstraksi teks utama (kalimat atau bagian) dari sebuah teks berdasarkan analisis statistik, seperti frekuensi dari kata/frasa, lokasi kalimat, atau kata kunci yang mengindikasikan kalimat untuk diekstraksi atau tidak. Kalimat yang paling penting adalah kalimat yang sering muncul atau kalimat yang berposisi paling baik. Pencirian kalimat dilakukan untuk memberikan data masukan kepada model Jaringan Syaraf Tiruan. Thu, Huu, dan Ngoc (2013) mendefinisikan tiga buah pendekatan dalam menentukan ciri dari kalimat, 357
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
yaitu information significant of sentence, position of sentence, dan amount of Information. 2.4.1 Information Significant of Sentence Information significant of sentence menunjukkan informasi yang terkandung di dalam kalimat. Rumus information significant of sentence ditunjukkan pada persamaan 4: (4) Dimana: Finfor(Si ) : Nilai informasi dari kalimat Si. I(wj) : Informasi yang signifikan dari kata topik di Si. Sedangkan I(wj) dihitung dengan persamaan 5: (5) Dimana: Ns(wj) : Banyaknya wi yang ditemukan di kalimat. : Banyaknya semua kata topik yang ditemukan di kalimat. ND(wj) : Banyaknya dokumen di himpunan uji D yang mempunyai wj. Untuk menghitung wj digunakan perhitungan tfidf, seperti pada persamaan 6. (6) Wj tf isf
Dimana: : bobot setiap kata benda : jumlah kemunculan kata benda dalam teks : inverse sentence frequency
Untuk menghitung isf (inverse frequency) dihitung dengan persamaan 7.
sentence
(7) Dimana: n : jumlah kalimat yang terdapat di dalam teks sf : jumlah kalimat yang terdapat kata benda (wj) 2.4.2 Position of Sentence Position of sentence digunakan berdasarkan dari asumsi bahwa kalimat yang ditemukan di posisi awal dari teks maupun paragraf mempunyai kemungkinan terbesar untuk menjadi kalimat yang relevan dalam peringkasan teks. Untuk kalimat yang terletak pada awal atau akhir paragraf diberi nilai 1, sedangkan 1/i untuk kalimat yang letak posisinya selain pada awal atau akhir teks. Persamaan 2 menunjukkan rumus position of sentence.
ISSN: 2089-9815
(8) Dimana: f2(Si ) : position of sentence Si : posisi kalimat ke-i. n : jumlah kalimat 2.4.3 Amount of Information Amount of information dapat ditentukan dengan menghitung banyak kata benda dalam kalimat. Persamaan 9 menunjukkan rumus menghitung amount of information. (9) Dimana: N(wi ) : Jumlah kata topik yang ditemukan pada kalimat. max{N(wj} : Bobot maksimal pada kata benda. 2.5
Jaringan Syaraf Tiruan Sebuah jaringan syaraf adalah sebuah representasi tiruan dari otak manusia yang mencoba untuk membangkitkan proses belajar pada otak manusia. Jaringan syaraf tiruan adalah kumpulan neuron buatan yang saling terhubung yang menggunakan model komputasi matematika untuk mengolah informasi berdasarkan pendekatan koneksionis komputasi (Thu, Huu, dan Ngoc, 2013). Dalam jaringan syaraf tiruan terdapat tiga buah metode pembelajaran, yaitu supervised learning, unsupervised learning, dan hybrid. Pada penelitian ini metode pembelajaran jaringan syaraf tiruan yang digunakan adalah supervised learning. Supervised learning merupakan metode pembelajaran pada jaringan syaraf tiruan yang pada setiap jaringannya dilengkapi dengan target keluaran untuk setiap pola masukan. Oleh karena itu, metode pembelajaran terbimbing harus mengetahui output yang diharapkan sebelum melakukan pelatihan (training). Arsitektur jaringan syaraf tiruan yang digunakan untuk metode supervised learning adalah backpropagation neural network. 2.5.1 Backpropagation neural network Arsitektur jaringan syaraf tiruan (JST) backpropagation merupakan pengembangan dari jaringan syaraf tiruan dengan layar tunggal dimana pada aristektur JST backpropagation ditambahkan satu atau lebih layar tersembunyi. Backpropagation memiliki beberapa unit yang ada dalam satu atau lebih layar tersembunyi. Pada arsitektur JST backpropagation melakukan pelatihan pada jaringan untuk mendapatkan keseimbangan antar kemampuan jaringan untuk mengenali pola yang digunakan selama pelatihan, serta kemampuan jaringan untuk memberikan respon yang benar terhadap pola
358
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
masukan yang serupa dengan pola yang dipakai selama pelatihan. Proses pelatihan pada backpropagation meliputi 3 tahap. Tahap pertama adalah fase maju. Pola masukan dihitung maju mulai dari layar masukan hingga layar keluaran menggunakan fungsi aktivasi yang ditentukan. Tahap kedua adalah fase mundur. Selisih antara keluaran jaringan dengan target yang diinginkan merupakan kesalahan yang terjadi. Kesalahan tersebut dipropagasikan mundur. Tahap ketiga adalah modifikasi bobot untuk menurunkan kesalahan yang terjadi. Ketiga tahap tersebut diulang-ulang terus hingga kondisi penghentian dipenuhi. Umumnya kondisi penghentian yang sering dipakai adalah jumlah iterasi atau kesalahan. Iterasi dihentikan jika jumlah iterasi yang dilakukan sudah melebihi jumlah maksimum iterasi yang ditetapkan, atau jika kesalahan yang terjadi sudah lebih kecil dari batas toleransi yang diperbolehkan. Pada proses pelatihan Backpropagation Neural Network terdapat parameter laju pelatihan (learning rate) yang digunakan untuk mempercepat proses pelatihan. Selain parameter learning rate, untuk mempercepat proses pelatihan juga dapat ditambahkan parameter tambahan berupa momentum. Proses pelatihan backpropagation neural network, digunakan untuk mendapatkan model data yang natinya digunakan pada proses pembobotan kalimat. 3.
METODOLOGI PERINGKASAN TEKS Pada penelitian ini, peringkasan teks otomatis yang dibuat merupakan sistem peringkasan dengan input berupa single dokumen dan secara otomatis menghasilkan ringkasan. Proses peingkasan teks otomatis terdiri dari: pra-proses, tahap ekstraksi ciri, pembobotan kalimat menggunakan model data backpropagation neural network, dan ekstraksi ringkasan. Gambar 2 menunjukkan bagan proses peringkasan secara umum.
ISSN: 2089-9815
memasukkan teks dokumen ditunjukkan pada Tabel 1. b. Sistem melakukan text preprocessing yang terdiri dari tahap pemisahan kalimat, case folding, POS-Tagging, dan tokenisasi. Tabel 1. Teks original Sebuah kebijakan terbaru dari Google memberikan akses lebih kepada para pelajar untuk menggunakan akses penyimpanan berbasis awan di Google Drive dengan jumlah kapasitas yang tak terbatas serta didapatkan dengan gratis. Kebijakan yang mereka sebut Google Apps for Education ini diharapkan Google bakal menggantikan posisi buku yang tentunya cukup memberatkan bagi para pelajar. Google beranggapan, akan lebih mudah kalau dapat mengakses buku-buku tebal tersebut melalui sebuah perangkat elektronik seperti smartphone, tablet atau bahkan Chromebook. Akses Google Drive for Education ini pun akan tersedia untuk semua pengguna Google Apps for Education. Terdapat tiga fitur yang dapat dinikmati, yakni. Unlimited storage dengan file berukuran maksimal 5TB. Google Apps Vault memberikan solusi untuk pencarian data. Keamanan yang ditingkatkan memberikan kenyamanan dalam penggunaan sebuah file. 3.1.1 Pemisahan Kalimat Tahap pemisahan kalimat adalah memisahkan string dokumen menjadi kumpulan kalimat dengan menghilangkan tanda akhir kalimat yang berupa tanda titik “.”, tanda tanya “?”, dan tanda seru “!”. Tabel 2 merupakan hasil dari proses pemisahan kalimat. Tabel 2. Pemisahan kalimat No 1
Input Dokumen 2
Pra-proses 3
Pembobotan kalimat dengan model data Backpropagation neural network
4
Ekstaksi kalimat
5 6
Gambar 2. Proses ringkasan
7
Alur Proses dari peringkasan sistem adalah: a. User memasukkan teks dokumen yang akan diringkas. Proses awal peringkasan, user
8
359
Kalimat Sebuah kebijakan terbaru dari Google memberikan akses lebih kepada para pelajar untuk menggunakan akses penyimpanan berbasis awan di Google Drive dengan jumlah kapasitas yang tak terbatas serta didapatkan dengan gratis. Kebijakan yang mereka sebut Google Apps for Education ini diharapkan Google bakal menggantikan posisi buku yang tentunya cukup memberatkan bagi para pelajar. Google beranggapan, akan lebih mudah kalau dapat mengakses buku-buku tebal tersebut melalui sebuah perangkat elektronik seperti smartphone, tablet atau bahkan Chromebook. Akses Google Drive for Education ini pun akan tersedia untuk semua pengguna Google Apps for Education. Terdapat tiga fitur yang dapat dinikmati, yakni. Unlimited storage dengan file berukuran maksimal 5TB. Google Apps Vault memberikan solusi untuk pencarian data. Keamanan yang ditingkatkan memberikan kenyamanan dalam penggunaan sebuah file.
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015 No 4
3.1.2 Case Folding Tahapan ini, adalah mengubah kalimat hasil pemisahan yang diubah menjadi huruf kecil (lower case), menghilangkan angka, tanda baca maupun simbol dan hanya menerima karakter UTF8 dengan kode (0061 – 007A). Hasil dari case folding ditunjukkan Table 3.
5 6
Tabel 3. Case folding
7
No 1
Kalimat sebuah kebijakan terbaru dari google memberikan akses lebih kepada para pelajar untuk menggunakan akses penyimpanan berbasis awan di google drive dengan jumlah kapasitas yang tak terbatas serta didapatkan dengan gratis.
8
2
kebijakan yang mereka sebut google apps for education ini diharapkan google bakal menggantikan posisi buku yang tentunya cukup memberatkan bagi para pelajar. google beranggapan, akan lebih mudah kalau dapat mengakses buku-buku tebal tersebut melalui sebuah perangkat elektronik seperti smartphone, tablet atau bahkan chromebook. akses google drive for education ini pun akan tersedia untuk semua pengguna google apps for education. terdapat tiga fitur yang dapat dinikmati, yakni. unlimited storage dengan file berukuran maksimal tb. google apps vault memberikan solusi untuk pencarian data. keamanan yang ditingkatkan memberikan kenyamanan dalam penggunaan sebuah file.
3
4 5 6 7 8
3.1.3 POS-Tagging Tahap selanjutnya adalah POS-tagging, yaitu proses menandai kata-kata yang ada pada kalimat dengan jenis katanya. Jenis kata yang dimaksud merupakan kategori gramatikal, yang terdiri dari kata kerja (verb), kata benda (noun), kata sifat (adjective), kata keterangan (adverb), dan sebagainya. Hasil dari tahap POS-tagging ditunjukkan pada Tabel 4.
2
3
Kalimat sebuah/NN kebijakan/NN terbaru/JJ dari/IN google/NN memberikan/VBT akses/NN lebih/RB kepada/IN para/DT pelajar/VBT untuk/IN menggunakan/VBT akses/NN penyimpanan/NN berbasis/VBT awan/NN di/IN google/NN drive/NN dengan/IN jumlah/NN kapasitas/NN yang/SC tak/NEG terbatas/VBI serta/CC didapatkan/VBT dengan/IN gratis/JJ kebijakan/NN yang/SC mereka/PRP sebut/VBT google/NN apps/NN for/NN education/NN ini/DT diharapkan/VBT google/NN bakal/MD menggantikan/VBT posisi/NN buku/NN yang/SC tentunya/RB cukup/JJ memberatkan/VBT bagi/IN para/DT pelajar/VBT google/NN beranggapan/VBI akan/MD lebih/RB mudah/JJ kalau/SC dapat/MD mengakses/NN buku/NN buku/NN tebal/JJ tersebut/DT melalui/VBT sebuah/NN perangkat/NN elektronik/NN seperti/IN smartphone/NN tablet/NN atau/CC bahkan/RB chromebook/VBT
Kalimat akses/NN google/NN drive/NN for/NN education/NN ini/DT pun/RP akan/MD tersedia/VBI untuk/IN semua/CDI pengguna/NN google/NN apps/NN for/NN education/NN terdapat/VBT tiga/CDP fitur/NN yang/SC dapat/MD dinikmati/VBT yakni/VBT unlimitede/NN storage/NN dengan/IN file/NN berukuran/VBI maksimal/JJ tb/VBI google/NN apps/NN vault/NN memberikan/VBT solusi/NN untuk/IN pencarian/NN data/NN keamaan/NN yang/SC ditingkatkan/VBT memberikan/VBT kenyamanan/NN dalam/IN penggunaan/NN sebuah/NN file/NN
3.1.4 Tokenisasi Tokenisasi adalah proses pemisahan kalimat menjadi kata-kata penyusunnya yang dilakukan dengan menelusuri white space (spasi) sebagai pemisah. Hasil tokenisasi dilakukan untuk proses pemilihan kata benda (noun). Proses pemilihan kata benda yaitu mengidentifikasi kata benda (noun) yang terdapat pada kalimat dari keluaran proses sebelumnya. Kata benda yang diambil merupakan kata-kata yang mempunyai tag NN(common Noun), NNP(proper noun), dan NNG(genetive Noun). Penggunaan kata yang termasuk ke dalam kelas kata benda dikarenakan kata benda mengandung informasi dari teks (Thu, Huu, Ngoc, 2013). Hasil proses pemilihan kata benda adalah himpunan kata benda atau noun set (disebut topic word) dan ditunjukkan pada Tabel 5. Tabel 5. Hasil proses pemilihan kata benda sebuah/NN kebijakan/NN google/NN akses/NN kebijakan/NN akses/NN penyimpanan/NN awan/NN google/NN drive/NN jumlah/NN kapasitas/NN akses/NN kebijakan/NN google/NN apps/NN for/NN education/NN google/NN posisi/NN buku/NN mengakses/NN buku/NN buku/NN sebuah/NN perangkat/NN elektronik/NN smartphone/NN tablet/NN akses/NN google/NN drive/NN for/NN education/NN pengguna/NN google/NN apps/NN for/NN education/NN fitur/NN unlimitede/NN storage/NN file/NN google/NN apps/NN vault/NN solusi/NN pencarian/NN data/NN keamaan/NN kenyamanan/NN memperlihatkan/NN aktivitas/NN penggunaan/NN sebuah/NN file/NN
Tabel 4. Hasil POS-tagging No 1
ISSN: 2089-9815
3.1.5 Ekstraksi Ciri Kalimat Setelah tahapan pra-proses selesai dilakukan dilanjutkan dengan tahapan ekstraksi ciri pada kalimat. Tahap ekstraksi ciri kalimat bertujuan untuk menghitung ciri dari tiap kalimat. Ciri dari kalimat dihitung menggunakan tiga buah perhitungan yaitu, information significant of sentence, position of sentence, dan amount of information in sentence. Hasil dari tahap ekstraksi ciri digambaran pada Tabel 6.
360
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
Tabel 6. Hasil ekstraksi ciri ID-Kalimat 1 2 3 4 5 6 7 8
Ciri 1 0.9348 0.6712 1.1068 1.3623 0.9030 0.8027 0.7070 0.7474
ISSN: 2089-9815
Tabel 7. Urutan kalimat berdasarkan bobot Ciri2 1.0 0.5 0.3333 0.25 0.2 0.1666 0.1428 1.0
Ciri 3 8.5958 5.0424 6.2732 6.6355 1 2.6666 4.6977 0.6020
3.1.6 Pebobotan Kalimat dengan Backpropagation neural network Setelah tahap ekstraksi ciri selesai dilakukan, kemudian dilanjutkan dengan tahap pembobotan kalimat. Pada tahap pembobotan kalimat meliputi proses pelatihan dan pengujian jaringan syaraf tiruan. Saat proses pelatihan jaringan syaraf tiruan digunakan beberapa teks dokumen yang setiap kalimatnya diidentifikasikan apakah kalimat tersebut dimasukkan ke ringkasan atau tidak. Identifikasi kalimat dilakukan atau diverifikasi. Jaringan syaraf tiruan mempelajari pola yang melekat di kalimat yang dimasukkan ke dalam ringkasan. Hasil dari proses pelatihan adalah model data jaringan syaraf tiruan yang digunakan pada proses pengujian. Setelah pada proses pelatihan selesai dilakukan dan model data didapatkan maka dilanjutkan dengan proses pengujian. Pada proses pengujian menggunakan satu teks dokumen. Teks dokumen tersebut dimasukkan kedalam model data yang telah didapatkan sebelumnya pada proses pelatihan. Hasil dari proses pengujian adalah bobot akhir kalimat. Arsitektur jaringan syaraf tiruan yang digunakan pada saat proses pelatihan maupun proses pengujian dapat dilihat pada Gambar 3.
Gambar 3. Arsitekrur backpropagation neural network 3.1.7 Ekstraksi Kalimat Pemilihan kalimat ringkasan akan dilakukan jika proses pengujian jaringan syaraf tiruan selesai dilakukan. Kalimat yang telah didapatkan bobot akhir, dijadikan sebagai kandidat kalimat ringkasan dan diurutkan. Pengurutan kalimat berdasarkan bobot yang paling tinggi ke paling rendah dan ditunjukkan pada Tabel 7.
ID-Kalimat 1 4 3 2 7 8 6 5
Bobot 0.9926 0.9920 0.9918 0.9907 0.9902 0.9900 0.9857 0.9780
Pemilihan kandidat kalimat ringkasan menjadi kalimat ringkasan berdasarkan bobot yang paling tinggi. Pada penelitian ini menerapkan tingkat kompresi hasil ringkasan sebesar 40 persen dari jumlah kalimat teks. Kalimat-kalimat hasil ringkasan kemudian disusun kembali berdasarkan urutan aslinya pada teks. Kalimat hasil ringkasan ditunjukkan pada Tabel 8. Tabel 8. Kalimat hasil ringkasan Sebuah kebijakan terbaru dari Google memberikan akses lebih kepada para pelajar untuk menggunakan akses penyimpanan berbasis awan di Google Drive dengan jumlah kapasitas yang tak terbatas serta didapatkan dengan gratis Kebijakan yang mereka sebut Google Apps for Education ini diharapkan Google bakal menggantikan posisi buku yang tentunya cukup memberatkan bagi para pelajar Google beranggapan, akan lebih mudah kalau dapat mengakses buku-buku tebal tersebut melalui sebuah perangkat elektronik seperti smartphone, tablet atau bahkan Chromebook Akses Google Drive for Education ini pun akan tersedia untuk semua pengguna Google Apps for Education
4. HASI PENELITIAN 4.1.1 Corpus Corpus yang digunakan pada penelitian ini dibagun secara manual. Dokumen di dalam corpus diambil dari situs berita online Viva News (www.vivanews.com), Berita Net (www.beritanet.com), Tempo (www.tempo.com), dan Seputar Indonesia (www.sindo-news.com). Dokumen berita yang diambil merupakan berita yang termasuk kategori teknologi. Jumlah teks yang terdapat di dalam corpus adalah 25 teks. Teks di dalam corpus tersebut kemudian disimpan dalam file berformat .txt. 4.1.2 Training Pada proses training 25 teks yang terdapat di dalam corpus, dipisahkan dari dokumen dan melalui 3 tahapan training: labeler, Perhitungan Ciri, dan training. a. Labeler: Kalimat dari 25 teks yang terdapat di dalam korpus dilabel secara manual. Proses ini dilakukan dengan bantuan ahli bahasa. b. Perhitungan ciri: Kalimat yang telah dilabel kemudian dihitung cirinya menggunakan
361
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
information significant of sentence, position of sentence, dan amount of information in sentence. c. Training: Pada proses training pertama, nilai pada bobot setiap jaringan di-random. Kemudain kalimat yang telah diekstraksi ciri digunakan sebagai input pada neural network.
ISSN: 2089-9815
learning rate dan maximum error pada backpropagation neural network. Analisis pengaruh data latih dan komponen nilai backpropagation neural network digambarkan pada Gambar 5.
F-measure
4.1.3 Hasil Berdasarkan metodologi peringkasan teks yang telah didefinisikan, dikembangkanlah sebuah sistem yang mengimplementasikan metodologi tersebut. Hasil dari pengembangan program ditunjukkan pada Gambar 4.
Gambar 5. Hasil pengujian data 5.
Gambar 4. Hasil pegembangan sistem 4.1.4 Evaluasi Metode evaluasi yang diginakan pada penelitian ini adalah perhitungan f-measure. F-measure dihasilkan dari kombinasi antara precision dan recall. Evaluasi yang dilakukan pada penelitian ini dibagi menjadi dua tahap. Tahap pertama pengujian dilakukan dengan 15, 20, dan 25 data latih dengan nilai pada komponen learning rate = 0,5 dan maximum error = 0,01. Hasil dari pengujian tahap pertama ditunjukkan pada Tabel 9. Tabel 9. Nilai f-measure pengujian tahap pertama No. 1.
15 Data Latih 77,1%
20 Data Latih 78,1%
25 Data Latih 80,1%
Tahap pertama pengujian dilakukan dengan 15, 20, dan 25 data latih dengan nilai pada komponen learning rate = 0,25 dan maximum error = 0,001. Hasil dari pengujian tahap pertama ditunjukkan pada Tabel 10. Tabel 10. Nilai f-measure pengujian tahap kedua No. 1.
15 Data Latih 77,6 %
20 Data Latih 80,6 %
25 Data Latih 80,8 %
Berdasarkan dari hasil pengujian tahap pertama dan kedua dapat dilihat bahwa peningkatan jumlah data latih berpengauh dalam peningkatan nilai fmeasure. Peningkatan nilai f-measure juga dipengaruhi oleh perubahan nilai pada komponen
KESIMPULAN Berdasarkan hasil pengujian terhadap data uji dapat disimpulkan bahwa pembangunan sistem peringkasan teks otomatis bahasa indonesia yang mengimplementasiakan jaringan syaraf tiruan dan ekstraksi ciri berhasil dilakukan dengan nilai akurasi terbesar adalah 80,8%. Hasil pengujian juga ditemukan adanya pengaruh banyaknya data latih terhadap peningkatan nilai akurasi. Pengaruh meningkatnya data latih terhadap peningkatan akurasi dikarenakan karakteristik kalimat ringkasan yang dilatih semakin banyak. Sehingga model data yang dihasilkan semakin baik. Semakin banyak teks yang digunakan dalam proses pelatihan dapat meningkatkan nilai akurasi fmeasure. Peningkatan akurasi juga dipengaruhi oleh nilai komponen untuk learning rate dan maximum error. DAFTAR PUSTAKA Brants, Thorsten. 2000. TnT - A Statistical Part-ofSpeech Tagger. Proceedings of the sixth conference on Applied Natural Language Processing (2000) 224.231. Chen, Yoke Yie & Chong, Ling Hui. 2009. Text Summarization for Oil and Gas News Article. Proccedings of World Academy od Science, Engineering and Technology 5. Tokyo: Japan. Hasel, Martin. 2007. Resource Lean and Portable Automatic Text Summarization. KTH Computer Science and Communication. Hovy, E. H. 2001. Automated Text Summarization In R. Mitkov (Ed.), Handbook of Computation Linguistic, Oxford: Oxford University Press. Hovy, Edward, & Lin, Chin-Yew. 2005. Automated Text Summarization and The SUMMARIST System. Information Science Institute of The University of Shouthern California.
362
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
Jurafsky, D S. (2000). Speech and Language Processing An Introduction to Natural Language Processing, Cmputationak Linguistics, and Speech Reconition. Prentice-Hall, Inc. New Jersey. Kaikhah, Josrow Ph.D. 2004. Text Summarization Using Neural Network. Departement of Computer Science Texas State University: San Marcos, Texas. Mani, Inderjeet & Mayburry. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige. Mustaqhfiri, Muchammad. 2011. Peringkasan Teks Otomatis Berita Olahraga Berbahasa Indonesia Menggunakan Maximum Marginal Relevance. Skripsi Universitas Islam Negeri (UIN) Maulana Malik Ibrahim: Malang. Nagawi, Naresh Kumar & Verma, Dr. Shirish. 2011. A Frequent Term and Smeantic Similarity Based Singgle Document Text Summarization Algorithm. International Journal of Computer Application (0975-8887) Volume 17 No.2. Suneetha, M & Fatima, S. Sameen. 2011. Corpus based Automatic Text Summarization System with HMM Tagger. International Journal of Soft Computing and Engineering (IJSCE) ISNN: 2231-2307, Volume-1 Issue-3: India Thu, Nguyen Ha T., Huu, Quyhn Nguyen. & Ngoc, Tu Nguyen Thi. 2013. A Supervised Learning Method Combine With Dimensionality Reduction in Vietnamese Text Summarization. International Journal of Innovative Computing and Control Vol. 9 No.12: Hanoi: Vietnam.
363
ISSN: 2089-9815