eminar Nasional Teknologi Informasi, Komunikasi
Malang, 11 November 2011 diorganisasi oleh: ga Penelitian dan Pengabdian pada Masyarakat
Mil'
ISSN 2089-1083
Prosiding
SNATIKA 2011
Volume 01, Tahun 2011
Seminar Nasional T e k n o l o g i Informasi, K o m u n i k a s i d a n A p i i k a s i n y a B a t u - M a l a n g , 11 N o p e m b e r 2 0 1 1
Diorganisasi oleh:
Lembaga Penelitian 8t Pengabdian kepada Masyarakat S E K O L A H T I N G G I IN FORM ATI KA 8t K O M P U T E R INDONESIA
ISSN 2089-1083
SNATIKA 2011
Seminar Nasional Teknoiogi Informasi, Komunikasi dan Aplikasinya Volume 01, Tahun 2011
PROGRAM COMMITTEE Prof. Dr. Ir. Richardus Eko Indrajit M.Sc., MBA., Mphil., MA (Perbanas Jakarta) Prof. Dr. Ir. Kuswara Setiawan, MT (UPH Surabaya) Prof. Dr. Ir. Joko Lianto Buliali, M.Sc (ITS Surabaya) Prof. Dr. IpingSupriana Suwardi (Institut Teknoiogi Bandung) Ir. Zainal Arifin Hasibuan, M.Sc, PhD (Universitas Indonesia) Retantyo Wardoyo, PhD (UGM) Dr. Jazi Eko Istiyanto, PhD (UGM)
STEERING COMMITTEE Tri Y. Evelina, SE, MM Gembong Edhi Setyawan, ST, MT
ORGANIZING COMMITTEE Rahmad Adi Puranto Deddy Wahyu Hermawan
Sekretariat Lembaga Penelitian & Pengabdian pada Masyarakat Sekolah Tinggi Informatika & Komputer Indonesia (STIKI) - Malang SNATIKA 2011 Jl. Raya Tidar 100 Malang 65146 Tel. +62-341560823 Fax. +62-341 562525 Website : www.stiki.ac.id Email:
[email protected]
ii
1
KATA PENGANTAR
Bapak/lbu/ Sdr. Peserta dan Pemakalah SNATIKA 2011 yang saya hormati, pertama-tama saya ucapkan selamat datang atas kehadiran Bapak/lbu/Sdr, dan tak lupa kami mengucapkan terima kasih atas partisipasi dan peran serta Bapak/lbu/Sdr dalam kegiatan ini. SNATIKA 2011 adalah Seminar Nasional Teknologi Informasi, Komunikasi dan Aplikasinya yang diselenggarakan oleh STIKI Malang bekerjasama dengan APTIKOM Pusat dalam acara RAKORNAS APTIKOM tahun 2011 yang pelaksanaannya diadakan di Batu, Malang. Sesuai tujuannya SNATIKA 2011 merupakan sarana bagi peneliti, akademisi dan praktisi untuk mempublikasikan hasil-hasil penelitian, ide-ide terbaru mengenai Teknologi Informasi, Komunikasi dan aplikasinya. Selain itu sesuai dengan tema Rakornas APTIKOM 2011 "Synchronising Motions for Actions", topik-topik yang diambil disesuaikan dengan kompetensi dasar dari APTIKOM yang diharapkan dapat mensinergikan penelitian yang dilakukan oleh para peneliti di bidang Informatika dan Komputer.
Semoga acara ini
bermanfaat bagi kita semua terutama bagi perkembangan ilmu dan teknologi di bidang teknologi informasi, komunikasi dan aplikasinya.
Akhir kata, kami ucapkan selamat mengikuti seminar, dan semoga kita bisa bertemu kembali pada SNATIKA yang akan datang. Malang, 11 Nopember 2011 Panitia SNATIKA 2011 Tri Y. Evelina, SE, MM
iii
SAMBUTAN KETUA SEKOLAH TINGGI INFORMATIKA & KOMPUTER INDONESIA (STIKI) MALANG
Yang saya hormati peserta Seminar Nasional APTIKOM 2011, Puji & Syukur kita panjatkan kepada Tuhan yang Maha Esa, atas terselenggaranya Seminar Nasional sebagai rangkaian dari kegiatan RAKORNAS APTIKOM 2011 di Kota Batu Malang. Kami ucapkan selamat datang kepada peserta RAKORNAS APTIKOM dan Seminar Nasional serta rekan-rekan perguruan tinggi maupun mahasiswa yang telah berpartisipasi aktif sebagai pemakalah maupun peserta dalam kegiatan seminar nasional ini. Konferensi ini merupakan bagian dari 10 Flag APTIKOM untuk meningkatkan kualitas SDM ICT di Indonesia, dimana anggota APTIKOM khususnya harus haus akan ilmu untuk mampu •nemajukan ICT di Indonesia. Konferensi ICT bertujuan untuk menjadi forum komunikasi antara peneliti, penggiat, birokrat pemerintah, pengembang sistem, kalangan industri dan seluruh komunitas ICT Indonesia yang ada didalam APTIKOM maupun diluar APTIKOM. Kegiatan ini diharapkan memberikan masukan kepada stakeholder ICT di Indonesia, yang meliputi masyarakat, pemerintah, industry dan lainnya, sehingga mampu sebagai penggerak dalam memajukan ICT di Indonesia Akhir kata, semoga forum seperti ini dapat terus dilaksanakan secara perodik sesuai dengan kegiatan tahunan APTIKOM. Dengan demikian kualitas makalah, maupun hasil penelitian dapat semakin meningkat sehingga mampu bersinergi dengan ilmuwan dan praktisi ICT Internasional. Sebagai ketua STIKI Malang, kami mengucapkan terima kasih kepada semua pihak atas segala bantuan demi suksesnya acara ini. "Mari Bersama Memajukan ICT Indonesia"
Malang, 11 Nopember 2011 Ketua STIKI,
Eva Handriyantini, S.Kom,M.MT
iv
ISSN 2089-1083 SNATIKA 2011, Volume 01
DAFTAR ISi Halaman Halaman Judul Kata Pengantar Sambutan Ketua STIKI Daftar Isi
HI
iv v-ix
Anak Agung Kompiang Oka Sudana, Ida Ayu Gde Kurnia Jayanti
Implementasi Struktur Tree Untuk Pemodelan Sistem Informasi Bebantenan On-Line Dalam Upacara Yadnya Agama Hindu
1-6
Zainul Arham
Evaluasi Kesesuaian Lahan Buah Pisang Kepok Didasarkan Agroklimat Dengan Pendekatan Sistem Informasi Geografis
7-9
3
Mochamad Wahyudi, Muanam
Rancangan Aplikasi Sistem Informasi Keuangan Pada Universitas Sains Dan Teknologi Jayapura (Ustj)
10-16
4
Mochamad Wahyudi, Miwan Kurniawan Hidayat
Rancangan Aplikasi Sistem Informasi Manajemen Aset Pada Universitas Sains Dan Teknologi Jayapura (Ustj)
17-21
5
Yusuf Durachman, Arini, Ryan Sofyan
Pengembangan Framework Sisfo Kampus Berbasis Web Menggunakan Metodologi Fast (Studi Kasus Stmik lij)
23-28
6
Nur Aeni Hidayah
Sistem Informasi Studi Pelacakan Jejak Alumni (Tracer Study) Program Studi Sistem Informasi Fakultas Sains Dan Teknologi (Studi Kasus : Uin Syarif Hidayatullah Jakarta)
29-33
7
Nur Aeni Hidayah
Sistem Informasi Penunjang Keputusan Penerimaan Nasabah Pembiayaan Murabahah Menggunakan Model Ahp (Studi Kasus : Bni Syariah)
34-39
8
Marson James Budiman, Jufri
Klasifikasi Penilaian Kinerja Dosen Dengan Menggunakan Algoritma Backpropagation
39-44
9
Husni Thamrin, Susilo Veri Yulianto, Julpitriadi
Model Pengembangan Sistem Informasi Pengelolaan Pondok Pesantren Mahasiswa
45-51
10 Juni Nurma Sari, Febriliyan Samopa
Pembuatan Prototipe Aplikasi Wireless Menggunakan Teknologi Java Pada Sistem Informasi Akademik Politeknik Caltex Riau
52-57
11
Aplikasi Pengunduh Dan Pembaca Data Nilai Jual Objek Pajak (NJOP) Pada Direktorat Jenderal Pajak
58-63
Puji Rahayu, Bandi Ashari
v
12 Jozua F. Palandi
Desain Sistem Toefl Untuk Membantu Persiapan Tes Toefl
64-70
13 Tri Y Evelina, Tias A. Indarwati
Adaptasi Search Engine Yahoo Dan Google: Analisis Diskriminan Dengan Pendekatan Technology Acceptance Model (TAM) Dan Usability
71-78
14 Bambang Hariyanto, Ririn Dwi Agustin
Pengkajian Peraturan Bank Indonesia No 9/15/PBI/2007 Tahun 2007 Sebagai Pedoman Tata Kelola Teknologi Informasi (IT Governance) Bank Umum Di Indonesia
79-83
15 Joko Lianto Buliali, Ahmad Saikhu
Uji Bilangan Acak Dari Fungsi Pembangkit Bilangan Acak Pada Bahasa Pemrograman Java
84-87
16 Ketut Agustini
Pengembangan Simulasi Binary Tree Berbasis CAI Untuk Pembelajaran Matematika Diskrit
88-91
17 Sawalludin, Opim Salim Sitompul, Erna Budhiarti Nababan
Isomorphic Solutions Of The N-Queens Problem
92-97
18 Eko Budi Cahyono, Mochamad Hariadi
Interaksi Gerak Tangan Alami Dengan Lingkungan Augmented Reality Berbasis Metoda Projective Reconstruction
98-101
19 Taufiq, Rahmadi
Penerapan Fuzzy Multi Criteria Decision Making (Fmcdm) Untuk Pemilihan Lokasi Spbu Pada Kota Banjarbaru
102-108
20 Endah Purwanti
Logika Fuzzy Untuk Uji Kelayakan Lahan Singkong Sebagai Bahan Baku Bioetanol
109-114
21
Penentuan Secara Otomatis Akronim Dan Ekspansinya Dari Data Teks Berbahasa Indonesia
115-119
22 Muhammad Ainur Rony
Sistem Pakar Untuk Mengidentifikasi Kerusakan Kulkas Lg Tipe Gr-S512 Menggunakan Aplikasi Mobile
120-124
23 Galan Tri Suseno, Ina Agustina, Firman Anindra
Aplikasi Sistem Pakar Untuk Diagnosa Penyakit Menular Pada Kambing
125-130
24 Gunawan Putrodjojo
Aplikasi Multimedia Untuk Pembelajaran Berbasis Simulasi Heuristik Dengan Konektifitas Scorm
131-138
25 Ida Ayu Made Widiadnyani Pertiwi, Made Windu Antara Kesiman, I MadeAgus Wirawan
Pengembangan Aplikasi E-Learning Berbasis Model Pembelajaran Kooperatif TipeTgt (Teams Game Tournament)
139-144
Jufri Wahyudi, Taufik Fuadi Abidin
vi
26
Eva Hariyanti, Kartono, Endah Purwanti
Pengukuran E-Learning Readiness Untuk Mendukung Keberhasilan Pengembangan E-Learning (Studi Kasus: Fst- Universitas Airlangga)
145-150
27
Endra
Optimasi Bersama Kamus-Basis Dan Matriks Pengukuran Pada Penginderaan Kompresif
151-156
28
Tien Kusumasari
Pengembangan Prototipe Humanreadable Knowledge Based Dengan Menggunakan Wiki
157-162
29
Taqwa Hariguna, Berlilana
Isu Cloud Computing E-Government Di Indonesia 2014
163-166
30
Budi Rahmani, Hugo Aprilianto
Implementasi Neural Network Dalam Mengklasifikasi Hasil Ekstraksi Ciri Tepi Objek Dua Dimensi
167-171
31
ZaenalAbidin
Pengaruh Ukuran Citra Terhadap Hasil Pengenalan Ekspresi Wajah Menggunakan Jaringan Syaraf Tiruan Backpropagation
172-177
32
Irwan Budi Santoso,Fachrul Kurniawan
Membangun Model Tree-Augmented Network (Tan) Dengan Estimator Rime Dan Ml Untuk Mengenali Objek
178-184
33
Titin Pramiyati, Jayanta
Pengembangan Model Sistem Identifikasi Pembicara Dengan Kombinasi Teknik Ekstraksi Ciri Suara MelFrequency Cepstral Coefficients (MFCC) Dan Principal Component Analys (PCA)
185-188
34
I KetutGede Darma Putra, Ari Made Santosa
Verifikasi Biometrika Geometri Tangan Dengan Metode Chain Code
189-192
35
Yoki Irawan, Eko Adi Sarwoko, Sukmawati Nur Endah
Pencocokan SidikJari Menggunakan Metode Ekstraksi Minusi (Minutiae Extraction)
193-197
35
Shelvie Nidya Neyman, Ayi Dianitasari
Evaluasi Perfomansi Metode Phase Coding Pada Teknik Audio Watermaking
198-203
3~
Chairunnisa, ina Agustina, Firman Anindra
Pemanfaatan Guide Dalam Watermarking Pada Citra Digital Menggunakan Metode Fast Fourier Transform (Fft)
204-209
38
Yusuf Durrachman, Arini, Muhamad Soleh
Aplikasi Watermarking Dengan Algoritma Aes Untuk Pemberian Data Hak Cipta Pada File Audio
210-216
35
3
Pendeteksi Kemiripan Dokumen Menggunakan Posi (Percentage Of Similarity) Dengan Algoritma Genetika
217-223
oltak Sihombing
vii
40
Rangga Firdaus, Didik Kumiawan, Eri/vin Cesar Simamora
Implementasi Metode Autentikasi One Time Password (Otpa) Berbasis Mobile Token Pada Aplikasi Ujian Online (Studi Kasus : Jurusan Matematika Fmipa Unila)
224-231
41
Yoyok Seby Dwanoko, Hari Lugis Purwanto
Model Otentifikasi E-Surat Menggunakan Metode Digital Signature Dengan Algoritma Md5
232-235
42
Paskalis Andrianus Nani
Penerapan Enkripsi Algoritma Blowfish Pada Proses Steganografi Metode Eof
236-241
43 Chatarina Eka Oktavila, Arif Aliyanto
Aplikasi Konversi Notasi Balok Ke Notasi Angka (Studi Kasus Di Sekolah Tinggi Musi)
242-247
44
Eko Subiyantoro, Yan Permana Agung Putra
Penentuan Kualitas Daun Tembakau Dengan Perangkat Mobile Berdasarkan Ekstrasi Fitur Rata-Rata Rgb Menggunakan Algoritma K-Nearest Neighbor
248-253
45
Nicholas Ongalia, N. Tri Suswanto Saptadi
Aplikasi Permainan UlarTangga Berbasis Multimedia
254-260
46
Khodijah Hulliyah, Imron Fauzi
Implementasi Algoritma Dijkstra Untuk Mendapatkan Jalur Tercepat Dan Jalur Terpendek
261-265
47 Anik Vega Vitianingsih, Game Mathematics In The Jungle Achmad Choiron, Muhammad Dwi Jayanto
266-272
48 Saiful Bukhori
Parrondo's Paradox Based Strategies In The Serious Game Of RTGS Using Sandpile Model
273-277
49 Anang Andrianto
Chaos Detection In The Serious Game Of Clearinghouse Using Business Intelligence
278-283
50 Gembong Edhi Setyawan, Meivi Kartikasari, Mukhlis Amien
Aplikasi Kamera Pengawas Untuk Deteksi Dan Tracking Objek
284-291
51
Alat Pendeteksi Golongan Darah Manusia Berbasis Mikrokontroler 89s51
292-297
52 I Putu Agus Swastika, Siti Saibah Pua Luka, Yanno Dwi Ananda
Rancang Bangun Aplikasi Smart Card Interface
298-303
53 Edy Victor
Simulasi Visualisasi Antrian Pada Elevator Dengan Algoritma Priority Service (Ps)
304-310
54 Muhammad Subali, Jalinas, Jonifan
Implementasi Simulink Matlab Untuk Analisis Kestabilan Sistem Pengendalian Temperatur Furnace
311-314
Izzah Fadhilah Akmaliah, Naniek Andiani
viii
55 Eneng Tita Tosida '
Visualisasi Traffic Light Dengan Model Matriks Identitas Menggunakan Macromedia Flash 8
315-31S
56 Faula Meisa Loura, Ina Agustina, Tri Fajar Yurmama
Pembuatan Iklan 3D Rumah Sebagai Media Promosi Pemasaran Dengan Menggunakan 3D Max ( Studi Kasus PT. Purigraha Asripermai)
319-324
ix
Penentuan Secara Otomatis Akronim dan Ekspansinya Dari Data Teks Berbahasa Indonesia Jufri Wahyudi, Taufik Fuadi Abidin Jur us an Informatika FMEPA TJniversitas Syiah Kuala Email: vudi.mathfgkmail.co.id. taufik, abidin@,unsviah.ac.id
ABSTRAK Akronim didefinisikan sebagai singkatan yang dibentuk oleh huruf awal atau gabungan beberapa huruf dari ^lah penting dalam sebuah frase. Menemukan akronim dan kepanjangannya secara otomatis dalam suatu idkumen teks adalah masalah yang menantang dalam teks mining. Artikel ini membahas tentang penentuan tzpamjangan dari akronim berbahasa Indonesia secara otomatis. Ada tiga tahap yang dilakukan. Pertama, Oiiidat akronim diidentifikasi dalam dokumen teks. Kemudian, kandidat ekspansi dibangun berdasarkan teks Wg mengelilingi akronim, dan ketiga, klasifikasi k-NN digunakan untuk memilih ekspansi yang benar dari aruah akronim. Percobaan dilakukan menggunakan teks yang diperoleh dari empat web berbahasa Indonesia ;>crg berbeda. Hasil menunjukkan bahwa algoritma yang dikembangkan dapat beradaptasi dengan baik pada Moap domain dan memiliki rata-rata akurasi sebesar 89,75%.
Kata Kunci: Penentuan
akronim dan ekspansinya, klasifikasi kNN
1. PENDAHULUAN Akronim dan kepanjangannya sering ditemukan a > m sebuah tulisan. Pada umumnya, kepanjangan p i i f ill i) dari sebuah akronim diuraikan pada saat pertama sebuah akronim diperkenalkan dalam r. -san. Setelah diperkenalkan, akronim digunakan •cara berulang-ulang dalam tulisan karena lebih xadek dan ringkas dibanding kepanjangannya. Database akronim dan kepanjangannya sangat fibntuhkan oleh mesin pencari dalam menentukan as:l pencarian yang relevan. Sebagai contoh, bila 'Basil Ujian Nasional 2011" merupakan query yang rimputkan pada mesin pencari maka selain dokumen ytzx mengandung kata Ujian Nasional, dokumenackumen yang mengandung kata UN pun harus •periiitungkan oleh mesin pencari karena akronim ran Ujian Nasional adalah UN. Kemampuan mesin aencari mengganti akronim dengan ekspansinya atau •baliknya dapat membuat hasil pencarian menjadi *cih relevan. Contoh ini menunjukkan bahwa iaberadaan data akronim dan kepanjangannya secara bpgkap diperlukan dalam bidang penelusuran •itt'aimasi (information retrieval). Selain itu, eberadaan database akronim dan kepanjangannya uga dibutuhkan dalam menentukan kemiripan antar Jeberapa dokumen secara semantiks. Akronim pada umumnya didefinisikan sebagai scgkatan yang dibentuk dari huruf awal atau nbungan huruf dari suatu istilah. Akronim yang mmcul dalam sebuah tulisan dapat menyulitkan rembaca memahami isi tulisan bila kepanjangan dari Kcuah akronim tidak diketahui. Akronim dalam ncang tertentu belum tentu diketahui artinya oleh tembaca dalam bidang yang lain. Sebagai contoh,
SVM bagi komputer saintis berarti Support Vector Machine, namun SVM bagi para manajer dapat pula berarti Sourcingand Vendor Management. Menemukan akronim dan kepanjangannya secara otomatis dalam dokumen teks merupakan salah satu hal yang penting dan menantang dalam bidang teks mining. Menentukan akronim dan kepanjangannya dalam tulisan teks sebenarnya pernah diusulkan oleh [1] menggunakan pendekatan aturan (rule-based) yang diamati secara manuai. Namun, cara ini sangat tidak efisien karena pola penulisan aknonim dan kepanjangannya sangat beragam, variatif, dan sulit ditentukan polanya secara menyeluruh. Akibatnya, algoritma yang dibuat berdasarkan ride-based tidak dapat beradaptasi secara baik pada domain yang berbeda. Tulisan ini merijabarkan tentang algoritma untuk menentukan secara otomatis akronim dan kepanjangannya dalam tulisan berbahasa Indonesia menggunakan metode k-NN.
2. PENELITIAN T E R K A I T Penelitian tentang cara mengambil akronim dan ekspansinya dari dokumen teks telah dilakukan oleh [1]. Penelitian itu menggunakan Support Vector Machine (SVM) sebagai metode klasifikasi dan tulisan berbahasa Inggris sebagai data pembelajaran dan pengujian. Mereka mengidentifikasi kandidat akronim, membangun kandidat ekspansi dari teks yang mengelilingi akronim, dan menentukan akronim dan ekspansi sebenarnya menggunakan S V M Hasil penelitian menunjukkan bahwa pendekatan machine learning lebih unggul dari pada pendekatan rulebased. Akurasi model SVM adalah 89% dan model
SNATIKA 2011, ISSN 2089-1083( 115
Penertuan Secara Otomatis Akronim dan Ekspans^
yang dikembangkan dapat beradaptasi dengan baik pada domain yang berbeda. Penelitian serupa juga pernah dilakukan oleh Chang [2]. Hasil penelitian mereka dipublikasikan dalam Journal of the American Medical Informatics Association pada tahun 2002. Mereka membangun kamus online dari akronim bidang biomedical dan dapat menentukan akronim dan ekspansi yang ditulis secara tidak teratur. Mereka menggunakan regresi logistik dan memberi skor kepada pasangan akronim dan kandidat ekspansi berdasarkan kemiripan pasangan tersebut dengan data pembelajaran. Data pembelajaran yang digunakan adalah medstract yang merupakan kumpulan akronim dan ekspansi yang ditentukan secara manual. Algoritma yang dibangun kemudian diuji keakuratannya menggunakan data China Medical Tribune. Penelitian tentang ekstraksi akronim menggunakan Hidden Markov Models (HMMs) juga diperkenalkan oleh [3]. Model yang dikembangkan dapat menentukan akronim dalam bidang biomedik yang ambigius dan rumit.
3. EKSTRAK AKRONIM DAN EKSPANSI Dalam kajian ini, ada beberapa langkah yang dilakukan dalam menentukan akronim dan ekspansinya. Pertama, kandidat akronim dan ekspansi ditentukan seperti pada penelitian [1], kemudian fitur dan skor numerik untuk setiap pasangan ditentukan. Ketiga, proses pembelajaran dan pengujian algoritma menggunakan metode kNearest Neighbors dilakukan. 3.1 Membangkitkan Kandidat Akronim Bila A diasumsikan sebagai sebuah kata dalam teks, maka A dianggap sebagai kandidat akronim jika jumlah Ck atau huruf kapital dan angka dalam kata A, dibagi jumlah Cs yahu huruf dan angka pembentuk kata A melebihi threshold (75%). Dengan kata lain, penentuan kandidat akronim dihitung dengan pertidaksamaan berikut: f(A) = ^ ± >
0.75
3.2 Membangkitkan Kandidat Ekspansi
(1)
Setelah kandidat akronim ditemukan dalam sebuah kalimat maka kandidat ekspansi dibangkitkan dari teks yang mengelilingi kandidat akronim tersebut. Kandidat ekspansi dari sebuah akronim dibangkitkan menggunakan metode n-grams. Semua kata yang berada sebelum akronim disebut konten kiri dan semua kata yang berada setelah akronim disebut konten kanan [1]. Jika n adalah jumlah kata dari kandidat ekspansi, K merupakan kata pada konten kiri atau kanan, dan A merupakan huruf dan
angka pembentuk akronim, maka nilai n dite dengan persamaan berikut: M = min(£A:,;£> + 2)
Rumus tersebut digunakan untuk membatasi maksimum kata dalam kandidat kepanjangan akronim.
4. MENENTUKAN FITUR PASAN AKRONIM-EKSPANSI Fitur akronim-ekspansi merupakan skor ata. yang diberikan kepada setiap pasangan akronn kandidat ekspansinya berdasarkan karakteristi pasangan tersebut. Dalam kajian ini mendefiiiisikan lima fitur yang merepresct keterkaitan antara akronim dan ekspansinya. fitur tersebut adalah: 1) Fitur pertama merepresentasikan hubungar jumlah karakter pada akronim dengan ' pada ekspansinya. Jika A adalah pembentuk akronim baik yang ditulis huruf kapital maupun huruf kecil dan £ kata dalam ekspansi akronim yang bukzx penghubung dan kata depan maka n^a pertama ini dihitung dengan rumus: \( YA
,
YA
j(
YE .
Fi akan bernilai 1 jika jumlah I pembentuk akronim dan jumlah kata ekspansi adaiah sama dan akan bem. . sebaliknya. 2) Fitur kedua merepresentasikan rasio *. ekspansi yang huruf awalnya ditulis dea kapital. Jika EK adalah kata pada ekspa huruf awalnya ditulis dengan huruf tacmm kata tersebut tidak termasuk golongan tza dan kata penghubung dan Ek adalah t a t ekspansi yang huruf awalnya tidak k tidak termasuk kelompok kata depac penghubung dan \A\ merupakan panjaru maka F2 dihitung dengan persamaan berioK ' \A Bank Syariah Mandiri yang 3t ekspansi dari akronim BSM akan mezm F2 = 1 karena jumlah huruf kapital paea a ekspansi dan panjang akronim sama-saam 3 sementara jumlah huruf kecil paca m ekspansi tidak ada. Namun unci. Matematika dan Ilmu Pengetahuar - _J merupakan ekspansi dari FMIPA,fir_r• 0,80. SNATIKA 2011, ISSN 208.- : E
Penentuan Secara Otomatis Akronim dan Ekspansinya Dari Data TeksBemebasahdaTesa
pertama dalam ekspansi dan huruf terakhir akronim dengan huruf awal pada kata terakhir dalam ekspansi. Fitur ini dimaksudkan untuk menyelesaikan masalah akronim yang dibangun bukan sepenuhnya oleh huruf awal setiap kata ekspansinya. Jika A adalah huruf pembentuk akronim dan WE adalah huruf awal kata dalam ekspansi, maka keterkaitan ditunjukkan oleh persamaan berikut:
Fitur ketiga menilai keterkaitan antara huruf pada akronim dan kombinasi huruf pada kata dalam ekspansi. Karena sebuah akronim dapat disingkat berdasarkan huruf yang ada dalam ekspansinya, maka atas dasar tersebut fitur ketiga ini dibangun berdasarkan sesuaian huruf pada akronim dan huruf pada kata ekspansinya. Algoritma penentuan fitur ketiga ini adalah:
F ^ A
1
= W E
F 4 = Al = F4
1
A A „
WEL
=AL*WEL
=WE„
->1
vA„ = WE„ - > 0.5 AAN*WEN
(6)
-»0
5) Fitur kelima diperkenalkan karena ekspansi dari sebuah akronim biasanya tidak mengandung banyak kata depan dan kata penghubung. Fitur ini bernilai rendah xmtuk ekspansi yang memuat banyak kata depan dan kata penghubung dan sebaliknya. Jika S merupakan kata depan atau kata penghubung dalam ekspansi dan W adalah kata-kata pembentuk ekspansi maka fitur Fs dapat dihitung dengan rumus:
penieciksnhinuf . akronimpc] dcnnn setiap huruf pada km tkjpanlirki
Ckmbar 1. Algoritma penentuan fitur F3 • i , dan S„ adalah skor positif dan negatif dan •a_ah huruf-huruf pembentuk akronim, maka anmuskan sebagai berikut
(5) aketahui FbPS merupakan akronim dari Prabowo Subianto maka berdasarkan nna pada di atas, langkah awal yang • a n adalah memeriksa huruf awal akronim • kiruf awal pada kata pertama dalam e=. Karena huruf F cocok dengan kata • a calam ekspansi yaitu Facebook maka renjadi 1. Selanjutnya, huruf b pada • t ibandingkan dengan huruf awal kata - - i— ekspansi yaitu P dari kata Prabowo. sesuai maka huruf b kemudian ^ « dengan setiap huruf pada kata dalam ekspansi yaitu Facebook. ~d pertama dalam kata tersebut tidak Trav-Untuk contoh ini, karena huruf b subkata book, maka huruf b pada • t r e a l perhitungkan. Selanjutnya huruf P i ^ p o r dengan huruf awal kata Prabowo. •tt .'- sekarang bernilai 2. Terakhir, huruf S •^aa.- dengan huruf awal kata Subianto •a -eniadi 3. Karena panjang akronim ': itanpa memperhitungkan huruf b "3= FbPS) dan Sp juga bernilai 3 remilai 0, maka fitur F j bernilai 1. -enunjukkan hubungan antara - ::nim dengan huruf awal kata
F
5
=l-
dimana
(7) Sebagai contoh, pasangan akronim dan ekspansi FMIPA - Fakultas Matematika dan Ilmu Pengetahuan Alam. Jumlah kata dalam ekspansi akronim FMIPA adalah 6 dan jumlah kata penghubung dalam ekspansi adalah 1 yaitu kata 'dan'. Oleh karena itu maka nilai F5 untuk pasangan tersebut adalah 0,83.
5. D A T A 5.1 Data Pembelajaran {Training Set) Jumlah data pembelajaran yang digunakan dalam penelitian ini sebanyak 4.570 pasangan akronim dan ekspansi yang dibangun menggunakan tahapan yang telah diuraikan pada sub bab sebelumnya. Setiap pasangan diberi klas {label) secara manual. Pasangan akronim dan ekspansi yang benar diberi klas 1 dan pasangan yang salah diberi klas 0. Dari 4.570 data pembelajaran, ditemukan sebanyak 54 pasangan dengan klas 1. Pasangan tersebut adalah pasangan akronim dan ekspansi yang benar, sedangkan 4.516 pasangan dengan klas 0 merupakan pasangan akronim dan ekspansi yang salah. 5.2 Data Pengujian {Testing Set) Data pengujian digunakan untuk menguji tingkat akurasi dari algoritrna yang dikembangkan. Data pengujian diekstrak dari 4 situs berbeda berbahasa Indonesia yaitu www, mediaiurnalindonesia. com, www.okezone.com, www.republika.com, dan portal
S N A T 1 K A 2 0 1 1 . I S S N 2089-10831
117
Penertuan Secara Otomatis Akronim dan E k ^
sosial, dari budaya. Pada masing-masing situs diambil 50 dokumen. Secara rinci, jumlah data pengujian dari situs Okezone.com adalah I7.258i portal Detik.com adalah 15.731, Media Jurnal Indonesia adalah 18.970, dan situs Republika.com sebanyak 27.370. 5.3 Precision, Recall dan F-Score Dalam penelitian ini, Precision, Recall, dan FScore dihitung untuk mengevaluasi akurasi dari algorhma yang diusulkan. Precision mengukur jumlah pasangan akrcnim dan ekspansi yang relevan dibagi dengan total pasangan akronim dan ekspansi yang ada, sementara Recall didefinisikan sebagai jumlah pasangan akronim dan ekspansi yang berhasil dhemukan. Rumus Precision dan Recall adalah [4]: TP P-; (8) TP+FP
K
Actual
K=3
+
k=S
+
k=7
2pr
(9)
p+r
K=3
k=5
k=7
84
29
6
17139
84
29
6
17139
84
29
6
1 1 1
Sum
3
2
15673
53
1
2
15673
15731
0.66
0.96
USS
15731
0.96
0.95
15731
0.96
0.95
OK
Classified
18876
k
Actual
k=i
+
k=5
k=T
18970
0.95
0.90
18970
0,95
0.90
18970
0.95
Classified + 103
23
5
27233
103
23
5
27239
103
23
5
27239
Sum
Precision
Recat
27370
095
0.82
:*
27370
0.95
0.82
im
27370
095
082
:•
Tabel 5 dan 6 secara berurut merangkum contoh pasangan akt onirn dan ditentukan secara benar dan salah oleh yang dikembangkan.
Akronim
Tabel 1. Hasil klasifikasi data Okezone.com Classified
53
F-sccte
Tabel 5. Contoh akronim dan ekspansi yang
Setelah fitur pasangan akronim dan ekspansi dari tulisan teks berbahasa Indonesia dhentukan, algoritma yang dikembangkan kemudian diuji mengunakan data pengujian dan metode k-Nearest Neighbors (k-NN) [5]. Tabel 1, 2, 3, dan 4 memperlihatkan hasil pengujian terhadap masingmasing domain.
•
15673
Recat'
0)
6. HASIL PENGUJIAN
Actual
3
2
Precision
Tabel 4. Hasil klasifikasi data Republikaj
TP atau True Positive adalah jumlah hasil klasifikasi yang benar dari data berklas positif. FN atau False Negative adalah jumlah hasil klasifikasi yang salah dari sampel dengan klas positif. FP atau False Positive adalah jumlah hasil klasifikasi yang salah dari sampel dengan klas negatif dan T N atau True Negative adalah jumlah hasil klasifikasi yang bcnar dari sampel dengan label negatif Selanjutnya, FScore yang merupakan Harmonic mean dari precision dan recall [4] dapat dihitung dengan rumus:
k
53
Sum
Tabel 3. Hasil klasifikasi data Jurnal Indonesia
TP r =• TP + FN
F =
Classified
+
Precision
Recall
F-score
COAST CD-ROM DPR FeRAM
Tabel 6. Contoh akronim dan ekspansi >ang
17258
0.93
0.74
0.83
17258
0.93
0 74
083
17258
0.93
0 74
083
Tabel 2. Hasil klasifikasi data Detik.com
ATM BPM FhPS LP3I
Ekspansi UjianNasional Anjungan Tunai Mandiri Badan Pemberdayaan NLFacebook Prabowo SuboMi Lembaga Pengembangan Profesi'. Cache On A Stick Compact Disk Read OnI> V Dewan Perwakilan Rak~ E Ferroelectric Random Memory
Akronim HMSP PTBA BPMIGAS PT TPI KSSK
Ekspansi H M Sampoerna PT Tambang Batubara Badan Pelaksana Keg:. Hulu Minyak dan Gas E. perekonomian tambL tangkapan ikan khususnya mengenai katanya SNATIKA 2011, JSSN
2089-"
A
Penentuan Secara Otomatis Akroram dan Ekspanar^a Dan DanTacs
ITB PKP2B
internasional yang bersifat pertambangan KP BUMN
7. KESIMPULAN Keberhasilan dalam menentukan akronim dan esspansinya secara otomatis sangat tergantung pada jenis akronim. Algoritma yang diperkenalkan ini atpat menebak dengan baik akronim yang nerupakan kombinasi antara huruf awal atau kombinasi antara huruf awal dan huruf selanjutnya. Algoritma gagal menebak akronim dan ekspansi ?ang terbentuk dari gabungan karakter kata tetapi ^CTmgan kata tersebut tidak ditulis menggunakan iuiuf kapital seperti Panja, Bappeda, atau Unsyiah. fcnun, algoritma dapat menentukan akronim•ronim tersebut bila akronim tersebut ditulis •ffijadi PANJA, BAPPEDA, atau UNSYIAH. .Algoritma yang diperkenalkan dalam paper ini •Bcihki tingkat akurasi lebih dari 89%, namun tidak • B E menentukan kandidat akronim dalam tulisan j n a jumlah huruf kecil dalam akronim lebih dari 2?% dari total huruf pembentuk akronim. DAFTAR REFERENSI ." Xu, Y. Huang, "Using SVM to Extract Acronyms from Text: Soft Computing - A Fusion v Foundations", Methodologies and Applications, 11:369-373, 2006. I Chang, H. Schutze, R. Altman, "Creating an Online Dictionary of Abbreviations from MEDLINE", Journal of the American Medical jcbrmatics Association, p. 613-620,2002. 3 A Osiek, Xexeo, G. de Carvalho, "A ge-Independent Acronym Extraction Biomedical Texts with Hidden Markov Models", Journal of IEEE Trans, on Biomedical mgneering, vol. 57(11), p. 2677 - 2688, 2010. E Liu, "Web Data Mining', Springer Berlin aecselberg, New York, 2007. . NL Cover, P. E. Hart, Nearest neighbor • • e r a classification. IEEE Transaction on Mkrmation Theory, 13:21-27, 1967.
SNATIKA 2011, ISSN 2089-1083|
119