THE 5TH URECOL PROCEEDING
18 February 2017
UAD, Yogyakarta
KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR Dewi Pramudi Ismi 1), Ardiansyah 2) Program Studi Teknik Informatika, Fakultas Teknologi Industri, Universitas Ahmad Dahlan email:
[email protected] 2 Program Studi Teknik Informatika, Fakultas Teknologi Industri, Universitas Ahmad Dahlan email:
[email protected] 1
Abstract Dalam berbagai keperluan administrasi, pengisian formulir/borang secara manual masih banyak dilakukan di Indonesia. Hal ini menyebabkan terdapat banyak data yang masih tersimpan dalam bentuk kertas (hardcopy). Data-data tersebut perlu diubah ke dalam bentuk digital agar dapat disimpan dan diolah lebih lanjut menggunakan komputer. Pada kondisi saat ini, peng-input-an data dari kertas (hardcopy) ke dalam bentuk softcopy pada komputer pada umumnya dilakukan oleh operator manusia. Proses ini tentunya membutuhkan waktu, tenaga dan biaya yang tidak sedikit jika data yang harus diubah ke dalam bentuk digital berjumlah banyak. Penelitian ini adalah bagian awal dari penelitian besar yang bertujuan untuk melakukan digitalisasi data formulir/borang secara otomatis. Penelitian ini memiliki objektif yaitu melakukan klasifikasi citra hasil scan dokumen formulir/borang. Metode yang digunakan pada klasifikasi ini adalah Support Vector Machine (SVM). Klasifikasi citra dilakukan dengan menggunakan 100 data training dan 50 data testing yang terdiri dari citra formulir/borang dan citra non formulir/borang. Output dari penelitian ini adalah perangkat lunak yang mampu mengidentifikasi citra yang merupakan citra formulir/borang dan citra non formulir/borang. Dari hasil pengujian yang dilakukan, ketepatan klasifikasi citra formulir/borang dengan metode SVM ini mencapai 98%. Keywords: pengolahan citra, klasifikasi, support vector machine, digitalisasi formulir/borang 1. PENDAHULUAN
government yang sistematis, realistis dan terukur.
Salah satu tujuan dari e-government menurut [1] adalah terciptanya managemen yang efisien bagi pemerintah sehingga dapat menekan biaya operasional, transparansi data, dan meningkatnya kenyamanan birokrasi. Di negara Republik Indonesia kebijakan mengenai e-government tertuang dalam Peraturan Presiden no. 3 tahun 2003 yang meliputi (a) pengembangan pelayanan atau servis yang terpercaya dan dapat dijangkau, (b) restrukturisasi sistem management dan proses kerja pemerintah daerah dan pemerintan pusat, (c) pemanfaatan teknologi informasi yang optimal, (d) peningkatan partisipasi dari sektor bisnis serta perkembangan industri TIK, (e) pengembangan sumber daya manusia pada instansi pemerintah dan peningkatan eliteracy, serta (f) pengembangan e-
Peraturan Presiden tersebut dilengkapi dengan guideline tentang pengembangan egovernment yang dikeluarkan oleh Departemen Komunikasi dan Informatika pada tahun 2003. Guideline yang dikeluarkan tersebut berkaitan dengan (a) pengembangan infrastruktur portal pemerintah, (b) pengelolaan dokumen elektronik pemerintah, (c) rencana pengembangan e-government, (d) pelatihan TIK untuk mendukung implementasi e-government, (e) serta implementasi website dari pemerintah daerah. Berkaitan dengan pengelolaan dokumen elektronik pemerintah, pada berbagai instansi di Indonesia, dokumen-dokumen yang berupa hardcopy masih digunakan. Dalam berbagai keperluan administrasi, pengisian formulir/borang secara manual masih
1274
THE 5TH URECOL PROCEEDING
18 February 2017
dilakukan. Penyebab terbesar penggunaan dokumen hardcopy adalah belum adanya implementasi aplikasi paperless pada instansiinstansi terkait. Sebagai contoh, untuk pembuatan Kartu Tanda Penduduk (KTP) yang baru atau untuk mengubah informasi pada KTP, seseorang harus mengisi formulir/borang permohonan yang berbentuk hardcopy. Tidak hanya pembuatan KTP, dalam administrasi kependudukan yang lainnya juga masih menggunakan formulir/borang hardcopy. Hal ini menyebabkan terdapat banyak data yang masih tersimpan dalam bentuk kertas (hardcopy) pada instansi pemerintah. Data-data yang berbentuk hardcopy tersebut perlu diubah ke dalam bentuk digital agar dapat disimpan dan diolah lebih lanjut menggunakan komputer. Pada kondisi saat ini, peng-input-an data dari kertas (hardcopy) ke dalam bentuk softcopy pada komputer pada umumnya dilakukan oleh operator manusia. Proses ini tentunya membutuhkan waktu, tenaga dan biaya yang tidak sedikit jika data yang harus diubah ke dalam bentuk digital berjumlah banyak. Pemanfaatan teknologi informasi secara umum, dan sistem cerdas secara khusus, dapat membantu menyelesaikan permasalahan digitalisasi formulir/borang secara otomatis. Penelitian ini merupakan bagian awal dari penelitian besar yaitu membangun sistem yang dapat membaca dan mengekstrak data yang terdapat pada citra hasil scan formulir (digitalisasi formulir /smart paperwork system). Pada penelitian ini, dilakukan klasifikasi citra formulir dan citra non formulir. Hasil yang diharapkan adalah sebuah sistem yang mampu mengindentifikasi citra yang merupakan hasil scan formulir dan citra non formulir. 2. KAJIAN LITERATUR Pada bagian ini akan dipaparkan kajian teori tentang klasifikasi, metode Support Vector Machine, dan klasifikasi citra. a. Klasifikasi Klasifikasi merupakan proses analisis data untuk memperoleh label atau kelas dari data yang belum
1275
UAD, Yogyakarta
diketahui label/kelasnya berdasarkan data-data historis yang telah diketahui label atau kelasnya [2]. Label atau kelas bersifat diskret dan jumlahnya terbatas. Pada klasifikasi, model atau classifier dibagun dengan data-data historis yang diketahui label/kelasnya melalui proses training. Data yang digunakan pada fase training disebut data training. Setelah model dibentuk, pengujian dilakukan untuk mengetahui kualitas model/classifier. Pengujian dapat dilakukan menggunakan data-data baru, yaitu data-data yang tidak digunakan pada proses training. Pengujian juga dapat dilakukan dengan data-data yang sudah digunakan pada proses training sejumlah porsi tertentu. Pengujian yang kedua ini disebut sebagai cross validation [3]. b. Support Vector Machine (SVM) Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vladimir Vapnik, Bernhard Boser, dan Isabell Guyon pada tahun 1972. Konsep dasar SVM adalah menggunakan garis lurus untuk memisahkan dua kelas data yang berbeda. Karena menggunakan garis lurus, maka dua kelas data yang dapat dipisahkan dengan cara demikian disebut sebagai linearly separable. Sedangkan dua kelas yang tidak dapat dipisahkan dengan menggunakan garis lurus disebut sebagai non linearly separable. Untuk memisahkan dua kelas data yang berbeda, terdapat banyak garis lurus yang mungkin dibuat. Oleh karena itu, pada SVM dipilih sebuah garis lurus yang dapat memisahkan kedua kelas data dengan minimal kesalahan pengelompokan (misclassification) yang dihasilkan. Dengan kata lain garis lurus yang dipilih adalah garis lurus yang
THE 5TH URECOL PROCEEDING
18 February 2017
memiliki margin terbesar untuk memisahkan kedua kelas data. Garis lurus yang demikian adalah garis lurus dimana jarak terpendek antara garis tersebut dengan data di kelas pertama sama dengan jarak terpendek garis tersebut dengan data pada kelas kedua. Gambar 1 berikut ini menunjukkan garis lurus yang memiliki margin yang besar dan garis lurus yang memiliki margin yang kecil.
UAD, Yogyakarta
yang memisahkan kelas pertama dan kelas kedua: H1 :w0+w1x1+w2x2 ≤1 untuk yi = +1 ..(1) H2 :w0+w1x1+w2x2 ≤-1 untuk yi = -1 ..(2)
Data yang terletak di atas H1 termasuk dalam kategori kelas pertama, sedangkan data yang terletak di bawah H2 termasuk ke dalam kategori kelas kedua. c. Klasifikasi Citra Klasifikasi yang dilakukan pada data yang berbentuk citra pada umumnya ditempuh dengan langkah-langkah sebagai berikut: 1. Komputasi deskriptor (dense sift descriptor) dari setiap data citra 2. Membangun visual vocabulary dari data citra yaitu dengan memasukkan sampel dari deskriptor ke dalam k-means clustering atau kdtree. Visual vocabulary didapatkan dengan menggunakan hasil clustering. 3. Komputasi histogram spasial dan feature map dari setiap data citra 4. Feature map digunakan sebagai data training pada model classifier yang digunakan 5. Menguji model klasifikasi yang dibentuk dengan data citra testing
Gambar 1. Garis lurus pemisah dua kelas yang memiliki margin kecil dan margin besar
Pada data yang lebih dari dua dimensi (memiliki lebih dari dua atribut/fitur), maka garis pemisah antar kelas adalah sebuah bidang yang disebut sebagai hyperplane. Fungsi hyperplane atau garis lurus didefinisikan seperti pada persamaan (1). w0+w1x1+w2x2 …………….(1)
=
0
Kelas pertama berada di atas
garis lurus, sedangkan kelas kedua berada di bawah garis lurus. Persamaan (2) dan persamaan (3) adalah adjustment (lihat garis putus-putus pada Gambar 2) dari persamaan 1 sehingga terlihat margin
3. METODE PENELITIAN Penelitian ini dikerjakan melalui tahapantahapan berikut ini:
1276
a. Pengumpulan Data Training dan Data Testing
THE 5TH URECOL PROCEEDING
18 February 2017
Data training yang digunakan untuk membangun model classifier adalah citra scan formulir sejumlah 50 citra dan citra non-formulir yang diambil random sejumlah 50 citra. Baik citra formulir maupun citra non formulir yang digunakan pada penelitian ini diambil dari internet. Berikut ini Gambar 2 adalah contoh sebagian dari citra formulir yang digunakan pada penelitian ini.
UAD, Yogyakarta
data citra formulir yang digunakan untuk training
Sedangkan citra non formulir yang digunakan sebagai data training adalah gambar yang bukan merupakan formulir seperti gambar benda-benda. b. Preprocessing Citra Sebelum dilakukan pembangunan model SVM, dilakukan preprocessing citra yang akan dipakai sebagai data training. Preprocessing yang dimaksud meliputi tahap-tahap pada Gambar 3 berikut ini:
(a)
(b)
Gambar 3. Tahap-tahap preprocessing data citra sebelum digunakan untuk training
Pada tahap preprocessing ini, semua proses dilakukan dengan menggunakan library vl_feat [4] yang merupakan library untuk pemrosesan citra.
(c)
c. Training Model Klasifikasi : SVM Training dilakukan untuk membangun model klasifikasi. Pada penelitian ini model yang akan dibangun untuk klasifikasi citra formulir dan citra non formulir adalah Support Vector
(d) Gambar 2. (a)(b)(c)(d) merupakan contoh
1277
THE 5TH URECOL PROCEEDING
18 February 2017
Machine (SVM), yang tergolong dalam supervised learning. Sehingga, pada saat training, disediakan label untuk masing-masing data citra. Training dilakukan dengan menggunakan 100 data citra, terdiri dari 50 citra formulir yang diberi label F, dan 50 citra non formulir yang diberi label NF. Pada penelitian ini, SVM yang digunakan berasal dari library liblinear [5]. d. Pengujian Model Pengujian model classifier pada penelitian ini menggunakan dua metode, yaitu 1. Pengujian menggunakan data di luar data training Pada pengujian ini digunakan 50 data citra yang terdiri dari 25 citra formulir dan 25 citra non formulir. Semua data citra tersebut tidak termasuk pada data citra yang digunakan untuk training model classifier. 2. Pengujian menggunakan data training dengan metode 10 fold cross validation 4. HASIL DAN PEMBAHASAN Klasifikasi citra formulir menggunakan metode Support Vector Machine memberikan akurasi yang cukup tinggi yaitu di atas 90%. Hal ini berarti bahwa tingkat kesalahan prediksi citra formulir rendah yaitu kurang dari 10% pada setiap iterasi pengujian. a. Pengujian dengan 50 Data Citra Di luar Data Training Hasil pengujian menggunakan 50 citra yang tidak termasuk dalam data training menghasilkan akurasi sebesar 98%. Citra sejumlah 50 ini terdiri dari 25 citra formulir dan 25 citra non formulir. Terdapat satu buah citra formulir yang diklasifikasi sebagai citra non formulir (klasifikasi yang
1278
UAD, Yogyakarta
salah). Confusion matrix untuk hasil pengujian ini pada Tabel 1 sebagai berikut: Tabel 1 Confusion Matrix Pengujian
Aktual Formulir Aktual NonFormulir
Prediksi Formulir
Prediksi NonFormulir
24
1
0
25
Citra formulir yang salah diklasifikasikan sebagai non formulir adalah citra berikut:
Gambar 4. Citra formulir yang salah diprediksi sebagai non formulir oleh SVM
Meskipun citra di atas adalah citra formulir namun karena adanya watermark yang dominan pada badan formulir sehingga classifier mengkategorikan citra tersebut pada kelas NF. b. Pengujian dengan Metode 10 fold cross validation Selain menggunakan data yang telah digunakan untuk proses training, pengujian juga dilakukan dengan metode 10 fold cross validation. Pada pengujian ini dilakukan 10 iterasi, dimana masing-masing iterasi menggunakan 50% dari data training (50 data citra) yang dipilih secara
THE 5TH URECOL PROCEEDING
18 February 2017
random dan terdiri dari citra formulir dan citra non formulir untuk diprediksi masing-masing kelasnya. Akurasi klasifikasi yang diperoleh melalui pengujian ini seperti pada Tabel 2 sebagai berikut:
6. DAFTAR PUSTAKA [1] A. Rokhman, E-government Adoption in Developing Countries: the Case of Indonesia, Journal of Emerging Trends in Computing and Information Sciences, Vol.2, No.5, May 2011, pp 228-236. [2] J. Han, M.Kamber, Data Mining Concepts and Techniques, 2nd Edition, Morgan Kaufmann, San Fransisco: 2006.
Tabel 2 Akurasi Klasifikasi Pengujian 10 Fold Cross Validation
Iterasi ke1 2 3 4 5 6 7 8 9 10
Akurasi Klasifikasi 100% 100% 100% 100% 100% 100% 100% 100% 100% 100%
UAD, Yogyakarta
[3] E. Alpaydin, Introduction to Machine Learning, 3nd Edition, MIT Press, 2004. [4] VLFeat http://www.vlfeat.org/
library:
[5] Liblinear library :https://www.csie.ntu.edu.tw/~cjlin/libli near/
Pengujian dengan menggunakan 10 fold cross validation menghasilkan akurasi sempurna yaitu 100%. Hasil ini dapat dipahami karena pengujian dilakukan menggunakan data yang sebelumnya telah digunakan untuk training. 5. KESIMPULAN DAN SARAN Pada penelitian ini metode Support Vector Machine (SVM) telah digunakan untuk melakukan klasifikasi citra hasil scan formulir dan membedakan citra formulir dan citra non formulir. Akurasi yang didapatkan tinggi yaitu 98%, sehingga Support Vector Machine dapat disimpulkan efektif untuk melakukan klasifikasi citra formulir. Hasil penelitian ini merupakan langkah awal untuk pengembangan smart paperwork system. Untuk selanjutnya, penelitian ini dapat dikembangkan dengan melakukan segmentasi nama field dan segmentasi isi field pada citra formulir/ borang.
1279