Klasifikasi Huruf Korea (Hangul) dengan Metode Template Matching Correlation Disya Nadia Putri1, Febria Rafmadhanty2, I Putu Megantara3, Irma Nur Jayanti4, Kentia Dea Hapsari5 email :
[email protected],
[email protected],
[email protected],
[email protected],
[email protected] ABSTRAK Dalam paper ini, kami menjelaskan tentang pengklasifikasian huruf Korea (Hangul) dengan menggunakan metode template matching correlation. Topik ini kami pilih karena saat ini budaya Korea yang semakin populer di Indonesia, sehingga membuat banyak masyarakat kita yang ingin belajar bahasa Korea. Salah satu kunci dari pembelajaran bahasa Korea adalah hurufnya yang dinamakan huruf Hangul, oleh karena itu kami membuat aplikasi yang dapat digunakan untuk mengklasifikasikan huruf tersebut. Tujuannya adalah agar dapat mempermudah penggunanya untuk belajar huruf Hangul dengan aplikasi kami. Tahapan pertama dari metode template matching correlation adalah tahap pre-processing, yang meliputi proses resize image, grayscale dan threshold. Tahap kedua adalah tahap ekstraksi fitur yang akan mengambil fitur-fitur optimum yang nantinya digunakan saat tahap pengklasifikasian. Tahap ketiga adalah tahap klasifikasi yang akan menghitung nilai kedekatan inputan dengan semua template huruf Hangul yang ada (nilai korelasi) dengan menggunakan rumus. Tahap terakhir adalah tahap decision yang akan menentukan kelas dari inputan dengan mencari nilai korelasi terbesar yang telah dihitung sebelumnya. Dari ujicoba yang dilakukan, didapat bahwa aplikasi ini dapat mengklasifikasikan citra yang diinputkan ke huruf Hangul dengan tingkat keakuratan sebesar 83,333% dari 24 data uji yang digunakan. Posisi huruf dan jenis font yang digunakan pada data testing sangat berpengaruh terhadap hasil klasifikasi. ABSTRACT In this paper we explain about Korean letters (Hangul) classification with Template Matching Correlation method. We choose this topic because Korean culture has been really popular in Indonesia these days, thus makes a lot of Indonesian people want to learn Korean language. One of the key elements of learning Korean language is the letters (called by Hangul), so we made an application that can be used to classify this letters. The main purpose of this application is to make learn Hangul letters easier with our application. The first stage of Template Matching Correlation method is pre-processing stage, consists of image resizing process, grayscale conversion, and image thresholding. The second stage is feature extraction which will find efficient features to be used in classification stage. The third stage is classification stage which will count the similarities between input and all Korean letters template (correlation value) with given formulation. The last stage is decision stage that will determine the class of input by finding the biggest correlation value which already counted on the previous stage. From the conducted evaluation, this application was able to classify the images into Hangul letters in the percentage of 83.333% from 24 testing data. The position of letters and the font type on the testing data are both really affects classification output. Kata kunci : Template Matching Correlation, Hangul, Korean Letters 1. Pendahuluan Populernya budaya Korea di Indonesia menyebabkan besarnya minat penduduk Indonesia untuk mempelajari bahasa Korea. Pembelajaran bahasa Korea ini bisa dengan cara belajar berbicara, membaca, menulis, ataupun dengan mendengarkan. Ketika seseorang ingin belajar untuk membaca dan menulis bahasa Korea, maka orang itu akan perlu untuk mempelajari huruf resmi negara Korea yang dinamakan huruf Hangul. Namun bentuk huruf Hangul yang tidak familiar bagi orang Indonesia pasti akan memberikan kesulitan pada saat proses awal belajar. Oleh karena itu muncullah ide untuk membuat sebuah aplikasi yang dapat mengklasifikasikan citra inputan pengguna ke dalam huruf Hangul dengan
metode Template Matching Correlation. Diharapkan dengan adanya aplikasi ini akan memberikan kemudahan kepada penggunanya untuk belajar huruf Hangul dan juga dapat mengenalkan huruf Hangul kepada mereka yang belum mengenalnya. Seperti yang telah disebutkan sebelumnya bahwa metode yang digunakan untuk pengklasifikasian adalah metode Template Matching Correlation. Menurut Jurie [1], Template Matching merupakan metode pengolahan citra digital untuk menemukan bagian-bagian kecil dari gambar yang cocok dengan template gambar dan merupakan metode yang paling populer untuk mendapatkan informasi dari media gambar. Dalam metode ini dikenal pencarian fitur tertentu atau
target dari waktu ke waktu yang didasarkan pada perbandingan isi setiap gambar dengan sample template. Sedangkan menurut Roberto Brunelli [2], template matching adalah suatu teknik untuk mengukur kesamaan dari dua gambar digital, untuk menentukan apakah mereka adalah sama atau tidak. Sehingga dapat disimpulkan dimana pengertian template matching merupakan teknik untuk mengukur kesamaan dari gambar dengan template gambar, dengan pencarian fitur tertentu diantara keduanya. Untuk template matching correlation sendiri pengertiannya adalah metode pencocokan setiap piksel pada suatu matriks citra digital dengan citra yang menjadi acuan untuk menguji kedekatan sebuah data dengan yang lain. Sehingga pada metode template matching correlation, nantinya akan terdapat data yang dijadikan referensi untuk dibandingkan dengan data yang akan diuji. Semakin besar nilai perhitungan korelasinya, maka kemiripan antara data uji dengan sample template yang bersangkutan semakin besar. Metode korelasi ini memiliki nilai keakuratan yang cukup besar atau tepat. Namun metode ini memiliki kekurangan yaitu penyimpanan data yang besar. 2. Dasar Teori Template matching correlation merupakan metode pencocokan setiap piksel pada suatu matriks citra digital dengan citra yang menjadi acuan untuk menguji kemiripan sebuah data dengan yang lain. Pencocokan citra yang menghasilkan tingkat kemiripan / kesamaan yang tinggi menentukan suatu citra tersebut dikenali sebagai salah satu dari citra template. Data inputan dan template gambar, nantinya akan menghasilkan data berupa matriks. Dan akan dicari nilai kesamaan antar dua buah matriks tersebut dengan menghitung nilai korelasinya. Nilai korelasi dua buah matriks didapatkan dengan menggunakan rumus korelasi seperti yang ditunjukkan pada perhitungan 2.1 berikut ini [3].
=
∑ ̅ . ̅
∑ ̅ . ∑ ̅
............ (2.1)
Nilai ̅ dirumuskan dengan persamaan 2.2 dan ̅ dirumuskan dengan persamaan 2.3 [4].
adalah jumlah piksel dalam suatu matriks 3. Metode Penelitian Metode yang digunakan adalah metode Template Matching Correlation. Secara umum tahap-tahap yang dilakukan pada metode tersebut antara lain yaitu input, pre-processing, feature extraction, classification dan decision. Seperti yang ditunjukkan pada gambar 1 dibawah ini.
Gambar 1. Tahap-tahap pada metode Template Matching Correlation. Untuk pengertian pada masing-masing tahapannya dapat dilihat pada penjelasan berikut ini. 3.1 Input Pada proses ini akan diinputkan citra uji yang formatnya berupa .jpg untuk dikenali hurufnya. 3.2 Preprocessing Proses ini digunakan untuk penyamaan ukuran matriks yang nantinya akan dicocokan dengan algoritma Template Matching Correlation. Terdapat 3 hal yang dilakukan pada tahap ini yaitu: •
Resize Pada tahap ini dilakukan pengubahan ukuran citra menjadi 15x15 piksel. Ada kalanya ukuran citra berubah menjadi lebih kecil dari file aslinya, namun bisa juga terjadi yang sebaliknya. Tujuan dari proses ini adalah agar matriks citra yang dicocokkan dengan metode Template Matching Correlation akan sama dengan template citra huruf yang sudah ada.
•
Grayscale Pada tahap ini dilakukan pengubahan warna citra menjadi keabu-abuan. Tujuan dari proses ini adalah untuk mempermudah pada saat citra
̅ = 1 ∑ ........................... (2.2) ̅ = 1 ∑ ........................... (2.3)
Keterangan : adalah nilai korelasi antara dua buah matriks (rentang nilai antara -1 dan +1) adalah nilai piksel ke-k dalam matriks i adalah nilai piksel ke-k dalam matriks j ̅ adalah rata-rata nilai piksel matriks i ̅ adalah rata-rata nilai piksel matriks j
masuk ke tahap threshold. Grayscale sendiri merupakan citra digital yang hanya memiliki satu nilai kanal pada setiap pikselnya, atau dengan kata lain bagian Red = Green = Blue. Nilai tersebut, digunakan untuk menunjukkan suatu tingkat intensitas. Pada proses ini, masing-masing piksel RGB (Red Green Blue) dari citra diambil nilainya, dihitung rataratanya dari ketiga nilai RGB tersebut, dan diinisialisasi dengan nilai rata-ratanya sehingga tercipta warna keabu-abuan dari matriks citra yang telah dilakukan proses grayscale. •
Threshold Pada tahap ini dilakukan pengaturan warna pada tiap piksel berdasarkan nilai dari intensity threshold. Nilai intensity threshold yang ada di program kami adalah 127. Jika nilai piksel citra lebih rendah dari nilai intensity threshold, maka piksel itu akan diinisialisasi dengan nilai piksel 1. Sedangkan nilai piksel citra yang awalnya lebih besar dari nilai intensity threshold (berupa background) akan diinisialisasi dengan nilai piksel 0. Proses ini bertujuan untuk memisahkan foreground dengan background dari suatu citra. Selain itu juga untuk mengubah warna citra menjadi biner dan penghilangan noise dari citra.
3.3 Feature Extraction Proses ini merupakan proses yang dilakukan untuk mencari ciri dari suatu citra, dimana nantinya citra tersebut akan dilakukan untuk proses klasifikasi dengan algoritma Template Maching Correlation. Terdapat 24 huruf Hangul yang dapat digunakan, yang ditunjukkan pada gambar 2 berikut ini.
Gambar 2. 24 macam Huruf Hangul. Yang disebut fitur dari citra adalah warna citra yang berbentuk biner per pikselnya. Sehingga jika citra berukuran 15 x 15 piksel, maka terdapat 255 fitur dari sebuah citra. Sedangkan untuk mencari ciri dari setiap huruf yang ada pada gambar di atas dilakukan pada proses training. Pertama kita gunakan lima jenis huruf Hangul. Kelima jenis huruf tersebut antara lain batang, un jamu dotum,
un pen, un shinmun, un yetgul [6]. Seperti yang ditunjukkan pada gambar 3, 4, 5, 6 dan 7. Kemudan kelima jenis huruf tersebut akan dilakukan proses “OR” terhadap masing-masing pikselnya sehingga akan ditemukan nilai matriks citra baru (template) per huruf yang akan dibandingkan dengan data uji yang ada.
Gambar 3. Font Batang.
Gambar 4. Font Un Jamu Dotum.
Gambar 5. Font Un Pen.
Gambar 6. Font Un Shinmun.
Gambar 7. Font Un Yetgul. 3.4 Classification Pada proses classification, akan dihitung kesamaan antar dua buah matriks citra (nilai korelasi) dengan menggunakan rumus korelasi seperti yang telah dijelaskan pada dasar teori diatas. Setelah dihitung nilai korelasi antara citra inputan dengan citra template tiap huruf dengan rumus korelasi, kemudian akan didapatkan 24 buah nilai korelasi. 3.5 Decisions Pada proses ini dilakukan penentuan klasifikasi citra yang telah diuji. Dari semua nilai korelasi yang telah dihitung, diambil yang memiliki nilai korelasi tertinggi karena semakin besar nilai korelasi, maka semakin besar pula kemiripan citra inputan dengan template citra yang bersangkutan. 4. Hasil dan Pembahasan Data testing yang digunakan adalah 24 huruf Hangul yang berbeda jenis font-nya dengan data training yang sudah ada, dimana data training ini sudah dikenakan operasi OR sebelumnya. Pada masing-masing citra yang dilakukan uji coba, akan didapatkan nilai korelasinya dengan masing-masing data training yang telah didapat
sebelumnya. Contoh data testing dapat dilihat pada gambar 8 dan interface aplikasi dapat dilihat pada gambar 9.
Gambar 8. Data Testing.
Dari uji coba data testing sebanyak 24 citra yang dapat dilihat pada tabel 1,, didapat bahwa 83,333% dari data testing yang diujikan benar. Hal ini menunjukkan bahwa pengenalan pola dengan metode Template Matching ing Correlation mempunyai tingkat keberhasilan yang cukup tinggi, disertai dengan nilai korelasi yang berkisar antara 0,4 hingga 1.. Hal ini membuktikan bahwa korelasi antara matriks pada citra yang diuji dengan matriks pada data training mempunyai kemiripan yang cukup besar, sedangkan pada nilai korelasi dibawah 0,4 kurang memiliki kemiripan yang besar. besa Namun untuk beberapa kasus juga terdapat data testing dengan nilai korelasi yang besar tetapi memiliki tingkat kemiripan pola yang rendah. Untuk hubungan antara nilai korelasi dengan hasil klasifikasinya dapat dilihat dari grafik seperti yang ditunjukkan pada gambar 10 di bawah ini.
Gambar 10. Grafik hubungan ungan antara nilai korelasi dengan hasil klasifikasi. Gambar 9.. Interface Hangul Translator Translator. Tabel 1. Nilai Korelasi Data Testing Korelasi Data r Terbukti eunjin_a 0,3496665 Ya Unshinmun_a 0,5861427 Tidak H2drrm_a 0,6056342 Ya Unshinmun_ch 0,5044729 Ya Ungungseo_ch 0,4566295 Ya Ungungseo_h 0,595845 Ya Unshinmun_h 0,3942315 Ya Unshinmun_k 0,5192525 Ya Ungungseo_k 0,6236434 Ya Ungungseo_n 0,6467934 Ya Ungungseo_p 0,5144958 Ya Unshinmun_p 0,4471292 Ya H2drrm_s 0,7112910 Ya Unshinmun_ng 0,3766334 Ya Unshinmun_u 0,7246005 Ya Ungungseo_u 0,8649666 Ya Unshinmun_yo 0,4302049 Ya Ungungseo_yo 0,6221085 Ya Ungungseo_yu 0,4982547 Ya Unshinmun_yu 0,5488822 Ya H2drrm_yeo 0,3576064 Tidak H2drrm_b 0,06272401 Tidak Tidak H2drrm_d 0,4859638 H2drrm_r 0,6790811 Ya
Nilai korelasi (R) yang didapatkan dari percobaan berada pada range antara -1 hingga 1, sehingga nilai korelasi (R) dapat dinyatakan sebagai berikut : 1 1 [5] Jika nilai korelasi kedua matriks sama dengan 0 (nol), maka tidak terdapat hubungan antara anta kedua buah matriks tersebut. Jika ika nilai korelasinya 1 (satu), maka terdapat hubungan positif yang sempurna. Sedangkan edangkan jika nilai korelasinya -1 (negatif satu), maka terdapat hubungan linear negatif egatif yang sempurna dari kedua matriks yang dicocokkan dan dikatakan berkorelasi negatif. Kedua matriks dikatakan memiliki korelasi jika nilai korelasi berkisar antara 0 dan 1. Semakin besar nilai korelasi, maka semakin besar pula kemiripan matriks yang dibandingkan. ibandingkan. 5. Kesimpulan Kesimpulan yang didapatkan dari uji coba adalah sebagai berikut : 1) Template Matching Correlation merupakan metode pencocokan setiap piksel pada suatu matriks citra digital dengan citra yang menjadi acuan untuk menguji kedekatan sebuah data dengan yang lain.
2) Rentang nilai korelasi adalah antara -1 hingga 1. Jika nilai korelasinya semakin emakin mendekati 1 maka tingkat kesamaan antara data testing dengan template huruf yang bersangkutan semakin besar. 3) Posisi huruf dan jenis font yang di digunakan pada data testing sangat berpengaruh terhadap hasil klasifikasi. 6. Daftar Pustaka [1] Jurie, Dhome, Real Time me Template Matching, 2001, URL: http://citeseerx.ist.psu.edu/viewdoc/summary? doi=1-.1.1.11.1755, diakses 24 Mei 2013 [2] Brunelli R, Template Matching Techniques in Computer Vision: Theory and Practice the code companion, April 2009, URL : http://tev.fbk.eu/TM/html/, diakses 24 Mei 2013. [3] Fatta, Hanif Al, “Rekayasa Sistem Pengenalan Wajah”, Penerbit Andi, Yogyakarta, 2009 [4] Wilkinson, Barry and Michael Allen, “Parallel Programming - Teknik dan Aplikasi Menggunakan Jaringan Workstation & Komputerr Paralel”, Penerbit Andi, Yogyakarta, 2010 [5] Komputer, Wahana, “Teknik Pengolahan Image Bitmap dengan GIMP”, Penerbit Andi, Yogyakarta, 2004 [6] http://www.kamilian.net/korean/fonts/ http://www.kamilian.net/korean/fonts/, diakses 22 Mei 2013 Biodata Peneliti Disya Nadia Putri merupakan mahasiswa m kelahiran 6 Mei 1993. Disya mengambil jurusan Teknik Informatika di Universitas Brawijaya.
Febria Rafmadhanty merupakan mahasiswa m kelahiran 23 Februari 1994. Febria mengambil jurusan Teknik Informatika di Universitas Brawijaya.
I Putu Megantara merupakan m mahasiswa kelahiran 4 November 1992. Ganta mengambil jurusan Teknik Informatika di Universitas Brawijaya Brawijaya.
Irma Nur Jayanti merupakan m mahasiswa kelahiran 1 Januari 1994. Irma mengambil jurusan Teknik Informatika di Universitas Brawijaya.
Kentia Dea Hapsari merupakan m mahasiswa kelahiran 15 September 1993. Ken mengambil jurusan Teknik Informatika di Universitas Brawijaya.