BAB 1 PENDAHULUAN
1.1
Latar Belakang Informasi teks merupakan salah satu komponen penting dalam kehidupan manusia dalam hal berkomunikasi. Informasi teks dapat diperoleh dalam bentuk teks digital yang dapat dikenali oleh komputer maupun teks non digital seperti teks pada koran, majalah dan buku. Tentu saja teks digital dapat dengan mudah diolah oleh manusia karena sudah dalam format yang dikenali oleh komputer sehingga dapat dengan mudah dicopy dan paste. Lalu bagaimana dengan teks non digital ? Tentu saja teks non digital harus dimasukkan terlebih dahulu ke dalam komputer dengan menggunakan alat pemindai atau scanner. Namun teksteks pada buku yang telah dimasukkan ke dalam komputer ini tidak dikenali sebagai teks namun dikenali sebagai gambar. Oleh karena itu perlu proses lebih lanjut untuk mengubah teks non digital ini menjadi teks digital. Teknik untuk mengubah teks non digital menjadi teks digital disebut sebagai Optical Character Recognition
(OCR) atau secara harfiah dapat diartikan sebagai
pengenalan karakter optik. Banyak penelitian mengenai OCR terutama OCR untuk bahasa Latin seperti Inggris, Italia, Perancis dan lain sebagainya. Namun sekarang ini penelitian untuk bahasa Latin sudah mulai berkurang, yang menjadi tren penelitian saat ini adalah bahasa oriental seperti Chinese, Jepang, Korea (CJK), bahasa Arab dan diikuti oleh bahasa Hindi (Smith, Antonova, Lee, 2009). Bahasa
2 oriental menjadi bahasa yang cukup diminati saat ini, dari ketiga bahasa oriental tersebut bahasa Korea atau sering disebut sebagai Hangeul merupakan bahasa yang paling sederhana dan mudah untuk dipelajari. Oleh karena itu dalam penelitian akan fokus pada OCR untuk bahasa Korea. Penelitian ini akan menghasilkan suatu aplikasi untuk pengenalan karakter Hangeul Korea, mengingat bahwa teknologi yang sedang berkembang pesat saat ini adalah teknologi mobile, oleh karena itu pengenalan karakter Korea ini akan dikembangkan pada perangkat yang menggunakan platform Android. Android merupakan sistem operasi mobile phone open source yang berbasis Linux. Karena open source inilah tidak terlalu sulit untuk mendapatkan berbagai source yang dibutuhkan untuk pengembangan aplikasi. Pada proses pengenalan karakter Korea diperlukan suatu library Optical Character Recognition (OCR) yang handal dan telah teruji oleh penelitianpenelitian sebelumnya.
M enurut sebuah jurnal yang ditulis oleh Smith,
Antonova, dan Lee (2009), Tesseract Classifier pada Tesseract OCR memberikan hasil yang menakjubkan untuk karakter-karakter Simplified Chinese dengan rata-rata tingkat kesalahan hanya mencapai 3,77 % atau dengan kata lain sekitar 96,33% mampu mengenali karakter-karakter Simplified Chinese dengan baik. Oleh karena itu, berdasarkan keberhasilan yang telah diuji oleh peneliti sebelumnya, dalam skripsi ini digunakan Tesseract OCR open source engine untuk pengenalan karakter Hangeul Korea.
3 1.2
Perumusan Masalah Adapun perumusan masalah yang akan dibahas pada penelitian ini adalah
sebagai berikut: 1. Bagaimana Tesseract OCR dapat diterapkan dalam pengenalan karakter Korea pada image untuk platform Android? 2. Tahapan-tahapan apa saja yang harus dilakukan sebelum sebuah image yang berisi karakter Korea dapat dikenali? 3. Seberapa besar keakuratan program aplikasi dalam mengenali karakter Korea?
1.3
Ruang Lingkup Dalam skripsi ini diterapkan beberapa batasan masalah sebagai berikut, 1. Pengenalan karakter Korea dilakukan pada citra yang diambil menggunakan kamera ataupun hasil scan, namun bukan tulisan tangan. 2. Pengenalan karakter menggunakan dataset Tesseract OCR yang sudah dilatih sebelumnya pada sebuah file kor.traineddata. 3. Input citra harus berupa esktensi gambar yang didukung oleh Android dan Tesseract OCR, yaitu .jpeg, .gif, .png dan .bmp. 4. Silabel huruf yang diteliti adalah karakter Korea Hangul. 5. Aplikasi ini dirancang menggunakan bahasa pemrograman Java pada platform Android 2.2 API 8.
1.4
Tujuan dan Manfaat
1.4.1
Tujuan Adapun tujuan dari penulisan skripsi ini adalah sebagai berikut.
4 1. M enghasilkan suatu program aplikasi mobile yang dapat digunakan untuk pengenalan karakter Korea pada gambar dilengkapi dengan fitur untuk romanisasi karakter Korea serta menerjemahkan hasil pengenalan ke dalam bahasa Indonesia maupun bahasa Inggris. 2. M enguji keakuratan program aplikasi yang dikembangkan dalam mengenali karakter-karakter Korea pada image.
1.4.2
Manfaat M anfaat utama yang dapat diperoleh dari hasil perancangan program aplikasi ini
yaitu memberikan sumbangsih kepada masyarakat suatu teknologi mobile yang mudah dibawa kemana saja dan dapat digunakan untuk mengubah informasi teks Korea dalam bentuk non-digital ke bentuk digital. Selain itu, manfaat lain yang dapat diperoleh bagi peneliti lain yaitu memberikan referensi bagi karya ilmiah tentang masalah yang sama untuk bisa lebih berkembang dan lebih baik ke depannya.
1.5
Metodologi Penelitian M etode penelitian yang digunakan dalam skripsi ini adalah sebagai berikut : a. S tudi Pustaka
M encari buku-buku , artikel-artikel, dan jurnal-jurnal yang relevan dengan judul yang nantinya dapat digunakan sebagai penunjang.
b. Metode Analisis M etode analisis dalam skripsi ini dibagi dalam beberapa tahap :
5 1. M empelajari Tesseract OCR dalam pengenalan karakter pada image. 2. M empelajari struktur karakter Korea terhadap persamaan matematika. 3. M empelajari cara mengubah suatu citra berwarna menjadi citra gray scale. 4. M empelajari cara menghilangkan noise pada gambar
kemudian
melakukan thresholding untuk mengubah citra grayscale menjadi citra biner. 5. M empelajari dan menganalisis proses komputer dalam mengenali karakter Korea.
c. Metode Perancangan Tahapan Perancangan dalam skripsi ini dibagi dalam beberapa tahap: 1. M elakukan building terhadap library Tesseract OCR agar dapat digunakan dalam bahasa pemograman Java pada platform Android. 2. Perancangan algoritma, flow chart dan langkah-langkah untuk setiap tahapan pengenalan karakter Korea. 3. M elakukan perancangan program untuk mengubah sebuah gambar berwarna menjadi gambar hitam-putih atau binary image, menghilangkan noise, serta mengubah gambar berwarna menjadi gambar dengan derajat keabuan. 4. Perancangan tampilan layar bagi pengguna program aplikasi.
6 1.6
Sistematika Penulisan Skripsi ini dibagi kedalam 5 Bab, adapun sistematika secara lengkap dan
gambaran umun setiap bab sebagai berikut. 1. BAB 1 PENDAHULUAN, berisi latar belakang masalah yang akan diteliti, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian dan metodologi yang digunakan dalam penelitian. 2. BAB 2 LANDAS AN TEORI, berisi uraian dari konsep-konsep atau teori-teori yang dipakai sebagai dasar pembuatan skrisp ini. 3. BAB 3 AN ALIS IS DAN PERANCANGAN, berisi perancangan pembuatan program dan prosedur-prosedur yang ada di dalamnya. 4. BAB 4 IMPLEMENTAS I DAN EVALUAS I, berisi penjelasan tentang bagaimana rancangan pada BAB 3 diimplementasikan dalam suatu bahasa pemrograman serta pengujian terhadap sistem yang telah dibuat pada BAB 3. 5. BAB 5 S IMPULAN DAN S ARAN, berisi simpulan-simpulan yang diperoleh setelah penelitian pada skripsi ini selesai dilakukan. Bab ini juga berisi saransaran pengembangan dari skripsi ini agar dapat menjadi bahan pemikiran bagi para pembaca yang ingin mengembangkannya ke arah yang lebih baik Selain berisi bab-bab utama tersebut, skripsi ini juga dilengkapi dengan Lembar Pengesahan, Kata Pengantar, Daftar Isi, Daftar Tabel, Daftar Gambar, Daftar Pustaka dan Lampiran.