Pulpo OCR (Optical Character Recognition) adalah aplikasi yang digunakan untuk membaca dan mengkonversi tulisan tangan ataupun naskah ketikan yang berupa file hasil pemindaian (scanning) menjadi dokumen teks yang dapat diedit sesuai kebutuhan. PULPO OCR Doc capture Document scanning
RAW, TIF, JPEG
Scanner
Training Character
Manual
Export/Upload
Database
PULPO DMS
Gambar 1. Skema Aplikasi Pulpo OCR dan Pulpo DMS Pulpo OCR memiliki kemampuan dan kapabilitas yang mumpuni untuk melakukan proses-proses OCR, ICR maupun OMR.
OCR (Optical Character Recognition) adalah kemampuan yang dimiliki Pulpo OCR untuk mengambil gambar, dan mengubahnya menjadi searchable text. Output dapat berupa file plain-text, atau PDF.
OCR juga dapat dimanfaatkan untuk mengambil data dari gambar yang telah di-scan, menyediakan sarana untuk mengambil informasi dari file, dan melakukan indexing untuk pencarian.
ICR (Intelligent Character Recognition) adalah kemampuan yang dimiliki Pulpo OCR untuk mengenali tulisan tangan. Proses ini dapat sangat akurat ketika tulisan terorganisir dalam kotak/kolom khusus.
OMR (Optical Mark Recognition) adalah kemampuan yang dimiliki Pulpo OCR untuk membaca tulisan dengan tipe checkbox atau ceklis pilihan pada formulir atau dokumen.
Pulpo OCR adalah aplikasi OCR based on *Nuance OmniPage OCR yang berjalan pada scanner dengan driver TWAIN yang dapat: 1. Mencatat metadata yang telah ditentukan oleh pengguna, misalnya
nomor
dokumen,
tanggal
pembuatan
dokumen,
dan
sumber
dokumen. 2. Memudahkan operator melakukan separasi dokumen pada proses
pemindaian. Dilengkapi dengan tombol jenis dokumen yang terdiri dari pengaturan untuk Automatic Document Feeder (ADF) untuk kertas atau flatbed untuk buku dengan resolusi 300 dpi, pilihan mode berwarna/hitam-putih, dan simplex/duplex. 3. Menghasilkan file multipage TIFF dengan resolusi 300 dpi, kompresi
LZW
untuk
dokumen
hitam-putih
dan
kompresi
JPEG
untuk
dokumen berwarna, dengan folder yang akan disesuaikan dengan nama permohonan dan nama file sesuai dengan nama jenis dokumen. 4. Memiliki beberapa Engine fitur antara lain Barcode Types, Module
Infos, Recognition Languages, Spell Languages, User Interface Languages, dan Vertical Dictionaries. Pulpo
OCR
memiliki
beberapa
fasilitas
pengelolaan
yang
dapat
ditentukan yaitu Converter Manager, User Dictionary Manager, Image File Manager, Memory Bitmap Manager, dan Workflow Assistant.
Pulpo OCR terdiri dari Scanning station, Verification Station, Data verification, Remote Administration and monitoring (Administration), Project Setup Station, Processing Server dan Processing Station didukung oleh FormDesigned dan Flexilayout. Adapun beberapa proses yang terdapat pada Pulpo OCR terdiri dari: 1. Desain template dan workflow oleh project setup station. 2. Import image TIFF secara otomatis ke application server. 3. Proses pengenalan oleh Processing Server yang dibantu processing
station. 4. Verifikasi hasil pembacaan oleh Verification Station. 5. Ekspor hasil ke XML, MySQL dan Database lain.
Keunggulan Pulpo OCR: -
Kompatibel dengan TWAIN driver.
-
Menggunakan metode learning dan drag and drop object untuk menentukan letak metadata.
-
Mampu Membaca tulisan tangan dengan huruf cetak (ICR).
-
Mampu Membaca barcode 1 dimensi dan 2 dimensi.
-
Pilihan kamus bahasa OCR yang dimiliki mencapai 180 bahasa.
-
Teknologi OMR yang mampu memproses pilihan ganda.
-
Menghasilkan output berupa XML, Text File dan Database.
-
Hasil ekspor berupa PDF Searchables dengan kompresi MRC.
-
Mampu memproses semua jenis dokumen.
-
Melakukan otomatisasi proses yang berulang-ulang dengan fasilitas yang disebut Workflow.
Pulpo OCR memiliki kelebihan utama yakni kompatibilitas dengan TWAIN driver. Selain itu, Pulpo OCR menggunakan metode learning dan drag and drop object untuk menentukan letak metadata.
Gambar 2. Metode learning dan drag and drop object Metadata Pulpo OCR juga mampu membaca tulisan tangan dengan huruf cetak atau yang biasa disebut Intelligent Character Recognized (ICR) seperti yang nampak pada gambar dibawah ini.
Gambar 3. Membaca tulisan tangan dengan huruf cetak (ICR)
Pulpo OCR juga mempunyai kelebihan mampu membaca barcode 1 dimensi dan 2 dimensi seperti gambar dibawah ini.
Gambar 4. Membaca barcode 1 dimensi dan 2 dimensi Pulpo OCR mampu membaca character cetak atau Optical Character Recognition (OCR). Pilihan kamus bahasa OCR yang dimiliki mencapai 180 bahasa termasuk bahasa Indonesia dan Inggris.
Gambar 5. Pilihan kamus bahasa OCR yang dimiliki mencapai 180 bahasa
Pulpo OCR juga memiliki teknologi Optical Mark Recognition (OMR) yang mampu memproses pilihan ganda.
Gambar 6. Teknologi OMR yang mampu memproses pilihan ganda Kelebihan lain dari Pulpo OCR adalah dapat menghasilkan output berupa XML data, Text File data dan Database (MySQL dan Oracle Database).
Gambar 7. Menghasilkan output berupa XML, Text File dan Database Dan salah satu yang penting adalah hasil export Pulpo OCR dapat berupa PDF Searchables dengan kompresi MRC.
Gambar 8. Hasil ekspor berupa PDF Searchables dengan kompresi MRC Dan untuk mempercepat proses pengenalan dokumen, Pulpo OCR menggunakan
fitur
preclassification/decision
tree
classification
yang
disebut sebagai classifier. Untuk menghasilkan PDF searchables dari image TIFF digunakan aplikasi OCR Server yaitu Pulpo OCR.
Gambar 9. Mampu memproses semua dokumen
Pulpo OCR terdiri dari scanning stations, recognition server yang dibantu beberapa processing stations, verification station dan indexing stations. Proses pengoperasian Pulpo OCR adalah sebagai berikut : 1. Administrator melakukan pengaturan workflow yang terdiri dari
pengaturan
general,
pengaturan
input,
process,
pengaturan
separasi, pengaturan quality control, pengaturan indexing dan pengaturan output. Pengaturan General, meliputi pilihan aktivasi workflow seperti gambar dibawah ini:
Gambar 10. Setting General meliputi pilihan aktivasi workflow Setting Input, mengatur pengambilan File yaitu Folder dan Subfolder serta jangka waktunya. Pada setting Process diatur kamus bahasa (Inggris, Indonesia, Korea, Jepang, China,Thai dan kamus custom untuk merek dan paten seperti gambar dibawah ini:
Gambar 11. Mengatur kamus bahasa Pada setting Quality Control diatur tingkat ketidakyakinan minimum yang dipersyaratkan, apabila melewati angka minimum akan diberikan kepada operator verifikasi. Indexing, merupakan pengaturan field yang harus diisi oleh indexer. Output, merupakan pengaturan output berupa PDF dan XML, seperti gambar dibawah ini:
Gambar 12. Pengaturan output berupa PDF dan XML 2. Setelah Administrator mengatur setting workflow maka pekerjaan
baru dapat dimulai TIFF hasil scan dari Pulpo OCR akan dimuat otomatis dan dikenali oleh recognition server.
Gambar 13. Pengaturan output berupa PDF dan XML 3. Apabila terjadi ketidakyakinan di atas batas yang ditetapkan maka
verification station akan memperbaiki pengenalan OCR. 4. Indexing operator dapat mengisi metadata yang dibutuhkan untuk
dokumen dan diekspor ke RawData Untuk log aplikasi, adapun bentuk XML yang akan dihasilkan oleh Log dari Pulpo OCR adalah sebagai berikut :
Gambar 14. Menghasilkan log XML Selain keunggulan-keunggulan diatas, pada Aplikasi Pulpo OCR, untuk melakukan otomatisasi proses yang berulang-ulang terdapat fasilitas yang disebut Workflow. Pada workflow ini dapat diatur proses-proses apa saja yang akan dijalankan. Proses-proses yang dapat dibuat pada Workflow ini adalah Load Files (muat file yang akan dipindai), Scan Images (pemindaian image), Load Digital Camera Files (muat file dari kamera digital), Open OmniPage Document
(membuka
dokumen
OmniPage),
Recognize
Images
(pengenalan image), Enhance Images, Zone Images, Correct Recognition Results (koreksi hasil pengenalan), Mark Text (penanda teks), Extract From Data (ekstraksi data), Save, Save as OPD, Load from FTP, Save to FTP, Send in Mail, Load from SharePoint (muat file dari SharePoint), dan Save to SharePoint (simpan ke SharePoint).