Konferensi Nasional Informatika (KNIF) 2015
Pengembangan Sistem Pengenalan Bacaan Al-Quran Memanfaatkan Phonetically Rich and Balanced Corpus Rahmi Yuwan
Dessi Puji Lestari
Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Bandung, Indonesia
[email protected]
Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Bandung, Indonesia
[email protected]
Abstrak—Pada makalah ini dibahas penelitian tentang pembangunan sistem pengenalan bacaan Al-Quran. Transkripsi dalam format alfabetis yang merepresentasikan seluruh fonem dalam Al-Quran dibangun secara mandiri. Terpilih 180 ayat yang memiliki tingkat kemiripan frekuensi fonem sebesar 0.9998 dibandingkan dengan frekuensi fonem seluruh ayat Al-Quran menggunakan algoritma Two-stage Sentence Selection. Sistem dibangun memanfaatkan kakas CMU Sphinx. Metode ekstraksi fitur yang digunakan adalah MFCC. Pemodelan akustik dibuat berbasis HMM dengan 3-emitting-state untuk triphone. Model bahasa yang dikembangkan berbasis n-gram dengan kata sebagai basis model. Sistem dilatih dengan dua skenario, yaitu menggunakan ayat-ayat phonetically rich and balanced (KorpusPRB) dan KorpusPRB ditambah 18 ayat gharibah (KorpusPRBG). Pada pengujian dengan skema tertutup, hasil pengenalan diperoleh sebesar 98,92% untuk kedua skenario uji. Pengujian dengan speaker sama dan ayat berbeda menghasilkan tingkat akurasi pengenalan berturut-turut sebesar 81,55% dan 84,33% untuk KorpusPRB dan KorpusPRBG. Pengujian dengan skenario uji speaker berbeda dan ayat sama memberikan nilai akurasi pengenalan sebesar 75,27% dan 80,65% berturut-turut untuk KorpusPRB dan KorpusPRBG. Sementara itu pada pengujian dengan skema terbuka, tingkat akurasi pengenalan bacaan diperoleh sebesar 21,55% untuk KorpusPRB dan 27,41% untuk KorpusPRBG Keywords—ASR Quran, model akustik, HMM, phonetically rich and balanced corpus, model bahasa, n-gram, kamus
I.
PENDAHULUAN
Penelitian mengenai sistem pengenalan suara terotomatisasi atau automatic speech recognition (ASR) menarik perhatian para peneliti selama lebih dari lima dekade terakhir[11]. Salah satu penggunaan sistem ini adalah sebagai sistem pengenalan bahasa. Sistem pengenalan bahasa Arab telah banyak dikembangkan salah satunya oleh Chenfour, dkk pada tahun 2005[1][5][9]. Bahasa Arab adalah bahasa yang digunakan di dalam kitab suci umat Islam, yaitu Al-Quran. Walaupun tertulis dalam Bahasa Arab, Al-Quran memiliki aturan pengucapan khusus yang tidak sama dengan pengucapan Bahasa Arab sehari-hari. Cara mengucapkan setiap huruf maupun gabungan huruf Al-Quran dengan baik dan benar dipelajari dalam ilmu tajwid. Sementara itu alunan nada dan irama yang dapat digunakan ketika membaca Al-Quran dipelajari dalam ilmu
Qira’at, seperti Qira’at Sab’ah (7 Qira’at) yang seluruhnya bersumber dari Nabi Muhammad S.A.W[3]. Mempelajari Al-Quran secara otodidak dengan menguasai ilmu tajwid dan qira’at saja tidak cukup. Seseorang yang ingin mempelajari Al-Quran dianjurkan mengikuti metode talaqqi. Talaqqi adalah metode yang paling benar dalam mempelajari bagaimana cara membaca Al-Quran dengan sempurna. Ketika talaqqi, guru dan murid duduk saling berhadapan. Kemudian, guru akan mendiktekan sambil memperagakan langsung bacaan Al-Quran yang benar, dan diikuti oleh bacaan murid[2]. Namun pada praktiknya, ketersediaan guru pengajar dan sinkronisasi waktu belajar antara guru dengan murid menjadi hambatan dalam pelaksanaan metode ini. Menyadari hal tersebut, banyak peneliti mulai mengembangkan sistem pengenalan bacaan Al-Quran terotomatisasi untuk membantu proses pembelajaran Al-Quran secara mandiri[4][8][10][13]. Salah satu sistem pengenalan bacaan Al-Quran adalah Automatic Delimiter Quranic Verse (ADQV) yang dikembangkan oleh H. Tabbal, dkk pada tahun 2006. Pembangunan sistem ini bertujuan untuk menentukan batas dan potongan setiap ayat secara otomatis dari sebuah file audio. Sistem ADQV dikembangkan menggunakan framework Sphinx IV dan teknik speech recognition. Untuk mendapatkan model akustik, setiap fonem unik didaftar dan dijadikan basis untuk membentuk state pada HMM. Sistem ini dilatih dengan menggunakan bacaan surat Al-Ikhlas dari pembaca yang berbeda-beda dengan total durasi bacaan selama satu jam. Sementara itu, model bahasa dibangun berbasis rule, yaitu Java Speech Grammar Format (JSGF) sesuai dengan kompatibilitas framework Sphinx IV. Tingkat akurasi pengenalan bacaan pada tahap pengujian sistem diperoleh sebesar 85% untuk pembaca perempuan dan 90% untuk pembaca laki-laki[10]. Telah diketahui bahwa model bahasa dengan pendekatan grammar dapat diterapkan pada sistem pengenalan suara kosakata terbatas (limited vocabulary speech recognition system), namun tidak sesuai jika digunakan untuk mendukung sistem yang diharapkan mampu mengenal banyak kosakata (large vocabulary). Al-Quran terdiri dari 114 surat dengan 6236 ayat kosakata[7]. Sementara itu, surat Al-Ikhlas adalah salah satu surat dalam Al-Quran yang terdiri dari 4 ayat. Jika menggunakan pendekatan model bahasa yang sama, diperlukan setidaknya 6236 rules dalam grammar file yang merepresentasikan bacaan seluruh ayat AlQuran. Akan tetapi, penyambungan dan penghentian bacaan
2354-645X/15 ©2015
281
Konferensi Nasional Informatika (KNIF) 2015
setiap ayat dalam Al-Quran memiliki aturan yang cukup fleksibel bergantung panjang nafas dan irama bacaan pembaca. Dengan demikian, rule yang didaftarkan untuk membentuk model bahasa dapat bertambah lebih banyak Sistem pengenalan bacaan Al-Quran lain yang juga telah dikembangkan adalah E-Hafizh oleh Waqar, dkk (2010). EHafiz adalah voice content matching system yang juga menggunakan teknik speech recognition dalam implementasinya. Pada fase pelatihan, sistem ini bekerja dengan melakukan ekstrasi audio file bacaan Quran oleh expert untuk mendapatkan vektor fitur suara ahli tersebut, kemudian menyimpannya ke dalam basis data. Pada fase pengujian, vektor ini akan dicocokkan dengan vektor fitur suara pembaca baru yang diperoleh dengan cara serupa. Seorang pembaca beginner digolongkan dapat membaca dengan baik oleh sistem jika vektor fitur suaranya memiliki kedekatan nilai setidaknya dengan fitur suara 3 ahli. Teknik yang digunakan pada proses pencocokan dan perbandingan vektor fitur suara antara expert dan pembaca baru adalah Vector Quantization (VQ). E-Hafizh dilatih dengan menggunakan bacaan 5 surat pertama dari AlQuran (Surat Al-fatihah hingga Al-Maidah) oleh 10 expert speaker. Pada tahap pengujian, dipilih 3 kelompok speaker, laki-laki, perempuan dan anak-anak. Pengenalan dan pencocokan bacaan oleh sistem menghasilkan tingkat akurasi kebenaran bacaan berturut-turut sebesar 92%, 90%, dan 86% untuk 10 pembaca laki-laki, 10 pembaca perempuan dan 10 pembaca anak-anak [4][15] . Pada sistem yang telah dikembangkan, hanya dimodelkan sebagian surat dari keseluruhan Al-Quran (hanya surat AlIkhlas pada sistem ADQV dan 5 surat pertama Al-Quran pada sistem E-Hafiz). Bila dilakukan pemeriksaan kandungan fonem berdasarkan standar Qira’at Ashim riwayat Hafsh, terdapat fonem yang tidak termasuk dalam data latih ADQV dan EHafizh yaitu fonem “e” pada bacaan imalah dalam surat ke-11 Hud ayat ke-41. Sementara itu, suatu sistem pengenalan suara/bacaan, membutuhkan kelengkapan cakupan fenomena akustik untuk mendapatkan model akustik yang baik. Pada dasarnya, memodelkan seluruh ayat Al-Quran mungkin untuk dilakukan. Hal ini disebabkan, bunyi-bunyi dasar pada bacaan Al-Quran terbatas dari surat Al-Fatihah hingga An-Nas saja. Artinya, tidak mungkin ditemukan bunyi baru hasil karangan pembaca Al-Quran, kecuali terjadi karena perbedaan qira’at atau kesalahan bacaan. Namun, memodelkan seluruh ayat AlQuran membutuhkan waktu persiapan dan pemodelan data cukup lama serta kapasitas basis data cukup besar. Pada penelitian ini diusulkan pengembangan sistem pengenalan bacaan Al-Quran dengan memanfaatkan phonetically rich and balanced corpus. Dengan menggunakan phonetically rich and balanced corpus, sistem diharapkan mampu mengenali fenomena akustik yang mungkin muncul ketika Al-Quran dibaca dengan baik walaupun dilatih dengan sedikit data latih. Makalah ini tersusun dalam beberapa bagian. Bagian I membahas pendahuluan tentang latar belakang dan tujuan pentingnya dilakukan penelitian ini. Pada Bagian II diuraikan penjelasan singkat tentang sistem pengenalan suara. Selanjutnya, pada bagian III diberikan pemaparan mengenai tahap persiapan awal seperti pembangunan transkripsi Quran (QScript) dan metode pemilihan ayat-ayat phonetically rich and balanced. Bagian IV berisi pembahasan mengenai
implementasi sistem beserta konfigurasi dan skenario pengujian sistem. Hasil pengujian dan evaluasi terhadap kinerja sistem dijelaskan pada Bagian V. Terakhir, Bagian VI berisi kesimpulan dan saran dari penelitian ini. II.
SISTEM PENGENALAN SUARA
Gambar 1 Komponen Sistem Pengenal Suara[15]
Sistem pengenal suara otomatis dapat dibagi menjadi tiga bagian utama, yaitu front-end, middle component, dan decoder (Vaseghi, 2007). Skema umum sistem pengenal suara otomatis ditunjukkan pada Gambar 1. A. Front-End Component Ekstraksi fitur suara yang dikenali sistem digolongkan dalam komponen front-end. Sinyal suara pembicara dan lingkungannya dipisahkan untuk mendapatkan sinyal yang lebih bersih. Kemudian dilakukan analisis terhadap spektum dan energy sinyal suara, dengan membagi-baginya menjadi beberapa frame sinyal agar lebih mudah diidentifikasi suara yang diucapkan pada satu satuan waktu. Salah satu metode ekstraksi fitur adalah MFCC. Kelebihan MFCC dari metode lainnya adalah penggunaan Mel-sclae filter bank yang lebih sesuai dalam memodelkan frekuensi pendengaran manusia[16]. B. Middle Component Kemudian, pada middle component dilakukan pembangunan model akustik, model bahasa, dan kamus. Dalam berbagai pembangunan ASR, model akustik yang sering digunakan adalah HMM (Hidden Markov Model). Saat pembangunan model akustik dengan HMM, terlebih dahulu ditentukan inisial state berdasarkan probabilitas distribusi suatu state. Kemudian dilakukan pembangunan data probabilitas emisi dari sinyal yang terobservasi dan probabilitas transisi dari suatu hidden state i ke state j[12]. Guna meningkatkan akurasi model, pada pembangunan model akustik diterapkan konteks fonem seperti monophone, biphone dan triphone. Ilustrasi pemodelan dengan konteks fonem pada kata ( )ﻣﻦ/M I N/ diberikan pada Gambar 2. Selain model akustik, pada sistem pengenal suara otomatis dibangun juga model bahasa dan kamus. Pembangunan model bahasa bertujuan untuk memperkirakan probabilitas kemunculan kata dan urutan susunan kata dalam sebuah bahasa. Dengan demikian, pemanfaatan model bahasa dapat mem-
282
Konferensi Nasional Informatika (KNIF) 2015
batasi ruang pencarian kombinasi kata pada suara yang dikenali sistem. Model bahasa yang sering digunakan adalah n-gram. Analisis probabilitas susunan kata pada kalimat panjang biasanya membutuhkan proses komputasi kompleks. Oleh karena itu, dilakukan simplifikasi model n-gram dengan mempertimbang-kan 1 kata (bi-gram), atau 2 kata (tri-gram) sebelum kata pada current state. Sementara itu, pada kamus diberikan daftar kata apa saja yang terdapat dalam suatu bahasa beserta cara pengucapannya[12].
cara mengucapkan setiap huruf dan pertemuan huruf dalam AlQuran secara benar. Dengan demikian, aturan ini memberikan pengaruh terhadap aspek fonologi Quran. Aspek ini dapat dikelompokkan dalam 5 kondisi, yaitu [10]
Pengucapan raa tebal/ raa empatik ""ر
Aturan-aturan pengucapan huruf nun ""ن perubahannya
Aturan-aturan pengucapan huruf mim ""م
Mad (pemanjangan bunyi vokal dan semi-vokal); terdiri dari beberapa ketentuan yaitu wajib panjang 6 harakat, harus dibaca panjang 4 atau 5 harakat, boleh dibaca dengan panjang 2, 4, atau 6 harakat, dibaca panjang 2 harakat saja.
Qolqolah
dan
Gambar 2 Ilustrasi Pemodelan Monophone, Biphone dan Triphone Gambar 3 Skema Pengubahan Teks Quran-Uthmani menjadi QScript
C. Decoder Decoder pada sistem pengenal suara otomatis digunakan untuk menentukan rangkaian state terbaik yang memiliki nilai probabilitas maksimal antara kecocokan observasi dengan string transkripsi. Algoritma yang biasa diterapkan pada decoder adalah algoritma Viterbi[12]. III.
PERSIAPAN AWAL
A. Transkripsi Al-Quran (QScript) Pembangunan transkripsi Al-Quran bertujuan untuk memudahkan proses pemilihan korpus yang akan digunakan saat pembangunan model akustik. Transkripsi Quran adalah hasil transliterasi Al-Quran dalam ortografi Arab menjadi simbol alfabet yang merepresentasikan fonem dalam Al-Quran. Terdapat dokumen Quran-Uthmani.xml yang dikembangkan oleh Dukes (2009). Dokumen ini dapat diakses secara bebas tanpa berbayar melalui internet[7]. Teks Quran-Uthmani yang diperoleh selanjutnya dikonversi dalam format Buckwalter (standar decoding huruf Arab ke dalam format ASCII) untuk dianalisis lebih lanjut. Pada Bahasa Arab terdefinisi 34 basis fonem, dengan 28 konsonan, 3 vokal pendek dan 3 vokal panjang[8]. Meskipun, Quran ditulis dalam Bahasa Arab, bacaan Al-Quran yang benar tidak selalu mutlak dibaca sesuai huruf yang terdapat pada suatu ayat. Hal ini disebabkan, dalam beberapa pertemuan huruf, terdapat bunyi baru yang harus dimunculkan seperti bunyi dengung atau ghunnah. Ilmu tajwid menjelaskan tata
Melalui serangkaian proses analisis mandiri tentang konsep fonologi Quran dan penggunaannya dalam mengkorversi notasi Buckwalter, pada penelitian ini digunakan 44 simbol alfabet untuk menyusun transkripsi Al-Quran. Transkripsi Al-Quran seterusnya akan disebut sebagai QScript. Pada Gambar 3 ditampilkan skema pengubahan teks Quran-Uthmani menjadi QScript. Total fonem yang terdapat pada QScript sejumlah 44 fonem yaitu a, i, l, m, A, u, n, e, w, h, t, r, b, y, U, I, k, E, f, o, q, s, d, N, c, H, O, j, Y, x, S, X, L, W, z, D, v, T, g, Z, Q, V, F, G. Fonem dengan statistik kemunculan paling banyak adalah fonem “a” dengan presentasi 15, 6 % dari total keseluruhan fonem pada QScript[18]. B. Pemilihan Phonetically Rich and Balanced Corpus Model akustik yang baik didukung oleh korpus yang bersifat phonetically rich and balanced. Metode pemilihan korpus yang phonetically rich and balanced untuk sistem pengenalan bahasa telah dikembangkan, seperti pada Bahasa Arab (Abushariah dkk, 2010), dan Bahasa Mandarin (Wang, 1998). Algoritma phonetically rich and balanced memiliki tiga poin utama, yaitu[1][14]: a) Mencakup unit akustik secara lengkap b) Terpilih himpunan kata/kalimat dengan jumlah paling minimal.
283
Konferensi Nasional Informatika (KNIF) 2015
c)
Frekuensi unit akustik pada korpus terpilih sedekat mungkin dengan frekuensi unit akustik pada dokumen acuan
Wang (1998) mengusulkan Two-stage Sentence Selection Algorithm untuk memilih korpus yang terdistribusi secara fonetis. Hasil eksekusi dari algoritma tersebut diperoleh 180 ayat-ayat yang phonetically rich and balanced (KorpusPRB-). Himpunan ayat ini memiliki nilai similaritas statistik frekuensi fonem yang cukup tinggi, sebesar 0,9998 dibandingkan dengan statistik frekuensi fonem dalam seluruh ayat AlQuran. Pada Tabel I diberikan rincian dan perbandingan nilai similaritas, kandungan richness & balanced dari calon korpus [18]. TABLE I. Dokumen
Acuan KorpusPRBKorpusPRB
KANDUNGAN RICHNESS & BALANCED CALON KORPUS cos(α) sim
(α)
0.9998 0.9998
0.017 0.019
Balance (phones) Verses 29 30
6236 180 182
Richness Mono- Bi phone phone 44 1077 42 548 44 557
Triphone 8845 1955 2000
a) KorpusPRB- adalah 180 ayat hasil pemilihan phonetically rich and balanced corpus. b) Korpus untuk pemodelan akustik adalah KorpusPRB (KorpusPRB- ditambah 2 ayat khusus)
IV.
IMPLEMENTASI
A. Pengumpulan Korpus Suara Identitas ayat yang telah terpilih sebagai phonetically rich and balanced corpus digunakan sebagai acuan pengumpulan korpus suara. Korpus suara dipilih dari bacaan Al-Quran oleh 3 pembaca ahli yang memenuhi kriteria sebagai berikut: a) Nada bacaan Quran cukup monoton dan konstan b) Rata-rata kecepatan membaca setiap qari’ sama c)
Mengandung sedikit noise dan echo
File suara yang diperoleh memiliki beberapa perbedaan atribut dengan standar korpus yang direkomendasikan oleh kakas CMU Sphinx[6]. Pada sumber asli file suara, digunakan sample rate sebesar 44,1 kHz. Semakin tinggi sample rate pada remakan suara, semakin besar kapasitas penyimpanan yang dibutuhkan dan komputasi yang harus dilakukan. Oleh karena itu, dilakukan beberapa pengubahan terhadap atribut file suara yang telah diperoleh. Gambar 5 memperlihatkan perubahan atribut file suara.
Gambar 4 Pengubahan Atribut Korpus Suara
B. Model Akustik Pada tahap awal pemodelan akustik, dilakukan ekstraksi fitur suara menggunakan MFCC terlebih dahulu. MFCC adalah salah satu teknik ekstraksi fitur suara paling baik karena mampu mensimulasikan pendengaran manusia dengan adanya Mel-scale filter bank pada MFCC. Terdefinisi 45 fonem (termasuk silence) yang akan diobservasi selama proses pembangunan model akustik. Model akustik sistem dibangun menggunakan 3-emitting-state Hidden Markov Model (HMM) berbasis tri-phone. Probabilitas transisi Context-Independent (CI) pada HMM diestimasi menggunakan algoritma BaumWelch. Pada Context-Dependent (CD), seluruh kombinasi fonem yang mungkin dibangun model triphone-nya. Pada setiap state dalam model triphone diterapkan HMM dalam menganalisis sinyal suara. Terdapat 31.441 jumlah triphone yang dihasilkan selama proses pemodelan. C. Model Bahasa dan Kamus Pada pembangunan model bahasa, digunakan teks referensi yang berisi seluruh bunyi ayat Al-Quran, yaitu QScript. Dalam dokumen ini, telah terdaftar 6236 ayat AlQuran yang akan dimodelkan menggunakan kakas CMUCLTK. Kakas terlebih dahulu mengidentifikasi seluruh kata yang muncul pada QScript. Selanjutnya, dibentuk model bahasa berbasis n-gram dalam format .ARPA. Agar dapat digunakan untuk mendukung pemodelan akustik menggunakan kakas sphinxtrain, model bahasa dalam format ARPA dikonversi ke dalam format binary (.DMP). Sementara itu, kamus dibangun berbasis kata dengan mengidentifikasi seluruh kata unik yang ditemukan pada QScript dan didefinisikan cara membaca setiap kata tersebut berdasarkan fonem yang ada. Terdapat 20599 kata unik pada kamus. V.
PENGUJIAN DAN EVALUASI
Beberapa ayat dalam Al-Quran memiliki cara pembacaan yang khusus, seperti ayat-ayat yang mengandung huruf muqotho’ah. Huruf muqotho’ah adalah huruf-huruf yang muncul di permulaan surat dan dibaca dengan panjang tertentu. Beberapa huruf wajib dibaca panjang hingga 4 sampai 6 ketukan, sedangkan huruf lainnya dibaca 2 ketukan saja. Kemampuan memahami cara membaca ayat-ayat yang khusus ini (ayat gharibah) adalah salah satu standar kemampuan membaca Al-Quran yang baik dan benar. Oleh karena itu, untuk mengidentifikasi kemampuan sistem dalam mengenali ayat gharibah, sistem akan dilatih dengan dua jenis korpus, yaitu KorpusPRB dan Korpus PRBG. Korpus PRB adalah korpus yang diperoleh dari hasil pemilihan ayat-ayat yang phonetically rich and balanced dengan total 182 ayat dan memiliki kandungan 44 fonem lengkap. KorpusPRBG adalah korpus yang berisi KorpusPRB ditambah 18 ayat-ayat gharibah sehingga terdapat total 200 ayat pada korpus ini. Sistem dilatih dengan dua jenis korpus. Pemodelan dengan dua jenis korpus ini memberikan hasil pengujian yang sama pada skema tertutup. Kemudian, untuk setiap jenis korpus, sistem juga diuji dengan tiga skenario, yaitu:
284
Konferensi Nasional Informatika (KNIF) 2015
a) Skenario 1 : Speaker sama, tetapi ayat yang digunakan pada data uji dan data latih berbeda (difAyatOnly)
a) Kesalahan identifikasi bunyi yang mirip. Sebagai contoh kata “YUQSIRUN” dikenali “YUBSIRUN”, dan “EINNA” dikenali “EIMMA”. Bila ditinjau dari segi karakteristik akustiknya, bunyi Q dan B keduanya termasuk dalam golongan bunyi plosif. Begitu pula dengan bunyi NN dan MM keduanya termasuk bunyi nasal. Akibat kemiripan karakteristik ini, sistem sulit membedakan setiap huruf secara presisi. Ketersediaan korpus suara yang bersih dari noise secara sempurna dianggap dapat mendukung perbaikan kesalahan ini.
b) Skenario 2: Ayat sama, tetapi speaker yang digunakan pada data uji dan data latih berbeda (difSpOnly) c)
Skenario 3: Baik ayat maupun speaker yang digunakan pada data uji dan data latih berbeda (difSpdifAyat) Visualisasi dan perbandingan hasil pengenalan dengan berbagai skenario uji diperlihatkan pada Gambar 6.
b) Sering ditemukan terjadinya penyisipan kata. Angka WIP (Word Insertion Point) dan PIP (Phoneme Insertion Point) yang digunakan pada penelitian ini adalah berturut-turut sebesar 0,2 dan 1,0. Nilai WIP ini telah diturunkan dari konfigurasi semula sebesar 0,65 menjadi 0,2. c) Kesalahan pengenalan durasi bacaan panjang (mad). Pengenalan bacaan mad memang menjadi salah satu tantangan dalam pengembangan sistem pengenal bacaan Al-Quran. Durasi dan tempo setiap orang dalam membaca mad biasanya berbeda-beda. Pada penelitian ini, alignment atau penjajaran antara transkripsi dan suara speaker tidak dilakukan secara lebih lanjut dan lebih presisi. Hal ini dapat menjadi salah satu faktor lemahnya sistem dalam mengenali bacaan mad VI.
Gambar 5 Hasil Pengujian Sistem dengan Berbagai Skenario Uji
Pengujian dengan skema tertutup dan Skenario 2 memberikan informasi bahwa sistem yang dikembangkan cukup baik dalam mendukung sistem pengenalan suara berbasis speaker-dependent, dengan akurasi pengenalan cukup tinggi pada rentang 81,55% hingga 98,92%. Sementara itu, tingkat akurasi pengenalan suara menurun ketika speaker yang digunakan pada data latih dan data uji berbeda. Hal ini terlihat pada hasil pengujian Skenario 1 ‘difAyatOnly’ memberikan tingkat akurasi lebih baik daripada sistem yang diuji dengan suara speaker berbeda antara data latih dan data uji (terlihat pada Skenario 2 dan Skenario 3). Setiap orang memiliki karakter suara yang berbeda-beda dan berubah berdasarkan waktu. Kemampuan sistem pengenal suara dalam mengidentifikasi perbedaan karakter suara yang diterimanya menjadi faktor penting, terutama jika yang dibangun adalah sistem pengenal suara berbasis speakerindependent. Pada penelitian ini hanya diambil data latih bacaan Al-Quran oleh 3 speaker. Jumlah ini belum dapat dikatakan “cukup” dan masih sedikit untuk dijadikan referensi pada sistem berbasis speaker-independent. Selanjutnya, melalui pengamatan lebih detil dari hasil pengujian sistem, ditemukan beberapa pola kesalahan yang sering terjadi, yaitu:
KESIMPULAN
Pada penelitian ini telah dikembangkan sistem pengenal bacaan Al-Quran dengan menggunakan phonetically rich and balanced corpus. Terdapat 180 ayat yang terdistribusi lengkap dan seimbang secara fonetis, sebagai korpus. Penggunaan korpus sebagai data latih pada model akustik sangat baik mendukung sistem yang bersifat speaker-dependent. Sebaliknya, akibat sumber suara data latih yang masih terlalu sedikit, sistem belum mampu sepenuhnya mendukung pengenalan bacaan Al-Quran yang bersifat speaker-independent. Perbaikan model dapat dilakukan dengan melakukan penjajaran transkripsi dengan file suara secara lebih presisi, menambah referensi korpus suara lebih banyak speaker, dan melakukan adaptasi model. Selain itu, agar dapat digunakan secara standar, permasalahan decoding dari format QScript menjadi ortografi arab Quran-Uthmani perlu untuk diperhatikan. REFERENSI [1]
[2] [3]
Abushariah, dkk. (2010). Phonetically Rich and Balanced Speech Corpus for Arabic Speaker-Independent Countinous Automatic Speech Recognition Systems. ISSPA International Conference on Information Science, Signal Processing and their Applications, 65 Annuri, H. A. (2010) Panduan Tahsin Tilawah Al-Quran dan Ilmu Tajwid. Jakarta: Al-Kautsar Arifin, Gus & Suhendri Abu Faqih. (2010). Al-Quran Sang Mahkota Cahaya. Jakarta: PT. Elex Media Komputindo
285
Konferensi Nasional Informatika (KNIF) 2015
[4]
Aslam, dkk. (2012). E-Hafiz: Intelligent System to Help Muslims in Recitation and Memorization of Quran. Life Science Journal, 534 [5] Chenfour N, dkk. (2005). Introduction to Arabic Speech Recognition Using CMUSphinx System. [6] CMU Sphinx Website. Overview of CMUSphinx Toolkit. accessed December 2014, from CMUSphinx: http://cmusphinx.sourceforge.net [7] Dukes, K. (2009). accessed January 2014, from The Quranic Arabic Corpus: http://corpus.quran.com/ [8] Hamid E. S. (2005). Computer Aided Pronounciation Learning System Using Statistical Based Automatic Speech Recognition Techniques . Giza: PhD Thesis Faculty od Engineering Cairo University. [9] Harrag, A & T. Mohamadi. (2010). QSDAS: New Quranic Speech Database for Arabic Speaker Recognition. The Arabian Journal for Science and Engineering, Vol 35, Number 2C. [10] Hassan, T., et al. (2007). Analysis and Implementation of an Automated Delimiter of "Quranic" Verse in Audio Files using Speech Recognition Techniques [11] Juang, B. & Rabiner, R. (2004). Automatic Speech Recognition--A Brief of The Technology. [12] Jurafski, D., & Martin, J. H. (2000). Jurafski, Daniel, James H. Martin (2000). Speech and Language Processing – An Introduction to Natural
[13]
[14]
[15]
[16] [17]
[18]
Language Processing, Computational Linguistics, and Speech Racognition. New Jersey: Prentice Hall Razak, Z. et al. (2008). Quranic Verse Recitation Recognition Module for Support in j-QAF Learning: A Review. IJCSNS International Journal of Computer Science and Network Security Vol. 8 No. 8 Wang, H. M. (1998). Statistical Analysis of Mandarin Acoustic Units and Automatic Extraction of Phonetically Rich Sentences Based Upon a Very Large Chinese Text Corpus. Computational Linguistics and Chinese Language Processing vol. 3 no. 2, August 1998 pp. 93-114 , 93. Waqar, et al. (2010). Voice Content Matching System for Quran Readers. Ninth Mexican International Conference on Artificial Intelligence. IEEE Computer Society Vaseghi. (2007). Multimedia Signal Processing–Theory and Applications. Inggris: John Wiley & Sons Ltd. Vibha Tiwari. (2010). MFCC and its application in speaker recognition. International Journal on Emerging Technologies 1(1): 19-22(2010). ISSN : 0975-8364 Yuwan, Rahmi & Dessi Puji Lestari. (2015). Automatic Extraction Phonetically Rich and Balanced Verses for Speaker-Dependent Quranic Speech Recognition System. 2015 Pacific Association for Computational Linguistics
286