Seminar Nasional Teknologi Informasi dan Komunikasi Terapan (SEMANTIK) 2015
239
Pengenalan Suara Menggunakan Metode MFCC (Mel Frequency Cepstrum Coefficients) dan DTW (Dynamic Time Warping) untuk Sistem Penguncian Pintu Zulham Effendi*), Firdaus**), Tati Erlina***), Ratna Aisuwarya****) * *** **** † † Teknologi Informasi, Universitas Andalas ** Politeknik Negeri Padang * E-Mail:
[email protected], **
[email protected], ***
[email protected], ****
[email protected] Abstrak Tujuan penelitian ini adalah merancang sebuah sistem keamanan penguncian pintu menggunakan suara. Sistem ini mengggunakan metode MFCC (Mel Frequency Cepstrum Coefficients) untuk mengekstraksi ciri sinyal suara dan metode DTW (Dynamic Time Warping) untuk mencocokan pola suara. Mikrofon portable digunakan untuk meng-input-kan suara dan pengolahan dilakukan dengan menggunakan komputer. Pertama, ciri suara diekstraksi, kemudian dilakukan pencocokan pola suara antara sinyal uji dengan sinyal referensi. Jika skor normalized distance yang dihasilkan < 80, maka akan dikirim data “1” ke mikrokontroler dan pintu akan terbuka. Selain itu, data “0” akan dikirim ke mikrokontroler dan pintu tetap terkunci. Pengujian dilakukan oleh 4 trainer yang mengucapkan kata uji “pintu buka” dan kata uji acak. Tingkat keberhasilan untuk kata uji „pintu buka” yaitu sebesar 81,25 %. Sedangkan untuk kata uji acak, memiliki tingkat keberhasilan sebesar 57,5 %. Kata kunci: Suara, MFCC, DTW, skor normalized distance , Mikrokontroler
1. PENDAHULUAN
2. LANDASAN TEORI
Kebutuhan sistem keamanan merupakan salah satu manfaat teknologi biometrika yang terdiri dari dua fungsi yaitu identifikasi dan verifikasi. Fungsi identifikasi bertujuan untuk memecahkan identitas seseorang. Sedangkan fungsi verifikasi bertujuan untuk menolak atau menerima identitas seseorang[1]. Sistem keamanan konvensional dengan menggunakan password berupa kombinasi angka atau huruf, memiliki beberapa kelemahan. Salah satunya yaitu adanya kecendrungan penggunaan satu password untuk banyak sistem. Akibatnya, jika password tersebut diketahui orang lain, maka banyak pula sistem yang akan terbobol. Alternatif penggunaan password konvensional adalah menggunakan teknologi pengenalan suara (voice recognition) sebagai password. Teknologi pengenalan suara ini dapat diterapkan dalam menjaga keamanan suatu ruangan Dengan menggunakan suara sebagai media dalam membuka atau mengunci pintu diharapkan akan dapat meningkatkan keamanan suatu ruangan.
2.1. Voice recognition Voice recognition merupakan cara agar manusia dan mesin atau sebuah alat dapat berkomunikasi dengan media suara[2]. Pengenalan suara dapat digunakan sebagai kata sandi dalam sistem keamanan dan pengoperasian komputer menggunakan perintah suara. 2.2. Sinyal Sinyal didefinisikan sebagai suatu besaran fisis yang merupakan fungsi waktu, ruang atau beberapa variabel[3]. Dalam beberapa kasus, sinyal tidak dapat dilihat hubungan fungsi secara nyata dan sangat kompleks. 2.3. Metode MFCC (Mel Frequency Cepstrum Coefficients) Metode MFCC adalah salah satu metode yang digunakan untuk melakukan feature extraction (ekstraksi ciri), sebuah proses yang mengkorversikan sinyal suara menjadi beberapa parameter[4]. Adapun tahap-tahap pengolahan suara menggunakan metode MFCC ini dapat dilihat gambar berikut.
ISBN: 979-26-0280-1
240
Seminar Nasional Teknologi Informasi dan Komunikasi Terapan (SEMANTIK) 2015
3. RANCANGAN ALAT 3.1. Perancangan Software 1) Pengimputan suara Pada tahap perekaman suara yaitu memberikan perintah suara yang telah ditentukan, kemudian hasil perekaman ini adalah berupa file wav. Adapun diagram alirnya dapat dilihat pada gambar berikut. Gambar 1. Blok diagram MFCC 2.4. Metode DTW (Dynamic Time Warping) Metode DTW adalah metode untuk menghitung jarak antara dua data time series (durasi dan waktu yang berbeda)[5]. Keunggulan DTW dari metode jarak yang lain adalah mampu menghitung jarak dari dua vector data dengan panjang berbeda. Jarak DTW dapat dihitung dengan : (1)
(2)
(0,0) 0, (0, ) , (0,0) 0, (,0) (i 1,2,3...m; j 1,2,3...n) 2.5. Arduino Uno Arduino Uno adalah mikrokontroler berbasis ATMega328 yang memiliki 14 pin input dari output digital, dimana 6 pin input tersebut dapat digunakan sebagai output PWM (Pulse Width Modulation) dan 6 pin input analog, 16 MHz osilator kristal, koneksi USB, jack power, ICSP header, dan tombol reset[6]. 2.6. Motor Servo Merupakan sebuah motor pengendali sempurna yang dapat diperintahkan untuk berotasi pada posisi tertentu. Motor servo terbagi atas dua jenis, yatu motor servo yang dapat berotasi antara 90o sampai 180o dan motor servo yang dapat berotasi sebesar 360o[7].
Gambar 2. Diagram alir perekaman suara 2) Pembuatan program ekstraksi ciri suara dengan metode MFCC Ekstraksi ciri suara dilakukan agar suara yang diolah dapat digunakan dengan baik. Prosesnya seperti berikut:
Gambar 3. Diagram alir pengolahan suara
ISBN: 979-26-0280-1
Seminar Nasional Teknologi Informasi dan Komunikasi Terapan (SEMANTIK) 2015
241
3)
Pembuatan program pencocokan pola suara dengan metode DTW Program ini dibuat untuk untuk melakukan pencocokan pola suara, seperti terlihat pada gambar 5.
Gambar. 4 Diagram alir pencocokan suara
4)
Pembuatan program interface antara program python dengan motor servo Selanjutnya dibuat program interface dengan motor servo agar motor dapat dikontrol dari program python yang telah dibuat. 5)
Program bash untuk agar proses berlangsung secara berkelanjutan Untuk membuat program berjalan terus menerus dengan melakukan sekali perintah saja maka dibuatlah file bash. Program tersebut disimpan dengan nama “voice.sh”. Diagram alir lengkap sebagai berikut:
ISBN: 979-26-0280-1
Gambar 5. Diagram alir Pengenalan Suara Pengenalan Suara dan Kontrol Alat (Kunci Pintu) Secara keseluruhan, proses dimulai dengan input perintah suara dan konversi sinyal suara. Sinyal suara kemudian diekstraksi cirinya dengan metode MFCC dan dicocokkan polanya menggunakan metode DTW. Proses pencocokan dilakukan antara suara yang diinputkan dengan sinyal suara referensi yang tersimpan dalam database. Jika terdapat kecocokan, maka suara akan dikirim ke mikrokontroller Arduino Uno. Jika sebaliknya, maka perintah suara ditolak dan kembali ke input suara awal. Sinyal suara yang diterima, diproses oleh mikrokontroller. Data “1” atau (skor < 80) akan membuat pintu terbuka dan kembali terkunci dalam 5 detik. Sedangkan jika data “0” atau (skor >= 80) maka pintu akan tetap terkunci.
242
Seminar Nasional Teknologi Informasi dan Komunikasi Terapan (SEMANTIK) 2015
3.2. Perancangan Database Komponen pembangun sistem dapat terlihat sebagai berikut :
Gambar 6. Perancangan database
4. HASIL DAN PEMBAHASAN
Percobaan
Pengujian dilakukan oleh dua jenis Tester yaitu Tester yang sebelumnya juga berperan sebagai trainer (4 Tester) dan Tester acak (2 Tester). Khusus untuk kelompok Tester yang juga berperan sebagai trainer, kata uji yang digunakan juga terbagi atas 2 kelompok, yaitu kata uji ”pintu buka” dan kata uji acak. Pada setiap kategori pengujian dilakukan pada 2 keadaan, yaitu hening dan bising. Frekuensi sampling sinyal suara yang digunakan adalah sebesar 16.000 Hz, dimana perekaman dilakukan selama 3 detik. Kata uji ”pintu buka” yang diucapkan diharapkan akan membuat pintu terbuka dan secara otomatis terkunci kembali setelah 5 detik. 4.1. Pengujian oleh Tester-trainer Tester-trainer adalah kelompok penguji yang sebelumnya juga berperan sebagai trainer. Dengan demikian, contoh suara Tester tersebut sudah terekam dalam database sebelumnya. Terdapat 4 orang Tester-trainer yang masing-masingnya mengucapkan kata uji ”pintu buka” dan kata uji acak yang masing-masingnya dilakukan sebanyak 10 kali. a. Menggukan kata uji ”pintu buka” 10 8 6 4 2 0
Tester 1
Tester 2
Tester 3
Tester 4
Bising
6
6
7
8
Hening
10
8
10
10
Gambar 7. Hasil pengujian kata uji pintu buka Dari grafik diatas terlihat bahwa tingkat keberhasilan rata-rata pengujian kata uji “pintu buka” pada keadaan hening adalah
ISBN: 979-26-0280-1
95% dari 40 kali pengujian. Sedangkan untuk jumlah pengujian yang sama, tingkat keberhasilan kata uji “pintu buka” pada keadaan bising oleh keempat Tester-trainer adalah rata-rata 67%. Tingkat keberhasilan pencocokan pola dapat dipengaruhi oleh kebisingan dan cara menyebutkan kata kunci. Jika cara menyebutkan kata uji pada saat percobaan berbeda dengan pada saat trainer, maka hal ini akan mempengaruhi pada pencocokan pola. b. Menggunakan kata uji acak Tingkat keberhasilan pengujian oleh Tester-trainer yang sama dan kata uji yang digunakan adalah kata uji acak terlihat pada gambar 8. Kata uji acak yang akan diucapkan oleh masing-masing tester yaitu : “baru buka”, “baju buka”, “batu bata”, “tahu buka”, “pintu lama”, “pintu kerja”, “baju lama”, “baju kerja”, “baru kerja” dan “bau apa”.
Gambar 8. Pengujian kata uji acak Dari grafik diatas terlihat bahwa tingkat keberhasilan rata-rata pengujian kata uji acak pada keadaan hening adalah 57.5% dari 40 kali pengujian. Sedangkan untuk jumlah pengujian yang sama, tingkat keberhasilan kata uji acak pada keadaan bising oleh keempat Tester-trainer adalah rata-rata 12.5%. Tingkat keberhasilan membuka pintu cukup tinggi (57.5%) walaupun kata uji yang diucapkan bukanlah kata kunci yang seharusnya. Hal ini dapat dipengaruhi oleh adanya kemiripan bunyi dan cara pengucapan kata uji tersebut oleh Tester-trainer. 4.2. Pengujian oleh Tester Acak Tester acak adalah tester yang sampel suaranya tidak terekam dalam database. Pada pengujian oleh tester acak, terdapat dua tester acak yang dilibatkan. Suara tester acak direkam selama 3 detik dan kata uji yang diucapkan tester acak adalah ”pintu buka”. Sinyal suara masing-masing tester acak
Seminar Nasional Teknologi Informasi dan Komunikasi Terapan (SEMANTIK) 2015
tersebut direkam sebanyak 5 kali untuk dibandingkan dengan 1 trainer-tester. Karena terdapat 4 trainer-tester, maka masingmasing tester acak perlu diuji dengan mengucapkan kata uji sebanyak 20 kali.
3.
4.
Gambar 9. Skor perolehan tester acak 1
243
baik dalam keadaan hening maupun bising. Pengujian oleh trainer dengan menggunakan kata uji acak yang tidak menjadi kata referensi memiliki tingkat keberhasilan yang masih cukup tinggi yaitu 57,5%. Hal ini diakibatkan oleh cara pengucapan kata uji yang sama dengan pengucapan kata referensi pada saat training. Program pengenalan suara (voice recognition) ini sangat cocok untuk sistem keamanan suatu ruangan yang hanya dapat diakses oleh orang tertentu. Hal ini terbukti saat percobaan, dimana hanya tester yang sudah terkam suaranya di database (trainer) yang berhasil membuka pintu.
6. DAFTAR PUSTAKA
Gambar 10. Skor perolehan tester acak 2
Dari gambar 9 dan gambar 10 terlihat bahwa perolehan skor kedua tester acak pada 20 percobaan yang dilakukan selalu bernilai > 80. Oleh karena itu, tidak satu pun dari percobaan pengucapan kata ”pintu buka” oleh tester acak yang berhasil membuka pintu.
5. 1.
2.
KESIMPULAN
Rancangan yang dibuat berhasil diimplementasikan menjadi sebuah sistem yang dapat mengenali perintah yang diucapkan. Sistem pengenalan suara yang dibuat dengan menggunakan metode MFCC untuk ekstraksi ciri suara dan metode DTW untuk pencocokan pola memiliki tingkat keberhasilan rata-rata 81,25 %. Persentase keberhasilan diperoleh dari 80 kali oleh 4 orang trainer dengan mengucapkan kata kuni ”pintu buka”
ISBN: 979-26-0280-1
[1] Putra, D. dan A.Resmawan. 2011. Verifikasi Biometrika Suara Menggunakan Metode MFCC dan DTW. Lontar Komputer. vol. 2, no. 1 : 8-21 [2] Riyanto, Eko, 2013, Sistem Pengenalan Pengucap Manusia Dengan Ekstraksi Ciri MFCC Dan Algoritma Jaringan Saraf Tiruan Perambatan Balik Sebagai Pengenalanya, JSIB. [3] Tanudjaja, Harlianto. 2007. Pengolahan Sinyal Digital dan Sistem Pemrosesan Digital. Andi Offset : Yogyakarta [4] Manunggal, HS. 2005. Perancangan dan Pembuatan Perangkat Lunak Pengenalan Suara Pembicara dengan Menggunakan Analisa MFCC Feature Extraction. Surabaya : Universitas Kristen Petra [5] Ludeman, L.C, “Fundamentals of Digital Sinyal Processing”, Happer & Row Publishers, New york,1986 [6] Kelas Mikrokontrol. (2012). Arduino. [Online] Tersedia : http://www.kelasmikrokontrol.com/elearning/mikrokontroler/pengantararduino.html, diakses tanggal 8 Mei 2014. [7] Nugraha, R.K dan A. Wijayanto. Sistem Keamanan Rumah Berbasis Pengenalan Wicara Menggunakan DSK TMS320C6713.