BAB I PENDAHULUAN 1.1
Latar Belakang Pada sistem identifikasi pembicara atau speaker identification, proses
eksraksi ciri memainkan peranan penting dalam menghasilkan persentase keakuran yang baik. Terdapat banyak metode ekstraksi ciri untuk identifikasi pembicara yang telah diperkenalkan oleh para peneliti. Salah satunya adalah metode ekstraksi ciri berbasis content atau biasa dikenal dengan nama CBIR (Content Based Image Retrieval). CBIR (Content Based Image Retrieval) merupakan metode ekstraksi ciri yang menggunakan content yang terdapat pada image sebagai fitur. Content yang digunakan dapat berupa warna, tekstur, shape atau informasi-informasi lain yang mendukung. Namun content yang sering digunakan oleh para peneliti adalah content berdasarkan warna, tekstur, dan shape. Penerapan tehnik CBIR ke permasalahan identifikasi pembicara terlebih dahulu dilakukan proses konversi sinyal suara menjadi image dengan menggunakan short time fourier transform atau STFT. Gambar yang dihasilkan oleh STFT berupa spectrogram yang merupakan penampakan spektrum-spektrum frekuensi yang diplot terhadap waktu dan amplitudo. Spectrogram yang digunakan dalam identifikasi pembicara memiliki keuntungan dapat menganalisa suara seseorang sekalipun orang tersebut mencoba untuk menghilangkan karakter asli dari suaranya (Al Azhar, 2011). Penggunaan content warna sangat memungkinkan jika diterapkan pada spectrogram. Namun penggunaannya terkadang mempengaruhi proses komputasi dan ukuran fitur apalagi jika gambarnya dalam bentuk RGB maka diperlukannya proses setiap plane. Pendekatan CBIR ke dalam transform domain dapat menjadi sebuah solusi pengganti content berdasarkan warna (Kekre dkk, 2009a). Penggunaan metode transform bermakna adanya proses transformasi sebelum proses ekstraksi ciri dilakukan. Salah satu contoh penelitian mengenai ekstraksi ciri CBIR pendekatan 1
2
transform domain adalah yang dilakukan oleh Kulkarni dkk (2011a) mengenai identifikasi pembicara. DCT dan Walsh Hadamard transform digunakan sebagai metode transformasi yang akan diimplementasikan ke dalam gambar sebelum diekstraksi cirinya. Setelah proses transformasi, row mean image akan menjadi metode untuk mengambil fitur-fitur yang terdapat pada image. Penggunaan ukuran fitur 64 sampai dengan 8192 akan menjadi perbandingan dalam proses ekstraksi cirinya. Hasilnya menunjukkan bahwa ukuran fitur yang kecil yaitu berukuran 512 menunjukkan pengenalan yang lebih baik. Persentase pengenalan yang baik pada ukuran fitur yang kecil juga di buktikan pada penelitian Sarode dkk (2011) mengenai pengenalan wajah. Penelitiannya juga menggunakan DCT dan Walsh sebagai metode transformnya namun metode ekstraksi ciri yang digunakan adalah full image. Hasilnya menunjukkan bahwa dengan menggunakan variasi ukuran fitur 4x4 sampai dengan 128x128, ukuran fitur 8x8 memberikan pengenalan yang baik dibandingkan ukuran fitur yang lain. Selain penggunaan row mean image dan full image yang dapat memberikan persentase pengenalan yang besar pada ukuran fitur yang kecil, blocks image juga dapat memberikan pengenalan yang baik pada ukuran fitur yang kecil seperti pada penelitian yang dilakukan oleh (Sarode dkk, 2010c) mengenai identifikasi pembicara. Penelitiannya menggunakan DCT sebagai metode transform dan variasi ukuran fitur antara 256 sampai dengan 65536. Hasil penelitiannya menunjukkan bahwa ukuran fitur 1024 memberikan persentase pengenalan lebih besar dibandingkan ukuran fitur yang lain. Proses ektraksi ciri tidak akan lepas dari proses feature matching. Beberapa penelitian diatas menggunakan euclidian distance sebagai feature matching-nya. Namun penelitian yang dilakukan oleh Kulkarni dkk (2012), menjabarkan bahwa manhattan distance memberikan tingkat akurasi lebih baik dibandingkan euclidian distance dalam speaker identifcation. Adanya perbandingan metode ekstraksi ciri yang digunakan namun tetap memberikan hasil pengenalan yang baik pada ukuran fitur yang kecil telah mendorong untuk mengkaji lebih dalam dari ketiga metode ekstraksi ciri tersebut.
3
Oleh karena itulah, melalui penelitian ini akan ditinjau bagaimana perbandingan ketiga ekstraksi ciri yaitu full image, row mean image, dan blocks image dalam mengidentifikasi pembicara dengan meninjau pada ukuran selection feature vector akan tetapi menggunakan kekre transform sebagai metode transformasinya serta manhattan distance sebagai metode feature matching-nya.
1.2
Rumusan Masalah Berdasarkan latar belakang, rumusan permasalahan dalam penelitian ini
adalah bagaimana perbandingan peforma ekstraksi ciri full image, blocks image, dan row mean image dalam mengidentifikasi pembicara dengan melihat ukuran selection feature vector yang digunakan.
1.3
Batasan Masalah Beberapa batasan yang diberikan dalam penelitian ini adalah sebagai
berikut :
Rekaman suara berasal dari rekaman handphone.
Data sinyal suara yang dimasukkan berupa kalimat dengan sampling rate 8000 Hz.
Spectrogram yang dibentuk menggunakan 50% overlapping.
Noise pada rekaman suara diabaikan.
Metode transformasi yang dipakai adalah Kekre Transform yang kemudian digunakan dalam membantu proses ekstraksi ciri.
Identifikasi pembicara berbasis text-dependent, maksudnya kata/kalimat yang digunakan untuk proses reference dan testing adalah sama.
1.4
Metode pengenalannya menggunakan Manhattan Distance.
Tujuan dan Manfaat Penelitian Penelitian ini bertujuan untuk melakukan perbandingan beberapa metode
ekstraksi ciri berbasis tehnik CBIR yaitu full image, blocks image, dan row mean image dengan menggunakan Kekre Transform dan menentukan ekstraksi ciri yang memberikan tingkat pengenalan lebih baik dalam mengidentifikasi pembicara.
4
Hasil/manfaat yang diharapkan dari penelitian adalah sebagai berikut : 1. Dapat menjadi referensi tentang penggunaan ekstraksi ciri yang baik dalam mengidentifikasi pembicara terutama yang berkaitan dengan kasus-kasus penipuan atau
lobi-lobi korupsi
melalui
media
komunikasi
seperti
handphone. 2. Dengan adanya konsep selection feature vector dapat membantu para peneliti dalam penggunaan kapasitas stored yang kecil untuk sistem recognition terutama yang berkaitan dengan speaker identification.
1.5
Keaslian Penelitian Penelitian mengenai identifikasi pembicara dengan menggunakan ekstraksi
ciri full image, row mean image, dan blocks image telah di lakukan oleh para peneliti diantaranya penelitian yang dilakukan oleh Sarode dkk (2010a) yang mencoba menggunakan ekstraksi ciri full image dan blocks image dalam mengidentifikasi pembicara. Namun dalam penelitiannya lebih memfokuskan pada peforma metode transformasi yaitu DCT, Walsh dan Haar. Di tahun yang sama, Sarode dkk (2010b) juga melakukan hal yang sama dengan penelitian sebelumnya tetapi metode ekstraksi ciri yang digunakan adalah full image dan row mean image. Selain itu, penelitian yang dilakukan oleh Kulkarni dkk (2011b) menjabarkan hal yang sama sesuai dilakukan oleh Sarode yaitu memfokuskan pada perbandingan metode transform. Namun, metode transform yang dibandingkan adalah Haar dan Kekre dengan menggunakan metode ekstraksi ciri row mean sebagai penghasil feature vector dari gambar. Ketiga penelitian diatas lebih mengutamakan kepada metode transformasi yang digunakan. Oleh karena itulah peneliti memandang dari sisi lain yaitu memandang dari sisi perbedaan metode ekstraksi ciri dalam mengidentifikasi pembicara. Metode ekstraksi ciri tersebut adalah full image, row mean image, dan blocks image dengan kekre transform sebagai metode transformasinya.
5
1.6
Metode Penelitian Metode penelitian yang digunakan terdiri dari beberapa tahap yaitu :
1. Pendefinisian Kebutuhan Penelitian a) Kebutuhan Data Data yang dibutuhkan pada penelitian ini adalah rekaman suara manusia yang terdiri atas 10 orang pembicara dengan rincian 5 pembicara pria dan 5 pembicara wanita. Setiap pembicara mengucapkan 5 buah kalimat yaitu Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, dan Dengan Siapa yang diulangi sebanyak 8 kali. b) Perangkat Data Perangkat pengolah data penelitian ini adalah satu unit laptop lenovo tipe Y410, handphone merk Nexian tipe G381i, software MATLAB R2009a, dan software Sound Forge Pro10. 2. Prosedur Pengumpulan Data Rekaman suara diambil menggunakan handphone Nexian tipe G381i. 3. Analisis Algoritma Pada tahap ini akan dilakukan analisa algoritma metode pembentukan spectrogram serta ekstraksi ciri pada spectrogram yang digunakan dalam mengidentifikasi pembicara. 4. Perancangan Program Pada tahap ini, dilakukan perancangan arsitektur serta algoritma-algoritma ekstraksi ciri dalam mengidentifikasi pembicara. 5. Implementasi Program Pada tahap ini, dilakukan pengkodean terhadap algoritma-algoritma yang telah dianalisis. 6. Pengujian Sistem Pengujian dilakukan dengan membandingkan hasil yang diperoleh dari tiga metode ekstraksi ciri yaitu full image, row mean image, dan blocks image dalam mengidentifikasi pembicara.
6
1.7
Sistematika Penulisan Sistematika penulisan pada tesis ini dibagi menjadi 7 babyakni :
BAB I
PENDAHULUAN Bab ini menguraikan tentang latar belakang, perumusan masalah, batasan masalah, keaslian penelitian, manfaat penelitian, tujuan penelitian, metodologi penelitian, dan sistematika penulisan.
BAB II
TINJAUAN PUSTAKA Bab ini menguraikan secara sistematis tentang informasi hasil penelitian yang telah dilakukan oleh peneliti lain dan berdekatan dengan topik penelitian yang dibahas dalam tesis ini.
BAB III LANDASAN TEORI Bab ini mengurai mengenai teori-teori, konsep-konsep dasar, dan metode-metode yang berkaitan dengan penelitian yang dilakukan seperti proses pembentukan spectrogram, hasil transformasi citra menggunakan kekre transform, ekstraksi ciri full image, row mean image, blocks image dan pengukuran jarak menggunakan manhattan distance yang akan menjadi dasar dalam pemecahan masalah.
BAB IV ANALISIS DAN RANCANGAN SISTEM Bab ini membahas mengenai arsitektur sistem dan algoritma yang digunakan dalam mengekstraksi ciri suara untuk mengidentifikasi pembicara.
BAB V
IMPLEMENTASI SISTEM Bab ini membahas mengenai implementasi algoritma pebentukan spectrogram dan proses ekstraksi ciri spectrogram ke dalam bahasa pemrograman MATLAB.
7
BAB VI HASIL PENELTIAN DAN PEMBAHASAN Bab ini membahas mengenai perbandingan hasil dari ekstraksi ciri menggunakan full image, row mean image dan blocks image dalam mengidentifikasi pembicara menggunakan spectrogram.
BAB VII KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dan saran yang dapat digunakan untuk pengembangan sistem lebih lanjut.