Diskriminasi Percakapan dan Musik yang Tercampur dalam Saluran Telepon dengan Menggunakan Analisa Diskriminan Linier Fisher Doris Erwantoro1), Wirawan2) 1)
Jurusan Teknik Elektro ITS, Surabaya,Indonesia (erwantoro@gmail.com) 2) Jurusan Teknik Elektro ITS, Surabaya,Indonesia (wirawan@its.ac.id)
Abstract Teknologi multimedia telah berkembang pesat. Perkembangan tersebut juga telah dimanfaatkan oleh operator telekomunikasi bersama content provider untuk memberi layanan lebih pada pelanggan. Salah satu layanan tersebut adalah nada tunggu / Ring Back Tone. Nada tunggu konvensional memiliki karakteristik frekuensi 425 Hz yang memiliki bentuk terputus-putus dengan periode 1 detik ON dan 4 detik OFF, yang dikirim oleh sentral kepada pelanggan yang dituju. Pergantian nada tunggu konvensional tersebut menjadi konten multimedia dapat menyebabkan status koneksi pada sistem yang menggunakan event connecting menjadi kurang tepat. Dengan demikian diskriminasi percakapan dan musik yang tercampur dalam saluran telepon diperlukan untuk mengatasi permasalahan di atas. Oleh karena itu Penelitian diskriminasi percakapan dan musik difokuskan pada bagaimana mengklasifikasi sinyal percakapan dan sinyal-sinyal lain yang tercampur dalam saluran telepon dengan menggunakan Analisa Diskrimian Linier Fisher dengan tujuan mengembangkan algoritma/sistem klasifikasi suara dan metode diskriminasi audio yang tepat, cepat, dan tahan terhadap noise, serta mendapatkan karakteristik fitur optimal yang diperlukan dalam melakukan diskriminasi percakapan dan musik yang tercampur dalam saluran telepon Keywords: multimedia, diskriminasi percakapan dan musik, analisa diskriminan linier Fisher I. PENDAHULUAN Pada saat ini perkembangan teknologi seperti call center memacu perusahaan diseluruh dunia untuk berlomba memberikan kemudahan bagi pelanggan mereka dengan penyediaan pelayanan terbaik. Kinerja call center ditentukan oleh tiga hal yaitu pengelolaan sumber daya manusia, proses bisnis, dan teknologi. Perkembangan teknologi Computer Telephony Integration (CTI) membuat call center akan mengambil alih beberapa peran agen, otomatisasi yang dilakukan oleh sistem secara langsung akan meningkatkan kinerja secara umum. Beberapa outbound call center menggunakan sistem panggilan prediktif (predictive dialing) untuk melakukan kontak dengan pelanggan. Panggilan prediktif menggunakan sistem berbasis komputer yang secara otomatis akan memanggil sekelompok nomor telepon, kemudian meneruskan ke operator atau agen call center setelah panggilan tersambung. Pemakaian panggilan prediktif bertujuan untuk meningkatan efisiensi, karena operator atau agen tidak perlu menunggu pangggilan terjawab. Dalam proses panggilan prediktif, justifikasi status koneksi ditentukan oleh sinyal jawab yang diterima sistem. Hal ini dapat dilihat pada gambar 1. yang menunjukkan diagam alir panggilan prediktif pada outbound call center. Kesalahan prediksi pada sistem prediktif akan mengakibatkan menurunnya efisien sistem call center.
Query Database nomor telepon tujuan Dial nomor telepon tujuan
Panggilan terjawab ?
Ya
Meneruskan panggilan ke agen
Tidak Batalkan panggilan
Gambar 1. Diagram alur panggilan prediksi
Perubahan nada tunggu standar menjadi konten multimedia (Ring Back Tone) menyebabkan justifikasi status koneksi panggilan prediktif menjadi kurang tepat. Berdasar referensi ITU-T seri E.180 tentang standar tone untuk signaling system, Indonesia menggunakan nada tunggu dengan karakteristik frekuensi 425 Hz dengan periode 1 detik ON dan 4 detik OFF, yang dikirim oleh sentral kepada pelanggan yang dituju. II. MODEL SISTEM Tahapan pada penelitian ini dikelompokkan dalam 2 fase yaitu fase pelatihan (training phase) dan fase pengenalan (recognition phase). Fase pelatihan bertujuan untuk membentuk model sistem
1
1, 0 n N 1
klasifikasi, sedangkan fase pengenalan bertujuan untuk menguji kinerja sistem yang sudah dibuat. Pembagian fase ditunjukkan pada gambar 2. Acoustic feature
Training signal
Preprocessing
Feature extraction
Preprocessing
Feature extraction
Training phase Recognition phase Test signal
w(n) {
0, lainnya
Fitur audio diklasikasi menjadi empat kriteria utama yaitu, fitur frekuensi fundamental (pitch), fitur timbre, fitur ritme, dan fitur lain-lain. Suara yang datang melalui saluran vokal dimulai dari laring mana pita suara berada dan berakhir di mulut. Getaran pita suara dan bentuk dari saluran vokal dikendalikan oleh saraf dari otak. Suara yang dihasilkan dapat dikategorikan ke dalam bunyi bersuara dan tak terucap. Selama produksi suara terucap pita suara tidak bergetar dan tetap terbuka sedangkan selama menyuarakan suara mereka bergetar dan menghasilkan apa yang dikenal sebagai pulsa glotal. Pulsa adalah penjumlahan dari gelombang sinusoida frekuensi fundamental dan harmonik nya (Amplitudo menurun dengan meningkatnya frekuensi). Frekuensi dasar pulsa glotal dikenal pitch. Warna suara atau timbre menggambarkan karakteristik suara, yang memungkinkan telinga untuk membedakan suara yang memiliki nada yang sama dan kenyaringan. Istilah timbre kemudian digunakan untuk membedakan karaterisktik nada. Timbre terutama ditentukan oleh kandungan harmonik suara dan karakteristik dinamis dari suara seperti vibrato dan tremolo. Dalam musik, timbre digunakan sebagai parameter yang membedakan berbagai jenis alat musik Ritme adalah fitur yang menunjukkan keteraturan atau struktur dari sinyal audio, didefinisikan sebagai karakteristik dari sinyal audio karena mereka mengikuti pola tertentu.
Training segmentation
Recognizer training
Trained model Recognition
(1)
Output Segmentation and labeling
Gambar 2. Pembagian fase dalam penelitian
A. Ekstraksi Fitur Sinyal Audio Sinyal audio merupakan sinyal statistik nonstasionar, yaitu, sifat statistik yang bervariasi terhadap waktu. Sebuah cara untuk menghindari masalah tersebut adalah menggunakan metode analisa untuk sinyal stasioner, seperti transformasi Fourier, dan membagi sinyal waktu menjadi beberapa serangkaian frame yang berurutan. Setiap frame terdiri dari N sampel. Selama interval waktu dari frame, diasumsikan sinyal tersebut "cukup stasioner." Juga dikenal sebagai quasistationary. Pembagian segmen sinyal dalam beberapa frame berurutan ditunjukkan pada gambar 3. Penentuan panjang frame bersifat relatif dengan mempertimbangkan dua alasan. Pertama, setiap frame harus cukup panjang untuk suatu metode analisa dan memiliki cukup "sumber data" untuk membangun informasi yang diperlukan. Kedua, N harus cukup pendek untuk menjamin stasioneritas sinyal dalam skala waktu sehingga setiap frame memberikan hasil yang dimaksud[4].
B. Pengenalan Pola Pengenalan pola (pattern recognition) adalah disiplin ilmu yang bertujuan melakukan klasifikasi obyek menjadi sejumlah kategori atau kelas. Pengenalan pola merupakan bagian terintegrasi dari sistem cerdas yang dibangun untuk pengambilan keputusan. Pengenalan suara digunakan manusia untuk berkomunikasi dan bertukar informasi. Pada sebuah sistem cerdas pengenalan suara dapat digunakan untuk meningkatkan efisiensi dengan memberi kemampuan pada sistem untuk mengambil keputusan secara tepat berdasar informasi suara. Salah satu langkah dalam desain sebuah sistem klasifikasi adalah tahap evaluasi kinerja, pada tahap ini dirancang nilai probabilitas kesalahan klasifikasi. Pada klasifikasi suara, penentuan fitur yang analisa mempunyai peranan yang sangat penting. Tugas utama pemilihan fitur adalah bagaimana memilih fitur yang paling penting atau dominan dan pada saat yang sama mempertahankan sebanyak mungkin dari informasi kelas diskriminatif. Dalam deskripsi yang lebih kuantitatif, kita bertujuan untuk memilih fitur yang bernilai besar pada jarak antara varians dan kecil pada kelas dalam
Gambar 3. Pembagian sinyal analisa dalam frame
Dari sudut pandang formulasi matematis, pembagian sinyal waktu dalam urutan frame adalah setara dengan mengalikan sinyal dengan segmen urutan window, w(n), dalam durasi terbatas N. Bentuk urutan window paling sederhana adalah persegi panjang, yang didefinisikan sebagai 2
i E[( x i )( x i )T ]
ruang vektor fitur. Ini berarti bahwa fitur harus mengambil nilai-nilai yang jauh pada kelas yang berbeda dan nilai-nilai yang dekat pada kelas yang sama. Sebuah alternatif yang lebih baik adalah dengan menguji kombinasi fitur. Kadang-kadang penerapan transformasi linier atau nonlinier untuk vektor fitur dapat muncul fitur baru dengan sifat diskriminatif yang lebih baik.
(4)
(2) Penyebaran matrik antar kelas (between-class scatter matrix) M
S b Pi ( i 0 )( i 0 ) T
(5)
i 1
Di mana µ0 adalah rata-rata vektor semua kelas
C. Penyebaran Matriks Observasi
M
0 Pi i
Kelemahan utama kriteria keterpisahan kelas adalah bahwa nilai tersebut tidak mudah dihitung, kecuali jika menggunakan asumsi distribusi normal. Selanjutnya ditentukan suatu set kriteria sederhana yang dibuat berdasar informasi yang berkaitan dengan distribusi sampel fitur vektor yang tersebar pada ruang berdimensi satu [1]. Distribusi normal banyak digunakan dalam berbagai bidang statistika, misalnya distribusi sampling rata-rata akan mendekati normal, meski distribusi populasi yang diambil tidak berdistribusi normal. PDF distribusi normal didefinisikan pada persamaan 2.
f ( x; , )
1
2
2 2
e
(x) 2 2
{Sb} adalah ukuran jarak rata-rata (semua kelas) terhadap rata-rata setiap kelas individu dari nilai global. (3) Penyebaran matrik campuran (mixture scatter matrix)
S m E [( x 0 )( x 0 ) T ]
(7)
Sm adalah matriks kovarians dari vektor fitur yang berhubungan dengan nilai rata-rata global.
2
S m S w Sb
(2)
(8)
Kombinasi Sb dan Sw digunakan untuk meghitung Ratio Diskriminan Fisher (Fisher Discriminant Ratio)
Dimana µ adalah rata-rata dan 2 adalah varian
FDR
Untuk memberi gambaran distribusi populasi, gambar 3 menampilkan pola matrik sebaran observasi obyek sampel
( 1 2 ) 2 12 22
(9)
D. Analisa Diskriminan
Gambar 4. Matriks sebaran obervasi sampel
Pola penyebaran matrik dibagi tiga kriteria, yaitu: (1) Penyebaran matriks dalam kelas (within-class scatter matrix) M
S w Pi i
(6)
i 1
(3)
i 1
Di mana Σi adalah matrik kovarian untuk kelas ωi dan Pi adalah probalititas dari kelas ωi. Dalam hal ini Pi ~ ni/N, di mana ni adalah jumlah sampel dalam kelas ωi dari total N sampel. Sehingga nilai {Sw} adalah perhitungan rata-rata dari semua kelas, varians dari fitur.
3
Analisa diskriminan adalah salah satu teknik analisa statistika dependensi yang memiliki kegunaan untuk mengklasifikasikan obyek menjadi beberapa kelompok. Pengelompokan dengan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Kombinasi linier dari variabel-variabel ini akan membentuk suatu fungsi diskriminan[3]. Fungsi diskriminan lain yang dapat digunakan antara lain fungsi diskriminan linier Fisher. Nilai diskriminan Z merupakan dasar untuk menentukan suatu obyek masuk kelompok yang mana dengan membandingkannya dengan rata-rata (centroid) dari nilai Z masing-masing kelompok. Dalam analisa diskriminan, tujuan dilakukan klasifikasi ada dua yaitu aspek deskripsi dan aspek prediksi[3]. Aspek deskripsi digunakan untuk menggambarkan perbedaan antara dua kelas atau lebih. Tujuan diskriminan meliputi identifikasi serta kontribusi variabel untuk memisahkan kelas dan mencari hasil yang optimal sehingga dapat menjelaskan gambaran terbaik setiap kelas. Aspek prediksi digunakan untuk menentukan unit obyek ke dalam salah satu dari beberapa kelas. Nilai diukur dalam vektor observasi dari obyek, selanjutnya dievaluasi untuk mencari kelas obyek yang sesuai.
Selanjutnya data dikumpulkan untuk segmen percakapan dan segmen musik secara terpisah. Setiap fitur dan parameter statistik yang seuai akan dilakukan estimasi probability density function (PDF). PDF dihitung memakai teknik non parametrik [2].
E. Evaluasi Sistem Klasifikasi dan Estimasi Kesalahan Sebuah sistem klasifikasi mempunyai kinerja yang baik jika sistem tersebut mampu melakukan prediksi pada obyek dengan tingkat akurasi yang tinggi[1]. Evaluasi sistem klafikasi bertujuan untuk mengevaluasi kinerja sehubungan dengan probabilitas kesalahan klasifikasi berkaitan dengan sistem yang dirancang. Probabilitas kesalahan klasifikasi juga dapat digunakan sebagai indeks kinerja, dalam tahap seleksi fitur, untuk memilih fitur terbaik terkait dengan pengklasifikasi tertentu. Estimasi probabilitas kesalahan klasifikasi menggunakan asumsi bahwa seseorang telah memutuskan pada kumpulan data dan menghitung kesalahan yang mucul. Himpunan sampel yang kita miliki adalah terbatas, dan itu harus dimanfaatkan untuk fase pelatihan dan fase pengujian. Metode yang akan digunakan untuk estimasi kesalahan adalah metode Resubstitution yaitu sample data yang sama digunakan untuk fase pelatihan dan fase pengujian.
Fase Pelatihan
Perhitungan Nilai Fitur Objek Ucapan
Perhitungan Nilai Fitur Objek Musik
Perhitungan Fitur Statistik Objek Ucapan
Perhitungan Fitur Statistik Objek Musik
Penentuan Batas dan PDF Objek Ucapan
Penentuan Batas dan PDF Objek Musik
Perhitungan Diskriminan dan Nilai Ambang
Analisa Perhitungan Diskriminan
Penentuan Kelas Objek
III. PERANCANGAN SIMULASI Blok diagram algoritma utama dari perencanaan diskriminasi digambarkan dalam Gambar 4. Sampel obyek musik yang digunakan untuk pelatihan menggunakan contoh nada sambung dari salah satu operator telekomunikasi, materi obyek terdiri dari berbagai macam genre dan tipe musik seperti klasik, rock, dan lain-lain. Sampel obyek percakapan atau wicara yang digunakan diperoleh dari rekaman percakapan agen inbound call center. Jumlah sampel obyek untuk tiap kelas adalah 400 dengan karakteristik obyek sampel adalah sinyal audio yang dikodekan mono 8 kHZ PCM. Pada tahap perhitungan fitur, sinyal audio dibagi dalam beberapa frame analisis dengan panjang N dan interval hf dimana N dan hf adalah sampel dengan nilai 50 mili detik [5]. Ekstraksi fitur audio dilakukan untuk enam fitur pilihan yaitu energi entropi, energi sinyal, Zero Crossing Rate, Spectral Rolloff, Spectral Centroid, dan Spectral Flux. Perhitungan fitur statistik dilakukan pada frame dengan durasi N, dimana N adalah sampel, 50 ms. Untuk membantu klasifikasi dilakukan ekstraksi data, fitur informasi dikumpulkan dengan panjang segmen 2 detik [2]. Pada setiap segmen dan fitur dihitung nilai statistik parameter berikut: (1) Nilai mean dan standard deviasi dari fitur sepanjang segmen (2) Nilai mean dan standar deviasi dari perbedaan magnitudo antara dua titik analisa yang berurutan
Fase Pengujian
Analisa Kesalahan Klasifikasi
Gambar 5. Diagram alur perencanaan diskriminasi
IV. ANALISA DAN DISKUSI Hasil simulasi ditabulasi menjadi tabel 1 untuk obyek wicara dan tabel 2 untuk obyek musik. Perhitungan rasio diskriminan fisher dilakukan dengan persamaan (9), dengan mendefinisikan kelas pertama adalah wicara dan kelas kedua adalah musik. Data untuk perhitungan diambil dari tabel 1 dan tabel 2, Hasil perhitungan ditampilkan pada tabel 3. Tabel 1. Perhitungan fitur statistik obyek wicara Fitur Energi Entropi Energi Sinyal ZCR Spec. Rollof Spec Centroid Spec. Flux
4
Min
Max
Ratarata
Deviasi
0.167785
0.566726
0.345323
0.066131
0.000562
0.094087
0.015555
0.009030
0.201079
0.380374
0.243578
0.027238
0.005931
0.014027
0.009493
0.001259
0.029273
0.310776
0.153665
0.044623
0.516045
1.424161
0.781433
0.135495
Tabel 2. Perhitungan fitur statistik obyek musik Fitur Energi Entropi Energi Sinyal ZCR Spec. Rollof Spec Centroid Spec. Flux
Tabel 5. Perbandinagn tingkat akurasi klasifikasi obyek
Min
Max
Ratarata
0.102982
0.674362
0.288128
0.096240
0.010987
0.151120
0.043040
0.020809
0.094668
0.248791
0.177902
0.036726
0.002116
0.012065
0.006683
0.001683
0.151412
0.371275
0.275621
0.038452
0.529056
1.623572
0.832692
0.159902
Deviasi
Energ Entropi Energi Sinyal ZCR Spec. Rollof Spec Centroid Spec. Flux
(µm)
( s)
( m)
Fd
0.3453
0.2881
0.0661
0.0962
0.2399
0.0155
0.0430
0.0090
0.0208
1.4681
0.2435
0.1779
0.0272
0.0367
2.0630
0.0094
0.0066
0.0012
0.0016
1.7874
0.1536
0.2756
0.0446
0.0384
4.2865
0.7814
0.8326
0.1354
0.1599
0.0598
Tabel 4 Perhitungan batas ambang fitur dominan (µs)
(µm)
( s)
( m)
Thr
Spec Centroid
0.1536
0.2756
0.0446
0.0384
0.2171
ZCR
0.2435
0.1779
0.0272
0.0367
0.2112
Total terdeteksi benar
Spec. Centroid
4.2865
92.35 %
93.38 %
92.84 %
ZCR
2.0630
91.04 %
74.87 %
85.17 %
[1] Theodoridis S dan Koutroumbas K, “Patern Recognition”, Academic Press, San Diego USA, 2006. [2] Lavner Y dan Ruinskiy D, “A Decision-Tree-Based Algorithm for Speech/Music Classification and Segmentation”, EURASIP Journal on Audio, Speech, and Music Processing Volume 2009, Article ID 239892. [3] Rencher A.C, “Methods of Multivariate Analysis”, John Willey & Sons, Canada, 2002. [4] Pikrakis A, Giannakopoulos T, and Theodoridis S,” Speech/Music Discrimination For Radio Broadcasts Using A Hybrid HMM-Bayesian Network Architecture”, Proceeding of 14th European Signal Processing Conference, Florence, Italy, 2006. [5] Lartillot O dan Toiviainen P, “A Matlab Toolbox for Musical Feature Extraction from Audio”, Proceedings of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, 2007.
Dari hasil tabel 3 menunjukkan bahwa fitur Spectral Centroid mempunyai nilai rasio diskriminan tertinggi selanjutnya Zero Crossing Rate, dan seterusnya. Untuk fase pengujian dilakukan terhadap dua fitur yang mempunyai nilai tertinggi. Dari dua fitur tersebut dihitung batas ambang klasifikasi untuk tiap kelas obyek. Hasil penentuan posisi ambang ditampilkan pada tabel 4.
Fitur
Musik terdeteksi musik
DAFTAR PUSTAKA
Tabel 3. Perhitungan rasio diskriminan Fisher (µs)
wicara terdeteksi wicara
Hasil perbandingan tingkat akurasi yang ditampilkan pada tabel 5 menunjukkan bahwa nilai rasio diskriminan yang besar antar kelas obyek akan memberikan tingkat akurasi yang lebih baik dalam aplikasi diskriminasi pola suara yang tercampur dalam saluran telepon.
Dari hasil perhitungan fitur audio untuk tiap kelas obyek dilakukan perhitungan rasio diskriminan Fisher. Nilai diskriminan menentukan tingkat klasifikasi kelas obyek, nilai diskriminan yang besar menunjukkan kemampuan untuk klasifikasi yang tinggi dalam mentukan kelas obyek sebaliknya untuk nilai diskriminan yang rendah akan menurunkan kemampuan klasifikasi kelas obyek.
Fitur
Rasio disk. Fisher
Pengujian tingkat akurasi sistem dilakukan dengan metode Resubstitution yaitu menggunakan obyek sampel yang sama dengan fase pelatihan. Hasil pengujian ditampilkan pada tabel 5.
5