1
PEMISAHAN SINYAL AUDIO TERCAMPUR DARI LIVE MUSIC RECORDING MULTI-SUMBER MULTI-KANAL DENGAN METODE SMOOTH ITAKURA-SAITO NMF (NONNEGATIVE MATRIX FACTORIZATION) 1
Bramara Danaba, 2Dhany Arifianto, 3Andi Rahmadiansah Jurusan Teknik Fisika Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember (ITS) Kampus ITS Sukolilo, Surabaya - 60111 email : 1{danaderbramara}@yahoo.com 23 {dhany, andi}@ep.its.ac.id
ABSTRAK ekaman suara multi sumber dan multi kanal (Multi Source Multi Channel = MSMC) sering ditemui dalam perekaman musik hidup (Live Music Recording), teleconferencing, dan lain - lain. Perekaman multi sumber secara live dari 2 instrumen musik gitar dan bass ini akan mengakibatkan terekamnya sinyal yang tidak diinginkan pada taip kanal hasil pencampuran, hal ini diakibatkan karena karakter suara dan frekuensi kerja kedua instrumen tersebut yang hampir sama, sehingga mengakibatkan terjadinya penumpukan daya spektral. Pada metode Smooth Itakura-Saito NMF (Nonnegative Matrix Factorization) yang digunakan dalam pemisahan sinyal audio tercampur ini, sebuah input sinyal audio tercampur akan dianalogikan sebagai sebuah matrix non-negatif, di mana matrix tersebut akan difaktorkan agar dapat mengidentifikasi matrix – matrix non-negatif lain. Setelah dilakukan perhitungan nilai MSE (Mean Square Error), maka dapat diketahui bahwa error pada mode smooth lebih besar 0,15668 dibanding tanpa mode smooth yang bernilai 0,15664 untuk kanal gitar. Untuk kanal bass, error pada mode smooth lebih besar 0,1732 dibanding tanpa mode smooth yang bernilai 0,1367. Karena nilai MSE yang terbilang masih besar, maka perlu dilakukan pengkajian ulang terhadap algoritma dari Metode Smooth Itakura-Saito NMF ini.
Kata kunci : Sinyal Audio, Live Music Recording, Multi-Sumber Multi-Kanal, Smooth Itakura-Saito NMF. I. PENDAHULUAN Rekaman suara multi sumber dan multi kanal (Multi Source Multi Channel = MSMC) sering ditemui dalam perekaman musik hidup (Live Music Recording), teleconferencing, dan lain - lain. Musik itu sendiri dapat diciptakan atau dimainkan dari beberapa instrumen atau alat - alat musik pendukung, misal mikrofon, gitar, bass, drum, keyboard, dan lain - lain, atau juga dengan alat - alat musik tradisional lain. Perekaman di ruang studio, dalam praktiknya juga menggunakan teknik perekaman multi sumber, sehingga setiap komponen nantinya akan direkam menjadi satu kanal. Untuk selanjutnya, masing - masing sinyal instrumen musik dilakukan proses ekualisasi, pemberian efek reverberasi, dan lain - lain yang dilakukan oleh Sound Engineer sebelum proses pencampuran (mixing). Untuk itu diperlukan pemisahan sinyal suara dari instrument - instrument musik yang telah terekam dalam satu kanal agar memudahkan Sound Engineer memproses sinyal sesuai yang diinginkan. Perekaman multi sumber dari 2 instrument musik yang umum dijumpai dan paling mudah untuk dimainkan ini akan mengakibatkan terekamnya sinyal yang tidak diinginkan pada kanal hasil pencampuran, di samping terjadinya kanselasi fasa sinyal akibat perbedaan jarak sumber dan
2
penerima. Instrumen - instrumen musik di atas memiliki spektrum yang saling berpotongan dan sebuah musik dari genre musik tertentu biasanya dapat menghasilkan tingkat tekanan suara (Sound Pressure Level) mencapai 110 - 120 dB, sehingga kebocoran sinyal dari komponen lain sulit dihindarkan. Selain itu, pengadaan mikrofon dengan karakteristik tertentu akan sangat mahal. Untuk mengatasi terekamnya sinyal suara yang tidak diinginkan (noise) pada suatu kanal, maka diperlukan suatu metode pemisahan suara pada kanal tersebut yang merupakan hasil dari perekaman musik hidup (live music recording) multi sumber. Sinyal suara yang ditangkap pada kanal rekaman merupakan sinyal yang telah melalui proses propagasi, pencampuran, delay, dan pemfilteran, di mana sebelumnya telah terjadi proses pencampuran sinyal dari banyak sumber suara yang berbeda. Dengan demikian proses pencampuran sinyal suara pada suatu kanal akan sulit untuk diketahui, karena dipengaruhi oleh dinamika sinyal suara, perilaku akustik ruangan, posisi sumber, dan penerima, serta karakteristik sensor akustik yang digunakan. Agar proses pemisahan sinyal suara musik dapat dilakukan pada setiap kondisi perekaman, maka digunakan metode pemisahan buta (Blind Separation) yang dari beberapa penelitian sebelumnya dapat mengestimasi sinyal suara sumber dari sinyal suara tercampur. Beberapa metode pemisahan buta pada sinyal audio tercampur yang telah diketahui di antaranya adalah Blind Source Separation (BSS) dan Computational Auditory Scene Analysis (CASA), sedangkan untuk penelitian tugas akhir ini metode yang digunakan adalah Smooth Itakura-Saito NMF (Nonnegative Matrix Factorization). Pada penelitian tentang pemisahan sinyal audio tercampur yang menggunakan metode Smooth Itakura-Saito NMF (Nonnegative Matrix Factorization) ini, sebuah sinyal audio tercampur akan dianalogikan sebagai sebuah matrix nonnegatif, di mana matrix tersebut akan difaktorkan agar dapat mengidentifikasi matrix non-negatif lain. Permasalahan yang timbul dari pemfaktoran tersebut adalah bagaimana mereduksi dimensi matrix - matrix lain hasil pemfaktoran. Dengan menggunakan Metode Itakura-Saito NMF, akan dapat ditentukan jarak minimum antara matrix
sumber dan matrix hasil pemfaktoran. Sedangkan mode smooth digunakan untuk mengatasi permasalahan smoothness dari daya spektral sinyal estimasi. II. TINJAUAN PUSTAKA 2.1 Perekaman Recording)
Musik
Hidup
(Live
Music
Perekaman musik hidup (Live Music Recording) adalah perekaman audio dari berbagai jenis alat (instrumen) musik yang dimainkan secara bersama - sama dan bunyi yang dihasilkan langsung dikeluarkan (sound out) dengan menggunakan amplifier, speaker, atau sound system lain. Perekaman musik hidup ini dapat dilakukan di dalam studio, di mana proses pengolahan data hasil perekaman, seperti mixing, equalizing, denoising, dan lain - lain dilakukan pada saat itu juga. Perekaman juga dapat dilakukan pada sebuah konser live.
Gambar 1. Proses Perekaman Musik Hidup di dalam Studio
Sedangkan perekaman musik yang tidak dilakukan secara live adalah misalnya pada perekaman audio dari beberapa alat musik yang dilakukan secara terpisah, kemudian hasil dari perekaman terpisah tersebut dicampur (mixing) untuk menghasilkan komposisi musik (lagu) yang utuh. Untuk melakukannya, diperlukan sistem recording yang terdiri dari mixer, synthesizer, equalizer, software penunjang, dan instrumen lain, serta tentunya seorang sound engineer untuk mengoperasikan keseluruhan proses rekaman. Tentu
3
saja untuk melakukan keseluruhan proses membutuhkan waktu yang lama dan biaya yang tidak sedikit. Contoh lain dari perkekaman tidak live adalah perekaman ulang dari file - file berformat MIDI; .mp3; .wav; .wmv; dan lain – lain. Untuk melakukan perekaman musik secara hidup, biasanya diperlukan kemahiran bagi musisi untuk memainkan alat musik sesuai dengan ketukan atau tempo tertentu, agar tercipta alunan musik yang sinkron dan tentu saja enak untuk didengar. Tempo dari suatu alunan musik yang dimainkan biasanya diukur dengan satuan BPM (beats per minute) atau ketukan per menit. Untuk menyesuaikan permainan alat musik dengan tempo, biasanya digunakan alat bantu, yaitu metronom. Atau yang paling sederhana dengan menggunakan salah satu alat musik sebagai acuan, umunya drum atau bass. Musik dengan tempo sedang biasanya memiliki tempo sekitar 120 BPM, yang dominan pada genre musik pop, orkestra, atau slowrock, di mana diperlukan acuan ketukan single-pedal dengan menggunakan drum. Sedangkan untuk kategori musik cepat memiliki tempo sekitar 200 – 240 BPM, biasanya dapat diterapkan pada musik ber-genre hardrock, metal, punk, dan lain - lain. Bila menggunakan alat musik drum sebagai acuan, biasanya diperlukan ketukan double-pedal atau twin-pedal. 2.2 Multi-Sumber Multi-Kanal Dalam perekaman musik hidup dengan multisumber dan multi-kanal, tiap alat musik diberikan satu mikrofon sebagai sensor. Mikrofon tersebut mempunyai karakteristik polaritas pada arah dan karakteristik frekuensi tertentu untuk merekam sinyal yang diinginkan. Dalam kenyataannya pada sebuah sistem dengan banyak instrumen di dalamnya, sering dijumpai permasalahan di mana sensor tidak hanya menangkap sinyal yang diinginkan, tetapi juga noise yang mungkin berasal dari sumber lain atau dari sistem itu sendiri. Pada penelitian tugas akhir ini akan dibahas permasalahan pada proses perekaman musik hidup dengan multi sumber dan multi kanal (Multi-Source and Multi-Channel = MSMC), di mana sinyal yang ditangkap oleh sensor pada masing - masing kanal tidak hanya berasal dari satu sumber bunyi (alat musik). Dengan kata lain, efek yang mungkin terjadi dalam metode perekaman multi sumber dan multi kanal adalah
adanya kontribusi sinyal yang tidak diinginkan (sebagai noise) pada setiap kanal rekam. Untuk memisahkan sinyal suara yang dinginkan dari sinyal tercampur tersebut diperlukan suatu metode pemisahan sinyal yang tepat sesuai dengan karakteristik sinyal yang hendak dipisahkan, serta proses pencampurannya dengan sinyal yang tidak dikehendaki.
Gambar 2. Efek Multi Sumber pada suatu Proses Rekaman
2.3 Itakura-Saito NMF (Nonnegative Matrix Factorization) NMF (Nonnegative Matrix Factorization) adalah sebuah teknik regresi linier yang dapat diterapkan pada data – data non-negatif. Misal diberikan data matrix non-negatif masukan V berdimensi F N , permasalahan yang timbul adalah bagaimana mereduksi dimensi data pada pemfaktoran : V W H [11] , di mana W dan H juga merupakan matrix nonnegatif dengan dimensi F K dan K N secara berurutan. Dipilihnya nilai K agar pada persamaan FK KN FN , sehingga dimensi data pada hasil pemfaktoran dapat direduksi. Pada proses pemisahan sinyal audio tercampur ini, matrix V merepresentasikan magnituda atau daya spektral dari sinyal audio. Jumlah pemfaktorannya merupakan dekomposisi data spektrogram menjadi pola spektral dasar
4
amplitudo W dan modulasi dalam domain waktu H . Pemfaktoran V W H dapat dicapai dengan meminimalisasi pengukuran dengan persamaan : DV WH F
f 1
, di mana
d V WH N
fn
2.5 Mean Square Error (MSE)
[12]
fn
n 1
d x y adalah skala fungsi cost.
Minimisasi W dan H adalah kendala utama non-negatif pada koefisien kedua faktor. Pemfaktoran daya spektral menggunakan ItakuraSaito (IS) divergence didefinisikan dengan : x x [13] d IS x y log 1 y y
Persamaan Itakura-Saito (IS) divergence sangat relevan dengan pemrosesan sinyal audio karena memiliki dua sifat utama. Pertama, Itakura-Saito (IS) divergence adalah korelasi skala-invarian, d IS x y d IS x y , di
menghasilkan kemungkinan pendekatan V W H dengan cara meminimalkan dimensi jarak antara V dan W H , maka perlu ditambahkan algoritma Smooth IS-NMF ini [21].
mana sifat tersebut tidak dimiliki persamaan fungsi jarak Euclidean distance dan Kullback-Leibler divergence. Skala-invarian relevan dengan proses dekomposisi spektral audio, yang secara tipikal memiliki range dinamik yang besar dan komponen - komponen transien dengan daya spektral yang rendah, seperti tone dengan not sustained. Kedua, Itakura-Saito (IS) divergence memiliki solusi secara statisitik untuk permasalahan minimisasi atau teknik reduksi dimensi pada pemfaktoran matrix non-negatif. Daya spektral hasil dari pemisahan sinyal audio dengan metode ItakuraSaito NMF (Nonegative Matrix Factorization) dapat disusun kembali sebagai estimasi kemungkinan maksimum (Maximum Likelihood) dari nilai W dan H . 2.4 Penambahan Mode Smooth
Penambahan mode Smooth pada persamaan fungsi jarak Itakura-Saito NMF sebelumnya, karena nilai dari W dan H yang dihasilkan belum memberikan jarak yang minimal terhadap V untuk memenuhi syarat min DV WH . Permasalahan ini W , H 0
disebut dengan smoothness constraints. Untuk dapat
MSE didalam statistik merupakan kuadrat rata-rata dari error. MSE adalah perbedaan antara sinyal asli dengan sinyal estimasi. sinyal estimasi merupakan sinyal output dari sistem [14]. Semakin kecil nilai MSE maka sinyal asli dengan sinyal estimasi mempunyai kesamaan. MSE digunakan untuk mengukur rata-rata kesalahan yang berasal dari kuantitas yang akan diestimasi. 1 n S S e 2 i 1 n , di mana MSE = Mean Square Error N = banyaknya sample S = Sinyal baseline Se = Sinyal estimasi MSE
[15]
2.6 Signal to Noise Ratio (SNR)
SNR (Signal to Noise Ratio) merupakan ukuran perbandingan daya antara sinyal dengan bising. Jika perbandingan sinyal dengan bising sama, maka daya sinyal dan daya bising yang dicampur adalah sama dan jika perbandingan antara sinyal dan bising yang didapatkan semakin kecil, maka dapat disimpulkan jika bising latar yang terjadi semakin besar. Secara matematis, SNR dapat dirumuskan dengan persamaan sebagai berikut 2
A SNR 10 log s [9] An , di mana : SNR = signal to noise ratio (dB) = amplitudo sinyal sumber (m) As = amplitudo sinyal background noise (m) An
5
III. METODOLOGI PENELITIAN
3 4 5 6 7 8 9 10 11 12 13 14 15
BASELINE GITAR (SOLMISASI) BASELINE GITAR (MUSIK 1) BASELINE GITAR (MUSIK 2) BASELINE BASS (KORD E) BASELINE BASS (KORD D) BASELINE BASS (SOLMISASI) BASELINE BASS (MUSIK 1) BASELINE BASS (MUSIK 2) CAMPURAN 1 + 6 CAMPURAN 2 + 7 CAMPURAN 3 + 8 CAMPURAN 4 + 9 CAMPURAN 5 + 10
Tabel 1. Urutan Proses Perekaman Data
Proses terjadinya pencampuran sinyal antara sinyal asli yang ingin direkam dengan sinyal pencampur pada kanal rekam gitar dan bass, dapat dilihat pada diagram blok gambar 3.3 di bawah ini. Pada gambar diagram blok tersebut, dapat dilihat bahwa sinyal yang berasal dari amplifier gitar S1 direkam pada kanal gitar A11 setelah disensor oleh mikrofon kanal gitar Mic 1, tetapi yang tersensor oleh mikrofon kanal gitar tidak hanya sinyal yang bersumber dari amplifier gitar, karena terdapat juga sinyal yang bersumber dari amplifier bass S2 yang tercampur melalui kanal A12, karena terekam oleh Mic 1. Proses pencampuran tersebut menghasilkan sinya tercampur V1. GITAR
A11 V1
Gambar 3. Flowchart Penelitian
+
S1
3.1 Proses Pengambilan Data (Live Recording)
Pada proses pengambilan data, jarak antara amplifier gitar dan bass adalah 50 cm. Sementara itu, sensor mic diletakkan 5 cm di depan masing masing amplifier, sehingga bila diukur jarak antar mic adalh 138 cm. Peletakan mikrofon perlu diperhatikan untuk menghindari terjadinya spatial aliasing, sehingga dalam penelitian ini mikrofon diletakkan lurus di depan amplifier. Proses perekaman sinyal audio dari alat musik dilakukan dengan urutan sebagi berikut :
A12
MIC 1
A21 V2
+ BASS
A22
MIC 2
S2
SUMBER BUNYI
KANAL PENCAMPURAN
SENSOR
Gambar 4. Diagaram Blok Proses Pencampuran Sinyal
DATA KE 1 2
SINYAL BASELINE GITAR (KORD E) BASELINE GITAR (KORD D)
Sedangkan sinyal yang bersumber dari amplifier bass S2 direkam pada kanal rekam A22,
6
setelah disensor dengan menggunakan mikrofon amplifier bass Mic 2. Tetapi yang tersensor oleh mikrofon tersebut tidak hanya sinyal dari sumber S2, tetapi juga sinyal yang bersumber dari amplifier gitar S1 yang terekam pada kanal A21. Proses pencampuran kedua sinyal tersebut pada mikrofon Mic 2 menghasilkan sinyal tercampur V2. 3.2 Perhitungan SNR (Signal to Noise Ratio)
Sesuai dengan persamaan untuk menghitung SNR (Signal to Noise Ratio), yaitu : A SNR 10 log s An
2
, di mana As merupakan amplitudo sinyal sumber dan An adalah amplitudo dari sinyal background noise. Untuk nilai SNR dari perbandingan sinyal baseline gitar dan sinyal background noise pada amplifier gitar, yaitu 47,4721 dB. Nilai SNR dari perbandingan sinyal baseline bass dan sinyal background noise pada amplifier bass, yaitu 38,1110 dB. Bila sinyal sumber yang digunakan dalam perbandingan merupakan hasil pencampuran dari bunyai gitar dan bass, maka nilai SNR dari perbandingan antara sinyal tercampur pada kanal gitar dengan sinyal background noise pada amplifier gitar adalah 41,5161 dB. Nilai SNR dari perbandingan antara sinyal tercampur pada kanal bass dengan sinyal background noise pada amplifier bass adalah 26,4180 dB.
Gambar 5. Waveform Sinyal Baseline Gitar
Gambar 6 di bawah ini merupakan waveform dan spektrogram sinyal tercampur pada kanal gitar. Sinyal tercampur ini terjadi karena adanya sinyal yang tidak diinginkan (noise) yang ikut terekam.
(a)
IV. ANALISA DATA DAN PEMBAHASAN 4.1
Analisa Data
4.1.1 Kanal Gitar (Kord E)
Pada gambar 5 di bawah ini merupakan bentuk gelombang (waveform) dari sinyal baseline gitar yang dimainkan pada kord E. Kord E pada gitar ini dimulai dari nada terendah, yaitu pada oktaf ke-2. Bila dikalibrasi maka frekuensi yang dihasilkan adalah 82,407 Hz. Informasi lain yang bisa diperoleh dari gambar waveform ini, yaitu simpangan terjauh atau amplitudo yang dihasilkan adalah 0,2, karena memang sinyal yang dibangkitkan murni bersumber dari alat musik gitar.
(b) Gambar 6. Waveform (a) dan Spektrogram (b) Sinyal Tercampur pada Kanal Gitar
7
Noise yang terdapat pada kanal rekam ini bisa berasal dari alat musik lain, maupun background noise dari sistem atau amplifier. Dari waveform sinyal tercampur dapat dilihat bahwa telah terjadi peningkatan amplitudo yang diakibatkan oleh penumpukan daya spektral.
dengan sinyal rekonstruksi, maka didapatkan nilai MSE sebesar 0,1716. 4.1.2 Kanal Bass (Kord E)
Pada gambar 8 di bawah ini merupakan bentuk gelombang (waveform) dari sinyal baseline bass yang dimainkan pada kord E. Kord E pada bass ini dimulai dari nada terendah, yaitu pada oktaf ke1. Bila dikalibrasi maka frekuensi yang dihasilkan adalah 41,203 Hz. Informasi lain yang bisa diperoleh dari gambar waveform ini, yaitu simpangan terjauh atau amplitudo yang dihasilkan adalah 0,1, karena memang sinyal yang dibangkitkan murni bersumber dari alat musik bass.
(a)
Gambar 8. Waveform Sinyal Baseline Bass
(b) Gambar 7. Waveform (a) dan Spektrogram (b) Sinyal Rekonstruksi Gitar
Pada spektrogram dapat dilihat bahwa telah terjadi penumpukan frekuensi yang diakibatkan oleh adanya sinyal dari alat musik lain yang memiliki karakter frekuensi sama yang ikut terekam. Warna merah pada spektrogram merupakan frekuensi kerja dari sinyal yang sering muncul. Setelah dilakukan proses pemisahan dpat dilihat pada waveform gambar 7 bahwa telah terjadi penurunan nilai amplitudo dari 0,038 menjadi sekitar 0,013. Setelah dilakukan perhitungan nilai MSE (Mean Square Error) dengan cara membandingkan sinyal baseline
(a)
8
(b) Gambar 9. Waveform (a) dan Spektrogram (b) Sinyal Tercampur pada Kanal Bass
Gambar 9 di atas merupakan waveform dan spektrogram sinyal tercampur pada kanal bass. Sinyal tercampur ini terjadi karena adanya sinyal yang tidak diinginkan (noise) yang ikut terekam. Noise yang terdapat pada kanal rekam ini bisa berasal dari alat musik lain, maupun background noise dari sistem atau amplifier. Dari waveform sinyal tercampur dapat dilihat bahwa telah terjadi peningkatan amplitudo yang diakibatkan oleh penumpukan daya spektral. Pada spektrogram dapat dilihat bahwa telah terjadi penumpukan frekuensi yang diakibatkan oleh adanya sinyal dari alat musik lain yang memiliki karakter frekuensi sama yang ikut terekam. Warna merah pada spektrogram merupakan frekuensi kerja dari sinyal yang sering muncul.
(b) Gambar 10. Waveform (a) dan Spektrogram (b) Sinyal Rekonstruksi Bass
Setelah dilakukan proses pemisahan dpat dilihat pada waveform gambar 10 bahwa telah terjadi penurunan nilai amplitudo dari 0,038 menjadi sekitar 0,003. Setelah dilakukan perhitungan nilai MSE (Mean Square Error) dengan cara membandingkan sinyal baseline dengan sinyal rekonstruksi, maka didapatkan nilai MSE sebesar 0,1850. 4.1.3 Kanal Gitar (Musik 2)
Gambar 11. Waveform Sinyal Baseline Gitar
(a)
9
(a)
(b) Gambar 13. Waveform (a) dan Spektrogram (b) Sinyal Rekonstruksi Gitar
4.1.4 Kanal Bass (Musik 2)
(b) Gambar 12. Waveform (a) dan Spektrogram (b) Sinyal Tercampur pada Kanal Gitar
Gambar 14. Waveform Sinyal Baseline Bass
(a)
10
(a) (b) Gambar 16. Waveform (a) dan Spektrogram (b) Sinyal Rekonstruksi Bass
4.2 Pembahasan
(b) Gambar 15. Waveform (a) dan Spektrogram (b) Sinyal Tercampur pada kanal Bass
(a)
Setelah dilakukan pengambilan data dengan melakukan perekaman live pada kanal gitar dan bass untuk mengambil sinyal baseline dan sinyal campuran 2 alat musik, dilakukan proses pemisahan dengan metode Smooth Itakura-Saito NMF. Dari hasil pemisahan tersebut diperoleh sinyal rekonstruksi alat musik pada masing - masing kanal. Sinyal rekonstruksi tersebut dapat diamati dalam bentuk waveform dan spektrogram. Dilakukan juga hal yang sama ketika mengambil data dengan melakukan perubahan pada kord atau nada yang dimainkan, yaitu pada nada E, D, dan Solmisasi (do-re-mi-fa-sol-la-si-do). Lalu dilakukan juga perekaman dengan memainkan dua buah musik yang diambil pada durasi reff-nya saja. Lagu pertama berjudul “Move Along” dari The All American Rejects dan lagu kedua berjudul “Face Down” dari The Red Jumpsuit Apparatus. Untuk mengetahui seberapa besar selisih atau error dari sinyal rekonstruksi terhadap sinyal baseline-nya, maka dilakukan perhitungan MSE (Mean Square Error). Dan hasilnya dapat dilihat pada tabel di bawah ini.
11
KANAL
GITAR
CHORD
IS-NMF
4. Setelah dilakukan perhitungan nilai MSE pada alat musik bass, Metode Smooth ISNMF memiliki nilai MSE lebih tinggi 0,1732 daripada IS-NMF yang bernilai 0,1367. 5. Dari perbandingan nilai MSE pada poin 3 dan 4, maka dapat disimpulkan bahwa Metode Itakura-Saito NMF tanpa menggunakan mode Smooth memiliki hasil pemisahan yang lebih baik dibandingkan dengan menggunakan mode Smooth, pada pemisahan sinyal audio tercampur dari perekaman musik hidup multi-sumber multi-kanal.
Smooth IS-NMF
E
0.1589
0.1716
D
0.0851
0.0696
Solmisasi
0.2693
0.2559
Musik 1
0.1641
0.1389
Musik 2
0.1058
0.1474
E
0.1332
0.1850
D
0.0907
0.1641
Solmisasi
0.1162
0.1265
Musik 1
0.1722
0.1957
Musik 2
0.1712
0.1974
5.2 Saran
BASS
Tabel 2. Perbandingan Nilai MSE IS-NMF dan Smooth ISNMF
V. PENUTUP 5.1 Kesimpulan
Berdasarkan penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan sebagi berikut: 1. Metode Smooth Itakura-Saito NMF dapat diterapkan pada proses pemisahan sinyal audio tercampur multi-sumber multi-kanal. 2. Metode Smooth Itakura-Saito NMF dapat diterapkan pada alat musik dengan frekuensi kerja 40 – 660 Hz, dalam hal ini gitar dan bass 3. Setelah dilakukan perhitungan nilai MSE pada alat musik gitar, Metode Smooth ISNMF memiliki nilai MSE lebih tinggi 0,15668 daripada IS-NMF yang bernilai 0,15664.
Dari kesimpulan penelitian maka saran yang dapat diberikan sehubungan dengan hasil penelitian ini adalah: 1. Sebaiknya dilakukan pengkajian ulang terhadap algoritma Smooth Itakura-Saito NMF, dengan tujuan agar nilai MSE (mean square error) bisa lebih diperkecil lagi, sehingga performa hasil pemisahan meningkat. 2. Sebaiknya dilakukan juga pemisahan sinyal audio tercampur dengan metode Blind Source Separation lain, seperti Independent Component Analysis (ICA), Algoritma DUET (Degenerate Unmixing Estimation Technique), Algoritma JADE (Joint Approximate Diagonaliztion of Eigenmatrices), CASA (Computational Auditory Scene Analysis), dll. 3. Dapat dilakukan pemisahan sinyal audio tercampur dari live music recording multisumber multi-kanal dengan melibatkan lebih banyak alat musik lagi, misal pada skala konser. 4. Proses pemisahan sinyal audio tercampur diharapkan dapat dijadikan sebagai metode alternatif untuk deteksi kerusakan atau cacat nada (tone) pada alat musik. VI. DAFTAR PUSTAKA [1]
www.shure.com, ”Microphone Techniques for Drums”, A SHURE Educational Publication, SHURE Incorporated, 2004.
12
[2]
A. A. Wiratno, “Fisbang_Noise_Control.ppt”, Lab. Rekayasa Akustik & Fisika Bangunan, Teknik Fisika ITS.
[3]
A. A. Wiratno, “Fisbang_Noise_Control_2.ppt”, Lab. Rekayasa Akustik & Fisika Bangunan, Teknik Fisika ITS.
[4]
http://en.wikipedia.org/wiki/Microphone_array
[5]
Douglas, SC., 2001, “Microphone Array Technique and Application: BSS of Acoustic Signal”, (Bredstein-D.Ware, Eds.), Berlin: Springer Inc.
[6]
Newland, D.E., 2005, “An Introduction to Random Vibrations, Spectral and Wavelet Analysis”, Dover Publishing Co., New York, 2005.
[7]
Anda, AR, “Penggunaan Frekuensi Sesaat Untuk Deteksi Pola Suara Kerusakan Motor Listrik”, Tugas Akhir, ITS, 2006.
[8]
Tris Atmaja, Bagus., “Pemisahan Banyak Sumber Suara Mesin Dari Microphone Array Dengan Metode Independent Componen Analysis (ICA) Untuk Deteksi Kerusakan”, Tugas Akhir, ITS, 2008.
[9]
Alan H. S. Chan, Sio-Iong Ao (2008). Advances in industrial engineering and operations research. Springer.
[10]
A. Banerjee et al. (2004). "Clustering with Bregman Divergences". In Michael W. Berry, Umeshwar Dayal, Chandrika Kamath, and David Skillicorn. Proceedings of the Fourth SIAM International Conference on Data Mining.
[11]
D. D. Lee and H. S. Seung, “Learning The Parts of Objects with Nonnegative Matrix Factorization”, Nature, vol. 401, 1999.
[12]
P. Smaragdis and J.C. Brown, “Nonnegative Matrix Factorization for Polyphonic Music Transcription”, in IEEE Workshop on Application of Signal Processing to Audio and Acoustics (WASPAA’03), Oct. 2003.
[13]
T. Virtanen, “Monaural Sound Source Separation by Nonnegative Matrix Factorization with Temporal Continuity and Sparseness Criteria”, IEEE Trans. Audio, Speech, and Language Processing, vol.15, no.3, Mar. 2007.
[14]
http://en.wikipedia.org/wiki/Mean_squared_error
[15]
Girdhar, Paresh., 2004, ”Practical Machinery Vibration Analysis and Predictive Maintenance”, Oxford, Newnes Inc.
[16]
http://www.scribd.com/doc/41797173/BAB-IISkripsi
[17]
L. Benaroya, R. Gribonval, and F. Bimbot. “Nonnegative Sparse Representation for Wiener based Source Separation with A Single Sensor”, In proceeding IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’03), pages 613-616. Hong Kong, 2003.
[18]
M. W. Berry, M. Brownc, A. N. Langville, V. P. Pauca, and R. J. Plemmons. “Algorithms and Applications for Approximate Nonnegative Matrix Factorization”. Computational Statistics & Data Analysis, 52(1):155-173, September 2007.
[19]
N. Bertin, R. Badeau, and G. Richard. “Blind Signal Decompositions for Automatic Transcription of Polyphonic Music”. NMF and K-SVD on the benchmark. In proceeding In proceeding IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’07), Honolulu, Hawaii, USA, 2007.
[20]
Seltzer, ML., Mitchel, L. 2003. “Microphone Array Processing for Robust Speech Recognition”. PhD Thesis,Carnegie Mellon University, 2003.
[21]
C. Fevotte, “Majorization - Minimization Algorithm For Smooth Itakura-Saito Nonnegative Matrix Factorization”. CNRS ; LTCI; Telecom ParisTech, Paris, France.
BIODATA PENULIS
Nama : Bramara D. Alamat : Jl. Teh no.12 PT. Petrokimia Gresik TTL : Gresik, 12 Januari 1989 Agama : Hindu Riwayat Pendidikan : SDN Sidokumpul 2 Gresik (1995 - 2001) SMP Negeri 1 Gresik (2001 - 2004) SMA Negeri 1 Gresik (2004 - 2007) Teknik Fisika ITS (2007 - 2011) Bidang Minat : Rekayasa Akustik dan Fisika Bangunan