PERBANDINGAN METODE VOTING FEATURE INTERVALS DENGAN JARINGAN SARAF TIRUAN DALAM MENGKLASIFIKASI GENRE MUSIK
SYAHZAM
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
2
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis : Perbandingan Metode Voting Feature Intervals Dengan Jaringan Saraf Tiruan Dalam Mengklasifikasi Genre Musik adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Juni 2011
Syahzam NRP G651050144
3
ABSTRACT SYAHZAM. Comparison of Voting Feature Intervals with Neural Network Methode in Classifying Music Genre. Under direction of AGUS BUONO and AZIZ KUSTIYO. Music genre is one of the important descriptions that have been used to classify digital music. The aim of this research is to compare Voting Feature Intervals (VFI) methode with the Neural Network (NN) methode in classifying music genre. There are 12 scenarios of feature extractions in this research. Three variations of MFCC coefficient number (7, 13 and 20 coefficients) and four variations of music length (1, 5, 10, and 30 seconds). From each of the feature vector, mean was calculated. For the NN methode after the feature vectors were extracted, normalization was applied using the cumulative normal distribution methode. This research shown that the optimal number of MFCC coefficients was 13 coefficients. NN predictions were better than VFI predictions. NN has an accuracy up to 95% which was obtained by using 30 neurons of hidden layer, 10 seconds length of music and 13 MFCC coefficients. While the VFI has an accuracy up to 85% which was obtained by using 30 seconds length of music and 7 MFCC coefficients. Both experiments that used 13 and 20 coefficients of MFCC feature obtained same accuracy using the NN method. Classic genre has an accuracy of 100% in VFI. The reliability of the system was 57,14% for disco up to 94,44% for classic. Keywords : Music genre, Voting Feature Intervals, Neural Network, MelFrequency Cepstral Coefficents
4
RINGKASAN SYAHZAM. Perbandingan Metode Voting Feature Intervals Dengan Jaringan Saraf Tiruan Dalam Mengklasifikasi Genre Musik. Dibimbing oleh AGUSU BUONO dan AZIZ KUSTIYO. Perkembangan teknologi media penyimpanan (storage) digital dan pertambahan kapasitas lebar pita jaringan di dunia telah mengakibatkan terciptanya koleksi musik digital yang sangat banyak yang dapat dinikmati oleh beragam pengguna komputer. Oleh karena itu, dibutuhkan sebuah sistem yang memiliki kemampuan untuk manajemen dan mengambil (retrieve) secara otomatis koleksi berkas musik yang sangat banyak dari dalam media penyimpanan Genre musik adalah salah satu deskripsi penting yang digunakan untuk mengklasifikasi musik. Tujuan utama penelitian ini adalah untuk mengembangkan suatu prototipe sistem yang dapat digunakan untuk mengklasifikasi musik digital berdasarkan genrenya dengan menggunakan metode Voting Feature Intervals (VFI) dan membandingkan akurasi prototipe sistem ini dalam mengenali genre musik dengan metode Jaringan Saraf Tiruan (JST). Jumlah dataset yang digunakan pada penelitian ini adalah 80 berkas musik berformat au mono 16-bit yang memiliki frekuensi sampling sebesar 22,05 kHz dengan durasi 30 detik setiap berkasnya. Setiap genre akan memiliki 20 berkas musik yang dapat dijadikan sebagai data pelatihan dan pengujian. Genre musik yang akan dipakai untuk penelitian ini adalah genre musik klasik, disko, metal dan reggae. Terdapat 12 skenario ekstraksi ciri pada penelitian ini yaitu tiga variasi jumlah koefisien MFCC (7, 13 dan 20 koefisien) dan empat variasi penggunaan waktu berkas musik (1, 5, 10 dan 30 detik). Ciri yang diekstrak diperlakukan window Hamming dengan time frame 30 ms (mili detik) serta overlap sebesar 75%. Dari setiap ciri tersebut, mean (rataan) dihitung untuk membentuk vektor ciri. Untuk metode JST, setelah ciri diekstrak maka dilakukan normalisasi menggunakan metode distribusi normal kumulatif. Hasil penelitian menunjukkan bahwa penggunaan ciri koefisien MFCC optimum yaitu 13 koefisien dengan hasil akurasi yaitu 95%. Hasil akurasi tersebut juga didapatkan dengan pengunaan ciri 20 koefisien MFCC. Hasil akurasi cenderung meningkat dengan bertambahnya besaran waktu berkas musik yang digunakan dimana akurasi pada penggunaan waktu 1 detik yaitu 80% dan akurasi pada penggunaan waktu 30 detik yaitu 95% pada metode JST dengan 13 dan 20 koefisien MFCC. Akurasi dengan metode JST memiliki akurasi yang terbaik yaitu 95% yang diperoleh dengan jumlah layer hidden neuron sebanyak 30 layer pada 10 detik waktu berkas musik dan penggunaan ciri 13 koefisen MFCC. Akurasi dengan metode VFI mencapai hingga 85% dengan 30 detik waktu berkas musik dan penggunaan ciri 7 koefisien MFCC. Genre musik yang paling mudah dikenali pada metode VFI yaitu genre klasik dengan akurasi sebesar 100%. Reliabilitas pada genre musik berkisar dari 57,14% pada genre disko hingga 94,44% pada genre klasik.
5
Penelitian ini masih dapat dikembangkan sebagai upaya untuk meningkatkan akurasi model VFI ataupun JST dalam melakukan prakiraan atau prediksi genre musik, antara lain dengan menambah data training dan testing. Pada penelitian ini, data set yang digunakan sebanyak 80 data. Oleh karena itu, diperlukan penelitian lebih lanjut dengan menggunakan data set yang lebih banyak sehingga memperoleh akurasi yang lebih baik. Perlu dilakukan pengujian dengan menambahkan ciri selain dari MFCC dan melihat kinerja akurasi kedua metode dalam mengklasifikasi genre musik. Kata Kunci : Genre musik, Voting Feature Intervals, Jaringan Saraf Tiruan, Mel-Frequency Cepstral Coefficents
6
©Hak Cipta milik IPB, tahun 2011 Hak Cipta dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB. Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis dalam bentuk apapun tanpa izin IPB.
7
PERBANDINGAN METODE VOTING FEATURE INTERVALS DENGAN JARINGAN SARAF TIRUAN DALAM MENGKLASIFIKASI GENRE MUSIK
SYAHZAM
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
8
Penguji Luar Komisi pada Ujian Tesis : Toto Haryanto, S.Kom, M.Si
9
Judul
Nama NRP
: Perbandingan Metode Voting Feature Intervals Dengan Jaringan Saraf Tiruan Dalam Mengklasifikasi Genre Musik : Syahzam : G651050144
Disetujui Komisi Pembimbing
Dr. Ir. Agus Buono, M.Si, M.Kom Ketua
Aziz Kustiyo, S.Si, M.Kom Anggota
Diketahui
Ketua Program Studi Ilmu Komputer
Dekan Sekolah Pascasarjana IPB
Dr. Ir. Agus Buono, M.Si, M.Kom
Dr. Ir. Dahrul Syah, M.Sc. Agr
Tanggal Ujian : 22 Juni 2011
Tanggal Lulus :
10
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam penelitian ini adalah Perbandingan Metode Voting Feature Intervals Dengan Jaringan Saraf Tiruan Dalam Mengklasifikasi Genre Musik. Terima kasih penulis ucapkan kepada Bapak Dr. Ir. Agus Buono, M.Si, M.Kom dan Bapak Aziz Kustiyo, S.Si, M.Kom selaku pembimbing atas arahan dan masukannya. Ucapan terima kasih juga penulis sampaikan kepada Bapak Toto Haryanto, S.Kom, M.Si selaku penguji pada sidang tesis. Ungkapan terima kasih juga disampaikan kepada ayah ,ibu, serta seluruh keluarga dan teman, atas segala doa dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat.
Bogor, Juni 2011 Syahzam
11
RIWAYAT HIDUP Penulis dilahirkan di Medan pada tanggal 12 Mei 1981 sebagai anak dari pasangan Burhani Syah dan Fazariah Mahroezar. Penulis merupakan anak keempat dari empat bersaudara. Tahun 1999 penulis lulus dari SMU Negeri 1 Bogor dan pada tahun yang sama melanjutkan program diploma ke Politeknik Negeri Jakarta. Penulis memilih Program Studi Mesin Spesialisasi Konstruksi dan Perancangan Jurusan Teknik Mesin dan lulus pada tahun 2002. Pendidikan sarjana penulis ditempuh di Fakultas Teknologi Industri Teknik Mesin Konsentrasi Mesin Industri, Universitas Jayabaya dan lulus pada tahun 2004. Pada tahun 2005, penulis meneruskan studi S2 dan diterima di Program Studi Ilmu Komputer Pascasarjana IPB. Selama mengikuti studi S2, penulis bekerja sebagai staf pengajar di Bogor Montessori School.
DAFTAR ISI
Halaman DAFTAR TABEL
..............................................................................
DAFTAR GAMBAR
iii
.........................................................................
iv
....................................................................
vi
.............................................................................
1
..........................................................................
1
......................................................................
2
.........................................................................
2
Manfaat Penelitian ....................................................................
3
DAFTAR LAMPIRAN PENDAHULUAN Latar Belakang Tujuan Penelitian Ruang Lingkup
....................................................................
4
........................................................................................
4
TINJAUAN PUSTAKA Musik
Genre Musik
.............................................................................
4
Sinyal Suara
..............................................................................
5
Frame Blocking dan Windowing
..............................................
7
Penyiapan Data untuk Klasifikasi .............................................
9
Ekstraksi Ciri
.............................................................................
10
Voting Feature Intervals (VFI) ...................................................
18
Jaringan Saraf Tiruan (JST)
22
.......................................................
Multi Layer Perceptron (MLP)
..................................................
23
..........................................................................
24
Pengukuran Kinerja Sistem ........................................................
27
Review Riset Terdahulu ………………………....…..........……
27
METODE PENELITIAN .....................................................................
29
Propagasi Balik
Kerangka Pemikiran
………………………….…........……......
29
…………………………...….....…..
30
………………………..……………...........
30
Pengumpulan Data ……………....................……….....…
30
Identifikasi Masalah Studi Pustaka
ii
Halaman …………………………............…....……
31
Pengembangan Model VFI dan JST ..................................
31
……………......…………....……...
31
Alat dan Bahan ……………………………..........…..…….......
31
……….………..........…...…….
32
Ekstraksi Ciri
Pembuat Keputusan
Waktu dan Tempat Penelitian
IMPLEMENTASI DAN PERANCANGAN SISTEM
.....................
33
.............................................................................
33
Arsitektur Sistem .......................................................................
34
Implementasi Metode VFI
........................................................
34
.......................................................................
35
Ekstraksi Ciri
Model VFI
Akurasi Model VFI Implementasi Metode JST
...........................................................
37
........................................................
38
Desain Arsitektur Model JST
...........................................
38
Penentuan Pola Input dan Output
....................................
39
Algoritma Pembelajaran Jaringan
....................................
39
................................................
40
Akurasi Model JST ............................................................
42
Hasil Pelatihan Model JST
Confusion Matrix
......................................................................
SIMPULAN DAN SARAN
................................................................
47
....................................................................................
47
.........................................................................................
47
Simpulan Saran
……………………………………....………..
49
........................................................................................
52
DAFTAR PUSTAKA LAMPIRAN
43
iii
DAFTAR TABEL Halaman 1.
Beberapa contoh genre dan sub-genrenya (Hayne et al. 2005) ....
5
2.
Beberapa contoh penelitian klasifikasi genre musik ......................
28
3.
Dimensi vektor ciri untuk setiap variasi penelitian ........................
33
4.
Titik interval dan presentase frekuensi kemunculan pada ciri MFCC koefisien ke-1 pada contoh sebuah 30 detik berkas musik
5.
.............................................................................................
Contoh voting sistem pada sebuah 30 detik berkas musik dengan ciri MFCC koefisien ke-1
6.
.............................................................
..................................................
36
Rincian voting sistem dengan menggunakan ciri MFCC 7 koefisien dan 30 detik berkas musik
8.
36
Contoh prediksi sistem terhadap sebuah 30 detik berkas musik dengan ciri MFCC 20 koefisien
7.
35
.............................................
38
Hasil akurasi percobaan model JST dengan beragam jumlah neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik
9.
....................................................................
41
Hasil prediksi percobaan model JST dengan 30 neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik ................................................................................................
42
10. Confusion matrix dari prediksi sistem dengan metode VFI dengan ciri 7 koefisien MFCC dan 30 detik berkas musik ..........................
44
11. Confusion matrix dari prediksi sistem dengan metode JST dengan ciri 13 koefisien MFCC dan 10 detik berkas musik .......................
44
12. Voting prediksi dari genre musik disko yang sistem salah prediksi .
45
iv
DAFTAR GAMBAR Halaman 1.
Spectrogram
menggunakan
Ejnarsson 2002) 2.
Pembentukan 1993)
metode
Welch
(Nilsson
&
.......................................................................
6
frame pada sinyal suara (Rabiner dan Juang
........................................................................................
8
3.
Sistem dasar klasifikasi (Andersson 2004) ................................
10
4.
Ilustrasi dari perhitungan MFCC ...............................................
11
5.
Ilustrasi transformasi DFT (Buono 2009) .................................
12
6.
Ilustrasi fase X[k]
14
7.
Grafik hubungan frekuensi dengan skala mel
...........................
15
8.
Filter yang diperkenalkan oleh Davis dan Mermelstein ...........
16
9.
Ekstraksi ciri teknik MFCC dengan panjang frame 256 ..........
18
......................................................................
10. Tahap pembelajaran pada algoritma VFI5 (Demiroz 1997)
.....
19
11. Sampel dataset pembelajaran dengan 2 feature dan 2 kelas (Demiroz 1997)
.........................................................................
20
12. Interval yang diperoleh dari VFI5 dengan class counts untuk contoh dataset pembelajaran
.................................................
20
13. Contoh pengklasifikasian pada algoritma VFI5 dengan contoh pengujian t=<5,6>
...................................................................
14. Sistem komputasi pemodelan neuron
......................................
15. Arsitektur jaringan propagasi balik (Kusumadewi 2004)
21 23
........
25
..............................................
25
.........................................
26
18. Diagram alir penelitian pengembangan model sistem ................
29
16. Sigmoid biner pada selang [0,1] 17. Sigmoid bipolar pada selang [-1,1]
19. Arsitektur
sistem
dikembangkan 20. Perbandingan
klasifikasi
genre
musik
yang
telah
.......................................................................... akurasi
VFI
dari
penelitian
yang
telah
dilakukan .................................................................................... 21. Arsitektur model JST yang telah dikembangkan
34
.....................
37 40
v
Halaman 22. Perbandingan
akurasi
JST
dari
penelitian
yang
telah
dilakukan .................................................................................... 23. Diagram batang dari akurasi dan reliability sistem
.................
43 45
24. Diagram batang perbandingan mean akurasi dan mean reliability sistem ........................................................................
46
vi
DAFTAR LAMPIRAN Halaman 1. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold kedua
...............................
53
2. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold ketiga
...............................
53
3. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold keempat ..............................
54
4. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold kedua ....................
54
5. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold ketiga ....................
55
6. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold keempat ................
55
1
I PENDAHULUAN
1.1 Latar Belakang Perkembangan teknologi media penyimpanan (storage) digital dan pertambahan kapasitas lebar pita jaringan di dunia telah mengakibatkan terciptanya koleksi musik digital yang sangat banyak yang dapat dinikmati oleh beragam kelas pengguna komputer. Oleh karena itu, dibutuhkan sebuah sistem yang memiliki kemampuan untuk manajemen dan mengambil (retrieve) secara efisien koleksi berkas musik yang sangat banyak dari dalam media penyimpanan. Hingga saat ini, untuk manajemen dan retrieve berkas musik masih berdasarkan pada metadata berkas musik seperti nama berkas, judul lagu, album, genre, dan lain-lainnya. Metadata berkas musik tersebut masih diinput secara manual oleh manusia sesuai dengan pengetahuan dan penilaiannya. Ekstraksi informasi melalui proses yang otomatis dan sistematis dapat mengatasi masalah tersebut. Genre musik adalah salah satu deskripsi penting yang telah digunakan untuk mengklasifikasi dan mengkarakterisasi musik digital serta untuk manajemen koleksi besar berkas musik yang tersedia pada web (Tzanetakis dan Cook 2002). Genre musik juga sangat berguna dalam pengindeksan musik dan retrieval musik berbasis content. Akan tetapi, genre musik adalah konsep yang subyektif dan bahkan industri musik terkadang mengalami permasalahan dalam menentukan genre sebuah musik. Cara praktis yang umum digunakan untuk mengkategorikan sebuah musik adalah menyesuaikannya dengan profil dari sang artis. Oleh karena itu, klasifikasi genre musik otomatis dapat membantu atau mengganti peran manusia dalam proses ini dan juga menyediakan komponen penting dalam sistem retrieval informasi musik yang lengkap untuk sinyal audio. Banyak penelitian mengenai otomasi klasifikasi genre musik yang telah dilakukan dengan menggunakan beragam ciri (feature) dan metode. Pada penelitian McKay (2004) menyatakan terdapat 160 ciri yang
2
digunakan untuk mengkarakterisasi dan mengklasifikasi musik. Akan tetapi pada
penelitian
tersebut
hanya
digunakan
20
ciri.
Sebagai
pengklasifikasinya digunakan Jaringan Saraf Tiruan (JST) feed-forward pada penelitian tersebut. Penelitian Costa et al. (2004) menggunakan ciri permukaan musik (musical surface) dan ciri yang berhubungan dengan tempo serta pendekatan kombinasi pengklasifikasi. Ekstraksi ciri diperoleh dari tiga segmen pada sebuah musik klip berformat mp3. Ketiga segmen tersebut diekstrak dari awal, tengah, dan akhir bagian musik klip. Penelitian tersebut menggunakan JST sebagai pengklasifikasinya. Oleh karena sudah banyak penelitian yang mengklasifikasi genre musik barat, Norowi et al. (2005) mencoba untuk mengklasifikasi genre musik tradisional negaranya (Malaysia). Penelitian tersebut menggunakan ciri yang berhubungan dengan timbral, ritme, dan pitch serta pengklasifikasi J48 dan OneR. J48 dan OneR adalah pengklasifikasi yang terdapat pada sistem pembelajaran mesin WEKA (Waikato Environment for Knowledge Analysis).
1.2 Tujuan Penelitian Tujuan utama penelitian ini adalah untuk mengembangkan suatu prototipe sistem yang dapat digunakan untuk mengklasifikasi musik digital berdasarkan genrenya dengan menggunakan metode Voting Feature Intervals (VFI) dan membandingkan akurasi prototipe sistem ini dalam mengenali genre musik dengan metode Jaringan Saraf Tiruan (JST).
1.3 Ruang Lingkup Ruang lingkup penelitian ini meliputi : 1. Genre yang akan diklasifikasi hanya terbatas pada genre klasik, disko, metal dan reggae. 2. Klasifikasi menggunakan metode Voting Feature Intervals (VFI) dan Jaringan Saraf Tiruan (JST). 3. Sistem dikembangkan sampai pada prototipe sistem.
3
1.4 Manfaat Penelitian Prototipe sistem yang dihasilkan penelitian ini diharapkan dapat dikembangkan lebih lanjut menjadi sebuah sistem yang memiliki kemampuan dalam manajemen dan memanggil (retrieve) basisdata berkas musik audio.
4
II TINJAUAN PUSTAKA 2.1 Musik Definisi dari musik adalah pengaturan (aransemen) bunyi atau suara yang memiliki nilai seni terhadap rentang waktu. Musik adalah bagian dari setiap budaya di dunia, akan tetapi memiliki ragam yang luas antara budayabudaya dalam corak dan struktur (Butler 2005). Pada awalnya musik dihasilkan baik dari vokal manusia maupun dari sebuah alat instrumen musik atau lebih, yang dimainkan secara harmonis atau gabungan dari kedua unsur tersebut. Dengan berkembangnya teknologi, maka kini musik dapat dibuat dengan bantuan komputer atau alat elektronik (sound synthesizer) yang menggunakan suara-suara buatan (artificial) yang telah direkam sebelumnya. Perkembangan musik juga dibantu dengan perkembangan industri musik. Hal ini juga mengakibatkan munculnya budaya-budaya baru yang berhubungan dengan gaya hidup manusia dan teknologi-teknologi baru yang mendukung perkembangan musik itu sendiri. Media penyimpanan musik pun berubah dari piringan hitam, pita kaset, hingga cakram optik sesuai dengan teknologi perekaman yang ada. Media yang terakhir diakibatkan oleh perubahan sinyal audio yang dulunya berbentuk analog menjadi bentuk digital. Dengan adanya digitalisasi musik, maka distribusi musik menjadi lebih mudah, murah, dan cepat ke seluruh dunia terutama karena adanya web.
2.2 Genre Musik Genre musik adalah jenis atau kategori dari hasil artistik musik yang biasanya dipengaruhi oleh budaya masyarakat. Perkembangan dari genre yang sudah ada menghasilkan genre-genre baru yang terdengar sangat berbeda yang disebut sub-genre. Pada akhir abad ke-20, terdapat genre-genre baru yang dihasilkan dari perkawinan dua atau lebih genre yang ada. Percobaan-percobaan tersebut juga memberikan kontribusi yang besar dalam perkembangan musik serta
5
memperkaya genre-genre dan budaya-budaya yang sudah ada. Pada Tabel 1 dapat dilihat beberapa contoh genre dan sub-genrenya.
Tabel 1. Beberapa contoh genre dan sub-genrenya (Hayne et al. 2005) Genre Modern Rock Rock Metal Punk Folk Electronica Jazz Blues Country Oldies Pop Hip hop R&B Reggae
Sub-genre Alternative rock, experimental rock, indie rock, jam rock, new wave, post punk, power pop Classic rock (british invasion, glam rock, folk rock), hard rock, prog rock, southern rock Funk metal, industrial metal, thrash ’77 style punk, hardcore punk, pop punk, ska punk, psychobilly 60s revival, anti-folk, contemporary folk, singer-songwriter, traditional folk Acid Jazz, ambient, downbeat, intelligent dance music, techno, industrial, drum ’n’ bass Be bop, big band, crossover jazz, lounge, vocal jazz, cool jazz, soul jazz Chicago blues, electric blues, country blues, female vocal blues Alt country, bluegrass, contemporary country, country rock, traditional country Doo wop, early rock & roll. Rockabilly, surf Dance pop, easy listening, euro pop, soft rock, teen pop, vocalists Abstract hip hop, bass, gangsta rap, pop rap Funk, disco, gospel, soul Roots reggae, ska
2.3 Sinyal Suara Sinyal suara dan seluruh karakteristiknya dapat direpresentasikan dalam dua domain nilai yang berbeda, yaitu waktu dan frekuensi (Nilsson dan Ejnarsson 2002). Domain waktu (time-domain) yaitu domain yang berhubungan dengan perubahan amplitudo dari waktu ke waktu. Sedangkan domain frekuensi yaitu domain yang terdapat dalam interval waktu tertentu. Representasi dalam bentuk spectral merupakan representasi sinyal suara berdasarkan intensitasnya terhadap waktu. Salah satu bentuk representasi ini yang paling populer adalah spectogram.
6
Pada Gambar 1 diperlihatkan adanya bagian yang berwarna biru gelap yang merepresentasikan bagian dari sinyal suara di mana suara tidak dihasilkan. Sedangkan, bagian yang bewarna merah merepresentasikan intensitas yang menandakan suara dihasilkan.
Gambar 1. Spectrogram menggunakan metode Welch (Nilsson dan Ejnarsson 2002)
Proses analisa sinyal dalam bentuk jumlah sinusoida telah banyak digunakan seperti pada aplikasi analisa ucapan, sonar, hingga analisa musik terkini dimana mereka berkaitan dengan keharmonisan sumber suara musik. Metode yang paling tua dari analisa sinyal suara adalah berdasarkan dari transformasi Fourier yang diformulasikan sebagai berikut :
X xt e jt dt
(1)
dan inversnya, yaitu :
xt
1 2
X e jt d
(2)
di mana x(t) adalah sinyal time-domain kontinu sementara X(ω) adalah transformasinya, yang sama-sama kontinu dalam frekuensi dan t serta ω tidak terikat. Sifat ini tidak cocok untuk sinyal audio digital karena diskret terhadap proses sampling dan juga terikat dengan waktu (Hainsworth 2003). Oleh karena itu, digunakan Discrete Fourier Transform (DFT):
X k
M 2 1
xne
2knj M
(3)
nM 2
1 xn M
M 2 1
X k e
k M 2
2knj M
(4)
7
di mana X[k] dikalkulasikan untuk range –M/2 ≤ k < M/2 dan juga tergantung pada panjang sinyal time-domain M. Sinyal musik menunjukkan variasi amplitudo dan frekuensi dari waktu ke waktu. Representasi sinyal musik yang lebih baik dari DFT adalah short time Fourier Transform (STFT). Hal ini menerapkan window h[n], panjang N << M pada data :
X h k , n
N 2 1
h xn e
2kj N
(5)
N 2
2.4 Frame Blocking dan Windowing Sinyal suara umumnya dipilah-pilah menjadi sejumlah segmen sinyal. Segmen sinyal suara ini disebut frame. Tujuan sinyal suara dipilah-pilah ke dalam sejumlah frame agar karakteristiknya dapat ditangkap, di mana karakteristiknya tidak berubah dalam rentang waktu yang pendek. Lebar setiap frame yang ditentukan di dalam suatu aplikasi pengolahan suara adalah sama misalnya 30 milidetik, sehingga setiap framenya akan memiliki jumlah sampel yang sama pula, misalnya N sampel (Lai 2003). Frame kedua adalah frame yang juga memiliki N sampel yang posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame pertama. Begitu juga frame ketiga, dengan N sampel yang posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame kedua atau sebanyak 2M sampel dari posisi awal frame pertama. Demikian pula seterusnya hingga frame terakhir. M dapat diperoleh dari M (1 / 3) N atau M = (a/b)N di mana a dan b adalah bilangan asli, a ≤ b dan M ≤ N. Overlap antara suatu frame dengan frame sebelahnya adalah N – M sampel (Rabiner dan Juang 1993). Adanya overlap dimaksudkan agar pengambilan sampel-sampel dari frame berikutnya dapat bergerak secara halus (smooth) sehingga karakteristik sinyal suara dalam setiap framenya tidak banyak berkurang. Ilustrasi tentang pembentukan frame dapat dilihat pada Gambar 2.
8
Sinyal suara
M
N Frame1
N Frame2
M
N–M
N Frame3
Gambar 2. Pembentukan frame pada sinyal suara (Rabiner dan Juang 1993)
Tahap selanjutnya dari pemrosesan sinyal adalah membuat window terhadap tiap-tiap frame dengan tujuan untuk meminimalkan ketidakkontinuan pada awal dan akhir setiap frame. Umumnya, window yang digunakan adalah window Hamming. Pembentukan window Hamming menggunakan formula :
2n ; N 1
n 0,54 0,46 cos
n 0, , N 1
(6)
dengan N adalah banyaknya sampel. Keuntungan menggunakan window Hamming adalah memiliki kebocoran spektral yang lebih sedikit dari pada tanpa menggunakan window Hamming (Ahrendt 2006). Kebocoran spektral (spectral leakage) adalah efek pada analisis frekuensi sinyal di mana munculnya sejumlah energi sinyal kecil yang diamati pada komponen frekuensi yang tidak terdapat pada bentuk gelombang aslinya. Istilah kebocoran di sini dimaksudkan bahwa seolaholah terdapat sebagian energi yang bocor keluar dari spektrum sinyal aslinya ke frekuensi yang lain (http://en.wikipedia.org/wiki/Spectral_leakage). Setelah sinyal suara dibagi-bagi ke dalam frame, setiap frame sinyal suara tersebut dikenakan operasi window Hamming. Selanjutnya proses ekstraksi ciri akan dilakukan terhadap setiap frame tersebut.
9
2.5 Penyiapan Data untuk Klasifikasi Menurut Han dan Kamber (2001) terdapat beberapa langkah praproses terhadap data untuk meningkatkan akurasi, efisiensi, dan skalabilitas dari klasifikasi atau prediksi, antara lain : 1) Pembersihan Data Tujuan dari praproses ini adalah untuk menghilangkan atau mengurangi noise (misalnya dengan melakukan proses smoothing) dan mengadakan perlakuan khusus pada data yang
hilang (misalnya
menggantinya dengan nilai modus data tersebut). 2) Analisa Relevansi atau Pemilihan Ciri Sejumlah atribut di dalam data mungkin saja tidak relevan untuk diklasifikasi atau diprediksi atau juga atribut yang lain mungkin redundant. Praproses ini dilakukan untuk menghilangkan atribut yang redundant atau tidak relevan. 3) Transformasi atau Normalisasi Data Data dapat digeneralisasi ke konsep yang lebih tinggi. Konsep hirarki dapat digunakan di sini. Misalnya nilai untuk atribut frekuensi dapat diganti dengan rendah, sedang, atau tinggi. Beberapa metode yang umum digunakan yaitu : a. Min-Max Min-Max merupakan metode normalisasi dengan melakukan transformasi linier terhadap data asli. Salah satu metodenya adalah distribusi normal kumulatif dengan rumus sebagai berikut : *
( )+ √
(7)
Di mana x adalah nilai yang akan didistribusi dan erf adalah error function. Error function didapatkan dengan rumus sebagai berikut : √
∫
(8)
Metode ini akan menormalisasi input dan target sedemikian rupa sehingga hasil normalisasi akan berada pada interval 0 dan 1. b. Unary Encoding Unary Encoding merupakan metode transformasi data yaitu dengan merepresentasikan data dengan kombinasi angka 1 dan 0
10
(variabel bilangan biner). Metode ini digunakan untuk mentransformasi data bersifat kategori. Sebagai contoh ‘10’ untuk data ‘musik’ dan ‘01’ untuk data ‘bukan musik’. c. Data Numerik dan Kategorik Menurur Kantardzic (2003) tipe data yang umum adalah numerik dan kategorik. Nilai numerik termasuk nilai real maupun integer seperti waktu dan frekuensi. Nilai numerik memiliki 2 properti yang penting yaitu relasi urut (2 < 5 dan 5 < 7) dan jarak (jarak (2,1, 3,2) = 1, 1). Sedangkan untuk kategorik data tidak memiliki keduanya tersebut. Nilai dari 2 variabel ini bisa sama atau tidak sama yang artinya hanya mempunyai relasi equality (rock = rock, rock <> klasik). Variabel dengan tipe ini dapat dikonversi menjadi numeric binary variable atau dalam statistik disebut dengan dummy variables. Variabel kategorik dengan n nilai dapat dikonversi menjadi n numerical binary variable. Jika terdapat 4 pilihan genre yaitu rock, klasik, pop dan jazz. Maka 4 genre tersebut dapat dikonversi menjadi 4 bit numerical binary variable yaitu klasik bernilai 1000, disko bernilai 0100, metal bernilai 0010, dan reggae bernilai 0001.
2.6 Ekstraksi Ciri Tahap pertama dalam sistem klasifikasi, seperti yang ditunjukkan dalam Gambar 3, adalah penting bagi akurasi sistem klasifikasi. Vektor ciri y, yang merupakan komposisi dari beberapa ciri harus sediskriminatif mungkin dari kelas yang bersangkutan. Idealnya, vektor ciri harus dapat memisahkan seluruh sampel dari kelas-kelas yang berbeda. Pengamatan
Vektor Ciri
Ekstraksi Ciri
y
Pengklasifikasi
Gambar 3. Sistem dasar klasifikasi (Andersson 2004)
Prediksi
11
Bagaimana vektor ciri y dibentuk adalah penting bagi akurasi klasifikasi. Vektor ciri yang dibentuk secara efektif memudahkan pengklasifikasian dan juga memudahkan perancangan pengklasifikasi. Oleh karena itu, ciri apa yang akan diekstrak tergantung dari konteks. Adapun tujuan dari ekstraksi ciri (feature extraction) adalah untuk mengurangi jumlah data yang sebenarnya dengan melakukan pengukuran terhadap properti atau ciri tertentu yang membedakan pola masukan (input) yang satu dengan yang lainnya (Duda et al. 2001). Dalam sistem klasifikasi musik, ciri diekstrak oleh algoritma pemproses sinyal untuk mendapatkan informasi diskriminatif sebanyak mungkin dari tahap pengamatan. Ciri yang sering dipakai dalam penelitian sitem klasifikasi musik seperti pada penelitian Costa et al. (2004), Tzanetakis et al. (2002), dan Norowi et al. (2005) adalah Mel-Frequency Cepstral Coefficents (MFCC). Ciri
MFCC
menghitung
koefisien
cepstral
mempertimbangkan persepsi sistem pendengaran manusia
dengan terhadap
frekuensi suara. Sinyal Audio
Ciri MFCC
Hamming Window
Dicsrete Fourier Transform
MelFrequency Wrapping
Dicsrete Cosine Transform
Gambar 4. Ilustrasi dari perhitungan MFCC
Diagram alir yang terlihat pada Gambar 4 mengilustrasikan langkahlangkah dalam menghitung MFCC dari sinyal audio mentah menjadi ciri MFCC. Sinyal audio dibaca frame demi frame, dan dilakukan windowing untuk setiap frame untuk berikutnya dilakukan transformasi Fourier. Dari nilai hasil transformasi Foruier ini selanjutnya dihitung spektrum mel menggunakan sejumlah filter yang dibentuk sedemikian sehingga jarak antar pusat filter adalah konstan pada ruang frekuensi mel. Dari literatur yang ada, skala mel ini dibentuk untuk mengikuti persepsi sistem
12
pendengaran manusia yang bersifat linear untuk frekuensi rendah dan logaritmik untuk frekuensi tinggi, dengan batas pada nilai frekuensi akustik sebesar 1000 Hz. Proses ini dikenal dengan nama Mel-Frequency Wrapping. Koefisien MFCC merupakan hasil transformasi kosinus dari spektrum mel tersebut, dan dipilih K koefisien. Transformasi kosinus berfungsi untuk mengembalikan domain, dari frekuensi ke domain waktu (Buono 2009). Setelah menerapkan window Hamming pada frame, maka langkah berikutnya untuk menghitung MFCC adalah sebagai berikut : a. Discrete Fourier Transform (DFT) DFT merupakan analisis sinyal suara yang berkaitan dengan sinyal periodik-diskret, yaitu sinyal diskret yang dapat diperlebar tanpa batas ke kiri dan ke kanan, dengan pola yang berulang. Pada analisis sinyal digital, dilakukan sampling sinyal sebanyak N. Anggap bahwa sampel ini sebagai satu periode dan dapat diduplikasi terusmenerus ke kiri dan ke kanan, sehingga dapat dianalisis dengan menggunakan DFT. DFT mentransformasikan N titik sinyal sebagai input menjadi N/2+1 titik sinyal output, seperti yang diilustrasikan pada Gambar 5. Time Domain
Frequency Domain Re X[ ] Decomposition Analysis Forward DFT DFT
x[ ] 0
0
N/2 N/2+1 sampel Cosine Wave amplitudes Dari Re X[0] s.d. Re X[N/2]
N-1 N sampel Dari x[0] s.d. x[N-1]
Im X[ ] Synthesis Inverse DFT
0
N/2 N/2+1 sampel Sine Wave amplitudes Dari Im X[0] s.d. Im X[N/2]
Secara bersama dinotasikan X[ ]
Gambar 5. Ilustrasi transformasi DFT (Buono 2009)
13
Notasi untuk domain frekuensi adalah Re X[k] dan Im X[k] untuk k [0,N/2] atau Re X[f] dan Im X[f] untuk f=k/N atau f [0, 0,5]. Hal ini dikarenakan sinyal diskret hanya mengandung frekuensi antara 0 dan 0,5 dari sampling rate. Atau bisa juga Re X[] dan Im X[] untuk =2πk/N [0, π]. Oleh karena itu, gelombang kosinus pada domain frekuensi tersebut bisa dituliskan sebagai berikut : c[n] = cos(2πkn/N) = cos(2πfn) = cos(n)
(9)
Fungsi basis (basis function) dalam DFT adalah gelombang sinus dan kosinus dengan amplitudo satu. Fungsi basis ini dituliskan dengan rumus sebagai berikut : ck[i] = cos(2πki/N) dan sk[i] = sin(2πki/N)
(10)
untuk i = 0, 1, 2, ..., N-1, dan k = 0, 1, 2, ..., N/2 (dalam hal ini k adalah banyaknya gelombnag pada N sampel). Sebagai contoh untuk 32 titik sampel, DFT direpresentasikan dengan basis gelombang sinus dan kosinus masing-masing sebanyak 17 buah, yaitu untuk k = 0, 1, 2, ..., 16. Dalam hal ini sinyal dalam domain waktu dapat dirumuskan sebagai penjumlahan terboboti dari fungsi basis dengan formula : []
∑
⁄
̅[ ]
⁄
∑
⁄
̅[ ]
⁄
(11)
dengan i = 0, 1, 2, ..., N-1 yang disebut persamaan sintesa. Sinyal sampel sebanyak N titik dibentuk oleh N/2+1 gelombang kosinus dan N/2+1 gelombang sinus dengan amplitudo untuk kosinus dan sinus masing-masing adalah array
̅ [ ] dan
̅ [ ], yang dalam hal ini : [ ]
̅[ ]
⁄
[ ]
̅[ ]
dan
⁄
(12)
Sedangkan untuk k = 0 dan k = N/2, bagian real adalah : [ ]
̅[ ]
dan
[ ⁄ ]
̅[ ⁄ ]
(13)
Nilai-nilai DFT untuk k = 0, 1, 2, ..., N/2 dihitung dari sinyal input dengan rumus sebagai berikut : [ ]
∑
[]
⁄
(14)
[ ]
∑
[]
⁄
(15)
14
Yang disebut sebagai persamaan analisis. Ada kalanya array dalam domain frekuensi direpresentasikan dengan koordinat polar. Dalam [ ] dan
koordinat polar, pasangan
[ ] digantikan oleh pasangan
magnitudo, Mag [ ], dan fase X[k]. B A cos (x) + B sin (x) = M cox (x+θ)
M
M = (A2+B2)1/2 Θ = arctan (B/A) A = M cos (θ) dan B = M sin (θ)
θ A
Gambar 6. Ilustrasi fase X[k]
Berdasarkan ilustrasi pada Gambar 6, maka domain frekuensi dapat dirumuskan sebagai berikut : Mag X[k] = (Re X[k]2 + Im X[k]2)1/2 dalam amplitudo Fase X[k] = arctan(
[ ] [ ]
) dalam radian
Juga sebaliknya : Re X[k] = Mag X[k] cos(Fase X[k]) Im X[k] = Mag X[k] sin(Fase X[k]) Oleh karena
itu,
sinyal input
dalam domain waktu dapat
ditransformasikan menjadi domain frekuensi melalui analisis DFT, baik dalam bentuk komponen real dan imajiner, maupun dalam bentuk koordinat polar (magnitudo dan fase) tanpa mengubah informasi yang terkandung dalam sinyal. Secara umum ada tiga cara untuk menghitung DFT, yaitu mealui persamaan simultan, korelasi dan algoritma FFT. Dengan algoritma FFT, kompleksitas menjadi rendah dari n2 menjadi n*log2(n). b. Mel-Frequency Wrapping dan Transformasi Kosinus Untuk proses wrapping, diperlukan beberapa filter yang saling overlap dalam domain frekuensi. Filter yang digunakan adalah berbentuk segitiga dengan tinggi satu dan rentang filter segitiga tersebut ditentukan berdasarkan hasil studi psikologi mengenai persepsi manusia dalam menerima frekuensi bunyi.
15
Dari studi psikologi, telinga manusia mempunyai persepsi terhadap frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Ukuran persepsi ini dinyatakan dalam skala mel (melody). Hubungan skala mel dengan frekuensi yang dirumuskan oleh Nilsson dan Ejnarsson (2002) adalah sebagai berikut : (
{
)
(16)
Dan diilustrasikan seperti pada Gambar 7. Dari formula di atas, maka nilai frekuensi (FHz) sebagai fungsi dari skala mel adalah : (
)
(17)
2500
Skala Mel
2000
1500
⬚ 𝑓𝑚𝑒𝑙
𝑓
(
)
1000
linear 500
0
0
1000
2000 3000 Frekuensi Akustik (Hz)
4000
5000
Gambar 7. Grafik hubungan frekuensi dengan skala mel
Terlihat bahwa untuk frekuensi rendah, filter yang digunakan menggunakan skala linear, sehingga lebarnya konstan. Sedangkan untuk frekuensi tinggi (>1000 Hz), filter dibentuk dengan skala logaritma. Sesuai dengan perkembangannya, teknik MFCC mengalami beberapa variasi terutama dalam bentuk filter dan jumlahnya. Bentuk filter mengalami perubahan dalam hal tinggi, sedangkan bentuk yang digunakan
16
tetap segitiga dengan jumlah 20, 24 atau 40. Gambar 8 menyajikan contoh filter yang diperkenalkan oleh Davis dan Mermelstein pada tahun 1980. Berikut akan diuraikan tahapan pembentukan filter yang pertama kali diperkenalkan oleh Davis dan Mermelstein. Pada penjelasan ini dimisalkan frekuensi suara yang akan dicakup adalah pada rentang 0 hingga 5000 Hz. Secara umum ada tiga tahapan yaitu : 1) Gambarkan fungsi Fmel mulai frekuensi terendah hingga FHz = 5000 Hz dengan menggunakan persamaan 16, dan tentukan nilai mel untuk frekuensi akustik 5000 Hz (misal M2) dan nilai mel untuk frekuensi akustik 1000 Hz (misal M1). 2) Sumbu mel dari 0 hingga M1 dan M1 ke M2 disekat masing-masing menjadi M/2 sekatan yang sama lebarnya. 3) Dari setiap batas sekatan ditarik garis ke kurva fungsi dan diproyeksikan
Amplitudo
ke sumbu FHz sehingga diperoleh titik tengah filter pada sumbu FHz.
Frekuensi (Hz)
Gambar 8. Filter yang diperkenalkan oleh Davis dan Mermelstein
Algoritma detail untuk membentuk M filter pada teknik MFCC yang disarankan oleh Davis dan Mermelstein adalah sebagai berikut : a) Pilih jumlah filter yang akan dibuat (M) b) Pilih frekuensi terbesar (fhigh). Dari nilai ini, maka nilai tertinggi dari adalah : (
)
17
c) Pusat filter ke i adalah fi : c.1.
untuk i = 1, 2, 3, ..., M/2
c.2. untuk i = M/2, M/2+1, ..., M, maka fi dihitung dengan prosedur berikut : 1.
skala mel disekat dengan lebar yang sama, yaitu sebesar , dengan :
Dari point (b), maka nilai
dapat ditulis sebagai :
(
)
2.
nilai mel untuk pusat filter ke i adalah :
3.
pusat dari filter ke i adalah : ⁄
(
)
Dari M filter yang sudah dibentuk, maka dilakukan wrapping terhadap sinyal dalam domain frekuensi dan menghasilkan satu komponen untuk setiap filter dengan formula sebagai berikut : (∑
|
|
)
(18)
Dalam hal ini i = 1, 2, 3, ..., M (M adalah jumlah filter segitiga) dan adalah nilai filter segitga ke i untuk frekuensi akustik sebesar k. Nilai koefisien MFCC ke j akhirnya diperoleh menggunakan transformasi kosinus dengan formula sebagai berikut : ∑
(
)
(19)
dengan j = 1, 2, 3, ..., K, K adalah jumlah koefisien MFCC yang diinginkan dan M adalah jumlah filter. Gambar 9 memberikan ilustrasi ekstraksi ciri menggunakan teknik MFCC dari suatu sinyal audio.
19
dibangun pada setiap dimensi feature pada tahap pembelajaran dan intervalinterval berkoresponden pada setiap feature memberikan suara (vote) untuk setiap kelas pada tahap klasifikasi algoritma VFI (Demiroz 1997). Algoritma VFI telah dikembangkan menjadi lima versi, yaitu VFI1, VFI2, VFI3, VFI4, dan VFI5. Pada penelitian ini akan digunakan algoritma yang terakhir yaitu VFI5. Algoritma VFI5 adalah versi terakhir dari algoritma VFI yang menggeneralisasi pembentukan point intervals pada seluruh end points. Algoritma VFI5 membentuk point interval dari setiap end point yang berbeda dan range interval antara sepasang end point yang berbeda mengecualikan end points. Algoritma pembelajaran dari VFI5 dapat dilihat pada Gambar 10. train(TrainingSet): begin for each feature f for each class c EndPoints[f] = EndPoints[f] find_end_points(TrainingSet,f,c); sort(EndPoints[f]); if f is linear for each end point p in EndPoints[f] form a point interval from end point p form a range interval between p and the next endpoint ≠ p else /* f is nominal */ each distinct point in EndPoints[f] forms a point interval for each interval i on feature dimension f for each class c interval_class_count[f,i,c] = 0 count_instances(f, TrainingSet); for each interval i on feature dimension f for each class c 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑐𝑙𝑎𝑠𝑠_𝑐𝑜𝑢𝑛𝑡[𝑓 𝑖 𝑐] interval_class_vote[f,i,c] = 𝑐𝑙𝑎𝑠𝑠_𝑐𝑜𝑢𝑛𝑡[𝑐] normalize interval_class_vote[f, i, c]; /*such that ∑c interval_class_vote[f, i, c] = 1 */
Gambar 10. Tahap pembelajaran pada algoritma VFI5 (Demiroz 1997)
Interval-interval beserta kelas yang diperoleh dari contoh dataset pembelajaran pada Gambar 11 dapat dilihat pada Gambar 12. Batas bawah dari semua interval adalah point intervals dan terdapat range intervals antara batas bawah tersebut meniadakan batas bawah.
21
interval i26 dengan batas bawah 6 dan dimensi feature f2. Hal ini dapat dilihat pada Gambar 13. Karena terdapat point intervals dimana t1 = 5 dan t2 = 6 keduanya terletak, vote feature individu diambil dari point intervals yang berkoresponden.
Gambar 13. Contoh pengklsifikasian pada algoritma VFI5 dengan contoh pengujian t=<5,6>
Vote point interval i16 dari feature f1 dimana t1 = 5 terletak sama dengan interval_class_vote[f1, i16, A] = 0 dan interval_class_vote[f1, i16, B] = 1 untuk kelas A dan juga kelas B. Sehingga, vektor vote individu f1 adalah v1 = <0;1>. Jika f1 diberikan kesempatan untuk memprediksi sendirian, maka ia akan memprediksi kelas B dengan pasti karena B menerima seluruh vote feature f1 dan kelas A tidak mendapatkan vote. Pada dimensi feature f2, point interval i26 dimana t2 = 6 terletak memiliki vote yang sama dengan interval_class_vote[f1, i26, A] = 0,57 untuk kelas A dan vote yang sama dengan interval_class_vote[f1, i26, B] = 0,43 untuk kelas B. Sehingga vektor vote individu f2 adalah v2 = <0,57;0,43>. Jika f2 diberikan kesempatan untuk memprediksi, maka ia akan memprediksi kelas A. Pada tahap akhir, vote individu dari kedia feature dijumlahkan dan jumlah vektor vote v = <0,57;1,43>. Algoritma VFI5 memberikan vote 0,57 untuk kelas A dan 1,43 untuk kelas B, sehingga kelas B dengan nilai vote tertinggi diprediksikan sebagai kelas dari contoh pengujian.
22
2.8 Jaringan Saraf Tiruan (JST) Dalam sistem pengenalan musik (music recognition), pembentukan model referensi musik dan pencocokan pola adalah dua tahapan yang sangat berkaitan. Pembentukan model referensi musik akan membentuk suatu model referensi yang akan digunakan untuk pencocokan pola (pattern recognition). Salah satu teknik yang dapat digunakan dalam pencocokan pola adalah JST. JST atau Neural Network adalah metode soft computing yang merupakan salah satu representasi buatan dari otak manusia yang selalu mencoba untuk mensimulasikan proses pembelajaran pada otak manusia tersebut. Istilah buatan (artificial) digunakan karena jaringan saraf ini diimplementasikan dengan menggunakan program komputer yang mampu menyelesaikan sejumlah proses perhitungan selama proses pembelajaran. JST akan melakukan pembelajaran untuk membentuk suatu model referensi, kemudian JST yang telah melakukan pembelajaran tersebut dapat digunakan untuk pencocokan atau pengenalan pola. (Kusumadewi 2004). JST merupakan kumpulan-kumpulan neuron yang telah dimodelkan yang bereaksi terhadap input dan menghasilkan output. Biasanya terdiri dari sebuah kumpulan neuron-neuron lapisan (layer) input yang menerima vektor parameter yang datang, satu atau lebih lapisan tersembunyi (hidden layer) yang melakukan pemprosesan, dan sebuah lapisan (layer) output yang menghasilkan klasifikasi (Gerhard 2000). Karakteristik dari JST menurut Fausett (1994) adalah : 1) Pemprosesan informasi terjadi pada banyak elemen sederhana yang disebut neuron, 2) Sinyal dilewatkan antar neuron melalui jalur koneksi, 3) Setiap koneksi mempunyai bobot, dan 4) Setiap neuron mempunyai fungsi aktivasi dan biasanya non-linier. Pernyataan matematis dari neuron adalah sebagai berikut : n y f wi xi i 1
(20)
23
dimana xi = sinyal input, i = 1,2,..,n n = banyaknya simpul input wi = bobot hubungan atau synapsis θ = threshold atau bias
(*) = fungsi aktivasi y = sinyal output dari neuron Model neuron sederhana dapat dilihat pada Gambar 14.
x1 x2
w1 w2
……….. ………..
xn
wn
f(*)
y
Gambar 14. Sistem komputasi pemodelan neuron
Keunggulan dari JST adalah kemampuan pengklasifikasi terhadap data yang belum diberikan pada saat pembelajaran sebelumnya (Han dan Kamber 2001). Untuk menyelesaikan permasalahan, JST memerlukan algoritma untuk belajar, yaitu bagaimana konfigurasi JST dapat dilatih untuk mempelajari data histories yang ada. Dengan pelatihan ini, pengetahuan yang terdapat pada data bisa diketahui dan direpresentasikan dalam bobot sambungannya. Jenis algoritma pembelajaran yang ada di antaranya adalah Supervised Learning (pembelajaran terawasi). Algoritma ini diberikan target yang akan dicapai. Contohnya adalah back propagation algorithm (algoritma propagasi balik) dan Radial basis function (Jang et al. 1997).
2.9 Multi Layer Perceptron (MLP) Dalam klasifikasi atau pengenalan pola, JST merupakan salah satu teknik yang paling handal. Multi-layer Perceptron propagasi balik dengan pembelajaran terawasi (supervised) merupakan salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus.
24
Menurut Kantardzic (2003) MLP mempunyai tiga karakteristik, yaitu : 1) Model dari setiap neuron biasanya mengandung fungsi aktivasi nonlinier, misalnya sigmoid atau hiperbolik, 2) Jaringan mengandung satu atau lebih lapisan tersembunyi (hidden layer) yang bukan merupakan bagian dari lapisan input ataupun lapisan output, dan 3) Jaringan mempunyai koneksi dari satu lapisan ke lapisan lainnya.
2.10 Propagasi Balik Propagasi balik merupakan algoritma pembelajaran terawasi dan biasanya digunakan oleh perceptron dengan banyak lapisan untuk mengubah bobot yang terhubung dengan neuron-neuron yang ada pada lapisan tersembunyinya (Duda et al. 2000). Walaupun JST propagasi balik membutuhkan waktu yang lama untuk pembelajaran tetapi bila pembelajaran telah selesai dilakukan, JST akan dapat mengenali suatu pola dengan cepat. Algoritma propagasi balik menggunakan output error untuk mengubah nilai bobot-bobotnya dalam perambatan mundur (backward). Untuk mendapatkan error ini, tahap perambatan maju (forward) harus dikerjakan terlebih dahulu. Karakteristik dari JST propagasi balik adalah sebagai berikut : a. Multi-layer-network JST propagasi balik (Gambar 15) mempunyai lapisan input, lapisan tersembunyi dan lapisan output dan setiap neuron pada satu lapisan menerima input dari semua neuron pada lapisan sebelumnya. b. Fungsi aktivasi Fungsi aktivasi (activation-function) akan menghitung input yang diterima oleh suatu neuron, kemudian neuron tersebut meneruskan hasil dari fungsi pengaktifan ke neuron berikutnya. Sehingga fungsi aktivasi berfungsi sebagai penentu kuat lemahnya sinyal yang dikeluarkan oleh suatu neuron.
25
Gambar 15. Arsitektur jaringan propagasi balik (Kusumadewi 2004)
Beberapa fungsi pengaktifan yang sering digunakan dalam JST propagasi balik adalah sebagai berikut : 1) Fungsi sigmoid biner (Gambar 16), yaitu fungsi biner yang memiliki rentang 0 s/d 1 dengan fungsi sebagai berikut : f ( x)
(21)
1 1 exp( x) f(x) 1
0
x
Gambar 16. Sigmoid biner pada selang [ 0,1]
2) Fungsi sigmoid bipolar (Gambar 17), yaitu fungsi yang memiliki rentang -1 s/d 1 dengan fungsi sebagai berikut : f ( x)
2 1 1 exp( x)
(22)
26
f(x) 1
x
-1
Gambar 17. Sigmoid bipolar pada selang [-1,1]
3) Fungsi linier, yaitu fungsi yang memiliki output yang sama dengan nilai inputnya, dengan fungsi sebagai berikut : y = f (x) = x
(23)
dan turunan dari fungsinya adalah : f’ (x) = 1
(24)
Pada JST propagasi balik proses pembelajaran bersifat iterative (berulang) dan dirancang untuk meminimalkan mean square error (MSE) antara output yang dihasilkan dengan output yang diinginkan (target). Langkah-langkah algoritma pembelajaran JST propagasi balik yang diformulasikan oleh Rumelhart et al. (1986) secara singkat adalah sebagai berikut : a. Inisialisasi bobot, dapat dilakukan secara acak atau melalui metode Nguyen Widrow b. Perhitungan nilai aktivasi, tiap neuron menghitung nilai aktivasi dari input yang diterimanya. Pada lapisan input nilai aktivasi adalah fungsi identitas. Pada lapisan tersembunyi dan output nilai aktivasi dihitung melalui fungsi aktivasi c. Penyesuaian bobot, penyesuaian bobot dipengaruhi oleh besarnya nilai kesalahan (error) antara target output dan nilai output jaringan saat ini. d. Iterasi akan terus dilakukan sampai kriteria error tertentu dipenuhi. Untuk mengimplementasikan algoritma di atas (pembelajaran), JST harus memiliki suatu set data pembelajaran. Data pembelajaran harus mencakup seluruh jenis pola yang ingin dikenal agar nantinya dapat mengenali seluruh pola yang ada.
27
2.11 Pengukuran Kinerja Sistem Kinerja sistem diukur dengan menggunakan parameter akurasi yaitu presentase pengenalan sistem dalam memprediksi dataset pengujian yang diberikan. (25)
2.12 Review Riset Terdahulu Penelitian pada bidang klasifikasi musik yang paling sering direferensikan adalah Tzanetakis dan Cook (2000, 2002). Penelitian mereka menghasilkan sebuah framework analisa audio MARSYAS, yang juga sering dipakai oleh peneliti-peneliti lainnya sebagai aplikasi bantu untuk pengekstraksi ciri. Lampropoulos et al. (2005) pada penelitiannya melakukan pemisahan (separasi) ciri sinyal dari sumber instrumen musik sebelum diklasifikasikan menggunakan
algoritma
Convolutive
Sparse
Coding
(CSC)
dan
menggunakan JST sebagai pengklasifikasinya. Untuk ekstraksi ciri, mereka menggunakan aplikasi bantu MARSYAS versi 0.1 dan menghasilkan vektor ciri (feature vector) berdimensi 30. Costa
et
al.
(2004)
menggunakan
pendekatan
kombinasi
pengklasifikasi. Ekstraksi ciri diperoleh dari tiga segmen pada musik klip yaitu awal, tengah, dan akhir lagu. Dari setiap segmen tersebut, dihasilkan vektor ciri (feature vector) berdimensi 15. Penelitian tersebut juga menggunakan JST sebagai pengklasifikasinya. Adapun pengambilan keputusan akhir dari klasifikasi menggunakan aturan majority voting. Adapun pada penelitian Norowi et al. (2005) digunakan ciri yang berhubungan dengan timbral, ritme, dan pitch dan pengklasifikasi J48 dan OneR. J48 dan OneR adalah pengklasifikasi yang terdapat pada sistem pembelajaran mesin WEKA (Waikato Environment for Knowledge Analysis). Sedangkan klasifikasi genre musik pada penelitian mereka adalah genre-genre musik barat dan musik tradisional Malaysia. Mereka juga menggunakan MARSYAS versi 0.1 sebagai aplikasi bantu pengekstraksi ciri.
28
Pada Tabel 2 dapat dilihat beberapa contoh penelitian klasifikasi genre musik dengan beragam ciri dan pengklasifikasinya.
Tabel 2. Beberapa contoh penelitian klasifikasi genre musik Peneliti Lampropoulos et al. (2005) Costa et al. (2004) Norowi et al. (2005) Ahrendt (2006)
Andersson (2004)
Ciri Ritme, STFT, MFCC dan pitch Spectral centroid, spectral rolloff, spectral flux, time domain zerocrossing, low energy dan beat Spectral centroid, spectral rolloff, spectral flux, time domain zerocrossing, MFCC, beat dan pitch MFCC, LPC, DMFCC, DLPC, ZCR, STE, ASE, ASC, ASS dan SFM ZCR, STE, RMS, HFVR,LFVR, spectrum centroid, spectrum spread, delta spectrum, spectral rolloff dan MPEG-7 audio descriptors
Pengklasifikasi Nearest-Neighbor dan MLP Nearest-Neighbor dan MLP OneR dan J48 (WEKA) Gaussian, GMM, Linear regression, dan GLM GMM, HMM, dan Nearest-Neighbor
29
III METODE PENELITIAN 3.1 Kerangka Pemikiran Kerangka pemikiran dalam membangun model sistem pada penelitian ini dapat digambarkan dalam suatu diagram alir seperti pada Gambar 18.
Mulai
Identifikasi Masalah
Studi Pustaka
Pengumpulan Data
Ekstraksi Ciri
Data Model
Data Training Data Testing VFI dan JST
Identifikasi
Evaluasi
Dokumentasi
Selesai
Gambar 18. Diagram alir penelitian pengembangan model sistem
30
Dengan demikian diharapkan dapat diperoleh gambaran yang lengkap dan menyeluruh tentang tahap-tahap penelitian yang akan dilaksanakan serta keterkaitan antara satu tahap dengan tahap berikutnya. Berikut ini akan dijelaskan beberapa tahap yang ada di dalam diagram alir tersebut.
3.1.1 Identifikasi Masalah Identifikasi masalah merupakan tahap awal dari penyusunan penelitian ini. Penelitian mengenai klasifikasi genre musik telah banyak dilakukan menggunakan berbagai macam metode. Penggunaan metode VFI merupakan metode yang belum pernah dilakukan dalam mengklasifikasi genre musik. Oleh karena itu, penelitian ini dilakukan untuk melihat bagaimana akurasi metode VFI dalam mengklasifikasi genre musik dan membandingkannya dengan metode yang sudah banyak dipakai oleh penelitian-penelitian sebelumnya yaitu Jaringan Saraf Tiruan (JST).
3.1.2 Studi Pustaka Studi pustaka yang dilakukan meliputi pengetahuan musik dan genrenya, praproses data, ekstraksi ciri (feature extraction), Voting Feature Intervals (VFI), Jaringan Saraf Tiruan (JST), pemprograman dengan perangkat lunak MATLAB serta metode pendukung lainnya.
3.1.3 Pengumpulan Data Setiap data berkas musik yang digunakan pada penelitian ini diperoleh dari data-set pada penelitian Tzanetakis dan Cook (2000) yang diunduh melalui http://opihi.cs.uvic.ca/sound/genres.tar.gz. Jumlah data yang akan digunakan pada penelitian ini adalah 80 berkas musik berformat au mono 16-bit yang memiliki frekuensi sampling sebesar 22,05 kHz dengan durasi 30 detik setiap berkasnya. Setiap genre akan memiliki 20 berkas musik yang dapat dijadikan sebagai data training (15 berkas) dan testing (5 berkas). Genre musik yang dipakai untuk penelitian ini adalah genre musik klasik, disko, metal dan reggae.
31
3.1.4 Ekstraksi Ciri Prototipe sistem yang telah dikembangkan menggunakan ciri yang diajukan oleh Tzanetakis dan Cook (2000, 2002) dan yang telah digunakan oleh peneliti lainnya (Lampropus et al. 2005, Foote 1999, M. Welsh et al. 1999). Ciri yang digunakan adalah MFCC hingga 20 koefisien. Dari setiap ciri tersebut, mean (rataan) dihitung untuk membentuk vektor ciri. Hal ini adalah prinsip dasar dari pemprosesan window tekstur yang diperkenalkan oleh Tzanetakis dan Cook (2002). Mean dapat diformulasikan sebagai berikut :
x
1 n xi n i 1
(26)
di mana n adalah jumlah sampel. Untuk metode JST, setelah ciri diekstrak maka dilakukan normalisasi menggunakan metode distribusi normal kumulatif.
3.1.5 Pengembangan Model VFI dan JST Dalam penelitian ini metode VFI yang digunakan adalah metode VFI5. Pengembangan model JST menggunakan perangkat lunak MATLAB versi 7.8.0.
3.1.6 Pembuatan Keputusan Setelah setiap berkas musik sudah diekstrak dan diklasifikasi, maka prototipe sistem akan melakukan prediksi. Prediksi diperoleh berdasarkan proses pembelajaran algoritma VFI dan JST dalam mengenali sejumlah pola yang diberikan. Nilai prediksi yang terbesar dari seluruh genre merupakan prediksi genre pada sistem.
3.2 Alat dan Bahan Alat-alat bantu yang digunakan dalam penelitian ini adalah sebagai berikut : 1. Komputer desktop dengan spesifikasi dual processor 3,3 GHz, memori 4 GB, dan sebuah hard disk dengan kapasitas 250 GB.
32
2. Perangkat lunak MATLAB versi 7.8.0. 3. Perangkat lunak Microsoft Excel dan Word 2007.
3.3 Waktu dan Tempat Penelitian Penelitian dilaksanakan mulai Desember 2010 hingga Mei 2011 bertempat di Laboratorium Pascasarjana Departemen Ilmu Komputer FMIPA-IPB.
33
IV IMPLEMENTASI DAN PERANCANGAN SISTEM 4.1 Ekstraksi Ciri Ekstraksi ciri pada penelitian ini dilakukan menggunakan perangkat lunak Matlab 7.8.0. Tahap pertama dari proses ini adalah mengubah sinyal suara menjadi nilai-nilai variabel untuk dijadikan input sistem. Ciri yang digunakan pada penelitian ini adalah MFCC. Koefisien MFCC yang digunakan terdapat 3 variasi yaitu 7 koefisien, 13 koefisien dan 20 koefisien. Hal ini dilakukan untuk mengetahui jumlah koefisien yang optimum pada sistem dalam mengklasifikasi genre musik. Pada tahap awal MFCC, sinyal suara akan diperlakukan Hamming Window sehingga menghasilkan sejumlah frame. Ukuran setiap frame adalah sebesar 30 milidetik dengan sampling rate sebesar 22050 Hz dan mengalami overlap sebesar 75%. Penelitian ini juga menggunakan 4 variasi waktu berkas musik, yaitu 1 detik, 5 detik, 10 detik dan 30 detik. Hal ini juga dilakukan untuk mengetahui waktu berkas musik yang optimum pada sistem dalam mengklasifikasi genre musik. Dari proses ekstraksi ciri tersebut, maka didapatkan vektor ciri dengan dimensi yang beragam, tergantung dengan jumlah koefisien MFCC dan waktu berkas musik yang digunakan. Tabel 3 memperlihatkan ragam dimensi vektor ciri yang dihasilkan pada penelitian ini.
Tabel 3. Dimensi vektor ciri untuk setiap variasi penelitian No. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
Jumlah Koefisien MFCC 7 koefisien 7 koefisien 7 koefisien 7 koefisien 13 koefisien 13 koefisien 13 koefisien 13 koefisien 20 koefisien 20 koefisien 20 koefisien 20 koefisien
Waktu Berkas Musik 1 detik 5 detik 10 detik 30 detik 1 detik 5 detik 10 detik 30 detik 1 detik 5 detik 10 detik 30 detik
Dimensi Vektor Ciri 7 x 134 7 x 668 7 x 1336 7 x 4008 13 x 134 13 x 668 13 x 1336 13 x 4008 20 x 134 20 x 668 20 x 1336 20 x 4008
34
Setelah vektor ciri didapatkan, maka mean dari setiap vektor ciri akan dihitung sehingga dimensinya akan berkurang menjadi sebesar n x 1 dimana n adalah jumlah koefisien MFCC yang digunakan. Untuk metode JST, setelah mean didapatkan maka dilakukan normalisasi.
4.2 Arsitektur Sistem Pada Gambar 19 dapat dilihat arsitektur sistem yang peneliti telah kembangkan dari proses ekstraksi ciri hingga prediksi genre musik dengan kedua metode. Berkas musik
(detik)
0 1
5
30
10 MFCC
7-M 1 dtk
13-M 1 dtk
20-M 1 dtk
7-M 5 dtk
13-M 5 dtk
20-M 5 dtk
7-M 10 dtk
13-M 10 dtk
20-M 10 dtk
7-M 30 dtk
13-M 30 dtk
20-M 30 dtk
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Mean
Normalisasi
VFI
JST Prediksi
Gambar 19. Arsitektur sistem klasifikasi genre musik yang telah dikembangkan
4.3 Implementasi Metode VFI Setelah proses ekstraksi ciri, maka proses pembelajaran pada model VFI dapat dilakukan. Proses pembelajaran dilakukan menggunakan data
35
training sebanyak 60 berkas musik yang terdiri dari 15 berkas musik pada setiap genre. Sedangkan untuk pengujian, digunakan 5 berkas musik untuk setiap genre.
4.3.1 Model VFI Pada proses pembelajaran didapatkan 8 (2 x 4) titik interval yang diperoleh dari titik minimum dan maksimum dari sebuah interval ciri setiap kelas yang dapat dilihat pada Tabel 4. Tabel 4. Titik interval dan presentase frekuensi kemunculan pada ciri MFCC koefisien ke-1 pada contoh sebuah 30 detik berkas musik TITIK -20,51534 -15,85193 -15,19517 -14,72691 -14,13456 -13,1284 -10,96637 -9,943883
KLASIK 0 0,0666667 0,8 0 0,0666667 0,0666667 0 0 0 0 0 0 0 0 0 0 0
DISKO 0 0 0 0 0 0 0 0 0 0 0 0,0666667 0,8666667 0,0666667 0 0 0
METAL 0 0 0 0 0 0 0 0,0666667 0,1333333 0 0,2 0 0,4666667 0 0,0666667 0,0666667 0
REGGAE 0 0 0 0,0666667 0,4 0 0,3333333 0 0,1333333 0,0666667 0 0 0 0 0 0 0
Kemudian sistem memberikan voting pada setiap titik atau interval sebuah berkas musik yang diberikan. Pada Tabel 5 dapat dilihat contoh voting sistem pada sebuah ciri MFCC koefisien ke-1 dengan waktu berkas musik 30 detik. Pada Tabel 6 dapat dilihat contoh prediksi sistem terhadap sebuah berkas musik. Presentase voting dari setiap ciri akan dijumlahkan sehingga menghasilkan presentase voting total. Dari hasil prediksi pada Tabel 6, terlihat bahwa prediksi presentase voting terbesar adalah genre klasik (35,16%) sehingga sistem memprediksi bahwa berkas musik tersebut termasuk pada kelas genre klasik.
36
Tabel 5. Contoh voting sistem pada sebuah 30 detik berkas musik dengan ciri MFCC koefisien ke-1 TITIK -20,51534 -15,85193 -15,19517 -14,72691 -14,13456 -13,1284 -10,96637 -9,943883
KLASIK 0 1 1 0 0,1428571 1 0 0 0 0 0 0 0 0 0 0 0
DISKO 0 0 0 0 0 0 0 0 0 0 0 1 0,65 1 0 0 0
METAL 0 0 0 0 0 0 0 1 0,5 0 1 0 0,35 0 1 1 0
REGGAE 0 0 0 1 0,8571429 0 1 0 0,5 1 0 0 0 0 0 0 0
Tabel 6. Contoh prediksi sistem terhadap sebuah 30 detik berkas musik dengan ciri MFCC 20 koefisien FITUR M-1 M-2 M-3 M-4 M-5 M-6 M-7 M-8 M-9 M-10 M-11 M-12 M-13 M-14 M-15 M-16 M-17 M-18 M-19 M-20
INPUT -14,997381 0,0221778 0,3623458 0,4975849 0,1671312 0,3811738 0,1557986 0,1320232 -0,1086356 -0,2698662 -0,1810319 -0,0611336 0,1569509 0,2915879 0,0813042 -0,0481691 -0,0482215 0,0114051 -0,0074787 -0,0183548 Total Presentase
KLASIK 0 0,4166667 0 0 0 1 0,2222222 0,2093023 0,0909091 1 0,75 0,2608696 1 1 0,2093023 0,047619 0 0,1578947 0,1111111 0,2045455
DISKO 0 0,1666667 0,6111111 0 0,375 0 0,4444444 0,3023256 0,0909091 0 0 0,2826087 0 0 0,255814 0,1428571 0,3333333 0,3157895 0,3703704 0,2954545
METAL 0 0,0833333 0,1666667 0 0,5 0 0,3333333 0,2325581 0 0 0 0,2608696 0 0 0,2325581 0,5714286 0,6666667 0,3157895 0,3703704 0,25
REGGAE 1 0,3333333 0,2222222 0 0,125 0 0 0,255814 0,8181818 0 0,25 0,1956522 0 0 0,3023256 0,2380952 0 0,2105263 0,1481481 0,25
6,6804425 0,3516022
3,9866844 0,2098255
3,9835743 0,2096618
4,3492988 0,2289105
37
4.3.2 Akurasi Model VFI Akurasi
maksimum
atau
tingkat
pengenalan
sistem
dalam
memprediksi genre musik pada model VFI yang telah dibuat oleh peneliti adalah sebesar 85 %. Hasil tersebut diperoleh menggunakan ciri MFCC dengan 7 koefisien pada berkas musik dengan waktu 30 detik. Sedangkan akurasi terendah adalah 45 % diperoleh dengan menggunakan ciri MFCC dengan 7 koefisien pada berkas musik dengan waktu 1 detik. Pada Gambar 20 dapat dilihat perbandingan akurasi dari seluruh hasil penelitian yang telah dilakukan oleh peneliti. Terlihat pada gambar bahwa penggunaan waktu berkas musik yang semakin besar menghasilkan akurasi yang semakin baik.
95
Akurasi (%)
85 75 70 65 60
65
85 80 75
75 70
7 MFCC 13 MFCC
55
20 MFCC
50 45
45 35 1
5 10 Waktu berkas musik (detik)
30
Gambar 20. Perbandingan akurasi VFI dari penelitian yang telah dilakukan
Tabel 7 memperlihatkan rincian voting dari percobaan dengan model VFI yang memiliki akurasi maksimum yang dilakukan oleh peneliti. Terlihat pada tabel bahwa sistem salah memprediksi 3 berkas musik yang genre sebenarnya adalah disko dan memprediksinya sebagai genre metal. Pada ketiga prediksi yang salah, voting pada kelas genre sebenarnya memiliki voting kedua tertinggi.
38
Tabel 7. Rincian voting sistem dengan menggunakan ciri MFCC 7 koefisien dan 30 detik berkas musik NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
LAGU K11 K12 K13 K14 K15 D11 D12 D13 D14 D15 M11 M12 M13 M14 M15 R11 R12 R13 R14 R15
KLASIK 0,3895692 0,5021164 0,4108466 0,4203704 0,496164 0,0460317 0,1038549 0,0664399 0,095262 0,1276644 0,2824263 0,284127 0,0537037 0,0426304 0,0537037 0,2415205 0,1276644 0,1480726 0,0712018 0,1190715
DISKO 0,2013605 0,252381 0,2556878 0,1939211 0,1203373 0,3754791 0,2717169 0,3771024 0,2752257 0,2963201 0,2292234 0,1825397 0,2329365 0,0947846 0,0953704 0,1405836 0,1987528 0,2314059 0,251819 0,2418357
METAL 0,2521542 0,1259259 0,162963 0,1141707 0,1270172 0,3250869 0,3713867 0,293779 0,4190773 0,3745613 0,4113662 0,4920635 0,5507937 0,6716553 0,4740741 0,2830648 0,2961451 0,1818594 0,1341418 0,1809254
REGGAE 0,1569161 0,1195767 0,1705026 0,2715378 0,2564815 0,2534023 0,2530415 0,2626787 0,210435 0,2014542 0,0769841 0,0412698 0,1625661 0,1909297 0,3768519 0,3348311 0,3774376 0,4386621 0,5428374 0,4581674
SEB K K K K K D D D D D M M M M M R R R R R
PRED K K K K K D M D M M M M M M M R R R R R
4.4 Implementasi Metode JST Setelah proses ekstraksi ciri dan diperlakukan normalisasi vektor ciri, maka proses pembelajaran pada model JST dapat dilakukan. Sama seperti pada metode VFI, proses pembelajaran dilakukan menggunakan data training sebanyak 60 berkas musik yang terdiri dari 15 berkas musik pada setiap genre. Sedangkan untuk pengujian, digunakan 5 berkas musik untuk setiap genre.
4.4.1 Desain Arsitektur Model JST Untuk melakukan prediksi genre musik yang memerlukan data atau pola input yang relatif besar, jaringan dengan banyak lapisan (multilayer net) dengan algoritma backpropagation dan metode pembelajaran terawasi (supervised learning) merupakan pilihan yang baik. Pada jaringan (model JST) diberikan sepasang pola yang terdiri dari pola masukan dan pola yang diinginkan atau target. Dengan besarnya data yang akan digunakan dan relatif kompleksnya persoalan yang harus diselesaikan maka model JST
yang akan
39
dikembangkan adalah JST dengan arsitektur multilayer net yang terdiri dari 3 (tiga) layer (lapisan) yaitu :
Satu lapisan input yang terdiri dari beberapa neuron yang jumlahnya disesuaikan pola input.
Satu lapisan tersembunyi dengan beberapa neuron yang jumlahnya dilakukan dengan coba-coba (trial and error), yang dipilih adalah yang menghasilkan konvergensi dengan jumlah iterasi (epoch) paling sedikit.
Satu lapisan output/keluaran yang terdiri dari bebarapa neuron tergantung pola keluaran yang diinginkan.
4.4.2 Penentuan Pola Input dan Output Pola input disesuaikan dengan banyaknya ciri yang digunakan. Pada penelitian ini digunakan 3 (tiga) variasi ciri yaitu MFCC koefisien ke-1 hingga ke-7, MFCC koefisien ke-1 hingga ke-13 dan MFCC koefisien ke-1 hingga ke-20. Sehingga masing-masing percobaan memiliki neuron input sebanyak 7,13 dan 20 neuron. Keluaran atau output yang diharapkan dari model atau jaringan adalah berupa prediksi genre musik. Pada penelitian ini digunakan Unary Encoding dengan kombinasi angka 1 dan 0 (variabel bilangan biner). Sebagai contoh untuk data genre musik klasik adalah 1000, disko adalah 0100, metal adalah 0010 dan reggae adalah 0001. Arsitektur model JST yang dikembangkan dapat dilihat pada Gambar 21. Pada gambar, I1 hingga In merupakan neuron input yang jumlahnya sesuai dengan banyaknya koefisien MFCC yang digunakan, Z1 hingga Zn merupakan neuron di hidden layer, sedangkan Y1 hingga Y4 merupakan neuron output yang jumlahnya sesuai dengan banyaknya kelas genre.
4.4.3. Algoritma Pembelajaran Jaringan Algoritma pembelajaran yang diterapkan pada model prediksi JST adalah backpropagasi (backpropagation) dengan metode supervised
40
learning (pembelajaran terawasi), dimana ada nilai target yang akan dicapai oleh keluaran (output) jaringan/model JST yang dikembangkan.
I1
Z1
Y1
I2
Z2
Y2
I3
Z3
Y3
In
Zn
Y4
Gambar 21. Arsitektur model JST yang telah dikembangkan
4.4.4. Hasil Pelatihan Model JST Kinerja dari model JST dinyatakan dengan MSE (mean square error). MSE dinyatakan dengan rumus :
MSE
1 Q 2 1 Q ek (t k a k ) 2 Q k 1 Q k 1
(27)
dengan : Q = jumlah pola yang dihitung tk = vektor target
ak = vektor keluaran jaringan ek = tk – ak Pelatihan backpropagation menggunakan metode pencarian titik minimum untuk mencari bobot dengan error minimum. Pada proses pencarian ini dikenal 2 macam mode yaitu metode incremental dan metode kelompok (batch). Dalam metode incremental, bobot diubah setiap kali pola masukan diberikan ke jaringan. Sebaliknya, dalam mode kelompok, bobot diubah
41
setelah semua pola masukan diberikan ke jaringan. Error yang terjadi dalam setiap pola masukan dijumlahkan untuk menghasilkan bobot baru. Metode yang paling sederhana untuk merubah bobot adalah metode penurunan gradien (gradient descent). Bobot dan bias diubah pada arah dimana unjuk kerja fungsi menurun paling cepat, yaitu dalam arah negatif gradiennya. Untuk mencapai konvergensi yang lebih cepat model yang dikembangkan diatur pada learning rate, jumlah neuron pada lapisan tersembunyi (hidden layer) serta dengan mengubah fungsi pelatihan atau training functions. Pada penelitian ini banyaknya data (pola data) yang digunakan untuk training adalah 60 pola. Dengan mencoba berbagai jumlah neuron hidden layer (dari 10 hingga 100 neuron), fungsi aktivasi tansig dan fungsi pelatihan trainlm, maka dipilih hasil akurasi yang tertinggi dari setiap percobaan. Pada nilai tersebut ketika pelatihan (training) dilakukan, proses iterasi yang terjadi pada model JST menghasilkan nilai MSE yang semakin baik atau terjadi konvergen menjadi lebih cepat. Nilai tersebut didapatkan dengan cara coba-coba (trial and error).
Tabel 8. Hasil akurasi percobaan model JST dengan beragam jumlah neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik No. 1 2 3 4 5 6 7 8 9 10
Jumlah Neuron Hidden Layer 10 20 30 40 50 60 70 80 90 100
Akurasi (%) 85 75 95 75 85 80 80 70 70 70
Pada Tabel 8 memperlihatkan hasil akurasi percobaan model JST dengan beragam jumlah neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik. Terlihat bahwa akurasi yang tertinggi
42
yaitu 95% didapat pada percobaan dengan jumlah neuron hidden layer sebanyak 30 neuron. Pada model JST, prediksi sistem didapatkan dengan melihat nilai yang terbesar dari keempat neuron layer output yang masing-masing neuron memberikan nilai prediksi kepada setiap kelas genre. Pada Tabel 9 memperlihatkan hasil prediksi dari percobaan model JST dengan jumlah neuron hidden layer sebesar 30 neuron, 13 koefisien MFCC dan 10 detik waktu berkas musik. Nilai prediksi sistem pada berkas musik yang salah diprediksi, memiliki nilai kedua terbesar pada genre sebenarnya.
Tabel 9. Hasil prediksi percobaan model JST dengan 30 neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik NO. 1
LAGU K11
KLASIK 0,9999312
DISKO 0,0056437
METAL 0,0011468
REGGAE 0,0011953
SEB K
PRED K
2
K12
0,9960457
0,0073991
0,0227637
0,0151162
K
K
3
K13
0,7746381
0,049482
0,4609026
0,0014325
K
K
4
K14
0,99741
0,0915585
0,0004104
0,0046159
K
K
5
K15
0,9383156
0,0054218
0,0090847
0,0567543
K
K
6
D11
0,0003719
0,9855018
0,025785
0,0417412
D
D
7
D12
0,0002363
0,6794918
0,6187476
0,1085879
D
D
8
D13
0,0294863
0,8893485
0,0386948
0,0111701
D
D
9
D14
7,679E-05
0,7438239
0,2044273
0,4004555
D
D
10
D15
0,0020639
0,6635944
0,5950788
0,0039463
D
D
11
M11
0,0032837
0,0974499
0,988707
0,0337503
M
M
12
M12
0,1862668
0,656192
0,9623735
0,0010125
M
M
13
M13
0,0043123
0,009421
0,9968142
0,0078728
M
M
14
M14
0,0303633
0,0005624
0,9996626
0,0045542
M
M
15
M15
0,0141649
0,0002596
0,9996795
0,0131499
M
M
16
R11
0,0011888
0,8139638
0,0005787
0,960649
R
R
17
R12
0,0322781
0,003094
0,0095377
0,8539628
R
R
18
R13
0,0771975
0,0015715
0,0016967
0,8253715
R
R
19
R14
0,0600059
0,000501
0,0007807
0,9992335
R
R
20
R15
0,0059396
0,6119903
0,140584
0,3591586
R
D
4.4.5 Akurasi Model JST Pada penelitian ini juga dilakukan perhitungan akurasi metode Jaringan Saraf Tiruan (JST). Pada Gambar 3 dapat dilihat akurasi metode JST dalam mengklasifikasi genre musik.
43
100
Akurasi (%)
95
95
90
95
90
85
85
80
80
85
90 7 MFCC
85
13 MFCC 20 MFCC
75 70 1
5 10 Waktu berkas musik (detik)
30
Gambar 22. Perbandingan akurasi JST dari penelitian yang telah dilakukan Gambar 22 menunjukkan bahwa akurasi metode JST dengan ciri 13 dan 20 koefisien MFCC menghasilkan akurasi yang sama untuk setiap rentang waktu. Adapun hasil akurasi prediksi maksimum terdapat pada model JST dengan ciri 13 dan 20 koefisien MFCC dengan 10 dan 30 detik berkas musik yaitu sebesar 95%.
4.5 Confusion Matrix Pada Tabel 10 dan 11 disajikan confusion matrix dimana baris mewakili genre musik sebenarnya dan kolom mewakili prediksi genre yang dilakukan oleh sistem. Pada tabel confusion matrix ini, setiap label mewakili sebuah genre tertentu dengan jumlah berkas musik yang tersedia untuk setiap genre. Pola diagonal yang dimulai dari kiri atas tabel hingga kanan bawah tabel mengilustrasikan jumlah klasifikasi yang benar oleh sistem. Sedangkan angka-angka yang tersebar di luar pola diagonal menyatakan jumlah klasifikasi yang salah oleh sistem. Pengujian confusion matrix ini dilakukan dengan 4 fold cross validation pada percobaan yang memiliki akurasi tertinggi dari kedua metode yaitu 7 koefisien MFCC dan 30 detik waktu berkas musik pada metode VFI dan 13 koefisien MFCC dan 10 detik waktu berkas musik pada metode JST.
44
Akurasi pengklasifikasian menunjukkan presentase jumlah data pengujian yang prediksinya benar untuk setiap genre. Sedangkan reliability pengklasifikasian menunjukkan tingkat keandalan pada hasil prediksi untuk setiap genre.
Tabel 10. Confusion matrix dari prediksi sistem dengan metode VFI dengan ciri 7 koefisien MFCC dan 30 detik berkas musik KLASIK DISKO METAL REGGAE RELIABILITY
KLASIK 20 3 0 1 83,33%
DISKO 0 8 5 1 57,14%
METAL 0 6 15 0 71,43%
REGGAE 0 3 0 18 85,71%
AKURASI 100% 40% 75% 90%
Tabel 11. Confusion matrix dari prediksi sistem dengan metode JST dengan ciri 13 koefisien MFCC dan 10 detik berkas musik KLASIK DISKO METAL REGGAE RELIABILITY
KLASIK 17 1 0 0 94,44%
DISKO 0 16 5 2 69,57%
METAL 0 2 15 0 88,24%
REGGAE 3 1 0 18 81,82%
AKURASI 85% 80% 75% 90%
Gambar 23 menunjukkan diagram batang perbandingan dari akurasi dengan reliability dari prediksi sistem pada kedua metode. Terlihat pada gambar bahwa akurasi genre metal dan reggae memiliki nilai yang sama besar pada kedua metode. Akurasi tertinggi terdapat pada genre klasik yaitu 100% dengan menggunakan metode VFI. Sedangkan akurasi terendah terdapat pada genre disko yaitu 40% dengan menggunakan metode VFI. Pada metode VFI, beberapa voting berkas musik yang salah diprediksi memiliki voting kedua terbesar pada genre sebenarnya. Pada Tabel 12 dapat dilihat voting prediksi dari genre musik disko yang sistem salah prediksi. Terdapat 9 dari 12 berkas musik yang memiliki voting kedua terbesar pada genre sebenarnya.
45
95 85
(%)
75 Akurasi JST 65
Akurasi VFI
Reliability JST
55
Reliability VFI 45 35 KLASIK
DISKO METAL Genre
REGGAE
Gambar 23. Diagram batang dari akurasi dan reliability sistem
Tabel 12. Voting prediksi dari genre musik disko yang sistem salah prediksi NO. 1 2 3 4 5 6 7 8 9 10 11 12
LAGU D16 D18 D19 D12 D14 D15 D6 D9 D10 D1 D4 D5
KLASIK 0,3885 0,4466 0,3876 0,1039 0,0953 0,1277 0,1096 0,1096 0,2245 0,1673 0,0486 0,2291
DISKO 0,1093 0,1480 0,2592 0,2717 0,2752 0,2963 0,3288 0,3157 0,2499 0,2137 0,3087 0,2284
METAL 0,2729 0,1325 0,1234 0,3714 0,4191 0,3746 0,3781 0,3246 0,2397 0,1546 0,4400 0,2664
REGGAE 0,2293 0,2729 0,2298 0,2530 0,2104 0,2015 0,1834 0,2501 0,2859 0,4644 0,2027 0,2760
Gambar 24 menunjukkan perbandingan mean akurasi dan mean reliability sistem pada kedua metode. Terlihat bahwa metode JST memiliki mean akurasi dan reliability yang lebih baik daripada metode VFI.
46
86,00%
84,00%
83,52%
82,50%
82,00% 80,00% 78,00%
76,25%
76,00%
74,40%
74,00% 72,00% 70,00% 68,00% JST Mean Akurasi
VFI Mean Reliability
Gambar 24. Diagram batang perbandingan mean akurasi dan mean reliability sistem
47
V SIMPULAN DAN SARAN
5.1 Simpulan Dari hasil penelitian yang telah dilakukan dapat disimpulkan beberapa hal sebagai berikut : 1. Penggunaan ciri koefisien MFCC optimum yaitu 13 koefisien dengan hasil akurasi yaitu 95%. Hasil akurasi tersebut juga didapatkan dengan pengunaan ciri 20 koefisien MFCC. 2. Hasil akurasi cenderung meningkat dengan bertambahnya besaran waktu berkas musik yang digunakan dimana akurasi pada penggunaan waktu 1 detik yaitu 80% dan akurasi pada penggunaan waktu 30 detik yaitu 95% pada metode JST dengan 13 dan 20 koefisien MFCC. 3. Akurasi dengan metode JST memiliki akurasi yang terbaik yaitu 95% yang diperoleh dengan jumlah neuron hidden layer sebanyak 30 layer pada 10 detik waktu berkas musik dan penggunaan ciri 13 koefisien MFCC. 4. Akurasi dengan metode VFI mencapai hingga 85% dengan 30 detik waktu berkas musik dan penggunaan ciri 7 koefisien MFCC. 5. Genre musik yang paling mudah dikenali pada metode VFI yaitu genre klasik dengan akurasi sebesar 100%. 6. Reliabilitas pada genre musik berkisar dari 57,14% pada genre disko hingga 94,44% pada genre klasik.
5.2 Saran Penelitian ini masih dapat dikembangkan sebagai upaya untuk meningkatkan akurasi model VFI ataupun JST dalam melakukan prakiraan atau prediksi genre musik, antara lain dengan menambah data training dan testing. Pada penelitian ini, data set yang digunakan sebanyak 80 data. Oleh karena itu, diperlukan penelitian lebih lanjut dengan menggunakan data set yang lebih banyak sehingga memperoleh akurasi yang lebih baik.
48
Perlu dilakukan pengujian dengan menambahkan ciri selain dari MFCC dan melihat kinerja akurasi kedua metode dalam mengklasifikasi genre musik. Penelitian ini perlu dikembangkan menjadi sebuah sistem prototipe dengan mendesain sebuah program aplikasi antar muka (graphic user interface) untuk mendapatkan sistem prediksi yang lebih baik dan mudah digunakan oleh pengguna awam.
49
DAFTAR PUSTAKA Ahrendt P. 2006. Music Genre Classification System – A Computational Approach. IMM-PHD-2006-164. Technical University of Denmark. Andersson T. 2004. Audio Classification and Content Description [tesis]. Lulea, Sweden: Lulea University of Technology. Buono A. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan BerNoise Menggunakan HMM [disertasi]. Depok: Program Pascasarjana Fakultas Ilmu komputer, Universitas Indonesia. Butler D. Music. Microsoft® Encarta® 2006 (DVD). Redmond, WA: Microsoft Corporation; 2005. Costa CHL, Valle JD Jr, Koerich AL. 2004. Automatic Classification of Audio Data. IEEE International Conference on Systems, Man and Cybernetics; The Hague, The Netherlands.10-13 Oktober 2004. Demiroz G. 1997. Non-Incremental Classification Learning Algorithms Based On Voting Feature Intervals [tesis]. Institute of Engineering And Science of Bilkent University. Duda, Richard O. Hart, Peter E. Stork, David G. 2000. Pattern Classification. John Wiley & Son, New York. Duda R, Hart P, Stork D. 2001. Pattern Classification, Second Edition. Canada: John Wiley and Sons Inc. Fausset, L. 1994. Fundamentals of Neural Network. Prentice Hall, Englewood Cliffs, New Jersey. Foote, J. 1999. An Overview of Audio Information Retrieval. Multimedia Systems, 7(1): 2–10. Grimaldi M, Cunningham P, Kokaram A. 2003. An Evaluation of Alternative Feature Selection Strategies and Ensemble Techniques for Classifying Music. Ireland: Computer Science and Electronic Engineering Department, Trinity College Dublin. Hainsworth SW. 2003. Techniques for the Automated Analysis of Musical Audio [tesis]. UK: University of Cambridge.
50
Han J, Kamber M. 2001. Data Mining : Concept, Model, Methods, and Algorithm. New Jersey: Wiley-Interscience. Hayne M. Mee D, Rumble R. Influence of Music Genre and Composition on Entertainment Noise Limits. Proceedings of ACOUSTIC 2005; Busselton, Western Australia. 9-11 November 2005. Jang, JSR. Sun, CT, Mizutani, E. 1997. Neuro Fuzzy and Soft Computing, A Computanional Approach to Learning and Machine Intelligence, International Edition, Prentice-Hall International Inc. Kantardzic M. 2003. Data Mining : Concept and Techniques. San Fransisco: Morgan Kaufmann Publisher. Kusumadewi, S. 2004. Membangun Jaringan Saraf Tiruan (Menggunakan Matlab dan Excel Link). Yogyakarta. Graha Ilmu. Lai HK. 2003. Speech Processing Workstation, Project Report. New Zealand: University of Auckland. Lampropoulus, AS. Lampropoulou, PS. Tsihrintzis, GA. 2005. Musical Genre Classification Enhanced by Improved Source Separation Techniques. University of Piraeus. McKay C. 2004. Issues in Automatic Musical Genre Classification. Faculty of Music, McGill University. Nilsson M, Ejnarsson M. 2002. Speech Recognition using Hidden Markov Model [tesis]. Karlskrona, Sweden: Blekinge Institute of Technology. Norowi NM, Doraisamy S, Wirza R. 2005. Factors Affecting Automatic Genre Classification : An Investigation Incorporating Non-Western Musical Forms. Faculty of Computer Science and Information technology, University Putra Malaysia. Rabiner LR, Juang BH. 1993, Fundamentals of Speech Recognition. New Jersey: Prentice Hall. ISBN 0-13-015157-2. Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Internal
Representations
by
Error
Propagation.
In
Learning Parallel
Distributed Processing, Volume 1. MIT Press, Cambridge, MA. Tzanetakis G, Cook P. 2000. Marsyas : A framework for Audio Analysis. Organised Sound, 4(3).
51
Tzanetakis G, Cook P. 2002. Musical Genre Classification of Audio Signals. IEEE Transactions on Speech and Audio Processing, 10(5). Wang Y, Liu Z, Huang J. 2000. Multimedia Content Analysis. IEEE Signal Processing Magazine. hlm. 12-36. Welsh NM, von Behren B, Woo A. 1999. Querying Large Collections of Music for Similarity. Technical report UCB/CSD00-1096. Berkeley: Computer Science Department, UC.
52
LAMPIRAN
53
Lampiran 1. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold kedua No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K16 K17 K18 K19 K20 D16 D17 D18 D19 D20 M16 M17 M18 M19 M20 R16 R17 R18 R19 R20
Klasik 0,7916667 0,8333333 0,7404762 0,4734541 0,8833333 0,3885017 0,1446912 0,4466341 0,3876263 0,2270616 0,3072391 0,1186924 0,1306563 0,0989103 0,1511068 0,0677735 0,2745562 0,1684228 0,1085898 0,2731481
Disko 0,0416667 0 0,0904762 0,1881005 0,0333333 0,109281 0,3996632 0,1480256 0,2592172 0,3429706 0,3332912 0,3362087 0,3110602 0,4294163 0,2286978 0,2879691 0,3540655 0,1873713 0,275214 0,2662037
Metal 0,0833333 0 0,0738095 0,0709534 0,0166667 0,2729384 0,2833934 0,1324623 0,1233586 0,2061266 0,2830808 0,3321979 0,4208792 0,2184982 0,4726583 0,2571821 0,1613738 0,2656855 0,2087128 0,1805556
Reggae 0,0833333 0,1666667 0,0952381 0,267492 0,0666667 0,2292789 0,1722522 0,2728781 0,229798 0,2238412 0,0763889 0,2129011 0,1374044 0,2531752 0,1475371 0,3870753 0,2100045 0,3785204 0,4074835 0,2800926
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi K K K K K K D K K D D D M D M R D R R R
Lampiran 2. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold ketiga No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K6 K7 K8 K9 K10 D6 D7 D8 D9 D10 M6 M7 M8 M9 M10 R6 R7 R8 R9 R10
Klasik 0,6355519 0,425407 0,4940553 0,5518637 0,3108915 0,1096157 0,0810443 0,1381871 0,1096157 0,2245225 0,1346157 0,0964104 0,1096157 0,1096157 0,1124819 0,1256871 0,1096157 0,1256871 0,1542586 0,4114014
Disko 0,1222944 0,1476567 0,2107297 0,186155 0,186155 0,3288192 0,4288192 0,3347715 0,3157239 0,2498854 0,2836861 0,2187251 0,1747575 0,2335811 0,2866873 0,2211861 0,2204858 0,2479718 0,2688052 0,1854718
Metal 0,1374459 0,174713 0,1238404 0,0927207 0,2038318 0,3781443 0,3067158 0,2769539 0,3245729 0,2396868 0,3856724 0,4006033 0,5053152 0,3305253 0,3486075 0,1088866 0,1340967 0,1535295 0,1088866 0,1088866
Reggae 0,1047078 0,2522233 0,1713745 0,1692605 0,2991217 0,1834208 0,1834208 0,2500875 0,2500875 0,2859053 0,1960258 0,2842611 0,2103116 0,3262779 0,2522233 0,5442401 0,5358018 0,4728116 0,4680497 0,2942401
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi K K K K K M D D M R M M M M M R R R R K
54
Lampiran 3. Prediksi sistem dengan Metode VFI dengan ciri 7 koefisien MFCC, 30 detik waktu berkas musik pada fold keempat No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K1 K2 K3 K4 K5 D1 D2 D3 D4 D5 M1 M2 M3 M4 M5 R1 R2 R3 R4 R5
Klasik 0,5035461 0,547619 0,4047619 0,5596927 0,6968254 0,1673316 0,0273556 0,1146572 0,0485816 0,2291413 0,1194191 0,0416413 0,2479905 0,0382979 0,0670382 0,2862842 0,0596927 0,1226556 0,1839982 0,2767604
Disko 0,2654991 0,1933107 0,3004535 0,1708601 0,0888889 0,2136841 0,509266 0,4338692 0,3087148 0,2283959 0,277744 0,2357011 0,3519143 0,3682355 0,2896488 0,2149039 0,255937 0,2635881 0,2550654 0,2291896
Metal 0,0742831 0,0972695 0,0347695 0,0866637 0,1428571 0,1545649 0,1999099 0,2855581 0,4400387 0,2664128 0,525228 0,461218 0,2501919 0,3502686 0,4956645 0,1536482 0,2722146 0,2584597 0,1392117 0,1028546
Reggae 0,1566717 0,1618008 0,2600151 0,1827836 0,0714286 0,4644194 0,2634685 0,1659155 0,2026649 0,27605 0,0776089 0,2614396 0,1499033 0,2431979 0,1476486 0,3451637 0,4121557 0,3552965 0,4217247 0,3911955
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi K K K K K R D D M R M M D D M R R R R R
Lampiran 4. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold kedua No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K16 K17 K18 K19 K20 D16 D17 D18 D19 D20 M16 M17 M18 M19 M20 R16 R17 R18 R19 R20
Klasik 0,0026902 1 1 0,999962 1 0,0002962 0 0,9960964 0,1111004 0 5,551E-17 2,958E-10 0 1,341E-12 0 1,792E-06 0 0 5,299E-06 0
Disko 1,668E-05 2,948E-05 4,488E-05 0 5,722E-11 0,0001718 0,8894274 0,9999886 0,6167787 1,164E-12 1,151E-05 0,9982838 2,018E-06 0,9999979 0,0005595 0 0,9999567 1,21E-07 3,05E-10 0
Metal 9,413E-12 4,762E-09 1,129E-10 5,766E-06 6,086E-09 2,235E-12 0,0943354 5,218E-15 1,887E-15 0 0,9999921 0,9999999 0,9999976 0,999853 0,9996645 8,557E-11 0 5,551E-17 1,206E-13 1,198E-07
Reggae 1 4,001E-07 1,871E-06 0,9915043 5,097E-09 0 1,568E-09 1,586E-06 6,306E-08 1 0 5,793E-11 2,343E-13 3,468E-05 3,009E-10 0,8622164 0,9366358 1 1 1
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi R K K K K K D D D R M M M D M R D R R R
55
Lampiran 5. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold ketiga No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K6 K7 K8 K9 K10 D6 D7 D8 D9 D10 M6 M7 M8 M9 M10 R6 R7 R8 R9 R10
Klasik 0,7580475 0,9854195 0,9864808 0,9993517 0,9556504 6,784E-05 0,0002008 3,716E-05 0,0002112 7,987E-05 0,0018417 0,0152057 0,0003292 0,0002657 5,737E-06 0,0006757 0,0005992 0,0016562 0,0012209 0,0390726
Disko 0,0187478 0,5459333 0,000115 0,0071214 0,0001662 0,9765964 0,9737478 0,9828505 0,9495207 0,673826 0,9894321 0,000229 0,0020528 0,4194286 0,989934 0,5400892 0,0327941 0,0199238 0,1198935 0,0187286
Metal 0,0049602 0,0217173 0,0316341 0,523228 0,0001021 0,0302286 0,1569229 0,004859 0,3270895 0,0062544 0,0711125 0,9757417 0,9986078 0,2167519 0,0132318 0,0002535 0,0003729 0,0001455 0,0009152 8,017E-05
Reggae 9,572E-07 1,49E-07 0,0007921 1,447E-12 0,9999999 5,362E-05 2,25E-09 5,685E-06 2,232E-11 3,284E-07 0,0002826 3,1E-05 6,52E-07 0,0003305 7,339E-05 0,965059 0,9999999 1 0,9997532 0,9999637
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi K K K K R D D D D D D M M D D R R R R R
Lampiran 6. Prediksi sistem dengan Metode JST dengan ciri 13 koefisien MFCC, 10 detik waktu berkas musik pada fold keempat No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Lagu K1 K2 K3 K4 K5 D1 D2 D3 D4 D5 M1 M2 M3 M4 M5 R1 R2 R3 R4 R5
Klasik 0,9664646 0,9428953 0,9979345 0,999304 0,5895183 3,6E-07 9,098E-14 2,258E-10 1,507E-11 2,97E-08 8,022E-10 2,243E-10 8,028E-08 7,969E-12 5,02E-10 2,246E-06 1,083E-10 9,97E-06 4,345E-11 0,166197
Disko 0 0,0136088 5,031E-05 1,005E-13 0,0093555 0,9999999 1 0,1220503 0,1827688 2,441E-09 0,1108836 5,275E-05 0,9993343 0,9605371 7,892E-11 1,269E-09 0,0002381 8,049E-15 2,413E-06 1,665E-16
Metal 1,417E-05 2,054E-15 2,183E-11 6,88E-12 1,014E-12 0 1,035E-08 1,262E-06 0,9880998 0,9693352 0,9999986 0,9987326 0,0169557 0,9997328 1 1,034E-13 0 0,4207323 6,203E-10 4,057E-09
Reggae 0,9999943 1,043E-07 3,968E-06 0,8957108 1,826E-13 5,157E-05 2,109E-15 1,979E-07 2,354E-12 1,885E-07 0 7,216E-16 0 0 8,791E-13 1 1 0,9999813 0,9999278 1
Sebenarnya K K K K K D D D D D M M M M M R R R R R
Prediksi R K K K K D D D M M M M D M M R R R R R