BAB II LANDASAN TEORI Bab ini menjelaskan landasan teori yang digunakan dalam perancangan sistem Networks pendeteksi suara dan pembangkitan not, dimulai dengan memaparkan pengertian Tentang Teori Musik, pengertian dariNeural Networks, kemudian diikuti dengan penjelasan teori tentang model dan konsep dasar Neural Networks, arsitektur Neural Backpropagation, serta pengolahan sinyal dari transkripsi melodi 2.1
Teori Musik Sub bab ini membahas mengenai teori musik yang dikutip dari buku Victor
Booth(1983) yang dimulai dengan pengertian musik, serta elemen-elemen dalam musik. a.
Pengertian Musik
Definisi musik yang bermacam-macam yaitu: 1. Kamtmi Musik adalah bagian dari kehiduoan dan perkembangan jiwa manusia. 2. Jhon M Musik merupakan kekuatan dasar yang sangan efektif untuk menenagkan dan mendatangkan inspirasi bagi banyak orang 3. Alleglory of Music karya Lorenzo Lippi Musik adalah bunyi yang diterima individu dan berbeda beda berdasarkan sejarah, lokasi, budaya, dan selera seseorang. 4. Aristoteles Musik mempunyai kemampuan mendamaikan hati yang gundah, mempunyai terapi rekreatif, dan mempunyai jiwa patriotisme. 7
8
b. Elemen dalam Musik 1. Bunyi Bunyi dan nada dipelajari dalam mata pelajaran iImu akustika musik.Biasanya ilmu akustika dipelajari sebagai landasan dalam memahami produksi bunyi berbagai instrumen musik.Secara akustik, bunyi dihasilkan oleh getaran.Sebagai contoh ialah fenomena produksi suara yang dihasilkan dengan jalan menggesekkan alat penggesek (bow) pada dawai-dawai biola. Contoh lain ialah petikan pada dawaidawai gitar Getaran yang teratur pada jumlah tertentu dalam setiap detiknya menghasilkan nada-nada musikal yang membedakan dari bunyi yang diproduksi untuk tujuan lain. Semakin tinggi kecepatan getaran maka semakin tinggi pula tingkat ketinggian suatu bunyi atau nada.Berdasarkan tinggi rendahnya, penyebutan nada-nada musical menggunakan tujuh abjad pertama yaitu A, B, C, D, E, F, dan G, mulai dari yang terrendah hingga tertinggi. 2. Garis Paranada Butir-butir nada diletakan pada lima buah garis sejajar yang di Indonesia lazim disebut paranada (Inggris: Staff). Sitem penulisan butir-butir nada para paranada dikenal dalam masyarakat kita dengan istilah not balok.Pada dasarnya prinsip membaca not balok adalah sangat sederhana seperti halnya membaca sebuah grafik yang logis. Tingkat ketinggian nada dapat terlihat dengan jelas sebagaimana apa adanya pada paranada. Butir nada yang terletak di bawah menunjukkan nada yang rendah dan demikian pula halnya dengan nada yang tinggi tentunya terletak di wilayah atas.Pada garis paranada terdapat garis-garis vertical pembatas iramam disebut garis birama. Di antara garis-garis pembatas terbentuk kolom-kolom yang disebut birama: bar.
9
Gambar 2.1 Garis Paranada
Gambar 2.2 Posisi Not dalam Garis Paranada Paranada dapat mengakomodasi seluruh wilayah nada-nada musikal dari yang terrendah hingga yang tertinggi. Untuk keperluan tersebut nama-nama nada pada paranada ditentukan oleh kunci (Inggris: Clef) yang berbeda-beda yang diletakkan pada setiap awal paranada. Penulisan nada-nada pada wilayah suara tinggi (Diskan) menggunakan kunci G (G clef) atau biasa juga disebut treble clef; nada-nada pada wilayah suara rendah (baskan) menggunakan kunci F atau biasa disebut bass clef. Di antara kedua kunci tersebut ada kunci-kunci lain yaitu kunci C yang biasa disebut dengan alto clef, untuk mengakomodasi penulisan nada-nada tengah.
10
Gambar 2.3 Posisi nada C berdasarkan kunci (clef) 3. Skala Nada Dalam dunia pendidikan musik Indonesia “skala nada” lebihdikenal dengan istilah “tangga nada” sedangakan secara internasionaldisebut scale (Inggris). Nadanada yang berurutan secara alfabetisadalah susunan nada-nada skala. Nada pertama pada sebuah skalamemiliki kedudukan sebagai Tonika yang sekaligus menjadi namadari tangga nada tersebut.
Gambar 2.4 Skala C mayor 4. Kunci Tanda kunci (Inggris: key signature) berbeda dengan kunci(clef), digunakan untuk menunjukkan skala nada yang berbeda-beda.Tanda kunci selalu ditempatkan di setiap awal garis paranada (bukanhanya di awal lagu) dalam bentuk susunan aksidental kres dan mol
11
Gambar 2.5 Kunci G dan kunci F 5. Tempo Jika melodi dapat dianalogikan sebagai jiwa bagi musik maka jantungnya ialah ritme dan tempo.Tempo merupakan “polisi lalu lintas” yang mengatur kelancaran lalulintas sedangkan kelancaran lalulintasnya ialah ritme.Petunjuk tempo pada naskah musikal tertulis di kiri atas halaman permulaan sebuah karya musik. Tabel 2.1 Tempo KATEGORI Sangat Lambat Lambat
SUB KATEGORI Largo Grave Lento
Sedang
Adagio Andante
Agak Cepat Cepat Sangat Cepat
Andantino Moderato Allegretto Allegro Allegro molto Vivace Presto Pertissimo
KETERANGAN Luas Serius Gemulai, ringan (tidak tergesa-gesa), santai (slowly) Berjalan - dalam tempo orang berjalan Sedikit / seperti andante (lebih cepat dari andante) Agak hidup (tidak secepat allegro) Gembira, ceria, hidup Sangat hidup Enerjik, bersemangat, hidup Sangat cepat Secepat mungkin
12
6. Dinamika Volume yang menunjukkan tingkat kekuatan atau kelemahanbunyi pada saat musik dimainkan, disebut dinamik.Sebagaimanahalnya tempo yang bermacammacam dari yang tetap dan berubah,maka demikian juga dengan dinamik, ada yang tetap dan ada jugayangberubah.Baik dinamik maupun tempo, keduanya berakar dari sifat – sifatemosi.Untuk mengungkapkan misteri dan ketakutan dibutuhkanbisikan, sedangkan kemenangan dan aktivitas yang berani resonansiyang penuh.Dinamikdinamik yang pokok berkisar dari yang paling lemah hingga yang paling kuat, yaitu: Tabel 2.2 Dinamik TINGKAT VOLUME Sangat Lemah Lemah Agak Lemah Agak Kuat Kuat Sangat Kuat
ISTILAH DINAMIK Pianissimo Piano Mezzo Piano Mezzo Forte Forte Fortisimo
SIMBOL pp pp mp mf f ff
Dalam keadaan tertentu terdapat tanda-tanda perubahan dinamik. Yang paling umum di antaranya ialah sebagai berikut Tabel 2.3 Perubahan Dinamik TINGKAT VOLUME
ISTILAH DINAMIK
Berangsur menguat
Crescendo
Berangsur melemah
Descrescendo atau Diminuendo
Tekanan mendadak / aksen pada satu nada atau satu akor
Sforzando
7. Ritme
SIMBOL
sf / forced
13
Ritme atau irama, adalah susunan di antara durasi nada-nadayang pendek dan panjang, nada-nada yang bertekanan dan yang takbertekanan, menurut pola tertentu yang berulang-ulang.Dapat jugadikatakan bahwa ritme ialah melodi yang monoton.Dalam berbagaisituasi ritme ialah bagaikan denyut jantung bagi suatu karya musiksehingga tanpanya sebuah karya musik tidak bisa hidup atau bernafas.Tanda ritme terdapat dalam garis paranada pada permulaan lagu tepatsetelah kunci (clef) dan tanda kunci.Tanda ritme tersusun dari duapembagian angka.Angka yang terdapat di atas menunjukan polatekanan yang berulang-ulang dengan dibatasi oleh garis pembatasvertikal atau biasa disebut garis birama, sedangkan angka yangterletak di bawahnya menunjukkan jenis nada yang dijadikan satuan.
Gambar 2.6 Unsur-Unsur Bentuk Nada
14
Tabel 2.4 Bentuk, Nama dan Nilai Not dan Tanda Diam
Secara internasional penamaan bentuk-bentuk nada dan tandaistirahat ada dua macam sebagaimana tampak pada tabel di atas. DiIndonesia, model penamaan kuantitas atau dengan angka adalah yangpaling sering digunakan daripada istilah-istilah kualitas. Di sampingbentuk-bentuk nada dan tanda-tanda istirahat di atas masih ada lagiyang sangat jarang digunakan yaitu ”breve” yang durasinya adalahdua kali lipat nada penuh. 2.2
Pengertian Neural Networks Menurut Fausset(1994,p1) Pada dasarnya Komputasi Neural adalah sebuah
proses penyebaran yang terdistribusi. Hal ini membuat komputasi neural mampu mengadaptasi proses belajar dengan pengawasan dan/atau tanpa pengawasan terhadap lingkungan informasi. Arsitektur dari Neural Networks sebenarnya di dasarkan dengan bagaimana sistem syaraf manusia terhubung.Pada umumnya, ada kurang lebih 100 milyar jumlah saraf dalam otak manisia. Saraf-saraf dalam otak manusia terhubung secara paralel ke banyak bentuk saraf yang lain membentuk sebuah parallel computer
15
seperti mesin. Neural Networks di desain dengan cara mencari gaya perhitungan otak manusia. Hasilnya, Neural Networks mempunyai cukup kekuatan untuk memecahkan berbagai masalah yang terbukti sulit bila menggunakan metode-metode komputasi digital yang konvensional.Jenis dari tugas-tugas teori termasuk pengenalan muka orang terkenal, pembelajaran untuk berbicara dan mengerti sebuah bahasa dasar, mendapatkan kembali informasi dari memori dengan konteks yang tepat, dan melakukan permintaan tugas-tugas pengklasifikasian. Sistem berfikir manusia adalah paralel yang berarti bahwa sistem berfikir ini beroperasi dengan sejumlah besar saraf-saraf yang terhubung bersama. Ini berbanding terbalik dengan logika konvensional matematika yang singkat, karakter utama dari proses pemikiran manusia adalah tidak tepat, berantakan(acak), tetapi dapat menyesuaikan diri. Hal ini dipelajari dengan contoh, pengalaman dan hal ini ditunjukan dengan adaptasi yang kuat untuk perubahan lingkungan luar. Jaringan saraf di bentuk sebagai cara untuk menirukan sebagian besar dari karakteristik-karakteristik proses pemikiran manusia. Neural Networks sejauh ini menampilkan sangat banyak hasil yang bisa diharapkan. a.
Pembelajaran :Neural Networks dapat mengubah perilaku dalam member respon terhadap lingkungan. Ketika diberikan sebuah masukkan dengan atau tanpa ditentukan hasilnya, neural netwoks dapat mengatur sendiri produksi respon – respon yang konsisten.
b.
Generalisasi : Ketika neuron pertama kali dilatih(train), respon dari jaringanjaringan tersebut dalam batas tertentu tidak sensitif terhadap variasi kecil, yang mungkindisebabkanoleh faktor noise (kebisingan) atau sedikit distorsi dalam lingkungan dunia nyata, dan di dalam input-inputnya.
16
c.
Paralelisasi secara benar : Informasi diproses dalam sifat paralel besar-besaran.
d.
Toleransi kesalahan : Pertama kali ketika jaringan koneksi dibuat, jaringan mampu untuk mengantarkan sebuah perilaku yang kuat. Tanggapan dari jaringan secara keseluruhan hanya dapat sedikit terdegradasi jika beberapa dari nya elemen-elemen pemrosesan sedikit rusak atau diubah.
2.3
Model NeuralNetworks Menurut Fausset(1994,p2)sebuah model saraf yang sederhanaadalah asas dasar
yang paling penting dalam melakukan suatu proses dalam jaringan saraf. Bobot yang sesuai dengan kekuatan sinaptik dalam koneksi saraf, yaitu analogi untuk “memori” dan jumlah neuron semuanya diberi bobot input yang memodifilasi sinyal melalui sebuah fungsi transfer yang biasanya nonlinear. Fungsi transfer dapat menjadi sebuah fungsi threshold yang hanya mengizinkan sinyal untuk melewatinya jika digabungkan dengan menjangkau tingkat aktifitas sebuah nilai pasti threshold, atau fungsi yang berkelanjutan terhadap kombinasi input.
Gambar 2.7 Model Syaraf Sedernana
17
Menurut
Fausett(1994,
p3),
pemrosesan
informasi
pada
Neural
Networksmengambil analogi seperti halnya pada neuron biologis. Setiap neuron menerima sinyal-sinyaldari neuron lain melalui sambungan yang disebut synapsis. Sebagian sinyal inputcendrung menyebabkan neuron terhambat atau terlemahkan (inhibited).Ketika efek kumulatif dari sinyal tersebut melebihi suatu batas threshold, neuronyang bersangkutan akan menembakkan sinyal ke neuron lainnya. Sebuah neuron tunggalatau konsep Neural Networks digambarkan dalam bentuk node yang menerima sinyal-sinyalinput dan menghasilkan output dengan proses tersebut di atas, dan karenanyasering pula disebut sebagai summing device. Sinyal neuron yang dimaksud digambarkan pada Gambar 2.4 berikut:
X1
W1 W2
X2
Synapsis Output ∑
Y
Level
f Net Output
W3 X3
Summing
fungsi Aktivasi
device Input (Sumber: Fausett, 1994 p.4) Gambar 2.8Sinyal pada Neuron
Aktivasi
18
a.
Neural Networksmerupakan sebuah sistem pemrosesan informasi yang memiliki karakteristik serupa dengan jaringan neural biologis. Karakteristik yang diadopsi antara lain: 1) Jumlah yang besar dari processing element atau neuron. 2) Neuron-neuron bekerja secara paralel. 3) Memiliki sifat fault tolerance.
b.
Fungsi dan kinerja Jaringan Syaraf Tiruan sebagai sebuah sistem sangat tergantung tiga hal: 1) Karakteristik neuron: Terkait dengan fungsi aktivasi yang digunakan. 2) Topologi jaringan : Bagaimana sejumlah neuron dalam sistem atau model Neural Networksdihubungkan. 3) Learning rules: Aturan-aturan pembelajaran yang digunakan.
c.
Beberapa model atau arsitektur atau struktur Neural Networks : 1) Multilayernetworks (Backpropagation). 2) Bidirectional Associative Memory (BAM). 3) Self-Organizing Map (SOM).
d. Beberapa learning rules yang terkait dengan ketiga model diatas : 1) Error Correction Learning Rules. 2) Hebbian Learning Rules. 3) Kohonen Map.
19
2.4
ArsitekturNeural Networks :Backpropagation Menurut Haykin (1999, p21), neuron-neuron seringkali diatur atau ditata
sedemikian rupa dalam bentuk layer atau lapisan. Pada umumnya neuron-neuron yang berada pada satu layer berperilaku sama. Faktor-faktor penting yang menentukan perilaku sebuah neuron adalah fungsi aktivasi dan pola-pola koneksi bobot baik itu sinyal input maupun sinyal output. Dalam satu layer, umumnya setiap neuron memiliki fungsi aktivasi dan juga pola koneksi bobot tersebut. Pengaturan neuron-neuron ke dalam layer-layer dan pola-pola koneksinya disebut Arsitektur Neural Networks.Neural Networks sering diklasifikasikan sebagai single layer atau multi layer.Dalam penentuan jumlah layer, input unit tidak dihitung sebagai layer, karena tidak melakukan komputasi.Dengan demikian, jumlah layer pada Neural Networks dapat didefinisikan sebagai “Jumlah layer-layer koneksi bobot antara dua unit lapisan”.
One layer of Weight ->akan disimpan dalam bentuk MATRIKS BOBOT Gambar 2.9 Single layer Network
20
Suatu singlelayernetworks memiliki satu layer koneksi bobot seperti terlihat pada gambar/ilustrasi tersebut.Backpropagationadalah sebuah bentuk multi layernetwork yang saat ini berkembang pesat dan digunakan dalam berbagai aplikasi. Ilustrasi dari Backpropagationnetwork adalah seperti pada gambar 2.6 sebagai berikut:
Gambar 2.10 BackpropagationNetworkDesign Backpropagationnetwork merupakan network dengan arsitektur yang terdiri dari dua
atau
lebih
layer-layer
dari
koneksi
bobot.
Dengan
kata
lain,
Backpropagationnetwork memiliki satu atau lebih hidden unit. Dengan demikian, Backpropagationnetworks memiliki satu output unit. Backpropagationnetworks dapat memecahkan masalah-masalah yang lebih kompleks dibanding single layernetworks.
21
Namun training pada Backpropagationnetworks lebih sulit dilakukan, walau lebih besar peluang keberhasilannya. a.
Inisialisasi Bobot Inisialisasi Bobot Secara UmumMenurut Fausett(1994, p.15), metode untuk
memberi nilai-nilai bobot koneksidisebut juga “training”.Training merupakan hal yang sangat penting yang membedakankarakter Neural Networksyang berbeda. Inisialisasi bobot, yaitu masukan ke unit tersembunyi, dirancang agar dapat meningkatkan kemampuan dari unit tersembunyi pada tahap pembelajaran. Inisialisasi dilakukan dengan mendistribusikan bobot awal untuk tiap pola masukan, sehingga jaringan akan memasukkan bobot awal ke dalam salah satu unit tersembunyi yang nilainya akan berada dalam rentang dimana unit tersembunyi akan melakukan pembelajaran secara cepat. Inisialisasi bobot yang terlalu besar mengakibatkan sinyal masukan yang telah diinisialisasikan akan jatuh pada daerah dimana turunan dari fungsi sigmoid mempunyai nilai yang sangat kecil (daerah saturasi). Sedangkan jika inisialisasi awal bobot terlalu kecil, masukan yang menuju unit tersembunyi atau unit keluaran akan mendekati nol, dan akam menyebabkan proses pembelajaran menjadi sangat lambat. b.
Fungsi Aktivasi Fungsi aktivasi adalah suatu fungsi yang memproses nilai input untuk
menghasilkan suatu nilai output. Operasi dasar pada sebuah neuron mencakup penjumlahan bobot (weight) dari sinyal input dan menghasilkan output serta mengaplikasikan fungsi aktivasi untuk input unit, digunakan semua neuron, khususnya pada input unit. Pada berbagai kasus, umumnya digunakan fungsi aktivasi non-linear. Fungsi-fungsi aktivasi yang sering digunakan dalam Neural Networks adalah:
22
1) Fungsi identitas: i f(x) = x (2.1) Digunak kan pada neuuron-neuronn input unit. 2 Fungsi tangga 2) t binerr (biner step function): f(x) = 1,, jika x> = θ (2.2) f(x) = 0,, jika x< θ (22.3) di manaa θ adalah suuatu nilai thrreshold. Fung gsi ini digunnakan untukk mengubah input bersihh (netinput) yang meruppakan v variabel kon ntinu, menjaddi output berrnilai biner (0 ( dan 1). Nilai thresholld θ menjadi garis p pemisah antara daerah dengan d respoons aktivasi positif p dan negatif. n
Gambar 2.11 2 Fungsii Tangga Bin ner 3 Fungsi tangga 3) t bipollar (bipolar step s functionn): f(x) = 1,, jika x> = θ (2.4) f(x) = -1 1, jika x< θ (2.5) (
23
Fungsi tangga bipolar serupa dengan fungsi tangga biner, hanya saja memiliki daerah hasil {-1,1}.
Gambar 2.12 Fungsi Tangga Bipolar 4) Fungsi sigmoid biner. Fungsi ini mencakup fungsi-fungsi berbentuk kurva S. Yang sering digunakan adalah fungsi logistik karena memiliki kelebihan dalam melatih(training) pada Neural Networks yang menggunakan algoritma Backpropagation. Fungsi logistik sigmoid yang dimaksud adalah σ =1. f(x)= =
σ
di mana σ merupakan parameter kecuraman yang diberikan, umumnya σ dipilih sama dengan 1. Turunan pertama fungsi ini: f’(x) = σ f(x) [1 – f(x)] dengan daerah hasil interval 0 sampai dengan 1.Implikasi tidak langsung yang bisa disimpulkan bahwa dalam Neural Networks, nilai-nilai input berupa vektor dan elemen-elemennya, nilai-nilainya terkait dengan fungsi aktivasi yang digunakan.
24
Gambar 2.13 2 Fungsii Sigmoid bin ner 5) Fungsi sigmoid s bipoolar Fung gsi sigmoid bipolar bissa diskalakaan sehingga memiliki daerah d hasil pada sembarang interval sesuuai dengan permasalahhan yang dibberikan.Palinng umum adalah a d daerah hasill dari -1 sam mpai dengann 1.Fungsi hasil h perkalian ini disebbut dengan fungsi f s sigmoid bipolar. Jika f(x) f( adalah fuungsi sigmoid biner dann g(x) adalaah fungsi siggmoid b bipolar, mak ka: f(x)=
g(x) = 2f(x) – 1
f(x)=
-1
g(x)=
25
g’(x) = (σ/2) [1+g(x)] [1-g(x)]
Gambar 2.14 Fungsi Sigmoid bipolar 2.5
Algoritma Backpropagation Baru-baru ini,jaringan saraf multilayer telah diterapkan dengan sukses untuk
memecahkan banyak masalah yang sulit dan beragam melalui berbagai macam kegiatan yang dengan prosedur-prosedur supervised learning antara tingkat kesalahan dengan algoritma Backpropagation(BP) proses pembelajaran tampaknya menjadi paling popular. Algoritma ini adalah sebuah algoritma iteratif yang berbasiskan gradien yang diusulkan untuk meminimalkan kesalahanantara vektor output aktual dari jaringan dan vector output
yang
diinginkan. Karena model neuron yang nonlinear, model
algoritmasupervised learning pada dasarnya berbasiskan dengan metode optimasi nonlinear. Dalam hal berikut, kita akan menggambarkan pelatihan batch-mode dengan menggunakan algoritma backpropagation. Untuk notasi yang lebih dikenal, lapisan diberi nomor dari bawah ke atas dimulai dari 1. Analogi untuk perseptron satu lapis(single layer), layer 1 terdiri dari proses
26
fanout neuron-neuron yang hanya menerima pola input masing masing elemen dan melewatkan masing-masing elemen secara langsung ke semua jumlah lapisan 2. Masingmasing neuron di lapisan lain menerima sinyal yang telah diberi bobot dari masingmasing neuron lapisan diatasnya. Setelah penjumlahan dan operasi dari fungsi aktifasi, output disebarkan ke semua neuron dari lapusan atas sampai layer yang selanjutnya. Sebuah Neural NetworksBackPropagationyang baik membutuhkan lebih dari sekedar sebuah algoritma pembelajaran (Yun, 2001). Maka, untuk mendapatkan performa Neural Networks Backpropagation yang baik, ada beberapa parameter seperti epoch, kecepatan pembelajaran, lapisan tersembunyi dan jumlah unit tersembunyi yang harus dipilih secara selektif untuk memperbaiki kelemahan-kelemahan pada Neural NetworksBackpropagation, antara lain : a.
Epochs Satu epoch berarti satu kali siklus pembelajaran (Yun, 2001, p17).Jumlah epoch
menunjukkan kecepatan sistem. Semakin banyak epoch yang dibutuhkan dalam mencapai target error, berarti kerja sistem akan semakin lama, begitu pula sebaliknya. Pemberian batas epoch yang besar berarti meningkatkan akurasi arsitektur, namun membutuhkan waktu pembelajaran yang lebih lama.Begitu pula sebaliknya. b.
Kecepatan Pembelajaran Kecepatan pembelajaran (learning rate) digunakan untuk mengontrol perubahan
nilai bobot, dengan nilai koefisien berkisar antara 0 dan 1. Semakin tinggi nilai kecepatan pembelajaran yang digunakan akan menyebabkan perubahan yang semakin besar pada bobot, sehingga pembelajaran menjadi kurang baik. Sedangkan, dengan tingkat kecepatan pembelajaran yang rendah akan menghasilkan pembelajaran yang akurat namun prosesnya menjadi sangat lambat (Sarle, 2004). Kecepatan pembelajaran
27
yang baik akan memberikan hasil yang efektif, namun bersifat relatif untuk suatu sistem. Jadi kecepatan pembelajaran yang baik untuk sebuah sestem belum tentu baik untuk sistem yang lain. c.
Inisialisasi Bobot dalam Neural NetworksBackpropagation Prosedur umum dalam inisialisasi nilai awal bobot (dan bias) adalah dengan nilai
acak antara -0.5 dan 0.5 (atau antara -1 dan 1). Inisialisasi nilai awal bobot Nguyen Widrow merupakan suatu modifikasi dalam memberikan nilai awal bobot yang akan membantu Neural NetworksBackpropa gationmelakukan proses pembelajaran lebih cepat. Percobaan yang dilakukan oleh Laurene Fausett (Fausett,1994, p302) mengenai permasalahan XOR membuktikan hal ini. Dari Tabel 2.1 terlihat bahwa percobaan dengan algoritma Nguyen-Widrow memiliki banyak epoch yang jauh lebih sedikit daripada percobaan tanpa algoritma Nguyen-Widrow. Tabel 2.5 hasil percobaan XOR oleh Laurene Fausett
Inisialisasi
bobot
awal
Nguyen-Widrow
dapat
dihitung
dengan
menggunakanalgoritma sebagai berikut : untuk setiap unit tersembunyi ( j = 1,..., p), inisialisasikan nilai vektor bobot dari unit tersembunyi v ij (lama) dengan nilai acak antara -0.5 sampai 0.5 atau − y sampai dengan y , dimana y adalah rentang yang telah
28
ditentukan oleh perancang sistem. Setelah itu, hitung nilai vj(old ) (normalisasi), menggunakan rumus normalisasi :
(2.1) dan hitung nilai β menggunakan rumus:
(2.2) baru kemudian nilai bobot baru antara lapisan masukan dan lapisan tersembunyi dapat diinisialisasikan dengan persamaan :
(2.3) dengan nilai bias dan bobot antara lapisan tersembunyi dengan lapisan keluaran merupakan nilai acak antara -0.5 dan 0.5 atau antara - y dan y . Variabel n adalah banyak unit masukan, variabel p adalah banyak unit tersembunyi, dan variabel β adalah faktor skala. d.
Fungsi Aktivasi dalam Neural NetworksBackpropagation Jangkauan fungsi aktivasi harus sesuai dengan jangkauan nilai target dari
permasalahan tertentu (Fausett, 1994, p309). Fungsi sigmoid bipolar berhubungan dekat dengan fungsi tangen hiperbolik. Oleh karena itulah fungsi ini sering digunakan sebagai fungsi aktivasi ketika output yang diperlukan memiliki rentang antara -1 sampai dengan 1 (Fausett, 1994, p19). Fungsi sigmoid bipolar mempunyai rentang (-1,1) dan dirumuskan dengan
29
(2.4) dengan fungsi turunannya sebagai berikut :
(2.5) dimanaσ merupakan parameter kecuraman yang diketahui nilainya. Umumnya nilai σ dipilih sama dengan 1. Proses pelatihan menggunakan fugnsi sigmoid biner membutuhkan waktu pembelajaran lebih lama karena fungsi sigmoid biner tidak dapat memetakan sinyal masukan negatif dengan tepat, padahal sinyal bobot pada jaringan bisa bernilai negatif. Oleh sebab itu, bila fungsi sigmoid biner menerima sinyal masukan yang bernilai negatif maka pola yang diterimanya tidak akan bisa dipelajari sehingga sinyal yang diterima selalu bernilai positif (hanya mendekati nilai yang dekat dengan angka nol). Pada beberapa kasus, terdapat beberapa unit yang tidak dapat mempelajari pola masukan yang bernilai nol (Fausett, 1994, p300).Hal ini telah dibuktikan oleh Laurene Fausett dalam percobaannya mengenai permasalahan XOR pada Tabel 2.1.Dengan fungsi sigmoid biner, epoch yang dibutuhkan dalam jaringan untuk konvergensi sebanyak 3000, sedangkan dengan fungsi sigmoid bipolar proses pembelajaran menjadi lebih cepat, yaitu hanya membutuhkan epoch sebanyak 387. e.
Lapisan Tersembunyi Menurut Fausett (1994, p320), Sebuah lapisan tersembunyi sudah cukup
memadai
untuk
memecahkan
permasalahan
yang
mengandung
perkiraan-
perkiraan.Namun, beberapa permasalahan lebih mudah utntuk dipecahkan menggunakan
30
sebuah jaringan dengan dua atau tiga lapisan tersembunyi, namun hal ini dapat mempengaruhi kecepatan pembelajaran menjadi lebih lambat.Tanpa adanya lapisan tersembunyi, hasil dapat diperoleh dengan cepat.Namun hasilnya tidak optimal karena jangkauan dari error sistem tidak dekat (data masuk ke NetworkBackpropagationtanpa melalui “rintangan”, dan langsung menghasilkan nilai keluaran).Sedangkan penggunaan lapisan
tersembunyi
yang
terlalu
banyak
dapat
menurunkan
performa
dari
NetworkBackpropagationitu sendiri, karena adanya pemetaan rangkaian yang terlalu kompleks serta prosedur pembelajaran yang terlalu subjektif.
f.
Unit Tersembunyi Jumlah unit tersembunyi yang diperlukan berhubungan dengan kompleksitas
tugas NetworkBackpropagationyang akan dikerjakan untuk menjalankan tugas secara maksimal. Sebuah NetworkBackpropagationdengan unit tersembunyi yang terlalu sedikit akan memiliki tingkat error pembelajaran dan error klasifikasi yang tinggi karena tidak mampu memetakan masukan yang kompleks menuju keluaran yang kompleks. Begitu pula sebaliknya, dengan unit tersembunyi yang terlalu banyak akan dijumpai tingkat error pembelajaran yang rendah namun tingkat error klasifikasi yang semakin tinggi. Penentuan banyak unit tersembunyi yang akan digunakan dalam penelitian dilakukan dengan melakukan percobaan dan membandingkan hasil yang terbaik. Namun ada beberapa pedoman yang dapat digunakan untuk menentukan banyak unit tersembunyi yang optimal. Menurut Yun Peng (Yun, 2001, p24), banyak unit tersembunyi optimal dapat diperkirakan dengan persamaan berikut :
31
p >2n
(2.66)
dimanap adalah jumlah unit tersembunyi dan n adalah jumlah unit masukan.Menurut Garson (Garson, 1998, p86), untuk menghitung banyak unit tersembunyioptimal dapat menggunakan metode yang dirumuskan sebagai berikut :
(2.7) dimanah adalah jumlah unit tersembunyi, i adalah jumlah unit masukan, o adalah jumlah unit keluaran, n adalah batas epoch, dan r adalah tingkat noise dari data yang akan melakukan proses pembelajaran (biasanya antara 5 dan 10). Pedoman-pedoman yang ada tidak sepenuhnya dapat dipercaya.Oleh karena itu, percobaan terhadap berbagai macam unit tersembunyi tetap perlu dilakukan. g.
Lama Pembelajaran Semasa melakukan proses pembelajaran, perlu diperhatikan agar proses yang
berlangsung
tidak
melebihi
tahap
kebenaran
data
yang
diinginkan
(overfitting/overtrained) sehingga menyebabkan error menjadi lebih besar daripada yang diharapkan (Cohen dan Jensen, 1996, p1). Selama error pada tahap pembelajaran, maka proses pembelajaran akan tetap dilanjutkan. Ketika error mulai meningkat, berarti sistem mulai kehilangan kemampuannya untuk mengklasifikasi.Maka pada titik ini, pembelajaran harus dihentikan.Error yang ditemui pada tahap pembelajaran dikategorikan dalam dua kondisi yaitu global minima yang merupakan kondisi terendah, dan local minima adalah kondisi error yang bukan merupakan error terendah. Proses pembelajaran dengan NetworkBackpropagationdimulai dan dilakukan terus menerus dengan tujuan memperoleh error minimum. Hanya ada satu lembah yang memberikan penyelesaian permasalahan/error terkecil, yaitu globalminima, yang
32
memberikan hasil sempurna.Lembah yang lebih dangkal, yaitu kondisi local minima. Jika dijumpai local minima dan dianggap telah mencapai global minima dan pembelajaran tidak diteruskan, maka akan diperoleh suatu hasil yang kurang baik (Tveter, 2000, p1). Oleh karena itu, proses pembelajaran perlu dilakukan terus menerus sampai diperoleh global minima.
2.6
Pengolahan Sinyal dari Transkripsi Melodi Pada bagian ini akan dibahas mengenai proses pengolahan sinyal dari transkipsi
melodi.Rodger J. McNab, Lloyd A. Smith and Ian H. Wittenmenulis jurnaldengan judul Signal Processing for Melody Transcription , yang menjelaskan tentang pengolahan sinyal dari transkripsi melodi dimulai dari proses sampling dan filtering sampai dengan pelacakan nada. Dengan kemajuan pemrosesan sinyal digital, teknik repersentasi musik dan teknologi perangkat keras komputer, menjadi sebuah hal yang layak untuk mengubah melodi-melodi secara otomatis dari sebuah gelombang akustik menjadi representasi tertulis, menggunakan sebuah komputer yang kecil.Sebagai contoh, seseorang bisa menyanyikan sebuah lagu dan memiliki catatan lagu tersebut dalam notasi musik. Skema tersebut akan memiliki cerita dan merupakan aplikasi yang menarik untuk musisi profesional, murid dari sekolah musik, dan orang-orang yang tidak menyukai musik sekalipun. Penulis lagu bisa menulis lagu dengan mudah tanpa perlu mencatatnya untuk sebuah nada keyboard dalam rekaman MIDI, para siswa dapat berlatih bernyanyi dengan tutor komputer, dan orang-orang biasa bisa mengidentifikasi melodi yang sulit dipahami,
33
dengan menyenandungkan beberapa baris lagu dan kemudian dicocokan dengan nama lagu yang diambil dari database. Meskipun pelacak nada, yang mengidentifikasi frekuensi dasar gelombang dan mengikuti evolusi yang terjadi dari waktu ke waktu, telah sekitar 30 tahun atau lebih, hanya ada beberapa proyek yang telah melakukan rekayasa sistem yang dibutuhkan untuk membuat sebuah sistem transkripsi musik, dan mereka selalu mendapat batasan yang serius. Askenfelt menjelaskan penggunaan perangkat keras real-time tracker untuk mencatat lagu-lagu rakyat dari rekaman kaset. Orang mendengarkan output sintesis dari pelacakan nada dan menggunakan editor musik untuk memperbaiki error. Namun, tidak mempunyai batasan yang jelas bagaimana sebuah sistem dikatakan sukses: Askenfelt melaporkan bahwa " titik terlemah dalam proses transkripsi saat ini berada saat deteksi nada dan penugasan nilai not . "Pelacakan nada telah digunakan untuk menuliskan musik instrumental, tapi memerlukan input dengan nada yang konstan- tidak ada getaran atau glissando. Batasan ini merupakan aturan untuk mendapatkan output dari sumber vokal.
Sebagai
contoh,
Moorer
menjelaskan
bahwa
sebuah
sistem
mampu
mentranskripsi dua bagian musik, dan misalnya input yang berasal dari duet biola dan gitar. Dia melaporkan masalah dalam menemukan awal dan ujung dari not. Piszczalski dan Galler membatasi input untuk rekaman dan permainan seruling yang memiliki tempo konsisten. Instrumen ini relatif mudah untuk pelacakan karena mereka memiliki frekuensi dasar yang kuat dan harmonik lemah. Baru-baru ini, Kuhn menggambarkan sebuah sistem yang mentranskripsi lagu dengan menampilkan perubahan nada dengan garis horizontal yang tebal pada anggota dari musik musik untuk menunjukkan not yang diproduksi kepada pengguna. Tidak ada upaya yang dibuat untuk mengidentifikasi batas antara satu not dan berikutnya: satu
34
satunya cara untuk membuat nilai musik bagi pengguna yang menekan keyboard komputer di awal not. Ada setidaknya dua sistem komersial yang mengaku telah mengajarkan sightsinging- tetapi mereka menghasilkan melodi secara acak, yang pasti menciptakan contohan yang sangat buruk bagi pengguna yang bekerja untuk itu. Lebih mendasar, mereka memerlukan pengguna untuk tempo yang tetap tanpa pengecualian yang ditetapkan oleh mesin, dan secara keseluruhan berhasil mengukur perhitungan dari akumulasi jumlah waktu yang dinyanyikan oleh seseorang dengan nada yang tidak benar. Sebagian solusi untuk masalah transkripsi melodi tidak sangat berguna dalam praktek. Pekerjaan yang besar dibutuhkan untuk membangun sebuah sistem transkripsi melodi yang berguna yang bekerja dengan suara penyanyi.Pelacakan nada dikenal dengan masalah akurasi, terutama pada awal dan ujung not dan pada transisi antara frekuensi, dan error yang sangat besar (mis. perpindahan oktaf) yang umum.Kebanyakan orang bukan penyanyi yang baik, yang dikenal dari macam-macam sumber yang harus ditujukan agar perangkat transkripsi dapat berguna suatu saat nanti. Selain itu, ada yang perbedaan cara untuk mendefinisikan interval musik dari nada, dan hal itu adalah pertanyaan penelitian terbuka untuk jenis skala orang saat bernyanyi yang tetap walaupun tanpa ditemani. Menentukan batasan-batasan antara not tidaklah mudah, terutama untuk inputan vokal, meskipun pengguna dapat dibantu dengan bernyanyi do atau ta. Hubungan antara waktu akuisisi nada dan durasi terpendek not diharapkan sebagai faktor penting dalam menetapkan ritme. Sebelum menjelaskan
tentang pelacakan nada dan
pencatatan proses
identifikasi, marilah kita meneluarkan beberapa persiapan tentang penangkapan suara dan catatan representasi. Langkah pertama dalam transkripsi melodi adalah menangkap
35
input dari sinyal analog dan mengubahnya menjadi bentuk sinyal digital, melakukan penyaringan untuk menghapus gangguan/noise yang tidak diinginkan frekuensi. Yang berikutnya adalah
mengidentifikasi frekuensi, sebagai dijelaskan dalam bagian
pelacakan nada. Sedangkan frekuensi merupakan atribut fisik dari suatu periodik atau sinyal kuasi-periodik, nada adalah atribut persepsi dalam membangkitkan pendengaran sistem. Secara umum, ada yang teratur secara baik berkorespondensi antara frekuensi dan pitch yang hanya diterobos di bawah carefullycontrolled kondisi di psychoacoustic ; maka istilah frekuensi dan pitch digunakan secara bersamaan. Dalam rangka untuk mewakili pitches musik, maka perlu mempertimbangkan bagaimana skala musik didefinisikan 2.6.1
Sampling and Filtering Transkripsi Melodi telah berjalan pada Apple Macintosh PowerPC 8100, yang
memiliki built-in suara Input / Output.Gelombang akustik disaring pada frekuensi 10 kHz, sampel diambil pada frekuensi 22,05kHz, dan quantisasi untuk mewakili 8-bit linear. Untuk transkripsi musik, kami hanya tertarik pada frekuensi dasar input. Harmonisasi, terjadi pada kelipatan integral dari frekuensi, sering muncul kebingungan dalam pelacak nada dan membuat lebih sulit untuk menentukan dasar dari transkripsi. Oleh karena itu input disaring untuk menghilangkan harmonisasi acak sebanyak mungkin, sambil tetap menjaga frekuensi dasar. Batas wajar untuk suara menyanyi didefinisikan oleh staf musik, yang berkisar dari F2 (87,31Hz) tepat di bawah staf bass, untuk G5 (784 Hz) hanya di atas staf treble.Sementara garis buku besar digunakan untuk
36
memperpanjang staf di kedua arah, ini mewakili nada ekstrim untuk penyanyi dan yang berada di luar ruang lingkup sebagian besar aplikasi transkripsi melodi. Inputlow-pass disaring dengan frekuensi cutoff 1000 Hz, stopband dengan redaman -14 dB, dan passband suara dari 2 dB. Ini bukan persyaratan desain yang keras, dan dapat dipenuhi oleh suatu ninthorder terbatas impuls respons (FIR) filter. Sinyal yang telah disaring dilewatkan ke tracker nada, yang mengidentifikasi frekuensi dasar. 2.6.2
Skala Musik Sebuah skala musik adalah sebuah organisasi logaritmik dari nada berdasarkan
oktaf, yang merupakan jarak dua nada ketika salah satu adalah dua kali frekuensi yang lain. Sebagai contoh,nilai tengah C(C4) memiliki frekuensi 261,6 Hz; oktaf di atas (C5) adalah 523,2 Hz dan di atas nada sopran tinggi C (C6) pada frekuensi 1046,4 Hz.Oktaf bawah nilai tengah C(C3) adalah 130,8 Hz, dan di bawah itu, pada 65,4 Hz, adalah C2yang telah pasti dari beberapa jingle-singing bass yang luar biasa.Meskipun oktaf tampaknya menjadi unit persepsi pada manusia, nada organisasi dalam oktaf diambil dalam bentuk yang berbeda di seluruh budaya.Dalam musik Barat, organisasi utama sejak masa Bach merupakan skala yang sama dengan marah, yang membagi oktaf menjadi dua belas sama spasi semitone.Interval oktaf sesuai dengan frekuensi dua kali lipat dan semitone yang memiliki spasi yang sama dalam arti perkalian, jadi naik satu semitone sama dengan mengalikan frekuensi oleh kedua belas akar 2, atau sekitar 1,059. Semitone adalah unit terkecil dari nada pada Musik barat, tetapi unit yang lebih kecil dengan mudah dapat dirasakan dan digunakan dalam musik dari beberapa budaya. Fisikawan dan psikolog telah sepakat pada unit logaritmik dari persen, yang didefinisikan sebagai satu dari seperseratus semitone dalam skala marah sama.
37
Kemudian, oktaf adalah 1200 sen.Perbedaan antara dua nada terkecil pada nada berurutan yang dapat dirasakan oleh manusia adalah sekitar 3 Hz; ini menghasilkan diskriminasi nada sekitar lima sen pada 1000 Hz.Di atas diskriminasi 1000 Hz yang stabil pada sekitar 4 sen. Sementara itu nada dapat dikategorikan dalam oktaf, semitone dan sen, frekuensi uang berkelanjutan. Dalam menetapkan pitch musik untuk frekuensi tertentu melibatkan kuantisasi. Dalam rangka untuk kuantisasi nada dalam musik Barat didasarkan pada standar pengaturan tertentu (misalnya, A-440), resolusi semitone sudah cukup. Untuk mengakomodasi sistem Tuning yang berbeda,bagaimanapun caranya semua termasuk dalam adaptasi dengan pengguna, yang diharuskan bernyanyi sedikit tajam atau datar dengan resolusi yang lebih tinggi adalah penting. Kami telah merancang sistem di sekitar resolusi pitch lima sen, yang adalah tentang batas akurasi pelacakan nada. 2.6.3
Notasi Direpresentasikan dalam Bentuk MIDI Sejak unit-oktaf musik,sen dan sebagainya adalah ukuran yang relatif, jarak di
antara sen dapat dihitung masing-masing pada setiap interval yang dinyanyikan oleh pengguna. Hal ini berguna, namun, untuk menetapkan titik referensi yang tetap, dibuat pengembangan lebih mudah dan debugging. MIDI (Musical Instrumen Digital Interface) adalah sebuah standar untuk mengendalikan dan berkomunikasi dengan instrumen musik elektronik.Hal ini memiliki banyak sisi, sisi yang paling erat dengan Sistem transkripsi melodi dijadikan representasi standar dari skala musik Barat.MIDI memberikan sebuah integer skala untuk setiap not. Nilai tengah C (C4) diberi nilai 60, not yang tepat berada di atas not C4 (C#4) diberi nilai 61,dan yang berada di bawah (B3) diberi nilai 59. Meskipun membuat sedikit lebih masuk akal untuk menetapkan label pitch untuk
38
frekuensi di bawah 15 Hz, MIDI mencatat 0 dengan nilai frekuensi 8,176 Hz,satu oktaf di bawah C0. Not tertinggi didefinisikan dengan nilai 127, 13344 Hz ,yang tidak mungkin dianggap sebagai not dalam musik.Piano keyboard standar mempunyai not yang berkisar antara 21-108. Semua nada-nada terkait dengan not internal MIDI, masing-masing not dinyatakan sebagai jarak dalam nilai sen dari 8,176 Hz. Catatan pada skala marah relatif dengan A-440 yang terjadi pada kelipatan seratus sen: C4, misalnya,6000 sen. Skema ini dengan mudah menggabungkan laras alternatif (non-equitempered) dari musik Barat, seperti "just" atau sistem Pythagoras, hanya dengan mengubah hubungan antara sen dan nama not. Hal ini juga dapat disesuaikan untuk mengidentifikasi catatan dalam musik dari budaya lain. 2.7
Pelacakan Nada Penentuan
nada
adalah
operasi
yang
umum
di
dalam
pemrosesan
sinyal.Sayangnya hal ini masih sangat sulit, seperti yang diujikan dalam ratusan algoritma pelacakan nada yang berbeda yang telah dikembangkan.Algoritma ini dapat diklasifikasikan menjadi tiga jenis, tergantung pada apakah pemrosesan sinyal dalam domain waktu (gelombang sampel), domain frekuensi (spektrum amplitudo atau fase) atau domain cepstral (urutan spektrum amplitudo kedua).Salah satu algoritma terbaik dalam pelacakan nada terkenal, dan metodenya dibandingkan satu dengan yang lain, adalah skema Gold-Rabiner.Skema yang digunakan adalah metode waktu-domain: menentukan frekuensi dengan memeriksa struktur gelombang.Karena dianggap baik dan baik, kami memilih untuk menerapkannya sebagai metode penentuan nada.