BAB II LANDASAN TEORI
2.1
Sistem Sulih Suara di Indonesia Sistem sulih suara yang ada di Indonesia mayoritas sama sekali tidak
terkomputerisasi. Bahkan dalam proses mixing, hampir tidak dilakukan perubahan sama sekali seperti halnya yang dilakukan oleh studio sulih suara SCTV yang menambahkan efek-efek latar, musik dan lain sebagainya agar tampak lebih nyata. Jadi bagus tidaknya kualitas sulih suara benar-benar hanya bergantung pada kualitas penyulih suara dan proses sulih suara yang terjadi. Kesalahan sinkronisasi yang terjadi dalam proses sulih suara akan menimbulkan ketidaknyamanan pada saat menonton. Karena itu dibutuhkan cara untuk melakukan pengukuran apakah sebuah suara hasil dubbing dapat cocok dan memiliki kesinkronisasian yang tepat dengan suara aslinya. Dan jika tidak tepat berapakah nilai yang dapat ditolerir agar tetap nyaman ditelinga para pemirsa film dubbing.
2.2
Sistem Transplantasi Suara Sistem modifikasi suara yang dipelajari kali ini sangat bergantung pada pitch,
loudness, timing, dan juga timbre dari suara asli ke suara sulih suara. Dengan menggunakan teknik overlap-add untuk modifikasi suara, yang menghasilkan
10
11
kualitas baik, secara meyakinkan mampu memberi gambaran tentang betapa pentingnya proses sulih suara itu sendiri.
2.2.1 Pengenalan Bagian terpenting dari suara manusia dan semua sinyal audio adalah pitch, volume, timbre, tempo dan ritma. Dalam model pemrosesan sinyal, umumnya kesemua bidang itu memiliki karateristik yang umumnya berdiri sendiri dari satu bidang ke bidang lain. Namun meskipun begitu, mereka terikat oleh acoustic signal's fundamental frequency f0, amplitude, spectral envelope dan time variation, secara berturut-turut. Dengan mengetahui apa saja yang mempengaruhi sebuah suara dan transplantasinya, maka akan lebih mudah untuk mengatur hal-hal tersebut di dalam langkah selanjutnya
2.2.2 Arsitektur Setelah melewati beberapa tahun, teknik overlap-add (OLA) sudah ditujukan untuk melakukan modifikasi prosodik suara dengan kualitas tinggi. Dalam fase analisis, algoritma tersebut secara eksplisit mempresentasikan fo dan informasi amplitudo dari input speech sebagai fungsi dari waktu, dimana informasi spektral terepresentasikan secara nyata oleh bagian dari segmen singkat dari sinyal aslinya. Sistem transplantasi yang dibicarakan dalam makalah ini menggunakan teknik OLA untuk mendapat kualitas baik dalam modifikasi karakter suara dalam Dynamic Time-
12
Warping (DTW) untuk penyesuaian waktu yang cocok dari karakter suara yang telah diekstrak dari kalimat yang berbeda (Verhelst, Werner dan Brouckxon, Henk. (2002). Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke). Konsep dasarnya diilustrasikan dalam gambar 2.1. Sebuah teks yang sama dibaca oleh orang yang sama atau orang yang berbeda menghasilkan dua jalur U1 dan U2. Kontur dari akustik parameter yang muncul setelah analisis U1 akan disesuaikan waktunya sama seperti penskalaan kontur penyesuaian waktu pada U2. Fungsi penskalaan waktu yang sesuai akan didapat dengan menggunakan Dynamic Time-Warping (DTW) teknik yang diketahui dengan baik dalam speech recognition. Pada akhirnya sintesis OLA dari kalimat baru Ux akan ditampilkan seusai pemilihan dari setiap akustik parameter. Kita dapat menggunakan secara bebas versi U1 ataupun U2. Dalam hal ini, dapat mentransplantasi karakteristik suara dari satu kalimat ke kalimat lain. Ingat bahwa dalam setiap pasangan kalimat salah satunya dapat memilih kalimat mana yang berhubungan dengan U1 dan mana yang berhubungan dengan U2 (Verhelst, Werner and Brouckxon, Henk. (2002). Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke.)
13
Gambar 2.1 Sistem Transplantasi Suara Sumber : VOICE MODIFICATION FOR LIP SYNCHRONIZATION, VOICE DUBBING AND KARAOKE
Werner Verhelst dan Henk Brouckxon
2.2.3 Dynamic Time Warping Analisis short-time LPC menyediakan kedua kalimat U1 dan U2. Matrix yang tersusun dengan elemen d(j,i),j = 1.... J, i = 1 ... I yang mana sebanding terhadap jarak gelombang antara frame j dari U2 dan frame i dari U1. J dan I mempresentasikan jumlah frame dalam sinyal yang dihasilkan U2 dan U1. Jalur Time-Warping yang muncul sebagai jalur (jk, ik) untuk memimalisasi penumpukan jarak D dapat disimbolkan dalam rumus (Verhelst, Werner dan
14
Brouckxon, Henk. (2002). Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke) N
D=
∑ d(j
k , ik )
k =1
Adapun penjelasan dari rumus tersebut ( j1 , i1 ) = (1,1); ( jN , iN ) = (J, I)
( jk − 1 , ik − 1 ) ∈ {( jk − 1 , ik ), ( jk − 1 , ik − 1 ), ( jk , ik − 1 )}
Rumus yang akan kita tampilkan selanjutnya adalah rumus untuk menghitung perbedaan gelombang antara frame individu. Yaitu bagaimana dua jalur frame yaitu i dan j yang berjumlah n frame dapat menghasilkan perbedaan gelombang. M
d( jk , ik ) =
∑ w(n)(c
jk (n)
− c ik (n))2
n =1
w(n) = 1 + 6 sin(
πn ) M
⎡ 12f ⎤
s M= ⎢ ⎥ 6600 ⎣ ⎦
Dimana fs adalah sampel frekuensi dalam Hz dan Cjk dan Cik merupakan LPC (Linear Predictive Coding) cpstral vectors untuk frames jk dan ik dari U2 dan U1. Perhatikan bahwa panjang M dibuat proposional dalam sample frekuensi dan jika diperoleh n=0, maka itu dapat diabaikan, sehingga menghasilkan nilai Weight Windows. Dynamic Time Warping sudah sangat digunakan dengan baik dalam speech recognition dan form yang lebih rumit untuk sebuah fungsi D dan untuk perumusan
15
yang lebih detil tentang pengenalan nilai dalam sebuah sistem. Bagaimanapun, dalam proses transplantasi suara, kita tidak dapat menemukan kelebihannya apabila ditilik dari akurasi time-warping (umumnya DTW memperkenalkan ketidaktepatan saat perbedaan antara realisasi akustik muncul. Contohnya pada saat salah satu kalimat mengandung jeda nafas). Oleh karena itu, penulis akan memfokuskan diri kepada versi dasar dari DTW seperti yang akan dijelaskan sebagai berikut.
2.3 PSOLA (Pitch Syncronous OverLap and Add) 2.3.1 Devinisi PSOLA atau yang merupakan singkatan dari Pitch Syncronous OverLap and Add merupakan suatu metoda yang digunakan dalam sintesis suara untuk menciptakan speech material dimana tetap mempertahankan sifat suara aslinya (Tassa, A. dan Liénard, J.S.. (2006). A New Approach to the Evaluation of Vocal Effort by the PSOLA Method). Dapat dilihat dari singkatan PSOLA, bahwa materi yang tercipta adalah hasil dari ‘overlapping’ dan ‘adding’ berbagai elemen yang dibutuhkan. Durasi dari elemen-elemen tersebut harus proporsional dengan pitch periodenya. Bahkan metode ini dapat dipakai untuk merubah pitch dan durasi dari sebuah dialog. Transformasi ini dapat diselesaikan dengan mengekstrak suatu periode tertentu dan merelokasikan mereka kembali dalam tempat yang berbeda dari suara original. PSOLA sendiri dapat dibagi atas tiga langkah dasar yaitu tahap analisis sintesis dan tahap modifikasi.
16
Namun karena penulis hanya bertujuan untuk mendeteksi sinkronisasi gerak bibir dan bukan memperbaikinya, maka penulis akan membahas dua langkah awal saja. 2.3.2 Analisis dan Sintesis Modifikasi prosodic yang menggunakan PSOLA, dapat dijelaskan dengan menggunakan pitch-excited time dalam mengubah sistem linear seperti yang digambarkan dalam gambar 2.
Gambar 2.2 ilustrasi dari formulasi sistem pitch-excited untuk PSOLA Sumber : VOICE MODIFICATION FOR LIP SYNCHRONIZATION, VOICE DUBBING AND KARAOKE
Werner Verhelst dan Henk Brouckxon
Input i(n) dibangun sebagai sebuah urutan impuls dengan unit impuls yang dilokasikan pada analisis pitchmarks : i(n) =
∑
+∞
k = −∞
δ(n − p a (k))
Bagian analisis pitchmarks pa(k) berisi contoh yang mengindikasikan zerocrossing pada saat mulai eksekusi periode pitch dari input sequence x(n). Respon dari impuls dalam jarak waktu pa(k) muncul dengan prosedur windowing sederhana yang diaplikasikan pada input speech : h(n,pa(k)) = x(n).w(n-pa(k)), di mana w(n-Pa(k)) adalah dua periode pitch tipe long hanning window yang terpusat pada Pa(k).
17
Durasi dari window (Wm) haruslah proposional dengan analisis pitch period dm (t) dengan rumus ( Tassa, A. dan Liénard, J.S.. (2006). A New Approach to the Evaluation of Vocal Effort by the PSOLA Method ) : x m (t) = x(t)hm (t − t m )
m = 0,...,M Wm = mdm = m(t m − t m − 1 )
Dimana : ³ x(t) adalah adalah sinyal suara yang asli ³ hm(t) adalah weighting windows ³ xm(t) adalah analisis dari ST-signal ³ tm adalah sequence dari pitch mark point ³ M jumlah total pitch dimana umumnya bernilai 2 Dalam hal ini, x(n) dianalisa untuk menemukan informasi pitch Pa(k) dan respon sintesis filter impuls h(n,Pa(k)), yang mana juga merupakan parameter yang digunakan dalam traditional pitch excited vocoder schemes. Juga modifikasi dan strategi sintesis serupa dalam tampilan standar seperti LPC vocoders (hanya di sini filter sintesa adalah filter FIR didefinisikan pada sample distribusi non-uniformly instands Pa(k)). y(n) =
+∞
∑ i(k)h(n, k)
k = −∞
Dimana i(k) dan h(n,k) mempresentasikan sumber dan parameter filter sintesis, yang dihasilkan dengan memodifikasi parameters analisis. Untuk modifikasi
18
pitch, sebagai contoh, sekali urutan speech impuls digenerate menghasilkan sebuah pitch yang diinginkan i(k) =
+∞
∑ δ(k − p (l)) s
i = −∞
Dan sintesis speech sangat sederhana ditampilkan dalam y(n) =
+∞
∑ h(n, p (k)) s
k = −∞
Respon implus pada waktu Ps(k) dapat muncul sengan interpolasi antara respons impuls yang tersedia dari analisis: h(n,m) = h(n,Pa(argmink | m – Pa(k)|))) dengan menganggap telah terjadi zero-order interpolation. Dengan cara yang sama, time scalling dapat diterima dengan scalling yang tepat pada parameter yang sesuai, seperti contoh : h s (n.m) = h a (n, τ −1 (m)) p s (k + 1) = p s (k) + p a (Tsa (k) + 1) − p a (Tsa (k)) Tsa (k) = arg min1 τ −1 (p s (k)) − p a (l)
2.3.3 Rumus PSOLA Dari rumus-rumus yang sudah tertera diatas, ada satu persamaan final yang merupakan cara menghitung suara sintetis yang dihasilkan oleh metoda PSOLA ( Kamen, Edward W dan Heck, Bonnie S. (2000) Fundamentals of signals and systems using the Web and MATLAB. Amerika Serikat : Prentice Hall ).
19
x synth (n) =
S q x q (n)h q (t q − n) 2
S qh q (t q − n)
Setiap bagian dalam rumus tersebut akan dijabarkan dalam penjelasan berikut ini. (Kamen, Edward W dan Heck, Bonnie S. (2000) Fundamentals of signals and systems using the Web and MATLAB) Q adalah lambang atribut yang menunjukan bahwa segala yang memiliki lambang subscipt Q dimiliki oleh suara target (suara dubbing). n adalah jumlah suara yang diteliti (1). Sq =
A (X(ω + ω c ) + X(ω − ω c )) 2
Dimana ω = frekuensi suara asli dan ω c = frekuensi suara dubbing X adalah Forier Transform dari xq x q = x(t)hm (t − t m )
A adalah amplitudo suara t adalah waktu suara tm dan tq adalah pitch mark point (dalam Hz) yang bisa disamakan artinya sebagai frekuensi suara. x(t) =
n
∑ A cos(ωt + θ
k =1
untuk n=1 maka x(t) = A cos(ωt + θk ) A= amplitudo suara
k)
20
h = weighting windows atau yang bisa dilambangkan dengan w. Namun w(n) adalah rumus weighting windows untuk n suara w(n) = 1 + 6 sin( ⎡ 12f
πn )=h M
⎤
M= ⎢ m⎥ ⎣ 6600 ⎦ θk = ω c t + k p
kp = fase suara asli kp = t/T - x/lamda t = waktu suara (second) x = panjang suara (meter) lamda = panjang gelombang (meter)
2.4 Singkronisasi Gerak Bibir dalam Sulih Suara. Pada aplikasi jenis ini, transplantasi sistem harus menghasilkan Ux dengan semua akustik parameter dari U1 dan timing dari U2. Hasilnya idealnya harus terhubung kepada versi time-skaled. Dari U1 yang tersinkronisasi dengan U2. Hal ini akan otomatis mengijinkan koreksi terhadap kesalahan singkronisasi gerak bibir dalam post syncrhronization work seperti dalam timing dari track yang tersedia atau dari film yang dapat ditransplantasikan pada replacement traxk recorded dalam studio. Sebagai tambahan, ia juga mampu menciptakan beberapa efek khusus.
21
2.4.1 Implementasi Penulis menggunakan argoritma PSOLA untuk menghasilkan time-scaled version dari hasil rekaman asli time-warping path. PSOLA memiliki kelebihan yaitu lebih mudah dipakai dan memiliki kepastian yang lebih baik karena dia tidak mengijinkan perubahan pitch.
2.4.2 Evaluasi Hasil Diagnosa Akurasi dari time-scaling dari PSOLA muncul dengan sangat baik untuk aplikasi sulih suara. PSOLA beroperasi dengan toleransi waktu [-∆max ... + ∆max] guna meyakinkan pitch cotinuity dalam sinyal time-caled. Dengan toleransi ∆ max = 7 ms, pitch continuity dapat dipastikan tanpa adanya kesalahan waktu. Seperti transplantasi prosody pada dan aplikasi karaoke, sistem ini menghasilkan hasil yang memuaskan, tapi kurang tegas dan biasanya terjadi distorsi. Distorsi tersebut dapat dilacak dengan beberapa event dalam jalur time-warping, namun tidak selalu dapat dideteksi dimanakan jalur yang salah.
2.4.3 Masukan yang mustahil Saat telepon memiliki teknologi realtime yang sangat baik, namun ini berbeda dengan 2 suara atau lebih yang terdapat pada dunia sulih suara. Sinkronisasi yang tepat sangat dibutuhkan dalam mentrasmit suara dubbing ke dalam suara asli.
22
Algoritma time-scalling tidak dapat mengadaptasi karakteristik gelombang suara secara baik. Dan mungkin hasilnya akan mengalami penyimpangan.
2.4.4 Penghapusan yang Tidak Lengkap Dalam beberapa kasus, sebuah masalah dapat timbul tanpa diakibatkan oleh sistem itu sendiri. Saat transfer suara dubbing, sementara time-scalling yang dihasilkan tidak tepat, maka akan terjadi ketidak harmonisan suara yang terjadi. Hal ini menimbulkan hilangnya suara yang terbuang pada saat salah satu suara sudah lebh dulu berhenti.
2.4.5 Subtitusi yang Tidak Lengkap Beberapa allophones dapat memiliki realisasi akustik yang berbeda dalam seting waktunya. Jika terjadi perbedaan panjang suara, maka sistem akan menghasilkan bunyi lain yang berbeda dari suara aslinya dengan memperhitungkan distorsi bahkan kadang menyebabkan terjadinya scaling eror. Bahkan kesalahan itu akan semakin mencolok jika distorsi atau noise itu ada di suara aslinya. Permasalahan di atas sudah menjadi masalah yang sering dalam time-caling prosedur dan dapat menjadi sumber kesalahan pada distorsi., dalam Authomatic speech resyncronization dapat dilihat bahwa akan sangat membantu untuk memberikan hasil speech yang bersih dari distorsi dan jadi noise.
23
Banyak masalah distorsi bisa diidentifikasi secara visual sama seperti saat mereka terkarakteristik oleh tarikan garis panjang atau justru sangat kecil (dekat garis horizontal dan vertikal) Fungsi yang diperjelas dapat dioperasikan dalam semua visual display dan secara otomatis di tampilkan secara teratur Kalimat tersebut dapat dilihat dengan mengklik waveform yg sesuai. Kita juga bisa memilih apakah hendak menyalakannya seluruhnya atau hanya sebagian. Dalam posisi meng-edit, kita bisa menambah suara baru tanpa khawatir akan mengubah Ux secara acak. Ux akan terupdate dg sangat rapih (menyesuaikan dirinya sendiri) Beberapa tes telah dilakukan dan mendapatkan kesimpulan bahwa user akan sangat mudah menyusun panjang teks yang ada, dengan waktu sebenarnya. Bahkan transplantasi suara akan sangat mudah dilakukan dan dengan ketepatan yang cukup memuaskan.