FILMHANG RESTAURÁLÁS: A NEMLINEÁRIS KOMPENZÁLÁS EGY GYAKORLATI ALKALMAZÁSA
Bakó Tamás, dr. Dabóczi Tamás Budapesti M szaki és gazdaságtudományi Egyetem, Méréstechnika és Információs Rendszerek Tanszék e-mail: {bako,daboczi}@mit.bme.hu 1. Bevezet A régi filmfelvételek hangja gyakran gyenge min ség . Ennek egyik oka a hang nemlineáris torzulása. A professzionális filmtechnikában a hangot optikai úton rögzítik a filmszalagra; erre szolgál a filmszalag szélén, a perforáció mellett található hangsáv. Jelenleg a transzverzális felvételi technikát használják, ahol a hanginformációt a fekete és fehér részek egymáshoz viszonyított aránya adja (1. ábra, bal oldal). Ez a módszer azért el nyös, mert a film el hívási körülményei vagy a felvételhez használt fényforrás er ssége nem nagyon befolyásolja a film hangmin ségét. Azonban egészen az 1950-es évekig az intenzitás alapú hangkódolást használták (1. ábra, jobb oldal) [1]. Ebben az esetben a hanginformációt a hangcsík sötétsége, azaz a feketedés intenzitása hordozza. Ez a technika nagyon érzékeny az el hívásra, a megvilágításra és a hang kivezérlésére, mert a film feketedési görbéje egy nemlineáris függvény (2. ábra). Nagy hanger sségeknél vagy rosszul megválasztott megvilágítás munkapontnál a hang kiléphet a feketedési görbe lineáris tartományából, és er teljesen eltorzulhat. Ennek hatására csökken a szöveg érthet sége és élvezhet sége.
1. ábra: Filmfelvételek hangsávja transzverzális (bal oldal) és intenzitás alapú kódolással (jobb oldal).
2. ábra: Filmek tipikus feketedési karakterisztikája.
Ha a torzítás szintje nem fogadható el, a hang min ségén digitális jelfeldolgozással javíthatunk és a hangot egy "inverz" karakterisztikával korrigálhatjuk. Ez a korrigálás azonban összetett feladat, mivel a torzító függvény pontos alakját nem ismerjük. A másik nehezít tényez , hogy a torz hang zajjal terhelt és a visszaalakítás során a zaj túlságosan feler södhet, akár el is nyomhatja az eredeti jelet. Számos tanulmány foglalkozik nemlinearitások identifikációjával és korrekciójával. Ezen tanulmányok legtöbbje azonban nem foglalkozik a fellép zaj hatásaival [2-6]. Más algoritmusok, amelyek zajos jelek helyreállításával foglalkoznak, rendkívül számításigényesek, mert iteratív algoritmusokat használnak [7, 8]. Ebben a cikkben egy új módszert írunk le, ami képes a filmfelvételek statikus nemlineáris karakterisztikája által okozott torzulást kompenzálni, nem igényel iterációt és képes a zaj hatásait kezelni. A módszer két lépésb l áll: els lépés a statikus nemlinearitás meghatározá-
sa. A nemlineáris függvény alakját ugyan ismerjük, mert a film feketedési karakterisztikája ismert, azonban – egy adott filmtekercsnél – a munkapont és a berendezések er sítési tényez je a nemlinearitás el tt és után nem ismert. Ezeket a paramétereket nekünk kell automatikusan becsülnünk a rögzített hangfelvétel alapján. Erre mutatunk be módszert a második fejezetben. A következ lépés a torz jel kompenzálása. Ehhez egy megfelel kompenzáló karakterisztikát kell el állítani. Az identifikált karakterisztika egzakt inverze esetünkben nem megfelel , mert a jel kompenzálásával egyben a zaj is feler södik. Egy olyan karakterisztikát kell ezért el állítani, ami kompromisszumot nyújt a zajmentes torz és a zajos, torzítatlan jel között. Erre a problémára mutatunk be egy megoldást a harmadik fejezetben. 2. A nemlinearitás identifikálása A filmszalagoknál a hang torzulását a film nemlineáris feketedési karakterisztikája okozza. Ezt a nemlineáris karakterisztikát a következ analitikus függvény jól közelíti: y (t ) = G1 ⋅ Φ (G 2 ⋅ x(t ) + O2 ) + O1 ,
(1)
ahol x(t ) az eredeti, torzítatlan jel, y (t ) a torzított jel, és Φ ( ) az ismertnek feltételezett feketedési karakterisztika. G 2 és O2 az er sítés és offszet paraméterek a nemlinearitás el tt, G1 és O1 pedig az er sítés és offszet paraméterek a nemlinearitás után, amit a felvev és lejátszó berendezések okoznak. Ezeket a paramétereket konstansnak tételezhetjük fel a lejátszás során. A megfigyelt jel szélessávú zajjal terhelt, amit additívnak és nulla középérték nek tételezhetünk fel: o(t ) = y (t ) + n(t ) ,
(2)
ahol o(t ) a megfigyelt jel n(t ) pedig a zaj. Ahhoz, hogy helyre tudjuk állítani az eredeti jelet, pontosan ismernünk kell a G1 , O1 és O2 paramétereket. ( G2 nem annyira fontos, mert ez a paraméter csak a kimen jel hangerejét állítja.) A paraméterek megtalálásának nehézségét az okozza, hogy ehhez csupán az o(t ) , megfigyelt jelet ismerjük. Azonban kihasználhatjuk a jelnek azt a tulajdonságát, hogy f leg beszédjelb l áll, ami periodikus részleteket is tartalmaz. Ha a felvett jelrészlet periodikus, akkor felírhatjuk az alapfrekvenciájú és egész számú többszörös frekvenciájú szinuszjelek összegeként: s (t ) =
i
ai ⋅ sin(i ⋅ 2πf 0 ⋅ t + φ i ) ,
(3)
ahol s(t ) az eredeti periodikus jel, f 0 az alapfrekvencia, a i és φ i pedig az i. szinuszjel amplitúdó és fázis paraméterei. (Itt feltételezzük, hogy az alap jel nem tartalmaz DC komponenst.) Ha ezt a jelet keresztülvezetjük egy statikus nemlinearitáson egy újabb periodikus jel jön létre: u (t ) = G1 ⋅ Φ (G 2 ⋅ s(t ) + O2 ) + O1 =
j
b j ⋅ sin( j ⋅ 2πf 0 ⋅ t + ϕ j ) + b0 .
(4)
(3) és (4) alapján felírható egy transzformáció, ami az ismeretlen paraméterek egy adott értékéhez hozzárendel egy u (t ) jelet: u (t ) = T (v ( f 0 , t ) ) ,
(5)
ahol v( f 0 , t ) az ismeretlen változók halmaza: v( f 0 , t ) = {G1 , O1 , O2 , a1 ...a N , φ1 ...φ N }.
(6)
Ha a T ( ) transzformáció egyértelm leképezést nyújt, akkor az ismeretlen paraméterek értéke meghatározható. Egy elégséges feltétel, ha az a és φ paraméterek száma korlátozott, Φ ( ) szigorúan monoton és s(t ) nem rendelkezik egyenáramú komponenssel. A filmfelvételek esetén ezek a feltételek általában teljesíthet ek: a beszédrészletekben található magánhangzók tartalmaznak periodikus részeket, a felvételre kerül jelnek nincs egyenáramú komponense, a felvétel sávkorlátozott és a feketedési görbe általunk használt szakasza szigorúan monoton. A filmfelvétel zajjal terhelt, ezért a paraméterek pontos értékének megtalálása nem egyértelm . A paraméterek értékének becslésére ezért a megfigyelt periodikus jelrészlet és az általunk el állított periodikus jelbecsl különbségének négyzetes értelemben vett minimumát érdemes venni: min (Cost ) = min
v ( f 0 ,t )
v ( f 0 ,t )
t2 t1
(u (t ) − T (vˆ( f 0 , t ) ))2 dt .
(7)
3. Az optimális inverz karakterisztika el állítása 3.1 A rekonstrukciós modell A torzult jel helyreállításának modellje a 3. ábrán látható:
n(t ) x(t )
Φ(x )
+ y (t ) o(t )
Κ (o )
xˆ (t )
,
3. ábra: Az eredeti jel torzulásának és helyreállításának blokkvázlata.
Itt Φ (x) az eredeti nemlineáris rendszer statikus nemlinearitás-függvénye, x (t ) az eredeti, y (t ) a torzított jel ( y (t ) = Φ ( x (t )) ). A megfigyelt o(t ) jel szélessávú n (t ) zajjal terhelt. Κ (o) az inverz nemlineáris függvény és xˆ (t ) az eredeti jelr l alkotott becsl . Ennek a modellnek a matematikai elemzése nehéz, mert a nemlineáris egyenleteket nem tudjuk analitikus úton megoldani. Azonban egy adott munkapontban, x (t ) és o(t ) kis változásaira a nemlineáris egyenletet közelíthetjük Taylor-sorának els tagjaival, így egy lineáris közelítést kapunk: o = o0 + ∆o ≈ Φ( x 0 ) +
dΦ ( x) dx
⋅ ∆x .
(8)
x = x0
Az o(t ) jel megváltozására pedig felírhatjuk: ∆ o (t ) ≈
dΦ ( x(t )) ⋅ ∆x(t ) . dx(t )
(9)
Ezt a lineáris egyenletet alkalmazhatjuk az eredeti karakterisztika minden pontjában. Ily módon egy szakaszonként lineáris modellt állítunk el , amivel – megfelel számú szakaszt használva – kell pontossággal ábrázolhatjuk az eredeti karakterisztikát.
3.2. Regularizált kompenzálás Ha az eredeti nemlinearitás egzakt inverzét alkalmazzuk a jel helyreállításához, akkor a zaj rendkívül feler södhet. A zaj feler södését jól láthatjuk, ha a nemlinearitást Taylorpolinomal írjuk fel: xˆ 0 = Φ −1 ( y 0 + n ) ≈ x 0 +
1 dΦ ( x ) dx
(10)
⋅n x = x0
A zaj nagymértékben feler södik, ha a nemlineáris függvény deriváltja jóval kisebb mint 1. Éppen ezért az egzakt inverz karakterisztika számunkra nem alkalmas. Ahhoz, hogy az optimális karakterisztikát meg tudjuk találni, el bb definiálnunk kell egy arra alkalmas mértéket a torzítás mértékének kiszámításához. Ehhez a legjobb lenne az eredeti jel és a becsl különbségének a normáját használni: Cost = ( ∆x − ∆xˆ ) ,
(11)
azonban ez az egyenlet közvetlenül nem oldható meg, mivel az eredeti jel nem ismert. Ilyen problémákra Tyihonov [9] adott megoldást, aki rosszul kondicionált integrálegyenletekre dolgozta ki a regularizációs operátorokon alapuló módszert. Az itt felírt hibafüggvény általunk használható formája a következ képpen néz ki: Cost = ( ∆o − ∆oˆ + λ ∆xˆ ) .
(12)
A gyakorlatban az euklideszi (négyzetes) normát érdemes használni, mert ekkor a hiba energiáját minimalizáljuk. Ekkor a függvény formája a következ : Cost = i
(∆ oi
− ∆ oˆ i ) + λ 2
i
∆ xˆ i2
(13)
ahol oˆ a mért jel becsl je, amit ∆xˆ -b l számítunk ki úgy, hogy keresztülvezetjük a jelet újra a torzítás modelljén. λ a regularizációs paraméter, ami a zajos és és a torzított jel között ad egy megoldást. A (13)-as egyenlet megoldása ∆xˆ ∆o -ra (azaz a kompenzációs függvény deriváltjára) a következ : ∆xˆ dΚ (o) = ∆o do
= o = o0
dΦ ( xˆ ) dxˆ dΦ ( xˆ ) dxˆ
xˆ = xˆ0
.
2
(14)
+λ xˆ = xˆ0
A (14)-es képlet alapján a Κ (o) kompenzációs függvény numerikus integrálással számítható. (Az integrációs konstans értéke nem annyira fontos, mert az egyenáramú komponens nem befolyásolja a hang min ségét). Az így kapott karakterisztika közvetlenül használható a jel helyreállítására, mindenféle további iteráció nélkül, tehát a rekonstrukció maga egy egylépéses m velet. A megfelel karakterisztika megtalálásához meg kell határozni a λ paraméter optimális értékét, ami függ a bemen jelt l, a zaj mértékét l és a torzító függvény formájától. Ha a bemen jel értéke konstans és a zaj Pn (ν ) valószín ség-s r ségfüggvénye ismert, a (11)-es egyenlet a következ képpen írható fel:
E {e( x, λ )} = E { xˆ (λ ) − x } = E { Κ (o, λ ) − x } =
∞
Pn (ν ) ⋅ Κ ((Φ ( x) + ν ), λ ) − x dν ,
(15)
−∞
ahol E{ } a várható értéket jelenti. E{e( x, λ )} értéke kiszámítható minden szóba jöhet x (t ) értékre. Ha ismerjük a bemen jel Px ( χ ) valószín ség-s r ségfüggvényét, a hiba várható értéke a helyreállítás után felírható: E {ε (λ )} =
∞
Px ( χ ) ⋅ E {e( x, λ )}dχ .
(16)
−∞
Ennek a függvénynek a minimalizálásával megkaphatjuk a regularizációs paraméter optimális értékét. A gyakorlatban Pn (ν ) a csak zajt tartalmazó jelrészletekb l becsülhet , Px ( χ ) pedig iteratívan állítható el . Els lépésként Px ( χ ) -et a torzult jel valószín ségs r ségfüggvényével becsülhetjük. Ekkor egy durva becsl számítható λ és az eredeti jel értékére. A durva becsl alapján egy pontosabb közelítése állítható el Px ( χ ) -nek. Kísérleteink során 3 iteráció minden esetben elegend volt λ értékének megfelel közelítésére [10,11]. 4. Összefoglalás A cikkben egy új módszert mutattunk be régi filmfelvételek nemlineárisan torzult hangjának kompenzálására. A feketedési görbe jellegét ismertnek feltételeztük, de az er sítés és offszet paramétereket nem. Ezekre a paraméterekre a torz jel periodikus jelrészletei alapján adtunk becsl t. Ahhoz, hogy elkerüljük a helyreállítás során a zaj túlzott mérték feler södését, egy új módszert mutattunk be, ami a Tyihonov-féle regularizációs technikán alapul. A módszer el nye, hogy nem iteratív algoritmus, ezért rendkívül gyors. A Tyihonov-féle regularizációs operátor értékét egy iterációs technikával határoztuk meg. Az eljárás nagyon gyorsan konvergál; 3 iteráció elegend a megfelel pontosságú becsl kiszámításához. Irodalomjegyzék [1] Kádár Péter - Amat r filmhangosítás, "Elektronika", M szaki Könyvkiadó, 1980 [2] Gil M. Raz and Barry D. Van Veen, "Blind Equalization and Identification of Nonlinear and IIR Systems A Least Squares Approach," IEEE Trans. Signal Processing, vol. 48., pp. 192-200, Jan 2000. [3] Robert D. Nowak and Barry D. Van Veen, "Volterra Filter Equalization: A Fixed Point Approach," IEEE Trans. Signal Processing, vol. 45., pp. 377-387, Febr 1997. [4] Wolfgang Klippel, "Compensation for Nonlinear Distortion of Horn Loudspeakers by Digital Signal Processing," J. Audio Eng. Soc., vol. 44, No 6, pp. 470-480, June 1996. [5] S. Kerry Wilson and Patrick Delay, "A Method to Improve Cathode Ray Oscilloscope Accuracy," IEEE Trans. on Instrumentation and Measurement, vol. 43, No 3, pp.483-486, June 1994. [6] Stanley A. White, "Restoration of Nonlinearly Distorted Audio by Histogram Equalization," J. Audio Eng. Soc., vol. 30, No 11, pp. 828-832, November 1982. [7] D. Preis and H. Polchlopek, "Restoration of Nonlinearly Distorted Magnetic Recordings," J. Audio Eng. Soc., vol. 32, No 1/2, pp. 26-30, January/February 1984. [8] Paul T. Troughton and Simon J. Godsill," Restoration of Nonlinearly Distorted Audio using Markov Chain Monte Carlo Methods," Presented at the 104th Convention of the Audio Engineering Society, preprint 4679, Amsterdam, May 1998 [9] Tikhonov, A. N. and Arsenin, V. Y. "Solutions of ill-posed problems," New York, John Wiley & Sons, Inc. 1977. [10] Tamás B. Bakó, Balázs Bank, Tamás Dabóczi, "Restoration of Nonlinearly Distorted Audio with the Application to Old Motion Pictures," AES 20th International Conference on Archiving, Restoration and New Methods of Recording, Budapest, Hungary, Oct 5-7, No. 88-65002, 2001, pp. 191-198. [11] Tamás B. Bakó, Tamás Dabóczi and B. A. Bell, "Automatic Compensation of Nonlinear Distortions," IMTC 2002, Anchorage, USA, May 21-23, 2002. Proceedings of the IEEE Instrumentation and Measurement Technology Conference, No. 00CH37276, 2002, pp. 1321-1325.