!HU000005348T2! (19)
HU
(11) Lajstromszám:
E 005 348
(13)
T2
MAGYAR KÖZTÁRSASÁG Magyar Szabadalmi Hivatal
EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA G10L 19/14
(21) Magyar ügyszám: E 03 785421 (22) A bejelentés napja: 2003. 12. 18. (96) Az európai bejelentés bejelentési száma: EP 20030785421 (97) Az európai bejelentés közzétételi adatai: EP 1576585 A1 2004. 07. 15. (97) Az európai szabadalom megadásának meghirdetési adatai: EP 1576585 B1 2008. 10. 08.
(51) Int. Cl.:
(30) Elsõbbségi adatok: 2415105 2002. 12. 24.
(73) Jogosult: Nokia Corporation, 02150 Espoo (FI)
CA
(72) Feltaláló: JELINEK, Milan, Sherbrooke, Québec J1H 1K4 (CA) (54)
(2006.01) G10L 19/02 (2006.01) (87) A nemzetközi közzétételi adatok: WO 04059618 PCT/CA 03/001985
(74) Képviselõ: Sári Tamás Gusztáv, DANUBIA Szabadalmi és Jogi Iroda Kft., Budapest
Eljárás és berendezés lineáris predikciós paraméterek változó bitsebességû beszédkódolás során való robusztus prediktív vektorkvantálására
(57) Kivonat
HU 005 348 T2
A jelen találmány lineáris predikciós paraméterek változó bitsebességû hangjelkódolás során való kvantálásá-
ra vonatkozik, amelynél bemeneti lineáris predikciós paramétervektort fogadják, egy, a bemeneti lineáris
5. ábra A leírás terjedelme 24 oldal (ezen belül 8 lap ábra) Az európai szabadalom ellen, megadásának az Európai Szabadalmi Közlönyben való meghirdetésétõl számított kilenc hónapon belül, felszólalást lehet benyújtani az Európai Szabadalmi Hivatalnál. (Európai Szabadalmi Egyezmény 99. cikk (1)) A fordítást a szabadalmas az 1995. évi XXXIII. törvény 84/H. §-a szerint nyújtotta be. A fordítás tartalmi helyességét a Magyar Szabadalmi Hivatal nem vizsgálta.
1
HU 005 348 T2
natkozik, amelynél legalább egy kvantálási indexet és egy, a kvantálási indexnek megfelelõ hangjelkeret osztályozására vonatkozó információt fogadnak, predikciós hibavektort állítanak helyre azáltal, hogy az indexet legalább egy kvantálási táblázatnál alkalmazzák, predikált vektort rekonstruálnak, és lineáris predikciós paramétervektort hoznak létre a helyreállított predikciós hibavektorra és a rekonstruált predikált vektorra reagálva. A predikált vektor rekonstruálása során a helyreállított predikciós hibavektort több predikciós séma egyike révén dolgozzák fel a keretosztályozási információtól függõen.
predikciós paramétervektornak megfelelõ hangjelkeretet osztályoznak, predikált vektort számítanak ki, kivonják a kiszámított predikált vektort a bemeneti lineáris predikciós paramétervektorból, hogy predikciós hibavektort hozzanak létre; és a predikciós hibavektort kvantálják. A predikált vektor kiszámítása során több predikciós séma egyikét a hangjelkeret osztályozásának viszonylatában kiválasztják, és a predikált vektort a kiválasztott predikciós séma révén dolgozzák fel. A jelen találmány továbbá lineáris predikciós paraméterek változó bitsebességû hangjeldekódolás során való dekvantálására szolgáló eljárásra és berendezésre vo-
A találmány háttere 1. A találmány területe A jelen találmány hangjel, különösen, de nem kizárólag beszédjel digitális kódolásának továbbfejlesztett technológiájára vonatkozik a hangjel átvitelére és szintetizálására tekintettel. Pontosabban, a jelen találmány olyan eljárással és berendezéssel foglalkozik, amely lineáris predikciós paramétereknek változó bitsebességû, lineáris predikción alapuló kódolása során történõ vektorkvantálására szolgál. 2. A korábbi technológiák rövid leírása 2.1 Beszédkódolás és a lineáris predikciós (linear prediction, LP) paraméterek kvantálása A digitális beszédkommunikációs rendszereknél, mint például a vezeték nélküli rendszereknél beszédkódolókat alkalmaznak a kapacitás megnövelésére, miközben fenntartják a jó beszédminõséget. A beszédkódoló beszédjelet alakít át olyan digitális bitfolyammá, amely kommunikációs csatornán keresztül átvitelre kerül, vagy tároló médiumon tárolásra kerül. A beszédjel digitalizált, azaz mintavételezik és kvantálják általában mintánként 16 bitre. A beszédkódolónak az a feladata, hogy ezeket a digitális mintákat kisebb számú bittel reprezentálja, miközben jó szubjektív beszédminõséget tart fenn. A beszéddekódoló vagy ¹szintetizátor az átvitt vagy tárolt bitfolyam alapján mûködik, és azt visszaalakítja hangjellé. A lineáris predikciós analízisen alapuló digitális beszédkódoló eljárások rendkívül sikeresek voltak az alacsony bitsebességû beszédkódolásnál. Különösen a kódgerjesztésû lineáris predikciós (code-excited linear prediction, CELP) kódolás a szubjektív minõség és a bitsebesség közötti jó kompromisszum elérése céljából az ismert technológiák egyik legjobbika. Ez a kódolási technológia képezi számos beszédkódolási szabvány alapját mind a vezeték nélküli, mind a vezetékes alkalmazások területén. A CELP kódolás során a mintavételezett beszédjelet egymást követõ olyan blokkokban dolgozzák fel, amelyek N mintából állnak, és amelyeket általában kereteknek (frame) neveznek, ahol N jellemzõen 10–30 ms¹nak megfelelõ elõre meghatározott szám. A(z) lineáris predikciós (LP) szûrõt számítanak
2
ki, azt kódolják, és átviszik minden kerethez. Az A(z) LP szûrõ kiszámítása jellemzõen olyan elõretekintést (lookahead) kíván meg, amely a következõ keretbõl 20 5–15 ms¹os beszédszakaszt jelent. Az N mintát tartalmazó keretet részkeretnek (subframe) nevezett kisebb blokkokra osztják fel. A részkeretek száma általában három vagy négy, ami 4–10 ms¹os részkereteket eredményez. Minden egyes részkeretben általában két 25 komponensbõl áll össze a gerjesztõjel, a korábbi gerjesztésbõl és az új, fix kódkönyvön alapuló gerjesztésbõl. A korábbi gerjesztésbõl kialakított komponensre gyakran mint adaptív kódkönyvre vagy hangmagasság-alapú gerjesztésre hivatkoznak. A gerjesztést jel30 lemzõ paramétereket kódolják, és átviszik a dekódolónak, ahol a rekonstruált gerjesztõjelet használják LP szintézisszûrõ bemeneteként. Az LP szintézisszûrõ 35 H(z ) =
1 1 = A(z ) 1+ åMl =1 ai z - i
révén adott, ahol a1 jelöli a lineáris predikciós együtthatókat, és M az LP analízis fokszáma. Az LP szintézis40 szûrõ a beszédjel spektrális burkolóját modellezi. A dekódolóban a beszédjelet a dekódolt gerjesztésnek az LP szintézisszûrõvel való megszûrésével rekonstruálják. Az ai lineáris predikciós együtthatók készletét úgy 45 számítják ki, hogy az e(n)=s(n)–s~(n) (1) predikciós hiba minimalizált, ahol s(n) a bemenõjel az n idõpontban, és s~(n) a legutóbbi M mintán alapuló predikált jel, amely 50 M s~(n) = -å ai s (n - i ) i =1
révén adott. Így a predikciós hiba M
55
e(n) = s (n) + å ai s (n - i ) i =1
révén adott. Ez a z¹transzformációs tartományban E(z)=S(z)A(z) összefüggésnek felel meg, ahol A(z) az M fokszámú 60 LP szûrõ, amely 2
1
HU 005 348 T2
M
A(z ) = 1+ å ai z - i i =1
révén adott. Jellemzõen az ai lineáris predikciós együtthatókat a négyzetes predikciós középhibának L mintából álló blokkon keresztüli minimalizálása révén számítják ki, L olyan egész szám, amely általában nagyobb vagy egyenlõ, mint N (L általában 20–30 ms¹nak felel meg). A lineáris predikciós együtthatók kiszámítása egyébiránt jól ismert a szakember számára. Az ilyen számításra vonatkozó példa a következõ irodalmi helyen található meg: [G.722.2 ITU¹T ajánlás „Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (AMR¹WB)”, Genf, 2002]. Az ai lineáris predikciós együtthatókat nem lehet közvetlenül kvantálni a dekódolónak való átvitel céljából. Ennek az az oka, hogy a lineáris predikciós együtthatókat terhelõ kismértékû kvantálási hibák az LP szûrõ átviteli függvényének jelentõs spektrális hibáit eredményezhetik, és akár a szûrõ instabilitását is okozhatják. Így az ai lineáris predikciós együtthatókat transzformálásnak vetik alá a kvantálást megelõzõen. A transzformáció az ai lineáris predikciós együtthatók úgynevezett reprezentációját (representation) eredményezi. A kvantált transzformált ai lineáris predikciós együtthatók vétele után a dekódoló az inverz transzformációt tudja alkalmazni ahhoz, hogy megkapja a kvantált lineáris predikciós együtthatókat. Az ai lineáris predikciós együtthatókhoz széles körben alkalmazott egyik reprezentáció az LSF (Line Spectral Frequencies), amely mint LSP (Line Spectral Pairs) is ismert. Az LSF kiszámításának részletei megtalálhatóak a következõ irodalmi helyen: [G.729 ITU¹T ajánlás „Coding of speech at 8 kbit/s using conjugate-structure algebraiccode-excited linear prediction (CS-ACELP)”, Genf, 1996. március]. Hasonló reprezentáció az ISF (Immitance Spectral Frequencies), amelyet az AMR¹WB kódolási szabványnál alkalmaztak [G.722.2 ITU¹T ajánlás „Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR¹WB)”, Genf, 2002]. Más reprezentációk ugyancsak lehetségesek és használtak. Az általános jelleg elvesztése nélkül az itt következõ leírásban ISF reprezentáció konkrét esetét tételezzük fel. Az így megkapott LP paramétereket (LSF-eket, ISF-eket stb.) kvantálják akár skalárkvantálással (scalar quantization, SQ), akár vektorkvantálással (vector quantization, VQ). Skalárkvantálásnál az LP paramétereket önállóan kvantálják, és általában paraméterenként 3 vagy 4 bitre van szükség. Vektorkvantálásnál az LP paramétereket vektorrá csoportosítják, és egy egységként kvantálják. Egy, a kvantált vektorokból álló készletet magában foglaló kódkönyv (codebook) vagy táblázat kerül tárolásra. A kvantáló végigkeresi a kódkönyvet az után a kódkönyvbejegyzés után kutatva, amely legközelebb van a bemeneti vektorhoz egy bizonyos távolságmértéknek megfelelõen. A kiválasztott kvantált vektor indexét viszik át a dekódolónak. A vektorkvantálás jobb eredményt ad, mint a skalárkvantá-
5
10
15
20
25
30
35
40
45
2
lás, azonban megnövekedett komplexitás és memóriaigény árán. Strukturált vektorkvantálást alkalmaznak általában a VQ komplexitásának és tárolási igényének csökkentésére. Osztott VQ (split VQ) esetén az LP paramétervektort legalább két részvektorra osztják fel, amelyeket önállóan kvantálnak. Többszintes VQ (multistage VQ) esetén a kvantált vektor több kódkönyvbõl származó bejegyzések összege. Mind az osztott VQ, mind a többszintes VQ csökkent memóriaigényt és komplexitást eredményez, miközben a jó kvantálási teljesítmény fennmarad. Mindemellett érdekes megközelítést jelent a többszintes és az osztott VQ kombinálása azért, hogy tovább csökkenjen a komplexitás és a memóriaigény. Az [G.729 ITU¹T ajánlás „Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)”, Genf, 1996. március] irodalmi helyen az LP paramétervektort két szinten kvantálják, ahol a második szintû vektor két részvektorra van felosztva. Az LP paraméterek erõs korrelációt mutatnak az egymást követõ keretek között, és ezt általában kihasználják prediktív kvantálás alkalmazása révén a teljesítmény fokozása érdekében. Prediktív vektorkvantálásnál predikált LP paramétervektort számítanak ki az elõzõ keretekbõl származó információn alapulóan. A predikált vektort kivonják a bemenõ vektorból, és a predikciós hibát vektorkvantálják. Kétfajta predikciót alkalmaznak általában: az autoregresszív (auto-regressive, AR) predikciót és a mozgóátlag-(moving average, MA) predikciót. Az AR predikciónál a predikált vektort a korábbi keretekbõl származó kvantált vektorok kombinációjaként számítják ki. Az MA predikciónál a predikált vektort az elõzõ keretekbõl származó predikciós hibavektorok kombinációjaként számítják ki. Az AR predikció jobb teljesítményt eredményez. Mindazonáltal az AR predikció nem robusztus a keretvesztéssel járó állapotok szempontjából, amelyek a vezeték nélküli és csomagalapú kommunikációs rendszerekben fellépnek. Elveszett keretek esetén a hiba tovaterjed az elkövetkezõ keretekre, mivel a predikció az elõzõ hibás kereteken alapul. Az alábbi irat prediktív vektorkvantálást alkalmazó változó bitsebességû beszédkódolót tár fel: Ohmuro és társai, 94: Variable Bit-Rate Speech Coding based on PSI-CELP; ICSLP ’94, Yokohama, Japán.
2.2 Változó bitsebességû (Variable Bit Rate, VBR) kódolás Számos kommunikációs rendszernél, például a 50 kódosztásos többszörös hozzáférésû (Code Division Multiple Access, CDMA) technológiát alkalmazó vezeték nélküli rendszereknél a forrás által vezérelt változó bitsebességû (VBR) beszédkódolás jelentõs mérték55 ben fokozza a rendszer kapacitását. A forrás által vezérelt VBR kódolásnál a kódoló többféle bitsebességgel tud mûködni, és sebességkiválasztó modult alkalmaznak arra, hogy meghatározza az egyes beszédkeretek kódolásához alkalmazott bitsebességet a be60 szédkeret természetének megfelelõen, mint például 3
1
HU 005 348 T2
zöngés, zöngétlen, tranziens, háttérzaj stb. A cél az, hogy a legjobb beszédminõséget érjék el egy adott átlagos bitsebesség mellett, amelyre mint átlagos adatsebességre (Average Data Rate, ADR) is hivatkoznak. A kódoló arra is képes, hogy különféle mûködési üzemmódoknak megfelelõen mûködjék azáltal, hogy a sebességkiválasztó modult úgy hangolja, hogy különféle ADR-eket érjen el a különféle üzemmódokhoz, ahol is a kódoló teljesítménye javul a növekvõ ADR-rel. Ez a kódolót a beszédminõség és a rendszer kapacitása közötti kompromisszum egyfajta mechanizmusával ruházza fel. A CDMA rendszereknél, például a CDMAone és a CDMA2000 esetén jellemzõen 4 bitsebesség van használatban, és ezekre mint teljes sebességre (full-rate, FR), fél sebességre (half-rate, HR), negyed sebességre (quarter-rate, QR) és nyolcad sebességre (eighth-rate, ER) hivatkoznak. Ennél a CDMA rendszernél a sebességek két készletét támogatják, és azokra mint I. sebességkészlet (Rate Set I) és II. sebességkészlet (Rate Set II) hivatkoznak. A II. sebességkészletnél sebességválasztó mechanizmussal bíró változó sebességû kódoló 13,3 (FR), 6,2 (HR), 2,7 (QR) és 1,0 (ER) kbit/s¹os forráskódolási bitsebesség mellett üzemel, amely megfelel 14,4, 7,2, 3,6 és 1,8 kbit/s¹os bruttó bitsebességnek (néhány bit a hibadetektálás érdekében kerül hozzáadásra). Az ITU¹T (International Telecommunications Union – Telecommunication Standardization Sector: Nemzetközi Távközlési Egyesülés – Távközlési Szabványügyi Terület) nemrégiben kiválasztott egy adaptív többsebességû széles sávú (adaptive multi-rate wideband, AMR¹WB) beszédkodekként ismert széles sávú kodeket több széles sávú telefonos szabványhoz és beszédszolgáltatáshoz, valamint a 3GPP (Third Generation Partnership Project: harmadik generációs együttmûködési projekt) a GSM és W¹CDMA (Wideband Code Division Multiple Access: széles sávú kódosztásos többszörös hozzáférésû) harmadik generációs vezeték nélküli rendszerekhez. Az AMR¹WB kodek kilenc bitsebességet foglal magában a 6,6–23,85 kbit/s tartományban. Annak, ha CDMA2000 rendszerhez AMR¹WB alapú, forrás által vezérelt VBR kodeket terveznek, az az elõnye, hogy lehetõvé teszi a CDMA2000 és más, AMR¹WB kodeket alkalmazó rendszerek közötti együttmûködést (interoperabilitást). A 12,65 kbit/s¹os AMR¹WB bitsebesség a legközelebbi sebesség, amely a CDMA2000 II. sebességkészletének 13,3 kbit/s¹os teljes sebességébe beilleszthetõ. A 12,65 kbit/s¹os sebesség a CDMA2000 széles sávú VBR kodekek és az AMR¹WB kodekek közötti közös sebességként alkalmazható ahhoz, hogy lehetõvé váljék az interoperabilitás átkódolás (transzkódolás) nélkül, ami lerontja a beszédminõséget. 6,2 kbit/s¹os fél sebességgel kell kiegészíteni ahhoz, hogy lehetõvé váljék a hatékony mûködés a II. sebességkészlet keretein belül. Az így eredményül kapott kodek néhány CDMA2000-specifikus üzemmódban tud mûködni, és magában foglal egy olyan üzemmódot is, amely lehetõvé teszi az AMR¹WB kodekeket alkalmazó rendszerekkel való interoperabilitást.
5
10
15
20
25
30
35
40
45
50
55
60 4
2
A félsebességû kódolást jellemzõen olyan kereteknél választják, ahol a bemenõ beszédjel stacionárius. A teljes sebességhez viszonyított bitmegtakarítást azáltal érik el, hogy a kódolási paramétereket kevésbé gyakran frissítik, vagy azáltal, hogy kevesebb bitet alkalmaznak e kódolási paraméterek közül néhánynak a kódolására. Pontosabban stacionárius zöngés szegmenseknél a hangmagasság-információ keretenként csak egyszer kerül kódolásra, és kevesebb bitet alkalmaznak a rögzített kódkönyvû paraméterek és a lineáris predikciós együtthatók reprezentálására. Mivel az MA predikcióval mûködõ prediktív VQ jellemzõen a lineáris predikciós együtthatók kódolására kerül alkalmazásra, a kvantálási zaj szükségtelen megnövekedését lehet megfigyelni ezeknél a lineáris predikciós együtthatóknál. Az MA predikciót az AR predikcióval ellentétben arra használják, hogy növeljék a keretvesztéssel szembeni robusztusságot; mindazonáltal stacionárius kereteknél a lineáris predikciós együtthatók lassan fejlõdnek, úgy, hogy az AR predikció alkalmazása ennél a konkrét esetnél kisebb hatással lenne a hibaterjedésre elveszett keretek esetén. Ez látható annak megfigyelése révén, hogy hiányzó keretek esetén a legtöbb dekódoló olyan hibaelfedési eljárást alkalmaz, amely lényegében az utolsó keret lineáris predikciós együtthatóit extrapolálja. Amennyiben a hiányzó keret stacionárius zöngés, ez az extrapoláció nagyon hasonló értékeket szolgáltat a valójában átvitt, azonban nem fogadott LP paraméterekhez képest. A rekonstruált LP paramétervektor így közel van ahhoz, mint amit dekódolni kellett volna, amennyiben a keret nem veszett volna el. Ebben a konkrét esetben így az AR predikció alkalmazása a lineáris predikciós együtthatók kvantálási mûvelete során nem tud igazán hátrányos hatással lenni a kvantálási hiba terjedésére. A találmány összefoglalása A jelen találmánynak megfelelõen eljárást alkottunk meg lineáris predikciós paraméterek változó bitsebességû hangjelkódolás során való kvantálására, amely eljárás során bemeneti lineáris predikciós paramétervektort fogadunk, egy, a bemeneti lineáris predikciós paramétervektornak megfelelõ hangjelkeretet osztályozunk, predikált vektort számítunk ki, kivonjuk a kiszámított predikált vektort a bemeneti lineáris predikciós paramétervektorból, hogy predikciós hibavektort hozzunk létre, a predikciós hibavektort skálázzuk, a skálázott predikciós hibavektort kvantáljuk. A predikált vektor kiszámítása során több predikciós séma egyikét a hangjelkeret osztályozásának viszonylatában kiválasztjuk, és a predikált vektort a kiválasztott predikciós sémának megfelelõen számítjuk ki. A predikciós hibavektor skálázása során több skálázási séma közül legalább egyet a kiválasztott predikciós séma viszonylatában kiválasztunk, és a predikciós hibavektort a kiválasztott skálázási sémának megfelelõen skálázzuk. A jelen találmány ugyancsak vonatkozik lineáris predikciós paraméterek változó bitsebességû hangjelkódolás során való kvantálására szolgáló berendezésre, amely berendezés tartalmaz bemenetet bemeneti li-
1
HU 005 348 T2
neáris predikciós paramétervektor fogadása céljából, egy, a bemeneti lineáris predikciós paramétervektornak megfelelõ hangjelkeret osztályozóját, predikált vektor kiszámítóját, kivonót a kiszámított predikált vektornak a bemeneti lineáris predikciós paramétervektorból való kivonására predikciós hibavektor létrehozása érdekében, skálázóegységet, amely a predikciós hibavektorral van ellátva, az említett egység skálázza a predikciós hibavektort és a skálázott predikciós hibavektor egy kvantálóját. A predikáltvektor-kiszámító több predikciós séma egyikének a hangjelkeret osztályozása viszonylatában történõ kiválasztóját tartalmazza a predikált vektor kiszámítása érdekében a kiválasztott predikciós sémának megfelelõen. A skálázóegység több skálázási séma közül legalább egynek a kiválasztott predikciós séma viszonylatában történõ kiválasztóját tartalmazza a predikciós hibavektor skálázása érdekében a kiválasztott skálázási sémának megfelelõen. A jelen találmány továbbá lineáris predikciós paraméterek változó bitsebességû hangjeldekódolás során való dekvantálására szolgáló eljárásra is vonatkozik, amely eljárás során legalább egy kvantálási indexet fogadunk, egy, az említett legalább egy kvantálási indexnek megfelelõ hangjelkeret osztályozására vonatkozó információt fogadunk, predikciós hibavektort állítunk helyre azáltal, hogy a legalább egy indexet legalább egy kvantálási táblázatnál alkalmazzuk, predikált vektort rekonstruálunk, és lineáris predikciós paramétervektort hozunk létre a helyreállított predikciós hibavektorra és a rekonstruált predikált vektorra reagálva. A predikált vektor rekonstruálása során a helyreállított predikciós hibavektort több predikciós séma egyike révén dolgozzuk fel a keretosztályozási információtól függõen. A jelen találmány utolsó aspektusának megfelelõen lineáris predikciós paraméterek változó bitsebességû hangjeldekódolás során való dekvantálására szolgáló berendezést alkottunk meg, amely berendezés tartalmaz eszközt legalább egy kvantálási index fogadása céljából, eszközt egy, a legalább egy kvantálási indexnek megfelelõ hangjelkeret osztályozására vonatkozó információ fogadása céljából, legalább egy kvantálási táblázatot, amely el van látva az említett legalább egy kvantálási indexszel predikciós hibavektor helyreállítása céljából, predikált vektort rekonstruáló egységet és lineáris predikciós paramétervektor generátorát reagálva a helyreállított predikciós hibavektorra és a rekonstruált predikált vektorra. A predikált vektort rekonstruáló egység tartalmaz legalább egy prediktort, amely el van látva a helyreállított predikciós hibavektorral a helyreállított predikciós hibavektornak több predikciós séma egyike révén való feldolgozása céljából a keretosztályozási információtól függõen. A jelen találmánnyal kapcsolatos fenti és további céljaink, a jelen találmány elõnyei és jellemzõi nyilvánvalóbbá válnak a következõ, nem korlátozó jellegû, a találmány illusztratív kiviteli alakjaira, foganatosítási módjaira vonatkozó leírás alapján, amelyet a csatolt rajzra való hivatkozás mellett csak példaként adunk meg.
5
10
15
20
25
30
35
40
45
50
55
60 5
2
A rajzok rövid leírása A csatolt rajzon az 1. ábra többszintû vektorkvantáló nem korlátozó jellegû példáját szemléltetõ vázlatos blokkdiagram; a 2. ábra osztott vektoros vektorkvantáló nem korlátozó jellegû példáját szemléltetõ vázlatos blokkdiagram; a 3. ábra autoregresszív (AR) predikciót alkalmazó prediktív vektorkvantáló nem korlátozó jellegû példáját illusztráló vázlatos blokkdiagram; a 4. ábra mozgóátlag-(MA) predikciót alkalmazó prediktív vektorkvantáló nem korlátozó jellegû példáját szemléltetõ vázlatos blokkdiagram; az 5. ábra a jelen találmány egy nem korlátozó jellegû szemléltetõ kiviteli alakjának megfelelõ, a kódolónál lévõ kapcsolt prediktív vektorkvantálóra vonatkozó példa vázlatos blokkdiagramja; a 6. ábra a jelen találmány egy nem korlátozó jellegû szemléltetõ kiviteli alakjának megfelelõ, a dekódolónál lévõ kapcsolt prediktív vektorkvantálóra vonatkozó példa vázlatos blokkdiagramja; a 7. ábra ISF¹ek frekvencia függvényében való eloszlására vonatkozó, nem korlátozó jellegû szemléltetõ példa, ahol az egyes eloszlások annak a valószínûségnek a függvényét képezik, hogy megtaláljunk egy ISF¹et az ISF vektor egy adott pozíciójánál; és a 8. ábra ISF paramétereknek egymást követõ beszédkereteken keresztüli fejlõdésére vonatkozó jellemzõ példát bemutató diagram. Szemléltetõ kiviteli alakok, foganatosítási módok részletes leírása Habár az alább következõ leírásban a jelen találmányt szemléltetõ kiviteli alakjai, foganatosítási módjai beszédjellel kapcsolatos alkalmazás viszonylatában lesznek leírva, észben kell tartani, hogy a jelen találmány ugyancsak alkalmazható másfajta hangjelek esetén is. A legújabb beszédkódoló technológiák lineáris predikciós analízisen, mint például a CELP kódoláson alapulnak. Az LP paraméterek 10–30 ms¹os keretekben kerülnek kiszámításra és kvantálásra. A jelen szemléltetõ kiviteli alaknál 20 ms¹os kereteket alkalmazunk, és 16¹od fokú analízist tételezünk fel. Az LP paraméterek kiszámítására vonatkozó egy példa beszédkódoló rendszernél a következõ irodalmi helyen található: [G.722.2 ITU¹T ajánlás „Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR¹WB)”, Genf, 2002]. Ennél a szemléltetõ példánál az elõfeldolgozott beszédjelet ablakozzuk, és az ablakozott beszédjel autokorrelációját kiszámítjuk. Ezután a Levinson–Durbin-rekurziót alkalmazzuk az ai (i=1, …, M) lineáris predikciós együtthatók kiszámítására az R(k) (k=0, …, M) autokorrelációból, ahol M a predikció fokszáma.
1
HU 005 348 T2
Az ai lineáris predikciós együtthatókat nem lehet közvetlenül kvantálni a dekódolónak való átvitelhez. Ennek az az oka, hogy a lineáris predikciós együtthatók kismértékû kvantálási hibái az LP szûrõ átviteli függvényének jelentõs spektrális hibáit eredményezhetik, és akár a szûrõ instabilitását is okozhatják. Ezért az ai lineáris predikciós együtthatók transzformációját végezzük el a kvantálást megelõzõen. A transzformáció a lineáris predikciós együtthatók úgynevezett reprezentációját eredményezi. Miután fogadta a kvantált transzformált lineáris predikciós együtthatókat, a dekódoló ezután alkalmazni tudja az inverz transzformációt ahhoz, hogy megkapja a kvantált lineáris predikciós együtthatókat. Az ai lineáris predikciós együtthatókhoz az egyik széles körben alkalmazott reprezentáció az LSF (Line Spectral Frequencies), amely mint LSP (Line Spectral Pairs) ugyancsak ismert. Az LSF¹ek kiszámításának részletei megtalálhatóak a következõ irodalmi helyen: [G.729 ITU¹T ajánlás, „Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)”, Genf, 1996. március]. Az LSF¹ek a P(z)=(A(z)+z–(M+1)A(z–1))/(1+z–1) és a Q(z)=(A(z)–z–(M+1)A(z–1))/(1–z–1) polinomok pólusaiból állnak. M páros értékeinél az egyes polinomok M/2 darab konjugált gyökkel rendelkeznek az egységkörön (e± j / wi ). Így a polinomok
Õ (1- 2q z
P(z)=
-1
i
i =1,3,...,M -1
F1 = (z) = ( 1+ aM )
Õ (1- 2q z
i = 2,4 ,...,M
i
-1
F2 = (z) = ( 1- aM )
-1
Õ ( 1- 2q z
-1
i
+z–2)
i = 2,4 ,...,M - 2
i
+z–2)
alakba írhatóak, ahol qi=cos(wi), és az wi¹k az ISF¹ek, és aM az utolsó lineáris predikciós együttható. Az 10 ISF¹ek kielégítik a 0<w1<w2<…<wM–1
20
fs arccos(q1), i=1, …, M –1, 2p
és fM= 25
+z–2) 30
+z–2),
alakban írhatóak, ahol qi=cos(wi) és az wi¹k a következõ rendezési tulajdonságot kielégítõ LSF¹ek: 0<w 1 <w 2 <…<w M
Õ ( 1- 2q z
i =1,3,...,M -1
és 5
és Q(z)=
2
35
40
45
50
55
60 6
fs arccos(aM) 4p
Az LSF¹ek és ISF¹ek (LP paraméterek) széles körben alkalmazásban vannak több olyan tulajdonságuknak megfelelõen, amelyek alkalmassá teszik õket kvantálási célokra. Az ilyen tulajdonságaik között van a jól meghatározott dinamikatartományuk, az erõs keretek közötti és kereten belüli korrelációt eredményezõ nyugodt fejlõdésük és az olyan rendezési tulajdonság megléte, amely a kvantált LP szûrõ stabilitását biztosítja. Ebben az iratban az „LP paraméter” kifejezést arra használjuk, hogy az LP együtthatók bármely reprezentációjára, mint például az LSF¹re, ISF¹re hivatkozzunk. Átlaggal csökkentett LSF¹re vagy átlaggal csökkentett ISF¹re. Most az ISF¹ek [LP (lineáris predikciós) paraméterek] fõbb tulajdonságait írjuk le annak érdekében, hogy érthetõvé váljék a kvantálás alkalmazott megközelítése. A 7. ábra az ISF együtthatók valószínûség-eloszlási függvényének (Probability Distribution Function, PDF) egy jellemzõ példáját mutatja be. Minden egyes görbe egy-egy önálló ISF együttható PDF¹ét reprezentálja. Az egyes eloszlások átlagértéke (mk) a vízszintes tengelyen látható. Például az ISF1-hez tartozó görbe az összes olyan értéket jelöli az elõfordulásának valószínûségével, amelyet az elsõ ISF együttható felvehet egy keretben. Az ISF2-höz tartozó görbe az összes olyan értéket jelöli az elõfordulásának valószínûségével, amelyet a második ISF együttható felvehet egy keretben és így tovább. A PDF függvényt jellemzõen úgy kapjuk, hogy hisztogramot veszünk fel egy adott együttható által felvett értékekhez, amint azt több egymást követõ kereten át megfigyeljük. Azt láthatjuk, hogy az egyes ISF együtthatók egy-egy korlátozott tartományban helyezkednek el az összes lehetséges ISFérték esetén. Ez valójában csökkenti azt a teret, amit a kvantálónak le kell fednie, és növeli a bitsebesség-hatékonyságot. Fontos azt is megjegyeznünk, hogy míg
1
HU 005 348 T2
az ISF együtthatók PDF-jei átfedésében lehetnek, addig az ISF együtthatók egy adott keretnél mindig sorba rendezettek (ISFk+1–ISFk>0, ahol k az ISF együttható pozíciója az ISF együtthatók vektorán belül). A beszédkódolókra jellemzõ 10–30 ms¹os kerethosszakkal az ISF együtthatók keretek közti korrelációt mutatnak. A 8. ábra azt szemlélteti, hogy az ISF együtthatók hogyan fejlõdnek a beszédjelben lévõ kereteken át. A 8. ábrát úgy kaptuk, hogy mind zöngés, mind zöngétlen kereteket tartalmazó beszédszegmensben lévõ 30 darab egymást követõ 20 ms¹os keretre kiterjedõ LP analízist hajtottunk végre. Az LP együtthatókat (keretenként 16 darab) ISF együtthatókká transzformáltuk. A 8. ábra azt mutatja, hogy a vonalak soha nem keresztezik egymást, ami azt jelenti, hogy az ISF¹ek mindig rendezettek. A 8. ábra azt is mutatja, hogy az ISF együtthatók jellemzõen lassan fejlõdnek a keretrátához viszonyítva. Ez gyakorlatilag azt jelenti, hogy prediktív kvantálás alkalmazható a kvantálási hiba csökkentése érdekében. A 3. ábra autoregresszív (AR) predikciót alkalmazó 300 prediktív vektorkvantálóra vonatkozó példát szemléltet. Ahogy a 3. ábrán szemléltetésre került, elõször e n predikciós hibavektort kapunk azáltal, hogy kivonunk (301 feldolgozó) pn predikciós vektort az xn kvantálandó bemeneti LP paramétervektorból. Az n szimbólum itt a keret idõ szerinti indexére utal. A pn predikált vektor P prediktor (302 feldolgozó) által kerül kiszámításra az x$ n–1, x$ n–2 stb. korábban kvantált LP paramétervektorok alkalmazásával. Ezután az en predikciós hibavektor kerül kvantálásra (303 feldolgozó) azért, hogy például csatornán keresztüli átvitel céljára i indexet és e$ n kvantált predikciós hibavektort hozzunk létre. A teljes x$ n kvantált LP paramétervektort azáltal kapjuk, hogy összeadjuk (304 feldolgozó) az e$ n kvantált predikciós hibavektort és a pn predikált vektort. A P prediktor (302 feldolgozó) általános formája: pn=A1x$ n -1 + A2x$ n - 2 +...+ AKx$ n - K ahol az Ak¹k M·M dimenziós predikciós mátrixok, és K a predikció fokszáma. A P prediktor (302 feldolgozó) egyszerû formája az elsõfokú predikció alkalmazása: pn=Ax$ n -1 (2) ahol A M·M méretû predikciós mátrix, ahol M az xn LP paramétervektor mérete. Az A predikciós mátrix egy lehetséges egyszerû formája a diagonálmátrix az átlóban elhelyezkedõ a1, a2, …, aM elemekkel, ahol az a1¹k a predikciós tényezõk az egyes önálló LP paraméterekhez. Amennyiben ugyanazt az a tényezõt alkalmazzuk az összes LP paraméterhez, úgy a 2 egyenlet pn=ax$ n -1 (3) egyenletre redukálódik. A (3) egyenlet egyszerû predikciós formáját használva, majd a 3. ábra alapján, az x$ n kvantált LP paramétervektor az alábbi autoregresszív (AR) összefüggés révén adott: (4) x$ n = e$ n + ax$ n -1 A (4) egyenlet rekurzív formájából az következik, hogy amikor a 3. ábrán szemléltetett felépítésû 300 AR prediktív kvantálót alkalmazunk, a csatornahibák több kereten keresztül fognak terjedni. Ez világosabban lát-
2
ható, ha a (4) egyenletet az alábbi matematikailag ekvivalens formába írjuk: ¥
5
10
15
20
25
30
35
40
45
50
55
60 7
x$ n = e$ n + å a k e$ n - k
(5)
k =1
Ez a forma világosan mutatja, hogy elméletileg minden egyes korábbi ên–k dekódolt predikciós hibavektor hozzájárul az x$ n LP paramétervektor értékéhez. Így csatornahibák esetén, amelyek módosítanák a dekódoló által fogadott ên értékét ahhoz képest, mint amit a dekódoló elküldött, a (4) egyenlet segítségével megkapott x$ n dekódolt vektor nem lenne ugyanaz a dekódolónál, mint a kódolónál. A P prediktor rekurzív természete miatt ez a kódoló-dekódoló eltérés a jövõ irányába terjed, és befolyással van a következõ x$ n+1, x$ n+2 stb. vektorokra még akkor is, ha nincsenek csatornahibák a következõ kereteknél. Ennélfogva a prediktív vektorkvantálás nem robusztus a csatornahibákkal szemben, különösen amikor a predikciós tényezõk nagyok (a közel van 1¹hez a (4) és (5) egyenletben]. A továbbterjedés ilyen problémájának enyhítése érdekében mozgóátlag-(MA) predikció alkalmazható az AR predikció helyett. Az MA predikciónál az (5) egyenlet végtelen sorozatát véges számú tagra csonkoljuk. Az alapötlet az, hogy a P prediktor autoregresszív formáját a (4) egyenletnél közelítsük kis számú tag alkalmazásával az (5) egyenletnél. Megjegyezzük, hogy az összegzésnél a súlyok módosíthatóak ahhoz, hogy jobban megközelítsük a (4) egyenlet P prediktorát. A 400 MA prediktív vektorkvantálóra vonatkozó nem korlátozó jellegû példa a 4. ábrán kerül bemutatásra, ahol a 401, 402, 403 és 404 feldolgozók megfelelnek rendre a 301, 302, 303 és 304 feldolgozóknak. A P prediktor (402 feldolgozó) általános formája: pn=B1ên–1+B2ên–1+…+Bkên–k ahol a Bk–k M·M méretû predikciós mátrixok, és K a predikció fokszáma. Meg kell jegyezni, hogy MA predikciónál az átviteli hibák csak a következõ K keretre terjednek tovább. A P prediktor (402 feldolgozó) egyszerû formája az elsõfokú predikció alkalmazása: pn=Bên–1 (6) Ahol B M·M méretû predikciós mátrix, ahol M az LP paramétervektor mérete. A predikciós mátrix egy egyszerû formája a diagonálmátrix az átlóban elhelyezkedõ b1, b2, …, bM elemekkel, ahol a b1¹k a predikciós tényezõk az egyes önálló LP paraméterekhez. Amennyiben ugyanazt a b tényezõt alkalmazzuk az összes LP paraméterhez, úgy a (6) egyenlet pn=bx$ n -1 (7) egyenletre redukálódik. Alkalmazva a (7) egyenlet egyszerû predikciós formáját, majd a 4. ábra alapján, az x$ n kvantált LP paramétervektor a következõ mozgóátlag (MA) összefüggés révén adott: (8) x$ n =ên+bên–1 Az MA predikciót alkalmazó 400 prediktív vektorkvantálóra vonatkozó szemléltetõ példánál, ahogy a 4. ábrán bemutatásra kerül, a predikciós memória (a 402 feldolgozóban) a korábbi ên–1, ên–2 stb. dekódolt predikciós hibavektorok révén van kialakítva. Így azon
1
HU 005 348 T2
keretek maximális száma, amelyekre a csatornahiba tovább tud terjedni, a P prediktor (402 feldolgozó) fokszáma. A (8) egyenlet prediktorra vonatkozó szemléltetõ példájánál elsõfokú predikciót alkalmazunk, és így az MA predikciós hiba csak egyetlen keretre tud továbbterjedni. Miközben az átviteli hibákkal szemben az AR predikcióhoz képest robusztusabb, az MA predikció nem éri el ugyanazt a predikciós nyereséget egy adott predikciós fokszám esetén. A predikciós hiba ennek következtében nagyobb dinamikatartománnyal rendelkezik, és több bitet követelhet meg ahhoz, hogy elérjük ugyanazt a kódolási nyereséget, mint az AR prediktív kvantálással. Kompromisszumra így a csatornahibákkal szembeni robusztusság és az adott bitsebesség melletti kódolási nyereség között kell jutni. A forrás által vezérelt változó bitsebességû (VBR) kódolásnál a kódoló többféle bitsebességen üzemel, és sebességkiválasztó modult alkalmazunk az egyes beszédkeretek kódolásához alkalmazott bitsebesség meghatározására a beszédkeret természetén – például zöngés, zöngétlen, tranziens, háttérzaj – alapulóan. A beszédkeret természete – például zöngés, zöngétlen, tranziens, háttérzaj stb. – ugyanolyan módon határozható meg, mint a CDMA VBR esetén. A cél az, hogy a legjobb beszédminõséget érjük el egy adott átlagos bitsebesség mellett, amelyre mint átlagos adatsebesség (ADR) is hivatkozunk. Szemléltetõ példaként CDMA rendszereknél, például a CDMA-one és a CDMA2000 esetén jellemzõen 4 bitsebességet alkalmazunk, és azokra mint teljes sebességre (FR), fél sebességre (HR), negyed sebességre (QR) és nyolcad sebességre (ER) hivatkozunk. Ennél a CDMA rendszernél sebességek két készlete támogatott, és azokra mint I. sebességkészletre és II. sebességkészletre hivatkozunk. A II. sebességkészletnél sebességválasztó mechanizmussal bíró változó sebességû kódoló 13,3 (FR), 6,2 (HR), 2,7 (QR) és 1,0 (ER) kbit/s¹os bitsebességû forráskódolással üzemel. VBR kódolásnál osztályozási és sebességválasztási mechanizmust alkalmazunk a beszédkereteknek a természetük (zöngés, zöngétlen, tranziens, zaj stb.) szerinti osztályozására, és az kiválasztja a keret kódolásához szükséges bitsebességet az osztályozásnak és a szükséges átlagos adatsebességnek (ADR) megfelelõen. Félsebességû kódolás van jellemzõen kiválasztva olyan kereteknél, amelyeknél a bemeneti beszédjel stacionárius. A teljes sebességhez viszonyítva a bitmegtakarítást azáltal érjük el, hogy kevésbé gyakran frissítjük a kódoló paramétereit, vagy azáltal, hogy kevesebb bitet alkalmazunk néhány paraméter kódolásához. Mindemellett ezek a keretek erõs korrelációt mutatnak, ami kihasználható a bitsebesség csökkentésére. Pontosabban stacionárius zöngés szegmenseknél a hangmagassági információ csak egyszer kerül keretenként kódolásra, és kevesebb bitet alkalmazunk a rögzített kódkönyvhöz és az LP együtthatókhoz. Zöngétlen kereteknél nincs szükség hangmagasság-predikcióra, és a gerjesztés kisméretû kódkönyvekkel modellezhetõ HR esetén, vagy véletlenszerû zajjal QR esetén.
5
10
15
20
25
30
35
40
45
50
55
60 8
2
Mivel prediktív VQ¹t MA predikcióval jellemzõen az LP paraméterek kódolásához alkalmazunk, ez szükségtelen növekedést okoz a kvantálási zajnál. Az MA predikciót az AR predikcióval ellentétben azért alkalmazzuk, hogy fokozzuk a keretvesztésekkel szembeni robusztusságot; mindazonáltal stacionárius kereteknél az LP paraméterek lassan fejlõdnek, úgy, hogy AR predikció alkalmazása ebben az esetben kisebb hatással lenne a hibaterjedésre elveszett keretek esetén. Ez annak megfigyelésével érzékelhetõ, hogy elveszett keretek esetén a legtöbb dekódoló hibaelfedési eljárást alkalmaz, amely lényegében az utolsó keret LP paramétereit extrapolálja. Amennyiben a hiányzó keret stacionárius zöngés, ez az extrapoláció nagyon hasonló értékeket eredményez, mint a valójában átvitt, de nem fogadott LP paraméterek. A rekonstruált LP paramétervektor így közel lesz ahhoz, mint amit dekódoltunk volna, amennyiben a keret nem veszett volna el. Ebben a konkrét esetben AR predikció alkalmazása az LP együtthatók kvantálási mûvelete során nem tud nagyon káros hatással lenni a kvantálási hiba terjedésére. Így a jelen találmány egy nem korlátozó jellegû szemléltetõ megvalósítási módja szerint LP paraméterekhez prediktív VQ eljárást tárunk fel, amelynél a prediktor MA és AR predikciók között átkapcsolásra kerül a feldolgozás alatt lévõ beszédkeret természetének megfelelõen. Pontosabban tranziens és nem stacionárius kereteknél MA predikciót alkalmazunk, míg stacionárius kereteknél AR predikciót alkalmazunk. Mindemellett, mivel az AR predikció kisebb dinamikatartományú en predikciós hibavektort eredményez, mint az MA predikció, nem hatékony ugyanazokat a kvantálási táblázatokat alkalmazni a predikció mindkét fajtájához. Ennek a problémának a leküzdése érdekében a predikciós hibavektor AR predikciót követõen megfelelõen skálázásra kerül úgy, hogy ugyanazon kvantálási táblázatok alkalmazásával kvantálható, mint az MA predikció esetében. Amikor többszintû VQ¹t alkalmazunk a predikciós hibavektor kvantálására, az elsõ szint lehet alkalmazható a predikció mindkét fajtájához, miután megfelelõen skáláztuk az AR predikciós hibavektort. Mivel az osztott VQ¹t elégséges alkalmazni a második szintnél, amely nem kíván meg nagyméretû memóriát, ennek a második szintnek a kvantálási táblázatai külön-külön taníthatóak be és alakíthatóak ki mindkét fajtájú predikcióhoz. Természetesen ahelyett, hogy az elsõ szint kvantálási táblázatait alakítjuk ki MA predikcióval, és az AR predikciós hibavektort skálázzuk, ennek ellentéte ugyancsak megfelelõ, azaz az elsõ szint kialakítható AR predikcióhoz, és az MA predikciós hibavektor lehet skálázható a kvantálást megelõzõen. Így a jelen találmány egy nem korlátozó jellegû szemléltetõ megvalósítási módjának megfelelõen ugyancsak feltárunk egy prediktív vektorkvantálásra szolgáló olyan eljárást, amely változó bitsebességû beszédkodeknél LP paraméterek kvantálására szolgál, ahol is a P prediktor MA és AR predikció között átkapcsolásra kerül a feldolgozás alatt lévõ beszédkeret természetére vonatkozó osztályozási információnak megfelelõen, és ahol is a predikciós hibavektort megfelelõ-
1
HU 005 348 T2
képpen skálázzuk úgy, hogy ugyanaz az elsõ szintû kvantálási táblázat lehet alkalmazható a predikciós hiba többszintû VQ¹jánál mindkét típusú predikcióhoz. 1. példa Az 1. ábra kétszintû 100 vektorkvantálóra vonatkozó nem korlátozó jellegû példát mutat be. x bemeneti vektort elõször a Q1 kvantálóval (101 feldolgozó) kvantálunk azért, hogy x$ 1 kvantált vektort és i1 kvantálási indexet hozzunk létre. Az x bemeneti vektor és az elsõ szintû x$ 1 kvantált vektor közötti különbséget kiszámítjuk (102 feldolgozó) azért, hogy létrehozzuk az x2 hibavektort, amit tovább kvantálunk második szintû VQ¹val (103 feldolgozó), hogy létrehozzuk az x$ 2 kvantált második szintû hibavektort i2 kvantálási indexszel. Az i1 és i2 indexeket átvisszük (104 feldolgozó) csatornán keresztül és az x$ kvantált vektort rekonstruáljuk a dekódolóban úgy, mint x$ =x$ 1+x$ 2. A 2. ábra 200 osztott vektorkvantálóra vonatkozó szemléltetõ példát mutat be. M méretû x bemeneti vektort N1, N2, …, NK méretû K részvektorra osztunk fel, és rendre Q1, Q2, …, QK vektorkvantálóval kvantáljuk (201.1., 201.2, …, 201.K feldolgozók). Ezzel megkaptuk az y$ 1, y$ 2, …, y$ K kvantált részvektorokat az i1, i2, és iK kvantálási indexekkel. A kvantálási indexeket átvisszük (202 feldolgozó) csatornán keresztül, és az x$ kvantált vektor a kvantált részvektorok egyszerû konkatenációjával rekonstruálható. A vektorkvantálásra vonatkozó hatékony megközelítést jelenti, ha kombináljuk mind a többszintû, mind az osztott VQ¹t, ami jó kompromisszumot eredményez a minõség és a komplexitás között. Egy elsõ szemléltetõ példánál kétszintû VQ¹t alkalmazhatunk, ahol is az ê2 második szintû hibavektort több részvektorra osztjuk, és rendre Q21, Q22, …, Q2K második szintû kvantálókkal kvantáljuk. Egy második szemléltetõ példánál a bemeneti vektor felosztható két részvektorra, majd az egyes részvektorokat kvantáljuk kétszintû VQ¹val további osztást alkalmazva a második szinten úgy, mint az elsõ szemléltetõ példánál. Az 5. ábra a jelen találmánynak megfelelõ 500 kapcsolt prediktív vektorkvantálóra vonatkozó nem korlátozó jellegû példát szemléltetõ vázlatos blokkdiagram. Elõször is átlagos LP paraméterekbõl álló m vektort vonunk ki z bemeneti LP paramétervektorból azért, hogy létrehozzuk az x átlaggal csökkentett LP paramétervektort (501 feldolgozó). Ahogy a leírásban ezt megelõzõen jeleztük, az LP paramétervektorok LSF paraméterek vagy ISF paraméterek vagy LP paraméterek bármely más reprezentációjából álló vektorok lehetnek. A m átlagos LP paramétervektornak a z bemeneti LP paramétervektorból való kivonása opcionális, azonban javított predikciós teljesítményt eredményez. Amennyiben az 501 feldolgozó le van tiltva, úgy az x átlaggal csökkentett LP paramétervektor ugyanaz lesz, mint a z bemeneti LP paramétervektor. Meg kell jegyezni itt, hogy a 3. és 4. ábrán használt n keretindexet itt elhagytuk az egyszerûség kedvéért. A p predikált vektort ezután kiszámítjuk, és kivonjuk az x átlaggal csökkentett LP paramétervek-
5
10
15
20
25
30
35
40
45
50
55
60 9
2
torból, hogy létrehozzuk az e predikciós hibavektort (502 feldolgozó). Ezután a keretosztályozási információn alapulóan, amennyiben a z bemeneti LP paramétervektornak megfelelõ keret stacionárius zöngés, úgy AR predikciót alkalmazunk, és az e hibavektort egy bizonyos tényezõvel skálázzuk (503 feldolgozó) azért, hogy megkapjuk az e’ skálázott predikciós hibavektort. Amennyiben a keret nem stacionárius zöngés, úgy MA predikciót alkalmazunk, és a skálázási tényezõ (503 feldolgozó) 1¹gyel egyenlõ. A keret osztályozása – például zöngés, zöngétlen, tranziens, háttérzaj stb. – ismét csak ugyanolyan módon határozható meg, mint a CDMA VBR esetén. A skálázási tényezõ jellemzõen nagyobb, mint 1, és ez a predikciós hibavektor dinamikatartományának felskálázására vezet úgy, hogy az egy, az MA predikcióhoz kialakított kvantálóval kvantálható. A skálázási tényezõ értéke az MA és AR predikcióhoz alkalmazott együtthatóktól függ. Nem korlátozó jellegû jellemzõ értékek a következõk: MA predikciós együttható b=0,33, AR predikciós együttható a=0,65, és skálázási tényezõ=1,25. Amennyiben a kvantáló AR predikcióhoz van kialakítva, úgy ellentétes mûveletet fogunk végrehajtani: az MA predikcióhoz való predikciós hibavektor lesz skálázva, és a skálázási tényezõ kisebb lesz, mint 1. Az e’ skálázott predikciós hibavektort ezután vektorkvantáljuk (508 feldolgozó), hogy ê’ kvantált skálázott predikciós hibavektort hozzunk létre. Az 5. ábra példájánál az 508 feldolgozó kétszintû vektorkvantálóból áll, ahol osztott VQ¹t alkalmazunk mind a két szinten, és amelynél az elsõ szint vektorkvantálási táblázatai ugyanazok mind az MA, mind az AR predikcióhoz. Az 508 kétszintû vektorkvantáló 504, 505, 506, 507 és 509 feldolgozókból áll. A Q1 elsõ szintû kvantálónál az e’ skálázott predikciós hibavektort kvantáljuk, hogy ê1 elsõ szintû kvantált predikciós hibavektort hozzunk létre (504 feldolgozó). Ezt az ê1 vektort kivonjuk az ê’ skálázott predikciós hibavektorból (505 feldolgozó), hogy e2 második szintû predikciós hibavektort hozzunk létre. Ezt az e2 második szintû predikciós hibavektort ezután kvantáljuk (506 feldolgozó) vagy QMA második szintû vektorkvantálóval, vagy QAR második szintû vektorkvantálóval azért, hogy ê2 második szintû kvantált predikciós hibavektort hozzunk létre. A QMA és QAR második szintû vektorkvantálók közötti választás a keretosztályozási információtól függ (például ahogy fent jeleztük AR, amennyiben a keret stacionárius zöngés, és MA amennyiben a keret nem stacionárius zöngés). Az ê’ kvantált skálázott predikciós hibavektort rekonstruáljuk (509 feldolgozó) a két szintrõl származó ê1 és ê2 kvantált predikciós hibavektorok összegzésével: ê’=ê1+ê2. Végül az 503 feldolgozó skálázásával ellentétes skálázást alkalmazunk az ê’ kvantált skálázott predikciós hibavektorra (510 feldolgozó) azért, hogy létrehozzuk az ê kvantált predikciós hibavektort. A jelen szemléltetõ példánál a vektor mérete 16, és osztott VQ¹t alkalmazunk mindkét szintnél. A Q1 kvantálóból és a QMA vagy QAR kvantálóból származó i1 és i2 kvantálási indexeket multiplexáljuk, és átvisszük kommunikációs csatornán keresztül (507 feldolgozó).
1
HU 005 348 T2
A p predikált vektort vagy MA prediktorral (511 feldolgozó), vagy AR prediktorral (512 feldolgozó) számítjuk ki a keretosztályozási információ függvényében (például ahogy fent jeleztük AR, amennyiben a keret stacionárius zöngés, és MA, amennyiben a keret nem stacionárius zöngés). Amennyiben a keret stacionárius zöngés, úgy a predikált vektor egyenlõ az 512 AR prediktor kimenetével. Egyébiránt a predikált vektor egyenlõ az 511 MA prediktor kimenetével. Ahogy a fentiekben elmagyaráztuk, az 511 MA prediktor a korábbi keretekbõl származó kvantált predikciós hibavektorok alapján mûködik, míg az 512 AR prediktor a korábbi keretekbõl származó kvantált bemeneti LP paramétervektorok alapján mûködik. Az (átlaggal csökkentett) kvantált bemeneti LP paramétervektort azáltal konstruáljuk, hogy hozzáadjuk az ê kvantált predikciós hibavektort a p predikált vektorhoz (514 feldolgozó): x$ =ê+p. A 6. ábra a jelen találmány szerinti dekódolónál lévõ 600 kapcsolt prediktív vektorkvantáló egy szemléltetõ jellegû kiviteli alakját bemutató vázlatos blokkdiagram. A dekódolóoldalon az i1 és i2 kvantálási indexek fogadott készletét a kvantálási táblázatok révén használjuk fel (601 és 602 feldolgozók) azért, hogy létrehozzuk az ê1 és ê2 elsõ szintû és második szintû kvantált predikciós hibavektorokat. Jegyezzük meg, hogy a második szintû kvantálás (602 feldolgozó) az MA és AR predikcióhoz táblázatok két készletébõl áll, ahogy fentebb leírtuk az 5. ábrán látható kódolóoldalra való hivatkozással. A skálázott predikciós hibavektort ezután a 603 feldolgozóval rekonstruáljuk azáltal, hogy a két szinttõl származó kvantált predikciós hibavektorokat összegezzük: ê’=ê1+ê2. Fordított skálázást alkalmazunk a 609 feldolgozóval azért, hogy létrehozzuk az ê kvantált predikciós hibavektort. Jegyezzük meg, hogy a fordított skálázás a fogadott keretosztályozási információ függvénye, és az 5. ábrán látható 503 feldolgozó által végrehajtott skálázás inverzének felel meg. Az x$ kvantált, átlaggal csökkentett bemeneti LP paramétervektort ezután a 604 feldolgozóval rekonstruáljuk azáltal, hogy a p predikált vektort hozzáadjuk az ê kvantált predikciós hibavektorhoz: x$ =ê+p. Amennyiben az átlagos LP paraméterek m vektorát kivontuk a kódolóoldalon, úgy azt hozzáadjuk a 608 feldolgozóval azért, hogy létrehozzuk a z$ kvantált bemeneti LP paramétervektort. Meg kell jegyezni, hogy úgy, mint az 5. ábrán látható kódolóoldal esetében, a p predikált vektor vagy a 605 MA prediktor kimenete, vagy a 606 AR prediktor kimenete a keretosztályozási információtól függõen; ezt a kiválasztást a 607 feldolgozó logikai döntésének megfelelõen végezzük el, reagálva a keretosztályozási információra. Pontosabban, amennyiben a keret stacionárius zöngés, úgy a p predikált vektor egyenlõ a 606 AR prediktor kimenetével. Egyébiránt a p predikált vektor egyenlõ a 605 MA prediktor kimenetével. Természetesen annak a ténynek az ellenére, hogy csak vagy az MA prediktor vagy az AR prediktor kimenetét használjuk egy bizonyos keretnél, mindkét prediktor memóriáját frissítjük minden egyes keretnél, feltételezve, hogy akár MA, akár AR predikciót lehet al-
5
10
15
20
25
30
35
40
45
50
55
60 10
2
kalmazni a következõ keretnél. Ez érvényes mind a kódoló¹, mind a dekódolóoldalra. Annak érdekében, hogy optimalizáljuk a kódolási nyereséget, az elsõ szintnek MA predikcióhoz kialakított néhány vektorát olyan új vektorokkal cserélhetjük fel, amelyek az AR predikcióhoz vannak kialakítva. Egy nem korlátozó jellegû szemléltetõ kiviteli alaknál az elsõ szintû kódkönyv mérete 256, és ugyanazzal a tartalommal rendelkezik, mint az AMR¹WB szabványnál 12,65 kbit/s esetén, és 28 darab vektort lecserélünk az elsõ szintû kódkönyvben, amikor AR predikciót alkalmazunk. Egy kiterjesztett elsõ szintû kódkönyv így a következõképpen alakítható ki: elõször az AR predikció alkalmazása esetén legkevesebbszer használt, azonban MA predikcióhoz használható 28 darab elsõ szintû vektort elhelyezzük egy táblázat elején, majd a maradék 256–28=228, mind az AR, mind az MA predikcióhoz használható elsõ szintû vektort hozzáfûzzük a táblázathoz, és végül 28 darab AR predikcióhoz használható új vektort helyezünk a táblázat végére. A táblázat hossza így 256+28=284 darab vektor. Amikor MA predikciót használunk, akkor a táblázat elsõ 256 vektorát használjuk az elsõ szintnél; amikor AR predikciót használunk, akkor a táblázat utolsó 256 vektorát használjuk. Az AMR¹WB szabvánnyal való interoperabilitás biztosítása céljából olyan táblázatot használunk, amely magában foglalja egy elsõ szintû vektornak az ebben az új kódkönyvben való pozíciója és az AMR¹WB elsõ szintû kódkönyvében való eredeti pozíciója közötti leképezést. Összefoglalva tehát a jelen találmánynak az 5. és 6. ábra vonatkozásában fent leírt nem korlátozó jellegû szemléltetõ kiviteli alakjai az alábbi jellemzõkkel bírnak: – Kapcsolt AR/MA predikciót alkalmazunk a változó sebességû kódoló kódolási üzemmódjától függõen, amely magának az aktuális beszédkeretnek a természetétõl függ. – Lényegét tekintve, ugyanazt az elsõ szintû kvantálót alkalmazzuk akár AR, akár MA predikciót alkalmazunk, ami memóriamegtakarítást eredményez. Egy nem korlátozó jellegû szemléltetõ kiviteli alaknál 16¹od fokú LP predikciót használunk, és az LP paramétereket az ISF tartományban reprezentáljuk. Az elsõ szintû kódkönyv ugyanaz, mint amely az AMR¹WB kódoló 12,65 kbit/s¹os üzemmódjában van alkalmazva, ahol a kódkönyv MA predikció alkalmazásához van kialakítva. (A 16 méretû LP paramétervektort kettéosztjuk azért, hogy 7 és 9 mérettel bíró két darab részvektort kapjunk, és a kvantálás elsõ szintjénél 2 darab 256 bejegyzésû kódkönyvet alkalmazunk). – MA predikció helyett AR predikciót alkalmazunk stacionárius üzemmódoknál, különösen fél sebességû zöngés üzemmódban; egyébiránt MA predikciót alkalmazunk. – AR predikció esetében a kvantáló elsõ szintje ugyanaz, mint az MA predikció esetében. Mindazonáltal a második szint AR predikciónak megfelelõen alakítható ki és tanítható be.
1
HU 005 348 T2
– Ahhoz, hogy figyelembe vegyük a prediktor üzemmódjára vonatkozó átkapcsolást, mind az MA, mind az AR prediktorok memóriáját frissítjük minden egyes keretnél, feltételezve, hogy mind MA, mind AR predikció alkalmazva lehet a következõ kerethez. – Továbbmenve, ahhoz, hogy optimalizáljuk a kódolási nyereséget, az elsõ szintnek néhány MA predikcióhoz kialakított vektorát lecserélhetjük AR predikcióhoz kialakított új vektorokkal. E nem korlátozó jellegû szemléltetõ kiviteli alaknak megfelelõen 28 darab vektort lecserélünk az elsõ szintû kódkönyvben, amikor AR predikciót használunk. – Egy kibõvített elsõ szintû kódkönyv így a következõk szerint alakítható ki: elõször 28 darab, AR predikció alkalmazásakor legkevesebbszer használt elsõ szintû vektort elhelyezünk a táblázat elején, majd a maradék 256–28=228 darab elsõ szintû vektort hozzáfûzzük a táblázathoz, és végül 28 új vektort helyezünk a táblázat végére. A táblázat hossza így 256+28=284 darab vektor. Amikor MA predikciót használunk, akkor a táblázat elsõ 256 vektorát használjuk az elsõ szintnél; amikor AR predikciót használunk, akkor a táblázat utolsó 256 vektorát használjuk. – Az AMR¹WB szabvánnyal való interoperabilitás biztosítása céljából olyan táblázatot használunk, amely magában foglalja egy elsõ szintû vektornak az ebben az új kódkönyvben való pozíciója és az AMR¹WB elsõ szintû kódkönyvében való eredeti pozíciója közötti leképezést. – Mivel az AR predikció alacsonyabb predikcióshiba-energiát ér el, mint az MA predikció, amikor stacionárius jeleknél alkalmazzák, skálázási tényezõt alkalmazunk a predikciós hibánál. Egy nem korlátozó jellegû szemléltetõ kiviteli alaknál a skálázási tényezõ 1, amikor MA predikciót alkalmazunk, és 1/0,8, amikor AR predikciót alkalmazunk. Ez olyan dinamikájúra fokozza az AR predikciós hibát, amely egyenértékû az MA predikciós hibával. Így ugyanaz a kvantáló alkalmazható mind az MA, mind az AR predikcióhoz az elsõ szintnél. Habár a jelen találmányt a fenti leírás során annak nem korlátozó jellegû szemléltetõ kiviteli alakjai és foganatosítási módjai vonatkozásában írtuk le, ezek a kiviteli alakok és foganatosítási módok kívánság szerint módosíthatóak a csatolt igénypontok oltalmi körén belül.
5
10
15
20
25
30
35
40
45
50 SZABADALMI IGÉNYPONTOK 1. Eljárás lineáris predikciós paraméterek változó bitsebességû hangjelkódolás során való kvantálására, amely eljárás során: bemeneti lineáris predikciós paramétervektort fogadunk; egy, a bemeneti lineáris predikciós paramétervektornak megfelelõ hangjelkeretet osztályozunk; predikált vektort számítunk ki;
55
60 11
2
kivonjuk a kiszámított predikált vektort a bemeneti lineáris predikciós paramétervektorból, hogy predikciós hibavektort hozzunk létre; a predikciós hibavektort skálázzuk; a skálázott predikciós hibavektort kvantáljuk; ahol: – predikált vektor kiszámítása során több predikciós séma egyikét a hangjelkeret osztályozásának viszonylatában kiválasztjuk, és a predikált vektort a kiválasztott predikciós sémának megfelelõen számítjuk ki; és – a predikciós hibavektor skálázása során több skálázási séma közül legalább egyet a kiválasztott predikciós séma viszonylatában kiválasztunk, és a predikciós hibavektort a kiválasztott skálázási sémának megfelelõen skálázzuk. 2. Az 1. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a predikciós hibavektor kvantálása során: feldolgozzuk a predikciós hibavektort legalább egy kvantáló révén a kiválasztott predikciós séma alkalmazásával. 3. Az 1. igénypont vagy 2. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: a több predikciós séma tartalmaz mozgóátlag-predikciót és autoregresszív predikciót. 4. Az elõzõ igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynek során továbbá: átlagos lineáris predikciós paraméterek vektorát hozzuk létre; és kivonjuk az átlagos lineáris predikciós paraméterek vektorát a bemeneti lineáris predikciós paramétervektorból, hogy átlaggal csökkentett lineáris predikciós paramétervektort hozzunk létre. 5. Az elõzõ igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: a hangjelkeret osztályozása során meghatározzuk, hogy a hangjelkeret stacionárius zöngés keret; több predikciós séma egyikének kiválasztása során autoregresszív predikciót választunk ki; predikált vektor kiszámítása során a predikciós hibavektort autoregresszív predikció révén számítjuk ki; több skálázási séma egyikének kiválasztása során skálatényezõt választunk ki; és a predikciós hibavektor skálázása során a predikciós hibavektort a kvantálást megelõzõen az említett skálatényezõ alkalmazásával skálázzuk. 6. Az 1–4. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: a hangjelkeret osztályozása során meghatározzuk, hogy a hangjelkeret nem stacionárius zöngés keret; predikált vektor kiszámítása során a predikciós hibavektort mozgóátlag-predikció révén számítjuk ki. 7. Az 5. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a skálatényezõ nagyobb, mint 1.
1
HU 005 348 T2
8. Az 1–6. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a predikciós hibavektor kvantálása során: a predikciós hibavektort kétszintû vektorkvantálási eljárás révén dolgozzuk fel. 9. A 8. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynek során továbbá osztott vektorkvantálást alkalmazunk a vektorkvantálási eljárás két szintjénél. 10. A 3. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: a predikciós hibavektor kvantálása során a predikciós hibavektort elsõ és második szintet magában foglaló kétszintû vektorkvantálási eljárás révén dolgozzuk fel; és a predikciós hibavektornak kétszintû vektorkvantálási eljárás révén való feldolgozása során a predikciós hibavektort alkalmazzuk az elsõ szint kvantálási táblázatainál, amelyek ugyanazok mind a mozgóátlag, mind az autoregresszív predikcióhoz. 11. A 8. igénypont vagy 9. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a predikciós hibavektor kvantálása során: a kétszintû vektorkvantálási eljárás elsõ szintjénél kvantáljuk a predikciós hibavektort, hogy elsõ szintû kvantált predikciós hibavektort hozzunk létre; kivonjuk a predikciós hibavektorból az elsõ szintû kvantált predikciós hibavektort, hogy második szintû predikciós hibavektort hozzunk létre; a kétszintû vektorkvantálási eljárás második szintjénél kvantáljuk a második szintû predikciós hibavektort, hogy második szintû kvantált predikciós hibavektort hozzunk létre; és kvantált predikciós hibavektort hozunk létre azáltal, hogy összeadjuk az elsõ szintû és második szintû kvantált predikciós hibavektort. 12. A 11. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a második szintû predikciós hibavektor kvantálása során: a második szintû predikciós hibavektort mozgóátlag-predikciós kvantáló vagy autoregresszív predikciós kvantáló révén dolgozzuk fel a hangjelkeret osztályozásától függõen. 13. A 8. igénypont, a 9. igénypont vagy a 11. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a predikciós hibavektor kvantálása során: kvantálási indexeket hozunk létre a kétszintû vektorkvantálási eljárás két szintjéhez; átvisszük a kvantálási indexeket kommunikációs csatornán keresztül. 14. Az 1–5. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél a predikciós hibavektor kvantálása során: a predikciós hibavektort kétszintû vektorkvantálási eljárás révén dolgozzuk fel; a hangjelkeret osztályozása során meghatározzuk, hogy a hangjelkeret stacionárius zöngés keret; és predikált vektor kiszámítása során:
5
10
15
20
25
30
35
40
45
50
55
60 12
2
összeadjuk (a) a kvantált predikciós hibavektort, amelyet az elsõ szintû és a második szintû kvantált predikciós hibavektor összeadásával hoztunk létre és (b) a kiszámított predikált vektort, hogy kvantált bemeneti vektort hozzunk létre; és feldolgozzuk a kvantált bemeneti vektort autoregresszív predikció révén. 15. A 2. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: – a több predikciós séma tartalmaz mozgóátlagpredikciót és autoregresszív predikciót; – a predikciós hibavektor kvantálása során: a predikciós hibavektort olyan kétszintû vektorkvantáló révén dolgozzuk fel, amely olyan elsõ szintû kódkönyvet tartalmaz, amely maga egymás után tartalmaz: olyan vektorok elsõ csoportját, amelyek akkor használhatók, amikor mozgóátlag-predikciót alkalmazunk, és amelyek táblázat elején vannak elhelyezve; olyan vektorok második csoportját, amelyek akkor használhatók, amikor akár mozgóátlag¹, akár autoregresszív predikciót alkalmazunk, és amelyek a táblázatban a vektorok elsõ csoportja és vektorok egy harmadik csoportja között vannak elhelyezve; olyan vektoroknak a harmadik csoportját, amelyek akkor használhatók, amikor autoregresszív predikciót alkalmazunk, és amelyek a táblázat végénél vannak elhelyezve; – a predikciós hibavektornak legalább egy kvantáló révén a kiválasztott predikciós séma alkalmazásával történõ feldolgozása során: amikor a kiválasztott predikciós séma mozgóátlag-predikció, feldolgozzuk a predikciós hibavektort a táblázat vektorainak elsõ és második csoportja révén; és amikor a kiválasztott predikciós séma autoregresszív predikció, feldolgozzuk a predikciós hibavektort a vektorok második és harmadik csoportja révén. 16. A 15. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél az AMR¹WB szabvánnyal való interoperabilitás biztosítása érdekében egy elsõ szintû vektornak az elsõ szintû kódkönyv táblázatában való pozíciója és az elsõ szintû vektornak egy AMR¹WB elsõ szintû kódkönyvben való eredeti pozíciója közötti leképezés leképezési táblázat révén történik. 17. Az 1–6., 8. és 14. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló eljárás, amelynél: a hangjelkeret osztályozása során meghatározzuk, hogy a hangjelkeret stacionárius zöngés keret vagy nem stacionárius zöngés keret; és stacionárius zöngés keretek esetén több predikciós séma egyikének a hangjelkeret osztályozása viszonylatában történõ kiválasztása során autoregresszív predikciót választunk ki, a predikált vektor-
1
HU 005 348 T2
nak a kiválasztott predikciós séma szerinti kiszámítása során a predikciós hibavektort autoregresszív predikció révén számítjuk ki, több skálázási séma közül legalább egynek a kiválasztott predikciós séma viszonylatában történõ kiválasztása során 1¹nél nagyobb skálázási tényezõt választunk ki, és a predikciós hibavektornak a kiválasztott skálázási séma szerinti skálázása során a predikciós hibavektort a kvantálást megelõzõen az 1¹nél nagyobb skálázási faktor alkalmazásával skálázzuk; nem stacionárius zöngés keretek esetén több predikciós séma egyikének a hangjelkeret osztályozása viszonylatában történõ kiválasztása során mozgóátlag-predikciót választunk ki, a predikált vektornak a kiválasztott predikciós séma szerinti kiszámítása során a predikciós hibavektort mozgóátlagpredikció révén számítjuk ki, több skálázási séma közül legalább egynek a kiválasztott predikciós séma viszonylatában történõ kiválasztása során 1¹gyel egyenlõ skálázási tényezõt választunk ki, és a predikciós hibavektornak a kiválasztott skálázási séma szerinti skálázása során a predikciós hibavektort a kvantálást megelõzõen az 1¹gyel egyenlõ skálázási faktor alkalmazásával skálázzuk. 18. Eljárás lineáris predikciós paraméterek változó bitsebességû hangjeldekódolás során való dekvantálására, amely eljárás során: legalább egy kvantálási indexet fogadunk; egy, az említett legalább egy kvantálási indexnek megfelelõ hangjelkeret osztályozására vonatkozó információt fogadunk; predikciós hibavektort állítunk helyre azáltal, hogy az említett legalább egy indexet legalább egy kvantálási táblázatnál alkalmazzuk; predikált vektort rekonstruálunk; és lineáris predikciós paramétervektort hozunk létre a helyreállított predikciós hibavektorra és a rekonstruált predikált vektorra reagálva; ahol: – predikált vektor rekonstruálása során a helyreállított predikciós hibavektort több predikciós séma egyike révén dolgozzuk fel a keretosztályozási információtól függõen. 19. A 18. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél a predikciós hibavektor helyreállítása során: az említett legalább egy indexet és az osztályozási információt legalább egy kvantálási táblázatnál alkalmazzuk az említett egyik predikciós séma alkalmazásával. 20. A 18. igénypont vagy a 19. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél: legalább egy kvantálási index fogadása során elsõ szintû kvantálási indexet és második szintû kvantálási indexet fogadunk; és a legalább egy indexnek az említett legalább egy kvantálási táblázatnál való alkalmazása során az elsõ szintû kvantálási indexet elsõ szintû kvantálási táblázatnál alkalmazzuk, hogy elsõ szintû predik-
5
10
15
20
25
30
35
40
45
50
55
60 13
2
ciós hibavektort hozzunk létre, és a második szintû kvantálási indexet második szintû kvantálási táblázatnál alkalmazzuk, hogy második szintû predikciós hibavektort hozzunk létre. 21. A 20. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél: a több predikciós séma mozgóátlag-predikciót és autoregresszív predikciót tartalmaz; a második szintû kvantálási táblázat mozgóátlagpredikciós táblázatot és autoregresszív predikciós táblázatot tartalmaz; és az említett eljárás során, továbbá a hangjelkeretosztályozást a második szintû kvantálási táblázatnál alkalmazzuk, hogy feldolgozzuk a második szintû kvantálási indexet a mozgóátlag-predikciós táblázat vagy az autoregresszív predikciós táblázat révén a fogadott keretosztályozási információtól függõen. 22. A 20. igénypont vagy 21. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél predikciós hibavektor helyreállítása során: összeadjuk az elsõ szintû predikciós hibavektort és a második szintû predikciós hibavektort, hogy helyreállított predikciós hibavektort hozzunk létre. 23. A 22. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynek során továbbá: a helyreállított predikált vektoron inverz skálázási mûveletet hajtunk végre a fogadott keretosztályozási információ függvényében. 24. A 18–20. igénypontok bármelyike szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél lineáris predikciós paramétervektor létrehozása során: a helyreállított predikciós hibavektort és a rekonstruált predikált vektort összeadjuk, hogy a lineáris predikciós paramétervektort elõállítsuk. 25. A 24. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynek során továbbá hozzáadjuk átlagos lineáris predikciós paraméterek vektorát a helyreállított predikciós hibavektorhoz és a rekonstruált predikált vektorhoz, hogy lineáris predikciós paramétervektort hozzunk létre. 26. A 18–20. és a 24. igénypontok bármelyike szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél: a több predikciós séma mozgóátlag-predikciót és autoregresszív predikciót tartalmaz; és a predikált vektor rekonstruálása során a helyreállított predikciós hibavektort mozgóátlag-predikció révén feldolgozzuk, vagy a létrehozott paramétervektort autoregresszív predikció révén feldolgozzuk a keretosztályozási információtól függõen. 27. A 26. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló eljárás, amelynél a predikált vektor rekonstruálása során: a létrehozott paramétervektort autoregresszív predikció révén feldolgozzuk, amikor a keretosztályozási információ azt jelzi, hogy a hangjelkeret stacionárius zöngés; és
1
HU 005 348 T2
a helyreállított predikciós hibavektort mozgóátlagpredikció révén feldolgozzuk, amikor a keretosztályozási információ azt jelzi, hogy a hangjelkeret nem stacionárius zöngés. 28. Berendezés lineáris predikciós paraméterek változó bitsebességû hangjelkódolás során való kvantálására, amely berendezés tartalmaz: bemenetet bemeneti lineáris predikciós paramétervektor fogadása céljából; egy, a bemeneti lineáris predikciós paramétervektornak megfelelõ hangjelkeret osztályozóját; predikált vektor kiszámítóját; kivonót a kiszámított predikált vektornak a bemeneti lineáris predikciós paramétervektorból való kivonására predikciós hibavektor létrehozása érdekében; skálázóegységet, amely a predikciós hibavektorral van ellátva, az említett egység skálázza a predikciós hibavektort és a skálázott predikciós hibavektor egy kvantálóját; amelynél: – a predikáltvektor-kiszámító több predikciós séma egyikének a hangjelkeret osztályozása viszonylatában történõ kiválasztóját tartalmazza a predikált vektor kiszámítása érdekében a kiválasztott predikciós sémának megfelelõen; és – a skálázóegység több skálázási séma közül legalább egynek a kiválasztott predikciós séma viszonylatában történõ kiválasztóját tartalmazza a predikciós hibavektor skálázása érdekében a kiválasztott skálázási sémának megfelelõen. 29. A 28. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél: a kvantáló el van látva a predikciós hibavektorral az említett predikciós hibavektornak a kiválasztott predikciós séma révén való feldolgozása céljából. 30. A 28. igénypont vagy a 29. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél: a több predikciós séma mozgóátlag-predikciót és autoregresszív predikciót tartalmaz. 31. A 28–30. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amely tartalmaz továbbá: eszközt átlagos lineáris predikciós paraméterek vektorának létrehozása céljából; és kivonót az átlagos lineáris predikciós paraméterek vektorának a bemeneti lineáris predikciós paramétervektorból való kivonása céljából átlaggal csökkentett bemeneti lineáris predikciós paramétervektor létrehozása érdekében. 32. A 28–31. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél amikor az osztályozó meghatározza, hogy a hangjelkeret stacionárius zöngés keret, a predikáltvektor-kiszámító tartalmaz: autoregresszív prediktort autoregresszív predikciónak a predikciós hibavektorra való alkalmazása céljából.
5
10
15
20
25
30
35
40
45
50
55
60 14
2
33. A 28–32. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél amikor az osztályozó meghatározza, hogy a hangjelkeret nem stacionárius zöngés keret: a predikáltvektor-kiszámító mozgóátlag-prediktort tartalmaz mozgóátlag-predikciónak a predikciós hibavektorra való alkalmazása céljából. 34. A 28–32. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a skálázóegység tartalmaz: szorzót 1¹nél nagyobb skálázási tényezõnek a predikciós hibavektorra való alkalmazása céljából. 35. A 28–34. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a kvantáló kétszintû vektorkvantálót tartalmaz. 36. A 35. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a kétszintû vektorkvantáló osztott vektorkvantálást alkalmazó két szintet tartalmaz. 37. A 30. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél: a kvantáló elsõ és második szintet tartalmazó kétszintû vektorkvantálót tartalmaz; és a kétszintû vektorkvantáló olyan elsõ szintû kvantálási táblázatokat tartalmaz, amelyek azonosak mind mozgóátlag, mind autoregresszív predikcióhoz. 38. A 35. igénypont vagy a 36. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a kétszintû vektorkvantáló tartalmaz: elsõ szintû vektorkvantálót, amely el van látva a predikciós hibavektorral az említett predikciós hibavektor kvantálása céljából és elsõ szintû kvantált predikciós hibavektor létrehozása céljából; kivonót a predikciós hibavektorból az elsõ szintû kvantált predikciós hibavektor kivonása céljából második szintû predikciós hibavektor létrehozása érdekében; második szintû vektorkvantálót, amely a második szintû predikciós hibavektorral van ellátva az említett második szintû predikciós hibavektor kvantálása és második szintû kvantált predikciós hibavektor létrehozása céljából; és összeadót kvantált predikciós hibavektornak az elsõ szintû és a második szintû kvantált predikciós hibavektorok összeadása révén való létrehozása céljából. 39. A 38. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a második szintû vektorkvantáló tartalmaz: második szintû mozgóátlag vektorkvantálót a második szintû predikciós hibavektornak mozgóátlagpredikció alkalmazásával történõ kvantálása céljából; és második szintû autoregresszív vektorkvantálót a második szintû predikciós hibavektornak autoregresszív predikció alkalmazásával történõ kvantálása céljából.
1
HU 005 348 T2
40. A 35. igénypont, a 36. igénypont vagy a 38. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a kétszintû vektorkvantáló tartalmaz: elsõ szintû vektorkvantálót elsõ szintû kvantálási index létrehozása céljából; második szintû vektorkvantálót második szintû kvantálási index létrehozása céljából; és az elsõ szintû és a második szintû kvantálási indexnek kommunikációs csatornán keresztüli átadóját. 41. A 28–32. igénypontok bármelyike szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél a kvantáló kétszintû vektorkvantálót tartalmaz, amelynél a kétszintû vektorkvantáló tartalmaz: elsõ szintû vektorkvantálót, amely el van látva a predikciós hibavektorral az említett predikciós hibavektor kvantálása és elsõ szintû kvantált predikciós hibavektor létrehozása céljából; kivonót a predikciós hibavektorból az elsõ szintû kvantált predikciós hibavektor kivonása céljából második szintû predikciós hibavektor létrehozása érdekében; második szintû vektorkvantálót, amely el van látva a második szintû predikciós hibavektorral az említett második szintû predikciós hibavektor kvantálása és második szintû kvantált predikciós hibavektor létrehozása céljából; és összeadót kvantált predikciós hibavektornak az elsõ szintû és a második szintû kvantált predikciós hibavektor összeadása révén való létrehozása céljából; amelynél amikor az osztályozó meghatározza, hogy a hangjelkeret stacionárius zöngés keret, a predikáltvektor-kiszámító tartalmaz: összeadót (a) a kvantált predikciós hibavektor, amely az elsõ szintû és a második szintû kvantált predikciós hibavektorok összeadása révén van elõállítva és (b) a kiszámított predikált vektor összeadása céljából kvantált bemeneti vektor létrehozása érdekében; és autoregresszív prediktort a kvantált bemeneti vektor feldolgozása céljából. 42. A 29. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél: – a több predikciós séma tartalmaz mozgóátlagpredikciót és autoregresszív predikciót; – a kvantáló tartalmaz: kétszintû vektorkvantálót, amely olyan elsõ szintû kódkönyvet tartalmaz, amely maga egymás után tartalmaz: olyan vektorok elsõ csoportját, amelyek akkor használhatók, amikor mozgóátlagpredikció van alkalmazva, és amelyek a táblázat elején vannak elhelyezve; olyan vektorok második csoportját, amelyek akkor használhatók, amikor akár mozgóátlag¹, akár autoregresszív predikció van alkalmazva, és amelyek a táb-
5
10
15
20
25
30
35
40
45
50
55
60 15
2
lázatban a vektorok elsõ csoportja és vektorok egy harmadik csoportja között vannak elhelyezve; olyan vektoroknak a harmadik csoportját, amelyek akkor használhatók, amikor autoregresszív predikció van alkalmazva, és amelyek a táblázat végén vannak elhelyezve; – a predikciós hibavektort feldolgozó eszköz tartalmaz: – amikor a kiválasztott predikciós séma mozgóátlag-predikció – eszközt a predikciós hibavektornak a táblázat vektorainak elsõ és második csoportja révén való feldolgozása céljából; és – amikor a kiválasztott predikciós séma autoregresszív predikció – eszközt a predikciós hibavektornak a vektorok második és harmadik csoportja révén való feldolgozása céljából. 43. A 42. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amely tartalmaz továbbá az AMR¹WB szabvánnyal való interoperabilitás biztosítása érdekében egy, az elsõ szintû kódkönyv táblázatában lévõ elsõ szintû vektor pozíciója és az elsõ szintû vektornak egy AMR¹WB elsõ szintû kódkönyvben való eredeti pozíciója közötti leképezést megvalósító leképezési táblát. 44. A 30. igénypont vagy a 37. igénypont szerinti, lineáris predikciós paraméterek kvantálására szolgáló berendezés, amelynél: a predikáltvektor-kiszámító tartalmaz autoregresszív prediktort autoregresszív predikciónak a predikciós hibavektorra való alkalmazása céljából és mozgóátlag-prediktort mozgóátlag-predikciónak a predikciós hibavektorra való alkalmazása céljából; és az autoregresszív prediktor és a mozgóátlag-prediktor rendre olyan memóriát tartalmaz, amelyek frissítésre kerülnek mindegyik hangjelkeretnél, feltételezve, hogy akár mozgóátlag¹, akár autoregresszív predikció használható a következõ keretnél. 45. Berendezés lineáris predikciós paraméterek változó bitsebességû hangjeldekódolás során való dekvantálására, amely berendezés tartalmaz: eszközt legalább egy kvantálási index fogadása céljából; eszközt egy, az említett legalább egy kvantálási indexnek megfelelõ hangjelkeret osztályozására vonatkozó információ fogadása céljából; legalább egy kvantálási táblázatot, amely el van látva az említett legalább egy kvantálási indexszel predikciós hibavektor helyreállítása céljából; predikált vektort rekonstruáló egységet; lineáris predikciós paramétervektor generátorát reagálva a helyreállított predikciós hibavektorra és a rekonstruált predikált vektorra; amelynél: – a predikált vektort rekonstruáló egység tartalmaz legalább egy prediktort, amely el van látva a helyreállított predikciós hibavektorral a helyreállított
1
HU 005 348 T2
predikciós hibavektornak több predikciós séma egyike révén való feldolgozása céljából a keretosztályozási információtól függõen. 46. A 45. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél az említett legalább egy kvantálási táblázat tartalmaz: egy, az említett egyik predikciós sémát használó kvantálási táblázatot, amely el van látva mind az említett legalább egy indexszel, mind az osztályozási információval. 47. A 45. igénypont vagy a 46. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél: a kvantálási indexet fogadó eszköz két bemenetet tartalmaz elsõ szintû kvantálási index és második szintû kvantálási index fogadása céljából; és az említett legalább egy kvantálási táblázat tartalmaz elsõ szintû kvantálási táblázatot, amely el van látva az elsõ szintû kvantálási indexszel elsõ szintû predikciós hibavektor létrehozása érdekében és második szintû kvantálási táblázatot, amely el van látva a második szintû kvantálási indexszel második szintû predikciós hibavektor létrehozása érdekében. 48. A 47. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél: a több predikciós séma tartalmaz mozgóátlag-predikciót és autoregresszív predikciót; a második szintû kvantálási táblázat tartalmaz mozgóátlag-predikciós táblázatot és autoregresszív predikciós táblázatot; és az említett berendezés tartalmaz továbbá eszközt a hangjelkeret-osztályozásnak a második szintû kvantálási táblázatnál való alkalmazása céljából a második szintû kvantálási indexnek a mozgóátlagpredikciós táblázat vagy az autoregresszív predikciós táblázat révén való feldolgozása érdekében a fogadott keretosztályozási információtól függõen. 49. A 47. igénypont vagy a 48. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amely tartalmaz továbbá: összeadót az elsõ szintû predikciós hibavektor és a második szintû predikciós hibavektor összeadása céljából a helyreállított predikciós hibavektor létrehozása érdekében. 50. A 49. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amely tartalmaz továbbá: eszközt a rekonstruált predikált vektoron inverz skálázási mûvelet végrehajtása céljából a fogadott keretosztályozási információ függvényében.
5
10
15
20
25
30
35
40
45
50
16
2
51. A 45–47. igénypontok bármelyike szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél a lineáris predikciós paramétervektor generátora tartalmazza: a helyreállított predikciós hibavektor és a rekonstruált predikált vektor egy összeadóját a lineáris predikciós paramétervektor létrehozása érdekében. 52. Az 51. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amely tartalmaz továbbá eszközt átlagos lineáris predikciós paraméterek vektorának a helyreállított predikciós hibavektorhoz és a rekonstruált predikált vektorhoz való hozzáadása céljából a lineáris predikciós paramétervektor létrehozása érdekében. 53. A 45–47. és az 51. igénypont bármelyike szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél: a több predikciós séma tartalmaz mozgóátlag-predikciót és autoregresszív predikciót; és a predikált vektort rekonstruáló egység tartalmaz mozgóátlag-prediktort és autoregresszív prediktort a helyreállított predikciós hibavektornak mozgóátlag-predikció révén való feldolgozása céljából, vagy a létrehozott paramétervektornak autoregresszív predikció révén való feldolgozása céljából a keretosztályozási információtól függõen. 54. Az 53. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél a predikált vektort rekonstruáló egység tartalmaz: eszközt a létrehozott paramétervektornak az autoregresszív prediktor révén való feldolgozása céljából, amikor a keretosztályozási információ azt jelzi, hogy a hangjelkeret stacionárius zöngés; és eszközt a helyreállított predikciós hibavektornak a mozgóátlag-prediktor révén való feldolgozása céljából, amikor a keretosztályozási információ azt jelzi, hogy a hangjelkeret nem stacionárius zöngés. 55. Az 53. igénypont vagy az 54. igénypont szerinti, lineáris predikciós paraméterek dekvantálására szolgáló berendezés, amelynél: az említett legalább egy prediktor tartalmaz autoregresszív prediktort autoregresszív predikciónak a predikciós hibavektorra való alkalmazása céljából és mozgóátlag-prediktort mozgóátlag-predikciónak a predikciós hibavektorra való alkalmazása céljából; és az autoregresszív prediktor és a mozgóátlag-prediktor tartalmaz rendre olyan memóriát, amely frissítve van mindegyik hangjelkeretnél, feltételezve, hogy akár mozgóátlag¹, akár autoregresszív predikció lehet használva a következõ keretnél.
HU 005 348 T2 Int. Cl.: G10L 19/14
17
HU 005 348 T2 Int. Cl.: G10L 19/14
18
HU 005 348 T2 Int. Cl.: G10L 19/14
19
HU 005 348 T2 Int. Cl.: G10L 19/14
20
HU 005 348 T2 Int. Cl.: G10L 19/14
21
HU 005 348 T2 Int. Cl.: G10L 19/14
22
HU 005 348 T2 Int. Cl.: G10L 19/14
23
HU 005 348 T2 Int. Cl.: G10L 19/14
Kiadja a Magyar Szabadalmi Hivatal, Budapest Felelõs vezetõ: Törõcsik Zsuzsanna Windor Bt., Budapest