˝ mobil vev˝oalgoritmusok Korszeru Balázs Ferenc, Imre Sándor, Jeney Gábor Híradástechnikai Tanszék ˝ Budapesti Muszaki és Gazdaságtudományi Egyetem Budapest, 2002-2003.
2
Tartalomjegyzék 1. Bevezet˝ o 1.1. Jelölésrendszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. A komplex alapsávi ekvivalens modell . . . . . . . . . . . . . . . 1.2.1. Sávhatárolt átviteli rendszer alapsávi modellje . . . . . . 2. Rendszermodell 2.1. Az adó oldala . . . . . . . . . . . . . . 2.1.1. A szimbólumok . . . . . . . . 2.1.2. Aláírási hullámforma . . . . . 2.1.3. Kisugárzott és vett jel . . . . . 2.2. A csatorna modelljei . . . . . . . . . 2.3. A vev˝o oldala . . . . . . . . . . . . . . ˝ o. . . . . . 2.3.1. Általános vev˝oszur˝ ˝ o 2.3.2. A csatornához illesztett szur˝
5 7 8 9
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
11 12 12 14 19 20 22 23 26
3. Matematikai háttér 3.1. Statisztika . . . . . . . . . . . . . . . . . . . . . . . . . . ˝ 3.1.1. Valószínuségi változók . . . . . . . . . . . . . . . ˝ ˝ uség ˝ 3.1.2. Valószínuségi eloszlások és sur függvények . 3.1.3. Momentumok . . . . . . . . . . . . . . . . . . . . ˝ 3.1.4. Feltételes valószínuség . . . . . . . . . . . . . . . ˝ statisztika . . . . . . . . . . . . 3.1.5. Magasabb rendu 3.2. Becslés . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
33 33 33 33 35 35 35 36
4. A többfelhasználós csatorna 4.1. A többfelhasználós csatorna problémája . . . . . . . . . . . 4.1.1. Többfelhasználós vs. egyfelhasználós vevo˝ k . . . . . 4.2. A többfelhasználós vétel . . . . . . . . . . . . . . . . . . . . 4.2.1. A dekorrelátor . . . . . . . . . . . . . . . . . . . . . . 4.2.2. Minimális átlagos négyzetes hibájú vevo˝ . . . . . . . 4.2.3. Az optimális megoldás . . . . . . . . . . . . . . . . . 4.3. Nemlineáris megoldások . . . . . . . . . . . . . . . . . . . . ˝ vev˝o . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Kétszintu ˝ vev˝o párhuzamos frissítéssel . . . . . . 4.3.2. Többszintu ˝ vev˝o soros frissítéssel . . . . . . . . . . . 4.3.3. Többszintu 4.3.4. Interferencia-törl˝o eljárások . . . . . . . . . . . . . . 4.4. Visszacsatolt neurális hálózatok . . . . . . . . . . . . . . . . 4.4.1. A visszacsatolt neurális hálózatok energiafüggvénye
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
37 38 38 39 39 41 42 43 44 45 47 48 48 50
3
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
4
TARTALOMJEGYZÉK 4.4.2. A visszacsatolt neurális hálózat, mint többfelhasználós vev˝ostruktúra . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.4.3. Továbbfejlesztett visszacsatolt neurális hálózatok . . . . 54
5. Csatorna Kiegyenlítés 5.1. Bevezet˝o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Kiegyenlít˝ok osztályozása . . . . . . . . . . . . . . . . . . . . . . 5.3. Nemlineáris ellen˝orzötten tanított kiegyenlít˝ok . . . . . . . . . . 5.3.1. Csatorna állapotok, a kiegyenlítési probléma geometriai megközelítése . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2. Bayes-tétel, MAP kritérium, az optimális szimbólumbecslés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3. Radiális bázis függvény (RBF) kiegyenlíto˝ . . . . . . . . . 5.3.4. Fuzzy kiegyenlít˝o . . . . . . . . . . . . . . . . . . . . . . . 5.3.5. MLSE-Viterbi kiegyenlít˝o (GSM) . . . . . . . . . . . . . . 5.3.6. Fractionally Spaced . . . . . . . . . . . . . . . . . . . . . . 5.3.7. DFE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55 55 56 58
6. Független komponens analízis 6.1. Definiciók . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1. Általános definíció . . . . . . . . . . . . . . . . . . 6.1.2. Zajos ICA modell . . . . . . . . . . . . . . . . . . . 6.1.3. Zajmentes ICA modell . . . . . . . . . . . . . . . . 6.2. Az ICA költségfüggvényei . . . . . . . . . . . . . . . . . . . 6.2.1. Több komponenses költségfüggvények . . . . . . 6.2.2. Egy komponenses költségfüggvények . . . . . . . 6.2.3. Általános költségfüggvények . . . . . . . . . . . . . 6.3. Az ICA algoritmusok . . . . . . . . . . . . . . . . . . . . . 6.3.1. El˝ofeldolgozás . . . . . . . . . . . . . . . . . . . . . 6.3.2. Hérault-Jutten algoritmus . . . . . . . . . . . . . . 6.3.3. Nem lineáris dekorrelációs algoritmus . . . . . . . 6.3.4. Entrópikus vagy maximum likelihood algoritmus . 6.3.5. Nem lineáris PCA algoritmusok . . . . . . . . . . . 6.3.6. Bigradiens algoritmus . . . . . . . . . . . . . . . . 6.3.7. Neurális egykomponenses tanulási szabályok . . . 6.3.8. Fix pontos algoritmus . . . . . . . . . . . . . . . . 6.3.9. Sajátértékeken alapuló algoritmusok . . . . . . . .
71 72 72 72 72 73 73 76 78 79 79 82 82 82 83 83 84 84 85
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
58 60 62 65 69 69 69
1. fejezet
Bevezet˝ o Napjaink meghatározó tendenciája a távközlés, az informatika és a média világának technológiai alapon megvalósuló konvergenciája. A közös nevez˝ot a hálózati rétegben alkalmazott Internet Protokoll jelenti. Ugyanakkor az IP mobilitási problémáinak feloldása szükséges, de nem elégséges felté˝ infokommunikációs hálózatok kiépítésének. Ennek oka, hogy tele a korszeru ˝ keresztmetszea vég-vég összeköttetések vonatkozásában valamennyi szuk tet fel kell számolni. Ilyen, a jöv˝o hálózatainak hatékonyságát dönt˝oen be˝ folyásoló jelenlegi szukkeresztmetszet a mobil terminált a hálózathoz illeszto˝ rádiós interfész. A rádiócsatorna rendkívül rapszodikus viselkedése (fading) és a terminálok mozgása (Doppler-hatás) következtében fellépo˝ bithibák egyfel˝ol csökkentik az átviteli sebességet, másfel˝ol a hibamentes átvitelt biztosító újraadások jelent˝osen növelik a késletetést, s˝ot ami sokkal súlyosabb probléma a ˝ szolgáltatások szempontjából: a késleltetés ingadozását is. valós ideju A helyzetet tovább nehezíti a kódosztásos többszörös hozzáférés (CDMA) tömeges elterjedése a mobil távközl˝o rendszerekben. Számos el˝onyük mellett (lágy korlát a felhasználók számában, szoft handover, stb.) gyakorlatilag ˝ tették azt a szabályt (mely már a 2. generációs rendszereket is egyöntetuvé részben érintette, lásd cellás struktúra - klaszterezés), hogy rendszereink interferencia limitáltak. Azaz nemcsak a rádiócsatorna zaja, fading, stb. befolyásolják a vev˝o hatékonyságát, hanem a többi felhasználó rádiós tevékenysége is. ˝ modulációs technikák és többszörös hozEzen hatások ellen csak korszeru záférési módszerek kifejlesztésével védekezhetünk, melyek képesek nagy fokú mobilitás és nagy számú interferáló felhasználó jelenlétében is megfelelo˝ adatátviteli sebességet elérésére, korlátos késleltetés mellett. ˝ Ahhoz, hogy a jegyzetünkben ismertetett vev˝o-stratégiák muködése tágabb összefüggéseiben is értelmezhet˝o legyen a következ˝okben röviden áttekintjük a digitális rádiók blokkvázlatát rámutatva mindazon jelenségekre, funkcionalitásokra, melyek figyelembe veendo˝ hatást gyakorolnak a detektorokra. Információ forrás: a tipikusan analóg (pl. beszéd, video) jeleket mintavételezés és kvantálás segítségével alakítjuk digitális információvá. Természetesen léteznek digitális források is, pl. adatbázis szerver. Forráskódolás: információ forrásaink általában megleheto˝ sen redundán5
6
˝ FEJEZET 1. BEVEZETO
sak. Pl. az emberi beszéd a PCM-ben bevált 64 kbps helyett, akár 2,4 kbps-ra is tömöríthet˝o az érthet˝oség megtartása mellett (természetesen senkinek sem ajánljuk, hogy Mozartot ilyen formátumban hallgassa!). A forráskódolás feladata, hogy tömörít˝o algoritmusok alkalmazásával megszabadítsa a digitális forrásinformációt a redundanciától. Csatornakódolás: a rádiócsatorna hatásai ellen való védekezés alapja, hogy segédinformációval (redundanciával) egészítjük ki az elo˝ z˝oleg tömörített bitfolyamot. Ezzel biztosítva a vételi oldalon a hibajelzést és esetlegesen hibajavítást. Megjegyezzük, hogy az utóbbi opcionális, hiszen újraadási protokollok használata esetén elegend˝o a hibadetektálás, ami kevesebb redundanciát jelent. Ugyanakkor az újraadás növeli a redundanciát, tehát egy komoly mérnöki optimalizálási feladattal állunk szemben. Ráadásul az átvitt információs bitek nem egyformán fontosak a számunkra, pl. mozgó kép átvitelénél a képszinkron sokkal fontosabb, mint egy képpont fényero˝ ssége. Ennek következtében a gyakorlatban bizonyos biteket hibajavítással védenek, másokat újraadással. Végezetül ne feledkezzünk meg arról sem, hogy az újraadás lényegesen növeli a késleltetést is a rádiós interfészen. Interleaving: a rádiócsatorna által okozott csomósodott hibákat hivatott kiküszöbölni azáltal, hogy az információs bitfolyamot blokkokra bontjuk és a blokkok sorrendjét adott szabályrendszer szerint felcseréljük. Így a rádiócsatornában egymás mellett fellép˝o bithibák valójában az interleaving visszaállítása után többé kevésbe egyenletesen oszlanak meg a bitfolyamban, leheto˝ séget adva a hibadetektálásra és javításra. Scrambling (zagyválás): els˝odleges feladata a spektrum „fehérítése”, amit a logikai 0 és 1 bitek csomósodásának megszüntetésével érnek el. Magyarán az interleaving blokkokon belül is összekeverik a biteket. Training bitek beszúrása: célja, hogy a vevo˝ oldalon is ismert bitsorozatokkal egészítsük ki a bitsorozatunkat. Ezáltal a vevo˝ ben nyomon követhet˝ok a rádiócsatorna hatásai (tudjuk mit kellene kapjunk, ha nem azt kapjuk, akkor feltehet˝oleg a többi bittel is az történt, mint a training bitekkel). Használatuk opcionális. Ha mell˝ozzük o˝ ket, „vak” (blind) vételr˝ol beszélünk. Ezt követ˝oen a modulátor segítségével alakítjuk át a digitális bitfolyamot a rádiócsatornába küldhet˝o analóg jellé. A moduláció lehet két vagy több˝ annak megfelel˝oen, hogy 1 vagy több bithez rendelünk egy analóg moszintu dulációs jelalakot. Természetesen a tényleges adás elo˝ tt az analóg jelet még ˝ on is át kell engedni. a megfelel˝o viv˝ofrekvenciára kell ültetni és az adószur˝ A mobil távközlésban alkalmazott modulációkról bo˝ vebben a [1] jegyzetben olvashatunk. A rádiócsatorna, mint az el˝oismereteinkb˝ol tudható számos hatással terheli meg jelünket. Ezek közül számunkra a legfontosabbak a termikus zaj, a késleltetés (és szórása), a csillapítás, a többutas terjedés, többi felhasználó ˝ interferenciája. Ezen mennyiségek sajnos statisztikus viselkedésuek, azaz egy helyben állva is id˝oben folyamatosan változnak a vett jel jellemz˝oi. ˝ o és az alapsávi lekeverés várja A vételi oldalon természetesen a vev˝oszur˝ ˝ a jelet. Ez után kezd˝odhet a dektekció, amely részben az adóoldali muveletek inverzének végrehajtását jelenti, részben pedig a redundáns információ alapján hozott statisztikai elvekre épül˝o döntéshozásból áll. Szemleletesen példázza a vev˝oben alkalmazott megoldások sokféleségét a következo˝ : ha az a feladatunk, hogy vigyünk fel a második emeletre egy bútort, akkor az úgy is elérhetjük, ha felsétálunk a lépcs˝on a másodikra, de úgy is, hogy beszállunk
1.1. JELÖLÉSRENDSZER
7
a liftbe, felmegyünk a tizedik emeletre és onnan visszajövünk a másodikra. A két megoldás ekvivalens még sem ugyanaz, mindketto˝ nek vannak el˝onyei és hátrányai. Ennek analógiájára nyilvánvaló, hogy vevo˝ inkben is többféleképpen valósíthatjuk meg a detekciót. A jelenleg széles körben ismert vevo˝ ˝ algoritmusokat kívánjuk megismertetni az olvasóval ebben a muben. A tárgy ˝ alapvet˝o célkituzése, hogy átfogó képet nyújtson a hallgatóságnak mindazon technikák elméleti és gyakorlati hátterér˝ol, melyek meghatározó szerepet töl˝ vezeték nélküli távközl˝o rendszeretenek/tölthetnek be a közeljöv˝o korszeru iben.
1.1. Jelölésrendszer Sajnos komoly matematika szükséges a vev˝oalgoritmusok leírásához. Ahhoz, hogy tiszta, könnyen értelmezheto˝ képleteket használhassunk, feltétlenül fontos, hogy egységes jelölésrendszert alkalmazzunk. Az alkalmazott je˝ lölések szabályszeruségeit foglaljuk össze ebben a fejezetben. A változók utáni szögletes zárójel mindig azt fogja jelenteni, hogy az argumentum csak diszkrét értékeket vehet fel. Így például a dk [i] jelölés használatával a dk [1], dk [2], . . . sorozatot jelöljük. A hagyományos kerek zárójel vi˝ változót jelöl, tehát az sk (t) egy folytonos ideju ˝ függvény. szont folytonos ideju Függetlenül attól, hogy az argumentum értéke folytonos-e, avagy diszkrét, a ˝ is. Tehát a dk [i] jelölés változó maga lehet diszkrét és folytonos értékkészletu ˝ önmagában nem jelenti azt, hogy a d maga diszkrét értékkészletu. A tilde (˜) és a kalap (ˆ) az adott változóhoz kapcsolódó értékeket jelöl. ˝ leképzését jeRendszerint tildével a diszkrét változó folytonos értékkészletu löljük, a kalapos verzió pedig a becsült értékekre szolgál. Így például a dk [i] ˝ párja diszkrét változó – amely a szimbólumokat jelöli – folytonos értékkészletu ˝ onél látni fogd˜k [i] kapcsolatban van dk [i]-vel (ahogyan azt az illesztett szur˝ juk), dˆk [i] pedig a dk [i] szimbólumok becsült értéke a vev˝o kimenetén. Hasonˆ lóképpen R-rel jelöljük majd a diszkrét csatornamátrix (R) közelített értékét. A komplex számok imaginárius egységének jelölésére a mérnöki √ gyakorlatban alkalmazott j szimbólumot fogjuk használni, ahol j = −1. A „∗” karakter a konvolúciós operátort fogja jelölni, de felso˝ indexben a komplex konjugált értékre utal majd. ˝ A vektorokat (v) és mátrixokat (M) félkövér betukkel jelöljük majd, a vek˝ torokat kis betuvel, a mátrixokat pedig naggyal fogjuk jelölni, hogy könnyebben elkülöníthet˝oek legyenek egymástól. A vT a v vektor transzponáltjára utal, hasonlóképpen a MH az M mátrix Hermit transzponáltja – azaz komplex konjugáltja és transzponáltja. A vektorok, mátrixok elemeit szögletes zárójelben [.] adjuk meg, a diagonális mátrixokat pedig lúdláb h.i jelekkel kerítjük be. Az I mátrix az egységmátrix. Jelöléseinkkel I = h1, 1, . . . , 1i. A diag [R] az R mátrix diagonális elemeit tartalmazó diagonális mátrix: diag [R] = hR11 , R22 , . . . RM M i . Diagonálisnak nevezünk minden olyan A mátrixot, melyre hAi = A. Az egységmátrix nyilvánvalóan diagonális mátrix: diag [I] = I. Egy A mátrixot hermitikusnak tekintünk, ha Hermit transzponáltja megegyezik az eredeti mátrixszal: AH = A.
˝ FEJEZET 1. BEVEZETO
8
A halmazokat kapcsos zárójellel {.} fogjuk jelölni, így például az A = {−1 − j, −1 + j, +1 − j, +1 + j}
halmaz elemei rendre a −(1 + j), (j − 1), (1 − j), (1 + j) elemek. Gyakran ˝ fogjuk A betuvel jelölni a lehetséges szimbólumok halmazát. El˝ofordulhat majd a {±1} jelölés a {+1, −1} helyett, helytakarékossági megfontolásokból. Az el˝oz˝o halmaz például A = {±1 ± j} alakban röviden is leírható. A zárójelek további funkciója, hogy sorozatokat és intervallumokat is jelölhetünk a segítségükkel. A sorozatokat (.) tehát az különbözteti meg majd a vektoroktól, hogy kerek zárójel határolja o˝ ket. Az intervallumokat, melyeket vessz˝ovel elválasztott számpár jellemez, kerek és szögletes zárójel is határolhatja mindkét oldalon. A kerek nyitott intervallumot jelent, a szögletes pedig zártat. Így az [a, b) intervallum az a és b közé eso˝ terület, melynek eleme a, de nem része b.
1.2. A komplex alapsávi ekvivalens modell Miel˝ott az alkalmazott rendszermodellt felírnánk, átismételjük a komplex alapsávi ekvivalens leírás alapjait [1]. A komplex alapsávi leírás alkalmazásával a viv˝ofrekvencia hatását figyelmen kívül hagyhatjuk a képletekben. Ezáltal ˝ az egyenletek jelent˝osen egyszerubb alakot öltenek. Vegyük az alábbi általános sávhatárolt jelet s(t) = a(t) cos(ω0 t + ϕ(t)),
(1.1)
˝ ahol ω0 a viv˝o körfrekvencia értéke, a(t) és ϕ(t) tetszo˝ leges folytonos ideju amplitudó és fázisfüggvények. A komplex alapsávi ekvivalens értékét az alábbi egyenlet sekv (t) megoldása adja meg: (1.2) s(t) = 2 Re sekv (t)ejω0 t ,
ahol sekv (t)ejω0 t -t az s(t) függvény komplex el˝oburkolójának hívjuk. Meg kell jegyezzük, hogy bizonyos irodalmak [1, 2] a kettes szorzó nélkül írják fel a komplex alapsávi jel definícióját, azonban ez bizonyos inkonzekvenciához vezet. Ekkor ugyanis a rendszer impulzusválaszát másképpen kell transzfor˝ málni, mint egy tetsz˝oleges bemeneti, vagy kimeneti jelet. Az eltér˝o muveletek okát viszont nehéz megmagyarázni. Az itt közölt megközelítés szerint viszont mindkét transzformáció azonos alakban adható meg, mint azt a kés˝obbiekben látni fogjuk, így nincs szükség magyarázkodásra. A komplex alapsávi ekvivalenst (1.1) és (1.2) alapján kifejezhetjük az a(t) amplitudó- és ϕ(t) fázisfüggvény segítségével is: 1 a(t)ejϕ(t) . 2 Végül az eredeti s(t) függvény az alábbi módon írható fel a komplex alapsávi ekvivalens függvény segítségével: sekv (t) =
s(t) = sekv (t)ejω0 t + s∗ekv (t)e−jω0 t .
(1.3)
∗ Mivel s∗ekv (t) Fourier transzformáltja Sekv (−f ), az eltolási tétel alkalmazásával
˝ uségfüggvényekre ˝ az alábbi egyenl˝oséget kapjuk a spektrális sur vontakozóan ∗ S(f ) = Sekv (f − f0 ) + Sekv (−(f + f0 )),
1.2. A KOMPLEX ALAPSÁVI EKVIVALENS MODELL
9
ahol f0 = 2πω0 . A komplex alapsávi ekvivalens elméleti és gyakorlati elo˝ állításáról [1]-ban olvashatunk részletesen. Számunkra az a fontos, hogy az alapsávi modell alkalmas arra is, hogy átviteli rendszereket modellezzünk. Erro˝ l olvashatunk a következ˝o alfejezetben. Miel˝ott azonban a sávhatárolt átviteli rendszer alapsávi modelljét elemeznénk, érdemes megjegyezni, hogy a komplex alapsávi ekvivalens jel energiája nem egyezik meg az eredeti jel energiájával. Ugyanis a Z ∞ E= s2 (t) dt −∞
egyenletbe (1.2)-t helyettesítve Z ∞ E=2 |sekv (t)|2 (1 + cos(2ω0 t)) dt
(1.4)
−∞
lesz, amelyben a koszinuszos tag integrálja zérus. Mégpedig azért, mert az sekv (t) függvény jóval lassabban változik, mint a (2ω0 t) fázis. Ebb˝ol következ˝oen minden t1 -t˝ol t2 -ig teljes perióduson, amikor ω0 (t2 − t1 ) = π, az sekv (t) kifejezés konstansnak vehet˝o, azaz a t1 és t2 közötti integrál zérus. Mivel minden t1 , t2 érték párosra elmondható az állítás, a teljes intervallumra számított integrál is nulla lesz. Az (1.4) tehát a következo˝ képpen alakul: Z ∞ E=2 |sekv (t)|2 dt, azaz
−∞
s2 (t) = 2|sekv (t)|2 . Eredményünk alapján kijelenthetjük, hogy az alapsávi ekvivalens jelteljesítménye az eredeti jel teljesítményének felével egyezik meg.
1.2.1. Sávhatárolt átviteli rendszer alapsávi modellje Vegyük az 1.1. ábrán látható lineáris modellt, melyben a rendszer impulzusválasz függvénye h(t)-vel egyezik meg. Alaptanulmányaink során megtanultuk, hogy lineáris rendszer tetsz˝oleges s(t) függvényre a rendszer válasza r(t) = h(t) ∗ s(t) lesz. A kérdés az, hogy ugyanez elmondható-e a komplex alapsávi ekvivalensekr˝ol is, azaz rekv (t) = hekv (t) ∗ sekv (t)
(1.5)
egyenl˝oség vajon teljesül-e. Ha igen, akkor elegend˝o a komplex alapsávi ekvivalensekkel felírni egyenleteinket, mert az egyenlo˝ ségek az eredeti függvényekre is teljesülni fognak. A kérdés az, hogy hogyan értelmezhetjük egy rendszer komplex alapsávi ekvivalensét – azaz hogyan állíthatjuk elo˝ hekv (t)-t h(t)-b˝ol – úgy, hogy az (1.5) egyenletet ki lehessen elégíteni. ˝ függvény, mint s(t) volt, ezért Miután az r(t) is ugyanolyan folytonos ideju komplex alapsávi ekvivalensét is ugyanúgy értelmezhetjük, mint az s(t) esetében, azaz ∗ R(f ) = Rekv (f − f0 ) + Rekv (−f − f0 )).
(1.6)
˝ FEJEZET 1. BEVEZETO
10 s(t) h(t)
r(t) - ⇐⇒ sekv (t)- hekv (t)
rekv(t)
1.1. ábra. Sávhatárolt rendszer modellje és komplex alapsávi megfelelo˝ je Miután az (1.5) alapján az Rekv (f ) = Hekv (f )Sekv (f )
(1.7)
és az R(f ) = H(f )S(f ) egyenleteket is ki kell elégíteni. Az utóbbi a komplex alapsávi ekvivalensekkel az alábbi formában írható ∗ R(f ) = H(f ) [Sekv (f − f0 ) + Sekv (−f − f0 )] .
(1.8)
Ha a bemeneti jel sávhatárolt, azaz S(f ) = 0, ha |f − f0 | > B, ahol B a jel sávszélessége, akkor az alacsony és magas frekvenciás komponensek különkülön egyenl˝ové tehet˝oek. Azaz az (1.6) és az (1.8) feltételeket az alábbi két egyenlet kielégítésével megoldhatjuk. Rekv (f − f0 ) = H(f )Sekv (f − f0 )
∗ ∗ Rekv (−f − f0 ) = H(f )Sekv (−f − f0 )
Az egyenleteket kielégíti a ∗ H(f ) = Hekv (f − f0 ) + Hekv (−(f + f0 )),
vagy a súlyfüggvényre vonatkozóan a h(t) = 2 Re hekv (t)ejω0 t
(1.9)
összefüggés, ha a rendszer impulzusválasza is sávhatárolt, azaz H(f ) = 0, ha |f − f0 | > Br , ahol Br a rendszer sávszélessége. Ekkor ugyanis Rekv (f ∗ Rekv (−f
− f0 ) = Hekv (f − f0 )Sekv (f − f0 ) ∗ ∗ (−f − f0 ), (−f − f0 )Sekv − f0 ) = Hekv
azaz (1.7) – és így (1.5) is – teljesül. Az eredményt szavakba öntve, ha a rendszer komplex alapsávi súlyfüggvényét az (1.9) egyenlettel definiáljuk, akkor a komplex alapsávi ekvivalens modell alkalmas lesz arra, hogy segítségével a vizsgált rendszereket leírjuk és modellezzük. Vegyük észre, hogy az impulzusválaszra vonatkozóan ugyanazt a transzformációt (1.9) kell végrehajtani, mint a bemeneti és kimeneti jelre vonatkozóan (1.2). A komplex alapsávi ekvivalens elo˝ állítása tehát egysége˝ jelre. sen elvégezhet˝o tetsz˝oleges folytonos ideju A komplex alapsávi modell általános jellege miatt a következo˝ kben az „ekv” szócskát ugyan elhagyjuk, de egyenleteink a komplex alapsávi ekvivalenseket jelölik, és így nem tartalmazzák a viv˝ofrekvenciát. Ugyanakkor az egyenle˝ teink általános érvényuek, segítségükkel minden sávhatárolt rendszer és jel leírható. Miután a gyakorlatban használt jelek és rendszerek mindig sávhatároltak, ezért a sávhatároltság feltételének teljesülését külön nem vizsgáljuk, hanem elfogadjuk axiómaként.
2. fejezet
Rendszermodell Az általános rendszermodell a 2.1. ábrán látható. El˝oször egy gyors vázlattal végignézzük, hol mi található, azután fejezetenként a modell alrendszereit vizsgáljuk külön-külön. A változókban megjeleno˝ k index minden esetben a k. felhasználóra utal. Feltételezésünk szerint az adóban egy diszkrét forrás állítja elo˝ az átvinni kívánt információt, amit egy megfelelo˝ forráskódoló tömörít, hogy sávszélesség hatékony legyen az átvitel. A tömörített bináris információt bk [i]-vel jelöljük az ábrán. A bináris információból egy csatorna kódoló és egy átszövo˝ után dk [i] szimbólumokat kapunk. A csatornakódoló eljárást és az átszövést nem részletezzük, egy fekete doboznak tételezzük fel, amelynek kimenetén a kódolt, átsz˝ott szimbólumok jelennek meg. A dk [i] szimbólumokat az elemi ˝ jel kerül a jelalakkal moduláljuk, az így el˝oállított xk (t) immár folytonos ideju csatornára. A csatorna torzító hatását a csatorna hk (t) impulzusválasz függvényével írhatjuk le. A csatornán azonban nem csak torzítást szenved a k. felhasználó jele, hanem más forrásokból érkez˝o, illetve a csatornán jelen lév˝o zaj is zavarja azt. A vev˝obe e massza érkezik, melyet y(t)-vel jelöltünk az ábrán. A kérdés az, hogy hogyan demoduláljunk, illetve detektáljunk a három vonallal bekereten o ˆ zett dobozban, a lehet˝o legkisebb hibával (azaz úgy, hogy Pr dk [i] 6= dk [i] minimális legyen). Ha minimális hibával tudunk demodulálni, akkor a csatorna dekódoló és visszaszöv˝o után is minimális lesz a hibás bitek száma a biadó
sk (t) ? bk [i] csat. kódoló dk [i] elemi jelalak interleaver moduláció
más felhasználók jelei xk (t) csatorna ? n(t) - +f hk (t) csatorna y(t)
ˆbk [i] csat. dekódoló dˆk [i] demoduláció deinterleaver vétel
? vev˝o
2.1. ábra. A mobil kommunikációs rendszer blokkvázlata 11
FEJEZET 2. RENDSZERMODELL
12
n o náris adatfolyamban (azaz Pr ˆbk [i] 6= bk [i] is minimális lesz). Vegyük észre,
hogy az utóbbi állítást nem bizonyítottuk. Nem is lehet bizonyítani, mert nem mindig igaz. Manapság kerülnek a tudományos érdeklo˝ dés el˝oterébe olyan megoldások, melyekben a vételi és csatorna dekódoló, visszaszövo˝ funkciók ˝ megvalósításával jobb hatásfokot tudnak elérni. Egy bevezeto˝ kuregyideju zusnak azonban nem lehetncélja ilyen, nagy bonyolultságú eljárások részleo ˆ ˝ minimalizálására tötezése. Ezért csupán a Pr dk [i] 6= dk [i] valószínuség
rekedünk a jegyzet keretein belül és elfogadjuk, hogy ezáltal a bithibaarány is minimális lesz. Így mentesülünk a csatorna kódoló-dekódoló és átszövo˝ visszaszöv˝o eljárások ismertetését˝ol.
2.1. Az adó oldala A 2.1. ábra bal fels˝o sarkában szaggatott vonallal bekeretezett három blokk részletezése helyett két matematikai szimbólum, a dk [i] szimbólumok és az sk (t) aláírási hullámforma leírásával foglalkozunk. A fejezet végén felírjuk az adóból távozó jel matematikai alakját is.
2.1.1. A szimbólumok
szimbólum: az elemi adategység neve szimbólumid˝ o: az az id˝ointervallum, amíg egy szimbólum tart konstellációs diagram: a komplex számsíkon ábrázolt lehetséges szimbólumértékek halmaza
Tételezzük fel, hogy K darab felhasználó ad aktívan a csatornában. A felhasználók bináris adatokat kívánnak a mobil csatornán átjuttatni. Legyen bk [i] az k-adik felhasználó i-edik bitje (k = 1, 2, . . . , K, bk [i] ∈ {−1, +1}). Az adatbiteket el˝oször csatornakódolásnak vetjük alá, majd egy úgynevezett „interleaver” keveri meg a szimbólumokat, hogy a burst-ös hibák ellen védettebb legyen az adatfolyam [1]. A kódolt, megkevert szimbólumokat dk [i]-vel jelöljük, ahol k továbbra is a felhasználót jelöli, i pedig az ido˝ pillanatra vonatkozik. Vegyük észre, hogy a dk [i] már nem bináris elemeket (biteket) takar, ˝ szimbólumokat. A szimbólum szó használatát ezért hanem komplex értéku hangsúlyozzuk ebben a kontextusban. Egy szimbólum tartási idejét T -vel jelöljük, és szimbólumid˝onek hívjuk. A dk [i] szimbólumok lehetséges értékeinek halmazát A-val jelöljük. Az A halmaz elemeit az alkalmazott modulációs technika határozza meg, kAk-val jelöljük az A halmazban lév˝o különböz˝o elemek számát. Az A halmazt – a lehetséges szimbólumok halmazát – a legszemléletesebben a konstellációs diagramon lehet ábrázolni. Mivel a komplex alapsávi ekvivalenssel dolgozunk, a konstellációs diagram is két dimenziós; a valós tengelyt fázisban lévo˝ (In phase – I), a képzetes tengelyt kvadratúra (Quadrature – Q) összetevo˝ nek nevezzük. Az A halmaznak ki kell elégítenie a normalizáltság feltételét: 1 X |di |2 = 1. kAk ∀di ∈A
Néhány példát tekintünk át a következ˝o alfejezetekben.
˝ zés Bináris fázisbillentyu ˝ A bináris fázisbillentyuzés (Binary Phase Shift Keying – BPSK) moduláció esetében két értéke lehet a szimbólumoknak dk [i] = ±1. Nem a 0 és az
2.1. AZ ADÓ OLDALA
13 Q 6 1 c
c 1 I
2.2. ábra. A BPSK moduláció konstellációs diagramja Q 6 1 c
c
1
c I
2.3. ábra. A 3ASK moduláció konstellációs diagramja 1 értékeket rendeljük hozzá a lehetséges szimbólumok halmazához, hanem a +1, −1 értékeket. Ennek az oka az, hogy az egyenleteinkben szorzótagként jelenik meg a szimbólum, mindkét lehetséges szimbólumértéknek azonos energiát biztosítva. A 2.2. ábrán láthatjuk a BPSK rendszerek konstellációs diagramját. A tengelyeket metsz˝o rövid szakasz az egység helyét jelöli, az üres karikák pedig a lehetséges szimbólumokat. ˝ zés Amplitudóbillentyu ˝ Az amplitudóbillentyuzés (Amplitude Shift Keying – ASK) még valós, de ˝ modulációs technika. Lényegét tekintve az amplitudószinmár többértéku tek különböz˝osége hordozza az információt. Az ASK elé írt szám határozza meg, hogy hány darab amplitudószint lehetséges, a szomszédos szintek közötti távolság pedig egyenl˝o kell legyen. E két tulajdonság a normalizáltság feltételével együtt meghatározza q a lehetséges q q szimbólumértékek halmazát. Például 3ASK esetében A = {− {− √35 , − √15 , √15 , √35 }.
3 11 ,
3 11 ,
12 11 },
vagy 4ASK estében A =
A 2.3. ábrán láthatjuk a 3ASK rendszer konstellációs di-
agrammját.
Kvadratúra amplitudómoduláció A kvadratúra amplitudómoduláció (Quadrature Amplitude Modulation – ˝ Úgy, QAM) több különböz˝o modulációt takar és már komplex értékkészletu. mint az ASK esetében, a QAM-nél is egy számmal jelöljük, hogy hány eleme
FEJEZET 2. RENDSZERMODELL
14 Q c6 1 c
c
c
c
1
c
c I
c 2.4. ábra. A 8QAM moduláció konstellációs diagramja
c
c
c
c
c
c
c
c
c
c
Qc c 6 1 c c
c
c
c
c
c
c
c
c
c
c
c
c
c
c
c c 1 cI c
2.5. ábra. A 32QAM moduláció konstellációs diagramja van az A halmaznak. A szomszédos elemek közötti távolság továbbra is állandó. Ha nem kerül szám a QAM rövidítés elé, akkor a 4QAM az alapértelmezés. A 4QAM esetében 1 1 1 1 A = √ (1 + j), √ (1 − j), √ (−1 + j), √ (−1 − j) , 2 2 2 2 8QAM esetében pedig ) ( √ √ 1 1+ 3 1+ 3 √ (±1 ± j), ± √ √ , ±√ √ j . A= √ 3+ 3 3+ 3 3+ 3 A 8QAM modulációhoz tartozó konstellációs diagram a 2.4. ábrán látható. A nagyobb bonyolultságú – több halmazelemet tartalmazó – QAM modulációs halmazokat hasonlóképpen kell elo˝ állítani. A teljesség igénye nélkül a 32QAM modulációt jellemz˝o konstellációs diagramot a 2.5. ábrán ábrázoltuk. ˝ A kvadratúra fázisbillentyuzés (Quadrature Phase Shift Keying – QPSK) moduláció esetében dk [i] ∈ {±1, ±j}. Vegyük észre, hogy a QPSK gyakorlatilag a 4QAM moduláció 45 fokkal elforgatott verziója, így nem kell külön tárgyalnunk.
2.1.2. Aláírási hullámforma hullámforma aláírás: A felhasználók a közös csatornán a hullámforma aláírásuk alapján kü˝ jel, lönböztethet˝oek meg. A k-adik felhasználó komplex alapsávi hullámformáolyan folytonos ideju mely minden ját sk (t)-vel jelöljük, ahol t a folytonos id˝ot jelöli. A hullámforma lehetséges felhasználót ˝ azonosít egyértelmuen
2.1. AZ ADÓ OLDALA
15
konkrét matematikai alakjait a kés˝obbi alfejezetekben részletezzük. A hullámforma lehet véges és végtelen tarjójú. A hullámforma véges tartójú, ha véges tartó: ido˝ ben véges létezik véges A szám és véges Ts (tartó)érték, amire intervallumon különbözik nullától sk (t) = 0 t∈ / [A, A + Ts ). A véges tartójú hullámforma aláírás egy speciális esete az, amikor az sk (t) tartója azonos a szimbólumid˝ovel, azaz Ts = T . A szimbólumid˝o tartójú rend˝ szerek jelent˝os egyszerusítésekkel tárgyalhatók, viszont nem realisztikusak. A könyebb érthet˝oség érdekében azonban a kés˝obbiekben alkalmazzuk o˝ ket. Adott esetben azonban el˝ofordulhat, hogy végtelen tartója van a hullámforma aláírásnak. Ekkor nincs olyan intervallum, melyen kívül nullának tekinthet˝o a hullámforma értéke. Bár véges sávszélességhez csak végtelen tartó tartozhat, a valós rendszereket véges tartójúnak szoktuk tekinteni. A valós rendszerekben ugyanis egy el˝oírt ε értéknél kisebb függvényértékeket nem veszünk figyelembe, zajnak tekintjük. A véges tartó méretét az elo˝ írt ε értékhez a Ts = max {|sk (t)| > ε} − min {|sk (t)| > ε} t
t
kifejezés alapján kaphatjuk meg. ˝ és komplex értéku ˝ függvények. A Az s1 (t), s2 (t), . . . , sK (t) folytonos ideju hullámformák normalizáltak az L2 térben, azaz fennáll a (2.1)
hsi (t), si (t)i = 1
egyenl˝oség, ahol a (??) egyenletben definiáltuk a komplex skaláris szorzás ˝ muveletét. Természetesen ha a hullámformák véges tartójúak, akkor az integrálást is elég a véges intervallumon elvégezni. Ideális körülmények esetén a csatornák között nincs áthallás. A csatornák elkülönítését a hullámformák közötti korrelálatlanság biztosítja. A hullámformák közötti korrelálatlanságot matematikailag az alábbi egyenlet írja le: hsi (t), sk (t)i = 0,
ha i 6= k.
(2.2)
Sajnos valós körülmények között a (2.2) feltétel nem, vagy csak nehezen teljesíthet˝o. Frekvenciaosztásos többszörös hozzáférés Ha a felhasználóknak különböz˝o frekvenciasávokat osztunk ki – azaz a felhasználókat frekvenciájuk alapján különböztetjük meg egymástól –, akkor több felhasználót is kiszolgálhatunk ugyanazon a csatornán. Az sk (t) hullámforma aláírás impulzus amplitudó moduláció (Pulse Amplitude Modulation – PAM) esetén FDMA rendszerben a következ˝o alakot ölti: sk (t) = ejk(∆ω)t · ∆Ts (t),
(2.3)
ahol k egész szám, (∆ω) pedig egy minimálisan elo˝ írt frekvenciatávolság, amelyet a kés˝obbiekben ki is számítunk. A kifejezés jobb oldalán szereplo˝ ∆Ts (t) egy tartó, amely 0 és Ts között különbözik nullától. A függvény ezen az intervallumon konstans értéket vesz fel, mellyel egységnyi energiájú lesz az sk (t)
végtelen tartó: nem létezik zárt intervallum, melyen kívül nulla a függvényérték
FEJEZET 2. RENDSZERMODELL
16
R∞ függvény (azaz mellyel az −∞ |sk (t)|2 dt = 1 feltétel teljesíthet˝o). Nem bonyolult kiszámolni, hogy az √1T érték esetén a feltétel teljesíthet˝o. A ∆τ (t) s függvényt a kés˝obbiekben is alkalmazni fogjuk, ezért külön egyenletben is definiáljuk: 1 √ , ha 0 ≤ t < τ, τ (2.4) ∆τ (t) = 0 egyébként. A (∆ω) sávszélességet úgy kell megválasztani, hogy a szomszédos felhasználók elkülöníthet˝oek legyenek egymástól. Ha a (2.2) egyenlet alapján matematikailag akarjuk ugyanezt megfogalmazni, akkor tetszo˝ leges k-ra hsk (t), sk+1 (t)i = 0
kell, hogy legyen. A módosított (2.2) egyenletbe (2.3) képletet behelyettesítve azt kapjuk, hogy E D ejk(∆ω)t · ∆Ts (t), ej(k+1)(∆ω)t · ∆Ts (t) = 0, ami integrál alakban (a véges tartók miatt csak 0 és Ts között kell integrálni): Z Ts ejk(∆ω)t e−j(k+1)(∆ω)t dt = 0 0
Z
Ts
e−j(∆ω)t dt = 0
0
1 −j(∆ω)Ts −1 =0 e j(∆ω) 2 −j(∆ω)Ts /2 1 j(∆ω)Ts /2 e e − e−j(∆ω)Ts /2 = 0 (∆ω) 2j 2 −j(∆ω)Ts /2 (∆ω)Ts e sin = 0. (∆ω) 2 −
s Az utóbbi egyenl˝oség csak úgy biztosítható, ha sin (∆ω)T = 0, azaz 2
(∆ω)Ts = `π, 2 ahol ` egész szám. Hogy a lehet˝o legkisebb sávszélességet kapjuk ` értékét a lehet˝o legkisebbre kell választani, hiszen (∆ω) egyenesen arányos `-lel. Ezért ` = 1 választással élünk (` nem lehet nulla, hiszen akkor (∆ω) = 0 lenne, azaz minden felhasználó ugyanazt a frekvenciát használná), melyre (∆ω)min =
2π , Ts
avagy ∆fmin =
1 . Ts
A (2.3) képletben Ts értékét azért kell véges értéken tartani, mert az egymást követ˝o szimbólumok nem elkülöníthet˝oek el egymástól, ha véges a tartó. Gyakorlatban el˝ofordul ugyan, hogy (elvileg) nem véges a tartó – például GSM˝ függvényt alkalmazunk, haben –, ekkor azonban nem egy konstans értéku nem egy megfelel˝o tulajdonságokkal rendelkez˝o (t) elemi jelalakot. Az alkalmazott függvénynek teljesíteni kell az alábbi kritériumokat:
2.1. AZ ADÓ OLDALA
17
• könnyen detektálható, • az értékkészlete véges (lineáris er˝osít˝o!), • a szimbólumközi áthallás valamilyen módon könnyen kezelheto˝ , • az elemi jelalak (t) sávszélessége kisebb, mint a csatornák közötti frekvenciatávolság (∆ω). Ortogonális frekvenciaosztásos multiplexálás Egy pillantást vetve a (2.3) képletre egy olyan rendszer vázlata is eszünkbe juthat, melyben csak egyetlen felhasználó ad, de párhuzamosan több ortogonális csatornán. Az ortogonális frekvenciaosztásos multiplexálás (Orthogonal Frequency Division Multiplexing – OFDM) lényege az, hogy a fading hatások ellen több viv˝o alkalmazásával próbálunk védekezni. Mindegyik vivo˝ n külön információt viszünk át; a keskenysávú fading csak néhányat tud zavarni, így ˝ a csatornadekódolóval együttmuköd˝ o vev˝o hatékonyabban tudja visszaalakítani az átvitt csomagokat. Az OFDM rendszert leíró hullámforma aláírást a modellünk segítségével nem lehet felírni, mert az nem támogatja a párhu˝ jel zamosítást. Helyette az OFDM adó kimenetén megjeleno˝ folytonos ideju alakját írjuk itt fel, amely a következ˝o alakot ölti: xk (t) =
C−1 X i=0
ejωi t · ∆Ts (t)dk [i + 1].
(2.5)
Kódosztásos többszörös hozzáférés A kódosztásos többszörös hozzáférésnek négy alapveto˝ típusa van: a direkt szekvenciális és a többviv˝os kódosztásos hozzáférés, a gyors és a lassú frekvenciaugratásos kódosztás. Míg az utóbbi ketto˝ alapvet˝oen egyfelhasználós rendszereket jellemez, az els˝o kett˝o széles körben alkalmazott többszörös ˝ rendszerekben (pl. IS–95, UMTS). A direkt szekvenciális és többhozzáférésu viv˝os, valamint a gyors frekvenciaugratásos rendszereket ebben a fejezetben tárgyaljuk. Direkt szekvenciális (Direct Sequence – DS-CDMA) esetben a hullámforma aláírás az alábbi alakot ölti: sk (t) =
C−1 X i=0
Sk [i] · (t − iTc ),
(2.6)
ahol C a chipek számát jelöli, és gyakran azonos a feldolgozási nyereséggel (Processing Gain – PG). A képlet közepén látható Sk [i] chipek sorozata a kadik felhasználó kódját adja. Az (t) függvény az elemi jelformát jelképezi, az argumentumában látható Tc pedig a chipid˝o jele. A gyakorlati megvalósításokban a szimbólumid˝o egyenl˝o a chipid˝o és a chipek számának szorzatával (T = C · Tc ). ˝ A (2.6) képletet úgy egyszerusíthetjük, hogy (t) helyére ∆Tc (t)-t írunk. Ezzel könnyebben vizualizálhatóvá válik a DS-CDMA hullámforma. A kereszt-
FEJEZET 2. RENDSZERMODELL
18
korrelációra el˝oírt feltétel, melyet (2.2) képletben láthatunk az alábbi alakra ˝ egyszerusödik ebben az esetben: C−1 X
Sk [i]Sl∗ [i] = 0.
i=0
Egy jól ismert bináris kódcsalád a Walsh-Hadamard féle, amely kielégíti ezt a feltételt. A Walsh-Hadamard kódokat tartalmazó Wk mátrixot az alábbi mátrixrekurzióval állítjuk el˝o: Wk Wk Wk+1 = , (2.7) Wk −Wk ahol Wk egy 2k × 2k mátrix, melynek soraiban – vagy oszlopaiban – egy kód chipjei (Sk [i]) találhatóak. A rekurzió kiindulási mátrixa W0 = 1 alakban adott. Például k = 2-re az alábbi módon néz ki a mátrix: +1 +1 +1 +1 +1 −1 +1 −1 W2 = (2.8) +1 +1 −1 −1 . +1 −1 −1 +1 A lehetséges kódok a sor- vagy oszlopvektorok elemeibo˝ l olvashatóak ki. Így például érvényes kód a [+1, −1, −1, +1], amely a legalsó sorvektorból, vagy az utolsó oszlopvektorból olvasható ki. A (2.2) egyenletet a mátrix önmagával vett szorzatával bizonyítjuk. Ha minden k értékre igaz a Wk · WkT = K · I
(2.9)
egyenl˝oség, ahol K egy konstans, I pedig az egységmátrix, akkor a (2.2) teljesül (gondoljunk bele!). A (2.7) egyenletet behelyettesítve azt kapjuk, hogy 2 2 · Wk−1 0 , Wk · WkT = 2 0 2 · Wk−1 minden k-ra. Mivel a mátrix hatványozás nem változtat a A 0 0 A típusú mátrixok szerkezetén (a nullák helyén továbbra is nullák lesznek), csak a diagonálisban lehetnek nullától különböz˝o elemek, illetve K értéke a (2.9) egyenletben egyenl˝o lesz 2k -nal. Többviv˝os (Multi-Carrier – MC-CDMA) kódosztás esetében a hullámforma aláírás alakja az alábbi formára módosul: sk (t) =
C−1 X i=0
Sk [i]ejωi t · (t),
(2.10)
ahol C az alviv˝ok számát jelöli. Minden alviv˝ohöz egy Sk [i] chip tartozik, az i-edik alviv˝o frekvenciáját pedig ωi -vel jelöltük. A gyakorlatban ωi = i(∆ω), ahol (∆ω) az alviv˝ok közötti frekvenciatávolság. Az (t) függvény itt is az elemi ˝ jelformát jelöli. A hatékony muködés érdekében (t) sávszélessége tipikusan
2.1. AZ ADÓ OLDALA
19
kisebb, mint (∆ω), de el˝ofordulnak olyan rendszerek is – például a többtónusú (Multi-Tone – MT-CDMA) kódosztásos rendszer –, ahol ez a feltétel nem teljesül. Ekkor a vev˝oben az átlapolódó sávok problémáját is kezelni kell. A gyors frekvenciaugratásos rendszert alapveto˝ en egyfelhasználós csatornákon alkalmazzák, de nem kizárt a többfelhasználós alkalmazása sem. A gyors és lassú frekvenciaugratás között az a különbség, hogy a frekvenciaváltás ütemezése kisebb, vagy nagyobb-e a jelzési sebességnél. Mivel modellünkben az sk (t) hullámformát minden szimbólum alatt azonosnak tételezzük fel, csak olyan hullámformát tudunk felírni, melynek periódusa T . A hullámforma aláírás a gyors frekvenciaugratás esetében, ha T = C · Tc : sk (t) =
C−1 X i=0
ejSk [i](∆ω)t (t − iTc ),
ahol C a kód hossza, (t) az elemi jelalak.
2.1.3. Kisugárzott és vett jel Attól függ˝oen, hogy az uplink, vagy a downlink csatornán sugárzott jelr˝ol van szó, két külön esettel kell foglalkoznunk. A downlink esetben a jelek el˝oször összegz˝odnek, majd az szuperpozíciójuk kerül a csatornára. Az összegzett jel egységesen torzul, a vev˝o bemenetére a szuperponált jel torzult alakja érkezik. Uplink esetben az adók külön-külön kisugározzák saját adásukat, azok külön torzulnak a csatornán, majd a torzult jelek szuperpozíciója kerül a vev˝o bemenetére. A különbség abban rejlik, hogy a jel összegzés elo˝ tt, vagy az után torzul a csatornán. A kétféle megközelítés kétféle modellt fog eredményezni, ahogyan azt a kés˝obbiekben látni fogjuk. A továbbiakban is a rövidség kedvéért uplink és downlink szavakkal hivatkozunk e két esetre. El˝oször nézzük meg, hogy mit sugároz ki az adó. A k-adik felhasználó által kisugárzott komplex alapsávi jelet xk (t)-vel jelöljük ami a következ˝o formában írható: X dk [i]sk (t − iT ), (2.11) xk (t) = Ak i
ahol az Ak a k-adik felhasználót jellemz˝o komplex amplitudóérték. A komplex alapsávi modell miatt eltekinthetünk a vev˝ofrekvenciát jelképez˝o tag kiírásától, és a fáziscsúszást is egyetlen komplex szorzótényezo˝ be tudjuk kiírni. ˝ hul Uplink esetben a folytonos ideju k (t) függvény írja le a k-adik felhasználót jellemz˝o id˝oinvariáns csatornát. Downlink esetben minden felhasználót ugyanaz a csatorna jellemez, így hdl o a bázisállomás és a k-adik k (t)-vel jelölhet˝ vev˝o közötti id˝oinvariáns csatorna. A vev˝o bemenetére érkez˝o jel – amelyet y(t)-vel jelölünk a bázisállomáson és yk (t)-vel a k-adik mobil állomáson – uplink esetben a következ˝o: X (2.12) y(t) = hul k (t) ∗ xk (t) + n(t), k
ahol n(t) a csatornán lév˝o fehér Gauss zajt jelöli. Downlink esetben: ! X xk (t) + n(t). yl (t) = hdl l (t) ∗ k
(2.13)
uplink: a mobil állomástól a bázisállomás felé irányuló kommunikációs csatorna downlink: a bázisállomástól a mobil állomás felé irányuló kommunikációs csatorna
FEJEZET 2. RENDSZERMODELL
20
˝ uség ˝ ˝ fehér folyamatnak tételezzük Az n(t) zajt kétoldalas N0 spektrális sur u, fel. Fehérségét – vagy korrelálatlanságát – a következo˝ matematikai egyenlettel fejezhetjük ki: E {n(t)n∗ (t + τ )} = N0 · δ(τ ),
(2.14)
ahol δ(τ ) a Dirac-delta, azaz nullát ad eredményül, ha argumentuma nem egyezik meg nullával, és egyet ad, ha argumentuma nulla. Bár modellünkben a csatornát id˝oinvariánsnak tételezzük fel, a modell könnyedén kiterjeszthet˝o az id˝ovariáns esetre is, ekkor a h(t) függvények ar˝ paraméter. Err˝ol a 2.2. fejegumentumában megjelenik még egy id˝o jellegu zetben olvashatunk b˝ovebben. Ha az uplink és downlink csatornákat ido˝ ben megosztott módon különítik el egymástól, akkor id˝oosztásos duplexálásról (Time Division Duplexing – TDD) beszélünk. Ekkor az id˝oinvariáns uplink és downlink csatornák megdl egyeznek, azaz hul ofordulhat, hogy az k (t) = hk (t). A TDD módon kívül el˝ uplink és downlink kommunikáció különbözo˝ frekvenciasávokban zajlik, ezt nevezzük frekvenciaosztásos duplexálásnak (Frequency Division Duplexing – FDD). FDD esetben általában a downlink és uplink csatornák különbözo˝ ek, dl azaz általában hul k (t) 6= hk (t). Kódosztásos duplexálást nem szoktak rádiós berendezésekben alkalmazni a gyakorlatban, mert nagyon nehéz lenne elektronikailag megvalósítani az egyidejú adást és vételt ugyanabban a frekvenciasávban.
2.2. A csatorna modelljei ˝ módon leírhatjuk a hk (t) függvénnyel, amely a A csatornát egyértelmu csatorna impulzusválaszát jelenti. A hk (t) függvény alakja alapján különböz˝o csatornamodellekr˝ol beszélhetünk. Itt nem célunk a csatornamodellek részletes leírása, csak egy rövid bemutatót kívánunk adni, hogy a késo˝ bbiekben alkalmazott levezetéseknél ne érjék meglepetésként az olvasót az alapveto˝ modellek. Ebben a részben a csatorna természetér˝ol fogunk szólni, amely csatorna lehet uplink és downlink egyaránt. Ezért az „ul” és „dl” rövidítéseket elhagyjuk a következ˝okben, állításaink mindkét esetben megállják helyüket. Az additív fehér gaussi zajjal terhelt csatorna (Additive White Gaussian ˝ Noise – AWGN) a legegyszerubb modell. Gyakorlatilag rádiós csatornán soha ˝ nem fordul el˝o, de segítségével rengeteg levezetésben lényegesen egyszerubb formára juthatunk egyenleteinkkel. Szinkron AWGN esetben a csatorna impulzusválaszát a hk (t) = αk δ(t)
(2.15)
kifejezés adja meg minden k értékre, ahol αk a k-adik felhasználót jellemz˝o csillapítás. Miután a hk (t) értékkel konvolúciót hajtunk végre, ez annyit jelent, hogy a bejöv˝o jellel nem csinálunk semmit csak csillapítjuk egy αk szorzóval, a kimeneten a csillapított jel jelenik meg. A csatorna hatása persze a gaussi zajban is megnyílvánul. Eggyel bonyolultabb, de mobil környezetben még mindig nem realisztikus modell az aszinkron AWGN csatorna, amely az alábbi képlettel írható le: hk (t) = αk δ(t − τk ),
(2.16)
2.2. A CSATORNA MODELLJEI
21
hk (t) 6 αk1 6 τk1
αk4 6 αk2 αk3 6 6 τk4 t τk2 τk3
2.6. ábra. Példa id˝oinvariáns csatorna-impuzlusválaszra azaz az el˝oz˝o esethez képest egy τk késleltetés is jellemez minden felhasználót. A felhasználók jele nem egy id˝oben – szinkron módon – érkezik a vevo˝ bemenetére, hanem mindegyik felhasználóé más és más késleltetéssel – aszinkron módon. Ezért nevezzük a (2.16) csatornát aszinkron AWGN csatornának. A következ˝o modell, amely mobil környezetben már realisztikus lehet, az id˝oinvariáns, többutas, fadinges csatorna, melyet az alábbi egyenlettel definiálhatunk hk (t) =
Lk X l=1
αkl δ(t − τkl ),
(2.17)
˝ össze, melyekb˝ol Lk daahol az l változóval jelzett szumma a jelutakat gyujti rab van. A k-adik felhasználó l-edik jelútjára αkl csillapítás és τkl késleltetés jellemz˝o. A (2.17) egyenletben szerepl˝o paraméterek nem függenek az id˝ot˝ol, ezért a csatornát id˝oinvariánsnak nevezzük. Az id˝oinvariáns csatornamodell alkalmas rövid csomagok átvitelét torzító csatornák leírására, például a GSM rendszer börsztös átvitelének modellezésére. Egy lehetséges valós csatorna reprezentációját láthatjuk a 2.6. ábrá Az id˝ovariáns csatornamodellre akkor van szükség, amikor az adatátvitel ideje alatt a csatorna nem tekinthet˝o állandónak. Példaként az FDD módban üzemel˝o UMTS berendezés folytonos adatátvitelét említhetjük. Ido˝ variáns csatorna esetében a csatornát leíró impulzusválasznak nem csak egy ido˝ argumentuma van; szükségünk lesz egy id˝oparaméterre a konvolúcióhoz (ezt τ val fogjuk jelölni) és egy paraméterre az id˝ofügg˝oség leírásához (amely marad t). Ezért az elkövetkez˝okben hk (t) helyett hk (t, τ )-t írunk majd. A konvolúció ˝ muveletét például az uplink esetben (2.12) az alábbi módon kell végrehajtani: X y(t) = hk (t, τ ) ∗ xk (t) + n(t) (2.18) k
=
XZ k
∞
−∞
hk (t, τ )xk (t − τ ) dτ + n(t).
A downlink eset hasonlóképpen kezelheto˝ . Az id˝ovariáns többutas fadinges csatorna minden mobil alkalmazásban megfelel˝o modell lehet, alakja Lk (t)
hk (t, τ ) =
X l=1
αkl (t)δ(τ − τkl (t)).
(2.19)
Mint az az egyenletb˝ol látható nem csak a csillapítás és késleltetés értékek változhatnak t-vel, hanem az utak száma (Lk (t)) is lehet id˝oben változó. Matematikailag egy rendszert nagyon nehéz leírni ilyen bonyolultságú csatornamodellel, ezért levezetésekben nem alkalmazzuk a (2.19) képletet. A könnyebb
FEJEZET 2. RENDSZERMODELL
22
hk (t, τ ) 6 6 6 6 6 6 6 6 6 6 6 6 6 66 --τ 6 6 6 6 6 t 2.7. ábra. Példa id˝ovariáns csatorna-impuzlusválaszra érthet˝oség kedvéért a 2.7. ábrán láthatjuk a 2.6. ábra id˝ovariáns verzióját. Itt azonban nem tüntettük fel a paramétereket, hogy elkerüljük a káoszt az ábrán. Vegyük észre, hogy a késleltetés és csillapítás értékek is változnak az ido˝ (t) függvényében. S˝ot, ahogy telik az id˝o, megjelenik egy új terjedési komponens (azaz Lk értéke négyr˝ol ötre növekszik).
2.3. A vev˝ o oldala Mivel az uplink és downlink kommunikációt két külön egyenlettel jellemezhetjük (lásd (2.12) és (2.13) egyenleteket), további vizsgálatainkban is két ösvényt kellene járnunk. E helyett azonban csak az uplink esetre írjuk fel egyenleteinket, melynek két oka van: ˝ • A downlink csatorna lényegesen egyszerubben kezelhet˝o a valóságban. Például pilot-jel alkalmazásával koherens vétel valósítható meg minden mobilállomáson. • Egyenleteink könnyen átalakíthatóak a downlink esetre. Ott ugyanis a szuperponált jeleket torzította egy egységes csatorna. Az utóbbi állítást matematikailag úgy bizonyíthatjuk, hogy ha minden k-ra az dl hul k (t) = hl (t) helyettesítéssel élünk a (2.13) egyenlet esetében, akkor a (2.12) alakot kapjuk vissza. A két eset tehát azonosan kezelheto˝ . Ezért a továbbiakban egységesen az uplink esetre vonatkoznak egyenleteink, bár az „ul” rövidítést elhagyjuk. A vev˝o bemenetére érkez˝o jel a következ˝o alakban írható fel, ha K aktív felhasználó van a rendszerben: y(t) =
K X
k=1
=
K X
hk (t) ∗ xk (t) + n(t) Ak
X i
k=1
(2.20)
dk [i](hk (t) ∗ sk (t − iT )) + n(t).
Nevezzük most el ck (t)-nek a hk (t) ∗ sk (t) értékét. A ck (t) segítségével ugyanis ˝ (2.20) a következ˝o alakra egyszerusíthet˝ o: y(t) =
K X
k=1
Ak
X i
dk [i]ck (t − iT ) + n(t).
(2.21)
˝ OLDALA 2.3. A VEVO
23
Mint látható ck (t) bevezetése ügyes trükk volt, hiszen a csatornamodellto˝ l függetlenül mindig ugyanazt az alakot kapjuk, így nem kell külön-külön bajlódni a különböz˝o csatornákra vonatkozó egyenletekkel. ˝ o építése, mellyel a kimeneten diszkrét, folytonos értékCélunk egy szur˝ ˝ jeleket állíthatunk el˝o a bemeneten érkez˝o folytonos ideju ˝ jelb˝ol. A készletu „diszkretizálás” módja a következ˝o: veszünk egy folytonos ψi (t) jelet, melyb˝ol el˝oállítjuk az yi = hy(t), ψi (t)i diszkrét jelet. A diszkrét formára azért van szük˝ jelek nagyon nehezen kezelhet˝oek. A diszkrét jel ség, mert a folytonos ideju viszont már feldolgozható különböz˝o matematikai algoritmusokkal. Ugyanakkor nem szabad elfelejteni, hogy a diszkrét formára alakítás információvesztéssel jár. Két esetet fogunk alaposabban megvizsgálni. Az egyik az általános vevo˝ ˝ o a 2.3.1. fejezetben, amely minden esetet leír, de éppen emiatt nincsenek szur˝ ˝ o a 2.3.2. fejespeciális tulajdonságai. A másik a csatornához illesztett szur˝ zetben, amely rengeteg kellemes tulajdonsággal rendelkezik, viszont idealista ˝ feltételezések szükségesek a muködéséhez.
˝ r˝ 2.3.1. Általános vev˝ oszu o ˝ komplex érLegyen {ψ1 (t), ψ2 (t), . . . , ψM (t)} ∈ C(−∞, ∞) folytonos ideju, ˝ lineárisan független, folytonos függvények halmaza. A halmaztékkészletu, ban lév˝o függvények számát – a halmaz dimenzióját – M -mel jelöljük. A halmazt akkorára választjuk, hogy az megfelel˝oen kis hibával írja le a {c1 (t), c2 (t), . . . , cK (t)} hullámformák halmazát. Például minden i-re létezzen (aij ) sorozat mellyel Z ∞ X dt < ε, ci (t) − (2.22) a ψ (t) ij j −∞ j
ahol ε egy el˝ore rögzített konstans (a maximális hiba mértéke). Általánosan igaz, hogy tetsz˝olegesen kicsi ε értékhez létezik {ψi (t)} halmaz, melyre a (2.22) feltétel teljesíthet˝o. A legrosszabb esetben M >> K lesz. A ψk (t)-k lineáris függetlenségét úgy kell elképzelni, hogy hψj (t), ψk (t)i = 0, ha j 6= k. Egy lehetséges – és a gyakorlatban gyakran alkalmazott – választási leheto˝ ség a következ˝o: T ψi (t) = ∆T /M t − (i − 1) , (2.23) M
ahol ∆τ (t)-t a (2.4) egyenletben definiáltuk. A (2.23) egyenlet gyakorlatilag nem jelent mást, mint mintavételezést az adatfolyamból T /M ido˝ közönként. ˝ ubben ˝ Minél nagyobb az M mértéke, annál sur veszünk mintát, és annál pontosabban írhatjuk le a folytonos jelfolyamot. Természetesen nem muszáj a (2.23) egyenlet függvényét alkalmazni. Tetsz˝oleges más lineárisan független függvényrendszer alkalmas lehet a feladatra. OFDM demodulátorokban gyakran inverz Fourier-transzformációt alkalmaznak, mely szerint ψi (t) = eji(∆ω)t . Az ortogonalitás természetesen itt is biztosított lesz. A következ˝o jelöléseket vezetjük be: yi [l] = hy(t), Ai ψi (t − lT )i ,
(2.24)
FEJEZET 2. RENDSZERMODELL
24
(2.25)
ρik [l] = hci (t), Ak ψk (t − lT )i ,
(2.26)
ni [l] = hn(t), Ai ψi (t − lT )i .
˝ o Az adaptív és a vak eljárások, amelyekben nincsen csatornához illesztett szur˝ az yi [l] értékeket alkalmazzák arra a feladatra, hogy becslést adjanak az elküldött dk [i] szimbólumokra. Behelyettesítve a (2.24), a (2.25) és a (2.26) értékét (2.21)-be a következ˝o alakra jutunk: yi [l] =
K X X
k=1
szimbólumközi áthallás: a szimbólumok egymásra lapolódnak és így zavarják egymást többszörös hozzáférésb˝ ol adódó interferencia: több felhasználó adása zavarja egymást
j
ρik [l − j]dk [j] + ni [l],
(2.27)
amely M diszkrét értéket állít el˝o K felhasználó minden egyes szimbólumához. Ha a ρil [k] 6= 0 feltétel teljesül k 6= 0 esetén, akkor azt mondhatjuk, hogy szimbólumközi áthallás (intersymbol interference – ISI) van a csatornán. A többszörös hozzáférésb˝ol adódó interferencia (multiple access interference – MAI) a ρil [0] 6= 0, i 6= l feltétel teljesülése esetén fordul el˝o. Az esetek többségében mindkét interferenciahatás megtalálható a csatornán. A további matematikai analízis érdekében vezessük be az alábbi vektorokat és mátrixokat: d[l] = (d1 [l], d2 [l], . . . , dK [l])T , y[l] = (y1 [l], y2 [l], . . . , yM [l])T , n[l] = (n1 [l], n2 [l], . . . , nM [l])T , ρ11 [l] ρ12 [l] . . . ρ1K [l] ρ21 [l] ρ22 [l] . . . ρ2K [l] R[l] = . .. .. .. . .
ρM 1 [l] ρM 2 [l] . . . ρM K [l]
(2.28) (2.29)
.
(2.30)
(2.31)
A fent definiált vektorokkal és mátrixokkal (2.27) a következo˝ alakra hozható: y[l] = R[l] ∗ d[l] + n[l],
(2.32)
avagy
y[l] =
X i
R[l − i]d[i] + n[l].
(2.33)
Ha blokkokban továbbítjuk az adatainkat, azaz létezik hossza a dk [i] sorozat˝ nak i-ben, akkor egy egyszerubb egyenlethez juthatunk el. Legyen N a szimbólumok száma a blokkban. A vektorokat hipervektorokba, a mátrixokat hipermátrixokba rendezve d = (dT [1], dT [2], . . . , dT [N ])T ,
(2.34)
y = (yT [1], yT [2], . . . , yT [N ])T , n = (nT [1], nT [2], . . . , nT [N ])T , R[0] R[−1] . . . R[−N + 1] R[1] R[0] . . . R[−N + 2] R= , .. .. .. . . . R[N − 1] R[N − 2] . . . R[0]
(2.35) (2.36)
y = Rd + n,
(2.38)
(2.37)
˝ alakra juthatunk: a következ˝o egyszeru
krét csatornamátrix: segítségével diszkrét alakban írhatjuk le a csatorna hatását
˝ OLDALA 2.3. A VEVO
25
ahol az R mátrixot diszkrét csatornamátrixnak nevezzük. Vegyük észre, hogy általában az R nem kvadratikus mátrix – ahogyan R[i] sem volt az. Az egyetlen eset, amikor az R és az R[i] mátrixok kvadratikusak a K = M esete. Sajnos azonban még ekkor sem lehet általánosan olyan kedvezo˝ tulajdonságokat állítani a mátrixokról, ahogyan azt a 2.3.2. fejezetben tehetjük a csatornához ˝ o esetében. A lényeg az, hogy tetsz˝oleges csatornamodell és veillesztett szur˝ ˝ o esetében (2.38) felírható, ha a modulációs eljárás lineáris. v˝oszur˝ ˝ r˝ Általános vev˝ oszu o túlmintavételezett esetben Az sk (t) hullámforma aláírások tartója lehet [0, T )-nél nagyobb is, illetve a felhasználók jeleit torzító hk (t) csatorna is „kinyújthatja” a [0, T ) intervallumból a ck (t) függvény tartóját. Az eredmény az lesz, hogy az elso˝ szimbólum el˝ott, illetve az utolsó szimbólum után mintavételezve is kaphatunk felhasználható jelkomponenseket, hiszen a diszkrét y „kinyúlik” a szimbólumtartományon kívülre is. Matematikailag ez azt jelenti, hogy a (2.34) egyenlet ugyan érvényben marad, viszont a többi hipervektor definícióját módosítanunk kell a (2.35) és a (2.37) közötti egyenletekben. Az y vektor hosszabb lesz, és emiatt a zaj n vektorát is meg kell hosszabbítanunk, illetve az R mátrixot is torzítani kell. Az el˝o- és utómintavételezett elemek számát κe és κu egész számok jelölik. ˝ úgy érdemes megválasztani κe és κu értékét, hogy R[−κe ] és R[κu ] Célszeruen még nullától különböz˝o mátrixok legyenek, de R[−κe − 1] és R[κu + 1] már legyen zérusnak tekinthet˝o. A (2.35), a (2.36) és a (2.37) egyenletek az alábbi alakot veszik fel: y = (yT [1 − κe ], yT [2 − κe ], . . . , yT [N + κu ])T , n = (nT [1 − κe ], nT [2 − κe ], . . . , nT [N + κu ])T , R[−κe ] R[−κe − 1] . . . R[−N R[−κe + 1] R[−κe ] . . . R[−N R= .. .. . . R[N − 1 + κu ] R[N − 2 + κu ] . . .
+ 1 − κe ] + 2 − κe ] , .. .
R[κu ]
melyek ugyanúgy behelyettesíthet˝oek a (2.38) egyenletbe. A módosított egyenletek segítségével a vev˝o több információ birtokában hozhatja meg döntéseit az elküldött szimbólumokra vonatkozóan. A 2.8. ábrán láthatunk egy valós példát a túlmintavételezés szükségességére. Ha sima mintavételezést – lásd a (2.23) képletet – alkalmazunk, akkor az ábra példájában κu értéke kett˝o, míg κe értéke egy lesz, hiszen a ck (t) = hk (t) ∗ sk (t) függvény értéke a [−T, 3T ) intervallumon különbözik nullától. A diszkrét csatorna mátrix elhanyagolható elemei Az R diszkrét csatorna mátrix ρik [l] elemei között sok olyan található, mely nullához tart. Általában igaz például, hogy a felhasználók sk (t) hullámforma aláírása véges tartójú, és mivel a csatorna hk (t) impulzusválasza is véges tar˝ jelfeldolgotójú, a bevezetett ck (t) függvény tartója is véges lesz. A valós ideju zás megköveteli, hogy ψi (t) értékei is véges tartójúak legyenek (ha nem lenne
FEJEZET 2. RENDSZERMODELL
26 sk (t) 6
T
2T
3T t
−T
66 6 T c (t) k 6
2T
3T t
−T
T
2T
3T t
−T
hk (t) 6 6
2.8. ábra. Példa a túlmintavételezés szükségességére igaz, akkor végtelen ideig tartana a diszkrét yi [l] értékek el˝oállítása), ezért biztosan igaz, hogy lim ρik [l] = 0.
l→∞
Mitöbb, azt is mondhatjuk, hogy létezik egy κe és egy κu érték, hogy létezik (i, k) és (j, l) páros melyre ρik [−κe ] 6= 0
ρjl [κu ] 6= 0,
de minden (i, k) és (j, l) párosra ρik [−κe − 1] ≈ 0 ρjl [κu + 1] ≈ 0. sávmátrix: csak a Ekkor az R diszkrét csatorna mátrix sávmátrix lesz. Vegyük észre, hogy az diagonál közeli elemek el˝oz˝o alfejezetben alkalmazott κe és κu is hasonló jelentést hordoz, mint itt. különböznek nullától
˝ r˝ 2.3.2. A csatornához illesztett szu o ˝ o (Channel Matched Filter – CMF) egy speA csatornához illesztett szur˝ ciális esete a 2.3.1. fejezetben tárgyalt általános eljárásnak. A csatornához ˝ o egy olyan alkalmazás, amely képes adaptálódni a ck (t) függillesztett szur˝ vényekhez, és így ψk (t) értékeket ck (t) értékeivel helyettesíteni. Íly módon a ψ függvényekb˝ol álló vektor dimenziója meg fog egyezni K-val, a felhasználók ˝ onek K számával. Ebb˝ol az is következik, hogy a csatornához illesztett szur˝ ˝ o k-adik kimenete lesz egy szimbólumid˝o alatt. A csatornához illesztett szur˝ felhasználóra vonatkozó l-edik szimbólumát d˜l [k]-vel jelöljük. A d˜l [k] értékét y(t) · c∗l (t − kT ) integráljaként számíthatjuk ki, azaz d˜l [k] = hy(t), Al cl (t − kT )i ,
(2.39)
˝ OLDALA 2.3. A VEVO
27
ahol h., .i továbbra is a skaláris szorzat. A kimeneti érték – mint azt a késo˝ bbiekben matematikailag is bizonyítjuk – maximális jelenergiát biztosít speciális feltételezésekkel élve. Ha ρkl [i] a következ˝oképpen definiáljuk ρkl [i] = hck (t), cl (t − iT )i ,
(2.40)
akkor a (2.21) és a (2.39) alapján a (2.40)-t felhasználva a következo˝ egyenletet kapjuk: d˜l [m] =
K XX i
k=1
ρkl [m − i]dk [i] + n ˜ l [m],
(2.41)
ahol n ˜ l [m] = hn(t), cl (t − mT )i színes zajkomponens. Ahogyan azt a (2.28), a (2.29), a (2.30), és a (2.31) egyenletek esetében tettük, vektorokba és mátrixba szervezve a megfelel˝o változókat, a (2.41) a következ˝o alakra hozható: X ˜ R[m − i]d[i] + n ˜ [m]. (2.42) d[m] = i
A (2.34), a (2.35), a (2.36) és a (2.37) egyenletekhez hasonlóan hipermátrixba és hipervektorokba rendezve a mátrixokat és vektorokat a csatornához illesz˝ o kimenete a következ˝o egyszeru ˝ alakot ölti: tett szur˝ ˜ = Rd + n d ˜.
(2.43)
˝ o használatával a diszkrét csatornamátrix R kelCsatornához illesztett szur˝ lemes tulajdonságokat örököl. A kellemes tulajdonságokat az alábbiakban foglaljuk össze: • R[i] szimmetrikus, azaz R[i] = RH [−i], minden i-re, • R hermitikus, azaz RH = R. Nem csak az R mátrixról mondhatunk el különleges tulajdonságokat. Az n ˜ ˝ kiszámíthatdiszkrét zajvektor kovariancia mátrixát (E n ˜n ˜ H ) is egyszeruen juk Z ∞ Z ∞ ∗ ∗ ∗ E {˜ ni [l]˜ nk [m]} = E n(t)n (τ )ci (t − lT )ck (τ − mT ) dt dτ = −∞ −∞ Z ∞Z ∞ = E {n(t)n∗ (τ )} c∗i (t − lT )ck (τ − mT ) dt dτ = −∞ −∞ Z ∞ ck (t − mT )c∗i (t − lT ) dt = = N0 −∞
= N0 ρki [l − m],
˝ o kimenetén megjelen˝o zaj kovarianciamátrixa arányos azaz az illesztett szur˝ a diszkrét csatornamátrixszal: H = N0 R. (2.44) E n ˜n ˜ Az arányosság tényét kihasználjuk a késo˝ bbiekben.
FEJEZET 2. RENDSZERMODELL
28
˝ r˝ A csatornához illesztett szu o optimalitása ˝ o esetében a ψk (t) = ck (t) Az el˝oz˝oekben beláttuk, hogy az illesztett szur˝ választással a diszkrét csatorna mátrix (R) hermitikus alakot vesz fel. Ugyanakkor nem mondtuk el, hogy miért jó nekünk, ha ezzel a választással élünk, ˝ ot. Az alábbiakban bebizoilletve hogyan valósíthatunk meg illesztett szur˝ ˝ o, ugyanakkor nyítjuk, hogy bizonyos szituációkban ideális az illesztett szur˝ mutatunk eseteket, amikor kiviláglanak hibái. A következo˝ alfejezet pedig a Gereblye vev˝ot mutatja be, mellyel a gyakorlatban is megvalósíthatjuk az il˝ ot. lesztett szur˝ ˝ esetet. Legyen egyetlen felhasználó jelen a csatorVegyünk egy egyszeru nán a (2.43) által leírt egyenletben. Ekkor a (2.42) egyenletben csak skalárok szerepelnek vektorok helyett, így – az alsó indexeket elhagyva – a X X ˜ d[m] = ρ[m − i]d[i] + n ˜ [m] = ρ[0]d[m] + ρ[m − i]d[i] + n ˜ [m].(2.45) i
i,i6=m
Ha az s(t) hullámforma aláírás függvény tartója a [0, T ) intervallum, és a csatorna AWGN, akkor a szummás tagok nullává válnak, hiszen c(t) = h(t) ∗ s(t) = α · s(t), és Z ∞ ρ[i] = hAc(t), Ac(t − iT )i = c(t)c∗ (t − iT ) dt = −∞ Z ∞ s(t)s∗ (t − iT ) dt = α α∗ δ(i) = |α|2 δ(i). = α α∗
(2.46) (2.47)
−∞
Azaz a (2.45) függvény a ˜ d[m] = A|α|2 d[m] + n ˜ [m] ˝ alakra egyszerusödik. A zajra vonatkozóan pedig az n ˜ [m] =
Z
∞ −∞
= α∗
Z
n(t)c∗ (t − mT ) dt = T
Z
(m+1)T mT
n(t + mT )s∗ (t) dt
n(t)c∗ (t − mT ) dt
(2.48) (2.49)
0
jel-zaj viszony: a jel és a egyenletet kapjuk. Ha ki akarjuk számítani a kimeneti jel-zaj viszonyt, akkor zaj teljesítményének a hasznos jel energiájára A2 |α|4 E d2 -et kapunk, a zajra pedig aránya. Rövidítve: SNR (Z Z ) T T (Signal-to-Noise Ratio) ∗ ∗ ∗ ∗ E {n[m]n [m]} = α α E n(t + mT )n (τ + mT )s(t)s (τ ) dt dτ = 0
= α α∗
Z
T 0
= |α|2 N0
Z
= |α|2 N0 .
Z
0 T
0
T
E {n(t + mT )n∗ (τ + mT )} s(t)s∗ (τ ) dt dτ = s(t)s∗ (t) dt
0
˝ OLDALA 2.3. A VEVO
29
A jel-zaj viszonyra így SNRkimeneti =
|α|2 A2 |α|4 A2 = |α|2 N0 N0
(2.50) 2
A volt a jel-zaj viszony, és a csatorna kapjuk. Tekintve, hogy a bemeneten N 0 csillapítása miatt a hasznos jel csillapítása teljesítményben |α|2 , a lehet˝o legjobb – az optimális – eljárással érhetjük el a (2.50) egyenletben leírt értéket. ˝ o kimenetéhez (2.50) által leírt jel-zaj viMivel a csatornához illesztett szur˝ ˝ o optimális vev˝oalgoritmus ebben a speciális szony tartozik, az illesztett szur˝ esetben. Ne felejtsük el azonban, hogy milyen feltételezésekkel kellett élnünk a levezetés igazáért. Ugyan az egyfelhasználós csatorna feltételezését könnyedén feloldhatjuk – csak a (2.2) egyenletet kell kielégíteni, és máris ugyanazt a kimeneti jel-interferencia viszonyt kapjuk1 –, a véges tartójú hullámforma ˝ kirekeszteni a moaláírás és AWGN csatorna feltételeit azonban nem könnyu dellb˝ol (egy módszer lesz (2.52) bevezetése). Más szavakkal reális mobil csatornában kommunikáló reális adóberendezés jelét nem biztos, hogy optimá˝ o. Bár itt elég óvatosan igyekeztünk lisan veszi egy csatornához illesztett szur˝ fogalmazni, – ahogyan azt a kés˝obbiekben látni fogjuk – valós rendszerekben ˝ o önmagában általában nem jó megoldás. az illesztett szur˝
A Gereblye vev˝ o A Gereblye (vagy angol nevén Rake) vev˝o egy gyakorlati módszer a csator˝ o megvalósítására többutas, fadinges csatornán. A vevo˝ nához illesztett szur˝ berendezés onnan kapta a gereblye nevet, hogy a különbözo˝ jelkomponenseket úgy követik a vev˝o fogai2 , mint a gereblye fogai a földben a rögöket. A párhuzam nyomán ragadt az elnevezés a vev˝oberendezésre. A Gereblye vev˝onél a csatornát többutas csillapítóval modellezzük, ahogyan azt a (2.17) egyenletben tettük. A gereblye fogai felelo˝ sek azért, hogy az egyes jelutakon érkez˝o jelekhez szinkronizálják magukat, illetve megtalálják ˝ azt a komplex csillapításértéket (αkl ) az egyes jelutakon. A Gereblye vev˝o muködésének szükséges feltétele, hogy a vev˝o ismerje a felhasználóhoz tartozó hullámforma aláírást (sk (t)). Ez nem szigorú feltétel, hiszen a vevo˝ ben valamit ismerni kell a kommunikációs csatornáról. Ha az uplinken és a downlinken ugyanazt a hullámforma aláírást alkalmazzák, akkor a vevo˝ ben biztosan ismert sk (t) értéke. A (2.17) egyenletet felhasználva ck (t) értékére ck (t) = hk (t) ∗ sk (t) =
Lk X l=1
αkl sk (t − τkl )
(2.51)
kapjuk. Tételezzük fel, hogy a különbözo˝ l értékekhez tartozó sk (t − τkl )-ek között a keresztkorreláció alacsony – azaz a szumma tagjai korrelálatlannak 1 többfelhasználós
csatornákon a SIR jobb méro˝ szám, mint az SNR, mert az idegen felhasználók zavaró hatását is számba veszi. Egyfelhasználós esetben nyilvánvalóan ugyanaz a kett o˝ . 2 angolul finger of Rake. Magyarul viszont a gereblyének fogai vannak és nem ujjai, ezért itt is fogakat használunk. Felmerült még a „köröm” kifejezés lehet o˝ sége is, de ez szintén magyartalan lenne.
jel-interferencia viszony: a jel és az interferencia+zaj teljesítményének aránya. Rövidítve: SIR (Signal-to-Interference Ratio)
FEJEZET 2. RENDSZERMODELL
30
(lineárisan függetlennek) tekintheto˝ ek –, azaz hsk (t − τkl ), sk (t − τkm )i ≈ 0
ha l 6= m.
(2.52)
Ekkor úgy kezelhetjük a (2.51) képletet, mint Lk darab korrelálatlan komponens összegét, azaz megfelel˝o módszerrel a komponensek egymástól függetlenül kezelhet˝oek. A gereblye Lk darab fogból áll. Minden foga megkeresi azt a τkl késleltetés értéket majd az αkl komplex csillapítást és fázistolást, amely az adott jelúthoz tartozik. A késleltetés keresés korreláció-számítással történik. A gereblye vevo˝ a keresési fázisait az alábbi listában foglaljuk össze: 1. a τ -tal végigpásztázza a [0, T ) intervallumot, (a) minden τ -hoz a | hy(t), sk (t − τ )i | integrált kiszámítja, 2. ha az integrál értéke több szimbólum ideje alatt is egy elo˝ írt küszöb (ε) felett van, és még nincs ilyen késleltetéssel rendelkezo˝ fog, az integrálhoz tartozó τ értéket egy szabad foghoz rendeljük a gereblyén, 3. az új fogat aktiváljuk τˆkl = τ értékét finomhangoljuk, és kiszámítjuk a komplex α ˆ kl értékét (a) τˆkl értékét finoman beállítjuk: az eredeti τˆkl környékén több τ -ra kiszámítjuk a keresztkorrelációs integrál értékét; a legnagyobb keresztkorrelációhoz tartozó τ lesz a τˆkl értéke (b) az |ˆ αkl | értékét | hy(t), sk (t − τˆkl )i | várható értéke adja, azaz |ˆ αkl | = E {| hy(t), sk (t − τˆkl )i |}, (c) az α ˆ kl fázisát úgy kell beállítani, hogy hy(t), α ˆ kl sk (t − τˆkl )i fázisának várható értéke dk [i] lehetséges fázisait kövesse3 ,
4. folytatjuk az új fogak kijelölését, illetve a kis korrelációs együtthatóval rendelkez˝o (azaz | hy(t), sk (t − τ )i | < ε) fogakat felszabadítjuk. ˝ o, amely a fogai által reprezentált szur˝ ˝ ok A Gereblye vev˝o egy olyan szur˝ szuperpozícióját adja a kimenetén. A Gereblye vevo˝ blokkvázlatát a 2.9. ábrán láthatjuk. Matematikailag a Gereblye vev˝ot a ψk (t) =
ˆk L X l=1
α ˆ kl sk (t − τˆkl )
(2.53)
impulzusválasszal írhatjuk le, ahol ideális esetben ˆ k = Lk L α ˆ kl = αkl τˆkl = τkl . 3 az egyértelmu ˝ megoldáshoz persze valamilyen extra információra van szükség. Például a 2.1.1. fejezetben szereplo˝ szimbólumok mindegyike olyan volt, hogy 180 fokkal elforgatva o˝ ket ugyanazt a konstellációs diagrammot adták. Egy megoldás BPSK esetben a keretek egy meghatá˝ rozott helyén például a {−1, +1, +1, +1, +1, +1, +1, −1} sorozatot sugározni. Így egyértelm uvé válik, melyik a +1 és melyik a −1 szimbólum.
˝ OLDALA 2.3. A VEVO
31
∗ -α ˆ k1 ? - ×j 1. fog
s∗k (t − τˆk1 ) ? R - ×j - . dt
∗ q- α ˆ k2 ? q - ×j 2. fog y(t)-
s∗k (t − τˆk2 ) ? R - ×j - . dt
q
q- α ˆ k∗Lˆ s∗k (t − τˆkLˆ ) k k ? ? R q - ×j - ×j - . dt ˆ k . fog L
q
-
.. .
Vezérlés: új fogak kijelölése és régi fogak felszabadítása
-
- P
d˜k [i] -
ε
2.9. ábra. A Gereblye vev˝o blokkvázlata A (2.53) egyenlettel a vev˝oben el˝oállított diszkrét szimbólumok ideális esetben megegyeznek a (2.39) egyenletben leírtakkal, azaz a Gereblye vevo˝ képes ˝ ot valósítson meg többutas környezetarra, hogy csatornához illesztett szur˝ ben. Az oly sokat emlegetett ideális eset természetesen nem mindig fordul el˝o, de gyakorlati tapasztalatok alapján elmondható, hogy a Gereblye vevo˝ ˝ ot, ha (2.52) teljesül. nagyon jól közelíti az ideális csatornához illesztett szur˝ A Gereblye vev˝o leírása során csupán egyetlen dolgot tételeztünk fel, mégpedig azt, hogy a különböz˝o l értékekhez tartozó sk (t − τkl )-ek között a keresztkorreláció alacsony (lásd (2.52)). Ha ez a feltételezés nem állja meg a ˝ helyét akkor a Gereblye vev˝o nem fog helyesen muködni. Vegyük példaként azt az esetet, amikor er˝os aciklikus korreláció jellemzi a hullámforma aláírást. Ha a 2.1.2. fejezetben ismertetett kódosztásos rendszerben Walsh-Hadamard kódokat alkalmazunk, akkor például a nyolc bit hosszú kódok halmazába az sk = [−1, +1, −1, +1, −1, +1, −1, +1]T kódszó is beletartozik. Ez viszont (2.52) egyenletbe helyettesítve ero˝ s acilikus korrelációt mutat, hiszen minden ` egész számra (τkl − τkm ) = ` · Tc esetén (2.52) értéke magas lesz. A magas aciklikus autokorreláció ellen nem is tudunk védekezni a kód jellegéb˝ol adódóan. Ezért találtak ki más kódcsaládokat, ahol ugyan a keresztkorreláció mértéke a kódszavak között magasabb lesz, de cserébe az aciklikus korreláció mértéke alacsony szinten tartható. Egy ilyen kódcsalád a Gold-kódok halmaza, amely (2k − 1) hosszú, (2k + 1) darab kódot tark talmaz. Tetsz˝oleges két kódszó között (2− 2 )-vel lesz arányos a maximális keresztkorreláció, illetve a ciklikus és aciklikus korrelációk maximális mértéke. Nagy k értékek esetén e korlát kedvez˝o tulajdonságokkal rendelkez˝o kódot eredményez. A Gereblye vev˝o implementálása során ezért mindig körültekinto˝ en kell eljárni; a rendszer sajátosságaira, specialitásaira mindig ügyelni kell. A Gereblye vev˝o széles körben alkalmazott eljárás. Gereblye vev˝ot használnak a mai IS-95 rendszer készülékei, a Qualcomm CDMA szabványban is Gereb-
aciklikus korreláció: a korrelációt csak az átlapolódó részfüggvényekre számítjuk ki
32
FEJEZET 2. RENDSZERMODELL
lye vev˝ot ajánlanak vev˝oalgoritmusként. A kezdeti UMTS berendezésekben is Gereblye vev˝oket fognak alkalmazni. Ugyanakkor nem szabad elfelejtkeznünk arról, hogy sajnos a (2.52) egyenlet nem mindig reális feltételezés, így a Gereblye vev˝o sem lehet mindig optimális megoldás, s˝ot, – mint azt látni fogjuk a kés˝obbiekben – a modern rendszerekben kerülendo˝ a használata.
3. fejezet
Matematikai háttér ˝ mobil vev˝oalgoritmusok” Ebben a fejezetben összefoglaljuk a „Korszeru c. tárgyban ismertetett anyag megértéséhez szükséges matematikai forma˝ lizmusokat, matematikai definiciókat. Figyelmünket elso˝ sorban a valószínuségszámítás, a matematikai statisztika —különös képpen a becsléselmélet— ˝ statisztika és az információ elmélet területei felé fordítjuk. magasabb rendu ...
3.1. Statisztika Mint az ismeretes a mobil csatorna átviteli karakterisztikája ero˝ sen vélet˝ viselkedik... lenszeruen
˝ ségi változók 3.1.1. Valószínu ˝ ségi eloszlások és su ˝ ru ˝ ség függvények 3.1.2. Valószínu ˝ ˝ ségi eloszlás Az X valószínuségi változó FX valószínuségi ˝ eloszlás függvénye x = x0 valószínu ˝ pontban pontosan annak a valószínusége, hogy x ≤ x0 , azaz függvény: (3.1)
FX (x0 ) = P (x ≤ x0 ).
˝ hogy folytonos X valószínuségi ˝ A (3.1) egyenletb˝ol egyértelmu, változók esetén FX eloszlásfüggvény nemnegatív, monoton növekedo˝ folytonos függvény, mely érték készlete a 0 ≤ FX (x) ≤ 1 tarományon definiált. A korábbi megállapításokból közvetlen következik, hogy FX (−∞) = 0 és FX (∞) = 1. ˝ Sokszor azonban nem a valószínuségi változó eloszlás függvénye, hanem annak fX sur ˝ uség ˝ függvénye áll rendelkezésünkre. Definició szerint az elosz˝ uség ˝ lás függvény és a sur függvény közt a következ˝o kapcsolat áll fent: dFX (x) fX (x0 ) = . (3.2) dx x=x0
Abban az esetben, ha fX ismert, a kapcsolat felírható mint Z x0 fX (ξ)dξ. FX (x0 ) = −∞
33
(3.3)
˝ ru ˝ ség függvény: su elegend˝o mintaszám esetén megadja, hogy az ˝ X valószínuségi változó adott realizációja x ˝ un ˝ fordul el˝o milyen sur egy mintában.
FEJEZET 3. MATEMATIKAI HÁTTÉR
34 T
Feltéve, hogy x = (x1 , x2 , . . . , xn ) egy n-dimenziós véletlen változó vektor, ˝ akkor a valószínuségi eloszlásfüggvényét a (3.1) szerint megadható mint (3.4)
Fx (xx0 ) = P (x ≤ x0 ),
ugyanazon tulajdonságokkal, mint a (3.1) egyenletben leírt egyváltozós eloszlásfüggvény. A (3.4) kifejezésben szereplo˝ x ≤ x0 azt jelenti, hogy x vektor minden értéke kisebb vagy egyenl˝o x0 megfelel˝o értékénél. Hasonló képpen a ˝ uségfüggvény ˝ ˝ többváltozós sur felírható, mint a (3.4) többváltozós valószínuségi eloszlásfüggvény x vektor minden egyes komponentje szerinti deriváltja ∂ ∂ ∂ fx (x0 ) = ... Fx (x) , (3.5) ∂x1 ∂x2 ∂xn x=x0
˝ uségfüggvény ˝ illetve az ismert többváltozós sur segítségével az Fx (x0 ) több˝ változós valószínuségi eloszlásfüggvény megadható Fx (x0 ) =
Z
x0
fx (x) dx = −∞
Z
x0,1 −∞
Z
x0,2
... −∞
Z
x0,n
fx (x) dxn . . . dx2 dx1 (3.6) −∞
kifejezéssel, ahol x0,i az x0 véletlen változó realizáció vektorának i-ik komponense. Határeloszlás ˝ Több, különböz˝o1 XY valószínuségi változók összefoghatóak, melyek együttes eloszlásfüggvénye (3.7)
FXY (x0 , y0 ) = P (x ≤ x0 , y ≤ y0 ) ,
illetve x és y véletlen változó vektorok esetében a többdimenzisós együttes ˝ valószínuségi eloszlásfüggvény Fxy (x0 , y0 ) = P (x ≤ x0 , y ≤ y0 ) =
Z
x0 −∞
Z
y0
fxy (x, y) dydx,
(3.8)
−∞
˝ ahol is P (x ≤ x0 , y ≤ y0 ) kifejezés annak a valószínuségét adja meg, hogy x ≤ x0 és y ≤ y0 események együtt lépnek fel. ˝ uség ˝ Továbbá az fxy (x, y) együttes sur függvény ismeretében definiálható ˝ határeloszlás: . . . x vektor fx(x) és y valószívuségi változó vektor fy(y) határeloszlása fx (x) = fy (y) =
Z
∞
−∞ Z ∞
fxy (x, y) dy,
(3.9)
fxy (x, y) dx.
(3.10)
−∞
˝ Az egyszeruség kedvéért a továbbiakban az eloszlásfüggvényre mint F (x), ˝ uségfüggvényre ˝ valamint a sur mint f (x) fogunk utalni. 1 Akár
különböz˝o dimenziójú
3.1. STATISZTIKA
35
3.1.3. Momentumok ˝ uségfüggvénye ˝ Gyakorlaban egy jelfolyam f (x) sur ritkán áll rendelkezésünre, azonban paraméterei, mint pl. várható értéke vagy szórása, közvetlenül megadható a megfigyelt jelfolyam becsült momentumaiból, még akkor ˝ uségfügg˝ is, ha a matematikai pontos definicióhoz szükségünk van f (x) sur vényre. Várható érték Jelöljön g(x) egy mennyiséget, mely lehet sakár, vektor vagy akár mátrix is. Ennek a mennyiségnek a várható értéke: Z ∞ g(x)f (x)dx, (3.11) E {g(x)} = −∞
ahol az integrálást itt is, a (3.6) egyenlethez hasonlóan, g(x) minden vektor elemére vagy mátrix komponensére végre kell hajtani, x összes eleme felett, mely integrálás eredményeképpen ismételten skalár, vektor vagy mátrix mennyiséget kapunk. Röviden ismertetjük a várható érték képzés tulajdonságait: 1. Linearitás: Legyen xi i = 1, 2, . . . , m különböz˝o véletlen vektor, valamint ai i = 1, 2, . . . , m valamilyen ismert skalár együttható. Ezzel a várhatóérték operáció linearitása ) (m m X X E a i xi = ai E {xi } (3.12) i=1
i=1
2. Linaáris transformáció: Legyen x ismételten egy m-dimenziós valószó˝ színuségi változó realizációjának vektora, valamint A és B valamely ismert k × m és m × l mátrixok. Ezzel E {Ax} = AE {x} , E {xB} = E {x} B. 3. Transzformáció invarianciája: Legyen y = g(x) definiálva, Z ∞ Z ∞ yf (y)dy = g(x)f (x)dx −∞
(3.13)
(3.14)
−∞
˝ ˝ uségfüggvények ˝ Ezzel, még különböz˝o f (y) és f (x) valószínuségi sur felhasználásával is, E {y} = E {g(x)}. , korreláció, kovariancia, függetlenség
˝ ség 3.1.4. Feltételes valószínu ˝ statisztika 3.1.5. Magasabb rendu Kumulánsok Kurtózis
korreláció, kovariancia: függetlenség:
FEJEZET 3. MATEMATIKAI HÁTTÉR
36
3.2. Becslés MSE: Mean Square Error LSE: Least-Square Error ML: Maximum Likelihood Bayes: MAP: Maximum a Posteriori
MSE, LSE, ML, Bayes, MAP
4. fejezet
A többfelhasználós csatorna Ahogyan a (2.33) és a (2.38) képletek alapján látható, a vevo˝ algoritmus bemenetén egy olyan y vektor jelentkezik, amely lineáris függvénye a bemenetre adott d szimbólumoknak. Mivel a valóságban csak blokkokban visszük át az adatokat, a továbbiakban csak a (4.1)
y = RAd + n
egyenlettel foglalkozunk. Megjegyezzük, hogy ezáltal a folytonos (nem blokkos) átviteli rendszereket – amelyeket a (2.32) és a (2.33) egyenletekkel írtunk le – nem írják le az egyenleteink. Ha az R mátrix kvadratikus, diagonális és normalizált (RA = I), akkor a ˝ ˝ : az legegyszerubb vev˝oalgoritmus az ún. egyfelhasználós vev˝o, amely egyfelhasználós vevo ISI és MAI mentes ˆ = ΦA {y} d (4.2) csatornák optimális vev˝oje egyenlettel írható le, ahol (4.3)
ΦA {y} = min {ky − xk} , x∈AM
azaz a ΦA {y} függvény az A halmaz y-hoz legközelebb es˝o elemét adja vissza. Például a BPSK rendszerben, ahol az A halmaz lehetséges két eleme a ±1 volt, a Φ±1 {x} = sgn {x}, a szignum függvénnyel egyezik meg. Azaz BPSK rend˝ szignum szerben, diagonális diszkrét csatorna mátrix esetében egy egyszeru döntés is elegend˝o: ˆ = sgn {y} . d Ha az (RA) mátrix nem normalizált, akkor többállapotú moduláció esetén a (4.2) egyenletet normalizálni kell. A normalizált értékre kell végrehajtani a dönt˝ofüggvényt. Ez esetben az alábbi alakot kapjuk: n o ˆ = ΦA diag [RA]−1 y , (4.4) d
ahol az R mátrixnak továbbra is kvadratikusnak és diagonálisnak kell lennie. Ha az R mátrix nem diagonális, a zavaró tényezo˝ k miatt a vev˝o teljesítménye jelent˝osen romlik. 37
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
38
többfelhasználós vev˝ ok: egyszerre több felhasználó adását figyel˝o vev˝o
Sajnos azonban a diszkrét csatorna mátrix nem mindig diagonális, so˝ t – ˝ o – nem is kvadratikus. Azonban mieha nincs csatornához illesztett szur˝ l˝ott megvizsgálnánk, hogy milyen módszerek léteznek nem kvadratikus mátrixok esetén, elmélyedünk a nem diagonális, de kvadratikus mátrixok világában; megvizsgáljuk milyen félreértések vezettek végül a többfelhasználós vev˝ok tudományának elterjedéséhez. Ahol eredményeink kiterjesztheto˝ ek a nem kvadratikus esetre is, ott élni fogunk a leheto˝ séggel. Azonban minden˝ o kiütt, ahol külön nem hangsúlyozzuk, feltételezzük, hogy az illesztett szur˝ ˜ menetét használjuk a vev˝oalgoritmus bemenetén, azaz y = d.
4.1. A többfelhasználós csatorna problémája
másodcsatornás interferencia: azonos frekvenciát és id˝orést használó, de más cellában tartózkodó felhasználók zavaró hatása
Sajnos a diszkrét csatorna mátrix (R) soha nem kvadratikus. Még a GSM rendszerben is, ahol a felhasználók közötti ortogonalitást ido˝ rések és frekvenciasávok kijelölésével érik el, megjelenik a másodcsatornás interferencia fogalma. A többszörös hozzáférésb˝ol származó zavaró hatást (MAI) az R mátrixban megjelen˝o, a diagonálison kívül es˝o nemnulla elemek jelzik. Ha nincs más felhasználó a rendszerben, a rádiós csatorna jellegébo˝ l adódóan akkor is számolnunk kell a szimbólumok egymásra lapolódásával (ISI), amely szintén diagonálison kívüli nemnulla elemeket jelent az R mátrixban. Bár a diagonálison kívül es˝o elemek jelent˝osen kisebbek, mint a diagonálisban lévo˝ k, hatásuk nem hanyagolható el, ahogyan azt látni fogjuk. Mindenesetre a 4.1.1. fejezetben a szimbólumközi áthallás mértékét elhanyagoljuk egyenleteinkben, ˝ képletekkel dolgozhassunk. A szimbólumközi áthallás figyehogy egyszerubb lembevételével az egyenletek nem sokban módosulnak, így az elhanyagolás ˝ nem jár jelent˝os egyszerusítéssel.
4.1.1. Többfelhasználós vs. egyfelhasználós vev˝ ok Korábban a témával foglalkozók megfelel˝o közelítésnek vélték a MAI és az ˝ ISI hatását fehér zajszerunek tekinteni, esetleg az ISI hatását ugyanúgy kezelték, mint az egyfelhasználós esetben, de a MAI hatását fehér zajnak tekintették. Így az R mátrixban a diagonálison kívül eso˝ nemnulla elemek hatását mint zajnövel˝o tényez˝ot vehetjük figyelembe, a vev˝oalgoritmus maradhat a (4.4) egyenletben leírtaknak megfelel˝o. Rendszerszinten csak ki kell számolnunk a felhasználót jellemz˝o jel-interferencia viszonyt és az egyfelhasználós csatornára kiszámítható, azonos jel-zaj viszonyhoz tartozó szimbólumhibaarány értéket kell kapjuk a többfelhasználós esetben is. Az i-edik felhasználóra vonatkozó jel-interferencia arány értéke a következo˝ képpen számítható: SIRi = P
ρ2ii [0]A2i 2 2 j:j6=i ρij [0]Aj + N0
(4.5)
A gyakorlati tapasztalat azonban azt mutatta, hogy a fenti gondolatmenetben valahol hiba van. Ugyanis a (4.5) által adott értékhez egy egyfelhasználós csatornán jóval kisebb szimbólumhiba-arány tartozik, mint amennyit mérni lehet a többfelhasználós esetben. Olyan tehát, mintha a zavaró felhasználók jelének energiája jobban torzítaná a jelet, mint a zaj. De miért van ez?
4.2. A TÖBBFELHASZNÁLÓS VÉTEL
39
A probléma abból a feltételezésb˝ol adódik, amit axiómaként elfogadtunk, holott nem lett volna szabad. Az ISI és a MAI ugyanis nem tekintheto˝ fehér zajnak. Hatásuk sokkalta rombolóbb, mint egy fehér folyamat hatása. A következ˝o alfejeztben láthatunk egy széls˝oséges példát, melyben kiderül mennyire rossz feltételezés a zavaró hatást zajnak tekinteni. ˝ ség feltételezésének hibájára Egy példa a zajszeru ˝ Vegyük a lehet˝o legegyszerubb 11 felhasználós (K = 11) csatornát, ahol a blokkméret a lehet˝o legrövidebb: N = 1, az alkalmazott modulációs tech˝ csatorna mátrix olyan, nika BPSK. Legyen a rendszert jellemzo˝ diszkrét ideju hogy a diagonálisban szerepeljenek egyesek (Rii = 1, normált rendszer), viszont az összes diagonálison kívüli elem legyen Rij = 0,1, ahol i 6= j. Minden felhasználóra vonatkozó amplitudóérték legyen egységnyi, azaz Ai = 1, minden i-re. Tételezzük fel továbbá, hogy a vizsgált ido˝ pillanatban az els˝o felhasználó +1-et sugároz, az összes többi viszont −1-et. Ha behelyettesítünk a (4.1) egyenletbe, akkor y1 = n1 -et kapjuk, azaz az els˝o felhasználó által sugárzott szimbólumra csak a zaj értéke alapján tudunk becslést adni, ami – a zaj intenzitásától függetlenül – 50 %-os hibaarányhoz vezet. Ugyanakkor a jel-interferencia viszonyra a (4.5) alapján SIR1 = P10
j=1
1 0,12 + N0
=
1 0,1 + N0
(4.6)
értéket kapjuk, amely N0 → 0 esetén SIR1 = 10 = 10 dB-hez tart. Ha kiszámítjuk az egyfelhasználós BPSK rendszer szimbólumhiba-arányát az SNR = 10 dB értéknél, akkor kb. 0,0782 %-ot kapunk, ami nyilván nem egyenlo˝ az 50 %-kal. ˝ A zajszeruség feltételezése így nem lehet megfelel˝o, más módszerre van szükség.
4.2. A többfelhasználós vétel ˝ csatornaAhogyan azt láttuk tipikus mobil környezetben a diszkrét ideju mátrix R nem diagonális, ezért itt nem lehet egyfelhasználós vevo˝ ket alkal˝ nem tekinthet˝oek úgy, mazni. A többfelhasználós csatornák egész egyszeruen mintha több darab független egyfelhasználós csatornánk lenne. A vevo˝ algoritmusnak is figyelembe kell vennie a többfelhasználós csatorna kellemetlen áldásait; míg eddig az ISI hatásának kiküszöbölése volt a kutatás elo˝ terében, addig most már az ISI és a MAI hatását is ki kell küszöbölni a vevo˝ berendezésekben. Szemünk el˝ott továbbra is a (4.1) egyenlet lebeg, amely alapján egy olyan eljárásra van szükség, melynek segítségével y-ból elo˝ állíthatunk egy ˆ sorozatot, amely minimális hibával közelíti az eredeti szimbólumoolyan d o n kat, azaz Pr dˆk [i] 6= dk [i] minimális minden i és k értékre.
4.2.1. A dekorrelátor Az els˝o ötlet, mely a (4.1) egyenletet látva eszünkbe jut a következo˝ . Szorozzunk be az (RA) mátrix inverzével balról, és az így kapott eredménybo˝ l
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
40
képezzük a szimbólumok becsült értékeit. Az eljárást kinullázást kényszerít˝o kinullázást kényszer dekorrelátor: (angolul Zero Forcing – ZF) eljárásnak, vagy dekorrelátornak hívják, mivel se- a zavaró hatásokat megszünteti a korrelációt gítségével az ISI és a MAI hatását tökéletesen meg lehet szüntetni. Matemati- kinullázza az információs folyamok kailag a következ˝oképpen néz ki az egyenlet: között ˆ ZF = ΦA A−1 R−1 y = ΦA d + A−1 R−1 n , d (4.7) ami kis zaj esetén láthatóan tökéletes megoldás. Az R mátrix mindig inver˝ o tökéletesen muködik, ˝ tálható, ha a csatornához illesztett szur˝ mert Hermitikus mátrixot mindig lehet invertálni (lásd a 27. oldalon). Azonban ha a zaj jelent˝os, akkor az inverzmátrix-szal való szorzás miatt a zaj hatása hatványozottabban jelentkezik. Az inverzmátrixban ugyanis relatíve magas abszolút ˝ elemek lesznek. értéku ˝ csatorna Meg kell jegyezzük, hogy ha nem kvadratikus a diszkrét ideju ˝ o a rendszerben, vagy az hibámátrix, mert nincs csatornához illesztett szur˝ ˝ san muködik, és a csatorna mátrix nem invertálható, akkor is létezik megoldás amely ugyanazt a kimenetet biztosítja. Ekkor az invertálást egy apró csellel oldjuk meg: az eredeti R mátrixból egy kvadratikus mátrixot állítunk el˝o RH -rel szorozva balról. Minden értelmes R mátrixra – amelynek oszlopai lineárisan függetlenek – az RH R már invertálható. Matematikai alakban a vev˝oben az alábbi egyenletet hajtjuk végre: ˆ ZF = ΦA A−1 (RH R)−1 RH y = ΦA d + A−1 (RH R)−1 RH n , d
(4.8)
ahol a zaj szintén jelent˝os er˝osítést szenved. A példára alkalmazott dekorrelátor
A 39. oldalon található példában szerepl˝o mátrixra például az inverz dia1 19 elemek szerepelnek, a diagonálison kívüli elemek pedig − 18 gonálisában 18 ˝ uség ˝ ˝ dal egyenl˝oek, mellyel a vev˝o bemenetére érkez˝o N0 teljesítménysur u ˝ uség ˝ ˝ zaj lesz, ami durván 0,6 dB-es bemeneti zajból 1,145N0 teljesítménysur u ˝ jel-zaj viszony romlást jelent. Ez nem is tunik olyan borzalmasnak. Azonban az 1,0 0,5 R= 0,5 1,0 mátrixnak már csúnyább az inverze: R
−1
1,33 0,67 , = −0,67 1,33
mellyel a zajteljesítmény er˝osítési tényez˝oje 2,22 lesz, azaz kb. 3,5 dB. Másképpen mondva az adónak 3,5 dB-vel nagyobb teljesítménnyel kell sugározni az adó-oldalon, mert a vev˝o a jel feldolgozása során 3,5 dB jel-zaj viszonyt veszít. Ez már jelent˝os érték. Szerencsére az algoritmus egy kis módosításával megszabadulhatunk a zajnövekedésb˝ol adódó kellemetlenségekt˝ol; cserébe szükségünk lesz a zajteljesítmény (N0 ) értékére. Err˝ol szól a következ˝o fejezet.
4.2. A TÖBBFELHASZNÁLÓS VÉTEL
41
4.2.2. Minimális átlagos négyzetes hibájú vev˝ o A dekorrelátor eljárással az a probléma, hogy ész nélkül szoroztuk meg az y vektort balról az R inverzével, vagy pszeudo-inverzével. Fogalmazzuk meg úgy a feladatot, hogy egy olyan M mátrixot keresünk, melyre (4.9) E |d − My|2 = E (d − My)H (d − My)
azaz a négyzetes hiba minimális, ahol d a küldött szimbólumok vektora. Így már a zaj hatását is figyelembe tudjuk venni. Azonban a (4.9) egyenlet átalakí˝ kezelhet˝o egyentása helyett egy más irányt választunk, hogy egyszer ubben leteket kapjunk. Tetsz˝oleges x vektorra xH x = Sp xxH , ahol Sp {A} az A mátrix spúrja, azaz a f˝odiagonális komponenseinek összege X Sp {A} = Akk . k
Ezért (4.9) a következ˝o alakra írjuk át: E (d − My)H (d − My) = Sp E (d − My)(d − My)H .
(4.10)
Els˝o lépésként átalakítjuk a spúron belüli mátrixot a (Mv) = v M és M determinisztikus jellegének felhasználásával: E (d − My)(d − My)H = = E ddH − E dyH MH − M E ydH + M E yyH MH . (4.11) H
H
H
Ha a (4.11) egyenletbe a (4.1) egyenletünket behelyettesítjük, illetve visszaemlékezünk feltételezésünkre, hogy az szimbólumok egymással korrelálatlannak tekinthet˝oek a tökéletes csatornakódoló eljárás következtében, illetve H elhisszük, hogy az n zaj és a d szimbólumok között nincs korreláció (E nd = H E dn = 0), akkor azt kapjuk, hogy H E dd =I H = E ddH AR = AR E dy E ydH = E RAddH = RA E yyH = E RAddH AR + E nnH = RA2 R + N0 R, ahol I az egységmátrix. A (4.11) egyenletbe helyettesítve eredményeinket E (d − My)(d − My)H =
ahol
= I − ARMH − MRA + M(RA2 R + N0 R)MH 1 2 f f H, = (I + ARA)−1 + (M − M)(RA R + N0 R)(M − M) N0
f = A−1 (R + N0 A−2 )−1 . M
(4.12)
(4.13)
Mivel a (RA R + N0 R) mátrix nemnegatív definit, a (4.12) egyenlet jobb oldali tagjának spúrja mindig nemnegatív. Mitöbb, a spúr csak akkor zérus, ha f A (4.13) mátrix adja a minimális értéket a (4.9) egyenletben. A miniM = M. mális négyzetes hibájú vev˝ot leíró egyenlet a következ˝o alakot ölti: ˆ MMSE = ΦA {My} = ΦA A−1 (R + N0 A−2 )−1 y . d (4.14) 2
Vegyük észre, hogy kis zaj N0 → 0, vagy nagy adóteljesítmény A−2 → 0 esetén az MMSE megoldás a dekorrelátorhoz tart.
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
42
4.2.3. Az optimális megoldás A 4.2.1. fejezet és a 4.2.2. fejezet lineáris megoldásokat adtak a többfelhasználós vev˝o problémájára. Azonban nem kell feltétlenül lineáris megoldásban gondolkodnunk. Ahogyan azt a bevezeto˝ ben is említettük, számunkra ˝ az a fontos, hogy a szimbólumhiba-arány minimális legyen. A valószínuségszámítás szemüvegével vizsgálva a dolgot, azt mondhatjuk, hogy az optimális ˝ megoldáshoz a legnagyobb valószínuségnek kell tartoznia. Másképp fogalmazva egy tetsz˝oleges y vett jel esetén az optimális x ∈ AM vektor maximali˝ zálja Pr {x|y} valószínuséget: ˆ opt. = arg max Pr {x|y} . d x∈AM
(4.15)
A (4.15) egyenlet úgy is megfogalmazható, hogy azt a bináris sorozatot kell ˝ választani, amelynek a vett y vektor mellett a legnagyobb a valószínusége. A gondolat jól hangzik, de ebben a formában nem alkalmazható. Ahhoz, hogy számítható érték váljon bel˝ole, kicsit át kell gyúrnunk a (4.15) egyenletet, illetve mondanunk kell valamit y eloszlásáról. A Bayes-féle azonosságokat felhasználva Pr {x|y} a következo˝ alakra írható át Pr {y ∪ x} Pr {y|x} Pr {x|y} = = Pr {x} , Pr {y} Pr {y}
melyben Pr {x} értéke konstans, hiszen a csatornakódoló eljárás hivatott a lehetséges szimbólumsorozatok halmazát egyenletes eloszlásúra állítani. Ha eredményünket a (4.15) egyenletbe akarjuk beilleszteni, akkor a Pr {y}-nak ˝ sincs jelent˝osége, hiszen x változtatásával a Pr {y} valószínuség nem módosul. Végül a (4.15) képletbe behelyettesítve azt kapjuk, hogy ˆ opt. = arg max Pr {y|x} . d x∈AM
(4.16)
A (4.1) képletben jól látszik, hogy ha d értéke rögzített, akkor y egy gaussi ˝ valószínuségi változó, melyben az egyetlen véletlen paraméter az n vektor. Az n vektornak nulla a várható értéke, és N0 R a kovariancia mátrixa, ahogyan azt korábban már kiszámítottuk. Ezért az y vektor is N0 R kovariancia mátrixszal rendelkezik, viszont a várható értéke nem nulla, hanem RAD. A csatorna ˝ uségfüggvényt ˝ kimenetén lehetséges y értékekre az alábbi sur lehet felírni, ha d = x: 1 (y − RAx)H R−1 (y − RAx) f (y|x) = p exp − . (4.17) M 2N0 2π det(R)N0
˝ uségfüggvény ˝ Adott tehát egy sur f (y|x), bár nekünk (4.16) szerint egy való˝ színuséget Pr {y|x}-t kell maximalizálni. Mivel gaussi eloszlásokkal foglalko˝ uségfüggvény, ˝ zunk nyilvánvaló, hogy ahol maximális a sur ott lesz maximális ˝ a valószínuség is. Ezért a továbbiakban a (4.17) egyenletet alakítjuk tovább, az f (y|x) függvénynek keressük a maximumát. Mivel x változtatásával maximalizálnunk kell (4.17)-t, elég ha az exponensben szerepl˝o taggal foglalkozunk, hiszen máshol nem jelenik meg az x vektor. Az exponensen belül is elegend˝o a számlálóval foglalkozni. A (4.16) képletetet tehát így írhatjuk át: arg max Pr {y|x} = arg min (y − RAx)H R−1 (y − RAx) . (4.18) x∈AM
x∈AM
4.3. NEMLINEÁRIS MEGOLDÁSOK
43
Az utóbbi egyenl˝oség RH = R és AH = A figyelembevételével az alábbi alakra módosul: arg min (y − RAx)H R−1 (y − RAx) = x∈AM = arg min yH R−1 y − xH A y − yH A x + xH ARA x x∈AM
mivel yH R−1 y nem függ x-t˝ol és tetsz˝oleges a vektorra aH + a = 2 Re {a} , ˆ opt. mindent egybevetve azt kapjuk, hogy a feladat optimális megoldása az a d vektor, melyre ˆ opt. = arg min −2 Re yH A x + xH ARA x . d (4.19) x∈AM
Nem kell mást tenni, mint kipróbálni az összes lehetséges x szimbólumvektort, és amelyre a legkisebb a (4.19) értéke, az a vektor adja az optimális megoldást. Azonban a (4.19) egyenletbe történ˝o összes lehetséges x behelyettesítése nagyon id˝oigényes. A lehetséges szimbólumvektorok száma ugyanis ˝ optimális exponenciálisan n˝o K és N függvényében is. Ezért a valós-ideju megoldáskeresés lehetetlen. Példaként vegyük a K = 10 felhasználós, N = 10 hosszú blokkokat továbbító BPSK rendszert (M = KN = 100)! A lehetséges szimbólumvektorok száma kAkM = 2100 ≈ 1030 , amelyet korunk leggyorsabb számítógépe is – feltételezve, hogy 10 GHz-es órajelfrekvenciával egyetlen órajelre kiszámítja (4.19) értékét – kb. 3000 milliárd évig számolna.
4.3. Nemlineáris megoldások Írjuk fel a (4.1) értékét skaláris alakban, úgy mint a (2.41) egyenletben: X yl [m] = Al ρll [0]dl [m] + (4.20) Al ρll [m − i]dl [i] + | {z } i:i6=m {z } hasznos jel | ISI X X + ˜ l [m] . Ak ρkl [m − i]dk [i] + n | {z } i k:k6=l zaj {z } | MAI
Tegyük fel, hogy valamilyen oknál fogva biztosak vagyunk abban, hogy az d ˆ szimbólumvektor elemei megegyeznek d-vel, kivéve egyetlen elemet, amelyˆ ismerete abban, hogy becslést adr˝ol nincs információnk. Segít-e minket a d junk d utolsó elemére? Természetesen segít. Tegyük fel, hogy a (4.20) egyenletben kizárólag dl [m] értéke nem ismert, viszont minden más elemre dk [i] = dˆk [i], ha i 6= m, vagy k 6= l. Képezzünk az eredeti yl [m] értékb˝ol egy yl0 [m] értéket, melyre X X X yl0 [m] = yl [m] − Al ρll [m − i]dˆl [i] − Ak ρkl [m − i]dˆk [i], (4.21) i:i6=m
i
k:k6=l
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
44
amivel ha dk [i] = dˆk [i] valóban teljesül, akkor ˜ l [m]. yl0 [m] = Al ρll [0]dl [m] + n Nyilvánvaló, hogy a 1 0 ˆ y [m] dl [m] = ΦA Al ρll [0] l
(4.22)
(4.23)
szabállyal a lehet˝o legjobb megoldást érhetjük el dˆl [m]-re vonatkozóan. Azonban ha a dk [i] = dˆk [i] feltétel nem, vagy csak közelít˝oleg teljesül, akkor vajmi keveset mondhatunk el a (4.23) optimalitásáról. Márpedig egy valódi rendszerben nem biztosíthatjuk, hogy egyetlen szimbólum kivételével mindegyik tökéletesen ismert legyen, mert ez egy K = 10 felhasználós N = 10 hosszú csomagokkal üzemel˝o rendszer esetében 1 %-os csatornakihasználtságot eredményezne. Analitikusan viszont nehéz bármilyen tulajdonságot ˝ mondani a (4.23) egyenlet hibavalószínuségér˝ ol, ha a dk [i] = dˆk [i] feltétel ˝ adott valószínuséggel teljesül a (4.21) képletben. A tapasztalat azonban azt ˝ mutatta, hogy akkor is elég kis hibával tud muködni a vev˝o, ha a dk [i] = dˆk [i] becsült értékek hibája nagy. Bíztatóan hangzik. De hogyan lehet a módszer segítségével egy vev˝ot építeni? Err˝ol szól a következ˝o fejezet.
˝ vev˝ 4.3.1. Kétszintu o
˝ vev˝ kétszint u o: a ˝ legegyszerubb nemlineáris vev˝ostruktúra
˝ o kimenetén (y) végrehajtva a (4.4) muvele˝ Mi lenne, ha az illesztett szur˝ tet, a kapott becslést alkalmaznánk a (4.21) képletben? Az ötlet nem rossz, mitöbb a szakirodalom kétszintu ˝ vev˝oként (Two-Stage Detector – TSD) ismeri. ˝ A muködését leíró egyenletek a következ˝oek: n o ˆ [1] = ΦA diag [RA]−1 y (4.24) d ˆ [1] y0 = y − (R − diag [R])Ad o n ˆ TSD = d ˆ [2] = ΦA diag [RA]−1 y0 , d
(4.25)
(4.26)
ahol, vegyük észre, a diagonális elemek eltüntetésével megakadályoztuk, hogy ˝ o bizonytalan éra hasznos jeleket is kivonjuk y0 képzésekor. Az illesztett szur˝ tékeire becslést adva, a becsült értékek segítségével sikerül egy jobb becslést ˝ o kimenete utáni adni az esetek zömében. Természetesen ha az illesztett szur˝ döntés nagyon hibás, akkor a második szint döntése lehet rosszabb. A TSD blokkdiagramját a 4.1. ábrán láthatjuk. Ahogyan arra korábban is utaltunk, analitikusan nehéz bármit is mondani ˝ vev˝or˝ol. Szimulációs tapasztalatok alapján mégis kijelenthetjük, a kétszintu hogy bizonyos esetekben sokkal jobb teljesítményt nyújt, mint a lineáris vev˝ok. A kérdés az, hogy lehet-e még jobb struktúrát építeni? A válasz igen. Egy pillantást vetve a 4.1. ábrára, magától értet˝od˝o fejlesztési javaslat a szintek számát növelni. Ugyanis a szaggatott vonallal jelölt blokkokból egymás után többet alkalmazva a becslés pontossága minden blokk után javulni fog. Ha pontosabb a becslés a második szinten, akkor egy harmadik szint hozzáadásával még pontosabb lesz a becslés.
4.3. NEMLINEÁRIS MEGOLDÁSOK - diag [RA]−1 - ΦA {.}
45 ˆ [2] d -
y0 − i + (R − diag [R])A + 6 ˆ [1] yq diag [RA]−1 - ΦA {.} qd ˝ vev˝o (TSD) blokkdiagramja 4.1. ábra. A kétszintu - diag [RA]−1 - ΦA {.}
y0[n−1] − - +i (R − diag [R])A +
.. .
n. szint
.. .
- diag [RA]−1 - ΦA {.}
ˆ [n] d ˆ [n−1] d .. . ˆ [3] 6 qd -
y0[2] − q + +i (R − diag [R])A 3. szint
- diag [RA]−1 - ΦA {.}
ˆ [2] qd -
y0[1] − q + +i (R − diag [R])A 2. szint
yq
- diag [RA]−1 - ΦA {.}
ˆ [1] qd -
˝ vev˝o (MSD) blokkdiagramja 4.2. ábra. A többszintu
˝ vev˝ 4.3.2. Többszintu o párhuzamos frissítéssel Ha újabb szintekkel növeljük a TSD struktúra szerkezetét, akkor már több˝ vev˝o többszintu ˝ vev˝ szintu ˝ vev˝or˝ol (Multi-Stage Detector – MSD) beszélhetünk. A többszintu o: több, a blokkdiagramja a 4.2. ábrán látható. Vegyük észre, hogy a 4.1. ábrához képest TSD-ben megismert ˝ csak annyi a különbség, hogy a szaggatott vonallal keretezett blokkból több blokk egymás után fuzve van, mint egy. ˝ vev˝o muködését ˝ A többszintu leíró egyenleteket is hasonlóképpen építjük fel, mint a (4.24)–(4.26) esetében. Ha a szintek számát n-re választjuk: n o ˆ [1] = ΦA diag [RA]−1 y (4.27) d ˆ [1] y0[1] = y − (R − diag [R])Ad o n ˆ [2] = ΦA diag [RA]−1 y0[1] d
ˆ [2] y0[2] = y − (R − diag [R])Ad .. .
(4.28)
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
46
o n ˆ MSD = d ˆ [n] = ΦA diag [RA]−1 y0[n−1] . d
(4.29)
Vegyük észre, hogy most már nem csak egyetlen y 0 vektor létezik, hanem minden egyes szint után egy újabbat képezünk, ezért ezeket is meg kellett számoznunk. A szintek számát (n) például a rendelkezésre álló számítási kapacitás korlátai alapján állíthatjuk be. Kérdés azonban, hogy stabil-e a rendszer, hiszen instabil rendszer esetén a szintek számának növelése nem jelenti jobb állapotok elérését. A kimenet oszcillálni kezdhet különbözo˝ állapotok között, ˝ (pl. szimbólumhiba-arányú) jellemz˝oket mutathat. vagy romló teljesítményu Sajnos, – mint azt a 46. oldalon látható példában láthatjuk – a párhuzamos ˝ többszintu ˝ vev˝o nem stabil rendszer. frissítésu További kérdés az, hogy vajon hatékony-e a fent definiált eljárás? Ha n = 10-re állítjuk a szintek számát és azt tapasztaljuk, hogy három szint után nem változik jelent˝osen a szimbólumhiba-arány, akkor feleslegesen pazaroljuk a számítási kapacitásunkat. Megoldás lenne érzékelni, hogy melyik frissítés után nem történik változás a kimenetben, azaz mely m értéknél teljesül a ˆ [m] = d ˆ [m−1] egyenl˝oség. Ha létezik ilyen m < n érték, akkor befejezhetjük d ˆ MSD = d ˆ [m] vektort adhatjuk a kimenetre. Sajnos azonban az iterációkat és d az instabilitás ténye miatt nem találjuk meg mindig m értékét. Nézzünk egy példát az instabil rendszerre! ˝ vev˝ Példa egy instabil többszintu ore ˝ o kimenetén lév˝o jel y = [0,5 0,6]T -tal egyenl˝o, a Legyen az illesztett szur˝ rendszerben lév˝o két adóberendezés amplitúdója egységnyi (A = I), az alkalmazott modulációs technika BPSK alapú (di ∈ {−1, +1} és ΦA {x} = sgn {x}) A rendszert jellemz˝o diszkrét idejú csatorna mátrix alakja: R=
1,0 0,7 . 0,7 1,0
ˆ [1] = [+1 + 1]T , hiszen az y vektornak mindkét eleme A (4.27) képlet alapján d pozitív. A (4.28) egyenlet alapján y0[1] =
−0,2 0,5 − 0,7 · 1 = −0,1 0,6 − 0,7 · 1
értéket kapjuk a következ˝o iteráció bemeneteként. A szignumos döntést végˆ [2] = [−1 − 1]T adódik. Továbbfolytatva az iterációt rehajtva d y0[2] =
0,5 − 0,7 · (−1) 1,2 = 0,6 − 0,7 · (−1) 1,1
ˆ [3] = [+1 + 1]T ismét. Ezután természetesen y0[3] -ra ismét lesz, melyre d T ˆ [4] = [−1 − 1]T lesz, stb. A kimeneti értékek [−0,2 − 0,1] -et kapunk, mellyel d T tehát hol az [+1 + 1] , hol pedig a [−1 − 1]T állapotokat veszik fel, azaz a ˝ vev˝o ez esetben nem stabil. kimenet oszcillál két állapot között. A többszintu Megoldást jelenthet azonban a soros frissítés, mint azt a következo˝ fejezetben látni fogjuk.
4.3. NEMLINEÁRIS MEGOLDÁSOK
47
˝ vev˝ 4.3.3. Többszintu o soros frissítéssel ˝ vev˝o muködésének ˝ Az el˝oz˝o fejezetben láttuk a többszintu alapjait és meg˝ állapítottuk, hogy létezik olyan eset, amikor instabillá válik a muködése. Ha nem a stabilitás szemszögéb˝ol vizsgáljuk a dolgot, akkor is eszünkbe juthat ˆ [1] vektor komponenegy módosítási javaslat. A (4.27) képletben ugyanis az d ˝ seit valószínuleg nem egyszerre, hanem egymás után, szekvenciális módon ˆ [1] )1 értéke rendelkezésre áll, akkor miért ne vehetnénk figyefrissítjük. Ha (d ˆ [1] )2 el˝oállításakor? Feltételezve, hogy a becslések frissítési sorrendje lembe (d dˆ1 [1], dˆ1 [2], . . . , dˆ1 [N ], dˆ2 [1], . . . , dˆK [N − 1], dˆK [N ],
(4.30)
matematikailag a következ˝o egyenletben fogalmazhatjuk meg a szekvenciális frissítés szabályát: k−1 i[n+1] h i[n+1] h XX 1 yk [i] − = ΦA dˆk [i] (4.31) ρkl [i − j]Al dˆl [j] Ak ρkk [0] j l=1
−
− −
i−1 X j=1
h
ρkk [i − j]Ak dˆk [j]
N X
j=i+1
i[n+1]
h i[n] ρkk [i − j]Ak dˆk [j]
K X X
l=k+1
j
i[n] ρkl [i − j]Al dˆl [j] , h
h i[n] ahol dˆk [i] a k. felhasználó i. szimbólumának n. iterációban kapott becsült
értéke, továbbá a kiinduló értékek: h i[1] 1 ˆ yk [l] . dk [l] = ΦA Ak ρkk [0]
(4.32)
Bár matematikialag továbbra is nehezen kezelheto˝ az eljárás stabilitása és ˝ többszintu ˝ vev˝o konvergenciája, heurisztikus eszközökkel a soros frissítésu stabilnak bizonyult. A kés˝obbiekben megmutatjuk majd a párhuzamot a so˝ többszintu ˝ vev˝o és a neurális hálózati megvalósítás között. Mivel ros frissítésu ˝ a neurális hálózatok stabilitására létezik bizonyítás, szükségszeruen a soros ˝ többszintu ˝ vev˝o is stabil. frissítésu Stabilitás vizsgálat a 46. oldal példáján ˆ ˝ ad A (4.31) képletet használjuk. Az a szerencse, hogy itt csak két elemu vektor, ezért nem kell annyit számolnunk a szummákkal. Azonban javasoljuk az olvasónak, hogy próbálja ki a számítást összetettebb, több elemet tartalmazó mátrixokra is. [1] A (4.31) alapján dˆ1 = sgn {0,5} = +1, melyet a (4.31) képletbe helyettesítve: n o [1] [1] dˆ2 = sgn 0,6 − 0,7 · dˆ1 = sgn {−0,1} = −1.
48
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
Ha tovább számítjuk az iterációkat n o [2] [1] dˆ1 = sgn 0,5 − 0,7 · dˆ2 = sgn {1,2} = +1,
˝ többszintu ˝ vev˝oberendezés. Bár a fenti példa azt azaz stabil a soros frissítésu sugallhatja, hogy mindig stabil a rendszer, ne feledjük, hogy egyetlen esetbo˝ l semmire sem következtethetünk. Sajnos analitikusan semmit sem tudunk ˝ többszintu ˝ vev˝o stabilitásáról. Kés˝obb azonban mondani a soros frissítésu belátjuk, hogy ekvivalens a visszacsatolt neurális hálózatokkal, így a neurális ˝ többszintu ˝ hálózatokra alkalmazott levezetés következtében a soros frissítésu vev˝o is stabil kell legyen.
4.3.4. Interferencia-törl˝ o eljárások ˝ interferencia-törl o eljárás: a zavaró hatások megszüntetésére töreked˝o nemlineáris módszer
˝ vev˝oket szokás interferencia-törl˝o eljárásoknak (Interference A többszintu Cancellation – IC) is nevezni. A frissítés jellegéto˝ l függ˝oen megkülönböztethetünk soros és párhuzamos interferencia-törlo˝ vev˝oberendezéseket (SIC és PIC). Az elnevezés ugyanazokat a matematikai képleteket rejti, amelyeket a ˝ többszintu ˝ vev˝o esetében a (4.27)–(4.29) egyenletekpárhuzamos frissítésu ˝ többszintu ˝ vev˝o esetében a (4.31) képletben ismerben és a soros frissítésu tünk meg. Ha megnézzük az egyenleteinket az interferencia törlés elnevezés is világossá válik; éppen az interferencia megszüntetésének elve vezérelt bennünket, amikor felírtuk o˝ ket. Az egyetlen szabad paraméter, amely módosításával javítani lehet a soros interferencia törl˝o eljáráson, a (4.30) képletben rejlik. Néhány cikkben azt javasolják, hogy a leger˝osebb felhasználó jelével indítsuk az eljárást. Ha a leg˝ er˝osebb felhasználó jelére hajtjuk végre a ΦA {.} muveletet, akkor az kisebb hibájú becslést fog eredményezni, mint ha mással kezdenénk. A többiek detektálásakor már a leger˝osebb felhasználó zavaró hatását le tudjuk vonni a bejöv˝o jelfolyamból, így o˝ k is el˝onyösebb helyzetbe kerülnek. Másodikként a második leger˝osebb felhasználó jelét kell megvizsgáljuk és így tovább. Lényegében minden marad a régiben, csak azt kell mondanunk, hogy a felhasználókat úgy számoztuk meg a (4.30) egyenletben, hogy az követi a jelero˝ sség szerinti sorrendet. Eszerint az egyes felhasználó a legero˝ sebb jelteljesítménnyel sugároz, a kettes a második leger˝osebb, . . . , végül a K. a leggyengébb teljesít˝ ményu. ˝ struktúrákra vonatkoznak. Gyakran a SIC és PIC eljárások csak kétszintu Mivel még fiatal tudományterületr˝ol van szó, és nincs kialakult szakzsargon, mindig ügyelni kell a szintek számának pontos meghatározására.
4.4. Visszacsatolt neurális hálózatok Miel˝ott megnéznénk hogyan is kell egy neurális hálózatot alkalmazni többfelhasználós vev˝oként, sorra vesszük néhány jellemz˝ojüket és bebizonyítunk néhány hasznos tulajdonságot. El˝ore kikötjük azonban, hogy csak diszkrét ˝ és visszacsatolt neurális hálózatokkal foglalkozunk. A visszacsatolt neideju urális hálózatok ugyanis nagyon hatékonyan alkalmazhatóak a többfelhasználós vétel problémájára – mint azt a kés˝obbiekben látni fogjuk. A diszkrét˝ muködés ˝ ideju pedig a DSP-ben való implementálhatóság feltétele. Megje˝ visszacsatolt neurális hálózatok is gyezzük azonban, hogy a folytonos ideju
4.4. VISSZACSATOLT NEURÁLIS HÁLÓZATOK v1 [` + 1]
v2 [` + 1]
vk−1 [` + 1]
49 vk+1 [`]
vM [`]
... ? ... ? ? d−Wk,k−1 ×? dP d−Wk,k+1 d−WkM × × −Wk2 PP ? PP q ) - + ? dW −1 uk ×? kk ΦA {.}
? d−Wk1
×
×
? vk [` + 1]
4.3. ábra. A k. neuron felépítésének vázlata hasonló egyenletekkel írhatóak le, ezáltal nagyon hatékony és gyors megoldást jelenthetnének problémáinkra. Azonban analóg áramköri elemek szükségesek implementálásukhoz, így hangolásuk nehézkes. Maradjunk ezért a ˝ visszacsatolt neurális hálózatoknál. diszkrét-ideju A neurális hálózatok neuronokból felépül˝o mesterséges szerkezetek. Álta˝ képzési szabályt hajtunk végre, melyet itelában a neuronokban egy egyszeru ˝ rációs egyenletnek hívunk. A neurális hálózatok tulajdonságait és muködését iterációs egyenlet: a alapvet˝oen az iterációs egyenletük határozza meg. Egy tipikus neuron képét neuronok frissítési a 4.3. ábrán láthatjuk. Az ábrán vl [`] jelöli az l-edik neuron kimenetét a `-edik szabályát leíró egyenlet iterációban. El˝oállításához az eggyel megel˝oz˝o iteráció elemeire van szükség Wli súlyozással – Wli az i-edik neuron kimenetének súlyozó faktora az l-edik neuron bemenetén –, illetve ul egy független bemenet, melynek hatása mindig érvényesül. Az összegzett komponensekbo˝ l egy nemlineáris dönt˝ofüggvény (ΦA {.}) állítja el˝o a kimenetet, melynek tipikusan véges az értékkészlete (∀l, ` : vl [`] ∈ A). Az iterációs egyenlet alakja leolvasható a 4.3. ábráról, alapveto˝ en azonban az határozza meg, hogy soros, vagy párhuzamos frissítést hajtunk-e végre. Párhuzamos frissítés esetén 1 X u l − vl [` + 1] = ΦA (4.33) Wli vi [`] , Wll i:i6=l
vagy mátrixos alakban n o −1 v[` + 1] = ΦA diag [W] (u − (W − diag [W])v[`]) .
˝ vev˝okr˝ol szóló részben alkalmazott gondolatmenetet követve, A többszintu a (4.33) alapján könnyedén képezhetjük a soros (szekvenciális) frissítés esetére vonatkozó iterációs egyenletet: vl [` + 1] = ΦA
(
ul −
l−1 X i=1
Wli vi [` + 1] −
M X
i=l+1
)
Wli vi [`] .
(4.34)
˝ neurális hálózat nem minden esetben stabil, a Mivel a párhuzamos frissítésu ˝ változattal foglalkozunk. továbbiakban csak a soros frissítésu
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
50
r ? ×d −W2M
? ×d −W1M ?
.. .
×d −W12
? ×d −W21 ? -+ ?+ ? u1 ? u2 ? ... Φ {.} Φ {.}
A
A r r ? v1
? v2
r ?
×d −WM 2
r ? ×d −WM 1 ? + uM ? Φ {.}
A
...
r ?
...
vM
4.4. ábra. A neurális hálózat felépítésének vázlata A neurális hálózat szerkezete a 4.4. ábrán látható. A 4.3. ábráról megis˝ mert módon a neuronok egy összegzést és egy nemlineáris muveletet hajtanak végre. A neuronokat egy hálózatba rendezzük az ábrán. Vegyük észre, hogy a (4.33) és a (4.34) egyenletekben is a W mátrix fo˝ diagonálisában szerepl˝o elemeknek (Wnn ) csak normalizáló hatása van. A továbbiakban kihasználjuk, hogy W hermitikus mátrix, illetve fo˝ diagonálisában csak valós, pozitív értékek szerepelnek. Az utóbbi két feltételezés a konvergencia bizonyításához lesz szükséges. Az átláthatóság érdekében az alábbiakban összefoglaljuk kívánalmainkat: • A W mátrix hermitikus: W = WH . • A W mátrix f˝odiagonálisában szerepl˝o elemek értéke valós és pozitív: Wnn ∈ R+ . ˝ azaz a (4.34) képletet alkal• A neurális hálózat szekvenciális frissítésu, mazzuk iterációs egyenletként.
4.4.1. A visszacsatolt neurális hálózatok energiafüggvénye A (4.34) iterációs egyenlettel definiált visszacsatolt neurális hálózatok léenergiafüggvény: egy tezik egy energiafüggvénye, amely minden iterációs lépésben monoton – de monoton csökken˝o nem szigorúan monoton – csökken. A késo˝ bbiekben bebizonyítjuk, hogy a függvény, amely a neurális hálózatok az alábbi energiafüggvénnyel jellemezheto˝ ek: rendszerhez E(v = v[`]) = (v[`])H W(v[`]) − 2 Re uH (v[`]) ˝ egyértelmuen hozzárendelhet˝o = (v[`])H W(v[`]) − uH (v[`]) − (v[`])H u, (4.35) avagy skalárisan E(v = v[`]) =
M M X X i=1 j=1
vi∗ [`]Wij vj [`] −
M X i=1
u∗i vi [`] −
M X i=1
ui vi∗ [`].
(4.36)
4.4. VISSZACSATOLT NEURÁLIS HÁLÓZATOK
51
A következ˝okben bebizonyítjuk, hogy az energiafüggvénynek létezik alsó és fels˝o korlátja. Továbbá bebizonyítjuk, hogy az energiafüggvény változása min˝ vagy zérus. Mivel az energiafüggvény nem no˝ egyetlen dig negatív el˝ojelu, lépésben sem és létezik alsó korlátja, ezért az energiafüggvény konvergál és létezik stabil állapota. Miután az energiafüggvényt a neurális hálózat állapota ˝ meghatározza, a soros frissítésu ˝ neurális hálózat stabil. egyértelmuen Az energiafüggvény alsó korlátja Az energiafüggvénynek létezik alsó korlátja, mivel egy kvadratikus alakról van szó. Az alsó korlátot úgy határozhatjuk meg, hogy megkeressük a ˝ v vektorhoz tartozó minimális energiaértéket. Mivel folytonos értékkészletu a (4.35) energiafüggvény H E(v) = v − W−1 u W v − W−1 u − uH W−1 u alakban is leírható, ahol W nemnegatív definit mátrix. Akkor lesz minimális a (4.35) függvény, ha v helyére W−1 u-t helyettesítünk: = vH WW−1 u − uH v − vH u E(v) ≥ vH Wv − uH v − vH u H
H
H
v=W−1 u H
E(v) ≥ v u − u v − v u = −u v ≥ −kuk kvk.
Mivel v = W−1 u:
E(v) ≥ −kuk2
1 , kWk
(4.37)
ahol kWk a W mátrix legnagyobb sajátértéke. Az eredmény szerint tehát az u vektor hosszából és a W mátrix legnagyobb sajátértékébo˝ l könnyen el˝oállíthatjuk a (4.35) energiafüggvény alsó korlátját. Az energiafüggvény fels˝ o korlátja Az energiafüggvénynek csak abban az esetben létezik felso˝ korlátja, ha az A halmaz legnagyobb amplitudójú eleme véges szám. Ellenkezo˝ esetben nem tudunk fels˝o korlátot adni. Vegyük észre, hogy stabilitási szempontból nem érdekes a fels˝o korlát, így végtelen nagy elemeket tartalmazó A halmaz esetében is stabil a neurális hálózat. A energiafüggvény legnagyobb értéket akkor használhatjuk, ha fels˝o becslést akarunk adni a stabil állapot eléréséhez szükséges iterációs lépések maximális számára. Az energiafüggvény biztosan kisebb, vagy egyenlo˝ az abszolút értékben vett tagok összegénél: E(v) ≤ kvk2 kWk + 2 kuk kvk.
˝ elemét jelöljük: Ha vimax -szal az A halmaz legnagyobb abszolútértéku vimax = max |x|, x∈A
akkor a fels˝o korlátra adhatunk fels˝o korlátot az alábbi alakban: √ E(v) ≤ M |vimax | kWk + 2 M |vimax | kuk.
(4.38)
Eredményünk fényében megállapíthatjuk, hogy az energiafüggvénynek létezik fels˝o korlátja, mely az A halmaz maximális eleméb˝ol, a W mátrix legna˝ gyobb sajátértékéb˝ol, az u vektor hosszából és dimenziójából egyértelmuen meghatározható.
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
52
Az energiafüggvény változása Nézzük meg, hogy hogyan változik az energiafüggvény, ha éppen az l-edig neuron kimenetének értékét számítjuk az [` + 1]-edik iterációban (az energiafüggvény változását E[`, l]-lel jelöljük): ∆E[`, l] = E(v = [v1 [` + 1], v2 [` + 1], . . . , vl [` + 1], vl+1 [`], . . . , vM [`]) −
−E(v = [v1 [` + 1], v2 [` + 1], . . . , vl−1 [` + 1], vl [`], . . . , vM [`]).
A (4.36) képletet behelyettesítve ∆E[`, l] =
l−1 X j=1
+
(vl [` + 1] − vl [`])∗ Wlj vj [` + 1] +
M X
j=l+1
+
l−1 X i=1
+
(vl [` + 1] − vl [`])∗ Wlj vj [`] +
vi∗ [` + 1]Wil (vl [` + 1] − vl [`]) +
M X
i=l+1
vi∗ [`]Wil (vl [` + 1] − vl [`]) +
+ |vl [` + 1]|2 − |vl [`]|2 Wll − − u∗l (vl [` + 1] − vl [`]) − ul (vl [` + 1] − vl [`])∗ . Az azonos tagokat most egymás mellé rendezzük, és kihasználjuk, hogy a W ∗ herimikus mátrix (Wij = Wji ): M l−1 X X Wlj vj [`] − ul + Wlj vj [` + 1] + ∆E[`, l] = (vl [` + 1] − vl [`])∗ j=1
+(vl [` + 1] − vl [`])
l−1 X
j=l+1
Wlj∗ vj∗ [` + 1] +
j=1
+ |vl [` + 1]|2 − |vl [`]|2 Wll ,
M X
j=l+1
Wlj∗ vj∗ [`] − u∗l +
˝ amely az alábbi alakra egyszerusíthet˝ o: (4.39) ∆E[`, l] = |vl [` + 1]|2 − |vl [`]|2 Wll + l−1 M X X + 2 Re (vl [` + 1] − vl [`])∗ Wlj vj [` + 1] + Wlj vj [`] − ul . j=1
j=l+1
Vegyük észre, hogy a (4.39) képletben, a nagy kerek zárójelen belül ugyanaz a kifejezés jelenik meg, mint a (4.34) egyenletben a ΦA {.} függvény argumentumában – csak éppen negatív el˝ojellel és Wll -lel szorozva. Ahhoz, hogy belássuk, a (4.39) képletben definiált energiaváltozás valóban ˝ el˝oször kell egy kis kitér˝ot tennünk. A (4.3) egyenlet alapján negatív értéku,
4.4. VISSZACSATOLT NEURÁLIS HÁLÓZATOK
53
ha x ∈ C tetsz˝oleges komplex szám, y = ΦA {x}, az x-b˝ol képzett A halmazba tartozó elem és z ∈ A egy eleme az A halmaznak, |x − y| ≤ |x − z|.
Nyilvánvalóan a négyzetekre is teljesülnie kell az egyenlo˝ tlenségnek (mivel a ˝ négyzetreemelés relációtartó muvelet): |x − y|2 ≤ |x − z|2 ,
vagy más alakban
(x − y)∗ (x − y) ≤ (x − z)∗ (x − z).
˝ Elvégezve a szorzás muveletét és egy oldalra rendezve a tagokat |y|2 − |z|2 + 2 Re {(y − z)∗ (−x)} ≤ 0.
(4.40)
Ha a (4.39) képletben kihasználjuk, hogy minden Wll érték pozitív valós szám, akkor el is oszthatunk vele. Az osztás a valósérték-képzo˝ operátoron belül és azon kívül is végrehajtható (mert valós) a relációjel sem fordul meg (mert ˝ pozitív). Az egyszerubb kezelhet˝oség érdekében bevezetjük az y = vl [` + 1], z = vl [`] és M l−1 X 1 X Wlj vj [`] + ul Wlj vj [` + 1] − − x= Wll j=1 j=l+1
jelöléseket. Ekkor (4.39) alakja a bevezetett változókkal így írható fel: ∆E[`, l] = Wll |y|2 − |z|2 + 2 Re {(y − z)∗ (−x)} ≤ 0,
amely (4.40) alapján és a Wll pozitív valós jellegének következményeként mindig kisebb, mint nulla. Következésképpen a (4.39) képlet mindig nempozitív, az energiafüggvény minden lépésben csökken, vagy nem változik: ∀`, l :
∆E[`, l] ≤ 0.
Mivel bebizonyítottuk, hogy a (4.36) egyenletben definiált függvénynek létezik egy alsó korlátja és minden lépésben csökken, vagy nem változik az értéke, ezért az energiafüggvény egy szélso˝ értékbe – méghozzá minimumba – konvergál. A neurális hálózat szempontjából ez annyit jelent, hogy stabil a ˝ rendszer. Másrészr˝ol pedig a muködése során a (4.36) energiafüggvényt csökkenti a visszacsatolt neurális hálózat. Az utóbbi tulajdonságot használjuk ki, amikor a többfelhasználós vétel céljára alkalmazzuk a következo˝ fejezetben.
4.4.2. A visszacsatolt neurális hálózat, mint többfelhasználós vev˝ ostruktúra Ha összehasonlítjuk a (4.19) és a (4.35) egyenleteket, akkor nagyon hasonló alakokat fedezhetünk fel. A neurális hálózat minden iterációs lépésben ˆ opt vektor, amely csökkenti a (4.35) értékét, az optimális megoldás pedig az a d minimalizálja a (4.19) egyenletet. Legyen W = ARA u = Ay
(4.41) (4.42)
ˆ RNN = lim v[`]. d
(4.43)
`→∞
54
FEJEZET 4. A TÖBBFELHASZNÁLÓS CSATORNA
Ekkor ugyanis a neurális hálózat energiafüggvénye az optimális megoldást jellemz˝o (4.19) egyenlet lesz, mivel a (4.19) és (4.35) azonos alakra vezetnek. Másképpen mondva a neurális hálózat minden lépésben csökkenteni fogja azt az egyenletet, melynek globális széls˝oértéke az optimális megoldás. Lehetséges lenne, hogy találtunk egy módszert amely optimális megoldása a többfelhasználós vev˝ok problémájának? Vigyáznunk kell, mert két dolgot nem vettünk figyelembe. Elo˝ ször a W mátrixszal kapcsolatban megfogalmazott kívánalmainkat nem elleno˝ riztük. A W mátrixnak hermitikusnak kell lennie és csupa pozitív valós elemet kell tartlamaznia a f˝oátlójában. A (4.41) alapján az ARA mátrixra kell belátnunk az utóbbi két tulajdonságot. Az ARA hermitikus, hiszen az R mátrix maga hermitikus volt, az A mátrix pedig diagonális és csupa pozitív valós elemet tartalmazott. Az R mátrix f˝odiagonális elemei szintúgy pozitív valósak, hiszen hci (t), ci (t)i alakjukból adódóan nem lehetnek negatívak, vagy komplexek. Ezért a ARA mátrix f˝odiagonálisában lév˝o elemek is pozitív valósak lesznek. A feltételek teljesítésével tehát nincs probléma Másrészr˝ol viszont a 4.4.1. fejezetben nem láttuk be, hogy a neurális hálózat globálisan minimalizálja az energiafüggvényt, de még csak azt se, hogy ha a neuron állapotváltásához energiacsökkenés tartozik, akkor megtörténik a neuronban az állapotváltás (ez utóbbi belátható). Mivel a visszacsatolt neurális hálózat nem globális széls˝oértékkeres˝o eljárás, ezért az energiafüggvényben csak lokális széls˝oértékeket képes megtalálni, így nem ad optimális megoldást. Az esetek többségében mégis nagyon jó hatásfokkal alkalmazható, ráadásul nagyon gyorsan konvergál. Egy nagynak mondható rendszerben kb. neurononként 5-6 frissítésre van szükség, hogy a hálózat elérje a stabil állapotát. ˝ a valóságban a stabil állapot Ezért a (4.43) képlet csak szimbólikus jelentésu; elérésével a neuronok további frissítése is feleslegessé válik. Az interferencia törl˝ o és neurális eljárások ekvivalenciája ˝ neurális hálózat gyakorlatilag ugyanazt csinálja, mint A sorrendi frissítésu ˝ vev˝o. Az egyetlen számottev˝o különbség az, hogy míg a többegy többszintu ˝ vev˝oknél a szintek száma el˝ore meghatározott volt, és nem lehetett szintu rajta változtatni, addig a neurális hálózatok esetében a neuronok végzik az összes szint számítási feladatait. A visszacsatolt neurális hálózat tehát gya˝ vev˝o, melyben a szükséges korlatilag nem más, mint egy adaptív többszintu szintek számát automatikusan határozza meg a hálózat.
4.4.3. Továbbfejlesztett visszacsatolt neurális hálózatok Folytonos aktiváló függvénnyel... Sztochasztikus Hopfield...
5. fejezet
Csatorna Kiegyenlítés 5.1. Bevezet˝ o A mobil csatorna torzításának kijavítására különféle eljárásokat dolgoztak ki, melyek például lehetnek: • diversity, • kódolás, • többviv˝os rendszerek, • kiegyenlítés. Technikák, melyeket külön-külön vagy a nagyobb biztonság elérése érdekében többet együtt is alkalmaznak. A kiegyenlíto˝ eljárást azonban mikrohullámú kommunikációs rendszerekben majdnem minden esetben használnak ???. Röviden, pár mondatban összegzem ezen leheto˝ ségeket. Diversity. Az átviend˝o jeleket külön, egymástól független csatornákon juttatjuk el a vev˝oig. Lehetséges változatai közül néhány : • frekvencia diversity, ahol a minél kisebb frekvencia távolság nyújt optimális megoldást, • tér diversity, mely eljárásnál egyszerre több antennával (általában a vevo˝ oldalon) próbáljuk a fading okozta teljesítmény letörést kiküszöbölni, • szög diversity, • polarizációs diversity, mely eljárásnál ugyanazt az információt mind a H, mind a E síkban egyszerre továbbítjuk, • út diversity, ahol az átvitel több különböz˝o úton valósul meg, • id˝o diversity, ahol az információt egy elo˝ re definiált id˝o elteltével újraadjuk. 55
56
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
Kódolás. Els˝osorban a csatorna kódolással ismert és ezáltal kezelheto˝ redundanciát csatolunk az adatfolyamhoz. A tipikus kódoló eljárások lehetnek konvolúciós vagy blokk kódolók. Amennyiben az így kódolt adat átvitelét fa˝ u ˝ fading megakadályozza, akkor a dekódoló képes a hiba kijavítására. Túl sur ding “becsapások” esetén azonban nem nyújt elegendo˝ védelmet, ezért egyedül ezt az eljárást nem is használják. Többviv˝ os rendszerek. Mikrohullámú rendszerekben nagyon rossz terjedési körülmények között használható ez a megoldás ???. Az átviendo˝ bitfolyamot párhuzamosan több viv˝ore modulálják, melyeket azután egyszerre sugároznak ki. Kiegyenlít˝ o. Ez az eljárás els˝osorban a szimbólumközi áthallást kompen˝ id˝odiszperzív csatorna okoz a vev˝oben bit hizálja, amit a többutas terjedésu, bákat eredményezve. Tágabb értelemben minden jelfeldolgozó eljárást, mely csökkenti a szimbólumközi áthallást, csatorna kiegyenlíto˝ nek lehet nevezni ???. Mivel a mobil csatorna változása véletlen (sztochasztikus), ill. ido˝ függ˝o folyamat, a kiegyenlít˝onek követnie kell a csatorna változásait, ezért a kiegyenlít˝onek adaptívnak kell lennie.
5.2. Kiegyenlít˝ ok osztályozása Az adaptív kiegyenlít˝oket többféleképpen lehet osztályokba sorolni. Az egyik megközelítés szerint beszélhetünk elleno˝ rzötten tanított (supervised) vagy nem ellen˝orzötten tanított (unsupervised) eljárásokról. Az elo˝ bbi osztályba tartoznak azok a kiegyenlít˝ok, amelyek az átvitel során periodikusan egy megfelel˝o fix- vagy változó hosszúságú álvéletlen, a vev˝o által is ismert tanító bitfolyamatot küldenek a vev˝onek. Ennek segítségével a kiegyenlíto˝ a saját paramétereit folyamatosan változtatja. Mivel a vev˝onek pontosan ismernie kell a tanító bitszekvencia kezdetének érkezési idejét, a legkönnyebben olyan id˝oosztásos rendszerekben alkalmazható, mint az Európában széleskörben elterjedt GSM hálózat. Minden normál- és dummy börszt közepén megtalálható ez az ismert, fix hosszúságú (26 bit) bitfolyam, amit midamblenek neveznek. (Az Access burst is tartalmaz 41 bit hosszú training szekvenciát, ami az els˝o 8 tail bit után helyezkedik el.) ???. Léteznek azonban olyan felhasználási területek, ahol nehezen megvalósítható, vagy nem megoldott a tanító jelek átvitele. Ilyen esetekben szükség van olyan kiegyenlít˝o algoritmusokra, amelyek képesek mindenféle tanító bitfolyam nélkül az átvitt jel eredeti karakterisztikájának visszaállítására. Ezeket a modern algoritmusokat blind (vak) algoritmusoknak nevezik. Jelenleg a legelterjedtebben alkalmazott a CMA (Constant Modulus Algorithm), amelyet állandó burkolójú modulált jelek feldolgozására használnak. A kiegyenlíto˝ súlyait úgy változtatja, hogy a vev˝oben a vett jel burkolója állandó maradjon. Err˝ol a kiegyenlít˝o családról b˝ovebben a xxxxx alfejezetben írok. A tanított és nem tanított kiegyenlít˝o struktúrákat ismét két részre lehet osztani. A szekvenciális becslés és szimbólum becslés osztályaiba. A szekvenciális becsl˝o a korábban vett jelekb˝ol használ fel egy sorozatot a követ-
˝ OSZTÁLYOZÁSA 5.2. KIEGYENLÍTOK
57
kez˝o szimbólum becslésére, amit ezért végtelen memóriájú kiegyenlíto˝ nek is neveznek. A legelterjedtebb ilyen típusú becslo˝ a Maximum Likelihood Sequence Estimator (MLSE), amelyet általában a Viterbi-Algoritmussal (VA) valósítanak meg. Az algoritmus egy olyan szimbólum sorozatot választ az ri ˝ ˝ vektorból, amit az s(k) vektor a legnagyobb valószínuséggel valószínubben tartalmaz. Tehát: l = arg max {Prr|s {r(k) = rj |s(k)} j
(5.1)
A véges memóriájúnak tekintett szimbólum (Symbol-by-Symbol, SbS) becslo˝ azonban csak egy fix számú bemeneti mintát használ az átvitt jel detektálására. Az ilyen típusú kiegyenlíto˝ optimális döntési függvényét a Maximum a Posteriori (MAP) kritérium szolgáltatja, amit a Bayes-elméletébo˝ l származtatunk. Ezért szokás ezeket a kiegyenlíto˝ ket Bayes- vagy MAP kiegyenlít˝oknek is nevezni. A végtelen memóriájú MAP kiegyenlít˝o jobb teljesítményt is nyújthat, mint az MLSE, de számítási bonyolultsága messze nagyobb a vetélytársénál. Ezért inkább a véges memóriájú MAP kiegyenlít˝oket alkalmazzák, amelynek bonyolultsága ugyan sokkal kisebb végtelen memóriájú változatánál, de még mindig összetettebb az MLSE-nél . Mivel a szimbólum becsl˝o eljárásra támaszkodó kiegyenlít˝o architektúrákkal b˝ovebben kívánok foglalkozni, a xxxxxxx alfejezetben még kitérek az MAP kritérium felelevenítésére. Egy másik osztályozás szerint a kiegyenlíto˝ ket lehet lineáris és nemlineáris csoportokba sorolni attól függ˝oen, hogy a döntés a korábban detektált szimbólum (szekvencia) lineáris vagy nemlineáris függvénye szerint történik. Azonban vigyázni kell a nemlineáris kifejezéssel. A nemlinearitás fogalma az irodalomban többféleképpen jelent meg. Jelentheti azt, hogy a ki˝ egyenlít˝o nemlineáris muveleteket végez a feldolgozandó jelen, illetve azt, ˝ hogy a lineáris muvelethez korábbi döntési eredményt is felhasznál a kiegyenlít˝o. A távközléssel foglalkozó irodalom a hagyományos döntésvisszacsatolt kiegyenlít˝ot (DFE -Decision Feedback Equalizer) nemlineárisnak tünteti fel, mert ugyan a döntés a vett jel lineáris függvénye szerint történik, azonban a visszacsatolással nemlinearitás kerül a hálózatba. ˝ ok, amelyek a csaA lineáris adaptív kiegyenlít˝ok olyan lineáris FIR szur˝ ˝ torna által elrontott, vett jelsorozaton egy inverz szurést hajtanak végre. A tanítást olyan adaptív algoritmusokkal, mint LMS vagy lattice végzik, úgy hogy a minimális közepes négyzetes hiba (Minimum Mean Square Error (MMSE)) ˝ o megoldáshoz vezet. kritériumot veszik figyelembe, ami így a Wiener-szur˝ A nemlineáris jelfeldolgozási technikákban jelenleg is tartó fejlesztések miatt a nemlineáris kiegyenlít˝oknek széles köre ismert. A legkülönbözo˝ bb ˝ ore, a többrétegu ˝ perceptron hálózatra (Multi Layer eljárások a Volterra-szur˝ Perceptron-MLP), a radiális bázisfüggvény hálózatra (Radial Basis Function˝ okre támaszkodhatnak. A fent említett nemlineáris adapRBF ) vagy fuzzy szur˝ tív kiegyenlít˝o architektúrákról jó áttekintést lehet nyerni pl. a ??? szakirodalmakból. A nemlineáris jelfeldolgozási technikákban jelenleg is tartó fejlesztések miatt a nemlineáris kiegyenlít˝oknek széles köre ismert. A legkülönbözo˝ bb ˝ ore, a többrétegu ˝ perceptron hálózatra (Multi Layer eljárások a Volterra-szur˝ Perceptron-MLP), a radiális bázisfüggvény hálózatra (Radial Basis Function-
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
58
˝ okre támaszkodhatnak. A fent említett nemlineáris adapRBF ) vagy fuzzy szur˝ tív kiegyenlít˝o architektúrákról jó áttekintést lehet nyerni pl. a [9,13,14,17][18,19,21,22,24] szakirodalmakból. Jelen dolgozat következ˝o fejezetében els˝osorban nemlineáris, tanított kiegyenlít˝o algoritmusokkal foglalkozom, ahol a nemlinearitás fogalmát az utóbbi megfogalmazás szerint veszem figyelembe, tehát a döntés a vett jel és a korábban detektált jel nemlineáris kombinációja alapján történik.
5.3. Nemlineáris ellen˝ orzötten tanított kiegyenlít˝ ok 5.3.1. Csatorna állapotok, a kiegyenlítési probléma geometriai megközelítése Ebben a fejezetben az optimális szimbólum becslo˝ kiegyenlít˝o döntési függvényét mutatom be. Az 1. fejezetben leírt alapsávi digitális kommunikációs ˝ ovel modellezhetrendszert figyelembe véve az analóg csatornát egy FIR szur˝ jük. A kiegyenlít˝o az ebb˝ol a csatornából kibocsátott T
r(k) = [r(k), r(k − 1), ..., r(k − n + 1)] ∈ Rn , n dimenziós tér vektorait használja bemenetként, ahol n a kiegyenlíto˝ hosszát, (n−1) a kiegyenlít˝o rendjét határozza meg. A vett jelet felírhatjuk a zajmentes ˝ σs varianciájú Gausz-zaj összegeként. hasznos jel és a nulla várhatóértéku r (k) = ˆ r (k) + n (k) , ahol ˆ r(k) ∈ Rn , valamint az n(k) zajnak is csak az Rn teret kifeszít˝o bázisfüggvényeivel felírható komponenseit vesszük figyelembe. Minden zaj nélküli vett jelvektor egy lehetséges csatorna állapotot reprezentál. A csatorna állapotokat a csatornán átviend˝o T
s(k) = [s(k), s(k − 1), ..., s(k − m − n + 2)] ∈ Rm+n−1 szimbólum vektor és a Toeplitz alakú csatorna impulzus válasz mátrix H ∈ Rn×(m+n−1) szorzata határozza meg. A csatorna rendjét m jelöli. Tehát a jel m úton terjed és a szimbólumközi áthallás (ISI) n bitre terjed ki. A csatorna paraméterekb˝ol felírható csatorna mátrix a következ˝o: h0 h1 h2 · · · hm−1 0 ··· ··· 0 0 h0 h1 · · · hm−2 hm−1 0 · · · 0 .. . . . . . . . . . . . . H=. 0 . . . . . .. .. . .. .. .. . . 0 0 · · · · · · h0 h1 · · · · · · hm−1
Mivel a csatorna bemeneti s( k) vektorának N = M m+n−1 kombinációja létezik [21], ahol M a szimbólum ABC méretét jelöli, így zaj nélküli vett ˆ r( k) jelvektor is legfeljebb Ncs csatorna állapotot tud felvenni, melyeket cj - vel jelölök. cj = ˆ r = H · sj
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
59
A d
ahol, ++ = {ˆ r(k) ∈ Rn |s(k − d) = +1 + j } , Cn,d −− = {ˆ r(k) ∈ Rn |s(k − d) = −1 − j } , Cn,d +− = {ˆ r(k) ∈ Rn |s(k − d) = +1 − j } , Cn,d −+ = {ˆ r(k) ∈ Rn |s(k − d) = −1 + j } . Cn,d
(5.2)
˝ példának vegyünk egy csatornát és egy kiegyenlíto˝ t, melyekEgy egyszeru nek két-két együtthatója van. Az összes lehetséges csatorna kimenetet a következ˝o egyenletben lehet összegezni s (k) h0 h1 0 r (k) n (k) s (k − 1) + = , 0 h 0 h1 r (k − 1) n (k − 1) s (k − 2) amit tömörebben vektor mátrix felírással rk = Hsk + nk lehet megadni. Legyen a csatorna impulzus válasz z-transzformáltja h(z) = 0,5 + 1 z −1 . A könnyebb ábrázolás érdekében válasszuk a szimbólumok számát M = 2nek. A (3) egyenletnek megfelel˝oen N = 22+2−1 = 23 = 8 különböz˝o csatorna állapotot lehet megkülönböztetni. Az összes lehetséges csatorna állapotot az 1. Táblázat tartalmazza, valamint a 6. ábra mutatja a kiegyenlíto˝ két együtt+ ,valamint kék négyzehatójának függvényeként. (Piros háromszögekkel a Cm − tekkel a Cm halmazba tartozó elemeket jelöltem.) A 6. ábrán látható, hogy amint n(k) zajt is figyelembe vesszük, a 8 csatorna állapotot reprezentáló pont, 8 klaszterré fejlo˝ dik, ahol az ˆ r (k) 8 lehetséges kimenetét ezen klaszterek középpontjának lehet tekinteni. Tehát a kiegyenlítési probléma klasszifikációs feladattá válik, ahol a zajos r(k) vektor által kifeszített megfigyelési tér területeit kell az s(k) bemeneti vektor lehetséges állapotaihoz rendelni. m P gi z −i , akkor a g∗ r (k) = 0 Ha a kiegyenlít˝o átviteli függvénye G (z) = ∗
i=0
egyenlet eredménye a határ, ahol () a komplex konjugált operátor. Lineáris kiegyenlít˝ok ezt a klasszifikációs problémát egy dönto˝ egységgel valósítják ˝ esetben a sign(x) függvény lehet. Ez az egyenlet inkább meg, ami egyszeru egy egyenest ír le, mint egy hipersíkot. Ez a sík a megfigyelési teret két részre osztja. Azonban, ha a csatorna nem minimálfázisú, mint az a példában szerepel, akkor egy egyenessel nem lehet a két osztályt egymástól elválasztani [13].
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
60
1 2 3 4 5 6 7 8
cj c1 c2 c3 c4 c5 c6 c7 c8
s(k) 1 1 1 1 -1 -1 -1 -1
s(k-1) 1 1 -1 -1 1 1 -1 -1
s(k-2) 1 -1 1 -1 1 -1 1 -1
rˆ (k) 1.5 1.5 -0.5 -0.5 0.5 0.5 -1.5 -1.5
rˆ (k − 1) 1.5 -0.5 0.5 -1.5 1.5 -0.5 0.5 -1.5
5.1. táblázat. Adaptív kiegyenlít˝ok osztályozása Ha egy minimumfázisú csatornát “választunk”, akkor a csatorna állapotot reprezentáló pontok különböz˝o távolságra kerülnek a döntési határhoz. Megeshet, hogy egy pont túl közel kerül a döntési határhoz és az n(k) zaj hatására a vett jel akár át is kerülhet a döntési határ túloldalára, ami hibás döntést eredményez. Tehát keresnünk kell olyan eljárásokat, melyek képesek kezelni a nem minimálfázisú csatornákat is, valamint olyan döntési határt, ami a zaj függvényében is változik. Ez a geometriai leírás közvetlenül elvezet a bayes-i megközelítéshez.
5.3.2. Bayes-tétel, MAP kritérium, az optimális szimbólumbecslés Egy digitális kommunikációs rendszer forrása bináris kommunikációt feltételezve, két különböz˝o Mi , i = 1,2 eseményt adhat, P (M1 ) = P1 ill. P (M2 ) = ˝ P2 fellépési- vagy másként a-priorivalószínuséggel. A lineáris csatorna torzítása után az Mi események a vev˝oben megegyeznek az Fi , i= 1, 2 feltételezéssekkel, amelyek közül a vev˝onek egy optimalizáló kritérium segítségével a vett r(k) vektor kiértékelésével dönteni kell. Négy esetet lehet megkülönböztetni mivel M1 és M2 eseményre is dönthet a vev˝o F1 , vagy F2 feltételezéssel. Könnyen észrevehet˝o, hogy az M1 -re adott F1 válasz és az M2 -re adott F2 válasz helyes, míg a másik két lehet˝oség hibás döntéshez vezet. Lehet˝oség van egy ún. rizikófüggvény felírására, amit a Bayes-kritériummal minimalizálni kell. R = K11 P1 P (F1 |M1 )+K21 P1 P (F2 |M1 )+K12 P2 P (F1 |M2 )+K22 P2 P (F2 |M2 ) ,(5.3) ahol Kij az i. vev˝o döntési költsége a j. forrás oldali eseményt figyelembe ˝ véve. P (Fi |Mj )annak a feltételes valószínusége, hogy az adó az Mj eseményt ˝ adta és a vev˝o a Fi feltételezést választotta. A feltételes valószínuség felír˝ uségfüggvény ˝ ható, mint a döntési téren értelmezett feltételes sur integrálja. Így (5.3) felírható (5.2) segítségével [15] R R R R = K11 P1 fC|M1 (r |M1 ) dr + K21 P1 fC|M1 (r |M1 )dr + K12 P2 fC|M2 (r |M2 )dr C− C+ R C+ .(5.4) fC|M2 (r |M2 ) dr +K22 P2 C−
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
61
Mivel azonban C + és C − altereknek metszete üres, valamint a teljes döntési térre kiegészítik egymást, ebb˝ol következik, hogy Z Z fC|Mi (r |Mi )dr = 1 − fC|Mi (r |Mi )dr. C+
C−
Ezzel a (5.4) egyenlet átírható, a következo˝ képpen Z P2 · [K12 − K22 ] · fC|M2 (r |M2 ) − P1 · [K21 − K11 ] · fC|M2 (r |M1 ) dr.(5.5) R = K22 P2 +K21 P1 +
Az egyenlet jobb oldalán az els˝o két tag nem függ a döntési tér változásától, tehát a széls˝oérték keresésnél nem kell figyelembe venni, így elhagyhatók. A következ˝okben a feladat a hibás döntés minimalizálása. Erre megoldást ˝ nyújt az Mi -hez tartozó a-posteriori valószínuség P (Mi |r ) maximalizálásával a Maximum a-posteriori (MAP) kritérium. Ennél az eljárásnál a vevo˝ a vett ˝ r vektor ismeretében az adó által legvalószínubben adott eseményre dönt. Az ˝ a-posteriori valószínuség P (Mi |r ) Bayes-szabállyal felírva P (Mi |r ) =
fC|Mi (r |Mi ) · Pi . fC (r)
(5.6)
A bayes-i kiegyenlít˝o döntési függvénye Ψ (r) a bináris szimbólum a-posteriori ˝ valószínuségeit hasonlítja össze (5.7)
Ψ (r) = P (M1 |r ) − P (M2 |r ) .
˝ Felhasználva, hogy adatátvitelnél az a-priori valószínuségek egyenl˝ok, ami˝ r˝ol a forráskódoló gondoskodik, valamint mindkét a-posteriori valószínuségben a nevez˝o azonos, a (5.6) egyenletben P1 −el ésP2 , ill. fC (r) hatásait széls˝oérték keresési szempontból el lehet hagyni. A (5.7) egyenlet a következo˝ képpen alakul (5.8)
Ψ (r) = fC|M1 (r |M1 ) − fC|M2 (r |M2 ) ,
˝ uségfüggvények ˝ ahol a feltételes sur megegyeznek az egyes csatorna állapotok ˝ uségfüggvényeinek ˝ cj ∈ C + , ill. ci ∈ C − sur összegével. fC|Mi,j (r |Mi,j ) =
X
cj ∈ Cd+ ci ∈ Cd−
(5.9)
p (r |ci,j ),
A zaj jelenléte miatt az r(k) vett jelet véletlen folyamatként lehet jellemezni, ˝ uségfüggvényének ˝ aminek a feltételes Gauss sur a várható értéke a csatorna állapotok helyvektorai, valamint a szórása a zaj szórása. f r cj =
1 n/2 (2πσ 2 )
exp −
ahol k..k az euklideszi távolság.
!
r (k) − c 2 j
2σ 2
,
(5.10)
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
62
˝ Ezek után a (10,11,12) egyenletekb˝ol felírható az egyszerusített bayes-i ki˝ egyenlít˝o Ψ (r) döntési függvénye a szorzótényezo˝ k egyszerusítése után. Ψ (r) = =
N P
i=1
P
cj ∈Cd+
exp −
wi · exp −
ahol wi = +1, ha ci
kr(k)−cj k 2σ 2
kr(k)−ci k 2σ 2
2
,
2
−
P
ci ∈Cd−
∈ C + és wi = -1, ha ci
2 kr(k)−ci k exp − 2σ 2
(5.11)
∈ C − bináris esetben.
Az MAP és MLSE becsl˝ ok rövid összevetése. Tehát a Bayes vagy MAP szim˝ bólum döntési szabály azt a szimbólumot választja, amelyik a legvalószínubb a vett r(k) vektorban. Az optimális szekvencia becslo˝ t a (2) egyenlet képviseli. A (5.11) egyenletb˝ol látható, hogy nulla zaj esetén egy szekvencia fog dominálni, minek következtében az MAP és az MLSE ugyanazon vevo˝ felé konvergál. Mint azt már említettem, kis jel/zaj viszonynál az MLSE rosszabb teljesítményt mutathat MAP becsl˝o eljárásnál [16]. Ezen elméletnek a bizonyítását számítógépes szimuláció is alátámasztja [17]. Ennek ellenére az MLSE napjainkig nagyobb teret kapott a híradástechnikában, aminek okai több részb˝ol tev˝odnek össze. Mint arra már korábban kitértem MAP számítási bonyolultsága sokkal nagyobb, mint az MLSE becsl˝onek. Míg az MLSE algoritmusoknál elegend˝o az ˝ uség˝ euklideszi távolság kiszámítása, addig MAP eljárásoknál feltételes sur függvényeket és ezáltal exponenciális függvényt kell kiszámolni. A MAP számításához szükség van továbbá az additív Gauss-zaj varianciájának ismeretére. Komplex adaptív nemlineáris kiegyenlít˝ ok Mint azt láttuk, az adaptív nemlineáris kiegyenlíto˝ k az N dimenziós bemeneti vektort egy jel alakzathoz (konstellációhoz) rendelik hozzá, tehát egy ˝ Rm → R transzformációt végeznek el. Ebben a fejezetben néhány népszeru nemlineáris kiegyenlít˝o architektúrát mutatok be. Részletesebben tárgyalom a radiális bázisfüggvény (RBF) hálózatot és a fuzzy rendszeres megoldást, míg további nemlineáris kiegyenlít˝o struktúrákat, mint a Többrétegu ˝ perceptron (MLP), visszacsatolt RBF, visszacsatolt ANN (mesterséges neurális hálózat) [18] ˝ oket nem érintek a dolgozat során. vagyVolterra-szur˝
5.3.3. Radiális bázis függvény (RBF) kiegyenlít˝ o Az RBF hálózatot eredetileg többdimenziós térben adat interpolációra fejlesztették ki. Azonban az interpoláció problémákat is rejt magában [13]. Mivel az adathalmaz többnyire sokkal nagyobb, mint az RBF elemek NRBF száma, tehát a lineáris egyenletek száma nagyobb, mint az ismeretlenek száma, valamint adatátviteli megoldásokat szem el˝ott tartva, a vett jel additív zajt is tartalmaz, ami miatt az interpoláció nem a helyes megoldást adja. Ennek a problémának a kiküszöbölésére Broomhead és Lowe az RBF hálózatot Least
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
63
Square (LS) becsl˝oként értelmezték, amivel megindult az RBF hálózatok szé˝ alkalmazása jelfeldolgozási problémákra. lesköru ˝ lineA hálózat két aktív réteget tartalmaz. A kimeneti réteg egy egyszeru áris, súlyozott összeget FRBF (r(k)) képez a rejtett réteg processzáló elemi kimenetéb˝ol. FRBF (r (k)) =
NX RBF
wi φi (r (k)),
(5.12)
i=1
ahol NRBF az RBF processzáló elemek száma, wi a RBF elemek súlya, valamint φ(.)az RBF elemek által el˝oállított radiális bázisfüggvény, melynek a feladata az n hosszúságú bemeneti vektorból egy skalár mennyiség elo˝ állítása [12]. Az így kapott kimenet egy sign(x) dönto˝ függvénnyel feldolgozva adja a kiegyenlít˝o kimenetét. Alkalmazásoktól függ˝oen egyszerre több kimenetet is használhatunk, mint azt majd komplex bemen˝o jelek esetében látni fogjuk. Kiegyenlít˝o alkalmazásokban további bázisfüggvényeket megelo˝ zve [12] a legelterjedtebben a gauss bázisfüggvényt alkalmazzák ! 2 kr (k) − ci k . (5.13) φi (r (k)) = exp − 2σ 2 A (5.13) kifejezésben ci -vel az i-ik RBF elem központját jelöltem. A paraméter σ 2 ellen˝orzi a bázisfüggvény rádiuszát és ezzel meghatározza, milyen gyorsan csökken a függvény értéke egyro˝ l nullára. (5.13)-t (5.12)- be behelyettesítve: ! 2 X kr (k) − ci k . (5.14) FRBF (r (k)) = wi exp − 2σ 2 i Könnyen észrevehet˝o a radiális bázisfüggvény hálózat kimenete (5.14) és az elméletben kapott optimális szimbólum becslo˝ MAP kiegyenlít˝o döntési függvénye (5.10) közötti hasonlóság. Az RBF hálózat tanítása Az RBF hálózatok tanítása általában két lépcso˝ b˝ol álló folyamat, aminek az els˝o fokán az RBF középpontok helyének becslése, majd e centerekhez kapcsolódó súlyok tanítása áll. A középpontok az n dimenziós térben elfoglalt helyének becslésére két eljárás alkalmaznak elterjedten. Az elso˝ a klaszterezés, a második valamelyik sztochasztikus gradiens algoritmus megvalósításra támaszkodik. Klaszter algoritmus Klaszter algoritmus használatánál rendelkezésünkre állhat tanító szekven˝ Ilyenkor lehet˝oség nyílik olyan tacia, de ez nem feltétlenül szükségszeru. nítás nélküli klaszter algoritmus alkalmazására, mint a κ - means, adaptív κ - means [15] vagy a Moody-Darken által kifejlesztett algoritmus [13]. Ha az említett algoritmusok közvetlenül a vett jel vektor r(k) segítségével becslik meg az RBF centerek helyét, vagyis az eloszlás középértékét, akkor ugyan a nemlineáris torzításokra érzéketlen eljárásokat kapunk, de másik oldalról
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
64
hosszabb tanító szekvenciával kell számolni, mintha a csatorna impulzus válaszát LMSvagy RLS módszerrel határoztuk volna meg. Abban az esetben, ha az RBF középpontok meghatározása precíz, a klaszter algoritmusok segítségével lehet a legjobb eredményeket elérni. Ez azonban gyorsan változó csatornában nem így van. Ebben az esetben az RBF középpontok helyének is gyorsan kell követni a csatorna változásait, amire sok adat kiértékelése miatt nem képesek. Ugyanígy, ha nem ismeretes pontosan ˝ LMS vagy RLS algoa középpontok száma, ill. zajos környezetben, célszerubb ritmusokat alkalmazni, melyek a meglév˝o középpontokat a lehet˝o legjobban használják ki. Mivel klaszter algoritmust a szimuláció során nem alkalmaztam, a továbbiakban nem részletezem. Sztochasztikus gradiens algoritmus ˝ Az irodalomban legtöbbször az egyszeruség kedvéért valós csatorna paraméterekkel és valós bemeneti jelvektorral számolnak. Azonban, mint ismeretes, hatékonyabb sávkihasználás érdekében a modulációk mind a jel normális, mind a kvadratúra komponenseit használják [1,2]. Ezért meg kell határozni egy komplex algoritmust, amely adaptálja az RBF hálózat összes szabad paraméterét, a ci középpontok helyét, a wi súlyokat és az RBF középpontok σi szórási paramétereit. Alapul a Widrow által 1960-ban kifejlesztett pillanatnyi ˝ gradiens [12] alapján muköd˝ o eljárást lehet választani. A komplex pillanatnyi négyzetes hiba felhasználásával a paraméterek a következo˝ képpen változnak 2
νn+1 = νn − µν
∂ kεn k , ∂νn
(5.15)
ahol εn a pillanatnyi hibát εn = FRBF (r (k)) − dn , dn a hálózat kívánt válaszát, µν a ν paraméterre jellemz˝o “bátorsági” paramétert jelöli, ami az adaptáció sebességét adja meg. A ν bármelyik szabad paramétert jelölheti. Az FRBF (r (k)) megegyezik a (5.14) egyenlettel. Az adaptálás minden változtatható paraméterre,n ido˝ pillanatban, minden j. RBF középpontra felírva [21] wj,n+1 = wj,n + µw εn φj (rn ) , kr −c k2 σj,n+1 = σj,n + µσ φj (rn ) wRj,n Re {εn } + wIj,n Im {εn } · n σ3 j,n j,n .(5.16) wRj,n Re{εn }Re{rn −cj,n }+jwIj,n Im{εn }Im{rn −cj,n } cj,n+1 = cj,n + µc φj (rn ) σ2 j,n
A φj (rn ) a (5.13) egyenlet szerint van definiálva. Ez az algoritmus nem garantálja a konvergenciát a globális minimumhoz, de elfogadható eredményt nyújt. A konvergencia gyorsítása érdekében Moody és Darken indítványozta a normalizált radiális bázisfüggvény alkalmazását [19]. 2 N P −kr−ci k wi exp 2σ 2 FRBF (r) = i=1N (5.17) . 2 P −kr−ci k exp 2σ 2 i=1
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
65
Ezzel a megoldással az FRBF kimeneten mindig a súlyok összegének megfelel˝o érték adódik. Ugyan az RBF egyik el˝onye az MLP-vel szemben, a rejtett réteg gyorsabb tanítása, azonban mérete a csatorna együtthatók változásával exponenciálisan n˝o. Ez a nagyfokú párhuzamos feldolgozás miatt elméletileg nem okoz akadályt a kimenet számításánál, azonban a gyakorlati felhasználás során egy bizonyos RBF központ szám felett nem lehet a hálózatot kezelheto˝ keretek között tartani. A feladat tehát olyan megoldásokat, elrendezéseket találni, melyek elegend˝oen kis számú középponttal, rövidebb tanító szekvenciával, gyors, fejlett DSP elemeket felhasználva, akár nagyobb számítási igényt meg˝ turve, az optimálishoz közeli eredményt adnak. Így mára az RBF hálózatoknak több változata is ismert. Lee szerint [22] az RBF középpontok helyeinek meghatározása után csak azokat a középpontokat szabad megtartani, amelyek a döntési térben az elválasztó hipersík közvetlen környezetében található. Véleményem szerint gyorsan változó csatorna kiegyenlíto˝ jeként nincs igazán id˝o a középpont helyek meghatározása után további bonyolult, több˝ lépcs˝os kiválasztás végrehajtására. További problémának tunik a megmaradó középpontok szórás paraméterének meghatározása. Ez a “lábnyom” vagy nem lesz szimmetrikus és ezzel nem lehet radiális bázisfüggvénnyel feldolgozni, vagy ugyan szimmetrikus marad, de túl nagy átlapolódásokhoz és ezzel hibás döntéshez vezet. Módosított Gauss magfüggvény. A már bemutatott hálózatcsökkentési megoldások mellett javasolok egy olyan RBF központot, amelyik egy módosított Gauss magfüggvénnyel számítja ki a processzáló elem kimenetét. Mint az a 5. ábrán látható az n dimenziós döntési tér középpontra (r(k) = 0, r(k-1) = 0) szimmetrikus, mégpedig úgy, hogy az így kialakult csatorna állapot párok súlyai egymásnak pont az ellenkez˝oi. Ebb˝ol az elrendezésb˝ol adódóan egy RBF középpontot fel lehet használni mind a két csatorna állapot “lefedésére”, origóra pontszimmetrikus rendszer esetén, azaz ha az M szimbólum ABC páros ! ! 2 2 kr (k) − ci k kr (k) + ci k φi (r (k)) = exp − − exp − . (5.18) 2σ 2 2σ 2 A függvény ábrája a 7. ábrán látható. Az így kapott elrendezés ugyan csak egy átrendezése az eredeti felállásnak, és ezzel az egyes processzáló elemeknek is többet kell számolni, de az adaptáció gyorsabb lesz, mivel a két központ helyett csak egynek a szabad paramétereit kell változtatni. Így rövidebb tanító szekvencia is elég lesz, miáltal n˝o a nettó adatforgalom.
5.3.4. Fuzzy kiegyenlít˝ o Az eddig vizsgált RBF hálózat mellett még számos olyan nemlineáris struktúra létezik, amelyik a Bayes-tétel felhasználásával csatorna kiegyenlítésre alkalmazható. Az egyik közülük a fuzzy logikára alapozó fuzzy adaptív szur˝ ˝ o, melyet kiegyenlít˝onek el˝oször Wang és Mendel javasolt [24]. Anélkül, hogy a fuzzy rendszerek alapjait részletesen bemutatnám, csak néhány, a tervezéshez elengedhetetlen kifejezést szeretnék pontosítani. Fuzzy rendszer
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
66 Fuzzifikálás
A fuzzy logika segítségével a pontosan meghatározott mérési eredményeket vagy bemeneti jeleket életlen mi fuzzy halmazokba transzformáljuk, amivel a bemeneti értékeknek lingvisztikus értelmet adunk, mint “kicsi”, “nagy”, “hatalmas”, stb... A fuzzy halmazok át is lapolhatják egymást. Ezt a fuzzifikálásnak nevezett lépést tagsági függvényekkel µi végezzük el, melyek meghatározzák, hogy a vizsgált ri elem “mennyire” tartozik az adott fuzzy halmazhoz. A tagsági függvények megválasztása az adott feladattól függhet. Szóba jöhetnek háromszög vagy trapéz alakú függvények, amelyeknek a számítása a függ˝ feladat, azonban egy további megolvények linearitásából adódóan könnyu dásként alkalmazhatunk gaussi tagsági függvényt is "
(r − c) µ (r) = exp − 2σ 2
2
#
.
A Gauss tagsági függvényben egy régi ismero˝ s függvényt találunk. A különbséget a (5.10) egyenlethez képest a szorzófaktor hiánya jelenti, ezáltal a függvény maximuma mindig egy lesz. Interferencia képzés A következ˝o, interferencia képzés lépésben az elo˝ re meghatározott HA Ai =. . . ÉS Aj =. . . AKKOR B=... formájú fuzzy szabályok segítségével, a fuzzy mennyiségek kombinációját, interferenciáját képezzük, amit kimeneti halmazokra képezünk le. Ezek a kimeneti fuzzy halmazok reprezentálják a vizsgálni kívánt osztályokat. Az interferencia képzésre ismét több leheto˝ ség adódik [25], a Mamdani-Larsen (min, max, max-produkt), Tsukamoto- vagy a Takagi-Sugenomódszer. Mivel Gauss tagsági függvényt alkalmazunk a Tsukamoto-módszer kiesik [25]. A legeffektívebbnek a produkt-interferencia képzés bizonyul [19], ami a tagsági függvények szorzatainak súlyozott összegét jelenti, ezért ezt a módszert fogom alkalmazni. Defuzzifikálás Végül a defuzzifikálás során a kimeneti fuzzy halmazokat különbözo˝ kritériumok felhasználásával ismét határozott kifejezésekké alakítjuk. Egyik lehetséges megoldás Center-of-Gravity (COG) módszer. A kimeneti fuzzy halmaz tagsági függvényének a területi súlypontja határozza meg az osztályhoz tartozást [25] R yµB (y) dy O= R . µB (y) dy A felsorolt három lépés megoldására még sok más lehet˝oség is nyílik. Fuzzy szur˝ ˝ o megvalósítása ˝ o tervezése, ami a kimenetet a fent emlíA feladat olyan adaptív fuzzy szur˝ tett Gauss fuzzifikálással, a produkt-interferenciával és COG defuzzifikálással számolja ki.
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
67
Részben felhasználva [24] jelöléseit, els˝o lépésként az U bemeneti tér minden Ci++ , Ci+− , Ci−+ , Ci−− intervalumában meg kell határozni az Fiji fuzzy halmazokat. A halmazokhoz tartozó µji i (r) tagsági függvény 2 ji r − c i i µji i (r) = exp − 2 , (5.19) ji 2 σi
ahol i = 1,. . . ,n, n a bemeneti tér dimenziója, ji =1,. . . ,mi , az i. dimenzióhoz tartozó fuzzy halmazok száma, valamint c a komplex középpont, σ pedig a szórási paraméter. Így minden Fiji fuzzy halmazhoz tartozik egy tagsági függvény, ami nem nulla. n Q A következ˝o lépésként meg kell határozni a mi darab fuzzy szabályt a i=1
következ˝oképpen:
HA x1 = F11 ÉS x2 = F21 , . . . , xn = Fn1 AKKOR y = µ11 µ12 · · · µ1n .. . n HA x1 = F11 ÉS x2 = F21 , . . . , xn = Fnmn AKKOR y = µ11 µ12 · · · µm n .. .
mn 1 m2 HA x1 = F1m1 ÉS x2 = F2m2 , . . . , xn = Fnmn AKKOR y = µm 1 µ2 · · · µ n .
˝ o kimeneti függvényét, fiA szabályok segítségével megalkothatjuk a szur˝ gyelembe véve a COG defuzzifikációs szabályt [24]
FF uzzy (r (k)) =
m P1
m P2
···
j1=1 j2=1 m P1
m Pn
jn=1 m P2
j1 =1 j2 =1
(j ,···,j )
w (k) ···
(j1 ,···,jn )
m Pn
jn =1
µj11 (k) µj22 (k) · · · µjnn (k)
µj11 (k) µj22 (k) · · · µjn n (k)
n ahol w (k) 1 a fuzzy szabályokhoz tartozó súly. A tagsági µji i függvény ˝ o realizálható. (5.19) definíciója miatt (5.20) nevezo˝ je nem nulla, tehát a szur˝ ˝ o szabadon változtatható paramétereit, a w (k)(j1 ,···,jn ) súlyokat össze A szur˝ n Q ˝ mi hosszúságú vektorba, valamint definiálni lehet egy lehet gyujteni egy
i=1
fuzzy bázis függvényt [24]
µj11 (k) µj22 (k) · · · µjnn (k) ψ (j1 ,···,jn ) (r (k)) = m1 m2 . m P P Pn j1 ··· µ1 (k) µj22 (k) · · · µjnn (k)
j1 =1 j2 =1
Észrevehet˝o, hogy mivel
n Q
=1 jn
mi > NCS , tehát a döntési térben nem min-
i=1
denhol helyezkedik el csatorna állapotot reprezentáló pont, amihez fuzzy tagn Q mi -r˝ol sági függvény tartozik. Ezért csökkenteni lehet a súly vektor hosszát i=1
,(5.20)
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
68
az Ncs maximális csatorna állapot számra, illetve a Ψ(j1 ,···,jn ) (r (k))fuzzy bázis függvényben is csak azokat a tagsági függvényeket kell figyelembe venni, amelyekhez csatorna állapot tartozik. Így (5.20) felírható n−1 N cs Q P ϑl wl i=0 l=1 FF uzzy (r (k)) = N n−1 , (5.21) cs P Q ϑil l=1
n
i=0
o
ahol {ϑil } ∈ µji , l =1,. . . ,Ncs , a csatorna állapotok száma, i=1,. . . ,nismételten
a bemeneti tér dimenziójának száma, j=1,. . . ,mi az i-ik dimenzióban található fuzzy tagsági függvény sorszáma. A fuzzy szur˝ ˝ o tanítása komplex LMS algoritmussal ˝ o változtatható paramétereit kell A tanító algoritmus során az adaptív szur˝ úgy változtatni, hogy a költségfüggvény K (k) = E {ε (k) ε∗ (k)} minimális legyen, ahol ε (k) = d (k) − FF uzzy (r (k)), valamint ()∗ a komplex konjugált operátort jelöli.
Súly adaptálása. Az általam áttekintett irodalom nem tartalmazott komplex Fuzzy kiegyenlít˝o LMS adaptációt, ezért [12, 16] segítségével megadok egy megoldási lehet˝oséget. Mivel a súly komplex, ezért mind a reális, mind a imaginárius részét együtt kell változtatni. A komplex LMS algoritmus felhasználásával : 1 ∂K (k) ∂K (k) (k) wi (k + 1) = wi − α , (5.22) +j 2 ∂wiRe (k) ∂wiIm (k) ahol α ”bátorsági“ tényez˝o az adaptáció gyorsaságát határozza meg. A parciális deriváltak kiszámítása: ∂K(k) ∂wiRe (k) ∂K(k) ∂wiIm (k)
= −ε∗ (k) gi (k) − ε (k) gi (k)
= jε∗ (k) gi (k) − jε (k) gi (k)
,
ahol
2 2 (riIm (k)−cIm (riRe (k)−cRe i ) i ) − exp − 2 2 2(σiRe (k)) 2(σiIm (k)) gi (k) = N i=1 n . 2 Im (k)−cIm 2 cs Q P r ) (riRe (k)−cRe ) ( i i,l i,l exp − − Re (k) 2 Im (k) 2 2 σ 2 σ ( ( ) ) i,l i,l l=1 i=1 n Q
Az kapott eredményeket (5.22)-be behelyettesítve: wi (k + 1) = wi (k) + αε∗ (k) gi (k) .
(5.23)
A σ szórás és c center paraméterek adaptációja. A σ szórás és c középpont paraméterek is komplex mennyiségek. A fent alkalmazott adaptációs szabály szerint [24]: cli (k + 1) = cli (k) − 21 α ∂K(k) ∂cl (k) i
∂K(k) σil (k + 1) = σil (k) − 21 α ∂σ l (k) i
,
˝ ˝ 5.3. NEMLINEÁRIS ELLENORZÖTTEN TANÍTOTT KIEGYENLÍTOK
69
ahol ∂FF∗ uzzy (r(k)) ∂K(k) ∂FF∗ uzzy (r(k)) · ∂cli,Re (k) ri,Re (k)−cli,Re ∂K(k) ∗ = −ε (k) (wi (k) − FF uzzy (r (k))) gi (k) · 2 − l ∂cli,Re (k) (k)) (σi,Re l ri,Re (k)−ci,Re ∗ −ε (k) (wi (k) − FF uzzy (r (k))) gi (k) · 2 l (k)) (σi,Re ∂K(k) ∂cli,Re (k)
=
∂K(k) ∂FF uzzy (r(k))
·
∂FF uzzy (r(k)) ∂cli,Re (k)
+
∗
mivel ε∗ (k) (wi (k) − FF uzzy (r (k))) és ε (k) (wi (k) − FF uzzy (r (k))) komplex konjugált párok, ezért ∗
(r (k))) = 2Re {ε∗ (k) (wi (k) − FF uzzy (r (k)))} ε∗ (k) (wi (k) − FF uzzy (r (k))) − ε (k) (wi (k) − FF uzzy ∗ = 2Re ε (k) (wi (k) − FF uzzy (r (k))) (5.24) = 2qi (k) . A parciális deriváltak ezek után felírhatóak [24]: riRe (k) − cli,Re ∂K (k) = −q (k) g (k) · 2 i i ∂cli,Re l σi,Re (k)
riIm (k) − cli,Im ∂K (k) = −q (k) g (k) · 2 i i ∂cli,Im l σi,Im (k)
riRe (k) − cli,Re ∂K (k) = −q (k) g (k) · 3 i i l ∂σi,Re l σi,Re (k)
2
riIm (k) − cli,Im ∂K (k) = −q (k) g (k) · 3 i i l ∂σi,Im l σi,Im (k)
2
Az egyenleteket behelyettesítve végül megkapjuk r Re (k)−cl (k) r Ime (k)−cli,Im (k) cli (k + 1) = cli (k) − 12 α · qi (k) gi (k) i l i,Re2 + j i l 2 (σi,Im (k)) (σi,Re (k)) l Re Ime (k) r (k)−c (k)−cli,Im (k) r σil (k + 1) = σil (k) − 12 α · qi (k) gi (k) i l i,Re2 + j i l . 2 (σi,Re (k)) (σi,Im (k))
5.3.5. MLSE-Viterbi kiegyenlít˝ o (GSM) 5.3.6. Fractionally Spaced 5.3.7. DFE
70
FEJEZET 5. CSATORNA KIEGYENLÍTÉS
6. fejezet
Független komponens analízis A független komponens analízis (Independent Component Analysis - ICA) módszereinek [?] tárgyalása el˝ott tisztázni kell néhány fontos definíciót . Le˝ valószínuségi ˝ gyenek y1 , y2 , ..., yk nulla várhatóértéku változók f (y1 , y2 , ..., yk ) ˝ uségfüggvénnyel. ˝ együttes és fi (yi ) perem-sur Az yi -k statisztikailag (kölcsö˝ uségfüggvényük ˝ ˝ uségfüggvények ˝ nösen) függetlenek, ha az együttes sur felírható a perem-sur szorzataként: f (y1 , y2 , ..., ym ) = f1 (y1 )f2 (y2 )...fm (ym ),
(6.1)
A függetlenséget meg kell különböztetni a korrelálatlanságtól, amely a következ˝ot jelenti: E{yi yj } − E{yi }E{yj } = 0, ha i 6= j.
(6.2)
Az E operátor a várhatóérték képzését jelöli. A függetlenség sokkal szigorúbb megkötést jelent, mint a korrelálatlanság az alábbiak szerint: E{g1 (yi )g2 (yj )} − E{g1 (yi )}E{g2 (yj )} = 0, ha i 6= j,
(6.3)
bármely g1 és g2 függvényekre. Egy fontos speciális esetben a korrelálatlanság ekvivalens a függetlenséggel. Ennek az a feltétele, hogy az y1 , y2 , ..., yk ˝ uségfüggvénye ˝ együttes sur Gauss-függvény legyen. Ebbo˝ l a tulajdonságból fakadóan a független komponens analízis nem alkalmazható Gauss-eloszlású ˝ valószínuségi változókra. Következ˝o lépésként definiálnunk kell a független komponens analízis alapproblémáját. Ebben a munkámban csak a lineáris modellre szorítkozom, mi˝ vel a gyakorlat számára ez is jó közelítést ad, és lényegesen egyszerubb a nem ˝ valószínuségi ˝ lineáris változatnál. A definíciókban a megfigyelt m-elemu vektorváltozót x = (x1 , ..., xm )T jelöli (a T a transzponálás operátora, tehát oszlop vektorról van szó). 71
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
72
6.1. Definiciók 6.1.1. Általános definíció ˝ Egy x valószínuségi vektorváltozó független komponens transzformációján olyan s=Mx lineáris transzformációt értünk, melyre az si -k függetlenségét mér˝o F (s1 , ..., sn ) kontrasztfüggvény (másképpen költségfüggvény, célfüggvény) a maximumát veszi fe, ahol MA = PD, M a független komponens transzformáció mátrixa, A az eredeti kevero˝ mátrix, P egy permutáló mátrix, D pedig a diagonális skálázó mátrixot jelöli.
6.1.2. Zajos ICA modell ˝ Egy x valószínuségi vektorváltozó független komponens transzformációjának végrehajtásakor az x=As+n adatmodell becslését végezzük, amelyben s a függetlennek feltételezett látens si komponensekb˝ol képzett vektor (s = ˝ kever˝omátrix inverze, n pedig az m (s1 , ..., sn )T ). Az A mátrix az m × n méretu ˝ zajvektor. komponensu
6.1.3. Zajmentes ICA modell ˝ Egy x valószínuségi vektorváltozó független komponens transzformációjakor a következ˝o adatmodell érvényes: x=As, ahol A és s értelmezése az el˝obbi definícióban szerepl˝o meghatározással megegyezik. A rendszer meghatározhatóságára három alapvet˝o megkötést kell tennünk (az si -k függetlenségén kívül): ˝ uségfüggvé˝ 1. A független komponensnek közül csak egy lehet Gauss sur ˝ a többinek ett˝ol különböz˝onek kell lenni. nyu, 2. A megfigyelt kevert jelek számának (m) legalább annyinak kell lenni, mint a független komponensek számának (n), tehát m ≥ n. Ez azonban csak elégséges feltétel. 3. Az A mátrix rangja meg kell, hogy egyezzen az oszlopainak számával. ˝ Általában azt is feltételezik, hogy x és s nulla várható értékuek, de ez gyakorlatilag nem jelent problémát, mivel a feltétel teljesítheto˝ , ha a transzfor˝ máció el˝ott várható érték vektort kivonjuk a jelvektorokból. A muvelet elvégzése után a transzformált várható érték vektort ekkor viszont hozzá kell adni a kapott jelvektorhoz. A kérdéses sztochasztikus folyamatnak ero˝ sen stacionáriusnak kell lennie, és tekintettel a becsült mennyiségekre az ergodicitás néhány feltételének is teljesülnie kell. Mindez biztosított, ha folyamat például ˝ független azonos eloszlású valószínuségi változók realizációjaként jön létre (angolul i.i.d. - independent and identically distributed process). Alapveto˝ , de nem olyan jelent˝os határozatlanság a modellben, hogy az A mátrix oszlopai csak egy multiplikatív konstans erejéig meghatározottak. Emiatt született egy matematikai konvenció, amely szerint az si független komponensek legyenek egységnyi varianciájúak. Az ICA transzformáció, ellentétben például a f˝okomponens analízissel, nem sorrendezi a független komponenseket.
6.2. AZ ICA KÖLTSÉGFÜGGVÉNYEI
73
Az el˝oz˝o listában szerepl˝o három megkötés közül az els˝o mindenképpen szükséges az ICA modell identifikálhatóságához. Ellenkezo˝ esetben, ha a va˝ lószínuségi változó Gauss-eloszlású, akkor a korrelálatlanság függetlenséghez vezet, és így minden dekorrelációs reprezentáció független komponenseket ad. Ha egynél több si változó Gauss-eloszlású, még akkor is lehetséges a nem Gauss-i komponensek meghatározása. A második megkötés (m ≥ n) nem teljesen szükséges, amint ezt a kés˝obbiekben látni fogjuk. Az modell részben, így például az A mátrix akkor is meghatározható, ha m < n. Néhány megkötés a kever˝omátrixra mindig szükséges, mint pl. a 3-as számú, bár ez csak egy elégséges feltétel. A zajos ICA modellnél az el˝obbiekhez hasonló feltételek szabhatók abban az esetben, ha a zaj Gauss-eloszlású és független az si komponensekt˝ol.
6.2. Az ICA költségfüggvényei Az ICA adatmodell becslése többnyire úgy történik, hogy elo˝ állítunk egy F költségfüggvényt, majd ennek a maximumát vagy a minimumát keressük. A széls˝oérték keresése során különböz˝o algoritmusokat használhatunk. Akár a következ˝o egyenletet is felírhatjuk: ICA módszer = költségfüggvény + optimalizáló algoritmus. Explicit alakban felírható költségfüggvények esetén bármilyen klasszikus optimalizáló algoritmus használható, például sztochasztikus gradiens módszerek vagy Newton-módszerek. Néhány esetben azonban a költségfüggvényt és az algoritmust elég nehéz elkülöníteni egymástól. Az ICA módszer tulajdonságai mindkét összetev˝ojét˝ol függenek: • a statisztikai tulajdonságok (pl. robosztusság) függenek a költségfüggvény megválasztásától • az algoritmikus tulajdonságok (pl. konvergencia sebesség) függenek az optimalizáló algoritmustól A két tulajdonság osztály, amennyiben élesen elválasztható, független egymástól. Egy költségfüggvényhez több különféle optimalizáló algoritmus is ˝ használható, és ugyanaz az optimalizáló algoritmus is muködik más-más célfüggvényekre is. Vizsgáljuk meg el˝oször a költségfüggvényeket. Vegyük el˝oször azokat, amelyek az összes független komponenst becslik egy ido˝ ben (multiunit contrast function).
6.2.1. Több komponenses költségfüggvények ˝ ség és entrópia Valószínu Zajmentes esetben a modell becsülhet˝o maximum likelihood módszerrel. Jelölje az A kever˝o mátrix inverzét M = (m1 , . . . , mm )T , ekkor a következ˝o logaritmikus likelihood formula írható fel: L=
m T X X t=1 i=1
log(fi (mTi x(t))) − T ln | det M|,
(6.4)
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
74
˝ uségfüggvényeit ˝ ahol az fi -k az si komponensek sur jelölik (itt feltesszük, hogy ˝ ismertek), és az x(t)-k X valószínuségi változó realizációi. Bell és Sejnowski információelméleti szempontból megközelítve a problémát egy másik költségfüggvényt vezetett be. Ez a nem lineáris kimenetekkel rendelkez˝o neurális hálózat kimeneti entrópiájának maximalizálásán alapul. Ehhez definiálni kell a H differenciális entrópiát: Z H(y) = − f (y) log f (y)dy, (6.5)
˝ ˝ uségfüggvényét ˝ ahol f (y) az Y valószínuségi vektorváltozó sur jelöli. Tegyük fel, hogy x egy nem lineáris neurális hálózat bemenete, amelynek a kimenetei a gi (wiT x) alakot öltik, ahol gi -k nem lineáris skalár függvényeket jelölnek, a wi -k pedig a neuronok súlyvektorai. A következo˝ entrópiát kell maximalizálni: T x)). L = H(g1 (w1T x), ..., gm (wm
(6.6)
Természetesen ekkor a gi függvényeket megfelel˝oen kell megválasztani. Többen (pl. Cardoso, Parra) bebizonyították, hogy az entrópia maximalizálás ek˝ vivalens a maximum likelihood becsléssel. Ebb˝ol következik, hogy az fi su˝ ruségfüggvényeknek egyezniük kell a gi függvények els˝o deriváltjaival. Az optimum pontban wi egyenl˝o mi -vel. A maximum likelihood megközelítésnek el˝onye, hogy néhány feltétel mellett aszimptotikusan hatékony, viszont számos hátránya is van. Az egyik szerint ismernünk kell a független komponen˝ uségfüggvényeit. ˝ sek sur Ezeket természetesen becsülni kell, mert csak nagyon ritkán ismertek, emiatt romlik a módszer megbízhatósága. A másik hátrány, hogy a módszer érzékeny az ún. outlierekre. Az outlierek fogalmán az olyan megfigyeléseket értjük, amelyek nem konzisztensek a vizsgált modellel, illetve aránytalanul nagy befolyást gyakorolnak a regressziós modell paramétereire. Ennek következtében a modell nem az adatok többségének, hanem a kilógó, ún. outlier adatoknak a viselkedését tükrözi. Kölcsönös információ és Kullback-Leibler divergencia Elméletileg a legmegfelel˝obb költségfüggvény a multi-unit esetben a kölcsönös információ. A H differenciális entrópia segítségével értelmezhetjük az ˝ I kölcsönös információt m valószínuségi változó között (i = 1, ..., m): X I(y1 , y2 , ..., ym ) = H(yi ) − H(y). (6.7) i
A kölcsönös információ két változó összefüggésének természetes mértéke. Értéke mindig nem negatív, és akkor és csak akkor nulla, ha a változók statisztikailag függetlenek. Ezek szerint tehát olyan transzformációt kell találni, amely minimalizálja a kölcsönös információt az egyes si -k között. Az el˝obbi kölcsönös információs összefüggés visszavezetheto˝ a Kullback-Leibler divergenciára, amely: Z f1 (y) δ(f1 , f2 ) = f1 (y) log dy, (6.8) f2 (y)
˝ uségfüggvényeket ˝ ahol f1 és f2 a sur jelölik. A Kullback-Leibler divergencia ˝ uségfüggvény ˝ tulajdonképpen egyféle távolság a két sur között, bár igaz, hogy
6.2. AZ ICA KÖLTSÉGFÜGGVÉNYEI
75
˝ uségfüggvé˝ nem szimmetrikus. Ha yi -k függetlenek, akkor az együttes sur nyük felírható szorzatalakban. A valódi f (y) és a becsült f˜(y) = f1 (y1 )...fm (ym ) ˝ uségfüggvények ˝ sur közötti Kullback-Leibler divergenciával lehet mérni az azonosságot. Ez a mennyiség valójában megegyezik a kölcsönös információval. ˝ uség˝ Sajnos a kölcsönös információt nagyon nehéz megbecsülni, mivel a sur függvények becslése is szükséges hozzá. Comon valamint Amari, Cichocki ˝ uségfüggvények ˝ és Yang a sur polinomiális becsléseit használják, ami a maga˝ kumulánsok használatához vezet. (A kumulánsokat részletesen sabb rendu a függelékben tárgyalom.) A kumuláns-alapú becslések lényegesen leegysze˝ rusítik a kölcsönös információ használatát, de nem pontosak. Nem lineáris keresztkorrelációk Több kutató (köztük els˝oként Jutten és Hérault) a nem lineáris keresztkorrelációk megszüntetését használja a független komponensek meghatározásához. A következ˝o formulát írhatjuk fel: E{g1 (ˆ si )g2 (ˆ sj )}, ahol g1 és g2 megfelel˝oen megválasztott páratlan nemlinearitások. Ha sˆi és sˆj függetlenek, akkor keresztkorrelációjuk nulla, feltéve, hogy a változók szimmetrikus eloszlásúak. A költségfüggvény gyakran csak implicit módon határozható meg, és egzakt függvény nem is létezik. A nemlinearitásokat a független komponensek való˝ ˝ uség ˝ színuség sur függvényének megfelel˝oen kell megválasztani. Nem lineáris PCA kritérium Az el˝obbihez hasonló megoldást kínál a nem lineáris PCA (Principal Component Analysis - f˝okomponens analízis). A módszer a fo˝ komponens analízisben használt költségfüggvényeken alapul, azonban ebben az esetben a szeparáció egy nemlineáris függvény beiktatásával érheto˝ el. Ezt a nem linearitást a következ˝o képletben a g(.) függvény képviseli: w1 = arg max E{g(wT x)2 }, kw=1k
(6.9)
ahol x a bemen˝o adatvektor, w az eredeti w1 pedig a módosított súlyvektor. ˝ uségfüggvénynek ˝ Ha a nemlinearitást a sur megfelel˝oen választjuk meg és az adatok el˝ofeldolgozottak (fehérítés, ld. 6.3 fejezet), akkor az ICA modell becsülhet˝o. Költségfüggvény explicit formában nem írható fel, az algoritmusok közvetlenül a PCA-ban használt algoritmusokból származtathatók egy meg˝ kumuláns szééls˝oérfelel˝o nem linearitás beiktatásával. Mivel a negyedrendu tékét szeretnénk biztosítani, ezért a deriváltat, a "harmadrendet" kell vizsgál˝ nunk. A tisztán köbös nemlinearitás problémája az instabilitás, ezért célszeru például a tanh(.) függvényt választani, amelynek a Taylor-soros közelítésében a köbös tag domináns lehet. ˝ kumuláns tenzorok Magasabb rendu ˝ kuAz eddig leírtakhoz kevésbé kapcsolódó módszer a magasabb rendu muláns tenzorok sajátérték felbontása. A kumulánsok definíciója a függelék˝ kumuláns tenzor az alábbi T lineáris operátorben található. A negyedrendu ként definiálható: X T (K)ij = cum(xi , xj , xk , xl )Kkl , (6.10) k,l
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
76
ahol ij index a mátrix (i, j) elemét jelenti, K egy m × m-es mátrix, a cum(.) függvény pedig a kumulánsképzés operátora. A lineáris operátornak m2 sajátértéke llétezik, amelyek a "sajátmátrix"-okhoz tartoznak. A "sajátmátrix"-ok sajátvektorainak segítségével felírható egyenletek megoldásával végezheto˝ el az ICA modell becslése. Ennek a megközelítésnek az elo˝ nye, hogy nem igényli ˝ uségfüggvényének ˝ a független komponensek sur el˝ozetes ismeretét. S˝ot, a kumulánsok a kölcsönös információ közelítésére is használhatók, bár ez a közelítés nagyon durva. A f˝o hátránya ennek a módszernek, hogy a statisztikai tulajdonságai nem túl jók. A kumulánsok becslésekor a variancia nagy lehet, és így a módszer érzékeny az úgynevezett outlierekre. Súlyozott kovariancia mátrix Egy következ˝o érdekes megközelítés, amikor az ICA becslést egy négyzetesen súlyozott kovariancia mátrix sajátérték felbontásával érik el, tehát: E{kxk2 xxT }. Ez a módszer feltételezi, hogy minden független komponensnek különbözo˝ ˝ kumulánsa). Ez a megolaz eloszlása (különböz˝o a kurtózisa, a negyedrendu dás valójában a kumuláns tenzoros megközelítés speciális esete.
6.2.2. Egy komponenses költségfüggvények Egy komponenses költségfüggvényekro˝ l1 akkor beszélhetünk, ha az optimalizáló eljárás során a függvény segítségével egyszerre csak egyetlen független komponenst tudunk el˝oállítani. Az egész ICA modell becslése helyett arra törekszünk, hogy egy olyan w súlyvektort találjunk, amelyre igaz, hogy a wT x összefüggés megadja a kérdéses si komponenst. Több, n darab si megtalálásához az iterációt zajos esetben n-szer, zajmentes esetben (ekkor az utolsó komponens már adódik) n − 1-szer kell végrehajtani. Az egykomponenses költségfüggvényekkel kapcsolatban a következo˝ megállapításokat tehetjük: • az összes one-unit költségfüggvény felfogható a Gauss-eloszlástól való eltérés mértékének. • nagyon sok alkalmazásnál nincs szükség valamennyi független komponens meghatározásához, egy is elegend˝o. Ideális esetben a költségfüggvény globálisan optimalizált, a független komponensek a Gausseloszlástól való eltérés mértékének sorrendjében érhet˝ok el, ami azt jelenti, hogy a legfontosabb komponens határozható meg elo˝ ször. • a független komponensek számának elo˝ zetes ismeretére nincs szükség, mivel azok egyenként el˝oállíthatók. • ez a megközelítés tisztán mutatja a neurális hálózatok tanulási szabályaival való kapcsolatot (ld. ?? fejezet). ˝ dekorrelációs eljárást Egy komponens meghatározása után egy egyszeru kell végezni azért, hogy a következ˝o komponensek az éppen meghatározottól megkülönböztethet˝ok legyenek. (A függetlenség definícióból adódóan egyben korrelálatlanságot is jelent.) Ezután történhet következo˝ komponens meghatározása. Az iterációkat addig kell végezni, amíg az összes független komponenst meg nem határoztuk. 1 angol
terminológiával one-unit contrast function
6.2. AZ ICA KÖLTSÉGFÜGGVÉNYEI
77
Negatív normalizált entrópia A legtermészetesebb információelméleti egy komponenses költségfüggvény a negatív normalizált entrópia (negentropy - negentrópia). A független komponensek abba az irányba esnek, amelyben wT x, korábbiakban már definiált, differenciális entrópiája minimális. Ezt az elvet közvetlenül nem lehet felhasználni, módosításra szorul, mivel a differenciális entrópia nem invariáns a skálázási transzformációkra. Az entrópia lineáris invariáns változata a J negatív normalizált entrópia: (6.11)
J(y) = H(yGauss ) − H(y),
ahol H a differenciális entrópia képzést jelöli, yGauss pedig egy Gauss-eloszlású ˝ valószínuségi vektorváltozó, amelynek a kovariancia mátrixa megegyezik az ˝ és akkor és csak akkor y-éval. A negentrópia mindig nem negatív értéku, nulla, ha az y Gauss-eloszlású. A negentrópia segítségével a kölcsönös információ is kifejezhet˝o: Q y X 1 Cii J(yi ) + log I(y1 , y2 , ..., yn ) = J(y) − , (6.12) 2 det Cy i
ahol Cy az y kovariancia mátrixa, és Cyii a Cy f˝oátlóbeli elemeib˝ol képzett dia˝ gonális mátrix. Ha az yi -k korrelálatlanok, akkor a kifejezés egyszerusödik (a harmadik tag nulla): X J(yi ). (6.13) I(y1 , y2 , ..., yn ) = J(y) − i
Mivel a negentrópia invariáns a lineáris transzformációkra, ezért ki lehet jelenteni, hogy az olyan irányok megtalálásával, amelyekre a negentrópia maximális, tehát ahol a J(yi ) elemek maximálisak, egyben a kölcsönös információt minimalizáljuk. Sajnos a negentrópia becslése nehéz, ezért ez a költségfüggvény inkább csak, mint elméleti lehet˝oség állja meg a helyét. Úgy, mint a több komponenses költségfüggvények esetében, a negentrópia is közelítheto˝ ma˝ kumulánsokkal, például az alábbi módon: gasabb rendu 1 1 κ3 (y)2 + κ4 (y)2 , 12 48 ˝ kumulánsa. ahol κ3 (y) az y i-edrendu
(6.14)
J(y) ≈
˝ kumulánsok Magasabb rendu ˝ egykomponenses költségfüggvények a maMatematikailag a legegyszerubb ˝ kumulánsok, például a kurtózis (negyedrendu ˝ kumuláns). Az gasabb rendu ICA modell szerint legyen x a megfigyelt vektor. Keressük az xi -k olyan lineáris kombinációit, wT x-ket, amelyekre a kurtózis maximális vagy épp minimális. Ennek természetesen csak akkor van értelme, ha w értéke csak valamilyen határok között mozoghat. Tegyük fel, hogy E{(wT x)2 }=1. Legyen A a kever˝omátrix és z=AT w. Ekkor x=As miatt E{(wT x)2 } = wT AAT w = kzk2 = 1, és így a kurtózis tulajdoságainak megfelel˝oen: kurt(wT x) = kurt(wT As) = kurt(zT s) =
m X i=1
zi4 kurt(si ).
(6.15)
78
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
˝ kumuláns képzését jelöli. Azzal A kurt operátor a kurtózis, a negyedrendu a feltétellel, hogy kzk = 1, a kurtózisnak lesz valahány lokális minimuma és maximuma. A minimalizálással, illetve maximalizálással megkapjuk a w T x = ±sj független komponenseket. A kurtózist, mint egykomponenses költségfüggvényt, nagyon gyakran használják.
6.2.3. Általános költségfüggvények A kumulánsok hátrányai ˝ A kumulánsok matematikai egyszerusége és különösen a globális konvergencia biztosítása azt eredményezte, hogy a kumuláns alapú technikák nagyon közkedveltek lettek a független komponens analízisben, annak ellenére, hogy sok szempontból nem mondhatók optimálisnak az ICA becslésben. A ˝ matematikai egyszeruségen kívül az egyetlen érv, ami a kumulánsos eljárások mellett szól az, hogy a negentrópia aszimptotikusan optimális közelítését ˝ adják abban az esetben, ha y sok független azonos eloszlású valószínuségi változó összege. Ez a gyakorlatban igen ritkán fordul elo˝ és még az ICA modellben is csak közelít˝oleg igaz azokban az irányokban, amelyek távol esnek a független komponens irányoktól. Ezért felmerülhet a kérdés, hogy a gyakorlatban megfelel˝o eredményt adnak-e a kumuláns alapú becslések. Ha a statisztikai tulajdonságokat vizsgáljuk, azt mondhatjuk, hogy a kurtózis elég gyenge költségfüggvénye az ICA modellnek. Még ha nincs is jelen zaj, akkor sem lehet pontosan számítani sem a független komponenseket, sem a kever˝omátrixot, mert az x kevert jelnek csak véges számú mintája áll rendelkezésre. A robosztusság és az aszimptotikus variancia szempontjából a kumuláns alapú becslések meglehet˝osen távol vannak az optimumtól. Ennek ˝ kumulánsokban rejl˝o információ két f˝o oka van, el˝oször is a magasabb rendu ˝ uségfüggvény ˝ inkább az eloszlás széleit írja le, de a sur közepét már kevésbé, ˝ kumuláns becslések igen érzékenyek az outmásodszor a magasabb rendu lierekre. El˝ofordulhat, hogy értékük csak az eloszlás peremterületeito˝ l függ, amelyek az outlier kategóriába eshetnek.
A kurtózis általánosítása Ahhoz, hogy az el˝obbi problémákat kiküszöböljük, új költségfüggvényekre van szükség. Olyan függvényekre, amelyeknek ígéretes statisztikai tulajdoságaik vannak (a kumulánsokkal szemben), nem igénylik a független kom˝ uségfüggvényeinek ˝ ponensek sur el˝ozetes ismeretét (a maximum likelihood ˝ algoritmikus leírást tesznek lehet˝ové becslés alapesetével szemben), egyszeru ˝ uségfüggvény ˝ (a maximum likelihood megközelítés szimultán sur becslései˝ vel szemben) és egyszeruen analizálhatók (a nem lineáris keresztkorrelációs vagy a nem lineáris PCA megközelítésekkel szemben). Az általánosított költségfüggvények, amelyeket a kurtózis általánosításának tekinthetünk, megfelelnek ezeknek a kritériumoknak. A költségfüggvények meghatározásához el˝oször meg kell jegyezni, hogy ezek a függvények a Gauss-eloszlástól való eltérés mértékei. Az eltérést méro˝ függvények osztályába gyakorlatilag bármilyen G függvény beletartozhat. Az
6.3. AZ ICA ALGORITMUSOK
79
eltérést az aktuális adatnak megfelel˝o G függvény várható értékének és a Gausseloszlású adatnak megfelel˝o G várható értékének a különbségével lehet mérni. ˝ valószínuségi ˝ Más szavakkal: definiálhatunk egy az y nulla várható értéku változó Gauss-eloszlástól való eltérést mér˝o JG költségfüggvényt, amelyet a páros, nem kvadratikus és megfelel˝oen sima G függvény segítségével alkotunk meg a következ˝oképpen: JG (y) = |Ey {G(y)} − Eν {G(ν)}|p ,
(6.16)
˝ ahol ν egy standard normál eloszlású valószínuségi változó, y egységnyi varianciájúra normált és a p exponens értéke tipikusan 1 vagy 2. JG tehát a kurtózis általánosítása. Például G(y) = y 4 esetén JG y kurtózisának a modulusa lesz. G nem lehet kvadratikus, mert akkor JG nulla értéket vesz fel bármi˝ lyen eloszlásra. Úgy tunik tehát, hogy az említett JG költségfüggvény lehet ugyan úgy, mint a kurtózis. A JG valóban lehet költségfüggvény néhány deriválhatósági és integrálhatósági feltétel mellett. Megfelelo˝ G választás esetén a becslés statisztikai tulajdonságai (aszimptotikus variancia és robosztusság) sokkal jobbak, mint a kumuláns alapú módszereknél. Az alábbi G függvények használata javasolt: G1 (u) = log cosh a1 u, G2 (u) = e
−a2 u2 2
,
ahol a1 , a2 > 1 megfelel˝o konstansok. A független komponensek eloszlásának precíz ismeretének hiányában vagy az outliereknél ez a két függvény nagyon jól közelíti az optimális költségfüggvényt az esetek nagytöbbségében, a tapasztalat szerint különösen az a1 = 2 és az a2 = 1 értékekre adnak jó közelítést.
6.3. Az ICA algoritmusok Miután megválasztottuk a költségfüggvényt, el kell döntenünk, hogyan optimalizáljuk azt. A különböz˝o algoritmusok más és más tulajdonsággal bírnak a stabilitás, a konvergencia sebesség és a memóriaigény szempontjából. Ezen kívül abban is eltérés mutatkozik, hogy egyes algoritmushoz szükséges a bemeneti adatok bizonyos el˝ofeldolgozása, másokhoz pedig nem.
6.3.1. El˝ ofeldolgozás Centerezés Az ICA transzformáció végrehajtásához a bemeneti adatoknak meg kell felelniük bizonyos feltételeknek. Amennyiben ezeknek a feltételeknek nem tesznek eleget, úgy el˝ofeldolgozási eljárásokra van szükség. Az elso˝ és legalapvet˝obb feldolgozási eljárás az x bemen˝o vektor centerezése, vagyis az m=E{x} ˝ várhatóérték vektor kivonása [?]. E muvelet következményeképpen nem csak ˝ hanem a végeredményként a feldolgozandó x vektor lesz nulla várhatóértéku, meghatározott s forrásvektor is. Ez belátható, ha az s=Wx összefüggésre gondolunk (W az ICA transzformáció által meghatározott kevero˝ mátrix-inverz.)
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
80
Ennek a módszernek nem következménye az, hogy a várhatóérték vektort ne lehetne meghatározni. Az A kever˝omátrix becslése után az s forrásvekto˝ s becslérok várhatóérték vektorát hozzá kell adnunk a nulla várhatóértéku sekhez. Az s várhatóérték vektor az A−1 m eredményeként adódik, ahol m a feldolgozás el˝ott kivont várhatóérték vektort jelenti. Fehérítés Egyes ICA algoritmusok a bemeneti jelek további elo˝ feldolgozását, úgynevezett fehérítését igénylik. A fehérítés azonban akkor is hasznos lehet, ha ˝ az eljárás nincs feltétlenül megkövetelve, mivel egyszeruen elvégezhet˝o, és gyakran az ICA algoritmus gyorsabb konvergenciáját eredményezi. ˝ A fehérítés során a megfigyelt x valószínuségi vektorváltozón egy olyan lineáris transzformációt hajtunk végre, amelynek következtében létrejövo˝ x ˜ vektor komponensei korrelálatlanok, és varianciájuk egységnyi, tehát igaz lesz a következ˝o összefüggés: E{˜ xx ˜T } = I,
(6.17)
ahol I az egységmátrixot jelöli. A fehérítési transzformáció minden esetben végrehajtható, elvégzésére többféle módszer is létezik [?]. Az egyik módszer a kovariancia mátrix sajátérték felbontásán alapul. Felírhatjuk az E{xxT } = EDET összefüggést, amelyben az E az E{xxT } sajátvektoraiból összeállított ortogonális mátrix, D pedig a sajátértékekbo˝ l képzett diagonális mátrix. A fehérítés a következ˝oképpen hajtható végre: x ˜ = ED−1/2 ET x,
(6.18)
˝ ahol a D−1/2 mátrix a diagonalitás miatt egyszeruen úgy állítható el˝o, hogy a f˝oátlóbeli elemeket a −1/2-dik hatványra emeljük. Az ED−1/2 ET szorzatot nevezzük fehérít˝o mátrixnak [?]. Könnyen ellen˝orizhetjük, hogy az E{˜ xx ˜T } = I összefüggés fennáll. A fe˜ mátrixba transzformálja át. hérít˝o transzformáció az A kever˝omátrixot egy A Az alábbi összefüggést írhatjuk fel: ˜ x ˜ = ED−1/2 ET As = As.
(6.19)
A fehérítés elvégzésére neurális hálózatos megoldások is léteznek, és ilyen célra PCA hálózatokat alkalmaznak. A fehéríto˝ mátrix adaptív módszerrel történ˝o meghatározására több módszert is kifejlesztettek, amelyek közül az ˝ egyik legegyszerubb a következ˝o iteratív algoritmus: Q(k + 1) = Q(k) − µ(k) x ˜(k)˜ x(k)T − I Q(k), (6.20)
ahol Q(k) a fehérít˝o mátrix a k-adik iterációban, µ(k) pedig a tanulási aránytényez˝o [?]. Hasonló eredményt érhetünk el például az általánosított Oja altér hálózattal, amelynek súlymódosítása a következ˝o: ∆Q = η yxT − (yyT )Q . (6.21)
A stabilitás növelése érdekében a kimenetnél nemlinearitást, küszöbfüggvényt is alkalmazhatunk [?].
6.3. AZ ICA ALGORITMUSOK
81
A Földiák által ajánlott háló, amelynek kimenete: y = (I − W)−1 x és súlymódosítása ∆W = η(I − yyT ),
viszont módosításra a szorul. Ennek oka a következo˝ : az adaptív fehérítéskor az egyik célunk az, hogy elkerüljük a számításigényes mátrix inverziót, amelyre jelen esetben szükség lenne. A módosított struktúrában elo˝ recsatoló összeköttetések vannak, a háló kimenete pedig: (6.22)
y = (I + Q)x.
Ebben az esetben annak a mérésére, hogy a kimenet kovariancia mátrixa mennyire közelíti meg az egységmátrixot (ez természetesen a Q mátrix függvénye), a következ˝o függvény szolgál: Φ(Q) ≡ trace(Cyy ) − ln [det(Cyy )] − N,
(6.23)
ahol a trace(.) operátor a mátrix nyomának számítását jelöli [?]. A fehérítés során a Φ(Q) minimalizálására kell törekedni. Ugyancsak alkalmazhatók a fehérít˝o transzformáció mátrixának meghatározására az általánosított Hebb szabályt (Generalised Hebbian Algorithm, GHA) alkalmazó Sanger, és az APEX háló is, hiszen ezek szintén PCA hálók. ˝ alkalmazni a feVégezetül érdemes megvizsgálni, hogy miért is célszeru hérítést abban az esetben is, ha nem szükséges. A fehérítés elo˝ nye, hogy az új ˜ kever˝omátrix ortogonális lesz, ami a következ˝oképp látható be: A T
T ˜T ˜ ˜A ˜ = I, }A = A E{˜ xx ˜T } = AE{ss
(6.24)
élve azzal a feltételezéssel, hogy az si komponensek egységnyi varianciájúak [?]. A fehérítéssel tehát lecsökkentjük az ICA transzformáció során becsülni szükséges paraméterek számát. Ahelyett, hogy az eredeti A mátrix n2 számú ˜ becslése, amelyelemét kellene meghatároznunk, elegend˝o egy ortogonális A nek n(n − 1)/2 szabadságfoka van. Kétdimenziós esetben például egy ortogonális transzformáció egy szögparaméter által meghatározott, magasabb dimenziószámok esetén pedig egy ortogonális mátrixot körülbelül feleannyi paraméter jellemez, mint egy tetsz˝olegest. Így akár azt is mondhatjuk, hogy a fehérítés a felére redukálja az ICA problémát. Érdemes azonban azt is megvizsgálni, hogy a fehérítés miért nem oldja meg a szeparálási problémát. Ez azért van, mert a fehérítés csak egy rotáció erejéig definiált: ha Q1 egy fehérít˝o mátrix, akkor Q2 = UQ1 is az, akkor és csak akkor, ha U ortogonális [?]. Gyakran hasznos lehet, esetenként pedig szükséges is lecsökkenteni az adat dimenzióját a fehérítés közben. A dimenziószám csökkentése eredményezheti a zaj csökkenését, és a túltanulást is megakadályozhatja. A dimenziócsökkentés úgy történhet, a PCA eljárásokban megszokott módon, hogy az E{xxT } sajátértékei közül a legkisebb(ek)et elhanyagoljuk. A PCA eljárás lehet˝oséget nyújt arra is, hogy meghatározzuk a független komponensek számát, ha több kevert jel van, mint forrás - (m > n). Erre számos módszer létezik, amelyeknek az alkalmazása után az m dimenziót n-re redukálhatjuk, így el˝oáll az n = m, az ICA alapeset.
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
82 További el˝ ofeldolgozás
Az el˝obbiekben említett két fontos el˝ofeldolgozási eljárások mellett még természetesen más el˝ofeldolgozó algoritmusokat is használhatunk. Ezek általában feladatspecifikusak, és általánosságban nem érdemes vizsgálnunk. ˝ Ilyen eljárás lehet például egyes adatjelek esetében a sávszurés. ˝ Elképzelhet˝o, hogy a feladatmegoldás egyszerusítése végett még a centerezés és fehérítés el˝ott szükség van egy adott el˝ofeldolgozási eljárásra, viszont az ICA transzformáció után el kell végeznünk az ennek megfelelo˝ inverz transzformációt. Fontos, hogy ebben az esetben figyelembe vegyük a centerezés és a fehérítés hatását is, és annak megfelel˝oen módosítva végezzük az inverz transzformációt [?]. Az el˝ofeldolgozás elvégzése után el lehet kezdeni a tényleges ICA transzformációt. A következ˝okben az ICA algoritmusokkal foglalkozom részletesen.
6.3.2. Hérault-Jutten algoritmus Az els˝o kifejlesztett neurális algoritmusok egyike, amely a nem lineáris ke˝ resztkorreláció megszuntetésén alapul. A W súlymátrix nem f˝oátlóbeli elemeire vonatkozó tanítási összefüggés: ∆Wij ∝ g1 (yi )g2 (yj ), i 6= j,
(6.25)
ahol g1 és g2 páratlan nem lineáris függvények, az yi -k számításakor felhasznált iteráció y = (I + W)−1 x. A W f˝oátlóbeli elemeit nulla értékre kell állítani, így az yi -k a független komponensekhez konvergálnak. Sajnos ez az algoritmus csak számos megkötés mellett konvergens.
6.3.3. Nem lineáris dekorrelációs algoritmus Az el˝oz˝o módszerhez hasonlítva megállapíthatjuk, hogy kisebb a számításigény, mivel nem kell mátrixot invertálni, és az algoritmus stabilitása is jobb. Egy lehetséges tanulási szabály: ∆W ∝ (I − g1 (y)g2 (yT ))W,
(6.26)
ahol y = Wx, a g1 és g2 nem linearitások külön-külön alkalmazhatók az y vektor minden komponensére, és az egységmátrix kicserélheto˝ bármilyen pozitív definit diagonális mátrixra. A W mátrix így A−1 -hez konvergál. Egy másik, ebbe a kategóriába tartozó megoldás az EASI (Equivariant Adaptive Separation via Independence) algoritmus: ∆W ∝ (I − yyT − g(y)yT + yg(yT ))W.
(6.27)
6.3.4. Entrópikus vagy maximum likelihood algoritmus ˝ Az algoritmusok egy fontos osztályának muködése a entrópia maximalizálásán alapul, amely ekvivalens maximum likelihood becsléssel abban az esetben, ha az alkalmazott nemlinearitás megegyezik a likelihood becslésben szerepl˝o eloszlásfüggvénnyel. Ezt másképpen úgy is megfogalmazhatjuk, ˝ uségfüggvénynek ˝ hogy a likelihood becslésben szerepl˝o sur kell megegyeznie
6.3. AZ ICA ALGORITMUSOK
83
az entrópikus algoritmus nemlinearitásának deriváltjával. Az entrópikus al˝ gradiens módszerek, melyek tanulási szabálya goritmusok általában egyszeru lehet például az alábbi: ∆W ∝ [WT ]−1 − 2 tanh(Wx)xT ,
(6.28)
∆W ∝ (I − 2 tanh(y)yT )W,
(6.29)
ahol a tanh(.) függvényt a Wx vektor mindenegyes komponensére alkalmaz˝ választás, mert az a logisztikus eloszlás zuk. A tanh(.) függvény azért célszeru ˝ uségfüggvényének ˝ logaritmikus sur a deriváltja. A gyakorlati tapasztalat szerint jól használható a szuper-Gauss2 jelek független komponenseinek meghatározásához, de a szub-Gauss 3 jelekhez más függvények szükségesek. A vizsgálatok szerint a konvergencia megleheto˝ sen lassú, ugyan javítható valamelyest a fehérítéssel, de jobb módszer a természetes - vagy más néven relatív - gradiens használata, amely jelent˝osen javítja a konvergencia tulajdonságokat. A tanulási szabályt úgy kaphatjuk, ha az elo˝ z˝o összefüggést jobbról megszorozzuk WT W-vel: ahol y = Wx. Ezután a módosítás után az algoritmus már nem igényel fehérítést. Érdekesség, hogy ez a tanulási szabály a nem lineáris korrelációs szabályok közül az els˝onek egy speciális esete. A maximum likelihood algoritmusok közül meg kell még említeni a Newtonmódszereket. Ezek nagy el˝onye, hogy már néhány iteráció után is jó közelítést adnak, hátrányuk azonban, hogy minden lépésnél a mátrix inverzére vagy legalább annak a közelítésére van szükség. Meg kell azonban jegyezni, hogy a Newton-módszer nem tekinthet˝o neurális megoldásnak.
6.3.5. Nem lineáris PCA algoritmusok Ezek az algoritmusok nem linearitásokat használnak a tanulási szabályaikban. A súlymódosítási szabályok a következo˝ k: Pi ∆wi ∝ yi x − g(yi ) j=1 yj wj Pi ∆wi ∝ g(yi )x − g(yi ) j=1 yj wj Pi ∆wi ∝ g(yi )x − g(yi ) j=1 g(yj )wj ,
ahol g egy megfelel˝oen megválasztott nem lineáris skalár függvény. A nem ˝ inforlinearitás egyben azt is jelenti, hogy a tanulásban a magasabb rendu mációk is szerepet játszanak. Így a tanulási szabályok különbözo˝ magasabb ˝ technikákkal hozhatók kapcsolatba, és bizonyított, hogy a nem linearendu ritás megfelel˝o megválasztásával az eljárás ICA transzformációnak felel meg, feltéve, hogy az adat fehérített.
6.3.6. Bigradiens algoritmus ˝ A nem lineáris PCA algoritmus egyszerusítéseként nyerhetjük a bigradiens ˝ algoritmust. A tanulási szabályban lev˝o visszacsatoló tag jóval egyszerubb: W(t + 1) = W(t) + µ(t)xg(y(t))T + αW(t)(I − W(t)T W(t)),
2 Gaussnál
3 Gaussnál
˝ uségfüggvény ˝ ˝ csúcsosabb sur u ˝ uségfüggvény ˝ ˝ laposabb sur u
(6.30)
84
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
ahol µ(t) a tanulási aránytényez˝o, α egy a [0, 5, 1] tartományba es˝o konstans, a g függvényt az y = WT x vektor minden komponensére külön-külön kell alkalmazni. Az adatról megint csak azt feltételezzük, hogy fehérített.
6.3.7. Neurális egykomponenses tanulási szabályok Az ebbe a kategóriába tartozó összefüggések úgy hozhatók létre, hogy az Oja-szabályt módosítjuk, és így lehet˝ové válik, hogy a független komponenseket egyesével szétválasszuk. Az ilyen tanulási szabályok olyan sztochasztikus gradiens eljárások, amelyek az egykomponenses költségfüggvényekre alkal˝ tamazhatók. Fehérített adatra alkalmazható például a következo˝ egyszeru nulási szabály: ∆w ∝ xg(wT x) − w.
(6.31)
A g függvény ebben az esetben polinom: g(u) = au − bu3 , ahol a > 1 és b > 1. Ezen szabály alkalmazásakor az eljárás egy negatív kurtózisú (szub-Gauss) komponenshez konvergál, de léteznek szabályok pozitív kurtózishoz és nem fehérített adatokhoz is. Általánosságban el lehet azonban mondani, hogy a fehérített adatokhoz megalkotott tanulási szabályok gyorsabb konvergenciát eredményeznek. Több független komponens becsléséhez több egységbo˝ l álló rendszerre van szükség, amelyben minden egység egykomponenses tanulási szabály sze˝ rint muködik, és az egységek között visszacsatoló mechanizmusoknak is kell lenni. A sokféle költségfüggvényhez sokféle neurális algoritmus használható. A tanulási szabályokban szerepl˝o nem linearitás gyakorlatilag bármilyen más nem lineáris függvényre kicserélheto˝ , a normalizáló tagot ekkor azonban ennek megfelel˝oen módosítani kell.
6.3.8. Fix pontos algoritmus A sztochasztikus gradiens módszereken alapuló adaptív algoritmusok alkalmazása feleslegesen bonyolítja a megoldandó feladatot akkor, ha adaptivitásra nincs szükség. A gyakorlatban ilyen eset nagyon sokszor elo˝ áll: a konvergencia lassú lesz, és a tanulási aránytényezo˝ megválasztásától függ. Az ilyen problémák kiküszöbölésére szolgálnak a fix pontos algoritmusok. Fehérített jelre az egykomponenses fix pontos algoritmus formulája a következo˝ : w(k) = E{xg(w(k − 1)T x)} − E{g 0 (w(k − 1)T x)}w(k − 1).
(6.32)
ahol w súlyvektor, amelyet mindenegyes iterációs lépés után normalizálni kell, g a korábbiakban említett G általánosított költségfüggvény deriváltja, az 0 pedig a deriválás operátorát jelöli. A neurális tanulási szabályokkal szemben abban az esetben, ha nem fehérített adatra alkalmazzuk az eljárást, a konvergencia sebessége nem csökken jelent˝osen. A fix pontos algoritmust használó egységek kombinálhatók úgy, mint a neurális tanulási szabályoknál, leheto˝ séget nyújtva ezáltal több komponens becslésére. A fix pontos algoritmusok ˝ neurálisak abban az értelemben, hogy elosztottak és párhuzamos muködé˝ suek, ezzel szemben nem adaptívak. Ahelyett, hogy egyesével használná fel
6.3. AZ ICA ALGORITMUSOK
85
az újabb és újabb mintákat, mindenegyes lépésnél nagyszámú adattal dolgozik. A konvergencia tulajdonságok sokkal jobbak, mint a neurális algoritmusok esetében. A konvergencia sebesség arányok a megfigyelések szerint 10 és 100 között változhatnak (a fix pontos algoritmus javára).
6.3.9. Sajátértékeken alapuló algoritmusok A neurális vagy általánosabban a sztochasztikus gradiens algoritmusok mellett a másik nagy csoportot azok az ICA algoritmusok alkotják, amelyek a sajátérték felbontáson alapulnak. Ezek az algoritmusok nem igényelnek elo˝ fehérítést. ˝ tenzorok Negyedrendu Nagyon sok olyan algoritmust alkottak meg, amelyek az ICA becslést a ne˝ kumuláns tenzorok felhasználásával valósítják meg. Ezek tipikugyedrendu san úgynevezett batch (kötegelt, nem adaptív) algoritmusok, amelyek olyan tenzoriális technikákat alkalmaznak, mint a sajátmátrix felbontás, ami a sa˝ tenzorokra. Az ilyen feljátérték felbontás általánosítása a magasabb rendu bontások a mátrixoknál szokásos eljárásokkal megoldhatók, csak m2 ×m2 mé˝ mátrixokat igényel, melyek mérete igen nagy. A batch algoritmusok akretu kor hatékonyak, ha a komponensek száma kicsi, nagy komponensszám ese˝ tenzor tén viszont a memória igény nagyon megnövekszik. Egy negyedrendu ˝ a memóriaigény, ami teljesíthetetlen köesetében például m4 nagyságrendu vetelmény lehet. A kivitelezés programozói szempontból is nehézkes, mert ˝ bonyolult mátrixmuveleteket kell végrehajtani. Súlyozott kovariancia mátrix A súlyozott kovariancia mátrix sajátérték felbontása leheto˝ vé teszi az ICA becslést lineáris algebra alapmódszereinek segítségével, mégpedig kezelheto˝ ˝ m × m mátrixok felhasználásával. Ez az eljárás azzal a feltétellel mu˝ méretu ködik, hogy minden független komponens kurtózisa különbözo˝ .
86
FEJEZET 6. FÜGGETLEN KOMPONENS ANALÍZIS
Irodalomjegyzék [1] Dr. Pap László, dr. Imre Sándor, A mobil hírközlés alapjai, egyetemi jegyzet, 2001. [2] John G. Proakis, Digital communications, 3rd ed., McGraw-Hill, New York, 1995.
87