GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
HANKA LÁSZLÓ– VINCZE ÁRPÁD
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER MATHEMATICAL METHODS OF GAMMA SPECTRUM’S EVALUATION III. THE MAXIMUM ENTROPY METHOD
A maximum entrópia módszer (MEM) egy olyan valószínűségelméleti eljárás, amely eredményesen alkalmazható gamma-spektrumok dekonvolúciójára. A maximum entrópia elvnek számos előnye van a hagyományos dekonvolúciós módszerekhez képest. A módszer alkalmazásával nagyobb felbontású spektrumot kapunk, mint a lineáris regularizációs technikákkal, a megoldásként kapott spektrum szükségképpen nemnegatív és a módszer lehetőséget ad arra is, hogy egyszerűen figyelembe vegyük a χ2 statisztikát, amellyel kompenzálni lehet a fluktuációk hatását. Ebben a dolgozatban az elmélet matematikai alapjait ismertetjük. Kulcsszavak: Gamma-spektrum, információ, valószínűségi változó, entrópia, maximum entrópia módszer, Lagrange-módszer, χ2-statisztika, kereszt-érvényesítési eljárás, relatív entrópia, Poisson-eloszlás. Maximum entropy method (MEM) is a probabilistic method, which can be successfully applied to deconvolution of gamma-ray spectra. The maximum entropy model has several advantages over conventional methods. It provides a better resolution than linear regularisation methods, the solution is positively constrained, and it also allows one to include the additional χ2 statistic to compensate for the fluctuations in real spectra. In this paper we present the mathematical basis of this theory. Keywords: Gamma-ray spectra, information, probability distribution, entropy, maximum-entropy method, Lagrangemethod, χ2-statistics, cross-validation method, relative entropy, Poisson distribution.
1. Bevezetés Az alábbiakban egy szcintillációs gamma-spektrométerrel felvett spektrum meghatározásának valószínűségi módszereivel foglakozunk. A probléma vázlatosan a következő. A mérendő energiatartományt osszuk 27
TERMÉSZETTUDOMÁNY
fel n db intervallumra az E '0 , E1' , … , E 'n osztópontokkal. Tegyük fel, hogy a j-edik [ E 'j1 , E 'j ] energiatartományban a beütésszám xj, a gamma-fotonok száma összesen pedig x1 + x2 + … + xn = N. A spektrométer csatornáinak a száma legyen m. Osszuk fel tehát a mérőeszköz által vizsgált energiatartományt m részre, ahol az osztópontokat, E0, E1, E2, … , Em jelöli. Tegyük fel, hogy az i-edik csatornában, tehát az [Ei–1, Ei] energiaintervallumban mért beütésszám yi (i = 1, 2, … , m). Feltesszük, hogy teljesül az y1 + y2 + … + ym = N feltétel, tehát a detektor minden gamma fotont regisztrál. Az y = (y1, y2, … , ym) mérési adatok, és a tényleges x = (x1, x2, … , xn) spektrum közötti matematikai kapcsolat a következő módon írható fel: (1.1) y = Rx + ε m×n ahol az R = [Rij] R mátrix a detektor válaszfüggvénye, ε Rm pedig a zaj. Az R mátrix Rij eleme annak az eseménynek a valószínűsége, hogy az i-edik energiatartományba tartozó gamma-foton a j-edik csatornában van detektálva. Mivel ez egy lineáris egyenletrendszer, kézenfekvő a probléma megoldását a lineáris algebra módszereivel meghatározni. Az alkalmazható regularizációs módszerekről részletesen olvashatnak [1]-ben. Az egyenletrendszer megoldására azonban eredményesen, sőt nagyobb hatékonysággal alkalmazhatók a valószínűségelmélet és a matematikai statisztika módszerei. Ezen módszerek megvilágítása érdekében rámutatunk arra, hogy ha a fotonok száma összesen N, akkor a xj (1.2) pj = ; (j = 1, 2, … , n) N nem negatív értékek valószínűségeloszlást alkotnak. Hasonlót állíthatunk a detektorral mért y spektrumról is, ha az yi mérési adatokat szintén osztjuk N-el. A spektrumot tehát – az N konstanstól eltekintve – úgy tekinthetjük, mint egy ismeretlen valószínűségeloszlást. Az alábbiakban kifejtendő maximum-entrópia módszer ennek az eloszlásnak a meghatározására ad lehetőséget.
2. Az entrópia Az entrópia fogalma megjelenik az információelméletben, a statisztikus fizikában [2], és számos alkalmazásra talál a fizika egyéb területein, a csillagászatban és az orvostudományban. A konkrét fizikai tartalomtól 28
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
eltekintve, az információtól, mint matematikai mennyiségtől az alábbi tulajdonságokat várjuk el: Minél nagyobb egy esemény valószínűsége, bekövetkezésével annál kevesebb információhoz jutunk, hiszen az információt úgy is tekinthetjük, mint egy adott eseménnyel kapcsolatban a bizonytalanságunk mértékét. Minimális az információtartalma a biztos eseménynek, mivel ebben az esetben a bizonytalanságunk zérus. Minél kisebb tehát az esemény valószínűsége, az általa hordozott információ annál több, tehát az információ az esemény valószínűségének növekedésével csökken. Az I információ eszerint az esemény p valószínűségének a függvénye: I = I(p). A biztos esemény bekövetkezésével minimális információhoz jutunk, legyen ez definíció szerint zérus, tehát I(1) = 0. A 0 valószínűségű eseményhez pedig a legnagyobb információmennyiség tartozik. Ha két független esemény egyszerre következik be, elvárjuk, hogy az általuk hordozott információ összeadódjék. Mivel ekkor a valószínűségek szorzódnak, teljesülnie kell az (2.1) I(p1∙p2) = I(p1) + I(p2) függvényegyenletnek. A mondott követelményeknek megfelel az (2.2) I(p) = – k∙lnp függvény, ahol k egy pozitív konstans. Definíció szerint tehát I(p) = – k∙lnp egy p valószínűségű esemény bekövetkezésével nyert információ. Legyen most ξ, egy olyan diszkrét eloszlású valószínűségi változó, n
melynek eloszlása: P = {p1, p2, … , pn}, pj ≥ 0, p j 1 . Azonban nem j1
tudjuk biztosan, hogy a pj (j = 1, 2, … , n) valószínűségű események közül melyik esemény következik be. Ezért a ξ valószínűségi változóval kapcsolatosan csak a – k∙lnpj információk átlagértékét, az alábbiakban E-vel jelölt várható értéket („Expected value”) kaphatjuk információként. Legyen n
(2.3)
S(P) = E[– k∙lnpj] =
n
p j k ln p j k p j ln p j j 1
j1
a P valószínűség-eloszláshoz tartozó információ átlagos mennyisége. Ezt a mennyiséget a P valószínűségeloszlás entrópiájának nevezzük. Ha a k konstans értékét 1-nek választjuk, és a természetes logaritmus he-
29
TERMÉSZETTUDOMÁNY
lyett 2-alapú logaritmust alkalmazunk, akkor kapjuk az információelméletben használatos „információentrópia” fogalmát: n
(2.4)
S(P) k p j log 2 p j j 1
melynek mértékegysége ebben az esetben 1bit. Ha a (2.3) képletben a k konstans éppen a Boltzmann-féle állandó, akkor S a statisztikus fizikából ismert entrópia. Ebben az esetben pj egy adott makroállapot megvalósulásának a valószínűségét jelenti. Az alábbiakban – mivel elsősorban fizikai alkalmazásokról lesz szó –, a k arányossági tényezőt 1-nek választjuk, és általánosan entrópiának nevezzük az n
(2.3)
S(P) = p j ln p j j1
mennyiséget. Keressünk most kapcsolatot az entrópia fogalma és a gamma sugárzás detektálásával kapcsolatos probléma mennyiségei között. Mélyebb fizikai megfontolások nélkül, egyszerű kombinatorikai megfontolással kapjuk azon lehetőségek W számát, amikor – az 1. pont jelöléseivel élve –, az N db gamma foton közül éppen xj db foton tartozik a j-edik, [ E 'j1 , E 'j ] energiatartományba: N! (2.4) W x 1!x 2 !... x n ! Ezt a W mennyiséget a statisztikus fizikában az adott makroállapot termodinamikai valószínűségének nevezik. Ez nem más, mint az adott makroállapotot megvalósító mikroállapotok száma. Esetünkben W jelentése: egy adott x Rn spektrum ennyiféle módon valósítható meg N db gamma-fotonnal. A számítások egyszerűbben végrehajthatók, ha a W mennyiség logaritmusát képezzük: (2.5) ln W ln
n N! N! ln lnN! ln Np j ! x1!x 2!... x n ! Np1 !Np2 !... Npn ! j1
Alkalmazzuk most a faktoriálisok aszimptotikus közelítésére vonatkozó Stirling-féle formulát, amely szerint n
n n → ∞ esetén n! , e
30
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
amely kifejezés logaritmusos alakban az (2.6) ln n! n ln( n ) n formát ölti. Ennek felhasználásával (2.5) a következő alakban írható: (2.7) n
n
n
ln W N ln N N Np j ln(Np j ) Npj N ln N N N p j ln(Npj ) N p j j1 n
j1
n
j1 n
n
N ln N N p j ln N N p j ln p j N ln N N ln N p j N p j ln p j j1
j1
j1
j1
n
N p j ln p j j1
Ha tehát a gamma fotonok száma elég nagy, akkor az adott x Rn spektrumot megvalósító lehetőségek számának logaritmusa – az N arányossági tényezőtől eltekintve – éppen az n
S = p j ln p j j1
entrópiával egyezik meg. Visszatérve az entrópia információelméleti vonatkozására, a következőt mondhatjuk. Ha pj = 1, és pk = 0 ha k ≠ j, tehát a biztos eseménnyel állunk szemben, akkor S = 0, hiszen ln1 = 0, továbbá közismert tény, hogy lim x ln x 0 . Ekkor tehát az entrópia minimális. Innen az is viláx 0
gos, hogy annál kisebb az entrópia értéke, minél több olyan pj valószínűség van a P eloszlásban, amely relatíve nagy, közel van 1-hez. De felmerül a kérdés, hogy mely esetben maximális az entrópia értéke, és mennyi a maximuma. Ha semmiféle megszorító feltételezéssel nem n
élünk, csak a
p j 1 normálási feltétellel, akkor az S(p) = S(p1, p2, … j1
, pn) függvény a maximumát a S(p1, p 2 ,..., p n ) 0 ; (j = 1, 2, … , n) p j egyenletek által meghatározott helyen veheti fel. Az egyenletrendszer megoldása helyett, a logaritmus függvény tulajdonságainak ismeretében elemi úton is előállíthatjuk az entrópia maximumát. Vizsgáljuk ennek érdekében az S – ln(n) különbséget: 31
TERMÉSZETTUDOMÁNY
S – ln(n) = n n n n n 1 p j ln p j ln n p j ln p j p j ln n p j ln p jn p j ln p jn j1 j1 j1 j1 j1
Használjuk most fel a közismert lnx ≤ x – 1 egyenlőtlenséget. Ekkor kapjuk, hogy n 1 n 1 S – ln(n) ≤ p j 1 p j 1 1 0 p n j1 j j 1 n Az S entrópia maximuma tehát lnn, és mivel az lnx = x – 1 egyenlőség 1 az x = 1 helyen teljesül, az adódik, hogy az entrópia a pj = , (j = 1, 2, n … , n) egyenletes eloszlás esetén maximális. Megmutattuk tehát, hogy n
ha a
p j 1 normálási feltételen kívül semmiféle feltételezéssel nem j1
élünk, akkor a maximális entrópiájú, tehát maximális bizonytalanságú, legtöbb információt hordozó eloszlás a 1 p1 = p2 = … = pn = n egyenletes eloszlás, és ebben az esetben az entrópia maximális értéke ln(n). A következőkben azt vizsgáljuk, hogyan általánosíthatók az említett információelméleti megfontolások arra az esetre, amikor a normálási feltétel mellett, az adott probléma kapcsán felmerülő egyéb megszorításokkal is élünk. Ez a gondolat vezet el a maximum-entrópia módszeréhez.
3. A maximum entrópia elv A maximum entrópia módszer (MEM) egy olyan eljárás, amellyel a rendelkezésre álló információk birtokában egyértelműen meghatározható az a valószínűségeloszlás, amely egy adott probléma leírásához a legjobban megfelelő, leginkább ésszerű [2]. A 2. pontban kiderült, hogy ha ismeretek hiányában a normálási feltétel mellett semmiféle egyéb információval nem rendelkezünk a keresett eloszlással kapcsolatosan, akkor az entrópia az egyenletes eloszlás esetén maximális. Tegyük most fel, hogy rendelkezünk a probléma leírását elősegítő információval is. 32
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
Azt állítjuk, hogy ha olyan eloszlást választunk, amelyhez a rendelkezésre álló információkkal összhangban maximális entrópia tartozik, akkor ez a legnagyobb bizonytalanságot jelentő és egyben a leginkább racionális valószínűségeloszlás. Tegyük fel ugyanis, hogy egy ettől eltérő olyan eloszlást választunk, amelynek entrópiája kisebb, tehát kisebb a bizonytalanságunk, kevesebb információt várunk a megoldástól. Ez azt jelenti, hogy olyan információt is feltételeztünk, amellyel nem rendelkezünk. Ha pedig olyan eloszlást választunk, amelyhez az adott feltételekhez tartozó maximumnál nagyobb entrópia tartozik, tehát nagyobb a bizonytalanságunk, akkor az azt jelenti, hogy nem veszünk figyelembe, elhanyagolunk olyan információkat, amelyekkel viszont rendelkezünk. A maximális entrópiájú eloszlás tehát a legésszerűbb megoldás. Kvantitatíve feladatunk tehát az n
(3.1)
S = p j ln p j j1 n
entrópia maximalizálása abban az esetben, ha a
p j 1 feltétel mellett j1
rendelkezünk még az eloszlásra vonatkozó egyéb információval. Első lépésként egyetlen feltétellel élve, ez az információ legyen – az eloszlás konkrét ismeretének hiányában – egy f(x) függvény várható értéke: n
(3.2)
E[f(x)] =
p j f (x j ) F j 1
Keressük tehát a (3.1) entrópia maximumát a normálási feltétel és a (3.2) feltétel mellett. Ez tehát egy feltételes szélsőértékfeladat, amelyet a Lagrange–módszerrel oldhatunk meg. Alkalmazva ennek érdekében a λ0 és λ Lagrange-féle multiplikátorokat, kapjuk, hogy maximalizálandó az (3.3) L(p1, p2, … , pn, λ0, λ) = n n n p j ln p j 0 11 p j F p jf x j j1 j 1 j1 Lagrange-függvény. (A λ0 – 1 együtthatót ebben a formában a számítások egyszerűsítése érdekében alkalmaztuk.) Szélsőérték ott lehet, ahol teljesülnek a
33
TERMÉSZETTUDOMÁNY
L 0 ; (j = 1, 2, … , n) p j feltételek. Elvégezve a deriválást a következő egyenletek adódnak: L ln p j 1 0 1 f x j 0 ; (j = 1, 2, … , n) p j
A megoldás az alábbi: p j exp 0 f x j ; (3.4)
(j = 1, 2, … , n) n
A λ0 és λ Lagrange-multiplikátorok a
p j 1 és a (3.2) feltételekbe j1
történő helyettesítéssel adódnak. n
n
j 1
j1
n
p j exp 0 f x j e 0 exp f x j 1 j 1
Ha itt bevezetjük az elméletben szokásos n
Z exp f x j
(3.5)
j1
jelölést, akkor a λ0 = ln Z(λ) összefüggést kapjuk. Az f(x) függvény E[f(x)] = F átlagértékére pedig az (3.6) n
n
Ef x exp 0 f x j f x j e 0 exp f x j f x j j1
j1
1 Z ln Z F Z összefüggés adódik. Ebből az egyenletből határozható meg a λ szorzó értéke. Ennek ismeretében pedig λ0 = ln Z(λ) alapján adódik λ0. Ha a megoldások a birtokunkban vannak, már könnyen meghatározhatjuk az entrópia maximális értékét:
(3.7) n
n
n
n
Smax p j ln p j p j 0 f x j 0 p j p jf x j 0 F j1
j1
j1
j1
Általánosítsuk most a fentiekben megoldott szélsőérték problémát arra az esetre, amikor r db feltételünk van, mindegyik egy fk(x) függvény 34
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
E[fk(x)] = Fk átlagértéke formájában (k = 1, 2, … , r). Vezessük most be a λ0, λ1, λ2, … , λr Lagrange-féle szorzókat. Ebben az esetben a (3.3) Lagrange függvény általános alakja: (3.8) n n n r Lp1,...,pn , 0,...,r pj lnpj 0 11 pj k Fk pjfk x j j1 j1 j1 k1 A szélsőérték az egy feltételre elvégzett számítások értelemszerű módosításával adódik. Ha bevezetjük (3.5) mintájára a
n
(3.9) Z1 ,..., r exp 1f1 x j 2 f 2 x j ... r f r x j j1
függvényt, akkor a λ0 konstans értéke változatlanul λ0 = ln Z(λ) alakban adódik, a maximális entrópiájú valószínűségeloszlás pedig a következő: (3.10)
p j exp 0 1f1 x j ... r f r x j ;
(j = 1, 2, … , n)
Ez jól láthatóan a (3.4) eloszlás megfelelője több feltétel esetére. Az fk(x) függvények átlagértékére vonatkozólag az (3.11)
Ef k x
ln Z1,..., r Fk ; (k = 1, 2, … , r) k
egyenletrendszer adódik. Ez az r db egyenlet szolgál a λ1, … , λr együtthatók meghatározására. A gyakorlatban a megoldásra numerikus módszereket alkalmaznak, mert a megoldás ritkán áll elő zárt, analitikus alakban. A megoldás ismeretében könnyen előállíthatjuk az entrópia maximumát: (3.12) Smax 0 1F1 ... r Fr
35
TERMÉSZETTUDOMÁNY
4. A maximum entrópia módszer alkalmazása gammaspektrumok meghatározására A 3. pontban általánosan meghatároztuk a maximális entrópiájú valószínűségeloszlást. Most — az 1. pontban bevezetett jelölések használatával — alkalmazzuk az elméletet az x Rn spektrum meghatározására. A 2. pontban megmutattuk, hogy ha összesen N db gamma fotont detektál a spektrométer, és az x = (x1, x2, … , xn) spektrum megvalósulási lehetőségeinek száma W, akkor W logaritmusa éppen a spektrumnak, mint valószínűség-eloszlásnak az entrópiájával egyezik meg. A N arányossági tényezőtől eltekintve (2.7) szerint: n
ln W S p j ln p j j 1
Ha alkalmazzuk az (1.2)-ben bevezetett pj =
xj
jelölést, akkor az entróN pia matematikai alakját a számítások szempontjából praktikusabb formára hozhatjuk: n
n
S p j ln p j j1
j1
xj N
ln
xj N
xj 1 n 1 n x j ln (x j lnx j x j ln N) N j1 N N j1
n 1 n 1 1 n x j lnx j ln N x j x j lnx j ln N N j1 N N j1 j1
Mivel a maximum-entrópia elv alkalmazása az S entrópia szélsőértékének meghatározását jelenti, az S fenti kifejezésében eltekinthetünk az 1 szorzótól és az lnN additív állandótól, hiszen ezek nem befolyásolják N
a szélsőértéket. Az alábbiakban az x Rn spektrumhoz rendelt entrópiának fogjuk nevezni az n
(4.2)
S x j ln x j j1
mennyiséget [3]. A maximum-entrópia elv szerint ennek a függvénynek a maximuma szolgáltatja az ideális spektrumot. Ahogyan azt a 2. pontban láttuk, ha csak a nyilvánvaló x1 + x2 + … + xn = N feltételt írjuk elő, akkor az egyenletes eloszlás esetén veszi fel az entrópia a maximumát. 36
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
Ez nyilván nem egy valós gamma-spektrum, de világos az is, hogy a gyakorlatban ismerjük a méréssel kapott y Rm spektrumot, továbbá a detektor R = [Rij] Rm×n válaszfüggvényét. A mérési adatok pedig természetes módon megszorító feltételeket jelentenek a keresendő spektrumra vonatkozólag. Ha x Rn a feltételezett spektrum, akkor a válaszfüggvény a n
(4.3)
d i R ijx j ; (i = 1, 2, … , m) j 1
értékeket szolgáltatja. A méréssel kapott y = (y1, y2, … ,ym) spektrum, és a számítás eredményeként adódó d = (d1, d2, … , dm) közötti eltérés, a zaj, a statisztikus ingadozásoknak, a detektor sajátságainak tulajdonítható. Ennek a két vektornak az ε = y – d különbsége a jól ismert χ2 statisztikával vehető figyelembe. Ha feltételezzük, hogy σi az i-edik csatornában a mérési hiba szórása — amit a gyakorlatban ismertnek tételeznek fel [4] —, akkor az m-szabadságfokú χ2 eloszlás a m
(4.4)
2
d i yi 2
i2 formulával adható meg. Ennek az eloszlásnak a várható értéke, E[χ2], közismerten m, ami ebben az esetben éppen a detektor csatornáinak száma. Ez az információ a gamma spektrum meghatározásához egy járulékos feltétel. Vegyük észre, hogy ez pontosan megfelel a 2. pontban bevezetett f(x) függvénynek. Az f(x) várható értékére vonatkozó (3.2) feltétel így az E[χ2] = m alakot ölti. Maximalizáljuk ezek után a (4.2) entrópiát ennek a feltételnek a figyelembe vételével. A Lagrangefüggvény alakja, a (4.3) összefüggés figyelembe vételével a következő: (4.5) i 1
n n m d yi 2 L( x1,..., x n , 0 , ) x j ln x j 0 N x j m i 2 i2 j1 j1 i 1 2 n R x y ij j i n n m j1 x j ln x j 0 N x j m 2 i2 j1 j1 i 1
37
TERMÉSZETTUDOMÁNY
Ez a (3.3) Lagrange-függvény a vizsgált esetben. (A Lagrangeszorzót ismét a számítások egyszerűsítése végett alkalmaztuk „felezett” L alakban.) A szélsőérték a 0 ; (j = 1, 2, … , n) egyenletek megolx j dásával állítható elő. Elvégezve a deriválást, azt kapjuk, hogy:
m 2 Rijxj yi Rij m L m j1 lnx 1 R yi di 0 lnxj 1 0 j 0 ij xj 2 i1 i2 i2 i1 (j = 1, 2, … , n ). Ezekből az egyenletekből az ideális spektrumot az
(4.6) m y di C exp 1 m R yi di ; ( x j exp 1 0 R ij i ij 2 i2 i 1 i 1 i j = 1, 2, … , n) formula szolgáltatja [3], ahol C = exp(–λ0), álladó. Ez az általános alakú (3.4) megoldás konkrét megfelelője. A λ állandó ismeretében λ0 értéke a (3.5) összefüggésre támaszkodva, a λ0 = lnZ(λ) alapján számítható. A maximum-entrópia módszer több előnnyel is rendelkezik a hagyományos lineáris algebrai módszerekhez, regularizációs technikákhoz képest. Mindenekelőtt a dekonvolvált spektrum a (4.6) összefüggés szerint nem negatív, ami alapvető követelmény egy spektrummal szemben. A regularizáció módszerek csak komoly nehézségek árán tudják biztosítani ennek a kívánalomnak a teljesülését. Másodszor, a normalizálási feltétel csak egy konstansként van jelen a megoldandó egyenletekben, és a megoldásban. A (4.6) formula szolgáltatja tehát a mérési adatokkal és a fluktuációkkal összhangban a legvalószínűbb spektrumot. Mivel azonban a di n
értékek a d i R ijx j ; (i = 1, 2, … , m) összefüggéseken keresztül j 1
függenek az xj (j = 1, 2, … , n) megoldásoktól, a (4.6) egyenletet legcélszerűbb iterációval megoldani. Az x Rn spektrum nulladik közelítése, tehát az iteráció kezdőértéke legyen az entrópia abszolút maximumát jelentő egyenletes eloszlás: 38
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
N N N x 0 , ,..., n n n m Ha ismerjük a méréssel kapott y R spektrumot, az yi mérési adatok, mint valószínűségi változók σi szórását valamint a detektor R Rm×n válaszfüggvényét, és első lépésben adunk egy kicsi értéket a λ szorzónak, akkor előállíthatjuk az x spektrumot az alábbi iterációs formulával:
(4.7)
n y R x k i ij j m j 1 k 1 xj C exp 1 R ij 2 i i 1
k ≥ 0, j = 1, 2, … , n. Első kérdés, hogy az iteráció hányadik lépésben ér véget. Ehhez választunk egy kicsiny δ > 0 pozitív számot. Ha adott L esetén minden j = 1, 2, … , n indexre tejesül, hogy x jL 1 x Lj , akkor az L-edik iterációs lépés eredményét fogadjuk el megoldásnak. Az iterációval kapcsolatban felmerülő második kérdés, hogy a λ együtthatót, amit szokás regularizációs paraméternek is nevezni, hogyan választjuk meg. Erre vonatkozólag két eljárást említünk. Az első módszer alkalmazása során a λ értékét próbálgatással határozzuk meg. Ennek lényege, hogy elsőként annyira kicsire választjuk λt, hogy az iteráció konvergáljon. Ezek után a λ értékét növeljük addig – minden egyes esetben lefuttatva az iterációt –, amíg a χ2 értéke el nem éri a várható értékét, m-et. Az ilyen módon kapott megoldást fogadjuk el ideális spektrumnak. Ettől elegánsabb és hatékonyabb módszer a λ megválasztására, az ún. „keresztérvényesítési eljárás” [5]. Ennek során a λ értékét szisztematikusan és egyértelműen határozhatjuk meg az alább ismertetendő módon. A módszer előnye, hogy alkalmazása nem igényel semmiféle előzetes hipotézist, és független a χ2 statisztikától. Tegyük fel, hogy a mérési adatok a szokásos jelölésekkel a következők: y1, y2, … , ym. A módszer lényege abban áll, hogy az yi (i rögzített) adatot megbecsüljük a többi, y1,…, yi–1, yi+1 … , ym mérési adat birtokában. Ezen m – 1 db adat felhasználásával előállítjuk az x1(i), … , xn(i), megoldásvektort – az (i) in39
TERMÉSZETTUDOMÁNY
dex arra utal, hogy az yi érték becsléséről van szó –. Az xj(i) megoldások ismeretében az yi(i)(λ) becsült érték az n
y i (i ) R ij x j(i ) j1
formulával adódik. A λ regularizációs paraméter értékéül azt a valós számot választjuk melynek alkalmazásával a legjobb becslést kapjuk az yi mérési adatokra vonatkozólag. Konkrétabban azt a λ értéket alkalmazzuk az iterációban, amelyre a becsült értékek és a mérési eredmények közötti négyzetes eltérés átlaga minimális. Definiáljuk ebből a célból a 2 1 m y i ( i ) y i C m i 1 i2 függvényt. A λ optimális értékét a C(λ) minimumhelye szolgáltatja.
5. A relatív entrópia fogalma és alkalmazása a spektrumok vizsgálatában A gamma spektrumok vizsgálata során szokás az entrópia egy általánosabb alakjának alkalmazása is. A fogalom tisztázásának érdekében tegyük fel, hogy adott egy P = {p1, p2, … , pn} valószínűségeloszlás. Az egyes események bekövetkezésével kapcsolatban azonban modellfeltevéseink vannak, amely szerint az eloszlás a tényleges P helyett Q = {q1, q2, … , qn}. Mielőtt megfigyeléseinket elvégezzük, egzaktul a P valószínűségeloszlás n
S(P) = p j ln p j j1
entrópiája méri a bizonytalanságunkat, információink hiányát. Ezzel szemben modellfeltevéseinkből ugyanerre a bizonytalanságra az n
SP, Q p j ln q j j1
érték, az ún. keresztentrópia adódik. A kettő különbségére a
40
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER n n DP Q SP, Q SP p j ln q j p j ln p j j1 j1 n n n pj p j ln p j p j ln q j p j ln qj j1 j1 j1
Kifejezés adódik. A DP Q mennyiséget a P valószínűségeloszlás Q eloszlásra vonatkozó relatív entrópiájának, vagy a két eloszlás Kullback-Liebler távolságának nevezzük [6]. (Hangsúlyozzuk, hogy DP Q nem „metrika” a hagyományos értelemben, mert nem szimmetrikus: DP Q DQ P .) Könnyen kimutatható, hogy DP Q nem negatív. Ehhez alkalmazzuk a konvex függvényekre vonatkozó n n n x ; 0, f x f j j j j j j 1 j 1 j 1 j1 Jensen-egyenlőtlenséget a konvex (–lnx) függvényre és a pj ≥ 0,
n
p j 1 feltételt kielégítő együtthatókra: j1 n
DP Q p j ln j1
pj qj
n
p j ln j1
qj pj
n
ln p j j1
qj pj
n
ln q j ln 1 0 j 1
A Jensen-egyenlőtlenségből az is adódik, hogy egyenlőség pontosan akkor teljesül, ha minden j-re igaz, hogy pj = qj, tehát P = Q, azaz a két valószínűségeloszlás megegyezik. A relatív entrópia
DP Q SP, Q SP 0 tulajdonsága úgy is fogalmazható, hogy a hibás feltevésekből adódó bizonytalanság nem lehet kisebb mint a megfigyeléseket megelőző tényleges bizonytalanság értéke. A spektrum vizsgálatára visszatérve, legyen a valós x Rn spektrum a P eloszlás megfelelője. A modellfeltevéseink szerinti spektrum pedig legyen az m = (m1, m2, … , mn) Rn vektorral adva. (Ennek konkrét formájára még visszatérünk.) Ez utóbbi feleljen meg a Q eloszlásnak. 41
TERMÉSZETTUDOMÁNY
Ekkor az x valós spektrum m modellspektrumra vonatkozó relatív entrópiája: n xj Dx m x j ln mj j1 A fentiek szerint Dx m 0 , és pontosan akkor zérus, ha x = m. A feladat most abban áll, hogy Dx m értékét minimalizálni kell. Ha összhangot szeretnénk teremteni a maximum-entrópia elvvel, akkor Dx m minimalizálása helyett maximalizáljuk D ellentettjét. Ismét a szokásos S jelölést alkalmazva, a feladat az n xj (5.1 Sx , m x j ln mj j1 relatív entrópia maximumának meghatározása. Ennek maximuma tehát zérus, és x = m a maximumhely. Jaynes javaslatára az S entrópia (5.1) pontbeli kifejezését kiegészítették egy olyan taggal, ami x és m eltérését méri [2, 5, 7]. Mellőzve egyelőre minden fizikai indoklást, legyen az entrópia az n xj (5.2) Sx, m x j m j x j ln m j j1 összefüggéssel értelmezve. Megmutatjuk, hogy S(x, m) nem vesz fel pozitív értéket. Egyben általánosítjuk is a problémát két tetszőleges valószínűség-eloszlásra. Legyen P és Q a bevezetőben említett két eloszlás, és legyen n pj n q j pj S(P, Q) p j q j p j ln p j 1 ln q j j1 p j qj j1 1 Vizsgáljuk a problémához illeszkedő f(x) = 1 – x – ln = 1 – x + lnx x 1 függvényt. Mivel f " (x ) 2 , ezért az f(x) függvény konkáv. Alkalx mazzuk most a konkáv függvényekre vonatkozó n n n x ; 0, f x f j j j j j j 1 j 1 j 1 j 1
42
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER n
Jensen-egyenlőtlenséget a pj ≥ 0,
p j 1, együtthatókra. Eszerint j1
n
S( P , Q )
n n n qj qj 1 q j ln p j p p p ln j p q j j p pj p j j j1 j j j 1 j 1 j 1 n
n
n
p j q j ln q j 1 1 ln 1 0 j 1
j 1
j 1
Visszatérve a fizikai alkalmazásra, azt kaptuk, hogy a Jaynes-féle S(x, m) entrópia értéke nem pozitív és maximumát, a nulla értéket x = m esetén veszi fel. Az entrópia Jaynes által javasolt általánosabb alakjának fizikai indoklásához modellezzük a vizsgált radioaktív bomlási folyamatot – a számláló-berendezéssel regisztrált beütések számát – Poissoneloszlással [4]. Tegyük fel tehát, a gamma bomlás fizikai tulajdonságaira támaszkodva, hogy a j-edik energiatartományba tartozó fotonok száma Poisson-eloszlást követ, melynek átlagértéke λj. Modellfeltevésünk tehát az, hogy az átlagos beütésszám mj = λj (j = 1, 2, … , n). (λj itt a Poisson-eloszlás paramétere.) Ebben az esetben annak valószínűsége, hogy a j-edik energia intervallumban a beütésszám éppen xj, az alábbi formulával írható le: x
(5.3)
P(xj) =
mj j x j!
exp( m j ) ; j = 1, 2, … , n
A tapasztalatok szerint feltehető, hogy az egyes energiatartományokban a beütésszámok egymástól függetlenek. Ebben az esetben annak valószínűsége, hogy a spektrum éppen x = (x1, x2, … , xn), az (5.3) valószínűségek szorzata lesz: n
(5.4)
n
P P xj
x
mj j
exp( m j ) x ! j j1 j1 Keressük azt a spektrumot, amelyre ez a valószínűség maximális. A számítások egyszerűsítése érdekében vegyük (5.4) logaritmusát, majd alkalmazzuk a (2.6) Stirling-formulát. Ekkor a következőt kapjuk:
43
TERMÉSZETTUDOMÁNY x n m j j
mx j n j ln P ln exp(m j ) ln exp(m j ) x j ln m j m j ln x j! x! x! j1 j1 j j1 j n n xj x j ln m j m j x j ln x j x j x j m j x j ln m j j1 j1 n
Ha tehát élünk azzal az ésszerű, tapasztalat által megerősített feltevéssel, hogy a radioaktív bomlás Poisson-eloszlással írható le, akkor a spektrum leírásánál természetes módon adódik az entrópia Jaynes által javasolt általánosabb formája. A maximum entrópia elv alkalmazásánál vegyük figyelembe az entrópia így definiált alakját. Ebben az esetben a (3.3) illetve (4.5) Lagrange-függvény az alábbi formában írható: 2 n R x y ij j i n n m xj j1 L(x1,..., x n , 0 , ) x j m j x j ln 0 N x j m 2 m 2 i j j1 j1 i 1
A maximumhely ebben az esetben is a
L 0 ; (j = 1, 2, … , n) egyenx j
letek megoldásával állítható elő. Elvégezve a deriválást, azt kapjuk, hogy: m 2Rijxj yi Rij m xj L m j1 ln xj R yi di 0(j 1 ln 1 0 0 ij mj xj 2 i1 mj i2 i2 i1 = 1, 2, … , n). Ezen egyenletek megoldása az (5.6) m y d i C m exp m R yi d i ; x j m j exp 0 R ij i j ij 2 i2 i 1 i 1 i (j = 1, 2, … , n) spektrumot szolgáltatja [5,7], ahol alkalmaztuk a C = exp(–λ0) egyszerűsítő jelölést. A λ állandó értékét például a kereszt érvényesítési eljárással határozhatjuk meg. Ennek ismeretében a λ0 a (3.5) jelölés alkal-
44
GAMMA-SPEKTRUMOK KIÉRTÉKELÉSÉNEK MATEMATIKAI MÓDSZEREI III. A MAXIMUM ENTRÓPIA MÓDSZER
mazásával a λ0 = lnZ(λ) egyenlőség által van meghatározva. Mivel azonban a (4.6) megoldáshoz hasonlóan a di értékek a n
di
R ij x j (i = 1, 2, … , m) j 1
összefüggéseken keresztül függenek az xj (j = 1, 2, … , n) megoldásoktól, a spektrumot ismét legcélszerűbb iterációval előállítani. A spektrum N N N nulladik közelítésének tekintsük az x 0 , ,..., egyenletes n n n eloszlást, és k ≥ 0 esetén alkalmazzuk (4.7) analógiájára az
(5.7)
m x jk 1 C m j exp R ij i 1
n k y R x i ij j j1 2 i
iterációs formulát. Mint azt korábban is hangsúlyoztuk, a bevett gyakorlatnak megfelelően, a σi szórások értékét ismertnek tekintjük. Mivel az entrópia (5.2) alakjának levezetésénél pontosabb fizikai megközelítést alkalmaztunk, természetes módon elvárható, hogy az (5.7) formula alapján kapott megoldás pontosabb a mélyebb fizikai alapokat nélkülöző, egyszerűbb úton kapott (4.7) összefüggés alkalmazásával előállított spektrumnál. Valóban, a tapasztalat szerint a Jaynes-féle entrópia alkalmazásával hatékonyabb a dekonvolúciós eljárás, mint az entrópia egyszerűbb (4.2) formájára támaszkodva. A kapott spektrum részletesebb, nagyobb felbontású, élesebb csúcsokat és mélyebb völgyeket szolgáltat, hatékonyabban felbontja az egymást részben átfedő csúcsokat. Összefoglalásként elmondhatjuk, hogy a maximum-entrópia elv egy hatékony, nagy felbontású spektrumot szolgáltató módszer a gammaspektrumok dekonvolúciós technikái között. A lineáris algebra regularizációs módszereihez képest nagy előnye, hogy „pozitív szemidefinit”, tehát csak nem negatív megoldásokat szolgáltat és nagyobb a felbontása is. További előnye például a regularizációs eljárások közül ismert, nagyon hatékony SVD-felbontás alkalmazásával szemben, hogy kevésbé érzékeny a zajra. Hátránya viszont, hogy nagyon sok számítást igényel [3, 5, 7].
45
TERMÉSZETTUDOMÁNY
Felhasznált irodalom 1. E.T. Jaynes: Information Theory and Statistical Mechanics. Physical Review 106, (1957) 620-630. 2. Hanka László - Vincze Árpád: Gamma-spektrumok kiértékelésének matematikai módszerei II. Regularizációs módszerek. Bolyai Szemle. 3, (2008) 33-53. 3. Jánossy Lajos: Mérési eredmények kiértékelésének elmélete és gyakorlata. Akadémiai Kiadó. 1968 4. Jose M. Los Arcos: Gamma-ray spectra deconvolution by maximum-entropy methods. Nuclear Instruments and methods in Physics Research A (1996) 634-636 5. L. Bouchet: A Comparative study of deconvolution methods for gamma-ray spectra. Astronomy & Astrophysics Supplement Series. Ser. 113, (1995) 167-183. 6. L.J. Meng - D. Ramsden: An inter comparison of Three Spectral-deconvolution Algorithms for Gamma-ray Spectroscopy. IEEE Transactions on nuclear science. 47, (2000) No.4. 7. Thomas M. Cover - Joy A. Thomas: Elements of information theory. Wiley & sons. 2005
46