0
´ SZIMBOLUMSOROZATOK ´ ELEMZESE STATISZTIKAI ´ MODSZEREKKEL Tudom´ anyos di´ akk¨ ori dolgozat, 1997.
K´esz´ıtette: B´ ır´ o Tam´ as V. ´eves fizikushallgat´ o ELTE TTK
T´emavezet˝ o: Vicsek Tam´ as egyetemi tan´ ar ELTE TTK Atomfizikai Tansz´ek
Budapest, 1997.
¨ Osszefoglal´ o Dolgozatom c´elja az, hogy o ¨sszefoglalja azokat a statisztikus fizikai ´es sztochasztikus m´ odszereket, amelyek szimb´ olumsorozatok (sz¨ ovegek term´eszetes nyelveken, DNS-k´ od,...) elemz´es´en´el hat´ekonyan haszn´ alhat´ oak. Beketint´est adok az ezen a t´eren a kilencvenes ´evekben v´egzett kutat´ asokba (pl. hossz´ ut´ av´ u korrel´ aci´ ok, Zipf-t¨ orv´eny). Majd megvizsg´ alom, milyen k¨ ovetkezm´enyekkel j´ arnak ezen eredm´enyek a szimb´ olumsorozatot l´etrehoz´ o folyamatok modellezhet˝ os´eg´ere n´ezve, ha a form´ alis nyelvek elm´elet´et kib˝ ov´ıtj¨ uk sztochasztikus eszk¨ oz¨ okkel. Azt kapom, hogy a folyamatot k´et szakaszra kell bontanunk, az els˝ o, amely egy nemline´ aris ”k´ odoland´ ob´ ol” k´esz´ıt egy line´ aris k´ odot, hossz´ ut´ av´ u korrel´ aci´ okat eredm´enyez; viszont a m´ asodik szakasz elemezhet˝ o Markov-folyamatk´ent. Bevezetek egy elj´ ar´ ast, amely szekvenci´ akat hasonl´ıt o ¨ssze, a r¨ ovidt´ av´ u korrel´ aci´ okb´ ol ad´ od´ o jellegzetess´egeik alapj´ an, ´es felhaszn´ alom ezt a m´ odszert a fonotaktik´ aban, valamint k´ odol´ o ´es nem-k´ odol´ o DNSszakaszok o ¨sszehasonl´ıt´ as´ ara.
2
Tartalomjegyz´ ek
1. Bevezet´ es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Hossz´ utav´ u korrel´ aci´ ok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3. Alapfogalmak a form´ alis nyelvek elm´ elet´ eb˝ ol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4. A genetikai k´ od ´ es a term´ eszetes nyelvek k¨ oz¨ otti anal´ ogi´ ak . . . . . . . . . . . . . . .13 5. Sztochasztikus form´ alis nyelvek ´ es Markov-modellek . . . . . . . . . . . . . . . . . . . . . . 16 5.1. Sztochasztikus k¨ ornyezetf¨ uggetlen grammatik´ ak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.2. Sztochasztikus regul´ aris nyelvtanok ´es a Markov-modell . . . . . . . . . . . . . . . . . . . . . . . . . 19 6. n-grammok ´ es fonotaktika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7. K´ odol´ o´ es nem-k´ odol´ o DNS-szakaszok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 8. Befejez´ es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 K¨ osz¨ onetnyilv´ an´ıt´ as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Irodalomjegyz´ ek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
3
1. Bevezet´ es M´ıg a hagyom´ anyos fizika az egyes t¨ omegpontok, r´eszecsk´ek viselked´es´evel foglalkozik, a modern statisztikus fizika a nagysz´ am´ u k¨ olcs¨ onhat´ o r´eszecske a ´ltal l´etrehozott strukt´ ur´ akat is k´epes le´ırni. Ezek a strukt´ ur´ ak gyakran f¨ uggetlenek az o ˝ket l´etrehoz´ o r´eszecsk´ek legt¨ obb speci´ alis tulajdons´ ag´ at´ ol, ezt nevezz¨ uk univerzalit´ asnak. K¨ olcs¨ onhat´ o ”r´eszecsk´ekb˝ ol” a ´ll´ o rendszerekkel a fizik´ an k´ıv¨ ul is tal´ alkozunk. Az elm´ ult ´evekben sikerrel alkalmazt´ ak a statisztikus fizik´ aban kifejlesztett m´ odszereket a molekul´ aris biol´ ogi´ aban 1 , az evoluci´ obiol´ ogi´ aban 2 , vagy ´eppen a k¨ ozdazdas´ agtanban, 3 ahol a piacon verseng˝ o v´ allalatok vagy a t˝ ozsd´en ”k¨ olcs¨ onhat´ o” u ¨gyn¨ ok¨ ok a statisztikus fizik´ ab´ ol ismert viszonyokat hoznak l´etre. Az egyens´ ulyt´ ol t´ avoli rendszerekre jellemz˝ o sk´ al´ az´ asi (ill. frakt´ alis) tulajdons´ agokkal (Vicsek [1992], Family & Vicsek [1991]) tal´ alkozunk p´eld´ aul a v´ allalatok m´eret szerinti eloszl´ as´ an´ al ,4 de el˝ obukkannak statisztikus fizikai m´ odszerek az opci´ ok a ´raz´ as´ an´ al ´es a t˝ ozsdei a ´rfolyamok alakul´ as´ an´ al is 5 . Az emberi besz´ed vizsg´ alat´ an´ al szint´en tal´ alkozunk ”k¨ olcs¨ onhat´ o rendszerekkel”, m´eghozz´ a k´et szinten is. Az a ´llati kommunik´ aci´ ot´ ol ugyanis ´eppen az u ´n. ”kett˝ os tagolts´ ag” (”kett˝ os szerkezet”) k¨ ul¨ onb¨ ozteti meg az emberi besz´edet (Kenesei [1995], p. 31.): a jelent´es n´elk¨ uli elemi hangok (”fon´em´ ak”, a klasszikus nyelv´eszeti iskol´ ak szerint) ´ep´ıtik fel a szavakat (”morf´em´ akat”), melyekb˝ ol pedig a mondatok (”megnyilatkoz´ asok”) ´ep¨ ulnek fel. Mind a k´et szinten k¨ olcs¨ onhatnak a magasabb egys´eget alkot´ o ´ep´ıt˝ o elemek. A hangok rendszer´et ´es k¨ olcs¨ onhat´ asait ´ırja le a fonol´ ogia 6 , m´ıg a morf´em´ ak k¨ olcs¨ onhat´ asait a szintaxis (azaz ”mondattan”). Joggal mer¨ ulhet fel a k´erd´es, hogy vajon a nyelvi rendszer(ek) is rendelkezik (rendelkeznek)-e az eml´ıtett univerz´ alis tulajdons´ agokkal. Az elm´ ult ´evek vizsg´ alatai azt mutatj´ ak, mint azt a II. fejezetben ismertetni fogom, hogy igen. 1
Ld. pl. Der´enyi & Vicsek [1996]. Ld. pl. Geritz et al. [1997] 3 T¨ obb cikk is tal´ alhat´ o a komplex rendszerek ´es a k¨ ozgazdas´ agtan kapcsolat´ ar´ ol Martin´ as & Moreau [1995]-ben: pl. J. A. Holyst et al.: Control of Microeconomical Chaos. 4 M. H. R. Stanley et al. [1996a,b], Amaral et al. [1997] 5 Bouchaud & Potters [1997], Potters et al. [1997], Ghashghaie et al. [1996], Mantegna & Stanley [1996], Liu et al. [1997], Mantegna & Stanley [1995b, 1996] 6 A fonol´ ogia nem keverend˝ oo ¨ssze a fonetik´ aval, a hagyom´ anyos ´ertelemben vett hangtannal, mely a besz´edhangok fizikai tulajdons´ agaival, valamint k´epz´es¨ uk ´es ´erz´ekel´es¨ uk fiziol´ ogi´ aj´ aval foglalkozik. 2
4
A term´eszetes nyelvi sz¨ ovegeken, pontosabban fogalmazva ´ırott sz¨ ovegeken v´egzett vizsg´ alatokkal anal´ og vizsg´ alatokat lehet v´egezni DNS-szekvenci´ akon. A vizsg´ alati m´ odszer szempontj´ ab´ ol a k¨ ul¨ onbs´eg csup´ an abban az alap´ ab´ec´eben van, melyb˝ ol fel´ep¨ ul a szimb´ olumsorozat. T¨ obb, fizikusok a ´ltal ´ırt cikk jelent meg az elm´ ult ´evekben, melyek e k´et szekvenciat´ıpus hasonl´ os´ agaira mutatnak r´ a 7 . Viszont a DNS ”nyelve” vagy ”nyelvei” (amennyiben besz´elhet¨ unk egy´ altal´ an ilyenr˝ ol, ld. Mantegna et al. [1994, 1995a] megjegyz´esei) sokkal kev´esb´e ismert, j´ oval nehezebben megismerhet˝ o, mint a term´eszetes nyelvek rendszerei. Ugyanis sokat seg´ıt az ut´ obbi megismer´es´eben a term´eszetes nyelvek grammatik´ aj´ ar´ ol mindannyiunkban l´ev˝ o intu´ıci´ o. Teh´ at amennyiben siker¨ ul a nyelvi intu´ıci´ onk seg´ıts´eg´evel fel´ all´ıtott nyelv´eszeti elm´eleteket a statisztikus fizika eszk¨ ozeivel is megvizsg´ alni, a DNS statisztikai tulajdons´ agai elvezethetnek a genetikai k´ od grammatik´ aj´ anak jobb megismer´es´ehez. Tal´ an n´eh´ any, jelenleg m´eg megmagyar´ azatlan t´eny ´es jelens´eg ´ertelmez´es´ehez is k¨ ozelebb ker¨ ulhet¨ unk. Az egyik legnagyobb ilyen k´erd´es a DNS nem k´ odol´ o szakaszainak, p´eld´ aul az intronoknak, a szerep´ere vonatkozik. Lehet, hogy ezek a szakaszok is fontos inform´ aci´ okat tartalmaznak, m´ asok szerint ”biztons´ agi” jelent˝ os´eg¨ uk van (n¨ ovelik a genetikai k´ od redundanci´ aj´ at), de l´etezik olyan v´elem´eny is, mely szerint semmi jelent˝ os´eg¨ uk sincs, csup´ an ”evol´ uci´ os szemetek”, a m´ ult eml´ekei. Az alkalmazott elj´ ar´ asok l´enyege az, hogy − a fizika jelleg´enek megfelel˝ oen − a jelens´egeket kvantitat´ıv ”s´ıkra terelj¨ uk”. De a felhaszn´ alt m´ odszerek j´ oval o ¨sszetettebbek, mint a hagyom´ anyos kvantitat´ıv nyelv´eszet 8 statisztikai m´ odszerei. A kapott eredm´enyeket, a term´eszettudom´ anyos megismer´es szab´ alyai szerint, modellekkel igyeksz¨ unk o ¨sszevetni. A jelen esetben sztochasztikus eszk¨ oz¨ ok j¨ ohetnek sz´ oba, u ´gy mint a Markov-l´ ancok ´es a form´ alis nyelvek elm´elet´enek sztochasztikus formalizmussal t¨ ort´en˝ o kiterjeszt´esei. Ehhez kapcsolhat´ o majd a k´es˝ obbiekben a szint´en fizikai fogalmak anal´ ogi´ aj´ ara sz¨ uletett, Shanonf´ele inform´ aci´ oelm´elet. A 2. fejezetben o ¨sszefoglalom az 1990-es ´evek els˝ o fel´eben DNS-szekvenci´ akon ´es ´ırott nyelvi sz¨ ovegeken v´egzett, a szimb´ olumszekvenci´ ak hossz´ ut´ av´ u korrel´ aci´ oinak felt´ ar´ as´ ara ir´ anyul´ o kutat´ asok eredm´enyeit. A tov´ abbiakban arra leszek k´ıv´ ancsi, hogy ezek az eredm´enyek milyen k¨ ovetkezm´enyekkel j´ arnak a k´ odol´ o mechanizmusra n´ezve. Felt´etelezem, hogy a szimb´ olumsorozat le´ırhat´ o a form´ alis nyelvek eszk¨ ozeivel, amely elm´eletnek az alapjait a 3. fejezetben ismertetem. A 4. fejezetben anal´ ogi´ akra mutatok r´ a a DNS- ´es a term´eszetes nyelvi jelsorozatok k¨ oz¨ ott. Az 5. fejezetben kib˝ ov´ıtem a form´ alis nyelvek elm´elet´et sztochasztikus eszk¨ oz¨ okkel, hogy az a ´ltalam javasolt anal´ ogi´ ak seg´ıts´eg´evel megmagyar´ azhassuk a k´et t´ıpus´ u szekvencia hasonl´ o tulajdons´ agait. A 6. fejezetben bevezetek egy olyan m´ odszert, amely, az ´ırott sz¨ ovegek r¨ ovidt´ av´ u korrel´ aci´ okb´ ol ad´ od´ o jellegzetess´egei alapj´ an, a sz¨ ovegek nyelvi ´es tartalmi hasonl´ os´ ag´ ara ad egy ”m´ert´eket”. Ezt a m´ odszert a 7. fejezetben DNS-szekvenci´ akra is alkalmazom, ´es r´ amutatok a k´ odol´ o ´es nem-k´ odol´ o szakaszok u ´jabb elt´er˝ o viselked´es´ere. V´egezet¨ ul, a 8. fejezetben o ¨sszefoglalom eredm´enyeimet.
7 8
Dietler & Zhang [1994], Mantegna et al. [1994, 1995a]. P´eldak´ent ld. Nagy F. [1986]-ot. 5
2. Hossz´ ut´ av´ u korrel´ aci´ ok A kilencvenes ´evekben egyre nagyobb mennyis´egben k´esz¨ ulnek el vir´ alis, bakteri´ alis, n¨ ov´enyi, a ´llati ´es emberi kromosz´ om´ ak fizikai t´erk´epei. Ezen adatok meglehet˝ osen ”unalmas” adatb´ azisokban tal´ alhat´ ok meg: a n´egy b´ azisnak (A: adenin, C: citozin, G: guanin ´es T: timin) megfelel˝ oen, n´egy bet˝ u v´eget nem ´er˝ o sorozat´ at alkotj´ ak. Id˝ onk´ent v´ altozatoss´ agot jelent egy-egy egzotikus b´ azis felbukkan´ asa. Mif´ele ´erdekes inform´ aci´ o nyerhet˝ o ezen sz´ azezres nagys´ agrend˝ u b´ azisp´ ar-szekvenci´ ab´ ol? 1992-ben C.-K. Peng ´es t´ arsai, t¨ obbs´eg¨ uk a Bostoni Egyetem munkat´ arsa, ´erdekes 1 megfigyel´eseiket hozt´ ak nyilv´ anoss´ agra a Nature has´ abjain. Egydimenzi´ os bolyong´ ass´ a a ´talak´ıtva a DNS-szekvenci´ at (”DNA walk”), hossz´ ut´ av´ u korrel´ aci´ okat fedeztek fel az intronokat tartalmaz´ o szekvenci´ akban, melyek hi´ anyoztak az exonokban, valamint a c-DNS2 ekben, ´es az intront nem tartalmaz´ o g´enekben. A m´ odszert m´ as fizikusok felhaszn´ alt´ ak ´ırott sz¨ ovegek elemz´es´ere is. 3 Az elj´ ar´ as l´enyege a k¨ ovetkez˝ o: k´epzelj¨ unk el egy bolh´ at, melyet egy sz´ amegyenes orig´ oj´ aba helyez¨ unk. Felolvassuk neki a szekvenci´ at, ´es amennyiben pirimidinv´ azas b´ azist hall (C vagy T), u ´gy el˝ ore l´ep egyet, m´ıg purinv´ azas b´ azis eset´en (A vagy G) h´ atra l´ep. Amennyiben ui -vel jel¨ olj¨ uk az i-ik l´ep´est (ui = ±1), u ´gy a bolha helyzete az i-ik l´ep´es ut´ an nyilv´ an y(l) =
l X
ui .
(2.1)
i=1
A mozg´ ast jellemz˝ o statisztikus fizikai mennyis´eg az y(l)-nek az elmozdul´ as a ´tlaga k¨ or¨ ul vett F (l) a ´tlagos fluktu´ aci´ oja (root mean square fluctuation):
ahol
2 F 2 (l) = (∆y(l)− < ∆y(l) >)2 = ∆y(l)2 − h∆y(l)i , ∆y(l) = y(l0 + l) − y(l0 ),
(2.2)
(2.3)
´es az o ¨sszes lehets´eges l0 poz´ıci´ ora kell az a ´tlagol´ ast k´epezni. 2 Az F (l) szoros o ¨sszef¨ ugg´esben a ´ll az C(l) =< u(l0 )u(l0 + l) > − < u(l0 ) >2
(2.4)
autokorrel´ aci´ os f¨ uggv´ennyel: 1
Peng et al. [1992], Stanley et al. [1992, 1993a,b], Peng et al. [1993] . A c-DNS a feh´erjeszint´ezis sor´ an haszn´ alt RNS egy m´ asolata, melyet megford´ıtott transkripci´ oval kaphatunk meg. 3 Schenkel et al. [1993], Amit et al. [1994], Dietler & Zhang [1994], Ebeling & Neiman [1995]. 2
6
F 2 (l) =
l X l X i=1 j=1
C(j − i).
(2.5)
Ebb˝ ol k¨ ovetkezik, hogy − C(l) viselked´es´et˝ ol f¨ ugg˝ oen − F (l) h´ aromf´ele viselked´est mutathat: • Amennyiben v´eletlen sorozattal a ´llunk szemben, azaz C(l) = 0 a ´tlagban (kiv´eve az l = 0 esetet, hiszen C(0) = 1), akkkor klasszikus, korrel´ alatlan bolyong´ asr´ ol van sz´ o: α = 0, 5 kitev˝ oj˝ u hatv´ anyf¨ uggv´enyk´ent cseng le az F (l). • R¨ ovidt´ av´ u korrel´ aci´ ok eset´en adott a korrel´ aci´ ok R karakterisztikus hossza, azaz az autokorrel´ aci´ os f¨ uggv´eny C(l) ∼ exp(−l/R) viselked´est mutat. Az F (l) aszimpt´ otikus viselked´ese ebben az esetben is α = 0, 5 kitev˝ oj˝ u hatv´ anyf¨ uggv´eny lesz. • Hossz´ ut´ av´ u korrel´ aci´ ok eset´en viszont, C(l) nem jellemezhet˝ o R karakterisztikus hosszal, hanem − exponenci´ alis helyett − hatv´ anyf¨ uggv´enyszer˝ u viselked´est tapasztalunk. Ennek k¨ ovetkezm´enye F (l)-re n´ezve az lesz, hogy az α-kitev˝ o ´ert´eke elt´er a 0, 5 ´ert´ekt˝ ol. Az elt´er´es m´ert´eke jellemzi a hossz´ ut´ av´ u korrel´ aci´ ok er˝ oss´eg´et. Az α = 1 eset felel meg a sk´ alainvari´ ans 1/f zajnak (”maximal complexity limit”) (Amit et al. [1993]). Az al´ abbi esetekben 0, 5 ´es 1 k¨ oz¨ otti ´ert´ekeket fogunk tal´ alni. Az elj´ ar´ as a ´tvihet˝ o term´eszetes nyelvi ´ırott sz¨ ovegekre is. Ebben az esetben egyaz-egyhez k´ odol´ ast alkalmaztak, azaz a ´t´ırt´ ak a sz¨ oveget egy bin´ aris a ´b´ec´e seg´ıts´eg´evel (szemben a ”DNA-walk”-kal, ahol is k´et-k´et b´ azist ugyan´ ugy k´ odoltak). P´eld´ aul o ¨t biten kit˝ un˝ oen lehet k´ odolni az angol a ´b´ec´e 26 bet˝ uj´et, a sz´ ok¨ ozt, ´es a legfontosabb ´ır´ asjeleket. Az eredm´enyek nagyon ´erdekesek. A vizsg´ alt DNS-szekvenci´ ak nagyon j´ ol sz´etv´ alaszthat´ ok k´et csoportba: a tiszt´ an k´ odol´ o szakaszokb´ ol a ´ll´ o szekvenci´ ak α = 0, 50 ± 0, 01 exponenssel jellemezhet˝ ok, azaz nem mutatnak hossz´ ut´ av´ u korrel´ aci´ okat, szemben az intront is tartalmaz´ o szekvenci´ akkal, melyek eset´eben α = 0, 61 ± 0, 03. (Peng et al. [1992]) ´Irott sz¨ ovegek eset´eben, a vizsg´ alathoz haszn´ alt sz¨ ovegek k¨ oz¨ ott megtal´ aljuk a Biblia eredeti, h´eber nyelv˝ u sz¨ oveg´et, valamint modern ford´ıt´ asait, tov´ abb´ a Shakespearedr´ am´ akat, reg´enyeket, s˝ ot egy sz´ ot´ arat is. N´eh´ any ´erdekesebb eredm´eny: • A sz¨ ovegek sok nagys´ agrenden kereszt¨ ul a ´lland´ o α-exponenssel jellemezhet˝ oek, melynek ´ert´eke a ´ltal´ aban 0, 6 − 0, 7 k¨ oz´e esik (Schenkel et al. [1993]). • A kitev˝ o ´ert´eke nem jellemz˝ o a szerz˝ ore, hiszen p´eld´ aul a Hamlet exponense 0, 56, m´ıg a R´ ome´ o ´es J´ uli´ a´e 0, 6 (Schenkel et al. [1993]). • A ford´ıt´ asok sor´ an, u ´gy t˝ unik, a korrel´ aci´ o m´ert´eke cs¨ okken. Hab´ ar a Biblia exponense kimagasl´ oan magas (∼ 0, 75), a ford´ıt´ asai sor´ an ezen ´ert´ek szisztematikusan cs¨ okken. 4 (Amit et al. [1994]) • A sz´ ot´ ar a sz´ ocikkek hossz´ an´ al j´ oval hosszabb korrel´ aci´ okat mutat, amely jelens´eg nem magyar´ azhat´ o puszt´ an a tartalom korrel´ alts´ ag´ aval (Schenkel et al. [1993]). • A sz¨ ovegeket kisebb r´eszletekre, p´eld´ aul szavakra, mondatokra vagy l = 10 − 10000 karakter hossz´ us´ ag´ u, azonos darabokra szabdalva, a szabdal´ as hossz´ anak nagys´ agrendj´eig 4
Nem tal´ altam a szakirodalomban vil´ agos v´ alaszt arra a k´erd´esre, hogy a magas hatv´ anykitev˝ o mi´ert nem lehet a h´eber nyelvnek vagy ortogr´ afi´ anak jellegzetes tulajdons´ aga. 7
megmaradnak a korrel´ aci´ ok, azon t´ ul pedig elt¨ unnek. Ezek szerint a sz´ ot´ ar sz´ ocikkeinek elrendez´ese ”nem v´eletlenszer˝ u”, el˝ ozetes sejt´es¨ unkkel ellent´etben, ´ırja (Schenkel et al. [1993]). Leford´ıtott sz´ am´ıt´ og´epprogramokat (.exe-file-okat) is megvizsg´ altak, ezek eset´eben ´ 0, 9-et is meghalad´ o kitev˝ ot tal´ altak (Schenkel et al. [1993]). Erdekes m´eg a ”hum´ an v´eletlensz´ amgener´ ator” vizsg´ alata: az egyik szerz˝ o 0 ´es 9 k¨ oz¨ ott ´ırt le sz´ amokat, ”v´eletlenszer˝ uen”. A v´eletlenszer˝ u eloszl´ asra val´ o t¨ orekv´es eredm´enyek´eppen, r¨ ovid t´ avon (l ∼ 10) antikorrel´ aci´ ot fedezhet¨ unk fel, de enn´el hosszabb t´ avon − a sz´ amokat gener´ al´ o szem´ely minden igyekezete ellen´ere − megjelentek a korrel´ aci´ ok. R´ aad´ asul, a hatv´ anykitev˝ o ´ert´eke nem is a ´lland´ o, tart az 1-hez! A szerz˝ ok ezt u ´gy magyar´ azz´ ak, hogy − ellent´etben a sz¨ ovegekkel ´es a sz´ am´ıt´ og´epes programokkal −, a v´eletlensz´ am gener´ al´ as nem rendelkezik ´ertelmes c´ellal, vagyis a tudattalan t´enyez˝ ok, melyeket felel˝ oss´e tesznek a hossz´ ut´ av´ u korrel´ aci´ ok´ert, nagyobb szerepet j´ atszhatnak (Schenkel et al. [1993]). Az al´ abbiakban azt vizsg´ alom meg, milyen k¨ ovetkezm´enyekkel j´ arnak ezek a megfigyel´esek a jelsorozatot l´etrehoz´ o folyamatok alkalmas modellj´enek term´eszet´ere vonatkoz´ oan. Mindenek el˝ ott, be kell vezetn¨ unk a form´ alis nyelv fogalm´ at (R´ev´esz [1979] alapj´ an), melyet sz´eles k¨ orben haszn´ alnak a term´eszetes ´es sz´ am´ıt´ og´epes nyelvek le´ır´ as´ ara. Amellett is felhozok majd ´erveket, mi´ert tartom hasznosnak ezen matematikai konstrukci´ o alkalmaz´ as´ anak kipr´ ob´ al´ as´ at a genetik´ aban. A form´ alis nyelvek elm´elete az algebra bevett a ´gai k¨ oz´e tartozik, de hasznosnak tartom az alapfogalmak o ¨sszefoglal´ as´ at, hiszen ez a t´emak¨ or nem r´esze a fizikus szak tananyag´ anak.
3. Alapfogalmak a form´ alis nyelvek elm´ elet´ eb˝ ol A form´ alis nyelvek elm´elet´enek a c´elja a term´eszetes ´es sz´ am´ıt´ og´epes nyelvek le´ır´ asa. Az alapgondolat az, hogy a nyelvet, mint a ”j´ olform´ alt mondatok”− azaz a nyelvhez tartoz´ o, a ´b´ec´ebeli sztringek − halmaz´ at, nem csak a halmaz elemeinek a felsorol´ as´ aval, vagy a halmazok megad´ as´ an´ al megszokott, egyszer˝ u szab´ alyok seg´ıts´eg´evel defini´ alhatjuk. Megadhatunk egy nyelvet a ”szerkezet´enek” le´ır´ as´ aval is, generat´ıv grammatika seg´ıts´eg´evel, valamint olyan automata r´ev´en, mely a nyelv ”mondatait”, ”formul´ ait”, ´es csak azokat fogadja el. Mindk´et fogalom egy v´eges vagy v´egtelen halmazt ad meg, v´eges eszk¨ oz¨ okkel. Ezen gondolat m¨ og¨ ott az a ´ll, hogy a gyermek az anyanyelv´et nyilv´ an nem a hallott mondatok egyszer˝ u reproduk´ al´ as´ aval saj´ at´ıtja el: egyr´eszt, nem hallhatja a nyelv o ¨sszes, potenci´ alisan v´egtelen sz´ am´ u mondat´ at, ´es k´epes olyan mondatot is reproduk´ alni, amelyet el˝ oz˝ oleg nem hallott. ; tov´ abb´ a, egyszer˝ u ism´etl´es eset´en, nem hib´ azna, hiszen feltehet˝ oleg csak helyes mondatot hall. Teh´ at − legal´ abbis Chomsky ´es k¨ ovet˝ oi szerint − a gyermek a nyelv szab´ alyait saj´ at´ıtja el. A form´ alis nyelvek elm´elet´eben, valamilyen L nyelv egy nem¨ ures, v´eges Σ halmaz, az u ´n. a ´b´ec´e f¨ ol¨ ott, defin´ıci´ o szerint nem m´ as, mint a Σ elemeib˝ ol k´epzett, v´eges hossz´ us´ ag´ u sztringek egy halmaza. (Az n hossz´ us´ ag´ u sztring egy rendezett n-est jelent matematikailag.) Jel¨ olje Σ+ a Σ elemeib˝ ol k´epezett, pozit´ıv (v´eges) hossz´ us´ ag´ u sztringek halmaz´ at, Σ ∗ pedig 8
ennek kib˝ ov´ıt´es´et az e (”empty”) u ¨res, azaz nulla hossz´ us´ ag´ u sztringgel. Ekkor egy L nyelv Σ f¨ ol¨ ott nem m´ as, mint Σ∗ egy r´eszhalmaza:
.
L ⊆ Σ∗
Az al´ abbiakban ”sz´ o”, ”mondat”, ”jelsorozat”, ”formula” kifejez´eseket a ”sztring” szinon´ım´ ajak´ent fogom haszn´ alni, a ”jel”, ”bet˝ u”, ”szimb´ olum” szavak pedig az a ´b´ec´e elemeire fognak utalni. A sz´ ohaszn´ alat a konkr´et implement´ aci´ ot´ ol f¨ ugg: szintaxis (mondattan) eset´en p´eld´ aul Σ szavakat tartalmaz. K´et formula, X ´es Y konkaten´ aci´ oj´ an azt a Z formul´ at ´ertj¨ uk, amelyet u ´gy kapunk, hogy X-et ´es Y -t ”egym´ as mell´e ´ırjuk”, o ¨sszef˝ uzz¨ uk: Z = XY . Nyilv´ anval´ o, hogy Σ ∗ a konkaten´ aci´ o m˝ uvelet´evel egy¨ utt egys´egelemes f´elcsoportot alkot, ahol az e u ¨res sz´ o j´ atssza az egys´egelem szerep´et. A generat´ıv grammatika fogalm´ anak defin´ıci´ oja R´ev´esz [1979.] alapj´ an az al´ abbi: 1. Defin´ıci´ o: Egy G generat´ıv grammatik´ an az al´ abbi rendezett n´egyest ´ertj¨ uk: G = (VN , VT , S, F ), ahol VN ´es VT diszjunkt v´eges a ´b´ec´ek, S ∈ VN , az F pedig olyan rendezett (P, Q) p´ aroknak egy v´eges halmaza, melyekre P, Q ∈ V ∗ (V := VT ∪ VN ), ´es P legal´ abb egy VN -beli jelet tartalmaz. A VN elemeit nemtermin´ alisok elemeknek, VT elemeit pedig termin´ alis jeleknek fogjuk nevezni, az al´ abbiakban ismertetend˝ o okokb´ ol. Az F elemeit helyettes´ıt´esi szab´ alyoknak (rewriting rules) h´ıvjuk, ´es P → Q alakban ´ırjuk. Az S kit¨ untetett nemtermin´ alis elem neve: mondatszimb´ olum. Az al´ abbi m´ odon defini´ aljuk a levezet´es fogalm´ at: 2. Defin´ıci´ o: Adott G = (VN , VT , S, F ) grammatika eset´en, X, Y ∈ V ∗ -ra azt mondjuk, hogy Y levezethet˝ o X-b˝ ol, azaz X ⇒ Y , ha l´etezik olyan P1 , P2 , P, Q ∈ V ∗ , hogy X = P1 P P2 , Y = P1 QP2 , valamint (P → Q) ∈ F .
Ez azt jelenti, hogy ha X-ben P -t u ´jra´ırjuk Q-val az egyik F -beli helyettes´ıt´esi szab´ aly ∗ alkalmaz´ as´ aval, u ´gy Y -t kapjuk. Jel¨ olj¨ uk a ⇒ rel´ aci´ o tranzit´ıv lez´ artj´ at ⇒ -val, azaz ∗ X ⇒ Y csakkor a ´ll fenn, ha X-b˝ ol kiindulva, F -beli u ´jra´ırøszab´ alyok nulla vagy v´eges sz´ am´ u alkalmaz´ as´ aval, eljuthatunk Y -ba. Egy G grammatika a ´ltal gener´ alt L(G) nyelv az S mondatszimb´ olumb´ ol levezethet˝ o, termin´ alis elemekb˝ ol a ´ll´ o mondatok halmaz´ at jelenti: L(G) := {P ∈ VT∗ |S ⇒∗ P }
Azt mondjuk, hogy az L nyelvet a G grammatika gener´ alja, ha L = L(G). A termin´ alisok VT halmaz´ anak szerep´et a Σ a ´b´ec´e t¨ olti be, amikor egy nyelvhez grammatik´ at gy´ artunk. K´et grammatik´ at gener´ al´ as szempontj´ ab´ ol ekvivalensnek nevez¨ unk, ha ugyan azt a nyelvet gener´ alj´ ak. A form´ alis nyelvek elm´elet´enek alapvet˝ o k´erd´ese az, hogy milyen t´ıpus´ u nyelvekhez milyen grammatik´ akat adhatunk meg. Azaz milyen k¨ ovetkezm´enyekkel j´ ar, ha megk¨ ot´eseket tesz¨ unk a helyettes´ıt´esi szab´ alyok alakj´ ara. Noam Chomsky az al´ abbi nyelvoszt´ alyokat vezette be (R´ev´esz [1979.]): 3. Defin´ıci´ o: A G = (VN , VT , S, F ) grammatik´ at i-t´ıpus´ unak nevezz¨ uk, ha az al´ abbiak k¨ oz¨ ul az i-ik teljes¨ ul: 9
i = 0: Nincs semmilyen kik¨ ot´es. i = 1: Az F minden eleme Q1 XQ2 → Q1 P Q2 alak´ u, ahol Q1 , Q2 , P ∈ V ∗ , X ∈ VN ´es P 6= e, kiv´eve esetleg az S → e szab´ alyt, amely viszont csak u ´gy szerepelhet az F -ben, ha az S nem fordul el˝ o semelyik szab´ alynak sem a jobb oldal´ an. i = 2: Az F minden eleme X → P alak´ u, ahol X ∈ VN , ´es P ∈ V ∗ . i = 3: Az F minden eleme X → P Y vagy X → P alak´ u, ahol X, Y ∈ VN , ´es P ∈ VT∗ . Valamely L nyelvet i-t´ıpus´ unak mondunk, ha l´etezik hozz´ a i-t´ıpus´ u grammatika. Az i-t´ıpus´ u grammatik´ ak oszt´ aly´ at Gi -vel, m´ıg az i-t´ıpus´ u nyelvek csal´ adj´ at Li -vel szok´ as jel¨ olni. Bel´ athat´ o, hogy ezen nyelvoszt´ alyok egym´ as val´ odi r´eszhalmazai: L3 ⊂ L 2 ⊂ L 1 ⊂ L 0 Az i = 0 nyelvoszt´ alyt mondatszerkezet˝ u nyelveknek nevezz¨ uk. Az i = 1 t´ıpus´ u grammatik´ ak helyettes´ıt´esi szab´ alyai u ´gy n´eznek ki, hogy az X nemtermin´ alist ´ırjuk u ´jra, a Q1 Q2 k¨ ornyezetben, ahol jelzi X hely´et. Ez´ert az i = 1 grammatika-, ill. nyelvoszt´ alyt k¨ ornyezetf¨ ugg˝ onek (context-sensitive, CS) nevezz¨ uk, szemben az i = 2 k¨ ornyezetf¨ uggetlen (context-free, CF) oszt´ allyal. Az i = 3 esetben pedig regul´ aris oszt´ alyokr´ ol besz´el¨ unk. A form´ alis nyelvekkel szoros kapcsolatban a ´llnak az automata-elm´eletb˝ ol ismert g´epek. Egy nyelvet elfogad valamely automata, ha a nyelv mondatait, ´es csak azokat fogadja el. Az egyes nyelvoszt´ alyok ilyen alapon megfeleltethet˝ oek az egyes automata-t´ıpusoknak. Erre a k´erd´esre − hely hi´ any´ aban − nem fogok r´eszletesen kit´erni. Egyed¨ ul a v´eges a ´llapot´ u automat´ ak alapgondolat´ at ismertetem, mivel a k´es˝ obbiekben m´eg visszat´erek ezek kapcsolat´ ara a Markov-l´ ancokkal. A regul´ aris grammatik´ ak csak lok´ alis jelens´egeket tudnak le´ırni. Az al´ abbiakban l´ atni fogjuk kapcsolatukat a Markov-l´ ancokkal, vagyis az ilyen nyelvek eset´en nem v´ arunk hossz´ ut´ av´ u korrel´ aci´ okat (lesz´ am´ıtva term´eszetesen a determinisztikus esetet). Bel´ athat´ o, hogy regul´ aris nyelvekhez, ´es csak azokhoz szerkeszthet˝ o elfogad´ o v´eges a ´llapot´ u automata (R´ev´esz [1979.]): 4. Defin´ıci´ o: Egy v´eges automat´ an az A = (K, T, M, q0, H) rendezett o ¨t¨ ost ´ertj¨ uk, ahol K egy v´eges, nem u ¨res halmaz, az a ´llapothalmaz, T egy v´eges a ´b´ec´e, a bemen˝ oa ´b´ec´e, M a K × T halmaznak egy lek´epez´ese a K-ra, az a ´tmenetf¨ uggv´eny, q0 ∈ K a a kezd˝ oa ´llapot, H ⊆ K a v´eg´ allapotok halmaza. A v´eges a ´llapot´ u automata m˝ uk¨ od´ese a k¨ ovetkez˝ o: elindul a kezd˝ oa ´llapotb´ ol, az els˝ o l´ep´esben beolvassa a bemen˝ o szalagra ´ırt mondat els˝ o jel´et (∈ T ), ´es a beolvasott jel, valamint az ´eppen aktu´ alis a ´llapot f¨ uggv´eny´eben, az M a ´ltal meghat´ arozott a ´llapotba megy a ´t. A k¨ ovetkez˝ o l´ep´esben u ´jabb jelet olvas be a szalagr´ ol, ´es ez alapj´ an u ´jabb a ´llapotba ”ugrik” − felt´eve, hogy az aktu´ alis a ´llapot ´es a beolvasott jel a ´ltal alkotott rendezett p´ ar ´ eleme az M a ´tmenetf¨ uggv´eny ´ertelmez´esi tartom´ any´ anak. Es ´ıgy tov´ abb, eg´eszen addig, am´ıg el nem akad az automata m˝ uk¨ od´ese, vagy el nem olvasta az eg´esz mondatot. Azt mondjuk, hogy az automata elfogadott egy mondatot, ha v´egigolvasta azt, ´es az utols´ o 10
a ´llapot eleme H-nak. (Ez a folyamat formaliz´ alhat´ o ”´ allapotsorozatok” defini´ al´ as´ aval, de ett˝ ol most tekints¨ unk el.) A v´eges a ´llapot´ u automata jellemz˝ oje, hogy nem rendelkezik ”mem´ ori´ aval” (v´egtelen veremmel), ´es ebb˝ ol k¨ ovetkezik majd a hossz´ ut´ av´ u korrel´ aci´ ok hi´ anya a regul´ aris nyelvekn´el. P´eld´ aul az La := {an bn |n > 0} nyelv (ahol an n darab ’a’ konkaten´ aci´ oj´ at jelenti) az´ert nem lehet regul´ aris, mert a ’b’-k beolvas´ asakor ”tudnunk kell” azt, hogy mennyi ’a’-t olvastunk be el˝ oz˝ oleg. M´ arpedig, az ’a’-k sz´ ama tetsz˝ olegesen nagy lehet, ´ıgy ezt a v´egtelen sok lehet˝ os´eget nem tudjuk v´eges sok a ´llapot seg´ıts´eg´evel ”megjegyezni”. Ezzel szemben, a nem-regul´ aris k¨ ornyezetf¨ uggetlen nyelvek tetsz˝ olegesen sok ”be´ agyaz´ ast” tesznek lehet˝ ov´e. Tipikus p´eld´ at szolg´ altatnak erre − a fentebb megadott L a halmazon k´ıv¨ ul − a sz´ am´ıt´ og´epes nyelvek, ahol a ciklusszervez´es jelenti az egym´ asba a ´gyazott strukt´ ur´ akat, valamint a z´ ar´ ojelezett matematikai kifejez´esek. Chomsky [1957] amellett ´ervel, hogy az angol nyelv − ´es a ´ltal´ aban a term´eszetes nyelvek − szintaxisa is k¨ ornyezetf¨ uggetlen grammatik´ aval adhat´ o meg, melyet a transzform´ aci´ ok a ´talak´ıthatnak. (Ellenp´eldak´ent szok´ as felhozni egyes holland szerkezeteket, melyeket k¨ ornyezetf¨ ugg˝ o szab´ alyokkal ´erdemes csak le´ırni. Ezekt˝ ol azonban tekints¨ unk el, mint ahogy azt a legt¨ obb nyelv´esz is teszi.) A k¨ ornyezetf¨ uggetlen nyelvek mondatainak jellemz˝ oje a l´ atv´ anyos hierarchikus szerkezet. Egy formula levezet´es´et egy gr´ affal (ir´ any´ıtott f´ aval) a ´br´ azolhatjuk, melynek ”gy¨ okere” a mondatszimb´ olum, v´egpontjai (”levelei”) a levezetett mondat szavai. A k¨ oztes csom´ opontok pedig a levezet´es sor´ an megjelen˝ o nemtermin´ alisoknak felelnek meg, amelyb˝ ol indul´ o ´elek v´egpontjait ”¨ osszeolvasva”, azon helyettes´ıt´esi szab´ aly jobb oldal´ at kapjuk meg, ´ amellyel u ´jra´ırtuk a nemtermin´ alist. Igy p´eld´ aul azt mondhatjuk (nagyon leegyszer˝ us´ıtve a k´erd´es nyelv´eszeti oldal´ at), hogy az S mondatszimb´ olumb´ ol levezethet˝ o magyar mondat a ´ll egy f˝ on´evi csoportb´ ol (NP), amely az alany szerep´et t¨ olti be, ´es egy igei csoportb´ ol (VP). Azaz fel´ırhat´ o a k¨ ovetkez˝ o szab´ aly: S → NP VP. Maga az igei csoport is fel´ep¨ ulhet ig´eb˝ ol (V), t´ argyb´ ol ´es hat´ aroz´ okb´ ol (ut´ obbiak szint´en NP-k, azaz f˝ on´evi csoportok): VP → VP NP, illetve: VP → V. A f˝ on´evi csoport pedig a ´llhat f˝ onevekb˝ ol (N) ´es mell´eknevekb˝ ol (A): NP → A NP, ´es NP → N. Majd a V, N ´es A nemtermin´ alisokat helyettes´ıthetj¨ uk a megfelel˝ o kateg´ ori´ aj´ u (”sz´ ofaj´ u”) magyar szavakkal (termin´ alisokkal). A fenti szab´ alyok p´eld´ at mutatnak a rekurzi´ ot lehet˝ ov´e tev˝ o szab´ alyokra is, melyek seg´ıts´eg´evel lehet egy v´egtelen sok mondatb´ ol a ´ll´ o nyelvet le´ırni a generat´ıv grammatik´ ak v´eges eszk¨ oz´evel. A k¨ ornyezetf¨ uggetlen nyelvekhez k´esz´ıtett elfogad´ o automat´ ak oszt´ alya az u ´n. veremautomat´ ak. Adott k¨ ornyezetf¨ uggetlen grammatik´ ahoz k´esz´ıthet˝ o olyan automata is (´ un. parser), amely a termin´ alisok line´ aris szekvenci´ aj´ ab´ ol el˝ oa ´ll´ıtja az azt l´etrehoz´ o levezet´es(ek) sor´ an alkalmazott szab´ alyok sorozat´ at. K¨ ornyezetf¨ ugg˝ o nyelvre p´elda az Lb := {an bn cn |n > 0} nyelv. (A k¨ ornyezetf¨ uggetlen nyelvekre sz¨ uks´eges felt´etelt kir´ ov´ o Bar Hillel lemma seg´ıts´eg´evel l´ athat´ o be, hogy L b -hez nem adhat´ o meg k¨ ornyezetf¨ uggetlen grammatika.) A k¨ ornyezetf¨ uggetlens´eget kiz´ arja, ha a ”korrel´ aci´ ok” egym´ ast keresztezik, nincsennek egym´ asba a ´gyazva, mintha megengedn´enk a k¨ ovetkez˝ o ”z´ ar´ ojelez´est”: (...[...)...] . 11
Az L1 nyelvoszt´ aly a line´ arisan korl´ atolt automat´ ak a ´ltal elfogadott nyelvek oszt´ aly´ aval egyezik meg, m´ıg a mondatszerkezet˝ u nyelveket elfogad´ o automat´ ak ´eppen a h´ıres Turingg´epek. K¨ ornyezetf¨ ugg˝ o grammatik´ at haszn´ alnak a fonol´ ogusok, a nyelvekben lej´ atsz´ od´ o hangtani folyamatok jellemz´es´ere. Viszont Kaplan ´es Kay [1994] bebizony´ıtja, hogy a fonol´ ogiai modellek a ´ltal´ aban olyan felt´eteleket r´ onak ki a szab´ alyok alkalmaz´ as´ ara, amelyek regul´ ariss´ a reduk´ alj´ ak a folyamatokat. Erre hivatkozva, az al´ abbiakban felt´etelezem, hogy a fonol´ ogia − elvileg − fel´ırhat´ o regul´ aris szab´ alyok seg´ıts´eg´evel is. L´ attuk, hogy a form´ alis nyelvek elm´elete ´eppannyira hasznos a nyelv´eszetben, mint ´ a sz´ am´ıt´ astechnik´ aban. Ugy v´elem, a genetik´ aban is eredm´enyesen lehetne felhaszn´ alni ezt a modellt. Hiszen a feh´erj´ek hasonl´ o hierarchikus szerkezettel rendelkeznek, mint a k¨ ornyezetf¨ uggetlen nyelvek. Az els˝ odleges, m´ asodlagos ´es harmadlagos szerkezet egym´ asra ´ep¨ ul´ese, a funkci´ os csoportok elhelyezked´ese, val´ osz´ın˝ uleg le´ırhat´ o ilyen eszk¨ oz¨ okkel, de saj´ at magam − hi´ anyos biok´emiai ismereteim miatt − nem merek ezen a t´eren nyilatkozni. De u ´gy ”´erzem”, hogy a feh´erjeszerkezet-kutat´ asok alapj´ an fel´ırhat´ oak olyan k¨ ornyezetf¨ uggetlen u ´jra´ır´ o szab´ alyok, melyeket molekulafizikai sz´ am´ıt´ asokkal lehetne igazolni. A gondolatmenetet folytatva, a k¨ ovetkez˝ o kih´ıv´ ast azt jelentheti, hogy meg´erts¨ uk, ezek a k¨ ornyezetf¨ uggetlen szab´ alyok mik´ent reduk´ al´ odnak regul´ ariss´ a, hiszen a c-DNSekb˝ ol hi´ anyz´ o korrel´ aci´ ok arra engednek k¨ ovetkeztetni, hogy a feh´erj´ek ”szintaxisa” nem csak k¨ ornyezetf¨ uggetlen, hanem tal´ an regul´ aris is egyben. De t´erj¨ unk vissza az ”´ almodoz´ asaimb´ ol”, ´es tekints¨ uk a ´t, mi lehet a k¨ oz¨ os a vizsg´ alt jelens´egekben? Milyen anal´ ogi´ ak vonhat´ ok a DNS-szekvenci´ ak ´es a term´eszetes nyelvi sz¨ ovegek k¨ oz¨ ott, ami miatt hasonl´ o jelens´egeket fedezt¨ unk fel benn¨ uk az el˝ oz˝ o fejezetben, valamint hasonl´ o modellek alkalmaz´ as´ at javasoltam r´ ajuk.
4. A genetikai k´ od ´ es a term´ eszetes nyelvek k¨ oz¨ otti anal´ ogi´ ak Milyen alapon lehet egy kalap al´ a venni a DNS-szekvenci´ akat, a term´eszetes nyelvi sz¨ ovegeket, ´ valamint − hozz´ a vehetj¨ uk m´eg − a sz´ amit´ og´epes programokat? Mindh´ arom ”jelens´eget” az a szerkezet jellemzi, amit az a ´ltalam ”kett˝ os k´ odol´ asnak” (”double coding”, a ”kett˝ os tagolts´ ag” mint´ aj´ ara, ld. 1. fej.) nevezett folyamat hoz l´etre. V´elem´ nyem szerint, a ”kett˝ os k´ odol´ as” l´enyege abb´ ol a ´ll, hogy egy megval´ os´itand´ ot ´ ´ u ´gy kell a ´talakitani a megval´ osit´ ov´ a, hogy egy line´ aris k´ od form´ aj´ aban t´ aroljuk az ”inform´ aci´ ot”. Linearit´ as alatt itt ´es a tov´ abbiakban a k´ odot alkot´ o szimb´ olumok line´ aris sorrendj´et ertem, p´eld´ aul azt, hogy a karaktereket az ´ır´ as sor´ an egym´ as mellett helyezhetj¨ uk el. (Az ´ır´ as t¨ ort´enet´enek korai szakaszai mutatj´ ak, hogy ez a t´eny nem trivi´ alis.) A term´eszetes nyelvi sz¨ ovegek eset´en a ”megval´ os´ıtand´ o” a k¨ oz¨ olt inform´ aci´ o (a mondat vagy a sz¨ oveg jelent´ese), m´ıg a ”megval´ os´ıt´ o” a kiejtett hangsor. A DNS-szekvenci´ ak eset´en a ”megval´ os´ıtand´ o”-t az enzim a ´ltal ell´ atand´ o funkci´ o jelenti, m´ıg a ”megval´ os´ıt´ o” maga az enzim. Sz´ am´ıt´ og´epes program eset´eben pedig, a programozand´ o feladat a ”megval´ os´ıtand´ o”, m´ıg a programk´ od a ”megval´ os´ıt´ o”. 12
A ”megval´ os´ıtand´ o” k¨ oz¨ os jellemz˝ oje mindh´ arom esetben a nem-linearit´ as. Egy mondat jelent´ese ´epp annyira komplex szerkezet˝ u lehet, mint egy biol´ ogiai vagy sz´ am´ıt´ og´epes feladat. A ”megval´ os´ıt´ o” kv´ azi-line´ aris. Ez azt jelenti, hogy a megval´ os´ıt´ ot majdnem teljes m´ert´ekben le´ırhatjuk line´ arisan. A ”kv´ azi” jelz˝ ovel a feh´erj´ek m´ asodlagos ´es harmadlagos szerkezet´ere utalok, ill. arra, hogy a kiejtett hangkontinuumot igaz´ ab´ ol csak multiline´ arisan lehet le´ırni, a k¨ ul¨ onb¨ oz˝ o hangk´epz˝ o szervek helyzete vagy egy hang fizikai tulajdons´ agai egym´ ast´ ol t¨ obb´e-kev´esb´e f¨ uggetlenek. A ”megval´ os´ıtand´ ot” a ”megval´ os´ıt´ oval” egy t¨ ok´eletesen line´ aris k´ od k¨ oti o ¨ssze. A k´erd´es az, hogy mik´ent lehets´eges a nem-line´ aris inform´ aci´ ot line´ ariss´ aa ´talak´ıtani oly m´ odon, hogy ne vesszen el semmi, azaz a megval´ os´ıt´ ot 1 a megval´ os´ıtand´ ohoz rendel˝ o lek´epez´es invert´ alhat´ o legyen. Ez a ”kett˝ os k´ odol´ as” legtiszt´ abban a nyelv´eszet eset´eben figyelhet˝ o meg, ott o ¨sszef¨ ugg´esben van az emberi nyelv bevezet˝ oben eml´ıtett ”kett˝ os tagolts´ ag´ aval”. A szemantika a nemline´ aris jelent´esb˝ ol megalkotja a szintaxis nem-line´ aris bemenet´et, amit k´ odoland´ onak fogok nevezni. A k´ odoland´ ob´ ol a szintaxis l´etrehozza a line´ aris k´ odot. Ezt u ´gy teszi meg, hogy egy generat´ıv grammatik´ at haszn´ al, mely szab´ alyainak ismeret´eben, a k´ odb´ ol (a legener´ alt termin´ alis-sztringb˝ ol) visszafejthet˝ o a levezet´esi l´ anc (parsing), azaz a ”mondat” nemline´ aris szintaktikus strukt´ ur´ aja, ami viszont m´ ar a jelent´es komplex szerkezet´evel f¨ ugg o ¨ssze. P´eld´ aul a B´ela fia sz´ep fizikus l´ anyt l´ at. mondatb´ ol, a magyar nyelv szintaktikai szab´ alyainak az ismeret´eben, rekonstru´ alhat´ o a mondatot alkot´ o elemek egym´ ashoz val´ o viszonya. Ut´ obbit, z´ ar´ ojelek seg´ıts´eg´evel, az al´ abbi m´ odon a ´br´ azolhatjuk: (B´ela fia) ((sz´ep (fizikus l´ anyt)) l´ at). Visszat´erve ”megval´ os´ıtand´ o” lek´epez´es´ere ”megval´ os´ıt´ ov´ a”, a szintaxis kimenete a szavak (morf´em´ ak) line´ aris sorrendje. Ez lek´epez˝ odik hangalakokk´ a, majd a morfol´ ogiaifonol´ ogiai szab´ alyok kisebb, lok´ alis v´ altoztat´ asokat eszk¨ oz¨ olnek ezen a line´ aris szekvenci´ an (´ un. igaz´ıt´ o szab´ alyok). A v´ altoztat´ asok egy r´esz´enek oka legink´ abb az emberi hangk´epz˝ o szervek tehetetlens´ege, p´eld´ aul hasonul´ asok eset´en, vagy a percepci´ o (meg´ert´es, rekonstru´ al´ as) el˝ oseg´ıt´ese, p´eld´ aul disszimilat´ıv folyamatokn´ al. (A term´eszetes fonol´ ogia termi2 nusaival: szintagmatikai ´es paradigmatikai folyamatok .) A hangs´ uly ´es a hanglejt´es, ´es esetleg m´ as artikul´ aci´ os jegyek is (p´eld´ aul az autoszegment´ alis fonol´ ogia megk¨ ozel´ıt´es´eben), megt¨ orik a linearit´ ast, egy helyett n´eh´ any ”tengelyre” lesz sz¨ uks´eg¨ unk. Ez´ert a fonol´ ogia kimenete, a k´ odolt, k¨ ul¨ on¨ osen pedig a fonetika imm´ ar nem is diszkr´et elemekb˝ ol a ´ll´ o, hanem folytonos kimenete, a megval´ os´ıt´ o, multi- vagy kv´ azi-line´ arisnak nevezhet˝ o. A 4.1 a ´bra foglalja o ¨ssze ezt a folyamatot. 1
Pontosabban sz´ olva: a lek´epez´es inverze lehet˝ oleg ne legyen t¨ obb ´ert´ek˝ u, ´es ha az esetek egy r´esz´eben m´eg t¨ obb ´ert´ek˝ u is, akkor se legyen ”sok” ´ert´ek˝ u. Hiszen a term´eszetes nyelvekben el˝ ofordul a szerkezeti t¨ obb´ertelm˝ us´eg. A ”P´eter ´es J´ anos kuty´ ai” eset´eben nem tudjuk, hogy a ”P´eter + (J´ anos kuty´ ai)” vagy a ”(P´eter ´es J´ anos) kuty´ ai” jelent´esre gondolt az, aki kimondta a szerkezetet. Hasonl´ ok´eppen, ”Az oroszl´ an simogat´ asa vesz´elyes” jelentheti egyszerre azt, ha az oroszl´ an simogat, ´es azt is, ha az oroszl´ ant simogatj´ ak. 2 Ld. Kiefer [1994], p. 39. 13
megval´ os´ıtand´ o (jelent´es) szemantika k´ odoland´ o szintaxis line´ aris k´ od morfofonol´ ogia k´ odolt fonetika megval´ os´ıt´ o (hang-kontinuum) 4.1 a ´bra: A kett˝ os k´ odol´ as szintjei
Fontos megjegyezni, hogy a fenti a ´bra mindk´et ir´ anyba j´ arhat´ o, hiszen a besz´ed´ert´es ´eppen a besz´edprodukci´ oval ellent´etes folyamat. A genetik´ aban m´eg nem ismerj¨ uk kell˝ ok´eppen a r´eszleteket. A ”line´ aris k´ od” szerep´et nyilv´ anval´ oan a DNS-szekvencia t¨ olti be, ez k´ odolja a genetikai inform´ aci´ ot, hogy az a l´etrej¨ ov˝ o feh´erj´ek els˝ odleges, m´ asodlagos ´es harmadlagos szerkezete r´ev´en val´ osuljanak meg. A genetikai inform´ aci´ o, mint ”megval´ os´ıtand´ o”, nyilv´ an meglehet˝ osen komplex. Ebben a k´epben a sejtbiol´ ogia felel meg a szemantik´ anak, hiszen a sejtben lezajl´ o folyamatok, a ”k´ odoland´ ok”, jelentik az els˝ o (utols´ o) l´ep´est az inform´ aci´ o form´ aba o ¨nt´ese fel´e. A genetika (a biol´ ogiai rendszerek szintaxisa) a ´tk´ odolja a ”folyamatokat” DNS- szekvenci´ av´ a. A feh´erje-szint´ezis el˝ obb lok´ alis v´ altoztat´ asokat hajt v´egre (”fonol´ ogia”), p´eld´ aul kihagyja az intronokat 3 , az m-RNS tekinthet˝ o ”k´ odoltnak”, majd a ribosz´ om´ akon ”materializ´ al´ odik” az inform´ aci´ o, ez az utols´ o szakasz (”fonetika”) hozza l´etre a megval´ os´ıtand´ o genetikai inform´ aci´ ot megval´ os´ıt´ o enzimet. Az enzimol´ ogia bez´ arja a k¨ ort, mivel megadja azt, hogy hogyan val´ os´ıtja meg a megval´ os´ıt´ o a megval´ os´ıtand´ ot. Ez a f´ azis a term´eszetes nyelvek eset´en hi´ anyzik, egyed¨ ul a kett˝ os tagol´ ast nem tartalmaz´ o kommunik´ aci´ o (pl. indulatszavak, a ´llati kommunik´ aci´ o, gesztusnyelv,...) l´etezik szoros kapcsolat a hang ´es a jelent´es k¨ oz¨ ott. (A fenti gondolatmenetben meglep˝ o lehetett, hogy a genetik´ at mint a DNS-k´ od tudom´ any´ at eml´ıtettem, ´es p´eld´ aul a feh´erjeszint´ezis kutat´ as´ at kiz´ artam a genetik´ ab´ ol. Lehet, hogy ez nagyon mer´esz l´ep´es, ´es jobb terminusokat kellett volna tal´ alnom, mint p´eld´ aul ”genetikai szintaxis”. De a d¨ ont´esem oka a nyelv´eszeti anal´ ogia volt, ahol chomsky´ anus felfog´ as a szintaxist tekinti a nyelv´eszet magj´ anak. A m´ asik oka az volt, hogy felt´etelezem az eg´esz dolgozatom sor´ an azt, hogy a DNS ”nem-k´ odol´ o” r´eszei val´ oj´ aban nem ”evol´ uci´ os 3
Lehet, hogy ezen transzform´ aci´ ok a transzform´ aci´ os grammatik´ ak analogonjai? A felvet´es val´ osz´ın˝ uleg t´ uls´ agosan messze vezetne, ´es a mai genetikai ismereteink nem teszik lehet˝ ov´e, hogy megalapozott v´ alaszt adjunk erre a k´erd´esre. 14
szem´et”, hanem van szerepe, ´es olyan inform´ aci´ ot k´ odol, ami t´ ulmegy a feh´erj´ek els˝ odleges szerkezet´et k´ odol´ o, ismert mechanizmusokon. Amennyiben t´enyleg ´ıgy lenne, u ´gy a j¨ ov˝ o genetikai kutat´ asai a DNS-k´ od a jelenlegin´el m´elyebb meg´ert´eseit fogj´ ak eredm´enyezni.) Sz´ am´ıt´ og´epes programok eset´en, a gondolatmenet hasonl´ o a fentiekhez. A feladat (a megval´ os´ıtand´ o) megfogalmaz´ asa (k´ odoland´ o) ut´ an, a programoz´ as folyamata nem m´ as, mint egy line´ aris k´ od l´etrehozatala, a sz´ am´ıt´ og´epes nyelv szintaxisa seg´ıts´eg´evel. A fonol´ ogi´ anak tal´ an az algoritmus le´ır´ o nyelv elvont utas´ıt´ asainak k´ odol´ asa jelenti, a programoz´ asi nyelv konkr´et karaktersorozatak´ent. Lok´ alis v´ altoztat´ asokat jelent p´eld´ aul megjegyz´esek besz´ ur´ asa. Ha az algoritmus le´ır´ o nyelv felel meg a Chomsky-f´ele univerz´ alis grammatik´ anak, akkor megfigyelhet˝ o, hogy a szintaxis kisebb, ´es a ”fonol´ ogia” nagyobb r´esze nyelvspecifikus, mind a term´eszetes, mind a sz´ am´ıt´ og´epes nyelvek eset´en. Ez a meglehet˝ osen a ´ltal´ anos´ıt´ o meg´ allap´ıt´ as ´erthet˝ o, ha arra gondolunk, hogy a ”megval´ os´ıtand´ o” m´eg teljesen f¨ uggetlen az alkalmazand´ o nyelvt˝ ol, m´ıg a ”megval´ os´ıt´ ot” a nyelv hozza l´etre. Min´el k¨ ozelebb vagyunk a ”megval´ os´ıt´ ohoz”, ann´ al t¨ obb nyelvspecifikus jelens´egre sz´ am´ıthatunk, mivel a ”megval´ os´ıt´ as” r´eszeredm´enye az adott szinten maga is ann´ al ink´ abb nyelvspecifikus. Hogyan lehet a fenti gondolatmenetet igazolni, honnan tudjuk, hogy ilyen m´ odon magyar´ azhat´ oak a DNS-szekvenci´ ak ´es ´ırott nyelvi sz¨ ovegek elemz´es´en´el tal´ alt hasonl´ o jelens´egek? (Programoz´ asi nyelvekkel a tov´ abbiakban nem foglalkozom.) A megval´ os´ıtand´ o a ´tfogalmaz´ asa k´ odoland´ ov´ a egy logikai strukt´ ura l´etrehoz´ as´ at jelenti. Ez feleltethet˝ o meg a szintaxis a ´ltal haszn´ alt k¨ ornyezetf¨ uggetlen generat´ıv grammatika levezet´esi f´ ainak, gondoljunk csak a fenti, z´ ar´ ojelezett p´eldamondatra. (A levezet´esi f´ ak ekvivalensek a z´ ar´ ojelez´essel.) Ezzel a megfeleltet´essel a dolgozatomban nem foglalkozom r´eszletesen. Teh´ at az elemi o ¨sszetev˝ ok k¨ oz¨ otti komplex strukt´ ur´ ahoz egy-az-egyben rendelhet˝ o levezet´esi fa (parse-tree), melyhez pedig egy-az-egyben (esetleg ”n´eh´ any-azegyben”) rendelhet˝ o egy line´ aris sorrend, adott (r¨ ogz´ıtett) grammatika mellett. Vagyis a generat´ıv grammatika teszi lehet˝ ov´e a nem-line´ aris szerkezet k´ odol´ as´ at line´ aris k´ od form´ aj´ aban. Ez a generat´ıv grammatika viszont nem lehet regul´ aris, hiszen a komplex szerkezet t´ avoli o ¨sszetev˝ ok k¨ oz¨ otti kapcsolatot is lehet˝ ov´e tesz, amelyet v´eges sok a ´llapottal nem lehet elemezni. A gondolatmenetet folytatva, ennek a k¨ ovetkezm´enye az, hogy a szintaxist nem lehet regul´ aris grammatik´ aval le´ırni, legal´ abb k¨ ornyezetf¨ uggetlen nyelvtan kell hozz´ a. ´es az irregularit´ as, azaz a mem´ oria-ig´eny felbukkan´ as´ anak k¨ ovetkezm´enye a hossz´ ut´ av´ u korrel´ aci´ ok megjelen´ese a sz¨ ovegben. (A fenti gondolatmenet matematikai megfogalmaz´ asa hi´ anyzik, de rem´elem, hogy megtehet˝ o.) E ponton kapcsolhat´ o a dolgozatom a statisztikus fizik´ ahoz, hiszen a fizika nyelv´en sz´ olva, komplex strukt´ ur´ ak hossz´ ut´ av´ u korrel´ aci´ ot l´etrehoz´ o mechanizmus´ at vizsg´ alom. A line´ aris k´ od k´ odoltt´ a ´es megval´ os´ıt´ ov´ a t¨ ort´en˝ o transzpon´ al´ asa sor´ an viszont csak r¨ ovidt´ av´ u, lok´ alis (”k´enyelmi”) v´ altoz´ asokat hajtunk v´egre nyelvek eset´en. A genetika nem tud m´eg v´ alaszt adni arra a k´erd´esre, hogy mi´ert van sz¨ uks´eg ezekre a v´ altoztat´ asokra (nem-k´ odol´ o r´eszek kihagy´ asa,...). A programoz´ asi nyelvek eset´en nincs is sz¨ uks´eg ilyen v´ altoztat´ asokra, hiszen − mesters´egesen l´etrehozott nyelvr˝ ol l´ev´en sz´ o − a nyelvet l´etrehoz´ o szem´ely a ´ltal´ aban nem defini´ alt ilyet. Ezek a lok´ alis v´ altoztat´ asok le´ırhat´ ok regul´ aris nyelvvel. Igaz, hogy a szok´ asos fonol´ ogiai formalizmus l´ atsz´ olag nemcsak, hogy nem regul´ aris, hanem nem is k¨ ornyezetf¨ uggetlen, hanem k¨ ornyezetf¨ ugg˝ o, hiszen egy tipikus klasszikus generat´ıv fonol´ ogiai szab´ aly alakja: 15
A → B \ C D, amely a form´ alis nyelvekn´el megszokott alakban fel´ırt CAD → CBD, k¨ ornyezetf¨ ugg˝ o szab´ alynak felel meg. M´egis, a fonol´ ogiai szab´ alyokra, ill. azok m˝ uk¨ od´es´ere a ´ltal´ aban olyan megszor´ıt´ asokat szoktak alkalmazni, amelyek regul´ ariss´ a teszik az a ´ltaluk le´ırt nyelvet (Kaplan & Kay [1994]). A k¨ ovetkez˝ o fejezetben bel´ atjuk, hogy a regul´ aris grammatik´ ak ekvivalensek a Markovmodellekkel, vagyis nem eredm´enyezhetnek hossz´ ut´ av´ u korrel´ aci´ okat. Ezek ut´ an ´erthet˝ ov´e v´ alik, hogy mi´ert vesz´ıtett¨ uk el a hossz´ ut´ av´ u korrel´ aci´ okat a sz¨ ovegek megpermut´ al´ a- sakor: a permut´ aci´ o t¨ onkreteszi szintaxis a nem regul´ aris nyelv´et, ´es csak a sz´ o szint˝ u, r¨ ovid t´ av´ u fonol´ ogiai korrel´ aci´ ok maradtak meg. Mi t¨ ort´enik, amikor c-DNS-t k´esz´ıt¨ unk? Szint´en a ”genetikai fonol´ ogia”, azaz a transkripci´ o eredm´eny´et vizsg´ aljuk, ´es az ezen a szinten m˝ uk¨ od˝ o szab´ alyok m´ ar nem hoznak l´etre hossz´ ut´ av´ u korrel´ aci´ okat. Arra viszont nem tudok v´ alaszt adni, hogy vajon mi´ert sz˝ unnek meg itt a kor´ abban l´etrej¨ ott hossz´ ut´ av´ u korrel´ aci´ ok, holott azok megmaradnak a permut´ alatlan hangsorban. Val´ osz´ın˝ uleg a v´ alaszt csak a DNS-k´ od jobb meg´ert´ese, a ”nem-k´ odol´ o” r´eszek szerep´enek tiszt´ az´ asa adja meg.
5. Sztochasztikus form´ alis nyelvek ´ es Markov-modellek A generat´ıv nyelv´eszet a ´ltal haszn´ alt form´ alis nyelvek elm´elet´enek fentebb ismertetett form´ aja nem teszi lehet˝ ov´e, hogy a korrel´ aci´ ok statisztikus jelens´eg´enek nyelv´eszeti vonatkoz´ asait megvizsg´ alhassuk, vagy a korrel´ aci´ ok l´et´ere nyelv´eszeti magyar´ azatot tal´ aljunk. Ehhez az sz¨ uks´eges, hogy a form´ alis nyelvek elm´elet´et kieg´esz´ıts¨ uk sztochasztikus eszk¨ oz¨ okkel. El˝ osz¨ or a sztochasztikus k¨ ornyezetf¨ uggetlen grammatik´ ak n´even ismert modellt ismertetem, Krenn & Samuelsson [1996] alapj´ an. Majd ennek speci´ alis eset´et, a sztochasztikus regul´ aris grammatik´ akat vizsg´ alom meg, ´es megmutatom kapcsolatukat a Markov-modellekhez.
5.1 Sztochasztikus k¨ ornyezetf¨ uggetlen grammatik´ ak Ha a generat´ıv grammatik´ ak n´egyes´et egy val´ osz´ın˝ us´egi f¨ uggv´ennyel eg´esz´ıtj¨ uk ki, sztochasztikus grammatik´ akat kapunk. Ilyen m´ odon nem csak azt mondhatjuk meg, hogy egy adott mondat vajon eleme-e a grammatika a ´ltal gener´ alt nyelvnek, hanem azt is, hogy milyen val´ osz´ın˝ us´eggel vezethetj¨ uk le az S mondatszimb´ olumb´ ol az adott szekvenci´ at. Ezt a val´ osz´ın˝ us´eget u ´gy ´ertem, hogy amennyiben o ¨sszef˝ uzz¨ uk a ”v´egtelen” sok mondat´ at, azaz k´epez¨ unk egy ide´ alis sz¨ ovegkorpuszt, akkor az adott mondat milyen gyakoris´ aggal fordul el˝ o a korpuszban. Az ide´ alis korpusz j´ o k¨ ozel´ıt´es´et adhatja term´eszetes nyelvek eset´en egy k¨ onyv (pl. egy reg´eny), a ”DNS-nyelv” eset´en pedig a DNS-szekvenci´ akat tartalmaz´ o adatb´ azisokat fogom ilyen korpusznak tekinteni. (Term´eszetes, hogy a v´ alasztott korpusz befoly´ asolhatja a val´ osz´ın˝ us´egeket. P´eld´ aul az ”A Maxwell-egyenletek nem invari´ ansak a Galilei-transzform´ aci´ ora.” mondat val´ osz´ın˝ us´ege 16
nyilv´ anval´ oan m´ as a Fizikus Tansz´ekcsoport k¨ onyvt´ ari anyag´ ab´ ol k´epezett korpuszban, mint a Csepeli F´emm˝ uvek dolgoz´ oi a ´ltal 1996. sor´ an kiejtett mondatok, mint korpusz eset´eben. De ez nem zavar benn¨ unket, hiszen a nyelv´eszek gyakran k´enyszer¨ ulnek le´ır´ asaikat egy sz˝ ukebb k¨ orre, p´eld´ aul a magyar nyelv eset´eben a ”budapesti k¨ oznyelvre”, lesz˝ uk´ıteni. A val´ osz´ın˝ us´egek egy r´esz´enek korpusz-v´ alaszt´ ast´ ol val´ o f¨ ugg´es´et ez´ert szociolingvisztikai k´erd´esnek tekinthetj¨ uk. Enn´el nehezebb k´erd´es az, hogy mik´ent defini´ alhatunk egy k¨ ozel ide´ alis korpuszt. Nyilv´ an ilyen lenne a budapesti k¨ oznyelv eset´en a k¨ ovetkez˝ o meghat´ aroz´ as: ”az 1996. december 31-´en 18. ´elet´ev¨ uket bet¨ olt¨ ott, ´eretts´egizett, magyar anyanyelv˝ u budapesti lakosok a ´ltal 1997. sor´ an kiejtett mondatok.” Viszont ezen korpusz k´ıs´erletileg nem vizsg´ alhat´ o. Amennyiben viszont az 1980-as ´evekben megjelent sajt´ oterm´ekek korpusz´ at tekintj¨ uk, az anyag ink´ abb az irodalmi, mintsem a k¨ oznyelvi a ´llapotokat fogj´ ak t¨ ukr¨ ozni. Term´eszetesen, ennek a vizsg´ alata is ´erdekes lehet.) 5. Defin´ıci´ o: Sztochasztikus k¨ ornyezetf¨ uggetlen grammatik´ anak (Stochastic Contextfree Grammar, SCFG) nevezz¨ uk az (VN , VT , S, R, P ) o ¨t¨ ost, ahol: VN a nemtermin´ alisok v´eges halmaza, VT a termin´ alisok v´eges halmaza (legyen u ´jb´ ol V := VN ∪ VT ), S ∈ VN a nemtermin´ alisok k¨ oz¨ ul a kit¨ untetett mondatszimb´ olum, R az X → Q alak´ u levezet´esi szab´ alyok egy v´eges halmaza, ahol X ∈ V N ´es Q ∈ V ∗ , P pedig egy R → [0, 1] f¨ uggv´eny oly m´ odon, hogy ∀X ∈ VN :
X
Q∈V ∗
P (X → Q) = 1.
A P (X → Q) val´ osz´ın˝ us´eg azt jelenti, hogy ha egy levezet´esi l´ ancban megjelenik egy X nemtermin´ alis, azt milyen val´ osz´ın˝ us´eggel fogjuk Q-k´ent u ´jra´ırni. Ezek ut´ an, egy levezet´esi l´ anc, ill. levezet´esi fa val´ osz´ın˝ us´eg´et u ´gy defini´ alhatjuk, mint az alkalmazott helyettes´ıt´esi (´ ujra´ır´ o) szab´ alyokhoz rendelt val´ osz´ın˝ us´egek szorzat´ at. Valamely mondat val´ osz´ın˝ us´ege pedig a hozz´ atartoz´ o levezet´esi f´ ak (parse trees) val´ osz´ın˝ us´egeinek az o ¨sszege lesz. A m´ odszer a sz´ am´ıt´ og´epes nyelv´eszetben hasznos elemz˝ o automat´ ak (parser-ek) fut´ asi idej´enek optimaliz´ al´ as´ ara. Ha a korpuszt u ´gy tekintj¨ uk, mint nagy sz´ am´ u, egym´ as mell´e ´ırt mondatszimb´ olumb´ ol (”poli-S l´ ancb´ ol”) levezetett sztring, u ´gy l´ athat´ o a kapcsolat a korpuszb´ ol sz´ am´ıtott emp´ırikus gyakoris´ ag ´es a fentebb bevezetett elm´eleti val´ osz´ın˝ us´eg k¨ oz¨ ott. Mivel a DNS-szekvenci´ akkal ´es term´eszetes nyelveken ´ırt sz¨ ovegekkel foglalkoz´ o fizikusok egyik r´egi ´erdekl˝ od´esi ter¨ ulete a Zipf-t¨ orv´eny: Zipf-t¨ orv´eny: Ha o ¨sszesz´ amoljuk egy adott sz¨ ovegben a k¨ ul¨ onb¨ oz˝ o szavak el˝ ofordul´ asi gyakoris´ ag´ at, majd a cs¨ okken˝ o gyakoris´ ag szerint sorba rendezz¨ uk o ˝ket, akkor a sorrendben elfoglalt R hely f¨ uggv´eny´eben a ´br´ azolva az ω(R) gyakoris´ agot (frekvenci´ at), egy, k¨ ozel´ıt˝ oleg −1 exponenssel jellemezhet˝ o hatv´ anyf¨ uggv´enyt kapunk. (Zipf, [1935, 1949], Czir´ ok[1995, 1996], Kanter & Kessler [1994]) ´en az egyes termin´ alisok el˝ ofordul´ asi val´ osz´ın˝ us´eg´ere voltam k´ıv´ ancsi egy korpuszban, azaz mondatok l´ anc´ aban. Ez´ert v´egeztem el a k¨ ovetkez˝ o sz´ amol´ ast: v S (a)-val jel¨ ol¨ om azt, hogy 17
az a ∈ VT termin´ alis v´ arhat´ oan h´ anyszor fordul el˝ o egy S-b˝ ol levezethet˝ o mondatban 1 : X σ vS (a) := , pS (σ) a ∗ σ∈VT
ahol pS (σ) jel¨ oli a σ ∈ VT∗ mondat fentebb bevezetett val´ osz´ın˝ us´eg´et, σa pedig az a termin´ alisok sz´ am´ at a σ mondatban. (Megjegyzem, hogy hab´ ar form´ alisan nem l´ atom be, de ezen v´egtelen szumm´ anak konvergensnek kell lennie. Hiszen fel¨ ulr˝ ol becs¨ ulhet˝ o a mondatok hossz´ anak v´ arhat´ o ´ert´ek´evel, amely viszont v´eges, hiszen en´elk¨ ul a kommunik´ aci´ o nem lenne elk´epzelhet˝ o.) A benn¨ unket ´erdekl˝ o vS (a) v´ arhat´ o ´ert´ekn´el t¨ obbet fogunk kisz´ am´ıtani a SCFG param´etereib˝ ol, azaz a P val´ osz´ın˝ us´egf¨ uggv´enyb˝ ol. Jel¨ olje pA (σ) b´ armely A ∈ VN nemtermin´ alisra annak a val´ osz´ın˝ us´eg´et, hogy A-b´ ol a σ ∈ VT∗ sztringet vezetj¨ uk le: az A gy¨ oker˝ u, σ-t eredm´enyez˝ o 2 levezet´esi f´ ak val´ osz´ın˝ us´egeinek footnote Az ilyen f´ ak val´ osz´ın˝ us´eg´et szint´en az alkalmazott levezet´esi szab´ alyok val´ osz´ın˝ us´egeinek a szorzatak´ent sz´ am´ıthatjuk ki, ak´ arcsak az S gy¨ oker˝ u f´ ak eset´en. az o ¨sszeg´et. ´es jel¨ olje vA (a) annak a v´ arhat´ o ´ert´ek´et, hogy az A-b´ ol sztringekben h´ anyszor szerepel az a termin´ alis: X σ vA (a) := . (5.1) pA (σ) a ∗ σ∈VT
Ezek a vA (a)-k egy v(a) vektornak a komponensei, amely egy, a VN elemeinek a sz´ am´ aval megegyez˝ o dimenzi´ oj´ u t´erben van. A pa (σ) a ´t´ır´ as´ ahoz be kell vezetni a Chomsky-f´ele norm´ alalak fogalm´ at. Bel´ athat´ o (pl. ld. R´ev´esz [1979], SCFG-re Krenn & Samuelsson [1996]), hogy b´ armely k¨ ornyezetf¨ uggetlen grammatik´ ahoz l´etezik olyan Chomsky-f´ele norm´ alalakban megadott grammatika (Chomsky Normal Form, CNF), amely ugyanazt a nyelvet gener´ alja, ´es amelynek a szab´ alyai A → BC vagy A→a alak´ uak, ahol A, B, C ∈ VN ´es a ∈ VT . Tetsz˝ oleges SCFG-hez is adhat´ o meg olyan SCFG, amelynek R-je CNF-alak´ u levezet´esi szab´ alyokat tartalmaz, ´es amely minden sztringet ugyanolyan val´ osz´ın˝ us´eggel gener´ al, mint az eredeti SCFG. Defini´ aljuk m´eg a π(a) vektort ´es a µ m´ atrixot:
µAB
πA (a) := P (A → a) i X h := P (A → BC) + P (A → CB) C∈VN
1
Az al´ abbiakban a kisbet˝ uk mindig termin´ alisra, a nagybet˝ uk nemtermin´ alisra, m´ıg a g¨ or¨ og bet˝ uk termin´ alisokb´ ol a ´ll´ o sztringre fognak utalni. 18
Amikor az A-b´ ol akarom levezetni a σ-t egy CNF alak´ u grammatik´ aban, k´et lehet˝ os´egem van az elindul´ asra: amennyiben a σ egyetlen a termin´ alisb´ ol a ´ll, u ´gy az A → a szab´ alyt kell alkalmaznom, egy´ebk´ent pedig az A-t egy A → BC szab´ allyal ´ırom u ´jra, ´es B-b˝ ol levezetem σ1 -et, C-b˝ ol σ2 -t, ahol σ = σ1 σ2 alak´ u (e kett˝ o konkaten´ aci´ oja). Ennek megfelel˝ oen:
pA (σ) =
X
b∈VT
P (A → a)δσ,b +
X
X
B,C∈VN σ1 ,σ2 ∈VT∗ σ=σ1 σ2
P (A → BC)pB (σ1 )pC (σ2 )
(5.2)
(A δσ,b szimb´ olum a megszokott Kronecker-delt´ at jel¨ oli.) Ha be´ırjuk a (5.2) egyenletet (5.1)-be, u ´gy bizonyos egyszer˝ us´ıt´esekre lesz lehet˝ os´eg¨ unk, a k¨ ovetkez˝ o h´ arom o ¨sszef¨ ugg´es felhaszn´ al´ as´ aval: b = δb,a a X pC (σ) = 1
σ∈VT∗
σ σ1 σ2 = + a a a Az eredm´eny a k¨ ovetkez˝ o lesz: vA (a) = πA (a) +
X
B,C∈VN
P (A → BC)(vB (a) + vC (a)),
amelyb˝ ol: vA (a) = πA (a) +
X
vB (a)µAB ,
B∈VN
vagyis: v(a) = π(a) + µv(a).
(5.3)
A (5.3) o ¨sszef¨ ugg´es a ´trendez´es´evel a SCFG param´etereib˝ ol ki tudjuk sz´ am´ıtani a Zipft¨ orv´enyben szerepl˝ o frekvenci´ akat. Ehhez az sz¨ uks´eges, hogy az 1 − µ m´ atrix invert´ alhat´ o legyen, de ezzel az´ert nincs baj, mert a µ elemeire nincsen semmif´ele megk¨ ot´es (π(a) kis megv´ altoztat´ as´ ara µ is megv´ altozik), vagyis kis perturb´ aci´ oval megsz¨ untethet˝ o egy esetleges szingularit´ as.
5.2 Sztochasztikus regul´ aris nyelvtanok ´ es a Markov-modell Az el˝ oz˝ o r´eszben bevezetett SCFG speci´ alis esete az, ha nem csup´ an a k¨ ornyezetf¨ uggetlens´eget, hanem a regularit´ ast is kik¨ otj¨ uk. Jelen fejezetben az 5. defin´ıci´ o szerinti P val´ osz´ın˝ us´eggel kib˝ ov´ıtett sztochasztikus regul´ aris nyelvtanokra (SRG) fogom bel´ atni, hogy helyettes´ıthet˝ ok 19
Markov-modellekkel. (A Markov-folyamat fogalm´ at nem defini´ alom, mivel a fizikusok ”m˝ uvelts´eg´ebe” beletartozik. J´ o ´es t¨ om¨ or le´ır´ asa megtal´ alhat´ o Krenn & Samuelsson [1996]ban.) El˝ olj´ ar´ oban megjegyzem, hogy egy regul´ aris korpusz, pontosabban sz´ olva: egy regul´ aris nyelv mondataib´ ol o ¨sszef˝ uz¨ ott sz¨ oveg maga is tekinthet˝ o egyetlen regul´ aris mondatnak. 2 Elegend˝ o, ha az eredeti generat´ıv grammatika minden A → a alak´ u, mondatgener´ al´ ast lez´ ar´ o szab´ alya mell´e felvesz¨ unk egy A → aS szab´ alyt is, mely az el˝ oz˝ o mondatot lez´ arja, ´es egy u ´jat kezd el, a sz¨ oveg k¨ ovetkez˝ o mondat´ at. Teh´ at, ha egy mondat-l´ anc regularit´ as´ at vizsg´ aljuk, nyugodtan tekinthetj¨ uk az eg´eszet egyetlen mondatnak. (Olyan ez, mintha pontok hely´ere pontosvessz˝ oket tenn´enk.) El˝ osz¨ or, ´erts¨ uk meg, miben k¨ ul¨ onb¨ ozik egy Markov-modell egy SRG-t´ ol, illetve az azzal ekvivalens v´eges a ´llapot´ u automat´ at´ ol, amennyiben az ut´ obbit szint´en felruh´ azzuk a ´tmeneti val´ osz´ın˝ us´egekkel. Mindkett˝ o egy v´eges a ´llapothalmazb´ ol vett a ´llapotok sorozat´ an halad kereszt¨ ul, k´et a ´llapot k¨ oz¨ otti a ´tmenet sor´ an kibocs´ at egy-egy jelet, ´es az a ´tmenetek, ill. a jelkibocs´ at´ as bizonyos val´ osz´ın˝ us´eggel k¨ ovetkezik be. Viszont, m´ıg a Markov-modell eset´en f¨ uggetlen a jelkibocs´ at´ as az a ´tmenett˝ ol, addig a SRG eset´eben a kett˝ o egy¨ utt k¨ ovetkezik be: P (A → aB) annak a val´ osz´ın˝ us´ege, hogy az automata az A a ´llapotb´ ol a B a ´llapotba megy a ´t, mik¨ ozben az a jelet bocs´ atja ki. M´ as szavakkal: az SRG ”´elcimk´ezett” (arc-labeled), m´ıg a Markov-modell ”´ allapotcimk´ezett” (state-labeled), vagyis a SRG-n´ al (azaz a v´eges a ´llapot´ u automat´ an´ al, finite state automaton, FSA) a kibocs´ atott jel (a ”cimke”) az a ´llapotok k¨ oz¨ otti ´elhez kapcsol´ odik, m´ıg a Markov-modellekn´el mag´ ahoz az a ´llapotokhoz. Viszont tudjuk, hogy a ”state-labeled” ´es az ”arc-labeled” automat´ ak ekvivalensek (ld. pl. Bird & Ellison [1994]). Ennek felel meg a k¨ ovetkez˝ oa ´ll´ıt´ as a sztochasztikus automat´ akra (nyelvekre, modellekre) 3 : ´ ıt´ All´ as: Minden sztochasztikus regul´ aris nyelv megval´ os´ıthat´ o Markov-modellel. A bizony´ıt´ as sor´ an megkonstru´ aljuk a megfelel˝ o Markov-modellt. A Markov-modell a ´llapotai k¨ oz¨ ott egyr´eszt megtal´ aljuk a SRG nemtermin´ alisainak (a v´eges a ´llapot´ u automata a ´llapotainak) megfelel˝ oa ´llapotokat, m´ asr´eszt a SRG minden helyettes´ıt´esi szab´ aly´ anak is megfelel egy a ´llapot. El˝ obbieket nevezz¨ uk primer, ut´ obbiakat pedig szekunder a ´llapotnak. A Markov-modell kimen˝ oa ´b´ec´eje term´eszetes m´ odon megegyezik az SRG termin´ alisaival (a le´ırand´ o nyelv a ´b´ec´ej´evel), illetve tartalmaz m´eg egy λ elemet is, melynek jel¨ ol´es´ere nem v´eletlen¨ ul v´ alasztottam a lambd´ at, hiszen sokan ezt haszn´ alj´ ak az u ¨res sz´ o jel¨ ol´es´ere (amire mi az e-t v´ alasztottuk): a λ szerepe az lesz, hogy ignor´ aljuk o ˝t. Meg kell m´eg adnunk a Markov-modell a ´tmeneti val´ osz´ın˝ us´egeit ´es a jel-kibocs´ at´ asi val´ osz´ın˝ us´egeit. Primer a ´llapotb´ ol csak szekunder a ´llapotba, szekunder a ´llapotb´ ol csak primerbe mehet¨ unk a ´t nem-z´erus val´ osz´ın˝ us´eggel. Az A nemtermin´ alisnak megfelel˝ oa ´llapotb´ ol a B → aC a ´llapotba val´ oa ´tmenet val´ osz´ın˝ us´ege δA,B P (B → aC). A B → aC a ´llapotb´ ol az Aa ´llapotba pedig: δC,A . Primer a ´llapotban 1 val´ osz´ın˝ us´eggel bocs´ atja ki a Markov-modell a λ jelet (m´ as olvasat szerint: nem bocs´ at ki jelet), m´ıg minden m´ ast z´erus val´ osz´ın˝ us´eggel. Amikor a Markov-modell a ´ltal gener´ alt jelsorozatot vizsg´ aljuk, egyszer˝ uen figyelmen k´ıv¨ ul Azaz, ha L regul´ aris nyelv, akkor L∗ is regul´ aris, ld. R´ev´esz [1979], 2.2 t´etel. 3 A Markov-modell l´enyeg´eben egy visszafele m˝ uk¨ od˝ o, sztochasztikus eszk¨ oz¨ okkel kib˝ ov´ıtett state-labeled automaton. 2
20
hagyjuk a p´ aratlan helyeken megjelen˝ o λ-kat. Az igazi jelet a szekunder a ´llapotokban bocs´ atja ki, a B → aC szab´ alynak megfelel˝ o a ´llapotban egyed¨ ul az a jelet bocs´ atja ki nem-z´erus val´ osz´ın˝ us´eggel (1 val´ osz´ın˝ us´eggel). K¨ onnyen l´ athat´ o, hogy az ´ıgy v´ azolt Markov-modell ekvivalens az eredeti SRG-val, ha eltekint¨ unk a λ-k gener´ al´ as´ at´ ol, valamint a SRG-t a ´talak´ıtjuk a fejezet elej´en eml´ıtett m´ odon mondatsorozat (sz¨ oveg) gener´ al´ as´ ara, ´es ”v´egtelen´ıtj¨ uk” a m˝ uk¨ od´es´et. (Nem haszn´ aljuk az A → a alak´ u szab´ alyokat; ill. a haszn´ alatuk a Markov-modellt egy v´eg´ allapotba viszi, ahol meg´ all a m˝ uk¨ od´ese.) A Markov-modell k´et l´ep´esben teszi meg ugyan azt, ´es ugyan olyan val´ osz´ın˝ us´eggel, mint amit a SRG egy gener´ al´ asi l´ep´es alatt, illetve az SRG-vel ekvivalens v´eges a ´llapot´ u automata egy l´ep´es alatt. Ezek ut´ an o ¨sszefoglalhatjuk eddigi eredm´enyeinket: a form´ alis nyelvek elm´elete alkalmas egy sor jelens´egk¨ or le´ır´ as´ ara (term´eszetes nyelvek, programoz´ asi nyelvek, val´ osz´ın˝ uleg a DNS ´es a feh´erj´ek szerkezet´enek le´ır´ as´ ara is). A form´ alis nyelvek elm´elet´et kib˝ ov´ıtve sztochasztikus m´ odszerekkel, azt kaptuk, hogy a regul´ aris grammatik´ ak ekvivalensek a Markov-modellekkel. Mivel a Markov-l´ ancok, ´es ´ıgy a Markov-modellek sem, k´epesek hossz´ ut´ av´ u korrel´ aci´ ok produk´ al´ as´ ara, bizony´ıtottnak vehetj¨ uk, hogy azok a jelens´egek, amelyekn´el hossz´ ut´ av´ u korrel´ aci´ okat ´eszleltek (intront tartalmaz´ o DNS-ek, term´eszetes nyelvi sz¨ ovegek a sz´ o szintje f¨ ol¨ ott,...) nem elemzhet˝ oek regul´ aris grammatik´ akkal. Ez a szintaxis eset´en nem u ´jdons´ ag, hiszen m´ ar Chomsky [1957] is emellett ´ervel. A genetik´ aban b´ armely elm´eletnek, mely az intronok szerep´ere vonatkozik, o ¨sszhangban kell lennie ezzel az elm´elettel (Mantegna et al. [1995a]). Azok a szintek, amelyek nem mutattak hossz´ ut´ av´ u korrel´ aci´ okat (fonol´ ogia, c-DNS-ek,...) viszont esetleg le´ırhat´ ok regul´ aris eszk¨ oz¨ okkel, mint ahogy a fonol´ ogia eset´eben t¨ ort´entek is erre m´ ar k´ıs´erletek. A k¨ ovetkez˝ o k´et fejezetben bemutatand´ o ”vektort´er-technika” − M. Damashek [1995], az alap¨ otlet kidolgoz´ oja nevezte −, a szimb´ olumsorozatok regul´ aris viselked´es´et veszi k¨ ozelebbr˝ ol szem¨ ugyre.
6. n-grammok ´ es fonotaktika Az elm´ ult ´evekben egyre t¨ obb algoritmus sz¨ uletik sz¨ ovegek automatikus szelekt´ al´ as´ ara: p´eld´ aul egy h´ır¨ ugyn¨ oks´eg sz´ am´ ara nagyon hasznos lenne, ha a befut´ o h´ıreket emberi beavatkoz´ as n´elk¨ ul lehetne nyelv ´es t´emak¨ or szerint csoportos´ıtani. Damashek [1995] ´eppen egy ilyen algoritmusra tesz javaslatot, melyet o ˝ Acquaintancenek nevez. Ennek az algoritmusnak a l´enyege az, hogy a sz¨ ovegekb˝ ol vektort k´esz´ıt, majd a vektorok skal´ aris szorzata jellemz˝ o a vektorok, azaz a sz¨ ovegek hasonl´ os´ ag´ ara. K´epzelj¨ uk el, hogy egy n hossz´ us´ ag´ u ablakot (n = 3..6) mozgatunk v´egig a sz¨ ovegen, karakterr˝ ol karakterre. A k¨ ul¨ onb¨ oz˝ o lehets´eges karakter-n-eseket indexelj¨ uk i = 1..J -vel. Jel¨ olj¨ uk mi -vel az i-ik karakter-n-es el˝ ofordul´ asainak a sz´ am´ at. A sz¨ ovegb˝ ol k´epezett x vektor i-ik komponens´et ´eppen az mi lenorm´ al´ as´ ab´ ol kapott frekvenciak´ent k´epezz¨ uk: mi xi := PJ
j=1 mj
21
(6.1)
Damashek praktikus tan´ acsot is ad ezen vektor gyors ´es mem´ oriatakar´ekos kisz´ am´ıt´ as´ ara: el´egs´eges csup´ an a z´erust´ ol k¨ ul¨ onb¨ oz˝ o vektorkomponenseket t´ arolni; a vektort pedig u ´gy a ´ll´ıthatjuk el˝ o, hogy a karakterszekvenci´ ab´ ol k´epezz¨ uk az n-esek szekvenci´ aj´ at, majd egy hat´ekony rendez´esi algoritmussal rendezz¨ uk ezt a szekvenci´ at, ´es ezt k¨ ovet˝ oen el´eg o ¨sszesz´ amolni, mely n-esb˝ ol mennyi van a sz¨ ovegben. A k´et sz¨ ovegb˝ ol ilyen m´ odon k´epezhet˝ o vektorok, x ´es y, skal´ aris szorzata jellemzi a sz¨ ovegek hasonl´ os´ ag´ at: PJ
xj y j 1/2 = cos θ PJ 2 2 j=1 yj j=1 xj
S= PJ
j=1
(6.2)
K¨ onnyen bel´ athat´ o, hogy a d(x, y) := 1 − S t´ avols´ ag egy metrik´ at defini´ al a vektorok ter´eben, azaz j´ o t´ avols´ agfogalom a sz¨ ovegek k¨ oz¨ ott. (Att´ ol a val´ osz´ın˝ utlen esett˝ ol eltekintve, amikor k´et k¨ ul¨ onb¨ oz˝ o sz¨ oveg ugyanarra a vektorra k´epezhet˝ o le.) Ez a szorzat els˝ osorban a sz¨ ovegek nyelv szerinti sz´etv´ alaszt´ as´ ara alkalmas, de szerencs´es esetben az azonos nyelv˝ u sz¨ ovegek t´ema szerinti sz´etv´ alaszt´ asa is lehets´eges szerencs´es esetben. Saj´ at magam p´eld´ aul o ¨t, fizikai t´em´ aja angol e-mailb˝ ol (Ph1-Ph5), h´ arom szint´en angol nyelv˝ u, de m´ as t´em´ aj´ u e-mailb˝ ol (E1-E3), k´et francia lev´elb˝ ol (Fr1-Fr2) ´es h´ arom magyar nyelv˝ u, mag´ anjelleg˝ u e-mailb˝ ol (H1-H3) a ´ll´ o korpuszt vizsg´ altam. Azt egyes sz¨ ovegek hossza 3400 ´es 6000 karakter k¨ oz¨ ott van, kiv´eve a k´et francia levelet, amelynek hossza csup´ an 1000 - 1200 karakter. Az angol a ´b´ec´e 26 bet˝ uj´et, a pontot, a vessz˝ ot, valamint az u ¨res helyet vettem figyelembe. A t¨ obbi karaktert ignor´ altam, kis- ´es nagybet˝ u k¨ oz¨ ott, ill. ´ekezetes ´es ´ekezet n´elk¨ uli bet˝ u k¨ oz¨ ott pedig nem tettem k¨ ul¨ onbs´eget. A t¨ obb u ¨res helyb˝ ol a ´ll´ o szekvenci´ akat el˝ oz˝ oleg t¨ or¨ olni kell. Eredm´enyeimet n = 3-ra ´es n = 4-re az 6.1, ill. a 6.2 t´ abl´ azat tartalmazza. (Damashek a m´ odszert tov´ abbfejleszti. Bevezet u ´n. centroid vektorokt, amely egy sz¨ ovegcsokor (p´eld´ aul az angol nyelv˝ u sz¨ ovegek, vagy az angol nyelv˝ u, sz´ am´ıt´ astechnikai t´em´ aj´ u sz¨ ovegek) vektorainak az a ´tlaga. Ezt a vektort levonva a sz¨ ovegek vektoraib´ ol, kitranszform´ alhat´ oak a sz¨ ovegcsokor k¨ oz¨ os jellemz˝ oi, p´eld´ aul az adott nyelv funkcion´ alisgrammatikai szavaib´ ol ad´ od´ o jellegzetess´egek (a magyar eset´en pl. az ” a ” h´ armas vagy az ” az ” n´egyes). Ilyen m´ odon, a sz¨ ovegek finomabb csoportos´ıt´ asa is lehets´eges. Damashek javasol praktikus o ¨tleteket a statisztikus hib´ ak kiker¨ ul´es´ere is.) A k´et t´ abl´ azat adatai k¨ oz¨ ott szignifik´ ansan magasabbak az azonos nyelv˝ u sz¨ ovegek vektoraib´ ol k´epezett vektorok szorzatai, mint a k¨ ul¨ onb¨ oz˝ o nyelv˝ uek szorzatai. A k´et, k¨ ul¨ onb¨ oz˝ o t´em´ aj´ u angol sz¨ ovegcsokor is elk¨ ul¨ on¨ ul egym´ ast´ ol: a Ph-sz¨ ovegek (pl. n = 3-ra a Ph-sz¨ ovegek egym´ as k¨ oz¨ otti szorzata: 0, 79 ± 0, 024) ill. az E-sz¨ ovegek szorzata (0, 80 ± 0, 015) magasabb, mint egy E- ´es egy Ph-sz¨ oveg szorzata(0, 68 ± 0, 03). Ezt k¨ ovet˝ oen, o ¨sszef˝ uztem mind a n´egy sz¨ ovegt´ıpusb´ ol n´eh´ any sz¨ oveget, egyetlen 1 f˝ uz´err´e. Egy m = 100 hossz´ us´ ag´ u dobozt mozgattam v´egig ezen a f˝ uz´eren, ´es a doboz 1
A file szerkezete: 0-6775. karakter: Ph-t´ıpus; 6776-13551. karakter: E-t´ıpus; 1355223219. karakter: Ph-t´ıpus; 23220-25862. karakter: H-t´ıpus; 25863-32319. karakter: Pht´ıpus; 32320-35178. karakter: Fr-t´ıpus. 22
´eppen aktu´ alis tartalm´ ab´ ol k´epezett vektort (n = 3) o ¨sszeszoroztam a f˝ uz´er elej´eb˝ ol (06775. karakterek k¨ oz¨ otti Ph-sz¨ ovegekb˝ ol) k´epezett vektorral. Az eredm´enyek az 6.1. a ´br´ an l´ athat´ oak: a f˝ uz´er angol ´es nem angol nyelv˝ u r´eszei ´elesen k¨ ul¨ onv´ alnak. Az eredm´eny magyar´ azata ott keresend˝ o, hogy k¨ ul¨ onb¨ oz˝ o nyelvekre k¨ ul¨ onb¨ oz˝ o karakterszekvenci´ ak jellemz˝ oek. P´eld´ aul az angol nyelv˝ u sz¨ ovegekben, az n = 3 esetben kiugrik a ”the” karakterh´ armas: gondoljunk a hat´ arozott n´evel˝ on k´ıv¨ ul a n´evm´ asokra (”they”, ”their”, ”them”, ”these”, ”there”, stb.). V´elem´enyem szerint, ez a jelens´eg r´eszben ortogr´ afiai okora megy vissza (pl. az ”sz” p´ ar csak az´ert jellemz˝ o a magyar sz¨ ovegekre, mert a magyar helyes´ır´ as ´ıgy jel¨ oli a fonetikai [s] hangot). M´ asr´eszt, igazi nyelv´eszeti okokat is tal´ alhatunk, hiszen az ´ırott sz¨ oveg r´eszben t¨ ukr¨ ozi a kiejtett sz¨ oveg fonol´ ogiai jellemz˝ oit. A Damashek-f´ele vektorok jellegzetess´egei r´eszben a nyelv fonotaktik´ aj´ ara mennek vissza. A fonotaktika a fonol´ ogia azon a ´ga, amely a fon´em´ ak lehets´eges kapcsolatait vizsg´ alja a c´elnyelvben (Kiefer, [1994], 4. fejezet). P´eld´ aul az ∗ b´ ard´ as sz´ o nem l´etezik a magyar nyelvben, de nem ´erezz¨ uk idegennek, ”ak´ ar l´etezhetne is”, hiszen megfelel a magyar nyelv fonotaktikai szab´ alyainak. Szemben az el˝ odordul´ o, de nem j´ olform´ alt g¨ orl (pl. show-girlo ¨k) sz´ oval. A fonotaktika jellegzetesen ”regul´ aris” vizsg´ al´ od´ asi ter¨ ulet. A fonotaktikai megszor´ıt´ asok fel´ırhat´ ok regul´ aris grammatik´ ak form´ aj´ aban, melyek megengedik a j´ olform´ alt alakokat, ´es kiz´ arj´ ak a nem j´ olform´ altakat. 23
A fonotaktikai elemz´esek sor´ an gyakran alkalmaznak a nyelv´eszek kisebb ”csal´ asokat”. El˝ ofordul´ o alakokat n´eha nem-j´ olform´ altnak tekintenek: ritk´ an el˝ ofordul´ o, idegen hangz´ as´ u szavak (pl. nganasz´ an [szamoj´ed nyelv neve], scs´ı, f´ ajl) eset´en m´eg ki lehet magyar´ azni azzal, hogy felejts¨ uk el o ˝ket. De a barack, recept, teremt szavak eset´en m´ ar nincs ilyen egyszer˝ u dolgunk. A ”csal´ asok” m´ asik r´esze az, amikor neml´etez˝ o hangkapcsolatokat j´ olform´ altnak tekint¨ unk az elemz´es egyszer˝ us´ıt´ese miatt, ´es csup´ an ”v´eletlen hi´ anynak” tekintj¨ uk azt, hogy p´eld´ aul y a magyarban nincsen [t a]-val kezd˝ od˝ o sz´ o. Ezen hi´ anyokat ”´erz´es” alapj´ an tekintj¨ uk helyesnek, de mit jelent az, hogy ”v´eletlen hi´ any”? Ez´ert javaslom a fonotaktika sztochasztikus megk¨ ozel´ıt´es´et: eg´esz´ıts¨ uk ki a fonotaktika regul´ aris grammatik´ aj´ at sztochasztikus eszk¨ oz¨ okkel, azaz t´erj¨ unk a ´t Markov-modellre. Ilyen megk¨ ozel´ıt´esben, j´ olform´ alt az az alak, amelynek nagy val´ osz´ın˝ us´eget j´ osol a modell, a nem-j´ olform´ alt alakokhoz pedig elhanyagolhat´ o (z´erus) val´ osz´ın˝ us´eget rendel¨ unk. A ”csal´ asok” magyar´ azhat´ oak az elm´eleti val´ osz´ın˝ us´eg k¨ or¨ uli statisztikus sz´ or´ assal. Az agrammatikus, el˝ ofordul´ o alak olyan szekvenci´ anak felel meg, amely az elm´elet a ´ltal j´ osolt val´ osz´ın˝ us´egn´el nagyobb gyakoris´ aggal fordul el˝ o, m´ıg a v´eletlen hi´ anyok a sz´ am´ıtottn´ al alacsonyabb gyakoris´ agot jelent. A fonotaktika sztochasztikus megk¨ ozel´ıt´ese j´ olform´ alts´ agi fokozatok megk¨ ul¨ onb¨ oztet´es´et teszi lehet˝ ov´e. P´eld´ aul a [ck#] sz´ ov´eget kev´esb´e ´erezz¨ uk nem-j´ olform´ altnak, mint a [#ng] sz´ okezdetet. Az el˝ obbi t¨ obb, ´es gyakoribb szavakban fordul el˝ o (barack, palack, tarack,...), 24
mint az ut´ obbi (nganasz´ an). A sztochasztikus modellek ezen fokozatok le´ır´ as´ at lehet˝ ov´e teszik. Egy megjegyz´es a gyakoris´ agok meghat´ aroz´ as´ ar´ ol. A nyelv´eszek a ´ltal´ aban ”lexiconbased” statisztik´ akat haszn´ alnak, mivel o ˝ket csak az ´erdekli, vajon egy alak el˝ ofordul-e vagy sem (ld. pl. a Kiefer [1994] 4. fejezet´eben haszn´ alt 80 000 t´etelb˝ ol a ´ll´ o adatb´ azist). Ezzel szemben, a Damashek-f´ele m´ odszer u ´n. ”corpus-based” elj´ ar´ as, hiszen a sz¨ ovegben gyakrabban el˝ ofordul´ o szavak, hangkapcsolatok nagyobb s´ ullyal szerepelnek. Ennek el˝ onye az, hogy k¨ ul¨ onbs´eget tud tenni p´eld´ aul a [#ng] sz´ okezdet ´es a [mt#] sz´ ov´eg k¨ oz¨ ott: hab´ ar mindkett˝ ot agrammatikusnak tartj´ ak az elemz´esek, mivel mindkett˝ o csup´ an egyetlen mag25
yar sz´ oban fordul el˝ o (nganasz´ an, ill. teremt), de az ut´ obbi sokkal gyakrabban fordul el˝ oa korpuszokban, ´es az anyanyelvi besz´el˝ o ´es ´erzi a k´et alak k¨ oz¨ otti j´ olform´ alts´ agi fokozatot. Tegy¨ uk fel, hogy a nyelv¨ unk fonotaktik´ aj´ at le tudjuk ´ırni egy olyan Markov-modellel, amely N a ´llapotot (s1 , s2 , ..., sN ) ´es M darab jelet (σ1 , σ2 , ..., σM ) tartalmaz. Az i-ikb˝ ol a jik a ´llapotba t¨ ort´en˝ oa ´tmenet val´ osz´ın˝ us´eg´et jel¨ olj¨ uk p ij -vel, m´ıg ai j annak a val´ osz´ın˝ us´ege, hogy az i-ik a ´llapotban a modell a j-ik jelet bocs´ atja ki. Tegy¨ uk fel, hogy ergodikus a Markov-modell¨ unk; ´es mivel hossz´ u l´ ancokr´ ol, regul´ aris nyelv hossz´ u modatair´ ol van sz´ o ∗ (ne felejts¨ uk el, hogy a regul´ aris nyelvek oszt´ alya z´ art a m˝ uveletre, ld. 5.2 fejezet elej´en), feltehetj¨ uk azt is, hogy a modell m´ ar ”egyens´ ulyiv´ a v´ alt”, azaz annak a v i val´ osz´ın˝ us´ege, hogy a szekvencia valamely poz´ıci´ oj´ aban a rendszer az i-ik a ´llapotban lesz, f¨ uggetlen a poz´ıci´ ot´ ol. Ekkor a σk1 σk2 ...σkn szimb´ olum n-es elm´eletileg j´ osolt val´ osz´ın˝ us´ege: P (σk1 σk2 ...σkn ) =
N X
v i 1 a i 1 k1
N X
pi1 i2 ai2 k2 ...
i2 =1
i1 =1
N X
pin−1 in ain kn
i1 =1
Mivel a pij ´es aij param´etereket nem ismerj¨ uk, a j¨ ov˝ obeni kutat´ asok ´erdekes feladata lehet valamely adott korpusz eset´en ezen ”rejtett Markov-modell” (hidden Markov Model, Krenn & Samuelsson [1996]) param´etereinek a becsl´ese. A becsl´eshez rendelkez´esre a ´llnak a P (σk1 σk2 ...σkn )-k emp´ırikus k¨ ozel´ıt´esei, valamint felhaszn´ alhatjuk a jelek emp´ırikus gyakoris´ agait. Az i-ik jel νi frekvenci´ aj´ ara adhat´ o elm´eleti becsl´es: νi =
N X
vj aji ,
j=1
hiszen vj val´ osz´ın˝ us´eggel van a rendszer az sj a ´llapotban, ´es ekkor aji val´ osz´ın˝ us´eggel bocs´ atja ki a σi jelet. Izgalmas k´erd´es, vajon mennyire sz¨ oveg-, t´ema- ´es nyelvspecifikusak a rejtett param´eterek, milyen m´ert´ek˝ u elt´er´esek enged´elyezettek, milyen m´ert´ek˝ u elt´er´esek sz¨ uks´egesek a Damashekm´ odszer siker´ehez. Befejez´es¨ ul, m´eg arr´ ol a k´erd´esr˝ ol, hogy mi´ert nem egyszer˝ us´ıtettem le a gondolatmenetemet Markov-l´ ancokra. Val´ osz´ın˝ uleg egyszer˝ ubbek lenn´enek a sz´ am´ıt´ asok, ha Markov-l´ ancot, ´es nem Markov-modellt tekint¨ unk. K´et okb´ ol ragaszkodtam a Markovmodellhez. Egyr´eszt, a regul´ aris grammatik´ akat Markov-modellekre, ´es nem Markovl´ ancokra vezett¨ uk vissza. A m´ asodik ok nyelv´eszeti: a fonotaktikai szab´ alyok sok esetben felhaszn´ alnak metrikus fonol´ ogiai inform´ aci´ okat is (sz´ otagszerkezet, sz´ oszerkezet, stb.). Ezt u ´gy val´ os´ıthatjuk meg, ha a metrikus szerkezet elemeit (pl. sz´ otagkezdet, mag, sz´ otagz´ arlat) az a ´llapotokkal reprezent´ aljuk, m´ıg a szegmentumoknak (fon´em´ aknak) felelnek meg a Markov-modell jelei. De ennek a k´erd´esnek a b˝ ovebb kidolgoz´ asa m´ ar egy nyelv´eszeti, ´es nem egy fizikai dolgozat t´ argya lehetne.
7. K´ odol´ o´ es nem-k´ odol´ o DNS-szakaszok 26
Marc Damashek cikke adta az o ¨tletet, hogy a cikkben kidolgozott m´ odszert DNS-szekvenci´ akra 1 is alkalmazzam. A DNS-szekvenci´ ak statisztikai m´ odszerekkel t¨ ort´en˝ o kutat´ as´ anak jelenleg legizgalmasabb k´erd´ese a k´ odol´ o ´es a nem-k´ odol´ o szakaszok elt´er˝ o viselked´ese, ennek a magyar´ azat´ anak a megtal´ al´ asa, valamint olyan algoritmus k´esz´ıt´ese, amely automatikusan ´es nagy pontoss´ aggal v´ alasztja sz´et a k´et t´ıpus´ u szekvenci´ akat. 2 Mantegna et al. [1994, 1995a], Czir´ ok et al. [1995, 1996] b´ azisp´ arokb´ ol k´epezett n-esekre v´egeztek Zipf-anal´ızist (n-tupple Zipf analysis)(n = 3...8), ´es azt kapt´ ak, hogy az el˝ ofordul´ asi frekvencia a gyakoris´ agi sorrendben elfoglalt hely f¨ uggv´eny´eben a k´ odol´ o szakaszok eset´en exponenci´ alisk´ent, m´ıg a nem-k´ odol´ o szakaszok eset´en hatv´ anyf¨ uggv´enyk´ent cseng le (v. o ¨. az 5.1 fejezetben eml´ıtett Zipf-t¨ orv´ennyel). Jogosan mer¨ ul fel a k´erd´es, vajon megk¨ ul¨ onb¨ oztethet˝ ok-e a k´ odol´ o ´es a nem-k´ odol´ o szakaszok a Damashek-f´ele szorzat seg´ıts´eg´evel. A 7.1 t´ abl´ azat a HUMHBB szekvencia (hum´ an hemoglobin) o ¨t, a ´t´ır´ asra ker¨ ul˝ o szakasz´ ab´ ol (”primary transcript”) k´esz´ıtett vektorokat tartalmaz. Egy ilyen szakasz a ´ll egy ”bevezet˝ o” r´eszb˝ ol, h´ arom exonb´ ol (k´ odol´ o szekvencia), a k¨ ozt¨ uk l´ev˝ o k´et intronb´ ol, valamint egy ”z´ ar´ o” r´eszb˝ ol. Az E-vel jel¨ olt vektorokat az exonok konkaten´ aci´ oib´ ol k´epeztem, m´ıg az I-vel jel¨ olteket a fennmarad´ o (nem k´ odol´ o) r´eszekb˝ ol. (A t´ abl´ azatban felt¨ untetett adatok eset´eben, a vektorok k´epz´es´en´el n = 3 hossz´ us´ ag´ u ablakot haszn´ altam, de m´ as n-re is hasonl´ o jelens´egek figyelhet˝ oek meg.) 1
DNS-szekvenci´ ak Markov-l´ ancokkal t¨ ort´en˝ o elemz´es´ere az 1980-as ´evekben is tettek m´ ar k´ıs´erletet, ld. Weir [1990] (pp. 237. skk.), ahol tov´ abbi irodalom is tal´ alhat´ o. 2 Ld. pl. Herzel & Große [1997], Große et al. [1997] 27
A t´ abl´ azatban l´ atv´ anyosan elk¨ ul¨ on¨ ulnek a k´ odol´ o ´es a nem-k´ odol´ o szekvenci´ ak. Az exonok egym´ as k¨ oz¨ otti szorzatai a ´tlagosan 0, 94 ± 0, 016 ´ert´eket eredm´enyeznek. A magas a ´tlag ´es a kis sz´ or´ as ann´ al ink´ abb meglep˝ o, mert nagyon r¨ ovid szekvenci´ akr´ ol van sz´ o. (Gondoljunk a 6.1 ´es 6.2 t´ abl´ azatokra, ahol a t¨ obbi sz¨ ovegn´el j´ oval r¨ ovidebb francia sz¨ ovegek szorz´ asa rosszabb eredm´enyt adott, mint a hosszabb sz¨ ovegek´e.) A nem-k´ odol´ o szakaszok szint´en magas a ´tlagot eredm´enyeznek: 0, 92 ± 0, 03. Ezzel szemben, k´ odol´ o ´es nem-k´ odol´ o szakaszb´ ol k´esz´ıtett vektor szorzata szignifik´ ansan alacsonyabb, ´es nagy sz´ or´ ast mutat: 0, 75 ± 0, 08. Hasonl´ o eredm´enyeket figyelhet¨ unk meg m´ as n-ekre, valamint a RATCRYG-szekvenci´ ara (norv´eg patk´ any) is. Ezt k¨ ovet˝ oen, az egyes szekvenci´ akb´ ol k´epeztem egy ”na´ıv-vektort” is, amelynek i-ik komponens´et az i-ik b´ azisp´ ar-n-es egyes b´ azisp´ arjai el˝ ofordul´ asi frekvenci´ aja szorzatak´ent sz´ am´ıtottam ki (”korrel´ aci´ omentes vektor”). Azaz, ha az i-ik n-gramm (b´ azis-n-es) alakja σk1 σk2 ...σkn , ´es νj jel¨ oli a σj b´ azisp´ ar megfigyelt el˝ ofordul´ asi frekvenci´ aj´ at, akkor az x (naiv) vektor i-ik komponense:
(naiv)
xi
:= P (naiv) (σk1 σk2 ...σkn ) :=
n Y
ν kj .
j=1
A 7.2 t´ abl´ azatban j´ ol l´ atsz´ odik, hogy a vizsg´ alt eml˝ os szekvenci´ ak eset´eben (a szekvenci´ akat ugyan u ´gy k´esz´ıtettem el, mint a 7.1 t´ abl´ azat eset´eben) a k´ odol´ o szakaszok j´ oval t´ avolabb esnek a korrel´ alatlan vektort´ ol, mint a nem-k´ odol´ ok: a szorzat ´ert´eke az el˝ obbi esetben 0, 66 ± 0, 05, m´ıg az ut´ obbiban 0, 83 ± 0, 03. Ez az eredm´eny nem mond ellent annak, hogy hossz´ ut´ av´ u korrel´ aci´ ok az intront tartalmaz´ o szekvenci´ akban fordulnak el˝ o, m´ıg a tiszt´ an k´ odol´ o szakaszokban nem. Ugyanis, mint azt a 4. fejezetben kifejtettem, elk´epzel´esem szerint az intront is tartalmaz´ o szekvenci´ akat nem-regul´ aris folyamatok hozz´ ak l´etre, ´es ´ıgy sz¨ uletnek a hossz´ ut´ av´ u korrel´ aci´ ok, m´ıg az exonok most felfedezett r¨ ovidt´ av´ u korrel´ aci´ oit Markov-folyamattal is magyar´ azhatjuk. A 7.2 t´ abl´ azat eredm´enyein felbuzdulva, a 6. fejezetben ismertett ”mozg´ o doboz”-os m´ odszert alkalmaztam a DNAS-szekvenci´ akra is. A HUMHBB a ´t´ır´ asra ker¨ ul˝ o r´eszei (az exonok k¨ orny´ekei) nagyon jellegzetes strukt´ ur´ at mutatnak (7.1 a ´bra). A h´ arom exon k¨ oz¨ ul, az els˝ o kett˝ o nagyon k¨ ozel van egym´ ashoz, ´ıgy van olyan helyzet, hogy a doboz belel´ og mindkett˝ obe. Ennek ellen´ere felfedezhet˝ o az a jellegzetes v¨ olgy, amely u ´gy keletkezik, hogy min´el jobban ny´ ulik bele a doboz az exonba, ann´ al alacsonyabb lesz a naiv-vektorral t¨ ort´en˝ o szorz´ as eredm´enye. A primary transcript els˝ o k´et exonja k¨ or¨ uli v¨ olgy teh´ at a ´tlapol, viszont a harmadik exon v¨ olgye sz´epen kivehet˝ o. Meglep˝ o felfedez´es ugyanakkor a harmadik exont megel˝ oz˝ o v¨ olgy felt˝ un´ese, mind az o ¨t a ´t´ır´ asra ker¨ ul˝ o szakasz eset´en ugyan ott. Ezen ”´ alexon” l´et´ere m´eg nem tal´ altam magyar´ azatot. V´eg¨ ul, a 7.2 a ´br´ an az ´eleszt˝ o III. kromosz´ om´ aj´ anak (SCCHRIII) egy r´eszlete l´ athat´ o. Ugyan ezt a r´eszletet mutatja be Stanley et al. [1993b] 3. a ´br´ aja (a DNA-walk α-exponense egy m = 800bp sz´eles mozg´ o dobozban) Mindk´et a ´br´ aban lok´ alis minimumok jelzik az exonok hely´et, ennek ellen´ere a k´et a ´bra kev´es hasonl´ os´ agot mutat. 28
8. Befejez´ es DNS-szekvenci´ ak ´es term´eszetes nyelvi sz¨ ovegek eset´en egyar´ ant felfedeztek az 1990-es ´evek elej´en hossz´ ut´ av´ u korrel´ aci´ okat. Ezt k¨ ovet˝ oen, az 1990-es ´evek k¨ ozep´en kider¨ ult, hogy a DNS nemk´ odol´ o szakaszai ´es az ´ırott sz¨ ovegek tov´ abbi k¨ oz¨ os tulajdons´ agokkal rendelkeznek: p´eld´ aul a karakter n-esekre k´esz´ıtett Zipf-f´ele frekvencia−gyakoris´ ag f¨ uggv´eny a nem-k´ odol´ o DNS-szekvenci´ akra, ak´ ar csak a szintaxisra (szavak eloszl´ as´ ara egy sz¨ ovegben) hatv´ anyf¨ uggv´enyt k¨ ovet, szemben a k´ odol´ o DNS-szakaszokkal ´es a bet˝ uk eloszl´ as´ aval valamely sz¨ ovegben (a fonol´ ogia lek´epez˝ od´ese a helyes´ır´ asra), amelyek eset´en a Zipf-f¨ uggv´eny exponenci´ alisan cseng le (Mantegna et al. [1994, 1995a]). Ugyan ezek a vizsg´ alatok emp´ırikusan hozt´ ak ki azt az eredm´enyt, amit ´en a korrel´ aci´ ok megl´et´eb˝ ol k¨ ovetkeztettem ki: a nemk´ odol´ o DNS-szekvenci´ akat nem lehet helyesen modellezni Markov-folyamatokkal (ellent´etben az 1980-as ´evek pr´ ob´ alkoz´ asaival, Weir [1990]). Magasabb rend˝ u Markov-l´ ancok jav´ıthatnak a le´ır´ as pontoss´ ag´ an, de v´egleges megold´ ast szint´en nem adhatnak (Mantegna et al. [1995a]). Tal´ an az´ert n˝ o a pontoss´ ag a rend n¨ ovel´es´evel, mert az adekv´ altabb le´ır´ ast ad´ o sztochasztikus k¨ ornyezetf¨ uggetlen grammatik´ akat k¨ ozel´ıtik meg? Dolgozatomban ezen jelens´egek m¨ og´e k´ıv´ antam tekinteni. A k´et szimb´ olumsorozat egyar´ ant o ¨sszetett strukt´ ur´ akat k´ odol line´ aris form´ aban, ez´ert a hossz´ ut´ av´ u korrel´ aci´ ok − v´elem´enyem szerint − a k´ odoland´ o nemlinearit´ as´ anak a megnyilv´ anul´ asai. A m´ asodlagos folyamatok (fonol´ ogia, feh´erje szint´ezis) viszont regul´ aris szab´ alyokat alkalmaznak. Nem vil´ agos egyel˝ ore, hogy mi´ert t˝ unnek el a korrel´ aci´ ok a feh´erje-szint´ezis sor´ an a k´ odol´ o sza29
kaszokban, holott a besz´edprodukci´ oban megtal´ alhat´ oak egyar´ ant a szintaxis hossz´ ut´ av´ u, ´es a fonol´ ogia r¨ ovidt´ av´ u korrel´ aci´ oi. Megjegyzem, hogy a Zipf-f¨ uggv´eny viselked´ese ugyanezt a kett˝ oss´eget k¨ oveti: a regul´ aris (korrel´ aci´ omentes) szinten exponenci´ alisk´ent cseng le, m´ıg a korrel´ aci´ okat produk´ al´ o szinten hatv´ anyf¨ uggv´ennyel k¨ ozel´ıthet˝ o. Dolgozatom v´eg´en a Damashek-f´ele vektort´er/technika alkalmaz´ as´ at mutattam be − mint a regul´ aris folyamatok a ´ltal l´etrehozott r¨ ovidt´ av´ u korreal´ aci´ okon alapul´ o m´ odszert − sz¨ ovegeken, ´es − u ´jdons´ agk´ent − ´es DNS-en. DNS-ek eset´eben, a k´ odol´ o ´es a nemk´ odol´ o szakaszok szorzatai szignifik´ ansan elt´ernek egym´ ast´ ol, ´ıgy egy u ´jabb jelens´eggel b˝ ov¨ ult a k´ odol´ o ´es nem-k´ odol´ o szakaszok statisztikai tulajdons´ agait magyar´ azni k´ıv´ an´ o kutat´ ok feladata. A felfedez´es egyel˝ ore nem alkalmas m´eg a k´etf´ele szekvencia automatikus 30
elv´ alaszt´ as´ ara, mivel tal´ altam olyan szakaszokat is, amelyek exonk´ent viselkednek, hab´ ar nem azok. A term´eszetes nyelvi sz¨ ovegek kapcs´ an a m´ odszer sikeress´eg´et helyes´ır´ asi ´es fonotaktikai okokkal (nyelvek szerinti szort´ıroz´ as), illetve a sz¨ oveg tartalm´ ara jellemz˝ o szavak gyakoris´ ag´ aval (t´ema szerinti sz´etv´ alogat´ as) magyar´ aztam. Ennek al´ at´ amaszt´ as´ ara, javaslatot tettem a fonotaktika Markov-modellekkel t¨ ort´en˝ o megk¨ ozel´ıt´es´ere.
K¨ osz¨ onetnyilv´ an´ıt´ as K¨ osz¨ onetemet fejezem ki Vicsek Tam´ as egyetemi tan´ arnak, aki felh´ıvta a figyelmemet a statisztikus fizika nyelv´eszeti ´es genetikai vonatkoz´ as´ u fejezeteire, ´es minden t´eren t´ amogatta a munk´ amat. H´ al´ as vagyok Czir´ ok Andr´ asnak, az ELTE TTK Atomfizikai Tansz´ek doktorandusz´ anak, aki cikkekkel ´es praktikus tan´ acsokkal seg´ıtett, valamint Rebrus P´eternek, az MTA Nyelvtudom´ anyi Int´ezet PhD-¨ oszt¨ ond´ıjas´ anak, aki a nyelv´eszeti vonatkoz´ asokban volt a seg´ıts´egemre.
31
Irodalomjegyz´ ek L. A. N. Amaral, S. V. Buldyrev, S. Havlin, M. A. Salinger, H. E. Stanley [1997]: Power law scaling in a system of interacting units with complex internal structure (preprint). M. Amit, Y. Shmerler, E. Eisenberg, M. Abraham, N. Shnerb [1994]: Language and Codification Dependence of Long-Range Correlations in Texts, Fractals, 2, 1, pp. 7-13. S. Bird, T. M. Ellison [1994]: One-level Phonology: Autosegmental Representations and Rules as Finite Automata, Computational Linguistics, 20, 1, pp. 55-90. J-Ph. Bouchaud, M. Potters [1997]: Th´eorie des Risques Financiers. Portefeuilles, options et risques majeurs, Collection Al´ea Saclay. N. Chomsky [1957]: Syntactic Structres, The Hague: Mouton. Magyarul megjelent: Mondattani szerkezetek, Osiris-Sz´ azadv´eg, Budapest, 1995. A. Czir´ ok, R. N. Mantegna, S. Havlin, H. E. Stanley [1995]: Correlations in binary sequences and a generalized Zipf analysis, Physical Review E, 52, 1 , pp. 446-452. A. Czir´ ok, H. E. Stanley, T. Vicsek [1996]: Possible origin of power-law behavior in n-tuple Zipf analysis, Physical Review E 53, 6371. M. Damashek [1995]: Gauging Similarity with n-Grams: Language-Independent Categorization of Text, Science, 267, pp. 843-848. I. Der´enyi, T. Vicsek [1996]: The kinesin walk: A dynamic model with elastically coupled heads, Proc. Natl. Acad. Sci. USA, 93, pp. 6775-6779. G. Dietler, Y.-C. Zhang [1994]: Crossover from White Noise to Long Range Correlated Noise in DNA Sequences and Writings, Fractals, 2, 4, pp. 473-479. W. Ebeling, A. Neiman [1995]: Long-range correlations between letters and sentences in texts, Physica A 215, pp. 233-241. F. Family, T. Vicsek [1991] (szerk.): Dynamics of Fractal Surfaces, World Scientific. ´ Kisdi, G. Mesz´ena [1997]: Dynamics of Adaptation S. A. H. Geritz, J. A. J. Metz, E. and Evolutionary Branching, Physical Review Letters, 78, 10, pp. 2024-2027. S. Ghashghaie, W. Breymann, J. Peinke, P. Talkner, Y. Dodge [1996]: Turbulent cascades in foreign exchange markets, Nature, 381, 27 June 1996, pp. 767-770. I. Große, H. Herzel, S. V. Buldyrev, H. E. Stanley [1997]: Mutual information of coding and noncoding DNA (preprint). 32
H. Herzel, I. Große [1997]: Correlations in DNA sequences: The role of protein coding segments, Physical Review E, 55, 1, pp. 800-810. I. Kanter, D. A. Kessler [1994]: Markov Process: Linguistics, Zipf’s Law and LongRange Correlations. (Submitted to PRL, Oct. 20, 1994). R. M. Kaplan, M. Kay [1994]: Regular Models of Phonological Rule Systems, Computational Linguistics, 20, 3, pp. 331-378. Kenesei I. [1995] (szerk.): A Nyelv ´es nyelvek, Akad´emiai Kiad´ o, Budapest. Kiefer F. [1994] (szerk.): Struktur´ alis magyar nyelvtan, 2. k¨ otet: Fonol´ ogia, Akad´emiai Kiad´ o, Budapest. B. Krenn, Ch. Samuelsson [1996]: The Linguist’s Guide to Statistics, forr´ as: http://coli.uni-sb.de/ christer. Y. Liu, P. Cizeau, M. Meyer, C.-K. Peng, H. E. Stanley [1997]: Correlations in Economic Time Series (preprint submitted to Elsevier Science). K. Martin´ as, M. Moreau [1995] (szerk.): Complex Systems in Natural and Economic Sciences, Proceedings of the Workshop Methods of Non-Equilibrium Processes... R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons, H. E. Stanley [1994]: Linguistic Features of Noncoding Sequences, Physical Review Letters, 73, 23, pp. 3169-3172. R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons, H. E. Stanley [1995a]: Systematic analysis of coding and noncoding DNA sequences using methods of statistical linguistics, Phys. Rev. E, 52, 3, pp. 2939-2950. R. N. Mantegna, H. E. Stanley [1995b]: Scaling behaviour in the dynamics of an economic index, Nature, 376, 6 July 1995, pp. 46-49. R. N. Mantegna, H. E. Stanley [1996]: Turbulence and financial markets, Nature, 383, 17. October 1996, pp. 587-588. R. N. Mantegna, H. E. Stanley: Stock market dynamics and turbulence, Parallel analysis of fluctuation phenomena, Physica A, 3357 (1997.). Nagy Ferenc [1986]: Kvantitat´ıv Nyelv´eszet, Tank¨ onyvkiad´ o, Budapest. C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley [1992]: Long-range correlations in nucleotide sequences, Nature, 356, pp. 168-170. C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, M. Simons, H. E. Stanley [1993]: Finite-size effects on long-range correlations: Implications for analyzing DNA sequences, Physical Review E, 47, 5, pp. 3730-3733. M. Potters, R. Cont, J-Ph. Bouchaud [1997]: Financial markets as adaptive systems (preprint). R´ev´esz Gy. [1979]: Bevezet´es a form´ alis nyelvek elm´elet´ebe, Akad´emiai Kiad´ o, Budapest. A. Schenkel, J. Zhang, Y.-C. Zhang [1993]: Long Range Correlation in Human Writings, Fractals, 1, 1, pp. 47-57. 33
M. H. R. Stanley, L. A. N. Amaral, S. V. Buldyrev, S. Havlin, H. Leschhorn, Ph. Maass, M. A. Salinger, H. E. Stanley [1996a]: Scaling behaviour in the growth of companies, Nature, 379, 29 Febr. 1996, pp. 804-806. M. H. R. Stanley, L. A. N. Amaral, S. V. Buldyrev, S. Havlin, H. Leschhorn, Ph. Maass, M. A. Salinger, H. E. Stanley [1996b]: Can Statistical Physics Contribute to the Science of Economics?, Fractals, 4, 3 (1996), pp. 415-425. H. E. Stanley, S. V. Buldyrev, A. L. Goldberger, J. M. Hausdorff, S. Havlin, J. Mietus, C.-K. Peng, F. Sciortino, M. Simons [1992]:Fractal landscapes in biological systems: Longrange correlations in DNA and interbeat heart intervals, Physica A, 191, 1-12. H. E. Stanley, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons [1993a]: Long-range power-law correlations in condensed matter physics and biophysics, Physica A 200, 4-24. H. E. Stanley, S. V. Buldyrev, A. L. Goldberger, S. Havlin, S. M. Ossadnik, C.-K. Peng, M. Simons [1993b]: Fractal Landscapes in Biological Systems, Fractals, 1, 3, pp. 283-301. T. Vicsek [1992]: Fractal Growth Phenomena (second edition), World Scientific. B. S. Weir [1990]: Genetic Data Analysis, Methods for Discrete Population Genetic Data, Sinauer Associates, Inc. Publishers, Sunderland, Mass. G. K. Zipf [1935]: The Psychobiology of Language, Houghton Mifflin, Boston. G. K. Zipf [1949]: Human Behavior and the Principle of Least Effort, Addison-Wesley Press.
34