Bioinformatikai eredetű kombinatorikai problémák

˝ kombinatorikai proble ´ ma ´k Bioinformatikai eredetu Erd˝os Péter

Bevezet´ es A disszertáció 1990-óta keletkezett, alapvet˝oen bioinformatikai eredményeket ismertet: a problémák dönt˝o többsége a molekuláris biológia jelenlegi forradalmában felmer¨ ult kombinatorikai kérdésekb˝ol ered. A dolozatban három f˝o rész található, összesen kilenc szakaszból áll, továbbá nyolc cikk szerepel mellékletként. A els˝o két részben un. evol´ uci´ os f´ akat vizsgálok. Ezek (gyakran gyökeres) bináris fák, melyek levelei egy-egy értelm˝ uen c´ımkézettek, m´ıg bels˝o (elágazó) cs´ ucsaik nem. A biológusok ezeket használják a fajok közötti leszármazási kapcsolatok ábrázolására (és megtalálására). A biológiai adatokat kevés (tipikusan 2, 4 vagy 20) sz´ın felhasználásával alkotott sz´ınvektorok hordozzák, továbbá a fával ábrázolt történések valamilyen biológusok által feltételezett modell szerint történnek. (Nem-biológusok ezeket az objektumokat gyakran X-f´ aknak nevezik, ahol az X halmaz a c´ımkék összessége.) Az els˝o részben ez a modell a statisztikából ismer˝os parsimonia elv. A kérdések általában NP-nehezek, ezért a lehetséges modellfák köz¨ ul gyakran statisztikai alapon választanak. Ebben a részben ilyen statisztikákkal kapcsolatos kombinatórikai problémákat vizsgálunk. Köz¨ ul¨ uk az els˝o egy leszámlálási kérdés, amely megoldása a Menger tételeken alapuló dekompoz´ıciót használ. A módszerek kett˝onél több sz´ınre történ˝o alkalmazásához a multiway cut probléma jobb megértése lehet sz¨ ukséges, amely az els˝o rész másik témája. A dolgozat második része evol´ uciós fák néhány sztochasztikus modelljével foglalkozik. Részben mutatószámokat illetve eszközöket fejleszt ki a modellek illetve módszerek összehasonl´ıtására, részben pedig gyors algoritmusokat ad egy modellosztályban a helyes evol´ uciós fák 1 valósz´ın˝ uség˝ u megtalálásához. A disszertáció harmadik része véges ábécé feletti korlátos hossz´ uság´ u szavak rész-szavakból történ˝o rekonstrukcióját vizsgálja, amely microarray kisérletek illetve u ´gynevezett DNS k´ odok tervezéséhez ny´ ujthat seg´ıtséget.

1.

A multiway cut probl´ ema

A modern kombinatorikus optimalizálás egy sokat vizsgált ter¨ ulete a multiway cut (MC) probléma: adott a G gráf élein egy w s´ ulyf¨ uggvény. Adott továbbá termin´ al pontok egy k elem˝ u halmaza. Keress¨ unk minimális összs´ uly´ u élvágást, ami a terminál pontokat p´ aronként szepar´ alja: az élek elhagyásával keletkezett gráfban k¨ ulönféle sz´ın˝ u pontok között nincsenek utak. A k = 2 eset a klasszikus él-Menger probléma. Az MC probléma általában NP-nehéz még a legegyszer˝ ubb esetben is, de s´ıkgráfokon a probléma kezelhet˝o polinomiális id˝oben, ha a sz´ınek száma korlátos. Székely Lászlóval közös cikkeinkben ([1, 2, 7, 10, 13]) bevezett¨ uk az eredeti multiway cut probléma egy általános´ıtását: legyen G = (V, E) egy egyszer˝ u 1

gráf, C = {1, 2, . . . , r} pedig egy sz´ınhalmaz. Ha N ⊆ V (G) a terminál pontok halmaza, akkor egy χ : N → C leképezést parci´ alis sz´ınezés-nek h´ıvunk. Ekkor egy χ ¯ : V (G) → C leképezést akkor mondunk sz´ınezésnek, ha a két leképezés megegyezik a terminál pontokon. Az ´ altal´ anos´ıtott (avagy sz´ınezett) multiway cut (szMC) probléma egy olyan legkisebb s´ uly´ u élrendszer megtalálása, amely bármely két, eltér˝o sz´ın˝ u terminál pontot szeparál. Fenti defin´ıció azért igazi általános´ıtás, mert bár az szMC tetsz˝oleges gráfokon megegyezik az eredeti multiway cut problémával, speciális gráfosztályokon azonban (mint s´ıkgráfokon vagy acyclikus gráfokon) eltér˝oek. Például s´ıkgráfokon az szMC már három sz´ın mellett és egységs´ uly´ u élekkel is NP-teljes. Az idézett cikkekben bevezett¨ unk egy u ´j t´ıpus´ u alsó korlátot a multiway cut s´ ulyára, továbbá egy u ´j t´ıpus´ u pakolási feladat felhasználásával illetve egy minimax tétel bebizony´ıtásával teljesen megoldottuk a fák multiway cut problémáját. Ennek egyrészt elméleti következményei vannak, másrészt az eredmények maguk felhasználásra ker¨ ultek az evol´ uciós fák elméletében is. A sz´ınezett multiway cut-nak párhuzamos SQL-lekérdesések tervezése témakörében, vagy kommunikációs hálózatok elméletében is vannak alkalmazásai. Ez utóbbi esetben a kommunikációs költségeket minimalizálják szétosztott processzor hálózatok esetén.

Minim´ alis s´ uly´ u sz´ınez´ esek A (számunkra fontos) biológiai alkalmazásokban a konstans éls´ ulyoknál bonyolultabb s´ ulyf¨ uggvényekre van sz¨ ukség . Ehhez jelölje E(G)×2 a gráf irány´ıtott éleit (azaz mindegyik él mindkét irány´ıtással jelen van). Egy W : E(G) × 2 → Nr×r leképezés egy (sz´ınf¨ ugg˝o) s´ ulyf¨ uggvény, ha a W (p, q) és W (q, p) mátrixok megegyeznek, továbbá a f˝oátlókban csupa nulla van. A i W (p, q)j = w(p, q; i, j) elem azt mondja meg, hogy a (p, q) élnek mennyi a s´ ulya egy χ ¯ sz´ınezésben, ha χ(p) ¯ = i, χ(q) ¯ = j (avagy χ(p) ¯ = j, χ(q) ¯ = i, ami ugyan azt az értéket adja). A W sz´ınf¨ uggetlen, ha minden f˝oátlón k´ıv¨ uli elem azonos. A s´ ulyf¨ uggvény értelemszer˝ uen lesz élf¨ uggetlen. Vég¨ ul W konstans, ha egyszerre sz´ın- és élf¨ uggetlen. Bármely χ parciális sz´ınezés part´ıcionálja a terminál pontokat: az azonos sz´ın˝ u pontok ker¨ ulnek azonos osztályba. Ebben a gráfban élek egy halmaza, amelyek egy¨ utt bármely két, eltér˝o sz´ın˝ u terminál pontot elválasztanak, egy (sz´ınezett) multiway cut-ot alkot. Világos, hogy egy χ ¯ sz´ınezés sz´ınváltó élei mindig multiway cut-ot alkotnak. Egy χ ¯ sz´ınezés s´ ulya a sz´ınváltó élek összs´ ulya. Az adott gráfon egy χ parciális sz´ınezés `(G, χ) hossza (avagy a s´ ulyozott MC nagysága) az összes lehetséges sz´ınezés s´ ulyának a minimuma. A `(G, χ) mennyiség meghatározásának komplexitása f¨ ugg a s´ ulyf¨ uggvény és a gráf szerkezetét˝ol. Biológiai alkalmazásokban a gráfok általában c´ımkézett levelekkel és nem-c´ımkézett bels˝o pontokkal rendelkez˝o bináris fák, ahol a parci´ alis sz´ınezés a leveleken adott. Ezeket az objektumokat h´ıvják evol´ uci´ os f´ aknak. A Székely Lászlóval közös [10] cikk tetsz˝oleges, levél sz´ınezett fákra ad un´ arisan polinomiális algoritmust sz´ınf¨ ugg˝o s´ ulyf¨ uggvény esetén a hossz meghat´ arozására. Az algoritmus arra is alkalmas, hogyha minden bels˝o pontban 2

megadunk egy megendegett sz´ınhalmazt, akkor az algoritmus valamelyik megengedett sz´ınt rendeli a bels˝o pontokhoz is. A cikk egyébként ennél egy kicsit általánosabb áll´ıtást igazol: 1. T´ etel. Legyen a gr´ af olyan, amelynek minden k¨ orét a termin´ al pontok lefedik. Ekkor létezik un´ arisan polinom´ alis algoritmus egy optim´ alis sz´ınezés meghat´ aroz´ as´ ara, feltéve, hogy a s´ ulyf¨ uggvény sz´ınf¨ uggetlen Lényegesen bonyolultabb kérdést kapunk, ha levelek egy adott L halmazához és a rajtuk adott χ parciális sz´ınezéshez meg akarjuk határozni az összes, a levelekre illeszked˝o bináris fa köz¨ ul azt, amelyiknek a legkisebb a hossza a χ-re nézve. Ha a leveleket ma él˝o fajok alkotják, és a sz´ınezés pedig valamilyen biológiai jellemz˝oj¨ uket jelenti (péld´ aul morfológiai jegyek, vagy az átörök´ıt˝o anyag egy jellemz˝o része), akkor a legrövidebb fa megtalálása azt a nézetet testes´ıti meg, hogy a természet az élet kialak´ıtásánál takarékos volt, a lehet˝o legkevesebb változást használta fel az összes létez˝o él˝olény kialak´ıtásához. Ezt parsimonia elvnek (avagy a filozófiában Occam borotv´ aj´ anak) h´ıvják, és tipikus feltevés k¨ ulönböz˝o statisztikai vizsgálatoknál. Az evol´ ució kutatói ezeket a biológiai jellemz˝oket karakter-eknek h´ıvják. Azaz az i-ik karakter matematikai értelemben a sz´ınvektor i-ik koordinátáját jelenti. A valós helyzetekben, azaz létez˝o biológiai rendszerek vizsgálatakor, persze nem csak egyetlen jellemz˝o ´ır le egy-egy fajt, ezért minden fajt (azaz a keresett bináris fa leveleit) hosszabb sz´ınvektorok jellemeznek. Annak eldöntése, hogy ilyen sz´ınvektorok esetén létezik-e pontosan k hossz´ uság´ u fa a χ parciális sz´ınezésre nézve (ilyenkor az adott fára minden koordinátában k¨ ulön kiszámoljuk a hosszat, majd összeadjuk) NP-nehéz feladat, ezért az érdekes gyakorlati esetekben ezt lehetetlen eldönteni. Ezen vizsgálatok egyik els˝o lépése az adott levélsz´ınezéshez tartozó, éppen k hossz´ uság´ u fák leszámlálása. A legegyszer˝ ubb eset megtárgyalásához rögz´ıts¨ unk egy adott egy-karakteres, azaz egy hossz´ u sz´ınvektorokból álló 2-sz´ınezést az L levél halmazon. Legyen a és b a két sz´ınosztály mérete, és legyen fk (a, b) azon evol´ uciós fák száma, amelyek hossza az adott levélsz´ınezés mellett éppen k. Már 1990 óta ismertes, hogy: b(n) fk (a, b) = (k − 1)!(2n − 3k)N (a, k)N (b, k) (1) b(n − k + 2) ahol a + b = n, a > 0, b > 0, és ahol N (x, k) jelöli az összesen x levéllel rendelkez˝o és k darab evol´ uciós fából álló erd˝ok számát. (A [9] cikkem, egyebek között, egy bijekt´ıv bizony´ıtást adott az N (x, k) mennyiségekre.) Az (1) formulára adott eredeti bizony´ıtás többváltozós Lagrange inverziót és computer algebrát alkalmazott. M.A. Steel talált egy jobb, bijekt´ıv megközel´ıtést, amire Székely Lászlóval közös [7] cikk¨ unkben adtunk viszonylag rövid és transzparens bizony´ıtást. A módszer legf˝obb érdekessége, hogy a leszámlálás el˝ott bebizony´ıtja a k hossz´ u evol´ uciós fák egy strukt´ ura tételét, amely eredmény az él-Menger és a pont-Menger tételek felváltott alkalmazásain alapul. 3

A kett˝onél több sz´ınnel sz´ınezett evol´ uciós fák leszámlálásához sz¨ ukség lenne az evol´ uciós fákra vonatkozó analóg tételek bebizony´ıtására. A több sz´ın˝ u pontMenger tétel fákra változtatás nélk¨ ul teljes¨ ul, de ugyanez az él-Menger (azaz a multiway cut) problémára nem igaz.

Egy minimax eredm´ eny f´ ak szMC probl´ em´ aj´ ara Mivel az általános´ıtott multiway cut probléma már k = 3 esetben is NP-nehéz, természetesen nem lehet elvárni általánosan érvényes, a Menger tételhez hasonló minimax eredményt vele kapcsolatban. Valóban, mint az közismet, már a k = 3 esetben sem igaz az él-Menger tétel analógja: egyszer˝ u ellenpélda rá az egység éls´ ulyokkal ellátott, a leveleket terminál pontokként tartalmazó K1,3 csillag. Azonban a [1, 2, 10] cikksorozatban Székely Lászlóval közösen siker¨ ult fákra egy hasonló minimax tételt kimunkálnunk. Megjegyzend˝o, hogy ennek felhasználásával u ´j-zélandi kutatók tovább léptek a leszámlálási feladat tárgyalásában. A [1] cikkben a s´ ulyozatlan esettel foglalkoztunk (pontosabban szólva itt minden él s´ ulya 1), m´ıg a [2, 10] dolgozatokban sz´ınf¨ uggetlen s´ ulyf¨ uggvények esetére dolgoztuk ki a megfelel˝o minimax eredményt. A továbbiakban irány´ıtatlan gráfokban két-két terminál pont közé, ir´ any´ıtott (oriented) utakat pakolunk. Irány´ıtott u ´t u ´gy keletkezik egy irany´ıtatlan P u ´tból, hogy megmondjuk, hogy a határoló terminál pontok köz¨ ul melyik az s(P ) kezd˝o pont, és melyik a t(P ) végpont, továbbá feltessz¨ uk, hogy az utak nem érintenek más terminál pontot. Egy u ´t akkor sz´ınv´ alt´ o, ha χ szerint eltér˝o sz´ın˝ u terminál pontok között fut. A Székely Lászlóval közös [10] cikkben hurokél mentes gráfok tetsz˝oleges, azaz él- és sz´ınf¨ ugg˝o, s´ ulyozása mellett tanulmányoztuk egy lehetséges alsó becslést a (s´ ulyozott) multiway cut értékére, és találtunk egy minimax eredményt erre a problémájára. Legyen G hurokél mentes gráf terminál pontok egy N halmazával, ahol a parciális sz´ınezés megint k sz´ınt használ . Legyen P sz´ınváltó irány´ıtott N utak multihalmaza (egyetlen u ´t sem tartalmaz N -beli bels˝o pontot, de valamely u ´t több példányban is jelen lehet). Legyen továbbá e = (p, q) ∈ E(G) egy rögz´ıtett él. Ekkor legyen ni (e, P) = #{P ∈ P : (p, q) ∈ P és χ(t(P )) = i}, ahol a t(P ) u ´jra az illet˝o u ´t végpontját jelöli, a (p, q) ∈ P jelölés pedig azt jelenti, hogy az u ´t a p pontban lép be az élbe, és a q pontban hagyja el az élt. Ezután sz´ınváltó utak egy rendszerét u ´tpakol´ asnak mondjuk, ha minden i 6= j sz´ınpárra és minden (p, q) élre teljes¨ ul: ¡ ¢ ¡ ¢ ni (p, q), P + nj (q, p), P ≤ w(p, q; j, i). Ekkor 2. T´ etel. Legyen G hurokél mentes gr´ af az N termin´ al halmazzal és a χ parci´ alis sz´ınezéssel. Legyen W egy (sz´ınf¨ ugg˝ o) s´ ulyf¨ uggvény a gr´ afon és P egy u ´tpakol´ as. 4

Ekkor teljes¨ ul: `(G, χ) ≥ |P|. Teljes¨ ul továbbá a következ˝o minimax tétel is (a s´ ulyf¨ uggvény itt kevésbé általános): 3. T´ etel. Tetsz˝ oleges T f´ ara és tetsz˝ oleges sz´ınf¨ uggetlen w : E(T ) → N s´ ulyf¨ uggvényre minden χ : L(T ) → C levélsz´ınezés esetén van olyan P u ´tpakol´ as, amire teljes¨ ul `(G, χ) = |P|. Vegy¨ uk észre, hogy azonosan 1 éls´ uly mellett az utak a fa felhasznált élein egyértelm˝ uen meghatároznak egy irány´ıtást. Van-e mód ennek az irány´ıtásnak a meghatározására az u ´trendszer rögz´ıtése nélk¨ ul? A kérdésfeltevés mögött az a gondolat, hogyha siker¨ ul megtalálni az eml´ıtett irány´ıtást, akkor már a szokásos él-Menger tétel k-szoros alkalmazásával meg lehet határozni az u ´trendszert. Nevezetesen egy sz´ınt elk¨ ulön´ıt¨ unk az összes többit˝ol, és az irány´ıtott gráf ezen 2-sz´ınezésében keres¨ unk irány´ıtott utakat. A vázolt gondalatmenetet a Frank Andrással és Székely Lászlóval közös [13] cikkben siker¨ ult bizony´ıtássá érlelni. A cikkben tanulmányoztunk még néhány, mások által bevezetett szMC alsó becslést, és megállap´ıtottuk ezek egymáshoz viszont´ıtott méretét. Azt is kimutattuk, hogy a fastrukt´ ura igen hangs´ ulyos szerepet játszik a minimax tétel érvényességében.

2.

Az evol´ uci´ os f´ ak sztochasztikus elm´ elete

Ebben a fejezetben olyan problémákat tárgyalok, amelyek ugyan tisztán matematikai jelleg˝ uek, és amelyek nagy apparátust mozgatnak meg, azonban eredet¨ uk egyértelm˝ uen a biológiához köthet˝o. A problémák háttere egy széles körben elfogadott biológiai modell, amely szerint az él˝ovilág fejl˝odése, az u ´j fajok kialakulása véletlen eseményeken alapul. A un. Kimura modell számba veszi ezen véletlen mutációk törvényszer˝ uségeit, de nem foglalkozik azzal a kérdéssel, hogy a keletkezett egyedet mi tesz képessé a t´ ulélésre, azaz mikor válhat egy u ´j faj ˝osévé. A fejezet el˝obb az evol´ uciós fák rekonstrukciójának sok lehetséges módszere köz¨ ul két, alapvet˝oen k¨ ulönböz˝o megközel´ıtést tárgyal. Az egyik egy un. karakter alap´ u módszer, amely minden rendelkezésre álló információt párhuzamosan használ, ezért nagy biztonsággal tudja a keresett evol´ uciós fát felép´ıteni, de eléggé lass´ u. A második megközel´ıtés un. quartet alap´ u: ilyenkor egy evol´ uciós fa ismert levél-négyeseib˝ol történik az evol´ uciós folyamat rekonstrukciója. Ezt a módszercsaládot általában a távolság alap´ u eljárások közé helyezik (bár ez nem törvényszer˝ u). Végezet¨ ul a fejezet utolsó szakasza az evol´ uciós fák egy nem-klasszikus értelemben vett rekonstrukciós eljárását tárgyalja, amelynek itt a helye, mert egy, a supertree módszerek közé (is) besorolható eljárást ismertetek fák rekonstrukciójáról. 5

Hadamard konjug´ aci´ o Az 1980-as évek elején M. Kimura japán biológus egy 3-paraméteres, véletlenen alapuló mutációs modellt dolgozott ki a fajok változékonyságának megmagyarázására. Mára ez vált a biológusok által legelfogadottabb modellé. Az az alapfelvetése, hogy az él˝olények átörök´ıt˝o anyagában a változások teljesen véletlenszer˝ uen, egymástól nem befolyásolva zajlanak le. A Kimura modell szerint a fajok fejl˝odését egy bináris fa szemlélteti, ahol a gyökér jelképezi a közös ˝ost, m´ıg a (c´ımkézett) levelek a vizsgálandó fajokat. Ezek után az élek mentén lejátszódó bet˝ u-változások egymástól f¨ uggetlen¨ ul, véletlenszer˝ uen történnek. Mivel a fejl˝odés a közös ˝ost˝ol a ma él˝o fajok irányában történik, ezért a változásoknak egyértelm˝ u iránya van, azonban a Kimura modell szerint egy változásnak és az ellentett változásnak ugyanannyi a val´ osz´ın˝ usége. Továbbá az egyes élek mentén a változások eltér˝o valósz´ın˝ uséggel következ(het)nek be, de az ezeket le´ıró mátrixok szerkezete állandó. Ezek alapján vezethette be Evans és Speed azt a modellt, ahol az egyes éleken történ˝o változások a négy elem˝ u Klein csoport hatásaként értelmezhet˝ok. ´ (Erdekes megjegyezni, hogy a Klein csoport definiálta változásoknak biológiai le´ır´ as´ at is meg lehet adni.) Ebben a modellben a véletlen változások generálta ”fejl˝odés” u ´gy jelentkezik, hogy a fa gyökerében található fajból rekurz´ıvan határozhatók meg a folyamat közben létrejöv˝o leszármazott fajok: az eleddig meghatározott fajokból kiinduló éleken meghatározzuk, milyen véletlen változások fognak lezajlani, majd a Klein csoport hatásaként meghatározzuk, milyen fajok jönnek létre. Ilyenkor az éleken illetve a leveleken található valósz´ın˝ uségi elosztások között – bizonyos ésszer˝ u megszor´ıtások mellett – egy Fourier inverz párkapcsolat van, amely miatt valamelyik elosztásb´ ol pontosan meghatározható a másik eloszlás. Ezen a gondolatmeneten alapul az evol´ uciós fák un. spektr´ al elmélete. A módszer ˝osét (két sz´ınre), M. Hendy és D. Penny dolgozta ki, amelyet az Hadamard konjugáltak módszerének neveznek. A módszer négy sz´ınre történ˝o általános´ıtása a Székely László, Mike Steel és David Penny hármassal közös [5] cikkben kezdt¨ uk meg, illetve a Mike Steellel, Székely Lászlóval és Mike Hendyvel közös [3] cikkben fejezt¨ uk be. Szintén ebben a cikkben foglalkoztunk avval a kérdéssel, hogy a gyakorlati életben, ahol a leveleken megfigyelhet˝o eloszlások csak bizonyos hibákkal észlelhet˝ok, hogyan lehet egy megfelel˝o approximációs eljár´ ast kifejleszteni. A kapott módszert closest tree method-nak nevezik. A spectrál módszert a Klein csoport helyett tetsz˝oleges véges Abel csoportra a Székely Lászlóval és Mike Steellel közös [6] cikkben általános´ıtottuk. Ennek közvetlen haszna ott lehet, ha a fajokat például nem DNS-kkel, hanem protein savaikkal (amiból az emberben például 20 van) azonos´ıtjuk. A módszernek egyébként filozófiai értelemben nagy el˝onye, hogy képes bizonyos esetekben kimutatni, ha az adatokra teljesen ”rossz” modellt k´ıvánunk ráh´ uzni, azaz popperi értelemben falszifikálható. 6

A Short Quartet m´ odszerek Jelölje B(n) az n c´ımkézett levéllel ámde c´ımkézetlen elágazási pontokkal b´ıró, gyökértelen fák halmazát. (Ezeket X-f´ ak-nak is nevezik, ahol az X a levélc´ımkék halmaza. Azért nem használom itt az evol´ uciós fa kifejezést, hogy érzékeltessem a szélesebb kontexust.) Legyen T egy B(n)-beli X-fa és legyen S a levelek egy részhalmaza. Ekkor ∗ a generált bináris (tojelölje T|S az S által generált részfát, m´ıg jelölje T|S pológikus) részfát. Ha adott az S levélhalmazon egy T -vel jelölt X-fa, akkor a fa egy élének a törlése egy 2-part´ıciót hoz létre a leveleken, amit a továbbiakban split-nek nevez¨ unk. Ha mindkét osztály legalább két levelet tartalmaz, akkor a split nem-trivi´ alis. Buneman régi tétele, hogy bármely X-fát egyértelm˝ uen meghatároznak nem-triviális splitjei. Legyen q = {a, b, c, d} egy T -beli levél-négyes. Azt mondjuk, hogy a tq = ab|cd egy érvényes (angolul valid) quartet split, ha ez a generált T|q∗ bináris n ¡ ¢o részfának a valódi, a fában szerepl˝o splitje. Jelölje Q(T ) = tq : q ∈ [n] aT 4 X-fa összes érvényes quartet splitjét. A jól ismert klaszszikus eredmény szerint bármely T fára a Q(T ) halmaz egyértelm˝ uen meghatározza a T -t. Erre a tényre igen sokféle evol´ uciós fa rekonstrukciós módszert alapoztak, amelyek sajnos gyakran vezetnek ellentmondáshoz, mivel szinte sohasem siker¨ ul minden quartetre meghatározni az érvényes splitet, az eredmények általában ellentmondóak. Mint az könnyen kiszám´ıtható, ennek oka a ”hossz´ u” quartetek léte. Ennek a problémának a megoldására vezette be kutatócsoportunk (Mike Steel, Székely László, Tandy Warnow és jómagam) a ”short quartet” módszereket. Quartet alap´ u rekonstrukciós módszereknél alapvet˝oen két problémát kell megoldani. Egyfelöl tudni kell, hogy quartetek milyen (rész)rendszere alkalmas a fa (determinisztikus) meghatározására, másfelöl pedig azt kell eldönteni, hogy quartetek ”zajos” rendszeréb˝ol hogyan kell kiválasztani azokat, amelyek alkalmasak a fa el˝obb eml´ıtett determinisztikus rekonstruálására. Erre az elvi eljárásra többféle módszer is ismeretes. Egy lehetséges mód az, hogy a rendelkezésre álló érvényes quartet splitekb˝ol, az eredeti adatok további vizsgálata nélk¨ ul, következtetési szabályok felhasználásával határozzuk meg a többi splitet. Ha példáaul két érvényes splitb˝ol gyártunk egy harmadikat, akkor egy diadikus szabályt alkalmaztunk. Azt mondjuk, hogy érvényes quartet splitek egy rendszere szemi-diadikusan meghatározza a T fát, ha a legegyszer˝ ubb következtetési szabályok rekurz´ıv alkalmazásával el˝oáll´ıtható a fa minden érvényes quartet splitje (és persze csak azok). Diadikus el˝oáll´ıtásról akkor beszél¨ unk, ha még egy, valamivel bonyolultabb szabályt is alkalmazunk. Maga az eljárás, amikor rekurz´ıvan kiszám´ıtjuk az u ´j quartet spliteket az eredeti quartet halmaz (szemi-)diadikus lez´ ar´ asa. A [12] preprint egyik f˝o eredménye a következ˝o: jelölje LT (q) a q nev˝ u quartet ∗ generálta T|q (nem feltétlen¨ ul bináris) részfában a leghosszabb, a T|S fában egy élbe összeh´ uzódó u ´t élszámát. Ekkor teljes¨ ul:

7

4. T´ etel ([12]). Legyen T ∈ B(n) legal´ abb négy levéllel. Jel¨ olje D(T ) az ¨ oszszes olyan quartet halmaz´ at, amelyekre LT (q) ≤ 18 log n. Ekkor D(T ) szemidiadikus lez´ ar´ asa a levélsz´ am f¨ uggvényében polinomi´ alis id˝ oben el˝ o´ all´ıtja a f´ at. A tétel lehet˝ové tette az irodalomban megtalálható els˝o olyan evol´ uciós fa rekonstrukciós algoritmus megszerkesztését, amelynek teljes valósz´ın˝ uségi anal´ızise elvégzésre ker¨ ult. Az anal´ızis lényeges pontja annak meghatározása, milyen hossz´ u sorozatok elégségesek a levelek jellemzésére, hogy a rekonstrukciós eljárás lényegében 1 valósz´ın˝ uséggel határozza meg a keresett fát. Az algoritmus elméleti jelent˝oségét az adja, hogy - véletlen¨ ul - ez az elégséges karakter szám nagyon közel van a szintén ebben a cikkben meghatározott információelméletileg sz¨ ukséges minimális hosszhoz, ami nagy n estén durván log n. Az is fontos, hogy a futásid˝o is polinomiális (bár nem t´ ul jó paraméterekkel). Az 1997-es [14] cikk a 4. Tételre talált jelent˝os éles´ıtést. Egy T evol´ uciós fában egy él mélysége (depth) az élt˝ol a lehet˝o legközelebbi levélhez vezet˝o u ´t élszáma. A fának magának a d(T ) mélysége pedig a benne található legnagyobb él mélység. 5. T´ etel ([14]). Legyen T egy X-fa n levéllel és legyen ½ µ ¶ ¾ [n] D(T ) = q ∈ : LT (q) ≤ 2d(T ) + 1 4 ahol csak olyan 4-level˝ u részf´ akat vesz¨ unk figyelembe, amelyek k¨ ozéps˝ ou ´tja egyetlen élb˝ ol ´ all. Ekkor T meghat´ arozhat´ o a D(T ) szemi-diadikus lez´ artj´ ab´ ol. A ([15, 16, 17, 18]) cikksorozat részleteiben dolgozta ki a Short Quartet M´ odsze´ rek-t (avagy röviden SQM-t). Erdemes itt megeml´ıteni, hogy a szerz˝ok, Karl Popper szellemében, a séma er˝osségének tekintették a falszifikálás képességét: a módszer felismerte, ha az input elégtelen vagy ellentmondó. A [17] cikk teljes általánosságban bebizony´ıtja az információelméleti alsó korlátot egy X-fa determinisztikus vagy véletlen módszeren alapuló rekonstrukciójához sz¨ ukséges minimális sorozat-hosszra, majd bebizony´ıtja a 5. Tétel egy még er˝osebb változatát. A cikk ezután le´ırja az SQM egyik megvalós´ıtását, a Dyadic Closure Tree Construction algoritmust (rövid´ıtve DCTC algoritmust). Az algoritmus eredményeit a következ˝o módon lehet összegezni: 6. T´ etel. Legyen a Q quartet splitek egy rendszere. Ekkor: (i) Ha a DCTC meghat´ aroz egy f´ at Q-ra, és egy m´ asikat quartet splitek egy b˝ ovebb rendszerére is, akkor a két fa megegyezik. (ii) Ha a DCTC eredménye inkonzisztens, azaz ellentmond´ o quartet splitek is keletkeznek, akkor hasonl´ o t¨ orténik minden b˝ ovebb quartet rendszerre is. ol kisz´ amolni a f´ at, akkor hasonl´ o a helyzet (iii) Ha a DCTC nem képes Q-b´ b´ armely sz˝ ukebb quartet rendszerre is. 8

(iv) Vég¨ ul ha Q ellentmond´ as mentes és eleme minden reprezentat´ıv quartet, akkor a DCTC el˝ o´ all´ıtja a f´ at. Megjegyzend˝o, hogy a cikk a DCTC algoritmusra egy O(n5 ) implementációt mutat be. A DCTC algoritmus-magra sokféle faép´ıt˝o algoritmust lehet alap´ıtani. Ezek mindegyikének quartetek egy-egy Q halmazát kell meghatározni, amely eléggé b˝o ahhoz, hogy tartalmazza az összes reprezentat´ıv quartetet, de eléggé sz˝ uk ahhoz, hogy ne legyen ellentmondó. Az Short Quartet Módszer séma alapfeltevése az, hogyha siker¨ ul a Q meghatározásakor csupa rövid quartet felhasználni, akkor az ellentmodásmentesség automatikusan teljes¨ ul. Egy lehetséges stratégiát a Diadic Closure M´ odszer (DCM) ´ır le: a DCM egy távolság-becslés alap´ u eljárással dönti el, hogy mely quarteteket k´ıvánja rekonstruálni, magát a rekonstrukciót pedig a még Buneman által bevezetett un. four point módszerrel hajtja végre. Ekkor: 7. T´ etel ([17]). Tegy¨ uk fel, hogy a Cavender-Farris modell alatt k karakter fejl˝ odik a T evol´ uci´ os fa mentén, ahol minden e élen a v´ altoz´ as val´ osz´ın˝ uségére teljes¨ ul p(e) ∈ [f, g], ahol f és g az n f¨ uggvényei. Ekkor a DCM m´ odszer 1−o(1) val´ osz´ın˝ uséggel rekonstru´ alja a T f´ at, amennyiben a karakterek sz´ am´ ara teljes¨ ul a c · log n √ k> (2) (1 − 1 − 2f )2 (1 − 2g)4depth(T )+6 ¨ osszef¨ uggés (ahol c valamilyen r¨ ogz´ıtett konstans). Mint a tételb˝ ol látható, a sz¨ ukséges sorozat-hossz a fa mélységét˝ol f¨ ugg, am´ıg más ismert módszerek hatékonysága általában a fa átmér˝ojének a f¨ uggvénye. Ezért a [17] dolgozat ezután két gyakran tekintett valósz´ın˝ uségi eloszlás mellett elemzi a fák mélységét és átmér˝ojét. A két eloszlás: az egyenletes, ahol minden fa egyformán valósz´ın˝ u, és a Yule-Harding féle, amelynél a ”lombosabb” (ezért id˝oben hamarabb kifejl˝od˝o) fák valósz´ın˝ usége nagyobb. A cikksorozat utolsó cikke ([18]) el˝oször k¨ ulönféle távolság alap´ u fa-rekonstrukciós algoritmusok hatékonyságának összehasonl´ıtására fejleszt ki egy módszert. Az ilyen módszerek általában szólva nem a levelekben lév˝o karaktersorozatokkal magukkal foglalkoznak, hanem el˝oször meghatározzák az egyes levelek egymástól való ”távolságát”, amely a sorozatok ”nem hasonlóságán” (dissimilarity) alapulnak: minél kevésbé hasonló két sorozat, annál nagyobb a távolságuk. A cikk f˝o hozzájárulása a quartet módszerek témájához egy u ´jonnan fejlesztett algoritmus a Witness-Antiwitness Method (WAM). Az algoritmus valósz´ın˝ uségi elemzése azt mutatja, hogy a WAM sikeresen képes rekonstruálni a fát a DCM eljár´ aséval lényegében megegyez˝o paraméter tartományban, méghozzá lényegesen gyorsabban, mint a DCM. Az is lényeges, hogy eközben a sz¨ ukséges sorozat-hossz csak kicsit m´ ulja fel¨ ul a DCM-nél sz¨ ukségeset. Az SQM módszerek eddig jelent˝os hatást mutattak az evol´ uciós fák rekonstrukciójának kutatásában. Az egyik legels˝o példa erre a Disk Covering Method, amely módszer az SQM alapján egyéb ismert módszerek heurisztikus fel9

gyorsitását igéri. Az E. Mossel vezette Berkeley-beli kutatócsoport egy sorozat cikkben jelent˝osen kiterjesztette az SQM-ben kifejlesztett elveket. ¨ Osszess´ egében u ´gy gondolom, hogy az ebben a szakaszban kifejett eredmények a legfontosabbak a disszertációban.

X-f´ ak ´ es s´ ulyozott quartetek A fejezet utolsó szakaszában egy Andreas Dress-szel közös eredményt ismertetek ([20]). Legyen X egy véges halmaz és jelölje S2|2 (X) az X össsszes négyeseib˝ol megalkotható 2-2 splitet, azaz nn o¯ ¯ S2|2 (X) := {a, b}, {c, d} ¯ µ ¶ ¾ X {a, b}, {c, d} ∈ ; {a, b} ∩ {c, d} = ∅ , 2 Jel¨ olje E1 = E1 (T ) a T fa összes bels˝o élét, legyen továbbá ` : E1 → R>0 egy tetsz˝oleges, de szigor´ uan pozit´ıv, valós hossz-f¨ uggvény. Minket az a W = WT,` f¨ uggvény érdekel, amelyet a következ˝o módon definiálunk S2|2 (X)-en: X W : S2|2 (X) → R≥0 : ab|cd 7→ `(e) (3) e∈E(ab|cd)

ahol az összegzés a E(ab|cd) halmazra történik, amely az összes olyan e ∈ E élt tartalmazza, amely a T fában szeparálja az a, b leveleket a c, d levelekt˝ol. A W f¨ uggvény nyilván a T |{abcd} részfa ”középs˝o részének” hosszát méri, amennyiben a ab|cd egy érvényes split, egyébként pedig nulla az értéke. A cikk f˝o megfigyelése, hogy a hossz-f¨ uggvény axiomatizálható: van néhány olyan, könnyen látható tulajdonsága, amely biztos´ıtja, hogy az ezeket kielég´ıt˝o nem-negat´ıv valós f¨ uggvények ilyen hossz-f¨ uggvényként áll´ıthatók el˝o.

3.

Szavak rekonstrukci´ oja - DNS k´ odok

A szavak kombinatorikája (combinatorics on words) széles körben vizsgált, jól megalapozott ter¨ ulete a matematikának. A vizsgált objektum általában egy véges Γ = {1, 2, . . . , k} ábécén értelmezett összes véges sz´ o (avagy sorozat) Γ∗ összessége alkotta végtelen poset, amelyet a részsorozatnak lenni reláció rendez el. Ugyanezen objektumok fontos szerepet játszanak a molekuláris biológia alapvet˝o problémáiban is. Ilyenkor a vizsgálandó rendszert le´ıró biológiai sorozatok a négy nukleotidát (A, C, G, T ) tartalmazhatják. Ha DNS helyett RNS sorozatokat vizsgálunk, akkor a T (azaz tymine) helyett U (azaz uracyl) szerepel a sorozatokban. A sorozatok (vagy szavak) vehetik bet˝ uiket az aminosavakból is (az emberi szervezetben ebb˝ol h´ usz féle létezik, de az összes él˝olényben sem ismeretes 26-nál több). Továbbá tekinthetj¨ uk a kromoszómákon el˝oforduló géneket is, ahol a valódi biológiai sorozatokban az egyes gének egynél nagyobb multiplicitással és kétféle irány´ıtással is szerepelhetnek. Ezeknél a sorozatoknál 10

k¨ ulönféle véges optimalizálási szám´ıtásokat kell elvégezni. Ezekkel a feladatokkal a string (f˝ uzér) algoritmusok tudománya foglalkozik.

Hib´ akat is megenged˝ o param´ eteres p´ arosit´ asok Ebben a szakaszban a string elmélet egyik alapvet˝o problémájának egy általános´ıtását tárgyalom a [24] cikk alapján. A k¨ ulönféle string keresések a szám´ıtógépes eljárások egyfajta alapvet˝o ”primit´ıvjei”: olyan ép´ıt˝oelemek, amelyeket a legk¨ ulönfélébb eljárásokban használnak. A szokásos megfogalmazásánál adott egy (általában hossz´ u) sz¨ oveg (text), és egy (általában sokkal rövidebb) minta (pattern), ahol a minta összes szövegbeli el˝ofordulását kell megtalálni. Ezt h´ıvják a minta p´ aros´ıt´ as´ anak. Az alapprobléma sokféle változata ismert: megengedhet¨ unk például korlátos szám´ u hibát a minta el˝ofordulásában, vagy törléseket illetve besz´ ur´ asokat is. A paraméteres változatban a szöveg és a minta ábécéje k¨ ulönbözhet egymástól, és akkor gondoljuk, hogy egy adott pozicióban a minta megjelenik a szövegben, hogyha létezik a két ábécé között olyan injekt´ıv leképezés, ami teljes aznosságot garantál. A probléma a software engeneeringben, programok tömör´ıtésénél mer¨ ult fel. A k¨ ozel´ıt˝ o (hib´ akat megenged˝ o) paraméteres páros´ıtás a következ˝o feladatot jelenti: legyen t = t1 t2 ...tn egy (hossz´ u) szöveg és legyen p = p1 p2 ...pm egy (rövidebb) minta, amelyek az (esetleg) eltér˝o Σt és Σp ábécé fölöttiek. Ezután mindegyik i szöveg-pozicióhoz keress¨ uk azt a πi : Σp → Σt injekciót, amely maximalizálja a megegyezések számát a πi (p) leképzett minta és a ti ti+1 ...ti+m−1 szövegdarab között (i = 1, 2, ...n − m + 1). √ A probléma általános esete könnyen megoldható O(nm( m+log n)) lépésben, ha a kérdést a szöveg minden poziciójában visszavezetj¨ uk páros gráfok maximális s´ uly´ u páros´ıt´ asaira (ez már 1974-ben is ismert volt). A [24] cikk azt az esetet vizsgálja, amikor mind a szöveg, mind a minta futamokkal van kódolva: megadjuk az els˝o pozicióban lev˝o bet˝ u megszak´ıtás nélk¨ uli, (maximális szám´ u) egymást követ˝o el˝ofordulásainak számát, majd megadjuk a rák¨ ovetkez˝o bet˝ ut, és annak a multiplicitását, stb. Jelölje rt és rp a szövegben illetve a mintában jelenlev˝o futamok számát. A dolgozat egy O(rp × rt ) id˝o komplexitás´ u algoritmust fejleszt ki arra az esetre, amikor legalább az egyik ábécé bináris. A futásid˝ot terheli még egy (szöveghosszban) lineáris el˝okész´ıt˝o fázis, továbbá egy logaritmikus szervezési overhead.

Szavak rekonstrukci´ oja - klasszikus eset A Sziklai Péterrel és David Torney-val közös [19] cikk a véges Γ ábécéb˝ol vett szavak alkotta véges posetekkel foglalkozik: legyen P (n) az ábécé bet˝ uib˝ol vett összes, legfeljebb n hossz´ u sorozat részben rendezett halmaza. A kapott posetben a szavak hossza egy alkalmas rang f¨ uggvényt határoz meg, ezért a P (n) poset (n) szintezett. Jelölje Pi az i-edik szintet, amely az összes i hossz´ u részsorozatból áll (0 ≤ i ≤ n). 11

M´ıg a végtelen változat napjainkban rengeteget vizsgált objektum, addig a véges változat szinte semmilyen figyelmet sem kapott. Jelent˝oségét többek között az adja, hogy a DNS vizsgálatokban használt t¨ orlés - besz´ ur´ as (delitioninsertion) metrikán (avagy Levenshtein távolságon) alapuló hibajav´ıtó kódok tanulmányozásának természetes közege lehet. A dolgozat el˝oször is meghatározta a P (n) poset automorphismus csoportját, közben u ´j, egyszer˝ u bizony´ıtást adott Burosch és kollégáinak régebbi eredményeire kételem˝ u ábécék felett. A módszer továbbfejleszthet˝o az általános ábécé esetére is, ezt Ligeti Péter és Sziklai Péter végezte el. Ezután a poset klasszikus kombinatorikai tulajdonságait vizsgáltuk meg. Könnyen látható, hogy az azonos hossz´ u szavak eltér˝o méret˝ u (alsó) árnyékokkal rendelkezhetnek. Ugyanakkor teljes¨ ul, hogy: 8. T´ etel. Legyen ξ egy r¨ ogz´ıtett sorozat és legyen j olyan egész, hogy |ξ| ≤ j ≤ n. Ekkor azon j-sorozatok sz´ ama, amelyek ξ-t részsorozatként tartalmazz´ ak a k¨ ovetkez˝ o: j−|ξ| µ ¶ X j N (j, ξ; k) = (k − 1)i . i i=0 Ennek köbetkezményeként azt is meg lehetett mutatni, hogy a poset rendelkezik a normalizált matching tulajdonsággal, ezért BLYM tulajdonság´ u is. Szavak rekonstrukci´ oja line´ aris id˝ oben Ebben a részben az Andreas Dressel közös [22] cikk alapján a véges Γ ábécé feletti n-hossz´ u szavak részszavaiból lineáris id˝oben történ˝o rekonstrukcióját tárgyalom. Simon Imre 1975-ben megmutatta, hogy a véges Γ ábécé felett minden 2m+1 hossz´ u szót egyértelm˝ uen meghatároz legfeljebb m + 1 hossz´ u részszavainak ´ halmaza. Erdemes megjegyezni, ha a részszavak halmazán k´ıv¨ ul minden egyes részszó multiplicit´ uk, akkor minden szót egyértelm˝ uen meghatároz √ asát is ismerj¨ a legfeljebb ∼ 7 n hossz´ u részszavainak kollekciója. Az ismert megközel´ıtések csupán egzisztencia bizony´ıtást adtak Simon tételére, azonban nem vizsgálták a rekonstrukciót ténylegesen végrehajtó algoritmust. A jelzett cikkben megmutattuk, hogy ha 9. T´ etel. Adott a legal´ abb kételem˝ u Γ ´ abécé, tov´ abb´ a az n és m természetes sz´ amok, ahol 2m > n, akkor b´ armely w ∈ Γ[n] sz´ o rekonstru´ alhat´ o |Γ| + 2n kérdéssel legeljebb m hossz´ u részszavainak halmaz´ ab´ ol.

Szavak rekonstrukci´ oja - ford´ıtott komplemens eset Ebben a szakaszban a [25] cikk eredményeit ismertetem. Legyen Γ = {a, a ¯; b, ¯b} ahol a bet˝ uk un. komplemens p´ arokban vannak. Definiáljuk a követ¯ = a, ¯b = b továbbá valamely w = w1 w2 ...wt szóra legyen kez˝o m˝ uveleteket: a w e = wt wt−1 ... w1 , amelyet az eredeti szó ford´ıtott (reverse) komplemensének nevez¨ unk. Könnyen látható, hogy (g w) e = w. Ezután minden szót azonos´ıtunk 12

a ford´ıtott komplemensével. Ezek után a ford´ıtott komplemens rendezésben w ≺ v (azaz az els˝o megel˝ ozi a másodikat) akkor és csakis akkor teljes¨ ul, ha w részszava v-nek vagy részszava ve-nek. Jelölje most S(m, w) mindazon legfeljebb m hossz´ u v szavakat, amelyek megel˝ozik w-t (azaz vagy w vagy w e szavak részszavai). A Simon Imre tételének megfelel˝o kérdés az, hogy milyen hossz˝ u w szavakat lehet biztosan rekonstruálni az S(m, w) halmazból. A cikk egyik f˝o eredménye a következ˝o áll´ıtás: u w ∈ {a, a ¯}∗ sz´ ot egyértelm˝ uen 10. T´ etel. (i) Minden legfeljebb 3m − 1 hossz´ meghat´ aroz a hossza, tov´ abb´ a részszavainak S(2m, w) halmaza. (ii) Minden legfeljebb 3m+1 hossz´ u (m > 1) sz´ ot, amely tartalmaz bet˝ ut mind az (a vagy a ¯) mind a (b vagy ¯b) p´ arb´ ol, egyértelm˝ uen meghat´ aroz a hossza, tov´ abb´ a részszavainak S(2m, w) halmaza. Az utóbbi áll´ıtás akkor is igaz marad, ha a w szó k ≥ 2 k¨ ulönféle komple´ mens párból tartalmaz bet˝ uket. Erdemes megjegyezni, hogy a bizony´ıtásokban a nehézséget minden¨ utt az jelenti, hogy bár sok (megel˝oz˝o) részszó van jelen, nem tudjuk róluk, hogy a szónak, vagy annak ford´ıtott komplemensének a részszavaie. Ez ad magyarázatot arra is, miért kell ennyivel hosszabb részszavakat ismern¨ unk a ford´ıtott komplemens esetben. Azt is érdemes hozzátenni, hogy ebben az esetben még nem ismeretes a rekonstrukció komplexitása.

DNS k´ odok Az el˝oz˝o szakaszban le´ırt részbenrendezés a szokásos Levenshtein (vagy delition - insertition) metrikához hasonló távolság fogalmat eredményez. Itt is lehet ennek megfelel˝oen hibajav´ıtó kódokat keresni. Ezeknek már a Human Genome program idején nagy gyakorlati hasznunk volt, és megkonstruálásuk kézzel, heurisztikus alapon történt. A sokszerz˝os [21] cikk ennek a problémának próbált elméleti megalapozása lenni. F˝o célja a fogalmak és feladatok rögz´ıtése volt. A téma meglep˝oen népszer˝ u, a cikk megjelenése óta eltelt sz˝ uk egy évben már jónéhány hivatkozás történt rá.

Hivatkoz´ asok [1] P.L. Erd˝ os - L. A. Sz´ ekely: Evolutionary trees: an integer multicommodity max-flow – min-cut theorem, Advances in Appl. Math 13 (1992) 375-389. [2] P.L. Erd˝ os - L.A. Sz´ ekely: Algorithms and min-max theorems for certain multiway cuts, Integer Programming and Combinatorial Optimization (Proc. of a Conf. held at Carnegie Mellon University, May 25-27, 1992, by the Math. Programming Society, ed. by E. Balas, G. Cornu` ejols, R. Kannan) 334-345. ekely - P.L. Erd˝ os : Spectral analysis and a closest [3] M.A. Steel - M.D. Hendy - L.A. Sz´ tree method for genetic sequences, Appl. Math. Letters 5 (1992), 63-67. [4] L.A. Sz´ ekely - P.L. Erd˝ os - M.A. Steel: The combinatorics of evolutionary trees–a survey, S´ eminaire Lotharingien de Combinatoire, (Saint-Nabor, 1992), D. Foata, ´ ed, Publ. Inst. Rech. Math. Av. 498 (1992), 129–143.

13

[5] L.A. Sz´ ekely - P.L. Erd˝ os - M.A. Steel - D. Penny: A Fourier inversion formula for evolutionary trees, Appl. Math. Letters 6 (1993), 13-17. [6] L.A. Sz´ ekely - M. Steel - P.L. Erd˝ os: Fourier calculus on evolutionary trees, Advances in Appl. Math 14 (1993), 200-216. [7] P.L. Erd˝ os - L. A. Sz´ ekely: Counting bichromatic evolutionary trees, Discrete Applied Mathematics 47 (1993), 1-8. [8] M.A. Steel - L.A. Sz´ ekely - P.L. Erd˝ os - P. Waddell: A complete family of phylogenetic invariants for any number of taxa, NZ Journal of Botany, 31 (1993), 289-296. [9] P.L. Erd˝ os : A new bijection on rooted forests, Discrete Mathematics 179-188.

111 (1993),

[10] P.L. Erd˝ os - L. A. Sz´ ekely: On weighted multiway cuts in trees, Mathematical Programming 65 (1994), 93-105. [11] L.A. Sz´ ekely - P.L. Erd˝ os - M.A. Steel: The combinatorics of reconstructing evolutionary trees, J. Comb. Math. Comb. Computing 15 (1994), 241-254. [12] M.A. Steel - L.A. Sz´ ekely - P.L. Erd˝ os: The number of nucleotide sites needed to accurately reconstruct large evolutionary trees, DIMACS, Rutgers University, New Brunswick, New Jersey, USA 1996.DIMACS Technical Reports 96-19 os - A. Frank - L.A. Sz´ ekely: Minimum multiway cuts in trees, Discrete Appl. [13] P.L. Erd˝ Math. 87 (1998), 67–75. [14] P.L. Erd˝ os - M.A. Steel - L.A. Sz´ ekely - T.J. Warnow: Local quartet splits of a binary tree infer all quartet splits via one dyadic inference rule, Computers and Artificial Intelligence 16 (1997), 217-227. os - K. Rice - M.A. Steel - L.A. Sz´ ekely - T.J. Warnow: The Short Quartet [15] P.L. Erd˝ Method, to appear in Math. Modelling and Sci. Computing Special Issue of the papers presented at the Computational Biology sessions at the 11th ICMCM, March 31 - April 2, 1997, Georgetown University Conference Center, Washington, D.C., USA. [16] P.L. Erd˝ os - M.A. Steel - L.A. Sz´ ekely - T.J. Warnow: Constructing big trees from short sequences, Automata, Languages and Programming 24th International Colloquium, ICALP’97, Bologna, Italy, July 7 - 11, 1997, (P. Degano,; R. Gorrieri, A. MarchettiSpaccamela, Eds.) Proceedings (Lecture Notes in Computer Science. Vol. 1256) (1997), 827-837. [17] P.L. Erd˝ os - M.A. Steel - L.A. Sz´ ekely - T.J. Warnow: A few logs suffice to build (almost) all trees (I), Random Structures and Algorithms 14 (1999), 153-184. [18] P.L. Erd˝ os - M.A. Steel - L.A. Sz´ ekely - T.J. Warnow: A few logs suffice to build (almost) all trees (II), Theoretical Computer Science, 221 (1-2) (1999), 77–118. os - P. Sziklai - D. C. Torney: A finite word poset, Electr. J. Combinatorics, 8 [19] P.L. Erd˝ No 2. (2001), R# 8. [20] A.W.M. Dress - P.L. Erd˝ os: X-trees and Weighted Quartet Systems, Ann. Combin. 7 (2003), 155-169 [21] A.G. D’yachkov - P.L. Erd˝ os - A.J. Macula - V.V. Rykov - D.C. Torney - C-S. Tung P.A. Vilenkin - P. Scott White: Exordium for DNA Codes, J. Comb. Opt. 7 (4) (2003), 369–379. [22] A.W.M. Dress - P.L. Erd˝ os: Reconstructing Words from Subwords in Linear Time, Annals of Combinatorics, 8 (4) (2004), 457–462.

14

[23] P.L. Erd˝ os - P. Ligeti - P. Sziklai - D.C. Torney: Subwords in reverse complement order - extended abstract, invited paper to Proc. Conf. on ”Combinatorial and Algorithmic Foundations of Pattern and Association Discovery” - Schloss Dagstuhl, International Conference And Research Center For Computer Science, Germany May 14-19. 2006, 1–7. os - M. Lewenstein: Parameterized Matching with Mismatches, [24] A. Apostolico - P.L. Erd˝ J. of Discrete Algorithms 5 (2007), 135–140. [25] P.L. Erd˝ os - P. Ligeti - P. Sziklai - D.C. Torney: Subwords in reverse complement order, Annals of Combinatorics 10 (2006) 415–430.

15

Bioinformatikai eredetű kombinatorikai problémák

Recommend Documents