Eötvös Loránd Tudományegyetem
ELTE Regionális Egyetemi Tudásközpont
eeSScciieennccee KKoonnzzoorrcciiuum m ((RREETT--1144//22000055))
Tartalomjegyzék VEZETŐI ÖSSZEFOGLALÓ .......................................................................................................... 3 SZAKMAI FELADATOK ................................................................................................................ 5 KITŰZÖTT CÉLOK ..................................................................................................................... 23 EREDMÉNYEK ÉS HASZNOSÍTÁS .............................................................................................. 24
2
VEZETŐI ÖSSZEFOGLALÓ Az Eötvös Loránd Tudományegyetem, a Delta Informatika ZRt., az econet.hu NyRt. és a MultiRáció Kft. 2005. novemberében írták alá a három évre szóló támogatási szerződést, amellyel egy időben megkezdődtek a kutatások az eScience Regionális Egyetemi Tudásközpont keretein belül. Az együttműködés részleteinek teljes kidolgozása után került sor a konzorciumi szerződés aláírására 2006. augusztus 3-án. A Központ költségkerete a teljes időtartamra összesen 1100 millió forint, amelyből 800 millió forintot az NKTH biztosított a Pázmány Péter program keretében, a további 300 millió forint pedig a konzorcium által vállalt önrész. A Tudásközpont fő feladata, hogy az ELTE-n meglévő tudásbázis alapján, a gyakorlati hasznosulás figyelembevételével kutatás-fejlesztési feladatokat végezzen, akár külső megrendelésre, akár partneri alapon, együttes fejlesztéskeretében, illetve tanulmányokat készítsen meghatározott célra, vagy tanfolyamokat tartson kompetenciája területén. Az eScience RET célja, hogy összekapcsoljon jelenleg külön kutató tudományterületeket, úgymint biológiát, fizikát, matematikát, valamint informatikát, és ezáltal az említett négy tudományterület eszközeit, módszereit ötvözve új kohéziót hozzon létre. Az Eötvös Loránd Tudományegyetemen rendelkezésre áll mind a szükséges informatikai, mind a természettudományi háttértudás, amely sikeressé teheti a kitűzött cél megvalósítását. Az ország egyik legnagyobb egyeteme számos, a nemzetközi élvonalba tartozó kutatóval rendelkezik, és ez biztosítja a szükséges tömegű szakember összehozását egy Tudásközpontban. Az eScience kifejezést egy új, feltörekvő technológiára használják, amelynek révén nagyléptékű, komplex tudományos tevékenység fejthető ki a modern információtechnológia felhasználásával. Az eScience az alkalmazott tudomány, az alapkutatás, valamint az információtechnológia igazi interdiszciplináris egymásra hatásából született, megteremti mind az alkalmazott kutatásokban, mind az információtechnológiában a 21. századi új minőséget. Alapvetően a korábbi egyetemi kutatások nagy részénél, sőt még az iparban zajló kutatások esetében is az egyes tudományterületek a saját eszközeikkel, saját megközelítésükkel próbálták megoldani a tudományos kérdéseiket. Volt elképzelés arra, hogyan kell elindulni, de sokszor ez nem elegendő a kérdések megválaszolására, a valóság magyarázatára. Nagyon sok kutatás emiatt nem sikerült, illetve a tudományterületek nagy részén a szakemberek olyan kérdésekkel kerültek szembe, amelyeket a saját eszközeikkel nem tudtak megoldani. Az eScience azért jött létre, hogy összekapcsolja a jelenleg külön kutató tudományterületeket, és az eddig vizsgált biológiai, fizikai, matematikai vagy éppen informatikai problémákra a többi tudományterület eszközeivel találjon megoldást ipari partnereivel, a Delta Informatika ZRt.vel, az econet.hu Nyrt.-vel és a MultiRáció Kft.-vel karöltve. A közös munka eredményeképpen olyan termékek és eljárások születnek a bioinformatika, az adatbányászat, de akár a gazdasági folyamatok modellezése terén is, melyek önálló piaci értékkel bírnak. Az eScience RET projektjei három kutatási téma köré csoportosulnak: bioinformatika, hálózati informatika és virtuális obszervatórium. Az újdonság az eScience különböző kutatási területeinél a hálózati struktúra feltérképezése és az interaktív adatbázisok felhasználása. Mindezt teszik a projektek úgy, hogy a kutatás-fejlesztés során felhasználják a fent említett tudományterületek kombinált eszköztárát és módszereit. Sikereiket ezzel a szintetikus megközelítésmóddal érik el, melynek révén képesek túlhaladni az eddigi kutatás-fejlesztési eredményeken. Napjaink kihívása az eddig összegyűjtött tengernyi információ feldolgozása, rendszerezése, az információáradatból a lényeges elemek kiszűrése – az eScience RET ennek a technológiának
3
áll az élvonalában. A Tudásközpont kiemelt projektjei a nagymértékű komplex hálózatok kezelési módszereinek kifejlesztése; a gyógyszertervezést segítő szerkezeti intelligens adatbázismodell kifejlesztése, valamint a virtuális obszervatórium technológia kifejlesztése. Az eScience RET fő feladatának tekinti, hogy kutatási eredményeinek kézzelfogható gyakorlati haszna is legyen a társadalom számára. Az eScience projektjeinek eredményeképpen például olyan adatbázisok jönnek létre, amelyek hatékonyabb, célzott gyógyszerek kifejlesztését segítik elő, megnövelik a munkaügyi statisztikák pontosságát egyben csökkentve költségeiket, felgyorsítják a szoftverfejlesztés folyamatát, biztonságosabbá teszik az energiaellátást, a virtuális obszervatórium technológia pedig csökkenti bizonyos kísérletek költségét, és elérhetővé teszi a kísérletezést mindenki számára. Az elért eredmények hasznosítását az ELTE Tudás- és Technológiatranszfer Iroda végzi, átvilágítva a folyó kutatási projekteket, majd számukra potenciális ipari partnereket felkutatva. A Technológiatranszfer Iroda nem csak az eredmények hasznosítására koncentrál, hanem kezdeményezi új partnerek belépését, illetve bevonását is a kutatás-fejlesztésbe. Az Iroda végzi ezen felül a marketing, kommunikációs tevékenységet is annak érdekében, hogy megismertesse az eScience RET működését és eredményeit a lehetséges partnerekkel és a sajtóval. 2007-ben az eScience konzorciumot és az újonnan induló, rendszerbiológiai kutatásokat folytató CellKom konzorciumot sikeresen integráltuk az ELTE Regionális Egyetemi Tudásközpontba. Az integráció szerencsésen nemcsak a menedzsment szintjén valósult meg, hanem a kutatócsoportok is megtalálták a közös nyelvet, és közös projekteket indítottak el. A rendszerszemlélet, az informatika eredményeinek jelentős felhasználása a kutatásban megalapozta azt a közös platformot, amivel a két konzorcium a jövőben egységes keretek között, közösen tud dolgozni, az eddigi eredményes közös kutatások pedig példát is mutattak, hogy ez a modell működőképes. Az eScience Konzorcium számos eredményt ért el működésének 3 éve alatt. Egyik fő eredmény, hogy létre tudott hozni egy olyan szervezetet az Eötvös Loránd Tudományegyetemen belül, mely képes nagyléptékű kutatások sikeres végrehajtására szoros együttműködésben az ipari partnerekkel. Ennek a tevékenységnek nagy visszhangja volt az egyetemen, és számos tehetséges kutató a tevékenységet sikeresnek ítélve keresi fel a központot, segítséget kérve kutatási feladatának menedzseléséhez. Számos ipari partnert értünk el, akik elismerve teljesítményünket, pályázatokat adtak be a Tudásközponttal, illetve megrendeléseket készítettünk elő. A Tudásközpont bekapcsolódott két EU FP7-es ICT pályázatba is. Az elmúlt 3 év azonban még nem bizonyult elégségesnek a hasznosítás terén. A Bioinformatika program egyes eredményei most vannak a hasznosítási fázisban, de konkrét eredményt még nem tudnak felmutatni, más eredményei jelentős visszhangot váltottak ki, de hasznosításuk még csak most kezdődhet. A Hálózati Informatika program elkészült egy késztermékkel, melynek hasznosítása most folyik, valamint egy olyan prototípussal, melynek késztermékké fejlesztése most kezdődhet csak el. Ezenkívül kifejlesztettünk szolgáltatásokat is, melyek ha lassan is, de hoznak bevételt. A Tudásközpont céljai között szerepel tevékenységi körének kibővítése, a különböző tudományterületek nagy volumenű kutatásainak menedzselése. Ezáltal a pénzügyi és adminisztratív folyamatok a kutatók számára egyszerűbbé és átláthatóbbá válnak, ők pedig így kizárólag a szakmai tevékenységükre koncentrálhatnak.
4
SZAKMAI FELADATOK 2.1 Biomimetikus neuronális hálózatok evolúciója Projektvezető: Dr. Szathmáry Eörs, egyetemi tanár Áttekintés A kommunikáció és különösen a nyelv megjelenésének mikéntje az evolúció során még nyitott tudományos kérdés, hasonlóképpen a nyelvi képességekkel rendelkező robotok, szoftverek (továbbiakban ágensek) kifejlesztése is. Kutatás-fejlesztésünk célja, hogy olyan szoftverkeretrendszert (ENGA) készítsünk, amely lehetővé teszi, hogy evolúciósmódszerekkel hozzunk létre különféle feladatokra szelektált, neuronális hálózattal rendelkező ágenseket. Erre a rendszerre alapul a kommunikáció és a nyelv evolúciójának kutatása is, amelyben a „mesterséges idegrendszerrel” rendelkező ágensek csoportjainak kell kooperációs feladatokat megoldaniuk. Itt fontos szerepet játszik ama tulajdonság, hogy az egyes ágensek újabb és újabb feladatokban is felhasználhatóak legyenek. Eredmények Kliensprogram ENGA-hoz: Az általunk fejlesztett ENGA (Evolutionary Neurogenetic Algorithm), mint szoftverkeretrendszer neuroevolúciós kísérletek széles körének elvégzésére alkalmas. Eredetileg egy statikus kódkönyvtár formájában volt használható, ami azt jelentette, hogy minden egyes új kísérletet, és a régi kísérletek legkisebb módosítását is programozási munkával kellett megvalósítani. Mivel a megcélzott felhasználói réteg inkább biológusokból áll, akiktől nem várható el a magas szintű programozási tudás, szükségessé vált egy felhasználóbarát kliensprogram elkészítése. A kísérletek tervezésén („scripting”) túl a felhasználók ezzel a klienssel tudják a kísérleti paramétereket állítani, projekteket és kísérletsorozatokat nyilvántartani, valamint a szimulációs eredményeket vizualizálni. Az első munkaszakaszban a projekt- és kísérlet-nyilvántartási funkciót valósítottuk meg, valamint megterveztük a scripting és a paraméterállítási modult. A kliensprogram a népszerű Eclipse (www.eclipse.org) fejlesztőkörnyezetbe épülő pluginként készült el. A projektek és kísérletek a szerveroldalon vannak tárolva Postgres (opcionálisan Oracle) adatbázisban, amit a kliens JBoss (www.jboss.org) alkalmazásszerveren keresztül ér el. Robotszimulátor integráció: A szimbolikus referenciára és szintaktikus nyelvi operációkra képes neuronális hálózatok felé az út nagy valószínűséggel a valós környezetbe helyezett, egymással kommunikáló ágenseken keresztül vezet. A lefuttatandó kísérleteknek egy része ezért valamilyen (szimulált vagy valós) fizikai környezetbe helyezett feladat volt. A valós időnél gyorsabb szimulációs idő előnye miatt először mindenképpen valamilyen korlátozott fizikai világ szimulátor használata látszott célszerűnek, ahol a fizikai törvények nem teljesen vannak jelen, viszont emiatt nincs nagy számítási igény. Választásunk a svájci École Fédérale Politechnique de Lausanne Laboratory of IntelligentSystems laborja által kifejlesztett ENKI robotszimulátorra esett (http://lis.epfl.ch/resources/enki/). Ez egy2 dimenziós robotszimulátor a legnépszerűbb mobil robotfajtákkal (Khepera, Alice, Sbot, ePuck). Munkánk során megismertük az ENKI kódkönyvtár elemeit és használatukat. Az integrációt az ENGA neuroevolúciós szoftverrel egy konkrét szimuláción keresztül valósítottuk meg. Az eredmény sikeresen demonstrálta a két szoftver együttműködését. A közeljövőben tervezünk egy vizualizációs felületet az ENKI-vel futtatott szimulációk eredményeinek megjelenítésére, valamint integrációt további robotszimulátor platformokkal. Ágensek genomjainak kézi szerkesztését támogató program: Elkészítettünk egy olyan programot, amely egy megadott XMLSchema segítségével lehetővé teszi, hogy ágenseinket egy parancssori felületről szerkesszük, esetleg létrehozzuk. A program felajánlja a lehetséges mó5
dosításokat, és az egyes módosítások során figyeli a függőségeket, azaz azt, hogy a felhasználónak egy paraméter megadásakor milyen más paramétereket kell megadnia. Ennek a programnak a segítségével viszonylag könnyen és hatékonyan szerkeszthetünk genomokat és kerülhetjük el a hibákat. Ágensek hatékony szelekciója: A darwini természetes szelekción alapuló számítógépes szimulációk egyik kulcslépése a halálozás. Az, hogy egy adott szimuláció keretein belül sikerül-e evolváltatni bizonyos tulajdonságokkal rendelkező ágenseket, függhet a halálozási folyamat milyenségétől. A futtatások során többféle szelekciós modellt alkalmaztunk (random, leastfit, kor-limitált), hogy kiderítsük, melyik modell mellett milyen populációstruktúrát kapunk, illetve melyik modell mellett fejlődik ki a leggyorsabban az általunk keresett jelleg. A futtatásainkból az derült ki, hogy a leastfit szelekciós mechanizmus a leghatékonyabb, ezért a további futtatásoknál is ezt használtuk. Játékelméleti feladatok megoldására képes ágensek (neuronális hálózatok) szelektálása: Az ENGA szoftver lehetővé teszi, hogy az általa létrehozott ágensek – a megfelelő szelekciós környezetet megteremtve – evolválhassanak. A cél végső soron a szimbolikus nyelv kialakulása lenne ezen ágensek esetében, ezért a megfelelő szelekciós környezet kialakításához evolúciós játékelméleti megfontolásokból kifolyólag a páros mátrixjátékok igen alkalmasak. A tesztfutások során az ágensek két egyszerű, 2x2 felépítésű mátrixjátékot játszhattak egymással, melyekben egyirányú kommunikáció előzte meg a tényleges játékot (azaz az ágensek egyike egy szignált juttatott el a másikhoz még a tényleges játék lezajlása előtt). A kétféle mátrixjáték a koordinációs (ahol mindkét ágensnek ugyanazt a lépést kell választania), illetve a munkamegosztásos játék (ahol az ágensek akkor járnak jól, ha ellentétes lépéseket választanak). Nem csak azért esett a választás az említett két játékra, mert viszonylag könnyen implementálhatóak és integrálhatóak az ENGA szoftverbe, hanem elsősorban azért, mert mindkettő alaposan kutatott a közgazdaságtanban, és mind elméletben, mind gyakorlatban bizonyítást nyert, hogy az egyirányú, költségmentes, a játékot megelőző kommunikáció (az ún. „olcsó beszéd”) képes megoldani a koordinációs problémákat mind a koordinációs, mind a munkamegosztásos játékokban. Ebből kifolyólag elvárható, hogy az általunk tesztelt ágensek e játékok mellett az evolúció során képesek legyenek eljutni a szignálok használatához. Az ágensek által használt szignálok vizsgálata alátámasztja ezt a konklúziót. Az egyes populációkban olyan konvenciók alakultak ki, melyek lehetővé tették a környezet értékének hatékony kommunikációját. További lépések A jelenlegi, absztrakt szimulációk mellett szeretnénk a térben explicit modelleket továbbfejleszteni, például robotszimulátorok alkalmazásával. Az ilyen szimulációk menetközbeni nyomonkövetésére monitoring funkcionalitást szeretnénk beépíteni a kliens felületbe. Tervezzük, hogy a nyelvtani szerkezeteket feldolgozó ágenseket továbbfejlesztjük, további kutatásokat végzünk annak érdekében, hogy az evolúciós módszerekkel hosszabb struktúrákat is értelmezni tudjunk.
2.2 Molekuláris kölcsönhatás ujjlenyomata Projektvezető: Dr. Málnási-Csizmadia András, tudományos főmunkatárs Áttekintés A gyógyszerek engedélyezésének nem feltétele a gyógyszer hatásmechanizmusának pontos ismerete: első lépésben elegendő, ha egy vegyület hatásos. Még a legígéretesebb gyógyszerjelölt molekuláknál is előfordulhat azonban, hogy az in vivo fázisban nemkívánatos mellékhatások lépnek föl, melyek végül annak elvetéséhez vezetnek. Ezen probléma kiküszöbölésére
6
csoportunk egy új, in silico megközelítést alkalmaz, melynek a gyógyszertervezés korai szakaszában történő használata a költséghatékonyság jelentős növekedését eredményezheti. A projekt egy olyan új, általunk kidolgozott számítógépes eljáráson alapul, amely alkalmas lehet gyógyszerjelölt molekulák mellékhatásainak szerkezeti alapon történő előrejelzésére. Célunk egy internet alapú komplex szolgáltatás létrehozása, amely a megrendelő számára prediktálja egy potenciális hatóanyag hatás- és mellékhatás-profilját molekuláris dokkolás segítségével. A projekt keretében összegyűjtöttük az FDA által elfogadott kismolekulájú gyógyszerhatóanyagok és ezek célfehérjéinek térszerkezeti és egyéb adatait, majd a kismolekulákat a fehérjeszerkezetekre dokkoltuk. A dokkolási energiákat egy mátrixba rendezve megállapítható, hogy a kismolekulák kölcsönhatási energiái minden esetben jellegzetes, egyedi mintázatot alkotnak, ez a molekuláris interakciós ujjlenyomat (Molecular Interaction Fingerprint, MIF). A MIF-ek hasonlósága arra utal, hogy az adott kismolekulák potenciálisan hasonló kölcsönhatási partnerekkel rendelkeznek, amiből pedig a várható hatásokra és mellékhatásokra lehet következtetni. A projekt két alapvető adatbázisa a kölcsönhatási energiákat tartalmazó adatmátrix és a mellékhatások gyűjteménye. A fő tudományos célkitűzés a két adattömeg közti korreláció feltárása. Eredmények Minden kismolekula és fehérjemolekula, valamint 50 ciklodextrin dokkolása megtörtént, az összes fehérjéhez elkészítettük a dokkolási paraméterfájlokat. Létrehoztuk a kölcsönhatási és molekuláris adatbázisok szerkezetét, és elvégeztük az ismert szerkezetű fehérjék módosított szerkezeti adatainak feltöltését és mátrixba rendezését. A dokkoláshoz használt Autodock program futtatásához egy adott számítógépen a stack méretét fel kell emelni (vagy „unlimit”re kell beállítani), ehhez a GRID-en levő számítógépeken magas felhasználói jogok szükségesek, ami megnehezítheti a használatot. Ezen probléma kiküszöbölése érdekében, illetve mivel tartósan nagy számítási igényre van szükség, a Delta Informatika ZRt. felépített egy jelenleg 22 db processzorból álló számítási mátrixot, amely a későbbiek folyamán természetesen tovább bővíthető. Ezen számítási rendszer használatához kialakítottunk egy programrendszert, amely segítségével a távolból lehet vezérelni a folyamatokat, a dokkolási feladatokat ki lehet adni, illetve az eredményeket meg lehet tekinteni. A próbafuttatások eredménye sikeres volt. A fehérje-ligandum kölcsönhatások validálására kifejlesztettünk és megépítettünk egy új kísérleti apparátust, a heat-jump/stopped-flow berendezést. Ennek segítségével az enzimreakciók vizsgálata igen széles hőmérsékleti tartományban valósítható meg. A műszer alkalmas továbbá fehérjék termikus denaturációjának vizsgálatára, melynek alapján reményeink szerint a jövőben lehetségessé válhat hőstabil fehérjék tervezése. Konzorciumi partnerünkkel, a Delta Informatika Zrt.-vel közösen beindítottuk a webes szolgáltatás működő prototípusát. A teszteléseket, az a datbázisok véglegesítését és az üzleti modell kidolgozását követően a szolgáltatást 2008 tavaszán indítottuk be (www.mifdb.com). A felhasználó által megvizsgálni kívánt molekula szerkezete berajzolható az implementált interaktív (ASPalapú) JChem modul segítségével, továbbá megadható SMILES string formájában, illetve lehetőség van a szerkezeti fájl feltöltésére a legelterjedtebb standard formátumokban. A szerver a dokkolási kérelmet egy párhuzamos környezet vezérlő szoftveren keresztül kiosztja több számítógépnek, amelyek automatikusan elvégzik a dokkolást azAutoDock3 szoftver segítségével a korábban általunk megadott paraméterek szerint. A dokkolások lefutásáról, a MIF elkészültéről a rendszer a felhasználónak e-mail üzenetet küld. Ezután az elkészült MIF-nek a forgalomban lévő szerek MIF-jével való összevetése alapján, a gyógyszerek adatlapjain megtalálható hatás- és mellékhatás-információkat felhasználva predikció készíthető a feltöltött molekula várható hatásairól és mellékhatásairól. A cyclodextrin formulációk révén oldható antioxidánsokkal elért eredményekre alapozva szabadalmat adtunk be.
7
További lépések A teljes hozzáférést az üzleti modell véglegesítését követően tesszük lehetővé. Az elérhető szolgáltatásokat két csoportra kívánjuk felosztani: i) ingyenesen hozzáférhető szolgáltatások alapvetően a már létező gyógyszermolekulákkal történő vizsgálatokhoz, valamint ii) PayPal rendszeren keresztül történő fizetős, a felhasználó új gyógyszerjelölt molekulájának vizsgálatához kapcsolódó szolgáltatások. Regisztrálást követően így szinte minden, forgalomban lévő gyógyszerhatóanyag MIF-je ingyenesen hozzáférhető, a dokkolások megrendelését követően pedig lehetőség van a gyógyszermolekulák és a felhasználó által feltöltött molekula MIF szerinti összehasonlítására. A predikciók megbízhatóságát a jövőben további adatbázisok integrálásával kívánjuk fejleszteni.
2.3 Genom-annotáció Projektvezető: Dr. Patthy László, akadémikus Áttekintés A genom-szekvencia értelmezésének, a genom-annotációnak első lépése a gének bioinformatikai úton történő azonosítása és szerkezetük meghatározása. A bioinformatikai módszerekkel azonosított gének jelentős hányadáról bizonyosodik be, hogy a jósolt génszerkezet téves. A jelenlegi génpredikciós módszerek bizonytalanságai így komoly problémákat okoznak a (tévesen) megjósolt gének, illetve fehérjék expresszióját szabályozó genomikai elemek meghatározásában, funkciójuk további vizsgálatában. Célunk a génpredikciós, genomannotációs projektekhez kapcsolódva a humán genom funkcionális jellemzésének elősegítése azáltal, hogy: i) elősegítjük az eddigieknél hatékonyabb és megbízhatóbb génpredikciós eljárások kidolgozását a jelenleg alkalmazott módszerek hibáinak kiderítésével, ii) a távoli homológiák detektálására, új gének azonosítására képes érzékeny bioinformatikai módszereink alkalmazásával megjósoljuk a gének korrekt szerkezetét, iii) összehasonlító genomikai vizsgálatokkal megjósoljuk a gének biológiai szerepét és orvosbiológiai jelentőségét. A projekten együttműködik az MTA SZBK Enzimológiai Intézetének Funkcionális Genomika és Bioinformatika csoportja és a Delta Informatika ZRt. Eredmények 1. A MisPred adatbázis: A rosszul megjósolt fehérjék annotációinak publikálására létrehoztuk a MisPred adatbázist. Az adatbázis jelenlegi verziója 7374 bejegyzést tartalmaz. Az adatbázis minden bejegyzése tartalmaz . i) fehérje információt: peptidazonosító, megfelelő gén- és transzkript azonosító, fehérjeszekvencia dátummal és külső linkek nyilvános adatbázisokhoz; . ii) MisPred annotációt: a konfliktus, illetve téves jóslat típusa. 2. A MisPred weboldal: Létrehoztuk a MisPred adatbázishoz kapcsolódó web-oldalt, amely a http://mispred.enzim.hu címen érhető el. A weboldal célja a projekt céljainak és kutatási eredményeinek bemutatása és a létrehozott annotációk nyilvános publikációja hatékony keresési lehetőségekkel. Az EnsEMBL fehérjékhez tartozó annotációk az EnsEMBL adatbázishoz kapcsolódó Distributed Annotation System segítségével is elérhetők. 3. A vizsgálatok automatizálása, új annotációs adatbázis készítése: Elkezdtük a tévesen megjósolt fehérjék azonosításának automatizálását, és egy új annotációs adatbázis létrehozását. 4. Hibaazonosítási módszerek: . i) Konfliktus a fehérje sejten belüli lokalizációja és a megfelelő szekvencia-szignál hiánya
8
között: Azok a fehérjék, amelyek az extracelluláris térben előforduló doméneket tartalmaznak, az N-terminális végükön egy lehasítható szignálpeptiddelés/vagy transzmembrán szegmensekkel rendelkeznek. Ennek megfelelően azok a fehérjék, amelyek extracelluláris doméneket tartalmaznak, azonban nincs sem szignálpeptidjük, sem transz-membrán szegmensük, gyanúsnak minősülnek. . ii) Konfliktus az extracelluláris és intracelluláris domének jelenléte és a transzmembrán domének hiánya között: Extracelluláris és intracelluláris domének együtt csak úgy fordulhatnak elő multidomén fehérjékben, ha egy transzmembrán szegmens választja el a doméneknek ezt a két típusát. Így azok a fehérjék, amelyek extracelluláris és intracelluláris doméneket is tartalmaznak, azonban nincs ezeket elválasztó transzmembrán szegmensük, gyanúsnak minősülnek. . iii) Extracelluláris és nukleáris domének együttes előfordulása: Multidomén fehérjékben nukleáris domének nem fordulnak elő együtt extracelluláris doménekkel. Ennek megfelelően azok a fehérjék, amelyek extracelluláris és nukleáris doméneket is tartalmaznak, gyanúsnak minősülnek. . iv) Doménméret eltérés: Egy doméncsalád különböző tagjaiban az aminosavak száma rendszerint egy szűk tartományba esik. Ennek megfelelően azok a fehérjék, amelyek egy adott doméncsalád ismert tagjainál szignifikánsan nagyobb vagykisebb doméneket tartalmaznak, gyanúsnak minősülnek. . v) Kiméra fehérjék: Egy fehérjét egy kromoszómán található egyetlen gén kódol. Ennek megfelelően azok a fehérjék, amelyek részeit különböző gének kódolják, gyanúsnak minősülnek. . vi) Konfliktus a nukleáris domének és a szignál-peptidek jelenléte között: Egy fehérjében nem fordulhat együtt elő nukleáris domén és szekréciós szignál peptid, ezérta nukleáris domént és szignál peptidet is tartalmazó fehérjék gyanúsnak minősülnek. . vii) Konfliktus a szignál-peptid és az intracelluláris domének jelenléte, és a transzmembrán domének hiánya között: Szekréciós szignál peptid és intracelluláris domének csak úgy fordulhatnak elő együtt egy fehérjében, ha egy transzmembrán szegmensválasztja el a két régiót. A szignál peptidet ésintracelluláris doméneket is tartalmazó, de ezeketelválasztó transzmembrán szegmens nélküli fehérjék gyanúsnak minősülnek. . viii) Konfliktus a transzmembrán domének és a nukleáris domének jelenléte között: Egy fehérjében nem fordulhat együtt elő nukleáris domén és transzmembrán domén, ezért a transzmembrán domént és nukleáris doméneket is tartalmazó fehérjék gyanúsnak minősülnek. ix-xii) Konfliktus a GPI-horgony jelenléte és a szignál peptid hiánya, illetve az intracelluláris vagy nukleáris domének vagy transzmembrán szegmensek jelenléte között: A GPI-kötött fehérjék szignál peptidet tartalmaznak, amely a sejtből az extracelluláris térbe irányítja őket. A GPI-kötött fehérjék esetén a teljes fehérje az extracelluláris térben helyezkedik el, ezért csak extracelluláris doménnel rendelkezhet, az intracelluláris és nukleáris domén előfordulása, illetve a transzmembrán szegmens jelenléte tiltott. 5. FixPred: A génpredikciós módszerekkel rosszul megjósolt gének helyes szerkezetének meghatározása: Kijavítottuk a MisPred által hibásként azonosított Swiss-Prot fehérjék szekvenciáit paralóg és ortológ fehérjék szekvenciáinak és az adott faj genomikus és EST szekvenciáinak felhasználásával. A hibajavítás megbízhatóságának ellenőrzése érdekében a hibás gének egy részénél elvégeztük a cDNS szekvenciák kísérletes ellenőrzését és a fehérjetermékek vizsgálatát. Egyes fehérjék funkcionális vizsgálata arra utalt, hogy a fehérjék részt vesznek az izom- és idegfejlődés szabályozásában. Jellemeztük a fehérjék és az izom- és idegfejlődést szabályozó növekedési faktorok közötti kölcsönhatást. Elkezdtük a manuális hibajavítási módszer automatizálását. Kidolgoztuk a MisPred 1-es konfliktus által hibásnak talált fehérjék kijavítására szolgálómódszert és elkezdtük ennek automatizálását. További lépések
9
Folytatjuk további hibaazonosítási módszerek kidolgozását és automatizálását. Folytatjuk a hibás gének helyes szerkezetének automatikus meghatározására szolgáló módszerek kidolgozását, az automatizált hibajavító program fejlesztését.
2.4 In silico eljárás makromolekulák tervezésére Projektvezető: Dr. Jakó Éena, tudományos főmunkatárs Áttekintés A mikrobiológia területén, a gyógyszer- és élelmiszeriparban jelentős igény van a különböző funkciójú makromolekulák biológiai aktivitásának vizsgálatára, valamint hasonló tulajdonságú, de eltérő szerkezetű, illetve szerkezetileg hasonló, de megváltoztatott tulajdonságú variánsok előállítására. Ennek ellenére jelenleg makromolekulák tervezésére általános módszer nem ismeretes. A projekt keretében egy matematikai predikciókon alapuló in silico molekulatervezési eljárás kifejlesztését tűztük ki célul. Ennek újdonsága a DNS/RNS (vagy fehérje) szekvenciák logikai hálózati modelljében és információsűrítő kódolásában rejlik, mely a Boolefüggvények iteratív kanonikus formáján (továbbiakban ICF) alapul. A szoftveres előtervezéssel kombinált eljárás lehetővé teszi a biológiai funkció szempontjából lényeges szerkezetmódosítások meghatározását és az eredmények vizualizációját. A projekt gyakorlati jelentősége a legújabb típusú antibiotikumok kifejlesztésével kapcsolatos, melyek célpontjai a mikrobák aminosav-tRNS szintetáz enzimei. Mivel ezen enzimek ellen korábban még nem állítottak elő hatóanyagot, ezért ilyen jellegű hatóanyagokra még nem alakultak ki rezisztens törzsek. A logikai hálózaton alapuló modellalapján kideríthető, hogy mely mikroba tRNS –aminosavtRNS szintetáz párok térnek el leginkább a humán megfelelőiktől. Az így azonosított mikrobiális enzimek lesznek a jövőbeni hatóanyag tervezés célpontjai, hiszen a hatóanyagnak olyannak kell lennie, hogy kizárólag a kórokozó enzimét gátolja, míg az ember megfelelő enzimét nem. További jelentős hasznosítást ígérő kutatási témaként megvizsgáltuk a ciklikus oszteoporózis és regeneráció genetikai hátterét. Eredmények 1. Elkészült a molekulatervezési eljárást támogató és több funkciót egyesítő szoftvercsomag prototípusa. Ez tartalmazza a továbbfejlesztett ICF algoritmust, különböző metrikákat, az alap grafikus felületet (GUI), a szerkezeti hasonlóság becslésére szolgáló ICF-gráfokat generáló algoritmust, valamint a molekulatervezés elméleti hátterének kidolgozásához szükséges funkciók implementálását. Az ICF programcsomag összekapcsolható az ismert sokváltozós statisztikai módszereken alapuló SYNTAX-2000 programcsomaggal, valamint a főleg filogenetikai alkalmazásokat tartalmazó PHYLIP programcsomaggal. Így az ICF programmal készült távolságmátrixok feldolgozása a fenti programcsomagokkal közvetlenül is lehetséges. A prototípus tesztelését és minőségbiztosítását a Delta Informatika ZRt. végezte. 2. Megterveztünk és megvalósítottunk egy internetalapú, ICF alkalmazásokkal együttműködő lokális RNS- és tRNS-szintetáz adatbázist. Az in silico eljárás alapján kapott predikciókat az adatbázis felhasználásával tRNS modellrendszerben teszteltük irodalomból ismert kísérleti példák alapján, és jó megfeleltetést kaptunk. 3. Kidolgoztuk a prediktált tRNS mutánsok laboratóriumi tesztelésének stratégiáját, melyhez kétféle modellrendszert terveztünk. Az in vivo tesztrendszer olyan vektorok elkészítéséből áll, amelyekben van egy már karakterizált szupresszor tRNS gén, illetve egy olyan fehérjegén, amelynek egy adott pozíciójában stop kodon található. A rendszer úgy működik, hogy a baktériumba juttatott vektorról egyfelől tRNS íródik át, másfelől a fehérjének megfelelő mRNS. A tRNS-ért mind a 20 szintetáz enzim verseng. Sikeres szupresszió esetén fehérje termelődik.
10
A termelt rekombináns fehérje izolálása után meg lehet határozni, hogy milyen aminosav épült be a stop kodonnak megfelelő helyre, azaz hogy milyen funkcionális identitással rendelkezik az adott tRNS. A rendszerhez a vektorok elkészültek. Az in vitro eljárásnál az egyes tRNS variánsoknak a szintetáz enzimmel létrejövő kapcsolatát enzimkinetikai paraméterekkel írjuk le. Kiderítjük, hogy az enzim milyen hatékonyan képes az adott tRNS-re aminosavat kapcsolni. Az így kapott paraméterek sokkal inkább számszerűsíthetők, mint az in vivo eredmények. A módszer molekuláris filogenetikai alkalmazhatóságának teszteléséhez az ICF programcsomag segítségével kapott távolságmátrixokból törzsfákat készítettünk, és ezeket egyéb ismert filogenetikai módszerekkel készült fákkal hasonlítottuk össze. A teszteléshez a nagy emberszabású majmok (Hominidae) mitokondriális tRNS génjeit választottuk. Míg a három ismert módszerrel részben ellentmondó eredményeket kaptunk, az ICF módszerrel generált törzsfa jó megfeleltetést mutatott az általánosan elfogadott leszármazási sorrenddel. 4. Új, diszkrét matematikai módszereken alapuló szoftverprototípust hoztunk létre, mely a molekulatervezés és gyógyszercélpontok keresése mellett molekuláris taxonómiai feladatok megoldására is alkalmas. Az optimalizált ICF algoritmus 63 változós Boole függvényekkel reprezentálható problémákat kezel – néhány ismert szoftverhez képest – több nagyságrenddel csökkentett átlagos futási idő mellett. 5. A tRNS-aaRS modellrendszerben való molekulatervezés eddigi legfontosabb eredménye, hogy az in silico predikciókkal meghatározott tRNS identitáselemek jó megfeleltetést mutattak az in vitro kísérleti eredményekkel, valamint az identitáselemek és kötőhelyek 3D modellezésével. A konkrét szabadalmi tervben szereplő eljárás célja, hogy azonosítsa azokat az aaRS enzimeket is, melyek funkcionális értelemben a leginkább el kell, hogy térjenek a humán variánstól, így ezek az enzimek lehetnek a kitüntetett jövőbeni antibiotikumok célpontjai. 6. A csontritkulás genetikai hátterének felderítésében az expressziós CHIP adatok többváltozós statisztikai módszerekkel való értékelése révén fontos új eredmény, hogy két szignáltranszdukciós útvonal génjeit (egy 11 tagú szettet) fedeztük fel: BMP–Hedgehog és Wingless signaling. Ez legalább kétféle csontritkulás típus elkülönítését valószínűsíti. A csontritkulásban szenvedő betegek szekvenciái ezen génszett alapján diszkriminanciaanalízissel élesen elkülöníthetőek. Az általunk azonosított eddig ismeretlen gének reményeink szerint a továbbiakban új, megalapozottabb orvos-diagnosztikai módszerek kifejlesztéséhez, valamint újabb farmakológiai targetek kijelöléséhez nyújthatnak fontos támpontot. 7. A BOOL-AN szoftvercsomagot alkalmassá tettük tRNS és AARS adatbázisokkal való együttműködésre, valamint 3D-grafikus rendszerhez való illesztéshez, ami a szekvenciatávolságok alapján generált ponttérképek térbeli és animált megjelenítését teszi lehetővé. Fontos eredményünk, hogy a BOOL-AN szoftverrel és ICF-távolságok alapján kapott vizualizációk (ponttérképek, filogenetikai törzsfák, gráfok) az irodalomból ismert és kísérletesen igazolt eredményekkel jó megfeleltetést mutatnak és a futtatások időigénye a szekvenciák számának és hosszának függvényében jelentősen csökkent. További tervek A kifejlesztett in silico eljárást és BOOL-AN szoftvercsomagot szabadalmaztatás után bakteriális AARS alapú gyógyszercélpontok azonosítására szeretnénk felhasználni. Ebben a témában NTP pályázatot adunk be a Szegedi Tudományegyetemmel, valamint a 2009–11 évekre együttműködési szerződést írtunk alá a Freiburgi Egyetemmel.
11
2.5 Phylogeny Cafe Projektvezető: Dr. Miklós István Áttekintés A Phylogeny Cafe projekt célja az, hogy felhasználóbarát szoftvereket írjunk olyan újfajta bioinformatikai adatok elemzésére, amelyekre – éppen az adatok újszerű volta miatt – jelenleg nem áll rendelkezésre korszerű programcsomag. Az adatok elemzéséhez ahol csak lehetséges, filogenetikai információkat is figyelembe veszünk. A programcsomagot Java programozási nyelven írjuk, a Java programozási nyelv pedig egy kávéfajtáról kapta a nevét – így adódik a projekt neve. A Java programozási nyelvre azért esett a választásunk, mert platformfüggetlen, így a scriptprogramok írásától vissza nem riadó, linuxot használó bioinformatikus közönség ugyanúgy használhatja, mint a zömében Microsoft Windows operációs rendszeren dolgozó biológus felhasználók. A programcsomag segítségével a biológus felhasználók elemezhetnek például genomátrendeződéseket, géntartalom-változásokat, fehérjeszekvenciák beszúrástörlésekkel történő változásait. Ilyen elemzések elősegíthetik például, hogy megértsük a rákos sejtekben történő genomátrendeződéseket, hogy patogén baktériumok milyen géntartalomváltozásokkal alkalmazkodnak egy új környezethez, vagy, hogy megtaláljuk a fehérjék variábilis régióit. Ezzel az új tudással új gyógymódokat fejleszthetünk ki a tumoros betegségek gyógyításában, új stratégiákat fejleszthetünk ki a kórokozók elleni kémiai versengésben vagy tetszőleges fehérjékre tervezhetünk targetmolekulákat, potenciális gyógyszereket. Eredmények A projekt első évének végére öt program első verziója lett kész. A ParIS Genome Rearrangement 2.0 szoftver az MCMC Beans csomagba tartozik, és egy korábbi, genomátrendeződést vizsgáló szoftverünk továbbfejlesztése. A régi szoftver csak két genom közötti különbségeket térképezett fel, míg az új verzió képes sok genom leszármazási viszonyait vizsgálni, beleértve az ősi genomokat. Így többek között képes predikciót tenni arra is, hogy mi indítja el a rákos sejtekben végbemenő genom-átrendeződéseket. További innovációnk, hogy egysejtű genomok vizsgálata esetén az egyes mutációkat súlyozhatjuk aszerint, hogy mennyire változtatják meg a replikációs villa szimmetriáját, az így kapott pontosabb modellel pedig pontosabb képet kapunk a patogén baktériumok evolúciójáról. Szintén az MCMC Beans csomag része a StructureProjector, amely filogenetikus fákon keresztül vetíti le egy fehérje másodlagos térszerkezetét a többi rokonfehérjére. Ezáltal egy ismert térszerkezetű rokon fehérje segítségével lehet prediktálni egy ismeretlen térszerkezetű fehérje térszerkezetét. A módszerünk az eddigi módszerektől annyiban tér el, hogy képes a predikció jóságát is megbecsülni. Az összes olyan módszer, amely az egyik fehérje térszerkezetét vetíti rá egy másik fehérjére, azon a feltételezésen alapszik, hogy a struktúra konzervatívabb, mint a szekvencia. Ha a térszerkezet egyes részei az evolúció során megváltoztak, akkor az adott részre tett predikció nyilvánvalóan hibás lesz. A vizsgálataink azt mutatták, hogy a módszerünk pontosan tudja jelezni azokat a részeket, ahol a prediktált térszerkezet megbízhatósága kicsi. A Structure Decoder a Structure Projector program „instant coffee” változata. A Structure Decoder csak páronkénti összehasonlításokat végez, és az illesztések elemzéséből jósolja meg a szekvenciáknak azon részeit, amelyek evolúciósan nem stabilak, azaz a térszerkezetük változhatott. Ha a fehérje megtalálható egy gazdaszervezetben is és a kórokozójában is, akkor a variábilis régiók azok a potenciális gyógyszertarget helyek, amelyekre tervezett gyógyszer valószínűleg csak a kórokozót pusztítja el, a gazdaszervezetet pedig nem. A Gene Content Evolution program az MCMC Beans csomag része, és a géntartalom változásának a vizsgálatára szolgál: azt elemzi, hogy mely tulajdonságokat kialakító géneket veszik fel a baktériumok horizontális géntranszferrel és melyeket duplikációs-specifikációs „barkácsolással”. Segítségével stratégiai döntéseket lehet hozni, hogy a patogén baktériumok elleni kémiai fegyverke-
12
zésben mely gének termékei ellen tervezzünk gyógyszereket. Az Instant Coffee program a Reticular Alignment, amely többszörös szekvencia-illesztést hajt végre. A hagyományos iteratív illesztő programok hátránya az, hogy a temporális illesztésekből mindig csak a lokálisan optimális illesztéseket tartják meg, viszont a globális optimumba nem mindig a lokális optimumokon át vezet az út. A Reticular Alignment program a temporális illesztésekből nem csak a lokálisan legjobbat hagyja meg, hanem a lokálisan optimális és szuboptimális megoldásokat egy hálózattal reprezentálja. Kifejlesztettünk egy technológiát, amely ezt a hálózatos adatstruktúrát nagyon hatékonyan kezeli, ezáltal képesek vagyunk a hagyományos eljárásoknál objektív szempontok alapján is jobb szekvencia-illesztéseket gyorsan elvégezni. Szoftverbemutatóval részt vettünk az ISMB/ECCB2007 konferencián. Az ValDeal Zrt. az Inno AG-vel közösen átvilágította a projektet, és két szoftvercsomagot, a Structure Projectort és Structure Decodert tartott piacosításra alkalmasnak. Egy oxfordi kollaboráció keretében elvégeztük a Structure Projector programunk nagyléptékű tesztelését és validálását, melynek során megmutattuk, hogy a poszterior illesztési valószínűségek korrelálnak annak a valószínűségével, hogy a másodlagos térszerkezet predikciója helyes a kérdéses pozícióban. Ezen felül megvalósítottuk a felhasználóbarát grafikus interfészt, valamint modell- és poszteriorelemző pluginokat implementáltunk. A Genomatics projekt keretében kifinomult tranzíciós kerneleket készítettünk párhuzamos Markov-lánc Monte Carlo-módszerekhez, amelyek a genomikai adatok bayesi elemzését jelentősen gyorsítják. További lépések Új projektet indítottunk GenoBys néven, amelynek keretében DNS-chip és SNP mérések kísérlettervezését és a mérési eredmények feldolgozását végezzük el. A projekt három egyetem, a SOTE, a BMGE és az ELTE összefogásával készül. A projektstratégiai és marketing tanácsadását a Convincing Consulting Kft. végzi.
3.1 Statisztikai módszerek Projektvezető: Dr. Bagoly Zsolt, egyetemi docens Áttekintés A projekt célja egy, az Állami Foglalkoztatási Szolgálatnál már működő rendszer továbbfejlesztése mind a statisztikai eljárások terén, mind pedig a területi adatok kibővítésével úgy, hogy az már nemcsak Magyarországon, hanem az Európai Unióban is alkalmazható legyen. Egyik fontos részeredmény a nagy tömegű gazdasági adaton végzett becslések és előrejelzések statisztikai eljárásokkal támogatott szakmai fejlesztése. A rendelkezésre álló statisztikai módszereket egy pilot rendszeren keresztül teszteljük. Ez a rendszer hangsúlyosan kezeli az adatok idősoros és térképes, interaktív megjelenítését is. Eredmények A projekt fő eredménye a kifejlesztett becslési módszereket megvalósító szoftver, a KMSR2 (Kisterületi Munkaügyi Statisztikai Rendszer). A szoftver szabad forráskódú technológiákra épít: a grafikus kezelői felület Apache+MySQL+PHP alapú webes alkalmazás, az elemzőmodulok pedig az „R” nyílt forráskódú statisztikai programozási nyelven készültek. A rendszer felépítésénél figyelembe vettük a könnyű bővíthetőséget és lokalizálhatóságot. A program a becslések eredményeit táblázatos és grafikus formában is mutatja, lehetőség van a keletkezett idősorok mentésére, exportálására, valamint ODF formátumú táblázatkezelő formában való megjelenítésére is. Az így dinamikusan készülő jelentések az adatokat térképek formájában is ábrázolják. Súgórendszer és felhasználói kézikönyv segíti a rendszer nem szakember által történő felhasználását. A szezonális kiigazítás Tramo/Seats módszerét ausztriai kisterületi munkaügyi adatokra is sikerrel alkalmaztuk. A programcsomag fő módszerei a következők: 13
A szezonális kiigazítás módszerei: Ha valamilyen gazdasági idősor hosszú távú trendjét szeretnénk vizsgálni, akkor azt meg kell tisztítanunk az ismétlődő, éven belüli, ún. szezonális ingadozásoktól. A szezonális kiigazításra ma az Európa-szerte elterjedt TRAMO/SEATS és az X11/X12-ARIMA eljárásokat használják. Adaptáltuk ezt az eljárást a magyar adatokra, és egy összehasonlító elemzést készítettünk. Összehasonlításunk kitér a modell-választás és az intervenció-analízis módjára, és a kapott statisztikai mutatók vizsgálatára is. A kisterületi becslés módszerei: A kérdőíves felmérések általában országos szinten készülnek, így ha területi bontásban szeretnénk adatokat kapni, a mintaméret csökkenése növekvő bizonytalansághoz vezet. Ennek korrigálására születtek a különböző kisterületi becslési módszerek. Ezek átfogó vizsgálatát végezte el az Európai Unió több tagországára kiterjedő EURAREA projekt (http://www.statistics.gov.uk/eurarea). Az itt kapott eredmények elemzése során kiderült, hogy ezen módszerekből egyöntetűen hiányzik az idősoros szemlélet, amely a mintavételi hiba jelentős csökkenését eredményezhetné. Idősoros szemléletű módszert Magyarországon kívül tudomásunk szerint csak az Egyesült Államokban és Kanadában alkalmaznak. A strukturált idősor-elemzés módszerei: A strukturált idősoros megközelítés az egyidejű adatok mellett az idősorok korábbi viselkedését is figyelembe veszi a becslés során egy statisztikai modell alapján (Kálmán-szűrő algoritmus). A legújabb módszerek is hiányosak azonban a hibabecslés területén, ezért szükség volt a nagy tömegű adattal dolgozó szimulációs módszerek alkalmazására. Ezen kívül gondosan meg kell vizsgálni az egyidejű és az idősoros módszerek együttes alkalmazását is. Munkaügyi adatbázis: A KSH minden negyedévben végez egy mintavételen alapuló országos munkaerő-felmérést, amely a kisterületi és idősoros becslési eljárások kiindulópontja. Ezek havi bontású adatok, amelyek azonban a kis mintaelem-szám miatt megyei szinten már túl nagy (20-30%!) mintavételi hibát tartalmazhatnak. Segédadatként továbbvezetett népszámlálási adatokat (KSH) és az Állami Foglalkoztatási Szolgálattól megkapott regisztrált munkanélküli adatbázist használtuk föl. További makrogazdasági adatok jöhetnek szóba a Nemzeti Bank és a KSH adataiból. A beszerzett adatokat ellenőrzés után relációs adatbázisba szerveztük.
3.2 Szoftverhálózatok Projektvezető: Dr. Kovács Attila, egyetemi docens Áttekintés A korszerű szoftvertermékek egyre nagyobbak és összetettebbek. A szoftverrendszerek forráskódjának megértésére a legnagyobb szükség a szoftver életciklusának karbantartási szakaszában van, amikor a változó igényeknek megfelelően különböző módosításokat kell végrehajtani rajta. A szoros határidők miatt elmaradó dokumentációk, és a részletes tervek hiánya gyakran erősen korlátozza az egyébként is nehezen átlátható rendszerek megértését. Egy szoftvertermék újabb verziójának kibocsátásakor szintén szükség van a korábbi verziók szerkezetének, illetve az egyes rendszerek (alrendszerek, modulok, függvények) közötti kapcsolatoknak a pontos ismeretére, így ugyanis gyorsabban és hatékonyabban lehet a módosításokat, az új verzió tesztelését elvégezni. Ez a problémakör hozta létre a szoftverfejlesztés tudományterületén belül a létező rendszerek modellezését kutató Reverse Engineering irányzatot. A mai modern szoftverrendszerek matematikai szempontból komplex hálózatokként is felfoghatók, ahol a csomópontokat az objektumorientált rendszerek osztályai, vagy még általánosabban az önálló funkcionális egységei alkotják. Ezek a funkcionális egységek különböző belső komplexitással rendelkeznek, és a kapcsolatuk súlya is különböző lehet. A szoftvertermékek strukturális vizsgálatát a hívási gráfok segítségével végezzük. A hívási gráfok szerkezetén kívül 14
szükség van a gráfok egyes csomópontjai belső bonyolultságának ismeretére is, ennek segítségével jobb becslés adható a strukturális bonyolultságra. A statikus bonyolultsági mértékhez az új vagy megváltozott funkciók bonyolultsági mértékét is hozzá szeretnénk igazítani, ami pontosítja a tesztelési ráfordításra, a tesztelés idejére vonatkozó előrejelzéseket. Célunk olyan módszertan kidolgozása, amelynek segítségével a szoftverek tesztelésénél az egyes funkcionális egységek tesztelési sorrendje automatikusan megadható. További feladat a szoftver különböző kibocsátásai közötti változásainak az architektúrára vonatkozó hatásvizsgálata. A módszertan megkönnyíti a tesztkészlet és a tesztesetek futtatási sorrendjének kiválasztását, ami a tesztelés költségeit figyelembe véve jelentős költségcsökkentő tényező lehet. A szoftverhálózatok struktúrájának leírására a különféle hálózatokra vonatkozó eddigi tudományos eredményeket használjuk, a funkcionális egységek belső komplexitásának mérésére pedig az ismert bonyolultsági metrikákon túl új metrikák bevezethetőségét is megvizsgáljuk. További célunk, hogy telekommunikációs hálózatok teljesítményének méréséhez szimulációs tesztkörnyezetet dolgozzunk ki és teszteljük a deszktop-grides hálózatokat. Komplex szoftverrendszerek fejlesztéséhez és karbantartásához egész életciklusuk alatt szükség van valamilyen támogatásra. A követelmények tervezése és elemzése egyre nagyobb kihívást jelent a rendszerek építőinek, hiszen az implementáció során észlelt, a követelmények leírásakor vagy a tervezéskor vétett hiba javítása komoly extra költséget jelenthet. A szoftverrendszerek követelményeinek, mint adathálózatnak a modellezéséhez keretrendszert szeretnénk tervezni. Eredmények Az Ericsson Hungary Kft. által rendelkezésünkre bocsátott telekommunikációs eszköz (switch) szoftvergráfjának elemzése során az alábbi lényegesebb eredményeket kaptuk: 1. a modul szintű gráf csokornyakkendő-felbontásakor (bow-tie decomposition) a központi erőskomponens (core) körülbelül a csúcspontok felét tartalmazta. Az eredő rész (origination part) kb. a 30%-ot, a termináló rész (termination part) és a csatorna rész (tube) kb. 10-10%-ot. 2. Az alrendszer-, modul- és függvényszintű gráf fokszám-eloszlásának elemzése során azzal szembesültünk, hogy az input fokszámok mindhárom esetben hatványeloszlásúak, míg az output fokszámok exponenciális eloszlásúak. 3. További vizsgálatok azt mutatják, hogy a nagyobb input fokszámmal rendelkező csúcsok nagyobb klaszterezési együtthatóval rendelkeznek. 4. A legrövidebb utak vizsgálata során azt kaptuk, hogy a termék különböző kiadásainak gráfjai kis világ tulajdonsággal is rendelkeznek, a legnagyobb távolság és a csúcspárok közötti átlagos távolság is kicsi. 5. Új, erős elemző algoritmusok implementálásával az alábbi eredményeket kaptuk: . i) A vizsgált projektek szoftvergráfjai mind skálafüggetlenek. . ii) A mérőszám változása információt szolgáltat a szoftver egyes kibocsátásai közötti struktúra változásáról. . iii) A szoftvergráfok struktúrája erősen függ az alkalmazott programozási nyelv szemantikájától (öröklődés, templétek alkalmazása, tervminták használata, funkcionalitás, stb.) . iv) Nagy belső bonyolultságú csúcspontok gyakran foglalnak el központi helyet a struktúrában, de néhány esetben nagyon nagy belső bonyolultságú csúcspont alacsony BaryCenter vagy PageRank centralitás értékkel rendelkezik. Ezért a bővíthetőség és karbantarthatóság költségének becsléséhez mindenképpen szükség van a kapcsolati és belső bonyolultság együttes mérésére. . 6. Elkészült egy prototípus, mely . i) képes Java alkalmazások kódolási szabályainak, a kód metrikus értékeinek és indikátorainak mérésére, . ii) képes a hívási gráfon keresztül a kód struktúrájának mérésére és hatásanalízisre, . iii) teljes minőségi profilt tud mutatni a menedzsment felé, . 15
iv) átláthatóbbá teszi a fejlesztési folyamatokat, v) biztosítja a kód elvárt minőségét, vi) információkkal szolgál a rendszer továbbfejleszthetőségéről, vii) segít a fejlesztési projektek kihelyezésekor és átvételekor, viii) támogatja a kockázat-alapú tesztelést, ix) csökkenti az implementáció, tesztelés, és karbantartás költségeit.
. . . . .
További lépések Kódanalizáló szolgáltatásunkból terméket szeretnénk fejleszteni.
3.3 Hálózatok dinamikája Projektvezető: Dr. Lukács András, tudományos főmunkatárs Áttekintés Nagyméretű hálózatok legújabb példái felölelik az Internetet, az erre épülő World Wide Webet, valamint a különféle kommunikációs naplóállományokból kinyerhető szociális hálózatokat. Az ilyen jellegű szocio-információs hálózatok megértéséhez olyan skálázható és hatékony algoritmusok kutatása és fejlesztése vezet el, amelyek e terabyte méretű adatbázisok, illetve a bennük megjelenő több millió csomópont elemzésére képesek. Hosszabb távú célunk a szociális közösségeket modellező eszközök know-howjának kidolgozása. Eredmények A klaszterezési technikák vizsgálata során alapvető megközelítésünk a hierarchikus módszer volt, ahol a klasztereket, ill. a beléjük ágyazott alklasztereket hierarchikus faszerkezetbe rendezik. A hierarchikus klaszterezés során alapesetben a hierarchikus osztályozási struktúra felépítésére az összevonandó klaszterpár kiválasztásakor a single, ill. complete link klaszterek közötti összehasonlításokat használtuk. Számos esetben nem hierarchikus módon működő algoritmusból hierarchikus eljárást képeztünk. Munkánk során jellemzően a hierarchikus klaszterezés egyesítő (bottom-up) módszereit használtunk. Alternatív eljárásként egy Bayes módszeren alapuló iteratív particionáló klaszterezést is felépítettünk. A particionáló módszerek közül a k-közép (k-means), ill. annak kategorikus adatokon alkalmazható változatát, a kmedoid algoritmust alkalmaztuk. Ezeknél a módszereknél a partíciókat bizonyos feltételek alapján úgy finomítottuk, hogy az előreadott kritériumoknak megfelelően a lehető legjobb eredményt kapjuk. A k-közép algoritmus futási ideje nem tett lehetővé több ezer darab klasztert eredményező (és így homogénebb) osztályozásokat. Ennek egyik fő tényezője a túl sok koordinátán történő számolás volt. Ennek a skálázási problémának a megoldására dimenziócsökkentési eljárást alkalmaztunk. Bizonyos helyzetekben feltettük, hogy a keresett klaszterek elemei többdimenziós Gauss-eloszlásokkal modellezhetőek. Ekkor az algoritmikus feladat a modell identifikálása volt, azaz hogy megállapítsuk a Gauss eloszlások paramétereit, illetve a klaszterek optimális számát. Az erre alkalmazott expectation-maximization (EM) algoritmus ezeket a hiányzó paramétereket a maximum likelihood becslés segítségével számítja. A modell eleganciája ellenére a módszer hátránya, hogy viszonylag kevés adathalmazra lehet alkalmazni, mivel a legtöbb valódi adathalmaznál az elemek nem Gauss-eloszlás szerint helyezkednek el. Továbbá fontos tapasztalat, hogy az EM-algoritmusa legtöbb esetben csupán lokális maximumot adott. További kutatás tárgya volt az EM-algoritmus azon változatának kidolgozása, amely nem csupán Gauss-eloszlásokat tud paraméterezni. Nagyméretű gráfoknál a hasonlóságok direkt számolása túlzottan időigényes feladat. A problémamegoldására spektrál klaszterező algoritmust alkalmaztunk, amely a hálózat szomszédsági mátrixának SVD felbontását használja. Ekkor a kívánt klaszterező algoritmust az eredeti mátrix felbontásából kaphatók is dimenziószámú közelítésére alkalmaztuk. Itt már a hasonlóságok számolása gyorsan történik, köszönhetően a kis dimenziójú képtérnek. További lehetőség volt a hierar16
chikus spektrál klaszterezés alkalmazása. Itt is a hierarchikus klaszterezés folyamán az előző lépésekben létrejött klasztereket bontjuk további részekre. Ennél a hierarchikus klaszterezésnél megállási szabályként bizonyos klaszterszám vagy klaszterméret elérését alkalmaztuk. Elkészült a módszer prototípusa, amely képes akár tízmilliós nagyságrendű csúccsal és százmilliós nagyságrendű éllel rendelkező hálózatok particionálására. A prototípusa kereskedelmi szoftverek hasonló képességeit jelentősen túlszárnyalja és alkalmas egyedi hangolások, súlyozások tesztelésére. Szociális hálózatok kinyerésére telekommunikációs hívásnaplókat használtunk. Fontos eredménynek tartjuk, hogy nem csak aggregált adatokra tudtuk a módszereket alkalmazni, hanem a legfinomabb felbontású adatok alapján is dolgoztunk. A részletes hívásnapló alapján fölépítjük a kommunikációs felek közötti kapcsolati hálót. E lépésben számos alapgráf, ill. ezekből nyerhető átsúlyozott hívásgráf definiálható, ezek lehetséges módozatait is vizsgáltuk. A kapcsolati hálózat kialakítását egy rugalmas, paraméterezhető, többszintű osztályozási folyamat követte. A kialakuló fastruktúrában minden felhasználó lentről fölfelé haladva több, egyre nagyobb osztályba is beletartozik. Az így létrejövő statikus leírásban szereplő klasztereket tekintjük a hívásgráfokból kinyert közösségeknek. A kialakított megjelenítő eszközben az egyes csoportok és felhasználók adatait meg lehet tekinteni, valamint a földrajzi lokalizációra vonatkozó adathalmazzal való összekapcsolás útján a kialakult csoportokról minden szinten meg lehet jeleníteni, hogy adott földrajzi területről milyen eloszlásban tartalmaz felhasználókat. A kapott eredmények azt mutatják, hogy a szociális közösségek földrajzi elhelyezkedés szerint erősen csoportosulnak, ugyanakkor a közösségek közötti távoli kapcsolatok kis világjelenséget hoznak létre. Az eredményül kapott klaszterek minőségének mérésére referenciaklasztereket használtunk, amelyek egy (jellemzően szocio-demográfiai adatok alapján) előre definiált, azonos tulajdonságú ügyfeleket tartalmaztak. Ezek közül a legtöbbet vizsgált referenciaklaszterezés a települések szerinti osztályozás volt. A klaszterező eljárásokat kommunikációs szolgáltatások igénybevételének időbeli változásának jellemzésére is alkalmaztuk, amely során a csoportosítás a különféle szolgáltatások használati arányának időbeli változása, tendenciái alapján történt. Több hónapos időszakot figyelembe véve alakítottuk ki a használati csoportokat és megállapítottuk a viselkedési átmeneteket. Az algoritmusok eredményei megfelelő vizualizációs eljárásokkal bemutatva, valamint táblázatos formában alkalmazhatók további elemzésre. Új eredményünk az SVD lineáris algebrai módszerén alapuló ajánló rendszer. Az ajánlórendszerek célja, hogy a felhasználóknak olyan termékeket ajánljon, amelyek valószínűleg érdeklik. A kidolgozott technológiával sikerült megnyerni a KDD 2007 adatbányászati alapkonferenciához kapcsolódó két szakmai csúcsverseny egyikét. Kidolgoztuk a kapcsolati adattárház koncepcióját. A kapcsolati adattárház a cégeknél, intézményeknél felhalmozott adatvagyon újszerű felhasználása, amelynek során az üzleti logika hű leképezését valósítjuk meg egy kapcsolati hálózatba. Az így kialakuló kapcsolati adattárház (közel) automatikusan épül fel az adatvagyon jellemzően heterogén adattábláiból. Egy felépített kapcsolati adattárház kiegészíthető felhasználóbarát kereséssel, az üzleti entitások hálózatában való közvetlen böngészés eszközeivel. További hozzáadott értéket jelentenek a hasonló entitások, ill. hálózati mintázatok felismerésére szolgáló eszközök. Elkészült ezen új technológia proof-of-concept-jét bizonyítandó egy a biztosítási iparágra adoptált, vizualizációval támogatott implementáció. További lépések Az eddigi évek tapasztalatait követve eredményeink valós üzleti alkalmazásai által felvetett új problémák, K+F feladatok határozzák meg a lehetséges továbbfejlesztések irányait.
17
3.4 Kockázatkezelés hálózatokon Projektvezető: Dr. Papp Gábor, egyetemi tanár Áttekintés A projekt célja a pénzügyi és energiahálózatok kockázatainak megértése, és azok minimalizálása. A kétféle hálózat kockázati szempontból érdekes módon nagyon hasonlóan viselkedik, ezért hasonló technológiával vizsgálható. A lényeges különbség köztük az, hogy míg a pénzügyi eszközök esetében a tárolás és a késleltetett kereskedelem megoldott, az energiahálózatokon az energia nagybani tárolása nem megoldott. Ez az energiapiacok jóval nagyobb volatilitásában nyilvánul meg, mely jelenség megértése és kezelése nem megoldott. A témának az EU energia liberalizációja és a kiserőművek támogatása, míg a pénzügyi szektorban a hamarosan élete lépő Basel II szabályozórendszer, valamint a kialakult pénzügyi válság ad aktualitást. Az energiapiacok tervezésénél mindenekelőtt négy fontos tényezőt kell szem előtt tartani: az energiafelhasználás hatékonyságát, a villamos energiát fogyasztó vállalatok versenyképességét, a közszolgáltatás keretén belül biztosított villamos energia árát és az ellátás biztonságát. Az első azt a követelményt jelenti, hogy a fogyasztók fizessék meg a társadalomnak azt a költséget, amit a villamos energia felhasználásával okoznak, azaz fizessék meg a villamos energia határköltségét. Ezt a versenyzői piacok létrehozásával szeretnénk biztosítani. A vállalatok versenyképessége szempontjából kedvező, ha minél alacsonyabb áron tudnak villamos energiát vásárolni, természetesen az előbbi hatékonysági kritériumot szem előtt tartva. A közszolgáltatások esetén is az alacsonyabb árak lennének a kedvezők mind a fogyasztóknak, mind a szavazatokat maximalizálni akaró politikusoknak. A piacok tervezésének negyedik kritériuma az alacsony bizonytalanság. Ez az újonnan megszervezett piacok első tapasztalatai alapján került a figyelemközéppontjába. Eredmények 1. Az egyéni optimalizáló döntésidőzítési, illetve fedezeti probléma. Az egyének a későbbi időszaki várható árak és azok kockázata alapján döntenek, ezért szükséges a feltételes várható értékek, feltételes varianciák és kovarianciák időbeli alakulásának ismerete. Az optimális fedezeti arányok meghatározásához egy többváltozós GARCH modellt, az ún. Dynamic Conditional Correlation (DCC) modellt használtuk. A DCC modell előnye, hogy sok termék esetén is kevés paramétert kell megbecsülni a feltételes kovariancia mátrix időbeli alakulásának modellezésekor. 2. Az árváltozások vizsgálatakor megállapítottuk, hogy azok nagy része zaj jellegű. Ahhoz, hogy egy ilyen zajjal terhelt idősort meg lehessen tisztítani, zajszűrő eljárást kell alkalmazni, melynek alapfeltétele a zaj tulajdonságainak ismerete. Vizsgálataink megmutatták, hogy a különböző instrumentumok képviselte árváltozás-idősorok 90-97%-ban a véletlen mátrix elmélet (RMT – Random Matrix Theory) által leírhatóak, és csak a maradék, igen kevés komponens alkotja a modellek számára hasznos és a kiértékeléshez szükséges jelet. Az RMT felhasználásával kifejlesztettünk egy módszert, mely le tudja választani a zajt a vizsgált idősorokról, és megállapítja a jelek információ-tartalmát. Egy modellkísérletben összevetve a kifejlesztett eljárást más szűrő eljárásokkal azt találtuk, hogy az alkalmazott eljárások egyformán és nagy biztonsággal szűrték ki a zajt a legtöbb esetben, de néhány esetben az új eljárásunk jobbnak bizonyult. Ugyanakkor az általunk vizsgált többi zajszűrő eljárás nem volt képes a jel információ-tartalmának megállapítására. 3. A villamos energia tőzsdei árának idősora rendkívül fluktuáló, de a nagy-mértékű fluktuáció ellenére az autokorrelációs függvényéből szembeötlően előtűnik a napi ill. heti periodicitás, ami természetes módon magyarázható a kereslet időfüggésével. Az EEX árak sűrűségfüggvényének lecsengő szakaszában lépcsőzetes platókat fedeztünk fel, amit azzal magyaráz-
18
hatunk, hogy ha pl. növekszik a kereslet egy napon belül, akkor újabb és újabb tartalék erőműveket indítanak be, értelemszerűen először az olcsóbban termelőket, majd fokozatosan az egyre drágábban termelőket. Az eltérő technológiájú erőművek fokozatos beindítása képes lehet úgy alakítani az árakat, ami megmagyarázza a platókat a sűrűségfüggvényben. Az árak előrejelzését a legelterjedtebb típusú, ún. feed-forward neurális hálózattal végeztük. A tanulás után a megelőző 3 nap adatai alapján előre tudtuk jelezni a következő 1 hét árait, órás felbontásban. 4. Létrehoztunk szoftvereszközöket villamosenergia-hálózatok kockázatelemzésére. Az egyik szoftver alkalmas villamos hálózatok stabilitásának vizsgálatára véletlen meghibásodások vagy szándékos támadások esetében. A másik szoftverrel azt vizsgálhatjuk, hogyan befolyásolja az időben változékony szélenergia-termelés a villamos hálózat stabilitását, mekkora az a szélerőmű kapacitás, amelynek termelését egy villamos hálózat képes még befogadni a stabilitás veszélyeztetése nélkül. Elkészítettünk továbbá az E.ON Hungária Csoport megbízásából egy adott fogyasztási menetrend lefedésére alkalmas villamos-energia termékek beszerzését optimalizáló szoftvert. További lépések Tervezzük, hogy a villamoshálózat-stabilitási vizsgálatainkat kiterjesztjük európai szintre. A szélsebesség idősor generáló modellünket szeretnénk továbbfejleszteni, hogy alkalmas legyen szélerőművek számára valószínűségi termelési előrejelzéseket készíteni a meteorológiai szélsebesség-előrejelzések figyelembe vételével. Tervezzük továbbá az E.ON számára kifejlesztett szoftver végfelhasználói változatának elkészítését is.
4.1 Virtuális obszervatórium Projektvezető: Dr. Csabai István, egyetemi docens Áttekintés A RET támogatásából beszerzett nagy kapacitású számítógépes eszközökön csillagászati, biológiai, etológiai tudományos adatbázisokat építettünk fel. Az adatbázisok tervezésénél figyelembe vettük a hatékonyságot segítő indexelő eljárásokat. Kifejlesztettük az adatbázisok sokoldalú kezelését lehetővé tevő VO (virtuális obszervatórium) felületet. Készítettünk egy integrált szoftvert az adatok megjelenítéséhez. A kialakított mintarendszer megfelelő illesztésekkel alkalmas arra, hogy további tudományterületek adatbázisait befogadja, és kutatóközösségek speciális adatfeldolgozási igényeit támogassa. Eredmények Néhány fontosabb alkalmazási terület, ahol a virtuális obszervatóriumon alapuló együttműködéssel eredményeket értünk el. A CasJobs továbbfejlesztésével a csillagászati mért adatok elemzése korszerűbb környezetben valósulhat meg. Külön foglalkoztunk a galaxisok morfológiai elemzésével. Ehhez olyan programmal egészítettük ki az adatbázist, amellyel lehetővé válik a galaxisok típusainak, paramétereinek algoritmikus kinyerése a képi, illetve numerikus adathalmazokból. A csillagászati vagy földi objektumok általában nagyon sok jellemzővel, azaz sokdimenziós tér pontjaiként írhatók le. Készítettünk egy olyan szoftvert, amely képes megjeleníteni a többdimenziós adathalmazok két- vagy háromdimenziós vetületeit, ezáltal segítve a további elemzéseket. Az NCBI GEO nyilvános, de heterogén (különböző sémájú, szöveges vagy tömörített fájlokat tartalmazó) génadatbázisához könnyen kezelhető relációs adatbázist és hatékony feltöltő folyamatokat készítettünk, ezáltal lehetővé téve, hogy egy helyi bioinformatikai adatbázisban sajátos igényeknek megfelelő, finomabb adatfeldolgozási eljárásokat lehessen futtatni. Biológiai kísérletekből származó videók képi adatbázisához olyan alkalmazáscsomagot fejlesztettünk ki, amely adatbányászati, statisztikai elemzéseket
19
tesz lehetővé. Az etológiai adatok, eredmények eddig nem nagyon kerültek áttekinthető, egységes formában közzétételre. A virtuális obszervatórium környezetét ajánlva erre a feladatra, példaképpen kialakítottunk egy kutyaugatási adatbázist, és készítettünk olyan alkalmazásokat, amelyeket használva a hangminták alapján statisztikus módszerekkel osztályozni lehet a kutyák állapotát, magatartását. További lépések Célunk további funkcionalitások megvalósítása mellett a virtuális obszervatórium ingyenes, nyílt forráskódú változatának elkészítése, mely nyilvánvalóan elősegítené, hogy más kutatócsoportok is létrehozhassák a saját virtuális obszervatóriumukat, és ennek a technológiának az elterjedésével, illetve az együttműködés révén hatékonyabbá váljon a kutatómunka.
4.2 Virtuális obszervatórium fejlesztése Projektvezető: Bencsik Attila Áttekintés A projekt célja egy általános Virtuális Obszervatórium erőforráskezelő és felhasználást támogató köztes szoftverrendszer kialakítása. A rendszer egészének célja, hogy a komponensek összehangolt működésükkel biztosítsák a kapott kutatási feladatok minél hatékonyabb megoldását. További célunk annak vizsgálata, hogy egy általános igényű Virtuális Obszervatórium miként kapcsolható össze input adatokat szolgáltató szenzorhálózatokkal. Eredmények 1. Magasfokú biztonsággal működő elosztott, párhuzamos rendszer, amely lehetővé teszi az inhomogén, területileg szétszórt erőforrások nyílt interneten keresztüli biztonságos elérését. 2. Pollen-előrejelző VO (virtuális obszervatórium) rendszer: Megvalósítottuk a polleneloszlást előrejelző rendszer implementációját, és végrehajtottuk a tesztfuttatásokat. A projekt megvalósításához egy weboldalt hoztunk létre (http://www.ingrid.hu), amelyen a leendő résztvevők regisztrálhatják magukat, majd letölthetik a kapcsolódáshoz szükséges programot és a feldolgozandó adatbázisokat. Ezután az internetre csatlakozott számítógépek felhasználatlan kapacitását hasznosítjuk, és algoritmusokat tesztelünk rajtuk. Ezek az algoritmusok keresik a meteorológiai elemek és a levegőben mérhető pollenkoncentráció közötti kapcsolatot. 3. Szenzor-Grid technológia implementálása: A folyamat során sikerült létrehoznunk egy rugalmasan használható vezetéknélküli adatgyűjtő-hálózatot, amely alkalmas a szenzorok adatainak interneten keresztül történő továbbítására, és azoknak a Szenzor-Grid rendszerben történő feldolgozására. További lépések Virtuális Obszervatórium: Üzleti lehetőségek vizsgálata a web 2.0 alkalmazások háttér- és számítási kapacitásainak kiszolgálására. Szenzor-Grid technológia: A Szenzor-Grid épületenergetikai felhasználásának további lehetőségei.
4.3 Vizualizációs centrum Projektvezető: Dr. Frei Zsolt, egyetemi docens Áttekintés A Vizualizációs Centrumban olyan környezetet terveztünk létrehozni, amely világszínvonalú grafikai fejlesztésekre és háromdimenziós (sztereó) megjelenítésre alkalmas. A rendszer a
20
vetítőteremből, egy projektor-rendszerből és egy, a vetítőket meghajtani képes számítógépből áll. Eredmények 1. Vetítőrendszer: Elkészült egy három-dimenziós megjelenítést lehetővé tevő nagyméretű és nagyfelbontású vetítőrendszer. 2. A vetítőrendszerhez kifejlesztettük a szemüvegek vezérlését biztosító elektronikai rendszert. 3. Implementáltunk és fejlesztettünk a 3D megjelenítést lehetővé tevő szoftvereket. Installáltuk a gyors, adatfeldolgozásra is alkalmas grafikus kártyákat. 4. Vizualizációs szolgáltatást biztosítottunk a RET projektjei számára. További lépések A továbbiakban a rendszert optikai követővel és különféle heptikus és erővisszacsatolásos eszközökkel kívánjuk bővíteni, amelyek növelni fogják az immerziót. A kialakított Vizualizációs Centrumban szeretnénk szolgáltató központot működtetni.
21
KITŰZÖTT CÉLOK A Tudásközpont megalakításakor a következő célok fogalmazódtak meg: 1. Alakuljon meg az Eötvös Loránd Tudományegyetemen egy olyan független szervezeti egység, melynek feladata a nagyléptékű kutatások megszervezése és menedzselése. Kiemelten kezeli az ipari partnerekkel való kapcsolatot, ösztönzi az alkalmazott, ipari megrendelésre végzett kutatást. Felméri az egyetem témakörébe kapcsolódó kompetenciáját, és ezek kifejtéséhez forrásokat keres. 2. A működés során felhalmozott menedzsment és szakmai ismereteket visszacsatolja az oktatásba, segít az új egyetemi szemléletmód elterjesztésében. 3. A kutatómunkában igyekszik biztosítani a tehetséges hallgatók, pályakezdők bevonását, megismertetni őket a versenyszféra munkamódszereivel. Támogatja a külföldön már bizonyított kutatók hazatelepülését, hazai kutatással való kapcsolattartását. 4. Tudatosítja a társadalom és a versenyszféra számára, hogy a Tudásközpont képes számukra hasznos kutatásokat végezni, és kommunikálja feléjük az eredményeket. 5. A Tudásközpont önfinanszírozó egyetemi egység legyen, kiadásainak döntő többségét saját bevételeiből, illetve az általa vezetett pályázatokból finanszírozza. Az önfinanszírozásra vonatkozóan a kezdeti modell alapján a Tudásközpont létrehoz szabadalmakat, (fél)késztermékeket, és azokat hasznosítja, vagy eladás, vagy start-up vállalkozások formájában. A működés során, más, hasonló szervezetek működésének tanulmányozása után rájöttünk, hogy a szabadalmak hasznosítása igen lassú és költséges folyamat, és a források nem teszik lehetővé, hogy olyan számban állítsunk elő szabadalmakat, amikből már jelentős esélye van az értékesítésnek. Ezenfelül a Tudásközpont specializációjában sokszor nem lehetséges az európai jog szerint a szabadalmi védelem (algoritmusok, szoftverek), a kész termékek nem felelnek meg a felhasználók szerteágazó igényeinek, ezért célszerűnek látszott áttérni egy másik modellre. Ebben a modellben a Tudásközpont személyre szabott szolgáltatásokat kínál ügyfeleinek, és a kifejlesztett technológiát, prototípusait az adott ügyfél igényéhez alakítja. Ez egyben egy állandó kapcsolatot is biztosít az Egyetem és ipari partnerei között.
22
EREDMÉNYEK ÉS HASZNOSÍTÁS A Tudásközpont eredményeit a következő táblázat foglalja össze: Eredmények Kifejlesztett új Termék (db) Szolgáltatás (db) Technológia (db) Alkalmazás (db) Prototípus (db) Benyújtott szabadalmak száma Hazai (db) PCT (db) Külföld (db) Publikációk (előadásokat is beleértve) Hazai Nemzetközi (dbximpact faktor) Disszertációk PhD (db) MTA doktora (db) A projektbe bevont Egyetemi hallgatók száma (db) PhD hallgatók száma (db) Fiatal kutatók száma (db) A projekt révén tudományos fokozatot szerzett kutatók száma (db) A projekt révén létrejött munkahelyek száma Vállalkozásban (db) Kutatóhelyen (db) Ebből kutatói munkahely (db)
Terv
Tény
8 6 3 2 9
4 8 14 7 24
3 2 2
1 0 3
1 129
16 120 (171.3)
11
5 1
8 16 3 12
20 31 16 6
4 7.75 6.75
3 11.07 11.07
A létrejött eredmények hasznosítása jelenleg még a kezdeteknél tart, a termékek hasznosítását ipari partnereink végzik, míg a szolgáltatások üzemeltetése túlnyomórészt az Egyetem feladata. Jelenleg folyik az ipari visszajelzések alapján egy új, a CellKom és eScience RET-ek közös eredményeinek továbbfejlesztésére szánt kutatási-szolgáltatási projekt megszervezése új ipari partnerek részvételével.
23