Felhő használata mindennapi alkalmazások futtatására
Németh Zsolt MTA SZTAKI
Legyőzni a maláriát • 45 másodpercenként meghal egy gyerek maláriában • Évente 216 millió ember fertőződik meg és 650000 meghal • Vegyületek millióit vizsgálták és kb. 19000 tűnik hatásosnak a Plasmodium falciparum ellen • A gyógyszerfejlesztés specifikusabb lehetne annak ismeretében, hogy ezeknek a vegyületeknek melyek a célfehérjéi • A megoldás tehát: keressük meg mind a 18,924 vegyület összes lehetséges kapcsolódását (docking) a Plasmodium falciparum 5363 fehérjéjével • Ez több mint 300 millió kapcsolódás számítása
http://www.fight-malaria.org/
Tumormarkerek feltérképezése • A genetikus vagy környezeti változások hatásai a szövetekben a rájuk jellemző kémiai indikátorokkal mutathatók ki • Ezen markerek bizonyos kombinációi jellemzőek adott típusú rákbetegség esetén • A markerek eloszlása (mintázata) valószínűsítheti egy adott típusú rák kialakulását • Az egyes rákbetegségekre jellemző markerek meghatározhatók több ezer egészséges és beteg szövetből származó, milliós nagyságrendű adatok elemzéséből • Eddig 5200 évnyi CPU idő http://www.cs.utoronto.ca/~juris/MCM.htm
DNS-szekvenálás • „Nem vagyunk különösebben nagy labor, de elegendő kapacitásunk van napi 1T adat generálására" - Cold Spring Harbor Laboratory • A világon évente 15P DNS-szekvenálással kapcsolatos adat keletkezik • A nyers adatokat DVD-re írva és egymásra téve 4km magas oszlopot kapunk
http://www.sciencemag.org/site/products/lst_20130614.xhtml
HBM Hackathon • Verseny: a leginnovatívabb ábrázolása az MNI 152 adatbázisból kinyerhető információnak • Kizárólag az OHBM konferencia ideje alatt, nyílt hozzáférésű erőforrásokkal o MNI koordinátarendszerben 3D térbeli neuroanatómiai modellek összeállítása o Agyi információs térkép – adott (x,y,z,r) koordinátához az összes létező információ és azok bizonytalanságának ábrázolása
http://ohbm-seattle.github.io/
HBM Hackathon • 14*109 p-érték számítása szükséges a genetikai összefüggések feltárásához • Mindössze pár nap alatt • R statisztikai környezet o CPU és memória igények folyamatos követése o Tetszőleges operációs rendszer és tetszőleges konfiguráció azonnali beállítása o Többszáz gép párhuzamos használata o A számítás bármilyen eszközről elvégezhető http://www.r-statistics.com/2013/07/analyzing-your-data-on-the-aws-cloud-with-r/
ProSim: molekuláris szimuláció • Fehérjemolekula modellezés energiaminimum számítással • 3D molekulaszerkezetek vizsgálata • Molekulamodellezés dokkolással o Egy akceptor (makromolekula) és egy ligandum (kismolekula) kölcsönhatását modellezi és számítja
• A ProSim fehérjemolekula szimulációhoz o munkafolyam template-eket biztosít o paramétervizsgálatot tesz lehetővé o automatizálja a folyamatot ProSim: Development of a User-friendly Molecular Modelling Package, H. Heindl, T. Kiss, G. Terstyanszky, N. Weingarten, B. Afrough, P. Greenwell
Proteomika •
Fehérje-komplexek, sejt-szervecskék, sejtek stb. fehérje-tartalmának kvalitatív és kvantitatív jellemzése; komplex biológiai rendszerek modellezése o o o o
• •
Fehérjék darabolása enzimekkel, adott aminosav előtt/mögött Az emésztési elegy on-line frakcionálása, tömegspektrométeres analízise A fragmentálódás szerkezet-specifikus Adathalmaz: az intakt molekulatömegek és a darabok tömegei
Gyakran több mint százezer molekula egyetlen kísérletben, és több kísérlet egy lekeresésben Probléma: a feladat nem megoldható egyszerű adatbázis műveletekkel o Nem várt, új módosulatok keresése
•
Protein Prospector o In silico kísérletek o Elméleti és valós adatok összevetése o A jelenlévő fehérjék azonosítása, azonosítás megbízhatóságának jellemzése
•
Jelenleg zajló kísérlet a SZTAKI Felhőn, Szegedi Biológiai Kutatóközpont Proteomikai Laboratórium
Katalin F. Medzihradszky közlése
1998 World Cup Web site
Workload Characterization of the 1998 World Cup Web Site, Martin Arlitt, Tai Jin
1998 World Cup Web site
Workload Characterization of the 1998 World Cup Web Site, Martin Arlitt, Tai Jin
Milyen alkalmazások igénylik a felhőt • Nagy számítási kapacitást igényelnek valamint o Nagy tárolókapacitást o Nagy sávszélességet o Specifikus alkalmazásokat, stb.
• Nagyon rövid időtartamra o Időben változó igények o Előre nem ismert igények o Nem kifizetődő birtokolni az erőforrásokat •
a költségek nem időarányosak
Autodock Vina • Molekuláris modellező eszköz • Dokkolás o Két molekula reakcióba lép és stabil kötést alkot o A két molekula várható orientációját (kötés helye és geometriája) számítja
• A várható orientáció meghatározza o A kötés erejét o Nem kovalens kölcsönhatások • Hidrogén hídkötés, elektrosztatikus kölcsönhatások, van der Wals erők, stb.
Autodock Vina • Autodock: 1990, Autodock Vina: 2010 o o o o o
Megnövelt pontosság Kompatibilitás a korábbi eszközökkel Sokprocesszoros, sokmagos rendszerek Megnövelt sebesség Minőség + könnyű használat
• Pontosabb „scoring function”
R • R: egy nyelv, az S egy változata (implementációja) • Statisztikai számítások + grafika o o o o
Lineáris és nem lineáris modellezés Statisztikai próbák Osztályozás Klaszterezés, stb.
• R: egy környezet o o o o o
Adatkezelés és tárolás Tömbök, mátrixok kezelése Adatelemző eszközök Grafikus eszközök Egyszerű és hatékony nyelv
R
http://www.r-project.org/