Výroční konference ELIXIR CZ 2.11.2016
Praha 2016
Výroční konference ELIXIR CZ
Konformační prostor DNA Bohdan Schneider za Jiří Černý 1, Paulína Božíková 1, Iva Nečasová 1, Petr Čech 2, Daniel Svozil 2, Bohdan Schneider 1 1 Biotechnologický ústav
AV ČR, v. v. i., Vestec, 2 Vysoká škola chemicko-technologická, Praha
DNA je jednou z nejdůležitějších molekul života. Novější strukturní studie ukazují, že nelze ustrnout na tradičním popisu DNA na úrovni kvalittaivního popisu pravotočivých forem B a A a levotočivé formy Z. Provedli jsme proto podrobnou analýzu konformačního chování DNA na úrovni dinukleotidů a podařilo se nám klasifikovat DNA konformace a vyvinout automatizovaný protokol, který tyto konformace klasifikuje do 44 tříd pro jakoukoli strukturu DNA. Protokol umožňuje snadnou a objektivní analýzu konformací DNA, zavádí rovněž validační skore confal, které kvantifikuje shodu mezi analyzovanou strukturou a známými konformery. Protokol je dostupný na webech dnatco.org a dolbico.org.
2
Praha, 2.11.2016
Strukturně bioinformatické projekty na Univerzitě Karlově David Hoksza Univerzita Karlova, Praha Univerzita Karlova poskytuje v rámci českého uzlu Elixíru několik služeb. V tomto příspěvku představíme stávající a vyvíjené nástroje z oblasti strukutrní bioinformatiky. Stávající nástroje jsou reprezentovány servery SETTER a MultiSETTER pro superpozici terciárních struktur RNA. Dále představíme nástroje vyvíjené pro predikci protein-ligand (p2rank) a protein-protein (INSPiRE) interakčních míst. p2rank je metoda založená na strojovém učení, kdy analýzou protein-ligand komplexů v PDB budujeme klasifikační model k rozpoznání typických fyzikálně-chemických vlastností protein-ligand aktivních míst. p2rank je dostupný jako command line aplikace pod otevřenou licencí a webový server je ve vývoji. INSPiRE je nová metoda pro identifikaci protein-protein interakčních míst, která využívá topologické charakteristiky grafů odvozených z proteinových struktur v PDB. Metoda poskytuje významně vyšší predikční potenciál než stávající přístupy a v současné době vyvíjíme aplikaci, která by tuto metodu zpřístupnila široké bioinformatické veřejnosti.
3
Výroční konference ELIXIR CZ
Bioinformatické nástroje a metody vyvíjené v Loschmidtových laboratořích David Bednář za Bednář D.1,2, Brezovský J.1,2, Bendl J.1,2,3, Štourač J.1,2, Musil M. 1,3, Daniel L.1,2, Hon, J.1,3, Martínek, T.1,3, Damborský J.1,2 1 Loschmidtovy laboratoře, Ústav
experimentální biologie a Centrum pro výzkum toxických látek v prostředí, Přírodovědecká fakulta, Masarykova univerzita, 2 Mezinárodní centrum klinického výzkumu, Fakultní nemocnice u sv. Anny v Brně, 3 Ústav informačních systémů, Fakulta informačních technologií, Vysoké učení technické v Brně Loschmidtovy laboratoře se zabývají základním i aplikovaným výzkumem, jehož centrálním tématem je proteinové inženýrství enzymů halogenalkandehalogenas. Řada výzkumných projektů je řešena na rozhraní disciplín sekvenční a strukturní bioinformatiky, chemoinformatiky a výpočetní chemie. Výstupy výzkumných projektů jsou validovány ve spolupráci s experimentálními týmy Loschmidtových laboratoří. V rámci přednášky budou představeny následující výstupy probíhajících výzkumných projektů: i) nástroje pro analýzu dynamiky transportních tunelů a kanálů – Caver 4.0, Caver Web 1.0 a Caver Analyst 2.0, ii) integrativní platforma poskytující ucelenou podporu pro výběr pozic vhodných k mutagenezi a návrh chytrých knihoven pro proteinové inženýry – HotSpot Wizard 2.0, iii) meta-server pro predikce vlivu variací v celém lidském genomu – PredictSNP 2.0, iv) metoda pro efektivní stabilizaci proteinů vícebodovými mutacemi – FireProt 1.0, v) protokol založený na molekulovém dokování, umožňující identifikaci nových substrátů a inhibitorů u divokých typů a mutantních variant enzymů a vi) nástroj pro identifikaci průmyslově zajímavých proteinů v genomických databázích.
4
Praha, 2.11.2016
Decryptor — nástroj pro spolehlivou identifikaci bodových mutací v peptidech Miroslav Hruška Univerzita Palackého v Olomouci Identifikace peptidů z dat hmotnostní spektrometrie je primárně založená na vyhodnocení shody mezi naměřeným spektrem a množinou teoretických spekter. Teoretická spektra z praktických důvodů neodpovídají celé množině peptidů; pro uvedený účel se používají nejčastěji referenční databáze organizmů. Uvedeným způsobem je ale z principu nemožné identifikovat nereferenční peptidy. Z biologického hlediska samozřejmě znalost přítomnosti mutovaných proteinů ve vzorku může nést mnoho informace, proto je o danou znalost přirozený zájem. Při identifikaci mutovaných proteinů jsou však databáze užité k prohledávání významně větší, což přináší problémy nejen výpočetní, ale i statistické. Standardně užitá kritéria filtrace výsledků jsou mnohdy nepostačující, což je zejména způsobenou vysokou homologií na úrovni spekter. Decryptor je online nástroj pro analýzu dat z hmotnostní spektrometrie. Pro interpretaci spekter využívá databází mutovaných peptidů konstruovanou překladem bodových mutací z veřejně dostupných sekvenačních databází (COSMIC, ICGC, TCGA a dbSNP). Systém je určen k identifikaci bodových mutací, které vznikly právě jednou nukleotidovou záměnou v odpovídajícím kodonu referenčního genomu. Z výpočetního hlediska je systém provozován na výpočetním klastru a byl cíleně navržen pro vysokou škálovatelnost. Interpretace spekter jsou bohatě propojeny s biologickými databázemi, které poskytují detailní informace jak o proteinech, tak i o mutaci. V prvním případě se jedná zejména o roli proteinu a jeho asociaci s nemocemi; v případě mutací jsou to informace o jejím zdroji, zásahu do proteinových domén, evoluční konzervaci okolí mutace a predikce její škodlivosti. Výsledky je možné exportovat v tabulární formě a používat pro další aplikačně-specifické analýzy.
5
Výroční konference ELIXIR CZ
MetaCentrum a aktivity CESNETu pro ELIXIR CZ Miroslav Ruda CESNET, Praha MetaCentrum (www.metacentrum.cz) je distribuované výpočetní prostředí zahrnující výpočetní a úložné zdroje e-infrastruktur CESNET a CERIT-SC. Popíšeme klíčové komponenty tvořící tuto e-infrastrukturu a metody použité pro správu a rozvoj takového prostředí a zaměříme se na podobnost s budovanou e-infrastrukturou VI ELIXIR. Představíme nejbližší kroky při budování IT infrastruktury VI ELIXIR a na příkladech aktuální spolupráce CESNETu a CERITu-SC s dalšími partnery budeme demonstrovat dlouhodobé plány v oblasti IT. Budeme se věnovat i mezinárodní spolupráci v projektu ELIXIR EXCELERATE, zejména v oblasti Compute Platform.
6
Praha, 2.11.2016
ELIXIR Compute Platform a aktivity CERIT-SC/MU pro ELIXIR Aleš Křenek Masarykova Univerzita - CERIT-SC, Brno CERIT-SC a CESNET poskytují uživatelům nezbytné zdroje e-infrastruktury “as is” včetně kvalifikované podpory a dlouhodobé spolupráce. V příspěvku popíšeme možnosti dostupných nástrojů Galaxy a Chipster. Dále se zaměříme na dva konkrétní případy, kde přidaná informatická expertiza dovolila posunout výzkum v life science — nová implementace algoritumu korekce sekvenačních chyb Echo a empirické výpočty atomárních nábojů NEEMP. V závěru se zmíníme o spolupráci s konsorciem EurOPDX a připravovaném projektu H2020 EDIReX, kde CERIT-SC odpovídá za vybudování evropské infrastruktury pro sdílení biobankových a bioinformatických dat konsorcia.
7
Výroční konference ELIXIR CZ
Cesta k F.A.I.R. Data Marek Suchánek, Robert Pergl České vysoké učení technické v Praze F.A.I.R., neboli Findable - Accesible - Interoperable - Reusable jsou principy směřující k maximální využitelnosti bohatství (nejen) life science dat. V příspěvku představíme tyto principy a co nabízí infrastruktura ELIXIR v tomto ohledu, detailněji se zaměříme na probíhající a připravované projekty ELIXIR-NL a ELIXIR-CZ, především pak připravovaný Data Management & Data Stewardship Planning Portal.
8
Praha, 2.11.2016
RepeatExplorer - principy a příklady použití na analýzu repetitivní DNA v genomech eukaryot Jiří Macas Biologické centrum AV ČR, České Budějovice RepeatExplorer je sada bioinformatických programů vyvinutých za účelem identifikace repetitivních elementů v komplexních genomech eukaryot. Jádrem RepeatExploreru je algoritmus clusterování krátkých sekvencí DNA, díky němuž lze repetitivní elementy identifikovat přímo ze souborů sekvenačních čtení bez nutnosti skládání genomu. V přednášce bude stručně představen princip tohoto algoritmu a budou uvedeny příklady jeho aplikace na analýzu repetitivní DNA v jednotlivých druzích, studium evoluce repetic v rámci širších taxonů a na analýzu složení jednotlivých chromozómů nebo jejich centromer.
9
Výroční konference ELIXIR CZ
Jak studovat dlouhá časová měřítka z krátkých simulací Vojtěch Spiwok Vysoká škola chemicko-technologická, Praha Simulace molekulové dynamiky umožňuje simulovat mikrosekundy ze života biomolekulárních systémů. Řada zajímavých procesů, jako například sbalování proteinů nebo interakce molekul, trvají podstatně déle. Abychom takovéto procesy mohli simulovat, musíme buď stavět větší a větší počítače nebo vyvíjet metody, které simulace urychlí. V této presentaci budou presentovány urychlující metody a nástroj pro analýzu výsledků těchto metod, které v naší skupině používáme a vyvíjíme.
10
Praha, 2.11.2016
Rekonstrukce nevýznamných hitů sekvenčního vyhledávání nekódujících RNA na základě podobnosti suboptimálních sekundárních struktur RNA Marek Schwarz, Josef Pánek Mikrobiologický ústav AV ČR, Praha Nekódující RNA (ncRNA), které mají funkční strukturu, je tato struktura zachovávána napříč homology, ač jejich sekvence se může výrazně měnit. Při sekvenčním vyhledávání nových homologů (např. BLAST), většinou získáme soubor hitů, významné, reprezentující ncRNA a dále hity fragmentované, s velkým množstvím insercí, delecí a záměn v sekvenci. O těchto hitech nemůžeme říci, zda jsou či nejsou homologní ncRNA, proto jsou ale zajímavé a náš algoritmus se na ně zaměřuje. Agoritmus využívá konzervovanosti struktury mezi homologními ncRNA a na základě strukturní podobnosti rekonstruuje nevýznamné hity sekvenčního vyhledávání do plné délky potenciálního ncRNA homologu. Vzhledem k netriviálnímu problému predikce korektní sekundární struktury, využíváme energeticky suboptimální struktury, které ji často obsahují. Na genomové oblasti hitu je zkonstruováno množství sekvencí a jsou předpovězeny soubory jejich suboptimálních struktur. Ty jsou párově porovnány se suboptimálními strukturami dotazované sekvence a na základě nejpodobnějšího páru suboptimálních struktur je vybrána prodloužená sekvence. Tímto postupem jsme nalezli nové potenciální homology bakteriální ncRNA Ms1. Použitelnost algoritmu je limitována na dobře strukturované ncRNA.
11
Výroční konference ELIXIR CZ
Softwarové nástroje, databáze a klíčové life science aktivity ELIXIR CZ na Masarykově univerzitě Radka Svobodová Vařeková Masarykova Univerzita – CEITEC, Brno Hlavní life science doménou, na kterou se zaměřuje ELIXIR CZ v rámci Masarykovy univerzity, je strukturní bioinformatika. V této oblasti vyvíjí a poskytuje softwarové nástroje a databáze, sloužící k analýze strukturních fragmentů biomakromolekul. Konkrétně se specializuje na validaci, detekci, extrakci, porovnávání a charakterizaci těchto fragmentů. V současné době nabízí ELIXIR CZ na MU softwarové nástroje MotiveValidator, PatternQuery, MOLE, SiteBinder, NEEMP a AtomicChargeCalculator a databáze ValidatorDB a ValTrendsDB. Dále je ELIXIR CZ na MU intenzivně zapojen do správy a vývoje databáze BioTools, největšího evropského archivu life science software, a související ontologie EDAM, vytvořené pro anotaci příslušného software. V neposlední řadě, ELIXIR CZ na MU spolupracuje rovněž na procesu formování doporučených praktik pro vývoj life science software v ELIXIRu.
12
Praha, 2.11.2016
Implementace databáze malých molekul Jakub Galgonek, Jiří Vondrášek Ústav organické chemie a biochemie AV ČR, Praha Jednou z klasických cheminformatických úloh je vytvoření databáze malých molekul. Tyto databáze nachází velké uplatnění v chemickém, biologickém i medicínském výzkumu. Našim cílem je vytvořit na našem ústavu velmi rozsáhlou databázi malých molekul, která by neměla obsahovat jen definice samotných molekul, ale rovněž i množství k nim se vztahujících chemických a biologických dat. Databáze by měla umožnit hledání nejen přímo na základě specifikace požadované molekuly, ale rovněž také na základě komplexních kritérií. V tuto chvíli již za sebou máme rozsáhlý průzkum, jaká úskalí přináší spojování databází malých molekul. Aktuálně experimentujeme se systémem obsahující data z databáze PubChem. Tento systém obsahuje přes 200 milionů substancí vázajících se k více než 90 milionům molekul, pro než bylo provedeno přes milion biologických assayí. Informace je možné hledat pomocí dotazovacího jazyka SPARQL, který jsme schopni kombinovat s hledáním molekul podle chemické struktury. To nám umožňuje například řešit typický dotaz, ve kterém jsou hledány molekuly, které obsahují nějaký strukturní fragment a byly pozitivně testovány v nějaké assayi obsahující daná klíčové slova. K plnému nasazení systému je ještě nutné provést celou řadu optimalizací, zahrnout do databáze další zdroje dat a vytvořit přívětivé uživatelské rozhraní pro běžné uživatele z chemické či biologické komunity.
13
Výroční konference ELIXIR CZ
IOM jako cloudová služba přesné interpretace hmoty Jan Fesl, Rudolf Vohnout Jihočeská Univerzita, České Budějovice Interpretace přesné hmoty měřené HR/LCMS spektrometry prostřednictvím cloudové služby slouží ke stanovení pravděpodobného elementárního složení dané látky. Uživatel odesílá data k intepretaci do cloudové služby, jako výsledek obdrží seznam sumárních vzorců nejpravděpodobnějších kandidátů. Platforma je optimalizována i pro velké hmoty molekuly, které je možno interpretovat v relativně krátkém čase.
14
Praha, 2.11.2016
Osobní údaje a klinická data (human data) související s léčbou hematologických onemocnění Lucie Houdová Západočeská Univerzita, Plzeň V současné době je velký potenciál v možnostech integrace genetických a klinických údajů, a tím mají i onkologové možnost se více zaměřit na individualizovanou péči. Náš tým si klade za cíl za účelem plnění specifických klinických cílů vytvářet systematický přístup k zacházení s genetickými daty při plánování léčby. Výzkum a vyvíjené nástroje slouží hlavně v klinické praxi pro podporu rozhodování při transplantaci kostní dřeně. Konkrétně se zaměřujeme na návrh a vývoj flexibilních klinických informačních systémů, včetně způsobu ukládání a organizace klinických dat, zabezpečení dat, analýzy dat a modelování, zpracování a interpretaci dat, které jsou určeny pro konkrétní specialisty. Mezi v současnosti zvažované klinické údaje patří osobní údaje pacienta / dárce a hematologicko-onkologická / imunologická data (např. HLA, KIR, cytokiny a další markery). Výzkum a vývoj je realizován v rámci spolupráce s Českým národním registrem dárců dřeně. Vyvíjené nástroje jsou průběžně implementovány a nasazovány v diagnostické laboratoři, koordinačním centru ČNRDD a národních transplantačních a dárcovských centrech.
15
Výroční konference ELIXIR CZ
Přednášející Bohdan Schneider Biotechnologický ústav AV ČR, Praha David Hoksza Univerzita Karlova, Praha David Bednář Fakultní nemocnice u sv. Anny v Brně Miroslav Hruška Univerzita Palackého v Olomouci Miroslav Ruda CESNET, Praha Aleš Křenek Masarykova Univerzita - CERIT-SC, Brno Marek Suchánek, Robert Pergl České vysoké učení technické v Praze Jiří Macas Biologické centrum AV ČR, České Budějovice Vojtěch Spiwok Vysoká škola chemicko-technologická, Praha Marek Schwarz, Josef Pánek Mikrobiologický ústav AV ČR, Praha Radka Svobodová Vařeková Masarykova Univerzita – CEITEC, Brno Jakub Galgonek, Jiří Vondrášek Ústav organické chemie a biochemie AV ČR, Praha Jan Fesl, Rudolf Vohnout Jihočeská Univerzita, České Budějovice Lucie Houdová Západočeská Univerzita, Plzeň
16
Praha, 2.11.2016
Poznámky
17
Výroční konference ELIXIR CZ
Poznámky
18
Praha, 2.11.2016
Poznámky
19