Studijní materiály pro bioinformatickou část ViBuChu – úloha II Jan Komárek, Gabriel Demo
Adenin
Struktura DNA
Thymin
5´ konec
3´ konec
DNA tvořena dvěmi řetězci orientovanými antiparalelně (liší se orientací – 5´→ 3´ a 3´→ 5´) párování bazí na základě vzájemné komplementarity: cukrfosfátová A=T G≡C páteř podle konvence psána sekvence DNA ve formě písmen, které odpovídají jednotlivým nukleotidům, a to ve směru 5´→ 3´ : 5´
3´ konec Guanin atgttcaagatcgaaaatc gtatatgtctggtagcatt
3´
Cytosine 5´ konec
http://en.wikipedia.org/wiki/DNA
5´ 4´
1´ 3´
2´
Proteosyntéza DNA 1. transkripce
jádro
mRNA
tRNA nesoucí příslušnou aminokyselinu
PROTEIN transport mRNA do cytoplasmy
2. translace ribozom http://en.wikipedia.org/wiki/Protein_biosynthesis
cytoplasmatická membrána
Genetický kód genetický kód - soubor pravidel, podle kterých je genetická informace uložená v DNA (respektive RNA) převáděna do pořadí aminokyselin v polypeptidovém řetězci standardní genetický kód: je univerzální = stejný pro většinu organismů je tripletový = třípísmenný je degenerovaný = dva i více kodonů mohou kódovat tutéž aminokyselinu iniciační kodon – začátek translace stop kodon – konec translace
1. nukleotid
2. nukleotid
3. nukleotid
také inic. kodon
http://biology.kenyon.edu/courses/biol114/Chap05/Chapter05.html
Čtecí rámce krátký úsek genomové DNA: 5'
3' ... ATCTAAAATGGGTGCC... transkripce (přepis)
mRNA: 5' ...UAGAUUUUACCCACGG... 3' translace (překlad) Teoretický překlad části genomové DNA (naznačeny možné čtecí rámce pro jeden z řetězců DNA)
1.
mRNA:
...UAG AUU UUA CCC ACG G...
protein: .. stop - Ile - Leu - Pro - Thr ...
2.
3.
mRNA:
...U AGA UUU UAC CCA CGG...
protein ale jak bioinformatika dokáže poznat, od kterého nukleotidu translace v buňkách skutečně začíná (a jaký produkt tak vzniká)?
Hledání ORF !
protein: ...... Arg - Phe - Tyr - Pro - Arg... mRNA:
...UA GAU UUU ACC CAC GG...
protein: ...... Asp – Phe – Thr – His -
http://en.wikipedia.org/wiki/Open_reading_frame (převzato a upraveno)
Čtecí rámce čtecí rámec – způsob čtení nukleotidové sekvence po tripletech (trojicích) otevřený čtecí rámec (ORF, open reading frame) – úsek DNA vymezený iniciačním a terminačním kodonem kódující souvislý a dostatečně dlouhý polypeptidový řetězec - hledání dlouhých ORF užitečné pro predikci genů
Translate nástroj pro převedení sekvence nukleotidů genomové DNA do sekvence proteinů ve všech šesti čtecích rámcích
http:/expasy.org/tools/dna.html
vložení nukleotidové sekvence jako holý text „agttgatga“
Translate výběr konkrétního čtecího rámce kliknutím čtecí rámce pro řetězec 5´3´
čtecí rámce pro řetězec 3´5´ aminokyselinové sekvence získané teoretickým překladem sekvence DNA ve všech 6 čtecích rámcích s vyznačenými kodony pro methionin (funguje také jako iniciační kodon) a stop kodony:
Translate 1.
výběr některého z kodonů pro methionin jako iniciačního kodonu
2.
zobrazení získané sekvence ve FASTA formátu
BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
(Basic Local Alignment Search Tool)
volba programu...
vyhledávání podobných sekvencí k námi zadané sekvenci v proteinových databázích
vyhledávání sekvencí na základě lokálního párového přiložení hledání podobnosti a tvorba přiložení nejdříve v rámci krátkých úseků, následně je přiložení rozšiřováno tak, aby proti sobě pokud možno ležely odpovídající si aminokyseliny (shodné nebo alespoň ty s podobnými fyzikálněchemickými vlastnostmi) pro přiložení sekvencí nutné vkládání mezer (důsledek inzercí a delecí)
BLAST vložení sekvence ve FASTA formátu... výběr databáze – zvolena nr (non-redundant) soubor několika databází, ve kterých by se stejné záznamy pocházející z několika databází neměly překrývat (měly by být zahrnuty jenom jednou)
omezení vyhledávání pro určitý úsek zadávané sekvence
omezení vyhledávání na určitý organismus (volitelné) další modifikace blastu
po rozkliknutí se dá nastavit maximální počet nalezených sekvencí, které mají být zobrazeny a parametry vyhledávání (výběr substituční matice, ...)
BLAST znázornění konzervativních domén, případně aktivních míst, pokud byly detekovány grafické znázornění nalezených sekvencí (barva odpovídá stupni podobnosti) s vyznačením, ve které části sekvence podobnost je...
výstup z BLASTu ve formě tabulky: přístupové kódy a popisy nalezených proteinů, dále uvedeno skóre přiřazení a hodnota E
skóre udává, jak dobré přiložení dostáváme – při výpočtu se bere v úvahu stupeň podobnosti
námi zadaná sekvence
nalezené proteiny se sekvenční podobností
BLAST = známa struktura skóre
udává, jak dobré přiložení dostáváme (čím vyšší skóre, tím lepší přiložení) – při jeho výpočtu se bere v úvahu stupeň podobnosti odpovídajících si aminokyselin mezi oběma sekvencemi (hodnoceno pomocí tzv. substituční matice), ale také vkládání mezer
E-value (expectancy): = předpokládaný počet sekvencí nalezených při prohledávání databáze o určité velikosti (statistická veličina) skóre udává, jak dobré přiložení S klesající –hodnotou E roste dostáváme při výpočtu se bere významnost přiložení vstatistická úvahu stupeň podobnosti
jednotlivá párová přiřazení...
ProtParam
www.expasy.org/tools/protparam.html
vložení přístupového čísla z databáze UniProt nebo vložení aminokyselinové sekvence (ne obojí)
nástoj pro výpočet a predikci některých fyzikálně-chemických parametrů (molekulová hmotnost, teoretické pI, aminokyselinové složení, extinkční koeficient, GRAVY index) na základě zadané aminokyselinové sekvence
PsiPred
http://bioinf.cs.ucl.ac.uk/psipred/
predikce sekundární struktury proteinů (algoritmus využívá tzv. neuronové sítě)
1.
výběr typu predikce – kromě sekundární struktury program umožňuje předpovídat i jiné vlastnosti (fold, topologie transmembránových proteinů)
vložení aminokyselinové sekvence
PsiPred
http://bioinf.cs.ucl.ac.uk/psipred/
2.
e-mail (není nutné uvádět)
krátká identifikace vstupních dat
PsiPred
vyznačená sekundární struktura + číselně vyjádřená míra jistoty, že určitá aminokyselina je součástí αhelixu / β-řetězce / neuspořádané struktury (0nejmenší pravděpodobnost, 9-nejvyšší)
...výsledky ve formátu PDF
grafické znázornění
Cirkulární dichroismus (CD)
Využití CD spektroskopie
K2D2
http://www.ogic.ca/projects/k2d2/
výběr rozmezí vlnových délek
vložení sady experimentálních hodnot (elipticit θ) – nutno vkládat ve vzestupném pořadí (od nejnižší vlnové délky po nejvyšší) – program si k hodnotám elipticit následně sám přiřadí jednotlivé vlnové délky (200, 201, 202 nm, ...) - a místo desetinných čárek používat desetinné tečky
stanovení procentuálního zastoupení α-helixu a βřetězce z experimentálních dat z CD spektrometrie