Naar High Throughput DNA data analyse Laboratorium automatisering seminar ‘van Data naar Informatie’ Jan-Peter Nap Hanze University Groningen
8/10/10
1 van 24
van Data naar Informatie
• gisteren – CLC bio, a comprehensive platform for NGS analysis – Super-scale sequence data analysis with hybrid core computing
• nu: – Accurate next gen sequencing data analysis on cloud computing
8/10/10
2 van 24
van Data naar Informatie
8/10/10
3 van 24
van Data naar Informatie
DNA structuur & dimensies
8/10/10
4 van 24
van Data naar Informatie
DNA structuur en dimensies • 10 bp = 3.4 nm => 3 * 109 bp = 1 m (* 2 per iedere cel) • menselijk lichaam: …. • 3 miljard bp humane genoom – – – – –
8/10/10
“klaar” in 2000 kosten: ~1 – 30 miljard US$ 12-15 jaar technologische ontwikkelingen: 1000-100$/genoom in een dag dan ‘alles’ mogelijk
5 van 24
van Data naar Informatie
Een Illumina run • Ruwe data: 30 TB (mega-giga-tera-peta-exa) – High resolutie opnamen laserexcitatie
• ~ 300 GB data (HiSEQ 2000; 2*100) – Humane genoom (3 * 109) ~ 700 MB
• Ruwe data worden asap weggegooid!
8/10/10
6 van 24
van Data naar Informatie
Voorspelling • 2010: 100 Gb DNA sequenties • 2011: 1 Tb • 2012: ?
8/10/10
7 van 24
van Data naar Informatie
Voorspelling • 2011: 100 Gb DNA sequenties • 2012: 1 Tb • 2013: ??
PER DAG…. Eindelijk interesse fysica/IT etc….
8/10/10
8 van 24
van Data naar Informatie
Wat komt er dus aan…. • • • •
vloed springvloed tsunami ?
8/10/10
9 van 24
van Data naar Informatie
Allemaal data…..
en computers zijn er erg goed in
• DNA – in iedere cel
• 3 x 109 basen per cel (= het genoom) • saai alfabet: – maar 4 letters: AGCT 8/10/10
10 van 24 • mantra:
van Data naar Informatie
Van DNA naar ‘informatie’ • Wat hoort bij elkaar – assembly
• Wat ‘doet’ het en wanneer? – annotatie
• ‘Pan – omics’ – Alles met alles in relatie brengen
• Gebruik van de informatie – Biomedisch (diagnose, behandeling) – Landbouwkundig (plantenveredeling, opbrengst)
8/10/10
11 van 24
van Data naar Informatie
‘Informatie’ in DNA I • Assembly – Aan elkaar plakken van ‘reads’ • 75 nt, maar groeiend
– Structuur van genomen en chromosomen – Structuur/functie relaties – Vergelijkingen • ziek – gezond • droog - nat
En nu dus HTP – genome wide
8/10/10
12 van 24
van Data naar Informatie
‘Informatie’ in DNA II • Annotatie – DNA geeft RNA geeft eiwit – Maar welk en wanneer en hoe? – Vergelijkingen • Blast eva
– Laboratorium/veld experimenten
En nu dus HTP – genome wide
8/10/10
13 van 24
van Data naar Informatie
‘Informatie’ in DNA III • Andere data types/bepalingen OOK meer HTP – RNA sequenties – Epigenoom sequencing
• Eiwit data – Proteomics – MS
• Metaboliet data – MS
8/10/10
14 van 24
van Data naar Informatie
Uitdagingen • hardware – Moore’s law?
• software – algorithmen – datastructuren
• experimental design • training & communicatie – Life science professional als (halve?) IT’er
• kosten
8/10/10
15 van 24
van Data naar Informatie
Hardware • Grid applicaties – BigGrid + Dutch Life Sciences Grid – E-bioscience grid – Cloud?
• GPGPU – General Purpose Graphical Processing Unit – Democratiseren’ (supercomputer) infrastructuur – Bruikbaar voor HTP DNA applicaties?
8/10/10
16 van 24
van Data naar Informatie
Voorbeeld GPGPU • Smith-Waterman algorithme – vergelijken van sequenties • bewezen het beste
– Te langzaam voor HPC • Blast etc.
– Implementatie op GPGPU • geen bruikbare implementatie(s) publiek • onderzoeker wil alignments (kunnen) zien • vereist specifieke kennis/kunde (CUDA)
– Testen suggereren rendabele/haalbare/snelle aanpak
8/10/10
17 van 24
van Data naar Informatie
Hardware • Grid applicaties – BigGrid + Dutch Life Sciences Grid – E-bioscience grid – Cloud
• GPGPU • FPGA (Field Programmable Gate Arrays) – Kosten?
8/10/10
18 van 24
van Data naar Informatie
Software • Huidige algorithmen zijn ‘oud’ • kan het beter?
• Veel heuristiek • blast
8/10/10
19 van 24
van Data naar Informatie
Software • Work flow management systemen • OS: Taverna, Galaxy, Trident (MS!) • Commercieel: CLC bio
• Aanpassen aan werkveld? • excel
• Parallelisatie • GPGPU; FPGA, ander
8/10/10
20 van 24
van Data naar Informatie
Experimental design • • • •
Niet meer alles opslaan? Is more less? Meer cross-experiment analyses Meer standaarden/ontologien/SOP’s?
8/10/10
21 van 24
van Data naar Informatie
Voorbeelden toepassingen • Genome-wide association studies (GWAS) – Welke SNPs zijn gerelateerd aan ziekte ‘X’ in een patientenpopulatie Y en gezond panel Z
• Metagenomics: “alle” bacteriele DNA – voor energie productie – in relatie tot gezondheid
8/10/10
22 van 24
van Data naar Informatie
Training & communicatie • NBIC – BRS; BioAssist
• BSc – Hogescholen
• MSc and up – Universiteiten – Europees/internationaal
8/10/10
23 van 24
van Data naar Informatie
Nieuw: E-lab assistent • • • •
Laborant met (veel) IT kennis Kennis en kunde van hardware/biosoftware Kennis van life sciences Eigen projectjes+helpdesk functie
• Ervaring (Groningen/CBSG/PRI Wageningen) erg positief
8/10/10
24 van 24
van Data naar Informatie