NextGen Sequencing data intro.

Next-Gen Sequencing Data

@shiondev

Σ Bases DNA == “The Genome”

Σ Bases DNA == “The Genome” 3Gbp

…ACAGTTTTCAAGAGCCGGTTTTACTAGGATTATTACTG…

…ACAGTTTTCAAGAGCCGGTTTTACTAGGATTATTACTG… G

…ACAGTTTTCAAGAGCCGGTTTTACTAGGATTATTACTG… G T

…ACAGTTTTCAAGAGCCGGTTTTACTAGGATTATTACTG… G T -‐

…ACAGTTTTCAAGAGCCGGTTTTACTAGGATTATTACTG… G T -‐ A

SEQUENCING

# of Bases per day per machine

200kbp 2000

1Mbp 2003

200 Mbp 2005

3Gbp 2009

60Gbp 2012

what can we do with NGS data?

Re-sequencing

Re-sequencing Looking for changes in a Genome

Re-sequencing Looking for changes in a Genome (Given that we
have a HIGH quality reference)

Re-sequencing Looking for changes in a Genome (Given that we
have a HIGH quality reference) Consequences?

Reliably finding those changes is not easy

(1%-3%) of your bases may be errors.

What’s the typical workflow in a re-sequencing project ?

Library preparation

Library preparation Sequencing

Library preparation Sequencing Analysis I (images -> reads)

.fastq ... >HWI-ST821_0129:5:1101:1927:2089#GATCAG/1 TGGACAACGGCCAGGTTAATGATGGGCAGGTAGAAGATGATCACT +HWI-ST821_0129:5:1101:1927:2089#GATCAG/1 ___ccccccYc[eff`]X`a^ef][RHP^_cXIYSXcXcfSWXcd ...

Library preparation Sequencing Analysis I (images -> reads) Analysis II
(alignments)

(alignments) Analysis III (Variant calling)

(alignments) Analysis III (Variant calling) Annotation

(alignments) Analysis III (Variant calling) Annotation Science starts here …

(alignments) Analysis III (SNP calling) Annotation 5/15 Tb 150Gb 80G 16 8G 1G 1 400Mb 1

1 Genome (3-6 days) ~ 230Gb

1 Genome

Let’s do it again for N genomes

personalize medicine

personalize medicine Tailor physician decisions and practices to individual patients

Let’s do it again for N genomes

Thanks!

NextGen Sequencing data intro.

NextGen Sequencing data intro.

Other Decks in Research

Featured

Transcript