SSSA 2014 QIIME Workshop

24f019bae9a9c4282123961b01c7f0d5?s=47 Greg Caporaso
November 02, 2014

SSSA 2014 QIIME Workshop

Soil Science Society of America 2014: QIIME Workshop slides

24f019bae9a9c4282123961b01c7f0d5?s=128

Greg Caporaso

November 02, 2014
Tweet

Transcript

  1. SSSA  QIIME  Workshop   2  November  2014     www.qiime.org

      h=p://bit.ly/sssa-­‐qiime2014-­‐details   Greg  Caporaso   John  Chase   Karen  Schwarzberg   www.caporasolab.us   www.applied-­‐bioinformaOcs.org  
  2. Image  credit:  Norman  Pace  

  3. Microbial Ecology of the Gastrointestinal Tract Annual Review of Microbiology

    31: 107–33. Savage, D. C. (1977).
  4. Peter J. Turnbaugh et al., Nature 2006 An obesity-associated gut

    microbiome with increased capacity for energy harvest Do differences in our microbiota matter?
  5. Microbes  rarely  live  or   act  alone.  

  6. (b) Layer 1 (1 mm) Layer 2 (2 mm) Layer

    3 (3 mm) Layer 4 (4 mm) Layer 5 (5 mm) Layer 6 (6 mm) Layer 7 (10 mm) Layer 8 (22 mm) Layer 9 (34 mm) Layer 10 (49mm) (a) 6 10 15 24 27 30 32 6 11 26 27 30 (1) Acidobacteria Actinobacteria Armatimonadetes BRC1 (5) Bacteroidetes Caldiserica Caldithrix Chlorobi (10) Cyanobacteria Firmicutes GN01 GN02 GN04 (15) Gemmatimonadetes Hyd24-12 KSB3 Lentisphaerae NKB19 (20) OD1 OP11 OP3 OP8 OP9 (25) Planctomycetes Proteobacteria SAR406 SR1 Spirochaetes (30) Synergistes TG3 TM6 Tenericutes Thermi (35) Thermotogae Verrucomicrobia WS1 WS3 WS4 (40) WS6 ZB3 A A Zone B C Image  source:     PhylogeneOc  straOgraphy  in  the  Guerrero  Negro  hypersaline  microbial  mat.   Harris,  Caporaso  et  al.  (2012)   InternaOonal  Society  for  Microbial  Ecology  Journal   Microbes  rarely  live  or   act  alone.  
  7. Photo  credit:  John  Spear  

  8. Culturing  microbes  is  hard   Bacillus  anthracis  in  culture  

    Back  of  the  envelope   calculaOon:  less  than  13%   of  bacterial  species*  have   a  representaOve  that  has   been  grown  in  culture.     Many  recent  advances     are  based  on     culture-­‐independent     approaches  for  studying   microbial  communiOes.     *  Defined  as  97%  OTUs  in  the  Greengenes  13_5  reference  database.  
  9. Culture-­‐independent  invesOgaOon  of   microbial  communiOes     All  cellular

     life  has  a  shared   evoluOonary  history,  and   some  genes  are  shared  by  all   organisms.       The  sequence  of  those   genes  can  be  used  as  a   gene3c  fingerprint  for   different  organisms.    
  10. ACCAGGTT The  random  accumulaOon  of   muta3ons  (changes  to  gene

      sequences  over  evoluOonary   Ome)  gives  us  informaOon   for  idenOfying  and   comparing  organisms.   Time
  11. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT Time The  random  accumulaOon  of  

    muta3ons  (changes  to  gene   sequences  over  evoluOonary   Ome)  gives  us  informaOon   for  idenOfying  and   comparing  organisms.  
  12. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT Time

    The  random  accumulaOon  of   muta3ons  (changes  to  gene   sequences  over  evoluOonary   Ome)  gives  us  informaOon   for  idenOfying  and   comparing  organisms.  
  13. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT ACCATATT

    ACTAGCAT ACTAGTAT TCAATGTT TCCATGTT ACCAGGTT Time The  random  accumulaOon  of   muta3ons  (changes  to  gene   sequences  over  evoluOonary   Ome)  gives  us  informaOon   for  idenOfying  and   comparing  organisms.  
  14. Collect  samples  

  15. Image  source  and  instrucOons:   h=p://learn.geneOcs.utah.edu/content/labs/extracOon/howto/   Extract  DNA  

    (you  can  do  this  at  home!)  
  16. Isolate  the  small  subunit  ribosomal   RNA  gene  to  “fingerprint”

     different   microbial  organisms.   Why  this  gene?   •  It’s  ubiquitous.   •  Contains  regions  that   idenOcal  across  organisms,   and  regions  that  are   variable  across  organisms.  
  17. Sequence  the  rRNA  from  all  samples  on  a  “high-­‐ throughput”

     DNA  sequencer   Pool  samples   and  sequence   Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes  for  pyrosequencing  hundreds  of  samples  in  mulOplex.   Per-­‐sample  rRNA   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…    
  18. Which  microbial  organisms  are   represented  by  the  rRNA  gene

      sequences  in  each  sample?   >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 rRNA  reference  database   Search  against   reference   sequences  
  19. Search  against   reference   sequences   RefSeq 1 RefSeq

    2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   Which  microbial  organisms  are   represented  by  the  rRNA  gene   sequences  in  each  sample?  
  20. Comparing  microbial  communiOes   Who  is  there?      

    How  many  “species”  are  there?       How  similar  are  pairs  of  samples?    
  21. Assign  millions  of   sequences  from  thousands   of  samples

     to  reference   Compare  samples   staOsOcally  and  visually   www.qiime.org   Assign  reads  to  samples   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…     RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10
  22. Science  (2012)   PNAS  (2011)   Gastroenterology  (2011)   A

     few  of  the  1963  arOcles  ciOng  QIIME     (Google  Scholar,  1  Nov  2014)   Cell  (2012)   Applied  and   Environmental   Microbiology  (2011)   Current  InfecOous  Disease   Reports  (2011)   PLoS  One  (2011)   Microbiology  and  Molecular   Biology  Reviews  (2013)  
  23. Learning  QIIME   •  Start  with  the  tutorials   – h=p://qiime.org/tutorials/index.html

      •  Call  any  script  with  –h  to  get  help  or  see  the   script  usage  pages   –  h=p://qiime.org/documentaOon/script_index.html   •  Ask  quesOons  on  the  QIIME  Forum   – h=p://forum.qiime.org   •  Report  bugs  on  the  issue  tracker   – h=p://github.com/qiime/qiime/issues  
  24. h=p://applied-­‐bioinformaOcs.org  

  25. Key  QIIME  files   Metadata  mapping  file:  per  sample  meta-­‐data,

      user-­‐defined  (tab-­‐separated  text;  we  recommend   using  Google  Docs)     Sequence  files  (in  fasta,  fastq,  or  sff  format)     OTU  table:  sample  x  OTU  matrix,  central  to   downstream  analyses  (in  BIOM  format)     PhylogeneOc  tree  (if  applicable;  in  newick  format)  
  26. Mapping  file  relates  samples  to   variables  

  27. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h=p://bit.ly/mphm-­‐qiime  )  
  28. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h=p://bit.ly/mphm-­‐qiime  )   Required  fields  for  demulOplexing  steps:      SampleID,  BarcodeSequence,  LinkerPrimerSequence,  DescripOon     Provide  all  of  the  informaOon  you  have  about  your  samples  –  metadata  is  the  key  to   interpretaOon.    
  29. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h=p://bit.ly/mphm-­‐qiime  )   More  informaOon  on  metadata:    MIMARKS/MIxS  standards:  h=p://www.nature.com/nbt/journal/v29/n5/full/nbt.1823.html    Formaqng  QIIME  mapping  files:  h=p://qiime.org/documentaOon/file_formats.html    Working  with  Google  Docs  from  QIIME  (experimental,  and  will  become  more            integrated  in  the  future):  h=p://qiime.org/tutorials/remote_mapping_files.html      For  example,  to  download  this  mapping  file  you  can  run  the  command:        load_remote_mapping_file.py  -­‐k  0AvglGXLayhG7dGNuQWJKMlNWVFdVXzNlRXYybjFJV2c  –o  tutorial-­‐map.txt      
  30. Slide  credit:  Doug  Wendel   Metadata:  GSC  checklists  

  31. Sequences  file  (unprocessed):  fastq,  sff,  fna/qual   are  currently  supported.

          These  should  be  obtained  as  sOll-­‐mulOplexed   data  from  your  sequencing  center  (i.e.,  not  yet   mapped  from  barcode  to  sample).  This  allows   for  use  of  QIIME’s  quality  filtering.     For  more  informaOon:      Quality  filtering  Illumina  data        h=p://www.nature.com/nmeth/journal/v10/n1/full/nmeth.2276.html      DemulOplexing  454  data  with  QIIME          h=p://qiime.org/tutorials/tutorial.html      Denoising  454  data  with  QIIME          h=p://qiime.org/tutorials/denoising_454_data.html      DemulOplexing  Illumina  data  with  QIIME          h=p://qiime.org/tutorials/processing_illumina_data.html          
  32. Sequences  file  (post-­‐split-­‐libraries):  standard  mulO-­‐ record  fasta,  with  sample  idenOfier

     included  in  the   sequence  idenOfier.   >sampleID_seqID [optional description]! ACCGA     Barcodes,  primers,  adapters  have  been  removed  –   this  is  only  the  biological  sequence!    
  33. Sample  IDs  map   sequences  to   metadata   Sequences

     file  (post-­‐split-­‐libraries):  standard  mulO-­‐ record  fasta,  with  sample  idenOfier  included  in  the   sequence  idenOfier.  
  34. OTU  table    (classic  format)   sample  x  OTU  matrix

     
  35. OTU  idenOfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  36. Sample  idenOfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  37. OpOonal  per  observaOon  taxonomic  informaOon   OTU  table    (classic

     format)   sample  x  OTU  matrix  
  38. h=p://biom-­‐format.org   OTU  tables  are  in  Biological   ObservaOon  Matrix

     (.biom)  format     Call:     biom convert -h   for  converOng  between  classic  and  BIOM  OTU   tables.  Detailed  usage  examples  available  here:   h=p://biom-­‐format.org/documentaOon/biom_conversion.html    
  39. h=p://www.biom-­‐format.org   The  Biological  ObservaOon  Matrix  (BIOM)  Format    or:

     How  I  Learned  To  Stop  Worrying  and        Love  the  Ome-­‐ome   JSON-­‐based  format  for   represenOng  arbitrary   sample  x  observaOon   conOngency  tables  with   opOonal  metadata   McDonald  et  al.,  GigaScience  (2012).  
  40. sample  x  observa3on  con3ngency  matrix   Samples OTUs Observa3on  

    counts  
  41. sample  x  observa3on  con3ngency  matrix   Metagenomes Functions Observa3on  

    counts  
  42. sample  x  observa3on  con3ngency  matrix   Metagenomes Functions Samples OTUs

    Genomes Ortholog groups Samples Metabolites Samples Taxa Marker   gene  (e.g.,  16S)   surveys   ComparaOve   genomics   Marker   gene  (e.g.,  16S)   surveys   Metagenomics     Metatranscriptomics   Metabolomics   .  .  .  
  43. Working  with  QIIME  parameter  files   (advanced  topic)   • 

    QIIME  workflow  scripts  allow  you  to  pass  a   parameters  file  to  override  default  seqngs  for   scripts  wrapped  in  the  workflow.  See  details   here:       http://qiime.org/documentation/qiime_parameters_files.html  
  44. Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes

     for  pyrosequencing  hundreds  of  samples  in  mulOplex.   Barcode  the  rRNA  on  a   per-­‐sample  basis.   DemulOplexing  (split  libraries)  
  45. Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes

     for  pyrosequencing  hundreds  of  samples  in  mulOplex.   DemulOplexing  (split  libraries)   Barcode  the  rRNA  on  a   per-­‐sample  basis.   Pool  samples   and  sequence  
  46. Pool  samples   and  sequence   Micah  Hamady,  et  al.,

     Nature  Methods,  2008.   Error-­‐correcOng  barcodes  for  pyrosequencing  hundreds  of   samples  in  mulOplex.   Barcode  the  rRNA  on  a   per-­‐sample  basis.   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…     DemulOplexing  (split  libraries)   Demul&plexing  454  data   split_libraries.py   h=p://qiime.org/tutorials/tutorial.html   Demul&plexing  Illumina  data   split_libraries_fastq.py   h=p://qiime.org/tutorials/illumina_overview_tutorial.html   h=p://qiime.org/tutorials/processing_illumina_data.html  
  47. Which  microbial  organisms  are   represented  by  the  rRNA  gene

      sequences  in  each  sample?   >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 rRNA  reference  database   (sequences  are  available  for   each  ‘Op’  in  the  tree)   Search  against   reference   sequences  
  48. Search  against   reference   sequences   RefSeq 1 RefSeq

    2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   Which  microbial  organisms  are   represented  by  the  rRNA  gene   sequences  in  each  sample?  
  49. OTU  picking   •  De  Novo     – Reads  are

     clustered  based  on  similarity  to  one   another.   •  Reference-­‐based   – Closed  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  discarded   – Open  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  clustered  de  novo   h=p://qiime.org/tutorials/otu_picking.html    
  50. h=ps://peerj.com/arOcles/545/  

  51. De  novo  OTU  picking   •  Pros   – All  reads

     are  clustered     •  Cons   – Not  parallelizable   – OTUs  may  be  defined  by  erroneous  reads   pick_de_novo_otus.py   h=p://qiime.org/tutorials/tutorial.html  
  52. De  novo  OTU  picking   •  You  must  use  if:

      –  You  do  not  have  a  reference  sequence  collecOon  to   cluster  against,  for  example  because  you're  working   with  an  infrequently  used  marker  gene.   •  You  cannot  use  if:   –  You  are  comparing  non-­‐overlapping  amplicons,  such   as  the  V2  and  the  V4  regions  of  the  16S  rRNA.   –  You  working  with  very  large  data  sets,  like  a  full  HiSeq   2000  run.  (Technically  you  can,  but  it  will  be  really   slow.)   pick_de_novo_otus.py   h=p://qiime.org/tutorials/tutorial.html  
  53. Closed-­‐reference  OTU  picking   •  Pros   – Built-­‐in  quality  filter

      – Easily  parallelizable   – OTUs  are  defined  by  high-­‐quality,  trusted   sequences   •  Cons   – Reads  that  don’t  hit  reference  dataset  are   excluded,  so  you  can  never  observe  new  OTUs   pick_closed_reference_otus.py  
  54. Closed-­‐reference  OTU  picking   •  You  must  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.  Your  reference  sequences  must  span  both   of  the  regions  being  sequenced.   •  You  cannot  use  if:   – You  do  not  have  a  reference  sequence  collecOon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_closed_reference_otus.py  
  55. Percentage  of  reads   that  do  not  hit  the  

    reference  collecOon,   by  environment  type.  
  56. Open-­‐reference  OTU  picking   •  Pros   – All  reads  are

     clustered   – ParOally  parallelizable   •  Cons   – Only  par3ally  parallelizable   – Mix  of  high  quality  sequences  defining  OTUs  (i.e.,   the  database  sequences)  and  possible  low  quality   sequences  defining  OTUs  (i.e.,  the  sequencing   reads)   pick_open_reference_otus.py   h=p://qiime.org/tutorials/illumina_overview_tutorial.html   h=p://qiime.org/tutorials/open_reference_illumina_processing.html   h=p://qiime.org/tutorials/fungal_its_analysis.html  
  57. Open-­‐reference  OTU  picking   •  You  cannot  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.   – You  do  not  have  a  reference  sequence  collecOon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_open_reference_otus.py   h=p://qiime.org/tutorials/illumina_overview_tutorial.html   h=p://qiime.org/tutorials/open_reference_illumina_processing.html   h=p://qiime.org/tutorials/fungal_its_analysis.html  
  58. NavigaOng  pick_open_reference_otus.py   output   Master  OTU  table  for  downstream

     analyses  
  59. NavigaOng  pick_open_reference_otus.py   output   Master  phylogeneOc  tree  for  downstream

     analyses  
  60. NavigaOng  pick_open_reference_otus.py   output   RepresentaOve  sequences  for  OTUs  observed

     in  this  study.  
  61. NavigaOng  pick_open_reference_otus.py   output   RepresentaOve  sequences  for  OTUs  observed

     in  this  study  and  and  reference  database     sequences  not  observed  in  this  data  set,  for  use  as  a  reference  in  future  OTU  picking  runs.  
  62. Read  assignment  is  different  for  shotgun  data,   but  not

     that  different.  In  general,  the  bo=leneck   is  idenOfying/compiling  a  reference  database.   map_reads_to_reference.py   parallel_map_reads_to_reference.py    h=p://qiime.org/tutorials/shotgun_analysis.html    h=p://qiime.org/scripts/map_reads_to_reference.html    
  63. None
  64. Comparing  microbial  communiOes   Who  is  there?      

    How  many  “species”  are  there?       How  similar  are  pairs  of  samples?    
  65. core_diversity_analyses.py  

  66. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  67. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  68. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  69. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  70. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  71. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  72. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  73. Alpha  (within  sample)  diversity  

  74. Sample  C        Pseudomonas  aeruginosa      

     Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity   Sample  A        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli  
  75. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Alpha  diversity   Conclusion   A  =  B  =  C   Observed  species    Sample  A  3    Sample  B  3    Sample  C  3   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii  
  76. Faith  DP  (1992)  ConservaOon  evaluaOon  and  phylogeneOc  diversity.  Biological  ConservaOon.

     61:1-­‐10.   PhylogeneOc  Diversity  (PD):          a  qualitaOve,  phylogeneOc  α-­‐diversity  metric   Sum  of  branch  length  covered  by  a  sample  
  77. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity  
  78. Alpha  diversity  

  79. Alpha  diversity  

  80. Alpha  diversity  

  81. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   PD  =  0.35     PD  =  0.40     PD  =  0.95     <   <   Sample  C  is  more  diverse  than  sample  B,   which  is  more  diverse  than  sample  A   Alpha  diversity  
  82. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=100   Sample  B  >  Sample  A  
  83. Sample  A   alpha  div=20   Sample  B   alpha

     div=100   Sample  B  >  Sample  A??   Sample  A   100  seqs   Sample  B   1,000  seqs   Alpha  rarefacOon  
  84. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  85. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  B  <  Sample  A   with  same  #seqs     Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  86. MulOple  alpha  rarefacOon   Sample  A   Alpha  div  =

     100   with  1,000  seqs     Repeatedly  calculate  alpha  div   at  decreasing  number  of  seqs   adiv   #  seqs   What  if  we  had  2,000  seqs?   ?   100   1,000   2,000  
  87. MulOple  alpha  rarefacOon   adiv   #  seqs   1,000

      500   80   250   40   Higher  sequencing  effort  might  result   in  higher  observed  diversity   100  
  88. MulOple  alpha  rarefacOon   adiv   #  seqs   100

      1,000   500   250   95   Higher  sequencing  effort  will  probably   not  add  to  observed  diversity  
  89. Beta  (between  sample)  diversity  

  90. Unweighted  Unifrac:  a  phylogeneOc  measure  of   the  dissimilarity  of

     microbial  communiOes   U  =  0.0   U  ≈  0.5   U  =  1.0  
  91. None
  92. None
  93. Pairwise  distances  between  samples  are   the  basis  of  most

     microbiome  surveys   Bacterial  Community  VariaOon  in  Human  Body  Habitats  Across  Space  and  Time.   Costello  et  al.  Science  (2009)    
  94. VariaOon  in  sampling  depth  also  needs   to  be  controlled

     for  beta  diversity!  
  95. VariaOon  in  sampling  depth  is  an   important  consideraOon  

    Human  skin,  colored   by  individual,  at  500   sequence/sample   Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic  idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.  
  96. Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic

     idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaOon  in  sampling  depth  is  an   important  consideraOon   Human  skin,  colored  by   sampling  depth,  at   either  50  or  500   sequences/sample  
  97. Human  skin,  colored  by   sampling  depth,  at   either

     50  (blue)  or  500   (red)  sequences/sample   Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic  idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaOon  in  sampling  depth  is  an   important  consideraOon  
  98. QIIME:  Future  direcOons  

  99. Next  generaOon  bioinformaOcs  so~ware  and   educaOonal  materials    

    BSD-­‐licensed:  easy  integraOon  with  other  tools   Public  revision  control,  peer-­‐reviewed   Test-­‐driven,  collaboraOve  development   Modern-­‐standards  compliant     applied-bioinformatics.org!
  100. QiiTA  pre-­‐history   •  Previous  iteraOon  known  as  the  “QIIME

      Database”  (QIIME-­‐DB)   •  Suffered  database  crash   – Efforts  focused  on  rewrite  instead  of  recover  
  101. QiiTA:  QIIME-­‐DB  Reboot   •  System  for:   –  DeposiOng/archiving

     microbiome  data   –   Performing  meta-­‐analysis   •  Combine  data  from  a  variety  of  sources  (marker  gene,   metagenomic,  metabolomic,  etc.)   •  Goals   –  Easy-­‐to-­‐use  web  interface   –  User-­‐deployable  in  a  variety  of  environments  (e.g.,   laptops  to  clusters)   –  Powerful  meta-­‐analysis  capabiliOes  
  102. Moving  toward  QIIME  2   •  QIIME  is  currently:  

    – Command-­‐line  only  (very  limited  Galaxy  support)   – SimplisOc  execuOon  of  workflows   – Hard  to  extend  and  maintain  (for  both  users  and   devs)   – Can  be  difficult  to  install  
  103. Moving  toward  QIIME  2   •  Most  requested  feature:  graphical

     interface   •  Most  support  efforts:  command-­‐line  issues   Users  spend  too  much  Ome  grappling  with  the   command  line  and  less  Ome  performing  awesome   microbiome  research.     Devs  spend  too  much  Ome  helping  users  with   installaOon  and  command-­‐line  issues,  and  less  Ome   answering  users’  research  quesOons.  
  104. QIIME  2  Overview     •  Complete  redesign/rebuild  of  QIIME

      •  Powered  by  scikit-­‐bio  (h=p://scikit-­‐bio.org)   •  Graphical  web-­‐based  interface   –  Drag-­‐and-­‐drop  analyses   –  Customizable  transparent  workflows  with  DAG   execuOon   –  Provenance  tracking   •  Command-­‐line  interface  and  Python  API   •  Deployable  on  laptops  -­‐>  clusters   •  Extendable  by  users/devs  
  105. QIIME  2  Overview   •  Currently  in  requirements  and  design

     phase   •  All  discussion,  design,  and  development  is   publicly  available   – Get  involved  at   h=ps://github.com/biocore/metoo    
  106. None
  107. None
  108. h=ps://github.com/biocore/scikit-­‐bio-­‐cookbook  

  109. h=p://caporasolab.us/An-­‐IntroducOon-­‐To-­‐Applied-­‐BioinformaOcs  

  110. This  work  is  licensed  under  the  CreaOve  Commons  A=ribuOon  3.0

     United  States  License.  To  view  a   copy  of  this  license,  visit   h=p://creaOvecommons.org/licenses/by/3.0/us/  or  send  a  le=er  to  CreaOve  Commons,  171   Second  Street,  Suite  300,  San  Francisco,  California,  94105,  USA.     Feel  free  to  use  or  modify  these  slides,  but  please  credit  us  by  placing  the  following  a=ribuOon   informaOon  where  you  feel  that  it  makes  sense:     Slides  derived  from  QIIME  educa3onal  materials  www.qiime.org.     www.qiime.org   Slides  compiled  by:      Greg  Caporaso      Jose  Clemente      Antonio  Gonzalez  Peña      Rob  Knight      Cathy  Lozupone      Daniel  McDonald        Jai  Rideout        Yoshiki  Vázquez  Baeza  
  111. How  deep  is  deep  enough?   It  depends  on  the

     quesOon…   – Differences  between  community  types:  not  many   sequences.   – Rare  biosphere:  more  (but  be  careful  about   sequencing  noise!)  
  112. PC1 (8.6%) PC2 (8.4%) PC3 (6.2%) PC1 (13%) PC2 (11%)

    PC3 (8.1%) PC1 (24%) PC2 (17%) PC3 (9.7%) 100  sequences/sample   10  sequences/sample   1  sequence/sample   Direct  sequencing  of  the  human  microbiome  readily  reveals  community  differences.   J  Kuczynski  et  al.  Genome  Biology  (2011).   How  deep  is  deep  enough?  
  113. (A) (B) (C) 10 1 100 Figure  1  

  114. FracOon  of  Greengenes  simulated  reads  classified    by  taxonomic  

    level  using  the  RDP  Classifier  (80%  confidence)   Acknowledgement:  Tony  Walters   Accuracy  of  classified  reads   90   95   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   96%  accurate!   Phylum                    Class                          Order                        Family                        Genus                    Species     0   20   40   60   80   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   Phylum                    Class                          Order                        Family                        Genus                    Species    
  115. Not assigned Coriobacteriales Lactobacillales Erysipelotrichales Enterobacteriales Bifidobacteriales Bacteroidales Clostridiales Not

    assigned Mitsuokella Rikenellaceae Prevotellaceae Porphyromonadaceae Butyrivibrio Holdemania Coprococcus Clostridiales FamilyXI Incertae Sedis Cedecea Anaerotruncus Streptococcus Enterobacter Eubacterium Blautia Citrobacter Coriobacterineae Subdoligranulum Desulfitobacterium Dorea Unclassified Erysipelotrichaceae Catenibacte Roseburia Ruminococc Proteus Providencia Bifidobacteriaceae Clostridium Bacteroid (b) 0 10 20 30 40 50 60 70 80 90 100 Even1 Even2 Even3 Even1 Even2 Even3 Expected (a) Relative abundance (% of 16S rRNA gene sequences) 5’ primer 3’ primer Even1 Even2 Even3 Even1 Even2 Even3 Expected 5’ primer 3’ primer 0 10 20 30 40 50 60 70 80 Relative abundance (% of 16S rRNA gene seque Firmicutes Proteobacteria Actinobacteria Bacteroidetes Relative Abundance Order-level taxonomy assignments G-test (goodness of fit) ** p < 0.01 * p < 0.05 Can accurate taxonomy assignments be achieved? 5’ Mock1 5’ Mock2 5’ Mock3 3’ Mock1 3’ Mock2 3’ Mock3 Expected ** ** ** * * *
  116. Not$assigned Coriobacteridae Lactobacillales Erysipelotrichales Enterobacteriales Actinobacteridae Bacteroidia Clostridiales Not$assigned Mitsuokella

    Rikenellaceae Prevotellaceae Porphyromonadaceae Butyrivibrio Holdemania Coprococcus Clostridiales$FamilyXI$Incertae$Sedis Cedecea Anaerotruncus Streptococcus Enterobacter Eubacterium Blautia Citrobacter Coriobacterineae Subdoligranulum Desulfitobacterium Dorea Unclassified$Erysipelotrichaceae Catenibacterium Roseburia Ruminococcus Proteus Providencia Bifidobacteriaceae Clostridium Bacteroidaceae (b) 0 10 20 30 40 50 60 70 80 90 100 Even1$ Even2$ Even3$ Even1$ Even2$ Even3$ Expected (a) Relative$abundance$(%$of$16S$rRNA$gene$sequences) 5’$primer 3’$primer Even1$ Even2$ Even3$ Even1$ Even2$ Even3$ Expected 5’$primer 3’$primer 0 10 20 30 40 50 60 70 80 90 100 Relative$abundance$(%$of$16S$rRNA$gene$sequences) Firmicutes Proteobacteria Actinobacteria Bacteroidetes Can accurate taxonomy assignments be achieved? Genus-level taxonomy assignments G-test (goodness of fit) ** p < 0.01 * p < 0.05 5’ Mock1 5’ Mock2 5’ Mock3 3’ Mock1 3’ Mock2 3’ Mock3 Expected Relative abundance *