ISMET 2015: QIIME Workshop

ISMET 2015: QIIME Workshop

2-hour QIIME "workshop" at the ISMET 15 meeting at ASU.

24f019bae9a9c4282123961b01c7f0d5?s=128

Greg Caporaso

October 01, 2015
Tweet

Transcript

  1. QIIME  Workshop:   From  the  swab  to  the  cloud,  advances

     toward   understanding  our  microbial  world.   J.  Gregory  Caporaso   Department  of  Biological  Sciences,  Northern  Arizona  University   TwiLer/GitHub:  @gregcaporaso     www.caporasolab.us   Photo  by  John  Spear  
  2. Image  credit:  Norman  Pace  

  3. Microbial Ecology of the Gastrointestinal Tract Annual Review of Microbiology

    31: 107–33. Savage, D. C. (1977).
  4. Microbes  rarely  live  or   act  alone.  

  5. (b) Layer 1 (1 mm) Layer 2 (2 mm) Layer

    3 (3 mm) Layer 4 (4 mm) Layer 5 (5 mm) Layer 6 (6 mm) Layer 7 (10 mm) Layer 8 (22 mm) Layer 9 (34 mm) Layer 10 (49mm) (a) 6 10 15 24 27 30 32 6 11 26 27 30 (1) Acidobacteria Actinobacteria Armatimonadetes BRC1 (5) Bacteroidetes Caldiserica Caldithrix Chlorobi (10) Cyanobacteria Firmicutes GN01 GN02 GN04 (15) Gemmatimonadetes Hyd24-12 KSB3 Lentisphaerae NKB19 (20) OD1 OP11 OP3 OP8 OP9 (25) Planctomycetes Proteobacteria SAR406 SR1 Spirochaetes (30) Synergistes TG3 TM6 Tenericutes Thermi (35) Thermotogae Verrucomicrobia WS1 WS3 WS4 (40) WS6 ZB3 A A Zone B C Image  source:     PhylogeneQc  straQgraphy  in  the  Guerrero  Negro  hypersaline  microbial  mat.   Harris,  Caporaso  et  al.  (2012)   InternaQonal  Society  for  Microbial  Ecology  Journal   Microbes  rarely  live  or   act  alone.  
  6. Photo  credit:  John  Spear  

  7. Culturing  microbes  is  hard   Bacillus  anthracis  in  culture  

    Back  of  the  envelope   calculaQon:  less  than  13%   of  bacterial  species*  have   a  representaQve  that  has   been  grown  in  culture.     Many  recent  advances     are  based  on     culture-­‐independent     approaches  for  studying   microbial  communiQes.     *  Defined  as  97%  OTUs  in  the  Greengenes  13_5  reference  database.  
  8. Culture-­‐independent  invesQgaQon  of   microbial  communiQes     All  cellular

     life  has  a  shared   evoluQonary  history,  and   some  genes  are  shared  by  all   organisms.       The  sequence  of  those   genes  can  be  used  as  a   gene3c  fingerprint  for   different  organisms.    
  9. ACCAGGTT The  random  accumulaQon  of   muta3ons  (changes  to  gene

      sequences  over  evoluQonary   Qme)  gives  us  informaQon   for  idenQfying  and   comparing  organisms.   Time
  10. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT Time The  random  accumulaQon  of  

    muta3ons  (changes  to  gene   sequences  over  evoluQonary   Qme)  gives  us  informaQon   for  idenQfying  and   comparing  organisms.  
  11. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT Time

    The  random  accumulaQon  of   muta3ons  (changes  to  gene   sequences  over  evoluQonary   Qme)  gives  us  informaQon   for  idenQfying  and   comparing  organisms.  
  12. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT ACCATATT

    ACTAGCAT ACTAGTAT TCAATGTT TCCATGTT ACCAGGTT Time The  random  accumulaQon  of   muta3ons  (changes  to  gene   sequences  over  evoluQonary   Qme)  gives  us  informaQon   for  idenQfying  and   comparing  organisms.   Escherichia     Desulfovibrio   Thermus   Thermoplasma     Haloferax  
  13. The  small  subunit  ribosomal  RNA  gene   is  frequently  used

     to  “fingerprint”   different  microbial  organisms.   Why  this  gene?   •  It’s  ubiquitous.   •  Contains  regions  that   idenQcal  across  organisms,   and  regions  that  are   variable  across  organisms.  
  14. Collect  samples  

  15. Extract  DNA,  isolate  and  amplify  the  rRNA  from   all

     samples  using  barcoded  PCR,  and  sequence.   Pool  samples   and  sequence   Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcQng  barcodes  for  pyrosequencing  hundreds  of  samples  in  mulQplex.   Per-­‐sample  rRNA   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…    
  16. Which  microbial  organisms  are   represented  by  the  rRNA  gene

      sequences  in  each  sample?   >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 rRNA  reference  database   Search  against   reference   sequences  
  17. Search  against   reference   sequences   RefSeq 1 RefSeq

    2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   Which  microbial  organisms  are   represented  by  the  rRNA  gene   sequences  in  each  sample?  
  18. Sample  by  feature  count  table:    Counts  of  observaQons  of

     taxons  (or  OTUs)  on  a  per-­‐sample  basis  
  19. Sample  by  feature  count  table:    Counts  of  observaQons  of

     taxons  (or  OTUs)  on  a  per-­‐sample  basis   Also  will  generally  have  taxonomy  classificaQon  for  each  taxon,   and  a  phylogeneQc  tree  providing  esQmates  of  the   evoluQonary  distance  between  all  taxa.  
  20. Comparing  microbial  communiQes   Who  is  there?      

      How  many  “species”  are  there?         How  similar  are  pairs  of  samples?    
  21. Comparing  microbial  communiQes   Who  is  there?  Taxonomic  profiling,  differen3al

      abundance  tes3ng.       How  many  “species”  are  there?  Alpha  diversity   (richness,  evenness,  or  both).       How  similar  are  pairs  of  samples?  Beta  diversity  
  22. Taxonomic  profiling:          visually  with  bar  plots

     (discrete  data)  or  area  plots  (conQnuous  data)        staQsQcally  –  currently  an  acQve  area  of  research   Kruskal-­‐Wallace,  ANOVA  are  defaults  in  QIIME,  though  recent  evidence  suggests  other   approaches  are  beLer:       Waste  not,  want  not:  why  rarefying  microbiome  data  is  inadmissible.  McMurdie  and  Holmes,  2014.   hLp://www.ncbi.nlm.nih.gov/pubmed/24699258   (Available  in  QIIME:  differential_abundance.py)     Analysis  of  composiQon  of  microbiomes…  Mandal  et  al.,  2015.   hLp://www.ncbi.nlm.nih.gov/pubmed/26028277   (Not  yet  available  in  QIIME,  but  coming  soon.)     Plant                Human              Dog                      Turtle   Time  (not  relevant  for  this  example)  è   (Not  real  data!)  
  23. Observed  OTUs  (or  Observed  Species):          a

     qualitaQve  α-­‐diversity  metric   OTU  count  of  “red”  sample   OTU  count  of  “blue”  sample   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 Each  colored  box  indicates  observaQon  of  a  reference  sequence.  
  24. Faith  DP  (1992)  ConservaQon  evaluaQon  and  phylogeneQc  diversity.  Biological  ConservaQon.

     61:1-­‐10.   PhylogeneQc  Diversity  (PD):          a  qualitaQve,  phylogeneQc  α-­‐diversity  metric   Sum  of  branch  length  covered  by  a  sample   PD  of  “red”  sample   PD  of  “blue”  sample   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10
  25. Faith  DP  (1992)  ConservaQon  evaluaQon  and  phylogeneQc  diversity.  Biological  ConservaQon.

     61:1-­‐10.   PhylogeneQc  Diversity  (PD):          a  qualitaQve,  phylogeneQc  α-­‐diversity  metric   Sum  of  branch  length  covered  by  a  sample   PD  of  “red”  sample   PD  of  “blue”  sample   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 Bacteria Eukarya Bacteria Eukarya
  26. Alpha  diversity  comparison:        visually  with  distribuQon  comparison

     plots          staQsQcally  with  non-­‐parametric  t-­‐test   (Not  real  data!)   Faith’s   PhylogeneQc   Diversity   Plant   Turtle   Human   Dog  
  27. Unweighted  Unifrac:  a  phylogeneQc  measure  of   the  dissimilarity  of

     microbial  communiQes   U  =  0.0   U  ≈  0.5   U  =  1.0  
  28. (Not  real  data!)   Beta  diversity  comparison:      

     visually  with  ordinaQon  plots  (e.g.,  PCoA,  NMDS)          staQsQcally  with  ANOSIM*   *  In  QIIME  1.9.1,  use  compare_categories.py   Unweighted  UniFrac  distance  matrix:   Sample   ID   Sample  Type   A   Plant  (yellow)   B   Plant  (yellow)   C   Turtle  (red)   D   Turtle  (red)   E   Human  (green)   F   Dog  (blue)  
  29. Sample   ID   Sample  Type   A   Plant

     (yellow)   B   Plant  (yellow)   C   Turtle  (red)   D   Turtle  (red)   E   Human  (green)   F   Dog  (blue)   (Not  real  data!)   Beta  diversity  comparison:        visually  with  ordinaQon  plots  (e.g.,  PCoA,  NMDS)          staQsQcally  with  ANOSIM*   *  In  QIIME  1.9.1,  use  compare_categories.py   Unweighted  UniFrac  distance  matrix:   OrdinaQon  plot:  
  30. None
  31. Pairwise  distances  between  samples  are   the  basis  of  most

     microbiome  surveys   Bacterial  Community  VariaQon  in  Human  Body  Habitats  Across  Space  and  Time.   Costello  et  al.  Science  (2009)    
  32. Assign  millions  of   sequences  from  thousands   of  samples

     to  reference   Compare  samples   staQsQcally  and  visually   www.qiime.org   Assign  reads  to  samples   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…     RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10
  33. Science  (2012)   PNAS  (2011)   Gastroenterology  (2011)   A

     few  of  the  >3200  arQcles  ciQng  QIIME     (Google  Scholar,  30  Sept  2015)   Cell  (2012)   Applied  and   Environmental   Microbiology  (2011)   Current  InfecQous  Disease   Reports  (2011)   PLoS  One  (2011)   Microbiology  and  Molecular   Biology  Reviews  (2013)  
  34. NaQve  installaQon   OS  X  or  Linux  (laptops  through  

    153,408-­‐core  compute   cluster*)     Virtual  machines     VirtualBox  (local)  or     Cloud  environments     (e.g.,  Amazon  Web  Services,  iPlant)     NEW:  Now  available  as  a   BaseSpace  app!     *Hopper  (hLp://i.top500.org/system/176952)     www.qiime.org  
  35. Learning  QIIME   •  Start  with  the  tutorials   – hLp://qiime.org/tutorials/index.html

      •  Call  any  script  with  –h  to  get  help  or  see  the   script  usage  pages   –  hLp://qiime.org/documentaQon/script_index.html   •  Ask  quesQons  on  the  QIIME  Forum   – hLp://forum.qiime.org   •  Report  bugs  on  the  issue  tracker   – hLp://github.com/qiime/qiime/issues  
  36. hLp://readIAB.org  

  37. hLps://www.coursera.org/learn/microbiome  

  38. hLp://mb3is.megx.net/gustame  

  39. Key  QIIME  files   Metadata  mapping  file:  per  sample  meta-­‐data,

      user-­‐defined  (tab-­‐separated  text;  we  recommend   using  Google  Docs)     Sequence  files  (in  fasta,  fastq,  or  sff  format)     OTU  table:  sample  x  OTU  matrix,  central  to   downstream  analyses  (in  BIOM  format)     PhylogeneQc  tree  (if  applicable;  in  newick  format)  
  40. Mapping  file  relates  samples  to   variables  

  41. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  hLp://bit.ly/mphm-­‐qiime  )  
  42. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  hLp://bit.ly/mphm-­‐qiime  )   Required  fields  for  demulQplexing  steps:      SampleID,  BarcodeSequence,  LinkerPrimerSequence,  DescripQon     Provide  all  of  the  informaQon  you  have  about  your  samples  –  metadata  is  the  key  to   interpretaQon.    
  43. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  hLp://bit.ly/mphm-­‐qiime  )   More  informaQon  on  metadata:    MIMARKS/MIxS  standards:  hLp://www.nature.com/nbt/journal/v29/n5/full/nbt.1823.html    Formawng  QIIME  mapping  files:  hLp://qiime.org/documentaQon/file_formats.html    Working  with  Google  Docs  from  QIIME  (experimental,  and  will  become  more            integrated  in  the  future):  hLp://qiime.org/tutorials/remote_mapping_files.html      For  example,  to  download  this  mapping  file  you  can  run  the  command:        load_remote_mapping_file.py  -­‐k  0AvglGXLayhG7dGNuQWJKMlNWVFdVXzNlRXYybjFJV2c  –o  tutorial-­‐map.txt      
  44. keemei.qiime.org  

  45. keemei.qiime.org  

  46. keemei.qiime.org  

  47. Slide  credit:  Doug  Wendel   MIMARKS:  Minimal  InformaQon  about  

    a  Marker  Gene  Sequence  
  48. Sequences  file  (unprocessed):  fastq,  sff,  fna/qual   are  currently  supported.

          These  should  be  obtained  as  sQll-­‐mulQplexed   data  from  your  sequencing  center  (i.e.,  not  yet   mapped  from  barcode  to  sample).  This  allows   for  use  of  QIIME’s  quality  filtering.     For  more  informaQon:      Quality  filtering  Illumina  data        hLp://www.nature.com/nmeth/journal/v10/n1/full/nmeth.2276.html      DemulQplexing  454  data  with  QIIME          hLp://qiime.org/tutorials/tutorial.html      Denoising  454  data  with  QIIME          hLp://qiime.org/tutorials/denoising_454_data.html      DemulQplexing  Illumina  data  with  QIIME          hLp://qiime.org/tutorials/processing_illumina_data.html          
  49. OTU  table    (classic  format)   sample  x  OTU  matrix

     
  50. OTU  idenQfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  51. Sample  idenQfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  52. OpQonal  per  observaQon  taxonomic  informaQon   OTU  table    (classic

     format)   sample  x  OTU  matrix  
  53. hLp://biom-­‐format.org   OTU  tables  are  in  Biological   ObservaQon  Matrix

     (.biom)  format     Call:     biom convert -h   for  converQng  between  classic  and  BIOM  OTU   tables.  Detailed  usage  examples  available  here:   hLp://biom-­‐format.org/documentaQon/biom_conversion.html    
  54. hLp://www.biom-­‐format.org   The  Biological  ObservaQon  Matrix  (BIOM)  Format    or:

     How  I  Learned  To  Stop  Worrying  and        Love  the  Ome-­‐ome   JSON-­‐based  format  for   represenQng  arbitrary   sample  x  feature  count   tables  with  opQonal   metadata   McDonald  et  al.,  GigaScience  (2012).  
  55. core_diversity_analyses.py  

  56. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  57. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  58. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  59. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  60. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  61. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  62. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  63. VariaQon  in  sampling  depth  is  an   important  consideraQon  

    Human  skin,  colored   by  individual,  at  500   sequence/sample   Image/analysis  credit:  JusQn  Kuczynski     Data  reference:   Forensic  idenQficaQon  using  skin  bacterial  communiQes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.  
  64. Image/analysis  credit:  JusQn  Kuczynski     Data  reference:   Forensic

     idenQficaQon  using  skin  bacterial  communiQes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaQon  in  sampling  depth  is  an   important  consideraQon   Human  skin,  colored  by   sampling  depth,  at   either  50  or  500   sequences/sample  
  65. Human  skin,  colored  by   sampling  depth,  at   either

     50  (blue)  or  500   (red)  sequences/sample   Image/analysis  credit:  JusQn  Kuczynski     Data  reference:   Forensic  idenQficaQon  using  skin  bacterial  communiQes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaQon  in  sampling  depth  is  an   important  consideraQon  
  66. Full  tutorial  available  at:   h6p://qiime.org/tutorials/illumina_overview_tutorial.html   Hands-­‐on  with  

    core_diversity_analyses.py  output  
  67. Moving  Pictures  of  the  Human   Microbiome   •  Two

     human  subjects  provided  daily   microbiome  samples,  one  for  6  months  and   the  other  for  18  months.   •  Sampled  tongue,  lez  and  right  palms,  and  gut   (via  feces).   •  Tutorial  data  is  a  subset  of  this  full  data  set.   •  Illumina  HiSeq  2000  16S  sequencing  with   Earth  Microbiome  Project  protocols   (earthmicrobiome.org)  
  68. Hands-­‐on  

  69. Future  direcQons  

  70. Next  generaQon  bioinformaQcs  sozware  and   educaQonal  materials    

    BSD-­‐licensed:  easy  integraQon  with  other  tools   Fully  graphical  interfaces   InteracQve  visualizaQons   Google  Spreadsheets  integraQon     readIAB.org! keemei.qiime.org  
  71. Q2D2  demo  

  72. This  work  is  licensed  under  the  CreaQve  Commons  ALribuQon  3.0

     United  States  License.  To  view  a   copy  of  this  license,  visit   hLp://creaQvecommons.org/licenses/by/3.0/us/  or  send  a  leLer  to  CreaQve  Commons,  171   Second  Street,  Suite  300,  San  Francisco,  California,  94105,  USA.     Feel  free  to  use  or  modify  these  slides,  but  please  credit  us  by  placing  the  following  aLribuQon   informaQon  where  you  feel  that  it  makes  sense:     Slides  derived  from  QIIME  educa3onal  materials  www.qiime.org.     www.qiime.org   Slides  compiled  by:      Greg  Caporaso      John  Chase      Jose  Clemente      Antonio  Gonzalez  Peña      Rob  Knight      Cathy  Lozupone      Daniel  McDonald        Jai  Rideout        Yoshiki  Vázquez  Baeza  
  73. Acknowledgements   Evan  Bolyen   Nick  Bokulich   Katy  Califf

      Jose  Clemente   John  Chase   Kevin  Cohen   Antonio  Gonzalez   Crystal  Hepp   Rob  Knight   Bruce  Hungate   Larry  Hunter   Paul  Keim   ScoL  Kelley   JusQn  Kuczynski       Cathy  Lozupone   Daniel  McDonald   David  Mills   Norm  Pace   Fernando  Perez   Jai  Rideout   Egbert  Schwartz   Karen  Schwarzberg   Jeffrey  Siegel   Jesse  Stombaugh   Yoshiki  Vazquez   Tony  Walters     gregcaporaso@gmail.com   hLp://caporasolab.us   TwiLer/GitHub:  @gregcaporaso  
  74. How  deep  is  deep  enough?   It  depends  on  the

     quesQon…   – Differences  between  community  types:  not  many   sequences.   – Rare  biosphere:  more  (but  be  careful  about   sequencing  noise!)  
  75. PC1 (8.6%) PC2 (8.4%) PC3 (6.2%) PC1 (13%) PC2 (11%)

    PC3 (8.1%) PC1 (24%) PC2 (17%) PC3 (9.7%) 100  sequences/sample   10  sequences/sample   1  sequence/sample   Direct  sequencing  of  the  human  microbiome  readily  reveals  community  differences.   J  Kuczynski  et  al.  Genome  Biology  (2011).   How  deep  is  deep  enough?  
  76. (A) (B) (C) 10 1 100 Figure  1  

  77. FracQon  of  Greengenes  simulated  reads  classified    by  taxonomic  

    level  using  the  RDP  Classifier  (80%  confidence)   Acknowledgement:  Tony  Walters   Accuracy  of  classified  reads   90   95   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   96%  accurate!   Phylum                    Class                          Order                        Family                        Genus                    Species     0   20   40   60   80   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   Phylum                    Class                          Order                        Family                        Genus                    Species    
  78. Taxonomic  assignment  accuracy  

  79. Not assigned Coriobacteriales Lactobacillales Erysipelotrichales Enterobacteriales Bifidobacteriales Bacteroidales Clostridiales Not

    assigned Mitsuokella Rikenellaceae Prevotellaceae Porphyromonadaceae Butyrivibrio Holdemania Coprococcus Clostridiales FamilyXI Incertae Sedis Cedecea Anaerotruncus Streptococcus Enterobacter Eubacterium Blautia Citrobacter Coriobacterineae Subdoligranulum Desulfitobacterium Dorea Unclassified Erysipelotrichaceae Catenibacte Roseburia Ruminococc Proteus Providencia Bifidobacteriaceae Clostridium Bacteroid (b) 0 10 20 30 40 50 60 70 80 90 100 Even1 Even2 Even3 Even1 Even2 Even3 Expected (a) Relative abundance (% of 16S rRNA gene sequences) 5’ primer 3’ primer Even1 Even2 Even3 Even1 Even2 Even3 Expected 5’ primer 3’ primer 0 10 20 30 40 50 60 70 80 Relative abundance (% of 16S rRNA gene seque Firmicutes Proteobacteria Actinobacteria Bacteroidetes Relative Abundance Order-level taxonomy assignments G-test (goodness of fit) ** p < 0.01 * p < 0.05 Can accurate taxonomy assignments be achieved? 5’ Mock1 5’ Mock2 5’ Mock3 3’ Mock1 3’ Mock2 3’ Mock3 Expected ** ** ** * * *
  80. hLps://peerj.com/preprints/934  

  81. Why  phylogeneQc  diversity?  

  82. Sample  C        Pseudomonas  aeruginosa      

     Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity   Sample  A        Pseudomonas  aeruginosa        Pseudomonas  argenQnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenQnensis        Escherichia  coli  
  83. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenQnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenQnensis        Escherichia  coli   Alpha  diversity   Conclusion   A  =  B  =  C   Observed  species    Sample  A  3    Sample  B  3    Sample  C  3   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii  
  84. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenQnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenQnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity  
  85. Alpha  diversity  

  86. Alpha  diversity  

  87. Alpha  diversity  

  88. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenQnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenQnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   PD  =  0.35     PD  =  0.40     PD  =  0.95     <   <   Sample  C  is  more  diverse  than  sample  B,   which  is  more  diverse  than  sample  A   Alpha  diversity  
  89. Alpha  rarefacQon   Sample  A   alpha  div=20   Sample

     B   alpha  div=100   Sample  B  >  Sample  A  
  90. Sample  A   alpha  div=20   Sample  B   alpha

     div=100   Sample  B  >  Sample  A??   Sample  A   100  seqs   Sample  B   1,000  seqs   Alpha  rarefacQon  
  91. Alpha  rarefacQon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  92. Alpha  rarefacQon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  B  <  Sample  A   with  same  #seqs     Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  93. MulQple  alpha  rarefacQon   Sample  A   Alpha  div  =

     100   with  1,000  seqs     Repeatedly  calculate  alpha  div   at  decreasing  number  of  seqs   adiv   #  seqs   What  if  we  had  2,000  seqs?   ?   100   1,000   2,000  
  94. MulQple  alpha  rarefacQon   adiv   #  seqs   1,000

      500   80   250   40   Higher  sequencing  effort  might  result   in  higher  observed  diversity   100  
  95. MulQple  alpha  rarefacQon   adiv   #  seqs   100

      1,000   500   250   95   Higher  sequencing  effort  will  probably   not  add  to  observed  diversity  
  96. OTU  picking   •  De  Novo     – Reads  are

     clustered  based  on  similarity  to  one   another.   •  Reference-­‐based   – Closed  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  discarded   – Open  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  clustered  de  novo   hLp://qiime.org/tutorials/otu_picking.html    
  97. hLps://peerj.com/arQcles/545/  

  98. De  novo  OTU  picking   •  Pros   – All  reads

     are  clustered     •  Cons   – Not  parallelizable   – OTUs  may  be  defined  by  erroneous  reads   pick_de_novo_otus.py   hLp://qiime.org/tutorials/tutorial.html  
  99. De  novo  OTU  picking   •  You  must  use  if:

      –  You  do  not  have  a  reference  sequence  collecQon  to   cluster  against,  for  example  because  you're  working   with  an  infrequently  used  marker  gene.   •  You  cannot  use  if:   –  You  are  comparing  non-­‐overlapping  amplicons,  such   as  the  V2  and  the  V4  regions  of  the  16S  rRNA.   –  You  working  with  very  large  data  sets,  like  a  full  HiSeq   2000  run.  (Technically  you  can,  but  it  will  be  really   slow.)   pick_de_novo_otus.py   hLp://qiime.org/tutorials/tutorial.html  
  100. Closed-­‐reference  OTU  picking   •  Pros   – Built-­‐in  quality  filter

      – Easily  parallelizable   – OTUs  are  defined  by  high-­‐quality,  trusted   sequences   •  Cons   – Reads  that  don’t  hit  reference  dataset  are   excluded,  so  you  can  never  observe  new  OTUs   pick_closed_reference_otus.py  
  101. Closed-­‐reference  OTU  picking   •  You  must  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.  Your  reference  sequences  must  span  both   of  the  regions  being  sequenced.   •  You  cannot  use  if:   – You  do  not  have  a  reference  sequence  collecQon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_closed_reference_otus.py  
  102. Percentage  of  reads   that  do  not  hit  the  

    reference  collecQon,   by  environment  type.  
  103. Open-­‐reference  OTU  picking   •  Pros   – All  reads  are

     clustered   – ParQally  parallelizable   •  Cons   – Only  par3ally  parallelizable   – Mix  of  high  quality  sequences  defining  OTUs  (i.e.,   the  database  sequences)  and  possible  low  quality   sequences  defining  OTUs  (i.e.,  the  sequencing   reads)   pick_open_reference_otus.py   hLp://qiime.org/tutorials/illumina_overview_tutorial.html   hLp://qiime.org/tutorials/open_reference_illumina_processing.html   hLp://qiime.org/tutorials/fungal_its_analysis.html  
  104. Open-­‐reference  OTU  picking   •  You  cannot  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.   – You  do  not  have  a  reference  sequence  collecQon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_open_reference_otus.py   hLp://qiime.org/tutorials/illumina_overview_tutorial.html   hLp://qiime.org/tutorials/open_reference_illumina_processing.html   hLp://qiime.org/tutorials/fungal_its_analysis.html