NAU QIIME Workshop, January 2014

NAU QIIME Workshop, January 2014

24f019bae9a9c4282123961b01c7f0d5?s=128

Greg Caporaso

January 30, 2014
Tweet

Transcript

  1. QIIME  Workshop   NAU  January,  2014     Open  this

     page:     h@p://bit.ly/nau-­‐qiime-­‐01-­‐2013   Greg  Caporaso   gregcaporaso@gmail.com   www.caporasolab.us  
  2. Collect  samples  

  3. Image  source  and  instrucOons:   h@p://learn.geneOcs.utah.edu/content/labs/extracOon/howto/   Extract  DNA  

    (you  can  do  this  at  home!)  
  4. Isolate  the  small  subunit  ribosomal   RNA  gene  to  “fingerprint”

     different   microbial  organisms.   Why  this  gene?   •  It’s  ubiquitous.   •  Contains  regions  that   idenOcal  across  organisms,   and  regions  that  are   variable  across  organisms.  
  5. Sequence  the  rRNA  from  all  samples  on  a  “high-­‐ throughput”

     DNA  sequencer   Pool  samples   and  sequence   Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes  for  pyrosequencing  hundreds  of  samples  in  mulOplex.   Per-­‐sample  rRNA   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…    
  6. Which  microbial  organisms  are   represented  by  the  rRNA  gene

      sequences  in  each  sample?   >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 rRNA  reference  database   Search  against   reference   sequences  
  7. Search  against   reference   sequences   RefSeq 1 RefSeq

    2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   Which  microbial  organisms  are   represented  by  the  rRNA  gene   sequences  in  each  sample?  
  8. Comparing  microbial  communiOes   Who  is  there?      

    How  many  “species”  are  there?       How  similar  are  pairs  of  samples?    
  9. Assign  millions  of   sequences  from  thousands   of  samples

     to  reference   Compare  samples   staOsOcally  and  visually   www.qiime.org   Assign  reads  to  samples   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…     RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10
  10. NaOve  installaOon   OS  X  or  Linux  (laptops   through

     153,408-­‐core   compute  cluster*)     Virtual  machines   VirtualBox  (local)  or     Cloud  environments     (e.g.,  Amazon  Web  Services)     *Hopper  (h@p://i.top500.org/system/176952)     www.qiime.org  
  11. Virtual  Machine:     a  solware  implementaOon  of  a  computer

     
  12. Maintaining  hardware  is  expensive   •  Temperature  (redundant  cooling  systems)

      •  Redundant  network  connecOons   •  Hardware  maintenance  (e.g.,  replacing  hard   drives)   •  Non-­‐water  fire  suppression   •  Back-­‐up  power   •  System  administrator  ($$)  
  13. Cloud-­‐based,  pay-­‐as-­‐you-­‐go   compute  power   •  Public  clouds  (e.g.,

     Amazon)  rent  compute   resources   •  Log  in,  boot  virtual  machine  image,  run   analyses,  and  terminate  instance.   •  Cheaper  for  many  tasks  than  buying,   maintaining,  and  supporOng  a  compute   cluster.  
  14. Science  (2012)   PNAS  (2011)   Gastroenterology  (2011)   A

     few  of  the  864  arOcles  ciOng  QIIME     (Google  Scholar,  16  Sept  2013)   Cell  (2012)   Applied  and   Environmental   Microbiology  (2011)   Current  InfecOous  Disease   Reports  (2011)   PLoS  One  (2011)   Microbiology  and  Molecular   Biology  Reviews  (2013)  
  15. Learning  QIIME   •  Start  with  the  tutorials   – h@p://qiime.org/tutorials/index.html

      •  Call  any  script  with  –h  to  get  help  or  see  the   script  usage  pages   –  h@p://qiime.org/documentaOon/script_index.html   •  Ask  quesOons  on  the  QIIME  Forum   – h@p://forum.qiime.org   •  Report  bugs  on  the  issue  tracker   – h@p://github.com/qiime/qiime/issues  
  16. Key  QIIME  files   Metadata  mapping  file:  per  sample  meta-­‐data,

      user-­‐defined  (tab-­‐separated  text;  we  recommend   using  Google  Docs)     Sequence  files  (in  fasta,  fastq,  or  sff  format)     OTU  table:  sample  x  OTU  matrix,  central  to   downstream  analyses  (in  BIOM  format)     PhylogeneOc  tree  (if  applicable;  in  newick  format)  
  17. Mapping  file  relates  samples  to   variables  

  18. Missing  mapping  file   From:  XXXX@gmail.com   To:  jose.clemente@gmail.com  

    Subject:  mapping  file     Hi,     I  am  doing  microbial  analysis  with  QIIME.  I  got  the  SFF  files  back  from  the  sequencing   center,  but  I  lost  the  mapping  file.  Can  you  help  me  please?     Thanks,   XXXX  
  19. Missing  mapping  file   From:  XXXX@gmail.com   To:  jose.clemente@gmail.com  

    Subject:  mapping  file     Hi,     I  am  doing  microbial  analysis  with  QIIME.  I  got  the  SFF  files  back  from  the  sequencing   center,  but  I  lost  the  mapping  file.  Can  you  help  me  please?     Thanks,   XXXX   No,  sorry.    
  20. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h@p://bit.ly/mphm-­‐qiime  )  
  21. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h@p://bit.ly/mphm-­‐qiime  )   Required  fields  for  demulOplexing  steps:      SampleID,  BarcodeSequence,  LinkerPrimerSequence,  DescripOon     Provide  all  of  the  informaOon  you  have  about  your  samples  –  metadata  is  the  key  to   interpretaOon.    
  22. Metadata  mapping  file  –  create  these  in   Google  Docs

     (see  h@p://bit.ly/mphm-­‐qiime  )   More  informaOon  on  metadata:    MIMARKS/MIxS  standards:  h@p://www.nature.com/nbt/journal/v29/n5/full/nbt.1823.html    Formaung  QIIME  mapping  files:  h@p://qiime.org/documentaOon/file_formats.html    Working  with  Google  Docs  from  QIIME  (experimental,  and  will  become  more            integrated  in  the  future):  h@p://qiime.org/tutorials/remote_mapping_files.html      For  example,  to  download  this  mapping  file  you  can  run  the  command:        load_remote_mapping_file.py  -­‐k  0AvglGXLayhG7dGNuQWJKMlNWVFdVXzNlRXYybjFJV2c  –o  tutorial-­‐map.txt      
  23. Slide  credit:  Doug  Wendel   Metadata:  GSC  checklists  

  24. Sequences  file  (unprocessed):  fastq,  sff,  fna/qual   are  currently  supported.

          These  should  be  obtained  as  sOll-­‐mulOplexed   data  from  your  sequencing  center  (i.e.,  not  yet   mapped  from  barcode  to  sample).  This  allows   for  use  of  QIIME’s  quality  filtering.     For  more  informaOon:      Quality  filtering  Illumina  data        h@p://www.nature.com/nmeth/journal/v10/n1/full/nmeth.2276.html      DemulOplexing  454  data  with  QIIME          h@p://qiime.org/tutorials/tutorial.html      Denoising  454  data  with  QIIME          h@p://qiime.org/tutorials/denoising_454_data.html      DemulOplexing  Illumina  data  with  QIIME          h@p://qiime.org/tutorials/processing_illumina_data.html          
  25. Sequences  file  (post-­‐split-­‐libraries):  standard  mulO-­‐ record  fasta,  with  sample  idenOfier

     included  in  the   sequence  idenOfier.   >sampleID_seqID [optional description]! ACCGA     Barcodes,  primers,  adapters  have  been  removed  –   this  is  only  the  biological  sequence!    
  26. Sample  IDs  map   sequences  to   metadata   Sequences

     file  (post-­‐split-­‐libraries):  standard  mulO-­‐ record  fasta,  with  sample  idenOfier  included  in  the   sequence  idenOfier.  
  27. OTU  table    (classic  format)   sample  x  OTU  matrix

     
  28. OTU  idenOfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  29. Sample  idenOfiers   OTU  table    (classic  format)   sample

     x  OTU  matrix  
  30. OpOonal  per  observaOon  taxonomic  informaOon   OTU  table    (classic

     format)   sample  x  OTU  matrix  
  31. h@p://biom-­‐format.org   OTU  tables  are  now  in  Biological   ObservaOon

     Matrix  (.biom)  format     (QIIME  1.4.0-­‐dev  and  later)   See  convert_biom.py   for  converOng  between  classic  and  BIOM  OTU   tables.  Detailed  usage  examples  available  here:   h@p://biom-­‐format.org/documentaOon/biom_conversion.html    
  32. h@p://www.biom-­‐format.org   The  Biological  ObservaOon  Matrix  (BIOM)  Format    or:

     How  I  Learned  To  Stop  Worrying  and        Love  the  Ome-­‐ome   JSON-­‐based  format  for   represenOng  arbitrary   sample  x  observaOon   conOngency  tables  with   opOonal  metadata   McDonald  et  al.,  GigaScience  (2012).  
  33. sample  x  observa9on  con9ngency  matrix   Samples OTUs Observa9on  

    counts  
  34. sample  x  observa9on  con9ngency  matrix   Metagenomes Functions Observa9on  

    counts  
  35. sample  x  observa9on  con9ngency  matrix   Metagenomes Functions Samples OTUs

    Genomes Ortholog groups Samples Metabolites Samples Taxa Marker   gene  (e.g.,  16S)   surveys   ComparaOve   genomics   Marker   gene  (e.g.,  16S)   surveys   Metagenomics     Metatranscriptomics   Metabolomics   .  .  .  
  36. Working  with  OTU  tables     (for  details  on  each

     script,  see  the  QIIME  script  index:   h@p://qiime.org/scripts/index.html  )   •  single_rarefaction.py: even  sampling  (very  important  if  you  have   different  numbers  of  seqs/sample!)   •  filter_otus_from_otu_table.py! •  filter_samples_from_otu_table.py   •  per_library_stats.py! •  filter_taxa_from_otu_table.py! •  merge_otu_tables.py! •  sort_otu_table.py! •  split_otu_table.py! •  split_otu_table_by_taxonomy.py! •  add_metadata.py (See:  h@p://biom-­‐format.org/documentaOon/adding_metadata.html  )  
  37. Working  with  QIIME  parameter  files   (advanced  topic)   • 

    QIIME  workflow  scripts  allow  you  to  pass  a   parameters  file  to  override  default  seungs  for   scripts  wrapped  in  the  workflow.  See  details   here:       http://qiime.org/documentation/qiime_parameters_files.html  
  38. Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes

     for  pyrosequencing  hundreds  of  samples  in  mulOplex.   Barcode  the  rRNA  on  a   per-­‐sample  basis.   DemulOplexing  (split  libraries)  
  39. Micah  Hamady,  et  al.,  Nature  Methods,  2008.   Error-­‐correcOng  barcodes

     for  pyrosequencing  hundreds  of  samples  in  mulOplex.   DemulOplexing  (split  libraries)   Barcode  the  rRNA  on  a   per-­‐sample  basis.   Pool  samples   and  sequence  
  40. Pool  samples   and  sequence   Micah  Hamady,  et  al.,

     Nature  Methods,  2008.   Error-­‐correcOng  barcodes  for  pyrosequencing  hundreds  of   samples  in  mulOplex.   Barcode  the  rRNA  on  a   per-­‐sample  basis.   >GCACCTGAGGACAGGCATGAGGAA…   >GCACCTGAGGACAGGGGAGGAGGA…   >TCACATGAACCTAGGCAGGACGAA…   >CTACCGGAGGACAGGCATGAGGAT…   >TCACATGAACCTAGGCAGGAGGAA…   >GCACCTGAGGACACGCAGGACGAC…   >CTACCGGAGGACAGGCAGGAGGAA…   >CTACCGGAGGACACACAGGAGGAA…   >GAACCTTCACATAGGCAGGAGGAT…   >TCACATGAACCTAGGGGCAAGGAA…   >GCACCTGAGGACAGGCAGGAGGAA…     DemulOplexing  (split  libraries)   Demul&plexing  454  data   split_libraries.py   h@p://qiime.org/tutorials/tutorial.html   Demul&plexing  Illumina  data   split_libraries_fastq.py   h@p://qiime.org/tutorials/illumina_overview_tutorial.html   h@p://qiime.org/tutorials/processing_illumina_data.html  
  41. Which  microbial  organisms  are   represented  by  the  rRNA  gene

      sequences  in  each  sample?   >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   RefSeq 1 RefSeq 2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 rRNA  reference  database   (sequences  are  available  for   each  ‘Op’  in  the  tree)   Search  against   reference   sequences  
  42. Search  against   reference   sequences   RefSeq 1 RefSeq

    2 RefSeq 3 RefSeq 4 RefSeq 5 RefSeq 6 RefSeq 7 RefSeq 8 RefSeq 9 RefSeq 10 >PC.634_1 FLP3FBN01ELBSX CTGGGCCGTGTCTCAGTCCCAATGTGGCCGTTTACCCTCTCAGGCCGG CTACGCATCATCGCCTTGGTGGGCCGTTACCTCACCAACTAGCTAATG CGCCGCAGGTCCATCCATGTTCACGCCTTGATGGGCGCTTTAATATAC TGAGCATGCGCTCTGTATACCTATCCGGTTTTAGCTACCGTTTCCAGC AGTTATCCCGGACACATGGGCTAGG! >PC.634_2 FLP3FBN01EG8AX! TTGGACCGTGTCTCAGTTCCAATGTGGGGGCCTTCCTCTCAGAACCCC TATCCATCGAAGGCTTGGTGGGCCGTTACCCCGCCAACAACCTAATGG AACGCATCCCCATCGATGACCGAAGTTCTTTAATAGTTCTACCATGCG GAAGAACTATGCCATCGGGTATTAATCTTTCTTTCGAAAGGCTATCCC CGAGTCATCGGCAGGTTGGATACGTGTTACTCACCCGTGCGCCGGT! >PC.354_3 FLP3FBN01EEWKD! TTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTTAACTCGG CTATGCATCATTGCCTTGGTAAGCCGTTACCTTACCAACTAGCTAATG CACCGCAGGTCCATCCAAGAGTGATAGCAGAACCATCTTTCAAACTCT AGACATGCGTCTAGTGTTGTTATCCGGTATTAGCATCTGTTTCCAGGT GTTATCCCAGTCTCTTGGG   Which  microbial  organisms  are   represented  by  the  rRNA  gene   sequences  in  each  sample?  
  43. OTU  picking   •  De  Novo     – Reads  are

     clustered  based  on  similarity  to  one   another.   •  Reference-­‐based   – Closed  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  discarded   – Open  reference:  any  reads  which  don’t  hit  a   reference  sequence  are  clustered  de  novo   h@p://qiime.org/tutorials/otu_picking.html  
  44. De  novo  OTU  picking   •  Pros   – All  reads

     are  clustered     •  Cons   – Not  parallelizable   – OTUs  may  be  defined  by  erroneous  reads   pick_de_novo_otus.py   h@p://qiime.org/tutorials/tutorial.html  
  45. De  novo  OTU  picking   •  You  must  use  if:

      –  You  do  not  have  a  reference  sequence  collecOon  to   cluster  against,  for  example  because  you're  working   with  an  infrequently  used  marker  gene.   •  You  cannot  use  if:   –  You  are  comparing  non-­‐overlapping  amplicons,  such   as  the  V2  and  the  V4  regions  of  the  16S  rRNA.   –  You  working  with  very  large  data  sets,  like  a  full  HiSeq   2000  run.  (Technically  you  can,  but  it  will  be  really   slow.)   pick_de_novo_otus.py   h@p://qiime.org/tutorials/tutorial.html  
  46. Closed-­‐reference  OTU  picking   •  Pros   – Built-­‐in  quality  filter

      – Easily  parallelizable   – OTUs  are  defined  by  high-­‐quality,  trusted   sequences   •  Cons   – Reads  that  don’t  hit  reference  dataset  are   excluded,  so  you  can  never  observe  new  OTUs   pick_closed_reference_otus.py  
  47. Closed-­‐reference  OTU  picking   •  You  must  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.  Your  reference  sequences  must  span  both   of  the  regions  being  sequenced.   •  You  cannot  use  if:   – You  do  not  have  a  reference  sequence  collecOon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_closed_reference_otus.py  
  48. Percentage  of  reads   that  do  not  hit  the  

    reference  collecOon,   by  environment  type.  
  49. Open-­‐reference  OTU  picking   •  Pros   – All  reads  are

     clustered   – ParOally  parallelizable   •  Cons   – Only  par9ally  parallelizable   – Mix  of  high  quality  sequences  defining  OTUs  (i.e.,   the  database  sequences)  and  possible  low  quality   sequences  defining  OTUs  (i.e.,  the  sequencing   reads)   pick_open_reference_otus.py   h@p://qiime.org/tutorials/illumina_overview_tutorial.html   h@p://qiime.org/tutorials/open_reference_illumina_processing.html   h@p://qiime.org/tutorials/fungal_its_analysis.html  
  50. Open-­‐reference  OTU  picking   •  You  cannot  use  if:  

    – You  are  comparing  non-­‐overlapping  amplicons,   such  as  the  V2  and  the  V4  regions  of  the  16S   rRNA.   – You  do  not  have  a  reference  sequence  collecOon   to  cluster  against,  for  example  because  you're   working  with  an  infrequently  used  marker  gene.   pick_open_reference_otus.py   h@p://qiime.org/tutorials/illumina_overview_tutorial.html   h@p://qiime.org/tutorials/open_reference_illumina_processing.html   h@p://qiime.org/tutorials/fungal_its_analysis.html  
  51. Query sequences Quality filtering: Does a query sequence q match

    a reference OTU at greater than or equal to (p) percent identity? Discard sequence Record sequence hit for new reference OTU Subsampled open-reference OTU picking workflow No Yes (p): percent sequence identity threshold used for pre-filtering of sequences (default: 60%) (s): percent sequence identity threshold used when clustering sequences either de novo or closed-reference (default: 97%) (n): percentage of sequences that are randomly subsampled from sequences that failed to hit reference OTUs (default: 0.1%) (c): minimum observation count for an OTU to be accepted during post-OTU picking processing (default: 2) Reference OTUs (e.g., derived from Greengenes) High quality query sequences Closed-reference OTU picking: Does a query sequence q match a reference OTU at greater than or equal to (s) percent identity? Record sequence hit for reference OTU Yes Randomly subsample (n) percent of the query sequences that failed to hit the reference OTUs Subsampled query sequences Remaining query sequences Cluster subsampled query sequences de novo at (s) percent identity Cluster centroids are new reference OTUs Closed-reference OTU picking: Does a query sequence q match a new reference OTU at greater than or equal to (s) percent identity? Cluster sequences de novo at (s) percent identity Cluster centroids are clean-up OTUs No Yes No Data file (input, intermediate, or output) Decision Process Output OTUs Legend Does an OTU o have an observation count of at least c? Accept OTU Exclude OTU Yes No pick_open_reference_otus.py   h@p://qiime.org/tutorials/open_reference_illumina_processing.html   Subsampled  open  reference  OTU  picking  scales  to  billions  of  reads  
  52. Read  assignment  is  different  for  shotgun  data,   but  not

     that  different.  In  general,  the  bo@leneck   is  idenOfying/compiling  a  reference  database.   map_reads_to_reference.py   parallel_map_reads_to_reference.py    h@p://qiime.org/tutorials/shotgun_analysis.html    h@p://qiime.org/scripts/map_reads_to_reference.html    
  53. Diversity  measures   Alpha  diversity   Diversity  within  a  sample

     
  54. Diversity  measures   Beta  diversity   Diversity  between  samples  

  55. Alpha  diversity   Sample  A        Pseudomonas  aeruginosa

           Pseudomonas  argenOnensis        Pseudomonas  flavescens        Escherichia  coli   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis   Sample  C        Pseudomonas  aeruginosa   Observed  species    Sample  A  4    Sample  B  2    Sample  C  1  
  56. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis            Pseudomonas  flavescens        Escherichia  coli   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis   Sample  C        Pseudomonas  aeruginosa   Conclusion   A  >  B  >  C   Alpha  diversity   Observed  species    Sample  A  4    Sample  B  2    Sample  C  1  
  57. Sample  C        Pseudomonas  aeruginosa      

     Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity   Sample  A        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli  
  58. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Alpha  diversity   Conclusion   A  =  B  =  C   Observed  species    Sample  A  3    Sample  B  3    Sample  C  3   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii  
  59. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   Alpha  diversity  
  60. Alpha  diversity  

  61. Alpha  diversity  

  62. Alpha  diversity  

  63. Sample  A        Pseudomonas  aeruginosa      

     Pseudomonas  argenOnensis        Pseudomonas  flavescens   Sample  B        Pseudomonas  aeruginosa        Pseudomonas  argenOnensis        Escherichia  coli   Sample  C        Pseudomonas  aeruginosa        Giardia  lamblia        Methanobrevibacter  smithii   PD  =  0.35     PD  =  0.40     PD  =  0.95     <   <   Sample  C  is  more  diverse  than  sample  B,   which  is  more  diverse  than  sample  A   Alpha  diversity  
  64. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=100   Sample  B  >  Sample  A  
  65. Sample  A   alpha  div=20   Sample  B   alpha

     div=100   Sample  B  >  Sample  A??   Sample  A   100  seqs   Sample  B   1,000  seqs   Alpha  rarefacOon  
  66. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  67. Alpha  rarefacOon   Sample  A   alpha  div=20   Sample

     B   alpha  div=15   Sample  B  <  Sample  A   with  same  #seqs     Sample  A   100  seqs   Sample  B   1,000  seqs   randomly  select   100  seqs  
  68. MulOple  alpha  rarefacOon   Sample  A   Alpha  div  =

     100   with  1,000  seqs     Repeatedly  calculate  alpha  div   at  decreasing  number  of  seqs   adiv   #  seqs   What  if  we  had  2,000  seqs?   ?   100   1,000   2,000  
  69. MulOple  alpha  rarefacOon   adiv   #  seqs   1,000

      500   80   250   40   Higher  sequencing  effort  might  result   in  higher  observed  diversity   100  
  70. MulOple  alpha  rarefacOon   adiv   #  seqs   100

      1,000   500   250   95   Higher  sequencing  effort  will  probably   not  add  to  observed  diversity  
  71. Beta  diversity  

  72. IdenOcal  communiOes   D  =  0.0   Related  communiOes  

    D  ~  0.5   Unrelated  communiOes   D  =  1.0   Lozupone  and  Knight,  2005,  Appl  Environ  Microbiol  71:8228   Unweighted  UniFrac:        a  qualitaOve,  phylogeneOc  β-­‐diversity  metric   Percent  of  observed  branch  length  that  is  unique  to   either  sample  
  73. Clustering  by  UniFrac  distance  

  74. VariaOon  in  sampling  depth  also  needs   to  be  controlled

     for  beta  diversity!  
  75. VariaOon  in  sampling  depth  is  an   important  consideraOon  

    Human  skin,  colored   by  individual,  at  500   sequence/sample   Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic  idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.  
  76. Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic

     idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaOon  in  sampling  depth  is  an   important  consideraOon   Human  skin,  colored  by   sampling  depth,  at   either  50  or  500   sequences/sample  
  77. Human  skin,  colored  by   sampling  depth,  at   either

     50  (blue)  or  500   (red)  sequences/sample   Image/analysis  credit:  JusOn  Kuczynski     Data  reference:   Forensic  idenOficaOon  using  skin  bacterial  communiOes.  Fierer  N,  Lauber  CL,  Zhou  N,  McDonald  D,  Costello  EK,  Knight  R.   Proc  Natl  Acad  Sci  U  S  A.  2010  Apr  6;107(14):6477-­‐81.   VariaOon  in  sampling  depth  is  an   important  consideraOon  
  78. core_diversity_analyses.py  

  79. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  80. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  81. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  82. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  83. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  84. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  85. core_diversity_analyses.py   $  core_diversity_analyses.py  –i  otu_table.biom        

                                                                                                     –o  core_output                                                                                                          –m  map.txt                                                                                                          –c  SampleType,day                                                                                                          –t  rep_set.tre                                                                                                          –e  20  
  86. How  deep  is  deep  enough?   It  depends  on  the

     quesOon…   – Differences  between  community  types:  not  many   sequences.   – Rare  biosphere:  more  (but  be  careful  about   sequencing  noise!)  
  87. PC1 (8.6%) PC2 (8.4%) PC3 (6.2%) PC1 (13%) PC2 (11%)

    PC3 (8.1%) PC1 (24%) PC2 (17%) PC3 (9.7%) 100  sequences/sample   10  sequences/sample   1  sequence/sample   Direct  sequencing  of  the  human  microbiome  readily  reveals  community  differences.   J  Kuczynski  et  al.  Genome  Biology  (2011).   How  deep  is  deep  enough?  
  88. (A) (B) (C) 10 1 100 Figure  1  

  89. FracOon  of  Greengenes  simulated  reads  classified    by  taxonomic  

    level  using  the  RDP  Classifier  (80%  confidence)   Acknowledgement:  Tony  Walters   Accuracy  of  classified  reads   90   95   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   96%  accurate!   Phylum                    Class                          Order                        Family                        Genus                    Species     0   20   40   60   80   100   Full  Amplicon   515F/806R  (150  base  read)   515F/806R  (100  base  read)   Phylum                    Class                          Order                        Family                        Genus                    Species    
  90. Not assigned Coriobacteriales Lactobacillales Erysipelotrichales Enterobacteriales Bifidobacteriales Bacteroidales Clostridiales Not

    assigned Mitsuokella Rikenellaceae Prevotellaceae Porphyromonadaceae Butyrivibrio Holdemania Coprococcus Clostridiales FamilyXI Incertae Sedis Cedecea Anaerotruncus Streptococcus Enterobacter Eubacterium Blautia Citrobacter Coriobacterineae Subdoligranulum Desulfitobacterium Dorea Unclassified Erysipelotrichaceae Catenibacte Roseburia Ruminococc Proteus Providencia Bifidobacteriaceae Clostridium Bacteroid (b) 0 10 20 30 40 50 60 70 80 90 100 Even1 Even2 Even3 Even1 Even2 Even3 Expected (a) Relative abundance (% of 16S rRNA gene sequences) 5’ primer 3’ primer Even1 Even2 Even3 Even1 Even2 Even3 Expected 5’ primer 3’ primer 0 10 20 30 40 50 60 70 80 Relative abundance (% of 16S rRNA gene seque Firmicutes Proteobacteria Actinobacteria Bacteroidetes Relative Abundance Order-level taxonomy assignments G-test (goodness of fit) ** p < 0.01 * p < 0.05 Can accurate taxonomy assignments be achieved? 5’ Mock1 5’ Mock2 5’ Mock3 3’ Mock1 3’ Mock2 3’ Mock3 Expected ** ** ** * * *
  91. Not$assigned Coriobacteridae Lactobacillales Erysipelotrichales Enterobacteriales Actinobacteridae Bacteroidia Clostridiales Not$assigned Mitsuokella

    Rikenellaceae Prevotellaceae Porphyromonadaceae Butyrivibrio Holdemania Coprococcus Clostridiales$FamilyXI$Incertae$Sedis Cedecea Anaerotruncus Streptococcus Enterobacter Eubacterium Blautia Citrobacter Coriobacterineae Subdoligranulum Desulfitobacterium Dorea Unclassified$Erysipelotrichaceae Catenibacterium Roseburia Ruminococcus Proteus Providencia Bifidobacteriaceae Clostridium Bacteroidaceae (b) 0 10 20 30 40 50 60 70 80 90 100 Even1$ Even2$ Even3$ Even1$ Even2$ Even3$ Expected (a) Relative$abundance$(%$of$16S$rRNA$gene$sequences) 5’$primer 3’$primer Even1$ Even2$ Even3$ Even1$ Even2$ Even3$ Expected 5’$primer 3’$primer 0 10 20 30 40 50 60 70 80 90 100 Relative$abundance$(%$of$16S$rRNA$gene$sequences) Firmicutes Proteobacteria Actinobacteria Bacteroidetes Can accurate taxonomy assignments be achieved? Genus-level taxonomy assignments G-test (goodness of fit) ** p < 0.01 * p < 0.05 5’ Mock1 5’ Mock2 5’ Mock3 3’ Mock1 3’ Mock2 3’ Mock3 Expected Relative abundance *
  92. This  work  is  licensed  under  the  CreaOve  Commons  A@ribuOon  3.0

     United  States  License.  To  view  a   copy  of  this  license,  visit   h@p://creaOvecommons.org/licenses/by/3.0/us/  or  send  a  le@er  to  CreaOve  Commons,  171   Second  Street,  Suite  300,  San  Francisco,  California,  94105,  USA.     Feel  free  to  use  or  modify  these  slides,  but  please  credit  us  by  placing  the  following  a@ribuOon   informaOon  where  you  feel  that  it  makes  sense:     Slides  derived  from  QIIME  educa9onal  materials  www.qiime.org.     www.qiime.org   Slides  compiled  by:      Greg  Caporaso      Jose  Clemente      Antonio  Gonzalez  Peña      Rob  Knight      Cathy  Lozupone      Daniel  McDonald          Yoshiki  Vázquez  Baeza