Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BIO 299: Lecture 18 (NAU Fall 2013)

BIO 299: Lecture 18 (NAU Fall 2013)

24f019bae9a9c4282123961b01c7f0d5?s=128

Greg Caporaso

March 25, 2013
Tweet

Transcript

  1. Bio/CS  299:  Introduc2on  to   Bioinforma2cs   Greg  Caporaso  

    www.caporaso.us/teaching   Lecture  18  
  2. What  is  phylogeny  reconstruc2on?   •  The  process  of  inferring

     the  evolu2onary   rela2onships  between  organisms  or  groups  of   organisms,  and  usually  represen2ng  that   informa2on  as  a  tree.    
  3. Why  reconstruct  phylogenies?   •  Make  func2onal  inferences  about  genes

      •  Understand  rela2onships  between  organisms   (and  therefore  possible  similari2es  between   them)  
  4. Internal node Terminal node (or tip) Edge or branch

  5. Terminal  nodes  or  leaves:  extant  organisms,  frequently   called  opera&onal

     taxonomic  units  or  OTUs.  OTUs  are   families  of  related  organisms.       Internal  nodes:  hypothe2cal  ancestors  -­‐  we  postulate  their   existence  but  oRen  don’t  have  direct  evidence.    
  6. Clade: all tips descending from a common ancestor (can include

    one or more tips)
  7. Monophyly versus polyphyly Monophyle2c  group:  the  last   common  ancestor

     was  a   member  of  the  group  (e.g.,   mul2cellular  organisms)       Polyphyle2c  group:  the  last   common  ancestor  was  not  a   member  of  the  group  (e.g.,   thermophiles)  
  8. 0.2 B: gi|13122400 B: gi|13122405 E: gi|2660560 B: gi|13122402 A:

    gi|5821183 A: gi|5821186 E: gi|199601522 E: gi|163247538 A: gi|5821190 B: gi|13122391 E: gi|13488777 A: gi|5821181 A: gi|5821195 E: gi|1165232 B: gi|710315 0.2 B: gi|13122400 B: gi|13122405 E: gi|2660560 B: gi|13122402 A: gi|5821183 A: gi|5821186 E: gi|199601522 E: gi|163247538 A: gi|5821190 B: gi|13122391 E: gi|13488777 A: gi|5821181 A: gi|5821195 E: gi|1165232 B: gi|710315 Rooted  trees:  includes  an   assump2on  about  the  last  common   ancestor  of  all  sequences   Unrooted  trees:  no  assump2on   about  the  last  common  ancestor  of   all  sequences   Trees  are  oRen  built  from  gene  sequences,  and  thus  represent  gene  trees.   If  the  genes  are  orthologous,  this  can  also  represent  a  species  tree.  
  9. How  many  (rooted)  trees  are   there?   Felsenstein  Inferring

     Phylogenies,  Chapter  3  
  10. Felsenstein  Inferring  Phylogenies,  Chapter  3  

  11. Felsenstein  Inferring  Phylogenies,  Chapter  3  

  12. Number  of   OTUs   Number  of   rooted  tree

      toplogies   Number  of   unrooted  tree   toplogies   2   1   1   3   3   1   4   15   3   5   105   15   6   954   105   7   10395   954   8   135,135   10395   9   2,027,025   135,135   10   34,459,425   2,027,025   Too  many  to  evaluate  them  all   (manually  or  computa2onally)   Felsenstein  Inferring  Phylogenies,  Chapter  3  
  13. Heuris2c  approaches  for  inferring   phylogenies     •  Look

     at  a  subset  of  the  possible  trees,  and   don’t  guarantee  to  find  the  best  tree.     •  Designed  to  scale  to  trees  for  many  OTUs   (how  well  they  scale  depends  on  the  method,   and  there  is  a  lot  of  variability)   •  ORen  provide  a  single  tree,  so  do  not  include   informa2on  on  how  likely  other  tree   topologies  are  (we’ll  talk  about  methods,  such   as  bootstrapping,  to  address  this).      
  14. Approaches  for  inferring  phylogeny   •  UPGMA  (unweighted  pair  group

     method  with   arithme2c  means)   •  Neighbor-­‐joining   •  Maximum  parsimony   •  Maximum  likelihood   •  Bayesian  inference  
  15. UPGMA  example   •  Oldest  and  probably  simplest  method  for

      inferring  phylogeny.   •  Based  on  clustering  sequences  based  on  the   distances  between  them.  
  16. Distance  metrics   •  Distance:   –  d(x,y)  >=  0

     (non-­‐nega2vity)   –  d(x,y)  =  0  if  and  only  if  x  =  y  (iden2ty  of  indiscernibles)   –  d(x,y)  =  d(y,x)  (symmetry)     –  d(x,z)  <=  d(x,y)  +  d(y,z)  (triangle  inequality)   hhp://www-­‐history.mcs.st-­‐and.ac.uk/~john/MT4522/Lectures/L5.html   hhp://en.wikipedia.org/wiki/Metric_(mathema2cs)  
  17. Simple  example  of  distances   •  Distance  between  two  points

     on  a  line:   – d(x,y)  =  |  x  –  y  |   Does  this  fulfill  the  four  requirements?  
  18. Building  a  distance  matrix   X  (6.0)   Z  (2.0)

      Y  (20.0)  
  19. Building  a  distance  matrix   X  (6.0)   Z  (2.0)

      Y  (20.0)   x   y   z   x   0   14   4   y   14   0   18   z   4   18   0   Distance:   –  d(x,y)  >=  0  (non-­‐nega2vity)   –  d(x,y)  =  0  if  and  only  if  x  =  y   (iden2ty  of  indiscernibles)   –  d(x,y)  =  d(y,x)  (symmetry)     –  d(x,z)  <=  d(x,y)  +  d(y,z)  (triangle   inequality)  
  20. So  how  do  we  compute  distances   between  sequences?  

    •  Most  oRen  derived  from  a  mul2ple  sequence   alignment.  These  differ  from  the  pairwise   alignments  that  we’ve  looked  at  thus  far,  but   use  the  same  underlying  algorithms.    
  21. Beginning  with  a  mul2ple  sequence  alignment,   compute  distance  between

     sequences   Sequence1:  ACCGTGAAGCCAATAC   Sequence2:  A-­‐CGTGCAACCATTAC   Sequence3:  AGCGTGCAGCCAATAC   Sequence4:  AGGGTGCCGC-­‐AATAC   Sequence5:  AGGGTGCCAC-­‐AATAC  
  22. Sequence1:  ACCGTGAAGCCAATAC   Sequence2:  AGCGTGCAACCATTAC   Sequence3:  AGCGTGCAGCCAATAC   Sequence4:

     AGGGTGCCGCTAATAC   Sequence5:  AGGGTGCCACTAATAC   Distance  matrix                      s1        s2        s3        s4        s5          s1          0          4          2          5          6          s2          4          0          2          5          4          s3          2          2          0          3          4          s4          5          5          3          0          1          s5          6          4          4          1          0   *We’ll  discuss  methods  that  are  more  commonly  used  –  this  is  intended  to  be  a  simple  example.  
  23. UPGMA:  Unweighted  Pair-­‐Group   Method  with  Arithme2c  mean   • 

    Unweighted:  all  2p-­‐to-­‐2p  distances  contribute   equally   •  Pair-­‐group:    all  branch  points  lead  to  exactly   two  clades   •  Arithme2c  mean:  distances  to  each  clade  are   the  mean  of  distances  to  all  members  of  that   clade   hhp://www.southampton.ac.uk/~re1u06/teaching/upgma/  
  24. UPGMA  example   Step  1:  Iden2fy  the  smallest  distance  in

     the  matrix  and   create  a  new  group  containing  only  those  members.     Step  2:  Create  a  new  distance  matrix  with  an  entry   represen2ng  the  clade  created  in  step  1.  Calcula2ng   the  mean  distance  from  each  of  the  2ps  of  the  new   clade  to  all  other  2ps  in  the  distance  matrix.     Step  3:  If  there  is  only  one  distance  in  the  distance   matrix,  stop.  Otherwise  repeat  step  1.    
  25.     A   B   D   F  

    A                   B   19               D   8   18           F   18   1   17      
  26.     A   B   D   F  

    A                   B   19               D   8   18           F   18   1   17       F                    B   0.5   0.5  
  27.     A   B   D   F  

    A                   B   19               D   8   18           F   18   1   17           A   BF   D   A               BF           D           F                    B   0.5   0.5  
  28.     A   B   D   F  

    A                   B   19               D   8   18           F   18   1   17           A   BF   D   A               BF    18.5           D    8       (A~B  +  A~F)  /  2  =     (19  +  18)  =   18.5     F                    B   0.5   0.5  
  29.     A   B   D   F  

    A                   B   19               D   8   18           F   18   1   17           A   BF   D   A               BF    18.5           D    8    17.5       (A~B  +  A~F)  /  2  =     (19  +  18)  =   18.5     (D~B  +  D~F)  /  2  =   (18  +  17)  =      17.5     F                    B   0.5   0.5  
  30. F                  

     B   0.5   0.5       A   BF   D   A               BF   18.5           D   8   17.5       D                    A   4   4  
  31.     BF   AD   BF      

        AD               A   B   D   F   A                   B   19               D   8   18           F   18   1   17       F                    B   0.5   0.5   D                    A   4   4  
  32.     BF   AD   BF      

        AD               A   B   D   F   A                   B   19               D   8   18           F   18   1   17       (A~B  +  A~F  +  D~B  +  D~F)  /  4  =     F                    B   0.5   0.5   D                    A   4   4  
  33.     BF   AD   BF      

        AD    18           A   B   D   F   A                   B   19               D   8   18           F   18   1   17       (A~B  +  A~F  +  D~B  +  D~F)  /  4  =     (19  +  18  +  18  +  17)  /  4  =     18   F                    B   0.5   0.5   D                    A   4   4  
  34.     BF   AD   BF      

        AD   18       F                    B   0.5   0.5   D                    A   4   4   Depth  of   Tree  is  computed  as   Distance  in  the  new   matrix  divided  by  2  
  35.     BF   AD   BF      

        AD   18       F                    B   0.5   0.5   D                    A   4   4   5   8.5   This  example  is  derived  from  hhp://www.southampton.ac.uk/~re1u06/teaching/upgma/    
  36. Acknowledgements   Much  of  the  material  in  this  lecture  was

      compiled  while  reviewing  the  following  sources:   •  The  Phylogene&c  Handbook  (Lemey,  Salemi,   Vandamme)   •  Inferring  Phylogeny  (Felsenstein)   •  Richard  Edwards’s  teaching  website:      hhp://www.southampton.ac.uk/~re1u06/teaching/upgma/  
  37. This  work  is  licensed  under  the  Crea2ve  Commons  Ahribu2on  3.0

     United  States  License.  To  view  a   copy  of  this  license,  visit   hhp://crea2vecommons.org/licenses/by/3.0/us/  or  send  a  leher  to  Crea2ve  Commons,  171   Second  Street,  Suite  300,  San  Francisco,  California,  94105,  USA.     Feel  free  to  use  or  modify  these  slides,  but  please  credit  me  by  placing  the  following  ahribu2on   informa2on  where  you  feel  that  it  makes  sense:  Greg  Caporaso,  www.caporaso.us.