Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Lecture_1

John
January 21, 2014
58

 Lecture_1

John

January 21, 2014
Tweet

Transcript

  1. Bio/CS  299:  Introduc2on  to   Bioinforma2cs   Greg  Caporaso  

    www.caporaso.us/teaching   Lectures  2-­‐4  
  2. Mac  OS  X  v  Windows  v  Linux   •  Most

     bioinforma2cs  is  done  on  Mac  OS  or  Linux.     –  Linux  and  Mac  OS  are  both  based  on  Unix,  so  are   much  more  similar  to  one  another  than  either  is  with   Windows.     •  Virtual  Machines:  Possible  to  run  Linux  on  top  of   your  Windows  installa2on  –  the  QIIME  Virtual   Box  comes  pre-­‐installed  with  many  of  the  tools   we’ll  use  in  this  course.   –  h2p://qiime.org/install/virtual_box.html  
  3. Text  files   •  All  files  are  linear  sequences  of

     binary   numbers   •  In  plain  text  files,  the  binary  numbers  encode   for  human  readable  text  (ASCII  encoding)   •  In  contrast,  a  “binary”  file  is  usually  simply   meant  to  encode  a  file  that  doesn’t  represent   human  readable  text.    
  4. Biological  data  is  oXen  represented  in   text  format  

    •  Easier  to  transfer  between  programs   •  Don’t  need  a  special  program  to  ‘decode’  the   informa2on.   •  Examples:  fasta,  newick,  PDB,  json,  biom,  tab-­‐ separated  text  
  5. MicrosoX  Word  files  are  NOT  text   files!  MS  Word

     is  a  word  processor,   not  a  text  editor.     Excel  spreadsheets  are  NOT  text  files!   (Unless  you  export  them  as  delimited   text.)  
  6. Delimited  text   •  OXen  used  for  2D  data  such

     as  tables  (or  spreadsheets)   •  Lines  oXen  represent  records,  and  values  are   separated  by  delimiters:  oXen  tabs,  spaces,  or  commas   (I  usually  prefer  tab-­‐delimited  text,  and  these  are   standard  output  formats  from  MS  Excel  and  Google   Docs).     •  These  oXen  contain  headers  lines,  and  some2mes   contain  comment  lines.   •  Doesn’t  work  well  for  hierarchical  data  (e.g.  trees),  or   when  a  certain  field  might  contain  different  numbers   of  values.  
  7. Find  a  good  text  editor.  It  should  allow   you

     to:   •  Show  line  numbers   •  Show  invisibles  (i.e.,  spaces):  many  programs   treat  space  and  tab  characters  differently,  so   it’s  useful  to  see  what  a  space  character  in  a   text  file  actually  represents.   •  Define  tab  characters  as  some  number  of   spaces   •  Choose  line  ending  types   •  Use  regular  expressions  for  search/replace  
  8. Figure 1-4 Molecular Biology of the Cell, Fifth Edition (©

    Garland Science 2008) The  Central  Dogma  of  Molecular  Biology  
  9. Figure 1-4 Molecular Biology of the Cell, Fifth Edition (©

    Garland Science 2008) The  Central  Dogma  of  Molecular  Biology   DNA:  an  informa2on  archive   RNA:  an  informa2on  carrier   protein:  func2onal  molecules  
  10. Figure 1-4 Molecular Biology of the Cell, Fifth Edition (©

    Garland Science 2008) The  Central  Dogma  of  Molecular  Biology   DNA:  an  informa2on  archive   RNA:  an  informa2on  carrier    *  these  are  func2onal            molecules  some2mes  too   protein:  func2onal  molecules  
  11. Diverse  func2ons  of  proteins   •  kera2n:  a  structural  protein;

     a  large   component  of  human  skin   •  RuBisCO:  a  key  enzyme  in  photosynthesis   •  Cholera  toxin:  a  six-­‐protein  complex   responsible  for  the  disease  state  associated   with  cholera   •  Green  fluorescent  protein:  jellyfish  protein   responsible  for  bioluminescence  (and  an   extremely  useful  protein  in  biotechnology)  
  12. DNA  is  an  informa2on  archive…     What  is  informa2on?

      Technically,  a  sequence  of  symbols   that  can  be  interpreted  as  a  message.  
  13. Unit  of  informa2on:  the  bit   •  A  bit  is

     a  binary  digit   •  A  byte  is  8  bits  (so  what’s  the  largest  number   that  can  be  represented  in  one  byte?)   •  kilobyte  (KB)  is  1024  bytes,  megabyte  (MB)  is   10242  bytes,  gigabyte  (GB)  is  10243  bytes.   •  Why  1024?  210  =  1024,  so  approxima2on  of   the  SI  kilo  prefix.    
  14. Base  pairing   DNA:  A  pairs  with  T;  G  pairs

     with  C!   RNA:  A  pairs  with  U;  G  pairs  with  C     *A  U  in  an  RNA  molecule  will  pair  with          an  A  in  a  DNA  molecule;  a  T  in  a  DNA  molecule  with            pair  with  an  A  in  an  RNA  molecule.  
  15. Base  pairing   5’ – ACCGGTTGGAACCGTTAGG – 3’! 3’ –

    TGGCCAACCTTGGCAATCC – 5’! DNA:  A  pairs  with  T;  G  pairs  with  C!   RNA:  A  pairs  with  U;  G  pairs  with  C  
  16. Figure 1-4 Molecular Biology of the Cell, Fifth Edition (©

    Garland Science 2008) The  Central  Dogma  of  Molecular  Biology   DNA:  an  informa2on  archive   RNA:  an  informa2on  carrier    *  these  are  func2onal            molecules  and                    informa2on  archive          molecules  in  certain  cases   protein:  func2onal  molecules  
  17. Descent:  offspring  inherit  characteris2cs  from  their   parents    

    Sexual  Reproduc2on    Meiosis    Mitosis         Asexual  Reproduc2on    Mitosis      
  18. New  genes  are  derived  from  exis2ng  genes     • 

    Point  muta2ons     •  synonymous  –  Results  in  the  same  amino  acid  sequence   •  non-­‐synonymous  –  Results  in  different  amino  acid   sequence   •       Inser2on/dele2ons  (or  indels)   •  Possible  change  of  reading  frame.       Muta2ons  rates  (par2ally  due  to  repair  mechanisms)  are  low  to  ensure   gene2c  stability:  in  bacteria  1  nucleo2de  change  per  109  nucleo2des  per   cell  genera2on.   Muta%on  
  19. Varia2on:  offspring  are  not  exact  copies  of  their   parents

          mechanisms:  muta2on,  sexual  reproduc2on  
  20. All  cellular  life  has  a  shared   evolu2onary  history,  and

      some  genes  are  shared  by  all   organisms.  
  21. ACCAGGTT The  random  accumula2on  of   mutaFons  (changes  to  gene

      sequences  over  evolu2onary   2me)  gives  us  informa2on   for  iden2fying  and   comparing  organisms.   Time
  22. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT Time The  random  accumula2on  of  

    mutaFons  (changes  to  gene   sequences  over  evolu2onary   2me)  gives  us  informa2on   for  iden2fying  and   comparing  organisms.  
  23. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT Time

    The  random  accumula2on  of   mutaFons  (changes  to  gene   sequences  over  evolu2onary   2me)  gives  us  informa2on   for  iden2fying  and   comparing  organisms.  
  24. ACCAGGTT ACCAGGTT ACCATGTT ACTAGGAT TCCATGTT ACCATATT ACTAGCAT ACTAGTAT ACCAGGTT ACCATATT

    ACTAGCAT ACTAGTAT TCAATGTT TCCATGTT ACCAGGTT Time The  random  accumula2on  of   mutaFons  (changes  to  gene   sequences  over  evolu2onary   2me)  gives  us  informa2on   for  iden2fying  and   comparing  organisms.  
  25. Selec2on:  not  all  offspring  are  equally  likely  to   reproduce

         mechanism:  “survival  of  the  fioest”  or  the   “Preserva2on  of  Favoured  Races  in  the  Struggle  for   Life”     muta2ons  are  always  random,  but  they  can   some2mes  result  in  an  adap2ve  change    
  26. Natural  selec2on  isn’t  the  only   mechanism  for  changing  gene

      frequencies  in  a  popula2on:  “gene2c   driX”,  or  changes  in  frequencies  due  to   random  sampling  also  plays  a  role.  
  27. Tradi2onal  approaches  to  inferring   rela2onships  between  organisms   were

     morphology-­‐based.     Modern  approaches  tend  to  be   sequence  based:  (possibly)  less   subjec2ve,  cheaper,  and  more   data.  
  28. Figure 1-25 Molecular Biology of the Cell, Fifth Edition (©

    Garland Science 2008) Homologs,  paralogs,  and  orthologs  
  29. Types  of  changes:      beneficial  (i.e.,  result  in  increased

     fitness  of  the   organism):  rare,  but  likely  to  be  propagated        selec2vely  neutral:  may  or  may  not  be  propagated        deleterious  (i.e.,  result  in  decreased  fitness  of  the   organism):  unlikely  to  be  propagated  
  30. Why  might  a  deleterious  muta2on   propagate  through-­‐out  a  popula2on?

      Red  blood  cells  assume   an  abnormal,  rigid  shape   and  exhibit  reduced   flexibility.       These  sickle-­‐shaped  cells   build  up  in  veins  and   capillaries,  and  obstruct   blood  flow  causing  pain   and  2ssue  damage.       hop://www.nature.com/scitable/topicpage/sickle-­‐cell-­‐anemia-­‐a-­‐look-­‐at-­‐global-­‐8756219  
  31. Sickle  trait:  one  in   three  individuals  in   sub-­‐Saharan

     Africa;   one  in  five   thousand  in  USA.   hop://www.nature.com/scitable/topicpage/sickle-­‐cell-­‐anemia-­‐a-­‐look-­‐at-­‐global-­‐8756219  
  32. Why  might  a  deleterious  muta2on   propagate  through-­‐out  a  popula2on?

      The  sickle  cell  trait  confers  malaria  resistance  (although  the  mechanism   isn’t  fully  understood),  so  more  individuals  with  the  trait  will  survive  to   reproduce  and  pass  on  the  mutant  gene.  
  33. This  work  is  licensed  under  the  Crea2ve  Commons  Aoribu2on  3.0

     United  States  License.  To  view  a   copy  of  this  license,  visit   hop://crea2vecommons.org/licenses/by/3.0/us/  or  send  a  leoer  to  Crea2ve  Commons,  171   Second  Street,  Suite  300,  San  Francisco,  California,  94105,  USA.     Feel  free  to  use  or  modify  these  slides,  but  please  credit  me  by  placing  the  following  aoribu2on   informa2on  where  you  feel  that  it  makes  sense:  Greg  Caporaso,  www.caporaso.us.