Upgrade to Pro — share decks privately, control downloads, hide ads and more …

3 встреча — Биоинформатика (продолжение) (А. Фе...

3 встреча — Биоинформатика (продолжение) (А. Фединцев)

3 встреча Smolensk Computer Science Club
Презентация Александра Фединцева про биоинформатику (продолжение)
ВКонтакте: http://vk.com/scsc3
Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1c

Smolensk Computer Science Club

November 23, 2012
Tweet

More Decks by Smolensk Computer Science Club

Other Decks in Science

Transcript

  1. 1. Расстояние Хэмминга (подстановка) dH (GCAT,CGAT) = 2 2. Расстояние

    Левенштейна (удаление, вставка, подстановка) dE (CGACG, GTCGA) = 3
  2. “ T E S T “ 0 S E T

    Подсчет расстояния Левенштейна 0 0
  3. “ T E S T “ 0 S 1 E

    T Подсчет расстояния Левенштейна
  4. Восстановление редакционного предписания 1) вертикальный переход — удаление символа из

    s1; 2) горизонтальный переход — вставка символа из s2 в s1; 3) диагональный переход — совпадение или замена.
  5. Алгоритм в виде, описанном выше, требует O(n*m) операций и такую

    же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти. Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.
  6. Цели выравнивания двух последовательностей: - соизмерить их сходство и установить

    соответствие между остатками; - отметить консервативные и вариабельные участки; - высказать соображения об эволюционных взаимосвязях.
  7. Типы выравнивания - Локальное – поиск фрагментов наиболее похожих друг

    на друга домовой домовой домовой скупидом водомерка водомерка - Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход---
  8. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 R -2 T -3 T -4 E -5 I -6 N -7
  9. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 T -3 T -4 E -5 I -6 N -7
  10. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 T -4 E -5 I -6 N -7
  11. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 E -5 I -6 N -7
  12. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 I -6 N -7
  13. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -3 I -6 N -7
  14. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7
  15. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  16. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  17. N Y _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  18. IN TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  19. EIN -TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  20. TEIN T-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  21. TTEIN ET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  22. RTTEIN RET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  23. PRTTEIN PRET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  24. Все замены аминокислот не являются равновероятными и в ходе эволюции

    чаще происходят замены на сходные по физико- химическим свойствам аминокислоты!!! Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.
  25. Отличия матриц Основными отличиями матриц РАМ и Blosum являются: 1)

    использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.