Upgrade to Pro — share decks privately, control downloads, hide ads and more …

3 встреча — Биоинформатика (продолжение) (А. Фе...

3 встреча — Биоинформатика (продолжение) (А. Фединцев)

3 встреча Smolensk Computer Science Club
Презентация Александра Фединцева про биоинформатику (продолжение)
ВКонтакте: http://vk.com/scsc3
Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1c

Avatar for Smolensk Computer Science Club

Smolensk Computer Science Club

November 23, 2012
Tweet

More Decks by Smolensk Computer Science Club

Other Decks in Science

Transcript

  1. 1. Расстояние Хэмминга (подстановка) dH (GCAT,CGAT) = 2 2. Расстояние

    Левенштейна (удаление, вставка, подстановка) dE (CGACG, GTCGA) = 3
  2. “ T E S T “ 0 S E T

    Подсчет расстояния Левенштейна 0 0
  3. “ T E S T “ 0 S 1 E

    T Подсчет расстояния Левенштейна
  4. Восстановление редакционного предписания 1) вертикальный переход — удаление символа из

    s1; 2) горизонтальный переход — вставка символа из s2 в s1; 3) диагональный переход — совпадение или замена.
  5. Алгоритм в виде, описанном выше, требует O(n*m) операций и такую

    же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти. Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.
  6. Цели выравнивания двух последовательностей: - соизмерить их сходство и установить

    соответствие между остатками; - отметить консервативные и вариабельные участки; - высказать соображения об эволюционных взаимосвязях.
  7. Типы выравнивания - Локальное – поиск фрагментов наиболее похожих друг

    на друга домовой домовой домовой скупидом водомерка водомерка - Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход---
  8. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 R -2 T -3 T -4 E -5 I -6 N -7
  9. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 T -3 T -4 E -5 I -6 N -7
  10. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 T -4 E -5 I -6 N -7
  11. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 E -5 I -6 N -7
  12. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 I -6 N -7
  13. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -3 I -6 N -7
  14. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7
  15. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  16. _ P R E T T Y _ 0 -1

    -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  17. N Y _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  18. IN TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  19. EIN -TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  20. TEIN T-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  21. TTEIN ET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  22. RTTEIN RET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  23. PRTTEIN PRET-TY _ P R E T T Y _

    0 -1 -2 -3 -4 -5 -6 P -1 0 -1 -2 -3 -4 -5 R -2 -1 0 -1 -2 -3 -4 T -3 -2 -1 -1 -1 -2 -3 T -4 -3 -2 -2 -1 -1 -2 E -5 -4 -3 -2 -2 -2 -2 I -6 -5 -4 -3 -3 -3 -3 N -7 -6 -5 -4 -4 -4 -4
  24. Все замены аминокислот не являются равновероятными и в ходе эволюции

    чаще происходят замены на сходные по физико- химическим свойствам аминокислоты!!! Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.
  25. Отличия матриц Основными отличиями матриц РАМ и Blosum являются: 1)

    использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.