Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2 встреча — Биоинформатика (А. Фединцев)

2 встреча — Биоинформатика (А. Фединцев)

2 встреча Smolensk Computer Science Club
Презентация Александра Фединцева про биоинформатику
ВКонтакте: http://vk.com/scsc2
Видео: https://www.youtube.com/watch?v=b3TZEeeIQ1c

More Decks by Smolensk Computer Science Club

Other Decks in Science

Transcript

  1. Что такое биоинформатика? - математические методы компьютерного анализа в сравнительной

    геномике (геномная биоинформатика). - разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). - исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.
  2. Секвенирование сложнее задачи о газете • В каждом геноме есть

    много повторяющихся подстрок (50% человеческого генома — повторения). • Пример: GCTT встречается четыре раза в строке AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG • Аналогия: треугольный пазл содержит множество повторяющихся фигур. Это сильно затрудняет его решение (даже с 16 кусочками).
  3. ДНК-чипы: реализация 1. Синтезировать все k-меры в каждой из 4k

    ячеек матрицы. 2. Покрыть матрицу многими копиями флуоресцентно помеченного фрагмента неизвестной ДНК. 3. ДНК гибридизирует с k-мером, если они дополняют друг друга. 4. Использовать спектроскоп, чтобы определить, какие ячейки излучают свет — дополнения к этим ячейкам выявят k-меры неизвестного фрагмента ДНК. Это и есть искомые риды!
  4. ДНК-чипы: пример Прочитанные риды: AAA AGA CAA CGA GAA GGA

    TAA TGA AAC AGC CAC CGC GAC GGC TAC TGC AAG AGG CAG CGG GAG GGG TAG TGG AAT AGT CAT CGT GAT GGT TAT TGT ACA ATA CCA CTA GCA GTA TCA TTA ACC ATC CCC CTC GCC GTC TCC TTC ACG ATG CCG CTG GCG GTG TCG TTG ACT ATT CCT CTT GCT GTT TCT TTT
  5. Первый подход: граф H Создадим в графе H вершины, соответствующие

    всем k-мерам, найденным с помощью ДНК-чипа. Префикс — это первые k – 1 нуклеотидов k- мера (CAA) Суффикс — последние k – 1 нуклеотидов k- мера(CAA) Разные 3-меры могут иметь общий префикс/суффикс: ATG, TGA, CTG ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  6. Гамильтонов цикл в графе H В графе H есть гамильтонов

    цикл: • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG ATGGCGTGCAATG Геном: A T G G C G T G C A
  7. Второй подход: граф E Сформируем иной граф E следующим образом:

    Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  8. Второй подход: граф E Сформируем иной граф E следующим образом:

    Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  9. Вопрос Де Брюйна 1946: голландский математик Николаас де Брюйн задаётся

    вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц? Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110). Николаас де Брюйн
  10. Вопрос Де Брюйна Де Брюйн ввёл специальный граф B(n, k):

    Вершины = все nk – 1 возможных (k – 1)-меров над n-буквенным алфавитом. Ребро идет из v в w, если есть k-мер, чей префикс = v, а суффикс = w. Справа приведен B(2, 4) Подразумевается алфавит {0, 1}
  11. Вопрос Де Брюйна При любых n и k, B(n, k)

    является сблансированным и связным, а значит, эйлеровым. Почему? Потому что входящая и исходящая степень каждой вершины равняется n — размеру алфавита. Красные числа показывают порядок рёбер в эйлеровом цикле.