Slide 1

Slide 1 text

Что такое биоинформатика? - математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика). - разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). - исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.

Slide 2

Slide 2 text

ДНК

Slide 3

Slide 3 text

Синтез белка

Slide 4

Slide 4 text

Краткая история секвенирования генома 2000-е: расшифровывается всё большее число геномов млекопитающих.

Slide 5

Slide 5 text

Секвенирование генома: иллюстрация Много копий генома

Slide 6

Slide 6 text

Секвенирование генома: иллюстрация Много копий генома Чтение ридов

Slide 7

Slide 7 text

Секвенирование генома: иллюстрация Много копий генома Риды Чтение ридов

Slide 8

Slide 8 text

Секвенирование генома: иллюстрация Много копий генома Риды Чтение ридов Сборка фрагментов

Slide 9

Slide 9 text

Секвенирование генома: иллюстрация Много копий генома Риды Собранный геном …GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC… Чтение ридов Сборка фрагментов

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

Секвенирование сложнее задачи о газете • В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения). • Пример: GCTT встречается четыре раза в строке AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG • Аналогия: треугольный пазл содержит множество повторяющихся фигур. Это сильно затрудняет его решение (даже с 16 кусочками).

Slide 12

Slide 12 text

ДНК-чипы: реализация 1. Синтезировать все k-меры в каждой из 4k ячеек матрицы. 2. Покрыть матрицу многими копиями флуоресцентно помеченного фрагмента неизвестной ДНК. 3. ДНК гибридизирует с k-мером, если они дополняют друг друга. 4. Использовать спектроскоп, чтобы определить, какие ячейки излучают свет — дополнения к этим ячейкам выявят k-меры неизвестного фрагмента ДНК. Это и есть искомые риды!

Slide 13

Slide 13 text

ДНК-чипы: иллюстрация

Slide 14

Slide 14 text

ДНК-чипы: пример Прочитанные риды: AAA AGA CAA CGA GAA GGA TAA TGA AAC AGC CAC CGC GAC GGC TAC TGC AAG AGG CAG CGG GAG GGG TAG TGG AAT AGT CAT CGT GAT GGT TAT TGT ACA ATA CCA CTA GCA GTA TCA TTA ACC ATC CCC CTC GCC GTC TCC TTC ACG ATG CCG CTG GCG GTG TCG TTG ACT ATT CCT CTT GCT GTT TCT TTT

Slide 15

Slide 15 text

Первый подход: граф H Создадим в графе H вершины, соответствующие всем k-мерам, найденным с помощью ДНК-чипа. Префикс — это первые k – 1 нуклеотидов k- мера (CAA) Суффикс — последние k – 1 нуклеотидов k- мера(CAA) Разные 3-меры могут иметь общий префикс/суффикс: ATG, TGA, CTG ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Slide 16

Slide 16 text

Гамильтонов цикл в графе H В графе H есть гамильтонов цикл: ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Slide 17

Slide 17 text

Гамильтонов цикл в графе H В графе H есть гамильтонов цикл: • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG ATGGCGTGCAATG Геном: A T G G C G T G C A

Slide 18

Slide 18 text

Второй подход: граф E Сформируем иной граф E следующим образом: Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды

Slide 19

Slide 19 text

Второй подход: граф E Сформируем иной граф E следующим образом: Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

Slide 20

Slide 20 text

Вопрос Де Брюйна 1946: голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц? Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110). Николаас де Брюйн

Slide 21

Slide 21 text

Вопрос Де Брюйна Де Брюйн ввёл специальный граф B(n, k): Вершины = все nk – 1 возможных (k – 1)-меров над n-буквенным алфавитом. Ребро идет из v в w, если есть k-мер, чей префикс = v, а суффикс = w. Справа приведен B(2, 4) Подразумевается алфавит {0, 1}

Slide 22

Slide 22 text

Вопрос Де Брюйна При любых n и k, B(n, k) является сблансированным и связным, а значит, эйлеровым. Почему? Потому что входящая и исходящая степень каждой вершины равняется n — размеру алфавита. Красные числа показывают порядок рёбер в эйлеровом цикле.