геномике (геномная биоинформатика). - разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). - исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.
много повторяющихся подстрок (50% человеческого генома — повторения). • Пример: GCTT встречается четыре раза в строке AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG • Аналогия: треугольный пазл содержит множество повторяющихся фигур. Это сильно затрудняет его решение (даже с 16 кусочками).
ячеек матрицы. 2. Покрыть матрицу многими копиями флуоресцентно помеченного фрагмента неизвестной ДНК. 3. ДНК гибридизирует с k-мером, если они дополняют друг друга. 4. Использовать спектроскоп, чтобы определить, какие ячейки излучают свет — дополнения к этим ячейкам выявят k-меры неизвестного фрагмента ДНК. Это и есть искомые риды!
всем k-мерам, найденным с помощью ДНК-чипа. Префикс — это первые k – 1 нуклеотидов k- мера (CAA) Суффикс — последние k – 1 нуклеотидов k- мера(CAA) Разные 3-меры могут иметь общий префикс/суффикс: ATG, TGA, CTG ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
цикл: • ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG ATGGCGTGCAATG Геном: A T G G C G T G C A
Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
Вершины = все префиксы и суффиксы всех k-меров. Соединим вершины v и w ориентированным ребром, если есть k-мер, в котором префикс — это v, а суффикс — это w. CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц? Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110). Николаас де Брюйн
Вершины = все nk – 1 возможных (k – 1)-меров над n-буквенным алфавитом. Ребро идет из v в w, если есть k-мер, чей префикс = v, а суффикс = w. Справа приведен B(2, 4) Подразумевается алфавит {0, 1}
является сблансированным и связным, а значит, эйлеровым. Почему? Потому что входящая и исходящая степень каждой вершины равняется n — размеру алфавита. Красные числа показывают порядок рёбер в эйлеровом цикле.