Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Об актуальных потребностях обработки больших данных в биоинформатике

SECR 2018
October 13, 2018

Об актуальных потребностях обработки больших данных в биоинформатике

SECR 2018
Иван Короткий
СПбГУ

Биоинформатика находится в лидерах по масштабу используемых данных, среди её методов можно выделить секвенирование, которое широко используется в науке и медицине, а значит там существуют проблемы которые связаны с обработкой данных, которые в данный момент по классификации переходят в объём big data. Мы предлагаем использовать базы данных, в обработке биоинформатических данных из-за того, что никто не пытался их тут применить, а отрасль как раз переходит в то состояние где требуются подходы нового поколения.

В выступлении будет раскрыта ситуация в долгосрочной перспективе. Доклад не требует начальных знаний для посещения.

SECR 2018

October 13, 2018
Tweet

More Decks by SECR 2018

Other Decks in Programming

Transcript

  1. Актуально просто изучить предметную область Чтобы проверить оптимальность конфигурации надо

    провести эксперимент Даже провести эксперимент - уже проблема и это не так тривиально Опыт не дает гарантий, что будет эффективно Лучший способ это сделать - изучать какую- то проблему вкупе с основной работой.
  2. Введение 1 Геном - последовательность нуклеотидов размером 3 ГБ за

    одно его считывание В каждом считывании есть ошибки Вопрос о избыточности информации в геноме не решен т.е. им занимаются до сих пор (см проект ENCODE)
  3. Ведение 2 Формат BAM/SAM - стандарт, но при его разработке

    не задумывались о масштабировании Есть региональные базы данных созданные группами стран (ENSEMBL, GENBANK, ENTREZ) Основные задачи - выровнять строку на данные из этой базы. Это сложно из-за ошибок секвенатора Алгоритмы есть, но ими очень часто не пользуются т.к. методы на основе математической статистики практичнее, хоть и менее точные
  4. Наши направления работы Декомпозиция BAM/SAM до состояния загрузки в реляционную

    БД Прототип уровня одной больницы с которым можно экспериментировать Загрузка в базу данных - очень медленная операция, скорость чтения из неоптимизированной базы эквивалентна с чтением из файлов
  5. Наши направления работы Полная замена файлов базами данных возможна, но

    это стоит памяти (!!на данный момент!!) Однако замена перспективна из-за перехода на оптимизатор SQL запросов Частичная замена методом выделения промежуточных таблиц с частотными характеристиками более интересна
  6. Возможности, на которые стоит взглянуть Применение кластерных решений в процессе

    обработки учитывая, что данные статичные Интеграция с HDFS