Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Log-Structured SiLo, Евгений Анастасиев, Рэйдикс, CEE-SECR 2017

CEE-SECR
October 21, 2017

Log-Structured SiLo, Евгений Анастасиев, Рэйдикс, CEE-SECR 2017

Важной задачей для облачной инфраструктуры является снижение стоимости хранения данных. Одной из наиболее известных технологий для экономии места, благодаря которой снижается стоимость хранения, является дедупликация.

В докладе представлен эффективный метод комбинирования технологий выборочного индекса дедупликации и лог-структурированной записи, позволяющий использовать дедупликацию «на лету» без значительного снижения производительности. Помимо обзора технологии SiLo-подхода в докладе представлены экспериментальные результаты по степени дедупликации и производительности случайной записи в сочетании с лог-структурированной записью и отдельно от нее.

Доклад адресован широкой IT-аудитории, в частности, специалистам по хранению данных и облачным вычислениям, сотрудникам IT-служб, инженерам по разработке ПО.

Рекомендовано для слушателей со средним уровнем подготовки.

CEE-SECR

October 21, 2017
Tweet

More Decks by CEE-SECR

Other Decks in Technology

Transcript

  1. October 2017, St. Petersburg Software Engineering Conference Russia October 2017,

    St. Petersburg Software Engineering Conference Russia Log-Structured SiLo Евгений Анастасиев
  2. О чем речь? Дедупликация – технология экономии места за счет

    того, что на СХД не записываются одинаковые данные «У меня в нортоне слева C: и справа C:, зачем мне два одинаковых? Один нужно удалить!» 1
  3. Какая дедупликация бывает Файловая • На уровне файлов • Не

    работает для файлов с небольшими отличиями Блочная • На уровне бинарных блоков памяти • Как правило, обеспечивает большую экономию места • Требует больше метаданных 2
  4. Блочная дедупликация • Получаем данные • Считаем хэш • Проверяем

    совпадения • Создаем записи в таблицах метаданных 3
  5. Решение проблемы метаданных: SiLo • Выборочное индексирование • Почти все

    метаданные – на дисках • По мере необходимости их подгружаем 5
  6. Решение проблемы производительности • Лог-структурированная запись • Неактуальные данные помечаются

    и дефрагментируются • Скорость случайной записи возрастает в десятки раз 9
  7. Результаты: метаданные в RAM 10 0 1000 2000 3000 4000

    5000 6000 7000 0% 25% 50% 75% 100% Требуется хранить в RAM, MB Степень дедупликации данных Standard SiLo+LS