CodeFest 2019. Сергей Быстрых (Plesk) — Как ускорить тесты в 10 раз и вернуть к ним доверие

Как ускорить тесты в 10 раз и вернуть к ним
доверие? Основано на личном опыте, все имена и события реальны Сергей Быстрых Руководитель отдела Tools & Infrastructure Plesk

Кто мы? 2 • 380 000 серверов • 11 000
000 сайтов 6% интернета* по web-серверам и активным сайтам * по данным NetCraft, февраль 2019

Кто мы? 3 Коробочный продукт • 20 лет на рынке
• 3 поддерживаемых версии • 20 операционных систем • ~ 1М строк кода на PHP C/C++, Python, Go, JavaScript

Кто мы? 4 Команда: • 24 Dev • 9 QA
• 6 Tools

Релиз цикл 5 ~ 1 год Preview Preview Preview Preview
RTM 10-15 итераций по 4 недели

Релиз цикл 6 - Хотим релиз каждый месяц! - А
можем?

Размеры бедствия 7 • Сборка билдов 3 раза в день
по расписанию

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций • Большинство тестов E2E

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций • Большинство тестов E2E • 16 часов на все тесты

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций • Большинство тестов E2E • 16 часов на все тесты • 2-6% упавшие тесты

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций • Большинство тестов E2E • 16 часов на все тесты • 2-6% упавшие тесты • 40 часов в неделю на разбор

по расписанию • Запуск тестов ежедневно и еженедельно по расписанию • 60 000 тестов • 80 конфигураций • Большинство тестов E2E • 16 часов на все тесты • 2-6% упавшие тесты • 40 часов в неделю на разбор НЕ МОЖЕМ!

Что нужно? 16

Что нужно? 17 БЫСТРО

Что нужно? 18 БЫСТРО НАДЕЖНО

Что нужно? 19 БЫСТРО НАДЕЖНО МНОГО* * все тесты на
каждый коммит

Первая мысль 20 Переписать!

Первая мысль 21 Переписать!

Закидай проблему деньгами 22

Закидай проблему деньгами 23 Получили: 1. Надежно Тесты продолжают падать

2. Много По-прежнему не можем прогнать всё на коммит

2. Много По-прежнему не можем прогнать всё на коммит 3. Быстрее и независимей

В поисках вечнозелёного 26 Что делать с flaky тестами?

В поисках вечнозелёного 27 Что делать с flaky тестами? ПЛАН:
1. Взять стабильную версию

1. Взять стабильную версию 2. Прогнать тесты

1. Взять стабильную версию 2. Прогнать тесты 3. Удалить упавшие тесты

1. Взять стабильную версию 2. Прогнать тесты 3. Удалить упавшие тесты 4. Повторить

В поисках вечнозелёного 31 Шла 2038 итерация…

В поисках вечнозелёного 32 Шла 2038 итерация… Мы продолжали удалять
тесты!

В поисках вечнозелёного 33 План не сработал! Причины: 1. Флакуют
не только тесты, но и общие компоненты

не только тесты, но и общие компоненты 2. Нестабильная инфраструктура

не только тесты, но и общие компоненты 2. Нестабильная инфраструктура 3. Успешные тесты могут порождать упавшие тесты

В поисках вечнозелёного 36 Получили: 1. Надежно Тесты продолжают падать

2. Достаточно быстро (1 час)

2. Достаточно быстро (1 час) 3. Меньше, но на каждый коммит

Ошибки прошлого 39 Сергей Быстрых Plesk Карантинная зона для автотестов:
повышение стабильности и уменьшение трудозатрат

Ошибки прошлого 40 Сергей Быстрых Plesk Карантинная зона для автотестов:
повышение стабильности и уменьшение трудозатрат Перезапуск ведет к накоплению технического долга!

Делаем выбор 41 Быстро? Надежно? Много?

Делаем выбор 42 Быстро? Надежно? Много? • Время на прогон
всех тестов – 1 час

всех тестов – 1 час • Фиксируем небольшой набор конфигураций и тестов

всех тестов – 1 час • Фиксируем небольшой набор конфигураций и тестов • Сосредотачиваемся на стабильности

Делаем выбор 45 Цель: упавший тест = баг в продукте
Быстро? Надежно! Много? • Время на прогон всех тестов – 1 час • Фиксируем небольшой набор конфигураций и тестов • Сосредотачиваемся на стабильности

Вовлекаем команду 46 Обязательно нужны: • Ментор • Евангелист •
Перформер

Вовлекаем команду 47

Вовлекаем команду 48 Мы поручили разработчикам разбирать результаты тестов!

Вовлекаем команду 49 Мы поручили разработчикам разбирать результаты тестов! Получили:
• Первую инструкцию «Как разбирать тесты»

• Первую инструкцию «Как разбирать тесты» • Первый воркшоп «Как запускать тесты»

• Первую инструкцию «Как разбирать тесты» • Первый воркшоп «Как запускать тесты» • Улучшенные инструменты разбора

• Первую инструкцию «Как разбирать тесты» • Первый воркшоп «Как запускать тесты» • Улучшенные инструменты разбора • Тесты начали чиниться

Консистентность: фиксируем всё 53 1. Тесты рядом с кодом

Консистентность: фиксируем всё 54 1. Тесты рядом с кодом 2.
Любое изменение в системе = коммит

Любое изменение в системе = коммит Неизвестное изменение демотивирует!

Любое изменение в системе = коммит 3. Выполни хотя бы пункт 1 Неизвестное изменение демотивирует!

Измеряем всё, что можем 57 Open Tracing Jaeger

Измеряем всё, что можем 58 Grafana Prometheus

Продолжаем вовлекать команду 59

Продолжаем вовлекать команду 60 Две самые частые реакции:

Продолжаем вовлекать команду 61 Это не моё! Две самые частые
реакции:

Продолжаем вовлекать команду 62 Это не моё! Две самые частые
реакции:

Настраиваем процессы 63 Максимально просто: • Дежурства

Настраиваем процессы 64 Максимально просто: • Дежурства • Анализ падений
(их уже мало)

(их уже мало) • Заведение багов на продукт/тесты

(их уже мало) • Заведение багов на продукт/тесты • Заполнение таблицы для обобщения причин падений

(их уже мало) • Заведение багов на продукт/тесты • Заполнение таблицы для обобщения причин падений Не очень: • Много ручной работы

(их уже мало) • Заведение багов на продукт/тесты • Заполнение таблицы для обобщения причин падений Не очень: • Много ручной работы • Нудная отчетность

(их уже мало) • Заведение багов на продукт/тесты • Заполнение таблицы для обобщения причин падений Не очень: • Много ручной работы • Нудная отчетность • Невозможно приоритизировать проблемы

Настраиваем процессы 70

Настраиваем процессы 71 Улучшенный процесс: • Договорились как отмечать

Настраиваем процессы 72 Улучшенный процесс: • Договорились как отмечать •
Всё обсуждение запуска в треде

Настраиваем процессы 73 Улучшенный процесс: • Договорились как отмечать •
Всё обсуждение запуска в треде • Ссылки на баги в треде

Первый ChatOps 74 Bot: • Анализирует сообщения из slack

Первый ChatOps 75 Bot: • Анализирует сообщения из slack •
Собирает статистику разборов

Собирает статистику разборов • Вставляет в jira bugs ссылки на запуски

Собирает статистику разборов • Вставляет в jira bugs ссылки на запуски • Приоритизирует список проблем

Собирает статистику разборов • Вставляет в jira bugs ссылки на запуски • Приоритизирует список проблем • Отслеживает активность инженеров

Хвалим 79

Хвалим 80

Хвастаемся 81

Лёд тронулся 82 • Меньше

Лёд тронулся 83 • Меньше • Почти нет «это не
моё»

моё» • Люди вовлекаются сами

моё» • Люди вовлекаются сами • Хочу так же, но до коммита

Где мы сейчас 86 SLA: 95%

Где мы сейчас 87 SLA: 95%

Где мы сейчас 88 SLA: 95% Цель не достигли, но
тесты ускорили и обуздали ~ 0,1% упавших тестов на запуск

Пройденный нами путь 89 1. Потратили деньги – купили железо

2. Выкинули нестабильные тесты

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов 8. Положили тесты рядом с кодом продукта

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов 8. Положили тесты рядом с кодом продукта 9. Научились измерять

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов 8. Положили тесты рядом с кодом продукта 9. Научились измерять 10. Настроили, затем улучшили процессы

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов 8. Положили тесты рядом с кодом продукта 9. Научились измерять 10. Настроили, затем улучшили процессы 11. Создали ChatOps

2. Выкинули нестабильные тесты 3. Перестали перезапускать тесты 4. Сосредоточились на стабильности тестов 5. Нашли ментора, евангелиста и перформера 6. Создали Pipeline 7. Поручили разработчикам разбирать результаты тестов 8. Положили тесты рядом с кодом продукта 9. Научились измерять 10. Настроили, затем улучшили процессы 11. Создали ChatOps 12. Научились хвалить и хвастаться

Сергей Быстрых Руководитель отдела Tools & Infrastructure Plesk Вопросы? sergey.bystrykh
www.plesk.com [email protected]

CodeFest 2019. Сергей Быстрых (Plesk) — Как уск...

CodeFest 2019. Сергей Быстрых (Plesk) — Как ускорить тесты в 10 раз и вернуть к ним доверие

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript