Эффективное А/Б-тестирование

Виталий Полшков, Аналитик-разработчик Эффективное А/Б тестирование

Вводная про А/Б тесты Эффективное А/Б тестирование 01 Выбор метрик
02 Ошибки в анализе экспериментов 03 Выводы и рекомендации 04

01 Вводная про А/Б тесты Напоминание про механизм А/Б-тестирования

А/Б тесты 1

02 Выбор метрик Почему он важен и как не сделать
неправильный

Ранжирование заданий: позиция взятия 2

Не только среднее 3

Не только среднее › Медиана 3

Не только среднее › Медиана › Квантили 3

Не только среднее › Медиана › Квантили › Меры разброса
(e.g. дисперсия, IQR, энтропия) 3

Не только среднее › Медиана › Квантили › Меры разброса
(e.g. дисперсия, IQR, энтропия) › Ratio-метрики 3

Корректный замер достоверности 4

03 Ошибки в анализе экспериментов Как избежать неверного толкования результатов
А/Б-теста

› Хотим замерить эффект фичи, случайно разбиваем 50/50 5

› Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича
необычная: боимся за «ядро» — самую лояльную аудиторию 5

необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже 5

необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) 5

необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение 5

необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение › Хорошо, что не выкатывали на половину лояльных! 5

необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение › Хорошо, что не выкатывали на половину лояльных! Неравномерный отбор в эксперимент 5

Неравномерный отбор в эксперимент A B loyal other 6

Неравномерный отбор в эксперимент A B loyal other 99/1 (594
vs 6) 50/50 (500 vs 500) 6

Неравномерный отбор в эксперимент A B loyal other 0.4 0.6
99/1 (594 vs 6) 50/50 (500 vs 500) 6

Неравномерный отбор в эксперимент A B loyal 0.8 0.9 other
0.4 0.6 99/1 (594 vs 6) 50/50 (500 vs 500) 6

Неравномерный отбор в эксперимент A B loyal 0.8 0.9 other
0.4 0.6 99/1 (594 vs 6) 50/50 (500 vs 500) 0.617 0.604 6

Неравномерный отбор в эксперимент › Давайте на тачах побольше долю:
там меньше людей 7

там меньше людей › Две недели — долго, давайте вести десять дней 7

там меньше людей › Две недели — долго, давайте вести десять дней › … 7

› Проводим эксперимент 8

› Проводим эксперимент › Обсчитываем интересующие метрики и отдельно —
их же в срезе по активным пользователям сервиса 8

их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! 8

их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! › Решаем не внедрять фичу 8

Некорректный замер достоверности › Проводим эксперимент › Обсчитываем интересующие метрики
и отдельно — их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! › Решаем не внедрять фичу 8

Некорректный замер достоверности 9

› Средняя позиция взятия Некорректный замер достоверности 11

› Средняя позиция взятия › Средняя стоимость выполненного задания Некорректный
замер достоверности 11

› Средняя позиция взятия › Средняя стоимость выполненного задания ›
Средняя длина сессии Некорректный замер достоверности 11

› Средняя позиция взятия › Средняя стоимость выполненного задания ›
Средняя длина сессии › … Некорректный замер достоверности 11

04 Выводы и рекомендации Что делать, чтобы извлекать пользу из
экспериментов

Хорошо планировать, корректно обсчитывать 13

Хорошо планировать, корректно обсчитывать › Аккуратно выбирать метрики и интерпретировать
их изменения 13

их изменения › Правильно разбивать пользователей и замерять стат. значимость 13

их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик 13

их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик › A/A-тесты, в частности и особенности — синтетические 13

их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик › A/A-тесты, в частности и особенности — синтетические › Пул полезных исторических экспериментов 13

Обзавестись инфраструктурой 14

Обзавестись инфраструктурой Подвергнуть автоматизации всё, что ей несложно поддаётся: •
планирование и подготовку к запуску • мониторинги • обсчёты • ... 14

планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. 14

планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. И тщательно всё логируйте! 14

планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. И тщательно всё логируйте! *только не перебирайте 50 оттенков цвета кнопки помните про долю случайных покрасов 14

Эффективное А/Б-тестирование

Эффективное А/Б-тестирование

More Decks by Cogwheelhead

Other Decks in Technology

Featured

Transcript