Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Эффективное А/Б-тестирование

Эффективное А/Б-тестирование

Слайды доклада про А/Б-эксперименты с Yandex Data Driven 2019
https://youtu.be/4sG40hyQ7WI?list=PLQC2_0cDcSKCw0yiUgk-Ts93-Hm1jEZIi

Cogwheelhead

October 19, 2019
Tweet

More Decks by Cogwheelhead

Other Decks in Technology

Transcript

  1. Вводная про А/Б тесты Эффективное А/Б тестирование 01 Выбор метрик

    02 Ошибки в анализе экспериментов 03 Выводы и рекомендации 04
  2. Не только среднее › Медиана › Квантили › Меры разброса

    (e.g. дисперсия, IQR, энтропия) › Ratio-метрики 3
  3. Не только среднее › Медиана › Квантили › Меры разброса

    (e.g. дисперсия, IQR, энтропия) › Ratio-метрики 3
  4. Не только среднее › Медиана › Квантили › Меры разброса

    (e.g. дисперсия, IQR, энтропия) › Ratio-метрики 3
  5. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию 5
  6. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже 5
  7. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) 5
  8. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение 5
  9. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение › Хорошо, что не выкатывали на половину лояльных! 5
  10. › Хотим замерить эффект фичи, случайно разбиваем 50/50 › Фича

    необычная: боимся за «ядро» — самую лояльную аудиторию › Но хотим замерять эффект и на них тоже › Выкатываем на маленькую долю лояльных (99/1) › По результатам эксперимента метрики показывают ухудшение › Хорошо, что не выкатывали на половину лояльных! Неравномерный отбор в эксперимент 5
  11. Неравномерный отбор в эксперимент A B loyal 0.8 0.9 other

    0.4 0.6 99/1 (594 vs 6) 50/50 (500 vs 500) 0.617 0.604 6
  12. Неравномерный отбор в эксперимент › Давайте на тачах побольше долю:

    там меньше людей › Две недели — долго, давайте вести десять дней 7
  13. Неравномерный отбор в эксперимент › Давайте на тачах побольше долю:

    там меньше людей › Две недели — долго, давайте вести десять дней › … 7
  14. › Проводим эксперимент › Обсчитываем интересующие метрики и отдельно —

    их же в срезе по активным пользователям сервиса 8
  15. › Проводим эксперимент › Обсчитываем интересующие метрики и отдельно —

    их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! 8
  16. › Проводим эксперимент › Обсчитываем интересующие метрики и отдельно —

    их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! › Решаем не внедрять фичу 8
  17. Некорректный замер достоверности › Проводим эксперимент › Обсчитываем интересующие метрики

    и отдельно — их же в срезе по активным пользователям сервиса › Метрики по активным пользователям показывают ухудшение! › Решаем не внедрять фичу 8
  18. › Средняя позиция взятия › Средняя стоимость выполненного задания ›

    Средняя длина сессии Некорректный замер достоверности 11
  19. › Средняя позиция взятия › Средняя стоимость выполненного задания ›

    Средняя длина сессии › … Некорректный замер достоверности 11
  20. Хорошо планировать, корректно обсчитывать › Аккуратно выбирать метрики и интерпретировать

    их изменения › Правильно разбивать пользователей и замерять стат. значимость 13
  21. Хорошо планировать, корректно обсчитывать › Аккуратно выбирать метрики и интерпретировать

    их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик 13
  22. Хорошо планировать, корректно обсчитывать › Аккуратно выбирать метрики и интерпретировать

    их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик › A/A-тесты, в частности и особенности — синтетические 13
  23. Хорошо планировать, корректно обсчитывать › Аккуратно выбирать метрики и интерпретировать

    их изменения › Правильно разбивать пользователей и замерять стат. значимость В помощь: › Метрики «гигиены данных», метрики для метрик › A/A-тесты, в частности и особенности — синтетические › Пул полезных исторических экспериментов 13
  24. Обзавестись инфраструктурой Подвергнуть автоматизации всё, что ей несложно поддаётся: •

    планирование и подготовку к запуску • мониторинги • обсчёты • ... 14
  25. Обзавестись инфраструктурой Подвергнуть автоматизации всё, что ей несложно поддаётся: •

    планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. 14
  26. Обзавестись инфраструктурой Подвергнуть автоматизации всё, что ей несложно поддаётся: •

    планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. И тщательно всё логируйте! 14
  27. Обзавестись инфраструктурой Подвергнуть автоматизации всё, что ей несложно поддаётся: •

    планирование и подготовку к запуску • мониторинги • обсчёты • ... Так можно проводить много экспериментов*, эффективно отслеживать их состояние, быстро проводить процедуры валидации, и при этом не убиваться. И тщательно всё логируйте! *только не перебирайте 50 оттенков цвета кнопки помните про долю случайных покрасов 14