Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Игорь Моисеев — Четыре всадника апокалипсиса A/B-тестирования из шести

Ozon Tech
February 01, 2023

Игорь Моисеев — Четыре всадника апокалипсиса A/B-тестирования из шести

Ozon Tech

February 01, 2023
Tweet

More Decks by Ozon Tech

Other Decks in Technology

Transcript

  1. 1. Использование U-критерия для проверки гипотезы о разности средних и

    медиан 2. Неправильный подход к анализу ratio-метрик 3. Ранняя остановка тестов без использования последовательного тестирования 4. Отсутствие поправок на множественное тестирование для зависимых гипотез
  2. Нулевая гипотеза - распределения двух выборок равны: H0: 𝐹𝑥(𝑡)=𝐹𝑦(𝑡) Альтернативная

    гипотеза - распределения двух выборок равны с точностью до определенного сдвига: H1 : 𝐹𝑥(𝑡)=𝐹𝑦(𝑡+Δ), Δ≠0
  3. Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует

    ли данный критерий нормального распределения данных? Теряет ли он мощность при скошенных данных?
  4. Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует

    ли данный критерий нормального распределения данных? Теряет ли он мощность при скошенных данных? Этап t-критерий U-критерий Ошибка I рода Ошибка II рода Ошибка I рода Ошибка II рода 1 0.051 0.200 0.051 0.217 2 0.051 0.199 0.049 0.218 3 0.047 0.193 0.050 0.209 Результаты A/A/B симуляций для нормального распределения 𝑁(1.82, 2.36) Этап t-критерий U-критерий Ошибка I рода Ошибка II рода Ошибка I рода Ошибка II рода 1 0.051 0.208 0.051 0 2 0.049 0.206 0.051 0 3 0.048 0.201 0.051 0 Результаты A/A/B симуляций для логнормального распределения 𝐿𝑜𝑔𝑛𝑜𝑟𝑚𝑎𝑙(1.82, 2.36)
  5. User ID GMV, руб. Orders, шт. 34252353545 1356 1 43354435465

    400 4 55656574677 3000 2 Total 4756 7 ARPU = (1356+2400+400+3000)/3=2385,3 AOV =4756/7 = 679,4 Ratio-метрика это метрика, состоящая из отношения сумм двух случайных величин
  6. Мы не можем посчитать ratio-метрику на пользователя, следовательно, мы не

    можем просто так оценить ее дисперсию и применить t-тест. Что же делать?
  7. Дельта-метод. Метод, позволяющий вычислить дисперсию ratio-метрики следующим образом: Линеаризация. Переход

    к пользовательской метрике через другое признаковое пространство, по сути, являющийся перевешиванием пользователей по вкладу в ratio-метрику. Осуществляется по формуле:
  8. Проверим, проверяют ли методы одну и ту же гипотезу. Если

    это так, то их дельты и p- value должны быть идеально со-направлены, образуя диагональную линию.
  9. Группа A User ID GMV, руб. Orders, шт. AOV, user_average

    34252353545 1356 1 1356 43354435465 400 4 100 55656574677 3000 2 1500 AOV / AOV user_average 679,42 985,3 User ID GMV, руб. Orders, шт. AOV, user_average 4543643636 2000 5 400 4653657577 3456 7 493,7 3414356565 7645 5 1529 AOV / AOV user_average 770,65 807,56 Группа B Δ𝐴𝑂𝑉𝐵−𝐴 𝑢𝑠𝑒𝑟 𝑎𝑣𝑒𝑟𝑎𝑔𝑒 = 807,56 – 985,3 = - 177,8 Δ𝐴𝑂𝑉𝐵−𝐴 𝑐𝑙𝑎𝑠𝑠𝑖𝑐 = 770,65 – 679,42 = 91,2
  10. Проведение A/B-тестов — это дорогостоящее занятие. Мало того, что сами

    проводимые изменения могут требовать значительных затрат, так еще и существует вероятность того, что эти изменения могут отрицательно сказаться на клиентах, что снизит их лояльность. Не удивительно, что у всех появляется желание пораньше закончить эксперимент, когда результат, кажется, достиг наших ожиданий до срока остановки теста.
  11. Ранняя остановка тестов обычно приводит к многократному росту ошибки I

    рода. Проведем симуляцию с A/A-тестами и проверим, что будет, если останавливать эксперимент тогда, когда мы по мере поступления данных, впервые обнаружили стат. значимую разность средних.
  12. mSPRT (mixture sequential probability ratio test) - наиболее продвинутая версия

    последовательного тестирования. Метод не требует, в отличии от классического SPRT, конкретного значения 𝜃 1 Авторы замечательной статьи Peeking at A/B Tests предложили следующую реализацию mSPRT:
  13. При множественном тестировании мы хотим узнать, есть ли среди тестируемых

    нами гипотез те, что приводят к изменению метрик. • Нулевая гипотеза: наше изменение не приводит к значимым отличиям в метриках. • Альтернативная гипотеза состоит в том, что изменение действительно дает нам улучшение в метриках. Следовательно, нужно оценивать FWER: FWER = 1 - (1-α)m
  14. В случае, когда мы сравниваем группу A и B по

    множеству метрик, гипотезы являются зависимыми, потому что мы считаем метрики на одних и тех же данных. Причины, по которым не работают классические методы: 1. Парадокс применения классических поправок на множественное тестирование 2. Выбросы в эффектах при верной H0