Игорь Моисеев — Четыре всадника апокалипсиса A/B-тестирования из шести

Ozon Tech 2023 Игорь Моисеев, R&D tech lead A/B-testing

•Занимаюсь развитием методологии A/B тестирования •Отвечаю за методологию многоруких бандитов
MAB и CMAB •Развиваю Causal inference (Uplift модели и т.д.)

1. Использование U-критерия для проверки гипотезы о разности средних и
медиан 2. Неправильный подход к анализу ratio-метрик 3. Ранняя остановка тестов без использования последовательного тестирования 4. Отсутствие поправок на множественное тестирование для зависимых гипотез

Хочешь поссориться с аналитиком? Поговори с ним про политику, про
религию или про критерий Манна-Уитни.

Нулевая гипотеза - распределения двух выборок равны: H0: 𝐹𝑥(𝑡)=𝐹𝑦(𝑡) Альтернативная
гипотеза - распределения двух выборок равны с точностью до определенного сдвига: H1 : 𝐹𝑥(𝑡)=𝐹𝑦(𝑡+Δ), Δ≠0

Проведем симуляцию из 10000 A/A тестов, сэмплируя из 𝑁(0,10) и
𝑁(0,100)

Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует
ли данный критерий нормального распределения данных? Теряет ли он мощность при скошенных данных?

Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует
ли данный критерий нормального распределения данных? Теряет ли он мощность при скошенных данных? Этап t-критерий U-критерий Ошибка I рода Ошибка II рода Ошибка I рода Ошибка II рода 1 0.051 0.200 0.051 0.217 2 0.051 0.199 0.049 0.218 3 0.047 0.193 0.050 0.209 Результаты A/A/B симуляций для нормального распределения 𝑁(1.82, 2.36) Этап t-критерий U-критерий Ошибка I рода Ошибка II рода Ошибка I рода Ошибка II рода 1 0.051 0.208 0.051 0 2 0.049 0.206 0.051 0 3 0.048 0.201 0.051 0 Результаты A/A/B симуляций для логнормального распределения 𝐿𝑜𝑔𝑛𝑜𝑟𝑚𝑎𝑙(1.82, 2.36)

User ID GMV, руб. Orders, шт. 34252353545 1356 1 43354435465
400 4 55656574677 3000 2 Total 4756 7 ARPU = (1356+2400+400+3000)/3=2385,3 AOV =4756/7 = 679,4 Ratio-метрика это метрика, состоящая из отношения сумм двух случайных величин

Мы не можем посчитать ratio-метрику на пользователя, следовательно, мы не
можем просто так оценить ее дисперсию и применить t-тест. Что же делать?

Дельта-метод. Метод, позволяющий вычислить дисперсию ratio-метрики следующим образом: Линеаризация. Переход
к пользовательской метрике через другое признаковое пространство, по сути, являющийся перевешиванием пользователей по вкладу в ratio-метрику. Осуществляется по формуле:

Проверим, проверяют ли методы одну и ту же гипотезу. Если
это так, то их дельты и p- value должны быть идеально со-направлены, образуя диагональную линию.

Группа A User ID GMV, руб. Orders, шт. AOV, user_average
34252353545 1356 1 1356 43354435465 400 4 100 55656574677 3000 2 1500 AOV / AOV user_average 679,42 985,3 User ID GMV, руб. Orders, шт. AOV, user_average 4543643636 2000 5 400 4653657577 3456 7 493,7 3414356565 7645 5 1529 AOV / AOV user_average 770,65 807,56 Группа B Δ𝐴𝑂𝑉𝐵−𝐴 𝑢𝑠𝑒𝑟 𝑎𝑣𝑒𝑟𝑎𝑔𝑒 = 807,56 – 985,3 = - 177,8 Δ𝐴𝑂𝑉𝐵−𝐴 𝑐𝑙𝑎𝑠𝑠𝑖𝑐 = 770,65 – 679,42 = 91,2

Проведение A/B-тестов — это дорогостоящее занятие. Мало того, что сами
проводимые изменения могут требовать значительных затрат, так еще и существует вероятность того, что эти изменения могут отрицательно сказаться на клиентах, что снизит их лояльность. Не удивительно, что у всех появляется желание пораньше закончить эксперимент, когда результат, кажется, достиг наших ожиданий до срока остановки теста.

Ранняя остановка тестов обычно приводит к многократному росту ошибки I
рода. Проведем симуляцию с A/A-тестами и проверим, что будет, если останавливать эксперимент тогда, когда мы по мере поступления данных, впервые обнаружили стат. значимую разность средних.

mSPRT (mixture sequential probability ratio test) - наиболее продвинутая версия
последовательного тестирования. Метод не требует, в отличии от классического SPRT, конкретного значения 𝜃 1 Авторы замечательной статьи Peeking at A/B Tests предложили следующую реализацию mSPRT:

Если не знаешь что делать, делай бутстрап

При множественном тестировании мы хотим узнать, есть ли среди тестируемых
нами гипотез те, что приводят к изменению метрик. • Нулевая гипотеза: наше изменение не приводит к значимым отличиям в метриках. • Альтернативная гипотеза состоит в том, что изменение действительно дает нам улучшение в метриках. Следовательно, нужно оценивать FWER: FWER = 1 - (1-α)m

В случае, когда мы сравниваем группу A и B по
множеству метрик, гипотезы являются зависимыми, потому что мы считаем метрики на одних и тех же данных. Причины, по которым не работают классические методы: 1. Парадокс применения классических поправок на множественное тестирование 2. Выбросы в эффектах при верной H0

Построим с помощью бутстрапа критерий, который позволит нам определить, случайно
ли прокрасились метрики или нет

Полезные ссылки

Шесть причин, почему ваши A/B-тесты не работают

Игорь Моисеев — Четыре всадника апокалипсиса A/...

Игорь Моисеев — Четыре всадника апокалипсиса A/B-тестирования из шести

Ozon Tech

More Decks by Ozon Tech

Other Decks in Technology

Featured

Transcript

Ozon Tech 2023 Игорь Моисеев, R&D tech lead A/B-testing

•Занимаюсь развитием методологии A/B тестирования •Отвечаю за методологию многоруких бандитов

1. Использование U-критерия для проверки гипотезы о разности средних и

Хочешь поссориться с аналитиком? Поговори с ним про политику, про

Нулевая гипотеза - распределения двух выборок равны: H0: 𝐹𝑥(𝑡)=𝐹𝑦(𝑡) Альтернативная

Проведем симуляцию из 10000 A/A тестов, сэмплируя из 𝑁(0,10) и

Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует

Проверим еще один миф, но теперь про t-критерий Стьюдента. Требует

User ID GMV, руб. Orders, шт. 34252353545 1356 1 43354435465

Мы не можем посчитать ratio-метрику на пользователя, следовательно, мы не

Дельта-метод. Метод, позволяющий вычислить дисперсию ratio-метрики следующим образом: Линеаризация. Переход

Проверим, проверяют ли методы одну и ту же гипотезу. Если

Группа A User ID GMV, руб. Orders, шт. AOV, user_average

Проведение A/B-тестов — это дорогостоящее занятие. Мало того, что сами

Ранняя остановка тестов обычно приводит к многократному росту ошибки I

mSPRT (mixture sequential probability ratio test) - наиболее продвинутая версия

Если не знаешь что делать, делай бутстрап

При множественном тестировании мы хотим узнать, есть ли среди тестируемых

В случае, когда мы сравниваем группу A и B по

Построим с помощью бутстрапа критерий, который позволит нам определить, случайно

Полезные ссылки

Шесть причин, почему ваши A/B-тесты не работают