Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Как оценить эффективность контент-продукта, есл...

Zhanna
July 09, 2024
1.1k

Как оценить эффективность контент-продукта, если страшно проводить A/B-тест?

Zhanna

July 09, 2024
Tweet

More Decks by Zhanna

Transcript

  1. Что нужно, чтобы аналитика продукта работала? Логирование событий в приложении

    / сайте Определение метрик продукта Дэшборды Продвинутая аналитика (А/Б, рисерчи) Исследовать продукт – это круто, но стоит ли вообще тратить ресурсы на это? Ключевой вопрос: приносит ли продукт профит компании? Done ✔
  2. Попытка №1 – атрибуцировать продажи к просмотру контента В чем

    суть атрибуции: 1. Пользователь провзаимодействовал с продуктом (например, полка рекомендаций) 2. Купил товар, который предлагали в продукте 3. Считаем, что покупка совершена благодаря тому самому продукту 4. ??? 5. PROFIT
  3. Результаты применения атрибуции к продуктам Дискавери Плюсы: • Получили инструмент

    для сравнения продуктов между собой • Можем наблюдать динамику эффективности продуктов Минусы: • Не можем воспринимать атрибуцированные деньги как реальный доход • Невозможно сравнивать эффективность Дискавери с остальными продуктами
  4. Попытка №2. Сравнение денежных и конверсионных метрик активных пользователей Мы

    знаем, что активные пользователи дискавери – лояльные, совершают много покупок и часто заходят в приложение (source: trust me bro) Гипотеза: дискавери-контентом мотивирует пользователей качественнее использовать приложение Задача: сравнить активных пользователей дискавери с теми, кто с контентом почти не взаимодействует, по следующим метрикам: • ARPU • Добавления в избранное на пользователя • Добавления в корзину на пользователя
  5. Что с чем сравниваем? Неактивные юзеры, но смотрели контент дискавери

    Активные юзеры + смотрели контент дискавери Неактивные юзеры и не смотрели контент дискавери Активные юзеры, но не смотрели контент дискавери Частота заходов на Ламода (в днях) Частота заходов в Дискавери (в %) 33% и более Менее 33% Для начала нужно определить, кто такие активные пользователи дискавери (N активных дней с заходом в дискавери) / (N активных дней) >= 33% – вывели экспертно Хотим сравнить
  6. Как выравнивали выборки Осталось лишь выровнять получившиеся выборки… ДО ПОСЛЕ

    А выровнять их решили только по одной метрике – количество активных дней Инструмент – простой мэтчинг
  7. Итого – получили по всем исследуемым метрикам юзеры дискавери лучше

    :) +122% добавлений в избранное +17% добавлений в корзину +22% к доходу на юзера
  8. Попытка №3. Как Discovery влияет на Retention пользователей? Гипотеза: пользователи,

    которые активно пользуются Discovery контентом, больше вдохновляются покупками/одеждой => больше заходят в приложение Конкретная гипотеза: если пользователь активно заходил в раздел Дискавери в первые 30 дней, то он с большей вероятностью вернется через месяц Давай по-новой, Миша Сима
  9. Методы оценки причинности Сила доказательства С помощью предиктивной модели формируем

    синтетический контроль Синтетический контроль, Causal impact Описательный анализ
  10. Методы оценки причинности Сила доказательства Квазиэксперимент – сравниваем естественные группы

    без рандомизированного разделения PSM, Diff in Diff и т.п. С помощью предиктивной модели формируем синтетический контроль Синтетический контроль, Causal impact Описательный анализ
  11. Методы оценки причинности Сила доказательства Классический или байесовский А/Б тесты

    Квазиэксперимент – сравниваем естественные группы без рандомизированного разделения PSM, Diff in Diff и т.п. С помощью предиктивной модели формируем синтетический контроль Синтетический контроль, Causal impact Описательный анализ
  12. Propensity Score Matching (PSM) – в чем его смысл? PSM

    позволяет подобрать к исследуемой группе (тест) максимально похожую (псевдоконтроль) с единственным отличием – отсутствием тритмента (то есть группы отличаются между собой только наличием исследуемого признака) Генерим propensity score 92% 71% 56% 85% 47% 63% 38% 55% 67% 79% 80% 72% 11% 21% 8% Мэтчинг 92% 80% 85% 71% 63% 56% 47% 79% 72% 67% 55% 38% 21% 11% 1. Выделяем юзеров с тритментом 2. Выбираем фичи, по которым определяем свойства юзеров 3. Строим модель оценки вероятности попадания юзера в тестовую группу - генерим propensity score 4. Мэтчим пользователей по полученным propensity score
  13. Выбор фичей Качественных метрик юзера (пример – гендер/возраст) у нас

    нет Решили взять следующие метрики: • Факт регистрации на сайте/приложении • Длительность сессий • Количество заказов • Количество активных дней Также исключили новичков, которые пользуются Ламодой в веб формате, т.к.: 1. Точек входа в дискавери на вебе значительно меньше, чем в аппах 2. Новичком на вебе стать в разы проще - достаточно просто очистить кэш в браузере
  14. Моделирование Для моделирования propensity score потестили 3 инструмента и сравнили

    их точность: • Логистическая регрессия (используется чаще всего) • LightGBM • CatBoostRegressor точность модели Самая точная модель из всех, выбрали ее
  15. Мэтчинг Есть два варианта мэтчинга: • С заменой (для разных

    юзеров с тритментом может подобраться один и тот же юзер из “контроля”) • Без замены (1 к 1) – выбрали этот вариант Для того, чтобы подобранные юзеры были максимально друг на друга похожи, ограничили радиус поиска в ¼ стандартного отклонения propensity score 92% 80% 85% 71% 63% 56% 47% 79% 72% 67% 55% 38% 21% 11% 8% 47% 46% 99%
  16. Валидация. Оценка баланса ковариат Баланс оцениваем с помощью Standard Mean

    Difference (SMD) session_duration orders is_customer active_days 0.0 0.1 0.2 0.3 0.4 0.5 SMD Если SMD < 0.1, то ковариаты сбалансированы
  17. Все еще есть прокрасы на 2 из 4 метрик Валидация.

    Смотрим прокрасы после мэтчинга feature p-value num_orders 0.01 dt 2.7e-15 is_customer 0.25 session_duration 0.086
  18. Валидация. Какая доля юзеров из тритмента смогла замэтчиться Мэтчинг по

    propensity score может срезать большое количество пользователей из тритмента, но нам важна репрезентативность выборки Before After Доля оставшихся юзеров после мэтчинга, % ##### ##### 7.8% Срезается большая часть выборки :(
  19. PSM. Выводы Что получили в результате применения PSM: • Сбалансировались

    ковариаты ✅ • По 2/4 метрикам между группами осталось стат значимое отличие 🚫 • Срезалось больше 80% юзеров из тритмента 🚫 Кажется, нам нужен другой инструмент :(
  20. Может быть выбрать что-нибудь попроще? cos(𝜃) - чем больше значение,

    тем ближе вектора друг к другу user_1 = (feature_1, feature_2) user_2 = (feature_1, feature_2) feature_1 feature_2 user_1 user_2 𝜃 Можно попробовать косинусное расстояние!
  21. Валидация. Какая доля юзеров из тритмента смогла замэтчиться [2] Before

    After Доля оставшихся юзеров после мэтчинга, % ##### ##### 62.3% Намного лучше, чем PSM!
  22. Тест кол-во новичков вернулось в 1-й месяц Diff Контроль #####

    ##### +2 п.п. Так что в итоге с ретеншеном? Зеленый прокрас!
  23. Заключение Общие итоги Получилось доказать потенциальную пользу продукта для компании

    Результаты исследований убедили менеджмент на проведение классического А/Б тест, его уже задизайнили, осталось только запустить Какие выводы я сделала для себя Нужно больше пушить менеджеров на проведение классических А/Б тестов, даже если они сильно сопротивляются, ведь на исследования тратится довольно много ресурсов Иногда проще – лучше. PSM – сильный инструмент, однако его нужно использовать с осторожностью, часто он бывает неприменим для определенной выборки