Slide 1

Slide 1 text

1 Confidential メルカリにおけるA/Bテスト標準化への取り組み 柳沼 慎哉(@yaginuuun) 2021/7/28, Retty ✕ Mercari Analyst Talk Night!

Slide 2

Slide 2 text

2 Confidential 自己紹介 ● 前職ではe-learning serviceのData Scientist ● メルカリではData Analystとして主にA/Bテスト周り、 推薦システムの改善を担当 ● 個人でPodcastをやっていたり ● よろしくお願いします! 柳沼 慎哉 Twitter: @yaginuuun

Slide 3

Slide 3 text

3 Confidential メルカリの分析チーム(JP Analytics) ※ テーマによってはチーム横断で取り組む場合も あり Growth Analytics Product Analytics Analytics Infra Product の改善施策の意思決定を主導する (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出) 事業戦略の意思決定を主導する (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める (KPIの標準化、分析基盤の整備、実験設計の標準化) 大きく3つのサブチームに分かれている

Slide 4

Slide 4 text

4 Confidential メルカリの分析チーム(JP Analytics) ※ テーマによってはチーム横断で取り組む場合も あり Growth Analytics Product Analytics Analytics Infra Product の改善施策の意思決定を主導する (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出) 事業戦略の意思決定を主導する (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める (KPIの標準化、分析基盤の整備、実験設計の標準化) 今日は Analytics Infra team における取り組みの話

Slide 5

Slide 5 text

5 Confidential 今日のテーマ:A/Bテストの標準化 Not 自動化 いわゆる Tech giant における Experimentation Platform の ようにA/Bテスト自動分析基盤作った、という話ではない But 標準化 施策評価者が統計的な検討事項やPitfallを考慮しつつ、一定以上 の品質でA/Bテストから信頼に足る結果を得、それを元に意思決定 できるようにする。

Slide 6

Slide 6 text

6 Confidential A/Bテスト(Randomized Controlled Trial) ● 世界中で使われている効果検証のゴールドスタンダード ● メルカリでもほとんどの変更がA/Bテストによって評価されている。 Control group Treatment group

Slide 7

Slide 7 text

7 Confidential Why 標準化? Experimentation Maturity Models(成熟モデル) Fly 04 ● 1000~ tests / year ● テスト集計が自動化されている ● ほぼ全ての変更時に A/Bテストが行われている Run 03 ● ~250 tests / year ● 評価基準が合意され、システマチックに意思決 定することができている Walk 02 ● ~50 tests / year ● 標準的な指標の定義ができている ● A/Bテスト結果の信頼性が確立されている Crawl 01 ● ~10 tests / year ● 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

Slide 8

Slide 8 text

8 Confidential Why 標準化? 完全な自動化は最終ステップ Fly 04 ● 1000~ tests / year ● テスト集計が自動化されている ● ほぼ全ての変更時に A/Bテストが行われている Run 03 ● ~250 tests / year ● 評価基準が合意され、システマチックに意思決 定することができている Walk 02 ● ~50 tests / year ● 標準的な指標の定義ができている ● A/Bテスト結果の信頼性が確立されている Crawl 01 ● ~10 tests / year ● 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

Slide 9

Slide 9 text

9 Confidential Why 標準化? 自動化よりも前にやることがある 
 Fly 04 ● 1000~ tests / year ● テスト集計が自動化されている ● ほぼ全ての変更時に A/Bテストが行われている Run 03 ● ~250 tests / year ● 評価基準が合意され、システマチックに意思決 定することができている Walk 02 ● ~50 tests / year ● 標準的な指標の定義ができている ● A/Bテスト結果の信頼性が確立されている Crawl 01 ● ~10 tests / year ● 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

Slide 10

Slide 10 text

10 Confidential A/Bテスト結果の信頼性 ● Sample Ratio Mismatch ● 多重比較 ● Power Analysis(サンプルサイズ設計) ● 評価指標選定 ● Cherry picking ● … A/Bテストはシンプルに見えて、その設計や評価において Pitfall がたくさんある。 
 メルカリにおいても、必ずしも適切に行われていたわけではなかった。 
 


Slide 11

Slide 11 text

11 Confidential ではどのように標準化を行う? Experiment design doc を中心としたA/Bテスト検証フローの整備 私たちが行ったこと


Slide 12

Slide 12 text

12 Confidential Experiment design doc を中心としたA/Bテスト検証フローの整備 ● A/Bテストの設計項目をテンプレート化 ● 同時にReviewプロセスも整備することで効果検証の質を担保する 具体的に


Slide 13

Slide 13 text

13 Confidential Experiment design doc を中心としたA/Bテスト検証フローの整備 ● A/Bテストの設計項目をテンプレート化 ● 同時にReviewプロセスも整備することで効果検証の質を担保する 今日は実際に運用しているテンプレートの各項目にフォーカスして紹介 


Slide 14

Slide 14 text

14 Confidential Contents: ● Background ● Test settings ● Metrics details ● How to evaluate metrics ● Action plan
 Experiment design doc A/Bテスト開始前に決めるべきことをテンプレート化

Slide 15

Slide 15 text

15 Confidential Contents: ● Background ● Test settings ● Metrics details ● How to evaluate metrics ● Action plan
 Experiment design doc 主要な部分について解説

Slide 16

Slide 16 text

16 Confidential Contents: ● Background ● Test settings ● Metrics details ● How to evaluate metrics ● Action plan
 Experiment design doc 主要な部分について解説

Slide 17

Slide 17 text

17 Confidential Experiment design doc - Background A/Bテストの背景となっている情報を記入する Objective テストを行う目的 Issue 解決したい問題 How to improve Issueを解決するために行う変更内容 Hypothesis その変更によってどのようにUX、ビジネスが 改善するのか

Slide 18

Slide 18 text

18 Confidential Contents: ● Background ● Test settings ● Metrics details ● How to evaluate metrics ● Action plan
 Experiment design doc 主要な部分について解説

Slide 19

Slide 19 text

19 Confidential Experiment design doc - Metrics Details 3種類の評価指標 Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

Slide 20

Slide 20 text

20 Confidential Experiment design doc - Metrics Details まずは Goal metrics についてもう少し詳しく Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

Slide 21

Slide 21 text

21 Confidential Goal metrics 典型的なECサイト上での購買を例に 1 訪問 検索 2 商品閲覧 3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate

Slide 22

Slide 22 text

22 Confidential Goal metrics 変更から遠い指標:変更による効果が途中のステップの中で希釈されてしまう。 1 訪問 検索 2 商品閲覧 3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate これは基本的に Goal metrics に設定しない

Slide 23

Slide 23 text

23 Confidential Goal metrics なるべく変更に近い位置を Goal metrics に置く 1 訪問 検索 2 商品閲覧 3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate

Slide 24

Slide 24 text

24 Confidential Experiment design doc - Metrics Details Guardrail metrics Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

Slide 25

Slide 25 text

25 Confidential Guardrail metrics 再び典型的なECサイト上での購買を例に 1 訪問 検索 2 商品閲覧 3 購入完了 N Search execute rate item view rate Purchase rate 例えばカート画面で執拗に購買を迫る変更

Slide 26

Slide 26 text

26 Confidential Guardrail metrics Pros カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い Cons 必要以上に購買を迫られる不信感から離反が増加してしまう可能性がある

Slide 27

Slide 27 text

27 Confidential Guardrail metrics Pros カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い Cons 必要以上に購買を迫られる不信感から離反が増加してしまう可能性がある リテンションなどを Guardrail metrics に設定して監視

Slide 28

Slide 28 text

28 Confidential Experiment design doc - Metrics Details 最後に Debugging metrics Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

Slide 29

Slide 29 text

29 Confidential Debugging metrics 意図通り とは ● 施した変更は十分に認知されているか? ● 何か予想外のバイアスが混入していないか?

Slide 30

Slide 30 text

30 Confidential Debugging metrics 施した変更は十分に認知されているか? 例:Goal metricsにもGuardrail metricsにも変化がなかった。 → そもそも認知が足りていなかっただけなのか、それとも本当に変更に効果がなかったのか判別 がつかない。 変更箇所の使用率を確認しておくことで切り分けが可能になる

Slide 31

Slide 31 text

31 Confidential Debugging metrics 何か予想外のバイアスが混入していないか? 主には Sample Ratio Mismatch (SRM) の確認 ● 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認 ● 適合度のカイ二乗検定などでチェックする Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.

Slide 32

Slide 32 text

32 Confidential Sample Ratio Mismatch (SRM) Skypeにおける実例 ● 通話音質向上を狙ったA/Bテスト ○ control: ネットワーク状況によらず固定のバッファリングパラメータ ○ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節 ● しかし、音質の悪化、再生遅延の増加というネガティブな結果に ● 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサン プルサイズが少ないことがわかった。→ SRMの発生 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.

Slide 33

Slide 33 text

33 Confidential Sample Ratio Mismatch (SRM) 何が起こっていたのか? 通話途中に variant の id が実際にアサインされたものから変わってしまうというバグが混入し ており、結果として、本当は treatment に割り当てられているはずの群がそのように記録され て いなかった。 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格 段に上げることができる。

Slide 34

Slide 34 text

34 Confidential Contents: ● Background ● Test settings ● Metrics details ● How to evaluate metrics ● Action plan
 Experiment design doc 主要な部分について解説

Slide 35

Slide 35 text

35 Confidential Experiment design doc - Action plan 指標の動き方による基本的な Next Action をあらかじめ合意しておく ● Good scenario: 基本的に Treatment を開放 ○ Goal metrics: Up ○ Guardrail metrics: Up or Flat ● Bad scenario: 基本的に Close ( = Control を開放) ○ Guardrail metrics: Down ● ... 終了した後になって試行錯誤してしまったり、 cherry picking してしまうことを防ぐ

Slide 36

Slide 36 text

36 Confidential まとめ A/Bテストの標準化を目指して Experiment design doc を中心としたワークフローを整備し た。 良かったこと ● Template のメリット ○ 書体が揃う → 過去のDocumentを読み解くコストが下がる ○ 検討項目の抜け漏れがなくなる ○ 話し合いをする板としての役割を果たしてくれる ● Review のメリット ○ A/Bテストの検証に慣れていないメンバーでも Pitfalls を避けつつ一定基準の質を保 ちつつ検証を行うことができる。

Slide 37

Slide 37 text

37 Confidential References ● Trustworthy Online Controlled Experiments - A Practical Guide to A/B Testing:A/Bテストについてはこの本を読めばOK ● A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは:上記の日 本語版 ● Top Challenges from the first Practical Online Controlled Experiments Summit:A/Bテスト関連の海外Tech企業の事例が豊富。特 に7章が今回の話題に近い ● 効果検証入門

Slide 38

Slide 38 text

38 Confidential We’re hiring !! ● シニアデータアナリスト ● データアナリスト (アーキテクト) ● データアナリスト (マーケット・リサーチャー) 詳細は mercari careers から Data Analytics で絞り込み!

Slide 39

Slide 39 text

39 Confidential おしまい ありがとうございました! この辺りの話、気になる方いらっしゃいましたらぜひ後ほどお話しましょう!