Upgrade to Pro — share decks privately, control downloads, hide ads and more …

白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_...

Taro Masuda
September 19, 2024
480

白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919

白金鉱業 Meetup Vol.15@六本木(効果検証)
https://brainpad-meetup.connpass.com/event/324913/
の登壇資料です。

Taro Masuda

September 19, 2024
Tweet

More Decks by Taro Masuda

Transcript

  1. 経験値ゼロから始める A/B テスト布教活動 と 意思決定に活かしやすい A/B テスト設計の一案 白金鉱業 Meetup Vol.15

    @六本木(効果検証) 日本経済新聞社 データサイエンティスト 増田太郎,西川凌
  2. 自己紹介:増田 太郎(ますだ たろう) 3 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •

    施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・      メンター・教育,他部署での A/B テスト設計のお手伝い
  3. • 日経では 各事業部=ユニット・室 にデータサイエンティスト (DS)が点在 → 👎 取り組み当初は縦割り感が強かった • 私のチームは

    BtoB ユニット内の複数プロダクト横断でデータ施策を 担当 前提知識:組織体制 5 情報サービス (BtoB) ユニット 社長 デジタル編成  (電子版)ユニット プラットフォー ム推進室 D S S W E 営 業 ・・・ D S S W E 営 業 ・・・ D S S W E ・・・ ・・・
  4. • A/B テスト導入以前 ◦ 👎チームメンバーが少なく,複数プロダクトから 降ってくる分析依頼に応える受動的な分析が多め • A/B テスト導入のきっかけ ◦

    👍チームメンバー増:西川さん(新入社員)の入社 ▪ 数理統計の素養もあり,入社してすぐ効果検証 の枠組み作りに協力いただくことに決定 ◦ 能動的な分析をプロダクト側に提案したくなった 社内的経緯・内発的動機 6
  5. A/B テスト布教活動の流れ 7 影響範囲 A/B テスト輪読会 社内ミートアップ 実験設計テンプレート制定 テスト実行 社外発信・PR

    社外 自チーム +他部署有志 社内全体の DS + ユニット長・専務 Web プロダクトを扱う 全ての部署
  6. • 知識ほぼゼロからスタート:まずはインプットから • 2022 年当時は「カバ本」を選定 ◦ 今なら「Python で学ぶ効果検証 入門」もオススメ •

    興味のある SWE / DS / PdM たちを 他部署でも巻き込んで開催 • (余談) ◦ 自主的な勉強も並行して実施 ▪ 西川さんと違って増田は統計学の知識もほぼゼロ → 統計検定 1 級の取得を目安に独学 A/B テスト輪読会 8
  7. • 👎 発表当番制 : 発表当番回と 非当番回の理解度にムラが出る • 👍 全員でコメント自由記入制 ◦

    読んでいて「勉強になったこと・分からなかったこと・ 納得できないこと」のメモを事前に記載 ◦ 当日はメモを上から読んでいって議論 ◦ 毎回当事者意識を全員が持って参加できる ◦ 各自が疑問に思ったこと・引っかかったことの議論にフォーカス できるため時間の使い方が効率的 ▪ 自明なことの説明に時間を食わない 輪読会の運営方針 9
  8. A/B テスト布教活動の流れ 10 影響範囲 A/B テスト輪読会 社内ミートアップ 実験設計テンプレート制定 テスト実行 社外発信・PR

    社外 自チーム +他部署有志 社内全体の DS + ユニット長・専務 Web プロダクトを扱う 全ての部署
  9. • A/B テスト輪読会 → DS 関連の取り 組みが社内で点在しているのもった いなくない?という課題感から企画 • 各部署のデータサイエンス関連の

    取り組みを持ち回りで紹介 • 懇親会の費用拠出を専務に直談判 • 事業部長クラスも巻き込んでトーク • 社内で顔が売れる →他部署の A/B テスト設計のお手  伝いをして経験値を一気に積めた 社内組織横断型のミートアップの開催 11
  10. A/B テスト布教活動の流れ 12 影響範囲 A/B テスト輪読会 社内ミートアップ 実験設計テンプレート制定 テスト実行 社外発信・PR

    社外 自チーム +他部署有志 社内全体の DS + ユニット長・専務 Web プロダクトを扱う 全ての部署
  11. • メルカリさんのブログを大いに参照 ◦ メルカリにおけるA/Bテスト標準 化への取り組み|Mercari Analytics Blog • Notion テンプレートを作成して

    部署を超えて配布,普及を促す ◦ 分かりにくい・書きにくい項目に ついてフィードバックを貰い改訂 ▪ 実行フェーズに改定例あり 実験設計テンプレートの制定 13
  12. A/B テスト布教活動の流れ 14 影響範囲 A/B テスト輪読会 社内ミートアップ 実験設計テンプレート制定 テスト実行 社外発信・PR

    社外 自チーム +他部署有志 社内全体の DS + ユニット長・専務 Web プロダクトを扱う 全ての部署
  13. • 特に初期は DS が伴走する必要あり • 👎 事前の意思決定ルールの詰めが甘い部分で反省・失敗も ◦ 例:複数のドライバーメトリクスのうち一部だけが   有意に改善した時の

    OK / NG の判断が曖昧だった    → テンプレートに項目追加 実行フェーズで得られた教訓 16 ビジネス上の損失との トレードオフ →小さな案件の成功から そもそも指標が測定できるか 損失 効果
  14. A/B テスト布教活動の流れ 18 影響範囲 A/B テスト輪読会 社内ミートアップ 実験設計テンプレート制定 テスト実行 社外発信・PR

    社外 自チーム +他部署有志 社内全体の DS + ユニット長・専務 Web プロダクトを扱う 全ての部署
  15. • ベイジアン A/B テスト(発表後半)の 内容でブログ執筆 • 技術部門の紹介動画に出演 • 結果 ◦

    👍 採用に好影響:カジュアル面談 等で「ブログ読みました!」と 声をかけていただく場面が増えた ◦ 👎 連合大会など統計系のコミュニ ティではまだまだ知名度が低い, 今後もPRを続けたい 社外発信・PR 19 We are hiring!
  16. • 経験値ゼロから A/B テストを全社的に布教した事例を紹介 • 月並みだがエッセンスは協力的な他者を巻き込むこと ◦ 輪読会やミートアップで部署間の連携を高める • 大失敗を回避するための設計テンプレートの布教が有効

    ◦ プロダクト側と伴走して記入 ↔ テンプレ改定 のループ • まだ道半ばですが,A/B テストに限らず, 社内で布教活動をしたい全ての皆様の参考に 少しでもなっていたら嬉しいです. まとめ 20
  17. ①利益を定める ②尤度を 決める ③事前分布を 決める ④事後分布で 意思決定 A/B テストを「意思決定」に活かす 28

    尤度(クリック数が従う分布)の例 • 二項分布 ◦ n: 広告表示回数 ◦ p: クリック率  
  18. ①利益を定める ②尤度を 決める ③事前分布を 決める ④事後分布で 意思決定 A/B テストを「意思決定」に活かす 29

    事前分布(データを見る前のクリック率の分布)の例 • ベータ分布 ◦ ベータ分布の例として、広告 A, B 共に
  19. ①利益を定める ②尤度を 決める ③事前分布を 決める ④事後分布で 意思決定 A/B テストを「意思決定」に活かす 30

    事後分布(クリック率が従う分布)の例 • ベータ分布 ◦ 広告 A: 100 回クリック/300 回表示   ◦ 広告 B: 50 回クリック/250 回表示 n: クリックされた数 m: クリックされなかった数 a, b: 事前分布のパラメータ
  20. ①利益を定める ②尤度を 決める ③事前分布を 決める ④事後分布で 意思決定 A/B テストを「意思決定」に活かす 31

        広告 A (8 円/1 クリック) 利益の期待値 約 53,000 円 広告 B (10 円/1 クリック) 利益の期待値 約 20,000 円 1 万回広告を表示すると 広告 A に 決定! クリック率
  21. • 実験の途中までで集まったデータを使って中間的な分析を 行うとする • そのとき、以下の判断が必要になる ◦ このまま実験を継続するかどうかの判断 ◦ 継続するとしたらいつまで続けるか •

    これも、「利益の期待値の最大化(コストの最小化)」と いう一貫したフレームワークで意思決定することができる 実験計画の設計 32
  22. • サンプルサイズは大きすぎても小さすぎてもデメリット ◦ 大きすぎるとデータ取得のコストがかかる ▪ 例)A/B テストを実施している日数分、実施コスト ◦ 小さすぎると推定を誤るリスクがある ▪

    例)間違えてクリック率の低い方の広告を採用してし まうと、損失がある • 上記の両方を考慮した損失関数を設計する ◦ 損失 = (-1) × 利益 実験継続の決定のトレードオフ 33
  23. • 以下のようにコストを定める(あくまで一例) ◦ : サンプルサイズ (各群) ◦ : 群を選ぶ意思決定 ◦

     : A 群、B 群のそれぞれのクリック率 ◦   : A 群を選ぶ、B 群を選ぶ行動 ◦   : 1 個体の取得コスト, : 間違えて A/B 群を選んだ損失 損失関数の設定 34 1 個体を 取得するコスト 群の選択を 間違えたコスト
  24. • A/B 各群 n 個まで取ってこれた。各群もう n 個ずつ取るか決めたい。 ◦ 上のコストの方が小さかったら追加で取る (参考)「コストの比較」を式で書くと

    36 今までの A/B 各群 n 個で 追加のサンプルを 予測 追加で各群 n 個取った時の 損失 追加サンプルの予想で 期待値を取る クリック率の予測事後分布で 期待値を取る 群をうまく 決める 追加で 取る場合 止める 場合
  25. 実際のシミュレーション例 37 追加サンプルサイズ(各群) コ ス ト の 大 き さ

    コストの合計 群を間違える コスト サンプル取得コスト 最適値 今実験途中で、あと何サンプル 取るのが最適か? A 群: 5回/10回 B 群: 5回/10回
  26. 実際のシミュレーション例  38 追加サンプルサイズ(各群) コ ス ト の 大 き さ

    コストの合計 群を間違える コスト サンプル取得コスト これ以上続けても あまり変わらず、 しばらく経つと上昇傾向 A 群:95回/200回 B 群:100回/200回  他は前と同じ設定
  27. • 赤平 昌文, 小池 健一. 統計的逐次推定論. 共立出版 (2022) ◦ ベイズを使わず頻度論で

    A/B テストをやる場合に ついても実験計画についての意思決定が記してあり、 おすすめ ◦ 今回の発表のように、検出力の観点だけでなく サンプル取得コストについて記載 参考文献 40