白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919

Slide 1

Slide 1 text

経験値ゼロから始める A/B テスト布教活動と意思決定に活かしやすい A/B テスト設計の一案白金鉱業 Meetup Vol.15 @六本木（効果検証）日本経済新聞社データサイエンティスト増田太郎，西川凌

Slide 2

Slide 2 text

経験値ゼロから始める A/B テスト布教活動

Slide 3

Slide 3 text

自己紹介：増田太郎（ますだたろう） 3 ● 日経で BtoB Web サービスの分析を担うデータサイエンティスト ● 施策の効果を数値化することに興味 ○ A/B テストやベイズ統計モデリング ● 取得称号・資格 ○ Kaggle Master，統計検定 1 級， Google Cloud PDE ● 趣味兼宣伝 ○ Kaggler などデータサイエンス界隈で楽しむ，ゆるフットサル⚽ ● 業務内容：チームリーダーとしてメンバーの分析結果のレビュー・　　　　　メンター・教育，他部署での A/B テスト設計のお手伝い

Slide 4

Slide 4 text

● 「Pythonで学ぶ効果検証入門」が愛読書！ ● 実際に社内ミートアップで布教したスライドがこちら　→ アイスブレイク 4

Slide 5

Slide 5 text

● 日経では各事業部＝ユニット・室にデータサイエンティスト（DS）が点在 → 👎 取り組み当初は縦割り感が強かった ● 私のチームは BtoB ユニット内の複数プロダクト横断でデータ施策を担当前提知識：組織体制 5 情報サービス (BtoB) ユニット社長デジタル編成　 (電子版)ユニットプラットフォーム推進室 D S S W E 営業・・・ D S S W E 営業・・・ D S S W E ・・・・・・

Slide 6

Slide 6 text

● A/B テスト導入以前 ○ 👎チームメンバーが少なく，複数プロダクトから降ってくる分析依頼に応える受動的な分析が多め ● A/B テスト導入のきっかけ ○ 👍チームメンバー増：西川さん（新入社員）の入社 ■ 数理統計の素養もあり，入社してすぐ効果検証の枠組み作りに協力いただくことに決定 ○ 能動的な分析をプロダクト側に提案したくなった社内的経緯・内発的動機 6

Slide 7

Slide 7 text

A/B テスト布教活動の流れ 7 影響範囲 A/B テスト輪読会社内ミートアップ実験設計テンプレート制定テスト実行社外発信・PR 社外自チーム＋他部署有志社内全体の DS + ユニット長・専務 Web プロダクトを扱う全ての部署

Slide 8

Slide 8 text

● 知識ほぼゼロからスタート：まずはインプットから ● 2022 年当時は「カバ本」を選定 ○ 今なら「Python で学ぶ効果検証入門」もオススメ ● 興味のある SWE / DS / PdM たちを他部署でも巻き込んで開催 ● （余談） ○ 自主的な勉強も並行して実施 ■ 西川さんと違って増田は統計学の知識もほぼゼロ → 統計検定 1 級の取得を目安に独学 A/B テスト輪読会 8

Slide 9

Slide 9 text

● 👎 発表当番制 : 発表当番回と非当番回の理解度にムラが出る ● 👍 全員でコメント自由記入制 ○ 読んでいて「勉強になったこと・分からなかったこと・納得できないこと」のメモを事前に記載 ○ 当日はメモを上から読んでいって議論 ○ 毎回当事者意識を全員が持って参加できる ○ 各自が疑問に思ったこと・引っかかったことの議論にフォーカスできるため時間の使い方が効率的 ■ 自明なことの説明に時間を食わない輪読会の運営方針 9

Slide 10

Slide 10 text

A/B テスト布教活動の流れ 10 影響範囲 A/B テスト輪読会社内ミートアップ実験設計テンプレート制定テスト実行社外発信・PR 社外自チーム＋他部署有志社内全体の DS + ユニット長・専務 Web プロダクトを扱う全ての部署

Slide 11

Slide 11 text

● A/B テスト輪読会 → DS 関連の取り組みが社内で点在しているのもったいなくない？という課題感から企画 ● 各部署のデータサイエンス関連の取り組みを持ち回りで紹介 ● 懇親会の費用拠出を専務に直談判 ● 事業部長クラスも巻き込んでトーク ● 社内で顔が売れる →他部署の A/B テスト設計のお手　伝いをして経験値を一気に積めた社内組織横断型のミートアップの開催 11

Slide 12

Slide 12 text

A/B テスト布教活動の流れ 12 影響範囲 A/B テスト輪読会社内ミートアップ実験設計テンプレート制定テスト実行社外発信・PR 社外自チーム＋他部署有志社内全体の DS + ユニット長・専務 Web プロダクトを扱う全ての部署

Slide 13

Slide 13 text

● メルカリさんのブログを大いに参照 ○ メルカリにおけるA/Bテスト標準化への取り組み｜Mercari Analytics Blog ● Notion テンプレートを作成して部署を超えて配布，普及を促す ○ 分かりにくい・書きにくい項目についてフィードバックを貰い改訂 ■ 実行フェーズに改定例あり実験設計テンプレートの制定 13

Slide 14

Slide 14 text

A/B テスト布教活動の流れ 14 影響範囲 A/B テスト輪読会社内ミートアップ実験設計テンプレート制定テスト実行社外発信・PR 社外自チーム＋他部署有志社内全体の DS + ユニット長・専務 Web プロダクトを扱う全ての部署

Slide 15

Slide 15 text

● 全社展開したテンプレートを元に効果検証の枠組みが普及 ○ 自部署でもテンプレートに忠実に従いテストを設計 ■ 初期の頃から大きな失敗はしなくなった ○ 後出しで「リリース済の新規機能の効果測定して」と言われる悲しい事象が減ったテスト実行 15

Slide 16

Slide 16 text

● 特に初期は DS が伴走する必要あり ● 👎 事前の意思決定ルールの詰めが甘い部分で反省・失敗も ○ 例：複数のドライバーメトリクスのうち一部だけが　　有意に改善した時の OK / NG の判断が曖昧だった　　　→　テンプレートに項目追加実行フェーズで得られた教訓 16 ビジネス上の損失とのトレードオフ →小さな案件の成功からそもそも指標が測定できるか損失効果

Slide 17

Slide 17 text

(参考) 事例: 記事推薦メールの文面変更 17 目的：記事推薦メールの CTR 向上内容：メールのタイトル・本文の冒頭それぞれにおいて　　　記事タイトルを見せるなど複数の変更候補を一度に A/B テスト効果：最も良い組み合わせにおいては CTR が 20% 向上 Before After

Slide 18

Slide 18 text

A/B テスト布教活動の流れ 18 影響範囲 A/B テスト輪読会社内ミートアップ実験設計テンプレート制定テスト実行社外発信・PR 社外自チーム＋他部署有志社内全体の DS + ユニット長・専務 Web プロダクトを扱う全ての部署

Slide 19

Slide 19 text

● ベイジアン A/B テスト（発表後半）の内容でブログ執筆 ● 技術部門の紹介動画に出演 ● 結果 ○ 👍 採用に好影響：カジュアル面談等で「ブログ読みました！」と声をかけていただく場面が増えた ○ 👎 連合大会など統計系のコミュニティではまだまだ知名度が低い，今後もPRを続けたい社外発信・PR 19 We are hiring!

Slide 20

Slide 20 text

● 経験値ゼロから A/B テストを全社的に布教した事例を紹介 ● 月並みだがエッセンスは協力的な他者を巻き込むこと ○ 輪読会やミートアップで部署間の連携を高める ● 大失敗を回避するための設計テンプレートの布教が有効 ○ プロダクト側と伴走して記入 ↔ テンプレ改定のループ ● まだ道半ばですが，A/B テストに限らず，社内で布教活動をしたい全ての皆様の参考に少しでもなっていたら嬉しいです．まとめ 20

Slide 21

Slide 21 text

意思決定に活かしやすい A/B テスト設計の一案

Slide 22

Slide 22 text

● データサイエンティスト 3 年目 ● モデリングなどを通じてデータから示唆を与えるお仕事 ● 学部は経済で企業財務のゼミ ● 修士は工学で、確率シミュレーション ● 働き始めてからは、ベイズ統計に主な興味自己紹介: 西川　凌 (にしかわ　りょう) 22

Slide 23

Slide 23 text

● 「利益の期待値の最大化（損失の最小化）」という一貫したフレームワークで意思決定を行うことができる方法を紹介 ● 今回は、このフレームワークで以下を行う ○ A 案，B 案どちらを採用するかという意思決定 ○ そもそもの実験計画の策定 A/B テストを「意思決定」に活かす 23

Slide 24

Slide 24 text

● 利益の期待値を比較したい ● 以下のステップに従って意思決定を行う (ベイズ推論) ①　利益/損失を定める　　 ②　尤度関数を決める ③　事前分布を決める　 ④　データから事後分布を計算、意思決定！ A 群, B 群の「利益」の比較方法 24

Slide 25

Slide 25 text

● どちらの広告を出した方がより利益が取れるか？問題設定の例 25

Slide 26

Slide 26 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 26

Slide 27

Slide 27 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 27 広告の場合 ● 広告 A：8 円/ 1 クリック　 ● 広告 B：10 円/ 1 クリック

Slide 28

Slide 28 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 28 尤度(クリック数が従う分布)の例 ● 二項分布 ○ n: 広告表示回数 ○ p: クリック率　

Slide 29

Slide 29 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 29 事前分布(データを見る前のクリック率の分布)の例 ● ベータ分布 ○ ベータ分布の例として、広告 A, B 共に

Slide 30

Slide 30 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 30 事後分布(クリック率が従う分布)の例 ● ベータ分布 ○ 広告 A: 100 回クリック/300 回表示　 ○ 広告 B: 50 回クリック/250 回表示 n: クリックされた数 m: クリックされなかった数 a, b: 事前分布のパラメータ

Slide 31

Slide 31 text

①利益を定める ②尤度を決める ③事前分布を決める ④事後分布で意思決定 A/B テストを「意思決定」に活かす 31 　　　広告 A (8 円/1 クリック) 利益の期待値約 53,000 円広告 B (10 円/1 クリック) 利益の期待値約 20,000 円 1 万回広告を表示すると広告 A に決定！クリック率

Slide 32

Slide 32 text

● 実験の途中までで集まったデータを使って中間的な分析を行うとする ● そのとき、以下の判断が必要になる ○ このまま実験を継続するかどうかの判断 ○ 継続するとしたらいつまで続けるか ● これも、「利益の期待値の最大化（コストの最小化）」という一貫したフレームワークで意思決定することができる実験計画の設計 32

Slide 33

Slide 33 text

● サンプルサイズは大きすぎても小さすぎてもデメリット ○ 大きすぎるとデータ取得のコストがかかる ■ 例）A/B テストを実施している日数分、実施コスト ○ 小さすぎると推定を誤るリスクがある ■ 例)間違えてクリック率の低い方の広告を採用してしまうと、損失がある ● 上記の両方を考慮した損失関数を設計する ○ 損失＝ (-1) × 利益実験継続の決定のトレードオフ 33

Slide 34

Slide 34 text

● 以下のようにコストを定める（あくまで一例） ○ : サンプルサイズ (各群) ○ : 群を選ぶ意思決定 ○ 　: A 群、B 群のそれぞれのクリック率 ○ 　 : A 群を選ぶ、B 群を選ぶ行動 ○ 　 : 1 個体の取得コスト， : 間違えて A/B 群を選んだ損失損失関数の設定 34 1 個体を取得するコスト群の選択を間違えたコスト

Slide 35

Slide 35 text

● 続けるかどうかは、「続けた後最適行動をした時のコスト」と、「現時点で止めた時の最適行動をした時のコスト」を現時点のデータから予測し、比較することで判断する。 ● 詳細については、参考文献を参照どのように判断 35

Slide 36

Slide 36 text

● A/B 各群 n 個まで取ってこれた。各群もう n 個ずつ取るか決めたい。 ○ 上のコストの方が小さかったら追加で取る (参考)「コストの比較」を式で書くと 36 今までの A/B 各群 n 個で追加のサンプルを予測追加で各群 n 個取った時の損失追加サンプルの予想で期待値を取るクリック率の予測事後分布で期待値を取る群をうまく決める追加で取る場合止める場合

Slide 37

Slide 37 text

実際のシミュレーション例 37 追加サンプルサイズ(各群) コストの大きさコストの合計群を間違えるコストサンプル取得コスト最適値今実験途中で、あと何サンプル取るのが最適か？ A 群： 5回/10回 B 群： 5回/10回

Slide 38

Slide 38 text

実際のシミュレーション例　 38 追加サンプルサイズ(各群) コストの大きさコストの合計群を間違えるコストサンプル取得コストこれ以上続けてもあまり変わらず、しばらく経つと上昇傾向 A 群：95回/200回 B 群：100回/200回　他は前と同じ設定

Slide 39

Slide 39 text

● 「利益の期待値の最大化（損失の最小化）」という一貫したフレームワークで意思決定を行う方法を紹介 ● 今回は、このフレームワークで以下を説明した ○ A 案，B 案どちらを採用するかという意思決定 ○ そもそもの実験計画の策定まとめ 39

Slide 40

Slide 40 text

● 赤平昌文, 小池健一. 統計的逐次推定論. 共立出版 (2022) ○ ベイズを使わず頻度論で A/B テストをやる場合についても実験計画についての意思決定が記してあり、おすすめ ○ 今回の発表のように、検出力の観点だけでなくサンプル取得コストについて記載参考文献 40