Slide 1

Slide 1 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストとサンプルサイズ 日本経済新聞社 酒井優行(Masayuki Sakai) 2024/12/[email protected] 2024 1


Slide 2

Slide 2 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 酒井 優行(Masayuki Sakai) 2
 自己紹介 これまで 仕事 私事 学部→SIerで法人営業→大学院→新聞社でデータ活用 データ基盤開発・分析部署でDSやってます 2歳の子どもの育児に奔走中・テニス始めたい

Slide 3

Slide 3 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Point A/AテストはA/Bテストの分割の品質評価に用いる A/Aテストでt検定を用いるケースを例に、サンプルサイズも考慮した 方が良いよ、という点を実験結果を交えて紹介 A/Aテストするときには、サンプルサイズにも気をつけよう 3
 今日の発表で伝えたいこと 発表の流れ 1. A/Aテストの概要 2. A/Aテストとサンプルサイズ 3. まとめ

Slide 4

Slide 4 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテスト概要 4

Slide 5

Slide 5 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Bテストの流れ 5
 A/Aテスト概要 AとBのKPIの差を検証 A: 施策を当てる B: 何もしない ユーザーを分割 ※理想はランダム 施策を実施 効果検証

Slide 6

Slide 6 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテスト=A/Bテストの分割の品質確認 6
 A/Aテスト概要 A: 施策を当てる B: 何もしない 分割は適切か? 施策を実施 効果検証 AとBのKPIの差を検証

Slide 7

Slide 7 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Bのグループに対する期待 7
 A/Aテスト概要 AとBのグループのKPIが期待値の意味で同じことを期待 A/Aテストでここを確かめたい

Slide 8

Slide 8 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストの流れ 8
 A/Aテスト概要 AとA’の差を検証 A: 何もしない A’: 何もしない 分割は適切か? 施策を実施 しない 検証

Slide 9

Slide 9 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. KPIに対して検定を行った時のp値が一様分布しているか? 9
 A/Aテストで確認したいこと ※「同じ分布から得られた2群の平均に対するt検定のp値は一様分布に従う」の理論的な背景は本発表では割愛します。 やりたいこと 利用する性質 方法 AとBのグループのKPIが期待値の意味で同じことを確かめたい 同一分布から得た2群の平均のt検定のp値は一様分布に従う ブートストラップでp値の分布を確認

Slide 10

Slide 10 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストとサンプルサイズ 10

Slide 11

Slide 11 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 標準正規分布    からMサンプルのグループを2つ生成 シミュレーション用のデータを生成し、A/Aテストを実行するまで 11
 A/Aテストのシミュレーションの流れ データ生成 リサンプリング t検定 各グループからサンプルサイズKでリサンプリング リサンプリングした2群のデータを利用してt検定を行なう

Slide 12

Slide 12 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 2グループのデータを用いて ブートストラップにより繰り返しt検定を行い、p値をサンプリングする 以下をI回繰り返す 1. データからサンプルサイズNでサンプリング 2. t検定を行なう 3. p値を得る 12
 A/Aテストの実行 → ブートストラップでp値の分布を確認 【分布を確認】  p値のサンプルを用いてヒストグラムを描く

Slide 13

Slide 13 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ほぼ一緒の分布にも関わらずp値の分布が偏るケースが確認される → サンプルサイズが大きく微小な差に過敏に反応していた 13
 A/Aテストの結果:サンプルサイズを調整しない場合 😢 p値が0に偏るケースがある ✍ サンプルサイズが大きいケースで発生 🤔 微小な差に敏感になっている 💡 適切なサンプルサイズを決める必要 N=100 N=1,000 N=10,000

Slide 14

Slide 14 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 2グループのデータを用いて ブートストラップにより繰り返しt検定を行い、p値をサンプリングする 以下をI回繰り返す 1. データからサンプルサイズNでサンプリング 2. t検定を行なう 3. p値を得る 14
 A/Aテストの実行 → ブートストラップでp値の分布を確認 【分布を確認】  p値のサンプルを用いてヒストグラムを描く

Slide 15

Slide 15 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 検出したい効果量  ・検出力 ・有意水準 を決め、 適切なサンプルサイズN’を計算する 必要なサンプルサイズを見積もるステップを追加する 15
 A/Aテストの実行 ※ サンプルサイズの詳細については参考文献[2]を御覧ください 「2群の平均のt検定」のサンプルサイズ近似 以下をI回繰り返す 1. データからサンプルサイズN’でサンプリング 2. t検定を行なう 3. p値を得る

Slide 16

Slide 16 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. サンプルサイズを調整することで、 意味のある効果量に着目したA/Aテストを行なうことができる 16
 A/Aテストの実行:サンプルサイズを調整した場合 😎 適切なサンプルサイズでテストを実行 👍 分布が一様分布に近いことを確認 Δ=0.1 N=1,570 Δ=0.5 N=63 Δ=1 N=16

Slide 17

Slide 17 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. まとめ 17

Slide 18

Slide 18 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストするときには、サンプルサイズにも気をつけよう A/Aテストやってみよう! 検定を行なう場合は、サンプルサイズにも気をつけよう! 18
 今日の発表で伝えたいこと ※サンプルコードはこちら(GitHubリポジトリ)

Slide 19

Slide 19 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Future Work ● Covariate Balancing Test → 重要な共変量のバランスをチェック ● Bayesian A/A Test → ベイズ的な方法の方が扱いやすい?? ● A/B Testing Tool → そもそもA/Bテストツールも欲しい? 19
 展望

Slide 20

Slide 20 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 参考文献 [1] Kohavi, Ron, et al. "Trustworthy online controlled experiments: Five puzzling outcomes explained." Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012. [2] 永田靖. "サンプルサイズの決め方". 朝倉書店, 2003年. [3] なぜAAテストにおけるp値は一様分布になるのか?. Zenn [4] Microsoft. "p-Values for Your p-Values: Validating Metric Trustworthiness by Simulated A/A Tests". 2020. 20
 Appendix

Slide 21

Slide 21 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. エンジニア組織やカルチャー・DS関連の取り組みについては こちらをご覧ください 21
 日本経済新聞社のエンジニア組織について 紹介資料 Blogs