ABテスト入門
by
ShinU
×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
AB テスト入門 しんゆう @data_analyst_ 2025/05/26
Slide 2
Slide 2 text
本資料の目的 AB テストは広く使われているが、誤った使い方をされがち 本資料では、AB テストを正しく使いこなすための基本を初心 者向けに解説する 設計・実行・結果の読み方まで一通りを網羅的に説明する 2
Slide 3
Slide 3 text
筆者紹介 しんゆう X (旧Twitter ) :@data_analyst_ ブログ:データ分析とインテリジェンス 2023 年よりnote にて活動中 https://note.com/shinu 主な活動:データを使いやすくする人。たまにデータを分析 して意思決定のための情報を作る人 3
Slide 4
Slide 4 text
AB テストとは何か AB テストは「どちらの施策がより良い結果を出すか」を、実際の ユーザー行動を通じて検証する方法。単なる“ 結果の比較” ではな く、 「なぜその差が出たか」 「次にどう活かすか」を読み解く力が 問われる 4
Slide 5
Slide 5 text
AB テストの定義 現状の施策(コントロール群)に対して、新たな案(実験群) を提示し効果を比較する手法 ランダムにユーザーを2 群に分け、各群の行動指標(例: CVR )を比較する 結果の差が偶然かどうかを統計検定を用いて判断する 5
Slide 6
Slide 6 text
なぜAB テストなのか データ分析を行う理由は、未来のことはわからないから。分 析を行って予測することで不確実性を低めようとしている AB テストであれば実際に試すことができるので、データから の予測よりも信頼性が高い判断が可能になる 6
Slide 7
Slide 7 text
AB テストの設計 設計段階での意思決定がテスト結果の信頼性を左右する。特に 「何を測るか」 「どれだけ集めるか」は慎重に設定する必要がある 7
Slide 8
Slide 8 text
設計のポイント 成果指標と中間指標を明確に分ける サンプルサイズは効果量・検出力・有意水準を基に設計 観察対象や目的ごとに、必要な精度を見積もる 8
Slide 9
Slide 9 text
成果指標と中間指標を作る理由 成果指標だけでは「なぜ効いたか」が見えない 成果指標:最終目的(例:CVR 、購入率) 中間指標:開封率、クリック率、遷移率など クーポン施策の設計ミス例 CVR 改善が見られたが、何が効いたかが不明 割引率、文面、配信時間のいずれが効いたか不明では再現性が ない 9
Slide 10
Slide 10 text
サンプルサイズを決める要因 期待効果量:どれくらいの差が実務上意味あると考えるかの 目安 有意水準:偶然による差とみなす確率の上限(通常は5% ) 検出力:本当に差があるときにそれを検出できる確率(一般 に80% 以上が目安) 10
Slide 11
Slide 11 text
サンプルサイズと指標の関係 成果指標(例:CVR )は全体に対して検定できるため、サン プルが十分に確保しやすい 中間指標(開封率・クリック率など)はステップが進むごと に対象者が減り、検出力が不足しやすい 中間指標を使う場合は「傾向を確認する」用途が中心で、検 定には十分なサンプルサイズが必要になる 11
Slide 12
Slide 12 text
サンプルサイズを大きくすることの問題 「有意差が出やすいように」サンプルサイズを大きくする と、わずかな差でも有意になりやすい だが、実務上は「差があるか」ではなく「意味のある差か」 が重要 微小な差が有意になっても実行価値があるとは限らない 設計段階で「どれくらい差があれば意味があるか」を考慮す べき 12
Slide 13
Slide 13 text
テスト期間をどう決めるか テスト期間はサンプルサイズだけでなく、ユーザー行動の周 期性(曜日・時間帯・イベント等)を考慮する必要がある 最低でも1 週間以上、可能なら複数の営業日・休日を含めて 偏りを避ける 期間が短すぎると特定条件下だけの結果になるリスクが高 く、汎化性に欠ける 13
Slide 14
Slide 14 text
大規模データなら設計しなくていいのか トラフィックが非常に大きいサイトでは、サンプルサイズが 自然に集まりやすく、厳密な設計を省略できることもある 条件:CV 数が数百以上、テスト期間が十分、指標ごとに偏り なく分布している 14
Slide 15
Slide 15 text
AB テストの実行 設計通りにテストを運用できているかを逐一確認しなければ、得 られた結果は無意味になる。 15
Slide 16
Slide 16 text
運用指針 サンプル数・テスト期間は事前に固定するのが原則 中間評価を入れたい場合は、最初から統計設計に組み込んで おく 16
Slide 17
Slide 17 text
テスト中に見ておくこと サンプル数が必要水準に達するか 群分けの偏り、UI 不具合がないか 実行中の記録を取り、異常があれば即中止判断できる体制を 整えておく 17
Slide 18
Slide 18 text
サンプルサイズ操作の禁止 テスト途中で「有意差が出るまでサンプルサイズを増やす」 はNG 観察を繰り返すと、偶然の差を有意と誤認する確率が累積し て高くなる 本来のp 値は「一度の観察」に基づくもの。都度見て止める と、偶然の差を拾ってしまい解釈が崩れる 18
Slide 19
Slide 19 text
「偶然の差を有意と誤認する」の例 サンプルが500 件の時点でp=0.07 → 有意差なし さらに100 件追加 → p=0.045 → 有意差あり? このタイミングで「やった、有意だ」と止めたくなるのが落 とし穴 この行為は「当たるまでくじを引く」のと同じ。当たる確率 は低くても何度も引けばそのうち当たる 19
Slide 20
Slide 20 text
AB テストの結果の読み取り 結果を見て施策を決定するためには、p 値や効果量の意味を正確 に理解する必要がある。 20
Slide 21
Slide 21 text
有意差の定義と読み方 p 値は「差が偶然に出る確率」 、効果量は差の「大きさ」 通常は0.05 未満を有意とする 厳密な検定手法の種類よりも、有意差と効果量の解釈に注目 することが重要 21
Slide 22
Slide 22 text
有意差による場合分け 有意差が出た場合 効果の出た層や中間指標の変化も確認する 再現性・汎化性があるかを見極める 有意差が出なかった場合 効果が小さいだけか、サンプルサイズ不足かを見極める 効果量があるなら、再テストや段階導入の余地がある 22
Slide 23
Slide 23 text
判断の組み合わせの簡単なまとめ 有意差あり+効果量大 → 実行 有意差あり+効果量小 → 慎重に検討 有意差なし+効果量大 → 要再テスト 有意差なし+効果量小 → 却下 23
Slide 24
Slide 24 text
p=0.05 と0.049 は同じか? 有意水準が5% の場合、p=0.049 は「有意差あり」 、p=0.05 は 「なし」と機械的に扱われがち 実際にはこの2 つの差は極めて小さく、境界付近では再テス トによる再現性の確認が重要 境界をまたぐだけで判断を180 度変えるのは不適切 24
Slide 25
Slide 25 text
サンプルが達しない場合はどうするか 設計したサンプルサイズに達しないままテスト期間が終了し た場合、原則としてテストは不成立と見なす ただし、未達でも「延長する」と事前に決めていれば統計的 な正当性は保てる データを見てから延長を判断するのは統計的に不正な操作で あり、許容されない 25
Slide 26
Slide 26 text
サンプルは足りてないが効果が十分な場合 サンプルが不足していても、有意差があり効果量も十分なら 実行判断は可能 ただし「想定よりサンプルが少なかった」ことは明記し、過 信は避ける 有意差がないが効果量が大きい場合は「検出力不足」として 再テストを検討するのが適切 26
Slide 27
Slide 27 text
スケールと実行の判断 実験結果をどこまで広げてよいかは、コストやリスクも含めた実 行判断が必要になる。 27
Slide 28
Slide 28 text
小さな差でも価値があるか? 成果指標(例:CVR )が0.5% 上がるだけでも、大規模サービ スでは月商数百万円の増加につながる場合がある 一方で、小規模な事業では1 〜2% 以上の差がなければ影響は 限定的 どの程度の差に価値があるかは、売上規模、コスト構造、事 業の優先順位によって変わる 28
Slide 29
Slide 29 text
コスト・リスクとトレードオフ 実行コストが高ければ、効果が大きくても見送る判断はあり うる 割引額(例:10% オフクーポンの原価) 実行の手間(例:人手による対応、LP 作成) 社内調整や承認フロー、既存業務への影響 ユーザーの混乱や不信感を招く可能性 逆に、低コスト施策なら小さな差でも試す価値がある 29
Slide 30
Slide 30 text
まとめ AB テストは「正しくやらないと意味がない」 判断を急がず、設計→ 実行→ 解釈のプロセスを守る 「有意差が出たか」だけではなく、 「次にどう活かせるか」に 意識を向けること 30