DSOps #5-1

DSOps  #5 A/Bテスト実践編（前編） 

担当  世古裕都（20年度入社）  Air Track の DS/MLチーム所属    • データ分析・可視化 
• 広告配信ロジックの最適化  • 来訪・購買最大化のための配信設計   

いきなりですが…  Q. オフライン指標の改善＝事業改善？ 

オフライン指標の改善 ≠ 事業改善  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150
Successful Machine Learning Models: 6 Lessons Learned at Booking.com, KDD 2019  あまり相関がない 

人は事業改善する施策を見つけるのが苦手  • 検索連動広告の表示方法を変える軽微な修正   • Bing内では施策が過小評価   • 施策が実施されることなく半年間放置されていた  
↓  • 12%の売上改善につながり、年間100億円を生む改善   どんな施策が事業改善するのかは  やってみないと分からない 

事業を改善する施策を見つけるためには  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150 Successful Machine
Learning Models: 6 Lessons Learned at Booking.com, KDD 2019  オフライン指標を改善する  モデルを見つける 

事業を改善する施策を見つけるためには  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150 Successful Machine
Learning Models: 6 Lessons Learned at Booking.com, KDD 2019  事業を改善する  施策を見つける 

事業を改善する施策を見つけるためには  8 • オフライン指標を改善するモデルを見つける  ◦ ML等の技術が該当    • 事業を改善する施策を見つける  ◦
A/Bテスト等が該当    A/Bテストってどうやるんだ…

A/Bテストを「学ぶ」💡  事業を改善する施策を見つけるためにA/Bテストを学ぼう！  • あまり学んでこないが重要  • 今日の元ネタ      • 正しく学んで正しい施策を選択できるようになろう 
Ron Kohavi,Diane Tang,Ya Xu   ”Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing”  

A/Bテストを「学ぶ」💡  • Airbnb, Amazon, Booking.com, eBay, Facebook, Google, LinkedIn, Lyft,
Microsoft, Netflix, Twitter, Uber, Yahoo!/Oath, and Yandex … 毎年何万もの実験が実施 • 効果があるものは数%でこの積み重ねが結果的に大きなインパクトになる

A/Bテストを「学ぶ」💡  11   • A/Bテストとは? どう比較するのか?（前回のお話）      • A/Bテストをする文化づくり（前半） 
◦ どう始め、どう浸透させるのか    • A/Bテストのスケール方法（後半）    Ron Kohavi,Diane Tang,Ya Xu ”Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing”  

A/Bテストをする文化づくり  12

事業でA/Bテストをすることは意思決定をすること    13 何かしらの施策  世界線Aの鍋   世界線Bの鍋   採用・不採用  何かしらの施策 

  HiPPO：鶴の一声  (Highest Paid Person's Opinion)    よくある事業での意思決定  14

  HiPPO：鶴の一声  (Highest Paid Person's Opinion)    ↓    「プロダクトの成長には実験が不可欠である」
  という文化が根付いた組織へ  よくある事業での意思決定  15

  1. HiPPOが正義。計測や実験は不要。    2. 計測をはじめる  a. まだHiPPOに頼っている。   b.
通説にそぐわない新事実の否定（センメルヴェイス反射）     3. 継続的な計測、実験に基づいてのみ意思決定が行われる    データドリブンな文化になるまでの変遷  16 どうやってステップを進めるか 

組織のデータドリブン意思決定の4フェーズ  17 Crawl  Run  Fly  Walk 

Crawl：基礎的かつ前提となるものを作る  18 • 要約統計量を計算して検定  • 小さな成功から次のステージにステップアップする    • ~ 10実験
/ year （月1）   

Walk：指標の設計や組織の実験の活性化  19 • 実験の信用性のアップ  ◦ A/A test  ◦ Sample Ratio
Mismatch (SRM) test  ▪ 設計した介入群・統制群のサンプル比率と実測値が違わないことを確認するtest     • ~50 / year （週1）     

Run：実験をスケールさせること  20 • 複数の指標のトレードオフを考慮したOECの明文化  ◦ OEC: Overall Evaluation Criterion  •
たくさんの施策の評価に実験を用いている    • ~250 / year     

Fly：すべての変化を実験で評価  21 • 簡単なテストならDSなしで自動化  • 実験から組織の知見を積み上げていく    • thousands /
year       

Experimentation Maturity Models  1. Crawl  a. goal: 基礎的かつ前提となるものを作る   b.
要約統計量を計算して検定とか   c. 小さな成功から次のステージにステップアップする  d. ~10 / years  2. Walk  a. goal: 指標の設計や組織の実験の活性化   b. 実験の信用性のアップ   i. A/A test  ii. Sample Ratio Mismatch (SRM) test   c. ~50 / year  3. Run  a. goal: 実験をスケールさせること  b. 複数の指標のトレードオフを考慮したOECの明文化  c. たくさんの施策の評価に実験を用いている  d. ~250 / year  4. Fly  a. すべての変化を実験で評価  b. 簡単なテストならDSなしでできる  c. 自動化  d. 実験から組織の知見を積み上げていく  e. thousands / year  22 組織が様々な意思決定を実験からデータドリブンにやるようになるまでの4フェーズ  

どのフェーズにおいても組織にとって重要なこと    1. Leadership  2. Processes  23

“Leaders cannot just provide the organization with an experimentation platform
and tools. They must provide the right incentives, processes, and empowerment of the organization to make data-driven decision.”  25 ⇒ データドリブンな文化を作るためには必要な存在  Crawl, Walkの段階ではリーダーシップが特に重要 

Leader は何をするのか    failure  • まず速く失敗するという文化づくり  • 失敗から学ぶ  • ショートサイクルで実験を回せるようにする 
◦ フレッシュで早い実験のフィードバックの   サイクルを作る    decision process  • なにかの導入の意思決定を実験で指標が改善したかどうかに基づいて行う  • 実験結果のレビュー、その結果が意思決定にどう影響するのかの透明性を上げる  • 実験を指標の測定だけでなくROIの評価にも使う  others  • OECの合意をとること  • 適当な実装と高いデータのクオリティ  • 特に最適化において実験が役に立つこと  26

Processes（信用できる実験結果の担保）  Educational ProcessesとCultural Normの確立   • Educational Processes  ◦ 確かな実験のデザインと実行
  ◦ 正しい結果の解釈  • Cultural Norm  ◦ イノベーションへの期待   ◦ 失敗の歓迎  ◦ 学ぼうという姿勢  28

Educational Processes の一例  実験チェックリスト（Google）  • 実験開始前に要件を満たしているかチェック   ◦ “What is
your hypothesis ?”  ◦ “How big of a change do you care about ?”   ◦ power analysis question  • experts によってレビュー済みのチェックリストが用いられる   • 実験初心者のレベルアップが目的   • 組織全体がレベルアップしてくれば徐々に必要がなくなってくる   29

• 多くの指標を計算する & ダッシュボードで常に見られる状態にしておく  ◦ 指標: OEC, guardrail, ...  ◦
結果のcherry-pickを防ぐ  • 驚きの実験結果（成功失敗を問わない）、メタアナリシス等はみんなに見てもらう  • negative impactなTreatmentをローンチできない仕組み  • 失敗の歓迎、失敗から学ぶのが基本という考え  組織の実験の透明性を高めるために  30

公開にあたり、省略したAir Track の事例について簡単に紹介します。   • オフライン指標 ≠ ビジネスKPI の事例  
◦ 来訪予測モデルのlog-lossが改善した一方で、ビジネスKPI（来訪単価）が悪化   • Air Track における Walk→Run フェーズでの取組み   ◦ 構築した実験基盤の概要と、一連の実験のフローを紹介   • Educational Processes の取組み   ◦ 実際に利用している実験チェックリストを紹介   • 実験の透明性を高めるための取組み   ◦ 実験開始時にビジネス・開発メンバにも共有するダッシュボードを紹介   紹介した事例について  31

Discussion  32

Crawl ~ Walk で Leader はどういうアクションが取れるか？ 

DSOps #5-1

DSOps #5-1

Yusuke Kaneko

More Decks by Yusuke Kaneko

Featured

Transcript

DSOps  #5 A/Bテスト実践編（前編）

担当  世古裕都（20年度入社）  Air Track の DS/MLチーム所属    • データ分析・可視化

いきなりですが…  Q. オフライン指標の改善＝事業改善？

オフライン指標の改善 ≠ 事業改善  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150

人は事業改善する施策を見つけるのが苦手  • 検索連動広告の表示方法を変える軽微な修正   • Bing内では施策が過小評価   • 施策が実施されることなく半年間放置されていた

事業を改善する施策を見つけるためには  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150 Successful Machine

事業を改善する施策を見つけるためには  オフライン指標の改善幅   CVR改善幅  Bernardi et al., 150 Successful Machine

事業を改善する施策を見つけるためには  8 • オフライン指標を改善するモデルを見つける  ◦ ML等の技術が該当    • 事業を改善する施策を見つける  ◦

A/Bテストを「学ぶ」💡  事業を改善する施策を見つけるためにA/Bテストを学ぼう！  • あまり学んでこないが重要  • 今日の元ネタ      • 正しく学んで正しい施策を選択できるようになろう

A/Bテストを「学ぶ」💡  • Airbnb, Amazon, Booking.com, eBay, Facebook, Google, LinkedIn, Lyft,

A/Bテストを「学ぶ」💡  11   • A/Bテストとは? どう比較するのか?（前回のお話）      • A/Bテストをする文化づくり（前半）

A/Bテストをする文化づくり  12

事業でA/Bテストをすることは意思決定をすること    13 何かしらの施策  世界線Aの鍋   世界線Bの鍋   採用・不採用  何かしらの施策

HiPPO：鶴の一声  (Highest Paid Person's Opinion)    よくある事業での意思決定  14

HiPPO：鶴の一声  (Highest Paid Person's Opinion)    ↓    「プロダクトの成長には実験が不可欠である」

1. HiPPOが正義。計測や実験は不要。    2. 計測をはじめる  a. まだHiPPOに頼っている。   b.

組織のデータドリブン意思決定の4フェーズ  17 Crawl  Run  Fly  Walk

Crawl：基礎的かつ前提となるものを作る  18 • 要約統計量を計算して検定  • 小さな成功から次のステージにステップアップする    • ~ 10実験

Walk：指標の設計や組織の実験の活性化  19 • 実験の信用性のアップ  ◦ A/A test  ◦ Sample Ratio

Run：実験をスケールさせること  20 • 複数の指標のトレードオフを考慮したOECの明文化  ◦ OEC: Overall Evaluation Criterion  •

Fly：すべての変化を実験で評価  21 • 簡単なテストならDSなしで自動化  • 実験から組織の知見を積み上げていく    • thousands /

Experimentation Maturity Models  1. Crawl  a. goal: 基礎的かつ前提となるものを作る   b.

どのフェーズにおいても組織にとって重要なこと    1. Leadership  2. Processes  23

どのフェーズにおいても組織にとって重要なこと    1. Leadership  2. Processes  24

“Leaders cannot just provide the organization with an experimentation platform

Leader は何をするのか    failure  • まず速く失敗するという文化づくり  • 失敗から学ぶ  • ショートサイクルで実験を回せるようにする

どのフェーズにおいても組織にとって重要なこと    1. Leadership  2. Processes  27

Processes（信用できる実験結果の担保）  Educational ProcessesとCultural Normの確立   • Educational Processes  ◦ 確かな実験のデザインと実行

Educational Processes の一例  実験チェックリスト（Google）  • 実験開始前に要件を満たしているかチェック   ◦ “What is

• 多くの指標を計算する & ダッシュボードで常に見られる状態にしておく  ◦ 指標: OEC, guardrail, ...  ◦

公開にあたり、省略したAir Track の事例について簡単に紹介します。   • オフライン指標 ≠ ビジネスKPI の事例

Discussion  32

Crawl ~ Walk で Leader はどういうアクションが取れるか？