Slide 1

Slide 1 text

DSOps
 #5 A/Bテスト 実践編(前編)


Slide 2

Slide 2 text

担当
 世古 裕都(20年度入社)
 Air Track の DS/MLチーム所属
 
 ● データ分析・可視化
 ● 広告配信ロジックの最適化
 ● 来訪・購買最大化のための配信設計
 


Slide 3

Slide 3 text

いきなりですが…
 Q. オフライン指標の改善 = 事業改善?


Slide 4

Slide 4 text

オフライン指標の改善 ≠ 事業改善
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 あまり相関がない


Slide 5

Slide 5 text

人は事業改善する施策を見つけるのが苦手
 ● 検索連動広告の表示方法を変える軽微な修正 
 ● Bing内では施策が過小評価 
 ● 施策が実施されることなく半年間放置されていた 
 ↓
 ● 12%の売上改善につながり、年間100億円を生む改善 
 どんな施策が事業改善するのかは
 やってみないと分からない


Slide 6

Slide 6 text

事業を改善する施策を見つけるためには
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 オフライン指標を改善する
 モデルを見つける


Slide 7

Slide 7 text

事業を改善する施策を見つけるためには
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 事業を改善する
 施策を見つける


Slide 8

Slide 8 text

事業を改善する施策を見つけるためには
 8 ● オフライン指標を改善するモデルを見つける
 ○ ML等の技術が該当
 
 ● 事業を改善する施策を見つける
 ○ A/Bテスト等が該当
 
 A/Bテストって どうやるんだ…

Slide 9

Slide 9 text

A/Bテストを「学ぶ」💡
 事業を改善する施策を見つけるためにA/Bテストを学ぼう!
 ● あまり学んでこないが重要
 ● 今日の元ネタ
 
 
 ● 正しく学んで正しい施策を選択できるようになろう
 Ron Kohavi,Diane Tang,Ya Xu 
 ”Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing” 


Slide 10

Slide 10 text

A/Bテストを「学ぶ」💡
 ● Airbnb, Amazon, Booking.com, eBay, Facebook, Google, LinkedIn, Lyft, Microsoft, Netflix, Twitter, Uber, Yahoo!/Oath, and Yandex … 毎年何万もの実験が実施 ● 効果があるものは数%で この積み重ねが結果的に 大きなインパクトになる

Slide 11

Slide 11 text

A/Bテストを「学ぶ」💡
 11 
 ● A/Bテストとは? どう比較するのか?(前回のお話)
 
 
 ● A/Bテストをする文化づくり(前半)
 ○ どう始め、どう浸透させるのか
 
 ● A/Bテストのスケール方法(後半)
 
 Ron Kohavi,Diane Tang,Ya Xu ”Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing” 


Slide 12

Slide 12 text

A/Bテストをする文化づくり
 12

Slide 13

Slide 13 text

事業でA/Bテストをすることは意思決定をすること
 
 13 何かしらの施策
 世界線Aの鍋 
 世界線Bの鍋 
 採用・不採用
 何かしらの施策


Slide 14

Slide 14 text


 HiPPO:鶴の一声
 (Highest Paid Person's Opinion)
 
 よくある事業での意思決定
 14

Slide 15

Slide 15 text


 HiPPO:鶴の一声
 (Highest Paid Person's Opinion)
 
 ↓
 
 「プロダクトの成長には実験が不可欠である」 
 という文化が根付いた組織へ
 よくある事業での意思決定
 15

Slide 16

Slide 16 text


 1. HiPPOが正義。計測や実験は不要。
 
 2. 計測をはじめる
 a. まだHiPPOに頼っている。 
 b. 通説にそぐわない新事実の否定(センメルヴェイス反射) 
 
 3. 継続的な計測、実験に基づいてのみ意思決定が行われる
 
 データドリブンな文化になるまでの変遷
 16 どうやってステップを進めるか


Slide 17

Slide 17 text

組織のデータドリブン意思決定の4フェーズ
 17 Crawl
 Run
 Fly
 Walk


Slide 18

Slide 18 text

Crawl:基礎的かつ前提となるものを作る
 18 ● 要約統計量を計算して検定
 ● 小さな成功から次のステージにステップアップする
 
 ● ~ 10実験 / year (月1)
 


Slide 19

Slide 19 text

Walk:指標の設計や組織の実験の活性化
 19 ● 実験の信用性のアップ
 ○ A/A test
 ○ Sample Ratio Mismatch (SRM) test
 ■ 設計した介入群・統制群のサンプル比率と実測値が違わないことを確認するtest 
 
 ● ~50 / year (週1)
 
 


Slide 20

Slide 20 text

Run:実験をスケールさせること
 20 ● 複数の指標のトレードオフを考慮したOECの明文化
 ○ OEC: Overall Evaluation Criterion
 ● たくさんの施策の評価に実験を用いている
 
 ● ~250 / year
 
 


Slide 21

Slide 21 text

Fly:すべての変化を実験で評価
 21 ● 簡単なテストならDSなしで自動化
 ● 実験から組織の知見を積み上げていく
 
 ● thousands / year
 
 
 


Slide 22

Slide 22 text

Experimentation Maturity Models
 1. Crawl
 a. goal: 基礎的かつ前提となるものを作る 
 b. 要約統計量を計算して検定とか 
 c. 小さな成功から次のステージにステップアップす る
 d. ~10 / years
 2. Walk
 a. goal: 指標の設計や組織の実験の活性化 
 b. 実験の信用性のアップ 
 i. A/A test
 ii. Sample Ratio Mismatch (SRM) test 
 c. ~50 / year
 3. Run
 a. goal: 実験をスケールさせること
 b. 複数の指標のトレードオフを考慮したOECの 明文化
 c. たくさんの施策の評価に実験を用いている
 d. ~250 / year
 4. Fly
 a. すべての変化を実験で評価
 b. 簡単なテストならDSなしでできる
 c. 自動化
 d. 実験から組織の知見を積み上げていく
 e. thousands / year
 22 組織が様々な意思決定を実験からデータドリブンにやるようになるまでの4フェーズ 


Slide 23

Slide 23 text

どのフェーズにおいても組織にとって重要なこと
 
 1. Leadership
 2. Processes
 23

Slide 24

Slide 24 text

どのフェーズにおいても組織にとって重要なこと
 
 1. Leadership
 2. Processes
 24

Slide 25

Slide 25 text

“Leaders cannot just provide the organization with an experimentation platform and tools. They must provide the right incentives, processes, and empowerment of the organization to make data-driven decision.”
 25 ⇒ データドリブンな文化を作るためには必要な存在
 Crawl, Walkの段階ではリーダーシップが特に重要


Slide 26

Slide 26 text

Leader は何をするのか
 
 failure
 ● まず速く失敗するという文化づくり
 ● 失敗から学ぶ
 ● ショートサイクルで実験を回せるようにする
 ○ フレッシュで早い実験のフィードバックの 
 サイクルを作る
 
 decision process
 ● なにかの導入の意思決定を実験で指標が改善した かどうかに基づいて行う
 ● 実験結果のレビュー、その結果が意思決定にどう影 響するのかの透明性を上げる
 ● 実験を指標の測定だけでなくROIの評価にも使う
 others
 ● OECの合意をとること
 ● 適当な実装と高いデータのクオリティ
 ● 特に最適化において実験が役に立つこと
 26

Slide 27

Slide 27 text

どのフェーズにおいても組織にとって重要なこと
 
 1. Leadership
 2. Processes
 27

Slide 28

Slide 28 text

Processes(信用できる実験結果の担保)
 Educational ProcessesとCultural Normの確立 
 ● Educational Processes
 ○ 確かな実験のデザインと実行 
 ○ 正しい結果の解釈
 ● Cultural Norm
 ○ イノベーションへの期待 
 ○ 失敗の歓迎
 ○ 学ぼうという姿勢
 28

Slide 29

Slide 29 text

Educational Processes の一例
 実験チェックリスト(Google)
 ● 実験開始前に要件を満たしているかチェック 
 ○ “What is your hypothesis ?”
 ○ “How big of a change do you care about ?” 
 ○ power analysis question
 ● experts によってレビュー済みのチェックリストが用いられる 
 ● 実験初心者のレベルアップが目的 
 ● 組織全体がレベルアップしてくれば徐々に必要がなくなってくる 
 29

Slide 30

Slide 30 text

● 多くの指標を計算する & ダッシュボードで常に見られる状態にしておく
 ○ 指標: OEC, guardrail, ...
 ○ 結果のcherry-pickを防ぐ
 ● 驚きの実験結果(成功失敗を問わない)、メタアナリシス等はみんなに見てもら う
 ● negative impactなTreatmentをローンチできない仕組み
 ● 失敗の歓迎、失敗から学ぶのが基本という考え
 組織の実験の透明性を高めるために
 30

Slide 31

Slide 31 text

公開にあたり、省略したAir Track の事例について簡単に紹介します。 
 ● オフライン指標 ≠ ビジネスKPI の事例 
 ○ 来訪予測モデルのlog-lossが改善した一方で、ビジネスKPI(来訪単価)が悪化 
 ● Air Track における Walk→Run フェーズでの取組み 
 ○ 構築した実験基盤の概要と、一連の実験のフローを紹介 
 ● Educational Processes の取組み 
 ○ 実際に利用している実験チェックリストを紹介 
 ● 実験の透明性を高めるための取組み 
 ○ 実験開始時にビジネス・開発メンバにも共有するダッシュボードを紹介 
 紹介した事例について
 31

Slide 32

Slide 32 text

Discussion
 32

Slide 33

Slide 33 text

Crawl ~ Walk で Leader はどういうアクションが取れるか?