Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WSDM2021 paper (Online Experimentation with Surrogate Metrics)

Toshihiro NAKAE
April 24, 2021
210

WSDM2021 paper (Online Experimentation with Surrogate Metrics)

Toshihiro NAKAE

April 24, 2021
Tweet

Transcript

  1. Copyright © BizReach, Inc. All Rights Reserved. Online Experimentation with

    Surrogate Metrics: Guidelines and a Case Study (WSDM2021) 紹介 中江 俊博 (株式会社ビズリーチ) 2021/04/24 @ SIGIR 東京支部 IR Reading 2021 春
  2. Copyright © BizReach, Inc. All Rights Reserved. 自己紹介 ▪ 中江

    俊博(なかえ としひろ) • 株式会社ビズリーチ CTO室 AIグループ ▪ 経歴 • NTTデータ数理システム – データ分析コンサルタント • トリプル・ダブリュー・ジャパン – 排尿予測モデル実装 • ビズリーチ (現職) – 推薦モデルなどのデータサイエンス 関連の業務を担当 2
  3. Copyright © BizReach, Inc. All Rights Reserved. 対象論文/概要 ▪ 論文

    • Weitao Duan, Shan Ba, Chunzhe Zhang (LinkedIn) Online Experimentation with Surrogate Metrics: Guidelines and a Case Study (WSDM2021) – WSDM2021 Best Paper Award 候補 ▪ 結論の概要 • A/Bテストですぐに結果が得られない場合に、 別の観測値から予測した代理指標 (Surrogate Metrics)を使って A/Bの評価をすると偽陽性 (TypeI Error) が発生することを報告。 – この error の発生を抑制する補正方法を見つけた。 – その補正を具体的に適用した実例を示した。 3
  4. Copyright © BizReach, Inc. All Rights Reserved. モチベーション・概要 ▪ レコメンドなどの新ロジックを

    A/Bテストで効果検証する際、 改善したい効果の観測まで時間がかかることがある。 • LinkedIn などのように、職を探している人の成約数が 増えることを目標とする場合、観測までリードタイムがある。 • A/Bテストの命は、判断の速さ(効果がなければすぐ戻す) – Speed, Quality, and Risk (SQR) ▪ かといって、それよりも前段階の目標をおいても 必ずしも目標としている指標が改善されないことがある。 • レコメンドで検索効率は上がったが、最終的なコンバージョンに 至らなかった、など。 ▪ そのために目標としている真の指標値の「予測値」できれば 指標値を代替できる = 代理指標(surrogate metrics)と呼ばれる。 • この代替指標が A/B テストで改善したかどうかで 新しい施策の有効性を確認する。 4
  5. Copyright © BizReach, Inc. All Rights Reserved. モチベーション・LinkedInの場合 ▪ 最終的な目標は、転職確定

    (Confirmed Hire)  の増加 • 実際の改善ロジックはその手前のステップに対しての場合が多い • ファネルの上部で指標改善しても、最終指標が悪化することも。 ▪ 初期段階で得られる測定値aaaの値から予測したaaaの予測値 を用いて、A/Bテストの効果を見極めたい! 5 測定値 (時間かかる) *論文Figure.2 より転載
  6. Copyright © BizReach, Inc. All Rights Reserved. A/Bテストの通常の手順 6 処置群

    (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 割付はSUTVA条件 を満たす ここから t値: から … (真の) 結果 p値 で検定 ATE
  7. Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使う方法 7 処置群

    (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 … 代理指標 ここから t値: から p値 で検定 ATE 割付はSUTVA条件 を満たす
  8. Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使った場合のATEの分散 ▪ 真の結果

    に対する予測 の誤差 の分散が であるときの ATEのbias, variance ▪ 代理指標を使うと、分散過小見積もり • → t値過大見積もり • → p値過小見積もり • → 偽陽性が発生しやすくなる! ▪ 偽陽性を避けるには 回帰誤差を減らす必要がある ( 値を上げる必要がある) 8
  9. Copyright © BizReach, Inc. All Rights Reserved. 代理指標と真の結果のp値比較 9 予測モデルの

    が減ると、偽陽性となるケースが増える。 代理指標のp値 真の結果を使った場合のp値 *論文Figure.1 より転載
  10. Copyright © BizReach, Inc. All Rights Reserved. 代理指標の分散を減らす作戦 10 ▪

    代替指標としての有効性を確認すること • つまり、真の値が代理指標だけで決まり、代理指標を固定すると、A/Bテス トの割付変数とは無関係であることを満たすこと: • この関係が成り立つかは、次が1に近いかあるかどうかで判定可。 ▪ その上で、ATEの分散に回帰誤差の分散を足し算し、 t値の算出値を補正する(t値は減って、p値は増える)
  11. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・モデル学習 11 ▪

    転職確定(CH) を最大化する A/B テストは時間がかかる。 ▪ 転職応募ごとに、属性フラグや応募数など短期で取れる値から 転職確定率 (PCH) を算出するモデルを立てる (学習データ3ヶ月) • 当てはまりが非常によいので、CHでなくPCHが改善する 施策をA/Bテストで選ぶことを考える。 ・転職確定(CH)の収集は  平均6ヶ月程度かかる。 ・転職確定率(PCH)を使った実験は  数日~2週間程度ですむ。 *論文Figure.3 より転載
  12. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・有効性確認 12 ▪

    試験的に実施したA/Bテストで、真の値が代理指標のみできまり、 テスト割当に影響を受けないことをまず確かめる。 処置群 (Treatment) 対照群 (Control) *論文Figure.4 より転載
  13. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・分散補正 13 を使ってt値を補正する

    補正前 t値 X軸:代替指標 Y軸:真の値 をそれぞれ つかった t値 >1M sample >10k sample >1M sample >10k sample 補正後 t値 *論文Figure.5,7 より転載
  14. Copyright © BizReach, Inc. All Rights Reserved. まとめ 14 ▪

    結果サマリ • A/Bテストですぐに結果が得られない場合に、別の観測値で 予測した代理指標を使って評価するとすぐに結果が得られる。 • ただしこの場合p値過小評価気味で、偽陽性が発生する傾向あり。 • 対策として次を提案 – 代替指標の有効性を評価する方法を提案。 – 代替指標を使ったATEを補正する方法を提案 • LinkedInの具体的なデータによる結果を示した。 ▪ 感想 • 結果を得るのに時間がかかるA/Bテストを代替指標によって 評価を短縮できることが(恥ずかしながら)新たな発見であった。 • 誤差補正の方法がシンプルであり、他の現場にも適用しやすそう。 (IR含め、様々な現場で必要とされているのではなかろうか) • A/Bテストを新しいスキームを現場適用する前に、A/Bテスト 自体を評価する、丁寧かつ真摯な姿勢を見習いたい。