WSDM2021 paper (Online Experimentation with Surrogate Metrics)

Copyright © BizReach, Inc. All Rights Reserved. Online Experimentation with
Surrogate Metrics: Guidelines and a Case Study (WSDM2021) 紹介中江俊博 (株式会社ビズリーチ) 2021/04/24 @ SIGIR 東京支部 IR Reading 2021 春

Copyright © BizReach, Inc. All Rights Reserved. 自己紹介 ▪ 中江
俊博（なかえとしひろ） • 株式会社ビズリーチ CTO室 AIグループ ▪ 経歴 • NTTデータ数理システム – データ分析コンサルタント • トリプル・ダブリュー・ジャパン – 排尿予測モデル実装 • ビズリーチ (現職) – 推薦モデルなどのデータサイエンス関連の業務を担当 2

Copyright © BizReach, Inc. All Rights Reserved. 対象論文/概要 ▪ 論文
• Weitao Duan, Shan Ba, Chunzhe Zhang (LinkedIn) Online Experimentation with Surrogate Metrics: Guidelines and a Case Study (WSDM2021) – WSDM2021 Best Paper Award 候補 ▪ 結論の概要 • A/Bテストですぐに結果が得られない場合に、別の観測値から予測した代理指標 (Surrogate Metrics)を使って A/Bの評価をすると偽陽性 (TypeI Error) が発生することを報告。 – この error の発生を抑制する補正方法を見つけた。 – その補正を具体的に適用した実例を示した。 3

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・概要 ▪ レコメンドなどの新ロジックを
A/Bテストで効果検証する際、改善したい効果の観測まで時間がかかることがある。 • LinkedIn などのように、職を探している人の成約数が増えることを目標とする場合、観測までリードタイムがある。 • A/Bテストの命は、判断の速さ（効果がなければすぐ戻す） – Speed, Quality, and Risk (SQR) ▪ かといって、それよりも前段階の目標をおいても必ずしも目標としている指標が改善されないことがある。 • レコメンドで検索効率は上がったが、最終的なコンバージョンに至らなかった、など。 ▪ そのために目標としている真の指標値の「予測値」できれば指標値を代替できる = 代理指標(surrogate metrics)と呼ばれる。 • この代替指標が A/B テストで改善したかどうかで新しい施策の有効性を確認する。 4

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・LinkedInの場合 ▪ 最終的な目標は、転職確定
(Confirmed Hire) 　の増加 • 実際の改善ロジックはその手前のステップに対しての場合が多い • ファネルの上部で指標改善しても、最終指標が悪化することも。 ▪ 初期段階で得られる測定値aaaの値から予測したaaaの予測値を用いて、A/Bテストの効果を見極めたい！ 5 測定値（時間かかる）＊論文Figure.2 より転載

Copyright © BizReach, Inc. All Rights Reserved. A/Bテストの通常の手順 6 処置群
(Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人割付はSUTVA条件を満たすここから t値：から … (真の) 結果 p値で検定 ATE

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使う方法 7 処置群
(Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 … 代理指標ここから t値：から p値で検定 ATE 割付はSUTVA条件を満たす

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使った場合のATEの分散 ▪ 真の結果
に対する予測の誤差の分散がであるときの ATEのbias, variance ▪ 代理指標を使うと、分散過小見積もり • → t値過大見積もり • → p値過小見積もり • → 偽陽性が発生しやすくなる！ ▪ 偽陽性を避けるには回帰誤差を減らす必要がある（値を上げる必要がある） 8

Copyright © BizReach, Inc. All Rights Reserved. 代理指標と真の結果のp値比較 9 予測モデルの
が減ると、偽陽性となるケースが増える。代理指標のp値真の結果を使った場合のp値＊論文Figure.1 より転載

Copyright © BizReach, Inc. All Rights Reserved. 代理指標の分散を減らす作戦 10 ▪
代替指標としての有効性を確認すること • つまり、真の値が代理指標だけで決まり、代理指標を固定すると、A/Bテストの割付変数とは無関係であることを満たすこと： • この関係が成り立つかは、次が1に近いかあるかどうかで判定可。 ▪ その上で、ATEの分散に回帰誤差の分散を足し算し、 t値の算出値を補正する（t値は減って、p値は増える）

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・モデル学習 11 ▪
転職確定(CH) を最大化する A/B テストは時間がかかる。 ▪ 転職応募ごとに、属性フラグや応募数など短期で取れる値から転職確定率 (PCH) を算出するモデルを立てる (学習データ3ヶ月) • 当てはまりが非常によいので、CHでなくPCHが改善する施策をA/Bテストで選ぶことを考える。・転職確定(CH)の収集は　平均6ヶ月程度かかる。・転職確定率(PCH)を使った実験は　数日～2週間程度ですむ。＊論文Figure.3 より転載

Copyright © BizReach, Inc. All Rights Reserved. まとめ 14 ▪
結果サマリ • A/Bテストですぐに結果が得られない場合に、別の観測値で予測した代理指標を使って評価するとすぐに結果が得られる。 • ただしこの場合p値過小評価気味で、偽陽性が発生する傾向あり。 • 対策として次を提案 – 代替指標の有効性を評価する方法を提案。 – 代替指標を使ったATEを補正する方法を提案 • LinkedInの具体的なデータによる結果を示した。 ▪ 感想 • 結果を得るのに時間がかかるA/Bテストを代替指標によって評価を短縮できることが（恥ずかしながら）新たな発見であった。 • 誤差補正の方法がシンプルであり、他の現場にも適用しやすそう。（IR含め、様々な現場で必要とされているのではなかろうか） • A/Bテストを新しいスキームを現場適用する前に、A/Bテスト自体を評価する、丁寧かつ真摯な姿勢を見習いたい。

WSDM2021 paper (Online Experimentation with Sur...

WSDM2021 paper (Online Experimentation with Surrogate Metrics)

Toshihiro NAKAE

More Decks by Toshihiro NAKAE

Featured

Transcript

Copyright © BizReach, Inc. All Rights Reserved. Online Experimentation with

Copyright © BizReach, Inc. All Rights Reserved. 自己紹介 ▪ 中江

Copyright © BizReach, Inc. All Rights Reserved. 対象論文/概要 ▪ 論文

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・概要 ▪ レコメンドなどの新ロジックを

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・LinkedInの場合 ▪ 最終的な目標は、転職確定

Copyright © BizReach, Inc. All Rights Reserved. A/Bテストの通常の手順 6 処置群

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使う方法 7 処置群

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使った場合のATEの分散 ▪ 真の結果

Copyright © BizReach, Inc. All Rights Reserved. 代理指標と真の結果のp値比較 9 予測モデルの

Copyright © BizReach, Inc. All Rights Reserved. 代理指標の分散を減らす作戦 10 ▪

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・モデル学習 11 ▪

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・有効性確認 12 ▪

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・分散補正 13 を使ってt値を補正する

Copyright © BizReach, Inc. All Rights Reserved. まとめ 14 ▪