Slide 1

Slide 1 text

Copyright © BizReach, Inc. All Rights Reserved. Online Experimentation with Surrogate Metrics: Guidelines and a Case Study (WSDM2021) 紹介 中江 俊博 (株式会社ビズリーチ) 2021/04/24 @ SIGIR 東京支部 IR Reading 2021 春

Slide 2

Slide 2 text

Copyright © BizReach, Inc. All Rights Reserved. 自己紹介 ■ 中江 俊博(なかえ としひろ) • 株式会社ビズリーチ CTO室 AIグループ ■ 経歴 • NTTデータ数理システム – データ分析コンサルタント • トリプル・ダブリュー・ジャパン – 排尿予測モデル実装 • ビズリーチ (現職) – 推薦モデルなどのデータサイエンス 関連の業務を担当 2

Slide 3

Slide 3 text

Copyright © BizReach, Inc. All Rights Reserved. 対象論文/概要 ■ 論文 • Weitao Duan, Shan Ba, Chunzhe Zhang (LinkedIn) Online Experimentation with Surrogate Metrics: Guidelines and a Case Study (WSDM2021) – WSDM2021 Best Paper Award 候補 ■ 結論の概要 • A/Bテストですぐに結果が得られない場合に、 別の観測値から予測した代理指標 (Surrogate Metrics)を使って A/Bの評価をすると偽陽性 (TypeI Error) が発生することを報告。 – この error の発生を抑制する補正方法を見つけた。 – その補正を具体的に適用した実例を示した。 3

Slide 4

Slide 4 text

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・概要 ■ レコメンドなどの新ロジックを A/Bテストで効果検証する際、 改善したい効果の観測まで時間がかかることがある。 • LinkedIn などのように、職を探している人の成約数が 増えることを目標とする場合、観測までリードタイムがある。 • A/Bテストの命は、判断の速さ(効果がなければすぐ戻す) – Speed, Quality, and Risk (SQR) ■ かといって、それよりも前段階の目標をおいても 必ずしも目標としている指標が改善されないことがある。 • レコメンドで検索効率は上がったが、最終的なコンバージョンに 至らなかった、など。 ■ そのために目標としている真の指標値の「予測値」できれば 指標値を代替できる = 代理指標(surrogate metrics)と呼ばれる。 • この代替指標が A/B テストで改善したかどうかで 新しい施策の有効性を確認する。 4

Slide 5

Slide 5 text

Copyright © BizReach, Inc. All Rights Reserved. モチベーション・LinkedInの場合 ■ 最終的な目標は、転職確定 (Confirmed Hire)  の増加 • 実際の改善ロジックはその手前のステップに対しての場合が多い • ファネルの上部で指標改善しても、最終指標が悪化することも。 ■ 初期段階で得られる測定値aaaの値から予測したaaaの予測値 を用いて、A/Bテストの効果を見極めたい! 5 測定値 (時間かかる) *論文Figure.2 より転載

Slide 6

Slide 6 text

Copyright © BizReach, Inc. All Rights Reserved. A/Bテストの通常の手順 6 処置群 (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 割付はSUTVA条件 を満たす ここから t値: から … (真の) 結果 p値 で検定 ATE

Slide 7

Slide 7 text

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使う方法 7 処置群 (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 … 代理指標 ここから t値: から p値 で検定 ATE 割付はSUTVA条件 を満たす

Slide 8

Slide 8 text

Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使った場合のATEの分散 ■ 真の結果 に対する予測 の誤差 の分散が であるときの ATEのbias, variance ■ 代理指標を使うと、分散過小見積もり • → t値過大見積もり • → p値過小見積もり • → 偽陽性が発生しやすくなる! ■ 偽陽性を避けるには 回帰誤差を減らす必要がある ( 値を上げる必要がある) 8

Slide 9

Slide 9 text

Copyright © BizReach, Inc. All Rights Reserved. 代理指標と真の結果のp値比較 9 予測モデルの が減ると、偽陽性となるケースが増える。 代理指標のp値 真の結果を使った場合のp値 *論文Figure.1 より転載

Slide 10

Slide 10 text

Copyright © BizReach, Inc. All Rights Reserved. 代理指標の分散を減らす作戦 10 ■ 代替指標としての有効性を確認すること • つまり、真の値が代理指標だけで決まり、代理指標を固定すると、A/Bテス トの割付変数とは無関係であることを満たすこと: • この関係が成り立つかは、次が1に近いかあるかどうかで判定可。 ■ その上で、ATEの分散に回帰誤差の分散を足し算し、 t値の算出値を補正する(t値は減って、p値は増える)

Slide 11

Slide 11 text

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・モデル学習 11 ■ 転職確定(CH) を最大化する A/B テストは時間がかかる。 ■ 転職応募ごとに、属性フラグや応募数など短期で取れる値から 転職確定率 (PCH) を算出するモデルを立てる (学習データ3ヶ月) • 当てはまりが非常によいので、CHでなくPCHが改善する 施策をA/Bテストで選ぶことを考える。 ・転職確定(CH)の収集は  平均6ヶ月程度かかる。 ・転職確定率(PCH)を使った実験は  数日~2週間程度ですむ。 *論文Figure.3 より転載

Slide 12

Slide 12 text

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・有効性確認 12 ■ 試験的に実施したA/Bテストで、真の値が代理指標のみできまり、 テスト割当に影響を受けないことをまず確かめる。 処置群 (Treatment) 対照群 (Control) *論文Figure.4 より転載

Slide 13

Slide 13 text

Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・分散補正 13 を使ってt値を補正する 補正前 t値 X軸:代替指標 Y軸:真の値 をそれぞれ つかった t値 >1M sample >10k sample >1M sample >10k sample 補正後 t値 *論文Figure.5,7 より転載

Slide 14

Slide 14 text

Copyright © BizReach, Inc. All Rights Reserved. まとめ 14 ■ 結果サマリ • A/Bテストですぐに結果が得られない場合に、別の観測値で 予測した代理指標を使って評価するとすぐに結果が得られる。 • ただしこの場合p値過小評価気味で、偽陽性が発生する傾向あり。 • 対策として次を提案 – 代替指標の有効性を評価する方法を提案。 – 代替指標を使ったATEを補正する方法を提案 • LinkedInの具体的なデータによる結果を示した。 ■ 感想 • 結果を得るのに時間がかかるA/Bテストを代替指標によって 評価を短縮できることが(恥ずかしながら)新たな発見であった。 • 誤差補正の方法がシンプルであり、他の現場にも適用しやすそう。 (IR含め、様々な現場で必要とされているのではなかろうか) • A/Bテストを新しいスキームを現場適用する前に、A/Bテスト 自体を評価する、丁寧かつ真摯な姿勢を見習いたい。