Slide 1

Slide 1 text

因果推論の知見がテック企業の 課題をどう解決するか? 産業組織Ⅱ@東大, 7/13 サイバーエージェント 藤田 光明 1

Slide 2

Slide 2 text

自己紹介 藤田 光明 Data Scientist ● 経歴 ○ 2012 - 2016 ■ 上智大学経済学部 ○ 2016 - 2018 ■ 東京大学経済学研究科 ■ 実証産業組織論,指導教官: 若森先生 ○ 2018 - ■ サイバーエージェント AI事業本部 Dynalyst ■ 広告配信アルゴリズムの開発 / 実装 ■ A/Bテスト(RCT, ランダム化比較試験)システム基盤の改善 ● 興味 ○ A/Bテストを通したプロダクトグロース ○ ビジネス x 経済学 / 機械学習 2

Slide 3

Slide 3 text

大学院時代にやっていた研究 ● 修論タイトル ○ “A Comparison of the Effectiveness of Advertisement in Discrete Choice Models with Random and Non-Random Choice Sets” ● 広告が消費者の需要に与える影響を離散選択モデルを用いて分析 ● 2つの離散選択モデルを比較 ○ BLP(1995)タイプ: full informationのもとで広告がutility functionの中に入る ○ Goeree(2008)タイプ: limited informationのもとで広告によって商品がchoice setに入る確 率を上げる ● 日本の自動車マーケットのデータを使用 ○ 年 x 車種レベルの販売量,テレビCM量,カタログ情報を頑張って集めた 3

Slide 4

Slide 4 text

今回の経緯 ● 今日の発表は日本経済学会 2020年度春季大会で話した内 容に若干アップデートを加えたものです. ● 若森先生にお声がけ頂き,この場で話させてもらうこと になりました. 4

Slide 5

Slide 5 text

今日話すこと ● ビジネスのどういうシーンで機械学習/経済学が使われているか ● テック企業での計量経済学の活用事例紹介 ○ コンバージョン(購入)予測における遅れコンバージョン問題 ○ バンディットのオフライン評価 ● 実証産業組織論 x 機械学習の研究紹介 ● テック企業で経済学出身データサイエティストとして働くこと ● 理論的な部分は基本省略します 5

Slide 6

Slide 6 text

1. アドテクノロジーと機械学習 / 経済学 2. コンバージョン予測と遅れコンバージョン問題 3. 広告画像選択におけるバンディットとオフライン評価 4. おまけ: 実証産業組織論と機械学習の研究紹介 5. テック企業で経済学出身データサイエンティストとして働く 目次 6

Slide 7

Slide 7 text

1. アドテクノロジーと機械学習/経済学 7

Slide 8

Slide 8 text

1. アドテクノロジーと機械学習 / 経済学 1.1 アドテクノロジー(アドテク)とは? 1.2 良いクリック率予測とは? 8

Slide 9

Slide 9 text

1. アドテクノロジーと機械学習 / 経済学 1.1 アドテクノロジー(アドテク)とは? 1.2 良いクリック率予測とは? 9

Slide 10

Slide 10 text

アドテクを代表する仕組み: Real Time Bidding (RTB) これらの一部はRTBで 取引されている 10

Slide 11

Slide 11 text

RTB: 数10ms内の広告オークション 11 ネットに広告を 出したい会社 DSP SSP User / Site a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 サイト収益を最大 化するためにオー クションを開催

Slide 12

Slide 12 text

入札戦略,クリック率,購入率の予測 12 ネットに広告を 出したい会社 DSP SSP User / Site a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 入札額の決定... 入札戦略, クリック率, 購入率の予測

Slide 13

Slide 13 text

広告予算のペーシング 13 ネットに広告を 出したい会社 DSP SSP User / Site a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 100円 80円 50円 予算,広告素材 広告主の予算を効率的に配分する... 予算ペーシング

Slide 14

Slide 14 text

広告画像選択 14 ネットに広告を 出したい会社 DSP SSP User / Site a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 より効果の高い広告画像を選ぶ... 広告画像選択ロジック

Slide 15

Slide 15 text

機械学習 / 経済学が使われている例 ● 入札 ○ 入札戦略, 1st price auction, 2nd price auction (オークション理論) ○ クリック予測, 購入予測 (教師あり学習, 計量経済学) ● 予算ペーシング ○ PID制御 ● 広告画像選択 ○ バンディットアルゴリズム (強化学習) ○ オフライン評価 (計量経済学) ● RCTの設計 / 評価 ○ 統計的検定(統計学・計量経済学) 15

Slide 16

Slide 16 text

1. アドテクノロジーと機械学習 / 経済学 1.1 アドテクノロジー(アドテク)とは? 1.2 良いクリック率予測とは? 16

Slide 17

Slide 17 text

RTBにおけるクリック率予測の目的 ● 広告表示の真の価値をしりたい ○ 真の価値 = クリック確率 (CTR) x クリックあたりの価値 (CPC) ● 予測CTR > 真のCTR => 広告表示の価値を過大評価 ○ 価値に見合わない広告枠の落札で利益が失われる ● 予測CTR < 真のCTR => 広告表示の価値を過小評価 ○ 落札機会の損失につながる 真のCTRを知りたい => 予測する 17

Slide 18

Slide 18 text

良いCTR予測モデルとは? ● 過去の配信データを使ってCTR予測モデルを作る ● βの推定がうまく行くようなモデルが良いモデル? ○ 経済学でよく解くような問題 ○ しかし,CTR予測においてβをunbiasedに推定する必要はない ● yの予測値と実現値ができるだけ近いようなモデルが望ましい ○ loglossなどの指標で評価 18

Slide 19

Slide 19 text

重要なポイント: 解くべき問題を意識する ● 予測精度が高いモデル ≠ パラメータの推定がうまくいくモデル ○ 予測精度が高いモデルのパラメータの推定値がバイアスがないとは限らない ○ あるパラメータをバイアスなく推定できるモデルの予測精度が高いとは限らない ● yの予測精度が重要なケース ○ 予測精度が高いモデルを作る ○ そのモデルの推定値を解釈して何かを言うことは難しい ● パラメータβの推定値が重要なケース ○ 例: クリック率を上昇させる広告画像の要素は何? ○ 興味があるパラメータの推定量のバイアスがない & 分散が小さいようなモデルを作る ○ 予測精度は関係ない 19

Slide 20

Slide 20 text

再掲: 機械学習 / 経済学が使われている例 ● 入札 ○ 入札戦略, 1st price auction, 2nd price auction (オークション理論) ○ クリック予測, 購入予測 (教師あり学習, 計量経済学) ● 予算ペーシング ○ PID制御 ● 広告画像選択 ○ バンディットアルゴリズム (強化学習) ○ オフライン評価 (計量経済学) ● RCTの設計 / 評価 ○ 統計的検定(統計学・計量経済学) 20 以降では,計量経済学をやってきたからこその事例について紹介する


Slide 21

Slide 21 text

2. コンバージョン予測と 遅れコンバージョン問題 21

Slide 22

Slide 22 text

2. コンバージョン予測と遅れコンバージョン問題 2.1 コンバージョン予測とは? 2.2 遅れコンバージョン問題とその解決法 2.3 社会実装とトップカンファレンスでの採択 22

Slide 23

Slide 23 text

2. コンバージョン予測と遅れコンバージョン問題 2.1 コンバージョン予測とは? 2.2 遅れコンバージョン問題とその解決法 2.3 社会実装とトップカンファレンスでの採択 23

Slide 24

Slide 24 text

コンバージョン予測とは ● コンバージョン(Conversion, CV)とは... ○ 最終的な成果のこと ○ アプリ起動 / インストール,購入,資料請求などを指すことが多い ○ ネット広告では,広告クリック経由での購入などをコンバージョンと呼ぶ ● コンバージョン予測とは? ○ クリックしたユーザがその後コンバージョンする確率を予測すること ○ CVR: Conversion Rate 24

Slide 25

Slide 25 text

CVR予測をシステムで使うためのフロー 25 配信ログ 学習 データ 計測 データ抽出 予測モデル デプロイ 学習 広告システム モデルは一度作れば終わりではない 予測モデルが新しいもの へと次々入れ替わる

Slide 26

Slide 26 text

同じ学習データを使うケース 26 学習 予測 予測 予測  time  5/1  5/8  5/11  5/10  5/9 予測  5/14 ● 5/8に5/1-7のデータを使ってモデル作成,以後そのモデルを使い続ける ● 時間経過とともに学習データと本番データの分布の乖離が大きくなる ○ 新しいメディアの登場,トレンド / ユーザの興味の変遷,etc ● 教師あり学習では,学習データの分布にフィットするようにモデルを作るため, データの分布の乖離はモデルの精度を大きく下げる performance

Slide 27

Slide 27 text

モデルを定期的に更新するケース 27 学習 予測 予測 予測  time 5/1 5/8 5/11 5/10 5/9 予測 5/14 performance 学習 学習 学習 できるだけ新しいデータを使って学習するのが基本 ● 配信ログがたまるたびに前述のシステムフローを通してモデルを更新する ● 本番データと分布が近いデータで学習できるため,モデルの精度が高い

Slide 28

Slide 28 text

2. コンバージョン予測と遅れコンバージョン問題 2.1 コンバージョン予測とは? 2.2 遅れコンバージョン問題とその解決法 2.3 社会実装とトップカンファレンスでの採択 28

Slide 29

Slide 29 text

遅れコンバージョン問題 29

Slide 30

Slide 30 text

どのくらい遅れコンバージョンが発生するか? ● 広告キャンペーンによって 遅れCVの発生度合いが違う ● 24時間周期のサイクルが見 られる 30

Slide 31

Slide 31 text

問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV = 50 nonCV = 400 nonCV = 50 正常に観測できる 遅れによってCV = 0に変換される CVR = 20% CVR = 10% モデルはこの事象を正と して学習してしまう CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRで 解離が発生してしまう →精度が悪化する 31

Slide 32

Slide 32 text

解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV = 50 -> 112 nonCV = 400 nonCV = 50 CVR = 20% CVR = 20% CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRの 乖離が小さくなる →精度が改善する 観測されたCVを 水増しする 32

Slide 33

Slide 33 text

IPWを用いたバイアスの補正 ● IPW: Inverse Probability Weighting, 逆確率重み付き推定 ○ 傾向スコア(Propensity Score, PS)をサンプルの重みとして用いる ○ 期待値の不偏一致推定を行う手法 ● 因果推論では介入効果(E[Y_1] - E[Y_0])の推定に使われる ● 機械学習では最小化したい誤差の推定に使われる 33

Slide 34

Slide 34 text

IPWのイメージ 図は安井『効果検証入門』より 34

Slide 35

Slide 35 text

どう傾向スコアを推定するか? ● 定義 ○ Y: 学習データ期間内にコンバージョンが観測されるか ○ C: コンバージョンが起きるか(本当に興味があるもの) ○ S: コンバージョンが学習期間内に正しく観測されるか,Propensity Score ○ X: 特徴量 学習データ内でラベルが1になる確率 = 真のラベルが1である確率 x 学習データ内でラベルが正しく観測される確率 そもそも予測したい ものが必要 ラベルが正しく観測される確率Sを推定する 35

Slide 36

Slide 36 text

ラベルが正しく観測される確率Sをどう推定するか? ● Sも遅れCVにより観測不可能 ● そこで過去のデータを使ってSを推定し,傾向スコアを得る ○ 遅れの分布が変わらないことを仮定 CVR予測 Sの推定 CV確定 CV未確定 CVが確定したデータでSを学習 Sを予測する -> 傾向スコアを得る 6/4 6/9(現在) 6/6 設定 ● CV確定期間: 3day ○ clickから3日までのCVを 有効なCVとする ● CVR予測の学習期間: 5day 学習データ 36

Slide 37

Slide 37 text

損失関数を定義する ● 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する ○ 損失関数: 二乗誤差 + 正則化項 ● その最小化によって本当に予測したい分布に対しての予測が可能に PSの逆数で重み付け 37

Slide 38

Slide 38 text

2. コンバージョン予測と遅れコンバージョン問題 2.1 コンバージョン予測とは? 2.2 遅れコンバージョン問題とその解決法 2.3 社会実装とトップカンファレンスでの採択 38

Slide 39

Slide 39 text

オフラインでの精度 遅れCVを考慮しないモデルや,既存手法(DFM)と比べて予測精度が上がっている 39

Slide 40

Slide 40 text

プロダクトへの導入結果 ● モデルをDynalystに導入し,RCTによる効果検証を行なった ● 遅れCVを考慮しないベースラインモデルとの比較 ● 売上, CVが増加した一方で,購買獲得効率(CPA)はほぼ変化なし 40

Slide 41

Slide 41 text

ML系トップカンファレンスでの論文採択 41 “A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback.” Yasui, Morishita, Fujita, and Shibata (WWW 2020)

Slide 42

Slide 42 text

● 計量経済学をやってきたからこそできる人工知能分野への貢献 ○ MLにはデータのバイアスによる問題が多くあるが,MLコミュニティでは無視されがち ○ CAの経済学チームがそういった課題を改善する活動してきた結果 ● プロダクトでRCTしてビジネスKPIを上げた点も評価された ○ MLの応用系のトップ会議では社会実装が重要視される ○ そういった事例がトップ会議に採択されたのは国内では珍しい ML系トップカンファレンスでの論文採択 42

Slide 43

Slide 43 text

3. 広告画像選択における バンディットとオフライン評価 43

Slide 44

Slide 44 text

3. 広告画像選択におけるバンディットとオフライン評価 3.1 バンディットとは? 3.2 バンディットのオフライン評価 3.3 オフライン評価とIPW 44

Slide 45

Slide 45 text

3. 広告画像選択におけるバンディットとオフライン評価 3.1 バンディットとは? 3.2 バンディットのオフライン評価 3.3 オフライン評価とIPW 45

Slide 46

Slide 46 text

ビジネス要件: どの広告画像を配信すればいい? 46 広告のイメージ たとえばAbemaTVだと..

Slide 47

Slide 47 text

とりあえずRCT? 47

Slide 48

Slide 48 text

テック企業でRCTってやりやすい? ● 確かにテック企業ではRCTはやりやすい ● ビジネス上の意思決定において重要な役割を担っているが... 48 over 20000 test / year over 500 test / year 参考: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing

Slide 49

Slide 49 text

● 広告画像の候補からもっとも効果が高いものを選びたい ● しかし,事前にどの広告画像が良いかは不明 ● RCTをする? ○ 各広告画像の効果を判断できるまでに同数の配信をする必要がある ○ 自動化(勝手にRCTして,勝手に良い画像を選ぶ)が難しい ○ 広告配信の目的は効果の高い広告画像を見つけることではなく配信全体で効果を上げること               バンディットを使う ● バンディットは配信全体の報酬(クリック数,購買数)を最大化する ○ バンディットが最適化するものと広告配信の目的がマッチ なぜ広告画像選択でバンディットを使うのか? 49

Slide 50

Slide 50 text

バンディットアルゴリズムとは 「複数のアームと呼ばれる候補から最も良いものを 逐次的に探すアルゴリズムのこと」 ● アームとは ○ RCTにおけるtreatment/control,以後の例では広告画像を指す ● 探索と活用をバランス良く行う ○ 「RCTをする」と「RCTの結果を使う」を同時に ● 累積期待報酬(累積因果効果)の最大化が目的 ● Susan Atheyも研究している ○ Econ x ML研究の第一人者 50

Slide 51

Slide 51 text

バンディット問題を解くための手法 ● Epsilon-Greedy ● Upper Confidence Bound (UCB) ● Thompson Sampling 51 Dynalystではこれを採用

Slide 52

Slide 52 text

Thompson Samplingとは ● それぞれのアームを「そのアームの報酬の期待値がすべての アームのうちで最大になる確率」で選択するロジック ● 言い換えると, 「良さそうなアームをそれが良さそうである確率で引く」 ● 実際にこの確率を計算することは困難だが... 52

Slide 53

Slide 53 text

ベータ分布を用いたThompson Sampling ● CTR ~ Beta(α, β)とする ○ α: #click, β: #not click ● アーム(広告画像)が選ばれるたびに事後分布を更新 ○ クリックされたら, α = α + 1 ○ クリックされなかったら,β = β + 1 Beta(3, 7) Beta(30, 70) Beta(300, 700) 広告表示回数が増えるごとに分布の形が変わっていく 53

Slide 54

Slide 54 text

Thompson Samplingにおける探索と活用 Beta(3, 7) Beta(30, 70) Beta(300, 700) 分布の裾野が広い. 小さな値も大きな値もサ ンプリングされる. (探索 > 活用) 正確なCTRがわかり,そ の付近の値がサンプリン グされる. (活用 > 探索) 54 各アームの事後分布からサンプリングされた値が最も高いアームを選択する

Slide 55

Slide 55 text

Thompson Samplingの具体例 55 1. click, not clickの数を集計 2. アームごとの集計結果から, Beta(1 + click, 1 + not click)というクリック率の事後分布を得る 3. 事後分布からサンプリングされた値が一番大きいアームを選択する a. アーム3が選ばれる確率は,「(この時点で)アーム3のクリック率の期待値が最も高い確率」に一致

Slide 56

Slide 56 text

Dynalystでのバンディット導入事例 ● 広告画像選択におけるバンディットの導入結果 ○ 青がバンディット,オレンジがランダム ○ 獲得コンバージョン数を比較 ● ランダムに選択する場合と比べてコンバージョン増 56

Slide 57

Slide 57 text

バンディットの拡張 ● 今まで紹介した例は多腕バンディットと呼ばれるもの ○ Multi Armed Bandit; MAB ○ 各リクエスト(試行)ごとの報酬がi.i.dであることを仮定 ● その拡張版であるコンテキスト付きバンディットを考える ○ Contextual Bandit; CB 57 …... candidate bandit selected

Slide 58

Slide 58 text

コンテキスト付きバンディット(CB)とは ● 報酬の期待値と分散がコンテキストごとに変わることを許す ○ コンテキスト: 時間,メディア情報,広告サイズ ○ コンテキストを考慮した広告画像選択が可能になる ● ある選択肢から別の選択肢の報酬の性質が推定できる ○ 広告画像の類似度などの考慮 58 …... candidate bandit context selected

Slide 59

Slide 59 text

3. 広告画像選択におけるバンディットとオフライン評価 3.1 バンディットとは? 3.2 バンディットのオフライン評価 3.3 オフライン評価とIPW 59

Slide 60

Slide 60 text

ビジネス要件: 広告画像選択ロジックの改善 ● プロダクトの要望: ロジック改善によるクリック,購買数のさらなる増加 ● DynalystではMABを用いて広告画像の選択を行っていた ● この選択ロジックの改善のため,CBを導入したい 60

Slide 61

Slide 61 text

Contextual Banditにおける良いモデルとは? ● 予測精度が高いモデル ≠ 良いモデル ● 報酬が多くなるモデル = 良いモデル 予測モデルの精度ならログデータを用いて簡単に測ることが できる(logloss, AUROC等) 報酬は...? 61

Slide 62

Slide 62 text

今度こそRCT!? 62

Slide 63

Slide 63 text

機械学習モデルのRCTにはコストがかかる RCTは重要.しかし何でもかんでもRCTできるわけではない 63

Slide 64

Slide 64 text

RCTのコスト: システム実装 64 手元で機械学習モデルを検証することは そこまで難しくない 例 ● 機械学習モデルを更新するためのバッチ実装 ● 推論サーバ側の実装 ● 何か異常が起きてないかのテスト / モニタリング 機械学習モデルをシステム上で動かすため のコストは大きい

Slide 65

Slide 65 text

RCTのコスト ● 同時に試せるパターン数に限界がある ○ 大量の特徴量やハイパーパラメータの組み合わせについてのRCTは困難 ○ 少なくともRCTする優先順位は必要 ● 新ロジックが良くない場合,売上/利益を下げてしまう ● 結果がわかるまで時間がかかる可能性がある 65 反実仮想を考えたい!

Slide 66

Slide 66 text

● 過去のログデータを用いて,仮に新ロジックが導入されていた場合, どのような報酬を得ていたかを推計する: オフライン評価 ○ RCTをする前にロジックの評価ができる ○ モデルの予測精度(logloss, auroc)でなく,報酬(興味のあるビジネス指標に近いもの)で評価 反実仮想を考える 66

Slide 67

Slide 67 text

オフライン評価の難しさ: セレクションバイアス 67 feature candidate X1 a,b,c,d,e a d X2 a,b,c,d,e c c eval NA 1 click 0 1 old logic new logic 既存ロジックと新ロジックの選択が異なる 場合,クリック有無は観測不可能 一致した場合,クリック有無を観測可能 Biased!!! 選択が一致したものだけで評価を行う ...? 配信データ シミュレーション 既存ロジックのログのデータの分布 ≠ 実際のデータの分布

Slide 68

Slide 68 text

バンディットをどうオフライン評価するか ● 新旧ロジックの選択が一致したもののみで評価を行う → バイアス ○ 興味の対象は既存ロジックと新ロジックが異なる選択をしていたときどういう報酬を得てい たか ● どうバイアスなく評価するか? 68 Replay Methodでオフライン評価ができる

Slide 69

Slide 69 text

Replay Method [Li 2012]とは ● ランダム選択から生まれるログを用いる ○ Dynalystでは一定割合でランダムに広告画像を選択している ● ランダムの選択と新ロジックの選択が一致すれば報酬の評価に使う ○ 一致しなければ使わない ● そこでは,評価に使えるか使えないかがランダムに決まる 69 評価に使えるデータ = 全体からランダムにサンプリングして得られたデータ と考えることができるため,unbiasedな評価が可能になる

Slide 70

Slide 70 text

Replay Methodの例 70 feature candidate X1 a,b,c,d,e a d X2 a,b,c,d,e c c X3 a,b,c,d,e d d X4 f,g,h f f X5 f,g,h g f eval NA 1 0 1 NA click 0 1 0 1 1 評価に使う 新ロジックをオフラインで評価した際の クリック率は2/3 評価に使わない 評価に使わない 配信データ シミュレーション

Slide 71

Slide 71 text

DynalystでのReplay Methodを使ったオフライン評価 オフライン評価の流れ 1. Replay MethodでCBのクリック率(CTR)をシミュレーション 2. 学習モデル / 特徴量 / ハイパーパラメータを変えて,よりCTRが高くなる設定を探す 最もCTRが高かった設定での結果↓ 71 青: CBのCTR(オフライン) 赤: MABのCTR(オンライン) オンラインでRCTして みよう! CTR Day

Slide 72

Slide 72 text

オンラインでRCT 72 ある広告主で CBが既存MABより 良くなった CTR Day

Slide 73

Slide 73 text

3. 広告画像選択におけるバンディットとオフライン評価 3.1 バンディットとは? 3.2 バンディットのオフライン評価 3.3 オフライン評価とIPW 73

Slide 74

Slide 74 text

Replay Methodの欠点 ● 評価の分散を下げるためにはより多くのランダム配信ログが必要 ○ 一方で,ランダム配信を増やすほど全体の効果は下がってしまう ● バンディットの配信ログを使って新ロジックを評価できないか? 74 IPW(Inverse Probability Weighting)を使って オフライン評価ができる イェール大 x サイバーエージェントの共同研究を紹介する “Efficient Counterfactual Learning from Bandit Feedback” Narita, Yasui, Yata (AAAI 2019)

Slide 75

Slide 75 text

IPWを使ったオフライン評価 75 75 feature click X1 1 a b X2 1 c c X3 0 b b X4 1 a a X5 1 b c eval NA 1 0 1 NA Aが選ばれる条件付き確率, モデルから計算可能 True Propensity Score selected arm selected arm

Slide 76

Slide 76 text

IPW (Estimated) 76 Estimated Propensity Score by Logistic Regression, GBDT, Random Forest 真のPSを用いるより推定されたPSを用いることで,オフライン評価の分散が小さくなる 詳しくは https://www.slideshare.net/shotayasui/l-05-bandit-with-causality
 feature click X1 1 a b X2 1 c c X3 0 b b X4 1 a a X5 1 b c eval NA 1 0 1 NA

Slide 77

Slide 77 text

4. おまけ: 実証産業組織論と機械学習の研究紹介 77

Slide 78

Slide 78 text

商品カテゴリ横断での離散選択モデル ● “Counterfactual Inference for Consumer Choice Across Many Product Categories” ○ Rob Donnelly, Francisco R. Ruiz, David Blei, and Susan Athey ● スーパーで同時に複数カテゴリの商品を買うようなケースの分析 ○ 例: バナナと洗剤とヨーグルトと肉のそれぞれから1 or 0 個買う ● 既存研究では1つのカテゴリ内での購買行動に注目していた ● カテゴリ横断したutility functionの推定に機械学習の手法が使わ れている 78

Slide 79

Slide 79 text

商品カテゴリを横断するメリット 79 ● カテゴリ横断で消費者の選好についての情報が得られる ○ price sensitivity ○ 辛いのが好き,ヘルシーなのが好き ○ 購入頻度が低い商品ほどこれらの情報が有用になる ● ある商品カテゴリでなく店舗全体での需要を考えられる ○ マーケティングの観点から有用

Slide 80

Slide 80 text

反実仮想における構造推定モデルの強み ● 機械学習モデル ○ 学習データと分布が変わらないデータについての予測が得意 ○ 例: ホテルの価格と需要 ■ 価格が高いときはホテルが満室で、価格が安いときは空室だらけ ■ ユーザは高い価格を好むのではなく,需要にあわせて価格が決められているからそうなっている ○ MLモデルは価格を上げる反実仮想について,需要が増えるような予測をしてしまう ● 構造推定モデル ○ この論文では火曜日と水曜日の間に価格が変わることに注目して価格の内生性を考慮 ○ 価格を上げる反実仮想について,需要への影響を正しく予測することができる 80

Slide 81

Slide 81 text

クーポンターゲティングへの応用 ● 割引クーポンによって購入確率が上がるユーザにクーポンを配布したい ○ つまり,価格を下げたときの購入確率の上昇幅を知りたい 81 クーポンなし クーポンあり このユーザに配布し たい ● 構造推定モデルでは ○ クーポン配布によって購入確率が上がるAさんにクーポンを 配布できる ● 機械学習モデルでは ○ 前ページのような予測: クーポン配布によって逆に購入確率 が下がるような予測をしてしまうので使い物にならない ○ クーポンを使うユーザ予測: Aさん以外にBさんにも配布して しまう Aさん Bさん Cさん

Slide 82

Slide 82 text

ほかの実証IO x MLの論文 ● Double/Debiased Machine Learning for Treatment and Causal Parameters ● Demand Analysis with Many Prices 82 Victor Chernozhukovが有名

Slide 83

Slide 83 text

5. テック企業で 経済学出身DSとして働く 83

Slide 84

Slide 84 text

5. テック企業で経済学出身DSとして働く 5.1 テック企業で働くことの面白さ 5.2 経済学出身DSの価値とは? 5.3 経済学出身DSとして研究にどう関わるか? 84

Slide 85

Slide 85 text

5. テック企業で経済学出身DSとして働く 5.1 テック企業で働くことの面白さ 5.2 経済学出身DSの価値とは? 5.3 経済学出身DSとして研究にどう関わるか? 85

Slide 86

Slide 86 text

自分の分析に対して即座にフィードバックが返ってくる ● ユーザからのリアルなフィードバック ○ 自分の施策によって,ユーザの行動がどう変わったかがすぐにわかる ○ フィードバックを分析し,施策を修正できる(高速にPDCAを回せる) ● それが売上 / 利益などのビジネス指標にも直結する ○ 「自分のおかげでXX円稼げた」といえる ● そういった環境はテック企業を除くと稀 ○ スピード感 vs 緻密な深堀り(研究など)のある種のトレードオフ 86

Slide 87

Slide 87 text

使いたいデータをデザインできる ● 実験のデザイン ○ データ生成過程を自分で設計できる ○ 興味があるパラメータを識別するためにはどんなRCTの設計が良いか? ○ 厳密なパラメータ推定にどこまで価値があるか?実験コストはどの程度か?を加味する ■ 例: 実験コスト高 / パラメータのサインがわかればいいときは,RCT以外の識別戦略を考える ● データログのデザイン ○ どういうデータを貯めておきたいかを自分で設計できる ■ 例: バンディットのオフライン評価にあたって,選ばれなかった選択肢のidとパラメータもロ グに残すようにした ○ そのデータでできることは何か?データを貯めるコストはどの程度か?を加味する 87

Slide 88

Slide 88 text

5. テック企業で経済学出身DSとして働く 5.1 テック企業で働くことの面白さ 5.2 経済学出身DSの価値とは? 5.3 経済学出身DSとして研究にどう関わるか? 88

Slide 89

Slide 89 text

データサイエンティスト(DS) ≠ リサーチャー ● 自分はDS ● リサーチャーではないが,研究に関わることもある ○ 目的は論文を書くことではなく,その技術を使ってプロダクトを成長させること ● DS or リサーチャーどっちのキャリアを選ぶ? ○ CAには両方いる ● 以降ではDSの話をする 89

Slide 90

Slide 90 text

経済学出身DSのつよみ ● ビジネスマンやエンジニアより経済学がちょっとわかる ○ バイアスに気づく能力 ■ 正確な評価ができるRCTの設計 ■ データ分析による正確な意思決定 ○ 経済学の知見を用いた機械学習やビジネス上の課題の解決 ● 経済学者よりビジネスやエンジニアリングがちょっとわかる ○ ビジネスの現場の課題感の把握 ○ システム的な実現可能性の考慮 90

Slide 91

Slide 91 text

経済学出身DSの価値とは ● 経済学 x 機械学習の知見で解けるタスクを作ること ○ プロダクトのビジネスモデルやシステムから課題を発見しどう解くべきか考える ○ 研究レベルの課題であれば,リサーチャーを巻き込んで一緒に解く ■ 遅れCVもそういう経緯でプロジェクトがスタート ● (リサーチャーと協力して)解いた課題をビジネス / システム運用に落とし込む ○ ここまでやって初めてプロダクトの価値となる ○ 泥臭いが面白い ● もっと広い目線で,マーケットが求める課題を経済学の知見で解けないか考える ○ そのためにはプロダクトのビジネスモデルだけでなく業界全体を知る必要がある 91

Slide 92

Slide 92 text

5. テック企業で経済学出身DSとして働く 5.1 テック企業で働くことの面白さ 5.2 経済学出身DSの価値とは? 5.3 経済学出身DSとして研究にどう関わるか? 92

Slide 93

Slide 93 text

ぼくの研究への関わり方 ● プロダクトで経済学 x 機械学習で解けそうな課題を見つける ● それを解くとプロダクトにとってどれくらい嬉しいのか考える ○ どれくらいのインパクトがあるか? ● リサーチャーと相談する ○ 解ける問題なのか?どう解くのか? ● プロダクトでシステム実装をする ○ それはプロダクトで実装可能か? ● プロダクトでRCTを行い,導入の意思決定をする ○ どうRCTを行うか?どう評価するか?全面導入する場合運用フェーズで問題はおきないか? 93 プロダクトへのインパクトを評価するためにはRCTが最も重要


Slide 94

Slide 94 text

RCTしないと機械学習モデルのビジネスインパクトは不明瞭 ● 横軸: ○ 既存モデルと新モデルのオフラインで の予測精度比(auroc, loglossなど) ● 縦軸: ○ 既存モデルと新モデルのRCTでの ビジネスKPIの比 (CVRなど) 150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019 “OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”

Slide 95

Slide 95 text

学術研究でもRCTは評価される “... This paper strikes a good balance between analytic and empirical results. The problem itself is grounded in a real-world issue without being overly specific to a single narrow area, and is beneficial in practice.” 遅れCV論文のレビュワーコメントより抜粋

Slide 96

Slide 96 text

実際RCTまでやっている論文ってどれくらい? ● WWW2020で調査 ● タイトル or 本文にadvertisingを含むもの: 100 ● うち,オンラインでRCTを行なったもの: 6 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも

Slide 97

Slide 97 text

実際RCTまでやっている論文ってどれくらい? ● WWW2020で調査 ● タイトル or 本文にadvertisingを含むもの: 100 ● うち,オンラインでRCTを行なったもの: 6 ● 内訳 ○ アメリカ: 3 (Etsy.com, Microsoft, Pinterest) ○ スウェーデン: 1 (Spotify) ○ 中国: 1 (Huawei) ○ 日本: 1 (CyberAgent) 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも 参考: KDD2019ではadvertising 57のうち14がRCTをしている advertisingではないが,NTT Docomoさんの論文がRCTまで行なって採択されている! もっと増やしていきたい! 欧米 or 中国発のグローバル テック企業がほとんど

Slide 98

Slide 98 text

RCTまで行けた遅れCVプロジェクト体制 ● メンバーはすべてCA社員 ○ Econ系は3 / 4 ● メンバーとその役割 ○ 安井: PM, アイディアの考案,手法の開発,オフライン検証 ○ 森下: 手法の開発,オフライン検証 ○ 藤田: プロダクトでのシステム実装,RCTの設計(DS) ○ 芝田: ライブラリlibffmへの機能追加 (リサーチエンジニア) ● リサーチャーとリサーチエンジニア,プロダクトのDSがうまく 協業できた

Slide 99

Slide 99 text

● 適切なRCTの設計の重要性 ○ バイアスのない評価をするための設計は当然必須 ○ 研究側とプロダクト側で実験したいものは必ずしも一致しない ■ 研究側: できるだけ論文になりやすいもの ■ プロダクト側: 売上や利益に直結 /既存システムの資産が流用 / 実験後もメンテしやすいもの ○ すり合わせないと,論文は書けるがプロダクトでは使えないものが出来上がる ● DSがプロダクトとしてのインセンティブマッチを担保すべき ○ ビジネスモデルやシステム構造の理解,最新の研究内容のキャッチアップが重要 ● プロダクトの真の価値を上げるような研究をする 経済学DSとして研究に関わる

Slide 100

Slide 100 text

まとめ 100

Slide 101

Slide 101 text

まとめ ● アドテクのさまざまなところで計量経済学の知見が使われている ○ コンバージョン予測と遅れコンバージョン ○ バンディットとオフライン評価 ● 実証IO x 機械学習の研究もある ● 経済学出身のDSとしてテック企業で働くことについて 101

Slide 102

Slide 102 text

参考リンク ● 企業の中の経済学 by Yusuke Kaneko ● Why Do Competitive Markets Converge to First-Price Auctions? ● A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback ● 効果検証入門 ● Bandit Algorithm and Causal Inference by Yasui Shota ● Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms ● Efficient Counterfactual Learning from Bandit Feedback ● Counterfactual Inference for Consumer Choice Across Many Product Categories ● 150 successful Machine Learning models: 6 lessons learned at Booking.com 102