Slide 1

Slide 1 text

ジオターゲティングにおけるUplift Modelling の応用
 CyberAgent, inc.
 サイバーエージェント AI Lab 森脇大輔
 
 
 2019年10月30日 第3回CFML勉強会


Slide 2

Slide 2 text

自己紹介
 AILab, 経済学チーム リサーチサイエンティスト
 ←AirTrack データサイエンティスト
 ←内閣府(経済財政白書、統計改革など)
 ←留学(ニューヨーク州立大学、経済学博士)
 ←内閣府(経済対策、金融政策など)


Slide 3

Slide 3 text

Uplift Modeling for Location-based online Advertising
 
 河中祥吾さん(NAIST, 8−9月博士インターン)との共同研究
 ACM SIGSPATIALのワークショップLocalRec2019に採択


Slide 4

Slide 4 text

AirTrack
 位置情報を用いたマーケティングのためのプラットフォーム
 - 数千万MAUの位置情報を収集・解析
 - 位置情報ベースのユーザーターゲティング
 - 来訪計測


Slide 5

Slide 5 text

ジオターゲティング市場
 世界的にも位置情報マーケティングは成長
 - FB, Twitterなどのソーシャルメディアが70%
 (資料)BIA/Kelsey

Slide 6

Slide 6 text

ジオターゲティングの例
 リアル店舗がある企業の広告配信


Slide 7

Slide 7 text

ジオターゲティングの例
 店舗がない地域のユーザーに広告しても無駄


Slide 8

Slide 8 text

ジオターゲティングの例


Slide 9

Slide 9 text

ジオターゲティングの例
 競合店舗に行くユーザーは購買意欲が高い


Slide 10

Slide 10 text

ジオターゲティングの例
 競合店舗に行くユーザーは購買意欲が高い
 趣味嗜好、社会的地位、経済的地位、日々の習慣、行動パターン、、、
 ジオターゲティングの手法は無限大!


Slide 11

Slide 11 text

課題感
 それぞれのジオターゲティングの手法が本当に効果的なのか
 数あるジオターゲティングの手法のなかで効果的なものはなにか
 どう組み合わせればいいのか


Slide 12

Slide 12 text

よりフォーマルに考えると
 マーケター(広告主)が本当に最大化したいのはレスポンスではなくリフト
 
 
 


Slide 13

Slide 13 text

よりフォーマルに考えると
 マーケター(広告主)が本当に最大化したいのはレスポンスではなくリフト
 
 
 リフトが高いユーザーを多様な位置情報から見つけられないか


Slide 14

Slide 14 text

よりフォーマルに考えると
 マーケター(広告主)が本当に最大化したいのはレスポンスではなくリフト
 
 
 リフトが高いユーザーを多様な位置情報から見つけられないか
 そうだね。アップリフトだね。


Slide 15

Slide 15 text

研究の意義
 位置情報を用いたアップリフトモデルによって効率的・効果的なターゲティングができる ことを示す
 付随的に従来のジオターゲティングに関する知見を示す
 


Slide 16

Slide 16 text

流れ
 アップリフトモデルを推定
 AUUCを最大にする位置情報ベースの特徴量X_iの最適な組み合わせを探す
 AUUCによって評価


Slide 17

Slide 17 text

アップリフトモデルの推定
 アップリフトモデル(再掲)
 
 よく使われる2つの手法(Gubela et al. 2019に詳細なレビュー)
 


Slide 18

Slide 18 text

アップリフトモデルの推定
 アップリフトモデル(再掲)
 
 よく使われる2つの手法(Gubela et al. 2019に詳細なレビュー)
 - 介入群と対照群でそれぞれについて推定して差分を計算する(Two-model)
 


Slide 19

Slide 19 text

アップリフトモデルの推定
 アップリフトモデル(再掲)
 
 よく使われる2つの手法(Gubela et al. 2019に詳細なレビュー)
 - 介入群と対照群でそれぞれについて推定して差分を計算する(Two-model)
 - Class Variable Transformation (CVT)によって一つのモデルで推定する (Jaskowski-Jaroszewicz 2012)


Slide 20

Slide 20 text

Class Variable Transformation(Jaskowski-Jaroszewicz 2012)


Slide 21

Slide 21 text


 XGBoostのような強い学習器が使える Class Variable Transformation(Jaskowski-Jaroszewicz 2012)


Slide 22

Slide 22 text

評価方法
 学習データと取り置きデータにわける
 学習データで学習
 取り置いたデータはさらに介入群と対照群に分ける
 Train hold-out control treatment

Slide 23

Slide 23 text

評価方法
 control treatment 介入群と対照群それぞれについてアップリフトスコア(Zス コア)の高い順に並べてコンバージョン率を比較する
 両者の差によってリフトが計算できる


Slide 24

Slide 24 text

評価方法
 累積のコンバージョンリフト率
 スコア順に並べた場合(赤)とランダムに並べた場合(青)
 


Slide 25

Slide 25 text

評価方法
 累積のコンバージョンリフト率
 スコア順に並べた場合(赤)とランダムに並べた場合(青)
 
 両者の差をAUUCと定義
 


Slide 26

Slide 26 text

特徴量の組み合わせ最適化
 127種類の位置情報ベースの特徴量について、AUUCを最大化する組み合わせを選択
 それぞれの特徴量を利用するかしないかの[0, 1]パラメータをAUUCに基づいて最適化 する
 Optuna神を使う
 
 
 
 XGBoost, 200回試行
 


Slide 27

Slide 27 text

実験
 データ
 - 某全国展開しているスポーツ用品ブランドのサマーセールキャンペーンのデータ
 - 配信対象者は数百万人
 - そのうち40000人ずつをA/Bテストのために利用 
 - アウトカムは店舗に来訪したかどうか


Slide 28

Slide 28 text

実験
 健全性チェック(Diemert et al. 2018)
 - 介入が本当に無作為だったのかをチェック
 - XGBoostを用いて介入の有無を予測する学習器を訓練しAUCがチャンスレートとお おきく違わないことを確認(Classifier Two Sample test)


Slide 29

Slide 29 text

実験
 特徴量(127)
 - 活動に関する特徴量
 - 来店頻度
 - 直近来店日
 - 通勤距離
 - 来店距離(居住地・勤務地) 
 - 外出時間
 - 労働時間
 - 通勤時間(行き帰り、差分) 
 - POI来訪頻度
 - ログ数


Slide 30

Slide 30 text

実験
 特徴量(127)
 - 活動に関する特徴量
 - 来店頻度
 - 直近来店日
 - 通勤距離
 - 来店距離(居住地・勤務地) 
 - 外出時間
 - 労働時間
 - 通勤時間(行き帰り、差分) 
 - POI来訪頻度
 - ログ数
 - 地理情報に関する特徴量
 - 国勢調査250mメッシュに基づく各種統計 
 - 公示地価


Slide 31

Slide 31 text

結果
 Optunaによる最適化の結果67の特徴量が選ばれた
 - 選択された特徴量
 - 距離や活動時間に関する特徴量(7) 
 - 人口密度などの国勢調査(11) 
 - 47のPOI来訪頻度
 - 選択されなかった特徴量
 - 来訪頻度
 - 直近来店日
 - ログ数


Slide 32

Slide 32 text

結果
 適切に並べることで上位25%までのユーザーに広告を配信することで費用対効果を大 幅に改善することが見込まれる


Slide 33

Slide 33 text

結果
 国勢調査を削除した結果


Slide 34

Slide 34 text

結果
 POIを削除したモデルの結果


Slide 35

Slide 35 text

結果
 広告効果の高いグループは外出時間が長く、スポーツ用品店によく行き、人口密度が 高く、地価が高いところに住み、店舗までの距離が長い


Slide 36

Slide 36 text

考察
 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった
 →ロイヤルティは関係ない?
 


Slide 37

Slide 37 text

考察
 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった
 →ロイヤルティは関係ない?
 店舗からの距離が近いユーザーより遠いユーザーに効果的だった
 →広告効果は移動コストが高い層に効く?
 
 


Slide 38

Slide 38 text

考察
 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった
 →ロイヤルティは関係ない?
 店舗からの距離が近いユーザーより遠いユーザーに効果的だった
 →広告効果は移動コストが高い層に効く?
 ログ数は影響なし
 →来店計測や広告配信頻度は関係ない?他の特徴量で代替されている?
 いずれにしてもジオターゲティングの有効性は示せた
 国勢調査が意外に効果的


Slide 39

Slide 39 text

まとめ
 ジオターゲティングにアップリフトを用いることで最適な特徴量の組み合わせを探した。
 


Slide 40

Slide 40 text

まとめ
 ジオターゲティングにアップリフトを用いることで最適な特徴量の組み合わせを探した。
 付随的にマーケティングに関する知見を得ることができた
 


Slide 41

Slide 41 text

まとめ
 ジオターゲティングにアップリフトを用いることで最適な特徴量の組み合わせを探した。
 付随的にマーケティングに関する知見を得ることができた
 今後、アップリフトを明示的に広告配信に活用する方策を研究開発していきたい


Slide 42

Slide 42 text

参考文献
 Gubela, R., Bequé, A., Lessmann, S., Gebert, F.: Conversion Uplift in E-Commerce: A Systematic Benchmark of Modeling Strategies. International Journal of Information Technology & Decision Making. 18, 747–791 (2019). https://doi.org/10.1142/S0219622019500172. 
 Jaskowski, M., Jaroszewicz, S.: Uplift modeling for clinical trial data. In: ICML Workshop on Clinical Data Analysis (2012).
 Diemert, E., Betlei, A., Renaudin, C., Amini, M.-R.: A Large Scale Benchmark for Uplift Modeling. In: Proceedings of the AdKDD and TargetAd Workshop, KDDavid Lopez-Paz and Maxime Oquab. 2016. 
 Lopez-Paz, D., Oquab, M.: Revisiting classifier two-sample tests. arXiv preprint arXiv:1610.06545. (2016).