uplift modeling

Uplift Modeling

1部 1．Uplift Modelingとは 1-1. 目的 1-2. A/Bテスト 1-3. A/Bテストの問題点 1-4.
Uplift Modelingによる解決 1-5. ４つのセグメント 2．Uplift Modelingの具体的手法 2-1. 全体のフロー 2-2. モデル構築～結果解釈のフロー 2-3. 予測結果の解釈 2-4. 問題点

1．Uplift Modelingとは

1-1. Uplift Modelingとは－目的ある施策が本当に効果があるのかを検証したいときに使用される機械学習の手法主に医療やマーケティングの分野で使われる手法これらの分野では、ある施策の効果を検証して、施策を実行するか判断したいときがある例）
医療どのような患者に薬が作用するのかマーケティングどのような顧客にダイレクトメールを送ると購入につながるのか

1-1. Uplift Modelingとは－目的ある施策が本当に効果があるのかを検証したいときに使用される機械学習の手法＜できること＞因果推論の観点では… 施策の本当の効果がわかるビジネスの観点では…
施策を効率化し、施策の効果を増幅することができる機械学習技術の観点では… データからパターンを見出し、ある特定のクラスタに分けることができるインプット／アウトプットの観点では… A/Bテストの結果をインプットとし、施策の対象候補を一部に絞った結果をアウトプットとなる

1-1. Uplift Modelingとは－目的【実例】 • USバンクアメリカ最大の地方銀行＜適用例＞
• 施策：住宅担保ローン口座開設のダイレクトメールを既存の顧客に送る＜実績＞ • 投資回収率（ROI）は以前の販促活動の５倍増（７５％→４００％） • 販促経費を４０％削減 • 増収３００％以上・『ヤバい予測学「何を買うか」から「いつ死ぬか」まであなたの行動はすべて読まれている』エリック・シーゲル (著)、矢羽野薫 (翻訳) 、CCCメディアハウス、2013年、241-243p

1-1. Uplift Modelingとは－目的・『ヤバい予測学「何を買うか」から「いつ死ぬか」まであなたの行動はすべて読まれている』エリック・シーゲル
(著)、矢羽野薫 (翻訳) 、CCCメディアハウス、2013年、241-243p DMを送ると口座開設してくれやすい客・ローン契約している（17.3%以上返済済）・リボ払い枠を9%以上使っている・特定のライフスタイルを持っている USバンクこの顧客集団を見つけられる

1-1. Uplift Modelingとは－目的ある施策が本当に効果があるのかを検証したいときに使用される機械学習の手法施策の効果を検証する手法に、A/Bテストがある

1-2. Uplift Modelingとは－ A/Bテストテスト対象を統制群と実験群に分け、実験群のみに介入行為を行い、それぞれの群の反応の差から介入の効果を計る例）ある通販会社で、商品Aを売りたいときに、DMを送って販促を行いたいこのとき、A/Bテストを用いるとすると…
介入行為：DMを送ること反応：商品Aを買うこと（コンバージョン）実験群：DMを送る顧客統制群：DMを送らない顧客効果：反応の差＝商品Aを買う顧客がどれだけ増えたか

1-2. Uplift Modelingとは－ A/Bテストテスト対象を統制群と実験群に分け、実験群のみに介入行為を行い、それぞれの群の反応の差から介入の効果を計る介入行為：DM送付統制群実験群
通販会社反応：購入

1-2. Uplift Modelingとは－ A/Bテストテスト対象を統制群と実験群に分け、実験群のみに介入行為を行い、それぞれの群の反応の差から介入の効果を計る統制群実験群 DM無送付
DM送付購入者数統制群実験群 DM無送付 DM送付購入者数差がある効果あり効果なし？差がない

1-2. Uplift Modelingとは－ A/Bテストテスト対象を統制群と実験群に分け、実験群のみに介入行為を行い、それぞれの群の反応の差から介入の効果を計る統制群実験群 DM無送付
DM送付購入者数 DM無送付 DM送付購入者数 DM無送付 DM送付購入者数男性女性本当の効果はこうだったかもしれない男性には購入率を4倍に押し上げる効果があり女性には購入率を1/4に押し下げる効果があった

1-3. Uplift Modelingとは－ A/Bテストの問題点 A/Bテストでは、介入で本当に効果があったか(＝純効果)を計りにくい本当に介入すべき対象がわからない純効果によって、介入する対象を変えたほうが全体の効果は高くなる純効果を推測するには、対象を変数によって区切ることが必要となる単純な変数で区切ることは、A/Bテストでもできる
しかし、複雑な変数の条件で区切ったり、究極的には個別の対象間の比較はA/Bテストではできないこれは、実験群と統制群の対象が違うことに起因する統制群実験群 ≠

1-4. Uplift Modelingとは－ Uplift Modelingによる解決 Uplift Modelingでは、同一の対象に対してテストを疑似的に行うことによって、純効果を予測する介入ありの反応介入なしの反応
介入ありの反応と介入なしの反応を機械学習モデルで予測する同一対象予測

1-4. Uplift Modelingとは－ Uplift Modelingによる解決 Uplift Modelingでは、同一の対象に対してテストを疑似的に行うことによって、純効果を予測する同一
対象に対してテストできる対象間の比較ができる変数に対する反応が評価できる純効果がわかる

1-5. Uplift Modelingとは－４つのセグメント Uplift Modelingでは、純効果から全体の効果を最大化するために、対象を４つのセグメントに分類する反応
なし統制群反応あり実験群反応なし反応あり

2．Uplift Modelingの具体的手法

2-1. Uplift Modelingの具体的手法ー全体のフロー＜施策策定＞介入行為と介入対象を決める A/Bテストを行う＜分析＞モデル構築
介入候補に対する予測結果の解釈（介入候補から介入対象を決める）＜実行＞介入を実行する介入の結果を計測する

2-2. Uplift Modelingの具体的手法ー分析のフロー原始的な手法である、Two-Model Approachを使って説明する実験群と統制群のデータそれぞれに対してモデルを作る（２つ作る）統制群実験群
訓練データモデル訓練データモデルテストデータ統制群実験群

2-2. Uplift Modelingの具体的手法ー分析のフローテスト対象を二つのモデルに入力し、介入あり／介入なしの反応を予測し、二つの結果を統合して解釈するテストデータ介入ありの予測
介入なしの予測実験群のモデル統制群のモデル分析結果

2-3. Uplift Modelingの具体的手法ー結果の解釈分析対象の結果は、介入ありの反応確率、介入なしの反応確率、実験群か統制群か、反応ありか反応なしか、といった変数を持つ ID t_prob c_prob
is_treat is_cv A 0.3 0.3 0 0 B 0.2 0.8 1 0 C 0.5 0.1 1 1 D 0.9 0.9 1 0 E 0.9 0.3 1 0 * Treat(t): 実験群 Control(c):統制群 Cv:コンバージョン、反応に相当

2-3. Uplift Modelingの具体的手法ー結果の解釈横軸にuplift score、縦軸にliftをとったグラフを解釈する 1.Uplift score データ個別の介入の効果
2. lift データ全体の介入の効果介入対象を決めるための指標 3.AUUC Base lineとliftの間の面積モデルの評価指標

2-3. Uplift Modelingの具体的手法ー結果の解釈 uplift scoreは、介入による効果の指標 1.Uplift score データ個別の介入の効果

ID 確率 A 0.3 B 0.2 C 0.5 D 0.9
… ID 確率 A 0.3 B 0.8 C 0.1 D 0.9 … 2-3. Uplift Modelingの具体的手法ー結果の解釈 uplift scoreは、介入による効果の指標 ID score A 1 B 0.25 C 5 D 1 … ÷ ＝ uplift score = 𝑝 𝑟 = 1 𝑥; 𝑡𝑟𝑒𝑎𝑡 𝑝 𝑟 = 1 𝑥; 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 = 介入ありの反応確率介入なしの反応確率 𝑤ℎ𝑒𝑟𝑒 𝑟 ቊ 1 𝑖𝑓 𝑡𝑎𝑟𝑔𝑒𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑒𝑑 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 介入によって反応確率が何倍になったか５倍

2-3. Uplift Modelingの具体的手法ー結果の解釈 uplift scoreを降順に並べると、セグメントに分けることができるまず、uplift scoreを降順に並べ、ランクを付ける ID
score A 1 B 0.25 C 5 D 1 … ID rank score C 1 5 … A 100 1 D 101 1 … B 10000 0.25

2-3. Uplift Modelingの具体的手法ー結果の解釈下記は横軸にランク降順に10パーセンタイル分割し、縦軸にパーセンタイル別に実験群／統制群ごとの反応率を示した図上位に介入すると反応数が多くなるように見える説得可能天邪鬼
鉄板／無関心

2-3. Uplift Modelingの具体的手法ー結果の解釈 Liftは介入対象を決めるための指標最もLiftが高いスコア以上の対象に介入すると反応数は最大になる 2. lift データ全体の介入の効果
介入対象を決めるための指標

2-3. Uplift Modelingの具体的手法ー結果の解釈 Liftは、そのデータのスコア以上のデータ群全てに介入すると増える累積反応数を示すあるランクのリフトは以下の式で示される 𝐿𝑖𝑓𝑡𝑟𝑎𝑛𝑘 = σ
𝑖=1 𝑟𝑎𝑛𝑘 𝑟𝑖 𝑥𝑖 ; 𝑡𝑟𝑒𝑎𝑡 𝑛 𝑥𝑟𝑎𝑛𝑘 𝑡𝑟𝑒𝑎𝑡 − σ 𝑖=1 𝑟𝑎𝑛𝑘 𝑟𝑖 𝑥𝑖 ; 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 𝑛 𝑥𝑟𝑎𝑛𝑘 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 ⋅ 𝑛 𝑥𝑟𝑎𝑛𝑘 𝑡𝑟𝑒𝑎𝑡 n Xrank = count X up to rank 𝑟 ቊ 1 𝑖𝑓 𝑡𝑎𝑟𝑔𝑒𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑒𝑑 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 あるランクのlift そのランクのスコア以上の実験群の反応率そのランクのスコア以上の統制群の反応率そのランクのスコア以上の実験群の総数介入したことにより増えた反応率ー × ＝文章では以下の通り

2-3. Uplift Modelingの具体的手法ー結果の解釈 Liftは、そのデータのスコア以上のデータ群全てに介入すると増える累積反応数を示す ID Rank Score is_treat
is_cv Lift B 1 5 0 0 0 E 2 3 1 1 1 A 2 1 0 1 0.5 D 3 1 1 0 0 C 4 0.25 0 1 -0.32 ID T cnt T cv C cnt C cv T cvr C cvr Lift 計算式 (Tcvr – Ccvr) * tcnt B 0 0 1 0 0 0 (0-0)*0=0 E 1 1 1 0 1 0 (1-0)*1=1 A 1 1 2 1 1 0.5 (1-0.5)*1=0.5 D 2 1 2 1 0.5 0.5 (0.5-0.5)*2=0 C 2 1 3 2 0.5 0.66 (0.5-0.66)*2=-0.32

2-3. Uplift Modelingの具体的手法ー結果の解釈 AUUC(Area of Under Uplift Curve)はモデルの性能を示す指標である
3.AUUC Base lineとliftの間の面積モデルの評価指標

2-3. Uplift Modelingの具体的手法ー結果の解釈介入全体の効果はAUUCに比例するので、これをUplift Modelingの精度として定義するあるスコア以上の対象に介入すると決める、ということは、上位に説得可能な対象ができるだけ集まったほうが、全体の効果は大きくなるということになる上位に説得可能な対象ができるだけ集まると、Liftは最大効率で増加する
また、Liftの増加量は大きくなり、下位は逆の動きになるつまりこの場合、AUUCの形は次第に上に凸になる AUUCは、モデルの性能の比較やモデルのパラメータチューニングをするときに用いる

2-3. Uplift Modelingの具体的手法ー結果の解釈介入全体の効果はAUUCに比例するので、これをUplift Modelingの精度として定義する台形の面積＝（上底＋下底）×高さ÷２

2-3. Uplift Modelingの具体的手法ー結果の解釈 AUUCは、liftとbase lineに囲まれた面積を全データ数で割った（正規化した）値 AUUC = 1
N ෍ i=1 N Lifti − baselinei 以下の式で示される（総データ数をN）差を足す

2-3. Uplift Modelingの具体的手法ー結果の解釈 base lineは、ランダムにその割合までのデータに介入した場合の想定Lift base lineは、スコア最高値のデータのLiftを0として、最後のデータのリフトに一致するような傾きの直線（青線）
𝑓 𝑟𝑎𝑛𝑘 = 𝐿𝑖𝑓𝑡𝑁 𝑁 ∙ 𝑟𝑎𝑛𝑘 最後のデータのリフトに対する 1データの増加率ランク × 横軸をランク→スコアにすると、曲線になる

2-3. Uplift Modelingの具体的手法ー結果の解釈

2部 1．Two Model Approachの問題点 2．Uplift Modelingの派生モデル・派生モデルの類型と目的・回帰モデル・Class Variable
Transformation ・決定木モデル・SBUT 3. 各モデルの実装

1．Two Model Approachの問題点

Two Model Approachの問題点モデル利用上の問題点がある・モデルのパラメータチューニングが困難・モデルの解釈が困難・AUUCが最良となるようなモデルのパラメータを探索できるが、コーディングの難度が高くなり、試行するパラメータの組み合わせも増えるため、パラメータチューニングが困難となる・モデルの変数に対する評価を行うと、反応に関係のあるデータの
パターンがわかる二つのモデルだと、二組の評価結果となるので解釈が困難 ex.ロジスティック回帰だと偏回帰係数、決定木だと重要度など

Two Model Approachの問題点そして、モデルの構造にも問題があり、現実の問題でうまくいくことは稀 Two Model Approachにおいて、各モデルの目的はアップリフトの予測ではなく、各モデルに割り当てられた群の反応の予測反応が介入より他の変数に従う場合には、その変数を重視して反応を予測をするようなモデルになる
この場合、反応の予測がアップリフトの予測につながらないつまり、介入の効果を無視しがちなモデルになるそして、実は現実の問題はほとんどそうである Nicholas J. Radcliffe & Patrick D. Surry (2011) “Real-World Uplift Modelling with Significance-Based Uplift Trees“, p16-17

Two Model Approachの問題点 Two Model Approachは、介入より大きい効果があると無視しがちになる 0 800 0.8 介入の
特徴量主効果の特徴量反応確率 1 800 0.801 Two Model Approach 介入効果の差が見えない僅かな特徴量を無視する現実では反応に対する主効果よりも介入による効果のほうが小さいことがほとんど例）飲食店：クーポンより、料理の好みや店舗への距離など電化製品：CMでよく流れるかより、値段や性能などなど… 差がわからない (0)

Two Model Approachの問題点 One Model Approachは、介入効果の差を考慮できる 0 800 0.8 介入の
特徴量主効果の特徴量反応確率 1 800 0.801 1 800 0.801 0 800 0.8 Two Model Approach One Model Approach 介入効果の差が見えない僅かな特徴量を無視する考慮できる介入効果の差がわかる差がわからない (0) 差がわかる (0.001) 0.001

Two Model Approachの問題点 One Model Approachならこれらの問題を解決できる Two Model Approachの問題・モデルのパラメータチューニングが困難
・モデルの解釈が困難・介入より大きい効果があると無視しがちになる → One Model Approachならすべて解決できる

2．Uplift Modelingの派生モデル

派生モデルの類型と目的 Two Model Approach Mouloud Belbahri , Alejandro Murua, Olivier
Gandouet, and Vahid Partovi Nia, “Uplift Regression: The R Package tools4uplift” 2019 Yuta Saito, Hayato Sakata and Kazuhide Nakata, ”Doubly Robust Prediction and Evaluation Methods Improve Uplift Modeling for Observational Data” 2019, p468-469 ・回帰モデル CVT(Class Variable Transformation) ・決定木モデル DTUM(Decision Tree Uplift Model) SBUT(Significance-Based Uplift Tree) DBUT(Divergence-Based Uplift Tree) URF(Uplift Random Forest /ensembled DTUM) CTS(Contextual Treatment Selection) ・SVMモデル Uplift Support Vector Machine One Model Approach ・TOT/TOM (Transform Outcome (Tree) Method) ・SDRM(Switch Doubly Robust Method) ・CCIT/CCIF(Causal Conditional Inference Tree/Forests) （前述の問題の解決） A/Bテスト以外のデータを使えないか Causal Conditional Inference Uplift Modeling

Class Variable Transformation

回帰モデルー Class Variable Transformation 目的変数を変形し、Upliftそのものを予測する変形介入反応 1
1 1 0 0 1 0 0 介入を考慮した反応値 ? ? ? ? 介入という区別をなくすと、介入ありの反応と介入なしの反応の区別がつかない介入を考慮した反応値に変形する必要がある

回帰モデルー Class Variable Transformation 学習フェーズ：目的変数を変形し、一つのモデルで学習する Two Model Approach Class
Variable Transformation 実験群モデル統制群モデル実験群／統制群変形学習

回帰モデルー Class Variable Transformation 予測フェーズ：予測結果を変形し、Upliftそのものを導出する ID 確率 A 0.3
B 0.2 C 0.5 D 0.9 … ID 確率 A 0.3 B 0.8 C 0.1 D 0.9 … ID score A 0 B -0.6 C 0.4 D 0 … - ＝ Two Model Approach Class Variable Transformation ID 確率 A 0.5 B 0.8 C 0.7 D 0.5 … ID score A 0 B -0.6 C 0.4 D 0 … 変形予測 CV率0.4% アップ

回帰モデルー Class Variable Transformation では、どうやって目的変数を変形するか介入効果 (Treatment Effect)を直接予測する下式のように定義
𝑇𝐸𝑖 = 𝑃 𝑌𝑖 = 1 𝑋1 … 𝑋𝑚 , 𝐺 = 𝑇 − 𝑃 𝑌𝑖 = 1 𝑋1 … 𝑋𝑚 , 𝐺 = 𝐶 ある対象のある対象の介入効果＝介入ありの反応確率ー介入なしの反応確率 Notation: サンプル集合：N 特徴量ベクトル： Xi1 … Xim ∈ R 反応：Yi ∈ {0,1} 介入：Gi ∈ {T, C} https://qiita.com/usaito/items/af3fa59d0ee153a70350 M Jaskowski, S Jaroszewicz（2012）”Uplift modeling for clinical trial data”

回帰モデルー Class Variable Transformation 以下のような変数Zを導入し、これを目的変数とする介入ありの反応ありor介入なしの反応なしが1、それ以外が0 説得可能に思われるデータを1にしている 𝑍𝑖 ቐ
1 𝑖𝑓𝐺𝑖 = 𝑇 𝑎𝑛𝑑 𝑌𝑖 = 1 1 𝑖𝑓𝐺𝑖 = 𝐶 𝑎𝑛𝑑 𝑌𝑖 = 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 このとき、TE（介入効果）を下式で表すことができる（式変形後述） 𝑇𝐸𝑖 = 2𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 − 1

𝑇𝐸𝑖 = 2𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 −
1 𝑍𝑖 ቐ 1 𝑖𝑓𝐺𝑖 = 𝑇 𝑎𝑛𝑑 𝑌𝑖 = 1 1 𝑖𝑓𝐺𝑖 = 𝐶 𝑎𝑛𝑑 𝑌𝑖 = 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 回帰モデルー Class Variable Transformation 全体の流れ実験群／統制群変形学習予測 ID 確率 A 0.5 B 0.8 C 0.7 D 0.5 … ID score A 0 B -0.6 C 0.4 D 0 … 変形

回帰モデルー Class Variable Transformation 𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1
… 𝑋𝑖𝑚 = 𝑃 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝑇 𝑃 𝐺𝑖 = 𝑇 𝑋𝑖1 … 𝑋𝑖𝑚 +𝑃 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 𝑃 𝐺𝑖 = 𝐶 𝑋𝑖1 … 𝑋𝑖𝑚 = 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝑇 𝑃 𝐺𝑖 = 𝑇 𝑋𝑖1 … 𝑋𝑖𝑚 +𝑃 𝑌𝑖 = 0 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝐶 𝑃 𝐺𝑖 = 𝐶 𝑋𝑖1 … 𝑋𝑖𝑚 = 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝑇 𝑃 𝐺𝑖 = 𝑇 +𝑃 𝑌𝑖 = 0 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 𝑃 𝐺𝑖 = 𝐶 = 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝑇 𝑃 𝐺𝑖 = 𝑇 + 1 − 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 𝑃 𝐺𝑖 = 𝐶 = 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝑇 ⋅ 1 2 + 1 − 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 ⋅ 1 2 2𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑛 = 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝑇 + 1 − 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝐶 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝑇 − 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺 = 𝐶 = 2𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 − 1 𝑇𝐸𝑖 = 2𝑃𝑖 𝑍𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 − 1 全確率の法則による変形 Z=1のとき、介入ありの反応あり OR 介入なしの反応なしつまり、G=TのときY=1 OR G=CのときY=0 1.ランダム化の仮定介入の有無が変数に依存しなくなるため 𝑃 𝐺𝑖 𝑋𝑖1 … 𝑋𝑖𝑚 = 𝑃 𝐺𝑖 より 2.実験群と統制群の割合が同じである仮定 𝑃 𝑌𝑖 = 0 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 = 1 − 𝑃 𝑌𝑖 = 1 𝑋𝑖1 … 𝑋𝑖𝑚 , 𝐺𝑖 = 𝐶 より P Gi = T = P Gi = C = 1 2 より両辺に2を掛けると、1/2が消える移行して整理すると、左辺がTEの形になる式変形

回帰モデルー Class Variable Transformation メリット／デメリットメリット・目的変数を変形しさえすれば、どんなモデルでも使えるデメリット・実験群と統制群がランダムに割付されていなければならない
・反応や介入が二値の場合にしか使えない

Significance-Based Uplift Tree

決定木モデル－ SBUT 決定木のアップリフトモデリング全体の概観 Nicholas J. Radcliffe & Patrick D.
Surry (2011) “Real-World Uplift Modelling with Significance-Based Uplift Trees “ ・Upliftの差が大きくなるようにノードを分割できる説明変数と水準を選択し、ノードを分割していく・ノードそれぞれでUpliftを計算する・Upliftの差を計る分割基準は複数提案されている Uplift＝5% Uplift=1% Uplift=14% X > 5 学習・作成した決定木にデータを入力し、所属したノードのUpliftを予測値とする予測

決定木モデル－ SBUT SBUTでは、分割基準に統計有意性(Significance)の概念を導入している分割基準とは、通常の決定木でいう不純度の概念 ex. ジニ係数、情報エントロピー.. SBUTの分割基準は、線形回帰モデルの偏回帰係数のt統計量

決定木モデル－ SBUT 情報利得計算ループ開始条件：変数と水準の組み合わせの数すべてデータ変数と水準を決定し、分割情報を付与
線形回帰モデルを構築情報利得を計算ループ終了ノード分割ループ開始ノード分割ループ終了情報利得計算情報利得が最も大きい基準でノード分割終了開始情報利得計算分割後ノードの Upliftを計算

決定木モデル－ SBUT １．ある変数と水準を決め、二つのノードに分割するそれぞれのデータに対して、右ノードか左ノードかの変数を付与する２．以下の線形予測子を持つ線形回帰モデルを構築する入力データはこの線形モデルにあわせる形で成形する 𝑝𝑖𝑗 =
μ + α𝑖 + β𝑗 + γ𝑖𝑗 *notation 𝑝：反応確率 𝑖：介入の有無 𝑇: 1 𝐶: 0 𝑗：分割先 𝑅: 1 𝐿: 0 μ：バイアス項 α：介入の有無 β：分割先 γ：介入と分割の交互作用項３．上記交互作用項γ𝑇𝑅 のt検定量の二乗値を計算し、これをこの分割の情報利得とする情報利得計算ループ開始条件：変数と水準の組み合わせの数すべて 1.変数と水準を決定分割情報を付与 2.線形回帰モデルを構築 3.情報利得を計算ループ終了情報利得計算

決定木モデル－ SBUT 交互作用項γ𝑇𝑅 は、分割による左右のノード・同ノードの介入有無のグループのアップリフトの差を説明する項となる α is_R β is_T
γ α*β E[cv] p 0 0 0 0.005 0 1 0 0.015 1 0 0 0.03 1 1 1 0.17 5% 1% 14% X > 5 TL: 1.5% CL: 0.5% TR: 17% CR: 3% α/β/γについて集計 α is_R β is_T γ α*β is_cv 0 0 0 1 0 1 0 0 1 0 0 0 1 1 1 1 … CL TL CR TR γ𝑇𝑅 ＝TRとそれ以外のグループとのUplift の差を説明する項 TRのみ1になる 𝑝𝑖𝑗 = μ + α𝑖 + β𝑗 + γ𝑖𝑗 に入力するデータ

決定木モデル－ SBUT 交互作用項γ𝑇𝑅 のt検定量とは、交互作用項γ𝑇𝑅 に係数の信頼性を考慮した値である tγTR 2 = γTR
2 } s2{γTR 偏回帰係数γの大きさに比例する二乗するのは、偏回帰係数が負値となる場合もあるためまた、 } s2{γTR 、偏回帰係数γの分散に反比例するこれは、係数の信頼性と考える（小さいほど信頼性が高い）偏回帰係数γの分散の計算には、残差が用いられているため、モデルの信頼性、ひいては、モデルが解釈しやすいようにデータがうまく分割できるようになっているか、と考えてもよい※ ※詳細な導出は複雑なので省略する

決定木モデル－ SBUT メリット／デメリットメリット・決定木の分割ルールを確認すると、４セグメントよりさらに詳細に対象を分けることができる・反応が連続値でも適用できる（介入が複数でも可能かどうかには言及していなかった）デメリット・決定木ベースなので、他の手法より比較的過学習しやすい
※過学習を防ぐため、SBUTでは情報利得へのペナルティやPruningについても言及していたが、今回の説明では省略した（Appendixに記載）

決定木モデル－ SBUT ・『ヤバい予測学「何を買うか」から「いつ死ぬか」まであなたの行動はすべて読まれている』エリック・シーゲル (著)、矢羽野
薫 (翻訳) 、CCCメディアハウス、2013年、241-243p DMを送ると口座開設してくれやすい客・ローン契約している（17.3%以上返済済）・リボ払い枠を9%以上使っている・特定のライフスタイルを持っている USバンクこの顧客集団を見つけられる

3部 1．準実験法・A/Bテストができないとき・準実験法の概要・回帰分析・傾向スコア 2．準実験法ベースのUplift Modeling ・TOM ・SDRM
3. 各モデルの実装

派生モデルの類型と目的 Two Model Approach Mouloud Belbahri , Alejandro Murua, Olivier
Gandouet, and Vahid Partovi Nia, “Uplift Regression: The R Package tools4uplift” 2019 Yuta Saito, Hayato Sakata and Kazuhide Nakata, ”Doubly Robust Prediction and Evaluation Methods Improve Uplift Modeling for Observational Data” 2019, p468-469 ・回帰モデル CVT(Class Variable Transformation) ・決定木モデル DTUM(Decision Tree Uplift Model) SBUT(Significance-Based Uplift Tree) DBUT(Divergence-Based Uplift Tree) URF(Uplift Random Forest /ensembled DTUM) CTS(Contextual Treatment Selection) ・SVMモデル Uplift Support Vector Machine One Model Approach ・TOM(Transform Outcome Method) ・SDRM(Switch Doubly Robust Method) A/Bテスト以外のデータを使えないか Causal Conditional Inference Uplift Modeling

A/Bテストができないとき

A/Bテストができないとき  A/Bテスト  介入の効果を計るためのテスト主効果介入効果主効果統制群
実験群ランダム化主効果介入効果主効果統制群実験群複数標本化主効果介入効果主効果介入なし介入あり片方が欠測する個人比較 • ある個人に対して介入したときと介入しなかったときの反応の差は介入効果と言えそう • しかし、どちらか一方しか観測できないランダム化されていない群比較 • そこで、介入する群（実験群）と介入しない群（統制群）の反応の差を介入効果として利用したい • しかし、群間で特徴量（主効果）が異なるため単純比較できないランダム化された群比較 • ランダムにサンプリングした２集団の特徴量（主効果）の平均には差がなくなるので、反応の単純比較で介入効果を測定できる反応 𝐴𝑇𝐸 = 𝐸 𝑌(1) − 𝐸 𝑌(0)

A/Bテストができないとき A/Bテストの実施には、多くの問題がある下記のような問題により、実施できないor実施できてもA/Bテストの条件（ランダム割付）を満たすのが困難な場合がある経済的問題実施にコストがかかったり、介入しないことによりビジネス機会を逃すことになる例）ある新商品のキャンペーンが介入であるテストについて、お得意様のような明らかに売れそうな顧客に対して、キャンペーンを行わないような統制群を設定する必要がある倫理的問題介入／非介入が倫理に反する
例）ある病気の投薬が介入であるテストについて、有効な治療法が明らかであるのに、治療を施さない統制群を設定する必要がある介入の原理的問題介入の割付をコントロールできない、ホーソン効果、対象の途中離脱など例）ある製品の屋外広告が介入であるテストについて、誰が広告を目にするかをコントロールすることはできない

A/Bテストができないとき A/Bテストに近い結果を用いて、介入効果を推定する方法がある  前述のような問題があり、A/Bテストが現実で行える介入は限られているしかし、A/Bテストほど厳密でないにしても、条件付きのテストを実施できたり、過去の介入結果を利用できたりすることがある  このような介入がランダム割付されていないデータを用いて、  介入効果を推定する方法がある→準実験法

A/Bテストができないとき ※介入がランダム割付されていない（A/Bテストとは言えない）データの例問題とバイアス主な問題研究デザイン対象データある化粧品について、キャンペーンの効果を過去の購買データから推測する
→キャンペーンの対象者に偏りがある（効果のある客に出しているはず、女性が多めなど）経済的問題観察研究過去データある病気について、治療を受けた患者と受けなかった患者の臨床データを比較する →治療を受けるかどうかに偏りがある（患者の経済状況や病院の地理的位置など）倫理的問題観察研究過去データある動画配信サービスについて、屋外広告を出した地域と出さない地域の申込者数を比較する →地域の住民属性に偏りがある（住民の経済状況や広告の出稿場所など）介入の原理的問題介入研究（非ランダム化）実験データあるスマホゲームについて、CMを流したときと流していない時の利用時間数を比較する →視聴者の属性に偏りがある（CMを流した時間帯を見やすい視聴者層、流した時期の競合他社のスマホゲームなど）介入の原理的問題介入研究（非ランダム化）実験データ

準実験法

準実験法準実験法は、介入がランダム割付されていない実験結果や観察結果に何らかの操作を行い、介入効果を推定する方法 A/Bテスト、すなわち、ランダム化の利点は、特徴量が同一の２群を用意でき、反応をそのまま比較すれば自動的に介入効果を推定できることしたがって、下記のような操作を行えば介入効果を推定できるというのが準実験法の考え方特徴量を揃えた二群を調整する／反応を補正する／介入効果のみを取り出す…などこのとき操作する特徴量は、介入に関連があり、反応に因果関係がある特徴を対象とする、これを交絡因子と呼ぶ
ランダム化されていないときは、交絡因子の存在が想定される例）学習意欲学力授業への出席

目的変数を補正する潜在目的変数を予測する介入効果のみを取り出す特徴量を揃える準実験法回帰分析目的変数と説明変数を用いて、介入変数ごとに回帰モデルを構築し、個別の対象の介入ありの反応と介入なしの反応を予測し、その差分を介
入効果と推定する回帰分断デザイン統制群と実験群の割付が説明変数の閾値によって行われている時、閾値前後の実験群と統制群を比較すると介入効果が測定できる差の差法それぞれの群について、介入前後のデータを取得してその差をとる介入効果(E) ＝(B-A)-(D-C)で表せる実験群介入前/後: A/B 統制群介入前/後: C/D B E C A D x y 層別分析／マッチング法特徴量を同一の集団に分割して、反応を比較し、その平均を全体の介入効果とする介入効果介入効果の平均を取る特徴量によって分ける・・傾向スコア補正説明変数から介入を受ける確率を推定し、この傾向スコアを用いて目的変数に対して重み付けする事によって、目的変数へのバイアスを補正する操作変数法図のような操作変数Zを用いて、介入Tが目的変数Yに与える純粋な効果A（介入効果）を推定する方法 Zの変動ではBの効果は生じないため、Aのみ推定できる Y T Z X A B 個人間の介入効果を対象にできる手法＝Uplift Modelingで使える

回帰分析

回帰分析回帰分析はTwo Model Approach/One Model Approachそのもの交絡因子を線形予測子に導入することにより、介入による効果と交絡因子による効果を分離することが期待できる例）手法としては、これまでUplift
Modelingで行ってきたことそのものしたがって、これまでの手法を用いても、ある程度A/Bテストでないデータにも対応できるしかし、得られる値は厳密には因果効果の推定値ではなく、回帰の結果に過ぎないため、介入による効果と交絡因子による効果の分離がうまく行かないことが多い学習意欲学力授業への出席 0.05 0.3

傾向スコア

傾向スコア傾向スコアとは、介入を受ける確率である介入を目的変数とし交絡因子を説明変数とした訓練データをもとに構築したロジスティック回帰モデルに、訓練データを再代入することにより推定する（個人ごとに算出される）以下の利用法がある・層別分析の分割基準に用いる・マッチング法のマッチング基準に用いる・反応量の補正に用いる＝傾向スコア補正(IPW) is_treat
x1 x2 x3 1 0.2 0.2 0.6 0 0.1 0.8 0.1 1 0.1 0.4 0.4 … 傾向スコア 0.8 0.1 0.6 …

傾向スコア傾向スコア補正（IPW: Inverse Probability Weighting） IPWは傾向スコアの逆数を反応量にかけて、反応量を補正する IPWによる平均介入効果(ATE:Average treatment effect)は、下記のように示される
傾向スコア（介入を受ける確率: 𝑒 𝑥 ）を用いて、実験群と統制群の反応量を比較可能な値にそろえるイメージ回帰分析に比べると、因果効果の推定値による補正のため、交絡因子の効果の分離がうまくいくことが多いしかし、傾向スコアが高すぎるor低すぎると補正しすぎる欠点がある 𝑒 𝑥 = 𝑃 𝑊𝑖 = 1 𝑋𝑖 = 𝑥) 𝐴𝑇𝐸 = 𝐸 𝑊𝑖 𝑒 𝑋𝑖 𝑌 𝑖 (1) − 𝐸 1 − 𝑊𝑖 1 − 𝑒 𝑋𝑖 𝑌 𝑖 (0) *notation W:介入あり=1/介入なし=0 Y:反応カッコ内は介入

傾向スコア 𝑊𝑖 = 0 𝑒 𝑥 = 0.75 1 −
𝑒 𝑥 = 0.25 𝑖 𝑊𝑖 = 1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑊𝑖 = 0 𝑒 𝑥 = 0.5 1 − 𝑒 𝑥 = 0.5 𝑖 𝑊𝑖 = 1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑊𝑖 = 0 𝑊𝑖 = 1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑌𝑖+1 𝑌𝑖+1 ・・・・・ 𝑌𝑛 𝑌𝑛 𝑊𝑖 = 0 𝑊𝑖 = 1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑌𝑖+1 𝑌𝑖+1 ・・・・・ 𝑌𝑛 𝑌𝑛 𝑊𝑖 = 0 𝑊𝑖 = 1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑌𝑖+1 𝑌𝑖+1 ・・・・ 𝑌𝑛 𝑌𝑛 ランダム割付の場合ランダム割付でない場合 iについて標本を取る（簡単のために4個で図示） iの反応量の総和（高さ）を比較して、介入効果（面積）を求める iについて標本を取る割付確率が違うため標本数が異なる＝反応量の総和が異なる幅（介入割付確率）が異なるため、高さでは介入効果（面積）が比較不可能幅と高さを傾向スコアによって補正して比較可能にする・・・割付確率（幅）が小さいほど、反応量（高さ）を大きく補正する縦横比を維持したまま幅に合わせて拡大するイメージ 𝑌𝑖+1 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3

準実験法ベースのUplift Modeling

TOM TOM: Transformed Outcome Method 個人介入効果(ITE: Individual Treatment Effect)を傾向スコアで補正する https://qiita.com/usaito/items/f713d93732db82696a76
Athey, S and Imbens, G. Machine Learning Method for estimating heterogeneous causal effects. stat, 1050:5, 2015 IPWを行った反応値を用いて、Uplift Modelingを行う IPWは全体介入効果(ATE)に対する補正だったため、個人介入効果(ITE)に対する補正に拡張する例）介入ありの反応1で傾向スコア0.8だと、1*1/0.8-0=1*1.25=1.25 介入なしの反応0.2で傾向スコア0.2だと、0-0.2*1/0.8=0.2*1.25=-1 また、介入なしの反応0で傾向スコア0.2だと、0-0*5=0 (二値の場合、統制群のデータは考慮されない） 𝑌𝑖 𝑜𝑏𝑠 = 𝑊𝑖 𝑌 𝑖 (1) − 1 − 𝑊𝑖 𝑌 𝑖 (0) 𝑌𝑖 𝑇𝑂 = 𝑌𝑖 𝑜𝑏𝑠 ⋅ 𝑊𝑖 − 𝑒 𝑋𝑖 𝑒 𝑋𝑖 ⋅ 1 − 𝑒 𝑋𝑖 = 𝑌 𝑖 (1) ⋅ 𝑊𝑖 𝑒 𝑋𝑖 − 𝑌 𝑖 (0) ⋅ 1 − 𝑊𝑖 1 − 𝑒 𝑋𝑖 𝐸 𝑌𝑖 𝑇𝑂 𝑋𝑖 = 𝐸 𝑌 𝑖 (1) 𝑋𝑖 − 𝐸 𝑌 𝑖 (0) 𝑋𝑖 = 𝐼𝑇𝐸𝑖 *notation W:介入あり=1/介入なし=0 Y:反応カッコ内は介入 X:説明変数

TOM TOM: Transformed Outcome Method 全体の流れ 𝑌𝑖 𝑇𝑂 = 𝑌
𝑖 (1) ⋅ 𝑊𝑖 𝑒 𝑋𝑖 − 𝑌 𝑖 (0) ⋅ 1 − 𝑊𝑖 1 − 𝑒 𝑋𝑖 実験群／統制群変形実験群／統制群 ID 傾向スコア A 0.5 B 0.1 C 0.8 D 0.2 … 𝑒 𝑋𝑖 ②介入効果推定モデル構築 ①傾向スコア学習器構築／推定 ③介入効果推定 ID 確率 A 0.5 B 0.8 C 0.7 D 0.5 … テストデータ

SDRM SDRM: Switch Doubly Robust Method 傾向スコア補正と回帰分析の結果を併用する Yuta Saito, Hayato
Sakata and Kazuhide Nakata, “Doubly Robust Prediction and Evaluation Methods Improve Uplift Modeling for Observational Data” (2019) 傾向スコアは０か１に近いスコアだと補正しすぎる※傾向スコアが0.002の反応量は500倍の補正を受けるまた、二値の場合、統制群のデータを捨ててしまうこれらの欠点を補完するため、傾向スコアが極端な値の場合には、回帰分析の結果のみを用い、また、極端な値でない場合にも回帰分析の結果を混合することにより、推定の頑強さを高めた方法 𝑌𝑖 𝑆𝐷𝑅 = 𝜁𝑖 𝑌𝑖 𝐷𝑅 + (1 − 𝜁𝑖 ) ( Ƹ 𝜇 𝑖 1 − Ƹ 𝜇 𝑖 (0)) 𝜁𝑖 = 𝑊𝑖 𝐼𝐼𝛾< Ƹ 𝑒 𝑋𝑖 < 1 + 1 − 𝑊𝑖 𝐼𝐼0< Ƹ 𝑒 𝑋𝑖 < 1−𝛾 𝑌𝑖 𝐷𝑅 = 𝑊𝑖 Ƹ 𝑒 𝑋𝑖 𝑌 𝑖 (1) − Ƹ 𝜇 𝑖 (1) − 1 − 𝑊𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌 𝑖 (0) − Ƹ 𝜇 𝑖 (0) + Ƹ 𝜇 𝑖 1 − Ƹ 𝜇 𝑖 (0) *notation W:介入あり=1/介入なし=0 Y:反応カッコ内は介入 X:説明変数 μ:反応の期待値の推定値(回帰モデルにより推定) II:条件に当てはまるとき1を取る変数 γ:傾向スコアの極端さの閾値を決めるハイパーパラメータ

SDRM SDRM: Switch Doubly Robust Method 全体の流れ 𝑌𝑖 𝑆𝐷𝑅 =
𝜁𝑖 𝑌𝑖 𝐷𝑅 + (1 − 𝜁𝑖 ) ( Ƹ 𝜇 𝑖 1 − Ƹ 𝜇 𝑖 (0)) … 実験群／統制群変形 ID 確率 A 0.5 B 0.8 C 0.7 D 0.5 … 実験群／統制群 ID 傾向 A 0.5 B 0.1 C 0.8… 𝑒 𝑋𝑖 ③介入効果推定モデル構築 ①傾向スコア学習器構築／推定 ②潜在目的変数推定モデル構築実験群訓練データモデル統制群訓練データモデル ④介入効果推定テストデータ

Appendix

Liftはなぜ実験群の総数を用いるのか Liftは原論文では下式の形となっている Lift = Rt − Rc ⋅ 𝑁𝑡 𝑁𝑐
実験群の反応率：𝑅𝑡 統制群の反応率：𝑅𝑐 実験群の総数：𝑁𝑡 統制群の総数：𝑁𝑐 実験群の反応数ー実験群の総数に合わせて補正した統制群の反応数変形すると、「仕事ではじめる機械学習 9章」と同じ形の式になる 𝐿𝑖𝑓𝑡 𝑁𝑡 = 𝑅𝑡 𝑁𝑡 − 𝑅𝑐 𝑁𝑐 Lift = 𝑅𝑡 𝑁𝑡 − 𝑅𝑐 𝑁𝑐 ⋅ Nt （実験群の反応率ー統制群の反応率）×実験群の総数なぜ実験群の数を軸にするのかについては、原論文にも言及がないが、 Liftの意味がそもそも、介入に対して反応率がどれだけ上がるかという、実験群を軸にした基準であるためではないかと考える Nicholas J. Radcliffe (2007) “Using control groups to target on predicted lift: Building and assessing uplift model”

SBUTの情報利得ペナルティ／Pruning 情報利得ペナルティノードの左右のサイズが違うとアップリフトにペナルティを加える kはハイパーパラメータ 𝐺𝑎𝑖𝑛𝑖 = 𝑆𝑝𝑙𝑖𝑡𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜𝑛 ∙ 1 −
𝑁𝑅 − 𝑁𝐿 𝑁𝑅 + 𝑁𝐿 𝑘 Pruning ・訓練データをk個（デフォルト8）に分け、1セットを使って木を最大まで構築する（ノードがTorCのみになったり、設定したアップリフトを下回ったり、設定したノードサイズを下回ったり、など基準を設ける）その後、k-1個のデータセットの標準偏差を上回る標準偏差となったノードを削除する・0.5%-3%のノードを削除する実際の問題では、反応率は1-3％、アップリフトは0.1-2%程度であるため

uplift modeling

uplift modeling

More Decks by jeey

Other Decks in Technology

Featured

Transcript