Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

Kumpei Yamada
February 07, 2021

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

NeurIPS'2018 の論文紹介.
Logistic Contextual Bandit 問題への方策としての,Polya-Gamma Augmentation を利用した Thompson Sampling について.

Kumpei Yamada

February 07, 2021
Tweet

More Decks by Kumpei Yamada

Other Decks in Science

Transcript

  1. Logistic Contextual Bandit Problem In the case of logistic regression

    for binary rewards, the posterior derived from this joint probability is intractable. 4
  2. Bandit Problem おなじみの. 複数の選択肢 (アーム) があるときに,探索と活⽤によって オンラインで regret 最⼩化を⽬指したい. Thompson

    Sampling はひとつの⽅策で,報酬 (ex. CTR) の事後分布からのサンプリングが⾼いアームを選ぶことを 繰り返す. 5
  3. Logistic Contextual Bandit Problem 異なる context (ex. user 属性,item 属性)

    に基づいて事前分布を変えたい. 時系列インデックス ,アーム , 次元のコンテキスト ,推定 & 観測される報酬 ,既知分散 ,次元 の単位⾏列 として,以下のように のモデルを考える. θα p(r = 1) t,α θ ∣ {r } α t,α ∼ N(0, σ I ) 0 2 d = 1 + exp(θ x ) α T t,α exp(θ x ) α T t,α ∼ N(μ, Σ) ここで,解析的には扱えない をどう計算するか? t α d x t,α r t,α σ, σ 0 d Id θ α μ, Σ 6
  4. 既存⼿法: Laplace-TS ニュートン法で MAP 推定した上で,その周りでヘッセ⾏列 を⽤いて2次近似. θ ∣ α {r

    } ∼ t,α N( , (H ( )) ) θ ^ α MAP t θ ^ α MAP −1 結構めちゃくちゃな事後分布なので,これを Full Bayes なモデリングに落とし込みたい. H t 7
  5. Polya-Gamma distribution の密度は,独⽴な を⽤いて以下. p(ω ∣ b > 0, c

    ∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k PG(b, c) ω ∼ PG(b, c) g ∼ k Gamma(b, 1) 9
  6. 便利な特徴がある. として以下が成り⽴つ. (1 + e ) ψ b (e )

    ψ a p(ω ∣ ψ) = 2 e e p(ω)dω −b κψ ∫ 0 ∞ −ωψ /2 2 = PG(b, ψ) ・・・(eq.1) ・・・(eq.2) ψ, a ∈ R, κ = a − b/2, ω ∼ PG(b, 0) 10
  7. Logistic Regression with PG augmentation あるアーム,あるユーザについて,Logistic Contextual Bandit 問題の 回⽬のベルヌーイ試

    ⾏の尤度 は,観測 のときに, L (θ) = i 1 + exp(θ x) T exp(θ x) T r i L (θ) i r ∈ {0, 1} 11
  8. ここで唐突に を導⼊すると, として, より, L (θ) i = 1 +

    exp(θ x) T exp(θ x) T r = 2 exp(κθ x) exp(−ω(θ x) /2)p(ω)dω −1 T ∫ 0 ∞ T 2 = 2 exp(κθ x)E exp(−ω(θ x) /2) −1 T p(ω) [ T 2 ] ω ∼ PG(1, 0) κ = r − 1/2 (eq.1) 12
  9. さらに, で条件付けると,期待値が定数になって, L (θ ∣ ω) i = 2 exp(κθ

    x)E exp(−ω(θ x) /2) ∣ ω −1 T p(ω) [ n T 2 ] = 2 exp(κθ x) exp(−ω(θ x) /2) −1 T T 2 ∝ exp(− (θ x − κ/ω) ) 2 ω T 2 ω 13
  10. つまり,事前分布 がガウス分布のとき,事後分布 もガウス分布. p(θ ∣ ω, r) ∝ p(θ)L (θ

    ∣ ω, r) i ∝ p(θ) exp(− (θ x − κ/ω) ) 2 ω T 2 潜在変数 を介して事後分布を解析的に扱えるようになったね! p(θ) p(θ ∣ ω, r) ω 14
  11. Model θ ω ∣ θ i θ ∣ {ω },

    {r } i i ∼ N(b, B) ∼ PG(1, θ x ) T i ∼ N(m , V ) ω ω Notation i X κ Ω Vω mω ∈ {1, ..., t} = [x , ..., x ] 1 t = [κ , ..., κ ] = [r − 1/2, ..., r − 1/2] 1 t 1 t = diag(ω , ..., ω ) 1 t = (X ΩX + B ) T −1 −1 = V (X κ + B b) ω T −1 15
  12. Computational Cost 以下の の密度には の無限和が含まれていて,サンプリングは難しそう? p(ω ∣ b > 0,

    c ∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k 実は効率的な sampler がある. Saddlepoint Approximation 分布を左右で分割して,左を逆ガウス分布,右をガンマ分布で近似している (っぽい) R の BayesLogit パッケージにはすでに実装があり, でこの実装が使われる. PG(b, c) g k b > 13 19
  13. Forest Cover Type Data ⽣息する⽊の種類の推定のオフライン評価. context は11次元の地域の特徴で,32アームから選択する問題. 累積 regret の⽐較で,GLM-UCB,

    Laplace-TS を⼤きく改善した.PG-TS-stream よりも PG-TS のほうがわずかに優位.(Laplace-TS 探索しなすぎでは…) 21
  14. News Article Recommendation Yahoo! の公開ベンチマークを⽤いたオフライン評価. context は6次元の記事の特徴 (not user features)

    20程度のニュース記事から CTR の⾼いひとつを選ぶ問題. CTR の⽐較で,Laplace-TS と PG-TS-stream に対して PG-TS が優位. 22
  15. 所感 Polson et al. (2013) の Polya-Gamma Augmentation という事後分布計算がそもそも⾰新的 でスゴイ.

    全体的に扱いやすそうなモデルで,実績データのバッチ更新も可能なのでアーキテクチャに も落とし込みやすそう. オンラインでの計算量を考えると,特徴の次元と burn-in 期間にはある程度制約が出てきそ う. 各⾔語でのサンプラー実装はまだ発展途上っぽい. 23
  16. refs N. G. Polson, J. G. Scott, and J. Windle.

    Bayesian inference for logistic models using Pólya- Gamma latent variables. Journal ofthe American statistical Association, 108(504):1339–1349, 2013. ↑ の 解説ブログがわかりやすい. 24