Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

209f45226d810aae5e2b8616427f8556?s=47 Kumpei Yamada
February 07, 2021

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

NeurIPS'2018 の論文紹介.
Logistic Contextual Bandit 問題への方策としての,Polya-Gamma Augmentation を利用した Thompson Sampling について.

209f45226d810aae5e2b8616427f8556?s=128

Kumpei Yamada

February 07, 2021
Tweet

Transcript

  1. PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits 論⽂紹介.Kumpei Yamada

    1
  2. Info NeurIPS'18 https://papers.nips.cc/paper/2018/file/ce6c92303f38d297e263c7180f03d402- Paper.pdf 2

  3. Overview Logistic Contextual Bandit 問題への Thompson Sampling ⽅策の適⽤. Polya-Gamma Augmentation

    を⽤いて近似を避けた Fully Bayes なモデルの採⽤. 3
  4. Logistic Contextual Bandit Problem In the case of logistic regression

    for binary rewards, the posterior derived from this joint probability is intractable. 4
  5. Bandit Problem おなじみの. 複数の選択肢 (アーム) があるときに,探索と活⽤によって オンラインで regret 最⼩化を⽬指したい. Thompson

    Sampling はひとつの⽅策で,報酬 (ex. CTR) の事後分布からのサンプリングが⾼いアームを選ぶことを 繰り返す. 5
  6. Logistic Contextual Bandit Problem 異なる context (ex. user 属性,item 属性)

    に基づいて事前分布を変えたい. 時系列インデックス ,アーム , 次元のコンテキスト ,推定 & 観測される報酬 ,既知分散 ,次元 の単位⾏列 として,以下のように のモデルを考える. θα p(r = 1) t,α θ ∣ {r } α t,α ∼ N(0, σ I ) 0 2 d = 1 + exp(θ x ) α T t,α exp(θ x ) α T t,α ∼ N(μ, Σ) ここで,解析的には扱えない をどう計算するか? t α d x t,α r t,α σ, σ 0 d Id θ α μ, Σ 6
  7. 既存⼿法: Laplace-TS ニュートン法で MAP 推定した上で,その周りでヘッセ⾏列 を⽤いて2次近似. θ ∣ α {r

    } ∼ t,α N( , (H ( )) ) θ ^ α MAP t θ ^ α MAP −1 結構めちゃくちゃな事後分布なので,これを Full Bayes なモデリングに落とし込みたい. H t 7
  8. Logistic Regression with PG Augmentation Polson et al. (2013) 8

  9. Polya-Gamma distribution の密度は,独⽴な を⽤いて以下. p(ω ∣ b > 0, c

    ∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k PG(b, c) ω ∼ PG(b, c) g ∼ k Gamma(b, 1) 9
  10. 便利な特徴がある. として以下が成り⽴つ. (1 + e ) ψ b (e )

    ψ a p(ω ∣ ψ) = 2 e e p(ω)dω −b κψ ∫ 0 ∞ −ωψ /2 2 = PG(b, ψ) ・・・(eq.1) ・・・(eq.2) ψ, a ∈ R, κ = a − b/2, ω ∼ PG(b, 0) 10
  11. Logistic Regression with PG augmentation あるアーム,あるユーザについて,Logistic Contextual Bandit 問題の 回⽬のベルヌーイ試

    ⾏の尤度 は,観測 のときに, L (θ) = i 1 + exp(θ x) T exp(θ x) T r i L (θ) i r ∈ {0, 1} 11
  12. ここで唐突に を導⼊すると, として, より, L (θ) i = 1 +

    exp(θ x) T exp(θ x) T r = 2 exp(κθ x) exp(−ω(θ x) /2)p(ω)dω −1 T ∫ 0 ∞ T 2 = 2 exp(κθ x)E exp(−ω(θ x) /2) −1 T p(ω) [ T 2 ] ω ∼ PG(1, 0) κ = r − 1/2 (eq.1) 12
  13. さらに, で条件付けると,期待値が定数になって, L (θ ∣ ω) i = 2 exp(κθ

    x)E exp(−ω(θ x) /2) ∣ ω −1 T p(ω) [ n T 2 ] = 2 exp(κθ x) exp(−ω(θ x) /2) −1 T T 2 ∝ exp(− (θ x − κ/ω) ) 2 ω T 2 ω 13
  14. つまり,事前分布 がガウス分布のとき,事後分布 もガウス分布. p(θ ∣ ω, r) ∝ p(θ)L (θ

    ∣ ω, r) i ∝ p(θ) exp(− (θ x − κ/ω) ) 2 ω T 2 潜在変数 を介して事後分布を解析的に扱えるようになったね! p(θ) p(θ ∣ ω, r) ω 14
  15. Model θ ω ∣ θ i θ ∣ {ω },

    {r } i i ∼ N(b, B) ∼ PG(1, θ x ) T i ∼ N(m , V ) ω ω Notation i X κ Ω Vω mω ∈ {1, ..., t} = [x , ..., x ] 1 t = [κ , ..., κ ] = [r − 1/2, ..., r − 1/2] 1 t 1 t = diag(ω , ..., ω ) 1 t = (X ΩX + B ) T −1 −1 = V (X κ + B b) ω T −1 15
  16. PG-TS やっとタイトルの内容 16

  17. Gibbs-Sampling 以下を繰り返す. のサンプリング のサンプリング を最⼤化するアームを選択 観測値 のフィードバック 各 sampling において,初期値の影響を取り除

    くために burn-in の期間を設ける(optional) ω ∣ t θ t−1 θ ∣ t ω , r t t−1 θ x t T r t 17
  18. PG-TS burn-in 期間を設定して, のサンプリングを採⽤. 経験的に設定. PG-TS-stream burn-in 期間を設けず, のサンプリングを採⽤. 計算量を重視する場合はこれを採⽤すればよい.

    M = 100 M = 1 18
  19. Computational Cost 以下の の密度には の無限和が含まれていて,サンプリングは難しそう? p(ω ∣ b > 0,

    c ∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k 実は効率的な sampler がある. Saddlepoint Approximation 分布を左右で分割して,左を逆ガウス分布,右をガンマ分布で近似している (っぽい) R の BayesLogit パッケージにはすでに実装があり, でこの実装が使われる. PG(b, c) g k b > 13 19
  20. Results 20

  21. Forest Cover Type Data ⽣息する⽊の種類の推定のオフライン評価. context は11次元の地域の特徴で,32アームから選択する問題. 累積 regret の⽐較で,GLM-UCB,

    Laplace-TS を⼤きく改善した.PG-TS-stream よりも PG-TS のほうがわずかに優位.(Laplace-TS 探索しなすぎでは…) 21
  22. News Article Recommendation Yahoo! の公開ベンチマークを⽤いたオフライン評価. context は6次元の記事の特徴 (not user features)

    20程度のニュース記事から CTR の⾼いひとつを選ぶ問題. CTR の⽐較で,Laplace-TS と PG-TS-stream に対して PG-TS が優位. 22
  23. 所感 Polson et al. (2013) の Polya-Gamma Augmentation という事後分布計算がそもそも⾰新的 でスゴイ.

    全体的に扱いやすそうなモデルで,実績データのバッチ更新も可能なのでアーキテクチャに も落とし込みやすそう. オンラインでの計算量を考えると,特徴の次元と burn-in 期間にはある程度制約が出てきそ う. 各⾔語でのサンプラー実装はまだ発展途上っぽい. 23
  24. refs N. G. Polson, J. G. Scott, and J. Windle.

    Bayesian inference for logistic models using Pólya- Gamma latent variables. Journal ofthe American statistical Association, 108(504):1339–1349, 2013. ↑ の 解説ブログがわかりやすい. 24