Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

Kumpei Yamada
February 07, 2021

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

NeurIPS'2018 の論文紹介.
Logistic Contextual Bandit 問題への方策としての,Polya-Gamma Augmentation を利用した Thompson Sampling について.

Kumpei Yamada

February 07, 2021
Tweet

More Decks by Kumpei Yamada

Other Decks in Science

Transcript

  1. PG-TS: Improved Thompson Sampling for Logistic
    Contextual Bandits
    論⽂紹介.Kumpei Yamada
    1

    View full-size slide

  2. Info
    NeurIPS'18
    https://papers.nips.cc/paper/2018/file/ce6c92303f38d297e263c7180f03d402-
    Paper.pdf
    2

    View full-size slide

  3. Overview
    Logistic Contextual Bandit 問題への Thompson Sampling ⽅策の適⽤.
    Polya-Gamma Augmentation を⽤いて近似を避けた Fully Bayes なモデルの採⽤.
    3

    View full-size slide

  4. Logistic Contextual Bandit Problem
    In the case of logistic regression for binary rewards, the posterior derived from this
    joint probability is intractable.
    4

    View full-size slide

  5. Bandit Problem
    おなじみの.
    複数の選択肢 (アーム) があるときに,探索と活⽤によって
    オンラインで regret 最⼩化を⽬指したい.
    Thompson Sampling はひとつの⽅策で,報酬 (ex. CTR)
    の事後分布からのサンプリングが⾼いアームを選ぶことを
    繰り返す.
    5

    View full-size slide

  6. Logistic Contextual Bandit Problem
    異なる context (ex. user 属性,item 属性) に基づいて事前分布を変えたい.
    時系列インデックス ,アーム , 次元のコンテキスト ,推定 & 観測される報酬
    ,既知分散 ,次元 の単位⾏列 として,以下のように のモデルを考える.
    θα
    p(r = 1)
    t,α
    θ ∣ {r }
    α t,α
    ∼ N(0, σ I )
    0
    2
    d
    =
    1 + exp(θ x )
    α
    T
    t,α
    exp(θ x )
    α
    T
    t,α
    ∼ N(μ, Σ)
    ここで,解析的には扱えない をどう計算するか?
    t α d x t,α
    r t,α
    σ, σ 0
    d Id
    θ α
    μ, Σ
    6

    View full-size slide

  7. 既存⼿法: Laplace-TS
    ニュートン法で MAP 推定した上で,その周りでヘッセ⾏列 を⽤いて2次近似.
    θ ∣
    α {r } ∼
    t,α N( , (H ( )) )
    θ
    ^
    α
    MAP
    t θ
    ^
    α
    MAP −1
    結構めちゃくちゃな事後分布なので,これを Full Bayes なモデリングに落とし込みたい.
    H t
    7

    View full-size slide

  8. Logistic Regression with PG Augmentation
    Polson et al. (2013)
    8

    View full-size slide

  9. Polya-Gamma distribution
    の密度は,独⽴な を⽤いて以下.
    p(ω ∣ b > 0, c ∈ R) =
    2π2
    1
    k


    (k − 1/2) + c /(4π )
    2 2 2
    g k
    PG(b, c)
    ω ∼ PG(b, c) g ∼
    k
    Gamma(b, 1)
    9

    View full-size slide

  10. 便利な特徴がある.
    として以下が成り⽴つ.
    (1 + e )
    ψ b
    (e )
    ψ a
    p(ω ∣ ψ)
    = 2 e e p(ω)dω
    −b κψ ∫
    0

    −ωψ /2
    2
    = PG(b, ψ)
    ・・・(eq.1)
    ・・・(eq.2)
    ψ, a ∈ R, κ = a − b/2, ω ∼ PG(b, 0)
    10

    View full-size slide

  11. Logistic Regression with PG augmentation
    あるアーム,あるユーザについて,Logistic Contextual Bandit 問題の 回⽬のベルヌーイ試
    ⾏の尤度 は,観測 のときに,
    L (θ) =
    i 1 + exp(θ x)
    T
    exp(θ x)
    T r
    i
    L (θ)
    i
    r ∈ {0, 1}
    11

    View full-size slide

  12. ここで唐突に を導⼊すると, として, より,
    L (θ)
    i
    =
    1 + exp(θ x)
    T
    exp(θ x)
    T r
    = 2 exp(κθ x) exp(−ω(θ x) /2)p(ω)dω
    −1 T ∫
    0

    T 2
    = 2 exp(κθ x)E exp(−ω(θ x) /2)
    −1 T
    p(ω)
    [ T 2 ]
    ω ∼ PG(1, 0) κ = r − 1/2 (eq.1)
    12

    View full-size slide

  13. さらに, で条件付けると,期待値が定数になって,
    L (θ ∣ ω)
    i
    = 2 exp(κθ x)E exp(−ω(θ x) /2) ∣ ω
    −1 T
    p(ω)
    [
    n
    T 2 ]
    = 2 exp(κθ x) exp(−ω(θ x) /2)
    −1 T T 2
    ∝ exp(− (θ x − κ/ω) )
    2
    ω T 2
    ω
    13

    View full-size slide

  14. つまり,事前分布 がガウス分布のとき,事後分布 もガウス分布.
    p(θ ∣ ω, r) ∝ p(θ)L (θ ∣ ω, r)
    i
    ∝ p(θ) exp(− (θ x − κ/ω) )
    2
    ω T 2
    潜在変数 を介して事後分布を解析的に扱えるようになったね!
    p(θ) p(θ ∣ ω, r)
    ω
    14

    View full-size slide

  15. Model
    θ
    ω ∣ θ
    i
    θ ∣ {ω }, {r }
    i i
    ∼ N(b, B)
    ∼ PG(1, θ x )
    T
    i
    ∼ N(m , V )
    ω ω
    Notation
    i
    X
    κ
    Ω


    ∈ {1, ..., t}
    = [x , ..., x ]
    1 t
    = [κ , ..., κ ] = [r − 1/2, ..., r − 1/2]
    1 t 1 t
    = diag(ω , ..., ω )
    1 t
    = (X ΩX + B )
    T −1 −1
    = V (X κ + B b)
    ω
    T −1
    15

    View full-size slide

  16. PG-TS
    やっとタイトルの内容
    16

    View full-size slide

  17. Gibbs-Sampling
    以下を繰り返す.
    のサンプリング
    のサンプリング
    を最⼤化するアームを選択
    観測値 のフィードバック
    各 sampling において,初期値の影響を取り除
    くために burn-in の期間を設ける(optional)
    ω ∣
    t
    θ t−1
    θ ∣
    t
    ω , r
    t t−1
    θ x
    t
    T
    r t
    17

    View full-size slide

  18. PG-TS
    burn-in 期間を設定して, のサンプリングを採⽤.
    経験的に設定.
    PG-TS-stream
    burn-in 期間を設けず, のサンプリングを採⽤.
    計算量を重視する場合はこれを採⽤すればよい.
    M = 100
    M = 1
    18

    View full-size slide

  19. Computational Cost
    以下の の密度には の無限和が含まれていて,サンプリングは難しそう?
    p(ω ∣ b > 0, c ∈ R) =
    2π2
    1
    k


    (k − 1/2) + c /(4π )
    2 2 2
    g k
    実は効率的な sampler がある.
    Saddlepoint Approximation
    分布を左右で分割して,左を逆ガウス分布,右をガンマ分布で近似している (っぽい)
    R の BayesLogit
    パッケージにはすでに実装があり, でこの実装が使われる.
    PG(b, c) g k
    b > 13
    19

    View full-size slide

  20. Forest Cover Type Data
    ⽣息する⽊の種類の推定のオフライン評価.
    context は11次元の地域の特徴で,32アームから選択する問題.
    累積 regret の⽐較で,GLM-UCB, Laplace-TS を⼤きく改善した.PG-TS-stream よりも
    PG-TS のほうがわずかに優位.(Laplace-TS 探索しなすぎでは…)
    21

    View full-size slide

  21. News Article Recommendation
    Yahoo! の公開ベンチマークを⽤いたオフライン評価.
    context は6次元の記事の特徴 (not user features)
    20程度のニュース記事から CTR の⾼いひとつを選ぶ問題.
    CTR の⽐較で,Laplace-TS と PG-TS-stream に対して PG-TS が優位.
    22

    View full-size slide

  22. 所感
    Polson et al. (2013) の Polya-Gamma Augmentation という事後分布計算がそもそも⾰新的
    でスゴイ.
    全体的に扱いやすそうなモデルで,実績データのバッチ更新も可能なのでアーキテクチャに
    も落とし込みやすそう.
    オンラインでの計算量を考えると,特徴の次元と burn-in 期間にはある程度制約が出てきそ
    う.
    各⾔語でのサンプラー実装はまだ発展途上っぽい.
    23

    View full-size slide

  23. refs
    N. G. Polson, J. G. Scott, and J. Windle. Bayesian inference for logistic models using
    Pólya- Gamma latent variables. Journal ofthe American statistical Association,
    108(504):1339–1349, 2013.
    ↑ の 解説ブログがわかりやすい.
    24

    View full-size slide