[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits 論⽂紹介．Kumpei Yamada
1

Info NeurIPS'18 https://papers.nips.cc/paper/2018/file/ce6c92303f38d297e263c7180f03d402- Paper.pdf 2

Overview Logistic Contextual Bandit 問題への Thompson Sampling ⽅策の適⽤． Polya-Gamma Augmentation
を⽤いて近似を避けた Fully Bayes なモデルの採⽤． 3

Logistic Contextual Bandit Problem In the case of logistic regression
for binary rewards, the posterior derived from this joint probability is intractable. 4

Bandit Problem おなじみの．複数の選択肢 (アーム) があるときに，探索と活⽤によってオンラインで regret 最⼩化を⽬指したい． Thompson
Sampling はひとつの⽅策で，報酬 (ex. CTR) の事後分布からのサンプリングが⾼いアームを選ぶことを繰り返す． 5

Logistic Contextual Bandit Problem 異なる context (ex. user 属性，item 属性)
に基づいて事前分布を変えたい．時系列インデックス，アーム，次元のコンテキスト，推定 & 観測される報酬，既知分散，次元の単位⾏列として，以下のようにのモデルを考える． θα p(r = 1) t,α θ ∣ {r } α t,α ∼ N(0, σ I ) 0 2 d = 1 + exp(θ x ) α T t,α exp(θ x ) α T t,α ∼ N(μ, Σ) ここで，解析的には扱えないをどう計算するか？ t α d x t,α r t,α σ, σ 0 d Id θ α μ, Σ 6

既存⼿法: Laplace-TS ニュートン法で MAP 推定した上で，その周りでヘッセ⾏列を⽤いて2次近似． θ ∣ α {r
} ∼ t,α N( , (H ( )) ) θ ^ α MAP t θ ^ α MAP −1 結構めちゃくちゃな事後分布なので，これを Full Bayes なモデリングに落とし込みたい． H t 7

Logistic Regression with PG Augmentation Polson et al. (2013) 8

Polya-Gamma distribution の密度は，独⽴なを⽤いて以下． p(ω ∣ b > 0, c
∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k PG(b, c) ω ∼ PG(b, c) g ∼ k Gamma(b, 1) 9

便利な特徴がある．として以下が成り⽴つ． (1 + e ) ψ b (e )
ψ a p(ω ∣ ψ) = 2 e e p(ω)dω −b κψ ∫ 0 ∞ −ωψ /2 2 = PG(b, ψ) ・・・(eq.1) ・・・(eq.2) ψ, a ∈ R, κ = a − b/2, ω ∼ PG(b, 0) 10

Logistic Regression with PG augmentation あるアーム，あるユーザについて，Logistic Contextual Bandit 問題の回⽬のベルヌーイ試
⾏の尤度は，観測のときに， L (θ) = i 1 + exp(θ x) T exp(θ x) T r i L (θ) i r ∈ {0, 1} 11

ここで唐突にを導⼊すると，として，より， L (θ) i = 1 +
exp(θ x) T exp(θ x) T r = 2 exp(κθ x) exp(−ω(θ x) /2)p(ω)dω −1 T ∫ 0 ∞ T 2 = 2 exp(κθ x)E exp(−ω(θ x) /2) −1 T p(ω) [ T 2 ] ω ∼ PG(1, 0) κ = r − 1/2 (eq.1) 12

さらに，で条件付けると，期待値が定数になって， L (θ ∣ ω) i = 2 exp(κθ
x)E exp(−ω(θ x) /2) ∣ ω −1 T p(ω) [ n T 2 ] = 2 exp(κθ x) exp(−ω(θ x) /2) −1 T T 2 ∝ exp(− (θ x − κ/ω) ) 2 ω T 2 ω 13

つまり，事前分布がガウス分布のとき，事後分布もガウス分布． p(θ ∣ ω, r) ∝ p(θ)L (θ
∣ ω, r) i ∝ p(θ) exp(− (θ x − κ/ω) ) 2 ω T 2 潜在変数を介して事後分布を解析的に扱えるようになったね！ p(θ) p(θ ∣ ω, r) ω 14

Model θ ω ∣ θ i θ ∣ {ω },
{r } i i ∼ N(b, B) ∼ PG(1, θ x ) T i ∼ N(m , V ) ω ω Notation i X κ Ω Vω mω ∈ {1, ..., t} = [x , ..., x ] 1 t = [κ , ..., κ ] = [r − 1/2, ..., r − 1/2] 1 t 1 t = diag(ω , ..., ω ) 1 t = (X ΩX + B ) T −1 −1 = V (X κ + B b) ω T −1 15

PG-TS やっとタイトルの内容 16

Gibbs-Sampling 以下を繰り返す．のサンプリングのサンプリングを最⼤化するアームを選択観測値のフィードバック各 sampling において，初期値の影響を取り除
くために burn-in の期間を設ける(optional) ω ∣ t θ t−1 θ ∣ t ω , r t t−1 θ x t T r t 17

PG-TS burn-in 期間を設定して，のサンプリングを採⽤．経験的に設定． PG-TS-stream burn-in 期間を設けず，のサンプリングを採⽤．計算量を重視する場合はこれを採⽤すればよい．
M = 100 M = 1 18

Computational Cost 以下のの密度にはの無限和が含まれていて，サンプリングは難しそう？ p(ω ∣ b > 0,
c ∈ R) = 2π2 1 k ∑ ∞ (k − 1/2) + c /(4π ) 2 2 2 g k 実は効率的な sampler がある． Saddlepoint Approximation 分布を左右で分割して，左を逆ガウス分布，右をガンマ分布で近似している (っぽい) R の BayesLogit パッケージにはすでに実装があり，でこの実装が使われる． PG(b, c) g k b > 13 19

Results 20

Forest Cover Type Data ⽣息する⽊の種類の推定のオフライン評価． context は11次元の地域の特徴で，32アームから選択する問題．累積 regret の⽐較で，GLM-UCB,
Laplace-TS を⼤きく改善した．PG-TS-stream よりも PG-TS のほうがわずかに優位．(Laplace-TS 探索しなすぎでは…) 21

News Article Recommendation Yahoo! の公開ベンチマークを⽤いたオフライン評価． context は6次元の記事の特徴 (not user features)
20程度のニュース記事から CTR の⾼いひとつを選ぶ問題． CTR の⽐較で，Laplace-TS と PG-TS-stream に対して PG-TS が優位． 22

所感 Polson et al. (2013) の Polya-Gamma Augmentation という事後分布計算がそもそも⾰新的でスゴイ．
全体的に扱いやすそうなモデルで，実績データのバッチ更新も可能なのでアーキテクチャにも落とし込みやすそう．オンラインでの計算量を考えると，特徴の次元と burn-in 期間にはある程度制約が出てきそう．各⾔語でのサンプラー実装はまだ発展途上っぽい． 23

refs N. G. Polson, J. G. Scott, and J. Windle.
Bayesian inference for logistic models using Pólya- Gamma latent variables. Journal ofthe American statistical Association, 108(504):1339–1349, 2013. ↑ の解説ブログがわかりやすい． 24

[論文紹介] PG-TS: Improved Thompson Sampling for Lo...

[論文紹介] PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits

Kumpei Yamada

More Decks by Kumpei Yamada

Other Decks in Science

Featured

Transcript

PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits 論⽂紹介．Kumpei Yamada

Info NeurIPS'18 https://papers.nips.cc/paper/2018/file/ce6c92303f38d297e263c7180f03d402- Paper.pdf 2

Overview Logistic Contextual Bandit 問題への Thompson Sampling ⽅策の適⽤． Polya-Gamma Augmentation

Logistic Contextual Bandit Problem In the case of logistic regression

Bandit Problem おなじみの．複数の選択肢 (アーム) があるときに，探索と活⽤によってオンラインで regret 最⼩化を⽬指したい． Thompson

Logistic Contextual Bandit Problem 異なる context (ex. user 属性，item 属性)

既存⼿法: Laplace-TS ニュートン法で MAP 推定した上で，その周りでヘッセ⾏列を⽤いて2次近似． θ ∣ α {r

Logistic Regression with PG Augmentation Polson et al. (2013) 8

Polya-Gamma distribution の密度は，独⽴なを⽤いて以下． p(ω ∣ b > 0, c

便利な特徴がある．として以下が成り⽴つ． (1 + e ) ψ b (e )

Logistic Regression with PG augmentation あるアーム，あるユーザについて，Logistic Contextual Bandit 問題の回⽬のベルヌーイ試

ここで唐突にを導⼊すると，として，より， L (θ) i = 1 +

さらに，で条件付けると，期待値が定数になって， L (θ ∣ ω) i = 2 exp(κθ

つまり，事前分布がガウス分布のとき，事後分布もガウス分布． p(θ ∣ ω, r) ∝ p(θ)L (θ

Model θ ω ∣ θ i θ ∣ {ω },

PG-TS やっとタイトルの内容 16

Gibbs-Sampling 以下を繰り返す．のサンプリングのサンプリングを最⼤化するアームを選択観測値のフィードバック各 sampling において，初期値の影響を取り除

PG-TS burn-in 期間を設定して，のサンプリングを採⽤．経験的に設定． PG-TS-stream burn-in 期間を設けず，のサンプリングを採⽤．計算量を重視する場合はこれを採⽤すればよい．

Computational Cost 以下のの密度にはの無限和が含まれていて，サンプリングは難しそう？ p(ω ∣ b > 0,

Results 20

Forest Cover Type Data ⽣息する⽊の種類の推定のオフライン評価． context は11次元の地域の特徴で，32アームから選択する問題．累積 regret の⽐較で，GLM-UCB,

News Article Recommendation Yahoo! の公開ベンチマークを⽤いたオフライン評価． context は6次元の記事の特徴 (not user features)

所感 Polson et al. (2013) の Polya-Gamma Augmentation という事後分布計算がそもそも⾰新的でスゴイ．

refs N. G. Polson, J. G. Scott, and J. Windle.