バンディット問題の理論とアルゴリズム第10章

バンディット問題の理論とアルゴリズム第 10章バンディット手法の応用輪読担当： issei

About me Issei Takano 仕事：フロントエンド(BackboneJS、Seasar2) 専門：物理学(統計力学、気象力学) Twitter: it__ssei slack: ssmjp,
ng-japan, … game: PSO2, FF14 (c) ギルティクラウン製作委員会 (c) Project-118/凪のあすから製作委員会

10章のあらすじバンディット手法をどのように適用できるのかを示す。 1. ゲーム木探索（囲碁・将棋） 2. インターネット広告配信 3. 推薦システム

10.1 ゲーム木探索

三目並べ（図10.1参照）木構造：現在の局面と、そこから遷移可能な局面とで作る探索手法：ミニマックス探索

付録：木構造３種類の節点(ノード) 1. 根（現在の局面） 2. 節点 3. 葉（最終局面）根葉
葉葉

ミニマックス探索（p172）対象：三目並べ設定：木構造は予め全て展開しておく評価値：次のようにして最終局面から辿ってくる　自分の手：最大値(マックス) 　相手の手：最小値(ミニ) 最善手：評価値が最大の節点への遷移

囲碁や将棋木構造：現在の局面と、そこから遷移可能な局面とで作る問題点：ゲーム木を全探索するのは不可能対処法：ゲーム木を最終局面まで展開せずに評価する

モンテカルロ木探索対象：囲碁・将棋木構造：現在の局面と、そこから遷移可能な局面とで作る。　　　ただし、最初は全て展開せずに途中で止めておく　　　（止めた箇所を「葉節点」と呼んでいる）評価方法：評価したい局面から先をモンテカルロ法でランダムにプレイ（プレイアウト）

モンテカルロ木探索の一般形 s 0 :現在の局面、v 0 :根節点の木Tについて 1. 木Tの葉節点 v t
の選択 2. 木Tの拡張 (葉節点 v t に子節点v’ を追加し、それを新たなv t とする) 3. プレイアウトによる、葉節点v t から到達可能な最終局面の評価値のランダム抽出 4. ランダム抽出された評価値の葉節点v t から根節点v 0 への逆伝搬繰り返し後に、v 0 の子節点vjを選択する

モンテカルロ木探索にバンディット手法を使う s 0 :現在の局面、v 0 :根節点の木Tについて 1. 木Tの葉節点 v t
の選択　←ここにUCB方策を用いるのがUCTアルゴリズム 2. 木Tの拡張 (葉節点 v t に子節点v’ を追加し、それを新たなv t とする)　←ここにもバンディットを使うのが有効 3. プレイアウトによる、葉節点v t から到達可能な最終局面の評価値のランダム抽出 4. ランダム抽出された評価値の葉節点v t から根節点v 0 への逆伝搬繰り返し後に、v 0 の子節点vjを選択する →UCBスコア　　　　　　　　　　　　　　第一項：知識利用、第二項：探索

10.2 インターネット広告

このセクションで扱う広告配信 1. クリック毎に課金・報酬(PPC)を行う 2. 広告オークション広告主からの広告代を最大化する方法を考える

クリック毎に課金・報酬(PPC)を行う配信方式こんな広告：ブログのスペースに貼るタイプ問題点：どの広告が最もクリック率が高いかは、配信しないと推定できないバンディット問題に当てはめると　知識利用：現時点までのクリック率が最大の広告を配信する　探索：配信数が少なく、クリック率の推定精度が低い広告を配信する

PPC広告配信の定式化制約：　広告は予算内の回数まで配信する　配信先ページと広告の相性がある線形計画問題：全体のクリック数を最大化する推定する対象：クリック率　←配信回数が少ないうちは、ギッティンズ指標などを用いて大きめに見積もる

広告オークションオークションに競り勝った広告を掲載する方式落札額による分類 1. 第一価格オークション　←腹の探り合いになるため使わない 2. 第二価格オークション　←通常使うのはこちら正直なオークション： 1. 他の広告の提示金額に依存しない
2. 全ての広告がそうなる広告収入最大化する設計：アルゴリズム10.2参照

10.3 推薦システム

推薦システム情報フィルタリングをつかって、各人に合った商品を推薦したい 1. 人口統計学的属性に基づくフィルタリング 2. 内容に基づくフィルタリング 3. 協調フィルタリング

フィルタリングで使うモデル（属性や内容に基づくもの） X i ：評価値または購買確率 θ：モデルパラメータ a：ユーザ属性とアイテム属性の交互作用を考慮した属性のベクトル u：ユーザ ε：誤差項

フィルタリングの性能指標・訓練データで学習した予測器の、テストデータに対する推薦精度・新規ユーザに対する初期段階の予測精度　・探索と知識利用のバランスを取るためにバンディット手法を用いる

オフライン評価（性能指標の一例として）ニュース推薦システム（Li et. al 2010）にてPolicy Evaluatorの利用が提案された。まず、各時刻にランダムに（一様分布で）選んだ方策でニュースを推薦する　　→これによって取れたログから事象列を作る　　　※ここには評価したい方策を入れない次に、Policy
Evaluatorによる方策の評価をオフラインで行う　・評価したい方策で推薦したニュースと一致する事象を順に探す　・定理10.2の通り、オンライン評価の結果と分布が一致する

協調フィルタリングユーザのアイテムに対する評価値行列の欠損値を推定する問題として定式化する　→行列分解　MをUとVに分解する・Vを線形モデルとして推定して固定し　Uを線形バンディットの手法で決める→トンプソン抽出・Vに事前分布を与え　UとVの最大事後確率(MAP)を推定する→確率的行列分解

推薦アイテムのリストを評価するには推薦アイテムのリスト表示時の報酬関数を用いる　・１つでもクリックされれば1、クリックなければ（放棄）0 ユーザの好みを知らない状態で推薦の報酬を最大化するアイテムの集合を求める　→NP困難な問題になる　（最大被覆問題）　→評価するにはp186中程のリグレットを用いるのが妥当　→順位付きリストなら敵対的多腕バンディットで解けて、　　リグレットの上限が決まっている

以上です。お付き合いいただきありがとうございます！

バンディット問題の理論とアルゴリズム第10章

バンディット問題の理論とアルゴリズム第10章

issei

More Decks by issei

Other Decks in Technology

Featured

Transcript