Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[AAMAS22] Lazy-MDPs: Towards Interpretable RL b...

daiki
July 05, 2023

[AAMAS22] Lazy-MDPs: Towards Interpretable RL by Learning When to Act

Jacq, Alexis, et al. "Lazy-MDPs: Towards Interpretable RL by Learning When to Act." Proceedings of the 21st International Conference on Autonomous Agents and Multiagent Systems. 2022.

daiki

July 05, 2023
Tweet

More Decks by daiki

Other Decks in Research

Transcript

  1. Lazy-MDPs: Towards Interpretable RL by Learning When to Act 1

    Jacq, Alexis, et al. "Lazy-MDPs: Towards Interpretable RL by Learning When to Act." Proceedings of the 21st International Conference on Autonomous Agents and Multiagent Systems. 2022.
  2. 研究背景: 従来の強化学習 • 従来の強化学習 • エージェントは“how to act” (どのように行動するか)を学習 •

    マルコフ決定過程で環境をモデル化 • 人間の意思決定 • 重要な意思決定をするタイミングは限られる • 状況に応じて本能的な行動から思考された行動へ移行 • なんらかのデフォルト方策に意思決定を委ねる • 本論文の目的 “when and how to act”(いつ・どのように行動するか)を エージェントに学習させる 2
  3. (参考)Markov Decision Process(MDP) • エージェントに対する環境のモデル化 • マルコフ性がある確率過程 • 定義: 𝑀

    = (𝑆, 𝒜, 𝛾, 𝑟, 𝑃) 𝑆: 状態空間 𝒜:行動空間 𝛾: 割引率 𝑟: 報酬関数 𝑃: 遷移関数 4 Agent Environment ①状態𝑆𝑡 ②行動𝒜𝑡 ③報酬𝑟𝑡
  4. Lazy-MDP: 定義1 • 定義: 𝑀+ = (𝑆, 𝒜+, 𝛾, 𝑟+,

    𝑃+) • 通常のMDPを拡張 • 通常のMDPをLazy-MDPに置き換え可能 • 𝒜+ = 𝒜 ڂ ത 𝑎 ത 𝑎: lazy action • 元の行動空間𝒜と意思決定を行わないlazy action ത 𝑎で構成 黒: 元のMDP, 青: lazy actionに関係, 赤: Lazy-MDP 7
  5. Lazy-MDP: 定義2 • 定義: 𝑀+ = (𝑆, 𝒜+, 𝛾, 𝑟+,

    𝑃+) • 通常のMDPを拡張 • 𝑟+ 𝑠, 𝑎 = ቊ 𝑟 𝑠, 𝑎 − 𝜂 if 𝑎 ∈ 𝒜 σ𝑎∈𝒜 ത 𝜋 𝑎 𝑠 𝑟(𝑠, 𝑎) if 𝑎 = ത 𝑎 • 意思決定を行うと報酬にペナルティ • default方策で行動したときの報酬の期待値? • 𝑃+ 𝑠, 𝑠, 𝑎 = ቊ 𝑃 𝑠, 𝑠, 𝑎 if 𝑎 ∈ 𝒜 σ𝑎∈𝒜 ത 𝜋 𝑎 𝑠 𝑃 𝑠, 𝑠, 𝑎 if 𝑎 = ത 𝑎 • Default方策で行動したときに𝑠,へ移動する確率の期待値? 8 ത 𝑎: lazy action 𝜂: ペナルティ値 ത 𝜋: default方策
  6. Lazy-MDP: Q-function • 定義𝑀+ から導出される行動価値関数 • 𝑄+ 𝜋+ 𝑠, 𝑎

    = ቐ 𝑄 ∖ ത 𝑎 𝜋+ 𝑠, 𝑎 if 𝑎 ≠ ത 𝑎 𝔼𝑎~ഥ 𝜋 𝑄 ∖ ത 𝑎 𝜋+ 𝑠, 𝑎 + 𝜂 if 𝑎 = ത 𝑎 • Lazy actionでないときはlazy actionを除いた行動価値 • Lazy actionのときはdefault方策の行動価値の期待値にペナルティ値が 足されたもの • Lazy actionを行うように学習 9
  7. Lazy-MDP: lazy-gap 1 • lazy-gap: 𝐺𝑄 𝑠 = max 𝒜

    𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] • 最適行動の行動価値とdefault政策の行動価値の差 • エージェントが意思決定を行うかの閾値 • 𝐺𝑄 𝑠 > 𝜂 : 𝑎 ∈ 𝒜の行動価値が最大となる行動 • 𝐺𝑄 𝑠 ≤ 𝜂 : 𝑎 = ത 𝑎 の行動 10
  8. Lazy-MDP: lazy-gap 2 • lazy-gap: 𝐺𝑄 𝑠 = max 𝒜

    𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] • 最適行動の行動価値とdefault政策の行動価値の差 • default方策がランダムのとき • 行動価値に差ができると𝐺𝑄 𝑠 は大きくなる • 最適行動がある • Default方策と差がないとき𝐺𝑄 𝑠 は小さくなる • Default方策に任せる 𝐺𝑄 𝑠 を見るとエージェントが意思決定したタイミングがわかる →重要な状態がわかる 11 𝑎1 𝑎1 𝑎2 𝑎2 𝑎3 𝑎3 𝑄𝜋 (𝑠,⋅) 𝑄𝜋 (𝑠,⋅)
  9. 実験1:意思決定が必要なタイミングの学習 Rivers and Bridges • エージェントは滑りやすい橋を渡ってゴールを目指す • Q学習 • 報酬設計

    • 水中に落ちる:-100 • ゴールに到達:1 • default政策 • 橋以外:最適な政策 • 橋の上:ランダムな行動 12
  10. 実験2: 解釈可能性についての実験 Key-Door-Treasure environment • K(ey)を取得してD(oor)を通り,T(reassure)を目指す • 従来手法とlazy-gapを用いた方法で状態の重要度を比較 • 従来手法

    • Action-gap: 最大と2番目に最大の行動価値の差 • Important-advice: 最大と最小の行動価値の差 • 提案手法 • Lazy-gap: max 𝒜 𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] 14
  11. 実験3: 性能比較 • Atariの探索タスク • Lazy-MDP DQN vs 標準的なDQN •

    𝜂=(0.005, 0.01, 0.02, 0.05, 0.1, 0.2) • Default方策: ランダム 制御の頻度を減らしてもスコアは あまり下がらない 16 標 準 的 な DQN に 対 す る ス コ ア の 割 合 制御を受けた頻度