[AAMAS22] Lazy-MDPs: Towards Interpretable RL by Learning When to Act

Slide 1

Slide 1 text

Lazy-MDPs: Towards Interpretable RL by Learning When to Act 1 Jacq, Alexis, et al. "Lazy-MDPs: Towards Interpretable RL by Learning When to Act." Proceedings of the 21st International Conference on Autonomous Agents and Multiagent Systems. 2022.

Slide 2

Slide 2 text

研究背景: 従来の強化学習 • 従来の強化学習 • エージェントは“how to act” (どのように行動するか)を学習 • マルコフ決定過程で環境をモデル化 • 人間の意思決定 • 重要な意思決定をするタイミングは限られる • 状況に応じて本能的な行動から思考された行動へ移行 • なんらかのデフォルト方策に意思決定を委ねる • 本論文の目的 “when and how to act”(いつ・どのように行動するか)をエージェントに学習させる 2

Slide 3

Slide 3 text

本論文の目的 1. 「いつ，どのように行動するか」を学習させる環境モデル Lazy-MDPを提案する 2. 理論的観点から最適性を証明する 3. 意思決定の頻度を少なくすることが与える影響を探る今回は1と3について説明 3

Slide 4

Slide 4 text

(参考)Markov Decision Process（MDP） • エージェントに対する環境のモデル化 • マルコフ性がある確率過程 • 定義: 𝑀 = (𝑆, 𝒜, 𝛾, 𝑟, 𝑃) 𝑆: 状態空間 𝒜:行動空間 𝛾: 割引率 𝑟: 報酬関数 𝑃: 遷移関数 4 Agent Environment ①状態𝑆𝑡 ②行動𝒜𝑡 ③報酬𝑟𝑡

Slide 5

Slide 5 text

Lazy-MDP: 概要 5 Lazy action (意思決定を行わない) 元のMDPに基づく行動

Slide 6

Slide 6 text

Lazy-MDP: 概要 6 任意の方策 Ex.ランダム，事前知識，人が選択，複雑な環境情報 Lazy action (意思決定を行わない) 元のMDPに基づく行動 Default方策に基づく行動

Slide 7

Slide 7 text

Lazy-MDP: 定義1 • 定義: 𝑀+ = (𝑆, 𝒜+, 𝛾, 𝑟+, 𝑃+) • 通常のMDPを拡張 • 通常のMDPをLazy-MDPに置き換え可能 • 𝒜+ = 𝒜 ڂ ത 𝑎 ത 𝑎: lazy action • 元の行動空間𝒜と意思決定を行わないlazy action ത 𝑎で構成黒: 元のMDP, 青: lazy actionに関係, 赤: Lazy-MDP 7

Slide 8

Slide 8 text

Lazy-MDP: 定義2 • 定義: 𝑀+ = (𝑆, 𝒜+, 𝛾, 𝑟+, 𝑃+) • 通常のMDPを拡張 • 𝑟+ 𝑠, 𝑎 = ቊ 𝑟 𝑠, 𝑎 − 𝜂 if 𝑎 ∈ 𝒜 σ𝑎∈𝒜 ത 𝜋 𝑎 𝑠 𝑟(𝑠, 𝑎) if 𝑎 = ത 𝑎 • 意思決定を行うと報酬にペナルティ • default方策で行動したときの報酬の期待値？ • 𝑃+ 𝑠, 𝑠, 𝑎 = ቊ 𝑃 𝑠, 𝑠, 𝑎 if 𝑎 ∈ 𝒜 σ𝑎∈𝒜 ത 𝜋 𝑎 𝑠 𝑃 𝑠, 𝑠, 𝑎 if 𝑎 = ത 𝑎 • Default方策で行動したときに𝑠,へ移動する確率の期待値？ 8 ത 𝑎: lazy action 𝜂: ペナルティ値 ത 𝜋: default方策

Slide 9

Slide 9 text

Lazy-MDP: Q-function • 定義𝑀+ から導出される行動価値関数 • 𝑄+ 𝜋+ 𝑠, 𝑎 = ቐ 𝑄 ∖ ത 𝑎 𝜋+ 𝑠, 𝑎 if 𝑎 ≠ ത 𝑎 𝔼𝑎~ഥ 𝜋 𝑄 ∖ ത 𝑎 𝜋+ 𝑠, 𝑎 + 𝜂 if 𝑎 = ത 𝑎 • Lazy actionでないときはlazy actionを除いた行動価値 • Lazy actionのときはdefault方策の行動価値の期待値にペナルティ値が足されたもの • Lazy actionを行うように学習 9

Slide 10

Slide 10 text

Lazy-MDP: lazy-gap 1 • lazy-gap: 𝐺𝑄 𝑠 = max 𝒜 𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] • 最適行動の行動価値とdefault政策の行動価値の差 • エージェントが意思決定を行うかの閾値 • 𝐺𝑄 𝑠 > 𝜂 : 𝑎 ∈ 𝒜の行動価値が最大となる行動 • 𝐺𝑄 𝑠 ≤ 𝜂 : 𝑎 = ത 𝑎 の行動 10

Slide 11

Slide 11 text

Lazy-MDP: lazy-gap 2 • lazy-gap: 𝐺𝑄 𝑠 = max 𝒜 𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] • 最適行動の行動価値とdefault政策の行動価値の差 • default方策がランダムのとき • 行動価値に差ができると𝐺𝑄 𝑠 は大きくなる • 最適行動がある • Default方策と差がないとき𝐺𝑄 𝑠 は小さくなる • Default方策に任せる 𝐺𝑄 𝑠 を見るとエージェントが意思決定したタイミングがわかる →重要な状態がわかる 11 𝑎1 𝑎1 𝑎2 𝑎2 𝑎3 𝑎3 𝑄𝜋 (𝑠,⋅) 𝑄𝜋 (𝑠,⋅)

Slide 12

Slide 12 text

実験1:意思決定が必要なタイミングの学習 Rivers and Bridges • エージェントは滑りやすい橋を渡ってゴールを目指す • Q学習 • 報酬設計 • 水中に落ちる：-100 • ゴールに到達：1 • default政策 • 橋以外：最適な政策 • 橋の上：ランダムな行動 12

Slide 13

Slide 13 text

実験1:意思決定が必要なタイミングの学習結果 • Lazy-gapのヒートマップ • 橋の上だけ色が変化 • コストをかけても制御が必要な橋の上以外はdefault政策を利用 →制御を行うタイミングを学習 13

Slide 14

Slide 14 text

実験2: 解釈可能性についての実験 Key-Door-Treasure environment • K(ey)を取得してD(oor)を通り，T(reassure)を目指す • 従来手法とlazy-gapを用いた方法で状態の重要度を比較 • 従来手法 • Action-gap: 最大と２番目に最大の行動価値の差 • Important-advice: 最大と最小の行動価値の差 • 提案手法 • Lazy-gap: max 𝒜 𝑄(𝑠,⋅) − 𝔼ഥ 𝜋 [𝑄(𝑠, 𝑎)] 14

Slide 15

Slide 15 text

実験2: 解釈可能性についての実験 15 鍵を得る前鍵を得た後

Slide 16

Slide 16 text

実験3: 性能比較 • Atariの探索タスク • Lazy-MDP DQN vs 標準的なDQN • 𝜂=(0.005, 0.01, 0.02, 0.05, 0.1, 0.2) • Default方策: ランダム制御の頻度を減らしてもスコアはあまり下がらない 16 標準的な DQN に対するスコアの割合制御を受けた頻度

Slide 17

Slide 17 text

結論 • 「いつ，どのように行動するか」を学習するためのモデル Lazy-MDPを提案 • 提案手法は重要である状態を強調する • DQNをLazy-MDPで学習した方策は標準的なMDPで学習した方策に近い性能を示す 17