Slide 8
Slide 8 text
Lazy-MDP: 定義2
• 定義: 𝑀+ = (𝑆, 𝒜+, 𝛾, 𝑟+, 𝑃+)
• 通常のMDPを拡張
• 𝑟+
𝑠, 𝑎 = ቊ
𝑟 𝑠, 𝑎 − 𝜂 if 𝑎 ∈ 𝒜
σ𝑎∈𝒜
ത
𝜋 𝑎 𝑠 𝑟(𝑠, 𝑎) if 𝑎 = ത
𝑎
• 意思決定を行うと報酬にペナルティ
• default方策で行動したときの報酬の期待値?
• 𝑃+
𝑠, 𝑠, 𝑎 = ቊ
𝑃 𝑠, 𝑠, 𝑎 if 𝑎 ∈ 𝒜
σ𝑎∈𝒜
ത
𝜋 𝑎 𝑠 𝑃 𝑠, 𝑠, 𝑎 if 𝑎 = ത
𝑎
• Default方策で行動したときに𝑠,へ移動する確率の期待値?
8
ത
𝑎: lazy action
𝜂: ペナルティ値
ത
𝜋: default方策