Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20211208.pdf

Keio Computer Society
December 17, 2021
11

 20211208.pdf

Keio Computer Society

December 17, 2021
Tweet

Transcript

  1. 用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率

    上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す