Slide 27
Slide 27 text
- 学習の安定化のため与える報酬の大きさは1以下にすべき
- 目的とする振る舞いを形成するためには負の値の報酬よりも正の値を与えた方が良い
- 移動を行うタスクにおいては, 典型的に+0.1の小さい報酬を目的地に前進した場合に与える
- エージェントがタスクを早く終わらせたい場合,タスクが完了するまで-0.05の報酬をペナルティ
として与え続けるのが良い.この報酬設定を行う場合、エピソードの終了とタスクの完了は同時
に起こるべき
- 大きすぎる負の値の報酬はエージェントがより良い報酬を得るために負の報酬を生じる行動
のようなことを行わないようになることもある。エージェントが負の報酬に対して過敏になってし
まう (何も行動しない方がいいと学習してしまう感じ)
報酬設計のポイント
https://qiita.com/Alt_Shift_N/items/2c37fbb26d739b7f3046