[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・ベースラインと比較して独自の報酬関数の設計により，k=0.9 (ほんの少しだけ故障)の場合でベースラインを超えた・antで実験した・5つのseed値を使って，plain環境，broken環境で各100エピソード試行させた
・歩行タスクに対して，報酬関数を設計した・次のスライドで詳細を説明・antに対して物理パラメータ (質量や摩擦)のランダム化によって故障状態を作成・故障係数kを0~1の範囲で設定してPPOで学習させた・提案手法では，k=0.9で故障による変化にも対応できていることを示した物理パラメータのランダム化による耐故障ロボットのための強化学習（JSAI 2020）岡本航昇, 川本一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf 2024/01/26 論文を表す画像被引用数：- 1/5

故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t：故障状態 ❏ k：[0,1]の範囲で調整する故障係数 ❏ at：t時刻でのアクチュエータの行動 (アクチュエータの出力値)
❏ 各トレーニングエピソード開始時にantの4本の脚からランダムに1本を故障させる 2/5

報酬関数 ❏ 報酬 ❏ Rf (forward reward)：x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive
reward)：1ステップ生存したら，無条件で与えられる報酬 ❏ Cctrl (control cost)：1ステップでの行動が複雑になるほど大きくなるコスト ❏ Ccontact (contact cost)：地面との接触力が大きいほど大きな値となるコスト ❏ 報酬設計の意図 ❏ できるだけ転ばずにx軸方向に歩行するように期待して設計 3/5

実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境，broken環境の両方で平均報酬が向上した ❏ 故障によって転倒していたベースライン手法に対して，転倒することな
く歩行する制御を獲得した ❏ k=0.7より小さくするとplain環境，broken環境の両方で平均報酬が低下した ❏ これは，故障させすぎると歩行動作を学習すること自体が困難になることを示唆している 4/5 ※kの値を[0,1]の範囲でランダム化しながらトレーニングしても平均報酬が低下する結果となった

まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し，故障変化にロバストな方策獲得に成功した ❏ k<0.7の範囲で，歩行動作に悪影響がでるため，ランダム化の範囲が重要である ❏
ant特有の値なのか，それ以外のwalker2Dやhopperの場合でどうなるのかを実験する必要がある ❏ アクチュエータの故障に対する評価のみを行っているが，脚がとれるなどのシチュエーションで実験する必要がある ❏ 感想 ❏ 2足歩行の「walker2D or halfcheetah」，1足歩行の「hopper」で実験するとどうなるか気になる ❏ 予想では，hopperだと1つの関節アクチュエータに依存するロボット環境のため学習が難しくなるかもしれない？ ❏ 報酬関数の設計を「物理法則によって理論的に導出」したのか，「実験で試行錯誤して関数を設定」したのかが気になる 5/5

[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t：故障状態 ❏ k：[0,1]の範囲で調整する故障係数 ❏ at：t時刻でのアクチュエータの行動 (アクチュエータの出力値)

報酬関数 ❏ 報酬 ❏ Rf (forward reward)：x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive

実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境，broken環境の両方で平均報酬が向上した ❏ 故障によって転倒していたベースライン手法に対して，転倒することな

まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し，故障変化にロバストな方策獲得に成功した ❏ k<0.7の範囲で，歩行動作に悪影響がでるため，ランダム化の範囲が重要である ❏

[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t：故障状態 ❏ k：[0,1]の範囲で調整する故障係数 ❏ at：t時刻でのアクチュエータの行動 (アクチュエータの出力値)

報酬関数 ❏ 報酬 ❏ Rf (forward reward)：x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive

実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境 ，broken環境の両方で平均報酬が向 上した ❏ 故障によって転倒していたベースラ イン手法に対して，転倒することな

まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し，故障変化にロバストな方策獲得に 成功した ❏ k<0.7の範囲で，歩行動作に悪影響がでるため，ランダム化の範囲が重要 である ❏

実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境，broken環境の両方で平均報酬が向上した ❏ 故障によって転倒していたベースライン手法に対して，転倒することな

まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し，故障変化にロバストな方策獲得に成功した ❏ k<0.7の範囲で，歩行動作に悪影響がでるため，ランダム化の範囲が重要である ❏