Slide 1
Slide 1 text
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
・ベースラインと比較して独自の報酬関数の設計により,k=0.9 (ほ
んの少しだけ故障)の場合でベースラインを超えた
・antで実験した
・5つのseed値を使って,plain環境,broken環境で各100エピソー
ド試行させた
・歩行タスクに対して,報酬関数を設計した
・次のスライドで詳細を説明
・antに対して物理パラメータ (質量や摩擦)のランダム化によって故
障状態を作成
・故障係数kを0~1の範囲で設定してPPOで学習させた
・提案手法では,k=0.9で故障による変化にも対応できていることを
示した
物理パラメータのランダム化による耐故障ロボットのための強化学習
(JSAI 2020)岡本 航昇, 川本 一彦
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf
2024/01/26
論文を表す画像
被引用数:-
1/5