Slide 1
Slide 1 text
・walker2Dを使用
・3通りの訓練で検証
1.正常なロボットのみで訓練 (normal policy)
2.ロボットをランダムに故障させながら訓練 (robust policy)
3.状態遷移の差分を用いて故障させながら訓練 (our policy)
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
・故障度合いが大きいとき,our policyとrubust policyで高い収益を
得られた
・故障度合いが小さいとき,our policyで高い収益を得られた
故障の表現
・故障する関節をランダムに選択し,関節アクチュエータのトルク
に対して,故障係数kをかける
・故障係数kは一様分布U(0.0,2.0)からサンプリングする
・MDPにおける遷移関数に対して,正常時の遷移関数と故障時の遷
移関数の差分を利用して故障度合いを表現する手法を提案
状態遷移差分の学習による耐故障ロボットのための強化学習
(JSAI 2020)大里 虹平, 川本 一彦
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Rin134/_pdf
2024/01/26
論文を表す画像
被引用数:-
1/4