[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

・walker2Dを使用・3通りの訓練で検証 1．正常なロボットのみで訓練 (normal policy) 2．ロボットをランダムに故障させながら訓練 (robust policy) 3．状態遷移の差分を用いて故障させながら訓練 (our
policy) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・故障度合いが大きいとき，our policyとrubust policyで高い収益を得られた・故障度合いが小さいとき，our policyで高い収益を得られた故障の表現・故障する関節をランダムに選択し，関節アクチュエータのトルクに対して，故障係数kをかける・故障係数kは一様分布U(0.0,2.0)からサンプリングする・MDPにおける遷移関数に対して，正常時の遷移関数と故障時の遷移関数の差分を利用して故障度合いを表現する手法を提案状態遷移差分の学習による耐故障ロボットのための強化学習（JSAI 2020）大里虹平, 川本一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Rin134/_pdf 2024/01/26 論文を表す画像被引用数：- 1/4

故障の表現 ❏ 正常時の遷移関数Tnormalと故障時の遷移関数Tbrokenが異なることを利用 ❏ Tnormalと遷移関数Tが等しければ正常，そうでなければ故障とみなす ❏ Stdiﬀ：ロボットの故障度合いを反映したパラメータ ❏ St：t時刻の状態
❏ Stnormal：正常時ロボットを仮定してt時刻の状態 ❏ Tnormalは未知関数なのでニューラルネットワークで表現する ❏ 定常環境でStnormalを収集し，これを教師データとして遷移予測ネットワークを訓練する ❏ St^normalとSt^diﬀは予測値を意味する 2/4

実験結果 ❏ 結果 ❏ 故障度合いが大きいとき，our policyとrobust policyで高い収益 ❏ 故障度合いが小さいとき，our policyで高い収益
3/4 ❏ 実験設定 ❏ 正常なロボットのみで訓練 (normal policy) ❏ ロボットをランダムに故障させながら訓練 (robust policy) ❏ 状態遷移の差分を用いて故障させながら訓練 (our policy) ❏ hip,knee,ankleに対してkを0.25刻みで故障させて評価する ❏ 各手法に対して3つのシード値で 3200万ステップ訓練する

❏ まとめ ❏ 正常時の遷移関数を学習する ❏ 予測される状態遷移と実際の状態遷移の差分を方策ネットワークに加える ❏ これにより，故障度合いを識別しながら学習する手法を提案 ❏ 提案手法では，正常時および故障時に遷移関数を利用しない方策より高い
収益を獲得した ❏ 感想 ❏ 提案手法の概要とイメージを掴むことができたが，方策ネットワークに入力される「StとSt^diﬀ」の2つを入力するのをどのように実装しているのか気になる (通常，t時刻に対する状態は1つだけいれる) ❏ 他のロボット (hopper,halfcheetah,ant)による実験でも，同様の結果が得られるのか気になる ❏ この研究では，オンライン強化学習の設定で行っているが，オフライン強化学習の設定で行った場合，結果に変化があるのか見てみたいまとめと感想 4/4

[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

・walker2Dを使用・3通りの訓練で検証 1．正常なロボットのみで訓練 (normal policy) 2．ロボットをランダムに故障させながら訓練 (robust policy) 3．状態遷移の差分を用いて故障させながら訓練 (our

実験結果 ❏ 結果 ❏ 故障度合いが大きいとき，our policyとrobust policyで高い収益 ❏ 故障度合いが小さいとき，our policyで高い収益

[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

・walker2Dを使用 ・3通りの訓練で検証 1．正常なロボットのみで訓練 (normal policy) 2．ロボットをランダムに故障させながら訓練 (robust policy) 3．状態遷移の差分を用いて故障させながら訓練 (our

実験結果 ❏ 結果 ❏ 故障度合いが大きいとき，our policyとrobust policyで高い収益 ❏ 故障度合いが小さいとき，our policyで高い収益

・walker2Dを使用・3通りの訓練で検証 1．正常なロボットのみで訓練 (normal policy) 2．ロボットをランダムに故障させながら訓練 (robust policy) 3．状態遷移の差分を用いて故障させながら訓練 (our