Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
Search
tt1717
January 26, 2024
Research
0
33
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 26, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
7
[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks 2
tt1717
0
6
[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)
tt1717
0
6
100 Program
tt1717
0
14
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
27
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
18
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
33
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
49
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
37
Other Decks in Research
See All in Research
一人称視点映像解析の基礎と応用(CVIMチュートリアル)
takumayagi
0
800
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
930
Mathematical Optimization +Artificial Intelligence =MOAI
mickey_kubo
1
230
大規模言語モデル (LLM) の技術と最新動向
ikuyamada
30
15k
SSII2024 [PD] SSII、次の30年への期待
ssii
PRO
2
1.3k
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
380
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
7
2.5k
ヘルプデスクの事例で学ぶAIエージェント
masatoto
11
4.5k
出生抑制策と少子化
morimasao16
0
280
ソースコード問い合わせのための長コンテキストLLM向けRAG手法の提案
toskamiya
0
140
HP (Hitto Point: 筆頭ポイント)
tanichu
0
900
SSII2024 [PD] 30周年記念特別企画SSII 技術マップ / LLMサーベイ
ssii
PRO
0
630
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
90
47k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
129
32k
Ruby is Unlike a Banana
tanoku
96
10k
Designing the Hi-DPI Web
ddemaree
276
34k
Design by the Numbers
sachag
277
18k
The Brand Is Dead. Long Live the Brand.
mthomps
52
36k
Faster Mobile Websites
deanohume
303
30k
Designing for humans not robots
tammielis
247
25k
Become a Pro
speakerdeck
PRO
15
4.8k
How to name files
jennybc
67
96k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.4k
Building Effective Engineering Teams - LeadDev
addyosmani
47
2.2k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・ベースラインと比較して独自の報酬関数の設計により,k=0.9 (ほ んの少しだけ故障)の場合でベースラインを超えた ・antで実験した ・5つのseed値を使って,plain環境,broken環境で各100エピソー ド試行させた
・歩行タスクに対して,報酬関数を設計した ・次のスライドで詳細を説明 ・antに対して物理パラメータ (質量や摩擦)のランダム化によって故 障状態を作成 ・故障係数kを0~1の範囲で設定してPPOで学習させた ・提案手法では,k=0.9で故障による変化にも対応できていることを 示した 物理パラメータのランダム化による耐故障ロボットのための強化学習 (JSAI 2020)岡本 航昇, 川本 一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf 2024/01/26 論文を表す画像 被引用数:- 1/5
故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t:故障状態 ❏ k:[0,1]の範囲で調整する故障係数 ❏ at:t時刻でのアクチュエータの行動 (アクチュエータの出力値)
❏ 各トレーニングエピソード開始時にantの4本の脚からランダムに1本を 故障させる 2/5
報酬関数 ❏ 報酬 ❏ Rf (forward reward):x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive
reward):1ステップ生存したら,無条件で与えられる報酬 ❏ Cctrl (control cost):1ステップでの行動が複雑になるほど大きくなるコスト ❏ Ccontact (contact cost):地面との接触力が大きいほど大きな値となるコスト ❏ 報酬設計の意図 ❏ できるだけ転ばずにx軸方向に歩行するように期待して設計 3/5
実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境 ,broken環境の両方で平均報酬が向 上した ❏ 故障によって転倒していたベースラ イン手法に対して,転倒することな
く歩行する制御を獲得した ❏ k=0.7より小さくするとplain環境 ,broken環境の両方で平均報酬が低 下した ❏ これは,故障させすぎると歩行動作 を学習すること自体が困難になるこ とを示唆している 4/5 ※kの値を[0,1]の範囲でランダム化しながらトレーニング しても平均報酬が低下する結果となった
まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し,故障変化にロバストな方策獲得に 成功した ❏ k<0.7の範囲で,歩行動作に悪影響がでるため,ランダム化の範囲が重要 である ❏
ant特有の値なのか,それ以外のwalker2Dやhopperの場合でどうなるのか を実験する必要がある ❏ アクチュエータの故障に対する評価のみを行っているが,脚がとれるなど のシチュエーションで実験する必要がある ❏ 感想 ❏ 2足歩行の「walker2D or halfcheetah」,1足歩行の「hopper」で実験す るとどうなるか気になる ❏ 予想では,hopperだと1つの関節アクチュエータに依存するロボット環境 のため学習が難しくなるかもしれない? ❏ 報酬関数の設計を「物理法則によって理論的に導出」したのか,「実験で 試行錯誤して関数を設定」したのかが気になる 5/5