Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
Search
tt1717
January 26, 2024
Research
0
49
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 26, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
23
[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks 2
tt1717
0
17
[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)
tt1717
0
17
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
47
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
33
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
96
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
74
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
55
[論文紹介] Playing Atari with Deep Reinforcement Learning
tt1717
0
61
Other Decks in Research
See All in Research
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
11k
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
420
「Goトレ」のご紹介
smartfukushilab1
0
720
[第62回NLPコロキウム]「なりきり」を促すHCI設計:対話型接客ロボットの遠隔操作者へのリアルタイム変換音声フィードバックの適用
nami_ogawa
0
300
20240626_金沢大学_新機能集積回路設計特論_配布用 #makelsi
takasumasakazu
0
160
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
490
CSER 2024 Keynote
tsantalis
0
210
Streaming CityJSON datasets
hugoledoux
0
140
[2024.08.30] Gemma-Ko, 오픈 언어모델에 한국어 입히기 @ 머신러닝부트캠프2024
beomi
0
640
熊本から日本の都市交通政策を立て直す~「車1割削減、渋滞半減、公共交通2倍」の実現へ~@公共交通マーケティング研究会リスタートセミナー
trafficbrain
0
110
多様かつ継続的に変化する環境に適応する情報システム/thesis-defense-presentation
monochromegane
1
460
ICLR2024: Reading "Training Unbiased Diffusion Models From Biased Dataset"
hotekagi
0
100
Featured
See All Featured
Music & Morning Musume
bryan
46
6.1k
Docker and Python
trallard
40
3.1k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
For a Future-Friendly Web
brad_frost
174
9.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
92
16k
Optimizing for Happiness
mojombo
376
69k
Making the Leap to Tech Lead
cromwellryan
132
8.9k
The Language of Interfaces
destraynor
154
24k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
The Cost Of JavaScript in 2023
addyosmani
45
6.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.6k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・ベースラインと比較して独自の報酬関数の設計により,k=0.9 (ほ んの少しだけ故障)の場合でベースラインを超えた ・antで実験した ・5つのseed値を使って,plain環境,broken環境で各100エピソー ド試行させた
・歩行タスクに対して,報酬関数を設計した ・次のスライドで詳細を説明 ・antに対して物理パラメータ (質量や摩擦)のランダム化によって故 障状態を作成 ・故障係数kを0~1の範囲で設定してPPOで学習させた ・提案手法では,k=0.9で故障による変化にも対応できていることを 示した 物理パラメータのランダム化による耐故障ロボットのための強化学習 (JSAI 2020)岡本 航昇, 川本 一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf 2024/01/26 論文を表す画像 被引用数:- 1/5
故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t:故障状態 ❏ k:[0,1]の範囲で調整する故障係数 ❏ at:t時刻でのアクチュエータの行動 (アクチュエータの出力値)
❏ 各トレーニングエピソード開始時にantの4本の脚からランダムに1本を 故障させる 2/5
報酬関数 ❏ 報酬 ❏ Rf (forward reward):x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive
reward):1ステップ生存したら,無条件で与えられる報酬 ❏ Cctrl (control cost):1ステップでの行動が複雑になるほど大きくなるコスト ❏ Ccontact (contact cost):地面との接触力が大きいほど大きな値となるコスト ❏ 報酬設計の意図 ❏ できるだけ転ばずにx軸方向に歩行するように期待して設計 3/5
実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境 ,broken環境の両方で平均報酬が向 上した ❏ 故障によって転倒していたベースラ イン手法に対して,転倒することな
く歩行する制御を獲得した ❏ k=0.7より小さくするとplain環境 ,broken環境の両方で平均報酬が低 下した ❏ これは,故障させすぎると歩行動作 を学習すること自体が困難になるこ とを示唆している 4/5 ※kの値を[0,1]の範囲でランダム化しながらトレーニング しても平均報酬が低下する結果となった
まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し,故障変化にロバストな方策獲得に 成功した ❏ k<0.7の範囲で,歩行動作に悪影響がでるため,ランダム化の範囲が重要 である ❏
ant特有の値なのか,それ以外のwalker2Dやhopperの場合でどうなるのか を実験する必要がある ❏ アクチュエータの故障に対する評価のみを行っているが,脚がとれるなど のシチュエーションで実験する必要がある ❏ 感想 ❏ 2足歩行の「walker2D or halfcheetah」,1足歩行の「hopper」で実験す るとどうなるか気になる ❏ 予想では,hopperだと1つの関節アクチュエータに依存するロボット環境 のため学習が難しくなるかもしれない? ❏ 報酬関数の設計を「物理法則によって理論的に導出」したのか,「実験で 試行錯誤して関数を設定」したのかが気になる 5/5