Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
Search
tt1717
January 26, 2024
Research
0
21
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 26, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
15
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
8
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
19
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
37
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
23
[論文紹介] Playing Atari with Deep Reinforcement Learning
tt1717
0
19
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
tt1717
0
22
[論文サーベイ] Survey on Minecraft AI
tt1717
0
38
[論文サーベイ] Survey on Sim-to-Real
tt1717
0
15
Other Decks in Research
See All in Research
ランサーズエージェント_フリーランスエンジニアの年収・キャリアの実態調査2024
lancers_pr
0
180
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
280
3D Gaussian Splatting for Real-Time Radiance Field Rendering
frkake
0
130
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
510
ニューラルネットワークを用いた床面圧力センサによる靴の種類の識別 / shoes-i2024
yumulab
0
110
新入生向けチュートリアル:文献のサーベイv2
a1da4
9
7.1k
論文紹介 DSRNet: Single Image Reflection Separation via Component Synergy (ICCV 2023)
tattaka
0
200
LLMマルチエージェントを俯瞰する
masatoto
26
17k
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
620
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
750
Remove Assumptions in Multi-Agent Pathfinding
kei18
0
110
機械学習を用いたポケモン対戦選出予測
fufufukakaka
1
380
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
331
56k
Statistics for Hackers
jakevdp
790
220k
What's in a price? How to price your products and services
michaelherold
238
11k
Producing Creativity
orderedlist
PRO
338
39k
Embracing the Ebb and Flow
colly
80
4.2k
Designing for Performance
lara
603
67k
Music & Morning Musume
bryan
42
5.7k
Gamification - CAS2011
davidbonilla
77
4.6k
Rebuilding a faster, lazier Slack
samanthasiow
74
8.3k
How STYLIGHT went responsive
nonsquared
92
4.9k
Mobile First: as difficult as doing things right
swwweet
217
8.6k
In The Pink: A Labor of Love
frogandcode
138
21k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・ベースラインと比較して独自の報酬関数の設計により,k=0.9 (ほ んの少しだけ故障)の場合でベースラインを超えた ・antで実験した ・5つのseed値を使って,plain環境,broken環境で各100エピソー ド試行させた
・歩行タスクに対して,報酬関数を設計した ・次のスライドで詳細を説明 ・antに対して物理パラメータ (質量や摩擦)のランダム化によって故 障状態を作成 ・故障係数kを0~1の範囲で設定してPPOで学習させた ・提案手法では,k=0.9で故障による変化にも対応できていることを 示した 物理パラメータのランダム化による耐故障ロボットのための強化学習 (JSAI 2020)岡本 航昇, 川本 一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf 2024/01/26 論文を表す画像 被引用数:- 1/5
故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t:故障状態 ❏ k:[0,1]の範囲で調整する故障係数 ❏ at:t時刻でのアクチュエータの行動 (アクチュエータの出力値)
❏ 各トレーニングエピソード開始時にantの4本の脚からランダムに1本を 故障させる 2/5
報酬関数 ❏ 報酬 ❏ Rf (forward reward):x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive
reward):1ステップ生存したら,無条件で与えられる報酬 ❏ Cctrl (control cost):1ステップでの行動が複雑になるほど大きくなるコスト ❏ Ccontact (contact cost):地面との接触力が大きいほど大きな値となるコスト ❏ 報酬設計の意図 ❏ できるだけ転ばずにx軸方向に歩行するように期待して設計 3/5
実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境 ,broken環境の両方で平均報酬が向 上した ❏ 故障によって転倒していたベースラ イン手法に対して,転倒することな
く歩行する制御を獲得した ❏ k=0.7より小さくするとplain環境 ,broken環境の両方で平均報酬が低 下した ❏ これは,故障させすぎると歩行動作 を学習すること自体が困難になるこ とを示唆している 4/5 ※kの値を[0,1]の範囲でランダム化しながらトレーニング しても平均報酬が低下する結果となった
まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し,故障変化にロバストな方策獲得に 成功した ❏ k<0.7の範囲で,歩行動作に悪影響がでるため,ランダム化の範囲が重要 である ❏
ant特有の値なのか,それ以外のwalker2Dやhopperの場合でどうなるのか を実験する必要がある ❏ アクチュエータの故障に対する評価のみを行っているが,脚がとれるなど のシチュエーションで実験する必要がある ❏ 感想 ❏ 2足歩行の「walker2D or halfcheetah」,1足歩行の「hopper」で実験す るとどうなるか気になる ❏ 予想では,hopperだと1つの関節アクチュエータに依存するロボット環境 のため学習が難しくなるかもしれない? ❏ 報酬関数の設計を「物理法則によって理論的に導出」したのか,「実験で 試行錯誤して関数を設定」したのかが気になる 5/5