Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] DayDreamer: World Models for Physical Ro...
Search
tt1717
October 21, 2023
Research
0
84
[論文紹介] DayDreamer: World Models for Physical Robot Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 21, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
19
[論文サーベイ] Survey on GPT for Games
tt1717
0
32
[論文サーベイ] Survey on World Models for Games
tt1717
0
53
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
35
[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks 2
tt1717
0
38
[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)
tt1717
0
61
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
91
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
54
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
270
Other Decks in Research
See All in Research
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
440
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
570
ソフトウェア研究における脅威モデリング
laysakura
0
1.6k
The many faces of AI and the role of mathematics
gpeyre
1
1.6k
コミュニティドライブプロジェクト
smartfukushilab1
0
190
CoRL2024サーベイ
rpc
1
1.5k
地理空間情報と自然言語処理:「地球の歩き方旅行記データセット」の高付加価値化を通じて
hiroki13
1
190
Bluesky Game Dev
trezy
0
140
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
1.2k
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
510
CUNY DHI_Lightning Talks_2024
digitalfellow
0
440
o1 pro mode の調査レポート
smorce
0
110
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Gamification - CAS2011
davidbonilla
80
5.1k
RailsConf 2023
tenderlove
29
1k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Done Done
chrislema
182
16k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Code Review Best Practice
trishagee
67
18k
BBQ
matthewcrist
87
9.5k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの
有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 1/7
A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度,姿勢,角速度 ❏
アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰,肩,膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7
A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら,ロボットの姿勢を変えず手動で位置 を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成
❏ 結果 ❏ 1時間後には寝返り,立ち上がり,歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7
UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick
and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度,グリッパ位置,etc.),RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7
XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and
Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置,RGB画像,Depth画像 ❏ アクション,報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7
Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像
❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7
OpenReview ❏ 学習曲線の線と影は何を表している? ❏ 線は平均報酬を表し,影の領域は標準偏差を表す.これにより訓 練の安定性と振動の指標を示す. ❏ UR5とXArmの違いが明確でない. ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり,世界モ
デルがより複雑なダイナミクスを処理できることを示す. ❏ 手法に新規性がない. ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的 だった. ❏ UR5は混色の背景,XArmは緑の背景を使用しているが,この実験設定 に何か特別な理由があるか? ❏ 特別な理由はない.アームの後ろに背景を置くことでよりきれい な学習データを得ることができる. 7/7
参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7