Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] DayDreamer: World Models for Physical Robot Learning
Search
tt1717
October 21, 2023
Research
0
41
[論文紹介] DayDreamer: World Models for Physical Robot Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 21, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
6
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
5
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
7
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
31
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
18
[論文紹介] Playing Atari with Deep Reinforcement Learning
tt1717
0
13
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
tt1717
0
18
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
tt1717
0
18
[論文サーベイ] Survey on Minecraft AI
tt1717
0
29
Other Decks in Research
See All in Research
生成AIを用いたText to SQLの最前線
masatoto
1
2.5k
[2023 CCSE] ZOZOTOWN検索における 研究開発の取り組みについて
tomoyayama
0
130
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
240
Target trial emulationの概要
shuntaros
2
1.2k
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
150
Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical
nttcom
0
120
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
530
言語間転移学習で大規模言語モデルを賢くする
ikuyamada
8
3.6k
待機電力を削減したネットワーク更新型電子ペーパーサイネージの開発と評価 / IOT64
yumulab
0
110
脳卒中患者・家族からみた循環器病対策推進基本計画の進捗に関する調査
japanstrokeassociation
0
540
My Journey as a UX Researcher
aranciap
0
1.1k
CVPR2023 EarthVision Workshopより衛星画像関連論文紹介 / Satellite Imaging Processing Papers in CVPR2023 EarthVision Workshop
nttcom
0
130
Featured
See All Featured
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
Code Reviewing Like a Champion
maltzj
515
39k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
20
1.8k
How to train your dragon (web standard)
notwaldorf
75
5.2k
From Idea to $5000 a Month in 5 Months
shpigford
378
45k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
22
1.4k
Producing Creativity
orderedlist
PRO
338
39k
Music & Morning Musume
bryan
41
5.6k
Making the Leap to Tech Lead
cromwellryan
125
8.5k
Building Effective Engineering Teams - LeadDev
addyosmani
32
1.9k
Build your cross-platform service in a week with App Engine
jlugia
226
17k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの
有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 1/7
A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度,姿勢,角速度 ❏
アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰,肩,膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7
A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら,ロボットの姿勢を変えず手動で位置 を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成
❏ 結果 ❏ 1時間後には寝返り,立ち上がり,歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7
UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick
and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度,グリッパ位置,etc.),RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7
XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and
Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置,RGB画像,Depth画像 ❏ アクション,報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7
Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像
❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7
OpenReview ❏ 学習曲線の線と影は何を表している? ❏ 線は平均報酬を表し,影の領域は標準偏差を表す.これにより訓 練の安定性と振動の指標を示す. ❏ UR5とXArmの違いが明確でない. ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり,世界モ
デルがより複雑なダイナミクスを処理できることを示す. ❏ 手法に新規性がない. ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的 だった. ❏ UR5は混色の背景,XArmは緑の背景を使用しているが,この実験設定 に何か特別な理由があるか? ❏ 特別な理由はない.アームの後ろに背景を置くことでよりきれい な学習データを得ることができる. 7/7
参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7