Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] DayDreamer: World Models for Physical Ro...
Search
tt1717
October 21, 2023
Research
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[論文紹介] DayDreamer: World Models for Physical Robot Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 21, 2023
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
73
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
58
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
47
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
47
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
91
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
86
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
140
[論文サーベイ] Survey on GPT for Games
tt1717
0
94
Other Decks in Research
See All in Research
Sleuthcon Keynote - How Cybercriminals (ab)use AI
fr0gger
0
190
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
230
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
790
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
520
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
480
Fukui Shibiten 39 - AI Art
butchi
0
130
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
310
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
260
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
150
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
3
170
コーディングエージェントとABNを再考
hf149
2
730
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
320
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Bash Introduction
62gerente
615
220k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Everyday Curiosity
cassininazir
0
230
Building Adaptive Systems
keathley
44
3.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
370
New Earth Scene 8
popppiees
3
2.4k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
260
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
230
A Tale of Four Properties
chriscoyier
163
24k
エンジニアに許された特別な時間の終わり
watany
107
250k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの
有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 1/7
A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度,姿勢,角速度 ❏
アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰,肩,膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7
A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら,ロボットの姿勢を変えず手動で位置 を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成
❏ 結果 ❏ 1時間後には寝返り,立ち上がり,歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7
UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick
and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度,グリッパ位置,etc.),RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7
XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and
Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置,RGB画像,Depth画像 ❏ アクション,報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7
Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像
❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7
OpenReview ❏ 学習曲線の線と影は何を表している? ❏ 線は平均報酬を表し,影の領域は標準偏差を表す.これにより訓 練の安定性と振動の指標を示す. ❏ UR5とXArmの違いが明確でない. ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり,世界モ
デルがより複雑なダイナミクスを処理できることを示す. ❏ 手法に新規性がない. ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的 だった. ❏ UR5は混色の背景,XArmは緑の背景を使用しているが,この実験設定 に何か特別な理由があるか? ❏ 特別な理由はない.アームの後ろに背景を置くことでよりきれい な学習データを得ることができる. 7/7
参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7