Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] DayDreamer: World Models for Physical Ro...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
October 21, 2023
Research
0
130
[論文紹介] DayDreamer: World Models for Physical Robot Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 21, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
28
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
35
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
21
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
22
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
76
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
66
[論文サーベイ] Survey on Pokemon AI
tt1717
0
100
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
120
[論文サーベイ] Survey on GPT for Games
tt1717
0
72
Other Decks in Research
See All in Research
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
340
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
260
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
450
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
140
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
240
地域丸ごとデイサービス「Go トレ」の紹介
smartfukushilab1
0
930
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
170
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
420
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
290
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
250
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
Featured
See All Featured
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
210
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
53
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
170
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Building Adaptive Systems
keathley
44
2.9k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Everyday Curiosity
cassininazir
0
130
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
160
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの
有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 1/7
A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度,姿勢,角速度 ❏
アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰,肩,膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7
A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら,ロボットの姿勢を変えず手動で位置 を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成
❏ 結果 ❏ 1時間後には寝返り,立ち上がり,歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7
UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick
and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度,グリッパ位置,etc.),RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7
XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and
Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置,RGB画像,Depth画像 ❏ アクション,報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7
Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像
❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7
OpenReview ❏ 学習曲線の線と影は何を表している? ❏ 線は平均報酬を表し,影の領域は標準偏差を表す.これにより訓 練の安定性と振動の指標を示す. ❏ UR5とXArmの違いが明確でない. ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり,世界モ
デルがより複雑なダイナミクスを処理できることを示す. ❏ 手法に新規性がない. ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的 だった. ❏ UR5は混色の背景,XArmは緑の背景を使用しているが,この実験設定 に何か特別な理由があるか? ❏ 特別な理由はない.アームの後ろに背景を置くことでよりきれい な学習データを得ることができる. 7/7
参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7