Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] DayDreamer: World Models for Physical Ro...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
October 21, 2023
Research
0
130
[論文紹介] DayDreamer: World Models for Physical Robot Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 21, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
28
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
35
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
21
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
22
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
76
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
66
[論文サーベイ] Survey on Pokemon AI
tt1717
0
100
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
120
[論文サーベイ] Survey on GPT for Games
tt1717
0
73
Other Decks in Research
See All in Research
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
140
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1.3k
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
530
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
710
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3k
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.3k
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
320
姫路市 -都市OSの「再実装」-
hopin
0
1.6k
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
670
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
120
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
160
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
190
[SF Ruby Conf 2025] Rails X
palkan
1
760
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
65
The Pragmatic Product Professional
lauravandoore
37
7.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
sira's awesome portfolio website redesign presentation
elsirapls
0
150
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
77
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの
有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 1/7
A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度,姿勢,角速度 ❏
アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰,肩,膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7
A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら,ロボットの姿勢を変えず手動で位置 を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成
❏ 結果 ❏ 1時間後には寝返り,立ち上がり,歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7
UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick
and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度,グリッパ位置,etc.),RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7
XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and
Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置,RGB画像,Depth画像 ❏ アクション,報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7
Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像
❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7
OpenReview ❏ 学習曲線の線と影は何を表している? ❏ 線は平均報酬を表し,影の領域は標準偏差を表す.これにより訓 練の安定性と振動の指標を示す. ❏ UR5とXArmの違いが明確でない. ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり,世界モ
デルがより複雑なダイナミクスを処理できることを示す. ❏ 手法に新規性がない. ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的 だった. ❏ UR5は混色の背景,XArmは緑の背景を使用しているが,この実験設定 に何か特別な理由があるか? ❏ 特別な理由はない.アームの後ろに背景を置くことでよりきれい な学習データを得ることができる. 7/7
参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7