[論文紹介] DayDreamer: World Models for Physical Robot Learning

Slide 1

Slide 1 text

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・世界モデルの成果はAtariなどのゲームタスクに限られていたが，本研究で実ロボットを用いたタスクをDreamerで直接学習した．・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価主要なモデルフリーRLアルゴリズムと比較実験を行い，Dreamerの有効性を示した．・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学習し，actor critic algorithmを用いて，学習された世界モデルから予測された軌道を元に行動を学習する．世界モデルを用いることで効率的に学習でき新しいタスクや外乱に対しても対応できる． Dreamerが実世界の4つのタスクにおいて学習できることを示した． 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり，前進する事を可能にした． https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning （CoRL 2022）Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像被引用数：11 1/7

Slide 2

Slide 2 text

A1 Quadruped Walking ❏ タスク詳細 ❏ 12自由度の4脚ロボットで歩行するタスク ❏ 入力はモータの角度，姿勢，角速度 ❏ アクションは各モータの角度 ❏ 初期状態は仰向けの状態 ❏ 報酬 ❏ 直立報酬は直立ベクトルから計算 ❏ 腰，肩，膝の関節角から立ち姿勢に応じた報酬 ❏ 前方予測速度Bvxと総速度Bvから前方速度の報酬が計算 Unitree A1 2/7

Slide 3

Slide 3 text

A1 Quadruped Walking ❏ 実装上の工夫 ❏ 訓練領域の端に到達したら，ロボットの姿勢を変えず手動で位置を戻す(リセットを用いない) ❏ ロボットが転がりやすいようにシェルを3Dプリンタで作成 ❏ 結果 ❏ 1時間後には寝返り，立ち上がり，歩行が可能 ❏ 10分の追加学習で外乱に耐えるように ❏ SACでは寝返りのみで立ち上がりや歩行は不可能 3/7

Slide 4

Slide 4 text

UR5 Multi-Object Visual Pick and Place ❏ タスク詳細 ❏ 5自由度ロボットアームで複数物体のPick and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 入力はロボット位置(関節角度，グリッパ位置，etc.)，RGB画像 ❏ アクションはグリッパのx,y,zの変位とグリッパ開閉 ❏ 報酬 ❏ グリッパが閉まる:+1 ❏ 物体を同じ容器内で離す:-1 ❏ 物体を異なる容器内で離す:+10 ❏ 結果 ❏ 8時間後に人間が遠隔操作した場合に近い性能 ❏ RainbowやPPOは物体を掴んでもすぐ離す 4/7

Slide 5

Slide 5 text

XArm Visual Pick and Place ❏ タスク詳細 ❏ 7自由度ロボットアームで単一物体のPick and Placeを行うタスク ❏ 片方の容器から別の容器へ移動させることが目標 ❏ 紐でロボットアームと物体を接続 ❏ 物体が角でスタックしないようにするための工夫 ❏ 入力はロボット位置，RGB画像，Depth画像 ❏ アクション，報酬はUR5タスクと同様 ❏ 結果 ❏ 10時間後に人間が遠隔操作した場合に近い性能 ❏ Rainbowでは学習できなかった ❏ 照明条件の変化に対して追加学習により性能回復 5/7

Slide 6

Slide 6 text

Sphero Navigation ❏ タスク詳細 ❏ 車輪付きロボットを目標位置までナビゲーションするタスク ❏ ロボットは左右対称なので観測履歴から方向を推定 ❏ 入力はRGB画像 ❏ アクションはロボットのトルク ❏ 報酬 ❏ 現在地からゴールまでのL2距離を負にした値 ❏ 結果 ❏ 2時間でナビゲーションできるように ❏ DrQv2でも近い性能を達成 6/7

Slide 7

Slide 7 text

OpenReview ❏ 学習曲線の線と影は何を表している？ ❏ 線は平均報酬を表し，影の領域は標準偏差を表す．これにより訓練の安定性と振動の指標を示す． ❏ UR5とXArmの違いが明確でない． ❏ UR5は3つのオブジェクトがあるため複雑なタスクであり，世界モデルがより複雑なダイナミクスを処理できることを示す． ❏ 手法に新規性がない． ❏ 実世界のロボット学習で世界モデルの性能を紹介することが目的だった． ❏ UR5は混色の背景，XArmは緑の背景を使用しているが，この実験設定に何か特別な理由があるか？ ❏ 特別な理由はない．アームの後ろに背景を置くことでよりきれいな学習データを得ることができる． 7/7

Slide 8

Slide 8 text

参考文献 ❏ 松尾研究室スライド ❏ OpenReview ❏ AI-SCHOLAR 8/7