Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

tt1717
May 01, 2024

[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.

tt1717

May 01, 2024
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. ・RT-1は実世界のタスクにおける汎化と堅牢性が大幅に向上した ・複数ロボットのタスクによるデータを効果的に統合し,シミュ レーションデータと実データの両方から学習する能力を持つ ・実世界ロボットを用いた大規模データセットによる評価を行い ,700以上のタスク指示に対して97%の成功率を達成 ・新しいタスクに対する汎化能力も検証している ・RT-1は大規模なデータセット上で多様なロボットタスクを学習す るためのモデル ・このモデルは画像と自然言語指示を入力として受け取り,ロボッ トのアームの動作とロボット自体の移動を出力する

    ・RT-1の核心技術は「Transformer」ベースのアーキテクチャを使 用し,画像と言語指示からアクションを生成するところ ・特に,「TokenLearner」を用いることで効率的なトークン化を実 現し,計算効率を高めている どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? RT-1: Robotics Transformer for Real-World Control at Scale (RSS 2023) Anthony Brohan et al., Robotics at Google et al. https://arxiv.org/abs/2212.06817 2024/05/01 論文を表す画像 被引用数:418 1/7
  2. 1. 入力:カメラからの取得した連続画像と自然言 語の指示 2. 画像の前処理:ImageNetで事前訓練された EfficientNet-B3モデルを通して処理 3. 言語指示の統合:Universal Sentence Encoder

    を使用して埋め込みベクトルに変換 4. FiLM層による調整:2,3からの特徴を,FiLM層 を通して調整する 5. トークンの生成と圧縮:TokenLearnerは重要な 特徴だけを抽出し,効率的な計算のためにトー クン数を削減する 6. トランスフォーマーでの処理:トランスフォー マーはトークン間の関連を学習し,適切なアク ションを生成する 7. 出力:出力はロボットの制御システムに転送さ れ,指示に従って具体的な物理的アクションが 実行される. ※出力はアームの動きとロボット移動が含まれる 提案手法 2/7 ① ② ③ ④ ⑤ ⑥ ⑦
  3. ❖ Gato,BC-Z,BC-Z XL (RT-1と同じパラメーター数のBC-Z) をベースラインとし て比較 ❖ Seen Tasks (既知のタスク):訓練データに含まれるタスクに対するモデルの性能

    ❖ Unseen Tasks (未知のタスク):訓練データには見られなかったタスクに対するモ デルの性能 ❖ Distractors (障害):障害物が存在する中でのモデルの性能 ❖ Backgrounds (背景の変化):異なる背景や照明の条件下でのモデルの性能 ❖ 全タスクにおいてRT-1が最高性能を達成 実験結果 3/7
  4. ❖ SayCanを使用した場合のPlanning, Executionの影響を実験 ❖ 実験環境:評価は2つの異なるオフィスキッチン(Kitchen1とKitchen2)で実行 ❖ タスク内容:一連の指示に従って複数のステップを組み合わせるタスクを実行 ➢ e.g.)物を拾う,移動する,配置するなどの複数の操作 ❖

    計画成功率(Planning):タスク完了に向けた計画をどれだけ正確に立案できたか の割合 ❖ 実行成功率(Execution):実際にロボットがタスクを正確に実行できた割合 ❖ 赤:GatoとBC-Zは特に新しいキッチン環境(Kitchen2)で大きく性能が低下 ❖ 青:RT-1は異なる環境において一貫して高い性能を示している 実験結果 4/7