[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

・RT-1は実世界のタスクにおける汎化と堅牢性が大幅に向上した・複数ロボットのタスクによるデータを効果的に統合し，シミュレーションデータと実データの両方から学習する能力を持つ・実世界ロボットを用いた大規模データセットによる評価を行い，700以上のタスク指示に対して97%の成功率を達成・新しいタスクに対する汎化能力も検証している・RT-1は大規模なデータセット上で多様なロボットタスクを学習するためのモデル・このモデルは画像と自然言語指示を入力として受け取り，ロボットのアームの動作とロボット自体の移動を出力する
・RT-1の核心技術は「Transformer」ベースのアーキテクチャを使用し，画像と言語指示からアクションを生成するところ・特に，「TokenLearner」を用いることで効率的なトークン化を実現し，計算効率を高めているどんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？ RT-1: Robotics Transformer for Real-World Control at Scale (RSS 2023) Anthony Brohan et al., Robotics at Google et al. https://arxiv.org/abs/2212.06817 2024/05/01 論文を表す画像被引用数：418 1/7

1. 入力：カメラからの取得した連続画像と自然言語の指示 2. 画像の前処理：ImageNetで事前訓練された EﬃcientNet-B3モデルを通して処理 3. 言語指示の統合：Universal Sentence Encoder
を使用して埋め込みベクトルに変換 4. FiLM層による調整：2,3からの特徴を，FiLM層を通して調整する 5. トークンの生成と圧縮：TokenLearnerは重要な特徴だけを抽出し，効率的な計算のためにトークン数を削減する 6. トランスフォーマーでの処理：トランスフォーマーはトークン間の関連を学習し，適切なアクションを生成する 7. 出力：出力はロボットの制御システムに転送され，指示に従って具体的な物理的アクションが実行される． ※出力はアームの動きとロボット移動が含まれる提案手法 2/7 ① ② ③ ④ ⑤ ⑥ ⑦

❖ Gato，BC-Z，BC-Z XL (RT-1と同じパラメーター数のBC-Z) をベースラインとして比較 ❖ Seen Tasks (既知のタスク)：訓練データに含まれるタスクに対するモデルの性能
❖ Unseen Tasks (未知のタスク)：訓練データには見られなかったタスクに対するモデルの性能 ❖ Distractors (障害)：障害物が存在する中でのモデルの性能 ❖ Backgrounds (背景の変化)：異なる背景や照明の条件下でのモデルの性能 ❖ 全タスクにおいてRT-1が最高性能を達成実験結果 3/7

❖ SayCanを使用した場合のPlanning, Executionの影響を実験 ❖ 実験環境：評価は2つの異なるオフィスキッチン（Kitchen1とKitchen2）で実行 ❖ タスク内容：一連の指示に従って複数のステップを組み合わせるタスクを実行 ➢ e.g.)物を拾う，移動する，配置するなどの複数の操作 ❖
計画成功率（Planning)：タスク完了に向けた計画をどれだけ正確に立案できたかの割合 ❖ 実行成功率（Execution)：実際にロボットがタスクを正確に実行できた割合 ❖ 赤：GatoとBC-Zは特に新しいキッチン環境（Kitchen2）で大きく性能が低下 ❖ 青：RT-1は異なる環境において一貫して高い性能を示している実験結果 4/7

まとめ 5/7 ❖ ロボットタスクにTransformerを適用した最初の論文 ❖ 画像と指示文を入力として，ロボットアームとロボット自体の行動を生成するモデルを提案した

❖ ロボットタスクにおける大規模なデータセット収集をシミュレーションと実世界で行っているところがすごい ❖ 今後，RT-2などの発展が予想される感想 6/7

参考文献 7/7 ❖ 【AI論文解説】ロボット版GPT! Robotics Transformer (RT-1) ❖ RT-1:マルチモーダルなロボティクス基盤モデルへの期待 ~Robotics
Transformer 1~ ❖ Google Research

[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

1. 入力：カメラからの取得した連続画像と自然言語の指示 2. 画像の前処理：ImageNetで事前訓練された EﬃcientNet-B3モデルを通して処理 3. 言語指示の統合：Universal Sentence Encoder

❖ Gato，BC-Z，BC-Z XL (RT-1と同じパラメーター数のBC-Z) をベースラインとして比較 ❖ Seen Tasks (既知のタスク)：訓練データに含まれるタスクに対するモデルの性能

まとめ 5/7 ❖ ロボットタスクにTransformerを適用した最初の論文 ❖ 画像と指示文を入力として，ロボットアームとロボット自体の行動を生成するモデルを提案した

❖ ロボットタスクにおける大規模なデータセット収集をシミュレーションと実世界で行っているところがすごい ❖ 今後，RT-2などの発展が予想される感想 6/7

参考文献 7/7 ❖ 【AI論文解説】ロボット版GPT! Robotics Transformer (RT-1) ❖ RT-1:マルチモーダルなロボティクス基盤モデルへの期待 ~Robotics