Slide 1

Slide 1 text

・RT-1は実世界のタスクにおける汎化と堅牢性が大幅に向上した ・複数ロボットのタスクによるデータを効果的に統合し,シミュ レーションデータと実データの両方から学習する能力を持つ ・実世界ロボットを用いた大規模データセットによる評価を行い ,700以上のタスク指示に対して97%の成功率を達成 ・新しいタスクに対する汎化能力も検証している ・RT-1は大規模なデータセット上で多様なロボットタスクを学習す るためのモデル ・このモデルは画像と自然言語指示を入力として受け取り,ロボッ トのアームの動作とロボット自体の移動を出力する ・RT-1の核心技術は「Transformer」ベースのアーキテクチャを使 用し,画像と言語指示からアクションを生成するところ ・特に,「TokenLearner」を用いることで効率的なトークン化を実 現し,計算効率を高めている どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? RT-1: Robotics Transformer for Real-World Control at Scale (RSS 2023) Anthony Brohan et al., Robotics at Google et al. https://arxiv.org/abs/2212.06817 2024/05/01 論文を表す画像 被引用数:418 1/7

Slide 2

Slide 2 text

1. 入力:カメラからの取得した連続画像と自然言 語の指示 2. 画像の前処理:ImageNetで事前訓練された EfficientNet-B3モデルを通して処理 3. 言語指示の統合:Universal Sentence Encoder を使用して埋め込みベクトルに変換 4. FiLM層による調整:2,3からの特徴を,FiLM層 を通して調整する 5. トークンの生成と圧縮:TokenLearnerは重要な 特徴だけを抽出し,効率的な計算のためにトー クン数を削減する 6. トランスフォーマーでの処理:トランスフォー マーはトークン間の関連を学習し,適切なアク ションを生成する 7. 出力:出力はロボットの制御システムに転送さ れ,指示に従って具体的な物理的アクションが 実行される. ※出力はアームの動きとロボット移動が含まれる 提案手法 2/7 ① ② ③ ④ ⑤ ⑥ ⑦

Slide 3

Slide 3 text

❖ Gato,BC-Z,BC-Z XL (RT-1と同じパラメーター数のBC-Z) をベースラインとし て比較 ❖ Seen Tasks (既知のタスク):訓練データに含まれるタスクに対するモデルの性能 ❖ Unseen Tasks (未知のタスク):訓練データには見られなかったタスクに対するモ デルの性能 ❖ Distractors (障害):障害物が存在する中でのモデルの性能 ❖ Backgrounds (背景の変化):異なる背景や照明の条件下でのモデルの性能 ❖ 全タスクにおいてRT-1が最高性能を達成 実験結果 3/7

Slide 4

Slide 4 text

❖ SayCanを使用した場合のPlanning, Executionの影響を実験 ❖ 実験環境:評価は2つの異なるオフィスキッチン(Kitchen1とKitchen2)で実行 ❖ タスク内容:一連の指示に従って複数のステップを組み合わせるタスクを実行 ➢ e.g.)物を拾う,移動する,配置するなどの複数の操作 ❖ 計画成功率(Planning):タスク完了に向けた計画をどれだけ正確に立案できたか の割合 ❖ 実行成功率(Execution):実際にロボットがタスクを正確に実行できた割合 ❖ 赤:GatoとBC-Zは特に新しいキッチン環境(Kitchen2)で大きく性能が低下 ❖ 青:RT-1は異なる環境において一貫して高い性能を示している 実験結果 4/7

Slide 5

Slide 5 text

まとめ 5/7 ❖ ロボットタスクにTransformerを適用した最初の論文 ❖ 画像と指示文を入力として,ロボットアームとロボット自体の行動を 生成するモデルを提案した

Slide 6

Slide 6 text

❖ ロボットタスクにおける大規模なデータセット収集をシミュレーショ ンと実世界で行っているところがすごい ❖ 今後,RT-2などの発展が予想される 感想 6/7

Slide 7

Slide 7 text

参考文献 7/7 ❖ 【AI論文解説】ロボット版GPT! Robotics Transformer (RT-1) ❖ RT-1:マルチモーダルなロボティクス基盤モデルへの期待 ~Robotics Transformer 1~ ❖ Google Research