$30 off During Our Annual Pro Sale. View Details »

how will foundation models change robotics

how will foundation models change robotics

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 基盤モデルのロボティクスへの影響 - - 3 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

    ▪ ロボット構築に基盤モデルを利用:多い ▪ 未知の状況での頑健性(Zero-shot/few-shot性能) ▪ 言語・画像の非専門家が容易に利用可能 ▪ 基盤モデル構築にロボットを利用:少ない ▪ RT-1/2等 ▪ 対話知能学後継、ムーンショット ▪ 今後、自動車/倉庫/工場におけるデータ収集に期待 *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.
  2. 対話ロボット構築と音声・言語基盤モデル - - 4 テキスト 埋め込み スタンドアロン BERT, RoBERTa, DeBERTa等が主流

    クラウド型 text-embedding-ada-002(OpenAI)がオススメ 音声認識 スタンドアロン Whisper (OpenAI)が主流 クラウド型 • スマートフォンUIとクラウドAPI利用が簡易 • 多くのロボット開発では音声認識用に計算リソース を割くことを敬遠 [杉浦+ 2013] バラエティ番組等の遠隔・ 同時・複数人会話の認識は 現在でも技術的に困難
  3. ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 5 手法 概要 Code as Policies [Liang+

    22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ▪ 例:objects = ["yellow shirt", "black shirt”, ..]
  4. 画像と言語を扱うマルチモーダル基盤モデル: CLIP[Radford+ 21] ▪ 画像とテキストの組(4億組)の特徴量同士が近くなるように学習 ▪ 多数の応用(例:DALL·E 2 [Aditya (OpenAI)

    + 2022/4]) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme Text Text feat. Image feat. Image ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクス で用いられる https://vimeo.com/692375454
  5. CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

    CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding
  6. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き Text Text feat. Image feat. Image 新規 画像
  7. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き ②2次元の特徴マップを利用 ▪ CLIPに含まれるResNet/ViTから 中間層の出力(28 x 28 x 512 等)を用いる ▪ 代表的な利用例 ▪ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規 画像 Text Text feat. Image feat. Image 新規 画像
  8. LLMによる行動系列生成: VQAと同様に今後は早期統合が主流になると予想 - - 10 ▪ 後期統合: PaLM SayCan [Ahn(Google)+

    2022] ▪ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率 ▪ 動作スコア(Can):その状況での動作成功確率 ▪ 早期統合: PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするLLMを用いたタスク分解と実行
  9. ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ▪ ロボット13台x17ヶ月の膨大な 学習データ ▪

    言語・画像の統合は若干古い方 式(FiLM[Perez+ 17]) ▪ アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]では、LLMを 複数利用して「位置と角度の差 分」を推論 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、 物体操作等を1つのトランス フォーマーで学習
  10. 実機を含むベンチマークテスト - - 12 RoboCup@Home(2006-) ▪ 世界最大の生活支援ロボットの ベンチマークテスト ▪ GPSR:

    RT-2/PaLM SayCanで扱 われているレベルの難易度 ▪ 無理(2010)→ほぼ解決(2023) ▪ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ▪ Open-vocabulary mobile manipulation ▪ NeurIPS23でコンペ
  11. 最近のモデルでも難しい問題の例: 参照表現理解 - - 13 ▪ Google Bard* ▪ 赤枠の物体を”white

    pillow”と 認識 ▪ SEEM [Zou+ 23] ▪ “Pick up the plant in front of the mirror”という指示に対し、 植物ではなく鏡をマスク *言語設定を英語にすることでマルチモーダル入力が可能(2023/7)
  12. Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy- robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では?

    社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  13. ①MultiRankIt:物体をマルチモーダル検索して人間に呈示 背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では 実用性に欠ける 技術ポイント ▪

    自動化とオペレータによる介入を 組み合わせたhuman-in-the-loop設定 ▪ 文と画像を複数粒度で分解・統合す るMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率 約 30%
  14. 複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of

    a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”
  15. 移動指示・物体探索指示に関するデータセット: シミュレーションと実世界 実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

    Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ▪ CVPR 2023 DialFRED Challenge 優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)
  16. ベースライン手法(拡張前の手法)を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94

    提案手法 78.1±2.49 “Go down the stairs to the lower balcony area and turn off the lamp on the dresser.”
  17. Switching Head-tail Funnel UNITERを構築し 推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ▪ 単一モデルで対象物体/配置目標

    を独立に予測可能 ▪ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁) に削減 結果 ▪ 把持+配置タスク成功率:89% Put the red chips can on the white table with the soccer ball on it.
  18. ④移動指示の理解:CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解 【技術ポイント】 ▪

    3種類のマスキング(画像・言語・ 経路)を事前学習に導入 ▪ 双方向マルチモーダル逆翻訳による データ拡張を学習に導入 【結果】 [Majumdar+ (Facebook) ECCV20] [Hao+ (Microsoft) CVPR20]を超える性能 言語+画像 経路 逆翻訳→ VLN-BERT 「寝室のドアから廊下へ出てくださ い。手すりに沿って廊下を進み、丸 い鏡と蝶のオブジェがある部屋に 入ってください」
  19. 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】 行動前にユーザに実行可否を判断

    を仰ぐための説明生成 【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間 の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」
  20. あり得る未来の説明をLLMで生成し、NNLMを用いて生成 確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用

    アームがペットボトルを置こうとして、 砂糖の容器に衝突して倒れる アームがペットボトルを置こうとして、 砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 31
  21. 説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ▪ 説明生成モデルの開発には 自動評価尺度が必須 ▪ cf. 機械翻訳

    ▪ 日々のモデル改良サイク ルを被験者評価で行うこ とは非現実的 ▪ マルチモーダル生成モデル の需要増加を見据え、公 平・優秀な評価尺度を構築
  22. まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性

    ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・ NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・ スタッフに感謝申し上げます。