Upgrade to Pro — share decks privately, control downloads, hide ads and more …

how will foundation models change robotics

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

how will foundation models change robotics

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 基盤モデルのロボティクスへの影響 - - 3 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

    ▪ ロボット構築に基盤モデルを利用:多い ▪ 未知の状況での頑健性(Zero-shot/few-shot性能) ▪ 言語・画像の非専門家が容易に利用可能 ▪ 基盤モデル構築にロボットを利用:少ない ▪ RT-1/2等 ▪ 対話知能学後継、ムーンショット ▪ 今後、自動車/倉庫/工場におけるデータ収集に期待 *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.
  2. 対話ロボット構築と音声・言語基盤モデル - - 4 テキスト 埋め込み スタンドアロン BERT, RoBERTa, DeBERTa等が主流

    クラウド型 text-embedding-ada-002(OpenAI)がオススメ 音声認識 スタンドアロン Whisper (OpenAI)が主流 クラウド型 • スマートフォンUIとクラウドAPI利用が簡易 • 多くのロボット開発では音声認識用に計算リソース を割くことを敬遠 [杉浦+ 2013] バラエティ番組等の遠隔・ 同時・複数人会話の認識は 現在でも技術的に困難
  3. ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 5 手法 概要 Code as Policies [Liang+

    22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ▪ 例:objects = ["yellow shirt", "black shirt”, ..]
  4. 画像と言語を扱うマルチモーダル基盤モデル: CLIP[Radford+ 21] ▪ 画像とテキストの組(4億組)の特徴量同士が近くなるように学習 ▪ 多数の応用(例:DALL·E 2 [Aditya (OpenAI)

    + 2022/4]) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme Text Text feat. Image feat. Image ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクス で用いられる https://vimeo.com/692375454
  5. CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

    CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding
  6. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き Text Text feat. Image feat. Image 新規 画像
  7. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き ②2次元の特徴マップを利用 ▪ CLIPに含まれるResNet/ViTから 中間層の出力(28 x 28 x 512 等)を用いる ▪ 代表的な利用例 ▪ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規 画像 Text Text feat. Image feat. Image 新規 画像
  8. LLMによる行動系列生成: VQAと同様に今後は早期統合が主流になると予想 - - 10 ▪ 後期統合: PaLM SayCan [Ahn(Google)+

    2022] ▪ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率 ▪ 動作スコア(Can):その状況での動作成功確率 ▪ 早期統合: PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするLLMを用いたタスク分解と実行
  9. ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ▪ ロボット13台x17ヶ月の膨大な 学習データ ▪

    言語・画像の統合は若干古い方 式(FiLM[Perez+ 17]) ▪ アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]では、LLMを 複数利用して「位置と角度の差 分」を推論 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、 物体操作等を1つのトランス フォーマーで学習
  10. 実機を含むベンチマークテスト - - 12 RoboCup@Home(2006-) ▪ 世界最大の生活支援ロボットの ベンチマークテスト ▪ GPSR:

    RT-2/PaLM SayCanで扱 われているレベルの難易度 ▪ 無理(2010)→ほぼ解決(2023) ▪ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ▪ Open-vocabulary mobile manipulation ▪ NeurIPS23でコンペ
  11. 最近のモデルでも難しい問題の例: 参照表現理解 - - 13 ▪ Google Bard* ▪ 赤枠の物体を”white

    pillow”と 認識 ▪ SEEM [Zou+ 23] ▪ “Pick up the plant in front of the mirror”という指示に対し、 植物ではなく鏡をマスク *言語設定を英語にすることでマルチモーダル入力が可能(2023/7)
  12. Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy- robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では?

    社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  13. ①MultiRankIt:物体をマルチモーダル検索して人間に呈示 背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では 実用性に欠ける 技術ポイント ▪

    自動化とオペレータによる介入を 組み合わせたhuman-in-the-loop設定 ▪ 文と画像を複数粒度で分解・統合す るMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率 約 30%
  14. 複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of

    a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”
  15. 移動指示・物体探索指示に関するデータセット: シミュレーションと実世界 実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

    Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ▪ CVPR 2023 DialFRED Challenge 優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)
  16. ベースライン手法(拡張前の手法)を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94

    提案手法 78.1±2.49 “Go down the stairs to the lower balcony area and turn off the lamp on the dresser.”
  17. Switching Head-tail Funnel UNITERを構築し 推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ▪ 単一モデルで対象物体/配置目標

    を独立に予測可能 ▪ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁) に削減 結果 ▪ 把持+配置タスク成功率:89% Put the red chips can on the white table with the soccer ball on it.
  18. ④移動指示の理解:CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解 【技術ポイント】 ▪

    3種類のマスキング(画像・言語・ 経路)を事前学習に導入 ▪ 双方向マルチモーダル逆翻訳による データ拡張を学習に導入 【結果】 [Majumdar+ (Facebook) ECCV20] [Hao+ (Microsoft) CVPR20]を超える性能 言語+画像 経路 逆翻訳→ VLN-BERT 「寝室のドアから廊下へ出てくださ い。手すりに沿って廊下を進み、丸 い鏡と蝶のオブジェがある部屋に 入ってください」
  19. 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】 行動前にユーザに実行可否を判断

    を仰ぐための説明生成 【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間 の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」
  20. あり得る未来の説明をLLMで生成し、NNLMを用いて生成 確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用

    アームがペットボトルを置こうとして、 砂糖の容器に衝突して倒れる アームがペットボトルを置こうとして、 砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 31
  21. 説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ▪ 説明生成モデルの開発には 自動評価尺度が必須 ▪ cf. 機械翻訳

    ▪ 日々のモデル改良サイク ルを被験者評価で行うこ とは非現実的 ▪ マルチモーダル生成モデル の需要増加を見据え、公 平・優秀な評価尺度を構築
  22. まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性

    ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・ NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・ スタッフに感謝申し上げます。