how will foundation models change robotics

Slide 1

Slide 1 text

慶應義塾大学杉浦孔明 - - 1 基盤モデルはロボティクスをどう変えるのか

Slide 2

Slide 2 text

ロボット×言語のユースケース - - 2 【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ CiKoMaができること（YouTube） PaLM-E [Driess (Robotics at Google)+ 2023] https://palm-e.github.io/

Slide 3

Slide 3 text

基盤モデルのロボティクスへの影響 - - 3 ■ 基盤モデル：大規模データで訓練され種々のタスクに応用可能* ■ BERT, GPT-3, CLIP等 ■ ロボット構築に基盤モデルを利用：多い ■ 未知の状況での頑健性（Zero-shot/few-shot性能） ■ 言語・画像の非専門家が容易に利用可能 ■ 基盤モデル構築にロボットを利用：少ない ■ RT-1/2等 ■ 対話知能学後継、ムーンショット ■ 今後、自動車/倉庫/工場におけるデータ収集に期待 *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

Slide 4

Slide 4 text

対話ロボット構築と音声・言語基盤モデル - - 4 テキスト埋め込みスタンドアロン BERT, RoBERTa, DeBERTa等が主流クラウド型 text-embedding-ada-002(OpenAI)がオススメ音声認識スタンドアロン Whisper (OpenAI)が主流クラウド型 • スマートフォンUIとクラウドAPI利用が簡易 • 多くのロボット開発では音声認識用に計算リソースを割くことを敬遠 [杉浦+ 2013] バラエティ番組等の遠隔・同時・複数人会話の認識は現在でも技術的に困難

Slide 5

Slide 5 text

ロボット向けのコードを大規模言語モデル（LLM）で生成 - - 5 手法概要 Code as Policies [Liang+ 22] LLMを用いてatomic actions（認識・動作）を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を人手で与える必要がある ■ 例：objects = ["yellow shirt", "black shirt”, ..]

Slide 6

Slide 6 text

画像と言語を扱うマルチモーダル基盤モデル： CLIP[Radford+ 21] ■ 画像とテキストの組（４億組）の特徴量同士が近くなるように学習 ■ 多数の応用（例：DALL·E 2 [Aditya (OpenAI) + 2022/4]） a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme Text Text feat. Image feat. Image ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクスで用いられる https://vimeo.com/692375454

Slide 7

Slide 7 text

CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+ CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか（キーポイント）」を予測物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

Slide 8

Slide 8 text

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①１次元の特徴量を利用 ■ コード１行で書ける ■ 画像/テキスト特徴量が同型（512 x 1） ■ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き Text Text feat. Image feat. Image 新規画像

Slide 9

Slide 9 text

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①１次元の特徴量を利用 ■ コード１行で書ける ■ 画像/テキスト特徴量が同型（512 x 1） ■ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き ②２次元の特徴マップを利用 ■ CLIPに含まれるResNet/ViTから中間層の出力（28 x 28 x 512 等）を用いる ■ 代表的な利用例 ■ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規画像 Text Text feat. Image feat. Image 新規画像

Slide 10

Slide 10 text

LLMによる行動系列生成： VQAと同様に今後は早期統合が主流になると予想 - - 10 ■ 後期統合： PaLM SayCan [Ahn(Google)+ 2022] ■ 言語スコア（Say）：LLMで生成した動詞＋目的語の生成確率 ■ 動作スコア（Can）：その状況での動作成功確率 ■ 早期統合： PaLM-E [Driess (Google)+ 2023] ■ 画像と言語を入力とするLLMを用いたタスク分解と実行

Slide 11

Slide 11 text

ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ■ ロボット13台ｘ17ヶ月の膨大な学習データ ■ 言語・画像の統合は若干古い方式（FiLM[Perez+ 17]） ■ アーム/台車動作を3Hzで推論 ■ RT-2[Brohan+ 23]では、LLMを複数利用して「位置と角度の差分」を推論 Gato [Reed+ JMLR22] ■ ゲーム、画像キャプション生成、物体操作等を１つのトランスフォーマーで学習

Slide 12

Slide 12 text

実機を含むベンチマークテスト - - 12 RoboCup@Home（2006-） ■ 世界最大の生活支援ロボットのベンチマークテスト ■ GPSR: RT-2/PaLM SayCanで扱われているレベルの難易度 ■ 無理(2010)→ほぼ解決(2023) ■ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ■ Open-vocabulary mobile manipulation ■ NeurIPS23でコンペ

Slide 13

Slide 13 text

最近のモデルでも難しい問題の例：参照表現理解 - - 13 ■ Google Bard* ■ 赤枠の物体を”white pillow”と認識 ■ SEEM [Zou+ 23] ■ “Pick up the plant in front of the mirror”という指示に対し、植物ではなく鏡をマスク *言語設定を英語にすることでマルチモーダル入力が可能（2023/7）

Slide 14

Slide 14 text

生活支援ロボットの言語理解 - - 14

Slide 15

Slide 15 text

Motivation：介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy- robot.html 音声（言語）を使った場合はどんな課題があるの？候補が少ないならいいけど、多いならタッチパネルは不便。音声のほうが便利では？社会課題 • 要支援者を物理的・経済的に支える生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬（育成に2年300万円）の利用者≒0.5% 家族の世話で仕事辞めないと… 介助犬を世話できない

Slide 16

Slide 16 text

何をどこまでやるのか ■ 介助犬のタスクは明確に規定されている ■ HSRが可能なタスクを人手で分析 ■ タスクの80%以上をカバーし、成功率80%以上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

Slide 17

Slide 17 text

Open-vocabulary物体操作 - - 17 赤いマグの近くのボールを高い台に持って行ってくれる？みかんの隣のトマトスープ缶を高い台に置いて x4

Slide 18

Slide 18 text

①MultiRankIt：物体をマルチモーダル検索して人間に呈示背景 ■ 全自動の設定での成功率低 ■ Closed-vocabulary 設定では実用性に欠ける技術ポイント ■ 自動化とオペレータによる介入を組み合わせたhuman-in-the-loop設定 ■ 文と画像を複数粒度で分解・統合するMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率約 30%

Slide 19

Slide 19 text

複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”

Slide 20

Slide 20 text

移動指示・物体探索指示に関するデータセット：シミュレーションと実世界実世界 ■ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ■ Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ■ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ■ CVPR 2023 DialFRED Challenge 優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口から水が出ていないか確認して」 Matterport3D （90種類の家屋）

Slide 21

Slide 21 text

②マルチモーダル言語処理における転移学習手法 [Otsuki+ IROS23] 背景 ■ ロボットを使ったマルチモーダルコーパス構築はコストが高い技術ポイント ■ 転移元と転移先のプロトタイプ間の差異を最小化するDual ProtoNCEの提案 ■ シミュレーション：実機 ≒30000:10000

Slide 22

Slide 22 text

ベースライン手法（拡張前の手法）を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94 提案手法 78.1±2.49 “Go down the stairs to the lower balcony area and turn off the lamp on the dresser.”

Slide 23

Slide 23 text

③Carryタスクにおける問題：推論回数が膨大でリアルタイム性において非実用的 クローリングを繰り返すと（対象物体, 配置目標）の組合せが爆発的に増加 推論回数のオーダー： 𝑂𝑂(𝑀𝑀 × 𝑁𝑁) 例）𝑀𝑀 = 200, 𝑁𝑁 = 30，1回の推論時間を0.005秒と仮定  判断に30秒必要 23 𝑀𝑀：対象物体候補数 𝑁𝑁：配置目標候補数 ( ， ) … ( ， ) ？

Slide 24

Slide 24 text

Switching Head-tail Funnel UNITERを構築し推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ■ 単一モデルで対象物体/配置目標を独立に予測可能 ■ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁) に削減結果 ■ 把持＋配置タスク成功率：89% Put the red chips can on the white table with the soccer ball on it.

Slide 25

Slide 25 text

④移動指示の理解：CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解【技術ポイント】 ■ ３種類のマスキング（画像・言語・経路）を事前学習に導入 ■ 双方向マルチモーダル逆翻訳によるデータ拡張を学習に導入【結果】 [Majumdar+ (Facebook) ECCV20] [Hao+ (Microsoft) CVPR20]を超える性能言語＋画像経路逆翻訳→ VLN-BERT 「寝室のドアから廊下へ出てください。手すりに沿って廊下を進み、丸い鏡と蝶のオブジェがある部屋に入ってください」

Slide 26

Slide 26 text

⑤モビリティ向け移動指示理解 [畑中+ 23] 【タスク】「バイクが止まっている所の横に停めて」等の移動指示言語理解【技術ポイント】 ■ 夜間画像のセグメンテーションマスク信頼度を推定 ■ [Rufus+ IROS21]を超える性能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 26 -

Slide 27

Slide 27 text

ロボティクスにおける説明性 - - 27

Slide 28

Slide 28 text

PonNet：衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景：動作実行前に帰結を予測し(physical reasoning)、ユーザに説明できれば便利技術ポイント： Attention Branch Network (ABN) [Fukui+ CVPR19] を２系統に拡張し、自己注意で統合平面検出だと精度が低い

Slide 29

Slide 29 text

- - 29

Slide 30

Slide 30 text

将来のリスクに対する言語的説明生成：Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】行動前にユーザに実行可否を判断を仰ぐための説明生成【技術ポイント】 ■ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間の関係性抽出 ■ LLMによるあり得る帰結の生成 ■ Nearest Neighbor Language Model (NNLM)をキャプション生成に初めて導入例：「砂時計が落下するリスクがあります。動作を実行しますか？」

Slide 31

Slide 31 text

あり得る未来の説明をLLMで生成し、NNLMを用いて生成確率をリスコア ■ LLMによるデータ拡張 ■ 学習集合における各サンプルをLLMに入力 ■ 新たなサンプルを含めた学習集合を得る ■ 説明文の後件部を変更するプロンプトを使用アームがペットボトルを置こうとして、砂糖の容器に衝突して倒れるアームがペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 31

Slide 32

Slide 32 text

ロボットタスクおよび料理動画に対するfuture captioning 32 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するアームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるアームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

Slide 33

Slide 33 text

説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ■ 説明生成モデルの開発には自動評価尺度が必須 ■ cf. 機械翻訳 ■ 日々のモデル改良サイクルを被験者評価で行うことは非現実的 ■ マルチモーダル生成モデルの需要増加を見据え、公平・優秀な評価尺度を構築

Slide 34

Slide 34 text

日本語における画像キャプション生成のための自動評価尺度JaSPICEの構築背景：日本語のための画像説明文の自動評価尺度は、良いものがほぼない技術ポイント：述語項構造に基づくシーングラフを用いたグラフマッチング人通りの少なくなった道路で，青いズボンを着た男の子がオレンジ色のヘルメットを被りスケートボードに乗っている被験者100人から22,350サンプルを収集した比較評価

Slide 35

Slide 35 text

まとめ - - 35

Slide 36

Slide 36 text

まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・ NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・スタッフに感謝申し上げます。

Slide 37

Slide 37 text

マルチモーダル言語処理の発表資料を公開しています - - 37 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter @keio_smilab