how will foundation models change robotics

慶應義塾大学杉浦孔明 - - 1 基盤モデルはロボティクスをどう変えるのか

ロボット×言語のユースケース - - 2 【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ CiKoMaができること（YouTube） PaLM-E [Driess (Robotics
at Google)+ 2023] https://palm-e.github.io/

基盤モデルのロボティクスへの影響 - - 3 ▪ 基盤モデル：大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等
▪ ロボット構築に基盤モデルを利用：多い ▪ 未知の状況での頑健性（Zero-shot/few-shot性能） ▪ 言語・画像の非専門家が容易に利用可能 ▪ 基盤モデル構築にロボットを利用：少ない ▪ RT-1/2等 ▪ 対話知能学後継、ムーンショット ▪ 今後、自動車/倉庫/工場におけるデータ収集に期待 *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

対話ロボット構築と音声・言語基盤モデル - - 4 テキスト埋め込みスタンドアロン BERT, RoBERTa, DeBERTa等が主流
クラウド型 text-embedding-ada-002(OpenAI)がオススメ音声認識スタンドアロン Whisper (OpenAI)が主流クラウド型 • スマートフォンUIとクラウドAPI利用が簡易 • 多くのロボット開発では音声認識用に計算リソースを割くことを敬遠 [杉浦+ 2013] バラエティ番組等の遠隔・同時・複数人会話の認識は現在でも技術的に困難

ロボット向けのコードを大規模言語モデル（LLM）で生成 - - 5 手法概要 Code as Policies [Liang+
22] LLMを用いてatomic actions（認識・動作）を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を人手で与える必要がある ▪ 例：objects = ["yellow shirt", "black shirt”, ..]

画像と言語を扱うマルチモーダル基盤モデル： CLIP[Radford+ 21] ▪ 画像とテキストの組（４億組）の特徴量同士が近くなるように学習 ▪ 多数の応用（例：DALL·E 2 [Aditya (OpenAI)
+ 2022/4]） a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme Text Text feat. Image feat. Image ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクスで用いられる https://vimeo.com/692375454

CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+
CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか（キーポイント）」を予測物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512
x 1） ▪ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き Text Text feat. Image feat. Image 新規画像

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512
x 1） ▪ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き ②２次元の特徴マップを利用 ▪ CLIPに含まれるResNet/ViTから中間層の出力（28 x 28 x 512 等）を用いる ▪ 代表的な利用例 ▪ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規画像 Text Text feat. Image feat. Image 新規画像

LLMによる行動系列生成： VQAと同様に今後は早期統合が主流になると予想 - - 10 ▪ 後期統合： PaLM SayCan [Ahn(Google)+
2022] ▪ 言語スコア（Say）：LLMで生成した動詞＋目的語の生成確率 ▪ 動作スコア（Can）：その状況での動作成功確率 ▪ 早期統合： PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするLLMを用いたタスク分解と実行

ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ▪ ロボット13台ｘ17ヶ月の膨大な学習データ ▪
言語・画像の統合は若干古い方式（FiLM[Perez+ 17]） ▪ アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]では、LLMを複数利用して「位置と角度の差分」を推論 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作等を１つのトランスフォーマーで学習

実機を含むベンチマークテスト - - 12 RoboCup@Home（2006-） ▪ 世界最大の生活支援ロボットのベンチマークテスト ▪ GPSR:
RT-2/PaLM SayCanで扱われているレベルの難易度 ▪ 無理(2010)→ほぼ解決(2023) ▪ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ▪ Open-vocabulary mobile manipulation ▪ NeurIPS23でコンペ

最近のモデルでも難しい問題の例：参照表現理解 - - 13 ▪ Google Bard* ▪ 赤枠の物体を”white
pillow”と認識 ▪ SEEM [Zou+ 23] ▪ “Pick up the plant in front of the mirror”という指示に対し、植物ではなく鏡をマスク *言語設定を英語にすることでマルチモーダル入力が可能（2023/7）

生活支援ロボットの言語理解 - - 14

Motivation：介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy- robot.html 音声（言語）を使った場合はどんな課題があるの？候補が少ないならいいけど、多いならタッチパネルは不便。音声のほうが便利では？
社会課題 • 要支援者を物理的・経済的に支える生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬（育成に2年300万円）の利用者≒0.5% 家族の世話で仕事辞めないと… 介助犬を世話できない

何をどこまでやるのか ▪ 介助犬のタスクは明確に規定されている ▪ HSRが可能なタスクを人手で分析 ▪ タスクの80%以上をカバーし、成功率80%以
上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

Open-vocabulary物体操作 - - 17 赤いマグの近くのボールを高い台に持って行ってくれる？みかんの隣のトマトスープ缶を高い台に置いて x4

①MultiRankIt：物体をマルチモーダル検索して人間に呈示背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では実用性に欠ける技術ポイント ▪
自動化とオペレータによる介入を組み合わせたhuman-in-the-loop設定 ▪ 文と画像を複数粒度で分解・統合するMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率約 30%

複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of
a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”

移動指示・物体探索指示に関するデータセット：シミュレーションと実世界実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪
Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ▪ CVPR 2023 DialFRED Challenge 優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口から水が出ていないか確認して」 Matterport3D （90種類の家屋）

②マルチモーダル言語処理における転移学習手法 [Otsuki+ IROS23] 背景 ▪ ロボットを使ったマルチモーダルコーパス構築はコストが高い技術ポイント ▪ 転移元と転移先のプロトタイプ
間の差異を最小化するDual ProtoNCEの提案 ▪ シミュレーション：実機 ≒30000:10000

ベースライン手法（拡張前の手法）を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94
提案手法 78.1±2.49 “Go down the stairs to the lower balcony area and turn off the lamp on the dresser.”

③Carryタスクにおける問題：推論回数が膨大でリアルタイム性において非実用的 クローリングを繰り返すと（対象物体, 配置目標）の組合せが爆発的に増加 推論回数のオーダー： 𝑂𝑂(𝑀𝑀 × 𝑁𝑁) 例）𝑀𝑀 =
200, 𝑁𝑁 = 30，1回の推論時間を0.005秒と仮定  判断に30秒必要 23 𝑀𝑀：対象物体候補数 𝑁𝑁：配置目標候補数 ( ， ) … ( ， ) ？

Switching Head-tail Funnel UNITERを構築し推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ▪ 単一モデルで対象物体/配置目標
を独立に予測可能 ▪ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁) に削減結果 ▪ 把持＋配置タスク成功率：89% Put the red chips can on the white table with the soccer ball on it.

④移動指示の理解：CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解【技術ポイント】 ▪
３種類のマスキング（画像・言語・経路）を事前学習に導入 ▪ 双方向マルチモーダル逆翻訳によるデータ拡張を学習に導入【結果】 [Majumdar+ (Facebook) ECCV20] [Hao+ (Microsoft) CVPR20]を超える性能言語＋画像経路逆翻訳→ VLN-BERT 「寝室のドアから廊下へ出てください。手すりに沿って廊下を進み、丸い鏡と蝶のオブジェがある部屋に入ってください」

⑤モビリティ向け移動指示理解 [畑中+ 23] 【タスク】「バイクが止まっている所の横に停めて」等の移動指示言語理解【技術ポイント】 ▪ 夜間画像のセグメンテーションマスク信頼度を推定
▪ [Rufus+ IROS21]を超える性能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 26 -

ロボティクスにおける説明性 - - 27

PonNet：衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景：動作実行前に帰結を予測し(physical reasoning)、ユーザに説明できれば便利技術ポイント：
Attention Branch Network (ABN) [Fukui+ CVPR19] を２系統に拡張し、自己注意で統合平面検出だと精度が低い

- - 29

将来のリスクに対する言語的説明生成：Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】行動前にユーザに実行可否を判断
を仰ぐための説明生成【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション生成に初めて導入例：「砂時計が落下するリスクがあります。動作を実行しますか？」

あり得る未来の説明をLLMで生成し、NNLMを用いて生成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用
アームがペットボトルを置こうとして、砂糖の容器に衝突して倒れるアームがペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 31

ロボットタスクおよび料理動画に対するfuture captioning 32 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するアームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるアームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳
▪ 日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ マルチモーダル生成モデルの需要増加を見据え、公平・優秀な評価尺度を構築

日本語における画像キャプション生成のための自動評価尺度JaSPICEの構築背景：日本語のための画像説明文の自動評価尺度は、良いものがほぼない技術ポイント：述語項構造に基づくシーングラフを用いたグラフマッチング人通りの少なくなった道路で，青いズボンを着た男の子がオレンジ色のヘルメットを被りスケートボードに乗っている被験者100人から22,350サンプルを収集した比較評価

まとめ - - 35

まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性
※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・ NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・スタッフに感謝申し上げます。

マルチモーダル言語処理の発表資料を公開しています - - 37 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter @keio_smilab

how will foundation models change robotics

how will foundation models change robotics

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明 - - 1 基盤モデルはロボティクスをどう変えるのか

ロボット×言語のユースケース - - 2 【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ CiKoMaができること（YouTube） PaLM-E [Driess (Robotics

基盤モデルのロボティクスへの影響 - - 3 ▪ 基盤モデル：大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

対話ロボット構築と音声・言語基盤モデル - - 4 テキスト埋め込みスタンドアロン BERT, RoBERTa, DeBERTa等が主流

ロボット向けのコードを大規模言語モデル（LLM）で生成 - - 5 手法概要 Code as Policies [Liang+

画像と言語を扱うマルチモーダル基盤モデル： CLIP[Radford+ 21] ▪ 画像とテキストの組（４億組）の特徴量同士が近くなるように学習 ▪ 多数の応用（例：DALL·E 2 [Aditya (OpenAI)

CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512

LLMによる行動系列生成： VQAと同様に今後は早期統合が主流になると予想 - - 10 ▪ 後期統合： PaLM SayCan [Ahn(Google)+

ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ▪ ロボット13台ｘ17ヶ月の膨大な学習データ ▪

実機を含むベンチマークテスト - - 12 RoboCup@Home（2006-） ▪ 世界最大の生活支援ロボットのベンチマークテスト ▪ GPSR:

最近のモデルでも難しい問題の例：参照表現理解 - - 13 ▪ Google Bard* ▪ 赤枠の物体を”white

生活支援ロボットの言語理解 - - 14

何をどこまでやるのか ▪ 介助犬のタスクは明確に規定されている ▪ HSRが可能なタスクを人手で分析 ▪ タスクの80%以上をカバーし、成功率80%以

Open-vocabulary物体操作 - - 17 赤いマグの近くのボールを高い台に持って行ってくれる？みかんの隣のトマトスープ缶を高い台に置いて x4

①MultiRankIt：物体をマルチモーダル検索して人間に呈示背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では実用性に欠ける技術ポイント ▪

複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of

移動指示・物体探索指示に関するデータセット：シミュレーションと実世界実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

②マルチモーダル言語処理における転移学習手法 [Otsuki+ IROS23] 背景 ▪ ロボットを使ったマルチモーダルコーパス構築はコストが高い技術ポイント ▪ 転移元と転移先のプロトタイプ

ベースライン手法（拡張前の手法）を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94

③Carryタスクにおける問題：推論回数が膨大でリアルタイム性において非実用的 クローリングを繰り返すと（対象物体, 配置目標）の組合せが爆発的に増加 推論回数のオーダー： 𝑂𝑂(𝑀𝑀 × 𝑁𝑁) 例）𝑀𝑀 =

Switching Head-tail Funnel UNITERを構築し推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ▪ 単一モデルで対象物体/配置目標

④移動指示の理解：CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解【技術ポイント】 ▪

⑤モビリティ向け移動指示理解 [畑中+ 23] 【タスク】「バイクが止まっている所の横に停めて」等の移動指示言語理解【技術ポイント】 ▪ 夜間画像のセグメンテーションマスク信頼度を推定

ロボティクスにおける説明性 - - 27

PonNet：衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景：動作実行前に帰結を予測し(physical reasoning)、ユーザに説明できれば便利技術ポイント：

- - 29

将来のリスクに対する言語的説明生成：Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】行動前にユーザに実行可否を判断

説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳

まとめ - - 35

まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性

マルチモーダル言語処理の発表資料を公開しています - - 37 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter @keio_smilab