Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明 - - 1 基盤モデルはロボティクスを どう変えるのか

Slide 2

Slide 2 text

ロボット×言語のユースケース - - 2 【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ CiKoMaができること(YouTube) PaLM-E [Driess (Robotics at Google)+ 2023] https://palm-e.github.io/

Slide 3

Slide 3 text

基盤モデルのロボティクスへの影響 - - 3 ■ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ■ BERT, GPT-3, CLIP等 ■ ロボット構築に基盤モデルを利用:多い ■ 未知の状況での頑健性(Zero-shot/few-shot性能) ■ 言語・画像の非専門家が容易に利用可能 ■ 基盤モデル構築にロボットを利用:少ない ■ RT-1/2等 ■ 対話知能学後継、ムーンショット ■ 今後、自動車/倉庫/工場におけるデータ収集に期待 *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

Slide 4

Slide 4 text

対話ロボット構築と音声・言語基盤モデル - - 4 テキスト 埋め込み スタンドアロン BERT, RoBERTa, DeBERTa等が主流 クラウド型 text-embedding-ada-002(OpenAI)がオススメ 音声認識 スタンドアロン Whisper (OpenAI)が主流 クラウド型 • スマートフォンUIとクラウドAPI利用が簡易 • 多くのロボット開発では音声認識用に計算リソース を割くことを敬遠 [杉浦+ 2013] バラエティ番組等の遠隔・ 同時・複数人会話の認識は 現在でも技術的に困難

Slide 5

Slide 5 text

ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 5 手法 概要 Code as Policies [Liang+ 22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ■ 例:objects = ["yellow shirt", "black shirt”, ..]

Slide 6

Slide 6 text

画像と言語を扱うマルチモーダル基盤モデル: CLIP[Radford+ 21] ■ 画像とテキストの組(4億組)の特徴量同士が近くなるように学習 ■ 多数の応用(例:DALL·E 2 [Aditya (OpenAI) + 2022/4]) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme Text Text feat. Image feat. Image ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクス で用いられる https://vimeo.com/692375454

Slide 7

Slide 7 text

CLIPを物体操作・探索に利用 - - 7 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+ CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

Slide 8

Slide 8 text

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 8 ①1次元の特徴量を利用 ■ コード1行で書ける ■ 画像/テキスト特徴量が同型 (512 x 1) ■ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き Text Text feat. Image feat. Image 新規 画像

Slide 9

Slide 9 text

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 9 ①1次元の特徴量を利用 ■ コード1行で書ける ■ 画像/テキスト特徴量が同型 (512 x 1) ■ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き ②2次元の特徴マップを利用 ■ CLIPに含まれるResNet/ViTから 中間層の出力(28 x 28 x 512 等)を用いる ■ 代表的な利用例 ■ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規 画像 Text Text feat. Image feat. Image 新規 画像

Slide 10

Slide 10 text

LLMによる行動系列生成: VQAと同様に今後は早期統合が主流になると予想 - - 10 ■ 後期統合: PaLM SayCan [Ahn(Google)+ 2022] ■ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率 ■ 動作スコア(Can):その状況での動作成功確率 ■ 早期統合: PaLM-E [Driess (Google)+ 2023] ■ 画像と言語を入力とするLLMを用いたタスク分解と実行

Slide 11

Slide 11 text

ロボット用基盤モデル構築の試み - - 11 RT-1[Brohan+50人の著者, 22] ■ ロボット13台x17ヶ月の膨大な 学習データ ■ 言語・画像の統合は若干古い方 式(FiLM[Perez+ 17]) ■ アーム/台車動作を3Hzで推論 ■ RT-2[Brohan+ 23]では、LLMを 複数利用して「位置と角度の差 分」を推論 Gato [Reed+ JMLR22] ■ ゲーム、画像キャプション生成、 物体操作等を1つのトランス フォーマーで学習

Slide 12

Slide 12 text

実機を含むベンチマークテスト - - 12 RoboCup@Home(2006-) ■ 世界最大の生活支援ロボットの ベンチマークテスト ■ GPSR: RT-2/PaLM SayCanで扱 われているレベルの難易度 ■ 無理(2010)→ほぼ解決(2023) ■ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ■ Open-vocabulary mobile manipulation ■ NeurIPS23でコンペ

Slide 13

Slide 13 text

最近のモデルでも難しい問題の例: 参照表現理解 - - 13 ■ Google Bard* ■ 赤枠の物体を”white pillow”と 認識 ■ SEEM [Zou+ 23] ■ “Pick up the plant in front of the mirror”という指示に対し、 植物ではなく鏡をマスク *言語設定を英語にすることでマルチモーダル入力が可能(2023/7)

Slide 14

Slide 14 text

生活支援ロボットの 言語理解 - - 14

Slide 15

Slide 15 text

Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy- robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない

Slide 16

Slide 16 text

何をどこまでやるのか ■ 介助犬のタスクは明確 に規定されている ■ HSRが可能なタスク を人手で分析 ■ タスクの80%以上をカ バーし、成功率80%以 上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

Slide 17

Slide 17 text

Open-vocabulary物体操作 - - 17 赤いマグの近くのボールを高い台 に持って行ってくれる? みかんの隣のトマトスープ缶を 高い台に置いて x4

Slide 18

Slide 18 text

①MultiRankIt:物体をマルチモーダル検索して人間に呈示 背景 ■ 全自動の設定での成功率低 ■ Closed-vocabulary 設定では 実用性に欠ける 技術ポイント ■ 自動化とオペレータによる介入を 組み合わせたhuman-in-the-loop設定 ■ 文と画像を複数粒度で分解・統合す るMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率 約 30%

Slide 19

Slide 19 text

複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”

Slide 20

Slide 20 text

移動指示・物体探索指示に関するデータセット: シミュレーションと実世界 実世界 ■ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ■ Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ■ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ■ CVPR 2023 DialFRED Challenge 優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)

Slide 21

Slide 21 text

②マルチモーダル言語処理における転移学習手法 [Otsuki+ IROS23] 背景 ■ ロボットを使ったマルチモーダ ルコーパス構築はコストが高い 技術ポイント ■ 転移元と転移先のプロトタイプ 間の差異を最小化するDual ProtoNCEの提案 ■ シミュレーション:実機 ≒30000:10000

Slide 22

Slide 22 text

ベースライン手法(拡張前の手法)を超える性能 Method Acc. [%]↑ 転移先のデータのみ 73.0±1.87 MCDDA+ [Saito+, CVPR18] 74.9±3.94 提案手法 78.1±2.49 “Go down the stairs to the lower balcony area and turn off the lamp on the dresser.”

Slide 23

Slide 23 text

③Carryタスクにおける問題: 推論回数が膨大でリアルタイム性において非実用的 クローリングを繰り返すと(対象物体, 配置目標)の組合せが爆発的に増加 推論回数のオーダー: 𝑂𝑂(𝑀𝑀 × 𝑁𝑁) 例)𝑀𝑀 = 200, 𝑁𝑁 = 30,1回の推論時間を0.005秒と仮定  判断に30秒必要 23 𝑀𝑀:対象物体候補数 𝑁𝑁:配置目標候補数 ( , ) … ( , ) ?

Slide 24

Slide 24 text

Switching Head-tail Funnel UNITERを構築し 推論速度を実用レベルとした[Korekata+ IROS23] 24 技術ポイント ■ 単一モデルで対象物体/配置目標 を独立に予測可能 ■ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁) に削減 結果 ■ 把持+配置タスク成功率:89% Put the red chips can on the white table with the soccer ball on it.

Slide 25

Slide 25 text

④移動指示の理解:CrossMap Transformer [Magassouba, Sugiura+ RAL & IROS2021] 【タスク】移動指示の理解 【技術ポイント】 ■ 3種類のマスキング(画像・言語・ 経路)を事前学習に導入 ■ 双方向マルチモーダル逆翻訳による データ拡張を学習に導入 【結果】 [Majumdar+ (Facebook) ECCV20] [Hao+ (Microsoft) CVPR20]を超える性能 言語+画像 経路 逆翻訳→ VLN-BERT 「寝室のドアから廊下へ出てくださ い。手すりに沿って廊下を進み、丸 い鏡と蝶のオブジェがある部屋に 入ってください」

Slide 26

Slide 26 text

⑤モビリティ向け移動指示理解 [畑中+ 23] 【タスク】 「バイクが止まっている所の横に 停めて」等の移動指示言語理解 【技術ポイント】 ■ 夜間画像のセグメンテーション マスク信頼度を推定 ■ [Rufus+ IROS21]を超える性能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 26 -

Slide 27

Slide 27 text

ロボティクスにおける 説明性 - - 27

Slide 28

Slide 28 text

PonNet:衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景: 動作実行前に帰結を予測し(physical reasoning)、ユーザに 説明できれば便利 技術ポイント: Attention Branch Network (ABN) [Fukui+ CVPR19] を2系統に拡張し、自己注意で統合 平面検出 だと精度 が低い

Slide 29

Slide 29 text

- - 29

Slide 30

Slide 30 text

将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][平野+ 23] - - 30 【タスク】 行動前にユーザに実行可否を判断 を仰ぐための説明生成 【技術ポイント】 ■ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間 の関係性抽出 ■ LLMによるあり得る帰結の生成 ■ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」

Slide 31

Slide 31 text

あり得る未来の説明をLLMで生成し、NNLMを用いて生成 確率をリスコア ■ LLMによるデータ拡張 ■ 学習集合における各サンプルをLLMに入力 ■ 新たなサンプルを含めた学習集合を得る ■ 説明文の後件部を変更するプロンプトを使用 アームがペットボトルを置こうとして、 砂糖の容器に衝突して倒れる アームがペットボトルを置こうとして、 砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 31

Slide 32

Slide 32 text

ロボットタスクおよび料理動画に対するfuture captioning 32 アームがつかんでいたルービックキューブをテーブルの上 に置き、ルービックキューブとマヨネーズが衝突する アームがルービックキューブを机の上に置こうとしたが、 おこうとした場所にペットボトルと接触してしまい、ルー ビックキューブが棚の上で倒れる アームがルービックキューブを机の上に置こうとしたが、 マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

Slide 33

Slide 33 text

説明生成の評価はマルチモーダル生成モデルの発展に必須 - - 33 ■ 説明生成モデルの開発には 自動評価尺度が必須 ■ cf. 機械翻訳 ■ 日々のモデル改良サイク ルを被験者評価で行うこ とは非現実的 ■ マルチモーダル生成モデル の需要増加を見据え、公 平・優秀な評価尺度を構築

Slide 34

Slide 34 text

日本語における画像キャプション生成のための 自動評価尺度JaSPICEの構築 背景: 日本語のための画像説明文の自動評価尺度は、良いものがほぼない 技術ポイント: 述語項構造に基づくシーングラフを用いたグラフマッチング 人通りの少なくなった道路で,青いズボンを着た男の子が オレンジ色のヘルメットを被りスケートボードに乗っている 被験者100人から22,350サンプルを収集した比較評価

Slide 35

Slide 35 text

まとめ - - 35

Slide 36

Slide 36 text

まとめ - - 36 1. ロボティクスにおける基盤モデルの動向 2. 生活支援ロボットの言語理解 3. ロボティクスにおける説明性 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・ NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・ スタッフに感謝申し上げます。

Slide 37

Slide 37 text

マルチモーダル言語処理の発表資料を公開しています - - 37 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter @keio_smilab