Will multimodal language processing change the world?

慶應義塾大学理工学部杉浦孔明 1 マルチモーダル言語処理は世界を変えるのか？

2024年のマルチモーダル言語処理の動向 2 • 言語・画像・音声・動画を扱うマルチモーダルLLM（2024/5/13） https://www.youtube.com/watch?v=DQacCB9tDaw プロンプト「Reflections in the window
of a train traveling through the Tokyo suburbs.」 (2024/2/15) https://openai.com/sora Sora GPT-4o

ロボット×言語のユースケース 3 MLLMによる行動系列・状態推定 6億7500万ドルのシリーズB資金を調達（2024/2）言語指示可能な自動運転を公道実証 10.5億米ドルのシリーズC資金を調達 (2024/5) Wayve Figure
AI https://www.youtube.com/watch?v=mU3TFv9Zi4I https://www.youtube.com/watch?v=Sq1QZB5baNw

目次 - - 4 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価
4. 取り組み事例 ※本資料はD1是方諒介君と共同で作成しました

マルチモーダル言語処理の基礎 - - 5

マルチモーダル言語処理の歴史 - - 6 ▪ 複数のモダリティ（modality）を扱う ▪ 例：画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題しか扱えなかった⇔2015年以降近年成長が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題（省略、意図等） SHRDLU [Winograd 1970s] Microsoft Seeing AI (2017)

マルチモーダル言語処理のサブ分野：理解と生成 - - 7 マルチモーダル言語理解タスク ▪ Visual Question Answering
(VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング [Vinyals 2015]、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]

CLIP [Radford+ 2021] - - 8 ▪ 学習：画像とテキストの組（４億組）の特徴量同士を近付ける ▪
画像エンコーダ： ViT-B/32, ResNet等 ▪ テキストエンコーダ：トランスフォーマー等 ▪ 推論：新規の画像（or テキスト）を入力して特徴量に変換 ▪ 多数の応用（DALL·E 2 [Aditya (OpenAI) + 2022/4]等） a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキストエンコーダ画像エンコーダ

CLIPを物体操作・探索に利用 - - 9 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+
CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張してCLIP の言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか（キーポイント）」を予測物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

ロボティクスと基盤モデル 10

基盤モデルのロボティクスへの影響 - - 11 ▪ 基盤モデル：大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等
▪ ロボット構築に基盤モデルを利用 ▪ 未知の状況での頑健性（Zero-shot/few-shot性能） ▪ 言語・画像の非専門家が容易に利用可能 ▪ 例：ロボット対話に関する以前の状況 ▪ 20年前：音声対話専門家でも制約多 ▪ 10年前：専門家からの要アドバイス ▪ 現在：誰でも使える *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

言語スコアと動作スコアの後期統合の例： PaLM SayCan [Ahn(Google)+ 2022] - - 12 ▪ 言語スコア（Say）：LLMで生成した動詞＋目的語の生成確率
▪ 動作スコア（Can）：その状況での動作成功確率

ロボット向けのコードを大規模言語モデル（LLM）で生成 - - 13 手法概要 Code as Policies [Liang+
22] LLMを用いてatomic actions（認識・動作）を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を人手で与える必要がある ▪ 例：objects = ["yellow shirt", "black shirt”, ..]

2022年以降、マルチモーダルLLMの開発が活発化 14 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

マルチモーダルLLM（MLLM）の代表的構成 15 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality
Encoder：画像・音声・ビデオ等から特徴抽出 ▪ Connector： MLPやQ-Former等でテキスト側の表現と整合 https://arxiv.org/abs/2306.13549

マルチモーダルLLMによる行動系列生成 16 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLMを用いたタスク分解と実行 Figure01
▪ MLLMによる行動系列・状態推定 ▪ 6億7500万ドルのシリーズB資金を調達（2024/2） https://www.youtube.com/watch?v=Sq1QZB5baNw https://palm-e.github.io/

ロボット基盤モデル構築の試み - - 17 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作等を１つのトランスフォーマーで学習
RT-1/2/X ▪ RT-1：ロボット13台ｘ17ヶ月の膨大な学習データ。アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]： LLMを複数利用して「位置と角度の差分」を予測 ▪ RT-X： ICRA24 Best Paper

2023年以降、ロボット基盤モデルの開発が活発に 18 ▪ π0 (Physical Intelligence, 2024/10/31) ▪ 10000時間のロボットデータで学習
▪ Sergey Levineらのグループが RT-1/2-X, Octo, OpenVLA, π0 等の著者に入っている ▪ 企業発の研究も増加（Google DeepMind等） https://www.physicalintelligence.company/blog/pi0

マルチモーダルLLMの評価 19

画像ベンチマーク：MMMU, MMMU-Pro Massive Multi-discipline Multimodal Understanding [Yue+ CVPR24][Yue+ 2024] 20
▪ 専門知識の理解と推論のベンチマーク ▪ 一言でいうと「学部生の小テストに近い」 ▪ 教科書や試験等から収集 ▪ 30科目（工学・音楽・政治等） 11500問 ▪ 一部のMLLMがSuperhuman達成 ▪ https://mmmu-benchmark.github.io/ 2024/11/27時点

例題１：フィードバック制御系の定常偏差 21

例題１に対するGPT-4Vによる予測 22

画像キャプショニングの自動評価 - - 23 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪
日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ 標準的な評価尺度は人間の評価との相関が低い（0.3-0.55程度）

画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 24 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪
約13万サンプルの人間による評価 (世界最大の10倍) で構成された Polarisを構築 ▪ ベクトル間の複雑な関係を学習する教師あり自動評価尺度 ▪ ソフトウェア・データセット公開済み→ https://yuiga.dev/polos ６つのベンチマークにおいて世界最高性能 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Apple社との共同研究成果

マルチモーダルLLMの評価を見据えた取り組み 26 Deneb [Matsuda+ ACCV24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪
類似度を扱うSim-Vec Transformer JaSPICE [Wada+ CoNLL23] ▪ 背景：日本語の自動評価尺度は良いものがほぼ無い ▪ 述語項構造に基づくシーングラフを用いたグラフマッチング人通りの少なくなった道路で，青いズボンを着た男の子がオレンジ色のヘルメットを被りスケートボードに乗っている

何を目指すのか？ 27 ▪ キャプショニングにおいて、人間の評価同士の相関は0.7程度 ▪ そろそろSuperhumanの評価尺度が出現する ▪ Superhuman評価尺度ができると世界はどう変わる？ ▪ 人手評価が不要に。
▪ MLLM開発においてDPO等が自然にできるようになる ▪ 周辺分野でもSuperhuman評価尺度は増えていくのでは？

エージェントベンチマーク：移動指示・物体探索指示理解実世界 ▪ R2R [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪
Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20] ▪ CVPR 2023 DialFRED Challenge優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口から水が出ていないか確認して」 Matterport3D （90種類の家屋）

取り組み事例：マルチモーダル言語処理 - - 29

実世界検索エンジン [Kaneda+ IEEE RAL24] 30 背景 ▪ 生活環境・病院・ショッピングモール・屋外を言語を通じて利活用できれば便利 ▪
例：「シンクにあるタオルを取ってきて」「消火器はどこ？」「座れる場所」技術ポイント ▪ LLMと基盤モデルにより、文と画像を複数粒度で分解・統合するトランスフォーマー ▪ 100,000平米以上を扱うマルチモーダル検索 ▪ 東京国際フォーラム、日吉・矢上キャンパス、グラングリーン大阪、ドバイモール、等

未知環境における機能実証（2023/12/15@東京国際フォーラム） 32 消火器はどこ？

未知環境における機能実証（2023/12/15@東京国際フォーラム） 33 座る場所を探してるんだけど

モビリティ向け移動指示理解 [Hosomi+ IEEE RAL24a] [Hosomi+ IEEE RAL24b] 【タスク】「バイクが止まっている所の横に停めて」等の移動指示言語理解
【技術ポイント】 ▪ 夜間画像のセグメンテーションマスク信頼度を推定 ▪ [Rufus+ IROS21]を超える性能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 34 -

取り組み事例：生活支援ロボット - - 35

最新のマルチモーダルLLMでも困難な例参照表現理解 36 The pillow on the couch closest to
the plant in the living room. Wall picture closest to the front door in the entryway. 誤ったマスク 対象物体以外もマスク

Motivation：介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声（言語）を使った場合はどんな課題があるの？候補が少ないならいいけど、多いならタッチパネルは不便。音声のほうが便利では？社会課題
• 要支援者を物理的・経済的に支える生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬（育成に2年300万円）の利用者≒0.5% 家族の世話で仕事辞めないと… 介助犬を世話できない

何をどこまでやるのか ▪ 介助犬のタスクは明確に規定されている ▪ HSRが可能なタスクを人手で分析 ▪ タスクの80%以上をカバーし、成功率80%以
上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023]
39 ドライバーの隣にあるサインペンを持ってきてタオルの横にあるリモコンを持ってきて

Open-Vocabulary物体操作の流れ - - 40 ① 環境探索 [鈴木+, RSJ24] ② 実世界検索
[Kaneda+, RA-L/IROS24] ③ 参照表現理解 [Nishimura+, IROS24] ④ 物体操作成功判定 [Goko+, CoRL24] 出力： Success place a red can on the front right pick up the tissue box next to the sink 出力：セグメンテーションマスク出力：観測姿勢集合出力：対象物体画像 16x 4x

3D視覚言語基盤モデルと劣モジュラ最適化による環境探索 - - 41 背景 ▪ 効果的なタスク実行において環境情報の事前把握は重要 ▪ 観測姿勢の網羅は非現実的
提案 ▪ 3D-VLMを用いた2D観測姿勢集合の最適化 ▪ 劣モジュラ性を利用した観測姿勢の選択 ▪ 各観測姿勢における遮蔽の考慮結果 ▪ シミュレーション環境において有益な観測姿勢集合を選択 4x

定性的結果（成功例）：遮蔽を考慮した観測姿勢を選択 - 42 タスク環境 ×4 ×4 ×4

定性的結果（成功例）：遮蔽を考慮した観測姿勢を選択 - 43  観測領域に応じて広範な物体を観測可能なロボット姿勢を選択観測姿勢① 観測姿勢②

マルチモーダル基盤モデルに基づく実世界検索エンジン [Kaneda+, RA-L/IROS24] [Korekata+, IROS23] [八島+, RSJ24] - - 44
背景 ▪ マルチモーダル検索に基づく，生活支援ロボットによる物体操作提案 ▪ MLLM/LLMを複合し，指示文・画像を複数粒度で分解・統合 ▪ Unlabeled PositiveおよびNegativeペアの対照性を緩和するContrastive Loss 結果 ▪ 実機実験において，ゼロショット転移でタスク成功率80%を達成 16x pick up the long chips can and place it on the table with fruits

Robot & Language特有の問題：類似画像が多い - - 45 ▪ 日常環境には類似物体が多い＆画角違いで同じ物体を撮影 ▪
InfoNCE [Oord+, 18]では正解以外を全てNegativeとみなす ▪ Unlabeled Positiveを全てアノテーションすることは困難 ▪ 例: 6,000指示文＆7,000画像 手動で約188,000時間必要 “壁にかかっている絵をとってきて” Unlabeled Positive

実機実験：指示文に基づき，対象物体および配置目標を検索，把持・配置 - - 46 Please carry the utensils on
the tall table to the shelf next to the red mug. 16x 16x Pick up the long chips can and place it on the table with fruits.

最適輸送を用いた参照表現セグメンテーション [Nishimura+, IROS24] [Iioka+, IROS23] - - 47 背景 
指示文からの対象物体特定・把持にセグメンテーションは重要提案  最適輸送を用いたポリゴンマッチング  画角外の情報を扱う3D Semantic Point Aggregator 結果  mIoUにおいて既存手法を上回った pick up the pillow closest to the radio art on the wall OpenScene [Peng+, CVPR23]

定性的結果：対象以外の物体名を指示文に含む例 - - 48 Ground Truth 提案手法 Rinse the sink
in the bathroom on level 2 with the red towels.  文中の対象物以外もマスク  指示文から対象物を適切に理解 LAVT [Yang+, CVPR22]

多階層アラインメント表現に基づく物体操作タスク成功判定 [Goko+, CoRL24] - - 49 背景 ▪ open-vocabulary manipulationの成功判定
提案 ▪ 多階層視覚表現λ-Representationを導入 ▪ 画像間の差異を抽出し，指示文とのアラインメントを考慮結果 ▪ RT-1データセット・実機において， Few-Shot MLLMを上回った “pick the orange” 8x 人間の妨害からの復帰出力： Success place a red can on the front right

Demo：人間の妨害による把持失敗からのリカバリー 50 “pick the orange” ×8 ×8 “move the coke”

取り組み事例：説明生成 - - 51

PonNet：衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景：動作実行前に帰結を予測し(physical reasoning)、ユーザに説明できれば便利技術ポイント：
Attention Branch Network (ABN) [Fukui+ CVPR19]を２系統に拡張し、自己注意で統合平面検出だと精度が低い

将来のリスクに対する言語的説明生成：Future captioning [Kambara+ ICIP22][Komatsu+ Advanced Robotics24] - - 53 【タスク】
行動前にユーザに実行可否を判断を仰ぐための説明生成【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション生成に初めて導入例：「砂時計が落下するリスクがあります。動作を実行しますか？」

あり得る未来の説明をLLMで生成し、NNLMを用いて生成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用
ペットボトルを置こうとして、砂糖の容器に衝突して倒れるペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 54

ロボットタスクおよび料理動画に対するfuture captioning 55 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するアームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるアームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

まとめ - - 56

マルチモーダル言語処理は世界を変えるのか 57 自身の経験 ▪ チーム内の「堅実な研究」と常に比較される環境例：「音声翻訳と比べて社会が賛成する研究なのか？」 2010年代まで ▪ マルチモーダル言語処理は多くの研究者を抱えられる領域でなかった 2023年以降
▪ txt2img, マルチモーダルLLM等の発展により研究人口が増加

まとめ - - 58 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価
4. 取り組み事例 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・Apple・トヨタ自動車・NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・スタッフに感謝申し上げます。 ※本資料はD1是方諒介君と共同で作成しました

マルチモーダル言語処理の発表資料を公開しています - - 59 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter (X)
@keio_smilab

Will multimodal language processing change the ...

Will multimodal language processing change the world?

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript