Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Will multimodal language processing change the ...

Will multimodal language processing change the world?

2024/11/28 第15回対話システムシンポジウム 招待講演資料

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. マルチモーダル言語処理の歴史 - - 6 ▪ 複数のモダリティ(modality)を扱 う ▪ 例:画像、音声、テキスト、センサ ▪

    古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft Seeing AI (2017)
  2. マルチモーダル言語処理のサブ分野: 理解と生成 - - 7 マルチモーダル言語理解タスク ▪ Visual Question Answering

    (VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング [Vinyals 2015]、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]
  3. CLIP [Radford+ 2021] - - 8 ▪ 学習: 画像とテキストの組(4億組)の特徴量同士を近付ける ▪

    画像エンコーダ: ViT-B/32, ResNet等 ▪ テキストエンコーダ: トランスフォーマー等 ▪ 推論: 新規の画像(or テキスト)を入力して特徴量に変換 ▪ 多数の応用(DALL·E 2 [Aditya (OpenAI) + 2022/4]等) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキスト エンコーダ 画像 エンコーダ
  4. CLIPを物体操作・探索に利用 - - 9 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

    CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張してCLIP の言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding
  5. 基盤モデルのロボティクスへの影響 - - 11 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

    ▪ ロボット構築に基盤モデルを利用 ▪ 未知の状況での頑健性(Zero-shot/few-shot性能) ▪ 言語・画像の非専門家が容易に利用可能 ▪ 例:ロボット対話に関する以前の状況 ▪ 20年前:音声対話専門家でも制約多 ▪ 10年前:専門家からの要アドバイス ▪ 現在:誰でも使える *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.
  6. ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 13 手法 概要 Code as Policies [Liang+

    22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ▪ 例:objects = ["yellow shirt", "black shirt”, ..]
  7. マルチモーダルLLM(MLLM)の代表的構成 15 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality

    Encoder: 画像・音声・ビデオ等から特徴抽出 ▪ Connector: MLPやQ-Former等でテキスト側の表現と整合 https://arxiv.org/abs/2306.13549
  8. マルチモーダルLLMによる行動系列生成 16 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLMを 用いたタスク分解と実行 Figure01

    ▪ MLLMによる行動系列・状態推定 ▪ 6億7500万ドルのシリーズB資金を 調達(2024/2) https://www.youtube.com/watch?v=Sq1QZB5baNw https://palm-e.github.io/
  9. ロボット基盤モデル構築の試み - - 17 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作 等を1つのトランスフォーマーで学習

    RT-1/2/X ▪ RT-1: ロボット13台x17ヶ月の膨大な 学習データ。アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]: LLMを複数利用し て「位置と角度の差分」を予測 ▪ RT-X: ICRA24 Best Paper
  10. 2023年以降、ロボット基盤モデルの開発が活発に 18 ▪ π0 (Physical Intelligence, 2024/10/31) ▪ 10000時間のロボットデータで 学習

    ▪ Sergey Levineらのグループが RT-1/2-X, Octo, OpenVLA, π0 等の著者に入っている ▪ 企業発の研究も増加(Google DeepMind等) https://www.physicalintelligence.company/blog/pi0
  11. 画像ベンチマーク:MMMU, MMMU-Pro Massive Multi-discipline Multimodal Understanding [Yue+ CVPR24][Yue+ 2024] 20

    ▪ 専門知識の理解と推論のベンチマーク ▪ 一言でいうと「学部生の小テストに 近い」 ▪ 教科書や試験等から収集 ▪ 30科目(工学・音楽・政治等) 11500問 ▪ 一部のMLLMがSuperhuman達成 ▪ https://mmmu-benchmark.github.io/ 2024/11/27時点
  12. 画像キャプショニングの自動評価 - - 23 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪

    日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ 標準的な評価尺度は人間の評価との相関が低い(0.3-0.55程度)
  13. 画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 24 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪

    約13万サンプルの人間による評価 (世界最大の10倍) で構成された Polarisを構築 ▪ ベクトル間の複雑な関係を学習する教師あり自動評価尺度 ▪ ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 6つのベンチマークにおいて世界最高性能 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Apple社との共同研究成果
  14. マルチモーダルLLMの評価を見据えた取り組み 26 Deneb [Matsuda+ ACCV24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪

    類似度を扱うSim-Vec Transformer JaSPICE [Wada+ CoNLL23] ▪ 背景:日本語の自動評価尺度は良いもの がほぼ無い ▪ 述語項構造に基づくシーングラフを用い たグラフマッチング 人通りの少なくなった道路で,青いズボンを着た男の子が オレンジ色のヘルメットを被りスケートボードに乗っている
  15. エージェントベンチマーク: 移動指示・物体探索指示理解 実世界 ▪ R2R [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

    Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20] ▪ CVPR 2023 DialFRED Challenge優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)
  16. 実世界検索エンジン [Kaneda+ IEEE RAL24] 30 背景 ▪ 生活環境・病院・ショッピングモール・屋外を 言語を通じて利活用できれば便利 ▪

    例:「シンクにあるタオルを取ってきて」 「消火器はどこ?」「座れる場所」 技術ポイント ▪ LLMと基盤モデルにより、文と画像を複数粒度 で分解・統合するトランスフォーマー ▪ 100,000平米以上を扱うマルチモーダル検索 ▪ 東京国際フォーラム、日吉・矢上キャンパス、 グラングリーン大阪、ドバイモール、等
  17. モビリティ向け移動指示理解 [Hosomi+ IEEE RAL24a] [Hosomi+ IEEE RAL24b] 【タスク】 「バイクが止まっている所の横に 停めて」等の移動指示言語理解

    【技術ポイント】 ▪ 夜間画像のセグメンテーション マスク信頼度を推定 ▪ [Rufus+ IROS21]を超える性 能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 34 -
  18. 最新のマルチモーダルLLMでも困難な例 参照表現理解 36 The pillow on the couch closest to

    the plant in the living room. Wall picture closest to the front door in the entryway. 誤ったマスク 対象物体 以外もマスク
  19. Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題

    • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  20. Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023]

    39 ドライバーの隣にあるサインペン を持ってきて タオルの横にあるリモコンを 持ってきて
  21. Open-Vocabulary物体操作の流れ - - 40 ① 環境探索 [鈴木+, RSJ24] ② 実世界検索

    [Kaneda+, RA-L/IROS24] ③ 参照表現理解 [Nishimura+, IROS24] ④ 物体操作成功判定 [Goko+, CoRL24] 出力: Success place a red can on the front right pick up the tissue box next to the sink 出力:セグメンテーションマスク 出力:観測姿勢集合 出力:対象物体画像 16x 4x
  22. 3D視覚言語基盤モデルと劣モジュラ最適化による環境探索 - - 41 背景 ▪ 効果的なタスク実行において 環境情報の事前把握は重要 ▪ 観測姿勢の網羅は非現実的

    提案 ▪ 3D-VLMを用いた2D観測姿勢集合の最適化 ▪ 劣モジュラ性を利用した観測姿勢の選択 ▪ 各観測姿勢における遮蔽の考慮 結果 ▪ シミュレーション環境において 有益な観測姿勢集合を選択 4x
  23. マルチモーダル基盤モデルに基づく実世界検索エンジン [Kaneda+, RA-L/IROS24] [Korekata+, IROS23] [八島+, RSJ24] - - 44

    背景 ▪ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 提案 ▪ MLLM/LLMを複合し,指示文・画像を 複数粒度で分解・統合 ▪ Unlabeled PositiveおよびNegativeペア の対照性を緩和するContrastive Loss 結果 ▪ 実機実験において,ゼロショット転移 でタスク成功率80%を達成 16x pick up the long chips can and place it on the table with fruits
  24. Robot & Language特有の問題: 類似画像が多い - - 45 ▪ 日常環境には類似物体が多い&画角違いで同じ物体を撮影 ▪

    InfoNCE [Oord+, 18]では正解以外を全てNegativeとみなす ▪ Unlabeled Positiveを全てアノテーションすることは困難 ▪ 例: 6,000指示文&7,000画像 手動で約188,000時間必要 “壁にかかっている絵をとってきて” Unlabeled Positive
  25. 実機実験:指示文に基づき, 対象物体および配置目標を検索,把持・配置 - - 46 Please carry the utensils on

    the tall table to the shelf next to the red mug. 16x 16x Pick up the long chips can and place it on the table with fruits.
  26. 最適輸送を用いた参照表現セグメンテーション [Nishimura+, IROS24] [Iioka+, IROS23] - - 47 背景 

    指示文からの対象物体特定・把持 にセグメンテーションは重要 提案  最適輸送を用いたポリゴンマッチング  画角外の情報を扱う3D Semantic Point Aggregator 結果  mIoUにおいて既存 手法を上回った pick up the pillow closest to the radio art on the wall OpenScene [Peng+, CVPR23]
  27. 定性的結果:対象以外の物体名を指示文に含む例 - - 48 Ground Truth 提案手法 Rinse the sink

    in the bathroom on level 2 with the red towels.  文中の対象物 以外もマスク  指示文から対象物を 適切に理解 LAVT [Yang+, CVPR22]
  28. 多階層アラインメント表現に基づく物体操作タスク成功判定 [Goko+, CoRL24] - - 49 背景 ▪ open-vocabulary manipulationの成功判定

    提案 ▪ 多階層視覚表現λ-Representationを導入 ▪ 画像間の差異を抽出し, 指示文とのアラインメントを考慮 結果 ▪ RT-1データセット・ 実機において, Few-Shot MLLMを 上回った “pick the orange” 8x 人間の妨害 からの復帰 出力: Success place a red can on the front right
  29. 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][Komatsu+ Advanced Robotics24] - - 53 【タスク】

    行動前にユーザに実行可否を判断 を仰ぐための説明生成 【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイ ベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」
  30. あり得る未来の説明をLLMで生成し、NNLMを用いて生 成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用

    ペットボトルを置こうとして、砂糖の 容器に衝突して倒れる ペットボトルを置こうとして、砂糖の 容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 54
  31. まとめ - - 58 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価

    4. 取り組み事例 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・Apple・トヨタ 自動車・NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室 の学生・スタッフに感謝申し上げます。 ※本資料はD1是方諒介君 と共同で作成しました