Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景: 生活支援ロボットによるマルチモーダル言語理解 - 2 - 課題 ▪ 超高齢化社会における在宅介助者不足 解決策 ▪

    生活支援ロボット ▪ 高齢者の独立性の向上 ▪ 安全性の向上 →多様な環境や指示文への 対応は不十分 x8
  2. 問題設定: MLU-FI – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 5 - ▪ MLU-FI

    (Multimodal Language Understanding for Fetching Instruction) 入力 ▪ 画像 ▪ 指示文 ▪ 候補領域 →候補物体が対象物体であるかの二値分類 “Get me the picture furthest on the left.”
  3. ▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 入力 ▪

    画像 ▪ 指示文 ▪ 候補領域 →候補物体が対象物体であるかの二値分類 問題設定: MLU-FI – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 6 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.”
  4. ▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 問題設定: MLU-FI

    – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 7 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.” 赤い矩形領域は指示文 が示す緑の対象物体を 指しているか? →二値分類タスク https://global.toyota/jp/detail/8709536 ☺より柔軟な定式化 • 対象物体が存在しない場合 • 対象物体が複数ある場合 にも対応可能
  5. 関連研究: 代表的なV&Lタスク - 8 - タスク 手法 参照表現理解タスク MDETR [Kamath+,

    ICCV21] UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]
  6. 関連研究:代表的なV&Lタスク - 9 - タスク 手法 参照表現理解タスク MDETR [Kamath+, ICCV21]

    UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]
  7. PCTL [Otsuki+, IROS23] - 10 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual

    ProtoNCEを提案 実世界 シミュレーション 特徴量 特徴量 クラスタ 重心 クラスタ 重心 対照学習 “Clean the top-left picture above TV” “Pick up the glass in the sink”
  8. PCTL [Otsuki+, IROS23] - 11 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual

    ProtoNCEを提案 ▪ ドメイン間の差異が大きすぎると失敗する傾向
  9. 提案手法: Paraphraser – 大規模言語モデルを用いた 指示文言い換え - 12 - ▪ Paraphraser

    ▪ ドメイン間の差異を埋める言い換えを行う ▪ 不必要なドメイン転移を抑える 例: →転移学習手法の精度向上を期待 “Make your way down the hall to the second floor office kitchen and turn on the lights” “Turn off the lights in the second floor office kitchen” GPT-3.5␣ この文型のドメイン転移をモデルに 学習させるのはリソースの浪費
  10. データセット: VLNかつSim2realにおいて最大規模 - 14 - 実世界に基づくデータセット ▪ REVERIE-fetchデータセット [Otsuki+, IROS23]

    ▪ サンプル数: 10,243 シミュレーションに基づくデータセット ▪ ALFREAD-fetchデータセット [Otsuki+, IROS23] ▪ サンプル数: 34,286 ALFREAD-fetch
  11. 定量的結果: 精度においてベースライン手法を上回る - 15 - Target domain only ▪ 転移先ドメイン(実環境)データのみ

    PCTL[Otsuki+, IROS23] ▪ MLU-FIの転移学習手法 手法 精度 [%] Target domain only 73.0 ± 1.87 PCTL[Otsuki+, IROS23] 78.1 ± 2.49 Ours 78.6 ± 1.87 +5.6 +0.5
  12. 定性的結果-成功例1 : 参照表現を正しく理解 - 16 - ▪ 指示文: "Take down

    the photo closest to the kitchen doorway“ ▪ 候補領域: 右手前の絵 指示文が示す対象物体: 右手前の絵 と正しく判断 ▪ “closest to the kitchen doorway” という参照表現を正しく理解
  13. 定性的結果-成功例2: 参照表現を正しく理解 - 17 - ▪ 指示文: "Bring me the

    light brown pillow next to the plant." ▪ 候補領域: 中央オレンジの枕 指示文が示す対象物体: 最も左の枕 と正しく判断 ▪ “next to the plant” という参照表現を正しく理解
  14. 定性的結果-失敗例: 視覚情報の欠如 - 18 - ▪ 指示文: "Pull out the

    chair furthest from the fireplace." ▪ 候補領域: 左側の椅子 指示文が示す対象物体: 右手前の椅子 と誤った判断 ▪ 画像内に“the fireplace”が 存在しない
  15. まとめ - 19 - 背景 ▪ 転移学習によるシミュレーションデータの活用 提案 ▪ ドメイン間の差異を埋める

    言い換えを行うParaphraserの提案 ▪ MLU-FIの既存の転移学習手法に Paraphraserを導入 結果 ▪ MLU-FIの精度においてベースラインを上回る
  16. Appendix: MLU-FIをGoogle Bardで試す - 20 - Bard ▪ Googleが提供する大規模言語モデル ▪

    マルチモーダルでの入力が可能 ▪ 右図のような画像と指示文を入力 ▪ 物体検出の精度があまり高くない ▪ 右図では候補物体を”white pillow” と認識 ▪ 成功率は50%以下
  17. Appendix: エラー分析 - 21 - CE(Comprehension Error) ▪ 視覚情報や言語情報の処理に失敗した例 ▪

    参照表現理解に失敗した場合 ▪ 言語情報から関連する物体を正しく特定できなかった場合 AI(Ambiguous Instruction) ▪ 曖昧な命令文が与えられた例 SR(Small Region) ▪ 対象領域が画像全体の1%に満たず,極端に小さい例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2
  18. Appendix: エラー分析 - 22 - SO(Severe Occlusion) ▪ 対象物体が他の物体に隠れている例 ML(Missing

    Landmark) ▪ タスクの実行に必要な参照表現の視覚情報が欠如している例 AE(Annotation Error) ▪ アノテーション誤りを含む例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2
  19. Appendix: エラー分析 - 23 - MO(Multiple Object) ▪ 候補領域が複数の物体を含む例 IL(Paraphraser

    Information Loss) ▪ Paraphraserを通して命令文から余分な情報を除去したときに, タスクの実行に必要な情報が失われてしまう例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2