$30 off During Our Annual Pro Sale. View Details »

[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学
    松田一起, 小槻誠太郎, 杉浦孔明
    マルチモーダル言語理解タスクにおける
    Dual ProtoNCEに基づくドメイン適応と
    大規模言語モデルを用いた指示文理解

    View Slide

  2. 背景: 生活支援ロボットによるマルチモーダル言語理解
    - 2 -
    課題
    ■ 超高齢化社会における在宅介助者不足
    解決策
    ■ 生活支援ロボット
    ■ 高齢者の独立性の向上
    ■ 安全性の向上
    →多様な環境や指示文への
    対応は不十分 x8

    View Slide

  3. 背景: 生活支援ロボットによるマルチモーダル言語理解
    - 3 -
    実世界データセットのみでの学習
    ■ ☹︎ 高コスト・拡張性
    転移学習による
    シミュレーションデータの活用
    ■ ☺低コスト・効率的な収集
    実世界データ

    View Slide

  4. 背景: 生活支援ロボットによるマルチモーダル言語理解
    - 4 -
    実世界データセットのみでの学習
    ■ ☹︎ 高コスト・拡張性
    転移学習による
    シミュレーションデータの活用
    ■ ☺低コスト・効率的な収集
    シミュレーションデータ

    View Slide

  5. 問題設定: MLU-FI – マルチモーダル言語理解における
    柔軟な定式化を行ったタスク
    - 5 -
    ■ MLU-FI (Multimodal Language Understanding for Fetching Instruction)
    入力
    ■ 画像
    ■ 指示文
    ■ 候補領域
    →候補物体が対象物体であるかの二値分類
    “Get me the picture furthest
    on the left.”

    View Slide

  6. ■ MLU-FI (Multimodal Language Understanding for Fetching Instruction)
    入力
    ■ 画像
    ■ 指示文
    ■ 候補領域
    →候補物体が対象物体であるかの二値分類
    問題設定: MLU-FI – マルチモーダル言語理解における
    柔軟な定式化を行ったタスク
    - 6 -
    Pos.
    Neg.
    Neg.
    Neg.
    “Get me the picture furthest
    on the left.”

    View Slide

  7. ■ MLU-FI (Multimodal Language Understanding for Fetching Instruction)
    問題設定: MLU-FI – マルチモーダル言語理解における
    柔軟な定式化を行ったタスク
    - 7 -
    Pos.
    Neg.
    Neg.
    Neg.
    “Get me the picture furthest
    on the left.”
    赤い矩形領域は指示文
    が示す緑の対象物体を
    指しているか?
    →二値分類タスク
    https://global.toyota/jp/detail/8709536
    ☺より柔軟な定式化
    • 対象物体が存在しない場合
    • 対象物体が複数ある場合
    にも対応可能

    View Slide

  8. 関連研究: 代表的なV&Lタスク
    - 8 -
    タスク 手法
    参照表現理解タスク
    MDETR [Kamath+, ICCV21]
    UNITER [Chen+, ECCV20]
    MLU-FI
    Target-Dependent UNITER [Ishikawa+, IROS21]
    PCTL [Otsuki+, IROS23]

    View Slide

  9. 関連研究:代表的なV&Lタスク
    - 9 -
    タスク 手法
    参照表現理解タスク
    MDETR [Kamath+, ICCV21]
    UNITER [Chen+, ECCV20]
    MLU-FI
    Target-Dependent UNITER [Ishikawa+, IROS21]
    PCTL [Otsuki+, IROS23]

    View Slide

  10. PCTL [Otsuki+, IROS23]
    - 10 -
    ■ 2ドメイン間で対照学習を行う
    ■ 対比損失Dual ProtoNCEを提案
    実世界
    シミュレーション
    特徴量
    特徴量
    クラスタ
    重心
    クラスタ
    重心
    対照学習
    “Clean the top-left
    picture above TV”
    “Pick up the glass
    in the sink”

    View Slide

  11. PCTL [Otsuki+, IROS23]
    - 11 -
    ■ 2ドメイン間で対照学習を行う
    ■ 対比損失Dual ProtoNCEを提案
    ■ ドメイン間の差異が大きすぎると失敗する傾向

    View Slide

  12. 提案手法: Paraphraser – 大規模言語モデルを用いた
    指示文言い換え
    - 12 -
    ■ Paraphraser
    ■ ドメイン間の差異を埋める言い換えを行う
    ■ 不必要なドメイン転移を抑える
    例:
    →転移学習手法の精度向上を期待
    “Make your way down
    the hall to the second
    floor office kitchen and
    turn on the lights”
    “Turn off the lights in
    the second floor office
    kitchen”
    GPT-3.5␣
    この文型のドメイン転移をモデルに
    学習させるのはリソースの浪費

    View Slide

  13. 提案手法: Paraphraser – 大規模言語モデルを用いた
    指示文言い換え
    - 13 -
    ■ Paraphraser
    ■ PCTL [Otsuki+, IROS23]への導入

    View Slide

  14. データセット: VLNかつSim2realにおいて最大規模
    - 14 -
    実世界に基づくデータセット
    ■ REVERIE-fetchデータセット
    [Otsuki+, IROS23]
    ■ サンプル数: 10,243
    シミュレーションに基づくデータセット
    ■ ALFREAD-fetchデータセット
    [Otsuki+, IROS23]
    ■ サンプル数: 34,286
    ALFREAD-fetch

    View Slide

  15. 定量的結果: 精度においてベースライン手法を上回る
    - 15 -
    Target domain only
    ■ 転移先ドメイン(実環境)データのみ
    PCTL[Otsuki+, IROS23]
    ■ MLU-FIの転移学習手法
    手法 精度 [%]
    Target domain only 73.0 ± 1.87
    PCTL[Otsuki+, IROS23] 78.1 ± 2.49
    Ours 78.6 ± 1.87
    +5.6
    +0.5

    View Slide

  16. 定性的結果-成功例1 : 参照表現を正しく理解
    - 16 -
    ■ 指示文: "Take down the photo closest to the kitchen doorway“
    ■ 候補領域: 右手前の絵
    指示文が示す対象物体: 右手前の絵
    と正しく判断
    ■ “closest to the kitchen doorway”
    という参照表現を正しく理解

    View Slide

  17. 定性的結果-成功例2: 参照表現を正しく理解
    - 17 -
    ■ 指示文: "Bring me the light brown pillow next to the plant."
    ■ 候補領域: 中央オレンジの枕
    指示文が示す対象物体: 最も左の枕
    と正しく判断
    ■ “next to the plant”
    という参照表現を正しく理解

    View Slide

  18. 定性的結果-失敗例: 視覚情報の欠如
    - 18 -
    ■ 指示文: "Pull out the chair furthest from the fireplace."
    ■ 候補領域: 左側の椅子
    指示文が示す対象物体: 右手前の椅子
    と誤った判断
    ■ 画像内に“the fireplace”が
    存在しない

    View Slide

  19. まとめ
    - 19 -
    背景
    ■ 転移学習によるシミュレーションデータの活用
    提案
    ■ ドメイン間の差異を埋める
    言い換えを行うParaphraserの提案
    ■ MLU-FIの既存の転移学習手法に
    Paraphraserを導入
    結果
    ■ MLU-FIの精度においてベースラインを上回る

    View Slide

  20. Appendix: MLU-FIをGoogle Bardで試す
    - 20 -
    Bard
    ■ Googleが提供する大規模言語モデル
    ■ マルチモーダルでの入力が可能
    ■ 右図のような画像と指示文を入力
    ■ 物体検出の精度があまり高くない
    ■ 右図では候補物体を”white pillow”
    と認識
    ■ 成功率は50%以下

    View Slide

  21. Appendix: エラー分析
    - 21 -
    CE(Comprehension Error)
    ■ 視覚情報や言語情報の処理に失敗した例
    ■ 参照表現理解に失敗した場合
    ■ 言語情報から関連する物体を正しく特定できなかった場合
    AI(Ambiguous Instruction)
    ■ 曖昧な命令文が与えられた例
    SR(Small Region)
    ■ 対象領域が画像全体の1%に満たず,極端に小さい例
    エラーの
    種類
    CE AI SR SO ML AE MO IL
    エラー数 42 18 16 9 8 3 2 2

    View Slide

  22. Appendix: エラー分析
    - 22 -
    SO(Severe Occlusion)
    ■ 対象物体が他の物体に隠れている例
    ML(Missing Landmark)
    ■ タスクの実行に必要な参照表現の視覚情報が欠如している例
    AE(Annotation Error)
    ■ アノテーション誤りを含む例
    エラーの
    種類
    CE AI SR SO ML AE MO IL
    エラー数 42 18 16 9 8 3 2 2

    View Slide

  23. Appendix: エラー分析
    - 23 -
    MO(Multiple Object)
    ■ 候補領域が複数の物体を含む例
    IL(Paraphraser Information Loss)
    ■ Paraphraserを通して命令文から余分な情報を除去したときに,
    タスクの実行に必要な情報が失われてしまう例
    エラーの
    種類
    CE AI SR SO ML AE MO IL
    エラー数 42 18 16 9 8 3 2 2

    View Slide