$30 off During Our Annual Pro Sale. View Details »

[RSJ23] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

[RSJ23] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学
    是方諒介,和田唯我,兼田寛大,長嶋隼矢,杉浦孔明
    DialMAT: 敵対的摂動に基づく
    対話的Vision-and-Language Navigation

    View Slide

  2. 背景:生活支援ロボットにおけるマルチモーダル言語理解
    ■ 生活支援ロボット
    ■ 高齢化社会における在宅介助者不足解消に期待
    ■ 自然言語指示が可能になれば利便性向上に寄与
    ■ 対話による曖昧性解消に期待
    左手側にあります
    キッチンテーブルは
    どこにありますか?
    - 2 -
    8x
    緑色のカップを持ってきてください

    View Slide

  3. 関連研究:Vision-and-Language + Robotics
    - 3 -
    自然言語指示を含む
    ロボット競技会
    RoboCup@Home [Iocchi+, AIJ15],
    World Robot Summit (WRS) [Okada+, AR19]
    ALFRED [Shridhar+, CVPR20]
    タスクを扱う主要な手法
    CAPEAM [Kim+, ICCV23], SHeFU [Korekata+, IROS23],
    HLSM-MAT [Ishikawa+, ICPR22], E.T. [Pashevich+, ICCV21]
    対話を伴う
    Object Navigationタスク
    DialFRED [Gao+, RA-L22], TEACh [Padmakumar+, AAAI22],
    CVDN [Thomason+, CoRL19]
    WRS (2018- ) ALFRED SHeFU

    View Slide

  4. 問題設定 (1/2):
    DialFRED [Gao+, RA-L22] (Dialogue + ALFRED)
    - 4 -
    ■ ALFREDを拡張した物体操作を含む対話的VLNタスク
    ■ タスクの種類数:8 → 25
    ■ 環境数:112
    ■ 物体の種類数:80
    ■ 人間がアノテーションした53kの質問応答
    ■ CVPR23 Embodied AI Workshopでコンペ開催
    ■ Team Keio:優勝
    @Vancouver

    View Slide

  5. 問題設定 (2/2):
    DialFRED [Gao+, RA-L22] (Dialogue + ALFRED)
    - 5 -
    ■ サブゴール開始時にユーザに対して3種類の質問が可能
    ① 対象物体の位置:”Where is [object]?”
    ② 対象物体の形容:”What does [object] look like?”
    ③ 移動すべき方向:”Which direction should I turn to?”
    ■ オラクル応答:シミュレータから取得したメタデータから自動生成
    ① ”The [object] is to your [direction] in/on the [container].”
    ② “The [object] is [color] and made of [material].”
    ③ “You should turn [direction] / You don’t need to move.”
    ■ 評価指標:Success Rate (SR),Path Weighted Success Rate (PWSR)

    View Slide

  6. 提案手法:DialMAT
    - 6 -
    ■ Questioner:サブゴール開始時にどの質問を行うか判定
    ■ LSTMベースの [Gao+, RA-L22] に準拠(指示文 + 観測画像 → 質問)
    ■ Moment-based Adversarial Performer (MAPer):各時刻の行動を出力
    ■ Episodic Transformer [Pashevich+, ICCV21] を拡張
    MAPer
    [Gao+, RA-L22]

    View Slide

  7. MAPer (1/2):並列クロスモーダル特徴抽出機構
    - 7 -
    ■ 入力:質問応答文集合 + 指示文 + 観測画像 + 過去の行動系列
    ■ 出力:ロボットの次の行動(e.g., , )
    ■ 基盤モデルを用いた
    並列クロスモーダル特徴抽出機構
    ■ 言語:CLIPtxt [Radford+, PMLR21],
    DeBERTa v3 [He+, ICLR23]
    ■ 画像:CLIPimg [Radford+, PMLR21],
    ResNet [He+, CVPR16]

    View Slide

  8. MAPer (2/2):Moment-based Adversarial Training (MAT)
    の指数移動平均
    の指数移動平均
    - 8 -
    ■ 頑健性向上のため,MAT [Ishikawa+, ICPR22] を導入
    ■ 潜在空間に敵対的摂動 を加算 (cf. VILLA [Gan+, NeurIPS20])

    View Slide

  9. 定量的結果:ベースライン手法を成功率で上回る
    ■ DialFREDデータセットの検証集合におけるUnseen集合を再分割
    ■ (疑似検証集合 : 疑似テスト集合) = (1,296 : 1,363)
    ■ テスト集合における実験回数が限られるため
    手法
    MAT適用条件 疑似テスト集合 テスト集合
    act img txt SR [%]↑ PWSR [%]↑ SR [%]↑
    ベースライン手法 [Gao+, RA-L22] 0.31 0.19 -
    提案手法 (DialMAT)
    0.34 0.20 -
    ✓ 0.36 0.21 -
    ✓ ✓ ✓ 0.39 0.23 0.14
    - 9 -

    View Slide

  10. 定性的結果 (1/2):対象物体の位置に関する対話
    ☺ 環境中に複数個の机が存在するなか,対象の机まで正確に移動
    t=3
    - 10 -
    ■ 指示文:”Move to the desk.”
    “Where is the desk?”
    “The desk is
    to your right.”
    t=26

    View Slide

  11. 定性的結果 (2/2):
    ロボットが移動すべき方向,対象物体の形容に関する対話
    ☺ フロアランプの方を向いたうえ,指示通りに点灯
    - 11 -
    ■ 指示文:”Move to the floorlamp, power on the floorlamp.”
    “Which direction should I turn to?”
    “You should turn right.”
    “What does the
    floorlamp look like?”
    “The floorlamp is gray.”
    t=142 t=147

    View Slide

  12. まとめ
    - 12 -
    ■ 背景
    ✓ 生活支援ロボットの自然言語指示理解
    における,対話的な曖昧性解消
    ■ 提案
    ✓ 言語,画像,行動の潜在空間に
    敵対的摂動を組み込むMATの導入
    ✓ 基盤モデルによる並列クロスモーダル特徴抽出機構
    ■ 結果
    ✓ DialFRED Challenge@CVPR23において優勝
    コード公開

    View Slide

  13. Appendix

    View Slide

  14. CVPR2023 Embodied AI Workshop:
    Embodied AIタスクに関する多様なコンペを開催
    - 14 -
    ■ Habitat
    ■ RxR-Habitat
    ■ MultiON
    ■ SoundSpaces
    ■ Robotic Vision Scene Understanding
    ■ TDW-Transport
    ■ AI2-THOR Rearrangement
    ■ Language Interaction
    ■ DialFRED
    ■ ManiSkill
    [Weihs+, CVPR21]
    [Gu+, ICLR23]

    View Slide

  15. ALFREDタスクの種類を拡張 (1/2):
    より細かいサブゴールへ分割後,マージ
    - 15 -
    ■ 方針1:元のタスクをよりlow-levelなサブゴールへ分割
    ■ 指示文:テンプレートに基づいて作成
    ■ 例)Clean -> “put the object in the sink” + “turn on the faucet”
    + “turn off the faucet”
    ■ 方針2:分割したサブゴールをマージして新たなタスクを作成
    ■ 指示文:主要なサブゴールのみを説明するように作成
    ■ 例)”go to the fridge” + “open the fridge” -> Move & Open
    新たなタスク例 [Gao+, RA-L22]

    View Slide

  16. ALFREDタスクの種類を拡張 (2/2) :25種類のタスク
    - 16 -
    [Gao+, RA-L22]

    View Slide

  17. Hybrid data collection:
    人間による質問応答のアノテーション
    - 17 -
    ■ Amazon Mechanical Turkを用いてクラウドソーシング
    ■ 手順1:タスク実行前の動画視聴(10秒)
    ■ 手順2:テンプレートで生成された質問から合うものを選択 or 自作
    ■ 手順3:模範動作の動画視聴
    ■ 手順4:応答作成 or 質問の要否判断
    アノテーション画面 [Gao+, RA-L22]

    View Slide

  18. 質問応答例:3種類の質問
    - 18 -
    [Gao+, RA-L22]

    View Slide

  19. Questioner:LSTMに基づくエンコーダ,デコーダ
    - 19 -
    ■ 人間の対話データセットで事前学習
    ■ 学習ベース
    ■ Markov Decision Processを仮定
    ■ 強化学習でfine-tuning
    ■ ヒューリスティック
    ■ Model Confusion [Chi+, AAAI20]
    ■ 行動予測分布のトップ2の差が閾値 =0.5未満
    → 自信なしと判断して質問
    [Gao+, RA-L22]

    View Slide