$30 off During Our Annual Pro Sale. View Details »

[RSJ23] DialMAT: Dialogue-Enabled Transformer w...

[RSJ23] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 関連研究:Vision-and-Language + Robotics - 3 - 自然言語指示を含む ロボット競技会 RoboCup@Home [Iocchi+,

    AIJ15], World Robot Summit (WRS) [Okada+, AR19] ALFRED [Shridhar+, CVPR20] タスクを扱う主要な手法 CAPEAM [Kim+, ICCV23], SHeFU [Korekata+, IROS23], HLSM-MAT [Ishikawa+, ICPR22], E.T. [Pashevich+, ICCV21] 対話を伴う Object Navigationタスク DialFRED [Gao+, RA-L22], TEACh [Padmakumar+, AAAI22], CVDN [Thomason+, CoRL19] WRS (2018- ) ALFRED SHeFU
  2. 問題設定 (1/2): DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 4

    - ▪ ALFREDを拡張した物体操作を含む対話的VLNタスク ▪ タスクの種類数:8 → 25 ▪ 環境数:112 ▪ 物体の種類数:80 ▪ 人間がアノテーションした53kの質問応答 ▪ CVPR23 Embodied AI Workshopでコンペ開催 ▪ Team Keio:優勝 @Vancouver
  3. 問題設定 (2/2): DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 5

    - ▪ サブゴール開始時にユーザに対して3種類の質問が可能 ① 対象物体の位置:”Where is [object]?” ② 対象物体の形容:”What does [object] look like?” ③ 移動すべき方向:”Which direction should I turn to?” ▪ オラクル応答:シミュレータから取得したメタデータから自動生成 ① ”The [object] is to your [direction] in/on the [container].” ② “The [object] is [color] and made of [material].” ③ “You should turn [direction] / You don’t need to move.” ▪ 評価指標:Success Rate (SR),Path Weighted Success Rate (PWSR)
  4. 提案手法:DialMAT - 6 - ▪ Questioner:サブゴール開始時にどの質問を行うか判定 ▪ LSTMベースの [Gao+, RA-L22]

    に準拠(指示文 + 観測画像 → 質問) ▪ Moment-based Adversarial Performer (MAPer):各時刻の行動を出力 ▪ Episodic Transformer [Pashevich+, ICCV21] を拡張 MAPer [Gao+, RA-L22]
  5. MAPer (1/2):並列クロスモーダル特徴抽出機構 - 7 - ▪ 入力:質問応答文集合 + 指示文 +

    観測画像 + 過去の行動系列 ▪ 出力:ロボットの次の行動(e.g., <turn left>, <pick up [xxx]>) ▪ 基盤モデルを用いた 並列クロスモーダル特徴抽出機構 ▪ 言語:CLIPtxt [Radford+, PMLR21], DeBERTa v3 [He+, ICLR23] ▪ 画像:CLIPimg [Radford+, PMLR21], ResNet [He+, CVPR16]
  6. MAPer (2/2):Moment-based Adversarial Training (MAT) の指数移動平均 の指数移動平均 - 8 -

    ▪ 頑健性向上のため,MAT [Ishikawa+, ICPR22] を導入 ▪ 潜在空間に敵対的摂動 を加算 (cf. VILLA [Gan+, NeurIPS20])
  7. 定量的結果:ベースライン手法を成功率で上回る ▪ DialFREDデータセットの検証集合におけるUnseen集合を再分割 ▪ (疑似検証集合 : 疑似テスト集合) = (1,296 :

    1,363) ▪ テスト集合における実験回数が限られるため 手法 MAT適用条件 疑似テスト集合 テスト集合 act img txt SR [%]↑ PWSR [%]↑ SR [%]↑ ベースライン手法 [Gao+, RA-L22] 0.31 0.19 - 提案手法 (DialMAT) 0.34 0.20 - ✓ 0.36 0.21 - ✓ ✓ ✓ 0.39 0.23 0.14 - 9 -
  8. 定性的結果 (2/2): ロボットが移動すべき方向,対象物体の形容に関する対話 ☺ フロアランプの方を向いたうえ,指示通りに点灯 - 11 - ▪ 指示文:”Move

    to the floorlamp, power on the floorlamp.” “Which direction should I turn to?” “You should turn right.” “What does the floorlamp look like?” “The floorlamp is gray.” t=142 t=147
  9. まとめ - 12 - ▪ 背景 ✓ 生活支援ロボットの自然言語指示理解 における,対話的な曖昧性解消 ▪

    提案 ✓ 言語,画像,行動の潜在空間に 敵対的摂動を組み込むMATの導入 ✓ 基盤モデルによる並列クロスモーダル特徴抽出機構 ▪ 結果 ✓ DialFRED Challenge@CVPR23において優勝 コード公開
  10. CVPR2023 Embodied AI Workshop: Embodied AIタスクに関する多様なコンペを開催 - 14 - ▪

    Habitat ▪ RxR-Habitat ▪ MultiON ▪ SoundSpaces ▪ Robotic Vision Scene Understanding ▪ TDW-Transport ▪ AI2-THOR Rearrangement ▪ Language Interaction ▪ DialFRED ▪ ManiSkill [Weihs+, CVPR21] [Gu+, ICLR23]
  11. ALFREDタスクの種類を拡張 (1/2): より細かいサブゴールへ分割後,マージ - 15 - ▪ 方針1:元のタスクをよりlow-levelなサブゴールへ分割 ▪ 指示文:テンプレートに基づいて作成

    ▪ 例)Clean -> “put the object in the sink” + “turn on the faucet” + “turn off the faucet” ▪ 方針2:分割したサブゴールをマージして新たなタスクを作成 ▪ 指示文:主要なサブゴールのみを説明するように作成 ▪ 例)”go to the fridge” + “open the fridge” -> Move & Open 新たなタスク例 [Gao+, RA-L22]
  12. Hybrid data collection: 人間による質問応答のアノテーション - 17 - ▪ Amazon Mechanical

    Turkを用いてクラウドソーシング ▪ 手順1:タスク実行前の動画視聴(10秒) ▪ 手順2:テンプレートで生成された質問から合うものを選択 or 自作 ▪ 手順3:模範動作の動画視聴 ▪ 手順4:応答作成 or 質問の要否判断 アノテーション画面 [Gao+, RA-L22]
  13. Questioner:LSTMに基づくエンコーダ,デコーダ - 19 - ▪ 人間の対話データセットで事前学習 ▪ 学習ベース ▪ Markov

    Decision Processを仮定 ▪ 強化学習でfine-tuning ▪ ヒューリスティック ▪ Model Confusion [Chi+, AAAI20] ▪ 行動予測分布のトップ2の差が閾値 =0.5未満 → 自信なしと判断して質問 [Gao+, RA-L22]