Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI22] Moment-based Adversarial Training for Embodied Language Comprehension

[JSAI22] Moment-based Adversarial Training for Embodied Language Comprehension

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景︓⾃律エージェントによる⽣活⽀援への期待 2 [Toyota Research Institute/YouTube] Vision-and-Language Navigation (VLN) - 3次元環境において、⾃然⾔語命令をもとにエージェントがタスクを実⾏

    - 本研究の⽬標︓家庭環境において、⽣活⽀援タスクを実⾏するエージェントの構築 社会課題 - ⽇常⽣活における⽀援・介助の必要性 - 在宅介助者の不⾜ ⼈間の発する命令⽂をもとに、 ⽣活⽀援タスクを実⾏できれば便利
  2. 関連研究︓既存⼿法は性能⾯で不⼗分 4 Model Description MOCA [Singh+, ICCV’21] • Visual Perception

    Module: 対象物体のマスクを⽣成 • Action Policy Module: 次の⾏動を予測 Episodic Transformer [Pashevich+, ICCV’21] • Transformerのエンコーダを使⽤したモデル • 命令⽂、過去の観測画像群、⾏動系列をもとに、次の⾏動を予測 Episodic Transformer MOCA
  3. 関連研究︓HLSM 5 Hierarchical Language-conditioned Spatial Model (HLSM) [Bulkis+, CoRL’21] -

    観測データから構築した状態表現を⻑期記憶として利⽤ - ⻑期的なタスクを実⾏する階層的なアプローチ High-level controller • ⼊⼒ - 命令⽂ - 過去のサブゴール群 - 状態表現 • 出⼒ - 現在のサブゴール
  4. 提案⼿法︓HLSM-MAT 6 Moment-based Adversarial Training (MAT) - 命令⽂ 𝑙 、過去のサブゴール群

    𝑮!:#$! 、状態表現 𝑉% に対して敵対的摂動を付与 - 各摂動はMATに基づいて更新 High-level controller
  5. 摂動を利⽤した損失関数 7 以下の損失関数 𝐿 を使⽤ 𝐿 = 𝐿!"# + 𝐿$%

    + 𝜆𝐿&" 𝐿!"# = CE 𝑓 𝒙 , 𝒚 𝐿$% = CE 𝑓 𝒙 + 𝜹 , 𝒚 𝐿&" = D'( 𝑓 𝒙 ∥ 𝑓 𝒙 + 𝜹 + D'( 𝑓 𝒙 + 𝜹 ∥ 𝑓 𝒙 𝑓 % 提案ネットワーク 𝒙, 𝒚 ⼊出⼒ 𝜹 敵対的摂動 CE %,% 交差エントロピー D&' %∥% KLダイバージェンス
  6. MATの摂動更新アルゴリズム 8 1. 交差エントロピー誤差の勾配を計算 2. 2種類の移動平均を計算 𝐸 𝜹 = CE

    𝑓 𝒙 , 𝒚 ∇𝜹𝐸 𝜹 = 𝜕𝐸 𝜕𝜹 𝒎% = 𝜌!𝒎%$! + 1 − 𝜌! ∇𝜹𝐸 𝜹% 𝒗% = 𝜌)𝒗%$! + 1 − 𝜌) ∇𝜹𝐸 𝜹% ) 3. 移動平均をもとに ∆𝜹𝒕 を計算 4. 得られた ∆𝜹𝒕 をもとに摂動を更新 9 𝒎% = 𝒎% 1 − 𝜌! % , 9 𝒗% = 𝒗% 1 − 𝜌) % ∆𝜹𝒕 = 𝜂 9 𝒎% 9 𝒗% + 𝜖 𝜹%+! = Π 𝜹 ,- 𝜹% + ∆𝜹𝒕 ∆𝜹𝒕 . <摂動 𝜹 の更新⽅法>
  7. 実験︓HLSM-MATの性能評価 9 データセット︓ALFRED [Shridher+, CVPR’20] - AI2-THOR [Kolve+, 17] 環境における、VLNモデルの評価を⽬的としたベンチマーク

    - 「⾼/低レベルな⾃然⾔語指⽰⽂」と「デモンストレーション」から構成 - cf. ALFRED Challenge @ CVPR 2021 Embodied AI Workshop [mohito1905/YouTube]
  8. 定量的結果︓既存⼿法を上回る性能を記録 10 Method Validation Test Unseen Seen Unseen Seen SR

    GC SR GC SR GC SR GC HiTUT [Zhang+, ACL’21] 10.23 20.71 18.41 25.27 11.12 17.89 13.63 21.11 LAV [Nottinghum+, 21] - - 12.7 23.4 6.3 17.3 13.4 23.2 HLSM [Blukis+, CoRL’21] 18.28 31.24 29.63 38.74 20.27 30.31 29.94 41.21 Ours 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 Seen: 訓練集合に含まれる環境 Unseen: 訓練集合に含まれない環境 SR: タスク成功率 GC: サブゴール成功率 ü いずれの環境においても、全ての評価指標において既存⼿法を上回る性能を記録
  9. 定性的結果︓エピソード単位の成功例 11 “Place the two pillows on the sofa” “Examine

    a cup under a lamp” ü それぞれのエピソードについて、正しい 順序で適切なサブゴールを予測 PickUp Put PickUp Put PickUp ToggleOn
  10. 定性的結果︓エピソード単位の失敗例 12 “Put a cooled potato inside the microwave” [t=0-86]

    じゃがいもを⼿にした後、冷蔵庫に⼊れて冷やすことに成功 [t=101-102] 冷やしたじゃがいもを再び把持しなければならないところ、誤って別の じゃがいもを把持してしまい失敗 PickUp Open Put Close Open PickUp Close Open Put Close
  11. 定性的結果︓明⽰されていないサブゴールの予測に成功 13 (a) “Place a cooked potato slice in the

    fridge” (b) “Get an apple from the sink and heat it up in the microwave” a. 「使⽤済みのナイフを⼿放す」というサブゴールを成功 b. 「温め終わったりんごを最後に置く」というサブゴールを成功 GT ︓”Put” HLSM ︓”Open” Ours ︓”Put” GT ︓”Put” HLSM ︓”Open” Ours ︓”Put”
  12. Method MAT Validation Test Unseen Seen Unseen Seen hc lc

    SR GC SR GC SR GC SR GC Ours ✔ ✔ 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 16.69 31.18 31.71 41.82 20.99 32.03 30.66 43.10 Ablation study︓MATの有無による性能の変化 14 ü 従来の敵対的摂動⼿法 [Gan+ NeurIPS20] に⽐べ、MATを導⼊することで性能が向上 ü High-level controllerにおけるMATが特に性能向上に寄与 Low-level controller High-level controller
  13. Method Perturbation Validation Test Unseen Seen Unseen Seen 𝝓𝒍 𝝓𝒈

    𝝓𝒔 SR GC SR GC SR GC SR GC Ours ✔ ✔ ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 ✔ ✔ 15.71 30.66 30.85 41.54 21.39 31.03 32.29 43.30 ✔ ✔ 15.96 31.89 30.24 42.63 21.52 33.43 31.57 44.38 ✔ ✔ 14.25 29.06 30.73 40.68 20.27 30.66 30.14 41.23 Ablation study︓摂動の有無による性能の変化 15 ü 各埋め込み表現に敵対的摂動を加えることによって、概ね性能が向上 ü 状態表現に関するMATが特に性能向上に寄与 状態表現 サブゴール群 命令⽂