[JSAI22] Moment-based Adversarial Training for Embodied Language Comprehension

Vision-and-Language Navigationタスクにおける敵対的サブゴール⽣成慶應義塾⼤学⽯川慎太朗，杉浦孔明

背景︓⾃律エージェントによる⽣活⽀援への期待 2 [Toyota Research Institute/YouTube] Vision-and-Language Navigation (VLN) - 3次元環境において、⾃然⾔語命令をもとにエージェントがタスクを実⾏
- 本研究の⽬標︓家庭環境において、⽣活⽀援タスクを実⾏するエージェントの構築社会課題 - ⽇常⽣活における⽀援・介助の必要性 - 在宅介助者の不⾜⼈間の発する命令⽂をもとに、⽣活⽀援タスクを実⾏できれば便利

「⾼レベルな⾃然⾔語命令」に基づくタスクの実⾏を想定タスクが分解されていないコンパクトな命令 <課題> 命令⽂において明⽰的に指定されていないサブゴールを予測する必要がある ”Put a clean apple on
a wooden table” Pick up an apple Wash the apple in the sink Put the apple on a wooden table 課題︓⾼レベルな命令⽂からサブゴールを予測 3

関連研究︓既存⼿法は性能⾯で不⼗分 4 Model Description MOCA [Singh+, ICCV’21] • Visual Perception
Module: 対象物体のマスクを⽣成 • Action Policy Module: 次の⾏動を予測 Episodic Transformer [Pashevich+, ICCV’21] • Transformerのエンコーダを使⽤したモデル • 命令⽂、過去の観測画像群、⾏動系列をもとに、次の⾏動を予測 Episodic Transformer MOCA

関連研究︓HLSM 5 Hierarchical Language-conditioned Spatial Model (HLSM) [Bulkis+, CoRL’21] -
観測データから構築した状態表現を⻑期記憶として利⽤ - ⻑期的なタスクを実⾏する階層的なアプローチ High-level controller • ⼊⼒ - 命令⽂ - 過去のサブゴール群 - 状態表現 • 出⼒ - 現在のサブゴール

提案⼿法︓HLSM-MAT 6 Moment-based Adversarial Training (MAT) - 命令⽂ 𝑙 、過去のサブゴール群
𝑮!:#$! 、状態表現 𝑉% に対して敵対的摂動を付与 - 各摂動はMATに基づいて更新 High-level controller

摂動を利⽤した損失関数 7 以下の損失関数 𝐿 を使⽤ 𝐿 = 𝐿!"# + 𝐿$%
+ 𝜆𝐿&" 𝐿!"# = CE 𝑓 𝒙 , 𝒚 𝐿$% = CE 𝑓 𝒙 + 𝜹 , 𝒚 𝐿&" = D'( 𝑓 𝒙 ∥ 𝑓 𝒙 + 𝜹 + D'( 𝑓 𝒙 + 𝜹 ∥ 𝑓 𝒙 𝑓 % 提案ネットワーク 𝒙, 𝒚 ⼊出⼒ 𝜹 敵対的摂動 CE %,% 交差エントロピー D&' %∥% KLダイバージェンス

MATの摂動更新アルゴリズム 8 1. 交差エントロピー誤差の勾配を計算 2. 2種類の移動平均を計算 𝐸 𝜹 = CE
𝑓 𝒙 , 𝒚 ∇𝜹𝐸 𝜹 = 𝜕𝐸 𝜕𝜹 𝒎% = 𝜌!𝒎%$! + 1 − 𝜌! ∇𝜹𝐸 𝜹% 𝒗% = 𝜌)𝒗%$! + 1 − 𝜌) ∇𝜹𝐸 𝜹% ) 3. 移動平均をもとに ∆𝜹𝒕 を計算 4. 得られた ∆𝜹𝒕 をもとに摂動を更新 9 𝒎% = 𝒎% 1 − 𝜌! % , 9 𝒗% = 𝒗% 1 − 𝜌) % ∆𝜹𝒕 = 𝜂 9 𝒎% 9 𝒗% + 𝜖 𝜹%+! = Π 𝜹 ,- 𝜹% + ∆𝜹𝒕 ∆𝜹𝒕 . <摂動 𝜹 の更新⽅法>

実験︓HLSM-MATの性能評価 9 データセット︓ALFRED [Shridher+, CVPR’20] - AI2-THOR [Kolve+, 17] 環境における、VLNモデルの評価を⽬的としたベンチマーク
- 「⾼/低レベルな⾃然⾔語指⽰⽂」と「デモンストレーション」から構成 - cf. ALFRED Challenge @ CVPR 2021 Embodied AI Workshop [mohito1905/YouTube]

定量的結果︓既存⼿法を上回る性能を記録 10 Method Validation Test Unseen Seen Unseen Seen SR
GC SR GC SR GC SR GC HiTUT [Zhang+, ACL’21] 10.23 20.71 18.41 25.27 11.12 17.89 13.63 21.11 LAV [Nottinghum+, 21] - - 12.7 23.4 6.3 17.3 13.4 23.2 HLSM [Blukis+, CoRL’21] 18.28 31.24 29.63 38.74 20.27 30.31 29.94 41.21 Ours 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 Seen: 訓練集合に含まれる環境 Unseen: 訓練集合に含まれない環境 SR: タスク成功率 GC: サブゴール成功率 ü いずれの環境においても、全ての評価指標において既存⼿法を上回る性能を記録

定性的結果︓エピソード単位の成功例 11 “Place the two pillows on the sofa” “Examine
a cup under a lamp” ü それぞれのエピソードについて、正しい順序で適切なサブゴールを予測 PickUp Put PickUp Put PickUp ToggleOn

定性的結果︓エピソード単位の失敗例 12 “Put a cooled potato inside the microwave” [t=0-86]
じゃがいもを⼿にした後、冷蔵庫に⼊れて冷やすことに成功 [t=101-102] 冷やしたじゃがいもを再び把持しなければならないところ、誤って別のじゃがいもを把持してしまい失敗 PickUp Open Put Close Open PickUp Close Open Put Close

定性的結果︓明⽰されていないサブゴールの予測に成功 13 (a) “Place a cooked potato slice in the
fridge” (b) “Get an apple from the sink and heat it up in the microwave” a. 「使⽤済みのナイフを⼿放す」というサブゴールを成功 b. 「温め終わったりんごを最後に置く」というサブゴールを成功 GT ︓”Put” HLSM ︓”Open” Ours ︓”Put” GT ︓”Put” HLSM ︓”Open” Ours ︓”Put”

Method MAT Validation Test Unseen Seen Unseen Seen hc lc
SR GC SR GC SR GC SR GC Ours ✔ ✔ 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 16.69 31.18 31.71 41.82 20.99 32.03 30.66 43.10 Ablation study︓MATの有無による性能の変化 14 ü 従来の敵対的摂動⼿法 [Gan+ NeurIPS20] に⽐べ、MATを導⼊することで性能が向上 ü High-level controllerにおけるMATが特に性能向上に寄与 Low-level controller High-level controller

Method Perturbation Validation Test Unseen Seen Unseen Seen 𝝓𝒍 𝝓𝒈
𝝓𝒔 SR GC SR GC SR GC SR GC Ours ✔ ✔ ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 ✔ ✔ 15.71 30.66 30.85 41.54 21.39 31.03 32.29 43.30 ✔ ✔ 15.96 31.89 30.24 42.63 21.52 33.43 31.57 44.38 ✔ ✔ 14.25 29.06 30.73 40.68 20.27 30.66 30.14 41.23 Ablation study︓摂動の有無による性能の変化 15 ü 各埋め込み表現に敵対的摂動を加えることによって、概ね性能が向上 ü 状態表現に関するMATが特に性能向上に寄与状態表現サブゴール群命令⽂

まとめ 16 ü VLNにおける階層的なアプローチに敵対的学習を導⼊ ü 命令⽂、過去のサブゴール群、状態表現に対して、敵対的摂動を付与 ü 新たな摂動更新アルゴリズムMATを提案 ü ALFREDベンチマークにおいて、既存⼿法を上回る性能を記録

[JSAI22] Moment-based Adversarial Training for ...

[JSAI22] Moment-based Adversarial Training for Embodied Language Comprehension

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Vision-and-Language Navigationタスクにおける敵対的サブゴール⽣成慶應義塾⼤学⽯川慎太朗，杉浦孔明

背景︓⾃律エージェントによる⽣活⽀援への期待 2 [Toyota Research Institute/YouTube] Vision-and-Language Navigation (VLN) - 3次元環境において、⾃然⾔語命令をもとにエージェントがタスクを実⾏

「⾼レベルな⾃然⾔語命令」に基づくタスクの実⾏を想定タスクが分解されていないコンパクトな命令 <課題> 命令⽂において明⽰的に指定されていないサブゴールを予測する必要がある ”Put a clean apple on

関連研究︓既存⼿法は性能⾯で不⼗分 4 Model Description MOCA [Singh+, ICCV’21] • Visual Perception

関連研究︓HLSM 5 Hierarchical Language-conditioned Spatial Model (HLSM) [Bulkis+, CoRL’21] -

提案⼿法︓HLSM-MAT 6 Moment-based Adversarial Training (MAT) - 命令⽂ 𝑙 、過去のサブゴール群

摂動を利⽤した損失関数 7 以下の損失関数 𝐿 を使⽤ 𝐿 = 𝐿!"# + 𝐿$%

MATの摂動更新アルゴリズム 8 1. 交差エントロピー誤差の勾配を計算 2. 2種類の移動平均を計算 𝐸 𝜹 = CE

実験︓HLSM-MATの性能評価 9 データセット︓ALFRED [Shridher+, CVPR’20] - AI2-THOR [Kolve+, 17] 環境における、VLNモデルの評価を⽬的としたベンチマーク

定量的結果︓既存⼿法を上回る性能を記録 10 Method Validation Test Unseen Seen Unseen Seen SR

定性的結果︓エピソード単位の成功例 11 “Place the two pillows on the sofa” “Examine

定性的結果︓エピソード単位の失敗例 12 “Put a cooled potato inside the microwave” [t=0-86]

定性的結果︓明⽰されていないサブゴールの予測に成功 13 (a) “Place a cooked potato slice in the

Method MAT Validation Test Unseen Seen Unseen Seen hc lc

Method Perturbation Validation Test Unseen Seen Unseen Seen 𝝓𝒍 𝝓𝒈