Slide 1

Slide 1 text

Vision-and-Language Navigationタスクにおける 敵対的サブゴール⽣成 慶應義塾⼤学 ⽯川慎太朗,杉浦孔明

Slide 2

Slide 2 text

背景︓⾃律エージェントによる⽣活⽀援への期待 2 [Toyota Research Institute/YouTube] Vision-and-Language Navigation (VLN) - 3次元環境において、⾃然⾔語命令をもとにエージェントがタスクを実⾏ - 本研究の⽬標︓家庭環境において、⽣活⽀援タスクを実⾏するエージェントの構築 社会課題 - ⽇常⽣活における⽀援・介助の必要性 - 在宅介助者の不⾜ ⼈間の発する命令⽂をもとに、 ⽣活⽀援タスクを実⾏できれば便利

Slide 3

Slide 3 text

「⾼レベルな⾃然⾔語命令」に基づくタスクの実⾏を想定 タスクが分解されていないコンパクトな命令 <課題> 命令⽂において明⽰的に指定されていない サブゴールを予測する必要がある ”Put a clean apple on a wooden table” Pick up an apple Wash the apple in the sink Put the apple on a wooden table 課題︓⾼レベルな命令⽂からサブゴールを予測 3

Slide 4

Slide 4 text

関連研究︓既存⼿法は性能⾯で不⼗分 4 Model Description MOCA [Singh+, ICCV’21] • Visual Perception Module: 対象物体のマスクを⽣成 • Action Policy Module: 次の⾏動を予測 Episodic Transformer [Pashevich+, ICCV’21] • Transformerのエンコーダを使⽤したモデル • 命令⽂、過去の観測画像群、⾏動系列をもとに、次の⾏動を予測 Episodic Transformer MOCA

Slide 5

Slide 5 text

関連研究︓HLSM 5 Hierarchical Language-conditioned Spatial Model (HLSM) [Bulkis+, CoRL’21] - 観測データから構築した状態表現を⻑期記憶として利⽤ - ⻑期的なタスクを実⾏する階層的なアプローチ High-level controller • ⼊⼒ - 命令⽂ - 過去のサブゴール群 - 状態表現 • 出⼒ - 現在のサブゴール

Slide 6

Slide 6 text

提案⼿法︓HLSM-MAT 6 Moment-based Adversarial Training (MAT) - 命令⽂ 𝑙 、過去のサブゴール群 𝑮!:#$! 、状態表現 𝑉% に対して敵対的摂動を付与 - 各摂動はMATに基づいて更新 High-level controller

Slide 7

Slide 7 text

摂動を利⽤した損失関数 7 以下の損失関数 𝐿 を使⽤ 𝐿 = 𝐿!"# + 𝐿$% + 𝜆𝐿&" 𝐿!"# = CE 𝑓 𝒙 , 𝒚 𝐿$% = CE 𝑓 𝒙 + 𝜹 , 𝒚 𝐿&" = D'( 𝑓 𝒙 ∥ 𝑓 𝒙 + 𝜹 + D'( 𝑓 𝒙 + 𝜹 ∥ 𝑓 𝒙 𝑓 % 提案ネットワーク 𝒙, 𝒚 ⼊出⼒ 𝜹 敵対的摂動 CE %,% 交差エントロピー D&' %∥% KLダイバージェンス

Slide 8

Slide 8 text

MATの摂動更新アルゴリズム 8 1. 交差エントロピー誤差の勾配を計算 2. 2種類の移動平均を計算 𝐸 𝜹 = CE 𝑓 𝒙 , 𝒚 ∇𝜹𝐸 𝜹 = 𝜕𝐸 𝜕𝜹 𝒎% = 𝜌!𝒎%$! + 1 − 𝜌! ∇𝜹𝐸 𝜹% 𝒗% = 𝜌)𝒗%$! + 1 − 𝜌) ∇𝜹𝐸 𝜹% ) 3. 移動平均をもとに ∆𝜹𝒕 を計算 4. 得られた ∆𝜹𝒕 をもとに摂動を更新 9 𝒎% = 𝒎% 1 − 𝜌! % , 9 𝒗% = 𝒗% 1 − 𝜌) % ∆𝜹𝒕 = 𝜂 9 𝒎% 9 𝒗% + 𝜖 𝜹%+! = Π 𝜹 ,- 𝜹% + ∆𝜹𝒕 ∆𝜹𝒕 . <摂動 𝜹 の更新⽅法>

Slide 9

Slide 9 text

実験︓HLSM-MATの性能評価 9 データセット︓ALFRED [Shridher+, CVPR’20] - AI2-THOR [Kolve+, 17] 環境における、VLNモデルの評価を⽬的としたベンチマーク - 「⾼/低レベルな⾃然⾔語指⽰⽂」と「デモンストレーション」から構成 - cf. ALFRED Challenge @ CVPR 2021 Embodied AI Workshop [mohito1905/YouTube]

Slide 10

Slide 10 text

定量的結果︓既存⼿法を上回る性能を記録 10 Method Validation Test Unseen Seen Unseen Seen SR GC SR GC SR GC SR GC HiTUT [Zhang+, ACL’21] 10.23 20.71 18.41 25.27 11.12 17.89 13.63 21.11 LAV [Nottinghum+, 21] - - 12.7 23.4 6.3 17.3 13.4 23.2 HLSM [Blukis+, CoRL’21] 18.28 31.24 29.63 38.74 20.27 30.31 29.94 41.21 Ours 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 Seen: 訓練集合に含まれる環境 Unseen: 訓練集合に含まれない環境 SR: タスク成功率 GC: サブゴール成功率 ü いずれの環境においても、全ての評価指標において既存⼿法を上回る性能を記録

Slide 11

Slide 11 text

定性的結果︓エピソード単位の成功例 11 “Place the two pillows on the sofa” “Examine a cup under a lamp” ü それぞれのエピソードについて、正しい 順序で適切なサブゴールを予測 PickUp Put PickUp Put PickUp ToggleOn

Slide 12

Slide 12 text

定性的結果︓エピソード単位の失敗例 12 “Put a cooled potato inside the microwave” [t=0-86] じゃがいもを⼿にした後、冷蔵庫に⼊れて冷やすことに成功 [t=101-102] 冷やしたじゃがいもを再び把持しなければならないところ、誤って別の じゃがいもを把持してしまい失敗 PickUp Open Put Close Open PickUp Close Open Put Close

Slide 13

Slide 13 text

定性的結果︓明⽰されていないサブゴールの予測に成功 13 (a) “Place a cooked potato slice in the fridge” (b) “Get an apple from the sink and heat it up in the microwave” a. 「使⽤済みのナイフを⼿放す」というサブゴールを成功 b. 「温め終わったりんごを最後に置く」というサブゴールを成功 GT ︓”Put” HLSM ︓”Open” Ours ︓”Put” GT ︓”Put” HLSM ︓”Open” Ours ︓”Put”

Slide 14

Slide 14 text

Method MAT Validation Test Unseen Seen Unseen Seen hc lc SR GC SR GC SR GC SR GC Ours ✔ ✔ 18.39 31.32 30.00 41.39 21.39 32.14 31.83 43.88 ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 16.69 31.18 31.71 41.82 20.99 32.03 30.66 43.10 Ablation study︓MATの有無による性能の変化 14 ü 従来の敵対的摂動⼿法 [Gan+ NeurIPS20] に⽐べ、MATを導⼊することで性能が向上 ü High-level controllerにおけるMATが特に性能向上に寄与 Low-level controller High-level controller

Slide 15

Slide 15 text

Method Perturbation Validation Test Unseen Seen Unseen Seen 𝝓𝒍 𝝓𝒈 𝝓𝒔 SR GC SR GC SR GC SR GC Ours ✔ ✔ ✔ 17.66 31.79 30.98 42.29 21.84 32.41 33.01 43.65 ✔ ✔ 15.71 30.66 30.85 41.54 21.39 31.03 32.29 43.30 ✔ ✔ 15.96 31.89 30.24 42.63 21.52 33.43 31.57 44.38 ✔ ✔ 14.25 29.06 30.73 40.68 20.27 30.66 30.14 41.23 Ablation study︓摂動の有無による性能の変化 15 ü 各埋め込み表現に敵対的摂動を加えることによって、概ね性能が向上 ü 状態表現に関するMATが特に性能向上に寄与 状態表現 サブゴール群 命令⽂

Slide 16

Slide 16 text

まとめ 16 ü VLNにおける階層的なアプローチに敵対的学習を導⼊ ü 命令⽂、過去のサブゴール群、状態表現に対して、敵対的摂動を付与 ü 新たな摂動更新アルゴリズムMATを提案 ü ALFREDベンチマークにおいて、既存⼿法を上回る性能を記録