Slide 1

Slide 1 text

Survey on Adversarial Attack with DRL Tactics of Adversarial Attack on Deep Reinforcement Learning Agents, Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, et al. (National Tsing Hua University, NVIDIA) [IJCAI'17] (Cited by:408) Adversarial Attacks on Neural Network Policies, Sandy Huang, Nicolas Papernot, Ian Goodfellow, et al. (University of California, Berkeley, Pennsylvania State University, OpenAI) [arXiv'17] (Cited by:836) 1/12 2023/11/15 Delving into adversarial attacks on deep policies, Jernej Kos, Dawn Song (National University of Singapore, University of California, Berkeley) [ICLR'17 Workshop] (Cited by:234)

Slide 2

Slide 2 text

基礎知識 | 敵対的サンプル (FGSM) 2/12 引用:Goodfellow et al. (2014) ❏ モデルの予測を誤らせるためにノイズを加えた画像のこと ❏ 損失Jの勾配を最大化させるような摂動を加える (ノイズ)

Slide 3

Slide 3 text

背景 | 深層強化学習への敵対的攻撃 ❏ 「画像,音声,言語」タスクを対象にした敵対的攻撃 ❏ 深層強化学習タスクを対象に敵対的攻撃できるか? 3/12 参考:AIディフェンス研究所

Slide 4

Slide 4 text

4/12 ❏ 強化学習を対象にした敵対的攻撃が有効であることを示した ❏ FGSMによる敵対的攻撃によって,学習済みモデルの性能を低下させる Adversarial Attacks on Neural Network Policies | 概要 偽のボール が生成 L∞ノルム制約 L1ノルム制約

Slide 5

Slide 5 text

5/12 ❏ L∞ノルム制約:全てのピクセルを変更 ❏ L1ノルム制約:小数のピクセルのみを変更 ❏ d:入力xの次元数 (画像のピクセル数) ❏ εd:入力xに導入できる摂動の総量 Adversarial Attacks on Neural Network Policies | ノルム制約

Slide 6

Slide 6 text

6/12 ❏ 3つの強化学習アルゴリズム:A3C, TRPO, DQN ❏ 4つのAtariゲーム:Chopper Command, Pong, Seaquest, Space Invaders ❏ 平均報酬は,10回分の平均をグラフに示している Adversarial Attacks on Neural Network Policies | 実験結果 画像全体にわたる摂動より も,特定のピクセルに対す る摂動が効果的 L1ノルムに基づく敵対的攻 撃が最も効果的

Slide 7

Slide 7 text

7/12 ❏ 左端:敵対的摂動なしの通常 ❏ 右の3つのビデオ ❏ 左:元の画像 ❏ 中:敵対的摂動 ❏ 右:元の画像 + 敵対的摂動 Adversarial Attacks on Neural Network Policies | 実験結果 L∞ノルム制約 L1ノルム制約 引用:Adversarial Attacks on Neural Network Policies

Slide 8

Slide 8 text

8/12 ❏ 戦略的タイミング攻撃とエンチャンティング攻撃を提案 ❏ c(st)≥βになったタイミングで敵対的攻撃を行う Tactics of Adversarial Attack on Deep Reinforcement Learning Agents | 概要 最適行動から最悪行動の差分をc(st)とする

Slide 9

Slide 9 text

9/12 ❏ 敵対的攻撃によってエージェントを目標状態に誘導する ❏ 生成モデルを用いて,現在の状態から将来の状態を予測 ❏ 計画アルゴリズムを用いて,目標状態に導く行動系列を生成 ❏ 敵対的サンプルを生成し,それを使いエージェントが行動を起こす ❏ 行動を起こしたエージェントが目標状態に誘導される Tactics of Adversarial Attack on Deep Reinforcement Learning Agents

Slide 10

Slide 10 text

10/12 Tactics of Adversarial Attack on Deep Reinforcement Learning Agents | 実験結果 引用:Tactics of Adversarial Attack on Deep Reinforcement Learning Agents ❏ 戦略的タイミング攻撃:ステップごとの攻撃より4倍少ない頻度で攻撃可能 ❏ エンチャンティング攻撃:3/5のゲームで70%以上の成功率

Slide 11

Slide 11 text

11/12 ❏ 敵対的攻撃 (FGSM) とランダ ムノイズ攻撃を比較 ❏ ランダムノイズ攻撃:一様 分布Unif (0,β) ❏ β≤0.02の範囲において性能 変化はあまりみられない ❏ β≥0.05の範囲において性能 低下 ❏ FGSMでは,微小なε (=0.001,0.005)でも効果的 な性能低下がみられた Delving into adversarial attacks on deep policies ・Atari Pongタスク ・A3Cアルゴリズム

Slide 12

Slide 12 text

まとめ Adversarial Attacks on Neural Network Policies: ノルム制約を利用した敵対的攻撃 12/12 Tactics of Adversarial Attack on Deep Reinforcement Learning Agents: 効果的なタイミングでの敵対的攻撃,敵対的攻撃による状態誘導 ❏ 傾向と今後 ❏ Github実装があまり見当たらない ❏ L1ノルム制約による敵対的攻撃をデータセット作成に使えそう Delving into adversarial attacks on deep policies: 敵対的攻撃とランダムノイズ攻撃の比較

Slide 13

Slide 13 text

参考文献 13/12 ❏ FGSM ❏ FGSM を使用した敵対的サンプル ❏ はじめてのAdversarial Example ❏ Adversarial Attacks on Neural Network Policies ❏ Tactics of Adversarial Attack on Deep Reinforcement Learning Agents ❏ Survey on Adversarial Attacks and Defenses in Reinforcement Learning