Slide 1

Slide 1 text

A General Framework For Detecting Anomalous Inputs to DNN Classifiers 2021/08/18 Takahiro Yoshinaga, LINE Corporation ICML2021 論⽂読み会

Slide 2

Slide 2 text

Outline • Motivation • Proposal: JTLA (Joint statistical Testing across DNN Layers for Anomalies) • Experiment • Summary

Slide 3

Slide 3 text

Motivation • DNN classifier: 様々なドメインで応⽤されている • 訓練分布から⼤きく外れたデータの予測の信頼性は⾼くない ü 意図的でない: 外部要因 ü 意図的: 悪意ある敵対者による攻撃 • どちらにせよ、異常⼊⼒を検出し、適切な措置を取れるメカ ニズムを考えておくのは⼤事 • 論⽂では、DNN classifierの異常⼊⼒の検出にfocus ü 検出後の措置⽅法は、論⽂では取り扱わない

Slide 4

Slide 4 text

異常⼊⼒ (Anomalous inputs) の例 Adversarial attack Out-of-distribution (OOD) [Goodfellow et al., ICLRʼ15] ⼈では判別できないノイズを載せるとDNNを”騙せる”ことがある MNISTのTaskに特化したclassifierは Fashon MNISTに関する予測もうまくいくとは限らない

Slide 5

Slide 5 text

先⾏研究 • 教師あり学習 ü 既知の異常データが必要 & 未知の異常には対応できない • 教師なし学習 ü 例: DNNの中間層の表現を利⽤ ü 異常⼊⼒で、層をまたいだ影響を取り⼊れられていなかったり、複数層を利 ⽤していても特定のタスク・構造だったり ⼀般的な検出⽅法のフレームワークがない

Slide 6

Slide 6 text

Proposal: JTLA • JTLA ü Joint statistical Testing across Layers for Anomalies • JTLAの特徴 1. 複数のDNNの中間層の表現を利⽤ 2. 層表現のクラス条件付き統計量を利⽤: 異常が分離しやすくなる 3. 教師なし学習: 学習で異常サンプルが必要でない ⼀般的な検出⽅法のフレームワークを提案 (DNNの中間層を利⽤した, 教師なし学習のうち)

Slide 7

Slide 7 text

Contribution • メタアルゴリズムである ü 既存研究を提案⼿法の枠組みで説明できる ü 各コンポーネントがカスタマイズ可能 • メタアルゴリズムの具体的な実現⽅法の提案 ü JTLA, Fishier, multi ü JTLA, LPE, multi • 新しい敵対的攻撃⽅法の提案とJTLAでの評価 ü defense-aware adaptive attack

Slide 8

Slide 8 text

Algorithm DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III 層表現から統計量を構成し (m+1個のベクトル) 集約して 層表現からsubsetを⽤意し Normalizeして Score化

Slide 9

Slide 9 text

Proposal methods DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III kNN-basedな統計量を利⽤ 2パターンに分岐 1. 単⼀層or層のペアのp-value 2. 多変量p-value をbaseとしたnormalization 1. JTLA, Fisher, multi 2. JTLA, LPE, multi

Slide 10

Slide 10 text

Defense-Aware Adaptive Attack • 中間層表現に摂動を加えるようなadversarial attackを考察 ü グレーボックス型 (例: DNNのarchitectureとparameterは既知, 特定の layerのdetection methodのthresholdは未知) ü 摂動(ノイズ)の作り⽅は以下 (を最⼩化するもの): 摂動 層数 データ数 ガウスカーネル ⼊⼒xに対する層の表現 誤分類したら減る

Slide 11

Slide 11 text

Experiment: Adversarial Detection どのデータセット・攻撃⽅法でも性能が良い傾向

Slide 12

Slide 12 text

Experiment: OOD 教師なし学習の枠組みでは既存⼿法よりoutperform • Task: MNIST vs Not-MNIST ü Outlier: Not-MNIST • Deep Mahalanobisがbest ü これは教師ありの外れ値検出 ü 学習データに外れ値のデータをデータを使え ると性能は上がるが、現実で外れ値のデータ が⼿に⼊るのは稀 • 教師なしの中では提案⼿法がoutperform

Slide 13

Slide 13 text

Summary • 外部要因・敵対的攻撃の措置のために、DNN classifierの⼊ ⼒異常を検出できることは⼤事 • 検出するための⼀般的なメタアルゴリズムとその具体的な実 現⽅法 、および新しい敵対的攻撃⽅法を提案 • 敵対的攻撃の検出では、データセット・攻撃⽅法によらず性 能が良く、OODでは教師なし学習の中では性能が良かった

Slide 14

Slide 14 text

所感 • ⼀般的なフレームワークを提供しているのは個⼈的に良い ü 各モジュールを個別にカスタマイズ・改善がやりやすい (かもしれない) • 個⼈的には、MLOpsの⽂脈で使えるか興味がある ü 例: データドリフトの検知 ü 推論中 or 推論後に検知を⾏うためには、計算時間などが気になる観点 ü 既存⼿法よりは早くなる傾向ありそうだが⾃分たちの環境(サービス・モデ ル)ではやってみないとわからない • codeは公開されているのでやっていき ü https://github.com/jayaram-r/adversarial-detection

Slide 15

Slide 15 text

Appendix

Slide 16

Slide 16 text

Overview of JTLA