[ICML2021 論文読み会] A General Framework For Detecting Anomalous Inputs to DNN Classifiers

Slide 1

Slide 1 text

A General Framework For Detecting Anomalous Inputs to DNN Classifiers 2021/08/18 Takahiro Yoshinaga, LINE Corporation ICML2021 論⽂読み会

Slide 2

Slide 2 text

Outline • Motivation • Proposal: JTLA (Joint statistical Testing across DNN Layers for Anomalies) • Experiment • Summary

Slide 3

Slide 3 text

Motivation • DNN classifier: 様々なドメインで応⽤されている • 訓練分布から⼤きく外れたデータの予測の信頼性は⾼くない ü 意図的でない: 外部要因 ü 意図的: 悪意ある敵対者による攻撃 • どちらにせよ、異常⼊⼒を検出し、適切な措置を取れるメカニズムを考えておくのは⼤事 • 論⽂では、DNN classifierの異常⼊⼒の検出にfocus ü 検出後の措置⽅法は、論⽂では取り扱わない

Slide 4

Slide 4 text

異常⼊⼒ (Anomalous inputs) の例 Adversarial attack Out-of-distribution (OOD) [Goodfellow et al., ICLRʼ15] ⼈では判別できないノイズを載せるとDNNを”騙せる”ことがある MNISTのTaskに特化したclassifierは Fashon MNISTに関する予測もうまくいくとは限らない

Slide 5

Slide 5 text

先⾏研究 • 教師あり学習 ü 既知の異常データが必要 & 未知の異常には対応できない • 教師なし学習 ü 例: DNNの中間層の表現を利⽤ ü 異常⼊⼒で、層をまたいだ影響を取り⼊れられていなかったり、複数層を利⽤していても特定のタスク・構造だったり⼀般的な検出⽅法のフレームワークがない

Slide 6

Slide 6 text

Proposal: JTLA • JTLA ü Joint statistical Testing across Layers for Anomalies • JTLAの特徴 1. 複数のDNNの中間層の表現を利⽤ 2. 層表現のクラス条件付き統計量を利⽤: 異常が分離しやすくなる 3. 教師なし学習: 学習で異常サンプルが必要でない⼀般的な検出⽅法のフレームワークを提案 (DNNの中間層を利⽤した, 教師なし学習のうち)

Slide 7

Slide 7 text

Contribution • メタアルゴリズムである ü 既存研究を提案⼿法の枠組みで説明できる ü 各コンポーネントがカスタマイズ可能 • メタアルゴリズムの具体的な実現⽅法の提案 ü JTLA, Fishier, multi ü JTLA, LPE, multi • 新しい敵対的攻撃⽅法の提案とJTLAでの評価 ü defense-aware adaptive attack

Slide 8

Slide 8 text

Algorithm DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III 層表現から統計量を構成し (m+1個のベクトル) 集約して層表現からsubsetを⽤意し Normalizeして Score化

Slide 9

Slide 9 text

Proposal methods DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III kNN-basedな統計量を利⽤ 2パターンに分岐 1. 単⼀層or層のペアのp-value 2. 多変量p-value をbaseとしたnormalization 1. JTLA, Fisher, multi 2. JTLA, LPE, multi

Slide 10

Slide 10 text

Defense-Aware Adaptive Attack • 中間層表現に摂動を加えるようなadversarial attackを考察 ü グレーボックス型 (例: DNNのarchitectureとparameterは既知, 特定の layerのdetection methodのthresholdは未知) ü 摂動（ノイズ）の作り⽅は以下 (を最⼩化するもの): 摂動層数データ数ガウスカーネル⼊⼒xに対する層の表現誤分類したら減る

Slide 11

Slide 11 text

Experiment: Adversarial Detection どのデータセット・攻撃⽅法でも性能が良い傾向

Slide 12

Slide 12 text

Experiment: OOD 教師なし学習の枠組みでは既存⼿法よりoutperform • Task: MNIST vs Not-MNIST ü Outlier: Not-MNIST • Deep Mahalanobisがbest ü これは教師ありの外れ値検出 ü 学習データに外れ値のデータをデータを使えると性能は上がるが、現実で外れ値のデータが⼿に⼊るのは稀 • 教師なしの中では提案⼿法がoutperform

Slide 13

Slide 13 text

Summary • 外部要因・敵対的攻撃の措置のために、DNN classifierの⼊⼒異常を検出できることは⼤事 • 検出するための⼀般的なメタアルゴリズムとその具体的な実現⽅法、および新しい敵対的攻撃⽅法を提案 • 敵対的攻撃の検出では、データセット・攻撃⽅法によらず性能が良く、OODでは教師なし学習の中では性能が良かった

Slide 14

Slide 14 text

所感 • ⼀般的なフレームワークを提供しているのは個⼈的に良い ü 各モジュールを個別にカスタマイズ・改善がやりやすい (かもしれない) • 個⼈的には、MLOpsの⽂脈で使えるか興味がある ü 例: データドリフトの検知 ü 推論中 or 推論後に検知を⾏うためには、計算時間などが気になる観点 ü 既存⼿法よりは早くなる傾向ありそうだが⾃分たちの環境（サービス・モデル）ではやってみないとわからない • codeは公開されているのでやっていき ü https://github.com/jayaram-r/adversarial-detection