[ICML2021 論文読み会] A General Framework For Detecting Anomalous Inputs to DNN Classifiers

A General Framework For Detecting Anomalous Inputs to DNN Classifiers
2021/08/18 Takahiro Yoshinaga, LINE Corporation ICML2021 論⽂読み会

Outline • Motivation • Proposal: JTLA (Joint statistical Testing across
DNN Layers for Anomalies) • Experiment • Summary

Motivation • DNN classifier: 様々なドメインで応⽤されている • 訓練分布から⼤きく外れたデータの予測の信頼性は⾼くない ü 意図的でない: 外部要因
ü 意図的: 悪意ある敵対者による攻撃 • どちらにせよ、異常⼊⼒を検出し、適切な措置を取れるメカニズムを考えておくのは⼤事 • 論⽂では、DNN classifierの異常⼊⼒の検出にfocus ü 検出後の措置⽅法は、論⽂では取り扱わない

異常⼊⼒ (Anomalous inputs) の例 Adversarial attack Out-of-distribution (OOD) [Goodfellow et
al., ICLRʼ15] ⼈では判別できないノイズを載せるとDNNを”騙せる”ことがある MNISTのTaskに特化したclassifierは Fashon MNISTに関する予測もうまくいくとは限らない

先⾏研究 • 教師あり学習 ü 既知の異常データが必要 & 未知の異常には対応できない • 教師なし学習 ü
例: DNNの中間層の表現を利⽤ ü 異常⼊⼒で、層をまたいだ影響を取り⼊れられていなかったり、複数層を利⽤していても特定のタスク・構造だったり⼀般的な検出⽅法のフレームワークがない

Proposal: JTLA • JTLA ü Joint statistical Testing across Layers
for Anomalies • JTLAの特徴 1. 複数のDNNの中間層の表現を利⽤ 2. 層表現のクラス条件付き統計量を利⽤: 異常が分離しやすくなる 3. 教師なし学習: 学習で異常サンプルが必要でない⼀般的な検出⽅法のフレームワークを提案 (DNNの中間層を利⽤した, 教師なし学習のうち)

Contribution • メタアルゴリズムである ü 既存研究を提案⼿法の枠組みで説明できる ü 各コンポーネントがカスタマイズ可能 • メタアルゴリズムの具体的な実現⽅法の提案 ü
JTLA, Fishier, multi ü JTLA, LPE, multi • 新しい敵対的攻撃⽅法の提案とJTLAでの評価 ü defense-aware adaptive attack

Algorithm DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class
prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III 層表現から統計量を構成し (m+1個のベクトル) 集約して層表現からsubsetを⽤意し Normalizeして Score化

Proposal methods DNN (m-class) Layer1 Layer2 Layer3 LayerL … input
class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III kNN-basedな統計量を利⽤ 2パターンに分岐 1. 単⼀層or層のペアのp-value 2. 多変量p-value をbaseとしたnormalization 1. JTLA, Fisher, multi 2. JTLA, LPE, multi

Defense-Aware Adaptive Attack • 中間層表現に摂動を加えるようなadversarial attackを考察 ü グレーボックス型 (例: DNNのarchitectureとparameterは既知,
特定の layerのdetection methodのthresholdは未知) ü 摂動（ノイズ）の作り⽅は以下 (を最⼩化するもの): 摂動層数データ数ガウスカーネル⼊⼒xに対する層の表現誤分類したら減る

Experiment: Adversarial Detection どのデータセット・攻撃⽅法でも性能が良い傾向

Experiment: OOD 教師なし学習の枠組みでは既存⼿法よりoutperform • Task: MNIST vs Not-MNIST ü Outlier:
Not-MNIST • Deep Mahalanobisがbest ü これは教師ありの外れ値検出 ü 学習データに外れ値のデータをデータを使えると性能は上がるが、現実で外れ値のデータが⼿に⼊るのは稀 • 教師なしの中では提案⼿法がoutperform

Summary • 外部要因・敵対的攻撃の措置のために、DNN classifierの⼊⼒異常を検出できることは⼤事 • 検出するための⼀般的なメタアルゴリズムとその具体的な実現⽅法、および新しい敵対的攻撃⽅法を提案 •
敵対的攻撃の検出では、データセット・攻撃⽅法によらず性能が良く、OODでは教師なし学習の中では性能が良かった

所感 • ⼀般的なフレームワークを提供しているのは個⼈的に良い ü 各モジュールを個別にカスタマイズ・改善がやりやすい (かもしれない) • 個⼈的には、MLOpsの⽂脈で使えるか興味がある ü 例:
データドリフトの検知 ü 推論中 or 推論後に検知を⾏うためには、計算時間などが気になる観点 ü 既存⼿法よりは早くなる傾向ありそうだが⾃分たちの環境（サービス・モデル）ではやってみないとわからない • codeは公開されているのでやっていき ü https://github.com/jayaram-r/adversarial-detection

Appendix

Overview of JTLA

[ICML2021 論文読み会] A General Framework For Detect...

[ICML2021 論文読み会] A General Framework For Detecting Anomalous Inputs to DNN Classifiers

Takahiro Yoshinaga

More Decks by Takahiro Yoshinaga

Other Decks in Technology

Featured

Transcript

A General Framework For Detecting Anomalous Inputs to DNN Classifiers

Outline • Motivation • Proposal: JTLA (Joint statistical Testing across

Motivation • DNN classifier: 様々なドメインで応⽤されている • 訓練分布から⼤きく外れたデータの予測の信頼性は⾼くない ü 意図的でない: 外部要因

異常⼊⼒ (Anomalous inputs) の例 Adversarial attack Out-of-distribution (OOD) [Goodfellow et

先⾏研究 • 教師あり学習 ü 既知の異常データが必要 & 未知の異常には対応できない • 教師なし学習 ü

Proposal: JTLA • JTLA ü Joint statistical Testing across Layers

Contribution • メタアルゴリズムである ü 既存研究を提案⼿法の枠組みで説明できる ü 各コンポーネントがカスタマイズ可能 • メタアルゴリズムの具体的な実現⽅法の提案 ü

Algorithm DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class

Proposal methods DNN (m-class) Layer1 Layer2 Layer3 LayerL … input

Defense-Aware Adaptive Attack • 中間層表現に摂動を加えるようなadversarial attackを考察 ü グレーボックス型 (例: DNNのarchitectureとparameterは既知,

Experiment: Adversarial Detection どのデータセット・攻撃⽅法でも性能が良い傾向

Experiment: OOD 教師なし学習の枠組みでは既存⼿法よりoutperform • Task: MNIST vs Not-MNIST ü Outlier:

Summary • 外部要因・敵対的攻撃の措置のために、DNN classifierの⼊⼒異常を検出できることは⼤事 • 検出するための⼀般的なメタアルゴリズムとその具体的な実現⽅法、および新しい敵対的攻撃⽅法を提案 •

所感 • ⼀般的なフレームワークを提供しているのは個⼈的に良い ü 各モジュールを個別にカスタマイズ・改善がやりやすい (かもしれない) • 個⼈的には、MLOpsの⽂脈で使えるか興味がある ü 例:

Appendix

Overview of JTLA