Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ICML2021 論文読み会] A General Framework For Detecting Anomalous Inputs to DNN Classifiers

[ICML2021 論文読み会] A General Framework For Detecting Anomalous Inputs to DNN Classifiers

[ICML2021 論文読み会](https://line.connpass.com/event/221309/) での発表資料です。

元論文
https://arxiv.org/abs/2007.15147

Takahiro Yoshinaga

August 19, 2021
Tweet

More Decks by Takahiro Yoshinaga

Other Decks in Technology

Transcript

  1. A General Framework For Detecting Anomalous Inputs to DNN Classifiers

    2021/08/18 Takahiro Yoshinaga, LINE Corporation ICML2021 論⽂読み会
  2. Outline • Motivation • Proposal: JTLA (Joint statistical Testing across

    DNN Layers for Anomalies) • Experiment • Summary
  3. Motivation • DNN classifier: 様々なドメインで応⽤されている • 訓練分布から⼤きく外れたデータの予測の信頼性は⾼くない ü 意図的でない: 外部要因

    ü 意図的: 悪意ある敵対者による攻撃 • どちらにせよ、異常⼊⼒を検出し、適切な措置を取れるメカ ニズムを考えておくのは⼤事 • 論⽂では、DNN classifierの異常⼊⼒の検出にfocus ü 検出後の措置⽅法は、論⽂では取り扱わない
  4. 異常⼊⼒ (Anomalous inputs) の例 Adversarial attack Out-of-distribution (OOD) [Goodfellow et

    al., ICLRʼ15] ⼈では判別できないノイズを載せるとDNNを”騙せる”ことがある MNISTのTaskに特化したclassifierは Fashon MNISTに関する予測もうまくいくとは限らない
  5. 先⾏研究 • 教師あり学習 ü 既知の異常データが必要 & 未知の異常には対応できない • 教師なし学習 ü

    例: DNNの中間層の表現を利⽤ ü 異常⼊⼒で、層をまたいだ影響を取り⼊れられていなかったり、複数層を利 ⽤していても特定のタスク・構造だったり ⼀般的な検出⽅法のフレームワークがない
  6. Proposal: JTLA • JTLA ü Joint statistical Testing across Layers

    for Anomalies • JTLAの特徴 1. 複数のDNNの中間層の表現を利⽤ 2. 層表現のクラス条件付き統計量を利⽤: 異常が分離しやすくなる 3. 教師なし学習: 学習で異常サンプルが必要でない ⼀般的な検出⽅法のフレームワークを提案 (DNNの中間層を利⽤した, 教師なし学習のうち)
  7. Algorithm DNN (m-class) Layer1 Layer2 Layer3 LayerL … input class

    prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III 層表現から統計量を構成し (m+1個のベクトル) 集約して 層表現からsubsetを⽤意し Normalizeして Score化
  8. Proposal methods DNN (m-class) Layer1 Layer2 Layer3 LayerL … input

    class prediction Preprocessing Classes: true/pred, Lreps→ dataset Test Statistics (class-conditional) Normalization Transformations (distribution-independent) Layerwise Aggregation (true and predicted classes) Scoring Function (Adversarial attack, OOD) I II III kNN-basedな統計量を利⽤ 2パターンに分岐 1. 単⼀層or層のペアのp-value 2. 多変量p-value をbaseとしたnormalization 1. JTLA, Fisher, multi 2. JTLA, LPE, multi
  9. Defense-Aware Adaptive Attack • 中間層表現に摂動を加えるようなadversarial attackを考察 ü グレーボックス型 (例: DNNのarchitectureとparameterは既知,

    特定の layerのdetection methodのthresholdは未知) ü 摂動(ノイズ)の作り⽅は以下 (を最⼩化するもの): 摂動 層数 データ数 ガウスカーネル ⼊⼒xに対する層の表現 誤分類したら減る
  10. Experiment: OOD 教師なし学習の枠組みでは既存⼿法よりoutperform • Task: MNIST vs Not-MNIST ü Outlier:

    Not-MNIST • Deep Mahalanobisがbest ü これは教師ありの外れ値検出 ü 学習データに外れ値のデータをデータを使え ると性能は上がるが、現実で外れ値のデータ が⼿に⼊るのは稀 • 教師なしの中では提案⼿法がoutperform
  11. 所感 • ⼀般的なフレームワークを提供しているのは個⼈的に良い ü 各モジュールを個別にカスタマイズ・改善がやりやすい (かもしれない) • 個⼈的には、MLOpsの⽂脈で使えるか興味がある ü 例:

    データドリフトの検知 ü 推論中 or 推論後に検知を⾏うためには、計算時間などが気になる観点 ü 既存⼿法よりは早くなる傾向ありそうだが⾃分たちの環境(サービス・モデ ル)ではやってみないとわからない • codeは公開されているのでやっていき ü https://github.com/jayaram-r/adversarial-detection