TensorFuzz: Debugging Neural Networks with Coverage-Guided Fuzzing

TensorFuzz: Debugging Neural Networks with Coverage-Guided Fuzzing Augustus Odena Google
Brain Ian Goodfellow Google Brain 出展: arXiv:1807.10875v1 [stat.ML] 28 Jul 2018 https://arxiv.org/abs/1807.10875 (preprint) ライブラリ: https://github.com/brain-research/tensorfuzz 発表者: maton 2018/11/3 XX for ML #1 論文読み会 1

概要 • 背景 • ニューラルネットワーク (NN) において、想定外の振る舞いを引き起こすような入力を見つけることは難しい • 敵対的サンプルは誤った分類・識別を引き起こす入力なので、少し違う
• 主要な貢献 • ソフトウェアの想定外の振る舞いを見つける coverage-guided fuzzing (CGF) 技術をNN 向けに開発 • 近似最近傍探索が高速なカバレッジ判定に有効であることを示した • OSS ライブラリ TensorFuzz として公開 • 3種類のケースで誤った振る舞いを検出できた • 数値エラー／量子化前後での不一致／誤った文字列生成 2018/11/3 XX for ML #1 論文読み会 2

Coverage-guided fuzzing • Fuzzing • プログラムの想定外の振る舞いを見つける技術 • ベースとなる入力に変化を加えて大量の入力を生成する • 入力を変化させたものをミューテーションと呼ぶ
• Coverage-guided fuzzing (CGF) • コードカバレッジを増加させるようなミューテーションを生成する • 代表的な CGF ソフトウェア (Fuzzer) • libFuzzer • american fuzzy lop (AFL) 2018/11/3 XX for ML #1 論文読み会 3 FreeType, OpenSSL などで脆弱性につながる不具合を検出！速さが大事！コーナーケースを効率的に狙いたい！

TensorFuzz • CGFをNN向けに開発 • ファジング対象 • C/C++プログラム  TensorFlow グラフ
• 測定するカバレッジ • 基本ブロックや制御フロー  計算グラフの “アクティベーション” 2018/11/3 XX for ML #1 論文読み会 4

アルゴリズム外観 • あ 2018/11/3 XX for ML #1 論文読み会 5

入出力 • あ 2018/11/3 XX for ML #1 論文読み会 6
元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力

大まかな挙動 • あ 2018/11/3 XX for ML #1 論文読み会 7
元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力入力集合から 1つ選ぶ

元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力入力のミューテーションを得る

元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力ミューテーションを対象NNに与える

元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力カバレッジを増やすミューテーションならば、コーパスに加える

元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力目的関数を満たす ≒誤った振る舞いを引き起こすならば、出力する

元となる入力は対象NNによって様々 - 数値ベクトル - 画像 - 文字列入力集合対象NN 誤った振る舞いを引き起こすテストケース入力出力以上を一定数反復する

もう少し詳しく 2018/11/3 XX for ML #1 論文読み会 13

Input Chooser • 入力集合から1つ選択する • 反復ごとに入力集合が増える • 直感：最近追加された入力の方がミューテーションによってカバレッジを増やせそうだ
 時間経過で選択確率を下げる , = − ∑ − 2018/11/3 XX for ML #1 論文読み会 14 入力集合対象NN 入力出力番目のコーパス時刻時刻が進むほど指数関数的減衰選択確率番目のコーパスが追加された時刻

Mutator • 入力が画像の場合（2タイプ） • 分散パラメタを持つホワイトノイズ • ミューテーション元との距離が一定以上のホワイトノイズ • 距離：∞
ノルム • 直感：元と同じクラスを保ったまま目的関数を満たす入力を見つけたい • 入力がテキストの場合 • 文字列に一様ノイズ • ランダムな位置の文字を削除 • ランダムな位置にランダムな文字を追加 • ランダムな位置にランダムな文字を置換 2018/11/3 XX for ML #1 論文読み会 15 入力集合対象NN 入力出力分散、∞ ノルムはユーザー指定可

Objective Function • NNが誤った振る舞いを起こす状態になっているかを判定 • NNの出力であるメタデータ配列を見て判定する • 例）後述する量子化の例の場合、
「量子化前後でNNが同じ入力に対して同じ出力を行うか？」を判定 2018/11/3 XX for ML #1 論文読み会 16 入力集合対象NN 入力出力数値のビットを落として NNの計算量を減らす手法

Coverage Analyzer • カバレッジチェッカに望む特徴 • NNが以前とは異なる状態を持っているかがわかること • 高速に判定できること •
様々な種類の計算グラフを、特別な準備をせずとも扱えること • 振る舞いの大部分をカバーできること • 新しいカバレッジが漸進的な探索の助けになること 2018/11/3 XX for ML #1 論文読み会 17 入力集合対象NN 入力出力

Coverage Analyzer • 近似最近傍探索 • アクティベーションベクタの最近傍の点が十分離れていればその入力をコーパスに追加する • 近傍との距離は厳密に考えなくてもよく、
ブルームフィルタが使えそう（TODO） 2018/11/3 XX for ML #1 論文読み会 18 入力集合対象NN 入力出力 1 2 ある入力に対するベクタ（点）各ニューロンにおけるアクティベーション関数の出力からなるベクタ距離 OK NG

実験結果 2018/11/3 XX for ML #1 論文読み会 19

事例１数値エラーの検出 • 要求：NaN等の値がNNの実運用時に初めて発生して異常な振る舞いを引き起こすと危険なので、事前に見つけておきたい • 実験：手書き数値（MNIST）の分類器にCGFを適用 • 事前訓練で validation
accuracy が 98% のモデルを作っておく • 結果 • NaN値が出力されるような入力を発見  • 10試行中10回発見 • 考察 • 勾配ベースの探索では、NaNに近づくような方法をうまく定義できない • ランダムサーチでは見つけることはできなかった • 10試行中0回発見（100,000サンプル固定） 2018/11/3 XX for ML #1 論文読み会 20 入力回数コーパスのサイズ 1,200,000 350 10試行分のグラフ

事例２量子化前後での不一致の検出 • 要求：量子化の前後で同じ振る舞いになるか検証したい • 量子化：数値のビットを落としてNNの計算量・サイズを減らす手法 • Google TPUやNvidia TensorRTなどのML向け集積回路で使用される
• 事例１で用いたMNISTデータセットに対する分類器では、単に32bit浮動小数点数を16bitに落としても不一致は起きない • 実験 • 半径 0.4 の ∞ ノルムに収まるようにミューテーションを実施 • ミューテーションは元の入力画像からのみ作るように制限 • ちゃんとした数字に見えてないと不一致が起きても意味が薄れるので • 10,000個のテスト画像を使用 2018/11/3 XX for ML #1 論文読み会 21

事例２量子化前後での不一致の検出 • 結果 • 10試行中7回不一致が検出された  例） • 考察
• ランダムサーチでは見つけることはできなかった • 10試行中0回発見 2018/11/3 XX for ML #1 論文読み会 22 右端まで線が伸びているものは探索打ち切り 400,000 2500 10試行分のグラフ

事例３誤った文字列生成の検出 • 要求：文書生成を行う言語モデルは以下を満たすべきである • 一文の中で同じ単語を繰り返し使いすぎない • ブラックリストの単語を使わない • 実験
• 2レイヤLSTMの言語モデルを Tiny Shakespeare コーパスで学習 • 最初の文字を与えると、次々に文字列が生成される • 結果 • 考察：なし 2018/11/3 XX for ML #1 論文読み会 23 TensorFuzz ランダムサーチ同じ単語の繰り返し ◦ ◦ ブラックリストの単語生成（全10種） 6種 1種

まとめ • NN向けのFuzzerを提案した • 3種のケースでランダムサーチよりよい結果 • Preprint であり、本格的な評価はまだ • 所感
• 手法自体もまだまだ改良されそう • 論文中にFuture workが散りばめられている • Objective functionの定義はドメイン固有 • 特に事例2はメタモルフィック関係（変換の前後で満たされる性質）っぽい • メタモルフィックテスティングと相性が良い？ 2018/11/3 XX for ML #1 論文読み会 24

関連研究 NNに対するテスト技術 • Pei et al. • DeepXplore: NNに対しニューロンカバレッジというメトリクスを導入（ReLU向け）
• Ma et al. • DeepGauge: ニューロンへの入力k分割したときのカバレッジ、アクティベーション関数の境界に対するカバレッジを導入 • Sun et al. • Modified Condition / Decision Coverage に影響を受けたメトリクスを導入 • Tian et al. • 自動運転DNNへのニューロンカバレッジの適用、メタモルフィックテスティングを活用した画像変換 • Wicker et al. • 画像分類タスクへのブラックボックステスト • 並行して、Sun et al. がDNNへのコンコリック実行適用 2018/11/3 XX for ML #1 論文読み会 25

TensorFuzz: Debugging Neural Networks with Cove...

TensorFuzz: Debugging Neural Networks with Coverage-Guided Fuzzing

maton

Other Decks in Technology

Featured

Transcript