ICLR2020論文読み会のために作成していた「Novelty Detection Via Blurring」の説明資料です。
ICLR2020論文読み会Novelty Detection Via Blurring2020年2月23日(日)矢農 正紀 (Masanori YANO)
View Slide
論文2標題: Novelty Detection Via Blurring著者: Sungik Choi & Sae-Young ChungURL: https://openreview.net/forum?id=ByeNra4FDBhttps://arxiv.org/abs/1911.11943⇒ ぼかした画像を通して新規性(Novelty)を検知する論文著者の所属は、韓国の国立大学のKAISTOpenReviewのRatingは、3名とも「6」のWeak AcceptICLR2020の「Poster」でAccept選んだ理由・異常検知や新規性の検知に関心があるため
本論文の概要3ぼかした画像を通して新規性(Novelty)を検知※ 本論文のNovelty=OOD(Out of Distribution)RND(Random Network Distillation)がベースのOOD検知で、SVD(Singular Value Decomposition)を使用して画像をぼかす「SVD-RND」を提案・シンプルで、テストのときに効果的・さまざまなドメインの画像で、ベースライン手法より上次頁以降の構成[1] SVDの概要[2] RNDの概要[3] 本論文のSVD-RND
[1] SVDの概要(1/3)4SVD=線形代数の特異値分解 ※ 実数に限定して説明任意の行列の行列に対して、以下の分解が可能[1][2] = ・は行列の直交行列・は行列、対角成分は1≥ 2… ≥ > 0、他は全て0・は行列の直交行列直交行列とは・転置行列が逆行列になる行列: = = ・直交行列の行ベクトルまたは列ベクトルは正規直交基底⇒ ベクトルの長さは1で、異なる行・列の内積は0特異値とは・行列または行列の固有値の平方根1≥ 2… ≥ ・やは対称行列 ⇒ 対角化可能かつ固有値は非負は行列のランク ≤ min(, )
[1] SVDの概要(2/3)5SVD=線形代数の特異値分解任意の行列の行列に対して、以下の分解が可能 = 特異値1≥ 2… ≥ > 0は、値が大きいほど影響が大⇒ より小さいを選び、+1以降を0にすると近似が可能VGAサイズのRGB画像を480行640列の行列3個とみなして特異値分解を行い、+1以降を0にして近似した例 = 10オリジナルの画像[6]
[1] SVDの概要(3/3)VGAサイズのRGB画像を480行640列の行列3個とみなして特異値分解を行い、+1以降を0にして近似した例(続き)⇒ ぼかした画像を作成することが可能 = 1 = 5 = 10 = 25 = 100 = 50 6
[2] RNDの概要(1/2)7RND=ICLR2019にAcceptされた論文[3]DQN以降、点数が低かった「モンテスマの復讐」で人間超えモンテスマの復讐とは・深層強化学習のAtari 2600ベンチマークで最難関クラス・段差を落ちると死に、ジャンプなどのタイミングもシビア⇒ 報酬となる「スコア」が入る状態が、非常にスパース「モンテスマの復讐」のスタート直後[5]「モンテスマの復讐」のスコアの一覧[4]
[2] RNDの概要(2/2)8RNDは、過去に見ていない状態にボーナスを出す[4]・画面を入力、ベクトルを出力とする2個のネットワーク・FEATURESは、ランダムに初期化したネットワークを固定・PREDICTORは、FEATURESの出力を真似るように学習⇒ 学習していない画面に対しては、出力の差分が大きくなるまた、一定周期で学習を行うため、一度でも見た画面はPREDICTORの訓練データに含まれて、差分が小さくなる
[3] 本論文のSVD-RND(1/4)9もとの画像と、ぼかした画像の両方を真似るRND・ぼかした画像は、SVDで非ゼロの下位個の特異値を消す(もとの画像のチャネルごとに、特異値の上位だけ残す)・学習させるネットワークと、ランダムなネットワーク・はランダムなまま固定し、は全てを真似るように学習推論時はと0のみ使い − 0() 22で判定
[3] 本論文のSVD-RND(2/4)10もとの画像と、ぼかした画像の両方を真似るRNDぼかした画像と、そのためのネットワークは個の設定本論文の実験では、= 1または= 2で実施
[3] 本論文のSVD-RND(3/4)11メインの実験の条件・Targetのデータセットに対し、他のデータセットがOOD(例えばCIFAR-10の場合、SVHNなどが来たらOOD検知)・画像のサイズは、リサイズして32 × 32ピクセルに統一・Targetの訓練データの数は、50000個に揃えて学習・OODのテストデータのうち、1000個をバリデーションのデータとして使用し、ハイパーパラメータのを最適化
[3] 本論文のSVD-RND(4/4)12メインの実験の結果・TPR(True Positive Rate)が95%以上のときのTNR(True Negative Rate)・/で区切られた3個の値は、各々のOODデータセットの結果・一番上の「SVD-RND」は、CelebA以外では最も良い結果(CelebAでは幾何変換と組み合わせて実験した良い結果も)・SVDに加え、DCT(離散コサイン変換)やGB(ガウシアン)も
まとめ13ぼかした画像を通して新規性(Novelty)を検知・VQ-VAE(左の図)やRND単体(中央の図)による学習では、ぼかした画像に高い確信度を割り当てるからと主張(テストデータに対し、ぼかした画像の方がLossが低い)所感・シンプルで面白い・32 × 32ピクセルより大きな画像にも有効なのか気になる・ランダムなネットワークが複数でも機能することが不思議(初期値が異なると、出力の挙動は、かなり違うのでは?)・本論文ではResNet34ベースで、表現力の高さが鍵かもこの図は、学習の進行に伴うLossの平均値の変動
参考文献14[1] 日本評論社の書籍「線形代数 基礎と応用」https://www.nippyo.co.jp/shop/book/2763.html[2] 「医用画像工学」講義資料の「特異値分解」http://www.cfme.chiba-u.jp/~haneishi/class/iyogazokougaku.html[3] Exploration by Random Network Distillationhttps://arxiv.org/abs/1810.12894[4] Reinforcement Learning with Prediction-Based Rewardshttps://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/[5] Montezuma's Revenge - Atari 2600https://www.retrogames.cz/play_124-Atari2600.php[6] Wikipediaの「平成」https://ja.wikipedia.org/wiki/%E5%B9%B3%E6%88%90