Neural Rejuvenation

Neural Rejuvenation: Improving Deep Network Training by Enhancing Computational Resource
Utilization 第53回コンピュータビジョン勉強会＠関東 2019/6/30 紹介者：進矢陽介 ※本発表は個人として行うものであり所属組織を代表するものではありません

はじめに • DNNはリソースを十分活用できていない • Neural Rejuvenationは、DNNのリソース利用率を向上させる、パラメータ・アーキテクチャの最適化手法 • 宝くじ券仮説のアナロジーで言うと、当選券は残して、ハズレ券だけ払い戻してもらい、
そのお金で宝くじ券を買い足すことで、リソース利用率を向上させる • 現実の操作が分かるよう、 pruningの関連研究を先に紹介します

pruningの関連研究 ―Neural Rejuvenationに至る道―

LWC (Learning both Weights and Connections) [Song Han+, NIPS2015] •
DNNは無駄にでかいので小さくしたい • 絶対値が小さい重み（シナプス）をpruning • あるニューロンの入力シナプス全て or 出力シナプス全てが 0 ならそのニューロンもpruning可能・pruning後の構造が不規則 - 専用のハードウェア・ライブラリが無いと効果が薄い - conv層の削減に向かない

Pruning Filters for Efficient ConvNets [Hao Li+, ICLR2017] ・pruningに対する各層のsensitivityを分析し、 pruning比率を決める必要がある
[Huizi Mao+, CVPRW2017] • フィルタのL1ノルム（フィルタ内の重みの絶対値の総和）σ ℱ𝑖,𝑗 が小さいフィルタをpruning 𝑛𝑖 : 入力特徴マップチャンネル数 𝑛𝑖+1 : 出力特徴マップチャンネル数(=フィルタ数) フィルタ(kernel matrixの青いカーネル4枚)を削れれば出力特徴マップも削れる pruningの粒度（の一部）

Network Slimming [Zhuang Liu+, ICCV2017] ・特定のリソースを狙って小さくできない・小さくする方向だけ - リソースが不足している部分を大きくできない -
精度向上が主目的ではない • Batch Normalization の scaling factor 𝛾 が小さいチャンネルをpruning • L1正則化で 𝛾 がスパースになるよう仕向ける 𝛾 罰則項

MorphNet FLOP/Size regularizer 誤ったら許さないというお気持ち [Ariel Gordon+, CVPR2018] FLOPs(演算回数)増やすんじゃねぇぞというお気持ちを追加すると・・・
パラメータ数増やすんじゃねぇぞというお気持ちを追加すると・・・ • 何を小さくしたいかに応じて罰則項を変更

MorphNet shrink-and-expand（収縮拡張法）収縮 Network Slimming 拡張 width multiplier 図は [Ariel
Gordon+, CVPR2018] を元に作成・チャンネル数を決定したネットワークをスクラッチで学習し直す必要あり - 学習の効率が悪い - 拡張時にパラメータをどう引き継ぐべきか不明 • 収縮・拡張によりチャンネル数を自動決定

DSD: Dense-Sparse-Dense Training [Song Han+, ICLR2017] ・ガチャっぽくない・ランダム性を活用したキャパシティ増加を行っていない • 一度pruningした重みを
0 初期化で復活させる

RandomOut [Joseph Paul Cohen+, ICLRW2016] • 重要でないフィルタをランダム初期化し直し、訓練継続探索するフィルタを増やし、ネットワークサイズを大きくすることなく精度を向上させる

MorphNet + RandomOut 収縮 Network Slimming 拡張 width multiplier 図は
[Ariel Gordon+, CVPR2018] を元に作成これが Neural Rejuvenation の肝 • MorphNetの拡張部分の重みにランダム初期化を使用し、訓練を継続

Neural Rejuvenation

書誌情報 Neural Rejuvenation: Improving Deep Network Training by Enhancing Computational
Resource Utilization • 著者: Siyuan Qiao, Zhe Lin, Jianming Zhang, Alan L. Yuille • 論文： http://openaccess.thecvf.com/content_CVPR_2019/papers/Qiao_Neural_Rejuvenation_Improving_Deep_Network_ Training_by_Enhancing_Computational_Resource_CVPR_2019_paper.pdf (arXiv v1から微修正あり) https://arxiv.org/abs/1812.00481 • コード: https://github.com/joe-siyuan-qiao/NeuralRejuvenation-CVPR19 • オーラル発表動画: https://www.youtube.com/watch?v=KHEknuuCz0E&t=1862s

概要 • 多くのDNNは over-parameterize されており、リソースを十分活用できていない • 訓練時間・評価時間が無駄 • モデルのポテンシャルが制限されている •
新最適化手法 Neural Rejuvenation でリソース利用率を向上させる (1) リソース利用率監視死亡ニューロン（無駄なニューロン）を検出し、リソース利用率を計算 (2) 死亡ニューロン若返り再配置・再初期化で死亡ニューロンを若返らせる (3) 生存ニューロン・若返りニューロン混在時の訓練スキーム • 標準的なoptimizerから置き換えるだけで、リソース使用量（パラメータ数や演算回数）を維持しながら、 NNの性能を大幅に向上可能

対象とする最適化問題 • アーキテクチャ , パラメータの両方を最適化 • リソース利用率 𝑟 =
𝑐( ) ( ): 出力への影響が小さい死亡ニューロンを除去した場合の計算コストアーキテクチャを使用するコスト（例：パラメータ数、FLOPs） ℒ : 損失関数 : アーキテクチャ , パラメータのNN 許容するリソース使用量の最大値

先行研究と比較した利点 MorphNetはネットワーク全体をスクラッチで訓練し直す Neural Rejuvenationは、 • 死亡ニューロンのみ再初期化し、訓練を継続（途中まで訓練されたフィルタを再利用） • 1つのモデルを1回だけ訓練すれば良い •
より高精度

手法

アルゴリズム備考：Step 5のneural rejuvenation flagは所定の周期（例：1 epoch）でonになる。つまり、ほとんどのiterationでは通常のSGDと変わらない。 ← SGD リソース利用率を監視
リソース利用率が閾値より小さいと死亡ニューロンを若返らせる（再初期化・再配置）

(1) リソース利用率監視リソース消費量計算 ↑ 入力特徴マップの生存チャンネル数 ↑ カーネルサイズ ↑ 出力特徴マップの
解像度 https://www.slideshare.net/ren4yu/ss-145689425 パラメータ数：演算回数： ↑ 出力特徴マップの生存チャンネル数

(1) リソース利用率監視生死判定、スパース化 • 基本的にNetwork Slimming同様 • 全conv層後にBN層（or 学習可のアフィン変換層）を仮定
• BNの 𝛾 で生死（利用されているか余分か）を判定 • 𝛾 < 0.01 × 𝛾max なら死亡ニューロン（死亡チャンネル） 𝛾max : 同じ層の 𝛾 の最大値実験的に除去しても影響小 • 学習時にL1正則化を加えスパース化しておく 𝜆: 罰則係数（正則化係数） 𝒯: アーキテクチャ内の 𝛾 の集合 Batch Normalization

(1) リソース利用率監視適応的罰則係数適切な 𝜆 の選択が重要 • 𝜆 = 0
: 非スパース。通常の訓練 • 𝜆大 : スパース。大きすぎると元のロスからかけ離れる → 利用率に合わせて動的に決定利用率の減少が遅ければ、罰則係数を上げる利点 (1) タスク・アーキテクチャに合わせて自動で最適化人手で試行錯誤して選ぶ必要が無い（Network SlimmingやMorphNetの欠点の1つを解消） (2) Step 8突入にかかるiterationに上限 λが十分大きくなれば、利用率を最低 𝛥𝑟 ずつ削れる if (𝛥𝑡 iteration前の利用率) − (現在の利用率) < 𝛥𝑟 : 𝜆 += Δ𝜆 𝛥𝑡, 𝛥𝑟, Δ𝜆 はハイパラ

• 節約したリソースの再配置 MorphNet同様、各層の出力チャンネル数を 𝛼 倍（ 𝑤𝑖 ′′ = 𝛼 ⋅
𝑤𝑖 ′ ）あまり削れなかった層（生存ニューロンが多い層）はもっとパラメータが必要、という仮定 • パラメータ再初期化 • Neural rescaling L1正則化で 𝒮 の 𝛾 も小さくなり、勾配法での訓練に害 𝛾 の絶対値を初期値レベルに戻し、その分パラメータを小さくする (2) 死亡ニューロン若返り・𝒮 (生存ニューロン)と ℛ (若返りニューロン)が混在・再初期化で 𝒮 の出力が変わらないようにする 𝑊𝒮→𝒮 : そのまま 𝑊ℛ→ℛ : ランダム初期化 𝑊𝒮→ℛ : 0 𝑊ℛ→𝒮 : 0 𝒮 𝒮 ℛ ℛ “Twemoji” by Twitter, Inc and other contributors /CC-BY 4.0

(3) 𝒮, ℛ 混在時の訓練キャパ十分の場合（例：CIFAR） • 𝒮 だけでデータによくフィッティングできるなら、 ℛ が即死したり冗長な特徴を出力したりするおそれ
• 𝒮, ℛ 間の結合を除去し、ℛ が別の特徴を学習するよう仕向ける 𝒮 𝒮 ℛ ℛ

(3) 𝒮, ℛ 混在時の訓練キャパ不足の場合（例：ImageNet） • SORTをベースとしたcross attentionでキャパシティ増加パラメータ数は増えず、演算回数もあまり増えない •
attentionの先行研究との差異・チャンネルの1グループで他のチャンネル用のアテンションを生成・キャパシティ増加のために使用 SORT: Second-Order Response Transform [Yan Wang+, ICCV2017] 二次の項を追加し非線形性・表現力を向上 ⊙ : 要素積 𝜎 : シグモイド関数

実験

パラメータ利用率の推移条件 • ImageNet • 実験単純化のためrejuvenationは1回のみ • 10～20エポックで利用率0.5になるため、訓練時間増加は20%以下小さなモデルより大きなモデルの方が死亡ニューロンを見つけるのが簡単
大きなモデルほどリソース浪費リスク大 ResNet-101のパラメータを半分節約するには 10エポックで十分

Ablation Study ベースライン条件 • パラメータ数維持 • ImageNet Error •
simplified VGG-19 （ImageNetのフィッティングにキャパ不十分） • 画像解像度: 128x128 • 𝑇𝑟 = 0.25 ベースライン+cross attention cross-connection無し cross-connection neural rescaling cross attention 再配置無し NR-CA-BR + DSD 提案手法はいいぞ • cross-connectionあった方が良い • cross attentionだと更に良い • neural rescalingした方が良い • 重みを引き継いだ方が良い • 再配置した方が良い • DSDを併用*1すると更に良い NRで見つかったアーキテクチャのスクラッチ学習提案手法全部のせ (cross attention + neural rescaling) *1: 査読者に言われて追加したのだろうが、実験よりRelated Workの方を修正して欲しい

ImageNetでの精度向上リソースを無駄にしやすい大きなモデルほどNeural Rejuvenationの効果大パラメータ数制約 FLOPs制約 NR Params, NR FLOPsのうち高精度な方の Top-1
errorのベースラインからの相対変化率備考：DenseNet-121のNR Paramsの結果はあまり当てにならない Top1 error: 24.50/25.32 – 1 = -3.24% Params: 8.22/7.92-1 = 3.79% FLOPs: 3.13/2.83-1 = 10.60%

MorphNetとの比較 MorphNet ベースライン MorphNet NR ベースライン NR MorphNetに圧勝条件 •
FLOPs維持 • ImageNet Top-1 error • 画像解像度: 128x128 備考: ベースラインが異なるため分かりにくいが、ベースラインの時点で勝っているところからMorphNet以上のエラー低減を実現している。 MorphNetの訓練方法が闇( http://openaccess.thecvf.com/content_cvpr_2018/Supplemental/2508-supp.pdf )なので、ベースラインを揃えろとも言いづらい。

モデル圧縮若返りを繰り返すことで、パラメータ数を維持しながら精度向上条件 • パラメータ数半減 0.25倍にして0.5倍まで戻す • CIFAR •
cross-connection無し Network Slimmingに圧勝

まとめ Neural Rejuvenation：訓練中に死亡ニューロンを再配置・再初期化し、 DNNのリソース利用率を向上させる、アーキテクチャ・パラメータの最適化手法所感 • pruning、NAS、再初期化の利点をうまく組み合わせている •
実用性が更に上がると良い • 適応的罰則係数用にハイパラが実質2つ増加公開コード中のCIFARの設定では罰則係数決め打ち • conv層直後のBatch Normalization層を仮定ネットワーク設計に制約

Neural Rejuvenation

Neural Rejuvenation

Yosuke Shinya

More Decks by Yosuke Shinya

Other Decks in Technology

Featured

Transcript