Searching for A Robust Neural Architecture in Four GPU Hours

Slide 1

Slide 1 text

Slide 2

Slide 2 text

⾃⼰紹介 1. ⼭本⼤輝（@tereka114） 2. Acroquest Technology株式会社 3. 画像処理・⾃然⾔語処理の研究開発 4. Kaggle Master ① Home Credit Default Risk 2nd ② IEEE Signal Processing 10th 5. Interface 12⽉号 AIひょっこり猫カメラ（2018）

Slide 3

Slide 3 text

Slide 4

Slide 4 text

「働きがいのある会社(GPTW)」ランキング(従業員25〜99⼈部⾨) 1位を 3回受賞１位１位１位

Slide 5

Slide 5 text

本発表の想定 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 5 • Neural Networkで利⽤されるモデル・関数について知っている。 • ResNet/DenseNet • Convolution、Dilated Convolutionなど。 • Neural Architecture Searchは知らなくて問題ありません。 • 発表前の私も知らなかったので、説明します。

Slide 6

Slide 6 text

Slide 7

Slide 7 text

1. 紹介する論⽂の概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7 • Searching for A Robust Neural Architecture in Four GPU Hours • Baido Researchが発表した論⽂。 • 実装︓https://github.com/D-X-Y/GDAS • 提案⼿法は従来の3000GPU時間->4GPU時間(0.1%)でNASの実⾏が完了する。また、従来⼿法より精度が⾼い（複数のSoTA） 0 500 1000 1500 2000 2500 3000 3500 従来⼿法提案⼿法性能性能 0.1%

Slide 8

Slide 8 text

1. なぜ、この論⽂を読んだのか。 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8 • Google Auto MLなど⾃動的にモデルを最適化するサービスが展開されてきている。 • NASは膨⼤な量のリソースを使って、最適化している印象があった。 • 私がNeural Architecture Search（NAS)に詳しくない。そのため、実際にどの程度のことができているのかを知りたかった。

Slide 9

Slide 9 text

2. Neural Architecture Search（NAS）とは Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 • ニューラルネットワークのアーキテクチャを⾃動的に作成する。 • 従来研究では、VGG/ResNet/DenseNetなど⼈間がニューラルネットワークの構造を定義していた。 • NASでこの構造を⾃動的に探索する。

Slide 10

Slide 10 text

Slide 11

Slide 11 text

3. Neural Architecture Search with Reinforcement Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 • 機械で⾃動的に良いアーキテクチャを作る研究 n ニューラルネットワークのデザインは難しい。 • Controller（RNN）によるデザインとスコアによる報酬の関係性を元にアーキテクチャを改良した。 • 学習するデータセットが巨⼤な場合、学習コストが増⼤する。

Slide 12

Slide 12 text

Slide 13

Slide 13 text

4. 提案⼿法の概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 • 勾配法を利⽤した最適化⼿法を使い、ニューラルネットワークのアーキテクチャを⽰すパラメータと重みを最適化。 • 更に計算時にメモリや計算時間を短縮する⼯夫を⼊れた。 • 実験結果でも、この効果が出ている。 • 複数のデータセットの実験で従来⼿法よりも⾼速、かつ、SoTAを実現した。 • 提案⼿法の名前はGDASと命名されている。 Gradient-based search using Differentiable Architecture Sampler

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

4-1. アーキテクチャの表現 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18 • 提案⼿法はアーキテクチャをDAG（⾮循環有向グラフ）で表現する。 • 本⼿法で扱う概念は次の通り。 • ノードの関係は次の数式で⽰すことができる。 No. 項⽬説明 1 ノード関数の計算結果（出⼒） 2 セルノードの集合 3 ブロックセルの集合 →後述に図があり。ノード＝テンソルセルエッジ＝関数ノードi （計算結果）ノードk ノードj 関数

Slide 18

Slide 18 text

4-1. 探索空間の定義 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 No. ハイパーパラメータ説明 1 関数空間何を計算すべきかの候補を定義する。本⼿法で利⽤した関数は後述 2 計算ノード（論⽂中のB）計算⽤のセルの数を定義する。 3 Convolutionのチャネル数（論⽂中C) Convolutionのチャネル数を⽰す。 4 ブロック数セルをいくつ使って、ブロックを構成するか

Slide 19

Slide 19 text

Slide 20

Slide 20 text

4-1. GDASの探索空間（関数） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 • Identity • Zeroise • 3x3 depth-wise separate conv • 3x3 dilated depse-wise separate conv • 5x5 depth-wise separate conv • 5x5 dilated depth-wise separate conv • 3x3 average pooling • 3x3 max pooling

Slide 21

Slide 21 text

Slide 22

Slide 22 text

4-2. 最適化の内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23 1. 学習で最適化するのは次の２つ、これら２つを交互に更新する。 ① ニューラルネットワークのアーキテクチャの重み ② アーキテクチャを⽰すパラメータAの更新 – 最終的にアーキテクチャを決定する⽅法は後述 2. 次の数式は１の⽅式を⽰す。選択されたアーキテクチャの中で最も良いパラメータアーキテクチャ選択による誤差を最⼩にする。

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

4-2. GDASのアーキテクチャ構築 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26 誤差逆伝搬法で更新できないため Gumbel-Max Trickを用いて更新関数の集合から関数をサンプリング最も⾼い値を選択 argmaxをsoftmaxに緩和する。 argmaxだと特定のインデックスのみにしか勾配法を適⽤できないため、分布の学習が難しいアーキテクチャを⽰すパラメータ

Slide 26

Slide 26 text

4-2. Gumbel-Max Trick Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27 • カテゴリカルな分布からサンプリングを⾏うためのテクニック。 1. ノイズoをGumbel分布から⽣成する。 – 必ず同じ値が⽣成されず、ランダム要素が含まれる。 – Gumbel分布は極値分布の⼀種 2. 1で⽣成したoとargmaxを⽤いて擬似的にサンプリングする。 • 論⽂はsoftmax（argmaxではない）を利⽤して、学習する。 • argmaxでは、特定のインデックスのみ学習が⾏われ、分布が正しく学習できない。

Slide 27

Slide 27 text

4-2. Acceleration（最適化の⼯夫） Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28 1. Forward, Backwardでargmaxのみを計算する。 ① Forward︓関数空間の中で最も確率が⾼いものを残す。 ② Backward:⽣成された乱数に基づき、最も確率が⾼い部分の勾配を利⽤する。 2. このAccelerationの効果として次が望める。 ① GPUメモリの節約（関数空間の数＝ F Times） ② 計算時間の節約（関数空間の数＝F Times） 3. 後述の実験で検証されているが、Accelerationを挟むことで収束までの時間は早い。（ステップあたりは遅い）

Slide 28

Slide 28 text

Slide 29

Slide 29 text

4-3. 最終的なアーキテクチャの決定 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 30 1. 最適化で得られたパラメータ（A)から、最終的なアーキテクチャを決定する。 ① ノード間の重要度を定義する。 ② ノード間で重要度の⾼い接続（T）を残す。 ③ 最も重要度の⾼い関数をノード間で適⽤する。 2. 従来研究より、前ノードからの接続（T)はCNNは2, RNNは1とした。ノード間の重要度を計算する式

Slide 30

Slide 30 text

Slide 31

Slide 31 text

5. 実験内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 32 1. 計測条件（その他は記述なし） • GPU︓Tesla V100 2. データセット No. データセット名データセットの説明 1 CIFAR-10/CIFAR-100 画像分類のデータセット 2 ImageNet 画像分類のデータセット（1と⽐較してデータの規模が⼤きい） 3 Pen Tree Bank ⾃然⾔語処理で利⽤されるデータセット前の単語から、後ろの単語を推測する。 4 WikiText-2 (WT2) ⾃然⾔語処理で利⽤されるデータセット前の単語から、後ろの単語を推測する。（3と⽐較してデータの規模が⼤きい）

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

7. 考察・感想 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 38 • GTX 1080Tiでも7GPU hoursであれば、個⼈的な利⽤⽤途でも、計算可能である。 • 新しいデータセットに対して最適なアーキテクチャを素早く作るなど。 • 推論の性能による制約は未知数と感じている。このあたりは今後の発展に期待。 →CVPR2019でAcceptされたFBNetは性能も考慮した勾配系の論⽂らしいので興味あり。 • 研究の進展が早いので、今後の発展に期待してます。

Slide 38

Slide 38 text