深層学習の基礎と導入に向けて

深層学習の基礎と導入に向けてシモセラエドガー 2018 年 3 月 20
日（火）早稲田大学

自己紹介 • 2015 年 7 月に BarcelonaTech で博士号を取得 •
2015 年 8 月から 2017 年 3 月まで早稲田大学の研究院助教 • 2017 年 4 月から同大学の研究院講師 • 2018 年 4 月から科学技術振興機構のさきがけ専任研究者 1

目次 1. 深層学習の歴史 2. 深層学習の基礎 • モデル • データ •
学習 3. 必要な環境 • ハッドウェア • フレームワーク 4. 例１：ラフスケッチの線画化 5. 例２：白黒写真の色付け ε ! 2

深層学習の歴史

深層学習の歴史 • 1957 Perceptron Mark I Perceptron 機 3

深層学習の歴史 • 1957 Perceptron • 1980 Neocognitron Fukushima, K. “Neocognitron:
a self organizing neural network model for a mechanism of pattern recognition unaffected by shift in position.” Biological cybernetics, 1980. 3

深層学習の歴史 • 1957 Perceptron • 1980 Neocognitron • 1986 Backpropagation
Rumelhart et al. “Learning Representations by Back-Propagating Errors.” Nature, 1986. 3

• 1998 LeNet LeCun et al. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE, 1998. 3

• 1998 LeNet • 2012 AlexNet • 2014 GoogleNet / VGG Krizhevsky et al. “Imagenet classification with deep convolutional neural networks.” Advances in neural information processing systems, 2012. 3

• 1998 LeNet • 2012 AlexNet • 2014 GoogleNet / VGG • 2016 AlphaGo • … Silver et al. “Mastering the game of Go with deep neural networks and tree search.” Nature, 2016. 3

深層学習の歴史 • 深層学習は現代の人工ニューラルネットワーク • なぜ深層学習？
• 様々の問題に対応 • 圧倒的な性能 Jia Deng (2016). ILSVRC2016 object localisation: introduction, results. 3

深層学習の歴史 • 深層学習は現代の人工ニューラルネットワーク • なぜ深層学習？
• 様々の問題に対応 • 圧倒的な性能 • なぜ今色々使える？ • GPU による計算効率 • 大規模なデータセット Jia Deng (2016). ILSVRC2016 object localisation: introduction, results. 3

深層学習の基礎

教師あり学習顔顔ではない訓練データ "顔" または "顔ではない" 4

深層学習 • f (x) = σ(Wx) の層を重ねて構造 • パラ
メータを学習 • ハイパーパラメータを手動で設定 5

従来の機械学習 • 手動で決めた特徴の入力 • 機械学習モデルは特徴から出力への変換を学習 • 特徴による
精度が制限特徴抽出機械学習入力出力 6

従来の機械学習 • 手動で決めた特徴の入力 • 機械学習モデルは特徴から出力への変換を学習 • 特徴による
精度が制限特徴抽出機械学習入力出力 • 深層学習は特徴抽出と機械学習モデルを一緒に学習する • ヒューリスティックを避け、データ依存になる深層学習入力出力 6

深層学習のよくある問題 • データを集める • 量、
室、アノテーション… 入正 7

室、アノテーション… • モデル構造を決める • CNN、深さ、レイヤの種類… 入正出 CNN 7

室、アノテーション… • モデル構造を決める • CNN、深さ、レイヤの種類… • モデルの学習 • 学習週報、学習率、バッチサイズ… ロス逆習入正出 CNN 7

室、アノテーション… • モデル構造を決める • CNN、深さ、レイヤの種類… • モデルの学習 • 学習週報、学習率、バッチサイズ… ハイパーパラメータをたくさん決めないといけない！ 7

深層学習の例・分類 • 順伝播（推定） • 入力に対して推定するニューラル
ネットワーク 23.8% Music Store 15.3% Basement 7.9% Cathedral 2.1% Airport ... 推定順伝播 8

深層学習の例・分類 • 順伝播（推定） • 入力に対して推定する •
逆伝播（学習） • 誤差関数でモデルの出力と正解データを比較 • 誤差関数を最終化するようにモデルのパラメータを更新ニューラルネットワーク 23.8% Music Store 15.3% Basement 7.9% Cathedral 2.1% Airport ... 推定順伝播 0.0% Music Store 100% Basement 0.0% Cathedral 0.0% Airport ... 誤差正解逆伝播 8

深層学習の基礎・モデル

人工ニューラルネットワーク • レイヤを重ねて構造
• レイヤは線形変換と非線形活性化関数 ... ビアス前層ニューロン重み（学習するもの）非線形活性化関数 9

人工ニューラルネットワーク • レイヤを重ねて構造
• レイヤは線形変換と非線形活性化関数 • 行列書けるベクトル計算として表現 ... ... 行列ベクトル 9

非線形活性化関数 • 非線形関数を近似する性能 • 色々な種類、 ReLU がメ
イン Sigmoid Tanh ReLU シグモイド関数双曲線正接関数ランプ関数 σSigmoid(x) = 1 1 + e−x σtanh(x) = ex − e−x ex + e−x σReLU(x) = max(0, x) https://github.com/torch/nn/blob/master/doc/transfer.md 10

ソフトマックス関数 • 出力を確率分布に変換 •
要素の和が１ • 全要素は正の数 • 分類問題等に適切 σsoftmax (x) = 1 n i=1 exi [ex1 , ex2 , . . . , exn ] 11

畳み込みニューラルネットワーク • 視覚野と対応するよう
な形で配置 • 空間的にフィルタ共有によるモデルのパラメータを減少 • プーリングと畳み込み層による計算効率 INPUT 32x32 Convolutions Subsampling Convolutions C1: feature maps 6@28x28 Subsampling S2: f. maps 6@14x14 S4: f. maps 16@5x5 C5: layer 120 C3: f. maps 16@10x10 F6: layer 84 Full connection Full connection Gaussian connections OUTPUT 10 LeNet-5 [LeCun+ 1998] 12

プーリング層 • 解像度を圧縮 • 小さい移動の不変性マック
ス平均 Lp y = max x∈P x y = 1 |P| x∈P x y = 1 |P| x∈P xp 1 p 13

畳み込み層 • それぞれのレイヤはいくつかのフィルタを使用
• ハイパーパラメータ：カーネル、パッディング、ストライド • 重みはカーネルで表現 14

• ハイパーパラメータ：カーネル、パッディング、ストライド • 重みはカーネルで表現 • パッディングで解像度の不変化出力入力 14

• ハイパーパラメータ：カーネル、パッディング、ストライド • 重みはカーネルで表現 • パッディングで解像度の不変化 • ストライドで解像度の変化出力入力 14

畳み込み層・解像度変換ストライド数による三種類の畳み込みレ
イヤー 1. Convolution • カーネル 3 × 3，パディング 1 × 1，ストライド１ 2. Downsampling Convolution • カーネル 3 × 3，パディング 1 × 1，ストライド２ 3. Upsampling Convolution • カーネル 3 × 3，パディング 1 × 1，ストライド 1/2 Down-convolution Flat-convolution Up-convolution stride stride stride 15

CNN レイヤについて • 畳み込み層 • 空間配置を保護 •
パラメータが少ない • 解像度変換可 • プーリングレイヤ • 小さい移動の不変性 • ストライドがある畳み込み層のほうがいい • 全結合層 • 入力が固定サイズ • パラメータが多い • 画像を出力すると不必要 16

残差の学習 • 関数 f (x) の代わりに残差関数 ∆f (x) を
学習 ∆f (x) = f (x) − x Neural Network Input Output 17

学習 ∆f (x) = f (x) − x • 仮定：出力は入力に類似 • 重みは 0 だと恒等写像 Neural Network Input Output 17

学習 ∆f (x) = f (x) − x • 仮定：出力は入力に類似 • 重みは 0 だと恒等写像 • ILSVRC2015 の画像分類コンペティション優勝 He et al. Deep Residual Learning for Image Recognition. CVPR, 2016. 17

全層畳み込みニューラルネットワーク • 畳み込み層だけ使用 • 任意の解像度を処理可
• エンコーダディーコーダ型 • メモリーを減らす • 空間解像度を上げる Flat-convolution Up-convolution 2 × 2 4 × 4 8 × 8 4 × 4 2 × 2 × × Down-convolution 18

空間解像度 • 出力の一個の画素を計算するための入力範囲 • レイヤ、カーネルや解像度によ
って決定 • 画像処理問題に重要 Object Ω Ω Spatial Support Ω Ω 19

モデルの容量について • タスクを覚えられる能力 • モデルのパラ
メータによって決定 • 普段 100 万以上 • 学習難度と関係 • 使用メモリや計算時間を増加 20

モデルの容量について • タスクを覚えられる能力 • モデルのパラ
メータによって決定 • 普段 100 万以上 • 学習難度と関係 • 使用メモリや計算時間を増加少モデル (少ないレイヤやチャンネル) • 小容量 • 学習が簡単 • 訓練データが少なくてもいい大モデル (多いレイヤやチャンネル) • 大容量 • 学習が困難 • 大規模データが必要 20

ディープラーニングの基礎・データ

ディープラーニングに向いている問題について • データが重要 • ディープラーニングは万能ではない
• 問題を選ぶのが大事 21

ディープラーニングに向いている問題について • データが重要 • ディープラーニングは万能ではない
• 問題を選ぶのが大事 • 適切な問題について • 入力と出力のサイズが決まっているか、情報処理の問題 • 正解が一つの問題（人間ができる） • データを集められる 21

向いている問題・画像分類 • 画像分類 • 入力：画像
• 出力：クラスの確率 • ディープラーニングの代表的な問題 • 入力と出力のサイズが決まっている • 大規模なデータがある（ImageNet） Krizhevsky et al. ImageNet Classification with Deep Convolutional Neural Networks. NIPS, 2012. 22

向いている問題・領域分割 • 領域分割 • 入力：画像
• 出力：画像の各領域のクラス確率 • データ作成が難しい • クラスの数が少ない • ImageNet の学習済みモデルを利用可 Chen et al. The Role of Context for Object Detection and Semantic Segmentation in the Wild. CVPR, 2014. 23

向いている問題・領域分割 • 領域分割 • 入力：画像
• 出力：画像の各領域のクラス確率 • データ作成が難しい • クラスの数が少ない • ImageNet の学習済みモデルを利用可 Noh et al. Learning Deconvolution Network for Semantic Segmentation. ICCV, 2015. 23

向いている問題・超解像度 • 超解像度 • 入力：画像
• 出力：高解像度な画像 • データを集めやすい • ほとんど解決した問題 • 画像処理問題の扱い Kim et al. Accurate Image Super-Resolution Using Very Deep Convolutional Networks. CVPR, 2016 24

向いていない問題・画像補完 • 画像補完 • 入力：画像＋マスク
• 出力：画像 • 画像を作り出すのが苦手 • 高解像度が苦手 • 決まった形の出力が苦手 N. Komodakis and G. Tziritas. Image completion using efficient belief propagation via priority scheduling and dynamic pruning. IEEE Trans. Image Processing, 2007. 25

• 出力：画像 • 画像を作り出すのが苦手 • 高解像度が苦手 • 決まった形の出力が苦手 Pathak et al. Context Encoders: Feature Learning by Inpainting. CVPR, 2016. 25

• 出力：画像 • 画像を作り出すのが苦手 • 高解像度が苦手 • 決まった形の出力が苦手 Iizuka et al. Globally and Locally Consistant Image Completion. SIGGRAPH, 2017. 25

向いていない問題・画像生成 • 画像生成 • 入力：ランダムノ
イズ • 出力：画像 • 教師なし学習が苦手 • 出力のサイズが固定 • 解像度が低い Salimans et al. Improved Techniques for Training GANs. NIPS, 2016. 26

ディープラーニングに向いている問題のまとめ向いている問題 • データが多い
• 正解データが決まっている • 入力と出力のサイズが固定されている • 学習済みのモデルを利用できる向いていない問題 • データが少ない • 教師なし学習 • 入力か出力が固定されていない • ユーザーの編集 • 高解像度 27

データについて • どれほど必要？ • 情報の流れについて考えなければならない • クラ
スラベルの情報が少ない　→　 100 万枚以上使用 • 領域分割ラベルの情報が多い　→　 1 万枚未満 Cat vs 28

スラベルの情報が少ない　→　 100 万枚以上使用 • 領域分割ラベルの情報が多い　→　 1 万枚未満 • 品質が大事 Cat Cat Lin et al. Microsoft COCO: Common Objects in Context. arXiv, 2014. 28

スラベルの情報が少ない　→　 100 万枚以上使用 • 領域分割ラベルの情報が多い　→　 1 万枚未満 • 品質が大事 • データ増加 • 反転、回転、明度、コントラスト、スケーリング… 28

データ収集について • 公開データセット (ImageNet, Places2, …) •
著作権問題 • 相応しいデータセットの存在 • 公開データ (Flickr, Twitter, …) • 著作権問題 • ラベルがない • 自分のデータを集める • 時間とお金がかかる • 正確なラベルが難しい • 多量なデータが必要 29

データ収集について • 公開データセット (ImageNet, Places2, …) •
著作権問題 • 相応しいデータセットの存在 • 公開データ (Flickr, Twitter, …) • 著作権問題 • ラベルがない • 自分のデータを集める • 時間とお金がかかる • 正確なラベルが難しい • 多量なデータが必要データ自体に価値がある！！！ 29

深層学習の基礎・学習

学習の基礎 1. データセットを訓練用と検証用とテスト用に分け
1.1 訓練用データでモデルの重みを学習させ 1.2 検証用データでハイパパラメータを決め 1.3 テスト用データは最後の評価のためのみ！ 30

1.1 訓練用データでモデルの重みを学習させ 1.2 検証用データでハイパパラメータを決め 1.3 テスト用データは最後の評価のためのみ！ 2. データセットをランダムな順番に 3. バッチで学習させ 3.1 小さすぎると不安定 3.2 大きすぎると遅くてさらに精度がさがる 3.3 問題によって違う（分類〜128、領域分割〜8） 30

1.1 訓練用データでモデルの重みを学習させ 1.2 検証用データでハイパパラメータを決め 1.3 テスト用データは最後の評価のためのみ！ 2. データセットをランダムな順番に 3. バッチで学習させ 3.1 小さすぎると不安定 3.2 大きすぎると遅くてさらに精度がさがる 3.3 問題によって違う（分類〜128、領域分割〜8） 4. 誤差逆伝播法でロス関数を最小化 5. 二点の問題点 5.1 アンダーフィッティング 5.2 オーバーフィッティング（過学習） 30

誤差逆伝播法 • パラメータの更新： wi j ←
wi j − λ ∂L ∂wi j • 誤差が出力から入力まで逆伝播させる ∂L ∂wi j = ∂L ∂xn ∂xn ∂xn−1 . . . ∂xi ∂wi j ニューラルネットワーク 23.8% Music Store 15.3% Basement 7.9% Cathedral 2.1% Airport ... 推定順伝播 0.0% Music Store 100% Basement 0.0% Cathedral 0.0% Airport ... 誤差正解逆伝播 31

誤差関数 • 平均二乗誤差 (Mean Squared Error または MSE) •
y: モデルの出力 • y∗: 正解 L(y, y∗) = 1 n n i=1 (yi − y∗ i )2 • 負の対数尤度 (Negative Log-Likelihood または NLL) • y: モデルの出力（対数尤度） • l: 正解ラベル L(y, l) = −yl 32

モデルパラメータの更新 • 確率的勾配降下法 (Stochastic Gradient Descent または
SGD) • 一つのハイパーパラメータで重みを更新: wi j ← wi j − λ ∂L ∂wi j 33

モデルパラメータの更新 • 確率的勾配降下法 (Stochastic Gradient Descent または
SGD) • 一つのハイパーパラメータで重みを更新: wi j ← wi j − λ ∂L ∂wi j • 慣性 (Momentum) • wi j ← wi j − vt vt = γvt−1 + λ ∂L ∂wi j • Adagrad • 重みにつき更新率が異なる • RMSprop • Adagrad の最新版 • Adam • 慣性やバイアスの調整 • Adadelta • ラーニングレートを自動設定 33

モデルパラメータの更新 Alec Radford さんのアニメーション 33

モデルパラメータの更新・一番いい？ • 大概、どちらも
精度が高い • ラーニングレートが重要 • 個人的に、 Adadelta を使用 SGD 慣性 Adadelta Adam 超解像度領域分割色付け画像生成 [Dong+ 2014] [Nor+ 2015] [Iizuka+ 2016] [Radford+ 2016] 34

汎化能力 Generalizing Training • Dropout [Srivastava et al. 2014] •
学習の間にノードをランダムにゼロにする • モデルは特定なノードに依存しない • バッチ正規化 (Batch Normalization) [Ioffe and Szegedy 2015] • 各層の出力を N(0, 1) に正規化 • モデル中に使用 • データ増加 • 反転 • 小さい回転 • クロップ 35

学習の問題点 • 学習の間のロスを監視イテレーションモデル１訓練用データのロス 36

学習の問題点 • 学習の間のロスを監視 • もっとも
低いロスが必ずしも一番いいモデルではない！！！イテレーションモデル１訓練用データのロス訓練用データのロスモデル２ 36

低いロスが必ずしも一番いいモデルではない！！！ • 検証用データの精度を使おうイテレーションモデル１訓練用データのロスモデル１検証用データの精度訓練用データのロスモデル２検証用データの精度モデル２ 36

低いロスが必ずしも一番いいモデルではない！！！ • 検証用データの精度を使おう • アンダーフィッティング • モデルの重みが足りない • 解決方法：重みを増やすイテレーション訓練用データのロスロスが高いイテレーション検証用データの精度訓練用データの精度精度が同じ 36

低いロスが必ずしも一番いいモデルではない！！！ • 検証用データの精度を使おう • アンダーフィッティング • モデルの重みが足りない • 解決方法：重みを増やす • オーバーフィッティング • データが足りなくて汎化性能がさがる • 解決方法： dropout、データ増加… イテレーション訓練用データのロスロスが低いイテレーション検証用データの精度訓練用データの精度精度が大分違う 36

学習済みのフィルタ • 低レベル：角、縁、色…
• 中レベル：テクスチャ … • 高レベル：犬の顔、鳥の足… Layer 1 Layer 2 Layer 3 Layer 4 Low-Level Mid-Level High-Level Visualizing and Understanding Convolutional Networks [Zeiler and Fergus 2014] 37

ファインチューニング • 大規模データでモデルを学習 ...
... ... Input Output Training 38

ファインチューニング • 大規模データでモデルを学習 •
最終層を新しい層に入れ替え ... ... Input Output New! 38

ファインチューニング • 大規模データでモデルを学習 •
最終層を新しい層に入れ替え • 新しいデータで学習を続く • 小さいデータセットで性能向上 • 覚えたことを忘れさせないように小さい学習率 • 最終層の学習率が大きい ... ... ... Input Output Small Dataset Training 38

ディープラーニングの基礎・まとめ

まとめ • データ • 学習始まる前に解析 •
データ増加 • モデル • バッチ正規化 • 最初に解像度減らす • 学習 • 過学習に気をつける • 検証用データを使用 • 解像度が下げていく • 学習 • オーバーフィッティングに気をつける • 学習中ロスや検証用データの精度を監視 39

必要な環境・ハッドウェア

ハッドウェアについて • 基本的に Nvidia の GPU
がマイン • GPU があればあるほどいい • 分散コンピューティング • ハイパーパラメータ・チューニング • GPU の選択肢 1. クラウドコンピューティング 2. Nvidia Tesla （サーバー用） 3. Nvidia GeForce （民生用） • 現在値段が不安 40

クラウドコンピューティング • 長所 •
使う分だけ払う • サーバー室不必要 • 短所 • 値段が不安定 • データセットの移動が大変 NIPS の締切の前　@Reza_Zadeh 41

サーバー設置 • 電源工事が必要（サーバー一台は 200V/30A まで） • サーバー室の重要点 •
ラック型 • 無停電電源装置 • 温度管理 • ネットの速度（NAS 等に） 42

サーバー設置 • 電源工事が必要（サーバー一台は 200V/30A まで） • サーバー室の重要点 •
ラック型 • 無停電電源装置 • 温度管理 • ネットの速度（NAS 等に） • サーバーの重要点 • データセット読み込むため専用 SSD • データ増加等のための CPU • RAM の速度 42

サーバー設置 42

Tesla 対 GeForce 注意： Nvidia のライセンスによる
データセンターに Tesla のみ使用可 • Tesla • V100、 P100、 K80、 … + 高性能 + 低発熱量 - 値段が高い - 不必要機能（FP64） • GeForce • 1080、 Titan X、 … + 安い（約３割） - 高発熱量 - 壊れやすい 43

必要な環境・フレームワーク

基本環境 • 基本的全部 Linux （Ubuntu の LTS 等） • 線型代数学ラ
イブラリ： OpenBlas / Intel MKL • Nvidia の深層学習ライブラリ CUDNN • Python の環境： Anaconda、 Docker、 … • 深層学習フレームワーク 44

深層学習フレームワーク（その１） • Caffe • C
言語（python も可） • 硬いが、速くて効率的 • Caffe2 に置き換え 45

言語（python も可） • 硬いが、速くて効率的 • Caffe2 に置き換え • PyTorch / Chainer • Python 言語 • 動的にグラフを定義 • 研究に焦点を当て 45

言語（python も可） • 硬いが、速くて効率的 • Caffe2 に置き換え • PyTorch / Chainer • Python 言語 • 動的にグラフを定義 • 研究に焦点を当て • Tensorflow • Python 言語 • 静的と動的なグラフ • 生産に焦点を当て 45

深層学習フレームワーク（その２） • Caffe2 • C++言語
• PyTorch を補足 46

• PyTorch を補足 • Torch • Lua 言語 • ライブラリが少ない • PyTorch に置き換え 46

• PyTorch を補足 • Torch • Lua 言語 • ライブラリが少ない • PyTorch に置き換え • まだたくさんある！ 46

ONNX: Open Neural Network Exchange • モデルのフォーマット
• 複数のフレームワークに対応 • python でモデルを学習し、 C++でアンドロイド等にデプロイ • まだ全部のレイヤに対応していない学習モデルモデルデプロイ 47

例１：データの重要性（自動線画化）

ラフスケッチの線画化 48

ラフスケッチの線画化入力：ラフスケッチ出力
：線画 49

ラフスケッチの線画化ラフスケッチ線画ラフ
スケッチ線画 50

最初の結果 • 簡単なモデルを定義 • データをちょっ
と揃えて学習させてみると 51

最初の結果 • 簡単なモデルを定義 • データをちょっ
と揃えて学習させてみるとぼける • ラフスケッチと正解データを合わせてみると 51

逆方向データ制作 • データの品質が重要 • ラフを線画化する
と合わない（通常のデータ作成） • 線画をラフ化するとぴったり（逆方向データ作成）通常のデータ作成逆方向データ作成 52

ラフスケッチデータセット • 68 枚のラフスケッ
チと線画のペア • 5 人のイラストレーター • 424 × 424 画素の画像パッチを使用・・・ Extracted patches Sketch dataset ・・・ 53

データ拡大 • 68 枚のデータセットでは足りない •
訓練データの画像をスケーリング • 学習する間にランダムに回転と反転 • 入力画像をさらに加工：トーン調整、ぶれ、ノイズ入力トーン調整ぶれノイズ 54

全層畳み込みニューラルネットワークストライド数によ
る三種類の畳み込みレイヤー 1. Flat-convolution 1.1 カーネル 3 × 3，パディング 1 × 1，ストライド１ 2. Down-convolution 2.1 カーネル 3 × 3，パディング 1 × 1，ストライド２ 3. Up-convolution 3.1 カーネル 4 × 4，パディング 1 × 1，ストライド 1/2 Down-convolution Flat-convolution Up-convolution stride stride stride 55

モデル • 23 層 • 出力の解像度は入力と同じ • エンコーダー
・ディーコーダー型 • メモリーを減らす • 空間解像度を上げる Flat-convolution Up-convolution 2 × 2 4 × 4 8 × 8 4 × 4 2 × 2 × × Down-convolution 56

学習 • 全層ランダムの重みから学習 • 損失関数として重みつき平均二乗誤差を
使用 • バッチ正規化 [Ioffe and Szegedy 2015] が必要 • ADADELTA [Zeiler 2012] で最小化入力出力正解 57

実験環境 • Intel Core i7-5960X CPU (3.00GHz) • NVIDIA GeForce
TITAN X GPU • 学習時間は約 3 週間 • GPU を使うと一秒以内で処理可能解像度画素数 CPU (秒) GPU (秒) 加速 320 × 320 102,400 2.014 0.047 42.9× 640 × 640 409,600 7.533 0.159 47.4× 1024 × 1024 1,048,576 19.463 0.397 49.0× 58

比較入力 Potrace Adobe Live Trace 提案手
法 59

結果 60

例２：モデルの重要性（自動色付け）

自動色付け Colorado Park, 1941 年 Textile Mill, 1937 年 Berry
Field, 1909 年 Hamilton, 1936 年 61

データについて • 簡単に作れる • 現代のカラー写真を白黒にする • MIT
の Places データセットを使用 [Zhou et al. 2014] Abbey Airport terminal Aquarium Baseball field Dining room Forest road Gas station Gift shop ⋯ ⋯ 62

問題の難度 • パッチをだけ見ると空と天井を区別しにく
い • モデルを改良する必要正解データ普通の CNN 63

い • モデルを改良する必要？正解データ普通の CNN 63

い • モデルを改良する必要正解データ普通の CNN 提案手法 63

モデルの改造 • モデルは色を予想し、白黒写真に加える • 問題はパッチの情報が足りない
彩度マップ中レベル特徴抽出ネットワーク色付けネットワーク輝度マップ（入力画像）低レベル特徴抽出ネットワーク 64

モデルの改造 • モデルは色を予想し、白黒写真に加える • 問題はパッチの情報が足りない
• 解決方法：大域特徴を利用 • 提案の統合レイヤでパッチと大域特徴を結合彩度マップ中レベル特徴抽出ネットワーク色付けネットワーク輝度マップ（入力画像）低レベル特徴抽出ネットワーク大域特徴抽出ネットワーク統合レイヤ 64

統合レイヤ • 大域特徴と局所特徴を統合する層 • W、
b を学習させる • 大域特徴を局所特徴に練り込む • どんな解像度でも対応大域特徴抽出ネットワーク統合レイヤ ... ... ... 色付けネットワーク中レベル特徴抽出ネットワーク統合レイヤ 65

モデルと学習 • 全層をランダムから学習 • ADADELTA を
使用彩度マップ中レベル特徴抽出ネットワーク色付けネットワーク輝度マップ（入力画像）低レベル特徴抽出ネットワーク大域特徴抽出ネットワーク統合レイヤ 66

モデルと学習 • 全層をランダムから学習 • ADADELTA を
使用 • ２つのロスを使用 • MSE ロスで色付けを学習させ • 分類誤差で大域特徴の学習を支援彩度マップ中レベル特徴抽出ネットワーク色付けネットワーク輝度マップ（入力画像）低レベル特徴抽出ネットワーク大域特徴抽出ネットワーク統合レイヤ 20. 60% 庭園 16. 13% アーチ 13. 50% 修道院 7. 07% 植物園 6. 53% ゴルフ場推定シーン分類ネットワーク 66

結果 67

比較入力画像 [Larsson+ ’16] [Zhang+ ’16] [Iizuka+ ’16] 68

まとめ • 自動線画化 • モデルが簡単 • データ作成が難し
い Flat-convolution Up-convolution 2 × 2 4 × 4 8 × 8 4 × 4 2 × 2 × × Down-convolution • 自動色付け • 大規模なデータ • 普通のモデルがあまりうまくいかない彩度マップ中レベル特徴抽出ネットワーク色付けネットワーク輝度マップ（入力画像）低レベル特徴抽出ネットワーク大域特徴抽出ネットワーク統合レイヤ 20. 60% 庭園 16. 13% アーチ 13. 50% 修道院 7. 07% 植物園 6. 53% ゴルフ場推定シーン分類ネットワーク 69

おわりに • 理論も経験も大事 • ３つのこと
について考えないといけない • データを調べること • モデルの構想 • 学習の実装 70

について考えないといけない • データを調べること • モデルの構想 • 学習の実装 • ディープラーニングは機械学習の民主化 • できないことができるようになった • 研究ペースが恐ろしい 70

について考えないといけない • データを調べること • モデルの構想 • 学習の実装 • ディープラーニングは機械学習の民主化 • できないことができるようになった • 研究ペースが恐ろしい • いろいろ試して経験積もう 70

補助資料 • シモセラエドガー http://hi.cs.waseda.ac.jp/˜esimo/ • 自動線画化を試す http://hi.cs.waseda.ac.jp:8081/
• 自動色付けを試す http://hi.cs.waseda.ac.jp:8082/

深層学習の基礎と導入に向けて

深層学習の基礎と導入に向けて

More Decks by シモセラ エドガー

Other Decks in Technology

Featured

Transcript

More Decks by シモセラエドガー