深層学習による画像認識の基礎と実践 RSJ Seminar 2019-05-29

深層学習による画像認識の基礎と実践⼭⼝光太 CyberAgent AI Lab 2019-05-29 RSJ Seminar

Agenda 1. 深層学習の基礎 • ニューラルネットワーク • モデルの学習 • CNNアーキテクチャ 2.
画像認識の基礎と実践 • 分類、検出、領域分割 • ソフトウェア

ディープラーニング（深層学習） • 深い層構造を持つ機械学習モデル • ⼈⼯ニューラルネットワーク (Artificial Neural Network) • ⼤量のパラメータを⼤量のデータで学習
• 1980年代から存在、近年の計算資源の進化で実⽤的に

なぜ深層学習︖ • 圧倒的な性能 ILSVRCでの毎年のエラー率の推移物体カテゴリ認識 slide credit: Jia Deng 物体カテゴリ検出
http://image-net.org/challenges/ilsvrc+coco2016 ⼈間は0.04 程度? 2012年からディープラーニング登場

Shallow vs. Deep Models R G RED APPLE 浅い機械学習モデル深層学習モデル
1) 画像特徴の抽出 2) データ点の判別 RED APPLE 特徴表現から判別まで複数の情報変換を学習表現学習 + ⽬的タスク⼈が設計⽬的タスクのみ

ニューラルネットワーク • 多数の⾮線形関数ユニットが結合して構成される数理モデル • 複雑な関数を近似できる R G Y = F(X)
x1 x2 x3 x4 y1 y2 Input layer Hidden layer Output layer

ニューロン脳の神経細胞

パーセプトロン x1 x2 xd w1 w2 w3 x3 wd Sigmoid関数:
⼊⼒重み (Weights) . . . t e t - + = 1 1 ) ( s 出⼒: s(w×x + b) ⼈⼯的な神経細胞のモデル関数パーセプトロンの積み重ねがニューラルネットワーク

ユニットの形 () = 1 1 + )* ⾮線形変換 (活性化関数) 線形変換
+ Sigmoid Tanh tanh() = /* − 1 /* + 1 relu() = max(, 0) ReLU = + Inner product = conv(, ) Convolution softmax() = )* ∑*C )*C Softmax

学習と予測学習データモデルテストデータ結果学習予測（テスト） Y =
F(X) {(X,Y)}à F

学習: モデル推定 • ニューラルネットワークの重みが損失関数を⼩さくするように最適化 • 例: ⼆乗誤差 min E
F G G − I (G , ) / 正解値出⼒値ネットワークのパラメータ（ニューロンの重み）⼊⼒値 I

勾配降下法 (Gradient descent) • ⾮線形関数の最適化⼿法 • 局所的に線形近似、勾配⽅向に現在の解を更新損失関数 (Loss
function) L(X, W) = || y – y(x, W) ||2 Wt Wt+1 e JKL ⟵ J − (, J ) 損失関数の勾配学習率現在のパラメータ学習率︓どれだけ現在の解を動かすか W

確率的勾配降下法 (SGD: Stochastic Gradient Descent) • 勾配計算をデータセットからのランダムサンプル（＝バッチ）で近似したもの • 損失関数の微分は計算量が⼤きいため
JKL ⟵ J − R (, J ) R (, J) = F G∈ T U G − I (G , ) / 学習データ D バッチ Dʼ バッチロスバッチの勾配

誤差逆伝播法 (Back propagation) • ニューラルネットワークの学習時に効率的に微分計算する⼿法 • 微分のチェインルール（連鎖律） • パラメータの勾配計算に使う順伝播
逆伝播

逆伝播計算 G,X = F Y GKL,Y GKL,Y G,X j GKL
G,X G,X GKL,L GKL,/ GKL,Z 第i層第i+1層第 i+1 層の出⼒についての偏微分があれば、第 i 層の出⼒についての損失関数の偏微分がチェインルールで計算可能 GKL,Y G,X = G,X,Y GKL,Y (GKL,Y − 1) 例: sigmoidの場合

パラメータ勾配の計算最終的に求めたいもの: 損失関数Lに対するパラメータwの偏微分 G,X,Y = GKL,Y GKL,Y G,X,Y 1. 損失に対する層出⼒の偏微
分を逆伝播で計算 2. 損失に対するパラメータの偏微分は層ごとに解析的に計算 GKL,Y G,X,Y = G,X GKL,Y (GKL,Y − 1) 例: sigmoidの場合

よく使われる損失関数 Euclidean (⼆乗誤差) Cross Entropy (交差エントロピー) F G G −
\ G / − F G F ]^ G ln \ G ⼆値分類: Sigmoid + Cross entropy 多クラス分類: Softmax + Cross entropy 回帰問題に利⽤出⼒が確率分布の場合に利⽤

学習データの分割学習 Train 検証 Validation テスト Test • SGDでパラメータの学習に利⽤
• 学習時の現在の性能確認⽤ • ハイパーパラメータの調整に利⽤ • 学習係数 • モーメンタム • 性能評価に利⽤ • 最後まで取っておく • Validationと兼ねる場合もあり • データは⼀般的に３つまたは２つに分割 • 分割割合は8:1:1など、⼀般に学習データが多めだが、5:5などもあり

学習の進捗反復数 (iteration): バッチをSGDに投⼊した回数エポック数(epoch): 学習データセットの⼀周回を使った回数 Validationデータの性能 Trainデータの損失 batch epoch

過学習、局所解 Validation error Training error #epochs loss データに対してモデルのパラメータ数が多すぎると汎化誤差が増⼤

初期値問題 Fine-tuned #epochs loss パラメータの初期値によって局所解で収束 Scratch学習ではなく学習済みモデルからのFine-tuningなどで解決 Scratch

勾配消失問題 (Vanishing Gradient) ⾮線形変換微分値が⼩さい • チェインルールで微分を計算していくと、⼩さな値の掛け合わせで微分が0に近づく問題
• 深層ネットワークの学習の難しさの主要な要因 • LSTMやSkip-connectionなどで解決

様々なニューラルネットワーク順伝播型ニューラルネット再帰型ニューラルネット (RNN) 畳み込みニューラルネット (CNN) • 結合が再帰的なもの • 系列データの利⽤
• 画像のフィルタ演算がユニット • 画像などの空間配列データに利⽤その他、オートエンコーダ、GAN、ボルツマンマシン

AlexNet • ImageNet 2012最⾼性能 • 畳み込み5層+全結合層3層 • サイズが⽐較的⼩さく、基準⼿法としてよく使われるCNN [Krizhevsky 2012]
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/image_folder_7/AlexNet_0.jpg

ResNet [He 2015] http://felixlaumon.github.io/ https://culurciello.github.io/tech/2016/06/04/nets.html • ImageNet 2015最⾼性能 • Residual
block (Identity + Conv)によって超深層を実現 • Vanishing Gradient回避

RNN • 再帰型の結合を持つニューラルネット • 可変⻑の系列データに対して使⽤ • 時系列の予測 • 再帰的結合は展開したものと等価 http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Long Short-Term Memory (LSTM) • RNNのユニットに⻑期短期記憶を組み⼊れたもの • ⻑距離の依存関係、勾配消失問題に対処可能 http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Attention • （系列）データに対し、重みを決定するモジュール • RNNの代替⼿法として⾃然⾔語処理でよく⾒られるように • Transformer [Kaiser
2017] • BERT [Devlin 2018] • GPT-2 [Radford 2019] Jay Alammar, The Illustrated Transformer, https://jalammar.github.io/illustrated-transformer/

敵対的⽣成ネットワーク (GAN) • 教師なし学習の⼿法（損失関数の⼀種） • ⽣成モデルと判別モデルで学習データの分布を学習 G D ノイズ実データ
Real or fake?

深層強化学習 • 強化学習タスクに深層学習モデルを取り⼊れたもの Environment https://skymind.ai/wiki/deep-reinforcement-learning Agent

深層学習の基本︓まとめ • 深層ニューラルネットワーク • 複数のユニットを階層的に結合して構築される数理モデル • 学習 • 損失関数を最⼩化するように確率的勾配降下法でネットワークのパラメータを更新、特徴量表現と出⼒を学習
• 予測 • 学習済みのパラメータからForward推論

画像認識の基礎

画像認識 DensePose [Gueler, 2018] skin hair bag dress jacket/blazer necklace
shoes sweater/cardigan top/t-shirt vest watch/bracelet Semantic Segmentation (領域分割) Instance Segmentation + Pose Estimation [Pongsate, 2017] Classification (分類) Object Detection (検出) Steel drum Cat Domestic cat Feline Tabby Domestic animal [Jia, 2014] image-net.org

基本的な画像認識のモデリング • ⼊⼒と出⼒の形状に合わせたモジュールの組み合わせ • 例) 画像分類 • ⼊⼒: 画像 à
畳み込みネットワーク (CNN) • 出⼒: ラベル à パーセプトロン (MLP) R G CNN MLP

畳み込みニューラルネットワーク (CNN) • ほぼ全ての画像認識⼿法に使われるニューラルネットワーク Y. LeCun, L. Bottou, Y. Bengio,
and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE 86(11): 2278–2324, 1998. Many slide credits: Rob Fergus (NYU)

畳み込み (Convolution) Input Feature Map . . . Slide credit:
Rob Fergus • 画像フィルタ演算 • パラメータ数が少ない • 位置不変 • 局所関係のみに依存性

代表的なCNNアーキテクチャ • LeNet [LeCun 1998] • AlexNet [Krizhevsky 2012] •
VGG [Simonyan 2014] • GoogLeNet [Szegedy 2014] • ResNet [He 2015] • ResNeXt [Xie 2016] • DenseNet [Huang 2016] • Squeeze-and-Excitation Networks [Hu 2017]

分類 • データ点がある領域にあるかを判定 • 単純なMLPでモデリング R G 画像特徴表現データ点の判別 Red
apple Green apple

セマンティックセグメンテーション: ピクセル単位のラベル予測 • 全てのピクセルでラベル分類、全部convolution • ⼊⼒︓画像、出⼒︓画像 J Long et al,
Fully Convolutional Networks for Semantic Segmentation, CVPR 2015

深度推定 R Mahjourian, Unsupervised Learning of Depth and Ego-Motion from
Monocular Video Using 3D Geometric Constraints, CVPR 2018 • セグメンテーションと同等 • 出⼒はピクセル単位の深度回帰

動画からの深度推定 Chaoyang Wang, Web Stereo Video Supervision for Depth Prediction
from Dynamic Scenes, arXiv:1904.11112

動画からの深度推定 Godard, Digging into Self-Supervised Monocular Depth Prediction, arXiv:1806.01260, 2018

物体検出 Mask R-CNN https://medium.com/@jonathan_hui/ebe6d793272 [He 2017] • インスタンンスセグメンテーション • RPNによる物体候補領域の検出
• 各候補領域で画像分類、マスク、位置ずれ予測 • Detectron https://github.com/facebookresearch/Detectron

DensePose [Gueler 2018] http://densepose.org/ • Mask R-CNNで⾝体表⾯を対象に検出 • ピクセル単位でどの⾝体部位に属するか認識 •
⾝体部位の座標軸の中でどの位置(U, V)かを予測

画像からの⽂章⽣成 • CNNとRNNの組み合わせ • ⼊⼒︓画像、出⼒︓⽂章（系列データ） O Vinyals, Show and Tell:
A Neural Image Caption Generator, CVPR 2015

画像⽣成 • ⼊⼒︓ノイズ、出⼒︓画像の⽣成モデルをGANで学習 BigGAN: A New State of the Art
in Image Synthesis https://medium.com/syncedreview/biggan-a-new-state-of-the-art-in-image-synthesis-cf2ec5694024

最近の話題 • Convolutionは局所しか使わない • à Self-Attention機構を⼊れると良い︖ I Bello, Attention
Augmented Convolutional Networks, arXiv:1904.09925

深層学習による画像認識の基本タスク定義モデリング画像分類物体検出領域分割深度推定姿勢推定⽂章⽣成画像⽣成
... 畳み込み構造再帰構造回帰分類損失関数設計 ... 学習・推論

画像認識の実践

ソフトウェア • ディープラーニングフレームワークが近年充実 • Tensorflow / Keras • PyTorch
• Chainer • 共通する特徴 • Python API • アクセラレータ (GPU) • Define-by-runスタイル https://towardsdatascience.com/deep-learning-framework-power-scores-2018-23607ddf297a

初学者向け環境 • Google Colaboratory • Cloud Jupyter notebook 環境 •
すぐにPythonコードを実⾏しながら学習可能 https://colab.research.google.com

コード例 TensorflowでMNIST データセットの⼿書き⽂字認識をする場合どのフレームワークでもやることは似ている import tensorflow as tf
mnist = tf.keras.datasets.mnist (x_train, y_train),(x_test, y_test) = mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0 model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(input_shape=(28, 28)), tf.keras.layers.Dense(512, activation=tf.nn.relu), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10, activation=tf.nn.softmax) ]) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.fit(x_train, y_train, epochs=5) model.evaluate(x_test, y_test) データ準備モデル記述学習テスト https://www.tensorflow.org/tutorials

モデル記述 import tensorflow as tf from tensorflow.keras import layers class
MyModel(tf.keras.Model): def __init__(self, num_classes): super(MyModel, self).__init__() # Define your layers here. self.dense_1 = layers.Dense(32, activation='relu') self.dense_2 = layers.Dense(num_classes, activation='sigmoid') def call(self, inputs): # Define your forward pass here, # using layers you previously defined in `__init__` x = self.dense_1(inputs) return self.dense_2(x) model = MyModel(num_classes=10) model.compile(optimizer=tf.train.RMSPropOptimizer(0.001), loss='categorical_crossentropy', metrics=['accuracy']) model.fit(data, labels, batch_size=32, epochs=5) Tensorflow 2.0の場合 PyTorch / Chainerも似ている Model subclassingスタイル

学習ループ PyTorchの場合 # Assume we have data loader and model
defined. data_loader = DataLoader(MyDataset(), batch_size=4) model = MyModel() optimizer = torch.optim.SGD(model.parameters(), lr=0.01) for epoch in range(10): model.zero_grad() for input, labels in data_loader(): # Forward inference and compute loss output = model(input) loss = F.binary_cross_entropy(output, labels) # Backprop and update weights loss.backward() optimizer.step() エポックバッチ

学習進捗の管理 TensorBoardやVisdomといった、学習状況のモニタリングツールを利⽤⼀般にデバッグが難しいのでモニタリング必須

Cloud機械学習環境⾃前で⼤規模GPUクラスタを⽤意しなくても計算資源を⽤意可能 • Google Cloud Platform (GCP) • Cloud
Machine Learning Engine • Cloud AutoML • Cloud Vision API • Amazon Web Services (AWS) • Amazon SageMaker • Amazon Rekognition

Mobile & IoT 各種フレームワークにはC++ APIが存在 • Tensorflow Lite • Caffe2
• ChainerX / Menoh モバイルOSにはAPIも • Apple CoreML • Android Neural Networks API ONNX: Open Neural Network Exchange • フレームワーク間でモデルを相互運⽤するフォーマット • PyTorchで学習、Caffe2でデプロイといった使い⽅ TVM: Compiler Stack for accelerators

Open AI Gym • 強化学習のための環境を提供するフレームワーク import gym env =
gym.make("CartPole-v1") observation = env.reset() for _ in range(1000): env.render() # your agent here (this takes random actions) action = env.action_space.sample() observation, reward, done, info = env.step(action) if done: observation = env.reset() env.close()

機械学習プロジェクトの進め⽅データ取得教師データ作成モデル設計データ蓄積
学習評価デプロイ運⽤

教師データ作成 • ⼈⼿で学習データのラベリング • 教師あり学習で最も困難なプロセス • 品質・分量が成果を左右

深層学習による画像認識の基礎と実践 • ニューラルネットワーク = 複雑な数理モデル • 学習: モデルのパラメータをデータに適合させること • 画像認識のためのモデルとソフトウェアによる実践
• タスクに応じたモデルの設計

深層学習による画像認識の基礎と実践 RSJ Seminar 2019-05-29

深層学習による画像認識の基礎と実践 RSJ Seminar 2019-05-29

More Decks by Kota Yamaguchi

Other Decks in Technology

Featured

Transcript