Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Joint Fine-Tuning in Deep Neural Networks ...

論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition

Jung, Heechul, et al. "Joint fine-tuning in deep neural networks for facial expression recognition." Proceedings of the IEEE international conference on computer vision. 2015.
https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Jung_Joint_Fine-Tuning_in_ICCV_2015_paper.html

Avatar for Kazuki Adachi

Kazuki Adachi

June 05, 2022
Tweet

More Decks by Kazuki Adachi

Other Decks in Technology

Transcript

  1. 紹介論文 • Heechul Jung, Sihaeng Lee, Junho Yim, Sunjeong Park,

    Junmo Kim: “Joint Fine- Tuning in Deep Neural Networks for Facial Expression Recognition”, The IEEE International Conference on Computer Vision (ICCV), 2015, pp. 2983-2991 3
  2. Deep learningによる画像分類 • 従来の画像分類 – どの特徴量を用いるかは人間が決める(SIFT, SURFなど) • Deep learningによる画像分類

    – 特徴量の抽出と識別面の学習を同時に行える 6 特徴抽出 識別面の 学習 分類 画像 特徴抽出 識別面の 学習 分類 画像
  3. 表情認識におけるデータセットの課題 • 表情データベース – Cohn-Kanade (CK+)[1] – MMI[2] – Oulu-CASIA[3]

    • ラベル付けされた数百個の動画データ – Deep learningモデルの学習には少ない 7 大量のパラメータを持つため過学習(overfitting)に陥りやすい 大量のパラメータを持つため過学習(overfitting)に陥りやすい [1] Lucey, Patrick, et al. "The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression.“ Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on. IEEE, 2010. [2] Pantic, Maja, et al. "Web-based database for facial expression analysis." Multimedia and Expo, 2005. ICME 2005. IEEE International Conference on. IEEE, 2005. [3] Zhao, Guoying, et al. "Facial expression recognition from near-infrared videos." Image and Vision Computing 29.9 (2011): 607-619.
  4. 既存手法 • 3D CNN – CNN(Convolutional Neural Network)の畳み込みを 時間方向にも拡張したもの –

    時間方向でフィルタは共有 – 精度は他の手法に劣る • 3D HOG, 3D SIFT, LBP-TOP – 各特徴量を時間方向に拡張したもの – 適切な特徴を選択する必要がある 8
  5. 提案手法 9 2つのdeep networkを組み合わせる • CNN:画像データからの特徴抽出 (Deep Temporal Appearance Network;

    DTAN) • DNN:顔面上のランドマーク点の動作からの特徴抽出 (Deep Temporal Geometrical Network; DTGN) 2つのネットワークの出力を合わせて判定を行う • Joint fine-tuningの提案 DTAGN
  6. Deep Temporal Appearance Network (1) • 畳み込みニューラルネットワーク(CNN)で構成 • 時間的に連続した画像シーケンスで畳み込み •

    異なるフレーム(𝑡 = 1,2, … , 𝑇𝑎 )には異なる フィルタを適用 11 𝑡 = 1 𝑡 = 𝑇𝑎
  7. Deep Temporal Appearance Network (2) • 最初の畳み込み層 – 活性化関数はReLU(Rectified Linear

    Unit) 12 x s(x) O 活性化関数 フィルタ バイアス 時刻tのフレーム
  8. Deep Temporal Appearance Network (3) • 2層目以降は通常のCNNと同様 • プーリングは最大プーリングを使用 •

    正則化(regularization) – 重み減衰(weight decay) – Dropout 13 𝑡 = 1 𝑡 = 𝑇𝑎
  9. Deep Temporal Geometry Network (1) • IntraFaceアルゴリズム[4]により,顔面上の n=49個のランドマーク点を検出 – ランドマーク点の座標:

    • 鼻のランドマーク点を原点として座標を正規化 14 :標準偏差 :鼻の座標 [4] Xiong, Xuehan, and Fernando De la Torre. "Supervised descent method and its applications to face alignment." Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013.
  10. Deep Temporal Geometry Network (2) • 𝑡 = 1,2, …

    , 𝑇𝑔 の時系列順にすべての座標を並べてベクトル化 →DTGNへ入力 15 2𝑛𝑇𝑔 次元 𝑡 = 1 𝑡 = 𝑇𝑔
  11. 訓練データの増加(1) 訓練データ数が不十分なため,そのまま用いると過学習になる • DTANのデータ(画像) – 左右反転 – 回転(±5∘, ±10∘, ±15∘)

    – 左右反転+回転 16 加工したデータも用いることでデータ数を増加させ る 加工したデータも用いることでデータ数を増加させ る データ数14倍 オリジナル(N)+左右反転(N)+回転(6N)+両方(6N)=14N データ数14倍 オリジナル(N)+左右反転(N)+回転(6N)+両方(6N)=14N
  12. 訓練データの増加(2) • DTGNのデータ(座標) – ガウシアンノイズの付加 – 回転 17 データ数14倍 オリジナル(N)+ノイズ×3(3N)+回転×3(3N)+左右反転(7N)

    データ数14倍 オリジナル(N)+ノイズ×3(3N)+回転×3(3N)+左右反転(7N) 平均0 標準偏差𝜎𝑖 = 0.01 回転行列 𝜃 𝑡 :-p/10~p/10の一様乱数
  13. モデルの統合 • DTANとDTGNの出力を統合 1. 重み付き和(weighted-sum) – 従来手法 – それぞれの出力に重みを付けて加算 –

    本論文では実験的に求めたa = 0.5 を使用 2. Joint fine-tuning method – 提案手法 – DTANとDTGNの最後に全結合層を接続し,再訓練 18 最終的な出力 DTANの出力 DTGNの出力
  14. Joint Fine-Tuning Method(2) • 全体の損失関数をDTAN, DTGN, DTAGNの損失関数の 重み付き和とする – 実験的に𝜆1

    = 𝜆2 = 1, 𝜆3 = 0.1と定めた • それぞれの損失はクロスエントロピーとする 20 最小化 正解 出力
  15. Joint Fine-Tuning Method(3) • 全体の出力෤ 𝑦3 は,DTANとDTGNに追加した全結合層の 出力の和のソフトマックス • 最終的な判定は෤

    𝑦3 の要素の最大値のインデックス – DTANとDTGNそれぞれの出力෤ 𝑦1 , ෤ 𝑦2 は直接は判定に使われない 21 ソフトマックス関数
  16. データセット(1) • CK+ – 表情認識における代表的データセット – 118人分,計327本の動画 – 無表情から始まり表情のピークで終わる –

    anger(An; 怒り), contempt(Co; 軽蔑), disgust(Di; 嫌悪), fear(Fe; 恐怖), happiness(Ha; 幸福), sadness(Sa; 悲しみ), surprise(Su; 驚き) 23 An Co Di Ha Sa Su Fe
  17. データセット(2) • Oulu-CASIA – 80人分,480本の動画 – 無表情から始まり表情のピークで終わる – CK+からcontemptを除いた6種類のラベル •

    MMI – 30人分,205本の動画(他のデータセットに比べ少ない) – 無表情から始まり,動画の中間でピークとなる ➢ピークになるタイミングは与えられない – Oulu-CASIAと同じ6ラベル 24
  18. 既存手法(再掲) • 3D CNN – CNN(Convolutional Neural Network)の畳み込みを 時間方向にも拡張したもの –

    時間方向でフィルタは共有 – 精度は他の手法に劣る • 3D HOG, 3D SIFT, LBP-TOP – 各特徴量を時間方向に拡張したもの – 適切な特徴を選択する必要がある 26
  19. 実験結果 – CK+(1) 手法 分類精度 [%] HOG 3D 91.44 MSR

    91.4 TMS 91.89 Cov3D 92.3 STM-ExpLet 94.19 3DCNN 85.9 3DCNN-DAP 92.4 DTAN 91.44 DTGN 92.35 DTAGN (weighted-sum) 96.94 DTAGN (joint fine-tuning) 97.25 27
  20. 実験結果 – Oulu-CASIA(1) 手法 分類精度 [%] 3D SIFT 55.83 LBP-TOP

    68.13 HOG 3D 70.63 AdaLBP 73.54 Atlases 75.52 STM-ExpLet 74.59 DTAN 74.38 DTGN 74.17 DTAGN (weighted-sum) 80.62 DTAGN (joint fine-tuning) 81.46 31
  21. 実験結果 – MMI(1) 手法 分類精度 [%] HOG 3D 60.89 3D

    SIFT 64.39 ITBN 59.7 STM-ExpLet 75.12 3DCNN 53.2 3DCNN-DAP 63.4 DTAN 62.45 DTGN 59.02 DTAGN (weighted-sum) 65.85 DTAGN (joint-fine-tuning) 70.24 35
  22. 実験結果 – MMI(3) An Di Fe Ha Sa Su An

    61.29 25.8 0 0 12.9 0 Di 15.62 71.88 0 9.37 0 3.13 Fe 10.71 0 35.71 10.71 14.29 28.57 Ha 0 0 4.76 95.24 0 0 Sa 9.38 3.13 15.62 0 68.8 3.12 Su 2.5 0 20 2.5 0 75 37 正 解 ラ ベ ル 判定結果 • fearとsurpriseが区別されにくい
  23. 考察 • いずれのデータセットでもDTANとDTGNそれぞれの単体で は 精度は高くない • DTAN+DTGN=DTAGNでは高い精度を発揮する – 互いの精度の低い表情を補い合うように働いている •

    MMIデータベースでは既存手法の方が精度が高かった – データセットの数の少なさ ➢Deep learningモデルの性能は訓練データの質に大きく依存 – 特にsurpriseとfearの区別がつきにくい 40
  24. CNNのフィルタの可視化による比較 通常のCNN • 斑点や特定方向のエッジ を 学習 DTAN • エッジなどは無し •

    フレームの差分を学習 42 フ ィ ル タ 特 徴 マ ッ プ 時系列の特徴が学習されている 時系列の特徴が学習されている