Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Facial Action Unit Detection Using Active ...

論文紹介:Facial Action Unit Detection Using Active Learning and an Efficient Non-linear Kernel Approximation

Senechal, Thibaud, Daniel McDuff, and Rana Kaliouby. "Facial action unit detection using active learning and an efficient non-linear kernel approximation." Proceedings of the IEEE International Conference on Computer Vision Workshops. 2015.

https://openaccess.thecvf.com/content_iccv_2015_workshops/w2/html/Senechal_Facial_Action_Unit_ICCV_2015_paper.html

Avatar for Kazuki Adachi

Kazuki Adachi

March 15, 2022
Tweet

More Decks by Kazuki Adachi

Other Decks in Technology

Transcript

  1. 紹介論文 • Thibaud Senechal, Daniel McDuff, Rana Kaliouby: “Facial Action

    Unit Detection using Active Learning and an Efficient Non-Linear Kernel Approximation”, Proceedings of the IEEE International Conference on Computer Vision Workshops, 2015 3
  2. 目次 • 背景 • 訓練データ – 収集 – ラベリング –

    課題 • SVMによる分類 • 特徴抽出 • 提案手法 – 能動学習 – カーネル近似 • 実験 • まとめ • おわりに 4
  3. 背景 • 近年,多くの表情認識アプリケーションが開発されている • 広告に対する見た人の反応の判定などに利用 – 自然に起こるわずかな表情の認識 – リアルタイム性 •

    精度の高い表情認識に必要なもの – 適切な特徴選択 – 分類器 – 大量の訓練データ • 全てに人手でラベル付けするのは困難 • 学習や分類の際の計算量の増加 5
  4. 訓練データの収集 • 認識したい表情の正例と負例を大量に集める必要性 • 大量のデータすべてに人手でラベル付けするのは困難 • 表情データベース – Cohn-Kanade (CK+)[1]

    – MMI[2] – DISFA[3] 6 自然な表情を大量の人数から集める必要がある • 特定の環境 • 作られた表情 • 収集した人数が少ない 多様性に 乏しい [1] Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., Ambadar, Z., & Matthews, I. (2010). The Extended Cohn-Kanade Dataset (CK+): A complete expression dataset for action unit and emotion-specified expression. Proceedings of the Third International Workshop on CVPR for Human Communicative Behavior Analysis (CVPR4HB 2010), San Francisco, USA, 94-101. [2] Pantic, Maja, et al. "Web-based database for facial expression analysis." Multimedia and Expo, 2005. ICME 2005. IEEE International Conference on. IEEE, 2005. [3] Mavadati, S. Mohammad, et al. "Disfa: A spontaneous facial action intensity database." IEEE Transactions on Affective Computing 4.2 (2013): 151-160.
  5. • 顔面動作符号化システム(FACS; Facial Action Coding System) • 表情の分類に広く用いられる分類基準 • 顔の解剖学的な知見をもとに様々な顔の動きをコード化

    • 表情の客観的な評価が可能 • FACSコーディングを行うには多くの 学習と経験が必要 →限られた人にしか出来ず, 訓練データのラベリング 7 大量のラベリングは困難 http://www.microexpressions.jp/mission.html
  6. 能動学習によるデータ収集(1) • 有用なデータに優先的にラベル付けを行うための提案手法 • 本論文で識別する表情 – AU02(眉が上がる動作) – AU04(眉が下がる動作) –

    smile • オンラインで180万の表情の動画を収集 • 人手によるラベル付け – AU04:1858枚,AU02:3771枚,smile:6275枚 17 負 例 正 例
  7. 能動学習によるデータ収集(2) • AU02, AU04の正例はsmileよりスパース →能動学習によりAU02, AU04を収集 1. ラベル付けしたデータを用いSVMで AU02, AU04それぞれを判定する仮の分類器を作成

    2. すべての動画をSVMで判定 →出力値(識別関数の値?)をシグモイド関数に通し, 0~100に正規化 3. 2.の値が2秒間以上連続して10を超えるセグメントを抽出 18 仮SVM シグモイド関数 0 100
  8. 能動学習によるデータ収集(3) • 抽出されたセグメントに対し 平均値でランキング化 – 短くても出力の高いものは 上位に来る • ランキングの上位からAU02, AU04をそれぞれ

    13,500セグメントずつ収集 →AU02, AU04, smileのラベル付け • 少なかったAU02, AU04の正例が多く得られた – 正例集めだけでなく,負例集めにも役立つ 19 AU02, AU04 smile 能動学習なし 2%未満 20% 能動学習あり 30%ずつ 20% それぞれの表情の正例を含むセグメントの割合
  9. カーネルの近似(2) • 𝒔:𝑁s 個のサンプルに対するカーネル行列𝐾の固有値 (eigenvalue) • すべてのデータに ෨ 𝜙を適用 →

    𝑁s 次元空間上で線形SVMにより学習 – 分類にかかる時間のほとんどは ෨ 𝜙の計算( ∝ 𝑁s )となる – 𝑁s を調整することによって精度と計算量のバランスを変えられる 21
  10. 実験 • 能動学習とSVMのカーネル近似による性能の変化を評価 • 訓練データ – 正例と負例を同数使用 – 訓練画像を動画セグメントから多くの異なる人物が 含まれるように抽出

    • テストデータ – 訓練データには含まれない2500人分の動画から10000枚の テスト用画像を抽出 – 能動学習は使わずに収集 – AU02, AU04, smile以外の表情も含有 22 能動学習 AU02 AU04 smile なし 1400 1800 1800 あり 5200 4800 4000 収集された正例動画セグメント数
  11. 実験2 計算量と精度のバランスの評価 • 1秒間に分類できるフレーム数(FPS)と精度を測定 • HOG特徴量が抽出された後の分類にかかる時間を測定 • RBFカーネルSVM – 訓練データ数Nを変化させた

    • N=200, 1000, 2000, 4000, 10000, 20000, 40000, 80000 • 提案SVM – ෨ 𝜙による写像の計算時間も含める – 訓練データ数は80000に固定 – サンプルデータ数𝑁s を変化 • 𝑁s = 200, 500, 1000, 2000 • 能動学習で得た訓練データを使用 28
  12. 実験2 考察 • 線形SVM – 分類時間はHOGの抽出時間(2500 FPS)に比べて無視できる – AU02, AU04の精度が低い

    • RBFカーネルSVM – 訓練データ数が少なくても高い精度が得られた – 分類時間は比較的遅い • 提案SVM – 𝑁s を大きくすれば精度は上がるが,分類速度は遅くなる – 同じFPSで比較した場合RBFカーネルより高い精度が得られている →精度と分類速度のトレードオフの改善 32
  13. 実験3 能動学習の効果の評価 • 訓練データ収集に能動学習を用いる場合と 用いない場合を比較 • それぞれの場合について,得られた動画セグメントの中から 訓練画像を抽出 – 訓練画像数は同じ

    – 画像中の異なる人物の人数は2~3倍異なる 33 能動学習 AU02 AU04 smile なし 1400 1800 1800 あり 5200 4800 4000 収集された正例動画セグメント数(再掲)