Controllable and Guided Face Synthesis for Unconstrained Face Recognition (ECCV 2022)

技術研究開発本部先進技術研究所先端センシング研究部前野一樹 ECCV 2022 Controllable and Guided Face Synthesis for
Unconstrained Face Recognition 要約 2022/11/17

2 ©️ Panasonic Connect Co., Ltd. 2022 • ECCV 2022
• arxiv, プロジェクトページ, github • arxivのライセンス: CC BY 4.0 • 著者所属: Michigan State University • 著者名: Feng Liu, Minchul Kim, Anil Jain, and Xiaoming Liu 関連リンク, 著者情報参考文献: [1]

3 ©️ Panasonic Connect Co., Ltd. 2022 • [問題] 制約のない実環境だと学習データとギャップがあって顔認証が困難
⇒ [取組] 実環境の画像のスタイルで画像を合成して顔認証モデルを学習 • [結果] unconstrainedな評価データセットで高精度 • 網羅的サーベイで書いた概要論文の概要参考文献: [1] 画像は[1-1]より引用

Stage1: Controllable Face Synthesis Model(CFSM)

5 ©️ Panasonic Connect Co., Ltd. 2022 • (前提) 2つの学習データが利用可能
– ラベル有の学習データ(ある程度高品質, source): 𝑥 = Χ 𝑖=1 𝑛 – ラベル無の学習データ(低品質, target): 𝑦 = 𝑌 𝑖=1 𝑚 – よくあるスタイル変換と違い、同一対象のスタイル違いのペアはない • やりたいこと – 向きや表情、個人性を保ちつつ、スタイルだけをtargetに変換したい (ここでは、環境起因のノイズ、ブラー等だけをスタイルとする) – targetの属性(attribute)を陽に調整したい Stage1: CFSM(Controllable Face Synthesis Model) (1/n) 参考文献: [1]

6 ©️ Panasonic Connect Co., Ltd. 2022 • Multimodal Image
Translation NetworkとAdaINを構造として採用 • 合成画像の生成手順は↓で、入力画像の特徴𝐶と、スタイルの潜在空間コード𝑧から合成画像(Outputs) ෠ 𝑋を得ている • スタイルのコード𝑧は、𝑁𝑞 (0, 𝐼)からサンプルされた係数𝑜に基づき、𝑞個の直交したコードの線形結合(𝑈𝑜 + 𝜇(平均スタイル))で表現されている Stage1: CFSM(Controllable Face Synthesis Model) (2/n) 参考文献: [1] [2] [3] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

7 ©️ Panasonic Connect Co., Ltd. 2022 • スタイルのコード𝑧は、𝑁𝑞 (0,
𝐼)からサンプルされた係数𝑜に基づき、𝑞個の直交したコードの線形結合(𝑈𝑜 + 𝜇(平均スタイル))で表現されている • 𝑈(色々なスタイル)と𝜇は学習可能で、 𝑈が直交 Stage1: CFSM(Controllable Face Synthesis Model) (3/n) ★工夫点★ 参考文献: [1] [2] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

8 ©️ Panasonic Connect Co., Ltd. 2022 • 合成画像がtargetの分布になるように𝐿𝑎𝑑𝑣 •
𝑈(色々なスタイル)が直交するように𝐿𝑜𝑟𝑡 • 個人性を保つ(顔認証特徴がinputとoutputで変化しない)ように𝐿𝑖𝑑 を重みづけして、𝐿𝑔 = 𝜆𝑎𝑑𝑣 𝐿𝑎𝑑𝑣 + 𝜆𝑜𝑟𝑡 𝐿𝑜𝑟𝑡 + 𝜆𝑖𝑑 𝐿𝑖𝑑 を最小化する Stage1: CFSM(Controllable Face Synthesis Model) (4/n) 参考文献: [1] 𝐿𝑎𝑑𝑣 = −𝐸𝑥~𝑋,𝑧~𝑍 [log(1 − 𝐷( ෠ 𝑋)] 𝑧 = 𝑈𝑜 + 𝜇 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 𝐿𝑜𝑟𝑡 = 𝑈𝑇𝑈 − 𝐼 1 画像は[1-1]より引用

9 ©️ Panasonic Connect Co., Ltd. 2022 • 個人性を保つ(顔認証特徴がinputとoutputで変化しない)ように𝐿𝑖𝑑 •
↑を素直に書くと𝐿𝑖𝑑 = 1 − 𝑆𝐶 (𝑓 𝑋 , 𝑓 ෠ 𝑋 ) ※𝑆𝐶 : 𝑐𝑜𝑠類似度, 𝑓:顔認証モデル • スタイル(≒画質劣化)の度合𝑎 = 𝑜 を考えた時、劣化度合𝑎が大きければ cos類似度は下がるし、小さければ上がる単調増減の関係にあると思われる ⇒ 𝐿𝑖𝑑 = 1 − 𝑆𝐶 𝑓 𝑋 , 𝑓 ෠ 𝑋 − 𝑔(𝑎) 2 2 • (余談) ↑の損失は、 MagFaceのアイディアと定式化を持ち込んだ模様 • 𝑈(スタイルコードのベクトル(≒向き))と、 𝑜 (劣化度合(≒大きさ))を、同時最適化することで、適切な画像変換が可能となる! Stage1: CFSM(Controllable Face Synthesis Model) (5/n) ★工夫点★ 参考文献: [1] [4] 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

Stage2: Guided Face Synthesis for Face Recognition

11 ©️ Panasonic Connect Co., Ltd. 2022 • 合成は出来たとして、どう顔認証(=FR)モデルの精度を上げるかを考える •
合成=データ拡張として、拡張のパラメタはスタイルコードの係数𝑜 でも、ランダムな係数𝑜だと簡単(or困難)すぎる拡張もしそう ⇒ 敵対的学習でFRモデルの学習に有用な拡張パラメタを探そう! Stage2: Guided Face Synthesis for Face Recognition (1/n) 参考文献: [1] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

12 ©️ Panasonic Connect Co., Ltd. 2022 • FRモデルのロス(ArcFace等)を最大化するよう、スタイルコードの係数𝑜に与える摂動𝛿を学習する
• 効率を上げるためone-step Fast Gradient Sign Method (FGSM)を利用 • FRモデルの学習は、通常の画像と合成画像を同時に与えるイメージ ([・]はconcatenation) Stage2: Guided Face Synthesis for Face Recognition (2/n) 参考文献: [1] [5] [6] 𝛿∗ = 𝑎𝑟𝑔 max 𝛿 ∞<𝜀 𝐿𝑐𝑙𝑎 (𝐹 𝑋∗ , 𝑙) 𝐹: FRモデル 𝑋∗: 合成画像 𝑙: (損失関数???) 𝛿: スタイルコードの摂動 𝜀: 摂動のbudget 𝛿∗ = ε ∙ sgn(∇𝑧 𝐿𝑐𝑙𝑎 (𝐹 𝑋∗ , 𝑙)) min 𝜃 𝐿𝑐𝑙𝑎 ( 𝑋∗, 𝑋 , 𝑙)

13 ©️ Panasonic Connect Co., Ltd. 2022 FRモデルの学習手順 – 1.
ミニバッチの画像𝑋それぞれに対し、係数𝑜で合成画像 ෠ 𝑋を生成 – 2. 式(7),(8)に基づき、摂動𝛿∗を算出 – 3. 摂動𝛿∗を利用して、 𝑜∗ = 𝑜 + 𝛿∗を算出し、 𝑜∗を利用して𝑋∗を合成 – 4. 元画像𝑋と合成画像𝑋∗からランダムに半分ずつサンプリングし、最終的なFRモデルの学習用ミニバッチを構成 – メモ.係数𝑜のサンプリングはepochごと(っぽい) Stage2: Guided Face Synthesis for Face Recognition (3/n) 参考文献: [1]

実験

15 ©️ Panasonic Connect Co., Ltd. 2022 • MS1Mの~10%でsource domainのモデルを学習
• WideFaceでtarget domainのモデルを学習 CFSMの学習条件参考文献: [1]

16 ©️ Panasonic Connect Co., Ltd. 2022 • 提案手法を利用することで精度改善 •
従来手法に比べて高精度 Unconstrainedな評価データの精度参考文献: [1] 画像は[1-1]より引用画像は[1-1]より引用

17 ©️ Panasonic Connect Co., Ltd. 2022 • 単純にランダムな係数𝑜で学習したOurs*より、Oursの精度が高い(Table 3)
• 生成された画像を見ると、劣化度合いがGuidedで弱まっており、学習に有効な合成画像が作れているように思われる Effect of Guidance in CFSM 参考文献: [1] 画像は[1-1]より引用画像は[1-1]より引用

18 ©️ Panasonic Connect Co., Ltd. 2022 • 複数のデータセットで合成モデルを学習 •
合成モデルのLinear Subspace(𝑈 = [𝑢1 , … , 𝑢𝑞 ])を比較 Subspace間の距離は𝑆 𝐴, 𝐵 = 1 𝑞 (σ 𝑖 𝑞 𝑆𝑐 (𝑢𝐴 𝑖 + 𝑢𝐴 , 𝑢𝐵 𝑖 + 𝑢𝐵 ))で算出 • WiderFaceとIJB-B, IJB-SはSubspaceが似ていそう(⇒精度改善に寄与) Analysis and Visualizations of the Face Synthesis model (1/n) 参考文献: [1] 画像は[1-1]より引用

19 ©️ Panasonic Connect Co., Ltd. 2022 • Magnitudeがスタイルの強度(劣化度合い)と関連しているように見える •
AgeDBだと、スタイルとして年齢変化みたいなものを獲得していそう? Analysis and Visualizations of the Face Synthesis model (2/n) 参考文献: [1] 画像は[1-1]より引用

まとめ

21 ©️ Panasonic Connect Co., Ltd. 2022 • Linear Subspaceのアイディアを提案し
– コントローラブルで – ターゲットの分布を上手くとらえた合成方法を実現 • コントローラブルな合成をFRモデルの学習に上手く利用し、 Unconstrainedな評価データで精度を改善論文の貢献参考文献: [1]

22 ©️ Panasonic Connect Co., Ltd. 2022 • Wider FaceとIJB-Sは、低解像度が共通因子としてあるから上手くいくのだ
ろうけど、unlabeledとはいえ実際の評価環境に近いデータをある程度大量に集めるというのは、実サービスだとどれくらい現実的なのか • 顔認証が絡んだ手法と比較しているが、 – ドメイン適応 – データ拡張最適化も近いエリアで、これらと比較しないで査読で突っ込まれなかったか • AgeDBのスタイルで年齢変化みたいなものを獲得していそうで、非環境要因のスタイルも拾ってしまいそうだと感じた. それで良いのか?という疑問と、逆に上手く使えるアイディアがあるのでは?というので気になる気になるところ参考文献: [1]

23 ©️ Panasonic Connect Co., Ltd. 2022 参考文献 • [1]
Controllable and Guided Face Synthesis for Unconstrained Face Recognition – [1-1] https://arxiv.org/abs/2207.10180 – [1-2] http://cvlab.cse.msu.edu/project-cfsm.html – [1-3] https://github.com/liuf1990/CFSM • [2] Multimodal Unsupervised Image-to-Image Translation – [2-1] https://arxiv.org/abs/1804.04732 – [2-2] https://github.com/eriklindernoren/PyTorch-GAN/tree/master/implementations/munit – [2-3] https://shiropen.com/seamless/ai-nvidia-munit • [3] Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization – [3-1] https://arxiv.org/abs/1703.06868 • [4] MagFace: A universal representation for face recognition and quality assessment – [4-1] https://arxiv.org/abs/2103.06627 – [4-2] https://irvingmeng.github.io/projects/magface/ – [4-3] https://github.com/IrvingMeng/MagFace – [4-4] https://speakerdeck.com/kuz44ma69/adaface-cvpr22 • [5] ArcFace: Additive Angular Margin Loss for Deep Face Recognition – [5-1] https://arxiv.org/abs/1801.07698 • [6] Explaining and Harnessing Adversarial Examples – [6-1] https://arxiv.org/abs/1412.6572

Controllable and Guided Face Synthesis for Unco...

Controllable and Guided Face Synthesis for Unconstrained Face Recognition (ECCV 2022)

kuzma

More Decks by kuzma

Other Decks in Technology

Featured

Transcript

技術研究開発本部先進技術研究所先端センシング研究部前野一樹 ECCV 2022 Controllable and Guided Face Synthesis for

2 ©️ Panasonic Connect Co., Ltd. 2022 • ECCV 2022

3 ©️ Panasonic Connect Co., Ltd. 2022 • [問題] 制約のない実環境だと学習データとギャップがあって顔認証が困難

Stage1: Controllable Face Synthesis Model(CFSM)

5 ©️ Panasonic Connect Co., Ltd. 2022 • (前提) 2つの学習データが利用可能

6 ©️ Panasonic Connect Co., Ltd. 2022 • Multimodal Image

7 ©️ Panasonic Connect Co., Ltd. 2022 • スタイルのコード𝑧は、𝑁𝑞 (0,

8 ©️ Panasonic Connect Co., Ltd. 2022 • 合成画像がtargetの分布になるように𝐿𝑎𝑑𝑣 •

9 ©️ Panasonic Connect Co., Ltd. 2022 • 個人性を保つ(顔認証特徴がinputとoutputで変化しない)ように𝐿𝑖𝑑 •

Stage2: Guided Face Synthesis for Face Recognition

11 ©️ Panasonic Connect Co., Ltd. 2022 • 合成は出来たとして、どう顔認証(=FR)モデルの精度を上げるかを考える •

12 ©️ Panasonic Connect Co., Ltd. 2022 • FRモデルのロス(ArcFace等)を最大化するよう、スタイルコードの係数𝑜に与える摂動𝛿を学習する

13 ©️ Panasonic Connect Co., Ltd. 2022 FRモデルの学習手順 – 1.

実験

15 ©️ Panasonic Connect Co., Ltd. 2022 • MS1Mの~10%でsource domainのモデルを学習

16 ©️ Panasonic Connect Co., Ltd. 2022 • 提案手法を利用することで精度改善 •

17 ©️ Panasonic Connect Co., Ltd. 2022 • 単純にランダムな係数𝑜で学習したOurs*より、Oursの精度が高い(Table 3)

18 ©️ Panasonic Connect Co., Ltd. 2022 • 複数のデータセットで合成モデルを学習 •

19 ©️ Panasonic Connect Co., Ltd. 2022 • Magnitudeがスタイルの強度(劣化度合い)と関連しているように見える •

まとめ

21 ©️ Panasonic Connect Co., Ltd. 2022 • Linear Subspaceのアイディアを提案し

22 ©️ Panasonic Connect Co., Ltd. 2022 • Wider FaceとIJB-Sは、低解像度が共通因子としてあるから上手くいくのだ

23 ©️ Panasonic Connect Co., Ltd. 2022 参考文献 • [1]