Controllable and Guided Face Synthesis for Unconstrained Face Recognition (ECCV 2022)

Slide 1

Slide 1 text

技術研究開発本部先進技術研究所先端センシング研究部前野一樹 ECCV 2022 Controllable and Guided Face Synthesis for Unconstrained Face Recognition 要約 2022/11/17

Slide 2

Slide 2 text

2 ©️ Panasonic Connect Co., Ltd. 2022 • ECCV 2022 • arxiv, プロジェクトページ, github • arxivのライセンス: CC BY 4.0 • 著者所属: Michigan State University • 著者名: Feng Liu, Minchul Kim, Anil Jain, and Xiaoming Liu 関連リンク, 著者情報参考文献: [1]

Slide 3

Slide 3 text

3 ©️ Panasonic Connect Co., Ltd. 2022 • [問題] 制約のない実環境だと学習データとギャップがあって顔認証が困難 ⇒ [取組] 実環境の画像のスタイルで画像を合成して顔認証モデルを学習 • [結果] unconstrainedな評価データセットで高精度 • 網羅的サーベイで書いた概要論文の概要参考文献: [1] 画像は[1-1]より引用

Slide 4

Slide 4 text

Stage1: Controllable Face Synthesis Model(CFSM)

Slide 5

Slide 5 text

5 ©️ Panasonic Connect Co., Ltd. 2022 • (前提) 2つの学習データが利用可能 – ラベル有の学習データ(ある程度高品質, source): 𝑥 = Χ 𝑖=1 𝑛 – ラベル無の学習データ(低品質, target): 𝑦 = 𝑌 𝑖=1 𝑚 – よくあるスタイル変換と違い、同一対象のスタイル違いのペアはない • やりたいこと – 向きや表情、個人性を保ちつつ、スタイルだけをtargetに変換したい (ここでは、環境起因のノイズ、ブラー等だけをスタイルとする) – targetの属性(attribute)を陽に調整したい Stage1: CFSM(Controllable Face Synthesis Model) (1/n) 参考文献: [1]

Slide 6

Slide 6 text

6 ©️ Panasonic Connect Co., Ltd. 2022 • Multimodal Image Translation NetworkとAdaINを構造として採用 • 合成画像の生成手順は↓で、入力画像の特徴𝐶と、スタイルの潜在空間コード𝑧から合成画像(Outputs) ෠ 𝑋を得ている • スタイルのコード𝑧は、𝑁𝑞 (0, 𝐼)からサンプルされた係数𝑜に基づき、𝑞個の直交したコードの線形結合(𝑈𝑜 + 𝜇(平均スタイル))で表現されている Stage1: CFSM(Controllable Face Synthesis Model) (2/n) 参考文献: [1] [2] [3] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

Slide 7

Slide 7 text

7 ©️ Panasonic Connect Co., Ltd. 2022 • スタイルのコード𝑧は、𝑁𝑞 (0, 𝐼)からサンプルされた係数𝑜に基づき、𝑞個の直交したコードの線形結合(𝑈𝑜 + 𝜇(平均スタイル))で表現されている • 𝑈(色々なスタイル)と𝜇は学習可能で、 𝑈が直交 Stage1: CFSM(Controllable Face Synthesis Model) (3/n) ★工夫点★ 参考文献: [1] [2] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

Slide 8

Slide 8 text

8 ©️ Panasonic Connect Co., Ltd. 2022 • 合成画像がtargetの分布になるように𝐿𝑎𝑑𝑣 • 𝑈(色々なスタイル)が直交するように𝐿𝑜𝑟𝑡 • 個人性を保つ(顔認証特徴がinputとoutputで変化しない)ように𝐿𝑖𝑑 を重みづけして、𝐿𝑔 = 𝜆𝑎𝑑𝑣 𝐿𝑎𝑑𝑣 + 𝜆𝑜𝑟𝑡 𝐿𝑜𝑟𝑡 + 𝜆𝑖𝑑 𝐿𝑖𝑑 を最小化する Stage1: CFSM(Controllable Face Synthesis Model) (4/n) 参考文献: [1] 𝐿𝑎𝑑𝑣 = −𝐸𝑥~𝑋,𝑧~𝑍 [log(1 − 𝐷( ෠ 𝑋)] 𝑧 = 𝑈𝑜 + 𝜇 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 𝐿𝑜𝑟𝑡 = 𝑈𝑇𝑈 − 𝐼 1 画像は[1-1]より引用

Slide 9

Slide 9 text

9 ©️ Panasonic Connect Co., Ltd. 2022 • 個人性を保つ(顔認証特徴がinputとoutputで変化しない)ように𝐿𝑖𝑑 • ↑を素直に書くと𝐿𝑖𝑑 = 1 − 𝑆𝐶 (𝑓 𝑋 , 𝑓 ෠ 𝑋 ) ※𝑆𝐶 : 𝑐𝑜𝑠類似度, 𝑓:顔認証モデル • スタイル(≒画質劣化)の度合𝑎 = 𝑜 を考えた時、劣化度合𝑎が大きければ cos類似度は下がるし、小さければ上がる単調増減の関係にあると思われる ⇒ 𝐿𝑖𝑑 = 1 − 𝑆𝐶 𝑓 𝑋 , 𝑓 ෠ 𝑋 − 𝑔(𝑎) 2 2 • (余談) ↑の損失は、 MagFaceのアイディアと定式化を持ち込んだ模様 • 𝑈(スタイルコードのベクトル(≒向き))と、 𝑜 (劣化度合(≒大きさ))を、同時最適化することで、適切な画像変換が可能となる! Stage1: CFSM(Controllable Face Synthesis Model) (5/n) ★工夫点★ 参考文献: [1] [4] 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

Slide 10

Slide 10 text

Stage2: Guided Face Synthesis for Face Recognition

Slide 11

Slide 11 text

11 ©️ Panasonic Connect Co., Ltd. 2022 • 合成は出来たとして、どう顔認証(=FR)モデルの精度を上げるかを考える • 合成=データ拡張として、拡張のパラメタはスタイルコードの係数𝑜 でも、ランダムな係数𝑜だと簡単(or困難)すぎる拡張もしそう ⇒ 敵対的学習でFRモデルの学習に有用な拡張パラメタを探そう! Stage2: Guided Face Synthesis for Face Recognition (1/n) 参考文献: [1] ෠ 𝑋 = 𝐺(𝐶, 𝑀𝐿𝑃(𝑧)) 𝐶 = 𝐸(𝑋) 𝑧 = 𝑈𝑜 + 𝜇 𝑜~𝑁𝑞 (0, 𝐼) 𝑈 = [𝑢1 , … , 𝑢𝑞 ] 画像は[1-1]より引用

Slide 12

Slide 12 text

12 ©️ Panasonic Connect Co., Ltd. 2022 • FRモデルのロス(ArcFace等)を最大化するよう、スタイルコードの係数𝑜に与える摂動𝛿を学習する • 効率を上げるためone-step Fast Gradient Sign Method (FGSM)を利用 • FRモデルの学習は、通常の画像と合成画像を同時に与えるイメージ ([・]はconcatenation) Stage2: Guided Face Synthesis for Face Recognition (2/n) 参考文献: [1] [5] [6] 𝛿∗ = 𝑎𝑟𝑔 max 𝛿 ∞<𝜀 𝐿𝑐𝑙𝑎 (𝐹 𝑋∗ , 𝑙) 𝐹: FRモデル 𝑋∗: 合成画像 𝑙: (損失関数???) 𝛿: スタイルコードの摂動 𝜀: 摂動のbudget 𝛿∗ = ε ∙ sgn(∇𝑧 𝐿𝑐𝑙𝑎 (𝐹 𝑋∗ , 𝑙)) min 𝜃 𝐿𝑐𝑙𝑎 ( 𝑋∗, 𝑋 , 𝑙)

Slide 13

Slide 13 text

13 ©️ Panasonic Connect Co., Ltd. 2022 FRモデルの学習手順 – 1. ミニバッチの画像𝑋それぞれに対し、係数𝑜で合成画像 ෠ 𝑋を生成 – 2. 式(7),(8)に基づき、摂動𝛿∗を算出 – 3. 摂動𝛿∗を利用して、 𝑜∗ = 𝑜 + 𝛿∗を算出し、 𝑜∗を利用して𝑋∗を合成 – 4. 元画像𝑋と合成画像𝑋∗からランダムに半分ずつサンプリングし、最終的なFRモデルの学習用ミニバッチを構成 – メモ.係数𝑜のサンプリングはepochごと(っぽい) Stage2: Guided Face Synthesis for Face Recognition (3/n) 参考文献: [1]

Slide 14

Slide 14 text

実験

Slide 15

Slide 15 text

15 ©️ Panasonic Connect Co., Ltd. 2022 • MS1Mの~10%でsource domainのモデルを学習 • WideFaceでtarget domainのモデルを学習 CFSMの学習条件参考文献: [1]

Slide 16

Slide 16 text

16 ©️ Panasonic Connect Co., Ltd. 2022 • 提案手法を利用することで精度改善 • 従来手法に比べて高精度 Unconstrainedな評価データの精度参考文献: [1] 画像は[1-1]より引用画像は[1-1]より引用

Slide 17

Slide 17 text

17 ©️ Panasonic Connect Co., Ltd. 2022 • 単純にランダムな係数𝑜で学習したOurs*より、Oursの精度が高い(Table 3) • 生成された画像を見ると、劣化度合いがGuidedで弱まっており、学習に有効な合成画像が作れているように思われる Effect of Guidance in CFSM 参考文献: [1] 画像は[1-1]より引用画像は[1-1]より引用

Slide 18

Slide 18 text

18 ©️ Panasonic Connect Co., Ltd. 2022 • 複数のデータセットで合成モデルを学習 • 合成モデルのLinear Subspace(𝑈 = [𝑢1 , … , 𝑢𝑞 ])を比較 Subspace間の距離は𝑆 𝐴, 𝐵 = 1 𝑞 (σ 𝑖 𝑞 𝑆𝑐 (𝑢𝐴 𝑖 + 𝑢𝐴 , 𝑢𝐵 𝑖 + 𝑢𝐵 ))で算出 • WiderFaceとIJB-B, IJB-SはSubspaceが似ていそう(⇒精度改善に寄与) Analysis and Visualizations of the Face Synthesis model (1/n) 参考文献: [1] 画像は[1-1]より引用

Slide 19

Slide 19 text

19 ©️ Panasonic Connect Co., Ltd. 2022 • Magnitudeがスタイルの強度(劣化度合い)と関連しているように見える • AgeDBだと、スタイルとして年齢変化みたいなものを獲得していそう? Analysis and Visualizations of the Face Synthesis model (2/n) 参考文献: [1] 画像は[1-1]より引用

Slide 20

Slide 20 text

まとめ

Slide 21

Slide 21 text

21 ©️ Panasonic Connect Co., Ltd. 2022 • Linear Subspaceのアイディアを提案し – コントローラブルで – ターゲットの分布を上手くとらえた合成方法を実現 • コントローラブルな合成をFRモデルの学習に上手く利用し、 Unconstrainedな評価データで精度を改善論文の貢献参考文献: [1]

Slide 22

Slide 22 text

22 ©️ Panasonic Connect Co., Ltd. 2022 • Wider FaceとIJB-Sは、低解像度が共通因子としてあるから上手くいくのだろうけど、unlabeledとはいえ実際の評価環境に近いデータをある程度大量に集めるというのは、実サービスだとどれくらい現実的なのか • 顔認証が絡んだ手法と比較しているが、 – ドメイン適応 – データ拡張最適化も近いエリアで、これらと比較しないで査読で突っ込まれなかったか • AgeDBのスタイルで年齢変化みたいなものを獲得していそうで、非環境要因のスタイルも拾ってしまいそうだと感じた. それで良いのか?という疑問と、逆に上手く使えるアイディアがあるのでは?というので気になる気になるところ参考文献: [1]

Slide 23

Slide 23 text

23 ©️ Panasonic Connect Co., Ltd. 2022 参考文献 • [1] Controllable and Guided Face Synthesis for Unconstrained Face Recognition – [1-1] https://arxiv.org/abs/2207.10180 – [1-2] http://cvlab.cse.msu.edu/project-cfsm.html – [1-3] https://github.com/liuf1990/CFSM • [2] Multimodal Unsupervised Image-to-Image Translation – [2-1] https://arxiv.org/abs/1804.04732 – [2-2] https://github.com/eriklindernoren/PyTorch-GAN/tree/master/implementations/munit – [2-3] https://shiropen.com/seamless/ai-nvidia-munit • [3] Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization – [3-1] https://arxiv.org/abs/1703.06868 • [4] MagFace: A universal representation for face recognition and quality assessment – [4-1] https://arxiv.org/abs/2103.06627 – [4-2] https://irvingmeng.github.io/projects/magface/ – [4-3] https://github.com/IrvingMeng/MagFace – [4-4] https://speakerdeck.com/kuz44ma69/adaface-cvpr22 • [5] ArcFace: Additive Angular Margin Loss for Deep Face Recognition – [5-1] https://arxiv.org/abs/1801.07698 • [6] Explaining and Harnessing Adversarial Examples – [6-1] https://arxiv.org/abs/1412.6572

Slide 24

Slide 24 text

No content