Efros, E. Shechtman, and O. Wang, “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric,” Apr. 10, 2018, arXiv: arXiv:1801.03924. doi: 10.48550/arXiv.1801.03924. ↩︎ L P は、入力画像 と生成画像 の間の知覚的損失です。LPIPS (Learned Perceptual Image Patch Similarity) を使用します。LPIPS は、人間の知覚に基づいて画像の類似性を評価する指標です。 L (x, ) P x x x [1]
2 つの分布の分散共分散行列の差異のトレース(詳細は計算式を参照してください) 値は小さいほど良く、BigGAN で約7, 最新の評価にはDiffusion で約2 となっています。 計算にあたってはベンチマーク対象が必要で、LlamaGen ではImageNet でベンチマークを行っています。 1. M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium,” Jan. 12, 2018, arXiv: arXiv:1706.08500. doi: 10.48550/arXiv.1706.08500. ↩︎ [1] 日本語にするとフレチェインセプション距離でしょうか。2 つの分布の違いを、中心の違いと散らばり方の違 いの2 つの観点から測り、足し合わせた値です。
、Recall は約0.5 となっています。 1. T. Kynkäänniemi, T. Karras, S. Laine, J. Lehtinen, and T. Aila, “Improved Precision and Recall Metric for Assessing Generative Models,” Oct. 30, 2019, arXiv: arXiv:1904.06991. doi: 10.48550/arXiv.1904.06991. ↩︎ [1] 適合度と再現率です。実際の画像の分布と生成した画像の分布の重なり合う範囲を比較します。