Slide 1

Slide 1 text

TISE: Bag of Metrics for Text- to-Image Synthesis Evaluation 2022.12.14 品川 政太朗 (NAIST) ECCV2022 論文紹介

Slide 2

Slide 2 text

どんな論文? テキストからの画像生成の新しい評価指標TISEを提案 ポイント: 従来の評価指標の問題点を指摘して改善した • Inception Score (IS)をcalibrationにより改善 • R-precision (RP) と Semantic Object Accuracy (SOA)の過学 習問題を改善→付録で説明 • これまであまりやられてこなかった、多物体生成についての忠 実度や、位置、数の評価の提案 • 以上の改善を行った混合評価指標TISEをランキングに使うと 人間の評価と一貫する(今まではあまりしていなかった) 書誌情報: TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022) Tan M. Dinh, Rang Nguyen, Binh-Son Hua コード: https://github.com/VinAIResearch/tise-toolbox 2/25

Slide 3

Slide 3 text

その他の参考情報 単一物体生成と多物体生成を得意とするAttnGAN++という手法も 提案している • AttnGAN++はAttnGANにspectral normalizationを入れた手法 (論文のsupplementaryを参照) 比較はGANベースの手法がメイン • 最近のDiffusion modelについては未着手 TISEはランキング指標であり、複数の手法間でのランクづけ(相対 評価)を前提とする点に注意 3/25

Slide 4

Slide 4 text

TISE ranking score (RS) TISEによるランキング指標(RS)は以下の評価指標のランキン グにより計算 • IS*: 改良版Inception Score (IS) • FID:Frechet Inception Distance • O-IS:Object-centric IS • O-FID: Object-centric FID • PA:Positional Alignment • CA:Counting Alignment • RP:R-precision (#は各指標のランキング指標という意味) 比較手法がN個ある時、 1番はN点、2番はN-1点 という計算 4/25

Slide 5

Slide 5 text

IS*: 改良版Inception Score (IS) calibrationによりISの予測の偏りを修正した calibrationとは、確信度(confidence)とaccuracyを合わせること • ここで確信度とは予測確率のこと • 例:予測確率=0.7なら正解率も0.7(3割間違う)ようにする CUB datasetのISの偏りの修正(図3より引用) accuracy>confidence (under-confident) 5/25

Slide 6

Slide 6 text

IS*ではcalibrationにtemperature scalingを利用 temperature scaling [Guo+,2017] [Guo+,2017] Guo, C., Pleiss, G., Sun, Y., Weinberger, K.Q.: On calibration of modern neural networks. arXiv preprint arXiv:1706.04599 (2017) 𝜎 ⋅ ソフトマックス関数 𝑧:logit 𝑇:温度パラメータ 𝑘:クラスラベル 負の対数尤度を目的関数として、validation setを用いて𝑇を最適化 CUBについては、T = 0.598 (分布を急峻にしてconfidenceを底 上げ) →ISのunder-confidentが改善 6/25

Slide 7

Slide 7 text

O-IS:Object-centric IS O-FID: Object-centric FID 物体検出器による検出領域を一枚の画像として扱い、ISとFIDを計算 物体検出器: • MSCOCOで事前訓練したMask- RCNNを利用 ISとFIDの計算: • Inception-v3をMSCOCOの物体領域 の矩形画像のデータセットでfine- tuningして使う 物体検出 (Mask-RCNN) IS, FID計算 (Inception-v3) 7/25

Slide 8

Slide 8 text

PA:Positional Alignment 説明文中の位置情報が生成画像に反映されているかを評価 𝑊 = {above, right, far, outside, between, below, on top of, bottom, left, inside, in front of, behind, on, near, under } 1. 位置に関する単語集合を用意 2. 評価データセット中の単語𝑤 ∈ 𝑊を含む説明文の集合𝑃𝑤 か ら、以下のTripletを作成 𝑃𝑤𝑖 :"A man is in front of the blue car" 𝑄𝑤𝑖: "A man is behind the blue car" 𝐷𝑤 = 𝑅𝑤𝑖 , 𝑃𝑤𝑖 , 𝑄𝑤𝑖 𝑖=1 𝑁𝑤 𝑅𝑤𝑖 :生成画像 𝑃𝑤𝑖 :正例の説明文 𝑄𝑤𝑖 :負例の説明文 𝑁𝑤 :𝑃𝑤 のサンプルサイズ 負例𝑄𝑤𝑖 は、𝑃𝑤𝑖 中の𝑤を対義語に置き換えて作成 8/25

Slide 9

Slide 9 text

PA:Positional Alignment 3. CLIPで画像𝑅𝑤𝑖 と説明文𝑃𝑤𝑖 , 𝑄𝑤𝑖 との類似度を計算 4. 𝑃𝑤𝑖 による類似度が高かった回数𝑘𝑤 を計算して単語𝑤ごとに 成功率𝑘𝑤 /𝑁𝑤 を算出 5. 上記を全ての単語𝑤 ∈ 𝑊について平均してPAを得る 9/25

Slide 10

Slide 10 text

CA:Counting Alignment 1. MSCOCOのvalidation dataset中の説明文で数量情報 (a, one, two, threeなど)を含む説明文を選別する ”A group of seven people having a light meal and discussion at a single large table” {”person”: 7.0, ”dining table”: 1.0} 説明文中の数量情報をラベル付けして、生成画像の数量の反映度 合を評価 2. 数量のラベル付けを行う(カウント可能なもののみ事前に定義) 1000サンプルに付与 ラベル付けの例 10/25

Slide 11

Slide 11 text

CA:Counting Alignment [Cholakkal+,2019] Cholakkal, H., Sun, G., Khan, F.S., Shao, L.: Object counting and instance segmentation with image-level supervision. In: CVPR (2019) 3. 生成画像の物体のカウントを行う • object counting model [Cholakkal+,2019] を利用 4. 操作2.で得た正解の物体カウント数と操作3.で得た予測の 物体カウント数をRMSEで比較したサンプル平均でCAを得る Ƹ 𝑐𝑖𝑗 :物体カウント数(正解) 𝑐𝑖𝑗 :物体カウント数(予測) 11/25

Slide 12

Slide 12 text

人手評価の実験設定 MSCOCOのtest setから50の説明文をサンプル 1名あたり、1手法あたり生成画像50枚を評価 • 実験参加者:40名 • 手法:5つ 評価方法:妥当性と自然性を総合的に5段階で評価 • 妥当性(plausibility)は物体の存在、数量、位置、テキストの反映度 合を総合的に評価 • 自然性は生成画像の画像としての自然さ 12/25

Slide 13

Slide 13 text

人手評価の実験結果 RSと人手評価の比較(表5より引用) 提案手法であるTISEによるランキングスコア(RS)は、人手評価と 大小関係が一貫している • RSの計算:比較手法がN個ある時、1番はN点、2番はN-1点... • 比較手法が5つのとき、TISEの最低点は6点、最高点は30点 • Real Imagesが35点なのは謎・・・ 13/25

Slide 14

Slide 14 text

各評価指標ごとの比較結果 実画像(Real Images)の評価はIS*を除いて最上位のスコアになった →実画像よりも良くなってしまっている指標は良くない(IS*もまだダメ 寄りということ) AttnGAN++は結構負けてる気がするが、 RSでは一位になっている・・・? 14/25

Slide 15

Slide 15 text

Method IS* (uarr) FID (darr) RP(uarr) SOA-C (uarr)SOA-I (uarr) O-IS (uarr) O-FID (darr) CA (darr) PA (uarr) RS (uarr) GAN-CLS [29] 10 10 9 10 10 10 10 10 10 10 StackGAN [44] 9 8 10 9 9 9 9 9 9 9 AttnGAN [40] 6 6 6 6 5 6 7 5 8 7 DM-GAN [46] 4 5 4 4 4 3 4 3 6 4 CPGAN [17] 1 7 3 1 1 1 6 7 5 3 DF-GAN [36] 7 1 8 7 7 4 1 6 7 6 AttnGAN + CL [41] 5 4 5 5 6 7 5 4 4 5 DM-GAN + CL [41] 3 2 2 3 3 5 3 2 1 2 DALLE-mini (zero-shot) [3] 8 9 7 8 8 8 8 8 3 8 AttnGAN++ (Ours) 2 3 1 2 2 2 2 1 2 1 手元で順位表示に直してみた結果 • AttnGAN++は2位が多いので最終的に一位になっている • CPGANは1位も多いが、FID、O-FIDとCA、PAの順位が低い 15/25

Slide 16

Slide 16 text

まとめ • テキストからの画像生成の新しい評価指標TISEを提案 • TISEは複数の評価指標による評価指標(bag of metrics) • TISEは複数の手法同士の相対的な順位付けにより計算する 所感 • 異なる指標を順位で総合的に評価するのは良い方針だと思う • Positional AlignmentはPromptのちょっとした工夫で実現していて 面白い。ただ、CLIPは位置関係には弱いのでは?fine-tuningを あえてしない理由があったのか少し気になる • O-ISやO-FIDは、物体検出器さえどうにかできれば他のドメインの 画像にも応用が利きそう? • Diffusion modelを評価するとどうなるかは気になるところ • 不満な点として、今回の研究ストーリー的に、各評価指標が人間 の主観評価とどう相関するのか詳しく見たいと思った。追試して検 討する余地が多そう・・・ 16/25

Slide 17

Slide 17 text

以下、付録 17/25

Slide 18

Slide 18 text

Semantic Object Accuracy (SOA) [Hinz+,2019] 入力テキスト中で言及された物体が生成画像に含まれるかを評価 • SOA-I (average recall between images) • SOA-C (average recall between classes) • 𝐼𝑐 :カテゴリ𝑐に属する画像 • Object − Detector 𝑖𝑐 ∈ 0,1 [Hinz+,2019] Hinz, T., Heinrich, S., Wermter, S.: Semantic object accuracy for generative text-to-image synthesis. arXiv preprint arXiv:1910.13321 (2019) 18/25

Slide 19

Slide 19 text

• CPGANで使われていたSOAのYOLO-v3は過学習している 恐れ(実画像よりも生成画像の方がスコアが高い点から) • YOLO-v3の代わりにMask-RCNNを利用 SOAの過学習問題の解決 SOAの比較 (supplementary material 表2より引用) Real Images を超えてる点 で不自然 19/25

Slide 20

Slide 20 text

Inception Score (IS) 𝑐𝑙𝑎𝑠𝑠 𝑦 𝑝 𝑦|𝑥 𝑦1 𝑦2 𝑦3 𝑦4 𝑝 𝑦|𝑥1 𝑝 𝑦|𝑥2 𝑝 𝑦|𝑥3 𝑝 𝑦 log 𝐼𝑆 = 1 𝑁 ቄ ቅ 𝐾𝐿 𝑝 𝑦|𝑥1 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥2 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥3 || 𝑝 𝑦 + ⋯ 品質と多様性を同時に評価する尺度。学習済み画像認識モデルに おける予測クラス分布𝑝(𝑦|𝑥)と周辺分布𝑝(𝑦)の間のKLの期待値(高 いほど良い) 各サンプル𝑥について、 • 𝑝(𝑦|𝑥)がとがっているほどISは大きくなる(識別しやすさ≒品質) • 𝑝(𝑦)が滑らかで偏っていないほどISは大きくなる(多様性) 20/25

Slide 21

Slide 21 text

ISについての議論 • サンプル集合による評価(𝑝(𝑦)が仮定できればサンプルごとに評 価可能?) • 性能は学習済みモデルに依存 • ISはFIDに比べるとハックされやすい 21/25

Slide 22

Slide 22 text

Frechet Inception Distance (FID) 𝝁 ∶ ℎの分布の平均 𝚺 ∶ ℎの分布の共分散行列 品質を評価する尺度。学習済み画像認識モデルにより実画像と生成 画像の特徴量の統計量(平均と分散)の距離によって算出する 22/25

Slide 23

Slide 23 text

FIDについての議論 • サンプル集合による統計的な評価 • 性能は学習済みモデルに依存 • ISと違って実画像を使って評価している • とはいっても、統計量を使っているので参照画像があるわけ ではない • 用意されている統計量を使う場合は結局ブラックボックスな のでISと五十歩百歩感はありそう • リサイズの実装によってスコアに影響があると一時期話題に • 現在は解決されている(はず) • 詳細はclean-fid https://github.com/GaParmar/clean-fid 23/25

Slide 24

Slide 24 text

R-precision (RP) [Xu+,2018] テキストからの画像生成における生成画像の一貫性を評価 (もともとは情報検索で使われている指標) 1. 画像とテキストの埋め込みのコサイン類似度 でランキング 2. top R個 (R=1)を選択したときの、R個中の正 解アイテム数rの割合がRP=r/R • クエリ(画像)に対して正解となるアイテム(テ キスト)がR個あるとする • アイテムの数は任意、ここでは100個うち1個 が正解(R=1)で残りはランダムな負例 [Xu+,2018] AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks (CVPR2018) ? つまり、Recall@1です 24/25

Slide 25

Slide 25 text

RPの過学習問題の解決 • RPの計算に使われていたDAMSM encoder [Xu,2018]は MSCOCOに過学習している恐れ(実画像よりも生成画像の方 がスコアが高い点から) • DAMSM encoderの代わりにCLIPを利用 SOAの比較 (supplementary material 表2より引用) Real Images を超えてる点 で不自然 25/25