Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)

論文紹介:TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)

TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)という論文を読んだのをまとめた資料です。

論文:https://www.ecva.net//papers/eccv_2022/papers_ECCV/html/5685_ECCV_2022_paper.php
コード:https://github.com/VinAIResearch/tise-toolbox

Seitaro Shinagawa

December 14, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. TISE: Bag of Metrics for Text-
    to-Image Synthesis Evaluation
    2022.12.14
    品川 政太朗 (NAIST)
    ECCV2022 論文紹介

    View Slide

  2. どんな論文?
    テキストからの画像生成の新しい評価指標TISEを提案
    ポイント: 従来の評価指標の問題点を指摘して改善した
    • Inception Score (IS)をcalibrationにより改善
    • R-precision (RP) と Semantic Object Accuracy (SOA)の過学
    習問題を改善→付録で説明
    • これまであまりやられてこなかった、多物体生成についての忠
    実度や、位置、数の評価の提案
    • 以上の改善を行った混合評価指標TISEをランキングに使うと
    人間の評価と一貫する(今まではあまりしていなかった)
    書誌情報:
    TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)
    Tan M. Dinh, Rang Nguyen, Binh-Son Hua
    コード: https://github.com/VinAIResearch/tise-toolbox 2/25

    View Slide

  3. その他の参考情報
    単一物体生成と多物体生成を得意とするAttnGAN++という手法も
    提案している
    • AttnGAN++はAttnGANにspectral normalizationを入れた手法
    (論文のsupplementaryを参照)
    比較はGANベースの手法がメイン
    • 最近のDiffusion modelについては未着手
    TISEはランキング指標であり、複数の手法間でのランクづけ(相対
    評価)を前提とする点に注意
    3/25

    View Slide

  4. TISE ranking score (RS)
    TISEによるランキング指標(RS)は以下の評価指標のランキン
    グにより計算
    • IS*: 改良版Inception Score (IS)
    • FID:Frechet Inception Distance
    • O-IS:Object-centric IS
    • O-FID: Object-centric FID
    • PA:Positional Alignment
    • CA:Counting Alignment
    • RP:R-precision
    (#は各指標のランキング指標という意味)
    比較手法がN個ある時、
    1番はN点、2番はN-1点
    という計算
    4/25

    View Slide

  5. IS*: 改良版Inception Score (IS)
    calibrationによりISの予測の偏りを修正した
    calibrationとは、確信度(confidence)とaccuracyを合わせること
    • ここで確信度とは予測確率のこと
    • 例:予測確率=0.7なら正解率も0.7(3割間違う)ようにする
    CUB datasetのISの偏りの修正(図3より引用)
    accuracy>confidence
    (under-confident)
    5/25

    View Slide

  6. IS*ではcalibrationにtemperature scalingを利用
    temperature scaling [Guo+,2017]
    [Guo+,2017] Guo, C., Pleiss, G., Sun, Y., Weinberger, K.Q.: On calibration
    of modern neural networks. arXiv preprint arXiv:1706.04599 (2017)
    𝜎 ⋅ ソフトマックス関数
    𝑧:logit
    𝑇:温度パラメータ
    𝑘:クラスラベル
    負の対数尤度を目的関数として、validation setを用いて𝑇を最適化
    CUBについては、T = 0.598
    (分布を急峻にしてconfidenceを底
    上げ)
    →ISのunder-confidentが改善
    6/25

    View Slide

  7. O-IS:Object-centric IS
    O-FID: Object-centric FID
    物体検出器による検出領域を一枚の画像として扱い、ISとFIDを計算
    物体検出器:
    • MSCOCOで事前訓練したMask-
    RCNNを利用
    ISとFIDの計算:
    • Inception-v3をMSCOCOの物体領域
    の矩形画像のデータセットでfine-
    tuningして使う
    物体検出
    (Mask-RCNN)
    IS, FID計算
    (Inception-v3)
    7/25

    View Slide

  8. PA:Positional Alignment
    説明文中の位置情報が生成画像に反映されているかを評価
    𝑊 = {above, right, far, outside, between, below, on top of,
    bottom, left, inside, in front of, behind, on, near, under }
    1. 位置に関する単語集合を用意
    2. 評価データセット中の単語𝑤 ∈ 𝑊を含む説明文の集合𝑃𝑤

    ら、以下のTripletを作成
    𝑃𝑤𝑖
    :"A man is in front of the blue car"
    𝑄𝑤𝑖: "A man is behind the blue car"
    𝐷𝑤
    = 𝑅𝑤𝑖
    , 𝑃𝑤𝑖
    , 𝑄𝑤𝑖 𝑖=1
    𝑁𝑤
    𝑅𝑤𝑖
    :生成画像
    𝑃𝑤𝑖
    :正例の説明文
    𝑄𝑤𝑖
    :負例の説明文
    𝑁𝑤
    :𝑃𝑤
    のサンプルサイズ
    負例𝑄𝑤𝑖
    は、𝑃𝑤𝑖
    中の𝑤を対義語に置き換えて作成
    8/25

    View Slide

  9. PA:Positional Alignment
    3. CLIPで画像𝑅𝑤𝑖
    と説明文𝑃𝑤𝑖
    , 𝑄𝑤𝑖
    との類似度を計算
    4. 𝑃𝑤𝑖
    による類似度が高かった回数𝑘𝑤
    を計算して単語𝑤ごとに
    成功率𝑘𝑤
    /𝑁𝑤
    を算出
    5. 上記を全ての単語𝑤 ∈ 𝑊について平均してPAを得る
    9/25

    View Slide

  10. CA:Counting Alignment
    1. MSCOCOのvalidation dataset中の説明文で数量情報
    (a, one, two, threeなど)を含む説明文を選別する
    ”A group of seven people having
    a light meal and discussion at a
    single large table”
    {”person”: 7.0,
    ”dining table”: 1.0}
    説明文中の数量情報をラベル付けして、生成画像の数量の反映度
    合を評価
    2. 数量のラベル付けを行う(カウント可能なもののみ事前に定義)
    1000サンプルに付与
    ラベル付けの例
    10/25

    View Slide

  11. CA:Counting Alignment
    [Cholakkal+,2019] Cholakkal, H., Sun, G., Khan, F.S., Shao, L.: Object counting
    and instance segmentation with image-level supervision. In: CVPR (2019)
    3. 生成画像の物体のカウントを行う
    • object counting model [Cholakkal+,2019] を利用
    4. 操作2.で得た正解の物体カウント数と操作3.で得た予測の
    物体カウント数をRMSEで比較したサンプル平均でCAを得る
    Ƹ
    𝑐𝑖𝑗
    :物体カウント数(正解)
    𝑐𝑖𝑗
    :物体カウント数(予測)
    11/25

    View Slide

  12. 人手評価の実験設定
    MSCOCOのtest setから50の説明文をサンプル
    1名あたり、1手法あたり生成画像50枚を評価
    • 実験参加者:40名
    • 手法:5つ
    評価方法:妥当性と自然性を総合的に5段階で評価
    • 妥当性(plausibility)は物体の存在、数量、位置、テキストの反映度
    合を総合的に評価
    • 自然性は生成画像の画像としての自然さ
    12/25

    View Slide

  13. 人手評価の実験結果
    RSと人手評価の比較(表5より引用)
    提案手法であるTISEによるランキングスコア(RS)は、人手評価と
    大小関係が一貫している
    • RSの計算:比較手法がN個ある時、1番はN点、2番はN-1点...
    • 比較手法が5つのとき、TISEの最低点は6点、最高点は30点
    • Real Imagesが35点なのは謎・・・
    13/25

    View Slide

  14. 各評価指標ごとの比較結果
    実画像(Real Images)の評価はIS*を除いて最上位のスコアになった
    →実画像よりも良くなってしまっている指標は良くない(IS*もまだダメ
    寄りということ)
    AttnGAN++は結構負けてる気がするが、
    RSでは一位になっている・・・?
    14/25

    View Slide

  15. Method IS* (uarr) FID (darr) RP(uarr) SOA-C (uarr)SOA-I (uarr) O-IS (uarr) O-FID (darr) CA (darr) PA (uarr) RS (uarr)
    GAN-CLS [29] 10 10 9 10 10 10 10 10 10 10
    StackGAN [44] 9 8 10 9 9 9 9 9 9 9
    AttnGAN [40] 6 6 6 6 5 6 7 5 8 7
    DM-GAN [46] 4 5 4 4 4 3 4 3 6 4
    CPGAN [17] 1 7 3 1 1 1 6 7 5 3
    DF-GAN [36] 7 1 8 7 7 4 1 6 7 6
    AttnGAN + CL [41] 5 4 5 5 6 7 5 4 4 5
    DM-GAN + CL [41] 3 2 2 3 3 5 3 2 1 2
    DALLE-mini (zero-shot) [3] 8 9 7 8 8 8 8 8 3 8
    AttnGAN++ (Ours) 2 3 1 2 2 2 2 1 2 1
    手元で順位表示に直してみた結果
    • AttnGAN++は2位が多いので最終的に一位になっている
    • CPGANは1位も多いが、FID、O-FIDとCA、PAの順位が低い
    15/25

    View Slide

  16. まとめ
    • テキストからの画像生成の新しい評価指標TISEを提案
    • TISEは複数の評価指標による評価指標(bag of metrics)
    • TISEは複数の手法同士の相対的な順位付けにより計算する
    所感
    • 異なる指標を順位で総合的に評価するのは良い方針だと思う
    • Positional AlignmentはPromptのちょっとした工夫で実現していて
    面白い。ただ、CLIPは位置関係には弱いのでは?fine-tuningを
    あえてしない理由があったのか少し気になる
    • O-ISやO-FIDは、物体検出器さえどうにかできれば他のドメインの
    画像にも応用が利きそう?
    • Diffusion modelを評価するとどうなるかは気になるところ
    • 不満な点として、今回の研究ストーリー的に、各評価指標が人間
    の主観評価とどう相関するのか詳しく見たいと思った。追試して検
    討する余地が多そう・・・ 16/25

    View Slide

  17. 以下、付録
    17/25

    View Slide

  18. Semantic Object Accuracy (SOA) [Hinz+,2019]
    入力テキスト中で言及された物体が生成画像に含まれるかを評価
    • SOA-I (average recall between images)
    • SOA-C (average recall between classes)
    • 𝐼𝑐
    :カテゴリ𝑐に属する画像
    • Object − Detector 𝑖𝑐
    ∈ 0,1
    [Hinz+,2019] Hinz, T., Heinrich, S., Wermter, S.: Semantic object accuracy for
    generative text-to-image synthesis. arXiv preprint arXiv:1910.13321 (2019) 18/25

    View Slide

  19. • CPGANで使われていたSOAのYOLO-v3は過学習している
    恐れ(実画像よりも生成画像の方がスコアが高い点から)
    • YOLO-v3の代わりにMask-RCNNを利用
    SOAの過学習問題の解決
    SOAの比較
    (supplementary material 表2より引用)
    Real Images
    を超えてる点
    で不自然
    19/25

    View Slide

  20. Inception Score (IS)
    𝑐𝑙𝑎𝑠𝑠
    𝑦
    𝑝 𝑦|𝑥
    𝑦1
    𝑦2
    𝑦3
    𝑦4
    𝑝 𝑦|𝑥1
    𝑝 𝑦|𝑥2
    𝑝 𝑦|𝑥3
    𝑝 𝑦
    log 𝐼𝑆
    =
    1
    𝑁


    𝐾𝐿 𝑝 𝑦|𝑥1
    || 𝑝 𝑦
    + 𝐾𝐿 𝑝 𝑦|𝑥2
    || 𝑝 𝑦
    + 𝐾𝐿 𝑝 𝑦|𝑥3
    || 𝑝 𝑦
    + ⋯
    品質と多様性を同時に評価する尺度。学習済み画像認識モデルに
    おける予測クラス分布𝑝(𝑦|𝑥)と周辺分布𝑝(𝑦)の間のKLの期待値(高
    いほど良い)
    各サンプル𝑥について、
    • 𝑝(𝑦|𝑥)がとがっているほどISは大きくなる(識別しやすさ≒品質)
    • 𝑝(𝑦)が滑らかで偏っていないほどISは大きくなる(多様性)
    20/25

    View Slide

  21. ISについての議論
    • サンプル集合による評価(𝑝(𝑦)が仮定できればサンプルごとに評
    価可能?)
    • 性能は学習済みモデルに依存
    • ISはFIDに比べるとハックされやすい
    21/25

    View Slide

  22. Frechet Inception Distance (FID)
    𝝁 ∶ ℎの分布の平均
    𝚺 ∶ ℎの分布の共分散行列
    品質を評価する尺度。学習済み画像認識モデルにより実画像と生成
    画像の特徴量の統計量(平均と分散)の距離によって算出する
    22/25

    View Slide

  23. FIDについての議論
    • サンプル集合による統計的な評価
    • 性能は学習済みモデルに依存
    • ISと違って実画像を使って評価している
    • とはいっても、統計量を使っているので参照画像があるわけ
    ではない
    • 用意されている統計量を使う場合は結局ブラックボックスな
    のでISと五十歩百歩感はありそう
    • リサイズの実装によってスコアに影響があると一時期話題に
    • 現在は解決されている(はず)
    • 詳細はclean-fid https://github.com/GaParmar/clean-fid
    23/25

    View Slide

  24. R-precision (RP) [Xu+,2018]
    テキストからの画像生成における生成画像の一貫性を評価
    (もともとは情報検索で使われている指標)
    1. 画像とテキストの埋め込みのコサイン類似度
    でランキング
    2. top R個 (R=1)を選択したときの、R個中の正
    解アイテム数rの割合がRP=r/R
    • クエリ(画像)に対して正解となるアイテム(テ
    キスト)がR個あるとする
    • アイテムの数は任意、ここでは100個うち1個
    が正解(R=1)で残りはランダムな負例
    [Xu+,2018] AttnGAN: Fine-Grained Text to Image Generation with
    Attentional Generative Adversarial Networks (CVPR2018)
    ?
    つまり、Recall@1です
    24/25

    View Slide

  25. RPの過学習問題の解決
    • RPの計算に使われていたDAMSM encoder [Xu,2018]は
    MSCOCOに過学習している恐れ(実画像よりも生成画像の方
    がスコアが高い点から)
    • DAMSM encoderの代わりにCLIPを利用
    SOAの比較
    (supplementary material 表2より引用)
    Real Images
    を超えてる点
    で不自然
    25/25

    View Slide