Slide 1

Slide 1 text

Sansan株式会社 部署 名前 Iterative prompt learning for unsupervised backlit image enhancement Sansan技術本部 第60回 コンピュータビジョン勉強会@関東 Sansan株式会社 技術本部 研究開発部 今井 海人

Slide 2

Slide 2 text

写真が入ります 今井 海⼈ Sansan株式会社 技術本部 研究開発部 リサーチャー 千葉⼯業⼤学⼤学院先進⼯学研究科修⼠課程修了。 現在は名刺画像の品質改善に関する研究開発に従事。

Slide 3

Slide 3 text

- 論⽂情報 - 背景:逆光画像の補正 - 提案⼿法:CLIP-LIT - 実験 - まとめ ⽬次 ※図表は紹介論⽂からの引⽤となります

Slide 4

Slide 4 text

- 書誌情報 - タイトル: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement - 著者: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy - 所属: Nanyang Technological University (南洋理⼯⼤学) - 概要 - CLIPを損失関数とする、⾼い汎化性能を持つ逆光画像補正⼿法の提案 - 選定理由 - 弊社が取り組んでいる名刺画像補正とタスクの難しいポイントが似ている > 弊社ではCLIPのLow-level visionタスクへの応⽤にも取り組んでいる MIRU2023ではCLIPによるFew-shot IQAについて発表 論⽂情報

Slide 5

Slide 5 text

- 逆光画像: - 背後の光源により被写体が暗くなり細部や⾊が失われた画像 - 露出不⾜と露出超過が同時に発⽣しやすく補正が難しい - 逆光補正:⽩⾶びや⾊の破綻を抑えつつ被写体の明るさを修正 Backlit Image Enhancement / 逆光画像補正 ⼊⼒画像 レタッチ画像

Slide 6

Slide 6 text

⼀部の画像において、⽩⾶びや⾊味の変化などが発⽣ 既存⼿法は汎化性能に課題 ⼊⼒画像 URetinex-Net EnlightenGAN レタッチ画像

Slide 7

Slide 7 text

- ⼀般的な画像復元:劣化画像とクリーン画像のペアデータを収集 - 例:暗所画像復元では同じシーンで暗所、通常光で撮影 - 逆光画像補正:逆光・通常光のペア収集は困難 - 多くは教師なし⼿法:CycleGAN的に逆光画像から通常光への変換を学習 > 汎化性能に乏しく、⾊味や⽩⾶びの問題が発⽣しやすい傾向 - 初の教師ありデータセットBAID[Lv+,CVIU2022]が公開 > データ数や撮影シーンに限りがあり、実データに適⽤した場合に性能が低下 > 学習データにはレタッチが必須→データ収集コスト⾼ 逆光画像のペアデータ収集が困難 🎯 本論⽂の⽬的: ペアデータセットに依存せずに、ロバストな逆光補正⼿法を実現

Slide 8

Slide 8 text

提案⼿法

Slide 9

Slide 9 text

CLIPによる画質評価 (IQA)が、⼈の評価と相関することが⽰されている 逆光補正の損失関数として利⽤できないか? - CLIP-IQA[J. Wang+, AAAI2023] - Zero-shotでも古典的なIQA⼿法を上回る プロンプトの学習によりSOTAに近い性能 - 観測画像が,画像の品質を表現する ポジティブ・ネガティブプロンプトの どちらに類似するかで画像品質を評価 アプローチ:vision lunage modelの活⽤ 品質スコア

Slide 10

Slide 10 text

- 画像補正CNNと損失関数CLIPを2ステージで学習 - 1st stage:CLIPプロンプトと画像補正CNNを初期化 - 2nd stage:CLIPプロンプトと画像補正CNNを反復的に学習 提案⼿法:CLIP-LIT

Slide 11

Slide 11 text

1. CLIPの⼊⼒プロンプトベクトルを学習(ほぼCLIP-IQA) - Well-lit、Backlit画像に対応する Positive、Negativeプロンプトを学習 1. 画像補正CNN(U-Net)の学習 提案⼿法:1st stage パラメータは を採⽤

Slide 12

Slide 12 text

- 画像補正CNNとCLIPを交互に学習し、プロンプトを洗練 - 画像補正CNN:学習は1st stageと同様 - CLIP:新たに補正画像(t,t-1)も⼊⼒し、margin ranking lossで学習 2nd stage

Slide 13

Slide 13 text

- Margin ranking lossを⽤いてプロンプトを学習 - 推論結果をwell-lit画像に近づくように、backlit画像から遠くなるように学習 2nd stage:CLIPのプロンプト学習 パラメータは を採用

Slide 14

Slide 14 text

- なぜ反復が必要? 1st stageだけでは⾊味や明暗を評価できない - Attention map: 反復を増やすごとに暗い場所によりattentionが反応 - 出⼒画像の変化: Round 0では暗かった領域も⾃然に明るく 2nd stageの反復学習による効果

Slide 15

Slide 15 text

実験

Slide 16

Slide 16 text

- データセット - 学習: > backlit画像にBAIDから380枚 > well-lit画像にDiv2Kから384枚 - 評価: > BAIDテストセット(正解レタッチ画像あり) > Backlit300(著者らがFlikerやPixelから収集) - 評価指標 - Full reference:PSNR, SSIM, LPIPS - Non Reference: MUSIQ - ⼈によるアンケート評価 - 学習設定 - イテレーション数:合計50k(U-Netの初期化:1k, 1st stage: 10k , 2nd stage: 39k) 実験設定

Slide 17

Slide 17 text

- 再学習した⽐較⼿法に対しても、全ての指標において上回る 定量評価:既存⼿法との⽐較

Slide 18

Slide 18 text

定性評価:提案⼿法は⾃然な補正

Slide 19

Slide 19 text

定性評価:提案⼿法は⾃然な補正

Slide 20

Slide 20 text

- 教師あり⼿法を再学習した結果と⽐較: - 未知のデータセットで性能がドロップ - ⽐較⼿法の出⼒画像にはブラーが存在 - CLIPとAdversarial lossの⽐較: 既存⼿法との⽐較

Slide 21

Slide 21 text

- 固定プロンプトと、 学習したプロンプトの⽐較 - 画像を少しずつ補正した時にCLIPスコアが反応するか? - 反復学習は効果があるか? 提案⼿法の追加検証

Slide 22

Slide 22 text

- 逆光画像補正 - 既存⼿法は汎化性能に課題があり、⼀部の画像で出⼒品質が低下 - ⾼品質なペアデータ収集は困難であり、教師なし⼿法が求められる - 提案⼿法:CLIP-LIT - CLIPモデルに埋め込まれた豊富な事前知識を損失関数として利⽤ - 限られた学習データから既存⼿法を遥かに上回る汎化性能を⽰す - Limitation - 極端な露出超過/不⾜により、情報が⽋落していると補正に失敗 まとめ

Slide 23

Slide 23 text

Sansan 研究開発部 募集ポジション紹介 https://media.sansan-engineering.com/randd

Slide 24

Slide 24 text

No content