Iterative prompt learning for unsupervised backlit image enhancement

Sansan株式会社部署名前 Iterative prompt learning for unsupervised backlit image
enhancement Sansan技術本部第60回コンピュータビジョン勉強会＠関東 Sansan株式会社技術本部研究開発部今井海人

写真が入ります今井海⼈ Sansan株式会社技術本部研究開発部リサーチャー千葉⼯業⼤学⼤学院先進⼯学研究科修⼠課程修了。現在は名刺画像の品質改善に関する研究開発に従事。

- 論⽂情報 - 背景：逆光画像の補正 - 提案⼿法：CLIP-LIT - 実験 - まとめ
⽬次 ※図表は紹介論⽂からの引⽤となります

- 書誌情報 - タイトル: Iterative Prompt Learning for Unsupervised Backlit
Image Enhancement - 著者: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy - 所属: Nanyang Technological University (南洋理⼯⼤学) - 概要 - CLIPを損失関数とする、⾼い汎化性能を持つ逆光画像補正⼿法の提案 - 選定理由 - 弊社が取り組んでいる名刺画像補正とタスクの難しいポイントが似ている > 弊社ではCLIPのLow-level visionタスクへの応⽤にも取り組んでいる MIRU2023ではCLIPによるFew-shot IQAについて発表論⽂情報

- 逆光画像： - 背後の光源により被写体が暗くなり細部や⾊が失われた画像 - 露出不⾜と露出超過が同時に発⽣しやすく補正が難しい - 逆光補正：⽩⾶びや⾊の破綻を抑えつつ被写体の明るさを修正 Backlit Image
Enhancement / 逆光画像補正⼊⼒画像レタッチ画像

⼀部の画像において、⽩⾶びや⾊味の変化などが発⽣既存⼿法は汎化性能に課題⼊⼒画像 URetinex-Net EnlightenGAN レタッチ画像

- ⼀般的な画像復元：劣化画像とクリーン画像のペアデータを収集 - 例：暗所画像復元では同じシーンで暗所、通常光で撮影 - 逆光画像補正：逆光・通常光のペア収集は困難 - 多くは教師なし⼿法：CycleGAN的に逆光画像から通常光への変換を学習 > 汎化性能に乏しく、⾊味や⽩⾶びの問題が発⽣しやすい傾向
- 初の教師ありデータセットBAID[Lv+,CVIU2022]が公開 > データ数や撮影シーンに限りがあり、実データに適⽤した場合に性能が低下 > 学習データにはレタッチが必須→データ収集コスト⾼逆光画像のペアデータ収集が困難 🎯 本論⽂の⽬的: ペアデータセットに依存せずに、ロバストな逆光補正⼿法を実現

提案⼿法

CLIPによる画質評価 (IQA)が、⼈の評価と相関することが⽰されている逆光補正の損失関数として利⽤できないか？ - CLIP-IQA[J. Wang+, AAAI2023] - Zero-shotでも古典的なIQA⼿法を上回るプロンプトの学習によりSOTAに近い性能
- 観測画像が，画像の品質を表現するポジティブ・ネガティブプロンプトのどちらに類似するかで画像品質を評価アプローチ：vision lunage modelの活⽤品質スコア

- 画像補正CNNと損失関数CLIPを２ステージで学習 - 1st stage：CLIPプロンプトと画像補正CNNを初期化 - 2nd stage：CLIPプロンプトと画像補正CNNを反復的に学習提案⼿法:CLIP-LIT

1. CLIPの⼊⼒プロンプトベクトルを学習（ほぼCLIP-IQA） - Well-lit、Backlit画像に対応する Positive、Negativeプロンプトを学習 1. 画像補正CNN(U-Net)の学習提案⼿法：1st stage パラメータは
を採⽤

- 画像補正CNNとCLIPを交互に学習し、プロンプトを洗練 - 画像補正CNN:学習は1st stageと同様 - CLIP:新たに補正画像(t,t-1)も⼊⼒し、margin ranking lossで学習 2nd
stage

- Margin ranking lossを⽤いてプロンプトを学習 - 推論結果をwell-lit画像に近づくように、backlit画像から遠くなるように学習 2nd stage：CLIPのプロンプト学習パラメータはを採用

- なぜ反復が必要？ 1st stageだけでは⾊味や明暗を評価できない - Attention map: 反復を増やすごとに暗い場所によりattentionが反応 - 出⼒画像の変化:
Round 0では暗かった領域も⾃然に明るく 2nd stageの反復学習による効果

実験

- データセット - 学習: > backlit画像にBAIDから380枚 > well-lit画像にDiv2Kから384枚 - 評価:
> BAIDテストセット（正解レタッチ画像あり） > Backlit300(著者らがFlikerやPixelから収集) - 評価指標 - Full reference：PSNR, SSIM, LPIPS - Non Reference: MUSIQ - ⼈によるアンケート評価 - 学習設定 - イテレーション数：合計50k(U-Netの初期化:1k, 1st stage: 10k , 2nd stage: 39k) 実験設定

- 再学習した⽐較⼿法に対しても、全ての指標において上回る定量評価：既存⼿法との⽐較

定性評価：提案⼿法は⾃然な補正

- 教師あり⼿法を再学習した結果と⽐較： - 未知のデータセットで性能がドロップ - ⽐較⼿法の出⼒画像にはブラーが存在 - CLIPとAdversarial lossの⽐較：既存⼿法との⽐較

- 固定プロンプトと、学習したプロンプトの⽐較 - 画像を少しずつ補正した時にCLIPスコアが反応するか？ - 反復学習は効果があるか？提案⼿法の追加検証

- 逆光画像補正 - 既存⼿法は汎化性能に課題があり、⼀部の画像で出⼒品質が低下 - ⾼品質なペアデータ収集は困難であり、教師なし⼿法が求められる - 提案⼿法：CLIP-LIT - CLIPモデルに埋め込まれた豊富な事前知識を損失関数として利⽤
- 限られた学習データから既存⼿法を遥かに上回る汎化性能を⽰す - Limitation - 極端な露出超過/不⾜により、情報が⽋落していると補正に失敗まとめ

Sansan 研究開発部募集ポジション紹介 https://media.sansan-engineering.com/randd

Iterative prompt learning for unsupervised back...

Iterative prompt learning for unsupervised backlit image enhancement

Sansan R&D

More Decks by Sansan R&D

Other Decks in Technology

Featured

Transcript

Sansan株式会社部署名前 Iterative prompt learning for unsupervised backlit image

写真が入ります今井海⼈ Sansan株式会社技術本部研究開発部リサーチャー千葉⼯業⼤学⼤学院先進⼯学研究科修⼠課程修了。現在は名刺画像の品質改善に関する研究開発に従事。

- 論⽂情報 - 背景：逆光画像の補正 - 提案⼿法：CLIP-LIT - 実験 - まとめ

- 書誌情報 - タイトル: Iterative Prompt Learning for Unsupervised Backlit

- 逆光画像： - 背後の光源により被写体が暗くなり細部や⾊が失われた画像 - 露出不⾜と露出超過が同時に発⽣しやすく補正が難しい - 逆光補正：⽩⾶びや⾊の破綻を抑えつつ被写体の明るさを修正 Backlit Image

⼀部の画像において、⽩⾶びや⾊味の変化などが発⽣既存⼿法は汎化性能に課題⼊⼒画像 URetinex-Net EnlightenGAN レタッチ画像

提案⼿法

CLIPによる画質評価 (IQA)が、⼈の評価と相関することが⽰されている逆光補正の損失関数として利⽤できないか？ - CLIP-IQA[J. Wang+, AAAI2023] - Zero-shotでも古典的なIQA⼿法を上回るプロンプトの学習によりSOTAに近い性能

- 画像補正CNNと損失関数CLIPを２ステージで学習 - 1st stage：CLIPプロンプトと画像補正CNNを初期化 - 2nd stage：CLIPプロンプトと画像補正CNNを反復的に学習提案⼿法:CLIP-LIT

1. CLIPの⼊⼒プロンプトベクトルを学習（ほぼCLIP-IQA） - Well-lit、Backlit画像に対応する Positive、Negativeプロンプトを学習 1. 画像補正CNN(U-Net)の学習提案⼿法：1st stage パラメータは

- 画像補正CNNとCLIPを交互に学習し、プロンプトを洗練 - 画像補正CNN:学習は1st stageと同様 - CLIP:新たに補正画像(t,t-1)も⼊⼒し、margin ranking lossで学習 2nd

- Margin ranking lossを⽤いてプロンプトを学習 - 推論結果をwell-lit画像に近づくように、backlit画像から遠くなるように学習 2nd stage：CLIPのプロンプト学習パラメータはを採用

- なぜ反復が必要？ 1st stageだけでは⾊味や明暗を評価できない - Attention map: 反復を増やすごとに暗い場所によりattentionが反応 - 出⼒画像の変化:

実験

- データセット - 学習: > backlit画像にBAIDから380枚 > well-lit画像にDiv2Kから384枚 - 評価:

- 再学習した⽐較⼿法に対しても、全ての指標において上回る定量評価：既存⼿法との⽐較

定性評価：提案⼿法は⾃然な補正

定性評価：提案⼿法は⾃然な補正

- 教師あり⼿法を再学習した結果と⽐較： - 未知のデータセットで性能がドロップ - ⽐較⼿法の出⼒画像にはブラーが存在 - CLIPとAdversarial lossの⽐較：既存⼿法との⽐較

- 固定プロンプトと、学習したプロンプトの⽐較 - 画像を少しずつ補正した時にCLIPスコアが反応するか？ - 反復学習は効果があるか？提案⼿法の追加検証

Sansan 研究開発部募集ポジション紹介 https://media.sansan-engineering.com/randd