Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Iterative prompt learning for unsupervised back...

Sansan R&D
November 02, 2023

Iterative prompt learning for unsupervised backlit image enhancement

■イベント :第60回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/297737/

■登壇概要
タイトル:Iterative prompt learning for unsupervised backlit image enhancement
発表者: 技術本部 研究開発部 Automationグループ 今井 海人

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 02, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. Sansan株式会社 部署 名前 Iterative prompt learning for unsupervised backlit image

    enhancement Sansan技術本部 第60回 コンピュータビジョン勉強会@関東 Sansan株式会社 技術本部 研究開発部 今井 海人
  2. - 論⽂情報 - 背景:逆光画像の補正 - 提案⼿法:CLIP-LIT - 実験 - まとめ

    ⽬次 ※図表は紹介論⽂からの引⽤となります
  3. - 書誌情報 - タイトル: Iterative Prompt Learning for Unsupervised Backlit

    Image Enhancement - 著者: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy - 所属: Nanyang Technological University (南洋理⼯⼤学) - 概要 - CLIPを損失関数とする、⾼い汎化性能を持つ逆光画像補正⼿法の提案 - 選定理由 - 弊社が取り組んでいる名刺画像補正とタスクの難しいポイントが似ている > 弊社ではCLIPのLow-level visionタスクへの応⽤にも取り組んでいる MIRU2023ではCLIPによるFew-shot IQAについて発表 論⽂情報
  4. - ⼀般的な画像復元:劣化画像とクリーン画像のペアデータを収集 - 例:暗所画像復元では同じシーンで暗所、通常光で撮影 - 逆光画像補正:逆光・通常光のペア収集は困難 - 多くは教師なし⼿法:CycleGAN的に逆光画像から通常光への変換を学習 > 汎化性能に乏しく、⾊味や⽩⾶びの問題が発⽣しやすい傾向

    - 初の教師ありデータセットBAID[Lv+,CVIU2022]が公開 > データ数や撮影シーンに限りがあり、実データに適⽤した場合に性能が低下 > 学習データにはレタッチが必須→データ収集コスト⾼ 逆光画像のペアデータ収集が困難 🎯 本論⽂の⽬的: ペアデータセットに依存せずに、ロバストな逆光補正⼿法を実現
  5. CLIPによる画質評価 (IQA)が、⼈の評価と相関することが⽰されている 逆光補正の損失関数として利⽤できないか? - CLIP-IQA[J. Wang+, AAAI2023] - Zero-shotでも古典的なIQA⼿法を上回る プロンプトの学習によりSOTAに近い性能

    - 観測画像が,画像の品質を表現する ポジティブ・ネガティブプロンプトの どちらに類似するかで画像品質を評価 アプローチ:vision lunage modelの活⽤ 品質スコア
  6. - データセット - 学習: > backlit画像にBAIDから380枚 > well-lit画像にDiv2Kから384枚 - 評価:

    > BAIDテストセット(正解レタッチ画像あり) > Backlit300(著者らがFlikerやPixelから収集) - 評価指標 - Full reference:PSNR, SSIM, LPIPS - Non Reference: MUSIQ - ⼈によるアンケート評価 - 学習設定 - イテレーション数:合計50k(U-Netの初期化:1k, 1st stage: 10k , 2nd stage: 39k) 実験設定