Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[kantocv] The Perception-Distortion Tradeoff
Search
Sou Uchida
August 25, 2019
Research
2
990
[kantocv] The Perception-Distortion Tradeoff
Sou Uchida
August 25, 2019
Tweet
Share
More Decks by Sou Uchida
See All by Sou Uchida
Adaptive Text Recognition through Visual Matching
s_aiueo32
1
1k
[cvpaper.challenge] Second-order Attention Network for Single Image Super-Resolution
s_aiueo32
0
220
Other Decks in Research
See All in Research
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
14
9.5k
20250725-bet-ai-day
cipepser
2
360
電通総研の生成AI・エージェントの取り組みエンジニアリング業務向けAI活用事例紹介
isidaitc
1
830
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
850
Minimax and Bayes Optimal Best-arm Identification: Adaptive Experimental Design for Treatment Choice
masakat0
0
160
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
160
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3k
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
130
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
460
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
14
6.5k
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
6.6k
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.5k
Featured
See All Featured
Site-Speed That Sticks
csswizardry
10
770
A better future with KSS
kneath
239
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Done Done
chrislema
185
16k
The Language of Interfaces
destraynor
158
25k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
Raft: Consensus for Rubyists
vanstee
140
7.1k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
450
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Transcript
第54回 コンピュータビジョン勉強会@関東 The Perception-Distortion Tradeoff Presenter: @s_aiueo32
論⽂情報 ü タイトル: The Perception-Distortion Tradeoff ü 著者: Yochai Blau
and Tomer Michaeli (Technion) ü 採択状況: CVPR2018 Orals/Spotlights ü 内容 ü メトリックと知覚品質のトレードオフに関して考察 ü (トレードオフを横断するのに) GANはいいぞ
Image Restoration ü 画像の劣化(Degradation)を修復し,元の画像を再構成する問題 Super Resolution Inpain0ng Dehazing Denoising debruring
Image Restorationのゴール Low Distortion ü GTに近い画像を⽣成できればいい ü 画像間の距離で測る ü MAE,
MSE, PSNR, SSIM etc. Good Perceptual Quality ü 「⾃然」な画像を⽣成できればいい ü 単⼀画像を⽤いて計測 ü BRISQUE, NIQE etc. (本論文の主張) 2つのゴールを同時に達成することは不可能 Mr. Intuition 「距離がゼロならそれは自然な画像では?」 無理
経験的には結構⾔われてた 滑らかすぎる PSNRが 低 い !
他のアルゴリズムでの結果 両立しているモデルは存在しない Better Better 敵 「RMSEがダメなだけでは?」
他の指標での結果
ここからちょっと算数
Image Restoration ∼ # 自然画像 再構成画像 % 劣化画像 '|# )
#|' Algorithm
Distortion [Δ(, ) )] SSD, SSIM, MS-SSIM, IFC, VIF, VGG,
… ∼ # 自然画像 再構成画像 % 非負性: Δ , ≥ 0 同一律: Δ , = 0
Perceptual Quality ∼ # 自然画像 再構成画像 % Real or Fake
7899:77 ∝ =>(#, ) # ) 50% 50% ∼ ) #
Perceptual Quality (#, ) # ) TV, KL, Hellinger, @,
Renyi, Wasserstein, … ∼ # 自然画像 再構成画像 % 非負性: , ≥ 0 同一律: , = 0 ⟺ = ∼ ) #
本論⽂の問題設定 問題 → → ) 尺度の定式化 Distortion: [Δ(, ) )]
Perceptual Quality: (# , ) # ) [Δ(, ) )] (#, ) # ) このトレードオフの 存在を証明
Low Distortionは?
簡単なパラメータ推定の例 ü ノイズ を含んだ観測値 からパラメータ を推定 = + ü は次の確率質量関数に従う確率変数
#() = G H = ±1 K = 0 ü は正規分布に従う ~(0, 1) この設定でMMSEとMAP推定を行う
MMSE と MAP推定 ü MMSE ü 推定値は条件付期待値で与えられる % NNOP =
= ü ) #QQRS は確率密度 ü MAP推定 ü 事後確率最⼤のパラメータを出⼒ % NTU = argmax[∈{^H,K,H} ( = |) ü 今回の設定だとsign(⋅)と同じ
MNISTでMMSE/MAP推定した結果 ü MNISTとBlank画像を混ぜたデータでDenoising 高ノイズレベルで ぼやける 高ノイズレベルでは Blankがほとんど
トレードオフについて
Tradeoff Function ü Distortionレベルごとの下界を求める関数を定義 = min fg h|i #, )
# . . Δ , ) ≤ ü (, )がに関して凸なら, ()は単調減少&凸関数 (= Tradeoff!!) ü -divergenceはに関して凸 = + の例でのプロット
トレードオフを横断 ü ⺠「トレードオフがあるのは分かったけど, 下界に近づきたい」 ü 神「GANを使いましょう」 = min fg h|i
#, ) # . . Δ , ) ≤ ℓp:q = ℓrs7tuvtsuq + ℓxry ≈ Δ , ) + (#, ) # ) ⟷
実験 ü WGANで ∈ [0, 0.3]を変えながらDenoising ü 理論的な下界に沿って品質をコントロールできることを確認
既存のアルゴリズムの評価 ü ⾔葉の定義 ü A dominates B: AがBにDistortionでもPerceptual Qualityでも勝ってる ü
A is admissible: Aはどのアルゴリズムにもdominateされてない ü admissibleな⼿法が下界に近い⼿法
レート歪との関係 ü 許容歪に対してどれくらい圧縮できるか? ü Perception-Distortion Tradeoffと似た形 = min fg h|h
; ) s. t. Δ , ) ≤ ü レート歪とのPerception-Distortion Tradeoffの違い 1. レート歪は) #|# を考えるけど,こっちは) #|' を考える 2. ; ) はと ) の同時分布に依存するけど, #, ) # は依存しない ü 著者はICML2019にこんな論⽂通している ü “Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff”
まとめ ü DistortioinとPerceptual Qualityの間にトレードオフがある ü GAN損失の⽐率によってトレードオフ関数を横断できる ü 許容Distortionレベルを決めてから動かすのが良い ü 「最適なアルゴリズム」は応⽤依存
ü 医⽤画像はDistortion志向, 写真はPerceptual Quality志向