Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[kantocv] The Perception-Distortion Tradeoff
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
So Uchida
August 25, 2019
Research
2
1.1k
[kantocv] The Perception-Distortion Tradeoff
So Uchida
August 25, 2019
Tweet
Share
More Decks by So Uchida
See All by So Uchida
[CVPR2025論文読み会] Linguistics-aware Masked Image Modelingfor Self-supervised Scene Text Recognition
s_aiueo32
0
290
Adaptive Text Recognition through Visual Matching
s_aiueo32
1
1.1k
[cvpaper.challenge] Second-order Attention Network for Single Image Super-Resolution
s_aiueo32
0
230
Other Decks in Research
See All in Research
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.3k
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
170
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
170
財務諸表監査のための逐次検定
masakat0
1
250
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
480
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
20k
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
280
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
110
ACL読み会2025: Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
130
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
4
1.3k
R&Dチームを起ち上げる
shibuiwilliam
1
160
Featured
See All Featured
Side Projects
sachag
455
43k
Paper Plane
katiecoart
PRO
0
46k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Un-Boring Meetings
codingconduct
0
200
First, design no harm
axbom
PRO
2
1.1k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Rails Girls Zürich Keynote
gr2m
96
14k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Transcript
第54回 コンピュータビジョン勉強会@関東 The Perception-Distortion Tradeoff Presenter: @s_aiueo32
論⽂情報 ü タイトル: The Perception-Distortion Tradeoff ü 著者: Yochai Blau
and Tomer Michaeli (Technion) ü 採択状況: CVPR2018 Orals/Spotlights ü 内容 ü メトリックと知覚品質のトレードオフに関して考察 ü (トレードオフを横断するのに) GANはいいぞ
Image Restoration ü 画像の劣化(Degradation)を修復し,元の画像を再構成する問題 Super Resolution Inpain0ng Dehazing Denoising debruring
Image Restorationのゴール Low Distortion ü GTに近い画像を⽣成できればいい ü 画像間の距離で測る ü MAE,
MSE, PSNR, SSIM etc. Good Perceptual Quality ü 「⾃然」な画像を⽣成できればいい ü 単⼀画像を⽤いて計測 ü BRISQUE, NIQE etc. (本論文の主張) 2つのゴールを同時に達成することは不可能 Mr. Intuition 「距離がゼロならそれは自然な画像では?」 無理
経験的には結構⾔われてた 滑らかすぎる PSNRが 低 い !
他のアルゴリズムでの結果 両立しているモデルは存在しない Better Better 敵 「RMSEがダメなだけでは?」
他の指標での結果
ここからちょっと算数
Image Restoration ∼ # 自然画像 再構成画像 % 劣化画像 '|# )
#|' Algorithm
Distortion [Δ(, ) )] SSD, SSIM, MS-SSIM, IFC, VIF, VGG,
… ∼ # 自然画像 再構成画像 % 非負性: Δ , ≥ 0 同一律: Δ , = 0
Perceptual Quality ∼ # 自然画像 再構成画像 % Real or Fake
7899:77 ∝ =>(#, ) # ) 50% 50% ∼ ) #
Perceptual Quality (#, ) # ) TV, KL, Hellinger, @,
Renyi, Wasserstein, … ∼ # 自然画像 再構成画像 % 非負性: , ≥ 0 同一律: , = 0 ⟺ = ∼ ) #
本論⽂の問題設定 問題 → → ) 尺度の定式化 Distortion: [Δ(, ) )]
Perceptual Quality: (# , ) # ) [Δ(, ) )] (#, ) # ) このトレードオフの 存在を証明
Low Distortionは?
簡単なパラメータ推定の例 ü ノイズ を含んだ観測値 からパラメータ を推定 = + ü は次の確率質量関数に従う確率変数
#() = G H = ±1 K = 0 ü は正規分布に従う ~(0, 1) この設定でMMSEとMAP推定を行う
MMSE と MAP推定 ü MMSE ü 推定値は条件付期待値で与えられる % NNOP =
= ü ) #QQRS は確率密度 ü MAP推定 ü 事後確率最⼤のパラメータを出⼒ % NTU = argmax[∈{^H,K,H} ( = |) ü 今回の設定だとsign(⋅)と同じ
MNISTでMMSE/MAP推定した結果 ü MNISTとBlank画像を混ぜたデータでDenoising 高ノイズレベルで ぼやける 高ノイズレベルでは Blankがほとんど
トレードオフについて
Tradeoff Function ü Distortionレベルごとの下界を求める関数を定義 = min fg h|i #, )
# . . Δ , ) ≤ ü (, )がに関して凸なら, ()は単調減少&凸関数 (= Tradeoff!!) ü -divergenceはに関して凸 = + の例でのプロット
トレードオフを横断 ü ⺠「トレードオフがあるのは分かったけど, 下界に近づきたい」 ü 神「GANを使いましょう」 = min fg h|i
#, ) # . . Δ , ) ≤ ℓp:q = ℓrs7tuvtsuq + ℓxry ≈ Δ , ) + (#, ) # ) ⟷
実験 ü WGANで ∈ [0, 0.3]を変えながらDenoising ü 理論的な下界に沿って品質をコントロールできることを確認
既存のアルゴリズムの評価 ü ⾔葉の定義 ü A dominates B: AがBにDistortionでもPerceptual Qualityでも勝ってる ü
A is admissible: Aはどのアルゴリズムにもdominateされてない ü admissibleな⼿法が下界に近い⼿法
レート歪との関係 ü 許容歪に対してどれくらい圧縮できるか? ü Perception-Distortion Tradeoffと似た形 = min fg h|h
; ) s. t. Δ , ) ≤ ü レート歪とのPerception-Distortion Tradeoffの違い 1. レート歪は) #|# を考えるけど,こっちは) #|' を考える 2. ; ) はと ) の同時分布に依存するけど, #, ) # は依存しない ü 著者はICML2019にこんな論⽂通している ü “Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff”
まとめ ü DistortioinとPerceptual Qualityの間にトレードオフがある ü GAN損失の⽐率によってトレードオフ関数を横断できる ü 許容Distortionレベルを決めてから動かすのが良い ü 「最適なアルゴリズム」は応⽤依存
ü 医⽤画像はDistortion志向, 写真はPerceptual Quality志向