Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
perception_distortion_tradeoff.pdf
Search
koki madono
May 25, 2020
Research
1
150
perception_distortion_tradeoff.pdf
koki madono
May 25, 2020
Tweet
Share
More Decks by koki madono
See All by koki madono
MIRU2020若手の会グループA発表
madonokouki
0
260
AAAIWS2020_oral_pptx
madonokouki
0
130
Capsule Network Introduction
madonokouki
0
380
modeling_point_cloud.pdf
madonokouki
0
74
Other Decks in Research
See All in Research
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
0
200
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
240
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1.3k
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
590
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
310
2025-11-21-DA-10th-satellite
yegusa
0
110
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
190
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
890
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
170
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3k
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
480
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
KATA
mclloyd
PRO
34
15k
Building Adaptive Systems
keathley
44
2.9k
The Curse of the Amulet
leimatthew05
1
8.6k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.3k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
430
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
66
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
The Spectacular Lies of Maps
axbom
PRO
1
520
Into the Great Unknown - MozCon
thekraken
40
2.3k
GraphQLとの向き合い方2022年版
quramy
50
14k
Transcript
早稲⽥⼤学 修⼠2年 真殿 航輝 ⼈間の知覚情報と歪みの関係性 についての研究事例
2 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない
3 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない Lenaとわかる 何もなし ノイズに
⾒える
4 ⼈間の知覚情報に関する損失関数の⼤枠 ⼤きく3種類に分類(perceptual information loss) 1. ⼈間の意⾒ (ex) アンケート、⼈間の意⾒を元に損失関数を設計 2.
⾃然画像の統計量との⽐較(No Reference based,NR) (ex) BRISQUE, NIQE, %**7*/& 3. GAN based (分布を最⼩化するアプローチ) (ex) JS divergence, Wasserstein distance, f-divergence • 歪み(distortion)の計測 : Full Reference based(FR, 元画像との⽐較) (ex) MSE, SSIM, MS-SSIM, IFC, VIF, …
5 ⼈間の知覚情報の使⽤⽤途 - Style変換 - 画像品質評価(IQA) - 秘匿画像の作成
6 発表内容 発表内容 ⼈間の知覚情報と歪みの関係性についての研究事例 結論 -知覚情報, 画像の歪み, 識別精度、情報圧縮率それぞれに Tradeoff -既存の知覚情報を扱う損失関数はまだ不⼗分
知覚情報 (perceptual information) 歪み (distortion)
7 発表論⽂ 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
Yochai Blau, Tomer Michaeli CVPR 2019 Oral The Perception-Distortion Tradeoff
9 論⽂概要 タスク : 画像信号復元 / 超解像 提案 : Perceptual
quality と distortionにトレードオフ (PD-tradeoff) 結論 : - どの評価指標でもPD-tradeoffが存在する - 最近の⼿法はtrade offの⾯でそこまで変化なし - FR, NR両⽅の損失を⽤いることが信頼性のために重要
10 トレードオフの全体像 どちらか(Perception, Distortion)の損失を最⼩化すると、⽚ ⽅の損失が極端に⼤きくなってしまうようなトレードオフ
11 画像の再構成(問題設定) Perceptual Quality(())を分布, Distortion ()を期待値として定式化 (* 関連研究で()->, -> ը࣭ධՁͱҐஔ͚ΒΕ͍ͯΔͨΊ)
= min !! "|$ ", # " . . [Δ(, 3 )] ≤
12 の性質 ", # " : f-divergence, KL, Renyi divergenceなどのJensenの不等式
を満たすものを利⽤する. () (= min !! "|$ ", # " ,下の図の)は上の条件で、凸性を持つ. -> ()ʹತੑ͕͋ΔͨΊɺͲͪΒ͔Λ࠷దԽ͢ΔͱɺยํͷͷมԽ͕ ۃʹͳΔ. (ʣ
13 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 ()
14 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 ()
15 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 () MMSEとMAPで歪みを 最⼩化すると分布が合わない ↓ Perceptual informationと トレードオフな関係があるのでは︖
16 minimum mean square-error (MMSE) での推定 ..4&の事後確率の期待値 > $$%&: [|
= ](∑'∈{*+,-,+} # "%&'( > ) - 確率が離散 / 連続値の違い - MMSEによる推定が完全でない ! = $ " , = ±1 # , = 0 ) *!"#$ " = +exp(− 1 2 − ,) ∑-∈{01,3,1} - exp{− 1 2 ( − ),}
17 maximum-a-posteriori (MAP)での推定 ."1の事後確率の期待値 > $/!: [| = ]( max
'∈{*+,-,+} ( = |)) - 0を取らないように推定を⾏う - MAPによる推定が完全でない ! = $ " , = ±1 # , = 0 $ !!"# ) = $ 0.5, ) = +1 0.5, ) = −1
18 ⽣成器での事前実験 Perception-distortionの損失最⼩化の⽣成器を考える. 012 : denoising⽤のWasserstein GANと⽤いて計算 34' = 156789758'
+ 012 (34' ≈ Δ(, > ) + (", # " ))
19 ⽣成器の損失変化 損失のパラメータを調整(A~D) : 損失における相関を確認
20 実験 既存のdistortionの評価指標とperceptual informationの関係性の検証 (超解像のアルゴリズムにおいて) 超解像のアルゴリズム : ~2018年秋までの有名な⼿法 Distortion :
3.4& 44*. .444*. *'$ 7*'BOE7(( perceptual information : Ma et alͷख๏Λར༻ 評価時 : 両評価指標においてスコアが優れている場合、優劣を評価 (ex) Aの⼿法よりはBの⼿法が優れている (下図)
21 結果 2017年以降の⼿法 : トレードオフの観点からどの⼿法も変わらない 2017年以前の⼿法 : 性能的には現在のものに⽐べて、劣っている -> 今後もこの評価軸では変わらない⼿法がほとんどではないか︖(私⾒)
22 結果 異なるDistortionの評価指標でも同じような傾向が出ている.
23 結果 異なるDistortionの評価指標でも同じような傾向が出ている. 筆者の考察 (i) 左下のplotがない (ii) 劣化画像の⽐較ができる(FR) / できない(NR)場合両⽅でtradeoff
(iii) Referenceを⽤いるアプローチのスコアのばらつきがある -> NRとFR、2つのアプローチを併⽤することが必要
Dong Liu, Haochen Zhang, Zhiwei Xiong Neurips 2019 On The
Classification-Distortion- Perception Tradeoff
25 論⽂概要 タスク : 画像信号復元 (denoising) 提案 : Perceptual quality
と distortionに加え, Classificationとのトレー ドオフの分析 結論 : 識別の最適化時には歪みや知覚情報をある程度落としている
26 前回の問題設定を拡張 Perceptual Quality(())とDistortion ()ͷ্ݶ͕༩͑ΒΕ্ͨͰɺࣝ ผث()ͰͷଛࣦΛ࠷খԽ͢Δ͜ͱΛߟ͑Δ. * -(・|ℛ-) :学習済の識別器 ,
= min !! "|$ 3 - . . Δ , 3 ≤ , (", # " ) ≤
27 具体的な問題設定の理由 1. Perceptual Quality(())とDistortion ()ʹର͢Δ੍ - ⽐較対象の画像がある程度認識できるものを仮定 2. 学習済みの識別器を識別評価に⽤いる理由
- 再構成画像で再学習すると、再構成⽅法によって相関が変化する恐れ - ࠶ߏը૾Ͱ࠶ֶश͢Δͱɺ݅ʹΑͬͯࣝผثֶ͕श͠ͳ͍Մೳੑ - ڧ͍Έ ( high distortion) - ݩը૾͕Θ͔Βͳ͍ʢblind restoration) 相関が ⾃明 Distorted Original 今回確認したい 相関
事前確率 . / 条件付き確率密度関数 0! 0" 28 問題設定 クラス情報を考慮した確率密度関数の定式化(2クラスの場合) 0
= .0! + /0"
29 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合+ を出⼒する識別器(含まれない -> : ) =
ℛ = ) :, ℎ +, ∈ ℛ
30 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合1 を出⼒する識別器(含まれない -> 2 ) 識別誤差率
3 = 3 ℛ = : X = >∈ℛ # "5 (> ) + + X = >∉ℛ # "6 (> ) = ℛ = ) :, ℎ +, ∈ ℛ
31 簡単な設定での例(準備) Toy exampleʼs experimentでの実験 1. ͷ2ΫϥεͷΨεࠞ߹ϞσϧͰͷఆࣜԽ (+ = 0.3,
: = 0.7, "6 = (−1,1), "6 = (1,1)) 2. ϊΠζը૾ = + 3. Denoisingํ๏ : ઢܗύϥϝʔλ()ʹΑΔdenoising - 3 = • ධՁํ๏ • Distortion (D) : MSE • Perception (P) : KL distance • Classification (C) : ̎Ϋϥεͷࣝผثͱͯ͠Ͱֶशͨ͠ͷ 0 = . 0! + / 0"
32 簡単な設定での例(結果) C-Dؒ, C-PؒͲͪΒʹ͓͍ͯ૬ؔΛ֬ೝ
33 実験 ⽬的 : 実データでのCDPの関係性の確認 データ : MNIST, Cifar10 タスク
: Denoising, 超解像 CNN-1, CNN-2 : 異なる構造のCNN CNN-2, CNN-2ʼ : ⼊⼒サイズの違い (28x28, 32x32) 損失 : $%& + 012 + A&
34 実験 Exp1 ~ 3 : 0,1 からサンプルしたNoiseがMNISTに事前に付与 Exp4 :
⼊⼒サイズを1/6 Exp5 : ⼊⼒サイズを1/3 (発表ではExp1,2,4のみ発表)
35 結果1 識別精度 : 強いDistortion, 悪いPerceptual Qualityとtradeoff -> 識別精度が低いほど、カーブが右上よりになっている点より (下図
: Exp1)
36 結果1 Exp1,2,4では同様な傾向(C-D間,C-P間,D-P間にtradeoff)
37 結果2 Perceptual Qualityに対する損失の強さとDenoisingに相関 - の値が⼤きくなると、⾒た⽬が改善 - の値が⼤きくなってみ⾒た⽬の改善はなし
Yochai Blau, Tomer Michaeli ICML 2019 Oral Rethinking Lossy Compression:
The Rate-Distortion-Perception Tradeoff
39 論⽂概要 タスク : 画像再構成 提案 - Perceptual quality ͱ
distortionʹՃ͑ɺѹॖͱͷτϨʔυΦ ϑͷੳ - τϨʔυΦϑΛ౿·͑ͨଛࣦؔͷઃܭ 結論 - 圧縮率が⾼い場合, Perceptual qualityͷڧ੍͍͕ඞཁ - Perceptual qualityͷΈͷଛࣦؔͩͱ࠶ߏ͕ػೳ͠ͳ͍
40 Tradeoffの数式的な定義(Blau et. al, 2018) Bit Rate(R)と歪み(D)の関係性 (RD tradeoff) =
min !! "|" (, 3 ) . . Δ , 3 ≤ ・・・ ・・・ 2 2 2
41 問題設定 Bit Rate(R)と歪み(D)とPerceptual Quality(P)の関係性 (RDP tradeoff) , = min
!! "|" , 3 . . Δ , 3 ≤ , (", # " ) ≤
42 情報量の計算 → ∞ͷ࣌ͷRDP tradeoff (֬(≤ + : )ͰͷϕϧψʔΠͷΤϯτϩϐʔ :
B ) (, ∞) , ∞ = b B − B ∈ [0, ) 0 ∈ [, ∞)
43 実験設定 実験設定 Encoder : (, )の特徴を量⼦化したもの ( 6 (,
)) ( MNISTを99%で識別する識別器) Decoder : 未学習 Constraint ℎ : gradient penalty 7(*, ) * ) : max8∈ℱ( ℎ − ℎ 6 () ) Δ , c + C(", # " ) 0 9 ① ① ② ② .
44 実験1 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
モデル構造(以下の3つ) プロット数 ( 実験に使ったEncoder-Decoderの数) : 98個 * Quantize : 特徴をbitに変換(2~16)
45 結果 結果 - Perceptual Qualityがいいほど, MSEの値変化に⼤きく影響 - データを表現するbit rateを下げるほど、Perceptual
Qualityͷڧ੍͍ ͕ޮ͘
46 実験2 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
+ − (A ) * : 下のDNNの2層⽬(conv, 4x4x20)の特徴量(学習済み) モデル構造 : 前回と同様
47 結果 結果 - 中間層での歪み誤差を計算しても、Tradeoff⾃体は変化しない (スコアの変化はあり) 前回の結果 今回の結果
48 結果 結果 - 明瞭ははっきりする(⾚枠)ものの、結果⾃体は改善してはいない 前回の結果 今回の結果
49 追加考察 Discriminatorの各層でPerceptual loss(⻘枠)のみを最⼩化 (a) 1層⽬(Conv layer, 14x14x64) (b) 2(Conv
layer, 7x7x128) (c) 4(FC layer, 4096) -> MSE loss͕ͳ͍߹ɺ͔ͳΓ݁Ռ͕ѱԽ(ݪҼʹ͍ͭͯݴٴͳ͠ʣ 0 9 .
50 発表論⽂(再掲) 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
51 まとめ - Tradeoff が歪み,圧縮率,知覚情報,識別に間に存在 - 損失関数の設計を変えても、トレードオフの⾯で⼤きく⼿法間に違いは ない - 知覚情報と歪みを同時に最⼩化できていない点で、֮ใͷଛࣦઃܭ
վળ͢Δඞཁ͕͋Δ