Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
perception_distortion_tradeoff.pdf
Search
koki madono
May 25, 2020
Research
1
130
perception_distortion_tradeoff.pdf
koki madono
May 25, 2020
Tweet
Share
More Decks by koki madono
See All by koki madono
MIRU2020若手の会グループA発表
madonokouki
0
230
AAAIWS2020_oral_pptx
madonokouki
0
120
Capsule Network Introduction
madonokouki
0
360
modeling_point_cloud.pdf
madonokouki
0
61
Other Decks in Research
See All in Research
FOSS4G 山陰 Meetup 2024@砂丘 はじめの挨拶
wata909
1
110
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
120
Weekly AI Agents News! 8月号 論文のアーカイブ
masatoto
1
180
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
510
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
950
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
220
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
140
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
s_mizuki_nlp
1
350
marukotenant01/tenant-20240826
marketing2024
0
510
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
120
20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probability Text
de9uch1
0
120
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
Automating Front-end Workflow
addyosmani
1366
200k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
Raft: Consensus for Rubyists
vanstee
136
6.6k
YesSQL, Process and Tooling at Scale
rocio
169
14k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Making Projects Easy
brettharned
115
5.9k
Writing Fast Ruby
sferik
627
61k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Code Reviewing Like a Champion
maltzj
520
39k
Building Applications with DynamoDB
mza
90
6.1k
Transcript
早稲⽥⼤学 修⼠2年 真殿 航輝 ⼈間の知覚情報と歪みの関係性 についての研究事例
2 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない
3 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない Lenaとわかる 何もなし ノイズに
⾒える
4 ⼈間の知覚情報に関する損失関数の⼤枠 ⼤きく3種類に分類(perceptual information loss) 1. ⼈間の意⾒ (ex) アンケート、⼈間の意⾒を元に損失関数を設計 2.
⾃然画像の統計量との⽐較(No Reference based,NR) (ex) BRISQUE, NIQE, %**7*/& 3. GAN based (分布を最⼩化するアプローチ) (ex) JS divergence, Wasserstein distance, f-divergence • 歪み(distortion)の計測 : Full Reference based(FR, 元画像との⽐較) (ex) MSE, SSIM, MS-SSIM, IFC, VIF, …
5 ⼈間の知覚情報の使⽤⽤途 - Style変換 - 画像品質評価(IQA) - 秘匿画像の作成
6 発表内容 発表内容 ⼈間の知覚情報と歪みの関係性についての研究事例 結論 -知覚情報, 画像の歪み, 識別精度、情報圧縮率それぞれに Tradeoff -既存の知覚情報を扱う損失関数はまだ不⼗分
知覚情報 (perceptual information) 歪み (distortion)
7 発表論⽂ 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
Yochai Blau, Tomer Michaeli CVPR 2019 Oral The Perception-Distortion Tradeoff
9 論⽂概要 タスク : 画像信号復元 / 超解像 提案 : Perceptual
quality と distortionにトレードオフ (PD-tradeoff) 結論 : - どの評価指標でもPD-tradeoffが存在する - 最近の⼿法はtrade offの⾯でそこまで変化なし - FR, NR両⽅の損失を⽤いることが信頼性のために重要
10 トレードオフの全体像 どちらか(Perception, Distortion)の損失を最⼩化すると、⽚ ⽅の損失が極端に⼤きくなってしまうようなトレードオフ
11 画像の再構成(問題設定) Perceptual Quality(())を分布, Distortion ()を期待値として定式化 (* 関連研究で()->, -> ը࣭ධՁͱҐஔ͚ΒΕ͍ͯΔͨΊ)
= min !! "|$ ", # " . . [Δ(, 3 )] ≤
12 の性質 ", # " : f-divergence, KL, Renyi divergenceなどのJensenの不等式
を満たすものを利⽤する. () (= min !! "|$ ", # " ,下の図の)は上の条件で、凸性を持つ. -> ()ʹತੑ͕͋ΔͨΊɺͲͪΒ͔Λ࠷దԽ͢ΔͱɺยํͷͷมԽ͕ ۃʹͳΔ. (ʣ
13 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 ()
14 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 ()
15 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 () MMSEとMAPで歪みを 最⼩化すると分布が合わない ↓ Perceptual informationと トレードオフな関係があるのでは︖
16 minimum mean square-error (MMSE) での推定 ..4&の事後確率の期待値 > $$%&: [|
= ](∑'∈{*+,-,+} # "%&'( > ) - 確率が離散 / 連続値の違い - MMSEによる推定が完全でない ! = $ " , = ±1 # , = 0 ) *!"#$ " = +exp(− 1 2 − ,) ∑-∈{01,3,1} - exp{− 1 2 ( − ),}
17 maximum-a-posteriori (MAP)での推定 ."1の事後確率の期待値 > $/!: [| = ]( max
'∈{*+,-,+} ( = |)) - 0を取らないように推定を⾏う - MAPによる推定が完全でない ! = $ " , = ±1 # , = 0 $ !!"# ) = $ 0.5, ) = +1 0.5, ) = −1
18 ⽣成器での事前実験 Perception-distortionの損失最⼩化の⽣成器を考える. 012 : denoising⽤のWasserstein GANと⽤いて計算 34' = 156789758'
+ 012 (34' ≈ Δ(, > ) + (", # " ))
19 ⽣成器の損失変化 損失のパラメータを調整(A~D) : 損失における相関を確認
20 実験 既存のdistortionの評価指標とperceptual informationの関係性の検証 (超解像のアルゴリズムにおいて) 超解像のアルゴリズム : ~2018年秋までの有名な⼿法 Distortion :
3.4& 44*. .444*. *'$ 7*'BOE7(( perceptual information : Ma et alͷख๏Λར༻ 評価時 : 両評価指標においてスコアが優れている場合、優劣を評価 (ex) Aの⼿法よりはBの⼿法が優れている (下図)
21 結果 2017年以降の⼿法 : トレードオフの観点からどの⼿法も変わらない 2017年以前の⼿法 : 性能的には現在のものに⽐べて、劣っている -> 今後もこの評価軸では変わらない⼿法がほとんどではないか︖(私⾒)
22 結果 異なるDistortionの評価指標でも同じような傾向が出ている.
23 結果 異なるDistortionの評価指標でも同じような傾向が出ている. 筆者の考察 (i) 左下のplotがない (ii) 劣化画像の⽐較ができる(FR) / できない(NR)場合両⽅でtradeoff
(iii) Referenceを⽤いるアプローチのスコアのばらつきがある -> NRとFR、2つのアプローチを併⽤することが必要
Dong Liu, Haochen Zhang, Zhiwei Xiong Neurips 2019 On The
Classification-Distortion- Perception Tradeoff
25 論⽂概要 タスク : 画像信号復元 (denoising) 提案 : Perceptual quality
と distortionに加え, Classificationとのトレー ドオフの分析 結論 : 識別の最適化時には歪みや知覚情報をある程度落としている
26 前回の問題設定を拡張 Perceptual Quality(())とDistortion ()ͷ্ݶ͕༩͑ΒΕ্ͨͰɺࣝ ผث()ͰͷଛࣦΛ࠷খԽ͢Δ͜ͱΛߟ͑Δ. * -(・|ℛ-) :学習済の識別器 ,
= min !! "|$ 3 - . . Δ , 3 ≤ , (", # " ) ≤
27 具体的な問題設定の理由 1. Perceptual Quality(())とDistortion ()ʹର͢Δ੍ - ⽐較対象の画像がある程度認識できるものを仮定 2. 学習済みの識別器を識別評価に⽤いる理由
- 再構成画像で再学習すると、再構成⽅法によって相関が変化する恐れ - ࠶ߏը૾Ͱ࠶ֶश͢Δͱɺ݅ʹΑͬͯࣝผثֶ͕श͠ͳ͍Մೳੑ - ڧ͍Έ ( high distortion) - ݩը૾͕Θ͔Βͳ͍ʢblind restoration) 相関が ⾃明 Distorted Original 今回確認したい 相関
事前確率 . / 条件付き確率密度関数 0! 0" 28 問題設定 クラス情報を考慮した確率密度関数の定式化(2クラスの場合) 0
= .0! + /0"
29 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合+ を出⼒する識別器(含まれない -> : ) =
ℛ = ) :, ℎ +, ∈ ℛ
30 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合1 を出⼒する識別器(含まれない -> 2 ) 識別誤差率
3 = 3 ℛ = : X = >∈ℛ # "5 (> ) + + X = >∉ℛ # "6 (> ) = ℛ = ) :, ℎ +, ∈ ℛ
31 簡単な設定での例(準備) Toy exampleʼs experimentでの実験 1. ͷ2ΫϥεͷΨεࠞ߹ϞσϧͰͷఆࣜԽ (+ = 0.3,
: = 0.7, "6 = (−1,1), "6 = (1,1)) 2. ϊΠζը૾ = + 3. Denoisingํ๏ : ઢܗύϥϝʔλ()ʹΑΔdenoising - 3 = • ධՁํ๏ • Distortion (D) : MSE • Perception (P) : KL distance • Classification (C) : ̎Ϋϥεͷࣝผثͱͯ͠Ͱֶशͨ͠ͷ 0 = . 0! + / 0"
32 簡単な設定での例(結果) C-Dؒ, C-PؒͲͪΒʹ͓͍ͯ૬ؔΛ֬ೝ
33 実験 ⽬的 : 実データでのCDPの関係性の確認 データ : MNIST, Cifar10 タスク
: Denoising, 超解像 CNN-1, CNN-2 : 異なる構造のCNN CNN-2, CNN-2ʼ : ⼊⼒サイズの違い (28x28, 32x32) 損失 : $%& + 012 + A&
34 実験 Exp1 ~ 3 : 0,1 からサンプルしたNoiseがMNISTに事前に付与 Exp4 :
⼊⼒サイズを1/6 Exp5 : ⼊⼒サイズを1/3 (発表ではExp1,2,4のみ発表)
35 結果1 識別精度 : 強いDistortion, 悪いPerceptual Qualityとtradeoff -> 識別精度が低いほど、カーブが右上よりになっている点より (下図
: Exp1)
36 結果1 Exp1,2,4では同様な傾向(C-D間,C-P間,D-P間にtradeoff)
37 結果2 Perceptual Qualityに対する損失の強さとDenoisingに相関 - の値が⼤きくなると、⾒た⽬が改善 - の値が⼤きくなってみ⾒た⽬の改善はなし
Yochai Blau, Tomer Michaeli ICML 2019 Oral Rethinking Lossy Compression:
The Rate-Distortion-Perception Tradeoff
39 論⽂概要 タスク : 画像再構成 提案 - Perceptual quality ͱ
distortionʹՃ͑ɺѹॖͱͷτϨʔυΦ ϑͷੳ - τϨʔυΦϑΛ౿·͑ͨଛࣦؔͷઃܭ 結論 - 圧縮率が⾼い場合, Perceptual qualityͷڧ੍͍͕ඞཁ - Perceptual qualityͷΈͷଛࣦؔͩͱ࠶ߏ͕ػೳ͠ͳ͍
40 Tradeoffの数式的な定義(Blau et. al, 2018) Bit Rate(R)と歪み(D)の関係性 (RD tradeoff) =
min !! "|" (, 3 ) . . Δ , 3 ≤ ・・・ ・・・ 2 2 2
41 問題設定 Bit Rate(R)と歪み(D)とPerceptual Quality(P)の関係性 (RDP tradeoff) , = min
!! "|" , 3 . . Δ , 3 ≤ , (", # " ) ≤
42 情報量の計算 → ∞ͷ࣌ͷRDP tradeoff (֬(≤ + : )ͰͷϕϧψʔΠͷΤϯτϩϐʔ :
B ) (, ∞) , ∞ = b B − B ∈ [0, ) 0 ∈ [, ∞)
43 実験設定 実験設定 Encoder : (, )の特徴を量⼦化したもの ( 6 (,
)) ( MNISTを99%で識別する識別器) Decoder : 未学習 Constraint ℎ : gradient penalty 7(*, ) * ) : max8∈ℱ( ℎ − ℎ 6 () ) Δ , c + C(", # " ) 0 9 ① ① ② ② .
44 実験1 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
モデル構造(以下の3つ) プロット数 ( 実験に使ったEncoder-Decoderの数) : 98個 * Quantize : 特徴をbitに変換(2~16)
45 結果 結果 - Perceptual Qualityがいいほど, MSEの値変化に⼤きく影響 - データを表現するbit rateを下げるほど、Perceptual
Qualityͷڧ੍͍ ͕ޮ͘
46 実験2 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
+ − (A ) * : 下のDNNの2層⽬(conv, 4x4x20)の特徴量(学習済み) モデル構造 : 前回と同様
47 結果 結果 - 中間層での歪み誤差を計算しても、Tradeoff⾃体は変化しない (スコアの変化はあり) 前回の結果 今回の結果
48 結果 結果 - 明瞭ははっきりする(⾚枠)ものの、結果⾃体は改善してはいない 前回の結果 今回の結果
49 追加考察 Discriminatorの各層でPerceptual loss(⻘枠)のみを最⼩化 (a) 1層⽬(Conv layer, 14x14x64) (b) 2(Conv
layer, 7x7x128) (c) 4(FC layer, 4096) -> MSE loss͕ͳ͍߹ɺ͔ͳΓ݁Ռ͕ѱԽ(ݪҼʹ͍ͭͯݴٴͳ͠ʣ 0 9 .
50 発表論⽂(再掲) 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
51 まとめ - Tradeoff が歪み,圧縮率,知覚情報,識別に間に存在 - 損失関数の設計を変えても、トレードオフの⾯で⼤きく⼿法間に違いは ない - 知覚情報と歪みを同時に最⼩化できていない点で、֮ใͷଛࣦઃܭ
վળ͢Δඞཁ͕͋Δ