Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
perception_distortion_tradeoff.pdf
Search
koki madono
May 25, 2020
Research
1
140
perception_distortion_tradeoff.pdf
koki madono
May 25, 2020
Tweet
Share
More Decks by koki madono
See All by koki madono
MIRU2020若手の会グループA発表
madonokouki
0
230
AAAIWS2020_oral_pptx
madonokouki
0
120
Capsule Network Introduction
madonokouki
0
360
modeling_point_cloud.pdf
madonokouki
0
64
Other Decks in Research
See All in Research
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
530
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
2
150
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
400
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
24
5.9k
Weekly AI Agents News!
masatoto
30
53k
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
570
セミコン地域における総合交通戦略
trafficbrain
0
110
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
150
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
220
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
240
Whoisの闇
hirachan
3
290
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
810
Featured
See All Featured
Making Projects Easy
brettharned
116
6k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
The Language of Interfaces
destraynor
156
24k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Documentation Writing (for coders)
carmenintech
67
4.6k
Code Review Best Practice
trishagee
67
18k
Why Our Code Smells
bkeepers
PRO
336
57k
Testing 201, or: Great Expectations
jmmastey
42
7.2k
It's Worth the Effort
3n
184
28k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
早稲⽥⼤学 修⼠2年 真殿 航輝 ⼈間の知覚情報と歪みの関係性 についての研究事例
2 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない
3 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない Lenaとわかる 何もなし ノイズに
⾒える
4 ⼈間の知覚情報に関する損失関数の⼤枠 ⼤きく3種類に分類(perceptual information loss) 1. ⼈間の意⾒ (ex) アンケート、⼈間の意⾒を元に損失関数を設計 2.
⾃然画像の統計量との⽐較(No Reference based,NR) (ex) BRISQUE, NIQE, %**7*/& 3. GAN based (分布を最⼩化するアプローチ) (ex) JS divergence, Wasserstein distance, f-divergence • 歪み(distortion)の計測 : Full Reference based(FR, 元画像との⽐較) (ex) MSE, SSIM, MS-SSIM, IFC, VIF, …
5 ⼈間の知覚情報の使⽤⽤途 - Style変換 - 画像品質評価(IQA) - 秘匿画像の作成
6 発表内容 発表内容 ⼈間の知覚情報と歪みの関係性についての研究事例 結論 -知覚情報, 画像の歪み, 識別精度、情報圧縮率それぞれに Tradeoff -既存の知覚情報を扱う損失関数はまだ不⼗分
知覚情報 (perceptual information) 歪み (distortion)
7 発表論⽂ 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
Yochai Blau, Tomer Michaeli CVPR 2019 Oral The Perception-Distortion Tradeoff
9 論⽂概要 タスク : 画像信号復元 / 超解像 提案 : Perceptual
quality と distortionにトレードオフ (PD-tradeoff) 結論 : - どの評価指標でもPD-tradeoffが存在する - 最近の⼿法はtrade offの⾯でそこまで変化なし - FR, NR両⽅の損失を⽤いることが信頼性のために重要
10 トレードオフの全体像 どちらか(Perception, Distortion)の損失を最⼩化すると、⽚ ⽅の損失が極端に⼤きくなってしまうようなトレードオフ
11 画像の再構成(問題設定) Perceptual Quality(())を分布, Distortion ()を期待値として定式化 (* 関連研究で()->, -> ը࣭ධՁͱҐஔ͚ΒΕ͍ͯΔͨΊ)
= min !! "|$ ", # " . . [Δ(, 3 )] ≤
12 の性質 ", # " : f-divergence, KL, Renyi divergenceなどのJensenの不等式
を満たすものを利⽤する. () (= min !! "|$ ", # " ,下の図の)は上の条件で、凸性を持つ. -> ()ʹತੑ͕͋ΔͨΊɺͲͪΒ͔Λ࠷దԽ͢ΔͱɺยํͷͷมԽ͕ ۃʹͳΔ. (ʣ
13 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 ()
14 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 ()
15 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 () MMSEとMAPで歪みを 最⼩化すると分布が合わない ↓ Perceptual informationと トレードオフな関係があるのでは︖
16 minimum mean square-error (MMSE) での推定 ..4&の事後確率の期待値 > $$%&: [|
= ](∑'∈{*+,-,+} # "%&'( > ) - 確率が離散 / 連続値の違い - MMSEによる推定が完全でない ! = $ " , = ±1 # , = 0 ) *!"#$ " = +exp(− 1 2 − ,) ∑-∈{01,3,1} - exp{− 1 2 ( − ),}
17 maximum-a-posteriori (MAP)での推定 ."1の事後確率の期待値 > $/!: [| = ]( max
'∈{*+,-,+} ( = |)) - 0を取らないように推定を⾏う - MAPによる推定が完全でない ! = $ " , = ±1 # , = 0 $ !!"# ) = $ 0.5, ) = +1 0.5, ) = −1
18 ⽣成器での事前実験 Perception-distortionの損失最⼩化の⽣成器を考える. 012 : denoising⽤のWasserstein GANと⽤いて計算 34' = 156789758'
+ 012 (34' ≈ Δ(, > ) + (", # " ))
19 ⽣成器の損失変化 損失のパラメータを調整(A~D) : 損失における相関を確認
20 実験 既存のdistortionの評価指標とperceptual informationの関係性の検証 (超解像のアルゴリズムにおいて) 超解像のアルゴリズム : ~2018年秋までの有名な⼿法 Distortion :
3.4& 44*. .444*. *'$ 7*'BOE7(( perceptual information : Ma et alͷख๏Λར༻ 評価時 : 両評価指標においてスコアが優れている場合、優劣を評価 (ex) Aの⼿法よりはBの⼿法が優れている (下図)
21 結果 2017年以降の⼿法 : トレードオフの観点からどの⼿法も変わらない 2017年以前の⼿法 : 性能的には現在のものに⽐べて、劣っている -> 今後もこの評価軸では変わらない⼿法がほとんどではないか︖(私⾒)
22 結果 異なるDistortionの評価指標でも同じような傾向が出ている.
23 結果 異なるDistortionの評価指標でも同じような傾向が出ている. 筆者の考察 (i) 左下のplotがない (ii) 劣化画像の⽐較ができる(FR) / できない(NR)場合両⽅でtradeoff
(iii) Referenceを⽤いるアプローチのスコアのばらつきがある -> NRとFR、2つのアプローチを併⽤することが必要
Dong Liu, Haochen Zhang, Zhiwei Xiong Neurips 2019 On The
Classification-Distortion- Perception Tradeoff
25 論⽂概要 タスク : 画像信号復元 (denoising) 提案 : Perceptual quality
と distortionに加え, Classificationとのトレー ドオフの分析 結論 : 識別の最適化時には歪みや知覚情報をある程度落としている
26 前回の問題設定を拡張 Perceptual Quality(())とDistortion ()ͷ্ݶ͕༩͑ΒΕ্ͨͰɺࣝ ผث()ͰͷଛࣦΛ࠷খԽ͢Δ͜ͱΛߟ͑Δ. * -(・|ℛ-) :学習済の識別器 ,
= min !! "|$ 3 - . . Δ , 3 ≤ , (", # " ) ≤
27 具体的な問題設定の理由 1. Perceptual Quality(())とDistortion ()ʹର͢Δ੍ - ⽐較対象の画像がある程度認識できるものを仮定 2. 学習済みの識別器を識別評価に⽤いる理由
- 再構成画像で再学習すると、再構成⽅法によって相関が変化する恐れ - ࠶ߏը૾Ͱ࠶ֶश͢Δͱɺ݅ʹΑͬͯࣝผثֶ͕श͠ͳ͍Մೳੑ - ڧ͍Έ ( high distortion) - ݩը૾͕Θ͔Βͳ͍ʢblind restoration) 相関が ⾃明 Distorted Original 今回確認したい 相関
事前確率 . / 条件付き確率密度関数 0! 0" 28 問題設定 クラス情報を考慮した確率密度関数の定式化(2クラスの場合) 0
= .0! + /0"
29 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合+ を出⼒する識別器(含まれない -> : ) =
ℛ = ) :, ℎ +, ∈ ℛ
30 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合1 を出⼒する識別器(含まれない -> 2 ) 識別誤差率
3 = 3 ℛ = : X = >∈ℛ # "5 (> ) + + X = >∉ℛ # "6 (> ) = ℛ = ) :, ℎ +, ∈ ℛ
31 簡単な設定での例(準備) Toy exampleʼs experimentでの実験 1. ͷ2ΫϥεͷΨεࠞ߹ϞσϧͰͷఆࣜԽ (+ = 0.3,
: = 0.7, "6 = (−1,1), "6 = (1,1)) 2. ϊΠζը૾ = + 3. Denoisingํ๏ : ઢܗύϥϝʔλ()ʹΑΔdenoising - 3 = • ධՁํ๏ • Distortion (D) : MSE • Perception (P) : KL distance • Classification (C) : ̎Ϋϥεͷࣝผثͱͯ͠Ͱֶशͨ͠ͷ 0 = . 0! + / 0"
32 簡単な設定での例(結果) C-Dؒ, C-PؒͲͪΒʹ͓͍ͯ૬ؔΛ֬ೝ
33 実験 ⽬的 : 実データでのCDPの関係性の確認 データ : MNIST, Cifar10 タスク
: Denoising, 超解像 CNN-1, CNN-2 : 異なる構造のCNN CNN-2, CNN-2ʼ : ⼊⼒サイズの違い (28x28, 32x32) 損失 : $%& + 012 + A&
34 実験 Exp1 ~ 3 : 0,1 からサンプルしたNoiseがMNISTに事前に付与 Exp4 :
⼊⼒サイズを1/6 Exp5 : ⼊⼒サイズを1/3 (発表ではExp1,2,4のみ発表)
35 結果1 識別精度 : 強いDistortion, 悪いPerceptual Qualityとtradeoff -> 識別精度が低いほど、カーブが右上よりになっている点より (下図
: Exp1)
36 結果1 Exp1,2,4では同様な傾向(C-D間,C-P間,D-P間にtradeoff)
37 結果2 Perceptual Qualityに対する損失の強さとDenoisingに相関 - の値が⼤きくなると、⾒た⽬が改善 - の値が⼤きくなってみ⾒た⽬の改善はなし
Yochai Blau, Tomer Michaeli ICML 2019 Oral Rethinking Lossy Compression:
The Rate-Distortion-Perception Tradeoff
39 論⽂概要 タスク : 画像再構成 提案 - Perceptual quality ͱ
distortionʹՃ͑ɺѹॖͱͷτϨʔυΦ ϑͷੳ - τϨʔυΦϑΛ౿·͑ͨଛࣦؔͷઃܭ 結論 - 圧縮率が⾼い場合, Perceptual qualityͷڧ੍͍͕ඞཁ - Perceptual qualityͷΈͷଛࣦؔͩͱ࠶ߏ͕ػೳ͠ͳ͍
40 Tradeoffの数式的な定義(Blau et. al, 2018) Bit Rate(R)と歪み(D)の関係性 (RD tradeoff) =
min !! "|" (, 3 ) . . Δ , 3 ≤ ・・・ ・・・ 2 2 2
41 問題設定 Bit Rate(R)と歪み(D)とPerceptual Quality(P)の関係性 (RDP tradeoff) , = min
!! "|" , 3 . . Δ , 3 ≤ , (", # " ) ≤
42 情報量の計算 → ∞ͷ࣌ͷRDP tradeoff (֬(≤ + : )ͰͷϕϧψʔΠͷΤϯτϩϐʔ :
B ) (, ∞) , ∞ = b B − B ∈ [0, ) 0 ∈ [, ∞)
43 実験設定 実験設定 Encoder : (, )の特徴を量⼦化したもの ( 6 (,
)) ( MNISTを99%で識別する識別器) Decoder : 未学習 Constraint ℎ : gradient penalty 7(*, ) * ) : max8∈ℱ( ℎ − ℎ 6 () ) Δ , c + C(", # " ) 0 9 ① ① ② ② .
44 実験1 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
モデル構造(以下の3つ) プロット数 ( 実験に使ったEncoder-Decoderの数) : 98個 * Quantize : 特徴をbitに変換(2~16)
45 結果 結果 - Perceptual Qualityがいいほど, MSEの値変化に⼤きく影響 - データを表現するbit rateを下げるほど、Perceptual
Qualityͷڧ੍͍ ͕ޮ͘
46 実験2 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
+ − (A ) * : 下のDNNの2層⽬(conv, 4x4x20)の特徴量(学習済み) モデル構造 : 前回と同様
47 結果 結果 - 中間層での歪み誤差を計算しても、Tradeoff⾃体は変化しない (スコアの変化はあり) 前回の結果 今回の結果
48 結果 結果 - 明瞭ははっきりする(⾚枠)ものの、結果⾃体は改善してはいない 前回の結果 今回の結果
49 追加考察 Discriminatorの各層でPerceptual loss(⻘枠)のみを最⼩化 (a) 1層⽬(Conv layer, 14x14x64) (b) 2(Conv
layer, 7x7x128) (c) 4(FC layer, 4096) -> MSE loss͕ͳ͍߹ɺ͔ͳΓ݁Ռ͕ѱԽ(ݪҼʹ͍ͭͯݴٴͳ͠ʣ 0 9 .
50 発表論⽂(再掲) 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
51 まとめ - Tradeoff が歪み,圧縮率,知覚情報,識別に間に存在 - 損失関数の設計を変えても、トレードオフの⾯で⼤きく⼿法間に違いは ない - 知覚情報と歪みを同時に最⼩化できていない点で、֮ใͷଛࣦઃܭ
վળ͢Δඞཁ͕͋Δ