Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
perception_distortion_tradeoff.pdf
Search
koki madono
May 25, 2020
Research
1
140
perception_distortion_tradeoff.pdf
koki madono
May 25, 2020
Tweet
Share
More Decks by koki madono
See All by koki madono
MIRU2020若手の会グループA発表
madonokouki
0
240
AAAIWS2020_oral_pptx
madonokouki
0
120
Capsule Network Introduction
madonokouki
0
370
modeling_point_cloud.pdf
madonokouki
0
66
Other Decks in Research
See All in Research
業界横断 副業・兼業者の実態調査
fkske
0
180
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
100
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
280
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
300
20250624_熊本経済同友会6月例会講演
trafficbrain
1
290
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
yumulab
1
470
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
120
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
2
610
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
220
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
110
Weekly AI Agents News!
masatoto
33
68k
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
1.1k
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Building Applications with DynamoDB
mza
95
6.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
YesSQL, Process and Tooling at Scale
rocio
173
14k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
The Invisible Side of Design
smashingmag
301
51k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Designing Experiences People Love
moore
142
24k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Transcript
早稲⽥⼤学 修⼠2年 真殿 航輝 ⼈間の知覚情報と歪みの関係性 についての研究事例
2 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない
3 ⼈間の知覚情報とは ⼈間が画像の中⾝を理解するための情報量 中⾝を理解するための 情報量がある 中⾝を理解するための 情報量がない Lenaとわかる 何もなし ノイズに
⾒える
4 ⼈間の知覚情報に関する損失関数の⼤枠 ⼤きく3種類に分類(perceptual information loss) 1. ⼈間の意⾒ (ex) アンケート、⼈間の意⾒を元に損失関数を設計 2.
⾃然画像の統計量との⽐較(No Reference based,NR) (ex) BRISQUE, NIQE, %**7*/& 3. GAN based (分布を最⼩化するアプローチ) (ex) JS divergence, Wasserstein distance, f-divergence • 歪み(distortion)の計測 : Full Reference based(FR, 元画像との⽐較) (ex) MSE, SSIM, MS-SSIM, IFC, VIF, …
5 ⼈間の知覚情報の使⽤⽤途 - Style変換 - 画像品質評価(IQA) - 秘匿画像の作成
6 発表内容 発表内容 ⼈間の知覚情報と歪みの関係性についての研究事例 結論 -知覚情報, 画像の歪み, 識別精度、情報圧縮率それぞれに Tradeoff -既存の知覚情報を扱う損失関数はまだ不⼗分
知覚情報 (perceptual information) 歪み (distortion)
7 発表論⽂ 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
Yochai Blau, Tomer Michaeli CVPR 2019 Oral The Perception-Distortion Tradeoff
9 論⽂概要 タスク : 画像信号復元 / 超解像 提案 : Perceptual
quality と distortionにトレードオフ (PD-tradeoff) 結論 : - どの評価指標でもPD-tradeoffが存在する - 最近の⼿法はtrade offの⾯でそこまで変化なし - FR, NR両⽅の損失を⽤いることが信頼性のために重要
10 トレードオフの全体像 どちらか(Perception, Distortion)の損失を最⼩化すると、⽚ ⽅の損失が極端に⼤きくなってしまうようなトレードオフ
11 画像の再構成(問題設定) Perceptual Quality(())を分布, Distortion ()を期待値として定式化 (* 関連研究で()->, -> ը࣭ධՁͱҐஔ͚ΒΕ͍ͯΔͨΊ)
= min !! "|$ ", # " . . [Δ(, 3 )] ≤
12 の性質 ", # " : f-divergence, KL, Renyi divergenceなどのJensenの不等式
を満たすものを利⽤する. () (= min !! "|$ ", # " ,下の図の)は上の条件で、凸性を持つ. -> ()ʹತੑ͕͋ΔͨΊɺͲͪΒ͔Λ࠷దԽ͢ΔͱɺยํͷͷมԽ͕ ۃʹͳΔ. (ʣ
13 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 ()
14 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 ()
15 論⽂の注⽬点 元画像と再構成画像の分布 - (ex) 元画像 X ∈ −1,0,1 と
劣化画像 = + (0,1) 元画像 () 劣化画像 () 再構成画像 () MMSEとMAPで歪みを 最⼩化すると分布が合わない ↓ Perceptual informationと トレードオフな関係があるのでは︖
16 minimum mean square-error (MMSE) での推定 ..4&の事後確率の期待値 > $$%&: [|
= ](∑'∈{*+,-,+} # "%&'( > ) - 確率が離散 / 連続値の違い - MMSEによる推定が完全でない ! = $ " , = ±1 # , = 0 ) *!"#$ " = +exp(− 1 2 − ,) ∑-∈{01,3,1} - exp{− 1 2 ( − ),}
17 maximum-a-posteriori (MAP)での推定 ."1の事後確率の期待値 > $/!: [| = ]( max
'∈{*+,-,+} ( = |)) - 0を取らないように推定を⾏う - MAPによる推定が完全でない ! = $ " , = ±1 # , = 0 $ !!"# ) = $ 0.5, ) = +1 0.5, ) = −1
18 ⽣成器での事前実験 Perception-distortionの損失最⼩化の⽣成器を考える. 012 : denoising⽤のWasserstein GANと⽤いて計算 34' = 156789758'
+ 012 (34' ≈ Δ(, > ) + (", # " ))
19 ⽣成器の損失変化 損失のパラメータを調整(A~D) : 損失における相関を確認
20 実験 既存のdistortionの評価指標とperceptual informationの関係性の検証 (超解像のアルゴリズムにおいて) 超解像のアルゴリズム : ~2018年秋までの有名な⼿法 Distortion :
3.4& 44*. .444*. *'$ 7*'BOE7(( perceptual information : Ma et alͷख๏Λར༻ 評価時 : 両評価指標においてスコアが優れている場合、優劣を評価 (ex) Aの⼿法よりはBの⼿法が優れている (下図)
21 結果 2017年以降の⼿法 : トレードオフの観点からどの⼿法も変わらない 2017年以前の⼿法 : 性能的には現在のものに⽐べて、劣っている -> 今後もこの評価軸では変わらない⼿法がほとんどではないか︖(私⾒)
22 結果 異なるDistortionの評価指標でも同じような傾向が出ている.
23 結果 異なるDistortionの評価指標でも同じような傾向が出ている. 筆者の考察 (i) 左下のplotがない (ii) 劣化画像の⽐較ができる(FR) / できない(NR)場合両⽅でtradeoff
(iii) Referenceを⽤いるアプローチのスコアのばらつきがある -> NRとFR、2つのアプローチを併⽤することが必要
Dong Liu, Haochen Zhang, Zhiwei Xiong Neurips 2019 On The
Classification-Distortion- Perception Tradeoff
25 論⽂概要 タスク : 画像信号復元 (denoising) 提案 : Perceptual quality
と distortionに加え, Classificationとのトレー ドオフの分析 結論 : 識別の最適化時には歪みや知覚情報をある程度落としている
26 前回の問題設定を拡張 Perceptual Quality(())とDistortion ()ͷ্ݶ͕༩͑ΒΕ্ͨͰɺࣝ ผث()ͰͷଛࣦΛ࠷খԽ͢Δ͜ͱΛߟ͑Δ. * -(・|ℛ-) :学習済の識別器 ,
= min !! "|$ 3 - . . Δ , 3 ≤ , (", # " ) ≤
27 具体的な問題設定の理由 1. Perceptual Quality(())とDistortion ()ʹର͢Δ੍ - ⽐較対象の画像がある程度認識できるものを仮定 2. 学習済みの識別器を識別評価に⽤いる理由
- 再構成画像で再学習すると、再構成⽅法によって相関が変化する恐れ - ࠶ߏը૾Ͱ࠶ֶश͢Δͱɺ݅ʹΑͬͯࣝผثֶ͕श͠ͳ͍Մೳੑ - ڧ͍Έ ( high distortion) - ݩը૾͕Θ͔Βͳ͍ʢblind restoration) 相関が ⾃明 Distorted Original 今回確認したい 相関
事前確率 . / 条件付き確率密度関数 0! 0" 28 問題設定 クラス情報を考慮した確率密度関数の定式化(2クラスの場合) 0
= .0! + /0"
29 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合+ を出⼒する識別器(含まれない -> : ) =
ℛ = ) :, ℎ +, ∈ ℛ
30 問題設定 2クラス識別器の定式化 - 集合ℛにが含まれる場合1 を出⼒する識別器(含まれない -> 2 ) 識別誤差率
3 = 3 ℛ = : X = >∈ℛ # "5 (> ) + + X = >∉ℛ # "6 (> ) = ℛ = ) :, ℎ +, ∈ ℛ
31 簡単な設定での例(準備) Toy exampleʼs experimentでの実験 1. ͷ2ΫϥεͷΨεࠞ߹ϞσϧͰͷఆࣜԽ (+ = 0.3,
: = 0.7, "6 = (−1,1), "6 = (1,1)) 2. ϊΠζը૾ = + 3. Denoisingํ๏ : ઢܗύϥϝʔλ()ʹΑΔdenoising - 3 = • ධՁํ๏ • Distortion (D) : MSE • Perception (P) : KL distance • Classification (C) : ̎Ϋϥεͷࣝผثͱͯ͠Ͱֶशͨ͠ͷ 0 = . 0! + / 0"
32 簡単な設定での例(結果) C-Dؒ, C-PؒͲͪΒʹ͓͍ͯ૬ؔΛ֬ೝ
33 実験 ⽬的 : 実データでのCDPの関係性の確認 データ : MNIST, Cifar10 タスク
: Denoising, 超解像 CNN-1, CNN-2 : 異なる構造のCNN CNN-2, CNN-2ʼ : ⼊⼒サイズの違い (28x28, 32x32) 損失 : $%& + 012 + A&
34 実験 Exp1 ~ 3 : 0,1 からサンプルしたNoiseがMNISTに事前に付与 Exp4 :
⼊⼒サイズを1/6 Exp5 : ⼊⼒サイズを1/3 (発表ではExp1,2,4のみ発表)
35 結果1 識別精度 : 強いDistortion, 悪いPerceptual Qualityとtradeoff -> 識別精度が低いほど、カーブが右上よりになっている点より (下図
: Exp1)
36 結果1 Exp1,2,4では同様な傾向(C-D間,C-P間,D-P間にtradeoff)
37 結果2 Perceptual Qualityに対する損失の強さとDenoisingに相関 - の値が⼤きくなると、⾒た⽬が改善 - の値が⼤きくなってみ⾒た⽬の改善はなし
Yochai Blau, Tomer Michaeli ICML 2019 Oral Rethinking Lossy Compression:
The Rate-Distortion-Perception Tradeoff
39 論⽂概要 タスク : 画像再構成 提案 - Perceptual quality ͱ
distortionʹՃ͑ɺѹॖͱͷτϨʔυΦ ϑͷੳ - τϨʔυΦϑΛ౿·͑ͨଛࣦؔͷઃܭ 結論 - 圧縮率が⾼い場合, Perceptual qualityͷڧ੍͍͕ඞཁ - Perceptual qualityͷΈͷଛࣦؔͩͱ࠶ߏ͕ػೳ͠ͳ͍
40 Tradeoffの数式的な定義(Blau et. al, 2018) Bit Rate(R)と歪み(D)の関係性 (RD tradeoff) =
min !! "|" (, 3 ) . . Δ , 3 ≤ ・・・ ・・・ 2 2 2
41 問題設定 Bit Rate(R)と歪み(D)とPerceptual Quality(P)の関係性 (RDP tradeoff) , = min
!! "|" , 3 . . Δ , 3 ≤ , (", # " ) ≤
42 情報量の計算 → ∞ͷ࣌ͷRDP tradeoff (֬(≤ + : )ͰͷϕϧψʔΠͷΤϯτϩϐʔ :
B ) (, ∞) , ∞ = b B − B ∈ [0, ) 0 ∈ [, ∞)
43 実験設定 実験設定 Encoder : (, )の特徴を量⼦化したもの ( 6 (,
)) ( MNISTを99%で識別する識別器) Decoder : 未学習 Constraint ℎ : gradient penalty 7(*, ) * ) : max8∈ℱ( ℎ − ℎ 6 () ) Δ , c + C(", # " ) 0 9 ① ① ② ② .
44 実験1 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
モデル構造(以下の3つ) プロット数 ( 実験に使ったEncoder-Decoderの数) : 98個 * Quantize : 特徴をbitに変換(2~16)
45 結果 結果 - Perceptual Qualityがいいほど, MSEの値変化に⼤きく影響 - データを表現するbit rateを下げるほど、Perceptual
Qualityͷڧ੍͍ ͕ޮ͘
46 実験2 実験設定 歪みの損失(∆(, )) : Mean Squared Error (MSE)
+ − (A ) * : 下のDNNの2層⽬(conv, 4x4x20)の特徴量(学習済み) モデル構造 : 前回と同様
47 結果 結果 - 中間層での歪み誤差を計算しても、Tradeoff⾃体は変化しない (スコアの変化はあり) 前回の結果 今回の結果
48 結果 結果 - 明瞭ははっきりする(⾚枠)ものの、結果⾃体は改善してはいない 前回の結果 今回の結果
49 追加考察 Discriminatorの各層でPerceptual loss(⻘枠)のみを最⼩化 (a) 1層⽬(Conv layer, 14x14x64) (b) 2(Conv
layer, 7x7x128) (c) 4(FC layer, 4096) -> MSE loss͕ͳ͍߹ɺ͔ͳΓ݁Ռ͕ѱԽ(ݪҼʹ͍ͭͯݴٴͳ͠ʣ 0 9 .
50 発表論⽂(再掲) 1. The Perception-Distortion Tradeoff - 元画像と再構成時の確率分布の違いを分析 - ⽬的関数に関係なく、視覚情報と歪みにトレードオフがある
2. On The Classification-Distortion-Perception Tradeoff - ্ͷݚڀΛࣝผਫ਼ͱͷؔੑʹ֦ு - 3ͭͦΕͧΕͷpairؒʹରͯ͠τϨʔυΦϑ͕͋Δ 3. Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff - 1. ͷݚڀΛBit rate ( ѹॖʣٕज़ͱͷؔੑʹ֦ு - ѹॖʹΑͬͯɺPerceptual loss͕ػೳ͠ͳ͍߹͕͋Γʁ
51 まとめ - Tradeoff が歪み,圧縮率,知覚情報,識別に間に存在 - 損失関数の設計を変えても、トレードオフの⾯で⼤きく⼿法間に違いは ない - 知覚情報と歪みを同時に最⼩化できていない点で、֮ใͷଛࣦઃܭ
վળ͢Δඞཁ͕͋Δ