Slide 1

Slide 1 text

Real-time 6K Image Rescaling with Rate-distortion Optimization Sansan株式会社 技術本部 研究開発部 内⽥ 奏 第59回 コンピュータビジョン勉強会@関東

Slide 2

Slide 2 text

写真が⼊ります 内⽥ 奏 Sansan株式会社 技術本部 研究開発部 シニアリサーチャー 東京電機⼤学⼤学院⼯学研究科修⼠課程修了。 深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。 名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

Slide 3

Slide 3 text

- 論⽂情報 - データ圧縮と画像スケーリング - 提案⼿法 - 実験 - まとめ ⽬次 ※図表は紹介論⽂からの引⽤となります

Slide 4

Slide 4 text

- 書誌情報 - タイトル: Real-time 6K Image Rescaling with Rate-distortion Optimization - 著者: Chenyang Qi*, Xin Yang*, Ka Keong Cheng, Ying-Cong, Chen, Qifen Chen - 所属: Hong Kong University of Science and Technology (HKUST) - 概要 - JPEG の圧縮処理を再現したリスケーリング⼿法を提案 - ビットレートと歪み (Rate-Distortion; RD) のバランスを最適化可能 - 選定理由 - 修論に似ていた (同レベルとは⾔ってない) 論⽂情報

Slide 5

Slide 5 text

データ圧縮と画像スケーリング

Slide 6

Slide 6 text

- データ圧縮 (data compression) - データの本質を変えずに、より少ないビット数でデータを表現する⽅法 - 可逆圧縮と⾮可逆圧縮 > 圧縮前のデータと、圧縮・展開後のデータが⼀致する⽅式とそうでない⽅式 > 厳密には、可逆圧縮のみがデータ圧縮に該当 - 画像圧縮 (image compression) - 画像データは冗⻑性が⾼く、様々な事前知識により⾼効率に圧縮可能 > 例) 近傍画素は似た⾊, ⼈間は⾊の変化より輝度の変化に敏感, etc. データ圧縮

Slide 7

Slide 7 text

- 1992年に ISO/IEC 10918 で規格化された画像圧縮⽅式 - ⼀般には⾮可逆圧縮として知られる - 圧縮処理の流れ 1. ⾊空間変換: RGB⾊空間からYCbCr⾊空間に変換 2. ダウンサンプリング: Cb, Crチャネルをダウンサンプルしてデータ量を削減 3. 離散コサイン変換 (DCT): 画像ブロックに分割して周波数領域に変換 4. 量⼦化: DCT係数を量⼦化⾏列を使⽤して量⼦化 5. エントロピー符号化: ハフマン符号化などを適⽤してファイルサイズを削減 JPEG (Joint Photographic Experts Group) ※ロゴ画像は https://jpeg.org/jpeg/ から取得。SVGでした。

Slide 8

Slide 8 text

- 画像スケーリング (image scaling) - デバイスの表⽰領域に合わせて画像解像度を変更する操作 - 画像補間 (image interpolation) - 対象画素を周辺画素の加重平均によって決定する⽅法 - 縮⼩・拡⼤両⽅に利⽤可能だが、性能は低い 画像スケーリング 原画像 Nearest Neighbor 法 Bilinear 法 Bicubic 法 Lanczos 法 x3

Slide 9

Slide 9 text

- 超解像 (super-resolution; SR) - 劣化モデルによって低解像度画像から⾼解像度画像を復元する問題 - 劣化モデルはコントロールできないため、逆変換を近似的に求める ⾼度な画像スケーリング ① 𝐼!"# 𝐼$! 𝐼%! ℱ ≈ 𝒟"𝟏 𝒟

Slide 10

Slide 10 text

- 画像リスケーリング (image rescaling) - 可逆なネットワークによって画像の縮⼩・拡⼤を学習 - 低解像度画像に復元に有⽤な情報を⼊れ込めるため、復元性能が⾼い ⾼度な画像スケーリング ② 𝐼!"# 𝐼$! 𝐼%! 𝒟"𝟏 𝒟

Slide 11

Slide 11 text

- 画像スケーリングはデータ圧縮の要件を満たせるか? - 画像品質: 超解像では不⼗分、リスケーリングはLRの情報⽋損が少なく良好 - データ量: 圧縮後のデータ量について最適化していない - 実⾏速度:リスケーリングはサーバ/クライアントサイドで同等の計算量が必要 データ圧縮としての画像スケーリング

Slide 12

Slide 12 text

- データ圧縮 - 画像データは冗⻑性が⾼く、⾼効率に圧縮可能 - 30年前に提案された JPEG が未だに広く利⽤されている > 標準化・普及までには多⼤な時間を要する - 画像スケーリング - 画像解像度を変更する操作であり、深層学習を⽤いた⼿法が隆盛 - データ圧縮としてみたとき、要件を満たせていない > 画像リスケーリングは画像品質の⾯で有望だが、データ量・速度に難あり ここまでのまとめ 本論⽂の⽬的: データ圧縮として有⽤な画像リスケーリング⼿法の開発

Slide 13

Slide 13 text

提案⼿法

Slide 14

Slide 14 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail

Slide 15

Slide 15 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail U-Net によって画像縮⼩

Slide 16

Slide 16 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail 𝑵 個のブロックに分割

Slide 17

Slide 17 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail 離散コサイン変換を適⽤し、係数を取得

Slide 18

Slide 18 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail 量⼦化

Slide 19

Slide 19 text

- 課題: JPEG は量⼦化テーブルが固定 - 画像ごとに周波数分布は異なるため、デコードステップに悪影響 - HyperThumbnail では量⼦化テーブルを画像ごとに予測 - 8層の MLP によってブロックを 1D ベクトルに変換し、量⼦化テーブルを⽣成 𝑄! = ∑" MLP! 𝐶#," |𝐶#," | , 𝑄% = ∑" MLP% 𝐶%," |𝐶% " | - 量⼦化誤差を再現するため、ノイズ 𝜖 ∼ 𝒰(−0.5, 0.5) を加えて量⼦化 3 𝐶# = 𝐶# 𝑄! + 𝜖 + 𝜖, 3 𝐶% = 𝐶% 𝑄% + 𝜖 + 𝜖 Quantization Prediction Module (QPM)

Slide 20

Slide 20 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail 周波数ドメインの情報を⽤いたデコード

Slide 21

Slide 21 text

- 課題: 量⼦化誤差 - 既存⼿法は量⼦化誤差を含んだ RGB 画像からデコードする⽅法が多い - 量⼦化誤差は周波数ドメインでは簡単に近似できるが、画像ドメインでは困難 - 逆量⼦化した DCT 係数 $ 𝐶 から周波数ドメインの情報を抽出 - 5 𝐶 ∈ ℝ&'(×& '( ×) '( にリシェイプ後、 𝑓( 5 𝐶) ∈ ℝ(*×& ( ×) ( を得る > ! 𝐶 の空間解像度は RGB画像 # 𝑦 ∈ ℝ!×! " ×# " の1/8であるため計算コストは低い - 9 𝑦 と 𝑓( 5 𝐶) を結合して、軽量なデコーダ 𝐷 によって画像を復元する 9 𝑥 = 𝐷(9 𝑦 ⨁𝑓( 5 𝐶)) Frequency-aware Decoder

Slide 22

Slide 22 text

- データ圧縮に適した画像リスケーリングモデル 提案⼿法: HyperThumbnail 圧縮後のデータ量を最適化

Slide 23

Slide 23 text

- 最終的なデータ量の削減には、 > 𝑪 のエントロピー最⼩化が必要 - エントロピーは次式で推定可能 [J. Balle+ ICLR2017] 𝑅 = 𝐸#∼%$ [− log& 𝑝'(1 𝐶() − log& 𝑝)( 1 𝐶)*) − log& 𝑝)( 1 𝐶)+)] - 空間解像度あたりのエントロピーを bitrate loss 𝐿*%% とする 𝐿*%% = 𝑅 𝐻×𝑊 - Reconstruction Loss, Guidance Lossと合わせて最終的な⽬的関数とする 𝐿+,-./ = # 𝑥 − 𝑥 0 𝐻×𝑊 , 𝐿1234, = # 𝑦 − 𝑦+,5 & & (𝐻/𝑠)×(𝑊/𝑠) 𝐿+,6-78, = 𝐿+,-./ + 𝜆0𝐿1234, + 𝜆&𝐿*%% ⽬的関数 ※ 実験では 𝜆! = 0.6, 𝜆" = 0.01 を⽤いる

Slide 24

Slide 24 text

- HyperThumbnail - JPEG の圧縮処理を再現したリスケーリング⼿法 > そのままファイルとして出⼒可能 - JPEG の短所を克服するためのモジュールを提案 1. Quantization Prediction Module (QPM): 量⼦化テーブルをサンプル毎に動的に算出して多様な周波数分布に対応 2. Frequency-aware Decoder: 周波数領域の情報を利⽤することでデコード時の量⼦化誤差の影響を低減 - ファイルサイズを削減するための制約を導⼊ > 量⼦化後のDCT係数のエントロピーを最⼩化 提案⼿法のまとめ

Slide 25

Slide 25 text

実験

Slide 26

Slide 26 text

- 評価指標 - 復元画像の品質: PSNR (peak signal-noise ratio) - 拡⼤の計算効率: 実⾏時間 & MACs (multiply-accumulation operations) - 圧縮効率: ビットレート (1ピクセルあたりのファイルサイズ) - データセット - 学習: DIV2K - 評価: Set5, Set14, BSD100, Urban100, FiveK-6k, Kodak 実験設定

Slide 27

Slide 27 text

- 復元したHR画像に対する評価 - Rate-Distortion: 同程度のビットレートで転送した際、提案⼿法が最⾼性能 - 速度: HCFlow の 3% 程度の計算コストで済む - 画像品質: decoder のサイズが⼩さくても SOTA ベースラインとの⽐較: HR画像

Slide 28

Slide 28 text

- 提案⼿法がテクスチャの再現能⼒が最も⾼い - 他のリスケーリング⼿法は JPEG により可逆性が失われるため劣化 定性評価: HR画像

Slide 29

Slide 29 text

- LR画像はサムネイルとして表⽰されるため、そのものの性能も重要 - 定量評価: Bicubic で縮⼩した画像との PSNR は提案⼿法が最良 - 定性評価: 提案⼿法のアーティファクトが少ない ベースラインとの⽐較: LR画像

Slide 30

Slide 30 text

- QPM と Guidance Loss の有効性を検証 - 固定の量⼦化テーブルを⽤いるより、動的に⽣成する⽅が良い - Guidance Loss を省いた⽅が復元性能は⾼いが、LR画像の品質が悪い Ablation Study

Slide 31

Slide 31 text

- 実⾏速度 - TensorRT を⽤いた場合 6K でも 30FPS で拡⼤可能 - Test-time optimization - HR画像が利⽤可能であるため、decoder 以外テストセットで学習可能 その他の実験結果

Slide 32

Slide 32 text

- データ圧縮と画像スケーリング - 圧縮⽅式が普及するまでには時間がかかるため、既存⽅式のまま圧縮したい - 画像スケーリングは圧縮効率・実⾏速度の観点で要件を満たせていない - HyperThumbnail - JPEG の圧縮処理を再現したリスケーリング⼿法 > JPEG の短所を克服するためのモジュールを提案 > ファイルサイズへの制約を追加 - HR/LR画像において既存⼿法より⾼品質 > 計算コストも既存⼿法の 3% 程度で⾼速 まとめ

Slide 33

Slide 33 text

Sansan 技術本部 研究開発職 採⽤情報 https://media.sansan-engineering.com/randd

Slide 34

Slide 34 text

No content