Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Real-time 6K Image Rescaling with Rate-distortion Optimization

Real-time 6K Image Rescaling with Rate-distortion Optimization

■イベント :第59回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/288899/

■登壇概要

タイトル:Real-time 6K Image Rescaling with Rate-distortion Optimization
発表者: Sansan株式会社技術本部 研究開発部 Automationグループ 内田 奏

◉ 研究開発職 採用情報
募集中のポジションや関連記事など
https://media.sansan-engineering.com/

◉ Sansan Tech Blog
Sansanのものづくりを支えるメンバーのテックブログ(R&Dメンバーの連載も多数)

https://buildersbox.corp-sansan.com/

Sansan R&D

July 21, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. - 論⽂情報 - データ圧縮と画像スケーリング - 提案⼿法 - 実験 - まとめ

    ⽬次 ※図表は紹介論⽂からの引⽤となります
  2. - 書誌情報 - タイトル: Real-time 6K Image Rescaling with Rate-distortion

    Optimization - 著者: Chenyang Qi*, Xin Yang*, Ka Keong Cheng, Ying-Cong, Chen, Qifen Chen - 所属: Hong Kong University of Science and Technology (HKUST) - 概要 - JPEG の圧縮処理を再現したリスケーリング⼿法を提案 - ビットレートと歪み (Rate-Distortion; RD) のバランスを最適化可能 - 選定理由 - 修論に似ていた (同レベルとは⾔ってない) 論⽂情報
  3. - データ圧縮 (data compression) - データの本質を変えずに、より少ないビット数でデータを表現する⽅法 - 可逆圧縮と⾮可逆圧縮 > 圧縮前のデータと、圧縮・展開後のデータが⼀致する⽅式とそうでない⽅式

    > 厳密には、可逆圧縮のみがデータ圧縮に該当 - 画像圧縮 (image compression) - 画像データは冗⻑性が⾼く、様々な事前知識により⾼効率に圧縮可能 > 例) 近傍画素は似た⾊, ⼈間は⾊の変化より輝度の変化に敏感, etc. データ圧縮
  4. - 1992年に ISO/IEC 10918 で規格化された画像圧縮⽅式 - ⼀般には⾮可逆圧縮として知られる - 圧縮処理の流れ 1.

    ⾊空間変換: RGB⾊空間からYCbCr⾊空間に変換 2. ダウンサンプリング: Cb, Crチャネルをダウンサンプルしてデータ量を削減 3. 離散コサイン変換 (DCT): 画像ブロックに分割して周波数領域に変換 4. 量⼦化: DCT係数を量⼦化⾏列を使⽤して量⼦化 5. エントロピー符号化: ハフマン符号化などを適⽤してファイルサイズを削減 JPEG (Joint Photographic Experts Group) ※ロゴ画像は https://jpeg.org/jpeg/ から取得。SVGでした。
  5. - 画像スケーリング (image scaling) - デバイスの表⽰領域に合わせて画像解像度を変更する操作 - 画像補間 (image interpolation)

    - 対象画素を周辺画素の加重平均によって決定する⽅法 - 縮⼩・拡⼤両⽅に利⽤可能だが、性能は低い 画像スケーリング 原画像 Nearest Neighbor 法 Bilinear 法 Bicubic 法 Lanczos 法 x3
  6. - データ圧縮 - 画像データは冗⻑性が⾼く、⾼効率に圧縮可能 - 30年前に提案された JPEG が未だに広く利⽤されている > 標準化・普及までには多⼤な時間を要する

    - 画像スケーリング - 画像解像度を変更する操作であり、深層学習を⽤いた⼿法が隆盛 - データ圧縮としてみたとき、要件を満たせていない > 画像リスケーリングは画像品質の⾯で有望だが、データ量・速度に難あり ここまでのまとめ 本論⽂の⽬的: データ圧縮として有⽤な画像リスケーリング⼿法の開発
  7. - 課題: JPEG は量⼦化テーブルが固定 - 画像ごとに周波数分布は異なるため、デコードステップに悪影響 - HyperThumbnail では量⼦化テーブルを画像ごとに予測 -

    8層の MLP によってブロックを 1D ベクトルに変換し、量⼦化テーブルを⽣成 𝑄! = ∑" MLP! 𝐶#," |𝐶#," | , 𝑄% = ∑" MLP% 𝐶%," |𝐶% " | - 量⼦化誤差を再現するため、ノイズ 𝜖 ∼ 𝒰(−0.5, 0.5) を加えて量⼦化 3 𝐶# = 𝐶# 𝑄! + 𝜖 + 𝜖, 3 𝐶% = 𝐶% 𝑄% + 𝜖 + 𝜖 Quantization Prediction Module (QPM)
  8. - 課題: 量⼦化誤差 - 既存⼿法は量⼦化誤差を含んだ RGB 画像からデコードする⽅法が多い - 量⼦化誤差は周波数ドメインでは簡単に近似できるが、画像ドメインでは困難 -

    逆量⼦化した DCT 係数 $ 𝐶 から周波数ドメインの情報を抽出 - 5 𝐶 ∈ ℝ&'(×& '( ×) '( にリシェイプ後、 𝑓( 5 𝐶) ∈ ℝ(*×& ( ×) ( を得る > ! 𝐶 の空間解像度は RGB画像 # 𝑦 ∈ ℝ!×! " ×# " の1/8であるため計算コストは低い - 9 𝑦 と 𝑓( 5 𝐶) を結合して、軽量なデコーダ 𝐷 によって画像を復元する 9 𝑥 = 𝐷(9 𝑦 ⨁𝑓( 5 𝐶)) Frequency-aware Decoder
  9. - 最終的なデータ量の削減には、 > 𝑪 のエントロピー最⼩化が必要 - エントロピーは次式で推定可能 [J. Balle+ ICLR2017]

    𝑅 = 𝐸#∼%$ [− log& 𝑝'(1 𝐶() − log& 𝑝)( 1 𝐶)*) − log& 𝑝)( 1 𝐶)+)] - 空間解像度あたりのエントロピーを bitrate loss 𝐿*%% とする 𝐿*%% = 𝑅 𝐻×𝑊 - Reconstruction Loss, Guidance Lossと合わせて最終的な⽬的関数とする 𝐿+,-./ = # 𝑥 − 𝑥 0 𝐻×𝑊 , 𝐿1234, = # 𝑦 − 𝑦+,5 & & (𝐻/𝑠)×(𝑊/𝑠) 𝐿+,6-78, = 𝐿+,-./ + 𝜆0𝐿1234, + 𝜆&𝐿*%% ⽬的関数 ※ 実験では 𝜆! = 0.6, 𝜆" = 0.01 を⽤いる
  10. - HyperThumbnail - JPEG の圧縮処理を再現したリスケーリング⼿法 > そのままファイルとして出⼒可能 - JPEG の短所を克服するためのモジュールを提案

    1. Quantization Prediction Module (QPM): 量⼦化テーブルをサンプル毎に動的に算出して多様な周波数分布に対応 2. Frequency-aware Decoder: 周波数領域の情報を利⽤することでデコード時の量⼦化誤差の影響を低減 - ファイルサイズを削減するための制約を導⼊ > 量⼦化後のDCT係数のエントロピーを最⼩化 提案⼿法のまとめ
  11. - 評価指標 - 復元画像の品質: PSNR (peak signal-noise ratio) - 拡⼤の計算効率:

    実⾏時間 & MACs (multiply-accumulation operations) - 圧縮効率: ビットレート (1ピクセルあたりのファイルサイズ) - データセット - 学習: DIV2K - 評価: Set5, Set14, BSD100, Urban100, FiveK-6k, Kodak 実験設定
  12. - 復元したHR画像に対する評価 - Rate-Distortion: 同程度のビットレートで転送した際、提案⼿法が最⾼性能 - 速度: HCFlow の 3%

    程度の計算コストで済む - 画像品質: decoder のサイズが⼩さくても SOTA ベースラインとの⽐較: HR画像
  13. - 実⾏速度 - TensorRT を⽤いた場合 6K でも 30FPS で拡⼤可能 -

    Test-time optimization - HR画像が利⽤可能であるため、decoder 以外テストセットで学習可能 その他の実験結果
  14. - データ圧縮と画像スケーリング - 圧縮⽅式が普及するまでには時間がかかるため、既存⽅式のまま圧縮したい - 画像スケーリングは圧縮効率・実⾏速度の観点で要件を満たせていない - HyperThumbnail - JPEG

    の圧縮処理を再現したリスケーリング⼿法 > JPEG の短所を克服するためのモジュールを提案 > ファイルサイズへの制約を追加 - HR/LR画像において既存⼿法より⾼品質 > 計算コストも既存⼿法の 3% 程度で⾼速 まとめ