$30 off During Our Annual Pro Sale. View Details »

Real-time 6K Image Rescaling with Rate-distortion Optimization

Real-time 6K Image Rescaling with Rate-distortion Optimization

■イベント :第59回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/288899/

■登壇概要

タイトル:Real-time 6K Image Rescaling with Rate-distortion Optimization
発表者: Sansan株式会社技術本部 研究開発部 Automationグループ 内田 奏

◉ 研究開発職 採用情報
募集中のポジションや関連記事など
https://media.sansan-engineering.com/

◉ Sansan Tech Blog
Sansanのものづくりを支えるメンバーのテックブログ(R&Dメンバーの連載も多数)

https://buildersbox.corp-sansan.com/

Sansan R&D

July 21, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. Real-time 6K Image Rescaling
    with Rate-distortion Optimization
    Sansan株式会社
    技術本部 研究開発部
    内⽥ 奏
    第59回 コンピュータビジョン勉強会@関東

    View Slide

  2. 写真が⼊ります
    内⽥ 奏
    Sansan株式会社 技術本部 研究開発部
    シニアリサーチャー
    東京電機⼤学⼤学院⼯学研究科修⼠課程修了。
    深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。
    2020年Sansan株式会社に新卒⼊社。
    名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

    View Slide

  3. - 論⽂情報
    - データ圧縮と画像スケーリング
    - 提案⼿法
    - 実験
    - まとめ
    ⽬次
    ※図表は紹介論⽂からの引⽤となります

    View Slide

  4. - 書誌情報
    - タイトル: Real-time 6K Image Rescaling with Rate-distortion Optimization
    - 著者: Chenyang Qi*, Xin Yang*, Ka Keong Cheng, Ying-Cong, Chen, Qifen Chen
    - 所属: Hong Kong University of Science and Technology (HKUST)
    - 概要
    - JPEG の圧縮処理を再現したリスケーリング⼿法を提案
    - ビットレートと歪み (Rate-Distortion; RD) のバランスを最適化可能
    - 選定理由
    - 修論に似ていた (同レベルとは⾔ってない)
    論⽂情報

    View Slide

  5. データ圧縮と画像スケーリング

    View Slide

  6. - データ圧縮 (data compression)
    - データの本質を変えずに、より少ないビット数でデータを表現する⽅法
    - 可逆圧縮と⾮可逆圧縮
    > 圧縮前のデータと、圧縮・展開後のデータが⼀致する⽅式とそうでない⽅式
    > 厳密には、可逆圧縮のみがデータ圧縮に該当
    - 画像圧縮 (image compression)
    - 画像データは冗⻑性が⾼く、様々な事前知識により⾼効率に圧縮可能
    > 例) 近傍画素は似た⾊, ⼈間は⾊の変化より輝度の変化に敏感, etc.
    データ圧縮

    View Slide

  7. - 1992年に ISO/IEC 10918 で規格化された画像圧縮⽅式
    - ⼀般には⾮可逆圧縮として知られる
    - 圧縮処理の流れ
    1. ⾊空間変換: RGB⾊空間からYCbCr⾊空間に変換
    2. ダウンサンプリング: Cb, Crチャネルをダウンサンプルしてデータ量を削減
    3. 離散コサイン変換 (DCT): 画像ブロックに分割して周波数領域に変換
    4. 量⼦化: DCT係数を量⼦化⾏列を使⽤して量⼦化
    5. エントロピー符号化: ハフマン符号化などを適⽤してファイルサイズを削減
    JPEG (Joint Photographic Experts Group)
    ※ロゴ画像は https://jpeg.org/jpeg/ から取得。SVGでした。

    View Slide

  8. - 画像スケーリング (image scaling)
    - デバイスの表⽰領域に合わせて画像解像度を変更する操作
    - 画像補間 (image interpolation)
    - 対象画素を周辺画素の加重平均によって決定する⽅法
    - 縮⼩・拡⼤両⽅に利⽤可能だが、性能は低い
    画像スケーリング
    原画像
    Nearest Neighbor 法 Bilinear 法 Bicubic 法 Lanczos 法
    x3

    View Slide

  9. - 超解像 (super-resolution; SR)
    - 劣化モデルによって低解像度画像から⾼解像度画像を復元する問題
    - 劣化モデルはコントロールできないため、逆変換を近似的に求める
    ⾼度な画像スケーリング ①
    𝐼!"#
    𝐼$!
    𝐼%!
    ℱ ≈ 𝒟"𝟏
    𝒟

    View Slide

  10. - 画像リスケーリング (image rescaling)
    - 可逆なネットワークによって画像の縮⼩・拡⼤を学習
    - 低解像度画像に復元に有⽤な情報を⼊れ込めるため、復元性能が⾼い
    ⾼度な画像スケーリング ②
    𝐼!"#
    𝐼$!
    𝐼%!
    𝒟"𝟏
    𝒟

    View Slide

  11. - 画像スケーリングはデータ圧縮の要件を満たせるか?
    - 画像品質: 超解像では不⼗分、リスケーリングはLRの情報⽋損が少なく良好
    - データ量: 圧縮後のデータ量について最適化していない
    - 実⾏速度:リスケーリングはサーバ/クライアントサイドで同等の計算量が必要
    データ圧縮としての画像スケーリング

    View Slide

  12. - データ圧縮
    - 画像データは冗⻑性が⾼く、⾼効率に圧縮可能
    - 30年前に提案された JPEG が未だに広く利⽤されている
    > 標準化・普及までには多⼤な時間を要する
    - 画像スケーリング
    - 画像解像度を変更する操作であり、深層学習を⽤いた⼿法が隆盛
    - データ圧縮としてみたとき、要件を満たせていない
    > 画像リスケーリングは画像品質の⾯で有望だが、データ量・速度に難あり
    ここまでのまとめ
    本論⽂の⽬的: データ圧縮として有⽤な画像リスケーリング⼿法の開発

    View Slide

  13. 提案⼿法

    View Slide

  14. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail

    View Slide

  15. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    U-Net によって画像縮⼩

    View Slide

  16. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    𝑵 個のブロックに分割

    View Slide

  17. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    離散コサイン変換を適⽤し、係数を取得

    View Slide

  18. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    量⼦化

    View Slide

  19. - 課題: JPEG は量⼦化テーブルが固定
    - 画像ごとに周波数分布は異なるため、デコードステップに悪影響
    - HyperThumbnail では量⼦化テーブルを画像ごとに予測
    - 8層の MLP によってブロックを 1D ベクトルに変換し、量⼦化テーブルを⽣成
    𝑄!
    =
    ∑"
    MLP!
    𝐶#,"
    |𝐶#,"
    |
    , 𝑄%
    =
    ∑"
    MLP%
    𝐶%,"
    |𝐶% "
    |
    - 量⼦化誤差を再現するため、ノイズ 𝜖 ∼ 𝒰(−0.5, 0.5) を加えて量⼦化
    3
    𝐶#
    =
    𝐶#
    𝑄!
    + 𝜖
    + 𝜖, 3
    𝐶%
    =
    𝐶%
    𝑄%
    + 𝜖
    + 𝜖
    Quantization Prediction Module (QPM)

    View Slide

  20. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    周波数ドメインの情報を⽤いたデコード

    View Slide

  21. - 課題: 量⼦化誤差
    - 既存⼿法は量⼦化誤差を含んだ RGB 画像からデコードする⽅法が多い
    - 量⼦化誤差は周波数ドメインでは簡単に近似できるが、画像ドメインでは困難
    - 逆量⼦化した DCT 係数 $
    𝐶 から周波数ドメインの情報を抽出
    - 5
    𝐶 ∈ ℝ&'(×&
    '(
    ×)
    '( にリシェイプ後、 𝑓( 5
    𝐶) ∈ ℝ(*×&
    (
    ×)
    ( を得る
    > !
    𝐶 の空間解像度は RGB画像 #
    𝑦 ∈ ℝ!×!
    "
    ×#
    " の1/8であるため計算コストは低い
    - 9
    𝑦 と 𝑓( 5
    𝐶) を結合して、軽量なデコーダ 𝐷 によって画像を復元する
    9
    𝑥 = 𝐷(9
    𝑦 ⨁𝑓( 5
    𝐶))
    Frequency-aware Decoder

    View Slide

  22. - データ圧縮に適した画像リスケーリングモデル
    提案⼿法: HyperThumbnail
    圧縮後のデータ量を最適化

    View Slide

  23. - 最終的なデータ量の削減には、 >
    𝑪 のエントロピー最⼩化が必要
    - エントロピーは次式で推定可能 [J. Balle+ ICLR2017]
    𝑅 = 𝐸#∼%$
    [− log& 𝑝'(1
    𝐶() − log& 𝑝)( 1
    𝐶)*) − log& 𝑝)( 1
    𝐶)+)]
    - 空間解像度あたりのエントロピーを bitrate loss 𝐿*%%
    とする
    𝐿*%% =
    𝑅
    𝐻×𝑊
    - Reconstruction Loss, Guidance Lossと合わせて最終的な⽬的関数とする
    𝐿+,-./ =
    #
    𝑥 − 𝑥 0
    𝐻×𝑊
    , 𝐿1234, =
    #
    𝑦 − 𝑦+,5 &
    &
    (𝐻/𝑠)×(𝑊/𝑠)
    𝐿+,6-78, = 𝐿+,-./ + 𝜆0𝐿1234, + 𝜆&𝐿*%%
    ⽬的関数
    ※ 実験では 𝜆! = 0.6, 𝜆" = 0.01 を⽤いる

    View Slide

  24. - HyperThumbnail
    - JPEG の圧縮処理を再現したリスケーリング⼿法
    > そのままファイルとして出⼒可能
    - JPEG の短所を克服するためのモジュールを提案
    1. Quantization Prediction Module (QPM):
    量⼦化テーブルをサンプル毎に動的に算出して多様な周波数分布に対応
    2. Frequency-aware Decoder:
    周波数領域の情報を利⽤することでデコード時の量⼦化誤差の影響を低減
    - ファイルサイズを削減するための制約を導⼊
    > 量⼦化後のDCT係数のエントロピーを最⼩化
    提案⼿法のまとめ

    View Slide

  25. 実験

    View Slide

  26. - 評価指標
    - 復元画像の品質: PSNR (peak signal-noise ratio)
    - 拡⼤の計算効率: 実⾏時間 & MACs (multiply-accumulation operations)
    - 圧縮効率: ビットレート (1ピクセルあたりのファイルサイズ)
    - データセット
    - 学習: DIV2K
    - 評価: Set5, Set14, BSD100, Urban100, FiveK-6k, Kodak
    実験設定

    View Slide

  27. - 復元したHR画像に対する評価
    - Rate-Distortion: 同程度のビットレートで転送した際、提案⼿法が最⾼性能
    - 速度: HCFlow の 3% 程度の計算コストで済む
    - 画像品質: decoder のサイズが⼩さくても SOTA
    ベースラインとの⽐較: HR画像

    View Slide

  28. - 提案⼿法がテクスチャの再現能⼒が最も⾼い
    - 他のリスケーリング⼿法は JPEG により可逆性が失われるため劣化
    定性評価: HR画像

    View Slide

  29. - LR画像はサムネイルとして表⽰されるため、そのものの性能も重要
    - 定量評価: Bicubic で縮⼩した画像との PSNR は提案⼿法が最良
    - 定性評価: 提案⼿法のアーティファクトが少ない
    ベースラインとの⽐較: LR画像

    View Slide

  30. - QPM と Guidance Loss の有効性を検証
    - 固定の量⼦化テーブルを⽤いるより、動的に⽣成する⽅が良い
    - Guidance Loss を省いた⽅が復元性能は⾼いが、LR画像の品質が悪い
    Ablation Study

    View Slide

  31. - 実⾏速度
    - TensorRT を⽤いた場合 6K でも 30FPS で拡⼤可能
    - Test-time optimization
    - HR画像が利⽤可能であるため、decoder 以外テストセットで学習可能
    その他の実験結果

    View Slide

  32. - データ圧縮と画像スケーリング
    - 圧縮⽅式が普及するまでには時間がかかるため、既存⽅式のまま圧縮したい
    - 画像スケーリングは圧縮効率・実⾏速度の観点で要件を満たせていない
    - HyperThumbnail
    - JPEG の圧縮処理を再現したリスケーリング⼿法
    > JPEG の短所を克服するためのモジュールを提案
    > ファイルサイズへの制約を追加
    - HR/LR画像において既存⼿法より⾼品質
    > 計算コストも既存⼿法の 3% 程度で⾼速
    まとめ

    View Slide

  33. Sansan 技術本部
    研究開発職 採⽤情報
    https://media.sansan-engineering.com/randd

    View Slide

  34. View Slide