Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報通信理論から導くVAE等の生成的AIモデルの定量的な理論解析 (PCSJ/IMPS 202...

Akira Nakagawa
November 10, 2021

情報通信理論から導くVAE等の生成的AIモデルの定量的な理論解析 (PCSJ/IMPS 2022講演資料)

富士通 人工知能研究所の中川です。

我々は、画像符号化などで活用されている情報通信理論を起点として、VAEなどの生成的AIモデルの定量的な特徴の理論解析に世界で初めて成功しました。
この理論を活用することで、従来の深層学習では困難だったデータの定量的な処理・分析が可能となります。
これらの研究成果は、AI分野のトップカンファレンスの一つ ICML 2020/2021で採択されています。

今回、これらの研究成果を、映像符号化&処理分野で長い歴史のあるシンポジウム PCSJ / IMPS 2021で講演させていただく機会を頂きました。本講演では、今回の研究成果の背景となる情報通信理論、特にレート歪理論と生成的AIを基礎から解説し、そして我々が導いた理論とその有用性を説明します。

概要は下記の通りです。
====================
本発表では、動画像符号化の基礎となる情報通信理論とVAE等の生成的AIモデルの密接な関連性を説明し、今後の研究の方向性について議論する。
深層画像圧縮はSSIMなどの任意の距離尺度で、従来の変換符号化を超える高い性能を実現することが可能である。また、生成的AIモデルの一つであるVAEはサンプリング等などで幅広く用いられている。その一方で、深層画像圧縮やVAE等は、その定量的な理論解析が進んでいない。我々はレート歪理論と微分幾何学の枠組みを用いることで、深層画像圧縮及びVAEが同一の枠組みで説明できることを証明した。任意の分布をもつデータに対し、任意の距離尺度でレート歪最適化により獲得された潜在変数空間が、その距離尺度に対応した計量空間に対して等長の関係(正規直交性が全空間に滑らかにつながった状態)となり、かつ計量空間における潜在変数のエントロピーは最小となる。すなわち、従来はガウス分布とL2距離で定式化されていたレート歪理論の、任意の分布・距離に対する拡張である。この結果により、情報通信理論と微分幾何の観点から、モデルが獲得した潜在変数と元データの定量的な関係が導きだせ、各潜在変数の重要度や元データの確率分布推定などの定量解析が可能となる。
そして、最後に、1980年代に情報通信の方向性として提唱された「知的通信・符号化」と本理論に基づく生成的AIの関係性の観点から、今後のAI研究の方向性を議論する。

Akira Nakagawa

November 10, 2021
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 ◼中川 章, 博士(工学) 富士通株式会社 人工知能研究所 准フェロー ◼専門分野:情報理論に基づいた映像符号化、AI理論 ◼研究開発の経歴 ◼

    1991年 東京大学電子工学科修士課程卒業、同年富士通研究所に入社。 ◼ 映像符号化分野の研究、国際標準、及び映像符号化 LSI・放送機器等の開発に従事。 ◼ 現在、人工知能の研究に従事。情報通信理論をベースにしたAIの研究。 ◼ 受賞等 ◼ 電子情報通信学会フェロー ◼ 紫綬褒章 / 文部科学大臣表彰 / 市村産業賞 / 日本ITU協会賞 / ◼ 米国エミー賞(技術部門、開発技術の受賞) / 米SMPTE 論文賞 等 Copyright 2021 FUJITSU LIMITED 今日の発表 1
  2. 背景 Copyright 2021 FUJITSU LIMITED ◼ 現在の画像符号化技術は情報通信理論の集大成、今では生活に不可欠に! ◼ 近年、Deep Learningを用いた深層画像圧縮が提案され、MS-SSIM等の任意の

    評価尺度で高性能を示す。 Minnen et.al., “Joint Autoregressive and Hierarchical Priors for Learned Image Compression,” https://arxiv.org/pdf/1809.02736.pdf より引用 JPEG 深層画像圧縮 CVPR CLIC2019 Leader Board 我々の提案方式は MS-SSIM指標で 惜しくも 2位・3位 深層画像圧縮は、情報通信理論と何等かの関係があるはず! 深層画像圧縮コンテスト https://www.itu.int/rec/T-REC-H.264 https://www.itu.int/rec/T-REC-H.265 https://www.itu.int/rec/T-REC-H.266 http://clic.compression.cc/2019/results/?sort=msssim 動画像符号化 国際標準 2
  3. 今回の発表内容: 情報通信理論に基づく深層画像圧縮とVAEの理論解明 Copyright 2021 FUJITSU LIMITED Encoder Decoder Data Reconstructed

    Data 任意の距離計量Gx(MSEやSSIM)の元での Rate-Distortion 最適化 エンコード 高次元空間 デコード 低次元の等長空間 両空間での距離が等しい i.e. |x1 -x2 |2 = |y1 -y2 |2 x1 y1 y2 𝒑 𝒚 𝒑(𝒙) 確率密度が等しい 𝒑 𝒙 = 𝒑 𝒚 x2 データと潜在空間を定量的に結びつけることが可能に エントロピー 最小表現 定量的な 説明変数 深層画像圧縮とVAEは、距離空間での 『等長埋め込み』 となることを理論解明 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 3
  4. ◼ 等長埋め込みの活用により 潜在空間での定量的なデータ解析や取扱が可能となり、 深層画像圧縮と VAE等の生成的AIモデルの両分野で 応用が可能に 等長埋め込みの活用により定量的な解析が可能に Copyright 2021 FUJITSU

    LIMITED 確率分布推定 教師無し異常検知 データの確率密度の 定量評価が可能に 従来のState-of-the-art を超える異常検出性能 潜在変数の各次元の分散と 画像の変化量が高い相関 単一モデル+任意量子化器 でレート制御が可能に 可変レート符号化 潜在変数の各次元の 重要度の評価 深層画像圧縮 VAE等の生成的AIモデルでの定量分析 4
  5. 機械学習系のトップカンファレンス ICMLでの採択 Copyright 2021 FUJITSU LIMITED ◼ Quantitative Understanding of

    VAE as a No-linearly Scaled Isometric Embedding ◼ 中川 章, 加藤 圭造(富士通) 鈴木 大慈 准教授(東大、理研) ◼ 幅広く活用が進む 生成モデル “VAE” の理論的特性を完全に明らかに。 非線形なマッピングにより 『等長埋め込み』 となることを示した。 ◼ さらにVAEを用いた定量的な解析手法も示した。 ◼ Rate-Distortion Guided Autoencoder for Isometric Embedding in Euclidean Latent Space ◼ 加藤 圭造, 周 静, 佐々木 智丈, 中川 章(富士通研究所) ◼ 深層画像圧縮等のRD最適化されたAutoencoder は 『等長埋め込み』 となることを理論的・定量的に示し、同時にデータの定量評価を可能とした。 ◼ 略称“RaDOGAGA” (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) https://arxiv.org/abs/2007.15190 https://proceedings.mlr.press/v139/nakagawa21a.html https://arxiv.org/abs/1910.04329 http://proceedings.mlr.press/v119/kato20a.html ICML 2020&2021で発表 (機械学習分野のトップカンファレンス) 5
  6. 本日の発表 Copyright 2021 FUJITSU LIMITED ◼発表の概要: ◼ 生成的AIモデルの解説 ◼ 画像符号化の基礎となるレート歪理論の解説

    ◼ レート歪最適化に基づく生成的AIモデルの等長埋め込みの理論導出。 ◼ 等長埋め込みの定量性を生かした画像圧縮やデータ解析への応用。 ◼ 情報通信理論を活かした今後のAI研究の方向性について(ディスカッション)。 ◼資料について: 調子に乗って、ご発表資料で多数の内容を盛りこみすぎました😅。 すこし駆け足でご説明します。 ⇒ ご興味のある方は資料をダウンロードしてください。 一方の分野のみ詳しい方々にも ご理解頂けるように、それぞれの 基礎理論から ご説明します Google検索で 6
  7. Copyright 2021 FUJITSU LIMITED ◼ 背景:識別アプローチの発展と課題 ◼ 大量の教師データから識別ルールを学習する識別モデルが 著しく発展、幅広い活用へ。 ◼

    一方、タスク毎のデータ準備やモデル作成が必須であり 導入までの期間・コストが膨大に ◼ 動向:生成的AIモデル研究の進展 ◼ 大量の教師無しデータからデータの生成ルールを獲得し、 幅広いタスクに活用する生成的AIの進展 ◼ Deep Learningを活用した画像・言語の生成的AIの 研究が進む 背景・動向 分析対象毎の 識別ルール 分析対象毎の 大量の教師データ 境界を学習 識別アプローチ データのみ データ本来の 分布・確率を獲得 生成型DL 犬 猫 犬 猫 通信アクセス データ 医療データ 大量教師無しデータ と 少量教師データ で学習 不正アクセス 検知 異常症例 発見 正常分布との 違いを分析 8
  8. 識別モデルと生成モデルの違い Copyright 2021 FUJITSU LIMITED ◼ 前提:データ x を N

    クラスの Ci に分類する ◼ 識別モデル ◼ x が各クラスに属する確率 p(Ci | x) を直接学習。 ◼ 各 x に対し、 p(Ci | x) が最大のクラスを求めること で、クラス間の境界が求まる。 ◼ 生成モデル ◼ 各Ci に対し、x の存在確率 p(x|Ci ) や潜在 変数などの生成規則を学習。 ◼ ベイズの定理より p(Ci | x) ∝ p(x|Ci )・ p(Ci ) を評価することで、クラス分類が可能となる。 識別モデル 生成モデル クラスの境界線を求める データ生成規則(変数、確率分布)を求める 確率 変数 一般に生成モデルの方が複雑だが、正しく学習 できれば汎用性・再利用性が高い。 9
  9. ◼データを解析するために有用な生成モデルの特徴 ◼確率分布・密度の獲得 ➢ データの確率分布を明示的に獲得可能なこと。 ◼低次元の潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)

    ➢ 潜在空間からサンプリングし、実空間のデータにデコードできること ➢ サンプリングデータの分布がデータ分布に一致すること Copyright 2021 FUJITSU LIMITED 生成モデルが提供する有用な特徴 マッピング(エンコード) 高次元の実空間データ (犬画像などのドメイン) サンプリング(デコード) 両空間の確率分布の定量的関係 低次元の説明変数(潜在空間) 両空間での距離の定量的関係 D(X1 ,X2 ) = |Z1 -Z2 |2 Z1 Z2 X1 X2 10
  10. 生成モデルの役割①:確率分布の獲得 ◼ 確率分布の獲得の一般的な定式化 ◼ データ分布 p(x)をよく再現し、 かつ を満たす確率モデル pθ (x)

    のパラメータθ を導出。 ◼ 確率モデル pθ (x) 獲得の主な方法 ① pθ (x) の対数のサンプル平均最大化(対数尤度最大化) ⇒ 殆どの手法(VAE、EBM、FLOW、 ・・) ② JSダイバージェンス最小化 (GAN/詳細は後述) Copyright 2021 FUJITSU LIMITED 対数尤度のサンプル平均 対数尤度を最大化するモデルパラメータ θ を求めると𝐷KL 𝑝 𝒙 ||𝑝𝜃 𝒙 が0となり pθ (x) = p(x) となる。 GANは暗に p(x)とpθ (x) のJSダイバージェンスを最小化するθ を求めている ここでKLダイバージェンス ≥0 は p(x) = q(x) で最小値ゼロになる。 ここでJSダイバージェンス ≥ 0 は p(x) = q(x) で最小値ゼロになる。 確率の公理 定数(エントロピー×ー1) KLダイバージェンス 11
  11. Copyright 2021 FUJITSU LIMITED 生成モデルの役割②:潜在変数の獲得 ◼ 多様体仮説 ◼ 「現実世界の高次元データは本質的には低次元であり、 説明変数は低次元の曲面にマッピング可能」

    (曲面を多様体という) ◼ 『潜在変数』 の獲得: データを構成する低次元の説明変数を獲得し、データの説明や 学習を容易に! 現実世界の大量の顔データ 多様体仮説 獲得した潜在変数を変化させた映像 Large-scale CelebFaces Attributes (CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html z0: 背景の色 z1: 顔の向き z2: 髪の色 z3: 表情 Quantitative understanding of VAE as a Non-linearly Scaled Isometric Embedding https://arxiv.org/abs/2007.15190 説明変数 低次元の潜在的な 説明変数の獲得 (VAE等) 12
  12. 生成モデルの種類 ◼ Variational Autoencoder (VAE) ◼ データを低次元に変換してサンプリングを可能とする生成モデル “Auto-Encoding Variational Bayes,”

    https://arxiv.org/abs/1312.6114 ◼ Generative Adversarial Nets (GAN) ◼ Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競わせて学習 “Generative Adversarial Nets,” https://arxiv.org/abs/1406.2661 ◼ Energy Based Model (EBM) ◼ 統計力学のアナロジーで確率をエネルギーモデルに置き換えて学習。 例えば “Implicit Generation and Modeling with Energy Based Models,” https://arxiv.org/abs/1903.08689 ◼ その他 ◼ FLOW、Diffusion Modelなど・・・ Copyright 2021 FUJITSU LIMITED 14
  13. Copyright 2021 FUJITSU LIMITED 従来の生成モデル①:Variational Autoencoder (VAE) ◼ 利点 ◼

    データを、あらかじめ決めた分布を持つ低次元の潜在空間にマッピングできる。 ◼ 潜在空間でサンプリングし、デコードすることで、学習ドメインのデータが生成できる。 ◼ 欠点 ◼ 従来研究では潜在空間と実空間の関係が不明確であり定量評価に使えない サンプリング画像 データ x~p(x) Large-scale CelebFaces Attributes (CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 潜在変数 z ~p(z) にマッピング 予め決めた分布 (事前分布) サンプリング/デコード されたデータ ො 𝐱 エンコーダ (パラメータφ) デコーダ (パラメータθ) サンプリング データの低次元潜在変数を獲得し、サンプリングを可能とする生成モデル 15
  14. Copyright 2021 FUJITSU LIMITED 従来の生成モデル①:VAEの学習方法 ◼ 対数尤度の下限値を最大化するエン コーダ・デコーダパラメータ θ,φ を学習

    ◼ 学習の手順 ①潜在変数 z は固定の事前分布(N(z; 0, 1) 等)とする。 ②エンコーダ fφ (x)ではデータ x に対する z の条件付き確率 qφ (z|x) = N(z; μ, σ) のパラメータ μ, σ を求める。 ③pφ (z|x)から z をサンプリングし、デコーダ gθ (z)で ො 𝑥 を得る。 ④全xに対し予め決めた距離分布pD (x|ො 𝑥)の対数尤度と、 -βDKL (qφ (z|x) || p(z)) の最適トレードオフ条件を学習。 ここでpD (x|ො 𝑥) が分散1の正規分布の場合には、 対数尤度log pD (x|ො 𝑥)は二乗誤差の -1/2倍となる。 x p(x) ①固定の事前分布 p (z) = N(z; 0, 1) x データ空間 x 潜在空間 z 下限値(変分下限という)を最大化 再構成データの尤度(大きく) 潜在空間の KLダイバージェンス(小さく) 対数尤度 + Const. エンコード σ μ qφ (z|x) = N(z; μ, σ) ② z の x による条件付き 確率分布を求める μ, σ = fφ (x) log pD (x|ො 𝑥)を大きく ⇒ x と ො 𝑥 を近づける ⇒ σ を0に近づける ⇒ 分布幅を小さく ④最適な トレードオフ を求める DKL (qφ (z|x) || p(z))を小さく ⇒ qφ (z|x) と p(z)を近づける ⇒ μを0に、σ を1に近づける ⇒ 分布幅を大きく 予め決めた距離分布 (正規分布、ベルヌーイ分布等) pθ (x|z) = pD (x|ො 𝑥) デコード ③pφ (z|x) から z をサンプリング z ො 𝑥 ො 𝑥 = gθ (z) 16
  15. ◼ 学習方法 ◼ 一様乱数 z からGenerator Gθ (z) でデータxg を生成。

    そして、Discriminator Dφ (xg ) が騙されるようGθ (z)を学習。 ◼ Discriminator Dφ (xg ) に0.5の確率で学習データxか生成デー タxg を入力し、正しく識別できるようにDφ (xg )を学習。 ここで、 p(x)とpg (x)を学習データ及び生成データの分布、D*(x) を 最適化されたDφ (x)とすると、 D*(x) = p(x)/(p(x)+pg (x)) 、ロスは となり p(x)=pg (x) で最小となる ◼ 特徴 ◼ 利点:生成されるデータの品質が高い。 ◼ 欠点:潜在空間へのマッピングやデータ分布解析ができない。 Copyright 2021 FUJITSU LIMITED 従来の生成モデル②:Generative Adversarial Nets (GAN) Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競合学習 Karras et.al.,“Progressive Growing of GANs for Improved Quality, Stability, and Variation,” https://arxiv.org/abs/1710.10196 高品質な画像を生成(NVIDIA) 一様乱数 z ~p(z) xg=Gθ(z) xg ~pg(xg ) Dφ (x) or Dφ (xg ) Generator: Discriminator を 騙すデータを生成 Discriminator: Generatorが生成 したデータか識別 学習データ ⅹ~p(x) 判定結果 1:学習データ 0:生成データ GANの原理 17
  16. Copyright 2021 FUJITSU LIMITED 従来の生成モデル③:Energy-Based Model(EBM) 統計力学のアナロジーを活用して、確率をエネルギーモデルに置き換えて学習 ◼ 概要 ◼

    データ 𝑥 の 『エネルギー関数モデル』 𝐸𝜃 (𝑥)を導入。統計力学では確率は 『エネルギーの指数の逆数』 に比例することから、このアナロジーで確率を次のように表現する。 𝑝𝜃 𝑥 = exp −𝐸𝜃 𝑥 ׬ exp −𝐸𝜃 𝑥′ d𝑥′ (分母は確率正規化のための「分配関数」) ◼ 対数尤度の平均 𝐿𝜃 = 𝐸𝑝 𝑥 log 𝑝𝜃 𝑥 を最大化するために θ で微分すると、シンプルな次式を得る。 d𝐿𝜃 d𝜃 = −𝐸𝑝 𝑥 𝑑𝐸𝜃 𝑥 𝑑𝜃 + 𝐸𝑝𝜃 𝑥′ 𝑑𝐸𝜃 𝑥′ 𝑑𝜃 ⇒ この微分値を用いて 対数尤度を最大化する𝜃を求める。 ◼ 「ランジュバン MCMC法」という反復サンプリングで高品質なサンプリングが可能 ◼ 特徴 ◼ 利点:Simpleな定式化で、確率密度推定や 高品質なサンプリングが可能 ◼ 欠点:潜在変数が無いため、説明性がない Zhao et.al., “Learning Energy-Based Generative Models via Coarse-to-Fine Expanding and Sampling,” https://openreview.net/forum?id=aD1_5zowqV 階層的なEBM のサンプリング 高品質なサンプリング画像 18
  17. ◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)

    ➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめ データ確率分布の 明示的な獲得 潜在空間・潜在変数の獲得 サンプリング エンコード 潜在空間の定量性 サンプリング VAE × ◦ × 〇 GAN × × × ◦ EBM 〇 × × 〇 すべての要件を満たす満点のモデルはない 19
  18. Copyright 2021 FUJITSU LIMITED 画像の変換符号化の基本原理 ① 画像の画素間の相関を取り除くため、DCT/KLTなどの直交変換を行う。 ② エントロピー削減のために、誤差を許容して量子化を行う。 ①

    量子化されたデータに最適な符号を割り当てるエントロピー符号化を行う。 直交変換 (DCT/KLT 等) エントロピー符号化 圧縮データ L= D + β・R を最小化する 復号誤差D 情報量 R 量子化 逆直交変換 エントロピー符号化 逆量子化 原画像 復号画像 21
  19. 最適な符号化条件(次ページ以降でそれぞれ説明) ◼ ガウス分布画像での符号量と二乗誤差の最適トレードオフ条件は下記の通り。 Copyright 2021 FUJITSU LIMITED 直交変換 (DCT/KLT 等)

    エントロピー符号化 圧縮データ L = D + β・R が最小になる 復号画像との二乗誤差D 情報量 R 量子化 原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規 直交変換KLT/DCT適用 ⇒ 符号化利得最大化 変換データの全次元に対し、 同一誤差を許容する量子化 ⇒ レート・歪最適化 量子化データの出現確率と 同一の確率情報で符号化 ⇒ KLダイバージェンス最小化 シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) (最小条件は Qqk = Pqk ) Pqk 符号長:-log Qqk KLT ①直交変換 ②量子化 ③エントロピー符号化 次に、ガウス分布の場合に各ステップの理論モデルを説明します 𝒙 𝒚 𝒒𝒌 22
  20. Copyright 2021 FUJITSU LIMITED 前提となる画素分布のモデル ◼ 画素分布のモデル化 ◼ 座標 i

    の画素の値 xi は分散σ2の ガウス分布に従う。 ◼ xi と xj の共分散は画素間距離の 指数関数に従う ( ρ < 1 )。 ◼ 画像圧縮を行わない場合、一画素あたりのエントロピー(微分エントロピー) h(xi )は以下の通りとなる 各画素の値 xi 画素間の距離 d=|i-j| 各画素値の分布 画素間の共分散 画素 1 2 log 2 𝜋𝑒𝜎2 一般画像で ρ は0.95~0.98 程度 23
  21. ◼ 次のように N 画素単位にまとめて符号化する(ブロックと呼ぶ) ◼ N 画素単位の共分散行列 Σx と x

    の確率分布次は通り Copyright 2021 FUJITSU LIMITED 直交変換のモデル化①:共分散行列の導出 画素間の相関を減らすためにブロック単位で変換符号化 σ2 σ2 N=2の例 24
  22. ◼ 共分散行列 Σx の正規化固有ベクトルからなる変換行列 P と 固有値 λj を導出。 ρ<1でΣx

    は正定値対称行列なので、Pは正規直交行列、 λj は 0 以上の実数となる。 ◼ Pで x を変換したN次元ベクトルを y とする。Parsevalの等式によりL2ノルム保存。 , ◼ y の共分散行列は、 Σx の固有値 λj の対角行列となる Copyright 2021 FUJITSU LIMITED 直交変換のモデル化②:相関を取り除く直交変換の導出 P による変換は統計の分野では主成分分析 (PCA)、情報圧縮ではカルーネン・レーベ変換 (KLT)と呼ばれるが、両者は同一のもの。 原信号や符号化誤差のL2ノルムも保存 25
  23. ◼ y の確率分布は、各次元 yj の分散が λj となる 互いに独立な正規分布の積で表すことができる。 ここで直交変換後の共分散行列のトレース保存則により が成立。

    ◼ y に変換後の画素当たりエントロピーは、変換前の各画素のエントロピーより小 さくなる。このエントロピー減少分を符号化利得と呼ぶ。 Copyright 2021 FUJITSU LIMITED 直交変換のモデル化③:符号化利得の導出 λ0 λ1 相加・相乗平均の関係により、カッコの中は必ず1以上 符号化利得 p(y)はp(x)の軸を回転させたものに等しい 𝜎2 = 1 𝑁 ෍ 𝑗=0 𝑁−1 𝜆𝑗 N=2の例 26
  24. H V ご参考:KLT と DCTの関係 Copyright 2021 FUJITSU LIMITED ◼

    動画像国際標準で用いられる離散コサイン変換(DCTⅡ)は次のように導出される ◼ N=8 かつ 𝜎2 = 1とする。𝜌 = 1 − 𝜖 とすると共分散行列 Σx は、右式の ように行列HとVを用いて近似できる。 ◼ ρ→1 (𝜖 →0) の極限のHの固有値は7重に縮退して、Hの固有ベクトルは一意に求ま らない。しかしVを摂動とした摂動法でΣx の固有値と固有ベクトルを近似すると、下のよ うに縮退が解ける。ここで 極限 ρ→1 の固有ベクトル がDCT Ⅱ 基底と正確に一致。 𝑗 = 0: 𝜆0 ≃ 8   − 21𝜖, 𝑗 ≥ 1: 𝜆𝑗 ≃ 0  + 𝜖 2 sin2 𝑗 8 𝜋 P = + ε・ 固有値 固有ベクトル 縮退が解けた H の固有ベクトルは DCTⅡ基底と完全一致 V による摂動成分 V による摂動成分 Hの固有値 動画像国際標準で用いられる離散コサイン変換(DCTⅡ) とKLTの理論的な関係 27
  25. 量子化のモデル化①:線形量子化のモデル化 Copyright 2021 FUJITSU LIMITED ◼ 線形量子化では、信号 y を量子化器 T

    幅で量子化代表値 qk に置き換える。 ◼ qk に置き換わる信号の量子化誤差 nk の分布 pn (y) 、エントロピー h(n)、 誤差分散 は次の通り。 誤差分布の エントロピー: 誤差分布の 分散: 0 T/2 -T/2 1/T 誤差の確率分布 pn (y) 誤差の 確率分布: 28
  26. 量子化のモデル化②:線形量子化後の情報量と誤差 Copyright 2021 FUJITSU LIMITED ◼ y の分散が量子化器 T より十分に大きい場合、

    量子化値の情報量は y と 誤差の 両エントロピーの差分、量子化誤差は誤差の分散となる。 ◼ y の分散が量子化器 T より小さい場合、量子化値の情報量は0、量子化誤差は y の分散となる。ここで y の平均は 0 とした。 量子化値の 情報量 各量子化値の 確率 量子化誤差 量子化値の 確率・情報量 量子化誤差 y 情報量は y と誤差分布の エントロピー差分 誤差分布の 分散と同一 y の分散と同一 情報量は0 29
  27. 言っていることは 実は simple Copyright 2021 FUJITSU LIMITED 0 T/2 -T/2

    1/T y の分散が量子化器 T より大きい場合 y の分散が量子化器 T より小さい場合 0 T/2 -T/2 1/T yの分布 誤差分布 yの分布 誤差分布 両エントロピーの 差分が符号化 すべき情報量 誤差のエントロピー yのエントロピー 情報を符号化す る必要がないため 情報量はゼロ 誤差のエントロピー yのエントロピー yは必ず量子化 されるため、誤差 分布の分散が 符号化誤差 誤差の分散 yの分散 一つの量子化代表 値に収まるため、 符号化誤差は yの分散 誤差の分散 yの分散 量子化誤差 量子化値の情報量 すべてのyの値 が一つの量子化 代表値に収まる yの分散が大きく 必ずデータが 量子化される 30
  28. 量子化のモデル化③:情報量と誤差の理論定式化 ◼ 分散 σs 2の正規分布信号 s を量子化する。許容ノイズ n は分散 σn

    2 の 正規分布を用いる。 ◼ この時、量子化後の情報量 I(s;n) と誤差Dは次の通りとなる。 ◼ 信号の分散がノイズより大きい時( : ): ◼ 信号の分散がノイズより小さい時( ): ◼ まとめると 次式となる。ここでI(s;n)はD の下凸関数となる。 Copyright 2021 FUJITSU LIMITED 理想量子化後の情報量と量子化誤差の理論定式化(線形量子化とのアナロジー) 情報量は信号とノイズの 両エントロピーの差分、 誤差は許容誤差分散 情報量は0、 誤差は信号の分散と同一 正規分布は分散一定条件でエントロピーが最大。 I(s;n) D 31
  29. ◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj 2 とする。 前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。

    ◼ 係数 βの元でL=D+β・Rを最小化する各次元の σnj 2 の最適値は?(レート・歪最適化) ⇒ Lj =dj +β・rj , L=Σ Lj として Lj は σnj 2にのみ依存。各Lj を最小化する σnj 2 が最適解。 Copyright 2021 FUJITSU LIMITED 量子化のモデル化④:直交変換ブロックの最適量子化 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は で次の接点 を持ち、 Lj が最小となる。 λj ≧ β / 2 となる次元 rj dj Lj =dj +β・rj 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は σnj 2 ≦ λj で接点がないため、 Lj の最小値は端点の で得られる。 rj dj Lj =dj +β・rj (λj , 0) λj < β / 2 となる次元 32
  30. ◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj 2 とする。 前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。

    ◼ 係数 βの元でL=D+β・Rを最小化する各次元の σnj 2 の最適値は?(レート・歪最適化) ⇒ Lj =dj +β・rj , L=Σ Lj として Lj は σnj 2にのみ依存。各Lj を最小化する σnj 2 が最適解。 Copyright 2021 FUJITSU LIMITED 量子化のモデル化④:直交変換ブロックの最適量子化 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は で次の接点 を持ち、 Lj が最小となる。 λj ≧ β / 2 となる次元 rj dj Lj =dj +β・rj 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は σnj 2 ≦ λj で接点がないため、 Lj の最小値は端点の で得られる。 rj dj Lj =dj +β・rj (λj , 0) λj < β / 2 となる次元 まとめると、すべての次元 j で、 σnj 2 =β/2 の時に Lj =dj (β/2)+β・rj (β/2) が最小となる 33
  31. 量子化のモデル化⑤:レートと歪の関係性導出 ◼ 前頁の結果より、 L=D+β・Rの最小化条件は、 全次元に同一誤差 β/2 を許容した場合となる。 ◼ この最適条件下において、ブロック単位の情報量と 誤差は、d=β/2

    として下記の d のパラメトリック関数 R(d) 及び D(d) となる。 ◼ d=β/2 を動かすと、ブロックを直交変換・量子化 した場合の情報量と歪の関係(RD曲線)を得る。 ここで、RD曲線は下に凸関数となる。 Copyright 2021 FUJITSU LIMITED λj d = β / 2 λj の降順に 並べた次元 j 各次元 j の情報量と誤差の導出 λj < β/2 RD曲線(dのパラメトリック関数) ( D(β2 /2), R(β2 /2) ) R D ( D(β1 /2), R(β1 /2) ) d ⇒ 大 d ⇒ 小 L=D+β1 R L=D+β2 R 重要:後から出てきます! λj ≥ β/2 34
  32. エントロピー符号化のモデル化 ◼ 線形量子化後の k 番目のシンボル発生確率を Pqk とし、 そのシンボルの推定確率を Qqk とする。

    ◼ 各シンボルの理想的なエントロピー符号長は –log Qqk となる。 ◼ Pqk の情報量をR、平均符号量をRcode とする。 ◼ 平均符号量 Rcode は Pqk = Qqk の時に最小値 R となる。 Copyright 2021 FUJITSU LIMITED シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) ⇒ 最小条件は Qqk = Pqk Pqk 符号長:-log Qqk KLダイバージェンス 35
  33. ◼L=D+βR を最小化する最適符号化条件は下記の通り。 最適な符号化条件のまとめ Copyright 2021 FUJITSU LIMITED 直交変換 (DCT/KLT 等)

    エントロピー符号化 圧縮データ L = D + β・R が最小になる 復号誤差D 情報量 R 量子化 原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規 直交変換KLT/DCT適用 ⇒ 符号化利得最大化 変換データの全次元に同一 誤差 β/2 を許容する量子化 ⇒ レート・歪最適化 量子化データの出現確率と 同一の確率情報で符号化 ⇒ KLダイバージェンス最小化 シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) (最小条件は Qqk = Pqk ) Pqk 符号長:-log Qqk KLT ①直交変換 ②量子化 ③エントロピー符号化 再掲 𝒙 𝒚 𝒒𝒌 36
  34. 深層画像圧縮とは? ◼ Balle らにより、Deep Learningとレート歪最適化 による深層画像圧縮が提案された。 ◼ MS-SSIM等の任意の評価尺度で最高性能を達成。 Copyright 2021

    FUJITSU LIMITED 圧縮画像、グラフとも、Minnen et.al, “Joint Autoregressive and Hierarchical Priors for Learned Image Compression,” https://arxiv.org/abs/1809.02736 より引用 JPEG 深層画像圧縮 38
  35. 深層画像圧縮の原理の概要 Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ

    (z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求める レートRと歪Dを 求める z σ pψ (z) ①エンコード ො z=z+ε ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 R D L=D+β1 ・R L=D+β2 ・R (R1 , D1 ) O (R2 , D2 ) 最適化 最適化 β を変えて様々なRD条件 でのネットワークを求める 深層学習からなるエンコーダ・デコーダ・確率分布推定器の ネットワークで、画像符号化した際のレートR、歪 Dを求める。 β を与えて、L=D+βR を最小化する ネットワークパラメータを求める。 さらなる詳細は次ページで 39
  36. 深層画像圧縮の原理詳細 ◼ 学習時:レート歪最適化 ① エンコーダ fφ (x)で画像を潜在変数 z に変換。 ②

    z に量子化器1相当の一様ノイズを加え ො z を得る。 ③ ො z からデコーダ gθ ( Ƹ 𝑧)で復号画像 ො 𝑥 を生成。 ④ 所定のメトリクスで誤差D =D(𝑥, ො 𝑥)を計算 ⑤ パラメトリックな確率分布pψ(z)から量子化データの 符号量相当 を計算 ⑥ ラグランジュ係数βを導入してL=D+βRを最小化 する学習パラメータ φ, θ, ψを導出。 ◼ 符号化時 ① エンコーダ fφ (x)で画像を潜在変数 z に変換。 ② z を q=round (z) で整数に量子化(量子化器1)。 ③ pψ(z)からq の符号量 を用 計算 ④ q を符号量 Rq でエントロピー符号化。 Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ (z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求める ⑥L=D+βR を最小化 する学習パラメータ φ, θ, ψ を導出 エンコーダ fφ (x) 画像𝑥 潜在変数 z ②整数に 量子化 z σ pψ (z) ①エンコード ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 q σ pψ (z) ④エントロピー 符号化 ③ pψ (z)から qの符号長Rq を求める 量子化値 q 圧縮 データ 符号長 Rq ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2(定数) 40
  37. 深層学習の最適条件で何が起こっているか? Copyright 2021 FUJITSU LIMITED パラメトリックなエン コーダで潜在変数に 変換 変換データの全次元に 対し、固定量子化器

    で量子化 パラメトリックな確率モデルで 量子化シンボルの出現確 率を推定し符号長を導出 未知分布データと任意 のメトリクスに対して L=D+β R を最小化 深層画像 圧縮 ①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係 原信号を無相関化 する正規直交変換 (KLT/PCA)の適用 変換データの全次元に 対し、同一誤差 β/2 を 許容する量子化 量子化データの出現確率と 同一の出現確率から量子 化シンボルの符号長を導出 従来の静止 画像符号化 符号化利得最大化 レート・歪最適化 DKL 最小化 ガウス分布・指数相関 に対して、MSE計量で L=D+β R が最小に レート・歪最適 変換 エントロピー符号化 圧縮データ L = D + β・R 復号誤差D 情報量 R 量子化 原画像 学習パラメータを 最適化すると・・ メトリクスとデータが定義する 『リーマン多様体』 を 『等長なユークリッド空間』 に埋め込み、符号化利得・レート歪・DKL を最適化していることを導出。 符号化利得最大化 レート・歪最適化 DKL 最小化 41
  38. Copyright 2021 FUJITSU LIMITED ◼ レート歪理論(画像・音声圧縮の基礎): ガウス分布データをDCT/KLTなどの正規直交変換・一様量子化・エントロピー符号化を行うと、 二乗誤差のメトリクスのもとで、レート・歪コスト L=D+βR が最小に。

    ◼ 今回ご導出した 『等長埋め込み』の理論概要: 任意のデータ・計量でRDO コスト L=D+βR を最小化すると、その計量ベクトル空間に対して 等長な潜在空間が獲得される (微小の正規直交変換が全空間に滑らかにつながったもの) 。 理論の大まかなイメージ 次元削減 量子化・ エントロピー符号化 レート・歪の最適化 従来のレート 歪理論 【条件】 ガウス分布データに対し、 DCT/KLT等の正規 直交変換で次元削減 【条件】 誤差β/2の一様量子化 とエントロピー符号化。 【結果】 MSEの計量で L=D+βR が 最小となる 今回導出した 等長埋め込み の理論 【結果】 任意分布のデータに 対し、計量に対する 等長空間で次元削減 【条件】 均等量子化と、パラメト リック確率分布に基づく エントロピー符号化。 【条件】 任意の計量で L=D+βRを 最小化する学習 レート歪理論の適用 範囲を任意の分布・ 計量へ拡張 着想 42
  39. リーマン多様体の概要 (数学的に厳密ではありません) ◼ 計量テンソルによる広義の内積の定義(線形代数的な定義) ◼ 正定値の計量テンソル行列 G を用いて、ベクトル v, w

    の内積 <v, w>は次式で定義する。 <v, w> = v G w (「行列Gが正定値」とは あらゆる v≠0 で v G v > 0) ◼ ユークリッド空間では G は単位行列 I となり、 <v, w> = v I w = v ・ w より狭義の内積 (ドット積)となる。 ◼ リーマン多様体 ◼ 多様体上の各点 x において計量テンソル Gx が与えられ、x 近傍の 多様体上の二つの微小ベクトル(正しくは接ベクトル) v, wの 内積 が <v, w>x = v Gx w で定義される。 ⇒ ざっくり言えば、データセットと計量(内積)のペア ◼ 実世界の画像セットとSSIMのペアもリーマン多様体とみなせる。 Copyright 2021 FUJITSU LIMITED x1 v1 Gx1 w1 x2 x3 v3 Gx3 w3 v2 Gx2 w2 43
  40. リーマン多様体の計量テンソルとしてのSSIM計量 ◼ SSIMとは主観評価に近い画像評価指標。左上座標(h, v)で指定されるN×N領域 において、原画 x と復号画像 y の間のSSIM計量は下記で与えられる。 ここでμx

    と μy は x, y の領域内の平均、 σx 2とσy 2 は x, y の領域内の分散をしめす。 ◼ y = x + δx とすると、SSIMは下記で近似できる。 ここで 、 、 とすると 学習コスト 1-SSIM は、原画 x 毎に定義される上記計量テンソル G(h, v)x を用いて と表現できる。 Copyright 2021 FUJITSU LIMITED ⇒ 画像データセットとSSIM計量を合わせてリーマン多様体とみなせる。 44
  41. Binary Cross Entropy やガウス尤度の計量テンソル Copyright 2021 FUJITSU LIMITED ◼ VAEの原論文でMNIST学習に用いられているBinary

    Cross Entropyの定義は 次のとおり。 とすると、 が成立する。ここで計量テンソル は、次の通りとなる。 ◼ Gaussian とすると、 となり、計量テンソル は単位行列 I にを を乗じた となる。 定数 詳細な式展開にご興味のある方は論文をご覧ください 係数付きMSE ガウス分布の対数尤度 45
  42. 埋め込みと等長性の概要説明 (注:数学的に厳密な説明ではない) Copyright 2021 FUJITSU LIMITED xB1 vB1 GxB1 wB1

    xB2 xB3 vB3 GxB3 wB3 vB2 GxB2 wB2 xA2 xA3 vA1 GxA1 wA1 vA3 GxA3 wA3 vA2 GxA2 wA2 xA1 リーマン多様体A リーマン多様体B 埋め込み: AからBへの滑らかな単射 xA1 → xB1 , xA2 → xB2 , xA3 → xB3 , ・・ 等長性:接ベクトルの内積を保存 vA1 GxA1 wA1 = vB1 GxB1 wB1 , vA2 GxA2 wA2 = vB2 GxB2 wB2 , vA3 GxA3 wA3 = vB3 GxB3 wB3 , ・・・・ ◼ 埋め込みとは、リーマン多様体Aから多様体Bへの滑らかな単射(マッピング) ◼ 等長性とは、埋め込み後に、両多様体の対応点において、点周辺の多様体上の二つ の微小変異(正確には接ベクトル)の内積を保存するもの。 ⇒ 等長性を示す埋め込みを 『等長埋め込み』 という 46
  43. Copyright 2021 FUJITSU LIMITED 等長性で距離や確率密度は等しくなる (注:厳密な説明ではない) ◼ 等長なリーマン多様体A,B 同士では2つのデータ間の距離は等しい ◼

    両多様体で微小変位同士の内積を保存するため、対応する線素のL2ノルムも等しい。 𝑑𝑠𝐴 2 = 𝑑𝑥𝐴 𝑇𝐺𝐴 𝑑𝑥𝐴 = 𝑑𝑥𝐵 𝑇𝐺𝐵 𝑑𝑥𝐵 = 𝑑𝑠𝐵 2 ◼ 線素の積分で距離が定義されるため、両多様体で二つの対応点間の距離は等しい (厳密に議論するには測地線という概念の導入が必要です) ◼ 等長なリーマン多様体A,B 同士では対応点の確率密度は等しい ◼ 両多様体の体積要素は等長性により等しい。 𝑑𝑣𝐴 = 𝑑𝑣𝐵 ◼ 確率密度と体積要素の積(体積要素中のサンプル数に相当) は写像前後でも不変 𝑝𝐴 (𝑥𝐴 )𝑑𝑣𝐴 = 𝑝𝐵 (𝑥𝐵 )𝑑𝑣𝐵 ◼ よって、両多様体上で対応点同士の確率密度は等しい 𝑝𝐴 (𝑥𝐴 ) = 𝑝𝐵 (𝑥𝐵 ) 47
  44. Copyright 2021 FUJITSU LIMITED 等長埋め込みの例 ◼ DCTやKLTなどの正規直交変換 ◼ 正規直交変換は、変換前後のユークリッド空間同士で狭義の内積(ドット積)を保存する。 ⇒

    正規直交変換はユークリッド距離を計量とした等長埋め込みの一種。 ◼ 極座標とユークリッド空間 ◼ 極座標(𝑟, 𝜃)とユークリッド空間の積分要素の変換から、極座標でユークリッド距離を表す計 量テンソル𝐺polar は下記のように求められる。 𝑑𝑥, 𝑑𝑦 𝑇 = 𝑅 𝑑𝑟, 𝑑𝜃 𝑇 、ここで 𝑅 = cos(𝜃) 𝑟 sin(𝜃) −sin(𝜃) 𝑟 cos(𝜃) ⇒ 𝐺𝑝𝑜𝑙𝑎𝑟 = 𝑅𝑇 𝑅 = 1 0 0 𝑟2 ⇒ ユークリッド空間(計量テンソルが単位行列 𝐼 ) からなるリーマン多様体は、極座標データ (𝑟, 𝜃) と 𝐺𝑝𝑜𝑙𝑎𝑟 計量テンソルからなるリーマン多様体に等長埋め込みが可能に。 当然ながら、逆方向の等長埋め込みも可。 48
  45. ◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅

    を最小化 すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは等長の特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。 ⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は、データの計量空間での確率密度と等しくなる。 Copyright 2021 FUJITSU LIMITED 結論①:深層画像圧縮は等長埋め込みだった! データ空間 潜在空間 SSIM等の計量・距離の グリッドはデータ座標系で は曲がっている • SSIM等の計量はユークリッド 等長空間ではL2距離の二乗 • 各次元の量子化誤差は𝛽/2 • パラメトリックに求めた確率 密度はデータの計量空間 における確率密度と同じ 𝛽/2𝜎𝑛 2倍に スケール ユークリッドの等長な潜在空間 エンコーダ 量子化器1では 𝜎𝑛 2 = 1/12 原画像 復号画像 𝛽/2 𝛽/2 49
  46. Copyright 2021 FUJITSU LIMITED 結論①:深層画像圧縮は等長埋め込みだった! ◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2とする。深層画像圧縮の

    𝐿 = 𝐷 + 𝛽𝑅 を最小化 すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは等長の特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。 ⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は、データの計量空間での確率密度と等しくなる。 ユークリッド空間のガウス分布で定式化されていたレート歪理論を、 任意のデータ分布やメトリクス(計量)に対して拡張したもの。 50
  47. 深層学習の最適条件で何が起こっているか? Copyright 2021 FUJITSU LIMITED 計量ベクトル空間と 等長なユークリッド空 間に等長埋め込み。 変換データの全次元に 対し等長空間換算で

    β/2 を許容する量子化 パラメトリックな確率モデルで 量子化シンボルの出現確 率を推定し符号長を導出 未知分布データと任意 のメトリクスに対して L=D+β R が最小に 学習後の 深層画像 圧縮 ①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係 原信号を無相関化 する正規直交変換 (KLT/PCA)の適用 変換データの全次元に 対し、同一誤差 β/2 を 許容する量子化 量子化データの出現確率と 同一の出現確率から量子 化シンボルの符号長を導出 従来の静止 画像符号化 符号化利得最大化 レート・歪最適化 DKL 最小化 ガウス分布・指数相関 に対して、MSE計量で L=D+β R が最小に レート・歪最適 変換 エントロピー符号化 圧縮データ L = D + β・R 復号誤差D 情報量 R 量子化 原画像 ユークリッド空間のガウス分布で定式化されていたレート歪理論を、 任意のデータ分布やメトリクス(計量)に対して拡張したもの。 51
  48. 等長性の証明の流れ Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ

    (z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求める z σ pψ (z) ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2(定数) ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 𝐷 ≃ σ𝑗 𝜎𝑛 2𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 2 を小さく ⇒ z 空間を拡大 展開・近似 ⑥L=D+βR を最小化 する学習パラメータ φ, θ, ψ を導出 確率モデル𝑷𝝍 (𝒛)の最適条件 エンコーダ𝒇𝝓 (𝒙)・デコーダ 𝒈𝜽 (𝒛)の最適条件 𝑅 ≃ − log 𝜕𝒙 𝜕𝒛 を小さく ⇒ z 空間を縮小 展開・近似 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 を小さく ⇒ 𝑝𝜓 𝑧 = 𝑝 𝑧 が最適 展開・近似 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2𝛿𝑗𝑘 で z 空間のスケールがバランス 𝒚 は 𝒙 の𝑮𝒙 による計量ベクトル空間に対して等長 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 、かつ事後分布の分散は定数 𝜷 𝟐 dyj /𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 を満たす 𝒚 を導入 𝑥 = 𝑔𝜃 (𝑓𝜙 (𝑥)) と仮定 52
  49. ご参考: 証明のアウトライン:まず1次元の場合 ◼ まず、データ、潜在変数が共に1次元として、P39の条件での考察 ◼ P39 の条件に加え、デコーダはエンコーダの逆関数 𝑥 = 𝑔𝜃

    (𝑓𝜙 (𝑥))と仮定。また、潜在空間の線形量子化 器を𝑇とすると量子化誤差の分散は𝜎𝑛 2 = 𝑇2/12となる。計量を𝐺𝑥 として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 𝑥の確率分布を𝑝(𝑥)とすると 𝑧 = 𝑓𝜙 (𝑥) で 𝑧の確率密度は𝑝 𝑧 = 𝑝 𝑥 𝑑𝑥 𝑑𝑧 。これを用い、符号量𝑅は 𝑅 = 𝐸𝑝 𝑥 − log න 𝑧−𝑇/2 𝑧+𝑇/2 𝑝𝜓 𝑧 𝑑𝑧 ≃ 𝐸𝑝 𝑥 − log 𝑝𝜓 𝑧 𝑇 = 𝐸𝑝 𝑥 − log 𝑝 𝑥 𝑑𝑥 𝑑𝑧 + 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − log 𝑇 ◼ 計量を𝐺𝑥 とする。𝑔𝜃 𝑧 + 𝜖 ≃ 𝑥 + 𝜖 𝑑𝑥 𝑑𝑧 を用いると誤差は下記で求められる。 𝐷 𝑥, Ƹ 𝑥 = 𝐸𝑝 𝜖 𝑥 − Ƹ 𝑥 𝐺𝑥 𝑥 − Ƹ 𝑥 ≃ 𝜎𝑛 2𝐺𝑥 𝑑𝑥 𝑑𝑧 2 ◼ 目的関数は下記のようになる。𝐷𝐾𝐿 (⋅)は理想的なパラメトリック確率モデル 𝑝𝜓 𝑧 = 𝑝 𝑧 の基で0となる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2𝐺𝑥 𝑑𝑥 𝑑𝑧 2 − 𝛽log 𝑑𝑥 𝑑𝑧 + 𝛽𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝛽 log 𝑇 ◼ エンコーダ・デコーダ最小化条件は[・]の中を𝑑𝑥 𝑑𝑧 で微分すると 𝐺𝑥 𝑑𝑥 𝑑𝑧 2 = 𝛽/2𝜎𝑛 2。ここでdy/𝑑𝑧 = 𝛽/2𝜎𝑛 2 なる 𝑦を導入すると 𝐺𝑥 𝑑𝑥2 = 𝑑𝑦2 となり、𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。 また、 𝑦 空間の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦/𝑑𝑧 2 = 𝛽/2 と定数になる。 Copyright 2021 FUJITSU LIMITED 𝜓次第で0にできる データやTに依存する定数 53
  50. ご参考:証明のアウトライン:N次元の場合 ◼ N次元データの場合P39の条件での考察 ◼ データ 𝒙 = (𝑥0 , ⋯

    , 𝑥𝑖 , ⋯ , 𝑥𝑁−1 ), 潜在変数 𝒛 = (𝑧0 , ⋯ , 𝑧𝑗 , ⋯ , 𝑧𝑁−1 ) とする。前頁と同じ条件で、計量 を𝐺𝑥 として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 1次元と同様の式展開で、N次元データの目的関数は下記のようになる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2 ෍ 𝑗 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽  log det 𝜕𝒙 𝜕𝒛 + 𝛽 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝑁 𝛽 log 𝑇 𝐷𝐾𝐿 ⋅ は理想的なパラメトリック確率モデルで 𝑝𝜓 𝑧 = 𝑝 𝑧 となると最小化され0となる。 ◼ エンコーダ・デコーダ最小化条件は[・]の中を𝜕𝒙 𝜕𝑧𝑗 で微分し、右から 𝜕𝒙 𝜕𝑧𝑘 をかけると 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2 𝛿𝑗𝑘 と なる。ここでd𝑦𝑗 /𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 なる𝑦𝑗 を導入すると 𝜕𝒙 𝜕𝑦𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑦𝑘 = 𝛿𝑗𝑘 となり、 𝜕𝒙 𝜕𝑦𝑗 は𝐺𝑥 の計量ベクトル空 間で正規直交となる。 ◼ 𝑑𝒙(1) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦 𝑗 (1) , 𝑑𝒙(2) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦 𝑗 (2) とすると、 𝑑𝒙 1 𝑇 𝐺𝑥 𝑑𝒙 2 = σ𝑗 𝑑𝑦 𝑗 1 𝑑𝑦 𝑗 2 = 𝑑𝒚 1 𝑇 ⋅ 𝑑𝒚 2 となり 𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。 ◼ また、 𝑦 空間の各次元の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦𝑗 /𝑑𝑧𝑗 2 = 𝛽/2 と定数になる。 Copyright 2021 FUJITSU LIMITED 𝜓次第で0にできる データやTに依存する定数 54
  51. 𝐿 = 𝐷 + 𝛽𝑅 Copyright 2021 FUJITSU LIMITED 深層画像圧縮が

    『完全な等長でない』 理論上の理由 ◼ 今回の証明では、 𝑥 = 𝑔𝜃 (𝑓𝜙 (𝑥))、すなわち、デコーダは エンコーダの逆関数と仮定。 ◼ しかし、実際にはノイズ 𝜷/𝟐 に対するウィーナフィルタと ほぼ同じ挙動を示し、逆関数とならない。 ⇒ 完全な等長性は失われる。 ◼ 例: 1次元データ 𝑥 ∼ 𝑁 0, 𝜎𝑥 2 を 深層画像圧縮で 𝐿 = 𝐷 + 𝛽𝑅 のコストで学習した場合。 ◼ 𝑔𝜃 (𝑓𝜙 (𝑥)) は ノイズ 𝜖 ∼ 𝑁 0, 𝛽/2 を加えたあとに ウィーナフィルタをかけた結果と ほぼ等価となる。 ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 ≃ 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 ≠ 𝑥 ◼ 両者のMSE平均は 𝐸 𝑥 − ෬ 𝑥 2 ≃ 𝛽/2 2/𝜎𝑥 2 > 0 となり、 完全な逆関数にはならない。 + 𝝐 ∼   𝑵 𝟎, 𝜷/𝟐 ウィーナフィルタ ෬ 𝑥 = 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 𝑓𝜙 𝑥 𝑔𝜃 𝑧 ෬ 𝑥 𝑥 ∼ 𝑁 0, 𝜎𝑥 2 ෬ 𝑥 ∼ 𝑁 0, 𝜎𝑥 4 𝜎𝑥 2 + 𝛽/2 𝑥 等 価 𝑧 55
  52. Copyright 2021 FUJITSU LIMITED 等長性を高める方法 ◼ 再構成誤差の分析 ◼ ො 𝑥

    = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 として次式成立。 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 ◼ よって 𝐷 𝑥, ෬ 𝑥 と𝐷 ො 𝑥, ෬ 𝑥 のトレードオフの結果、 ウィーナフィルタ的な挙動をしめす。 ◼ 等長性を高める方法: ෬ 𝑥 ≃ 𝑥 の促進 ◼ 𝐷 𝑥, 𝑥 + 𝛿𝑥 = 𝛿𝑥𝑇𝐺𝑥 𝛿𝑥 は𝛿𝑥=0で微分値が0。 ◼ 𝐷(⋅,⋅)より0付近で急峻なロス𝐷2(⋅,⋅)を準備 (MSEの対数やL1/L2 ロスなど) ◼ 𝐷 𝑥, ෬ 𝑥 を𝐷2 𝑥, ෬ 𝑥 に置き換えて学習 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 ⇒ 𝒙 ≃ ෭ 𝒙 が促進され等長性が高まる 𝒙 𝒛 ෭ 𝒙 𝐷2(𝒙, ෭ 𝒙) ෝ 𝒙 D(෕ 𝒙, ෭ 𝒙) 𝝐~𝑁(0, 𝜎) + 𝑔𝜃 (𝒛 + 𝝐) この等長性を高めたモデルをRaDOGAGAと命名 (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) 𝐷 𝑥, ෬ 𝑥 𝐷2 𝑥, ෬ 𝑥 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 D2(・) はD(・)よりも ෬ 𝑥 ≃ 𝑥 付近で微分が 急峻な『MSEの対数』や L1などを使う 置き換え 新しい再構成誤差で学習 ෬ 𝑥 = 𝑥 ෬ 𝑥 = 𝑥 56
  53. 結論②:VAEの解明 ◼ 多くの研究者がVAEの解明にチャレンジ ◼ Rolinek et.al. “Variational Autoencoders Pursue PCA

    Directions (by Accident)” VAEのヤコビアンの各ベクトルは直交していることを証明。 ◼ Locatello et.al, “Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations” (ICML2019 Best Paper) VAEがDisentangle表現を獲得するには帰納バイアスが必要なことを証明 しかし、VAEの定量的な性質は未解明のまま ◼ 我々はVAEの理論的な解明に成功 ⇒ 実はVAEも潜在的な等長埋め込みであり、 深層画像圧縮と限りなく近かった! Copyright 2021 FUJITSU LIMITED 57
  54. Copyright 2021 FUJITSU LIMITED VAE と 深層画像圧縮は 「根っこ」 は同じ! Method

    事前分布 事後分布(ノイズ) 最適化コスト 等長空間へのマッピング VAE 固定の事前分布。 原論文は正規分 布 N(0,1) エンコーダで正規分布の事後 分布の平均𝝁𝒋 と分散𝝈𝒋 𝟐を各 データ、次元 j 毎に学習 𝐿 = 𝐷 + 𝛽𝑅を最適化 潜在空間をデータ・次元毎 に異なる 𝜷/𝟐𝝈𝒋 𝟐 倍の スケーリングで等長に 深層画像 圧縮 パラメトリックな 事前分布を学習 エンコードの結果に全データ・ 次元共通の固定分散𝝈𝒏 𝟐の 事後分布の誤差を加えたもの。 潜在空間を全データ・次元 で共通の定数 𝜷/𝟐𝝈𝒏 𝟐倍 のスケーリングで等長に 最適化時の固定パラメータと学習するパラメータが相補的なだけ! VAEの潜在変数の事前・事後分布と等長空間との関係 VAE 潜在変数の確率分布 は固定の事前分布 (正規分布が一般的) 誤差分布(事後分布):学習で獲得 x z ヤコビ行列は 直交・非正規 誤差分布(事後分布): β/2の固定分散 y 深層画像圧縮の等長空間 x ヤコビ行列は 正規直交 潜在変数の確率分布は データ分布に等しい 𝜕𝑦𝑗 𝜕𝑧𝑗 = Τ 𝛽 2 𝜎𝑗 𝑥 でスケーリング すると深層画像圧縮相当に 58
  55. VAE の潜在空間も等長空間へマッピング可能! Copyright 2021 FUJITSU LIMITED 𝒚 ∈ 𝑌 𝒙

    ∈ 𝑋 ෝ 𝒚 ∈ ෠ 𝑌 ෝ 𝒙 ∈ ෠ 𝑋 𝝁 𝒙 𝒛 𝑁 0, 𝝈 𝒙 𝟐 + + 𝑁 0, Τ (𝛽 2) 𝑰 𝜕𝑦𝑗 𝜕𝜇𝑗(𝑥) = Τ 𝛽 2 𝜎𝑗 𝑥 暗黙的な 等長埋め込み VAE となる変数 y を導入 等長性 入力データxの 確率分布 P(x) 潜在変数の事前確率分布 P(z)。 両空間での2点間の 距離は等しい D(x(1), x(2) ) = | y(1) –y(2) |2 深層画像圧縮/RaDOGAGA と同様に、潜在空間を 𝜷/𝟐𝝈𝒋 𝟐 倍 スケーリングすると、計量ベクトル 空間に等長な空間が得られる。 同様に、等長空間での事後分 布の分散も固定値(β/2) となる。 ↓ よって、RaDOGAGAや深層画像 圧縮同様に、得られた等長空間に おいて、データの定量的な分析が 可能に。 yの確率分布 P(y)は P(x)に等しい 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 59
  56. Copyright 2021 FUJITSU LIMITED 証明概要:VAEも深層画像圧縮と同じコストに帰着 ◼VAEは変分下限 𝐸𝑝 𝑥 𝐸𝑞𝜙 𝑧

    𝑥 log 𝑝𝜃 𝑥 𝑧 − 𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 の最大化を行う。 ◼これまでと類似の議論から第一項の再構成誤差 は計量テンソル𝐺𝑥 を用いて下記のように近似可能。 log 𝑝𝜃 𝑥 𝑧 = log 𝑝𝐷 𝑥 ො 𝑥 = −𝐷 𝑥, ො 𝑥 ≃ 𝐸𝑝 𝜖 𝑥 − ො 𝑥 𝐺𝑥 𝑥 − ො 𝑥 = ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 ◼事後分布のσが小さい時 𝑁 𝑧; 𝜇, 𝜎2 はδ関数 𝛿 𝑧 − 𝜇 に近似でき、これにより第二項は次式で展開可能 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 = − ׬ 𝑁 𝑧; 𝜇, 𝜎2 log 𝑝 𝑧 𝑑𝑧 + ׬ 𝑁 𝑧; 𝜇, 𝜎2 log 𝑁 𝑧; 𝜇, 𝜎2 𝑑𝑧 ≃ −𝑝 𝝁 − σ𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2,よって 𝐸𝑝 𝑥 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 ≃ 𝐸𝑝 𝑥 −𝑞 𝑧 + −𝑝 𝑧 + 𝑞 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 = 𝐸𝑝 𝑥 −𝑝 𝑥 det 𝜕𝑥 𝜕𝑧 + 𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 ◼上記よりVAEコスト(変分下限×-1)は深層画像圧縮とほぼ同じ式となる。違いは𝜎𝑗 が可変か固定かのみ。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽  log det 𝜕𝒙 𝜕𝒛 + 𝛽𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 𝛽 2 log 2𝜋𝑒𝜎𝑗 2 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 ◼最小化条件は深層画像圧縮同様に 𝝏𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑗 2 𝛿𝑗𝑘 。ここでd𝑦𝑗 /𝑑𝑧𝑗 = 𝛽/2𝜎𝑗 2 なる𝑦𝑗 を導入すると 深層画像圧縮同様に𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となり、誤差はβ/2となる。 60
  57. ◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)

    ➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめ データ確率分布の 明示的な獲得 潜在空間・潜在変数の獲得 サンプリング エンコード 潜在空間の定量性 サンプリング VAE ×→◦ ◦ ×→◦ 〇 GAN × × × ◦ EBM 〇 × × 〇 RaDOGAGA ◦ ◦ ◦ ◦ 再掲+追記 RaDOGAGAと VAEは満点に! 61
  58. Copyright 2021 FUJITSU LIMITED 実データでの等長性の評価 ◼ ”RaDOGAGA” で両空間の内積を評価 ◼ VAE

    で 偏微分ノルム 𝜕𝒙/𝜕𝑦𝑗 2を評価 • 潜在空間で二つの微小変位𝑑𝒚 1 , 𝑑𝒚 2 を ランダム生成 • デコードしてデータ空間の𝑑𝒙 1 , 𝑑𝒙 2 を計算 • 等長空間とデータ空間の内積 𝑑𝒚 1 ⋅ 𝑑𝒚 2 及び 𝑑𝒙 1 𝑇 𝐺𝑥  𝑑𝒙 2 をプロットして等長性を評価 ⇒ 異なるデータ・計量で高い相関性、等長性を示す • 潜在空間で第 j 次元のみ微小量 𝜖 、他の次元は 0 の微小変位 𝑑𝒛 j = (0, ⋯ , 𝜖, ⋯ ) を生成。 • 𝜕𝒙/𝜕𝑦𝑗 2 ≃ 2𝜎𝑗 2 𝛽 𝐷 𝑔𝜃 𝒛 + 𝑑𝒛 j , 𝑔𝜃 𝒛 /𝜖2 の 左辺を各次元で評価。等長性より理論値は1。 ⇒ 異なるデータ・計量で、データ空間と等長空間との 偏微分ノルムが全次元で1に近く、等長性を示す データ:CelebA 計量 :SSIM データ:MNIST 計量 : Binary Cross Entropy ノルムが全次元でほぼ1を示す → 等長性を示す 潜在変数の次元 潜在変数の次元 データ:CelebA 計量 :SSIM データ:MNIST 計量 : Binary Cross Entropy 等長空間の内積 データ空間の内積 データ空間の内積 両空間の内積に高い相関性 → 等長性を示す 64
  59. Copyright 2021 FUJITSU LIMITED 可変量子化による深層画像圧縮のレート制御 ◼ 従来の深層画像圧縮の課題 ◼ ターゲットのレート毎にβを変えてL=D+βRで学習。 ⇒

    レート毎に異なる複数のモデルが必要に。 ◼ βに依存するモデルのウィナーフィルタ的挙動が原因と推定 ◼ 提案手法:等長性の高い空間での可変量子化 ◼ ො 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 , 𝐷2 𝑥, ෬ 𝑥 = log ||𝑥 − ෬ 𝑥||2 2 として 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 で学習 ⇒ 計量空間に対して等長性の高い潜在空間を獲得 ◼ 上記モデルの潜在空間で、任意の量子化器 𝑇 を用いて オフセット付量子化 𝑞 = sign 𝑧 floor 𝑍 /𝑇 + offset , Ƹ 𝑧 = 𝑞𝑇 ⇒ ウィナーフィルタ的な効果を補う (H.264 JMと同様) ◼ 結果:単一モデル+オフセット付の可変量子化で、 従来のレート毎の複数モデルと同等性能を達成 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 計量空間と等長性の高い潜在空間獲得 0 T 2T 4T 3T -T -2T -4T -3T 0 1 2 4 3 -1 -2 -4 -3 単一モデル+任意量子化器でオフセット付 の線形量子化 (H.264のJM相当) SSIM及びPSNRにおいて 従来のレート毎モデルと 同等の性能を達成 Offset=0.45で 従来技術とほぼ同等 Jing Zhou, Akira Nakagawa, Keizo Kato, Sihan Wen, Kimihiko Kazui, Zhiming Tan, “Variable Rate Image Compression Method with Dead-zone Quantizer,” https://openaccess.thecvf.com/content_CVPRW_2020/papers/w7/Zhou_Variable_Rate_Image_Compression_Method_With_Dead-Zone_Quantizer_CVPRW_2020_paper.pdf 65
  60. 確率密度の推定 (VAE / RaDOGAGA共通) ◼ 計量テンソル𝐺𝑥 の計量ベクトル空間での入力データの 確率密度を𝑝𝐺𝑥 (𝑥)、等長空間の確率密度を𝑝(𝑦)、 潜在空間の確率密度を𝑝(𝑧)とすると、これまでの議論

    より、次の関係がある。 ◼ 入力空間座標の確率密度を𝑝(𝑥)とすると、計量ベクトル 空間の確率密度𝑃𝐺𝑥 (𝑥)とは次の関係がある。 ◼ よって、潜在空間の確率分布から、入力空間座標の 確率分布𝑝 𝑥 は次の式で導出可能となる。 Copyright 2021 FUJITSU LIMITED 入力空間 𝑝 𝑥 計量ベクトル空間 𝑝𝐺𝑥 𝑥 潜在空間 𝑝 𝑧 𝒑𝑮𝒙 𝒙 = 𝒑 𝒚 =      𝒑 𝒛 ෑ 𝒋 (𝝈𝒋 / 𝜷/𝟐) 𝒑 𝒙 =       𝒑𝑮𝒙 𝒙 𝐝𝐞𝐭 𝑮𝒙 𝑝𝐺𝑥 𝑥 = 𝑝 𝑦 = 𝑝 𝑧 det 𝜕𝑧 𝜕𝑦 = 𝑝 𝑧 ෑ 𝑗 (𝜎𝑗 / 𝛽/2) 𝑝 𝑥 = 𝑝𝐺𝑥 𝑥 det 𝐺𝑥 𝑝 𝑥 = 𝑝 𝑧 det 𝐺𝑥 ς𝑗 (𝜎𝑗 / 𝛽/2) 66
  61. Copyright 2021 FUJITSU LIMITED RaDOGAGAによる確率分布の推定 Input source 従来技術 (DAGMM) P(x)

    (High) (Low) 実験条件 •従来技術 DAGMMと 提案技術RaDOGAGAで 上記3次元データを学習。 •データの確率密度(横軸)と その推定値(縦軸)をプロット ◼ RaDOGAGAでデータの確率密度推定を評価、理論の正しさを検証 RaDOGAGA (Ours) 確率推定ができていない D2は二乗誤差 高い予測精度だが若干のズレ ⇒ 等長性が若干失われている 高い予測精度 ⇒ 等長性の向上 D2は二乗誤差の対数(より急峻) 評価結果 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 を最小化 DAGMM: Zong et.al, “Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection,” https://sites.cs.ucsb.edu/~bzong/doc/iclr18-dagmm.pdf 67
  62. Copyright 2021 FUJITSU LIMITED VAEによる確率密度の推定 実験条件 • 上記分布をもつ3次元データ s1, s2,

    s3 から多次元データ xを作成。 • xの生成確率p(x) は以下で与えられる p(x) = p(s1) p(s2) p(s3) • 非線形の計量 Gx を用いてVAEで学習 • 各データの実際の確率と推定確率をプロット 結果 ◼ VAEでデータの確率密度推定の評価を行い、理論の正しさを検証 等長空間での推定確率 データ確率と推定確率の 相関はとても高い (相関係数 R=0.910) 𝑝 𝑧 det 𝐺𝑥 ς𝑗 (𝜎𝑗 / 𝛽/2) 事前分布 データ確率と事前分布 (Prior)の確率の相関は低い (相関係数 R=0.434) 𝑝 𝑧 p(x) p(x) 68
  63. 教師無し異常検知 ◼ RaDOGAGA/VAEの確率密度推定を教師無しの異常検知タスクに適用 ⇒ F1で従来のSOTAを超える性能を達成。 Copyright 2021 FUJITSU LIMITED 異常検知のベンチマーク用データセット

    • KDDCup/KDDCup-rev 通信アクセスデータ(データマイニング分野 の国際学会Knowledge Discovery and Data Mining (KDD) が配布) • Thyroid/Arrythmia 甲状腺数値データ、不整脈データ(カリ フォルニア大学アーヴァイン校が配布) 69
  64. 潜在変数の重要度推定(VAE) 推定分散値で全次元をソートすると、画像変化の大きさ順になる。 ⇒ 推定分散値は各次元の重要度(PCAの分散相当)を表す。 等長な潜在変数の各次元の重要度の評価 Copyright 2021 FUJITSU LIMITED ◼

    等長な潜在変数の各次元の分散は、 PCA同様に次元の重要度を示す。 ◼ VAEでは、各次元の事後分布の分 散𝜎𝑗 2を用いて、その次元の等長潜在 変数 𝑦𝑗 の分散は、次式で推定可能。 𝑉𝑎𝑟 𝑦𝑗 ≃ 𝛽 2 𝐸𝑝(𝒙) [𝜎𝑗 𝒙 −2 ] ◼ CelebA学習後、推定分散値で各 次元をソート。各次元の潜在変数を 一定割合ずつ変化させ、デコードした 画像の変化度合は推定分散値と 高い相関を示す。 潜在変数の分散 (各次元の重要度) 70
  65. Copyright 2021 FUJITSU LIMITED VAE / RaDOGAGAの選択基準の考察 入力データx の分布p (x)

    VAE RaDOGAGA Priorに マッピング 等長空間に マッピング 𝝏𝒚𝒋 𝝏𝒛𝒋 = Τ 𝜷 𝟐 𝝈𝒋 𝒙 が橋渡し Pros:Priorとσから簡単に入力データの確 率密度を推定できるので、モデル設計が簡単 Cons:潜在空間全体の分布を評価・分析 するためには、微分dyj /dzj を繋ぎ合わせて等 長空間を求める必要があり、データの分布に よっては分析が困難(特に多峰分布)。 Pros:潜在空間が等長なので、潜在空間の 分布から入力データ特徴を直接的に分析可能 Cons:潜在空間のパラメトリックな確率分布 の選択など、モデル設計が若干難しい 入力と同確率 目的に応じて使い分けが可能。 両者のハイブリッドも有効。 z ~ N(0, I) p (x) ≒ pθ (y) 71
  66. 符号化の階層モデルとAI ◼ 1980年代に、原島先生により、『知的画像符号化』や『知的通信』が提唱された。 ◼ 提唱された符号化の階層モデルとAI技術の関係 1. 波形符号化:信号波形情報を伝送 ⇒ 深層画像圧縮 2.

    分析合成符号化:画像のパラメータを伝送 ⇒ GAN、VAEなどの生成モデル 3. 認識符号化:画像の要素を認識・伝送 ⇒ Faster RCNN/DETR等の物体検出や、 SimCLR/BYOL等の教師無し表現学習 4. 知的符号化:画像の概念を伝送 ⇒ CLIP/VilBERTなどのマルチモーダル学習 Copyright 2021 FUJITSU LIMITED 引用元: 原島博、『知的画像符号化と知的通信』、 テレビジョン学会誌 1988 年 42 巻 6 号 p. 519-525 https://www.jstage.jst.go.jp/article/itej1978/42/6/42_6_519/_pdf/-char/ja 最先端の深層学習技術と深い関係性 73
  67. 画像の教師なし表現学習とその課題 Copyright 2021 FUJITSU LIMITED Chen et.al., “Exploring Simple Siamese

    Representation Learning,” https://arxiv.org/pdf/2011.10566.pdf より引用 Jing et.al., “Understanding Dimensional Collapse in Contrastive Self- supervised Learning,” https://arxiv.org/pdf/2110.09348.pdf より引用 SimCLR、BYOL、SimSiamなど、大量の 画像から、データ自身が持っている表現を 教師無しで学習する手法の提案 • 獲得した潜在空間の定量的な解釈が困難。 • Dimensional Collapseという、潜在空間 自体が縮んでしまう現象が問題に。 課題: レート歪最適化を取り入れれば これらの課題が解決できるのでは? 74