情報通信理論から導くVAE等の生成的AIモデルの定量的な理論解析 (PCSJ/IMPS 2022講演資料)

深層画像圧縮から AIの生成モデルへ 2021年11月16日富士通株式会社人工知能研究所中川章 Copyright 2021 FUJITSU
LIMITED PCSJ / IMPS 2021 2022年4月11日版

自己紹介 ◼中川章, 博士(工学) 富士通株式会社人工知能研究所准フェロー ◼専門分野：情報理論に基づいた映像符号化、AI理論 ◼研究開発の経歴 ◼
1991年東京大学電子工学科修士課程卒業、同年富士通研究所に入社。 ◼ 映像符号化分野の研究、国際標準、及び映像符号化 LSI・放送機器等の開発に従事。 ◼ 現在、人工知能の研究に従事。情報通信理論をベースにしたAIの研究。 ◼ 受賞等 ◼ 電子情報通信学会フェロー ◼ 紫綬褒章／文部科学大臣表彰／市村産業賞／日本ITU協会賞／ ◼ 米国エミー賞(技術部門、開発技術の受賞) ／米SMPTE 論文賞等 Copyright 2021 FUJITSU LIMITED 今日の発表 1

背景 Copyright 2021 FUJITSU LIMITED ◼ 現在の画像符号化技術は情報通信理論の集大成、今では生活に不可欠に！ ◼ 近年、Deep Learningを用いた深層画像圧縮が提案され、MS-SSIM等の任意の
評価尺度で高性能を示す。 Minnen et.al., “Joint Autoregressive and Hierarchical Priors for Learned Image Compression,” https://arxiv.org/pdf/1809.02736.pdf より引用 JPEG 深層画像圧縮 CVPR CLIC2019 Leader Board 我々の提案方式は MS-SSIM指標で惜しくも 2位・3位深層画像圧縮は、情報通信理論と何等かの関係があるはず！深層画像圧縮コンテスト https://www.itu.int/rec/T-REC-H.264 https://www.itu.int/rec/T-REC-H.265 https://www.itu.int/rec/T-REC-H.266 http://clic.compression.cc/2019/results/?sort=msssim 動画像符号化国際標準 2

今回の発表内容：情報通信理論に基づく深層画像圧縮とVAEの理論解明 Copyright 2021 FUJITSU LIMITED Encoder Decoder Data Reconstructed
Data 任意の距離計量Gx(MSEやSSIM)の元での Rate-Distortion 最適化エンコード高次元空間デコード低次元の等長空間両空間での距離が等しい i.e. |x1 -x2 |2 = |y1 -y2 |2 x1 y1 y2 𝒑 𝒚 𝒑(𝒙) 確率密度が等しい 𝒑 𝒙 = 𝒑 𝒚 x2 データと潜在空間を定量的に結びつけることが可能にエントロピー最小表現定量的な説明変数深層画像圧縮とVAEは、距離空間での『等長埋め込み』となることを理論解明 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 3

◼ 等長埋め込みの活用により潜在空間での定量的なデータ解析や取扱が可能となり、深層画像圧縮と VAE等の生成的AIモデルの両分野で応用が可能に等長埋め込みの活用により定量的な解析が可能に Copyright 2021 FUJITSU
LIMITED 確率分布推定教師無し異常検知データの確率密度の定量評価が可能に従来のState-of-the-art を超える異常検出性能潜在変数の各次元の分散と画像の変化量が高い相関単一モデル＋任意量子化器でレート制御が可能に可変レート符号化潜在変数の各次元の重要度の評価深層画像圧縮 VAE等の生成的AIモデルでの定量分析 4

機械学習系のトップカンファレンス ICMLでの採択 Copyright 2021 FUJITSU LIMITED ◼ Quantitative Understanding of
VAE as a No-linearly Scaled Isometric Embedding ◼ 中川章, 加藤圭造（富士通）鈴木大慈准教授（東大、理研） ◼ 幅広く活用が進む生成モデル “VAE” の理論的特性を完全に明らかに。非線形なマッピングにより『等長埋め込み』となることを示した。 ◼ さらにVAEを用いた定量的な解析手法も示した。 ◼ Rate-Distortion Guided Autoencoder for Isometric Embedding in Euclidean Latent Space ◼ 加藤圭造, 周静, 佐々木智丈, 中川章（富士通研究所） ◼ 深層画像圧縮等のRD最適化されたAutoencoder は『等長埋め込み』となることを理論的・定量的に示し、同時にデータの定量評価を可能とした。 ◼ 略称“RaDOGAGA” (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) https://arxiv.org/abs/2007.15190 https://proceedings.mlr.press/v139/nakagawa21a.html https://arxiv.org/abs/1910.04329 http://proceedings.mlr.press/v119/kato20a.html ICML 2020＆2021で発表 (機械学習分野のトップカンファレンス) 5

本日の発表 Copyright 2021 FUJITSU LIMITED ◼発表の概要： ◼ 生成的AIモデルの解説 ◼ 画像符号化の基礎となるレート歪理論の解説
◼ レート歪最適化に基づく生成的AIモデルの等長埋め込みの理論導出。 ◼ 等長埋め込みの定量性を生かした画像圧縮やデータ解析への応用。 ◼ 情報通信理論を活かした今後のAI研究の方向性について（ディスカッション）。 ◼資料について: 調子に乗って、ご発表資料で多数の内容を盛りこみすぎました😅。すこし駆け足でご説明します。 ⇒ ご興味のある方は資料をダウンロードしてください。一方の分野のみ詳しい方々にもご理解頂けるように、それぞれの基礎理論からご説明します Google検索で 6

Copyright 2021 FUJITSU LIMITED ◼ 背景：識別アプローチの発展と課題 ◼ 大量の教師データから識別ルールを学習する識別モデルが著しく発展、幅広い活用へ。 ◼
一方、タスク毎のデータ準備やモデル作成が必須であり導入までの期間・コストが膨大に ◼ 動向：生成的AIモデル研究の進展 ◼ 大量の教師無しデータからデータの生成ルールを獲得し、幅広いタスクに活用する生成的AIの進展 ◼ Deep Learningを活用した画像・言語の生成的AIの研究が進む背景・動向分析対象毎の識別ルール分析対象毎の大量の教師データ境界を学習識別アプローチデータのみデータ本来の分布・確率を獲得生成型DL 犬猫犬猫通信アクセスデータ医療データ大量教師無しデータと少量教師データで学習不正アクセス検知異常症例発見正常分布との違いを分析 8

識別モデルと生成モデルの違い Copyright 2021 FUJITSU LIMITED ◼ 前提：データ x を N
クラスの Ci に分類する ◼ 識別モデル ◼ x が各クラスに属する確率 p(Ci | x) を直接学習。 ◼ 各 x に対し、 p(Ci | x) が最大のクラスを求めることで、クラス間の境界が求まる。 ◼ 生成モデル ◼ 各Ci に対し、x の存在確率 p(x|Ci ) や潜在変数などの生成規則を学習。 ◼ ベイズの定理より p(Ci | x) ∝ p(x|Ci )・ p(Ci ) を評価することで、クラス分類が可能となる。識別モデル生成モデルクラスの境界線を求めるデータ生成規則(変数、確率分布)を求める確率変数一般に生成モデルの方が複雑だが、正しく学習できれば汎用性・再利用性が高い。 9

◼データを解析するために有用な生成モデルの特徴 ◼確率分布・密度の獲得 ➢ データの確率分布を明示的に獲得可能なこと。 ◼低次元の潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること（埋めこみ） ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)
➢ 潜在空間からサンプリングし、実空間のデータにデコードできること ➢ サンプリングデータの分布がデータ分布に一致すること Copyright 2021 FUJITSU LIMITED 生成モデルが提供する有用な特徴マッピング(エンコード) 高次元の実空間データ (犬画像などのドメイン) サンプリング(デコード) 両空間の確率分布の定量的関係低次元の説明変数(潜在空間) 両空間での距離の定量的関係 D(Ｘ1 ,Ｘ2 ) = |Z1 -Z2 |2 Z1 Z2 Ｘ1 Ｘ2 10

生成モデルの役割①：確率分布の獲得 ◼ 確率分布の獲得の一般的な定式化 ◼ データ分布 p(x)をよく再現し、かつを満たす確率モデル pθ (x)
のパラメータθ を導出。 ◼ 確率モデル pθ (x) 獲得の主な方法 ① pθ (x) の対数のサンプル平均最大化(対数尤度最大化) ⇒ 殆どの手法(VAE、EBM、FLOW、・・） ② JSダイバージェンス最小化 (GAN／詳細は後述) Copyright 2021 FUJITSU LIMITED 対数尤度のサンプル平均対数尤度を最大化するモデルパラメータ θ を求めると𝐷KL 𝑝 𝒙 ||𝑝𝜃 𝒙 が0となり pθ (x) = p(x) となる。 GANは暗に p(x)とpθ (x) のJSダイバージェンスを最小化するθ を求めているここでKLダイバージェンス ≥0 は p(x) = q(x) で最小値ゼロになる。ここでJSダイバージェンス ≥ 0 は p(x) = q(x) で最小値ゼロになる。確率の公理定数(エントロピー×ｰ1) KLダイバージェンス 11

Copyright 2021 FUJITSU LIMITED 生成モデルの役割②：潜在変数の獲得 ◼ 多様体仮説 ◼ 「現実世界の高次元データは本質的には低次元であり、説明変数は低次元の曲面にマッピング可能」
(曲面を多様体という) ◼ 『潜在変数』の獲得：データを構成する低次元の説明変数を獲得し、データの説明や学習を容易に！現実世界の大量の顔データ多様体仮説獲得した潜在変数を変化させた映像 Large-scale CelebFaces Attributes (CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html z0: 背景の色 z1: 顔の向き z2: 髪の色 z3: 表情 Quantitative understanding of VAE as a Non-linearly Scaled Isometric Embedding https://arxiv.org/abs/2007.15190 説明変数低次元の潜在的な説明変数の獲得 (VAE等) 12

生成モデルの役割③：サンプリング ◼ サンプリングとは ① 学習モデルから学習対象のドメインに属するデータを人工的に生成すること。 ② 生成データの確率分布は元のドメインの確率分布と一致すること。 ◼ 潜在変数空間から直接サンプリングするもの(VAE、GAN等)と、マルコフサンプリング等でデータを生成するもの(EBM等)がある
(後述)。 Copyright 2021 FUJITSU LIMITED 学習した猫画像の分布 pθ (x) 元データ分布 p (x) に一致した猫画像を生成 x ~ pθ (x) に従ってサンプリング 13

生成モデルの種類 ◼ Variational Autoencoder (VAE) ◼ データを低次元に変換してサンプリングを可能とする生成モデル “Auto-Encoding Variational Bayes,”
https://arxiv.org/abs/1312.6114 ◼ Generative Adversarial Nets (GAN) ◼ Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競わせて学習 “Generative Adversarial Nets,” https://arxiv.org/abs/1406.2661 ◼ Energy Based Model (EBM) ◼ 統計力学のアナロジーで確率をエネルギーモデルに置き換えて学習。例えば “Implicit Generation and Modeling with Energy Based Models,” https://arxiv.org/abs/1903.08689 ◼ その他 ◼ FLOW、Diffusion Modelなど・・・ Copyright 2021 FUJITSU LIMITED 14

Copyright 2021 FUJITSU LIMITED 従来の生成モデル①：Variational Autoencoder (VAE) ◼ 利点 ◼
データを、あらかじめ決めた分布を持つ低次元の潜在空間にマッピングできる。 ◼ 潜在空間でサンプリングし、デコードすることで、学習ドメインのデータが生成できる。 ◼ 欠点 ◼ 従来研究では潜在空間と実空間の関係が不明確であり定量評価に使えないサンプリング画像データ x~p(x) Large-scale CelebFaces Attributes (CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 潜在変数 z ~p(z) にマッピング予め決めた分布 (事前分布) サンプリング／デコードされたデータ ො 𝐱 エンコーダ (パラメータφ) デコーダ (パラメータθ) サンプリングデータの低次元潜在変数を獲得し、サンプリングを可能とする生成モデル 15

Copyright 2021 FUJITSU LIMITED 従来の生成モデル①：VAEの学習方法 ◼ 対数尤度の下限値を最大化するエンコーダ・デコーダパラメータ θ,φ を学習
◼ 学習の手順 ①潜在変数 z は固定の事前分布(N(z; 0, 1) 等)とする。 ②エンコーダ fφ (x)ではデータ x に対する z の条件付き確率 qφ (z|x) = N(z; μ, σ) のパラメータ μ, σ を求める。 ③pφ (z|x)から z をサンプリングし、デコーダ gθ (z)で ො 𝑥 を得る。 ④全xに対し予め決めた距離分布pD (x|ො 𝑥)の対数尤度と、 -βDKL (qφ (z|x) || p(z)) の最適トレードオフ条件を学習。ここでpD (x|ො 𝑥) が分散1の正規分布の場合には、対数尤度log pD (x|ො 𝑥)は二乗誤差の -1/2倍となる。 x p(x) ①固定の事前分布 p (z) = N(z; 0, 1) x データ空間 x 潜在空間 z 下限値(変分下限という)を最大化再構成データの尤度(大きく）潜在空間の KLダイバージェンス(小さく) 対数尤度 + Const. エンコード σ μ qφ (z|x) = N(z; μ, σ) ② z の x による条件付き確率分布を求める μ, σ = fφ (x) log pD (x|ො 𝑥)を大きく ⇒ x と ො 𝑥 を近づける ⇒ σ を0に近づける ⇒ 分布幅を小さく ④最適なトレードオフを求める DKL (qφ (z|x) || p(z))を小さく ⇒ qφ (z|x) と p(z)を近づける ⇒ μを0に、σ を1に近づける ⇒ 分布幅を大きく予め決めた距離分布 (正規分布、ベルヌーイ分布等) pθ (x|z) = pD (x|ො 𝑥) デコード ③pφ (z|x) から z をサンプリング z ො 𝑥 ො 𝑥 = gθ (z) 16

◼ 学習方法 ◼ 一様乱数 z からGenerator Gθ (z) でデータxg を生成。
そして、Discriminator Dφ (xg ) が騙されるようGθ (z)を学習。 ◼ Discriminator Dφ (xg ) に0.5の確率で学習データxか生成データxg を入力し、正しく識別できるようにDφ (xg )を学習。ここで、 p(x)とpg (x)を学習データ及び生成データの分布、D*(x) を最適化されたDφ (x)とすると、 D*(x) = p(x)／(p(x)+pg (x)) 、ロスはとなり p(x)=pg (x) で最小となる ◼ 特徴 ◼ 利点：生成されるデータの品質が高い。 ◼ 欠点：潜在空間へのマッピングやデータ分布解析ができない。 Copyright 2021 FUJITSU LIMITED 従来の生成モデル②：Generative Adversarial Nets (GAN) Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競合学習 Karras et.al.,“Progressive Growing of GANs for Improved Quality, Stability, and Variation,” https://arxiv.org/abs/1710.10196 高品質な画像を生成(NVIDIA) 一様乱数 z ~p(z) xg=Gθ(z) xg ~pg(xg ) Dφ (x) or Dφ (xg ) Generator: Discriminator を騙すデータを生成 Discriminator: Generatorが生成したデータか識別学習データ ⅹ~p(x) 判定結果 1:学習データ 0:生成データ GANの原理 17

Copyright 2021 FUJITSU LIMITED 従来の生成モデル③：Energy-Based Model(EBM）統計力学のアナロジーを活用して、確率をエネルギーモデルに置き換えて学習 ◼ 概要 ◼
データ 𝑥 の『エネルギー関数モデル』 𝐸𝜃 (𝑥)を導入。統計力学では確率は『エネルギーの指数の逆数』に比例することから、このアナロジーで確率を次のように表現する。 𝑝𝜃 𝑥 = exp −𝐸𝜃 𝑥 ׬ exp −𝐸𝜃 𝑥′ d𝑥′ （分母は確率正規化のための「分配関数」） ◼ 対数尤度の平均 𝐿𝜃 = 𝐸𝑝 𝑥 log 𝑝𝜃 𝑥 を最大化するために θ で微分すると、シンプルな次式を得る。 d𝐿𝜃 d𝜃 = −𝐸𝑝 𝑥 𝑑𝐸𝜃 𝑥 𝑑𝜃 + 𝐸𝑝𝜃 𝑥′ 𝑑𝐸𝜃 𝑥′ 𝑑𝜃 ⇒ この微分値を用いて対数尤度を最大化する𝜃を求める。 ◼ 「ランジュバン MCMC法」という反復サンプリングで高品質なサンプリングが可能 ◼ 特徴 ◼ 利点：Simpleな定式化で、確率密度推定や高品質なサンプリングが可能 ◼ 欠点：潜在変数が無いため、説明性がない Zhao et.al., “Learning Energy-Based Generative Models via Coarse-to-Fine Expanding and Sampling,” https://openreview.net/forum?id=aD1_5zowqV 階層的なEBM のサンプリング高品質なサンプリング画像 18

◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること（埋めこみ） ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめデータ確率分布の明示的な獲得潜在空間・潜在変数の獲得サンプリングエンコード潜在空間の定量性サンプリング VAE × ◦ × 〇 GAN × × × ◦ EBM 〇 × × 〇すべての要件を満たす満点のモデルはない 19

Copyright 2021 FUJITSU LIMITED 画像の変換符号化の基本原理 ① 画像の画素間の相関を取り除くため、DCT／KLTなどの直交変換を行う。 ② エントロピー削減のために、誤差を許容して量子化を行う。 ①
量子化されたデータに最適な符号を割り当てるエントロピー符号化を行う。直交変換 (DCT／KLT 等）エントロピー符号化圧縮データ L= D + β・R を最小化する復号誤差D 情報量 R 量子化逆直交変換エントロピー符号化逆量子化原画像復号画像 21

最適な符号化条件（次ページ以降でそれぞれ説明) ◼ ガウス分布画像での符号量と二乗誤差の最適トレードオフ条件は下記の通り。 Copyright 2021 FUJITSU LIMITED 直交変換 (DCT／KLT 等）
エントロピー符号化圧縮データ L = D + β・R が最小になる復号画像との二乗誤差D 情報量 R 量子化原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規直交変換KLT／DCT適用 ⇒ 符号化利得最大化変換データの全次元に対し、同一誤差を許容する量子化 ⇒ レート・歪最適化量子化データの出現確率と同一の確率情報で符号化 ⇒ KLダイバージェンス最小化シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) （最小条件は Qqk = Pqk ) Pqk 符号長：-log Qqk KLT ①直交変換 ②量子化 ③エントロピー符号化次に、ガウス分布の場合に各ステップの理論モデルを説明します 𝒙 𝒚 𝒒𝒌 22

Copyright 2021 FUJITSU LIMITED 前提となる画素分布のモデル ◼ 画素分布のモデル化 ◼ 座標 i
の画素の値 xi は分散σ2のガウス分布に従う。 ◼ xi と xj の共分散は画素間距離の指数関数に従う ( ρ < 1 )。 ◼ 画像圧縮を行わない場合、一画素あたりのエントロピー（微分エントロピー） h(xi )は以下の通りとなる各画素の値 xi 画素間の距離 d=|i-j| 各画素値の分布画素間の共分散画素 1 2 log 2 𝜋𝑒𝜎2 一般画像で ρ は0.95~0.98 程度 23

◼ 次のように N 画素単位にまとめて符号化する(ブロックと呼ぶ) ◼ N 画素単位の共分散行列 Σx と x
の確率分布次は通り Copyright 2021 FUJITSU LIMITED 直交変換のモデル化①：共分散行列の導出画素間の相関を減らすためにブロック単位で変換符号化 σ2 σ2 N=2の例 24

◼ 共分散行列 Σx の正規化固有ベクトルからなる変換行列 P と固有値 λj を導出。 ρ<1でΣx
は正定値対称行列なので、Pは正規直交行列、 λj は 0 以上の実数となる。 ◼ Pで x を変換したN次元ベクトルを y とする。Parsevalの等式によりL2ノルム保存。， ◼ y の共分散行列は、 Σx の固有値 λj の対角行列となる Copyright 2021 FUJITSU LIMITED 直交変換のモデル化②：相関を取り除く直交変換の導出 P による変換は統計の分野では主成分分析 (PCA)、情報圧縮ではカルーネン・レーベ変換 (KLT)と呼ばれるが、両者は同一のもの。原信号や符号化誤差のL2ノルムも保存 25

◼ y の確率分布は、各次元 yj の分散が λj となる互いに独立な正規分布の積で表すことができる。ここで直交変換後の共分散行列のトレース保存則によりが成立。
◼ y に変換後の画素当たりエントロピーは、変換前の各画素のエントロピーより小さくなる。このエントロピー減少分を符号化利得と呼ぶ。 Copyright 2021 FUJITSU LIMITED 直交変換のモデル化③：符号化利得の導出 λ0 λ1 相加・相乗平均の関係により、カッコの中は必ず1以上符号化利得 p(y)はp(x)の軸を回転させたものに等しい 𝜎2 = 1 𝑁 ෍ 𝑗=0 𝑁−1 𝜆𝑗 N=2の例 26

H V ご参考：KLT と DCTの関係 Copyright 2021 FUJITSU LIMITED ◼
動画像国際標準で用いられる離散コサイン変換(DCTⅡ)は次のように導出される ◼ N=8 かつ 𝜎2 = 1とする。𝜌 = 1 − 𝜖 とすると共分散行列 Σx は、右式のように行列HとVを用いて近似できる。 ◼ ρ→1 (𝜖 →0) の極限のHの固有値は7重に縮退して、Hの固有ベクトルは一意に求まらない。しかしVを摂動とした摂動法でΣx の固有値と固有ベクトルを近似すると、下のように縮退が解ける。ここで極限 ρ→1 の固有ベクトルがDCT Ⅱ 基底と正確に一致。 𝑗 = 0: 𝜆0 ≃ 8 − 21𝜖, 𝑗 ≥ 1: 𝜆𝑗 ≃ 0 + 𝜖 2 sin2 𝑗 8 𝜋 P = + ε・固有値固有ベクトル縮退が解けた H の固有ベクトルは DCTⅡ基底と完全一致 V による摂動成分 V による摂動成分 Hの固有値動画像国際標準で用いられる離散コサイン変換(DCTⅡ) とKLTの理論的な関係 27

量子化のモデル化①：線形量子化のモデル化 Copyright 2021 FUJITSU LIMITED ◼ 線形量子化では、信号 y を量子化器 T
幅で量子化代表値 qk に置き換える。 ◼ qk に置き換わる信号の量子化誤差 nk の分布 pn (y) 、エントロピー h(n)、誤差分散は次の通り。誤差分布のエントロピー：誤差分布の分散： 0 T/2 -T/2 1/T 誤差の確率分布 pn (y) 誤差の確率分布： 28

量子化のモデル化②：線形量子化後の情報量と誤差 Copyright 2021 FUJITSU LIMITED ◼ y の分散が量子化器 T より十分に大きい場合、
量子化値の情報量は y と誤差の両エントロピーの差分、量子化誤差は誤差の分散となる。 ◼ y の分散が量子化器 T より小さい場合、量子化値の情報量は０、量子化誤差は y の分散となる。ここで y の平均は 0 とした。量子化値の情報量各量子化値の確率量子化誤差量子化値の確率・情報量量子化誤差 y 情報量は y と誤差分布のエントロピー差分誤差分布の分散と同一 y の分散と同一情報量は０ 29

言っていることは実は simple Copyright 2021 FUJITSU LIMITED 0 T/2 -T/2
1/T y の分散が量子化器 T より大きい場合 y の分散が量子化器 T より小さい場合 0 T/2 -T/2 1/T yの分布誤差分布 yの分布誤差分布両エントロピーの差分が符号化すべき情報量誤差のエントロピー yのエントロピー情報を符号化する必要がないため情報量はゼロ誤差のエントロピー yのエントロピー yは必ず量子化されるため、誤差分布の分散が符号化誤差誤差の分散 yの分散一つの量子化代表値に収まるため、符号化誤差は yの分散誤差の分散 yの分散量子化誤差量子化値の情報量すべてのyの値が一つの量子化代表値に収まる yの分散が大きく必ずデータが量子化される 30

量子化のモデル化③：情報量と誤差の理論定式化 ◼ 分散 σs 2の正規分布信号 s を量子化する。許容ノイズ n は分散 σn
2 の正規分布を用いる。 ◼ この時、量子化後の情報量 I(s;n) と誤差Dは次の通りとなる。 ◼ 信号の分散がノイズより大きい時( ： ): ◼ 信号の分散がノイズより小さい時( )： ◼ まとめると次式となる。ここでI(s;n)はD の下凸関数となる。 Copyright 2021 FUJITSU LIMITED 理想量子化後の情報量と量子化誤差の理論定式化（線形量子化とのアナロジー）情報量は信号とノイズの両エントロピーの差分、誤差は許容誤差分散情報量は0、誤差は信号の分散と同一正規分布は分散一定条件でエントロピーが最大。 I(s;n) D 31

◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj 2 とする。前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。
◼ 係数 βの元でL=D+β・Rを最小化する各次元の σnj 2 の最適値は？(レート・歪最適化) ⇒ Lj =dj +β・rj , L=Σ Lj として Lj は σnj 2にのみ依存。各Lj を最小化する σnj 2 が最適解。 Copyright 2021 FUJITSU LIMITED 量子化のモデル化④：直交変換ブロックの最適量子化曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj はで次の接点を持ち、 Lj が最小となる。 λj ≧ β / 2 となる次元 rj dj Lj =dj +β・rj 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は σnj 2 ≦ λj で接点がないため、 Lj の最小値は端点ので得られる。 rj dj Lj =dj +β・rj (λj , 0) λj ＜ β / 2 となる次元 32

◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj 2 とする。前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。
◼ 係数 βの元でL=D+β・Rを最小化する各次元の σnj 2 の最適値は？(レート・歪最適化) ⇒ Lj =dj +β・rj , L=Σ Lj として Lj は σnj 2にのみ依存。各Lj を最小化する σnj 2 が最適解。 Copyright 2021 FUJITSU LIMITED 量子化のモデル化④：直交変換ブロックの最適量子化曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj はで次の接点を持ち、 Lj が最小となる。 λj ≧ β / 2 となる次元 rj dj Lj =dj +β・rj 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj =dj +β・rj は σnj 2 ≦ λj で接点がないため、 Lj の最小値は端点ので得られる。 rj dj Lj =dj +β・rj (λj , 0) λj ＜ β / 2 となる次元まとめると、すべての次元 j で、 σnj 2 =β/2 の時に Lj =dj (β/2)+β・rj (β/2) が最小となる 33

量子化のモデル化⑤：レートと歪の関係性導出 ◼ 前頁の結果より、 L=D+β・Rの最小化条件は、全次元に同一誤差 β/2 を許容した場合となる。 ◼ この最適条件下において、ブロック単位の情報量と誤差は、d=β/2
として下記の d のパラメトリック関数 R(d) 及び D(d) となる。 ◼ d=β/2 を動かすと、ブロックを直交変換・量子化した場合の情報量と歪の関係(RD曲線)を得る。ここで、RD曲線は下に凸関数となる。 Copyright 2021 FUJITSU LIMITED λj d = β / 2 λj の降順に並べた次元 j 各次元 j の情報量と誤差の導出 λj < β/2 RD曲線(dのパラメトリック関数) ( D(β2 /2), R(β2 /2) ) R D ( D(β1 /2), R(β1 /2) ) d ⇒ 大 d ⇒ 小 L=D+β1 R L=D+β2 R 重要：後から出てきます！ λj ≥ β/2 34

エントロピー符号化のモデル化 ◼ 線形量子化後の k 番目のシンボル発生確率を Pqk とし、そのシンボルの推定確率を Qqk とする。
◼ 各シンボルの理想的なエントロピー符号長は –log Qqk となる。 ◼ Pqk の情報量をR、平均符号量をRcode とする。 ◼ 平均符号量 Rcode は Pqk = Qqk の時に最小値 R となる。 Copyright 2021 FUJITSU LIMITED シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) ⇒ 最小条件は Qqk = Pqk Pqk 符号長：-log Qqk KLダイバージェンス 35

◼L=D+βR を最小化する最適符号化条件は下記の通り。最適な符号化条件のまとめ Copyright 2021 FUJITSU LIMITED 直交変換 (DCT／KLT 等）
エントロピー符号化圧縮データ L = D + β・R が最小になる復号誤差D 情報量 R 量子化原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規直交変換KLT／DCT適用 ⇒ 符号化利得最大化変換データの全次元に同一誤差 β/2 を許容する量子化 ⇒ レート・歪最適化量子化データの出現確率と同一の確率情報で符号化 ⇒ KLダイバージェンス最小化シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σ k Pqk (-log Qqk ) （最小条件は Qqk = Pqk ) Pqk 符号長：-log Qqk KLT ①直交変換 ②量子化 ③エントロピー符号化再掲 𝒙 𝒚 𝒒𝒌 36

深層画像圧縮とは？ ◼ Balle らにより、Deep Learningとレート歪最適化による深層画像圧縮が提案された。 ◼ MS-SSIM等の任意の評価尺度で最高性能を達成。 Copyright 2021
FUJITSU LIMITED 圧縮画像、グラフとも、Minnen et.al, “Joint Autoregressive and Hierarchical Priors for Learned Image Compression,” https://arxiv.org/abs/1809.02736 より引用 JPEG 深層画像圧縮 38

深層画像圧縮の原理の概要 Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ
(z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求めるレートRと歪Dを求める z σ pψ (z) ①エンコード ො z=z+ε ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 R D L=D+β1 ･R L=D+β2 ･R (R1 , D1 ) O (R2 , D2 ) 最適化最適化 β を変えて様々なRD条件でのネットワークを求める深層学習からなるエンコーダ・デコーダ・確率分布推定器のネットワークで、画像符号化した際のレートR、歪 Dを求める。 β を与えて、L=D＋βR を最小化するネットワークパラメータを求める。さらなる詳細は次ページで 39

深層画像圧縮の原理詳細 ◼ 学習時：レート歪最適化 ① エンコーダ fφ (x)で画像を潜在変数 z に変換。 ②
z に量子化器１相当の一様ノイズを加え ො z を得る。 ③ ො z からデコーダ gθ ( Ƹ 𝑧)で復号画像 ො 𝑥 を生成。 ④ 所定のメトリクスで誤差D =D(𝑥, ො 𝑥)を計算 ⑤ パラメトリックな確率分布pψ(z)から量子化データの符号量相当を計算 ⑥ ラグランジュ係数βを導入してL=D+βRを最小化する学習パラメータ φ, θ, ψを導出。 ◼ 符号化時 ① エンコーダ fφ (x)で画像を潜在変数 z に変換。 ② z を q=round (z) で整数に量子化(量子化器１)。 ③ pψ(z)からq の符号量を用計算 ④ q を符号量 Rq でエントロピー符号化。 Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ (z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求める ⑥L=D+βR を最小化する学習パラメータ φ, θ, ψ を導出エンコーダ fφ (x) 画像𝑥 潜在変数 z ②整数に量子化 z σ pψ (z) ①エンコード ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 q σ pψ (z) ④エントロピー符号化 ③ pψ (z)から qの符号長Rq を求める量子化値 q 圧縮データ符号長 Rq ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2(定数) 40

深層学習の最適条件で何が起こっているか？ Copyright 2021 FUJITSU LIMITED パラメトリックなエンコーダで潜在変数に変換変換データの全次元に対し、固定量子化器
で量子化パラメトリックな確率モデルで量子化シンボルの出現確率を推定し符号長を導出未知分布データと任意のメトリクスに対して L=D+β R を最小化深層画像圧縮 ①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係原信号を無相関化する正規直交変換 (KLT／PCA)の適用変換データの全次元に対し、同一誤差 β/2 を許容する量子化量子化データの出現確率と同一の出現確率から量子化シンボルの符号長を導出従来の静止画像符号化符号化利得最大化レート・歪最適化 DKL 最小化ガウス分布・指数相関に対して、MSE計量で L=D+β R が最小にレート・歪最適変換エントロピー符号化圧縮データ L = D + β・R 復号誤差D 情報量 R 量子化原画像学習パラメータを最適化すると・・メトリクスとデータが定義する『リーマン多様体』を『等長なユークリッド空間』に埋め込み、符号化利得・レート歪・DKL を最適化していることを導出。符号化利得最大化レート・歪最適化 DKL 最小化 41

Copyright 2021 FUJITSU LIMITED ◼ レート歪理論（画像・音声圧縮の基礎）：ガウス分布データをDCT/KLTなどの正規直交変換・一様量子化・エントロピー符号化を行うと、二乗誤差のメトリクスのもとで、レート・歪コスト L=D+βR が最小に。
◼ 今回ご導出した『等長埋め込み』の理論概要：任意のデータ・計量でRDO コスト L=D+βR を最小化すると、その計量ベクトル空間に対して等長な潜在空間が獲得される (微小の正規直交変換が全空間に滑らかにつながったもの) 。理論の大まかなイメージ次元削減量子化・エントロピー符号化レート・歪の最適化従来のレート歪理論【条件】ガウス分布データに対し、 DCT／KLT等の正規直交変換で次元削減【条件】誤差β/2の一様量子化とエントロピー符号化。【結果】 MSEの計量で L=D+βR が最小となる今回導出した等長埋め込みの理論【結果】任意分布のデータに対し、計量に対する等長空間で次元削減【条件】均等量子化と、パラメトリック確率分布に基づくエントロピー符号化。【条件】任意の計量で L=D+βRを最小化する学習レート歪理論の適用範囲を任意の分布・計量へ拡張着想 42

リーマン多様体の概要 (数学的に厳密ではありません) ◼ 計量テンソルによる広義の内積の定義（線形代数的な定義） ◼ 正定値の計量テンソル行列 G を用いて、ベクトル v, w
の内積 <v, w>は次式で定義する。 <v, w> = v G w (「行列Gが正定値」とはあらゆる v≠0 で v G v > 0) ◼ ユークリッド空間では G は単位行列 I となり、 <v, w> = v I w = v ・ w より狭義の内積（ドット積)となる。 ◼ リーマン多様体 ◼ 多様体上の各点 x において計量テンソル Gx が与えられ、x 近傍の多様体上の二つの微小ベクトル(正しくは接ベクトル) v, wの内積が <v, w>x = v Gx w で定義される。 ⇒ ざっくり言えば、データセットと計量(内積)のペア ◼ 実世界の画像セットとSSIMのペアもリーマン多様体とみなせる。 Copyright 2021 FUJITSU LIMITED x1 v1 Gx1 w1 x2 x3 v3 Gx3 w3 v2 Gx2 w2 43

リーマン多様体の計量テンソルとしてのSSIM計量 ◼ SSIMとは主観評価に近い画像評価指標。左上座標(h, v)で指定されるN×N領域において、原画 x と復号画像 y の間のSSIM計量は下記で与えられる。ここでμx
と μy は x, y の領域内の平均、 σx 2とσy 2 は x, y の領域内の分散をしめす。 ◼ y = x + δx とすると、SSIMは下記で近似できる。ここで、、とすると学習コスト 1-SSIM は、原画 x 毎に定義される上記計量テンソル G(h, v)x を用いてと表現できる。 Copyright 2021 FUJITSU LIMITED ⇒ 画像データセットとSSIM計量を合わせてリーマン多様体とみなせる。 44

Binary Cross Entropy やガウス尤度の計量テンソル Copyright 2021 FUJITSU LIMITED ◼ VAEの原論文でMNIST学習に用いられているBinary
Cross Entropyの定義は次のとおり。とすると、が成立する。ここで計量テンソルは、次の通りとなる。 ◼ Gaussian とすると、となり、計量テンソルは単位行列 I にをを乗じたとなる。定数詳細な式展開にご興味のある方は論文をご覧ください係数付きMSE ガウス分布の対数尤度 45

埋め込みと等長性の概要説明 (注：数学的に厳密な説明ではない) Copyright 2021 FUJITSU LIMITED xB1 vB1 GxB1 wB1
xB2 xB3 vB3 GxB3 wB3 vB2 GxB2 wB2 xA2 xA3 vA1 GxA1 wA1 vA3 GxA3 wA3 vA2 GxA2 wA2 xA1 リーマン多様体A リーマン多様体B 埋め込み： AからＢへの滑らかな単射 xA1 → xB1 , xA2 → xB2 , xA3 → xB3 , ・・等長性：接ベクトルの内積を保存 vA1 GxA1 wA1 = vB1 GxB1 wB1 , vA2 GxA2 wA2 = vB2 GxB2 wB2 , vA3 GxA3 wA3 = vB3 GxB3 wB3 , ・・・・ ◼ 埋め込みとは、リーマン多様体Aから多様体Bへの滑らかな単射（マッピング） ◼ 等長性とは、埋め込み後に、両多様体の対応点において、点周辺の多様体上の二つの微小変異（正確には接ベクトル）の内積を保存するもの。 ⇒ 等長性を示す埋め込みを『等長埋め込み』という 46

Copyright 2021 FUJITSU LIMITED 等長性で距離や確率密度は等しくなる (注：厳密な説明ではない) ◼ 等長なリーマン多様体A,B 同士では2つのデータ間の距離は等しい ◼
両多様体で微小変位同士の内積を保存するため、対応する線素のL2ノルムも等しい。 𝑑𝑠𝐴 2 = 𝑑𝑥𝐴 𝑇𝐺𝐴 𝑑𝑥𝐴 = 𝑑𝑥𝐵 𝑇𝐺𝐵 𝑑𝑥𝐵 = 𝑑𝑠𝐵 2 ◼ 線素の積分で距離が定義されるため、両多様体で二つの対応点間の距離は等しい（厳密に議論するには測地線という概念の導入が必要です） ◼ 等長なリーマン多様体A,B 同士では対応点の確率密度は等しい ◼ 両多様体の体積要素は等長性により等しい。 𝑑𝑣𝐴 = 𝑑𝑣𝐵 ◼ 確率密度と体積要素の積（体積要素中のサンプル数に相当) は写像前後でも不変 𝑝𝐴 (𝑥𝐴 )𝑑𝑣𝐴 = 𝑝𝐵 (𝑥𝐵 )𝑑𝑣𝐵 ◼ よって、両多様体上で対応点同士の確率密度は等しい 𝑝𝐴 (𝑥𝐴 ) = 𝑝𝐵 (𝑥𝐵 ) 47

Copyright 2021 FUJITSU LIMITED 等長埋め込みの例 ◼ DCTやKLTなどの正規直交変換 ◼ 正規直交変換は、変換前後のユークリッド空間同士で狭義の内積(ドット積)を保存する。 ⇒
正規直交変換はユークリッド距離を計量とした等長埋め込みの一種。 ◼ 極座標とユークリッド空間 ◼ 極座標(𝑟, 𝜃)とユークリッド空間の積分要素の変換から、極座標でユークリッド距離を表す計量テンソル𝐺polar は下記のように求められる。 𝑑𝑥, 𝑑𝑦 𝑇 = 𝑅 𝑑𝑟, 𝑑𝜃 𝑇 、ここで 𝑅 = cos(𝜃) 𝑟 sin(𝜃) −sin(𝜃) 𝑟 cos(𝜃) ⇒ 𝐺𝑝𝑜𝑙𝑎𝑟 = 𝑅𝑇 𝑅 = 1 0 0 𝑟2 ⇒ ユークリッド空間(計量テンソルが単位行列 𝐼 ) からなるリーマン多様体は、極座標データ (𝑟, 𝜃) と 𝐺𝑝𝑜𝑙𝑎𝑟 計量テンソルからなるリーマン多様体に等長埋め込みが可能に。当然ながら、逆方向の等長埋め込みも可。 48

◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅
を最小化すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは等長の特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」埋め込みしたもの。 ⇒ 理論的に「ほぼ等長に」を「等長に」に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は、データの計量空間での確率密度と等しくなる。 Copyright 2021 FUJITSU LIMITED 結論①：深層画像圧縮は等長埋め込みだった！データ空間潜在空間 SSIM等の計量・距離のグリッドはデータ座標系では曲がっている • SSIM等の計量はユークリッド等長空間ではL2距離の二乗 • 各次元の量子化誤差は𝛽/2 • パラメトリックに求めた確率密度はデータの計量空間における確率密度と同じ 𝛽/2𝜎𝑛 2倍にスケールユークリッドの等長な潜在空間エンコーダ量子化器１では 𝜎𝑛 2 = 1/12 原画像復号画像 𝛽/2 𝛽/2 49

Copyright 2021 FUJITSU LIMITED 結論①：深層画像圧縮は等長埋め込みだった！ ◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2とする。深層画像圧縮の
𝐿 = 𝐷 + 𝛽𝑅 を最小化すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは等長の特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」埋め込みしたもの。 ⇒ 理論的に「ほぼ等長に」を「等長に」に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は、データの計量空間での確率密度と等しくなる。ユークリッド空間のガウス分布で定式化されていたレート歪理論を、任意のデータ分布やメトリクス(計量)に対して拡張したもの。 50

深層学習の最適条件で何が起こっているか？ Copyright 2021 FUJITSU LIMITED 計量ベクトル空間と等長なユークリッド空間に等長埋め込み。変換データの全次元に対し等長空間換算で
β/2 を許容する量子化パラメトリックな確率モデルで量子化シンボルの出現確率を推定し符号長を導出未知分布データと任意のメトリクスに対して L=D+β R が最小に学習後の深層画像圧縮 ①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係原信号を無相関化する正規直交変換 (KLT／PCA)の適用変換データの全次元に対し、同一誤差 β/2 を許容する量子化量子化データの出現確率と同一の出現確率から量子化シンボルの符号長を導出従来の静止画像符号化符号化利得最大化レート・歪最適化 DKL 最小化ガウス分布・指数相関に対して、MSE計量で L=D+β R が最小にレート・歪最適変換エントロピー符号化圧縮データ L = D + β・R 復号誤差D 情報量 R 量子化原画像ユークリッド空間のガウス分布で定式化されていたレート歪理論を、任意のデータ分布やメトリクス(計量)に対して拡張したもの。 51

等長性の証明の流れ Copyright 2021 FUJITSU LIMITED エンコーダ fφ (x) デコーダ gθ
(z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した一様ノイズを印加 ⑤ パラメトリックな確率分布pψ (z) からෝ z の符号長 R を求める z σ pψ (z) ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2(定数) ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 𝐷 ≃ σ𝑗 𝜎𝑛 2𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 2 を小さく ⇒ z 空間を拡大展開・近似 ⑥L=D+βR を最小化する学習パラメータ φ, θ, ψ を導出確率モデル𝑷𝝍 (𝒛)の最適条件エンコーダ𝒇𝝓 (𝒙)・デコーダ 𝒈𝜽 (𝒛)の最適条件 𝑅 ≃ − log 𝜕𝒙 𝜕𝒛 を小さく ⇒ z 空間を縮小展開・近似 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 を小さく ⇒ 𝑝𝜓 𝑧 = 𝑝 𝑧 が最適展開・近似 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2𝛿𝑗𝑘 で z 空間のスケールがバランス 𝒚 は 𝒙 の𝑮𝒙 による計量ベクトル空間に対して等長 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 、かつ事後分布の分散は定数 𝜷 𝟐 dyj /𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 を満たす 𝒚 を導入 𝑥 = 𝑔𝜃 (𝑓𝜙 (𝑥)) と仮定 52

ご参考：証明のアウトライン:まず1次元の場合 ◼ まず、データ、潜在変数が共に1次元として、P39の条件での考察 ◼ P39 の条件に加え、デコーダはエンコーダの逆関数 𝑥 = 𝑔𝜃
(𝑓𝜙 (𝑥))と仮定。また、潜在空間の線形量子化器を𝑇とすると量子化誤差の分散は𝜎𝑛 2 = 𝑇2/12となる。計量を𝐺𝑥 として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 𝑥の確率分布を𝑝(𝑥)とすると 𝑧 = 𝑓𝜙 (𝑥) で 𝑧の確率密度は𝑝 𝑧 = 𝑝 𝑥 𝑑𝑥 𝑑𝑧 。これを用い、符号量𝑅は 𝑅 = 𝐸𝑝 𝑥 − log න 𝑧−𝑇/2 𝑧+𝑇/2 𝑝𝜓 𝑧 𝑑𝑧 ≃ 𝐸𝑝 𝑥 − log 𝑝𝜓 𝑧 𝑇 = 𝐸𝑝 𝑥 − log 𝑝 𝑥 𝑑𝑥 𝑑𝑧 + 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − log 𝑇 ◼ 計量を𝐺𝑥 とする。𝑔𝜃 𝑧 + 𝜖 ≃ 𝑥 + 𝜖 𝑑𝑥 𝑑𝑧 を用いると誤差は下記で求められる。 𝐷 𝑥, Ƹ 𝑥 = 𝐸𝑝 𝜖 𝑥 − Ƹ 𝑥 𝐺𝑥 𝑥 − Ƹ 𝑥 ≃ 𝜎𝑛 2𝐺𝑥 𝑑𝑥 𝑑𝑧 2 ◼ 目的関数は下記のようになる。𝐷𝐾𝐿 (⋅)は理想的なパラメトリック確率モデル 𝑝𝜓 𝑧 = 𝑝 𝑧 の基で0となる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2𝐺𝑥 𝑑𝑥 𝑑𝑧 2 − 𝛽log 𝑑𝑥 𝑑𝑧 + 𝛽𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝛽 log 𝑇 ◼ エンコーダ・デコーダ最小化条件は[・]の中を𝑑𝑥 𝑑𝑧 で微分すると 𝐺𝑥 𝑑𝑥 𝑑𝑧 2 = 𝛽/2𝜎𝑛 2。ここでdy/𝑑𝑧 = 𝛽/2𝜎𝑛 2 なる 𝑦を導入すると 𝐺𝑥 𝑑𝑥2 = 𝑑𝑦2 となり、𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。また、 𝑦 空間の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦/𝑑𝑧 2 = 𝛽/2 と定数になる。 Copyright 2021 FUJITSU LIMITED 𝜓次第で0にできるデータやTに依存する定数 53

ご参考：証明のアウトライン:Ｎ次元の場合 ◼ Ｎ次元データの場合P39の条件での考察 ◼ データ 𝒙 = (𝑥0 , ⋯
, 𝑥𝑖 , ⋯ , 𝑥𝑁−1 ), 潜在変数 𝒛 = (𝑧0 , ⋯ , 𝑧𝑗 , ⋯ , 𝑧𝑁−1 ) とする。前頁と同じ条件で、計量を𝐺𝑥 として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 1次元と同様の式展開で、N次元データの目的関数は下記のようになる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2 ෍ 𝑗 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽 log det 𝜕𝒙 𝜕𝒛 + 𝛽 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝑁 𝛽 log 𝑇 𝐷𝐾𝐿 ⋅ は理想的なパラメトリック確率モデルで 𝑝𝜓 𝑧 = 𝑝 𝑧 となると最小化され０となる。 ◼ エンコーダ・デコーダ最小化条件は[・]の中を𝜕𝒙 𝜕𝑧𝑗 で微分し、右から 𝜕𝒙 𝜕𝑧𝑘 をかけると 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2 𝛿𝑗𝑘 となる。ここでd𝑦𝑗 /𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 なる𝑦𝑗 を導入すると 𝜕𝒙 𝜕𝑦𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑦𝑘 = 𝛿𝑗𝑘 となり、 𝜕𝒙 𝜕𝑦𝑗 は𝐺𝑥 の計量ベクトル空間で正規直交となる。 ◼ 𝑑𝒙(1) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦 𝑗 (1) , 𝑑𝒙(2) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦 𝑗 (2) とすると、 𝑑𝒙 1 𝑇 𝐺𝑥 𝑑𝒙 2 = σ𝑗 𝑑𝑦 𝑗 1 𝑑𝑦 𝑗 2 = 𝑑𝒚 1 𝑇 ⋅ 𝑑𝒚 2 となり 𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。 ◼ また、 𝑦 空間の各次元の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦𝑗 /𝑑𝑧𝑗 2 = 𝛽/2 と定数になる。 Copyright 2021 FUJITSU LIMITED 𝜓次第で0にできるデータやTに依存する定数 54

𝐿 = 𝐷 + 𝛽𝑅 Copyright 2021 FUJITSU LIMITED 深層画像圧縮が
『完全な等長でない』理論上の理由 ◼ 今回の証明では、 𝑥 = 𝑔𝜃 (𝑓𝜙 (𝑥))、すなわち、デコーダはエンコーダの逆関数と仮定。 ◼ しかし、実際にはノイズ 𝜷/𝟐 に対するウィーナフィルタとほぼ同じ挙動を示し、逆関数とならない。 ⇒ 完全な等長性は失われる。 ◼ 例: 1次元データ 𝑥 ∼ 𝑁 0, 𝜎𝑥 2 を深層画像圧縮で 𝐿 = 𝐷 + 𝛽𝑅 のコストで学習した場合。 ◼ 𝑔𝜃 (𝑓𝜙 (𝑥)) はノイズ 𝜖 ∼ 𝑁 0, 𝛽/2 を加えたあとにウィーナフィルタをかけた結果とほぼ等価となる。 ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 ≃ 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 ≠ 𝑥 ◼ 両者のMSE平均は 𝐸 𝑥 − ෬ 𝑥 2 ≃ 𝛽/2 2/𝜎𝑥 2 > 0 となり、完全な逆関数にはならない。＋ 𝝐 ∼ 𝑵 𝟎, 𝜷/𝟐 ウィーナフィルタ ෬ 𝑥 = 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 𝑓𝜙 𝑥 𝑔𝜃 𝑧 ෬ 𝑥 𝑥 ∼ 𝑁 0, 𝜎𝑥 2 ෬ 𝑥 ∼ 𝑁 0, 𝜎𝑥 4 𝜎𝑥 2 + 𝛽/2 𝑥 等価 𝑧 55

Copyright 2021 FUJITSU LIMITED 等長性を高める方法 ◼ 再構成誤差の分析 ◼ ො 𝑥
= 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 として次式成立。 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 ◼ よって 𝐷 𝑥, ෬ 𝑥 と𝐷 ො 𝑥, ෬ 𝑥 のトレードオフの結果、ウィーナフィルタ的な挙動をしめす。 ◼ 等長性を高める方法： ෬ 𝑥 ≃ 𝑥 の促進 ◼ 𝐷 𝑥, 𝑥 + 𝛿𝑥 = 𝛿𝑥𝑇𝐺𝑥 𝛿𝑥 は𝛿𝑥=0で微分値が０。 ◼ 𝐷(⋅,⋅)より0付近で急峻なロス𝐷2(⋅,⋅)を準備 (MSEの対数やL1／L2 ロスなど) ◼ 𝐷 𝑥, ෬ 𝑥 を𝐷2 𝑥, ෬ 𝑥 に置き換えて学習 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 ⇒ 𝒙 ≃ ෭ 𝒙 が促進され等長性が高まる 𝒙 𝒛 ෭ 𝒙 𝐷2(𝒙, ෭ 𝒙) ෝ 𝒙 D(෕ 𝒙, ෭ 𝒙) 𝝐~𝑁(0, 𝜎) + 𝑔𝜃 (𝒛 + 𝝐) この等長性を高めたモデルをRaDOGAGAと命名 (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) 𝐷 𝑥, ෬ 𝑥 𝐷2 𝑥, ෬ 𝑥 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 D2(・) はD(・)よりも ෬ 𝑥 ≃ 𝑥 付近で微分が急峻な『MSEの対数』や L1などを使う置き換え新しい再構成誤差で学習 ෬ 𝑥 = 𝑥 ෬ 𝑥 = 𝑥 56

結論②：VAEの解明 ◼ 多くの研究者がVAEの解明にチャレンジ ◼ Rolinek et.al. “Variational Autoencoders Pursue PCA
Directions (by Accident)” VAEのヤコビアンの各ベクトルは直交していることを証明。 ◼ Locatello et.al, “Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations” (ICML2019 Best Paper) VAEがDisentangle表現を獲得するには帰納バイアスが必要なことを証明しかし、VAEの定量的な性質は未解明のまま ◼ 我々はVAEの理論的な解明に成功 ⇒ 実はVAEも潜在的な等長埋め込みであり、深層画像圧縮と限りなく近かった！ Copyright 2021 FUJITSU LIMITED 57

Copyright 2021 FUJITSU LIMITED VAE と深層画像圧縮は「根っこ」は同じ！ Method
事前分布事後分布(ノイズ) 最適化コスト等長空間へのマッピング VAE 固定の事前分布。原論文は正規分布 N(0,1) エンコーダで正規分布の事後分布の平均𝝁𝒋 と分散𝝈𝒋 𝟐を各データ、次元 j 毎に学習 𝐿 = 𝐷 + 𝛽𝑅を最適化潜在空間をデータ・次元毎に異なる 𝜷/𝟐𝝈𝒋 𝟐 倍のスケーリングで等長に深層画像圧縮パラメトリックな事前分布を学習エンコードの結果に全データ・次元共通の固定分散𝝈𝒏 𝟐の事後分布の誤差を加えたもの。潜在空間を全データ・次元で共通の定数 𝜷/𝟐𝝈𝒏 𝟐倍のスケーリングで等長に最適化時の固定パラメータと学習するパラメータが相補的なだけ！ VAEの潜在変数の事前・事後分布と等長空間との関係 VAE 潜在変数の確率分布は固定の事前分布 (正規分布が一般的) 誤差分布(事後分布)：学習で獲得 x z ヤコビ行列は直交・非正規誤差分布(事後分布)： β/2の固定分散 y 深層画像圧縮の等長空間 x ヤコビ行列は正規直交潜在変数の確率分布はデータ分布に等しい 𝜕𝑦𝑗 𝜕𝑧𝑗 = Τ 𝛽 2 𝜎𝑗 𝑥 でスケーリングすると深層画像圧縮相当に 58

VAE の潜在空間も等長空間へマッピング可能！ Copyright 2021 FUJITSU LIMITED 𝒚 ∈ 𝑌 𝒙
∈ 𝑋 ෝ 𝒚 ∈ ෠ 𝑌 ෝ 𝒙 ∈ ෠ 𝑋 𝝁 𝒙 𝒛 𝑁 0, 𝝈 𝒙 𝟐 + + 𝑁 0, Τ (𝛽 2) 𝑰 𝜕𝑦𝑗 𝜕𝜇𝑗(𝑥) = Τ 𝛽 2 𝜎𝑗 𝑥 暗黙的な等長埋め込み VAE となる変数 y を導入等長性入力データxの確率分布 P(x) 潜在変数の事前確率分布 P(z)。両空間での2点間の距離は等しい D(x(1), x(2) ) = | y(1) –y(2) |2 深層画像圧縮／RaDOGAGA と同様に、潜在空間を 𝜷/𝟐𝝈𝒋 𝟐 倍スケーリングすると、計量ベクトル空間に等長な空間が得られる。同様に、等長空間での事後分布の分散も固定値(β/2) となる。 ↓ よって、RaDOGAGAや深層画像圧縮同様に、得られた等長空間において、データの定量的な分析が可能に。 yの確率分布 P(y)は P(x)に等しい 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 59

Copyright 2021 FUJITSU LIMITED 証明概要：VAEも深層画像圧縮と同じコストに帰着 ◼VAEは変分下限 𝐸𝑝 𝑥 𝐸𝑞𝜙 𝑧
𝑥 log 𝑝𝜃 𝑥 𝑧 − 𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 の最大化を行う。 ◼これまでと類似の議論から第一項の再構成誤差は計量テンソル𝐺𝑥 を用いて下記のように近似可能。 log 𝑝𝜃 𝑥 𝑧 = log 𝑝𝐷 𝑥 ො 𝑥 = −𝐷 𝑥, ො 𝑥 ≃ 𝐸𝑝 𝜖 𝑥 − ො 𝑥 𝐺𝑥 𝑥 − ො 𝑥 = ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 ◼事後分布のσが小さい時 𝑁 𝑧; 𝜇, 𝜎2 はδ関数 𝛿 𝑧 − 𝜇 に近似でき、これにより第二項は次式で展開可能 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 = − ׬ 𝑁 𝑧; 𝜇, 𝜎2 log 𝑝 𝑧 𝑑𝑧 + ׬ 𝑁 𝑧; 𝜇, 𝜎2 log 𝑁 𝑧; 𝜇, 𝜎2 𝑑𝑧 ≃ −𝑝 𝝁 − σ𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2，よって 𝐸𝑝 𝑥 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 ≃ 𝐸𝑝 𝑥 −𝑞 𝑧 + −𝑝 𝑧 + 𝑞 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 = 𝐸𝑝 𝑥 −𝑝 𝑥 det 𝜕𝑥 𝜕𝑧 + 𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 ◼上記よりVAEコスト(変分下限×-1)は深層画像圧縮とほぼ同じ式となる。違いは𝜎𝑗 が可変か固定かのみ。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽 log det 𝜕𝒙 𝜕𝒛 + 𝛽𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 𝛽 2 log 2𝜋𝑒𝜎𝑗 2 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 ◼最小化条件は深層画像圧縮同様に 𝝏𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑗 2 𝛿𝑗𝑘 。ここでd𝑦𝑗 /𝑑𝑧𝑗 = 𝛽/2𝜎𝑗 2 なる𝑦𝑗 を導入すると深層画像圧縮同様に𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となり、誤差はβ/2となる。 60

◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること（埋めこみ） ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード)
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめデータ確率分布の明示的な獲得潜在空間・潜在変数の獲得サンプリングエンコード潜在空間の定量性サンプリング VAE ×→◦ ◦ ×→◦ 〇 GAN × × × ◦ EBM 〇 × × 〇 RaDOGAGA ◦ ◦ ◦ ◦ 再掲＋追記 RaDOGAGAと VAEは満点に！ 61

理論の評価と応用 ◼ 等長性の評価 ◼ 単一モデル＋可変量子化による深層画像圧縮のレート制御 ◼ データの分布獲得と確率密度推定 ◼ 教師無し異常検知 ◼
重要な説明変数の推定 Copyright 2021 FUJITSU LIMITED 63

Copyright 2021 FUJITSU LIMITED 実データでの等長性の評価 ◼ ”RaDOGAGA” で両空間の内積を評価 ◼ VAE
で偏微分ノルム 𝜕𝒙/𝜕𝑦𝑗 2を評価 • 潜在空間で二つの微小変位𝑑𝒚 1 , 𝑑𝒚 2 をランダム生成 • デコードしてデータ空間の𝑑𝒙 1 , 𝑑𝒙 2 を計算 • 等長空間とデータ空間の内積 𝑑𝒚 1 ⋅ 𝑑𝒚 2 及び 𝑑𝒙 1 𝑇 𝐺𝑥 𝑑𝒙 2 をプロットして等長性を評価 ⇒ 異なるデータ・計量で高い相関性、等長性を示す • 潜在空間で第 j 次元のみ微小量 𝜖 、他の次元は 0 の微小変位 𝑑𝒛 j = (0, ⋯ , 𝜖, ⋯ ) を生成。 • 𝜕𝒙/𝜕𝑦𝑗 2 ≃ 2𝜎𝑗 2 𝛽 𝐷 𝑔𝜃 𝒛 + 𝑑𝒛 j , 𝑔𝜃 𝒛 /𝜖2 の左辺を各次元で評価。等長性より理論値は１。 ⇒ 異なるデータ・計量で、データ空間と等長空間との偏微分ノルムが全次元で１に近く、等長性を示すデータ：CelebA 計量：SSIM データ：MNIST 計量： Binary Cross Entropy ノルムが全次元でほぼ1を示す → 等長性を示す潜在変数の次元潜在変数の次元データ：CelebA 計量：SSIM データ：MNIST 計量： Binary Cross Entropy 等長空間の内積データ空間の内積データ空間の内積両空間の内積に高い相関性 → 等長性を示す 64

Copyright 2021 FUJITSU LIMITED 可変量子化による深層画像圧縮のレート制御 ◼ 従来の深層画像圧縮の課題 ◼ ターゲットのレート毎にβを変えてL=D+βRで学習。 ⇒
レート毎に異なる複数のモデルが必要に。 ◼ βに依存するモデルのウィナーフィルタ的挙動が原因と推定 ◼ 提案手法：等長性の高い空間での可変量子化 ◼ ො 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 , 𝐷2 𝑥, ෬ 𝑥 = log ||𝑥 − ෬ 𝑥||2 2 として 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 で学習 ⇒ 計量空間に対して等長性の高い潜在空間を獲得 ◼ 上記モデルの潜在空間で、任意の量子化器 𝑇 を用いてオフセット付量子化 𝑞 = sign 𝑧 floor 𝑍 /𝑇 + offset , Ƹ 𝑧 = 𝑞𝑇 ⇒ ウィナーフィルタ的な効果を補う (H.264 JMと同様) ◼ 結果：単一モデル＋オフセット付の可変量子化で、従来のレート毎の複数モデルと同等性能を達成 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 計量空間と等長性の高い潜在空間獲得 0 T 2T 4T 3T -T -2T -4T -3T 0 １ 2 4 3 -1 -2 -4 -3 単一モデル＋任意量子化器でオフセット付の線形量子化 (H.264のJM相当) SSIM及びPSNRにおいて従来のレート毎モデルと同等の性能を達成 Offset=0.45で従来技術とほぼ同等 Jing Zhou, Akira Nakagawa, Keizo Kato, Sihan Wen, Kimihiko Kazui, Zhiming Tan, “Variable Rate Image Compression Method with Dead-zone Quantizer,” https://openaccess.thecvf.com/content_CVPRW_2020/papers/w7/Zhou_Variable_Rate_Image_Compression_Method_With_Dead-Zone_Quantizer_CVPRW_2020_paper.pdf 65

確率密度の推定（VAE ／ RaDOGAGA共通) ◼ 計量テンソル𝐺𝑥 の計量ベクトル空間での入力データの確率密度を𝑝𝐺𝑥 (𝑥)、等長空間の確率密度を𝑝(𝑦)、潜在空間の確率密度を𝑝(𝑧)とすると、これまでの議論
より、次の関係がある。 ◼ 入力空間座標の確率密度を𝑝(𝑥)とすると、計量ベクトル空間の確率密度𝑃𝐺𝑥 (𝑥)とは次の関係がある。 ◼ よって、潜在空間の確率分布から、入力空間座標の確率分布𝑝 𝑥 は次の式で導出可能となる。 Copyright 2021 FUJITSU LIMITED 入力空間 𝑝 𝑥 計量ベクトル空間 𝑝𝐺𝑥 𝑥 潜在空間 𝑝 𝑧 𝒑𝑮𝒙 𝒙 = 𝒑 𝒚 = 𝒑 𝒛 ෑ 𝒋 (𝝈𝒋 / 𝜷/𝟐) 𝒑 𝒙 = 𝒑𝑮𝒙 𝒙 𝐝𝐞𝐭 𝑮𝒙 𝑝𝐺𝑥 𝑥 = 𝑝 𝑦 = 𝑝 𝑧 det 𝜕𝑧 𝜕𝑦 = 𝑝 𝑧 ෑ 𝑗 (𝜎𝑗 / 𝛽/2) 𝑝 𝑥 = 𝑝𝐺𝑥 𝑥 det 𝐺𝑥 𝑝 𝑥 = 𝑝 𝑧 det 𝐺𝑥 ς𝑗 (𝜎𝑗 / 𝛽/2) 66

Copyright 2021 FUJITSU LIMITED RaDOGAGAによる確率分布の推定 Input source 従来技術 (DAGMM) P(x)
(High) (Low) 実験条件 •従来技術 DAGMMと提案技術RaDOGAGAで上記3次元データを学習。 •データの確率密度(横軸)とその推定値(縦軸)をプロット ◼ RaDOGAGAでデータの確率密度推定を評価、理論の正しさを検証 RaDOGAGA （Ours）確率推定ができていない D2は二乗誤差高い予測精度だが若干のズレ ⇒ 等長性が若干失われている高い予測精度 ⇒ 等長性の向上 D2は二乗誤差の対数(より急峻) 評価結果 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 を最小化 DAGMM: Zong et.al, “Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection,” https://sites.cs.ucsb.edu/~bzong/doc/iclr18-dagmm.pdf 67

Copyright 2021 FUJITSU LIMITED VAEによる確率密度の推定実験条件 • 上記分布をもつ3次元データ s1, s2,
s3 から多次元データ xを作成。 • xの生成確率p(x) は以下で与えられる p(x) = p(s1) p(s2) p(s3) • 非線形の計量 Gx を用いてVAEで学習 • 各データの実際の確率と推定確率をプロット結果 ◼ VAEでデータの確率密度推定の評価を行い、理論の正しさを検証等長空間での推定確率データ確率と推定確率の相関はとても高い (相関係数 R=0.910) 𝑝 𝑧 det 𝐺𝑥 ς𝑗 (𝜎𝑗 / 𝛽/2) 事前分布データ確率と事前分布 (Prior)の確率の相関は低い (相関係数 R=0.434) 𝑝 𝑧 p(x) p(x) 68

教師無し異常検知 ◼ RaDOGAGA／VAEの確率密度推定を教師無しの異常検知タスクに適用 ⇒ F1で従来のSOTAを超える性能を達成。 Copyright 2021 FUJITSU LIMITED 異常検知のベンチマーク用データセット
• KDDCup/KDDCup-rev 通信アクセスデータ(データマイニング分野の国際学会Knowledge Discovery and Data Mining (KDD) が配布) • Thyroid/Arrythmia 甲状腺数値データ、不整脈データ(カリフォルニア大学アーヴァイン校が配布) 69

潜在変数の重要度推定(VAE) 推定分散値で全次元をソートすると、画像変化の大きさ順になる。 ⇒ 推定分散値は各次元の重要度（PCAの分散相当)を表す。等長な潜在変数の各次元の重要度の評価 Copyright 2021 FUJITSU LIMITED ◼
等長な潜在変数の各次元の分散は、 PCA同様に次元の重要度を示す。 ◼ VAEでは、各次元の事後分布の分散𝜎𝑗 2を用いて、その次元の等長潜在変数 𝑦𝑗 の分散は、次式で推定可能。 𝑉𝑎𝑟 𝑦𝑗 ≃ 𝛽 2 𝐸𝑝(𝒙) [𝜎𝑗 𝒙 −2 ] ◼ CelebA学習後、推定分散値で各次元をソート。各次元の潜在変数を一定割合ずつ変化させ、デコードした画像の変化度合は推定分散値と高い相関を示す。潜在変数の分散 (各次元の重要度) 70

Copyright 2021 FUJITSU LIMITED VAE ／ RaDOGAGAの選択基準の考察入力データx の分布p (x)
VAE RaDOGAGA Priorにマッピング等長空間にマッピング 𝝏𝒚𝒋 𝝏𝒛𝒋 = Τ 𝜷 𝟐 𝝈𝒋 𝒙 が橋渡し Pros：Priorとσから簡単に入力データの確率密度を推定できるので、モデル設計が簡単 Cons：潜在空間全体の分布を評価・分析するためには、微分dyj /dzj を繋ぎ合わせて等長空間を求める必要があり、データの分布によっては分析が困難（特に多峰分布）。 Pros：潜在空間が等長なので、潜在空間の分布から入力データ特徴を直接的に分析可能 Cons：潜在空間のパラメトリックな確率分布の選択など、モデル設計が若干難しい入力と同確率目的に応じて使い分けが可能。両者のハイブリッドも有効。 z ～ N(0, I) p (x) ≒ pθ (y) 71

符号化の階層モデルとAI ◼ 1980年代に、原島先生により、『知的画像符号化』や『知的通信』が提唱された。 ◼ 提唱された符号化の階層モデルとAI技術の関係 1. 波形符号化：信号波形情報を伝送 ⇒ 深層画像圧縮 2.
分析合成符号化：画像のパラメータを伝送 ⇒ GAN、VAEなどの生成モデル 3. 認識符号化：画像の要素を認識・伝送 ⇒ Faster RCNN／DETR等の物体検出や、 SimCLR／BYOL等の教師無し表現学習 4. 知的符号化：画像の概念を伝送 ⇒ CLIP／VilBERTなどのマルチモーダル学習 Copyright 2021 FUJITSU LIMITED 引用元：原島博、『知的画像符号化と知的通信』、テレビジョン学会誌 1988 年 42 巻 6 号 p. 519-525 https://www.jstage.jst.go.jp/article/itej1978/42/6/42_6_519/_pdf/-char/ja 最先端の深層学習技術と深い関係性 73

画像の教師なし表現学習とその課題 Copyright 2021 FUJITSU LIMITED Chen et.al., “Exploring Simple Siamese
Representation Learning,” https://arxiv.org/pdf/2011.10566.pdf より引用 Jing et.al., “Understanding Dimensional Collapse in Contrastive Self- supervised Learning,” https://arxiv.org/pdf/2110.09348.pdf より引用 SimCLR、BYOL、SiｍSiamなど、大量の画像から、データ自身が持っている表現を教師無しで学習する手法の提案 • 獲得した潜在空間の定量的な解釈が困難。 • Dimensional Collapseという、潜在空間自体が縮んでしまう現象が問題に。課題：レート歪最適化を取り入れればこれらの課題が解決できるのでは？ 74

◼ 最新の生成的AIモデルにレート歪最適化のエッセンスを取り入れることにより、データからパラメータ・構造・記号・意味などが自動的に表出できるかも。 ⇒ 生成的AIの究極形としての知的通信の実現 ◼ 実際には、各データに適した学習モデルや計量の選択、そして、効率的かつ安定な大規模学習技術など課題は山積。解決に向け、ぜひ挑戦したい。情報通信理論を生かしたAI研究の方向性の私案 Copyright
2021 FUJITSU LIMITED Image Language Graph Encoder Decoder Image Language Graph 最新の生成的AIに情報通信理論をプラス現実世界データ再構成された現実世界データレート歪の最適化により定量的な潜在変数が自動表出意味・概念構造・記号パラメータ 75

Thank you Copyright 2021 FUJITSU LIMITED 誤り等のご指摘やご質問は下記アドレスにお願いします。 deeptwin [at]
ml.labs.fujitsu.com 最終更新：2022年4月11日

情報通信理論から導くVAE等の生成的AIモデルの定量的な理論解析 (PCSJ/IMPS 202...

情報通信理論から導くVAE等の生成的AIモデルの定量的な理論解析 (PCSJ/IMPS 2022講演資料)

Other Decks in Technology

Featured

Transcript