GDG Tokyo 生成 AI 論文をわいわい読む会

Slide 1

Slide 1 text

GDG Tokyo 生成 AI 論文をわいわい読む会紹介論文 A Van Den Oord,et. al., “Neural discrete representation learning”, NeurIPS, 2017 中井悦司　AI Solutions Architect, Google Cloud この資料はコミュニティイベント「GDG Tokyo 生成 AI 論文をわいわい読む会」での発表スライドです

Slide 2

Slide 2 text

紹介の趣旨 2 ● 2018 年の比較的古い論文で、日本語での解説ブログも散見されます。 ● それでも原論文にあたることで、「筆者が何を考えてこの論文を書いたのか」など新しい発見があるはず。--- ということを伝えたくて選びました。

Slide 3

Slide 3 text

なにはともあれ・・・ 3 ● まずは、VAE (Variational Auto Encoder）の知識が必要そう・・・

Slide 4

Slide 4 text

事前準備（ VAE の復習）

Slide 5

Slide 5 text

オートエンコーダ ● エンコーダとデコーダを接続して、同じデータを再現する様に学習したモデルがオートエンコーダです。 ● エンコーダとデコーダの接続部分の低次元空間を「潜在空間」、もしくは、「埋め込み空間」と言います。 ● 潜在空間には、画像の「種類」を表す抽象化された情報が埋め込まれていると考えられます。 ● エンコーダ／デコーダは、画像データの「不可逆圧縮アルゴリズム」と捉えることもできます。 5 潜在空間

Slide 6

Slide 6 text

オートエンコーダの学習例 ● 32 × 32 ピクセルの画像を 2 次元の潜在空間に埋め込むオートエンコーダを定義します。 ● つまり、1 つの画像は、2 次元平面の 1 つの点に対応づけられます。 ● エンコーダ部分は畳み込みフィルター、デコーダ部分は転置畳み込みフィルターを使用します。 6 32 × 32 × 1 16 × 16 × 32 4 × 4 × 128 8 × 8 × 64 2 次元の潜在空間

Slide 7

Slide 7 text

オートエンコーダの学習例 ● Fashion MNIST の画像データで学習した結果、潜在空間には、10 種類の画像に対応したクラスターができていることが分かります。 ● デコーダを使用すると、潜在空間の点から新しい画像を生成することができます。 7 学習データに対するエンコーダの出力値

Slide 8

Slide 8 text

オートエンコーダの課題点 8 この隙間の部分を学習するデータが存在しない潜在空間学習データエンコーダ ● 学習データに対応した潜在空間の点は、まばらに存在します。 ● 隙間の部分からは、まわりの学習データの「中間状態」の画像が生成されますが、多くの場合、人間から見て「自然な画像」にはなりません。 ● 現実世界の画像は連続ではなく、「飛び飛び」に存在するという事実をモデルに取り込む必要があります。 ● この問題の解決を目指して、ある工夫を加えたモデルが変分オートエンコーダ（VAE）です。

Slide 9

Slide 9 text

変分オートエンコーダ（VAE）の特徴 ● 潜在空間上で、「自然な画像」が生成される点は、標準正規分布に従って分布します。 ● 言い換えると、デコーダへの入力値を標準正規分布で選ぶと、高確率で自然な画像が生成できます。 ● 理想的には、標準正規分布でサンプリングした値の集合から画像を生成すると、学習データと同じ画像セットが再現されます。 9

Slide 10

Slide 10 text

事前分布 p(z) と事後分布 q(z|x) について ● 論文内で「事前分布 prior p(z)」「事後分布 posterior q(z|x)」という言葉が登場します。 ● 学習データをエンコーダで潜在空間にマッピングした分布を事後分布 q(z|x) と呼びます。 ● 潜在空間から事前分布 p(z) で集めた値からデコーダで画像を生成すると、（理想的には）学習データの集合が再現されます。 ● 理想的な学習ができた場合、事後分布と事前分布は一致します。 ● VAE の場合は、標準正規分布が事後分布／事前分布になります。 10 学習データ学習データ事前分布デコーダエンコーダ事後分布

Slide 11

Slide 11 text

論文紹介

Slide 12

Slide 12 text

12 VQ-VAE の本質的なアイデア VAE の事前・事後分布は正規分布 VQ-VAE の事前・事後分布は、埋め込みテーブルをインデックスするカテゴリカル分布？？？

Slide 13

Slide 13 text

13 離散的な潜在変数とは・・・？数学記号の使い方がわりと適当（記号の正確な説明がない）のでツラい・・・

Slide 14

Slide 14 text

14 離散的な潜在変数とは・・・？この絵とあわせて読むとなんとか理解できる！

Slide 15

Slide 15 text

離散的な潜在変数とは！ 15 ● VQ-VAE では、潜在空間を「画像の各部位の役割を示すベクトル値の集合」に置き換えることで、画像の特徴をダイレクトに表現します。 1 つの画像に対応した「潜在空間の値」のイメージ・・・コードブック空空空海海海雲雲海海船船海島島海海海島島 ○ 「各部位の役割を示すベクトル値」は一定数のベクトル値を事前に用意します。これを「コードブック」と呼びます。コードブックの個々のベクトル値は、直感的には、「空」「雲」「海」などの意味を表すと考えます。 ○ コードブックの値のみを組み合わせることで、「自然な画像に対応する潜在空間の値」が構成しやすくなります。空海雲島海海島島島コードベクトルが個別の意味を持つ点は論文の後半の例で明らかになります。

Slide 16

Slide 16 text

VQ-VAE の学習処理 16 ● エンコーダは、元の画像に対して「画像サイズを縮小して（縦横のピクセル数を減らして）各ピクセル値をベクトル値に置き換える」という処理を行います。さらに、各ベクトル値をコードブックに載っているベクトル値（値が一番近いもの）に置き換えてからデコーダに入力します。

Slide 17

Slide 17 text

VQ-VAE による学習例 17 ● 入力画像：128 × 128 ピクセルのカラー画像 ○ 画像は 256 階調（RGB の各レイヤーのピクセル値は 256 = 28 通りの値を取る）なので、1 つの画像の情報量は 128 × 128 × 3 × 8 ビット ● コードブック：512 個の 1 次元ベクトル（つまり、512 = 29 種類の離散値） ● 潜在空間のサイズ：32 × 32 ピクセル ○ 潜在空間の情報量は 32 × 32 × 9 ビットなので、画像の情報量は約 1/40 に削減 https://arxiv.org/abs/1711.00937 デコーダからの出力エンコーダへの入力

Slide 18

Slide 18 text

音声データへの適用 18 ● コードブックに登録された個々の「コードベクトル」は何を表しているのでしょうか？・・・コードブック？？？？？？？？・・・コードベクトルの時系列エンコーダデコーダ出力波形は入力波形と大きく異なる・・・

Slide 19

Slide 19 text

潜在空間に抽出される情報声の抑揚や声質は異なるが話している内容（文章）は変わっていない！潜在空間には「話している内容（文章）」の情報が抽出されている

Slide 20

Slide 20 text

コードベクトルは音素に対応？ 20 ● コードブックに登録された個々の「コードベクトル」は何を表しているのでしょうか？・・・コードブック？？？？？？？？・・・コードベクトルの時系列エンコーダデコーダコードベクトルは音素（「あ・い・う」などの音の最小単位）を表しているのでは？！

Slide 21

Slide 21 text

コードベクトルは音素に対応？ 128個のコードベクトルを41個の音素に対応させると49.3%の一致率 ● 「音声」の概念を明示的に学習させていない（モデルから見れば入力データは意味のない時系列データ）にもかかわらず、このモデルは音声の最小構成要素である「音素」を発見することに成功した！

Slide 22

Slide 22 text

Thank you.