Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GDG Tokyo 生成 AI 論文をわいわい読む会

GDG Tokyo 生成 AI 論文をわいわい読む会

GDG Tokyo 生成 AI 論文をわいわい読む会
紹介論文
A Van Den Oord,et. al., “Neural discrete representation learning”, NeurIPS, 2017

Etsuji Nakai

January 24, 2025
Tweet

More Decks by Etsuji Nakai

Other Decks in Technology

Transcript

  1. GDG Tokyo 生成 AI 論文をわいわい読む会 紹介論文 A Van Den Oord,et.

    al., “Neural discrete representation learning”, NeurIPS, 2017 中井 悦司 AI Solutions Architect, Google Cloud この資料はコミュニティイベント「GDG Tokyo 生成 AI 論文をわいわい読む会」での発表スライドです
  2. オートエンコーダ • エンコーダとデコーダを接続して、 同じデータを再現する様に学習した モデルがオートエンコーダです。 • エンコーダとデコーダの接続部分の 低次元空間を「潜在空間」、もしく は、「埋め込み空間」と言います。 •

    潜在空間には、画像の「種類」を表 す抽象化された情報が埋め込まれて いると考えられます。 • エンコーダ/デコーダは、画像デー タの「不可逆圧縮アルゴリズム」と 捉えることもできます。 5 潜在空間
  3. オートエンコーダの学習例 • 32 × 32 ピクセルの画像を 2 次元の潜 在空間に埋め込むオートエンコーダを 定義します。

    • つまり、1 つの画像は、2 次元平面の 1 つの点に対応づけられます。 • エンコーダ部分は畳み込みフィル ター、デコーダ部分は転置畳み込み フィルターを使用します。 6 32 × 32 × 1 16 × 16 × 32 4 × 4 × 128 8 × 8 × 64 2 次元の 潜在空間
  4. オートエンコーダの課題点 8 この隙間の部分を学習する データが存在しない 潜在空間 学習データ エンコーダ • 学習データに対応した潜在空間の点は、まばらに存在 します。

    • 隙間の部分からは、まわりの学習データの「中間状 態」の画像が生成されますが、多くの場合、人間から 見て「自然な画像」にはなりません。 • 現実世界の画像は連続ではなく、「飛び飛び」に存在 するという事実をモデルに取り込む必要があります。 • この問題の解決を目指して、ある工夫を加えたモデル が変分オートエンコーダ(VAE)です。
  5. 事前分布 p(z) と事後分布 q(z|x) について • 論文内で「事前分布 prior p(z)」「事後分布 posterior

    q(z|x)」という言葉が登場します。 • 学習データをエンコーダで潜在空間にマッピン グした分布を事後分布 q(z|x) と呼びます。 • 潜在空間から事前分布 p(z) で集めた値からデ コーダで画像を生成すると、(理想的には)学 習データの集合が再現されます。 • 理想的な学習ができた場合、事後分布と事前分 布は一致します。 • VAE の場合は、標準正規分布が事後分布/事前 分布になります。 10 学習 データ 学習 データ 事前 分布 デコーダ エンコーダ 事後 分布
  6. 離散的な潜在変数とは! 15 • VQ-VAE では、潜在空間を「画像の各部位の役割を示すベクトル値の集合」に置き換えるこ とで、画像の特徴をダイレクトに表現します。 1 つの画像に対応した 「潜在空間の値」のイメージ ・・・

    コードブック 空 空 空 海 海 海 雲 雲 海 海 船 船 海 島 島 海 海 海 島 島 ◦ 「各部位の役割を示すベクトル値」は一定数の ベクトル値を事前に用意します。これを「コー ドブック」と呼びます。コードブックの個々の ベクトル値は、直感的には、「空」「雲」 「海」などの意味を表すと考えます。 ◦ コードブックの値のみを組み合わせることで、 「自然な画像に対応する潜在空間の値」が構成 しやすくなります。 空 海 雲 島 海 海 島 島 島 コードベクトルが個別の意味を 持つ点は論文の後半の例で 明らかになります。
  7. VQ-VAE による学習例 17 • 入力画像:128 × 128 ピクセルのカラー画像 ◦ 画像は

    256 階調(RGB の各レイヤーのピクセル値は 256 = 28 通りの値を取る)なので、1 つの画 像の情報量は 128 × 128 × 3 × 8 ビット • コードブック:512 個の 1 次元ベクトル(つまり、512 = 29 種類の離散値) • 潜在空間のサイズ:32 × 32 ピクセル ◦ 潜在空間の情報量は 32 × 32 × 9 ビットなので、画像の情報量は約 1/40 に削減 https://arxiv.org/abs/1711.00937 デコーダからの出力 エンコーダへの入力
  8. 音声データへの適用 18 • コードブックに登録された個々の「コードベクトル」は何を表しているのでしょ うか? ・・・ コードブック ? ? ?

    ? ? ? ? ? ・・・ コードベクトルの時系列 エンコーダ デコーダ 出力波形は入力波形と 大きく異なる・・・
  9. コードベクトルは音素に対応? 20 • コードブックに登録された個々の「コードベクトル」は何を表しているのでしょ うか? ・・・ コードブック ? ? ?

    ? ? ? ? ? ・・・ コードベクトルの時系列 エンコーダ デコーダ コードベクトルは音素 (「あ・い・う」などの 音の最小単位)を表して いるのでは?!