生成 AI の基礎〜サンプル実装で学ぶ基本原理

Copyright (C) 2024 National Institute of Informatics, All rights reserved.
生成モデルの基礎〜サンプル実装で学ぶ基本原理中井悦司 / Etsuji Nakai 2025/01/10 ver2.3

目次第１部：前提知識 ◦ Keras による分類モデルの実装 ◦ 多層ニューラルネットワーク ◦ 畳み込みフィルターと転置畳み込みフィルター
第２部：画像生成モデルの基礎 ◦ オートエンコーダと潜在空間 ◦ 変分オートエンコーダ ◦ マルチタスク学習 ◦ 条件付変分オートエンコーダ第３部：自然言語モデルの基礎 ◦ LSTM によるテキスト分類 ◦ LSTM によるテキスト生成第４部：より高性能な生成モデル ◦ Transformer モデル ◦ DCGAN ◦ Diﬀusion モデル ◦ VQ-VAE ◦ マルチモーダル生成モデル

参考書籍 3

サンプルコードの入手について • 新開いノートブック上で次のコマンドを実行ると、本講義のサンプルノートブックダウンロードでま。
◦ 次のコマンドを実行ると、ユーザー認証行われて、Colab の実行環境に該当ユーザーの Google Drive マウントれま。 ◦ 次のコマンドを実行ると、サンプルノートブック Google Drive に保存れま。 from google.colab import drive drive.mount('/content/gdrive') %%bash cd '/content/gdrive/My Drive/Colab Notebooks' git clone https://github.com/enakai00/colab_GenAI_lecture 4

GPU ランタイムを使用する際の注意 • 各ノートブックの先頭部分に、使用るランタイムの種類（GPU を使用るどう）記載
れていま。 • Google Colaboratory を無償枠で使用ている場合、GPU ランタイムの使用時間には制限あり、長時間使用を続ると、一定期間（半日〜１日程度）GPU ランタイム使用でななるとありま。 ◦ GPU ランタイムを使用るノートブックは、実行終わっらに、画面上部のメニューら「ランタイム」→「ランタイムを接続解除て削除」を選択て、ランタイムを停止てとを勧めま。 5

第１部　前提知識

Keras による分類モデルの実装

分類モデルの仕組み • 「入力データと正解ラベル」の組を教師データとて学習ま。 • 各ラベルの「確率」を予測値とて出力ま
。 8 ラベル確率

線形多項分類器 • 各ラベルに対る「可能性の高」を 1 次関数で計算ま。 ◦
例えば、28 × 28 (= 784) ピクセルの画像データであれば、1 つの画像は 784 個の実数値らなるデータと見なるので、784 変数の 1 次関数を使用ま。 ◦ ラベルとに異なる 1 次関数を用意て、れれのラベルに対る計算値を得ま。 9 ・・・ MNIST の画像データを 10 種類に分類る場合れれの画像に対て 10 個の出力値得られる

線形多項分類器 • 1 次関数の出力値をソフトマックス関数で正い意味の「確率値」に変換ま。 10 1 変数の場合の例

分類モデルの誤差関数 • n 番目のデータ　　の正解ラベルを次の One-hot 表現で与えま。（正解を k とて、k
番目の要素　　のみ 1 になっている。） • 今のモデルで正解 k に対る確率は　　　なので、れ大なるようにモデルを学習ま。 ※ One-hot 表現の正解ラベルを用いると　　　　は次式で表とでま。 11

分類モデルの誤差関数 • の誤差関数を「カテゴリカル・クロスエントロピー」と呼びま。 12 ※ 対数関数の性質 • 実際には、数値計算の丸め誤差を避
るめに対数を取って、らに全データについての和を取っものの符号違いを誤差関数とて、れを最小化ま。

Keras による線形多項分類器の実装例 • 「784 個の値を受取る 1 次関数」を10 個用意後に、れらにソフトマックス関数を適
用るとで、前述の分類モデル構成でま。 13 model = models.Sequential(name='linear_model') model.add(layers.Input(shape=(784,))) model.add(layers.Dense(10, activation='softmax', name='softmax'))

Keras による線形多項分類器の実装例 • 最適化アルゴリズム、誤差関数、性能指標を指定後に、学習処理を実施ま。 • トレーニングデータとは別の「テストデータ」を指定ると、性能指標の計算は、テスト
データに対ても行わま。 ◦ トレーニングデータに対る性能指標を見ていると、トレーニングデータには高い正解率を示にもわら、の他のデータには正解率あらない「過学習 (オーバーフィッティング)」の発生を見落と危険性あるので注意必要で。 14 model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['acc']) history = model.fit(train_images, train_labels, validation_data=(test_images, test_labels), batch_size=128, epochs=10) テストデータの指定

Keras による線形多項分類器の実装例 15 Epoch 1/10 469/469 [==============================] - 5s 8ms/step
- loss: 0.6776 - acc: 0.8321 - val_loss: 0.3868 - val_acc: 0.9012 Epoch 2/10 469/469 [==============================] - 3s 5ms/step - loss: 0.3638 - acc: 0.9018 - val_loss: 0.3226 - val_acc: 0.9120 Epoch 3/10 469/469 [==============================] - 2s 5ms/step - loss: 0.3207 - acc: 0.9117 - val_loss: 0.2985 - val_acc: 0.9168 Epoch 4/10 469/469 [==============================] - 3s 6ms/step - loss: 0.3002 - acc: 0.9169 - val_loss: 0.2868 - val_acc: 0.9210 Epoch 5/10 469/469 [==============================] - 2s 4ms/step - loss: 0.2882 - acc: 0.9204 - val_loss: 0.2783 - val_acc: 0.9243 Epoch 6/10 469/469 [==============================] - 2s 3ms/step - loss: 0.2799 - acc: 0.9222 - val_loss: 0.2748 - val_acc: 0.9238 Epoch 7/10 469/469 [==============================] - 2s 3ms/step - loss: 0.2737 - acc: 0.9237 - val_loss: 0.2710 - val_acc: 0.9240 Epoch 8/10 469/469 [==============================] - 1s 2ms/step - loss: 0.2693 - acc: 0.9250 - val_loss: 0.2692 - val_acc: 0.9257 Epoch 9/10 469/469 [==============================] - 1s 3ms/step - loss: 0.2652 - acc: 0.9263 - val_loss: 0.2674 - val_acc: 0.9244 Epoch 10/10 469/469 [==============================] - 1s 2ms/step - loss: 0.2626 - acc: 0.9266 - val_loss: 0.2680 - val_acc: 0.9250 テストデータに対る正解率 92.5%

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part01/1. Linear model MNIST
classiﬁcation.ipynb ▪ 線形多項分類器を Keras で実装て、MNIST データセットの分類を行いま。 16

多層ニューラルネットワーク

多層ニューラルネットワーク • 入力データをのまま線形多項分類器に入力るのではな、事前に多層ニューラルネットワークを介て、分類に有用な情報を抽出ま。
• 1 つのノードは、「1 次関数」+「活性化関数」を表ま。 ◦ 活性化関数には、ReLU よ用いられま。 18 ・・・・・・線形多項分類器・・・・・・全結合層

Keras による多層ニューラルネットワークの実装例 • レイヤーを順に追加る形で定義ま。 • モデルの出力は（線形多項分類器と同様の）確率値なので学習処理は変わりまん。
19 model = models.Sequential(name='multilayer_model') model.add(layers.Input(shape=(784,))) model.add(layers.Dense(512, activation='relu', name='feedforward1')) model.add(layers.Dense(256, activation='relu', name='feedforward2')) model.add(layers.Dense(128, activation='relu', name='feedforward3')) model.add(layers.Dense(10, activation='softmax', name='softmax')) model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['acc']) history = model.fit(train_images, train_labels, validation_data=(test_images, test_labels), batch_size=128, epochs=10)

Keras による多層ニューラルネットワークの実装例 20 Epoch 1/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 11s 19ms/step -
acc: 0.8669 - loss: 0.4483 - val_acc: 0.9683 - val_loss: 0.1004 Epoch 2/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 9s 17ms/step - acc: 0.9723 - loss: 0.0942 - val_acc: 0.9761 - val_loss: 0.0804 Epoch 3/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 9s 19ms/step - acc: 0.9825 - loss: 0.0562 - val_acc: 0.9778 - val_loss: 0.0823 Epoch 4/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 8s 16ms/step - acc: 0.9868 - loss: 0.0419 - val_acc: 0.9783 - val_loss: 0.0823 Epoch 5/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 8s 16ms/step - acc: 0.9895 - loss: 0.0339 - val_acc: 0.9768 - val_loss: 0.0840 Epoch 6/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 11s 18ms/step - acc: 0.9919 - loss: 0.0249 - val_acc: 0.9774 - val_loss: 0.0896 Epoch 7/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 9s 16ms/step - acc: 0.9930 - loss: 0.0221 - val_acc: 0.9732 - val_loss: 0.1149 Epoch 8/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 8s 17ms/step - acc: 0.9929 - loss: 0.0215 - val_acc: 0.9788 - val_loss: 0.0936 Epoch 9/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 9s 18ms/step - acc: 0.9937 - loss: 0.0187 - val_acc: 0.9753 - val_loss: 0.1155 Epoch 10/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 7s 15ms/step - acc: 0.9954 - loss: 0.0145 - val_acc: 0.9831 - val_loss: 0.0842 テストデータに対る正解率 98.3% 過学習発生

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part01/2. Multilayer model MNIST
classiﬁcation.ipynb ▪ 多層ニューラルネットワークによる多項分類器を Keras で実装て、MNIST データセットの分類を行いま。 ▪ モデルの構成（レイヤー数、レイヤー内のノード数）を変更て、結果どのように変わる観察てい。 21 model = models.Sequential(name='multilayer_model') model.add(layers.Input(shape=(784,))) model.add(layers.Dense(512, activation='relu', name='feedforward1')) model.add(layers.Dense(256, activation='relu', name='feedforward2')) model.add(layers.Dense(128, activation='relu', name='feedforward3')) model.add(layers.Dense(10, activation='softmax', name='softmax'))

畳み込みフィルターと転置畳み込みフィルター

畳み込みフィルターの仕組み • あるピクセルの値を周りのピクセルの値とフィルターの重みで混合わるとで、画像をぼ、縦のエッジをとりなどの画像処理可能で
。 23 縦のエッジを取り出フィルターの例

畳み込みフィルターによる特徴量の抽出 • 右図の画像データに、縦／横のエッジを取り出フィルターを適用結果は？ 24 縦／横のエッジを取り出フィルター

畳み込みフィルターによる特徴量の抽出 • 実際の畳み込みフィルターでは、フィルター適用後に「定数を加えて、活性化関数を適用る」という追加処理を行いま。 • 下図は、フィルター適用後に定数 -0.2 を加え
て、ReLU を適用ていま。（フィルター適用後にピクセル値 0.2 以下の部分は強制的に 0 に変換れる） 25 定数 b (< 0) を加えて ReLU を適用結果

ストライドの指定による画像の縮小 • フィルターを 1 ピクセルとに計算るのではな、一定数のピクセルをスキップなら
適用るとで画像サイズ縮小れま。 • 下図は、画像サイズを半分に縮小例で。 ◦ 「分類に必要な特徴を取り出」には、多の場合、画像を縮小方効果的で。 26

畳み込みフィルターの動的な学習 • 一般の画像データの場合、どのようなフィルター適切なのは、には分らないので、フィルターも学習対象のパラメーターとて、適切なフィルターのものを学習
ま。 • 下記のモデルでは、16 種類のフィルターを適用後、全結合層を介て、線形多項分類器に入力ていま。 27 model = models.Sequential(name='CNN_model') model.add(layers.Input(shape=(784,))) model.add(layers.Reshape((28, 28, 1), name='reshape')) model.add(layers.Conv2D(16, (5, 5), padding='same', strides=(2, 2), use_bias=True, activation='relu', name='conv_filter')) model.add(layers.Flatten(name='flatten')) model.add(layers.Dense(512, activation='relu', name='hidden')) model.add(layers.Dense(10, activation='softmax', name='softmax'))

畳み込みフィルターの動的な学習 28 Epoch 1/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 5s 6ms/step - acc:
0.8820 - loss: 0.4215 - val_acc: 0.9752 - val_loss: 0.0788 Epoch 2/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 2ms/step - acc: 0.9771 - loss: 0.0754 - val_acc: 0.9793 - val_loss: 0.0594 Epoch 3/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 2s 3ms/step - acc: 0.9856 - loss: 0.0457 - val_acc: 0.9828 - val_loss: 0.0492 Epoch 4/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 2s 3ms/step - acc: 0.9912 - loss: 0.0289 - val_acc: 0.9834 - val_loss: 0.0547 Epoch 5/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 2s 3ms/step - acc: 0.9942 - loss: 0.0193 - val_acc: 0.9847 - val_loss: 0.0540 Epoch 6/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 3ms/step - acc: 0.9962 - loss: 0.0133 - val_acc: 0.9863 - val_loss: 0.0496 Epoch 7/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 3ms/step - acc: 0.9976 - loss: 0.0092 - val_acc: 0.9830 - val_loss: 0.0671 Epoch 8/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 3ms/step - acc: 0.9968 - loss: 0.0098 - val_acc: 0.9837 - val_loss: 0.0620 Epoch 9/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 3ms/step - acc: 0.9969 - loss: 0.0089 - val_acc: 0.9841 - val_loss: 0.0724 Epoch 10/10 469/469 ━━━━━━━━━━━━━━━━━━━━ 1s 3ms/step - acc: 0.9972 - loss: 0.0086 - val_acc: 0.9870 - val_loss: 0.0498 テストデータに対る正解率 98.7% 学習後のフィルターの様子

複数レイヤーに対する畳み込みフィルター適用の仕組み • 1 つのフィルターは、各レイヤーに適用るサブフィルターを内部的に保持てり、各サブフィルターの出力を合成
もの出力画像になりま。 • RGB 画像ファイルを入力ても、の出力は RGB 画像ファイルになるわではありまん。 29

2 層目のフィルターの適用方法 • 1 層目のフィルターら得られ n 枚の画像データを「n 個のレイヤー
らなる画像」とて、2層目のフィルターを適用ま。 • 右図は 1 層目に 32 個、2 層目に 64 個のフィルターを用意例で。2 層目の 64 個のフィルターは、れれ内部的に 32 個のサブフィルターを持ま。 30

多段フィルターによるデータ変換 • 典型的には、フィルターを加えるとに、画像サイズを縮小ると同時にレイヤー数を増やていま。 31 畳み込みフィルター
畳み込みフィルター畳み込みフィルター畳み込みフィルター

転置畳み込みフィルターによる画像生成 • 畳み込みフィルターと逆向の変換（転置畳み込みフィルター）を用いて画像データを生成る事でま。 32 転置畳み込みフィルター
転置畳み込みフィルター転置畳み込みフィルター転置畳み込みフィルター

転置畳み込みフィルターの仕組み • 元画像にストライドの隙間を空てら畳み込みフィルターを適用るとで、画像サイズを拡大ま。
• 複数レイヤーの画像については、レイヤーとのサブフィルターで処理結果を合成 1 レイヤーの画像を生成ま。 33 ストライド (2, 2) で 3 × 3 ピクセルの画像を 6 × 6 ピクセルに拡大る例 https://github.com/vdumoulin/conv_arithmetic

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part01/3. Static filter example.ipynb
▪ 縦／横のエッジを取り出固定的なフィルターを適用ま。 ◦ Part01/4. Dynamic filter MNIST classification.ipynb ▪ 畳み込みニューラルネットワーク（CNN）で MNIST データセットの分類を行いま。（16 個のフィルターを持つ畳み込み層を使用ていま。） ▪ フィルター数を変更て、結果どのように変わる観察てい。 34 model = models.Sequential(name='CNN_model') model.add(layers.Input(shape=(784,))) model.add(layers.Reshape((28, 28, 1), name='reshape')) model.add(layers.Conv2D(16, (5, 5), padding='same', strides=(2, 2), use_bias=True, activation='relu', name='conv_filter')) model.add(layers.Flatten(name='flatten')) model.add(layers.Dense(512, activation='relu', name='hidden')) model.add(layers.Dense(10, activation='softmax', name='softmax')) フィルター数

第２部　画像生成モデルの基礎

オートエンコーダと潜在空間

オートエンコーダ • エンコーダとデコーダを接続て、同データを再現る様に学習モデルをオートエンコーダと言いま。 •
エンコーダとデコーダの接続部分の低次元空間を「潜在空間」、もは、「埋め込み空間」と言いま。 • 潜在空間には、画像の「種類」を表抽象化れ情報埋め込まれていると考えるとでま。 37 潜在空間

オートエンコーダの学習例 • 32 × 32 ピクセルの画像を 2 次元の潜在空間に埋め込むオートエンコーダを定義
ま。 • つまり、1 つの画像は、2 次元平面の 1 つの点に対応づられま。 • エンコーダ部分は畳み込みフィルター、デコーダ部分は転置畳み込みフィルターを使用ま。 38 32 × 32 × 1 16 × 16 × 32 4 × 4 × 128 8 × 8 × 64 2 次元の潜在空間

オートエンコーダの実装例（エンコーダ） • エンコーダは　　　の 2 つの値を出力ま。 39 encoder
= models.Sequential(name='encoder') encoder.add(layers.Input(shape=(32*32,), name='encoder_input')) encoder.add(layers.Reshape((32, 32, 1), name='reshape')) encoder.add(layers.Conv2D(32, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter1')) # (16, 16, 32) encoder.add(layers.Conv2D(64, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter2')) # (8, 8, 64) encoder.add(layers.Conv2D(128, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter3')) # (4, 4, 128) encoder.add(layers.Flatten(name='flatten')) encoder.add(layers.Dense(2, name='embedding_space')) 32 × 32 × 1 16 × 16 × 32 4 × 4 × 128 8 × 8 × 64 潜在空間

オートエンコーダの実装例（デコーダ） • エンコーダ出力潜在空間の点ら画像を生成ま。 40 decoder
= models.Sequential(name='decoder') decoder.add(layers.Input(shape=(2,), name='decoder_input')) decoder.add(layers.Dense(4 * 4 * 128, name='expand')) decoder.add(layers.Reshape((4, 4, 128), name='reshape')) decoder.add(layers.Conv2DTranspose(64, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose1')) # (8, 8, 64) decoder.add(layers.Conv2DTranspose(32, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose2')) # (16, 16, 32) decoder.add(layers.Conv2DTranspose(1, (3, 3), strides=2, padding='same', activation='sigmoid', name='conv_transpose3')) # (32, 32, 1) decoder.add(layers.Flatten(name='flatten')) 潜在空間

オートエンコーダの実装例（学習用モデル） • KL ダイバージェンスの計算に必要なエンコーダの出力値と、デコーダらの出力イメージを同時に出力るモデルを定義て、のモデルに対て学習処理を行いま
。 • 学習終わっ後は、エンコーダとデコーダは個別に使用るとでま。 41 model = models.Model(inputs=encoder.inputs, outputs=decoder(encoder(encoder.inputs)), name='CNN_AutoEncoder') model.compile(optimizer='adam', loss='mse') エンコーダとデコーダを結合学習用モデルエンコーダデコーダ誤差関数正解ラベル

オートエンコーダの学習例 • Fashion MNIST の画像データで学習結果、潜在空間には、10 種類の画像に対応クラスター
でていると分りま。 • デコーダを使用ると、潜在空間の点ら新い画像を生成るとでま。 42 学習データに対るエンコーダの出力値

オートエンコーダの課題 • 潜在空間の中で、整っ画像を生成でる点偏っ分布をていま。 •
連続的に画像を変化場合、「中間状態」の画像多含まれま。 43 円周上の画像を連続的に変化例デコーダ出力る画像のサンプル

オートエンコーダを改善するアイデア • オートエンコーダを学習る際に、エンコーダによって学習データら得られ点をのままデコーダに入れるのではな、乱数で一定範囲に広て
らデコーダに入力ま。 • れにより、デコーダは、潜在空間のより広い範囲にいて、学習データに近い「整っ画像」を再現るように学習れま。 44 潜在空間デコーダは、広っ範囲の点に対て学習データを再現る様に学習れるエンコーダら得られ点を乱数で移動てらデコーダに入力るエンコーダデコーダ

演習 ◦ Part02/2. AutoEncoder Fashion MNIST.ipynb ▪ 畳み込みフィルターと転置畳み込みフィルターによるオートエンコーダのモデルを Fashion
MNIST データセットで学習ま。 45 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part02/1. AutoEncoder MNIST example.ipynb ▪ フィードフォワード・ネットワークによるオートエンコーダのモデルを MNIST データセットで学習ま。 ▪ ままな手書文字を入力て、どのような出力結果になる観察てい。

変分オートエンコーダ（VAE）

正規分布について • 平均 μ 、分散 σ2（標準偏差 σ）の正規分布に従う乱数を　　　　　　で表ま。 •
特に　　　　　　　の場合　　　　　　を「標準正規分布」と言いま。 ◦ 標準正規分布の乱数は、次の式で、正規分布　　　　　　に変換でま。 47 正規分布 2次元の正規分布

◦ エンコーダ出力る正規分布標準正規分布ら大外れない様に、誤差関数に罰則項を追加ま。 •
れらにより、潜在空間の原点の近に「整っ画像得られる点」集まるものと期待でま。変分オートエンコーダの仕組み • 2 次元の潜在空間を用いるものとて、次の手続を実行ま。 ◦ エンコーダは、入力画像に対て、正規分布の平均　　　　と各軸方向の標準偏差　　　を出力ま。 ◦ 得られ正規分布らサンプリング値をデコーダに入力ま。 ◦ デコーダの出力画像入力画像に近づようにモデルのパラメーターを更新ま。 48 潜在空間の範囲の乱数で得られ値をデコーダに入力る

変分オートエンコーダの実装例（エンコーダ） • エンコーダは　　　　　　　　　　　の 4 つの値を出力ま。 ◦ 次式で　　　　に変換
て利用ま。 49 encoder = models.Sequential(name='encoder') encoder.add(layers.Input(shape=(32*32,), name='encoder_input')) encoder.add(layers.Reshape((32, 32, 1), name='reshape')) encoder.add(layers.Conv2D(32, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter1')) # (16, 16, 32) encoder.add(layers.Conv2D(64, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter2')) # (8, 8, 64) encoder.add(layers.Conv2D(128, (3, 3), strides=2, padding='same', activation='relu', name='conv_filter3')) # (4, 4, 128) encoder.add(layers.Flatten(name='flatten')) encoder.add(layers.Dense(4, name='mean_and_log_var')) 32 × 32 × 1 16 × 16 × 32 4 × 4 × 128 8 × 8 × 64

変分オートエンコーダの実装例（サンプラー） • サンプラーは次の関係を利用て、平均　　　　、各軸方向の標準偏差　　　　の正規分布ら、デコーダに入力る値をランダムに選択ま。
50 def get_samples(x): # x: encoder output num_examples = tf.shape(x)[0] means, log_vars = x[:, 0:2], x[:, 2:4] std_samples = tf.random.normal(shape=(num_examples, 2)) samples = means + tf.exp(0.5 * log_vars) * std_samples return samples sampler = models.Sequential(name='sampler') sampler.add(layers.Input(shape=(4,), name='sampler_input')) sampler.add(layers.Lambda(get_samples, name='sampled_embedding')) デコーダに入力る値をランダムに選択潜在空間標準正規分布 × 標準正規分布の乱数を目的の正規分布に変換

変分オートエンコーダの実装例（デコーダ） • デコーダは、サンプラー選択潜在空間の点ら画像を生成ま。（オートエンコーダと同コードで。）
51 decoder = models.Sequential(name='decoder') decoder.add(layers.Input(shape=(2,), name='decoder_input')) decoder.add(layers.Dense(4 * 4 * 128, name='expand')) decoder.add(layers.Reshape((4, 4, 128), name='reshape')) decoder.add(layers.Conv2DTranspose(64, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose1')) # (8, 8, 64) decoder.add(layers.Conv2DTranspose(32, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose2')) # (16, 16, 32) decoder.add(layers.Conv2DTranspose(1, (3, 3), strides=2, padding='same', activation='sigmoid', name='conv_transpose3')) # (32, 32, 1) decoder.add(layers.Flatten(name='flatten')) 潜在空間 × サンプラー選ん値

変分オートエンコーダの実装例（誤差関数） • 「KL ダイバージェンス」は、2 つの乱数分布どの程度似ているを表計算式で。（KL
ダイバージェンスの値小いほど、2 つの分布はより似ていま。） • エンコーダの出力ら得られる正規分布　　　　　　の標準正規分布　　　　　に対る KL ダイバージェンスを誤差関数に罰則項とて加えま。 ◦ 罰則項の重み（下の例では 0.001）は、ハイパーパラメータとてチューニング必要で。 52 def custom_loss(y_true, y_pred): mean, log_var, pred = y_pred[:, 0:2], y_pred[:, 2:4], y_pred[:, 4:1028] reconstruction_loss = losses.mse(pred, y_true) kl_loss = tf.reduce_mean(tf.reduce_sum( -0.5 * (1 + log_var - tf.square(mean) - tf.exp(log_var)), axis=1)) loss = reconstruction_loss + 0.001 * kl_loss return loss KL ダイバージェンス

変分オートエンコーダの実装例 • KL ダイバージェンスの計算に必要なエンコーダの出力値と、デコーダらの出力イメージを同時に出力るモデルを定義て、のモデルに対て学習処理を行いま
。 53 model_inputs = encoder.inputs[0] model_outputs = layers.Concatenate(name='prediction_with_mean_log_var')( [encoder(model_inputs), decoder(sampler(encoder(model_inputs)))]) model = models.Model(inputs=model_inputs, outputs=model_outputs, name='Variational_AutoEncoder') model.compile(optimizer='adam', loss=custom_loss) デコーダの出力エンコーダの出力エンコーダサンプラーデコーダ誤差関数正解ラベル

変分オートエンコーダの学習結果 • 学習データに対応る値は、原点を中心とる領域に集まっていま。 • クラスターの境界比較的鮮明で、「中間状
態」の画像減っていま。 • 原点付近の点を選ぶと整っ画像得られると期待でま。 54

変分オートエンコーダの学習結果 • シグモイド関数で下記の座標変換を行うと、変換後の潜在空間では、平面全体で整っ画像得られま。 55

変分オートエンコーダの学習結果 56 デコーダ出力る画像のサンプル座標変換後のクラスター分布

ラベルデータの利用 • 変分オートエンコーダは、ラベルデータを使わに、画像の特徴ら、潜在空間に画像の種類とのクラスター生成でま。 •
ラベルデータを明示的に使用る事で、次の様な応用可能になりま。 ◦ マルチタスク学習 ⇨ ラベルとのより明確なクラスターを生成 ◦ 条件付変分オートエンコーダ ⇨ ラベル指定で特定の画像を生成 57

演習 58 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part02/3. Variational AutoEncoder
Fashion MNIST.ipynb ▪ 変分オートエンコーダのモデルを Fashion MNIST データセットで学習ま。 ▪ 誤差関数にる KL ダイバージェンスの重みを変化て、結果どのように変わる観察てい。 def custom_loss(y_true, y_pred): mean, log_var, pred = y_pred[:, 0:2], y_pred[:, 2:4], y_pred[:, 4:1028] reconstruction_loss = losses.mse(pred, y_true) kl_loss = tf.reduce_mean(tf.reduce_sum( -0.5 * (1 + log_var - tf.square(mean) - tf.exp(log_var)), axis=1)) loss = reconstruction_loss + 0.001 * kl_loss return loss KL ダイバージェンスの重み

マルチタスク学習

分類モデルとの同時学習 • 潜在空間の値らラベルを予測る分類モデルを同時に学習ま。 • 分類モデルの立場らは、潜在空間の中でラベル
とにデータ分離れていると重要なので、ラベルとのより明確なクラスター得られると期待でま。 60 潜在空間 × 分類モデルラベル：2 画像データラベル付画像データ画像を比較ラベルを比較エンコーダデコーダサンプラー

マルチタスク学習の実装例 • エンコーダ、サンプラー、デコーダは変分オートエンコーダと同ものを再利用ま。 • サンプラーの出力を受取って、ラベルを予測る線形多項分類器を追加で用意
ま。 • エンコーダの出力値、デコーダらの出力イメージ、分類の予測値を同時に出力るモデルを定義て、のモデルに対て学習処理を行いま。 61 discriminator = models.Sequential(name='discriminator') discriminator.add(layers.Dense(10, activation='softmax', input_shape=(2, ), name='softmax')) model_input = tf.keras.Input(shape=(32*32,)) model_output = layers.Concatenate(name='multi_task_output')( [encoder(model_input), # mean and log_var decoder(sampler(encoder(model_input))), # reconstructed image discriminator(sampler(encoder(model_input))) # label prediction ] )

マルチタスク学習の実装例 62 def custom_loss(y_true, y_pred): mean, log_var, image, label_pred =
y_pred[:, 0:2], y_pred[:, 2:4], y_pred[:, 4:4+32*32], y_pred[:, 4+32*32:] image_true, label_true = y_true[:, :32*32], y_true[:, 32*32:] reconstruction_loss = losses.mse(image, image_true) discriminator_loss = losses.CategoricalCrossentropy()(label_true, label_pred) kl_loss = tf.reduce_mean(tf.reduce_sum( -0.5 * (1 + log_var - tf.square(mean) - tf.exp(log_var)), axis=1)) loss = reconstruction_loss + 0.001 * kl_loss + 0.05 * discriminator_loss return loss • 学習時の正解ラベルとて使用るめ、画像データにラベル値を付与データを用意ま。各画像データの末尾に（One-hot エンコーディングの）10 要素のラベル値追加れ形になりま。 • 誤差関数は、VAE の誤差関数に、分類モデルの誤差関数（カテゴリカル・クロスエントロピー）を加えま。 labeled_images = np.hstack([train_images, train_labels])

マルチタスク学習による学習結果 • ラベルとに、より明確なクラスターでていると分りま
。 • クラスターの境界広いめ、「中間状態」の画像生成れやい可能性ありま。 63

マルチタスク学習による学習結果 64 • 下図は、潜在空間全体をシグモイド関数で変換後に均等にサンプリング結果で。

演習 65 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part02/4. VAE multitask
learning Fashion MNIST.ipynb ▪ 変分オートエンコーダに分類モデルを組み合わマルチタスク学習を適用ま。 ▪ 誤差関数にる分類モデルに対る誤差（カテゴリカル・クロスエントロピー）の重みを変化て、結果どのように変わる観察てい。 def custom_loss(y_true, y_pred): mean, log_var, image, label_pred = y_pred[:, 0:2], y_pred[:, 2:4], y_pred[:, 4:4+32*32], y_pred[:, 4+32*32:] image_true, label_true = y_true[:, :32*32], y_true[:, 32*32:] reconstruction_loss = losses.mse(image, image_true) discriminator_loss = losses.CategoricalCrossentropy()(label_true, label_pred) kl_loss = tf.reduce_mean(tf.reduce_sum( -0.5 * (1 + log_var - tf.square(mean) - tf.exp(log_var)), axis=1)) loss = reconstruction_loss + 0.001 * kl_loss + 0.05 * discriminator_loss return loss カテゴリカル・クロスエントロピーの重み

条件付き変分オートエンコーダ

ラベルデータを用いたデコーダの学習 • モデルを学習る際に、エンコーダには画像データのみを入力る一方、デコーダには対応るラベルデータを補助データとて入力ま。 67
潜在空間 × ラベル：2 ラベル付画像データエンコーダデコーダラベルデータ画像データサンプラー

ラベル付き画像データの準備 • 画像データの直後に One-hot 表現のラベルデータを付加データを用意ま。 68 ラベル：2
labeled_images = np.hstack([train_images, train_labels]) image = labeled_images[0][:32*32] # Image part label = labeled_images[0][32*32:] # Label part 前半の 32×32 個の数値画像データでの後の 10 個の数値ラベルデータ

条件付き変分オートエンコーダの実装例 • デコーダには、サンプラーの出力値に加えて、ラベル値を入力るようにモデルを構成ま。 69
decoder = models.Sequential(name='conditional_decoder') decoder.add(layers.Dense(4 * 4 * 128, input_shape=(2+10,), name='expand')) decoder.add(layers.Reshape((4, 4, 128), name='reshape2')) decoder.add(layers.Conv2DTranspose(64, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose1')) # (8, 8, 64) decoder.add(layers.Conv2DTranspose(32, (3, 3), strides=2, padding='same', activation='relu', name='conv_transpose2')) # (16, 16, 32) decoder.add(layers.Conv2DTranspose(1, (3, 3), strides=2, padding='same', activation='sigmoid', name='conv_transpose3')) # (32, 32, 1) decoder.add(layers.Flatten(name='flatten')) model_input = tf.keras.Input(shape=(32*32+10,)) model_output = layers.Concatenate(name='prediction_with_mean_log_var')( [encoder(model_input[:, :32*32]), # Receive mean and log_var decoder(tf.concat( (sampler(encoder(model_input[:, :32*32])), model_input[:, 32*32:]), axis=1) # Provide label to the decoder ) # Receive reconstructed image ] ) ラベル値サンプラーの出力値

条件付き変分オートエンコーダの学習結果 • れまでと異なり、ラベルとのクラスターはでていまん。 ◦ デコーダは、追加で受取るラベル値利用で
るので、潜在空間の値にラベルの情報を紐づる必要ありまん。 70 学習データに対るエンコーダの出力値

ラベル値を指定した画像生成 • 学習済みのデコーダにラベル値を与える事で、特定の種類の画像生成でると期待でま。 71 デコーダラベル値
潜在空間の点

条件付き変分オートエンコーダの学習結果 • 潜在空間をシグモイド関数で変換後、均等にサンプリング値をデコーダに入力て、対応る画像を確認ま。
• 入力るラベルとに対応る画像生成れる一方、潜在空間の値によって、共通の特徴（画像の横幅や色の濃など）調整でるとわりま。 72

条件付き変分オートエンコーダの学習結果 • デコーダに入力るラベル値は、One-hot エンコーディングなので、複数のラベルを同時に指定るとでま
。れにより、複数の種類を合成新い画像得られま。 73 Trouser と Shirt のラベルを同時に指定 Bag と Ankle Boot のラベルを同時に指定

演習 74 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part02/5. Conditional VAE
Fashion MNIST.ipynb ▪ 条件付変分オートエンコーダのモデルを Fashion MNIST データセットで学習ま。 ▪ 学習後のデコーダにままなラベル値（複数のラベルを同時に指定）を与えて、生成れる画像どのように変化る観察てい。 fig = plt.figure(figsize=(6, 6)) label = [0] * 10 label[1], label[6] = 0.5, 0.5 # Trouser + Shirt add_grid_images(fig, label) ラベル値の設定 ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'] One-hot エンコーディングのフラグと画像の種類の対応

第３部　自然言語モデルの基礎

LSTM によるテキスト分類

出力値リカレント・ニューラルネットワークの仕組み • 時系列データに対て、同構造の「セル」を繰り返適用るとで、各時刻にる出
力データを得る形式のモデルをリカレント・ニューラルネットワーク（RNN）と言いま。 • RNN のセルは、出力値と同時に「隠れ状態」の値 h を出力ま。の値は、次の時刻のデータを処理る際に利用れま。隠れ状態には、れまでの処理結果の情報埋め込まれているものと期待れま。 77 セルセルセル t = 1 入力値 t = 2 t = T ・・・パラメーターの値はべてのセルで共通隠れ状態

リカレント・ニューラルネットワークの仕組み • 図は、最もシンプルな RNN の例で。隠れ状態と入力値をハイパボリック・タンジェントを活性化関数とる全結合層に入力て、得られ結果を新
い隠れ状態、よび、出力値とま。 • 直前の出力値を新い隠れ状態とるめ、長期的な情報の保持困難になりま。（次のセルは直前の出力のみを参照ま。） ◦ 数学的には、ハイパボリック・タンジェント繰り返適用れる結果、勾配消失発生て学習進まななりま。 78 ハイパボリック・タンジェントのグラフ

LSTM の仕組み • LSTM のセルは、「隠れ状態 h」と「セル状態 c」の 2 種類の情報を伝達ま
。隠れ状態は、直前の出力値に一致ま。 ◦ 隠れ状態とセル状態は同次元のベクトル値で、具体的な次元数はハイパーパラメーターとて利用者指定ま。 79 • 大雑把には、次の様に理解る事でま。 ◦ セル状態に、れまでの処理結果の情報保存れま。 ◦ 隠れ状態と新い入力値を用いて、セル状態の情報を更新ま。（不要な情報を削除て、新い情報を追加ま。） ◦ 更新後のセル状態の情報を用いて、「隠れ状態＋入力値」ら出力値を生成ま。 ◦ 隠れ状態は短期的な（＝直前の）情報、セル状態は長期的な情報を伝達ると考えられま。不要な情報を削除新い情報を追加更新れセル状態ら出力値を生成「直前＋現在」の情報長期的な情報

LSTM の仕組み 80 新い情報を追加「直前＋現在」の情報長期的な情報
不要な情報を削除新い情報を追加出力る情報を選定るゲート更新れセル状態ら出力値を生成削除る情報を選定るゲート • シグモイド関数を除いてみると、LSTM の基本的な情報の流れ理解でま。 ◦ 2 つの tanh は、入力情報・出力情報に対る活性化関数とて機能ま。 ◦ 3 つのシグモイド関数は、削除・追加・出力る情報を選定るゲートになりま。追加る情報を選定るゲート

LSTM の利用方法 • 時系列データ全体ら 1 つの予測値必要な場合は、最後のセルの出力値のみを利用ま
。一方、各時刻に対る予測値必要な場合は、べてのセルの出力値を利用ま。 • 複数の LSTM を多段に重ねて利用るともでま。 81 出力値セル A セル A セル A t = 1 入力値 t = 2 t = T ・・・セル B セル B セル B ・・・ LSTM レイヤー１ LSTM レイヤー２多項分類器テキスト分類を行う例

双方向 LSTM について • 予測内容によっては、時系列データを必も時間順に処理る必要はありまん。のような場合、正方向と逆方向の処理を組み合わ
、双方向 LSTM も使用でま。 82 出力値 t = 1 入力値 t = 2 t = T ・・・・・・れれのセルらの出力を結合ものを出力値とるセル B セル A セル B セル A セル B セル A

双方向 LSTM によるテキスト分類 • 双方向 LSTM でテキスト分類を行う場合、各方向の最後のセルの出力を結合て、れを多項分類器に入力
ま。 83 ・・・・・・セル B セル A セル B 多項分類器 t = 1 入力値 t = 2 t = T セル B セル A セル A 最後のセルらの出力を結合ものを出力値とる

テキストのトークン化について • テキストデータを扱う場合、あらめ、れれの単語を対応る整数値（トークン ID）に置換えて、数値リストのデータに変換
ま。事前に用意れトークン化ツール（トークナイザー）を用いて変換ま。 84 I didn't feel humiliated. [101, 1045, 2134, 2102, 2514, 26608, 102, 0, 0, ..., 0] [CLS] i didn ##t feel humiliated [SEP] [PAD] [PAD] ... [PAD] ◦ アポストロフィー（'）などの記号は、トークナイザー自動判別て処理ま。 ◦ テキストの先頭と末尾を示トークン（[CLS] / [SEP]）付与れま。 ◦ 固定長のリストにるめ残りの部分は 0（[PAD]）で埋められま。トークン ID のリストに変換トークン ID をテキストに再変換トークナイザーによる処理の例

トークンの埋め込み表現について • テキストデータをニューラルネットワークで処理る場合、最初の「埋め込み層」でれれのトークン ID を高次元空間の埋め込みベクトルに変換ま。
◦ トークン ID とベクトル値は、単純に 1 対 1 で対応ま。の際の「対応表」埋め込み層のウェイト（チューニング対象のパラメータ）になりま。 ◦ モデルの学習結果とて、意味近い単語は、埋め込みベクトルも類似値になるものと期待でま。 85 ID = 1 に対応るベクトル ID = 2 に対応るベクトル ID = 3 に対応るベクトル・・・埋め込みベクトルの次元トークン ID の値の範囲埋め込み層のウェイト

双方向 LSTM による分類モデルの実装例 • 埋め込み層と双方向 LSTM では次のオプションを指定ま。 ◦
埋め込み層：トークン ID の値の範囲（VOCAB_SIZE）、埋め込みベクトルの次元（512） ◦ 双方向 LSTM：隠れ状態の次元（512、よび、256）、べてのセルの出力値を使用るどう（return_sequences） • 過学習を防止るめのドロップアウト層挟まれていま。 86 lstm_model = models.Sequential(name='Bidirectional_LSTM_classifier') lstm_model.add(layers.Input(shape=(None,), name='input_ids')) lstm_model.add(layers.Embedding(VOCAB_SIZE, 512, name='text_embedding')) lstm_model.add(layers.Bidirectional(layers.LSTM(512, return_sequences=True), name='bidirectional_LSTM1')) lstm_model.add(layers.Dropout(rate=0.4, name='dropout1')) lstm_model.add(layers.Bidirectional(layers.LSTM(256, return_sequences=False), name='bidirectional_LSTMs')) lstm_model.add(layers.Dropout(rate=0.4, name='dropout2')) lstm_model.add(layers.Dense(256, activation='relu', name='feedforward')) lstm_model.add(layers.Dropout(rate=0.4, name='dropout3')) lstm_model.add(layers.Dense(6, activation='softmax', name='softmax')) 埋め込み層双方向 LSTM 線形多項分類器・・・ [101, 1045, 2134, ..., 0] ・・・双方向 LSTM ・・・全結合層 [N] [N, 512] [N, 512*2] [256*2] [256] トークン数 N

（参考）ドロップアウト層について • ドロップアウト層は、モデルの学習時に、2つのレイヤー間の接続の一部をランダムに切断ま。 ◦ 例えば、512 次元のベクトル値（= 512 個の実数値）を受
渡際に、40% の値強制的に 0 に書換えられま。 • ドロップアウト層の直後のレイヤーは、一部の情報欠落状態で予測をる必要あるめ、学習データに過度に依存るとな、汎化性能維持でると期待れま。 87

双方向 LSTM による分類モデルの学習結果 • 6 種類の感情を示ラベルを持っ公開データセット（emotion dataset）を用い
学習結果で。 88 学習データの例 https://huggingface.co/datasets/dair-ai/emotion

演習 89 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part03/1. LSTM emotion
recognizer.ipynb ▪ LSTM によるテキスト分類モデルを emotion データセットで学習ま。 ▪ ままなテキストに対る予測結果を確認てみてい。 ▪ モデルの定義に含まれる layers.LSTM を layers.SimpleRNN に変えると、 LSTM のセル「最もシンプルな RNN」のセルに変わりま。LSTM の場合と精度を比較てい。 input_text = [ "I lost my words as he nudged me.", "It always makes my day.", "I'm caring about you as your mother.", "I am not happy at all. It's opposite!", "The movie gave me a chill in my spine.", "I am stunned at the heartfelt welcome." ]

LSTM によるテキスト生成

RNN による「次の単語」の予測 • RNN で「次の単語」を予測る場合、トークン ID の値をカテゴリーラベルとて、多項分類器でトークン
ID との確率値を出力ま。 • 各セルは、入力データに対て、「自身受取るトークンよりも前にある情報」を隠れ状態ら受取って利用て予測ま。 91 出力値セルセルセル t = 1 入力値 t = 2 t = T ・・・多項分類器多項分類器多項分類器 t = 2 の単語を予測 t = 3 の単語を予測トークン ID 確率出力値べてのトークン ID について確率値を出力

RNN による「次の単語」の予測 • 学習に使用るデータは、下図のように、トークン ID に変換テキストに対て、最後のトークンを除い
ものを入力データ、最初のトークンを除いものを正解ラベルとま。 92 time flies like an arrow [101, 2051, 10029, 2066, 2019, 8612, 102, 0, 0, 0] 入力データ正解ラベル [SEP] トークン ID に変換 [101, 2051, 10029, 2066, 2019, 8612, 102, 0, 0] [2051, 10029, 2066, 2019, 8612, 102, 0, 0, 0] 入力データ正解ラベル [CLS] ・・・ [CLS] time flies like an arrow [SEP] [PAD] [PAD] time flies like an arrow [SEP] [PAD] [PAD] [PAD]

RNN によるテキスト生成 • 学習後のモデルにテキストの冒頭部分を入力ると、最後の出力ら次の単語の確率分布得られま。ら単語をサンプリングて、末尾に付
加える作業を繰り返ま。 93 93 セルセル t = 1 t = 2 多項分類器多項分類器 Recipe 　　　　 for spicy セル t = 3 多項分類器確率分布に従って単語をサンプリングて、末尾に付加える

温度パラメーターについて • モデル出力確率分布を次の様に変換てらサンプリングるとで、生成れるテキストの変化を調整で
ま。 • 温度パラメーター T 小いほど実行との変動小なりま、同文章繰り返れる問題発生やなりま。 94 94 温度パラメーター T による分布の変化

LSTM によるテキスト生成モデルの学習結果 • 料理レシピのデータセットでテキスト生成モデルを学習る例ノートブックに用意れていま。実際に生成れるテキストの例は、ノートブックで確認
てい。 95 学習データの例 https://huggingface.co/datasets/Shengtao/recipe 埋め込み層線形多項分類器・・・ [101, 1045, 2134, ..., 0] ・・・ [N] [N, 512] [N, 512] トークン数 N [N, 30522] LSTM ・・・・・・

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part03/2. LSTM recipe generator
training.ipynb ▪ LSTM によるテキスト生成モデルを「レシピ」のデータセットで学習ま。 ◦ Part03/3. LSTM recipe generator analysis.ipynb ▪ 学習後のテキスト生成モデルを用いて、レシピのテキストを生成ま。 ▪ 温度パラメーターによる生成テキストの変化を観察てい。 96 gen_text('Recipe for beef', temp=0.5, lang='ja') 温度パラメーターの指定

第４部　より高性能な生成モデル

Transformer モデル

Transformer モデルの考え方 99 • テキストにる単語の「意味」は、まわりにある単語との関係で変化ま。例えば、次の 2
つのテキストの「flies」の品詞・意味は、最後にある単語（arrow / banana）を見て初めて決定る事でま。 ◦ Time flies like an arrow.（時間は矢のように飛ぶ） ◦ Time flies like a banana.（「時間バエ」はバナナを好む） • 一般に、トークンを埋め込み空間のベクトルに変換場合、「意味近いトークンはベクトル値も近なる」と期待れま、テキストに依存ない一般的な「意味」と、特定のテキストに置れ場合の「意味」は異なりま。

Transformer モデルの考え方 100 • で、テキスト内のトークンの関係を見て、埋め込みベクトルの値を「のテキストにる意味」にあう様に更新る処理（Attention レイヤー）を実装ま
。 • 画像データにる畳み込みフィルターは、あるピクセルと周囲のピクセルの関係ら、画像の特徴を抽出ま、れに類似処理と考えられま。 time flies like a banana テキストに依存ない一般的な意味を表現埋め込みベクトルのテキストに応意味を表現 Attention レイヤー

◦ 先の例では、「ﬂies の Query」と「banana の Key」は内積値大なると期待れま。
• 内積値に基づい重みで、べてのトークンの Value を合成ものを新い埋め込みベクトルの値とて出力ま。 • トークンとに、現在の埋め込みベクトルの値ら、　 Query, Key, Value の 3 種類のベクトル値を生成ま。 ◦ れらは同次元のベクトルで、の次元を「Attention Head のサイズ」と言いま。 ◦ Query, Key, Value は、れれ（トークンの位置に依存ない）共通のアフィン変換（1 次関数の集まり＝活性化関数を持ない隠れ層）で生成ま。 • 「トークン A の意味に、トークン B 及ぼ影響度」は、「トークン A の Query」と「トークン B の Key」の内積値で決まると考えま。（内積値大いと影響大い。） Attention Head の仕組み 101 Query Value Key Query Value Key Query Value Key ・・・

Attention Head の仕組み 102 time flies like a banana Key
Value Query Key Value Query Key Value Query Key Value Query Key Value Query weight Query, Key, Value を生成 weight weight weight weight Query と Key の内積で weight を計算 weight の重みで Value を合成 "flies" の新い埋め込みベクトル "flies" の現在の埋め込みベクトル • 右図は「flies」について、新い埋め込みベクトルを出力る流れで。 • べてのトークンについて同様の処理を行いま。

Multi-Head Attention 103 • 複数の Attention Head を並列に使用ると
で、異なる観点での「意味」抽出でま。 • れれの Attention Head の出力を 1 列につなものを新い埋め込みベクトルの値とま。 ◦ 各 Attention Head のサイズは、「元の次元 / Attention Head の個数」にま。れにより、結合後のベクトル元の次元に戻りま。 • 複数の Attention Head らなる、右図のブロックを「Multi-Head Attention」と呼びま。 time flies like a banana 各アテンションヘッドらの出力を結合 Attention Head アテンションヘッド

（参考）RNN と Attention Head の比較 104 • 埋め込みベクトルら Query,
Key, Value を生成る仕組みは、トークンの位置に依存ないので、の意味では、同一のセルを繰り返使用る RNN に類似仕組みと言えま。 • RNN は隣接るトークンの相互作用のみを考えのに対て、Attention Head はべてのトークンの相互作用を取り入れ点大な違いになりま。（の結果、Attention Head の処理結果は、トークンの順序に依存ないとになりま。）セルセルセル t = 1 t = 2 t = T ・・・ Query Value Key Query Value Key Query Value Key ・・・ RNN Attention Head アフィン変換（トークンの位置に依存ない）ウェイトの値はべてのセルで共通

Transformer エンコーダの構造 105 • Multi-Head Attention の後段に、「レイヤー正規化＋全結合層＋レイヤー正規化」を繋もの「Transformer
エンコーダ」で。 ◦ レイヤー正規化と全結合層もトークンの位置に依存ない、べてのトークンに共通の計算処理を適用ま。 • 一般には、複数の Transormer エンコーダを多段に積み重ねて利用ま。 Transformer エンコーダレイヤー正規化全結合層スキップ接続レイヤー正規化マルチヘッド・アテンション

（参考）スキップ接続について 106 • レイヤーに対て、入力 x に対る「変化分」を計算い場合に使用ま
。 • 学習の初期にいても（ウェイトを小い値で初期化れば）、出力 y 入力 x に近い値になるめ、後続のレイヤーに意味のある情報を伝えるとでて、学習スムーズに進むと期待でま。入力 x 出力 y のレイヤーは x と y の差分 y - x を計算ればよいスキップ接続

（参考）レイヤー正規化について 107 • 埋め込みベクトルを　　　　　　　　　　　とて、べての成分についての平均と分散 0, 1 になるように正規化
上で、成分とにスケーリング（定数倍て定数値を加える）ま。 ◦ スケーリングの定数　　　は学習対象のパラメータで。れは、成分とに適スケールあるという想定に基づい仕組みで。埋め込みベクトルレイヤー正規化トークンとに個別に正規化 σ ≒ 0 の時にエラーにならないように小な値を加える

アテンションマスクについて 108 出力データ t = 1 入力データ t = 2
t = T t = 2 の単語を予測 t = 3 の単語を予測 Transformer エンコーダ • Transformer で「次の単語の予測」を行う場合、学習時に、入力トークンよりも後ろのトークンの情報を参照ないように Attention Head の処理を制限る必要ありま。 • Attention Head はオプションで「アテンションマスク」を受取り、れれのトークンに対て、処理対象とるトークンを限定るとでま。多項分類器多項分類器多項分類器 [[1, 0, 0, 0, 0], [1, 1, 0, 0, 0], [1, 1, 1, 0, 0], [1, 1, 1, 1, 0], [1, 1, 1, 1, 1]] t = 1 のトークンに対る処理対象 t = 2 のトークンに対る処理対象アテンションマスクの例・・・・・・

Positional エンコーディングについて 109 • までの実装では、「テキスト内でのトークンの位置」を意識処理含まれていまん。トークン同士の関係は Query と
Key の内積値で決まるので、図のようにトークンの位置を入れ替えても出力値は変わりまん。アテンションヘッド time flies like a banana アテンションヘッド banana flies like a time <A> <B> <C> <D> <E> <E> <B> <C> <D> <A> 出力値出力値

Positional エンコーディングについて 110 • 実際には、トークンの位置関係も各トークンの「意味」に影響るので、何らの方法で位置情報を組み込む必要ありま。
• で、最初の埋め込み層で、各トークンを埋め込みベクトルに変換後、トークンの位置情報を埋め込みベクトルに変換ものを加えま。 time flies like a banana 1 2 3 4 5 トークンと位置情報の埋め込みベクトルを合計トークン用の埋め込み層位置情報用の埋め込み層

Transformer モデルによるテキスト分類 111 • Transformer モデルでテキスト分類を実装る場合、最初のトークンに対る出力値を多項分類器に入力ま
。 • 最初のトークンの埋め込みベクトルに、分類に必要な情報集約るようにモデル全体学習れるものと期待ま。 • アテンションマスクによる参照制限は行いまん。（固定長リストにるめの末尾の Padding 部分は参照ないようにアテンションマスクを設定ま。） t = 1 入力データ t = 2 t = T 多項分類器・・・ Positional エンコーディング Transformer エンコーダ Transformer エンコーダ

Transformer モデルによるテキスト分類 112 • 下図は、1 層目と 2 層目の Transformer エンコーダの
Attention Heads 計算トークン間の Weights（4 つの Attention Heads の最大値を 2 レイヤーで平均）の例で。

Transformer モデルによるテキスト生成 113 • RNN による実装と同様に、各トークンについて「次の単語」の確率分布を予測るようにモデルを学習ま
。 • 学習後のモデルにテキストの冒頭部分を入力ると、最後の出力ら次の単語の確率分布得らるので、ら単語をサンプリングて、末尾に付加える作業を繰り返ま。 • 学習時はアテンションマスクにより、「自分より後ろのトークン」は参照ないように制限ま。 t = 1 入力データ t = 2 t = T 多項分類器・・・ Positional エンコーディング Transformer エンコーダ多項分類器多項分類器べてのトークン ID について確率値を出力

Transformer モデルによるテキスト生成 114 • 下図は、Transformer エンコーダの Attention Heads 計算トークン間の
Weights （4つの Attention Heads の平均値）の例で。

（参考）Transformer を用いた LLM の例 115 埋め込みベクトルの次元 Attention Head の個数 Transformer
エンコーダの段数 Attention Head のサイズ https://arxiv.org/abs/2204.02311 • 2022 年に論文公開れモデル（PaLM）では、モデルのサイズに関連下記の値公開れていま。 ◦ モデルに入力可能なトークン数は 2048 で。

116 Transformer のエンコーダとデコーダの違い • エンコーダは、入力テキストの情報を用いて、次の単語を予測ま。 • デコーダは、入力テキストに「補助情
報」を加えて、次の単語を予測ま。補助情報エンコーダデコーダ

117 Transformer のエンコーダとデコーダの違い • Attention 機構の論文では、原文の意味を抽出るエンコーダと、原文の意味を補助情報とて訳文を生成
るデコーダを組み合わ、翻訳モデル提案れま。 • の後、エンコーダを用い LLM とて、 PaLM 開発れま。 https://arxiv.org/abs/1706.03762

（参考）Vision Transformer による画像の意味抽出 118 • Vision Transformer (ViT) は、画像データに Transformer
を適用るモデルで。 • 画像を小なパッチの列に分解て、モデルに入力ま。 https://arxiv.org/abs/2010.11929 • れれのパッチは、最初のレイヤーで、対応る「埋め込みベクトル」に変換れま。 • の後は、LLM と同様の Transformer エンコーダで処理を行いま。 ◦ 複数のパッチの位置関係ら「画像の意味」を表情報得られると期待れま。

（参考）Vision Transformer による画像の意味抽出 119 https://arxiv.org/abs/2010.11929 • 一例とて、後段に分類モデルを接続て、画像を分類
るモデルを作ると、分類に有用な情報を持つ部分に Attention の Weight 掛ると期待れま。

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part04/1. Transformer emotion recognizer.ipynb
▪ Transformer によるテキスト分類モデルを emotion データセットで学習ま。 ▪ 埋め込みベクトルの次元、Attention Head の個数とサイズ、全結合層のノード数れれ下記のパラメータで指定でま。パラメータの値によってモデルの精度どのように変化る、観察てい。 120 EMBEDDING_DIM = 512 N_HEADS = 4 KEY_DIM = EMBEDDING_DIM // N_HEADS FEED_FORWARD_DIM = 2048

演習 • 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part04/2. Transformer recipe generator
training.ipynb ▪ Transformer によるテキスト生成モデルを「レシピ」のデータセットで学習ま。 ▪ 「Part04/1. Transformer emotion recognizer.ipynb」と同様に下記のパラメータ指定でま。 ◦ Part04/3. Transformer recipe generator analysis.ipynb ▪ 学習後のテキスト生成モデルを用いて、レシピのテキストを生成ま。 121 EMBEDDING_DIM = 512 N_HEADS = 4 KEY_DIM = EMBEDDING_DIM // N_HEADS FEED_FORWARD_DIM = 2048

DCGAN の仕組み 123 • DCGAN では、エンコーダを用いに、デコーダ部分を直接に学習ま。
• デコーダ生成画像と学習用の画像を識別るモデルを別途用意て、れらを交互に学習るとで、互いの性能を高めていま。識別モデルデコーダ学習データ本物？偽物？

DCGAN の仕組み 124 識別モデルデコーダ学習データ B 画像セット A 潜在空間
らランダムに入力値をサンプリング P(A) : A 本物である確率 P(B) : B 本物である確率識別モデル出力る P(A) 大なる方向にパラメーターを修正 P(A) 小、P(B) 大なる方向にパラメーターを修正

DCGAN で学習が進む様子 125 https://github.com/enakai00/colab_GenAI_lecture/blob/main/Part05/1.%20DCGAN%20MNIST%20example.ipynb 学習後のデコーダによる生成画像（識別モデルを使って高品質な画像を選択）

学習後の潜在空間の様子 126 GIF Animation https://goo.gl/zXL1bV

学習後の潜在空間の様子 127 Smile Man Woman Neutral Neutral Woman Smiling Woman
Smiling Man Neutral Man http://arxiv.org/abs/1511.06434 • DCGAN の論文では、学習後の潜在空間には、画像の種類を表現る「方向」存在ると指摘れていま。

Diﬀusion モデル

「データ分布」の再現機能としての生成モデル 129 • 32 × 32 ピクセルの画像データは、1,024 次元空間の点にマッピングでま。
の際、「整っ画像」に対応るいつのクラスターでていると想像でま。 • VAE のデコーダは、潜在空間の原点付近の点を「整っ画像」の点にマッピングま。れは、潜在空間上の「標準正規分布のデータ」を 1,024 次元空間内の「整っ画像のクラスター」に変換る機能と考えられま。潜在空間画像空間

「データ分布」の再現機能としての生成モデル 130 • の考え方を理解るめに、1,024 次元空間の点（＝画像データ）ではな、2 次元平面に広
っ点を学習データとて、変分オートエンコーダ（VAE）を学習ま。 • 下図のように、潜在空間の標準正規分布らサンプリングデータ、デコーダによって、学習データの分布に変換でるようになると期待れま。潜在空間学習データデコーダ標準正規分布 "Moons" 分布

「データ分布」の再現機能としての生成モデル 131 潜在空間デコーダエンコーダサンプラー Moons 分布 • 右図のように、Moons
分布の各点を学習データとて、変分オートエンコーダを学習ま。 • エンコーダは、学習データ全体を潜在空間上の標準正規分布に近なるようにマッピングま。 • の結果、デコーダは、潜在空間の標準正規分布を元の Moons 分布に変換ると期待れま。

VAE によるデータ分布の変換例 132 • 学習データに対るエンコーダーとサンプラーの出力は次の様になりま。標準正規分布の中に、2つのクラスターうま収まっていま
。エンコーダの出力サンプラーの出力標準正規分布

VAE によるデータ分布の変換例 133 • 標準正規分布をデコーダで変換結果で。潜在空間のクラスターの隙間部分らは、学習データ再現
れ、ノイズ残っていま。学習データ標準正規分布をデコーダで変換結果

Diﬀusion モデルの元になるアイデア 134 • 潜在空間を介に、画像データの空間（画像空間）内で直接に、「ノイズ画像のクラスター」を「整っ画像のクラスター」に変換るモデルで
れば、生成モデルとて利用でま。 ◦ 画像空間にる標準正規分布のクラスター（各ピクセル値標準正規分布で分布画像の集合）を「ノイズ画像のクラスター」と考えま。 • 「ノイズ画像」は簡単に用意でる一方、「整っ画像」は簡単には用意でない点ポイントになりま。「整っ画像」のクラスター「ノイズ画像」のクラスター画像空間のイメージ図

Diffusion モデルの考え方 135 ノイズ画像の集合学習用の画像の集合 Diffusion プロセス標準正規分布 Moons 分布
• 簡単のめに画像空間を2次元と仮定て説明ま。平面上の 1 つの点 1 つの画像データに対応ると考えてい。 • 学習用画像データの集合を標準正規分布のノイズ画像に変換る「Diffusion プロセス」を用意て、れと逆向の変換（再構成プロセス）を機械学習モデルで実現ま。再構成プロセス

Diﬀusion プロセスの構成 136 • 個々の学習用の画像　に標準正規分布のノイズ画像の 1 つ　を割り
当てま。 • 次式で、元の画像をノイズ画像に置換えていま。ノイズ画像の集合学習用の画像の集合標準正規分布・・・ t = 0.0 t = 0.1 t = 0.2 t = 0.3 Diﬀusion プロセス

ノイズ予測モデルの学習 137 • Signal rate 　と Noise rate 　
は、右図の「オフセット・コサインスケジュール」よ用いられま。 • 各タイムステップで　　　　　　を用意て、「ノイズ予測モデル」を学習ま。オフセット・コサインスケジュールを予測ノイズ予測モデル・・・ t = 0.0 t = 0.1 t = 0.2 t = 0.3 Diﬀusion プロセス

ノイズ予測モデルによる逆変換 138 • ノイズ予測モデルによる予測結果　を用いると、次式で元の画像の予測　得られま。 • タイムステップ最終時刻に近いほど、予測誤差
ε の影響大なりま。 • で、ままなタイムステップの予測を組み合わるとで、より正確な予測を行いま。

学習後のモデルによる画像生成の流れ 139 • 一例とて、Diﬀusion プロセスのステップを t = 0, 0.1,
0.2, …, 1.0 の 10 ステップとま。 • ノイズ画像（t = 1.0）らノイズ成分を予測て、オリジナル画像の方向に 1 ステップ分修正ま。 • 得られ画像（t = 0.9）ら同様の予測を行い、オリジナルデータの方向に 1 ステップ分修正ま。 • れを 10 ステップ分繰り返て、オリジナル画像を近似的に再現ま。 t = 1.0 モデルの予測 t = 0.9 t = 0.8 オリジナル予測の方向に 1 ステップ分修正

140 Diﬀusion モデルの実装 — ノイズ予測モデル • ノイズ予測モデルは、ノイズを含むデータ　と Noise rate　　を元に
て、ノイズ成分　を予測ま (*)。 diffusion_model = models.Sequential(name='diffusion_model') diffusion_model.add(layers.Input(shape=(3,))) diffusion_model.add(layers.Dense(64, name='expand')) diffusion_model.add(layers.Dense(64, activation='relu', name='feedforward1')) diffusion_model.add(layers.Dense(64, activation='relu', name='feedforward2')) diffusion_model.add(layers.Dense(64, activation='relu', name='feedforward3')) diffusion_model.add(layers.Dense(64, activation='relu', name='feedforward4')) diffusion_model.add(layers.Dense(2, name='estimated_noise')) ノイズを含むデータと Noise rate を受取るデータに含まれるノイズ成分を出力る (*) t = 1 の最終状態でも S R = 0.02 なので、オリジナルデータの　痕跡はわに残っていま。モデルは、t = 1 の場合でも、　のわな痕跡との違いを発見るように学習れま。ノイズを含むデータを予測ノイズ予測モデル

ノイズ画像の集合学習用の画像の集合 • Diffusion プロセスを用意て、らままなタイムステップ t
の三つ組　　　　　　　を集めま。 • 学習画像とノイズ画像の対応づは任意なので、偏らないように複数の対応付による、複数の Diffusion プロセスを用意ま。 • れれの対応付について、複数のランダムな t についてのデータを用意ま。 Diffusion モデルの実装 — 学習データの集め方 141 標準正規分布学習データを予測ノイズ予測モデル Diffusion プロセスの用意三つ組データの用意入力データ正解ラベル

Diﬀusion モデルの実装 — 学習データの集め方 142 を予測ノイズ予測モデル三つ組データの用意 noisy_data nise_data
num_examples = len(train_data) inputs, labels = [], [] for _ in range(16): noise_data = np.random.multivariate_normal( [0, 0], [[1, 0], [0, 1]], size=num_examples) for _ in range(32): # select 32 random time steps t = np.random.uniform(0, 1, size=1) noise_rate, signal_rate = diffusion_schedule(t) noisy_data = signal_rate * train_data + noise_rate * noise_data noise_rate_stack = np.vstack(np.array([noise_rate]*num_examples)) inputs.append(np.hstack((noisy_data, noise_rate_stack))) labels.append(noise_data) # predict noise_data inputs, labels = np.vstack(inputs), np.vstack(labels) 標準正規分布正解ラベル入力データタイムステップをランダムに選択 16 種類の対応付でデータを用意 32 個のタイムステップを選択 noise_rate

学習後のモデルによるオリジナルデータの再現 143 • 一例とて、Diﬀusion プロセスのステップを t = 0, 0.1,
0.2, …, 1.0 の 10 ステップとま。t = 1.0 のノイズデータら t = 0.9 のデータを再現て、らにれら t = 0.8 のデータを再現る、という処理を t = 0 まで繰り返ま。 • 1 ステップ前のデータは次の様に計算ま。 ◦ 現在のデータ（noisy_data）に対てモデル予測ノイズ（noise_data）を用いて、オリジナルデータを次の計算で再現ま。 ◦ 再現（近似的な）オリジナルデータに対て、1 ステップ前のノイズを再度加えま。 estimated_original_data = (noisy_data - noise_rate * noise_data) / signal_rate noisy_data = signal_rate * estimated_original_data + noise_rate * noise_data 1 ステップ前の値を使う 1 ステップ前の予測データ得られる 1 ステップ前の値を使う

学習後のモデルによるオリジナルデータの再現 144 • オリジナルデータを再現るコードの例で。 def reverse_diffusion(initial_data, steps=100): denoise_history
= [initial_data] num_examples = len(initial_data) step_size = 1 / steps noisy_data = initial_data for step in range(steps): # Estimate noise_data from the current noisy_data t = 1 - step * step_size noise_rate, signal_rate = diffusion_schedule(t) noise_rate_stack = np.array([noise_rate]*num_examples).reshape(num_examples, 1) input_data = np.hstack((noisy_data,noise_rate_stack)) noise_data = diffusion_model.predict(input_data, verbose=0) # Reconstruct the estimated original data estimated_original_data = (noisy_data - noise_rate * noise_data) / signal_rate # Get new noisy_data (1-step prior) next_noise_rate, next_signal_rate = diffusion_schedule(t-step_size) noisy_data = next_signal_rate * estimated_original_data + next_noise_rate * noise_data denoise_history.append(noisy_data) return denoise_history 現在のステップ値 t に対応る Noise rate / Signal rate を取得現在のデータと Noise rate のペアらノイズを予測ノイズを取り除いオリジナルデータを計算 1 つ前のステップ値に対応る Noise rate / Signal rate を取得て 1 つ前のステップのデータを再構成指定ステップ数（steps）によって、ステップ値 t の取り得る値変わりま、学習時は 0 < t < 1 の範囲のままな t に対るデータで学習ているので問題ありまん。

Diﬀusion モデルの学習例 145 • 2 次元平面のデータについて Diﬀusion モデルを適用例で。"Moons"
データセットを学習データ、標準正規分布をノイズデータとて学習ていま。下図は、標準正規分布ノイズらオリジナルデータを再現るステップを表ま。

146 VAE（変分オートエンコーダ）との比較

Diﬀusion モデルが優れている理由 147 • DCGAN は、デコーダと識別器を並列に学習る必要あり、学習の進捗のバランス重要になりま
。 ◦ 識別器弱るとデコーダは整っ画像を生成る必要ありまん。 ◦ 識別器強るとデコーダは整っ画像を生成る方法発見でまん。 ◦ 識別器に偏りある（特定の特徴をもっ画像を「本物」と判別る）とデコーダは特定の画像ばり生成ま。 • 変分オートエンコーダも内部的には2つのモデル（エンコーダとデコーダ）を学習てり、類似の課題ありま。 ◦ 最終的な潜在空間の状態エンコーダの学習過程に依存てり、特に、誤差関数にる KL ダイバージェンスの重みによって、結果大変わりま。 ◦ 潜在空間の分布標準正規分布られると、整っ画像再現れになりま。

Diﬀusion モデルが優れている理由 148 • 一方、Diﬀusion モデルには、次のような特性ありま。 ◦ 単一のモデルを学習
るめ、複数モデルのバランスを考える必要ありまん。 ◦ 学習データと標準正規分布ノイズを明示的に紐づてり、標準正規分布ら安定的に整っ画像再現でま。 ◦ 画像生成のステップを複数に分るとで、安定的に整っ画像生成でま。

VQ-VAE

VQ-VAE のアイデア 150 • 最終的な潜在空間の状態学習に依存る（どに「整っ画像に対応る点」
ある分りにい）という VAE の課題を根本的に解決るアイデアとて、Vector Quantized VAE（VQ-VAE）ありま。 • VQ-VAE では、潜在空間を「画像の各部位の役割を示ベクトル値の集合」に置換えるとで、画像の特徴をダイレクトに表現ま。 1 つの画像に対応「潜在空間の値」のイメージ・・・コードブック空空空海海海雲雲海海船船海島島海海海島島 ◦ 「各部位の役割を示ベクトル値」は一定数のベクトル値を事前に用意ま。れを「コードブック」と呼びま。コードブックの個々のベクトル値は、直感的には、「空」「雲」「海」などの意味を表と考えま。 ◦ コードブックの値のみを組み合わるとで、「整っ画像に対応る潜在空間の値」構成やなりま。空海雲島海海島島島

VQ-VAE の学習処理 151 • エンコーダは、元の画像に対て「画像サイズを縮小て（縦横のピクセル数を減らて）各ピクセル値をベクトル値に置換える」という処理を行いま
。らに、各ベクトル値をコードブックに載っているベクトル値（値一番近いもの）に置換えてらデコーダに入力ま。 • 勾配ベクトルの計算時は「コードブックに載っている値への置換え（不連続関数）」はスキップま。（不連続関数部分を近似的に恒等関数に置換えて勾配ベクトルを計算ま。） • 画像生成時は、「潜在空間の各点にコードブックの値を割り当てるモデル」を別途学習て使いま。（整っ画像ら得られる潜在空間の値を教師データとて、 PixelCNN を学習ま。） https://arxiv.org/abs/1711.00937

VQ-VAE による学習例 152 • 入力画像：128 × 128 ピクセルのカラー画像 ◦ 画像は
256 階調（RGB の各レイヤーのピクセル値は 256 = 28 通りの値を取る）なので、1 つの画像の情報量は 128 × 128 × 3 × 8 ビット • コードブック：512 個の 1 次元ベクトル（つまり、512 = 29 種類の離散値） • 潜在空間のサイズ：32 × 32 ピクセル ◦ 潜在空間の情報量は 32 × 32 × 9 ビットなので、画像の情報量は約 1/40 に削減 https://arxiv.org/abs/1711.00937 デコーダらの出力エンコーダへの入力

• 以下のノートブックを見て、コードの実装を理解てみてい。 ◦ Part05/2. VAE distribution conversion example.ipynb
▪ 変分オートエンコーダでデータ分布の変換モデルを実装例で。 ▪ 誤差関数にる KL ダイバージェンスの重みを変化て、結果どのように変わる観察てい。 ◦ Part05/3. Diﬀusion model example.ipynb ▪ 2 次元空間のデータに Diﬀusion モデルを適用例で。 def custom_loss(y_true, y_pred): mean, log_var, pred = y_pred[:, 0:2], y_pred[:, 2:4], y_pred[:, 4:6] reconstruction_loss = losses.mse(y_true, pred) kl_loss = tf.reduce_mean(tf.reduce_sum( -0.5 * (1 + log_var - tf.square(mean) - tf.exp(log_var)), axis=1)) loss = reconstruction_loss + 0.8 * kl_loss return loss 演習 153 KL ダイバージェンスの重み

マルチモーダル生成モデル

ラベル情報を用いたデコーダの学習 • 条件付変分オートエンコーダでは、デコーダにラベル情報を入力るとで、生成る画像を指定でま。
• の際、単純なラベル値ではな、「画像の説明文を Transformer モデルのテキストエンコーダで埋め込みベクトルに変換値」を入力れば、自然言語テキストで生成画像を指定でる様になると期待でま。 155 潜在空間 × "a photograph of an astronaut riding a horse" エンコーダデコーダ画像データテキストエンコーダテキストの埋め込みベクトル

CLIP による埋め込みベクトルの生成 • 実際にれを実現るには、テキストエンコーダは、入力テキストら「画像の種類を表情報」を抽出る様に学習て
必要ありま。 ◦ れにより、入力テキストの文面学習に使っテキストと異なっていても、「画像の種類」とて同意味内容であれば、類似の画像生成でるようになりま。 156 • れを実現るモデルの一例とて、CLIP ありま。「画像との説明文」のペアを学習データとて用意て、画像とテキストを個別にエンコーダで変換て、得られる埋め込みベクトルの類似度大なるようにエンコーダを学習ま。 ◦ 類似画像は類似埋め込みベクトルになるので、対応るテキストの埋め込みベクトルも類似ものになりま。 https://github.com/openai/CLIP

CLIP による埋め込みベクトルの特徴 • 画像 A と画像 B 画像データとて似ていると埋め込みベクトルは似ている ◦
• 学習の結果、画像とペアになるテキストの埋め込みベクルは似ている ◦ • れらの結果、類似画像のテキストは埋め込みベクトル似ている ◦ 157

Diﬀusion モデルとテキストエンコーダの組み合わせ • Diﬀusion モデルにテキストエンコーダらの入力を組み合わるとで、自然言語テキストら画像を生成
るままなモデル提案れてり、一例とて、次の様なバリエーションありま。 ◦ テキストエンコーダを使わにテキスト（トークン ID の列）をのまま入力 ◦ CLIP のテキストエンコーダらの出力（テキストの埋め込みベクトル I）を利用る ◦ CLIP のテキストエンコーダらの出力をらにイメージエンコーダ側の出力（対応る画像の埋め込みベクトル T）に置換えるモデルを追加 ▪ 　　　　　　　　　　なので、　　　よりも　　　の方類似度高い 158

Diﬀusion モデルとテキストエンコーダの組み合わせ • 右図は、前ページの 3 つの方法を比較例で。下にい
ほど、入力テキストの意味によりマッチ画像生成れているとわりま。 159 https://arxiv.org/abs/2204.06125

Stable Diffusion について 160 ◦ 潜在空間は、オートエンコーダで事前に用意てま。LDM
で得られ「整っ画像に対応る点」をデコーダに入力て実際の画像を出力ま。 • らに、「画像の種類を表埋め込みベクトル」を入力るとで、生成る画像を操作でるように設計れていま。 • オリジナルの Diffusion モデルは、高次元の画像空間で直接に「整っ画像」と「ノイズ画像」の分布を変換ま。 • Stable Diffusion の Latent Diffusion Model（LDM）は、潜在空間の中で、「乱数で分布集合」と「整っ画像に対応る点の集合」を変換ま。 https://arxiv.org/abs/2112.10752

PaLI のアーキテクチャー 161 https://arxiv.org/pdf/2209.06794.pdf • PaLI は、テキストと画像のペアらテキストを出力るモデルで。
• テキストは通常の Transformer エンコーダに入力ま。画像は Vision Transformer で「画像の意味を表埋め込みベクトル」に変換後に、テキスト用の Transoformer エンコーダに入力ま。 ◦ れでテキストと画像を組み合わ表現の「意味」抽出でると期待ま。 • 後段に Transformer デコーダを接続て、の意味に基づい出力テキストを生成ま。

162 Gemini のアーキテクチャー https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf • モデルの詳細は公開れていまん、PaLI のアーキテクチャーを拡張
ものと想像れま。テキストと画像に加えて、音声と動画のデータも入力可能で、れれのデータ形式に応エンコーダ用意れていま。 • 後段にテキスト生成用のデコーダと画像生成用のデコーダを接続て、テキストと画像の両方を出力ま。

163 Gemini のデモ動画 https://www.youtube.com/watch?v=UIZAiXYceBI ※ の動画はデモ用に編集れもので。実際の Gemini
の処理内容は下記の Blog を参照　https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

生成 AI の基礎 〜 サンプル実装で学ぶ基本原理

生成 AI の基礎 〜 サンプル実装で学ぶ基本原理

More Decks by Etsuji Nakai

Other Decks in Technology

Featured

Transcript

生成 AI の基礎〜サンプル実装で学ぶ基本原理

生成 AI の基礎〜サンプル実装で学ぶ基本原理