大規模言語モデル入門_第三章

大規模言語モデル入門　輪読会第3章大規模言語モデルの基礎 Presenter 駒井雅之（@rindybell） 2024.1.22 @ https://opendatalab.connpass.com/

自己紹介 • 駒井雅之 • 32歳（1991年 4月24日誕） • 2016年4月 NTTデータに入社 •
2021年7月シンプルフォーム社に入社 • 趣味は筋トレ、脱出ゲーム、カレー作り、ボードゲーム等 • Twitter: @rindybell アジャンタ石窟（インド）にて

シンプルフォーム社のご紹介エンジニアも積極採用中です！ https://www.simpleform.co.jp/#about

生成AIハッカソンもやります！ https://simpleform.connpass.com/event/292843/

本発表のゴール大規模言語モデルの基礎的な知識を身に着ける • Transformer系の基本モデル ◦ 初代GPT、BERT、T5 • 多言語モデルへの展開 •
トークナイゼーション

第3章　大規模言語モデルの基礎

3.1 単語の予測から学習できること学習できることトークンを予測する学習から常識的・文法的な知識を獲得できる図　テキストとトークン予測の例

3.2 GPT（デコーダ） GPT Transformerを採用した最初の大規模言語モデル • 2018年にOpenAIが提案 • Generative Pre-trained
Transformerのそれぞれの頭文字 • GPTは7,000冊の書籍から作成したコーパスで事前学習注意事項 GPT～GPT-3の比較は第4章で示される。本章では初代のGPTにフォーカスして仕組みを説明している。

3.2 GPT（デコーダ）入力表現トークン埋込+位置埋込によって入力埋込を得る • トークン列の長さがKで与えられ、トークン埋込をe、位置埋込をpとすると、位置iの入力埋込は以下の式より得る： ◦ GPTには、x_1,
x_2, …, x_Kが入力される

3.2 GPT（デコーダ）事前学習与えられたトークン列から、次のトークンを予測（＝言語モデル） • 言語モデルの目的関数： • 学習時にはマスク処理を導入し効率的にトークン予測

3.2 GPT（デコーダ）ファインチューニング下流タスク用の層を追加し、下流タスクのデータでモデル全体を最適化追加した層ファインチューン時は全体を最適化することが多い（ヘッド部のみを学
習することもある）

3.2 GPT（デコーダ）ファインチューニング下流タスク用の層を追加し、下流タスクのデータでモデル全体を最適化 • トークン列w1～wKと、ラベルyが与えられたときの、ファインチューニング用の推論の式：追加した層に相当する数式部分

3.2 GPT（デコーダ）ファインチューニング下流タスク用の層を追加し、下流タスクのデータでモデル全体を最適化 • ファインチューニング部分の目的関数： • モデル全体に関する目的関数（Lptは言語モデル部分、λは二
つの誤差関数のつり合いを調整するハイパラ）：

3.3 BERT・RoBERTa（エンコーダ）エンコーダテキストを処理するときにトークン列中のi+1以降のトークンも用いる • 推論時、デコーダは位置i+1以降のトークンを活用できない（代わりに、デコーダはトークン生成に適用できる） • 双方向型のTransformerとしてBERTやRoBERTaがある
◦ BERT：Bidirectional Encoder Representations from Transfomers ▪ 7000冊の書籍で事前学習 + ファインチューニング ◦ RoBERTa：Robustly optimized BERT approach ▪ BERTの10倍規模のコーパスで事前学習

3.3 BERT・RoBERTa（エンコーダ）入力表現テキストの先頭や接点に特殊トークンを追記。BERTはさらにセグメント埋込を導入 • トークン埋込e_w、位置埋込p_i、セグメント埋込s_mとしたとき、BERTの入力埋込：
• RoBERTaの入力埋込：

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習「マスク言語モデル」「次文予測」の問題設定でモデルを最適化

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習トークン列の一部を隠蔽してトレーニングする「マスク言語モデル」 • マスク言語モデル：トークン穴埋め。トークン列中の一部を隠蔽し、双方向から文脈を捉える訓練を行う。 •
テキスト中のトークンの15%のトークンをランダムに選択し、

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習トークン列の一部を隠蔽してトレーニングする「マスク言語モデル」 • BERTにトークン列w_1～w_Kを与え、出力埋込 h_iを得た後、次のように計算してトークンw_iの予測確率を得る：
◦ layernorm：層正規化、gelu：ガウス誤差線形ユニット、 E：入力トークン埋込行列、b：バイアス、W：D×Dの行列

3.3 BERT・RoBERTa（エンコーダ） 1つのベクトル単位に適用する正規化処理参考層正規化 • 隠れ層のベクトル a が与えられ、次の式で正規化する ◦
データのばらつきを抑え、学習を効率化する効果がある ◦ バッチ正規化と異なり、サンプル単位で正規化する ※　fは活性化関数

3.3 BERT・RoBERTa（エンコーダ） 1つのベクトル単位に適用する正規化処理参考層正規化 • g=[1 1]、b=[0, 0]、f(x) =
xの時の計算例 ※　fは活性化関数

3.3 BERT・RoBERTa（エンコーダ）参考ガウス誤差線形ユニット ReLUと類似した形状の連続的な非線形関数参考：https://cvml-expertguide.net/terms/dl/layers/activation-function/relu-like-activation/gelu/

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習二つのテキストが連続関係にあるかを予測する「次文予測」 • サンプリングして、連続した2種テキストと、異なるランダムの2種テキストを得る。BERTに与えて2値分類する図　次文予測の例（連続したテキストを与えた場合）

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習二つのテキストが連続関係にあるかを予測する「次文予測」 • BERTにおいて、CLSトークン部分の出力値のh_clsを用いて、次の式で隣接文かどうかを予測する： ◦
W_poolはD×Dの行列、W_nspは2×Dの行列

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習 BERTの事前学習は「マスク言語モデル」と「次文予測」の双方から構成 • BERTの損失関数は2種損失を組み合わせている • 先ほどのh_poolのように、複数の特徴を集約する処理を
poolingと呼ぶ • RoBERTaはマスク言語モデルのみ最適化 ◦ 次文予測は精度に寄与しなかったとのこと

3.3 BERT・RoBERTa（エンコーダ）ファインチューニング下流タスク用の層を追加してモデル全体を微調整する • テキスト全体で評価する場合、 CLSトークンの出力を用いることが多い：

• 固有表現認識のように、トークン単位の問題設定を解く場合は、各トークンの出力埋込に対して層を定義する： 3.3 BERT・RoBERTa（エンコーダ）ファインチューニング下流タスク用の層を追加してモデル全体を微調整する

3.3 BERT・RoBERTa（エンコーダ） AutoModelに対してモデル名とコンフィグを指定ファインチューニング例 • モデルとトレイナを定義し、trainメソッドを実行する https://colab.research.google.com/github/ghmagazine/llm-book/blob/main/chapter5/5-2-sentiment-analysis-finetuning-wrime.ipynb#scrollTo=fd5e5f59

3.4 T5（エンコーダ・デコーダ） T5 エンコーダ・デコーダ構成のTransformer text-to-text形式で下流タスクまで解く • T5：Text-to-Text Transfer Transformerの頭文字 •
系列変換の設定で、生成だけでなく分類や推論も解く。ただし文書分類やトークン単位の分類では、精度でBERTが優れる

モデル名入力埋込関連性スコア BERT T5 • T5では位置埋込は用いず、相対位置埋込を利用する。注意機構においてクエリとキーの距離を、関連性スコア算出に導入する 3.4 T5（エンコーダ・デコーダ）
入力表現注意機構において相対位置埋込を採用

3.4 T5（エンコーダ・デコーダ）論文「Music Transformer」にて音楽データに対して有効性が示される相対位置埋込 • 音楽における、ピッチ（音程）は相対的な位置情報が重要であり、そのような動機から提案
• トレーニングデータに現れない長い系列データをデコード可能 https://arxiv.org/pdf/1809.04281.pdf https://qiita.com/masaki_kitayama/items/01a214c07b2efa8aed1b

3.4 T5（エンコーダ・デコーダ）事前学習ランダムにマスクしたスパン（長さが1以上のトークン列）を予測 • スパンに含まれるトークン数の合計が15%、スパンが持つトークン数の平均長が3となるようにマスク、対数尤度を最適化する

3.4 T5（エンコーダ・デコーダ）ファインチューニング複数タスクを同一モデルで学習（マルチタスク学習） • 言語生成の枠組みで、分類、翻訳、推論等を解く • タスクを区別できるように、特殊トークンを接頭辞として追加

3.5 多言語モデル他言語への適用「コーパスを差し替える」「複数言語のコーパス」を使うと、他言語にも適用可能 • BERTやT5は、提案時は英語コーパスで検証されたが、データを変えることで英語以外にも適用できる •
複数の言語を含んだコーパスを用いると、1つのモデルで複数の言語にも対応できる（e.g. 多言語BERT、mt5などの実績） ◦ 多言語モデルは言語に依存しない表現を内部的に獲得していることが示唆され、言語横断転移学習ができると知られる

3.6 トークナイゼーション大規模言語モデルのトークン単語や文字ではなくサブワードを利用する • 単語：トークンの種類が増える（確率計算のコスト増、埋込行列の容量が大きく）、トークンの頻度が偏る •
文字：トークンの種類が減るが系列長が長く • サブワード（単語と文字の中間的な表現）をトークンに：語彙の大きさ・系列長などのバランスが良い

3.6 トークナイゼーションバイト対符号化既定の語彙の大きさとなるように、文字からサブワードを構築する • バイト対符号化（byte-pair encoding）：テキストに含まれる全ての文字をサブワードとし、収束するまで次の操作を行う ◦
隣接するサブワードの組の中で最も頻度が高いものを探す ◦ サブワードの組を語彙に追加する ▪ 語彙の大きさ・操作の回数で収束しているかを判断する • ステップ数が0の時は文字分割、無限の時は単語分割と等価

3.6 トークナイゼーションバイト対符号化既定の語彙の大きさとなるように、文字からサブワードを構築する • たのしい×6、たのしさ×2、うつくしい×4、うつくしさ×1のテキストが与えられたとし、BPEの処理の例を示す

3.6 トークナイゼーション WordPiece BPEと類似したアルゴリズムだが頻度ではなく独自のスコア関数で選定 • 以下のスコアが最高のサブワードを優先する： ◦ これは、朦朧↔朧のように、登場したら高い確率で上位のサブワードを構成するような事例が優先される
• 得られた語彙を元に、最長一致法でテキストを分割する

3.6 トークナイゼーションサブワード候補を算出しユニグラムモデルを学習して分割参考： sentence piece • ユニグラムモデルの学習後、尤度の高いパスをサブワード列に ◦
事前の単語分割は不要 https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/P6-13.pdf

3.6 トークナイゼーション日本語の扱い形態素解析とBPE（or WordPiece）を組合せることが多い • 形態素解析なしだと、サブワードが単語の境界にまたがる場合がモデル名トークナイザ
分割例 xlm-roberta-bas e BPE （＝文ベースBPE） ['▁', '自然', '言語', '処理', 'に', 'ディー', 'プラ', 'ー', 'ニング', 'を使う'] cl-tohoku/bert- base-japanese-v 3 MeCab+WordPiece ['自然', '言語', '処理', 'に', 'ディープ', 'ラー', '##ニング', 'を', '使う'] sonoisa/t5-base -japanese SentencePiece ['▁', '自然', '言語', '処理', 'に', 'ディープ', 'ラー', 'ニング', 'を使う']

3章のまとめまとめ大規模言語モデルの基礎的な知識を説明 • Transformer系の基本モデルを紹介 ◦ 初代GPT、BERT、T5 ◦ 事前学習やファインチューニング •
トークナイゼーション ◦ BPE、WordPiece、SentencePiece • 次回の発表者： ◦ 4章 2/5（月）シンプルフォーム社の杉さん ◦ 5章以降：募集中

大規模言語モデル入門_第三章

大規模言語モデル入門_第三章

Masayuki Komai

More Decks by Masayuki Komai

Featured

Transcript

大規模言語モデル入門　輪読会第3章大規模言語モデルの基礎 Presenter 駒井雅之（@rindybell） 2024.1.22 @ https://opendatalab.connpass.com/

自己紹介 • 駒井雅之 • 32歳（1991年 4月24日誕） • 2016年4月 NTTデータに入社 •

シンプルフォーム社のご紹介エンジニアも積極採用中です！ https://www.simpleform.co.jp/#about

生成AIハッカソンもやります！ https://simpleform.connpass.com/event/292843/

本発表のゴール大規模言語モデルの基礎的な知識を身に着ける • Transformer系の基本モデル ◦ 初代GPT、BERT、T5 • 多言語モデルへの展開 •

第3章　大規模言語モデルの基礎

3.1 単語の予測から学習できること学習できることトークンを予測する学習から常識的・文法的な知識を獲得できる図　テキストとトークン予測の例

3.2 GPT（デコーダ） GPT Transformerを採用した最初の大規模言語モデル • 2018年にOpenAIが提案 • Generative Pre-trained

3.2 GPT（デコーダ）入力表現トークン埋込+位置埋込によって入力埋込を得る • トークン列の長さがKで与えられ、トークン埋込をe、位置埋込をpとすると、位置iの入力埋込は以下の式より得る： ◦ GPTには、x_1,

3.2 GPT（デコーダ）事前学習与えられたトークン列から、次のトークンを予測（＝言語モデル） • 言語モデルの目的関数： • 学習時にはマスク処理を導入し効率的にトークン予測

3.2 GPT（デコーダ）ファインチューニング下流タスク用の層を追加し、下流タスクのデータでモデル全体を最適化追加した層ファインチューン時は全体を最適化することが多い（ヘッド部のみを学

3.2 GPT（デコーダ）ファインチューニング下流タスク用の層を追加し、下流タスクのデータでモデル全体を最適化 • ファインチューニング部分の目的関数： • モデル全体に関する目的関数（Lptは言語モデル部分、λは二

3.3 BERT・RoBERTa（エンコーダ）入力表現テキストの先頭や接点に特殊トークンを追記。BERTはさらにセグメント埋込を導入 • トークン埋込e_w、位置埋込p_i、セグメント埋込s_mとしたとき、BERTの入力埋込：

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習「マスク言語モデル」「次文予測」の問題設定でモデルを最適化

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習トークン列の一部を隠蔽してトレーニングする「マスク言語モデル」 • BERTにトークン列w_1～w_Kを与え、出力埋込 h_iを得た後、次のように計算してトークンw_iの予測確率を得る：

3.3 BERT・RoBERTa（エンコーダ） 1つのベクトル単位に適用する正規化処理参考層正規化 • 隠れ層のベクトル a が与えられ、次の式で正規化する ◦

3.3 BERT・RoBERTa（エンコーダ） 1つのベクトル単位に適用する正規化処理参考層正規化 • g=[1 1]、b=[0, 0]、f(x) =

3.3 BERT・RoBERTa（エンコーダ）参考ガウス誤差線形ユニット ReLUと類似した形状の連続的な非線形関数参考：https://cvml-expertguide.net/terms/dl/layers/activation-function/relu-like-activation/gelu/

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習二つのテキストが連続関係にあるかを予測する「次文予測」 • BERTにおいて、CLSトークン部分の出力値のh_clsを用いて、次の式で隣接文かどうかを予測する： ◦

3.3 BERT・RoBERTa（エンコーダ） BERTの事前学習 BERTの事前学習は「マスク言語モデル」と「次文予測」の双方から構成 • BERTの損失関数は2種損失を組み合わせている • 先ほどのh_poolのように、複数の特徴を集約する処理を

3.3 BERT・RoBERTa（エンコーダ）ファインチューニング下流タスク用の層を追加してモデル全体を微調整する • テキスト全体で評価する場合、 CLSトークンの出力を用いることが多い：

• 固有表現認識のように、トークン単位の問題設定を解く場合は、各トークンの出力埋込に対して層を定義する： 3.3 BERT・RoBERTa（エンコーダ）ファインチューニング下流タスク用の層を追加してモデル全体を微調整する

3.4 T5（エンコーダ・デコーダ） T5 エンコーダ・デコーダ構成のTransformer text-to-text形式で下流タスクまで解く • T5：Text-to-Text Transfer Transformerの頭文字 •

モデル名入力埋込関連性スコア BERT T5 • T5では位置埋込は用いず、相対位置埋込を利用する。注意機構においてクエリとキーの距離を、関連性スコア算出に導入する 3.4 T5（エンコーダ・デコーダ）

モデル名入力埋込関連性スコア BERT T5 • T5では位置埋込は用いず、相対位置埋込を利用する。注意機構においてクエリとキーの距離を、関連性スコア算出に導入する 3.4 T5（エンコーダ・デコーダ）

3.4 T5（エンコーダ・デコーダ）論文「Music Transformer」にて音楽データに対して有効性が示される相対位置埋込 • 音楽における、ピッチ（音程）は相対的な位置情報が重要であり、そのような動機から提案

3.5 多言語モデル他言語への適用「コーパスを差し替える」「複数言語のコーパス」を使うと、他言語にも適用可能 • BERTやT5は、提案時は英語コーパスで検証されたが、データを変えることで英語以外にも適用できる •

3.6 トークナイゼーション大規模言語モデルのトークン単語や文字ではなくサブワードを利用する • 単語：トークンの種類が増える（確率計算のコスト増、埋込行列の容量が大きく）、トークンの頻度が偏る •

3.6 トークナイゼーションバイト対符号化既定の語彙の大きさとなるように、文字からサブワードを構築する • たのしい×6、たのしさ×2、うつくしい×4、うつくしさ×1のテキストが与えられたとし、BPEの処理の例を示す

3.6 トークナイゼーションサブワード候補を算出しユニグラムモデルを学習して分割参考： sentence piece • ユニグラムモデルの学習後、尤度の高いパスをサブワード列に ◦

3.6 トークナイゼーション日本語の扱い形態素解析とBPE（or WordPiece）を組合せることが多い • 形態素解析なしだと、サブワードが単語の境界にまたがる場合がモデル名トークナイザ

3章のまとめまとめ大規模言語モデルの基礎的な知識を説明 • Transformer系の基本モデルを紹介 ◦ 初代GPT、BERT、T5 ◦ 事前学習やファインチューニング •