Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデル入門_第三章

Masayuki Komai
January 22, 2024
300

 大規模言語モデル入門_第三章

- 発表者のTwitterアカウント: https://twitter.com/rindybell
- OpenDataLab: https://opendatalab.connpass.com/
- シンプルフォーム株式会社: https://www.simpleform.co.jp/

Masayuki Komai

January 22, 2024
Tweet

Transcript

  1. 自己紹介 • 駒井雅之 • 32歳(1991年 4月24日誕) • 2016年4月 NTTデータに入社 •

    2021年7月 シンプルフォーム社に入社 • 趣味は筋トレ、脱出ゲーム、 カレー作り、ボードゲーム等 • Twitter: @rindybell アジャンタ石窟(インド)にて
  2. 3.2 GPT(デコーダ) GPT Transformerを採用した 最初の大規模言語モデル • 2018年にOpenAIが提案 • Generative Pre-trained

    Transformerのそれぞれの頭文字 • GPTは7,000冊の書籍から作成したコーパスで事前学習 注意事項 GPT~GPT-3の比較は第4章で示される。 本章では初代のGPTにフォーカスして仕組みを説明している。
  3. 3.3 BERT・RoBERTa(エンコーダ) 1つのベクトル単位に適用する正規化処理 参考 層正規化 • 隠れ層のベクトル a が与えられ、次の式で正規化する ◦

    データのばらつきを抑え、学習を効率化する効果がある ◦ バッチ正規化と異なり、サンプル単位で正規化する ※ fは活性化関数
  4. 3.4 T5(エンコーダ・デコーダ) T5 エンコーダ・デコーダ構成のTransformer text-to-text形式で下流タスクまで解く • T5:Text-to-Text Transfer Transformerの頭文字 •

    系列変換の設定で、生成だけでなく分類や推論も解く。 ただし文書分類やトークン単位の分類では、精度でBERTが優れる
  5. 3.4 T5(エンコーダ・デコーダ) 論文「Music Transformer」にて 音楽データに対して有効性が示される 相対位置 埋込 • 音楽における、ピッチ(音程)は相対的な位置情報が重要であり、 そのような動機から提案

    • トレーニングデータに現れない長い系列データをデコード可能 https://arxiv.org/pdf/1809.04281.pdf https://qiita.com/masaki_kitayama/items/01a214c07b2efa8aed1b
  6. 3.5 多言語モデル 他言語へ の適用 「コーパスを差し替える」「複数言語のコー パス」を使うと、他言語にも適用可能 • BERTやT5は、提案時は英語コーパスで検証されたが、データを変 えることで英語以外にも適用できる •

    複数の言語を含んだコーパスを用いると、1つのモデルで複数の 言語にも対応できる(e.g. 多言語BERT、mt5などの実績) ◦ 多言語モデルは言語に依存しない表現を内部的に獲得してい ることが示唆され、言語横断転移学習ができると知られる
  7. 3.6 トークナイゼーション 大規模言語モデル のトークン 単語や文字ではなく サブワードを利用する • 単語:トークンの種類が増える(確率計算のコスト増、埋込行列 の容量が大きく)、トークンの頻度が偏る •

    文字:トークンの種類が減るが系列長が長く • サブワード(単語と文字の中間的な表現)をトークンに:語彙の 大きさ・系列長などのバランスが良い
  8. 3.6 トークナイゼーション バイト対符号化 既定の語彙の大きさとなるように、 文字からサブワードを構築する • バイト対符号化(byte-pair encoding):テキストに含まれる全 ての文字をサブワードとし、収束するまで次の操作を行う ◦

    隣接するサブワードの組の中で最も頻度が高いものを探す ◦ サブワードの組を語彙に追加する ▪ 語彙の大きさ・操作の回数で収束しているかを判断する • ステップ数が0の時は文字分割、無限の時は単語分割と等価
  9. 3.6 トークナイゼーション 日本語の扱い 形態素解析とBPE(or WordPiece)を 組合せることが多い • 形態素解析なしだと、サブワードが単語の境界にまたがる場合が モデル名 トークナイザ

    分割例 xlm-roberta-bas e BPE (=文ベースBPE) ['▁', '自然', '言語', '処理', 'に', 'ディー', 'プラ', 'ー', 'ニング', 'を使う'] cl-tohoku/bert- base-japanese-v 3 MeCab+WordPiece ['自然', '言語', '処理', 'に', 'ディープ', 'ラー', '##ニング', 'を', '使う'] sonoisa/t5-base -japanese SentencePiece ['▁', '自然', '言語', '処理', 'に', 'ディープ', 'ラー', 'ニング', 'を使う']
  10. 3章のまとめ まとめ 大規模言語モデルの基礎的な知識を説明 • Transformer系の基本モデルを紹介 ◦ 初代GPT、BERT、T5 ◦ 事前学習やファインチューニング •

    トークナイゼーション ◦ BPE、WordPiece、SentencePiece • 次回の発表者: ◦ 4章 2/5(月)シンプルフォーム社の杉さん ◦ 5章以降:募集中