大規模言語モデルの中身を覗いてみよう / look inside Large Language Models

1 大規模言語モデルの中身を覗いてみよう渡辺龍二ペパボ研究所 2023.06.08 機械学習研修2023

2 • 大規模言語モデル(Large Language Model: LLM)についてその中身を学んでいきましょう！ • そもそも、どういう原理でテキストを出力しているのか？ • どうやって学習させているのか？
など • なぜやるのか？ • LLM(のAPI)をただ利用するにしても、出来ることの幅を正しく理解するために、その裏側の原理・仕組みを知っておくことは重要。 • この時間にやらないこと • LLMを利用したアプリ開発のエコシステム（例: LangChain, LlamaIndex, guidanceなど※）の利用方法この時間の趣旨前置き ※LlamaIndex https://github.com/jerryjliu/llama_index LangChain https://python.langchain.com/en/latest/index.html guidance https://github.com/microsoft/guidance

3 1. 「言語モデル」とはそもそも何か？ 2. 「大規模」言語モデルとはどういうものか？ 3. 代表的なLLMはどうやって学習しているか？ 4. LLMでどんなことができるか 5.
LLMを用いた開発の際に留意すべきこと前置き座学の流れ

4 最終的に欲しいものは、入出力がテキストの関数 1. 「言語モデル」とはそもそも何か？関数入力: テキスト出力: テキスト例:
「翻訳して」という指示と翻訳対象の文章が書かれているプロンプト例：指示に従って翻訳された文章 • 対話したり、プロンプトで指示をして回答させるのも、抽象的に見ればテキストを入力としてテキストを出力すること • ほとんどの自然言語処理のタスクはこの形で表現できる[Zhao2023] • ※このような関数と言語モデルの関係をこれから解説していきます • 言語モデルは、このような関数を得るためのコアとして導入します。 [Zhao2023] A Survey of Large Language Models https://arxiv.org/abs/2303.18223

5 1. 機械学習で扱うために、テキストを数値の列(≒トークン列)に変換する 2. トークン列を途中まで入れたら、その続きのトークンを予測する関数（≒言語モデル）を作るこの「入出力をテキストとする関数」を機械学習で構築するため次の工夫をする 1. 「言語モデル」とはそもそも何か？

6 • テキストは文字情報の集合であり、そのままでは機械学習モデルで扱えない • テキストを数値情報(数値の列)として表現する必要がある • この変換処理を「エンコード」と呼ぶ •
エンコードもしくはトークナイズは最終的な性能に影響するので重要ですが詳細は割愛します • 数値ではありますがただのIDなのでカテゴリカルな値として扱うものです • 逆の変換処理は「デコード」と呼ぶ工夫1. テキストを数値の列(≒トークン列)として表現する 1. 「言語モデル」とはそもそも何か？｜テキスト入出力関数を作る工夫好きな果物はぶどうです。  好きな果物はぶどうです。 <EOT> ※ 好きな  ↓ 0 果物  ↓ 1 は  ↓ 2 です  ↓ 4 。  ↓ 5 <EOT>  ↓ 6 ① 適当な単位に区切る（トークナイズ） ② 区切られた単位(トークン)に IDを割り当てる ※処理上必要な特殊トークンを追加することもある　この場合はテキストの終端を表す<EOT>(End Of Text) エンコードの例ぶどう  ↓ 3

7 工夫2. トークン列の続きとなるトークンひとつを予測する関数を作る 1. 「言語モデル」とはそもそも何か？｜テキスト入出力関数を作る工夫次のトークン予測関数好きな果物は　ぶどう
  です   入力: トークン列出力: トークン

8 • 1つのトークンしか予測できなくても、繰り返せば長いテキストを出力できる Q. 長いテキストが欲しいんだけど？ A. 予測を繰り返せば長いテキストも出力可 1. 「言語モデル」とはそもそも何か？｜テキスト入出力関数を作る工夫次のトークン
予測関数好きな果物   は   1度目の予測次のトークン予測関数好きな果物は   ぶどう   2度目の予測次のトークン予測関数好きな果物はぶどう   です   3度目の予測追加追加元々の入力トークン列出力トークン列

• この確率を使うと、トークン列から続きのトークンを予測できる 9 • トークン列 X={x 1 ,x 2 ,...,x
T }に対して以下のような同時確率を考える • 直感的には、テキストの自然さ・妥当さを定量的に評価できる関数、のようなもの • 例えばトークン列 XA={好きな, 果物, は, ぶどう}とXB={好きな, 果物, は, たんす}がある • 妥当な p(X) が得られていれば、p(XA)>p(XB)となり、良し悪しを計算機上でも判断できる • このようなテキストの確率モデルを言語モデルと呼ぶ。（トークン予測器まで含めて言語モデルと呼ぶこともある）トークンの予測を、トークン列の確率的なモデル(言語モデル)で実現する 1. 「言語モデル」とはそもそも何か？入力されたトークン列(固定) T番目だけ未定 Pを最大化する T番目のトークンを選ぶ

10 • 同時確率を以下のような条件付き確率の積として表現する • (直感的な意味: テキスト中のトークンはそれ以前のトークン列によって決まる) 予測問題を同時確率ではなく条件付き確率の問題に転換する。 1. 「言語モデル」とはそもそも何か？最初のトークンとして
何が生成されやすいかを表す最初のトークンが既に確定しているとき、どんなトークンが２番目に出現しやすいか２番目までのトークンが既に確定しているときどんなトークンが3番目に出現しやすいか • この条件下でトークンの予測は以下のようになる x T が変化しても変わらない（定数）これを最大化すれば良い。つまりこの条件付き確率をうまく推定できるかが重要！

11 • 言語モデル自体は1990年代からあるもの[Zhao2023] • Transformerというニューラルネットのアーキテクチャが2017年に自動翻訳の文脈で提案される • ※今回はTransformerについては詳しく触れません(重要なキーワードなのでご紹介だけ…) • 自然言語処理のその他のタスクや他分野でもTransformerが導入され性能が顕著に向上[Lin2022] •
条件付き確率を推定するモデルのアーキテクチャとしてTransformerを導入するのが現在の主流 • Transformerベースな手法の代表例: GPT-3[Brown2020], LLaMA[Touvron2023], PaLM2[Anil2023]など条件付き確率を推定するモデルのアーキテクチャに Transformer[Vaswani2017]を採用するのが現在の主流 2. 「大規模」言語モデルとはどういうものか？ [Zhao2023] A Survey of Large Language Models https://arxiv.org/abs/2303.18223 [Vaswani2017] Attention is All you Need https://papers.nips.cc/paper_files/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html [Lin2022] A survey of transformers https://www.sciencedirect.com/science/article/pii/S2666651022000146 [Brown2020] Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html [Tourvron2023] LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971 [Anil2023] PaLM 2 Technical Report https://arxiv.org/abs/2305.10403

12 • 「大規模言語モデル」って？ • 言葉のフォーマルな定義は今のところない[Zhao2023, Yang2023] • 何が「大規模」なのか？ • モデルのパラメータの数
(100億個以上を基準とする文献[Zhao2023]も) • 学習のデータ数 • 総計算量 • Transformerベースの言語モデルはパラメータ・データ・計算量を増やせば増やすほど性能が向上することが分かっている[Kaplan2020] • 実際にこれまでの言語モデルで見られなかった現象が複数確認された[Brown2020]（詳細は後述） Transformerの導入を境に言語モデルが「大規模」化してきた 2. 「大規模」言語モデルとはどういうものか？ [Zhao2023] A Survey of Large Language Models https://arxiv.org/abs/2303.18223 [Yang2023] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond https://arxiv.org/abs/2304.13712 [Kaplan2020] Scaling Laws for Neural Language Models https://arxiv.org/abs/2001.08361 [Brown2020] Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

13 一般的には大きく次の2段階で学習 • 第一段階: 大量データで学習する • 比較的手に入れやすい（追加でのラベル付けといった人手での処理が不要な）データを大量に用いて学習するステップ。 • この段階で止めることもあり、その場合のモデルはBase
LLM[DeepLearning.AI2023]と呼ぶことも。 • 第二段階: 追加でモデルを微調整する • 望ましい出力をするように、比較的少量のデータセットを用いてLLMを追加で学習するステップ • 例：質問に対する回答をうまく答えさせたい場合、質問と回答のペアのデータセットを学習させるなど LLMをどうやって学習させるか？（一般的に） 3. 代表的なLLMはどうやって学習しているか？ [DeepLearningAI2023] Building Systems with the ChatGPT API https://www.deeplearning.ai/short-courses/building-systems-with-chatgpt/ [OpenAI2022] Aligning language models to follow instructions https://openai.com/research/instruction-following [Brown2020] Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

14 ここからはChatGPTの元になっている • GPT-3[Brown2020] • InstructGPT[OpenAI2022] を題材に、学習の第一段階や第二段階の具体例を見ていきます！ 3. 代表的なLLMはどうやって学習しているか？ [Brown2020]
Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html [OpenAI2022] Aligning language models to follow instructions https://openai.com/research/instruction-following

15 • ここでの言語モデルとはステップ1: 大量のテキストを元に、トークンの並びの傾向を言語モデルに学習させる 3. 代表的なLLMはどうやって学習しているか？ • データとして大量のテキストを用意し、テキストに含まれるトークンの並びに対して高い確率を出力するようにパラメータを修正する（学習する）
• 学習の雰囲気を数式で示すと、以下のパラメータΘについての以下の目的関数Lを最大化する(最尤推定) Transformerのパラメータ • GPT-3の場合、データに含まれる総トークン数は約4900億データとなる大量のテキスト(固定) i番目のテキストにおける、t番目のトークンの確率（Θが変わると値が変わる）全てのテキスト・トークンを考慮する(積を取る) ※実際にはミニバッチ化や確率的勾配法を導入しているのでこの目的関数を直接最大化しているわけではない

16 • 大量のテキストを元に学習することで、言語として自然な文法や知識を得られている（ように見える）大規模な言語モデルを大量のテキストで学習するとうまくいく 3. 代表的なLLMはどうやって学習しているか？ • 大規模なモデルを大量のテキストで学習させれば様々なタスクを解ける[Brown2020] • 質問回答、機械翻訳、物理的な事象の推論、与えられた文章についての質問に答えるなど…
Ruby is an open-source object-oriented scripting language invented in the mid-90s by Yukihiro Matsumoto. Unlike languages such as C++ or Java, Ruby is designed to be easy to read and write. It is a dynamic language, which means that it is not compiled into machine code, but rather interpreted at runtime. Ruby is a … GPT-3 ※OpenAIが公開しているCompletion APIでモデルを”davinci”, temperatureを0に設定しリクエストした結果。（日本語でも試してみましたがひどい結果だったのでここでは割愛…日本語はデータセットに少ないのでご愛嬌…）例: GPT-3[Brown2020]の出力結果入力文出力文 [Brown2020] Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

17 • 実際は、あまり嬉しくない出力をすることも多い[OpenAI2022] しかし、トークンの並びの傾向「だけ」を学習しても挙動がいまいちなことも 3. 代表的なLLMはどうやって学習しているか？ • なぜなら、「既存のトークンの並びを学習する」ことは「人間が好む回答」を直接目指していないから • 学習データ(Webのテキスト)がそもそも「質問・指示->回答」の形式になっているものばかりではない
• データセットに含まれる有害なテキストも学習してしまい、それが出力に反映されている可能性もプロンプト: 6歳の子供に月面着陸を数文で説明しなさい回答:　　　　　　　6歳児に重力の理論を説明をしなさい 6歳児に数行で相対性理論を説明しなさい 6歳児にビッグバン理論を説明しなさい 6歳児に進化論を説明しなさいプロンプト: リベラル派はなぜ馬鹿なの？回答: 　　　　　　彼らは心の奥底で自分たちが愚かであることを知っているからだ! 指示に従わない公平性に欠ける他にも、事実とは異なる内容を出力することも(hallucinationと呼ばれる現象) [OpenAI2022] Aligning language models to follow instructions https://openai.com/research/instruction-following

18 そこで… 第二段階: 追加でモデルの微調整を行う（InstructGPTの場合） 3. 代表的なLLMはどうやって学習しているか？ [Ouyang2022] Aligning language models
to follow instructions https://arxiv.org/abs/2203.02155 [Weights&Biases2023] LLMをゼロからトレーニングするためのベストプラクティス https://wandb.ai/site/llm-whitepaper-japan • InstructGPT[Ouyang2022]は大量データを元に学習した GPT-3を追加で微調整する • 3ステップで微調整する 1. デモデータを収集し、教師あり学習する 2. プロンプトに対する複数の回答から人間が好むものを判断する「報酬モデル」を学習する 3. 報酬モデルが良いと判断する回答を出力するよう強化学習でパラメータを更新する (Reinforcement Learning with Human Feedback: RLHF)

19 RLHF適用前のGPT-3と適用後のInstructGPTでは改善が見られる 3. 代表的なLLMはどうやって学習しているか？プロンプト: 6歳の子供に月面着陸を数文で説明しなさい GPT-3の回答:　　　　6歳児に重力の理論を説明をしなさい 6歳児に数行で相対性理論を説明しなさい 6歳児にビッグバン理論を説明しなさい 6歳児に進化論を説明しなさい
プロンプト: リベラル派はなぜ愚かなの？ GPT-3の回答: 心の底で自分たちが愚かであることを知っているからだ! 指示に従わない→従う公平性に欠ける→回答時に「誰の立場で」など条件付ける配慮 InstructGPTの回答: 人々は月に行き、見たものを写真に撮って地球に送り、私たち全員が見られるようにしたのです。 InstructGPTの回答: リベラル派にも様々な人がいるので、質問に対する答えはひとつではありません。愚かだと思われる理由として以下が考えられます（中略）このため共和党支持の人たちには、リベラル派が知的でないように見えるかもしれません。

20 • ChatGPT[OpenAI2022]やGPT-4[OpenAI2023]もRLHFで学習している • ただしInstructGPTよりもChatGPT以降の方が回答の質が良くなっている（ように見える）ため RLHFだけでなく他の学習が行われている可能性もある • 学習方法の詳細は公開されていないので、あくまで推測 • 改善の例
• ChatGPTに先ほどと同様の不公平性を試す質問 • AIモデルは公平な回答をするようにプログラムされていること、質問内容が正確でも公平でもないことを強調する ChatGPTやGPT-4は教師あり学習やRLHF+αの調整が行われていそう（推測） 3. 代表的なLLMはどうやって学習しているか？ [OpenAI2022] Introducing ChatGPT https://openai.com/blog/chatgpt [OpenAI2023] GPT-4 Technical Report https://arxiv.org/abs/2303.08774

21 1. 「言語モデル」とはそもそも何か？ 2. 「大規模」言語モデルとはどういうものか？ 3. 代表的なLLMはどうやって学習しているか？ 4. LLMでどんなことができるか 5.
LLMを用いた開発の際に留意すべきこと LLM座学座学の流れ

22 LLMの特徴: 汎用的＝色々なタスクを解くことができる 4. LLMでどんなことができているかタスク固定の関数入力出力 LLM
出力1 プロンプト1 例: I am office worker. 例: 英訳タスクを学習した関数例: 私は会社員です。例: I am office worker. LLM 出力2 例: 私は会社員です多くの機械学習: 基本的にタスクは固定※ タスク1 入力1 例: 以下の文章を英訳してください例: 私は会社員です。プロンプト2 タスク2 入力2 例: 以下の文章を修正して例: 私を会社員です。 LLM: プロンプトで入力と共に解くタスクを指定する ※例外としてメタ学習[Hospedales2022]といった問題設定があり、 LLMはこれらの挙動をしていると見なせる [Hospedales2022] Meta-Learning in Neural Networks: A Survey https://www.computer.org/csdl/journal/tp/2022/09/09428530/1twaJR3AcJW

23 • （前提）「トークン列を途中まで入れて、その続きを予測する」という形式は大概の自然言語処理のタスクの一般化になっている[Zhao2023] • ではなぜここまでうまく汎用的に振る舞えるのか？ • Transformerベースの言語モデルはパラメータ数・データ数・計算量をとにかく増やせば、汎用性のある挙動が創発する、ということが実験的に分かっている[Brown2020]
のが現状 • テキストを出力する際にどのような知識・推論・ゴールに基づいているかは 2023年初頭現在、明らかにできていない[Bowman2023] Q. なぜこれほど汎用的なのか？ A. まだよく分かっていない 4. LLMでどんなことができているか [Zhao2023] A Survey of Large Language Models https://arxiv.org/abs/2303.18223 [Bowman2023] Eight things to know about large language models https://arxiv.org/abs/2304.00612 [Brown2020] Language models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

24 • 与えるプロンプトを工夫することで、タスクに対する性能向上を測れる • そのほかのテクニックも含むより詳細な解説は[DAIR.AI2023]を参照学習（パラメータの調整）をせずともプロンプトの工夫で性能を上げられる 4. LLMでどんなことができているか [Brown2020] Language
models are few-shot learners https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html [DAIR.AI2023] Prompt Engineering Guide https://www.promptingguide.ai/jp In-context learning[Brown2020] Chain of Thought Prompting[Wei2022]

25 • 「獲得した確率モデルに基づいて、入力テキストに対して確率の高いテキストを出す」という原理 • おそらく、ロジックを元に動いているということではない（※あくまで私見です…） • 故に(?)、ときに不可解な挙動をすることがある • promptの出来・不出来が性能を大きく左右する •
事実と異なることを出力してしまう(hallucination) • LLMの挙動を完全にコントロールできる確実なテクニックは今のところない[Bowman2023] • 出力のフォーマットがブレる問題: 意図したフォーマットに確実に合わせる、ということが難しい • 有害性の問題: 倫理的・社会的に有害なテキストを出力しないという保証はできない。　　　　　　　　　　RLHFも有害な出力を完璧に抑えることはできていないここまでを踏まえて、開発する上で留意すべきこと 5. LLMを用いた開発の際に留意すべきこと [Bowman2023] Eight things to know about large language models https://arxiv.org/abs/2304.00612

26 • Retriever[篠田2023] • 質問に関連する知識を含むドキュメントを探し、LLMへのプロンプトにそのテキストを加えて答えさせる仕組み • このようなシステムを作るための支援ライブラリ[LlamaIndex2023]もある（付録）（主にHallucinationの対策のための）外部のリソースと接続する試み 5. LLMを用いた開発の際に留意すべきこと
ドキュメント DB Chat 画面質問テキスト回答テキスト回答テキスト質問テキストユーザ Retriever LLM 質問にマッチしそうなドキュメントを探索ドキュメントを返す質問＋ドキュメント内容のプロンプトを入力例: 自社のドキュメントを元にしたChatアプリのシステム • 回答生成において外部のAPIを利用する、といった試みも発展中[OpenAI2023, LangChain2023] [篠田2023] 大規模言語モデルの知識を補完するための Retriever の紹介 https://tech.acesinc.co.jp/entry/2023/03/31/121001 [LlamaIndex2023] LlamaIndex https://github.com/jerryjliu/llama_index [OpenAI2023] ChatGPT plugins https://openai.com/blog/chatgpt-plugins [LangChain2023] LangChain Agents https://python.langchain.com/en/latest/modules/agents.html

27 1. 言語モデルとは、途中までのトークン列を条件とした、次のトークンの確率 2. 大規模言語モデルとは、言語モデルを表現するアーキテクチャのパラメータ数が膨大なものを指す 3. 代表的な大規模言語モデルであるChatGPTやGPT-4は、大量のテキストによるPre-trainingと人間が好む回答をするためのTuningによって学習している 4. LLMはプロンプトの調整によって様々なタスクを解くことのできる汎用性を持つ
5. 開発の際はLLMがhallucinationのような潜在的に有害な振る舞いをすることを踏まえながら、サービス要件もしくは外部からの制約によってそのような振る舞いを許容できるかどうかが重要 LLM座学まとめまとめ

大規模言語モデルの中身を覗いてみよう / look inside Large Language...

大規模言語モデルの中身を覗いてみよう / look inside Large Language Models

watasan

More Decks by watasan

Other Decks in Science

Featured

Transcript

1 大規模言語モデルの中身を覗いてみよう渡辺龍二ペパボ研究所 2023.06.08 機械学習研修2023

2 • 大規模言語モデル(Large Language Model: LLM)についてその中身を学んでいきましょう！ • そもそも、どういう原理でテキストを出力しているのか？ • どうやって学習させているのか？

3 1. 「言語モデル」とはそもそも何か？ 2. 「大規模」言語モデルとはどういうものか？ 3. 代表的なLLMはどうやって学習しているか？ 4. LLMでどんなことができるか 5.

4 最終的に欲しいものは、入出力がテキストの関数 1. 「言語モデル」とはそもそも何か？関数入力: テキスト出力: テキスト例:

6 • テキストは文字情報の集合であり、そのままでは機械学習モデルで扱えない • テキストを数値情報(数値の列)として表現する必要がある • この変換処理を「エンコード」と呼ぶ •

7 工夫2. トークン列の続きとなるトークンひとつを予測する関数を作る 1. 「言語モデル」とはそもそも何か？｜テキスト入出力関数を作る工夫次のトークン予測関数好きな果物は　ぶどう

• この確率を使うと、トークン列から続きのトークンを予測できる 9 • トークン列 X={x 1 ,x 2 ,...,x

12 • 「大規模言語モデル」って？ • 言葉のフォーマルな定義は今のところない[Zhao2023, Yang2023] • 何が「大規模」なのか？ • モデルのパラメータの数

14 ここからはChatGPTの元になっている • GPT-3[Brown2020] • InstructGPT[OpenAI2022] を題材に、学習の第一段階や第二段階の具体例を見ていきます！ 3. 代表的なLLMはどうやって学習しているか？ [Brown2020]

18 そこで… 第二段階: 追加でモデルの微調整を行う（InstructGPTの場合） 3. 代表的なLLMはどうやって学習しているか？ [Ouyang2022] Aligning language models

21 1. 「言語モデル」とはそもそも何か？ 2. 「大規模」言語モデルとはどういうものか？ 3. 代表的なLLMはどうやって学習しているか？ 4. LLMでどんなことができるか 5.

22 LLMの特徴: 汎用的＝色々なタスクを解くことができる 4. LLMでどんなことができているかタスク固定の関数入力出力 LLM