ChatGPT 人間のフィードバックから強化学習した対話AI

ChatGPT ⼈間のフィードバックから強化学習した対話AI 東京⼤学⼤学院⼯学系研究科技術経営戦略学専攻今井翔太 Email: [email protected] Twitter：今井翔太
/ Shota Imai@えるエル @ImAI_Eruel

本資料について n 本資料は，OpenAIが12⽉1⽇に公開した対話AI「ChatGPT」について，今井が関連する話題，研究をまとめたものです n 現時点では，ChatGPTそのものに関する論⽂は公開されていないため，技術的な情報は既存研究からの推測に⼤きく依存します n 本資料はChatGPTの反響に対する速報版資料ともいうべきもので，今後アップデートされる可能性があります
n 実はこの資料の解説⾃体が，⼀部ChatGPTの出⼒を使って作られています Shota Imai | The University of Tokyo 2 Reinforcement Learning Is All You Need

もくじ n ChatGPT n GPTとその関連技術 n ChatGPTのコア技術InstructGPT n 参考資料 Shota
Imai | The University of Tokyo 3

ChatGPT Shota Imai | The University of Tokyo 4

ChatGPT n 12⽉1⽇にOpenAIが公開した対話AIで，今までのGPTシリーズに⼈間からのフィードバックをもとにした強化学習を⾏ない，⼈間に対して「好ましい」出⼒をするように学習された⾔語モデル ChatGPTのブログポスト：https://openai.com/blog/chatgpt/ ChatGPT：https://chat.openai.com/chat n 今までの⾔語モデルと⽐較して明らかに性能が向上しており，⽇本語にも対応．ほとんどの質問に対する⾃然な回答，コピペで動く⾼度なプログラミングコードの⽣成，翻訳，⽂章構成，⽂章要約，⽂章校正が可能
n 現時点（2022年12⽉7⽇）では，ChatGPTそのものに関する論⽂は公開されておらず，Research Previewとして，ブログの投稿と，試⽤サイトが公開されているのみ ※ChatGPTを利⽤したフィードバックのコンテストの締切が12⽉31⽇であるため，最低でもそこまでは公開されていると考えられる Shota Imai | The University of Tokyo 5

ChatGPT / みんなの反応 n 世界中のテクノロジー界隈の著名⼈が絶賛 n テクノロジーの歴史における稀に⾒る⾰命という認識も Shota Imai |
The University of Tokyo 6

ChatGPTでできること⾔語を使う，⾔語で完結するものであればほとんどなんでもできる n 質問回答 - ⼤体の質問には回答してくれ，それなりに事実に基づき，提⽰される情報も豊富 - ただし，確定した事実や数字・論理に関わることは苦⼿ n ⽂章校正
- ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や，英⽂校正みたいに正しい英語に書き直してくれる n ⽂章要約 - かなりの⻑⽂でも要点を抑えて要約できる - 論⽂や書籍も記憶しているようで，タイトルを投げたらそのまま要約も返してくれる n プログラミングコードの⽣成 - そのままコピペして実⾏可能なコードを⽣成してくれる - コピペだけで Webサービスや，ゲームを作れるレベルのコードの⽣成が可能 - エラーが出た場合は，それを⼊⼒すると，エラーを回避するようなプログラムを提案してくれる n 提案 - 「〜を書いてみてください」，「~提案してください」とすることで，まだ存在しない未知の物事や計画などを書いてくれるその他⾊々 Shota Imai | The University of Tokyo 7

ChatGPTの出⼒⾊々 Shota Imai | The University of Tokyo 8

ChatGPTの技術 / 概要 n 基本的には，GPT-3に対して強化学習（RLHF; Reinforcement Learning from Human Feedback）を⾏なったInstructGPTをベースにしていると考えられる
n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ，2022年初頭に学習されたこのシリーズのモデルに微調整を加えたのがChatGPT n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると，実際にはInstructGPTをベースに相当な試⾏錯誤があったと考えられ，論⽂に書いてある実装・⼿法とは異なる点も多そう n 学習のインフラにはAzureを使⽤ ※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している n ChatGPTはGPTの出⼒に，ModerationAPIによるフィルタをかけたものを最終的な出⼒にしている Shota Imai | The University of Tokyo 9

ChatGPTのコア技術 / InstructGPT n ChatGPTのコアとなっている技術と考えられ，GPT-3に対して⼈間のフィードバックにもとづく強化学習（RLHF; Reinforcement Learning from Human
Feedback）を⾏なったモデル - Training language models to follow instructions with human feedback - https://arxiv.org/abs/2203.02155 n 本資料で詳しく解説 Shota Imai | The University of Tokyo 10

ChatGPTの技術 / ModerationAPI n GPTの出⼒に有害なコンテンツが含まれているかを評価し，アプリケーションにおける有害な動作を防ぐ n OpenAI APIのユーザも使⽤可能 n
テクニカルペーパーも公開されている - A Holistic Approach to Undesired Content Detection in the Real World - https://arxiv.org/abs/2208.03274 Shota Imai | The University of Tokyo 11

補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ n OpenAIはいくつかのGPTの学習されたモデル，APIを運⽤している - これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある - 例えば単に「GPT-3」と⾔った場合，それが指す学習済みモデルは複数存在する（GPT-3
6.7B, GPT-3 2.7B, GPT-3 175Bなど） - それらのモデルに対して，異なるAPIが割り当てられている n 現在の最新モデルは，GPT-3 （or Codex）ベースのモデルに対して強化学習を⾏なった InstructGPTのモデルで，text-davinci-002, text-davinci-003等のモデルとAPIが公開されている n 特に以下のモデルはGPT-3.5シリーズと呼ばれ，ChatGPTもこのモデルを元にしている - code-davinci-002 - text-davinci-002 - text-davinci-003 Shota Imai | The University of Tokyo 12

text-davinci-003とその利⽤ n ChatGPTの公開直前である11⽉末に公開されたモデルで，APIが公開されているモデルの中では最も性能が⾼いモデル n ChatGPTはこれの亜種，調整版と考えられる（あくまで推測） n OpenAIのアカウントを持っていれば，OpenAIのPlaygroundから利⽤できる https://beta.openai.com/playground Shota
Imai | The University of Tokyo 13 ※この対話の真偽は不明

GPTとその関連技術 Shota Imai | The University of Tokyo 14

GPTとは？ n GPTは「Generative Pre-trained Transformer」の略で，OpenAIが開発している Transformerベースの⼤規模な事前学習済み⾔語モデルを指す n 初代GPTからGPT-2，CPT-3までの研究論⽂が公開されており，WebGPTなどの亜種も存在 n
実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じてプログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある n モデルのサイズが⾮常に⼤きい（GPT-3で1750億）ことと，GPT以前の⾔語⽣成AIと⽐べて圧倒的に性能が⾼いことが特徴で，シリーズが公開される度に話題に Shota Imai | The University of Tokyo 15

GPTの学習 1. Webからテキストデータをクローリングして集める 2. テキストからデータに使えるものを取捨選択，整形 3. 巨⼤なTransformer（ニューラルネットワーク）に対し，集めたデータから作った⼤量の⽳埋め問題を学習させる Shota Imai
| The University of Tokyo 16 Wikipedia Reddit 学術サイト github Webから集めるデータ GPT このりんごはとてもおいしい Transformerベースのニューラルネットワーク

Transformer Attention Is All You Need n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮している深層学習のアーキテクチャであり，self-attentionがコア技術 n
もともとは，機械翻訳を⾏う⼿法として提案されたが，現在では翻訳にとどまらず，画像認識，強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮 n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため，詳細はそちらを参照 Shota Imai | The University of Tokyo 17

⾔語モデル（Language Model） n 単語や⽂章が⽣成される確率をモデル化したもの n 例えば，以下のような⽂の⽳埋め問題で，「このりんごはとても」までを⼊⼒して，次の（）にはいる単語の確率を出⼒し，最も⾼い確率の単語を割り当てる⽂：このりんごはとても（）
(1) おいしい 0.8 (2) 寂しい 0.1 (3) です 0.05 (4) ペン 0.05 →「おいしい」を出⼒ n 近年はTransformerをベースにした⾔語モデルがほとんどで，特に⼤規模なTransformerを使⽤したものを⼤規模⾔語モデル（LLM; Large Language Models），⼤量の⾔語データで学習したものを事前学習モデル（⼤規模事前学習⾔語モデル）と呼ぶ Shota Imai | The University of Tokyo 18

プロンプト（Prompt） n ⾔語モデルの出⼒を得る（促す, Prompt）ために，⾔語モデルに⼊⼒する⽂字列，指⽰⽂を指す n ⾔語モデルの知識から所望の出⼒（プログラムコード，提案，翻訳⽂，質問回答）を得るには，適切なプロンプトを⼊⼒する必要がある n ⾔語モデルのほか画像の⽣成モデルを含む，いわゆる「⽣成AI」の普及に伴い，最近は
「呪⽂（Spell）」などと呼ばれることも n プロンプトを⼯夫してAIに所望の出⼒をさせる技法の試みはプロンプトエンジニアリングとも Shota Imai | The University of Tokyo 19 プロンプトプロンプトに対する⾔語モデルの出⼒

GPT Improving Language Understanding by Generative Pre-Training n Transformerのデコーダをベースにラベルなしの事前学習を⾏い，タスクに応じた少数のラベル付きファインチューニングを⾏なって，さまざまなタスクで性能を評価した
n GPTは少数のラベル付きデータのファインチューニングのみで，常識推論，質問応答などのタスクで，各タスクに特化したモデルを超える性能を達成 n パラメータ数は170m（1億1700万） Shota Imai | The University of Tokyo 20

GPT-2 Language Models are Unsupervised Multitask Learners n GPTのモデルはほとんど変更せず，パラメータ数が⼤きいモデルに⼤規模な事前学習のみを⾏なって，特定タスクにおけるラベル付きの学習は⾏わなずzero-shot,
の設定で性能が出るようにしたモデル - zero-shot：例を⼀歳与えずに新しいタスクを解かせる n パラメータ数は15億 Shota Imai | The University of Tokyo 21 zero-shotの例

GPT-3 Language Models are Few-Shot Learners n GPT-2のアーキテクチャはほぼそのままに，モデルのパラメータ数を175B（1750億）にした超⼤規模⾔語モデル n
GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで，⼤規模モデルの性能に関する本格的な議論が始まった元祖 n パラメータ数を極限まで増やしたことで，突如できるようになるタスクが存在する，振る舞いが明らかに変わるなどの現象が確認された 22

CodeX, Copilot Evaluating Large Language Models Trained on Code n
GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングしたパラメータ数120億のモデルを使⽤ n 最終的には77.5%の割合で評価のテストに通るモデルに Shota Imai | The University of Tokyo 23

基盤モデル（Foundation Model） n GPTシリーズなども含め，⼤規模な深層学習のモデルを膨⼤なデータで学習し，様々な応⽤の基盤（Foundation）にできるモデルの総称で，スタンフォード⼤学の研究者らの論⽂“On the Opportunities and Risks
of Foundation Models”で提唱された概念 n 現在までに，⾔語，画像，⾳声，⾏動，プログラムなど様々なモーダルを扱える基盤モデルが登場し，AIの研究で特に注⽬され，産業応⽤が期待・すでに実⽤化 n 億を超える⼤量パラメータのモデルであることを特徴とし，学習には膨⼤なデータと計算資源が要求される Shota Imai | The University of Tokyo 24 DALL・E，Imagen, StableDiffusion, Magic3D等（⾔語→画像，⾔語→3Dモデル） CodeX （⾔語→コード） GPTシリーズ，PaLM，FLAN等（⾔語→⾔語） whisper （⾳声→⾔語） Gato （⾔語，画像，⾏動→⾔語，画像，⾏動）

ChatGPTのコア技術 InstructGPT Shota Imai | The University of Tokyo 25

ChatGPTに関連する⼿法・論⽂ n 基本的には，GPT-3をさらに⼈間の嗜好に合うように強化学習した InstructGPTをベースにしていると考えられる n 関連論⽂ - Learning to summarize
from human feedback • ⼈間のフィードバックから報酬を⽣成するReward modelを学習し，⾔語モデルの強化学習に使う発想 - Training language models to follow instructions with human feedback • Reward modelによる⾔語モデルの強化学習を，GPT-3に対して本格的に実⾏したInstructGPTに関する論⽂ Shota Imai | The University of Tokyo 26

従来のGPTの問題点 n データセットとして集めた⼤量のWebテキストデータ⾃体には，好ましくないテキストも⼤量に含まれる - 暴⼒的，デマ，陰謀論，極端な政治的主張，倫理に反する内容…など n GPTのような⾔語モデルはデータをもとに，「もっともらしい」⾔語出⼒をするように学習するだけなので，これらの問題を考慮・回避するようにはされていない n
つまり，⼈間「らしい」⾔語の出⼒は可能だが，⼈間が「好ましい」出⼒をするようには学習されていない（例）「会社の上司との関係が悪いのですが，どうしたらいいですか？」という⽂章をGPTに⼊⼒した場合のGPTの出⼒好ましくない出⼒・暴⼒的である，倫理に反する内容も含まれているが，⼈間の⾔語としては⽂法も語彙も破綻しておらず正しい・Webにはこのような⽂章も多量に含まれるまずはその上司を⼀発殴ってやりましょう．暴⼒は全てを解決します．または，その上司が⾔うことをすべて無視するのもいいかもしれません．最終⼿段としては，その上司の秘密情報を⼊⼿して・・・ GPT いくつかの選択肢があります．まずは，上司本⼈と時間をとって⼀対⼀で話合うことが考えられます．他に考えられるのは，その上司のさらに上司にあたる⼈などに相談することです．社内で尽くせる⼿段をとっても解決しない場合，社外の相談機関に頼ることも考えるべきです． GPT 好ましい出⼒・暴⼒的な内容，倫理に反する内容を含まず，⽂法，語彙も正しい・解決策が⼀つではないことを⽰し，⼈間に最終的な判断を委ねる

GPTが⼈間にとって「好ましい」出⼒をするにはどうすべきか 1. Webからテキストを適当に集めて学習するのではなく，⼈間の⽅で，⼊⼒と答えてほしい⽂章のセットを⽤意して学習させる → 教師あり学習（Supervised Fine-Tuning ） 2. 適当に⼊⼒したデータへのGPTの出⼒に対して，好ましさに関するなんらかの「フィー
ドバック」（例えば，1~10点の間で点数づけをする）を与えて学習 →⼈間のフィードバックによる強化学習（RLHF; Reinforcement Learning from Human Feedback） n ChatGPTに先⾏して「InstructGPT」という技術で上記の要素を取り⼊れたGPTを実現 n ChatGPTはこのInstructGPTをさらに⼤規模に学習，調整したものと考えられる Shota Imai | The University of Tokyo 28

ChatGPTのコア技術 InstructGPT n GPT-3などの⼤規模⾔語モデルは，かなりの精度でもっともらしい⽂章出⼒ができるようになったが，事実に反すること，有害なこと，ユーザにとって役に⽴たない⽂章を⽣成することも多かった →アライメント問題 n アライメント（Alignment）：⾔語モデルに⼈間のユーザに沿った好ましい出⼒をさせること
n ⼈間による出⼒の評価をもとに強化学習を⾏うRLHF(Reinforcement Learning from Human Feedback)で⾔語モデルのアラインメントを⾏うことにより，パラメータ数が 100倍以上のモデル（13億 vs. 1750億）よりも， - ⼈間視点で「よい」出⼒に - パラメータが少ないことによる全体的な性能低下は最⼩限 - 事実の出⼒が多く，有害な出⼒が少なく n アライメントを⾏うことにより，⼀部のタスクへの性能が下がってしまう問題（Alignment tax; アライメントの税）も最⼩限 Shota Imai | The University of Tokyo 29

InstructGPTの特徴 n GPT-3などと⽐べて，より⼈間視点で好ましい出⼒を⾏う n GPT-3などと⽐べて，より事実に基づく出⼒を⾏う n GPT-3などと⽐べて，有害な出⼒が減少した n アライメントの結果，有名な⾔語処理タスクの⼀部に対して性能が低下した（alignment tax;
アライメントの税）ものの，その影響は最⼩限 n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能 n 確定した事実に関する間違い（e.g. 都道府県の⾯積，⼈名など），簡単な質問に対する無駄に⻑い回答，誤った前提の質問（e.g. 靴下の⾎液は何⾊ですか？）をそうだと検知できないなど，まだ⽋点がある Shota Imai | The University of Tokyo 30

InstructGPTの性能 n GPT :1750億パラメータを持つ通常のGPT-3 n GPT-prompted：GPT-3に有益なプロンプトを与えたモデル n PPO-ptx：InstructGPT 横軸：モデルのパラメータ数縦軸：出⼒を175Bのモデルの出⼒と⽐較して，
⼈間が「こちらの⽅が良い」と評価した⽐率パラメータが⾮常に⼩さい1.3Bの時点で， 175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している Shota Imai | The University of Tokyo 31

InstructGPTの学習概要 n Step1 - プロンプトのデータを学習するモデルに出⼒させ，そのプロンプトに対する⼈間のlabelerの回答を元に教師あり学習 n Step2 -
あるプロンプトに対する出⼒を複数集め，その出⼒に関する「好ましさ」を，⼈間のlabelerがランク付けする - その後の，そのランク付きデータをもとに，後の強化学習における報酬を⽣成するReward model（RM）を学習 n Step3 - あるプロンプトに対するGPTモデルの出⼒に対して， Reward Modelが報酬を⽣成し，PPOによる強化学習を⾏う n Step3の完了後，強化学習した新しいGPTモデルを使ってStep2~3を⾏う〜という⼿順を繰り返す n この⼿順で学習するベースのモデルは，今まで運⽤していたGPT-3の学習済みモデル Shota Imai | The University of Tokyo 32

Supervised Fine-Tuning (SFT) n プロンプトデータの⼊⼒に対する出⼒を，labelerによる回答をもとに教師あり学習 n 学習は16エポック n 学習率はcosine learning
rate decayで調整 n residual dropout of 0.2 n 最終的なモデルの選定は後述のRMをベースに選ぶ n エポックの初期は過学習していたが，エポックの進⾏とともにRM scoreや⼈間の嗜好にあった出⼒をするように Shota Imai | The University of Tokyo 33

Reward Model（RM） n Labelerがプロンプトの出⼒に対してランク付を⾏い，そのランク付きデータから学習 n 学習に使⽤するモデルは，GPT-3のSFTで学習を⾏なったモデルのうち，パラメータ数 6B（60億）のモデルの最終層のレイヤを除いて，報酬のスカラー値を⼀つ出⼒するようにしたもの - 175BのRMは不安定で機能しなかったとのこと
- この6BのRMを，全てのInstructGPTの学習に使⽤ n labelerは，あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て，それを K=4からK=9の間でランク付する n RMはプロンプト𝑥に対する出⼒yを⼊⼒として，報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける n RMは，出⼒の⽐較を利⽤して以下の損失関数で学習される - 𝑦! はより好ましいランクの出⼒，𝑦" は 𝑦! と⽐較してランクが低い出⼒ - ある１つのプロンプト𝑥に対し，ランク付けされた出⼒K個が存在するため，組み合わせの数は # 𝐶$ 個存在する（ランク数が４個なら % 𝐶$ =6個） - σはシグモイド間数 - この損失の最⼩化により， 𝑟& (𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出すようになる Shota Imai | The University of Tokyo 34

強化学習 n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う n 強化学習のアルゴリズムとしてはPPO（Proximal Policy Optimization）を使⽤ n ここでの環境は，⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみなせる
n プロンプトxに対するモデルの出⼒𝜋"#$（y | x）に対して，⼊⼒xと出⼒yに対するRMによる報酬の出⼒𝑟! (𝑥, 𝑦)を使う - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため，報酬を最⼤化する強化学習によって学習されたモデルは，良い報酬を得る=⼈間に取って好ましい出⼒をするように改善される n 強化学習の⽬的関数を以下にしたものが，PPT-ptxとして⾔及されているInstructGPTのモデル - 𝜋!"#はSFTを⾏なった直後のモデルの出⼒， 𝜋$%が最適化を⾏うGPTモデルのRL⽅策 - ⼀般的なNLPデータセットへの性能低下を防ぐため，それらのデータへの勾配も加えている Shota Imai | The University of Tokyo 35

補⾜ / PPO n 強化学習における⽅策勾配法の⼀つTRPOを，より実装を単純にし，強⼒にしたもの - TRPO（Trust Region Policy Optimization）：⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が，ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約をかけて学習 n 強化学習，⽅策勾配法などの話は⻑くなりすぎるので，資料末の「参考資料」の中から⾃分に適したものを参考にしていただければ Shota Imai | The University of Tokyo 36

プロンプトのデータセット 1/2 n OpenAI AIの利⽤者が実際に使ったプロンプトから構成される ※OpenAI APIの利⽤には「利⽤者のデータが学習に使われること」に賛同する必要がある n 加えて，InstructGPTの学習の評価に参加する⼈（labeler）にもいくつかのプロンプトを書いてもらう
n Plain：任意のテキスト n Few-shot：ある指⽰とそれに対する複数のクエリ，回答 n User-based：OpenAI APIの利⽤に記載されている利⽤例に沿った内容 Shota Imai | The University of Tokyo 37

プロンプトのデータセット 2/2 n 3種類のプロンプトに分ける - SFTデータセット：プロンプトをモデルに与えて，その出⼒に対してLabelerが正しい回答を教師データとして与える時に使う（1万3000データ, labelerデータ含む） - RMデータセット：Reward
Modelの学習の際に，同じプロンプトを複数回モデルに与え，複数回答をlabelerがランク付けする時に使う（3万3000データ, labelerデータ含む） - PPOデータセット：PPOを使った強化学習の際の⼊⼒（状態）として使う（3万1000データ， APIの利⽤者データのみ） n プロンプトデータの96%は英語 Shota Imai | The University of Tokyo 38

プロンプトの例 Shota Imai | The University of Tokyo 39

Labeler n できるだけユーザーが書きそうなプロンプトを想定して書くよう指⽰ n 明らかに意味が通らなかったり，意味があいまいなプロンプトは避ける n 有害な出⼒を誘導するものは避ける n UpworkとScaleAIを通じて，４０⼈を雇った n
潜在的に有害な出⼒を識別するのが得意な⼈たちで，スクリーニングで選別 Shota Imai | The University of Tokyo 40

InstructGPTの評価 n InstructGPTが「アライメント」により，⼈間にとって好ましい⾔語出⼒をできているか評価 n ベースライン - GPT-3：オリジナルのGPT-3のモデル - SFT：SGPT-3にFTのみを⾏い，強化学習をしていないモデル
- PPO：PPOで強化学習するが，⼀般的なデータセットへの勾配を考慮していないモデル - PPO-ptx：⼀般的なデータセットへの勾配も考慮して強化学習したモデル．InstructGPT n 評価の種類 1. Evaluations on API distribution • 学習に使⽤しなかった，OpenAPIの利⽤者のプロンプトを⼊⼒にして，その出⼒を評価 • 175BのSFTモデルをベースモデルにし，⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割合=Win rateを評価指標にする • 暴⼒的な内容，有害な指摘，偏った意⾒の表明，倫理に対する判定などのメタデータをもとにする評価も 2. Evaluations on public NLP datasets • InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価 Shota Imai | The University of Tokyo 41

メタデータによる評価 n 全体的な質，暴⼒的な内容，有害な指摘，偏った意⾒の表明，倫理に対する判定など，いくつかの項⽬を考慮して，モデルの出⼒の質を判定する Shota Imai | The University of
Tokyo 42

実験結果 / API distribution 各モデルのパラメータ数とWin rate n ベースモデル（175BのSFTモデル）の出⼒と，評価対象のモデルの出⼒を⽐較して，⼈間のlabelerが「好ましい」と判断した割合のWin rateが指標
n パラメータ数の多さよりも，強化学習を⾏なったかどうかが圧倒的に効いている - 1.3BのPPOモデルが，その100倍以上のパラメータを持つ175BのGPTモデルに勝る Heldout workers：学習に関わらなかったlabeler Training workers：学習に関わったlabeler Shota Imai | The University of Tokyo 43

実験結果 / API distribution メタデータをもとにした評価 n 強化学習を⾏なったモデルの⽅が，よりプロンプトの指⽰を忠実に守り，適切な出⼒をしている n GPTモデルは，勝⼿に新しい情報をでっちあげて出⼒に混ぜる傾向がある
※Hallucinations：要約のような閉じたタスクで，勝⼿に新しい情報を作り上げること Shota Imai | The University of Tokyo 44

実験結果 /public NLP datasets TruthfulQA dataset n TruthfulQA dataset：38のカテゴリにまたがる817の質問から構成され，確定した事実が存在するが，誤った信念や誤解によって誤答するようなデータセット
n PPOのモデルは多少の改善を⾒せている Shota Imai | The University of Tokyo 45 データセットの例と， GPT-3の間違えた解答例

実験結果 /public NLP datasets RealToxicityPrompts n RealToxicityPrompts：英語のwebのコーパスから集められた，とくに有害性のない⽂章の⼀部分と，有害性を判定するスコアのペアからなるデータセット．この有害性のない⽂章に続いて，有害な⽂を⽣成してしまうかどうかをみる n
Respectfulな指⽰をプロンプトとして与えた場合とそうでない場合も⽐較 n 出⼒⽂の有害性の判定は，⼈間によるものと， PerspectiveAPIに投げた場合のスコアを使⽤ Shota Imai | The University of Tokyo 46 データセットに含まれる⽂の例．この⽂⾃体は全く無害

定性評価 1/2 n 強化学習中にほぼ登場しない⾔語に対しても⾼い性能を⽰す - 学習データの90%以上が英語であるにも関わらず，それ以外の⾔語（プログラミング⾔語含む）に関するタスクも明らかに質が向上している
- GPT-3は，英語以外の指⽰⽂の内容を無視する傾向がある Shota Imai | The University of Tokyo 47

定性評価 1/2 出⼒例「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」というフランス語のプロンプトに対するGPT-3とInstructGPTの出⼒プロンプト：Écrivez une courte histoire sur
une grenouille qui voyage dans le temps jusquʼà la Grèce antique en français. n GPT-3の出⼒（⽇本語訳） “神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができるという話を書いてください” n InstructGPTの出⼒（⽇本語訳） “カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャにたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗るのも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だった。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。 [...]” n GPT-3 は明らかに関係がなく，しかも有害な内容の出⼒をしているが，InstructCPTの⽅はお題に沿った内容 Shota Imai | The University of Tokyo 48

定性評価 2/2 n いまだに簡単なミスはしてしまう - 誤った前提に基づく指⽰を与えると，その誤った内容をそのまま受け⼊れて出⼒してしまう - 簡単な質問に対して，無駄に⻑い回答を出
⼒してしまう．答えが明らかな場合でも，⻑々と考慮する必要がない可能性も答えてしまう - 複数の制約条件があると，性能が低下する（例：1930年にフランスで作られた映画を10個挙げよ） Shota Imai | The University of Tokyo 49

定性評価 2/2 出⼒例1 誤った前提に基づくプロンプトを与えた場合 Why is it important to eat
socks after meditating?（なぜ瞑想後に靴下を⾷べることが重要なのですか？） ※当然，瞑想後に靴下を⾷べるという常識は存在しない n GPT-3の出⼒ “靴下から何を学ぶことができますか？ A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を覚醒したマインドの本当の味を味わっているのです。 Q: ⽬覚めた⼼の本当の味とは何でしょう？本当の味とは何ですか？ A：覚醒した⼼の本当の味は味のない味です。そして、無味の本当の味は無味の味とは、⾜の臭いの味である。” n InstructGPTの出⼒ “この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのではないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。” Shota Imai | The University of Tokyo 50

定性評価 2/2出⼒例2 答えが明らかな簡単な質問を与えた場合 What happens if you fire a cannonball
directly at a pumpkin at high speeds? （カボチャに直接砲弾を⾼速で発射したらどうなるのか？） n GPT-3の出⼒ “かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強い磁⽯です。” n InstructGPTの出⼒ “かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離などが考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅する、などの可能性があります。” Shota Imai | The University of Tokyo 51

InstructGPTの研究から得られた⽰唆 1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較してお⼿軽 - 計算コストは，175BのSFTモデルが4.9 petaflops/s-days，175BのPPO-ptxモデルが60 petaflops/s-days,であり，GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない -
OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら，強化学習によるRLHFの⽅が，パラメータ数を増やすよりも圧倒的に効率が良い 2. InstructGPTは，英語でない指⽰⽂に対しても汎化する - なぜここまで汎化するのかはもっと研究が必要だが，好ましい現象 3. InstructGPTに⽤いられた⼿法で，アライメントによる性能低下を防ぐことができる - アライメントを追求すると，⼀部のタスクの性能が落ちる（alignment tax）が⾔われてきたが，InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる 4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい - 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた - OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究 Shota Imai | The University of Tokyo 52

誰に対するアライメントか n InstructGPTで導⼊された⼿法は，⾔語モデルにより⼈間の好みにあった出⼒を⾏うよう学習する⼿法だが，⼈間が介⼊する以上は，学習中に介⼊する⼀部の⼈間の嗜好の影響を受けてしまう n 例えばInstructGPTにおけるlabelerは，UpworkやScale AIを通じて採⽤した⽶国や東南アジアに住む英語を話す⼈であり，研究中のモデルはこれらの⼈に共通する嗜好に偏っていたかもしれない
n InstructGPTに使うデータは，実際にユーザーが使ったプロンプトではあるが，そもそもこれらのユーザーが”GPTを使うのが有益である”と判断したトピックに偏ったデータになっているかもしれない n OpenAI APIのユーザーは待機リストに登録された⼈から選ばれているが，実際には待機リストの前半はOpenAIの職員であり，OpenAI周辺のコミュニティに偏った出⼒をしているかもしれない Shota Imai | The University of Tokyo 53

参考資料 1/2 n ChatGPTの技術 - ChatGPT: Optimizing Language Models for
Dialogue. https://openai.com/blog/chatgpt/ - Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. Preprint, 2022.（InstructGPT） - Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325. n ⼤規模⾔語モデル・基盤モデル - Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258 - Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. - Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374. Shota Imai | The University of Tokyo 54

参考資料 2/2 n ⾃然⾔語処理，Transformer - IT Text ⾃然⾔語処理の基礎．岡﨑直観, 荒瀬
由紀, 鈴⽊潤, 鶴岡慶雅, 宮尾祐介．オーム社． 2022． • ⾃然⾔語処理やTransformer，Attention，⾔語モデルについてもっと詳しく知りたい⼈向け - 深層学習（第２版，機械学習プロフェッショナルシリーズ）．岡⾕貴之．講談社．2022 • AttentionやTransformerの他，深層学習の技術全体を知りたい⼈向け - 第6回統計・機械学習若⼿シンポジウムチュートリアル講演 Vision and Languageと Transformers．品川政太朗． https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui- tong-ji-ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and- languagetotransformers • Transformerに関連する最近の技術動向．強化学習×⾔語⽣成モデルの解説も詳しい n 強化学習 - 強化学習の基礎と深層強化学習．今井翔太．https://t.co/cWVyBvvi0u • 東⼤の強化学習講義で今井が使った資料．強化学習と，特に深層強化学習を知りたい⼈向け - 強化学習（第２版）．R. Sutton, A. Barto. オーム社．2022 • 強化学習の世界で最も有名で内容が充実した教科書．先⽉，我々が翻訳した⽇本語訳版が出版されました． - 強化学習（機械学習プロフェッショナルシリーズ）．森村哲郎．講談社．2019． • 強化学習の和書の中では最も理論に詳しい教科書．⽅策勾配法関連の理論はこれで Shota Imai | The University of Tokyo 55

ChatGPT人間のフィードバックから強化学習した対話AI

ChatGPT 人間のフィードバックから強化学習した対話AI

今井翔太（えるエル）

More Decks by 今井翔太（えるエル）

Featured

Transcript

ChatGPT ⼈間のフィードバックから強化学習した対話AI 東京⼤学⼤学院⼯学系研究科技術経営戦略学専攻今井翔太 Email: [email protected] Twitter：今井翔太

もくじ n ChatGPT n GPTとその関連技術 n ChatGPTのコア技術InstructGPT n 参考資料 Shota

ChatGPT Shota Imai | The University of Tokyo 4

ChatGPT / みんなの反応 n 世界中のテクノロジー界隈の著名⼈が絶賛 n テクノロジーの歴史における稀に⾒る⾰命という認識も Shota Imai |

ChatGPTの出⼒⾊々 Shota Imai | The University of Tokyo 8

ChatGPTの技術 / 概要 n 基本的には，GPT-3に対して強化学習（RLHF; Reinforcement Learning from Human Feedback）を⾏なったInstructGPTをベースにしていると考えられる

ChatGPTのコア技術 / InstructGPT n ChatGPTのコアとなっている技術と考えられ，GPT-3に対して⼈間のフィードバックにもとづく強化学習（RLHF; Reinforcement Learning from Human

ChatGPTの技術 / ModerationAPI n GPTの出⼒に有害なコンテンツが含まれているかを評価し，アプリケーションにおける有害な動作を防ぐ n OpenAI APIのユーザも使⽤可能 n

GPTとその関連技術 Shota Imai | The University of Tokyo 14

GPTとは？ n GPTは「Generative Pre-trained Transformer」の略で，OpenAIが開発している Transformerベースの⼤規模な事前学習済み⾔語モデルを指す n 初代GPTからGPT-2，CPT-3までの研究論⽂が公開されており，WebGPTなどの亜種も存在 n

Transformer Attention Is All You Need n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮している深層学習のアーキテクチャであり，self-attentionがコア技術 n

GPT Improving Language Understanding by Generative Pre-Training n Transformerのデコーダをベースにラベルなしの事前学習を⾏い，タスクに応じた少数のラベル付きファインチューニングを⾏なって，さまざまなタスクで性能を評価した

GPT-2 Language Models are Unsupervised Multitask Learners n GPTのモデルはほとんど変更せず，パラメータ数が⼤きいモデルに⼤規模な事前学習のみを⾏なって，特定タスクにおけるラベル付きの学習は⾏わなずzero-shot,

GPT-3 Language Models are Few-Shot Learners n GPT-2のアーキテクチャはほぼそのままに，モデルのパラメータ数を175B（1750億）にした超⼤規模⾔語モデル n

CodeX, Copilot Evaluating Large Language Models Trained on Code n

ChatGPTのコア技術 InstructGPT Shota Imai | The University of Tokyo 25

ChatGPTに関連する⼿法・論⽂ n 基本的には，GPT-3をさらに⼈間の嗜好に合うように強化学習した InstructGPTをベースにしていると考えられる n 関連論⽂ - Learning to summarize

InstructGPTの性能 n GPT :1750億パラメータを持つ通常のGPT-3 n GPT-prompted：GPT-3に有益なプロンプトを与えたモデル n PPO-ptx：InstructGPT 横軸：モデルのパラメータ数縦軸：出⼒を175Bのモデルの出⼒と⽐較して，

InstructGPTの学習概要 n Step1 - プロンプトのデータを学習するモデルに出⼒させ，そのプロンプトに対する⼈間のlabelerの回答を元に教師あり学習 n Step2 -

Supervised Fine-Tuning (SFT) n プロンプトデータの⼊⼒に対する出⼒を，labelerによる回答をもとに教師あり学習 n 学習は16エポック n 学習率はcosine learning

補⾜ / PPO n 強化学習における⽅策勾配法の⼀つTRPOを，より実装を単純にし，強⼒にしたもの - TRPO（Trust Region Policy Optimization）：⽅策勾配において適切な勾配の更新幅を保証

プロンプトの例 Shota Imai | The University of Tokyo 39

InstructGPTの評価 n InstructGPTが「アライメント」により，⼈間にとって好ましい⾔語出⼒をできているか評価 n ベースライン - GPT-3：オリジナルのGPT-3のモデル - SFT：SGPT-3にFTのみを⾏い，強化学習をしていないモデル

メタデータによる評価 n 全体的な質，暴⼒的な内容，有害な指摘，偏った意⾒の表明，倫理に対する判定など，いくつかの項⽬を考慮して，モデルの出⼒の質を判定する Shota Imai | The University of

実験結果 / API distribution 各モデルのパラメータ数とWin rate n ベースモデル（175BのSFTモデル）の出⼒と，評価対象のモデルの出⼒を⽐較して，⼈間のlabelerが「好ましい」と判断した割合のWin rateが指標

実験結果 /public NLP datasets TruthfulQA dataset n TruthfulQA dataset：38のカテゴリにまたがる817の質問から構成され，確定した事実が存在するが，誤った信念や誤解によって誤答するようなデータセット

定性評価 1/2 n 強化学習中にほぼ登場しない⾔語に対しても⾼い性能を⽰す - 学習データの90%以上が英語であるにも関わらず，それ以外の⾔語（プログラミング⾔語含む）に関するタスクも明らかに質が向上している

定性評価 1/2 出⼒例「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」というフランス語のプロンプトに対するGPT-3とInstructGPTの出⼒プロンプト：Écrivez une courte histoire sur

定性評価 2/2 n いまだに簡単なミスはしてしまう - 誤った前提に基づく指⽰を与えると，その誤った内容をそのまま受け⼊れて出⼒してしまう - 簡単な質問に対して，無駄に⻑い回答を出

定性評価 2/2 出⼒例1 誤った前提に基づくプロンプトを与えた場合 Why is it important to eat

定性評価 2/2出⼒例2 答えが明らかな簡単な質問を与えた場合 What happens if you fire a cannonball

参考資料 1/2 n ChatGPTの技術 - ChatGPT: Optimizing Language Models for

参考資料 2/2 n ⾃然⾔語処理，Transformer - IT Text ⾃然⾔語処理の基礎．岡﨑直観, 荒瀬